Una de las áreas importantes de desarrollo de la inteligencia artificial son las plataformas conversacionales generales conocidas también como asistentes digitales (ver artículo Asistentes virtuales, una tendencia que podría reemplazar a los smartphones), así como las plataformas conversacionales de uso específico que ya son una tendencia de negocios.
Acerca de esta poderosa tendencia conversé con el ingeniero en Cibernética Gustavo Dávila, quien, además de ser un empresario, socio de la empresa Novitech, se define como un apasionado de la Interacción Humano-Máquina. Las ideas y conceptos que siguen son producto de esa charla, la cual le agradezco enormemente a Gustavo.
Existe un salto en el reconocimiento de voz que a simple vista podemos percibir en los asistentes digitales presentes en nuestros smartphones, el cual se debe al aumento de la capacidad de cómputo y al desarrollo de las redes de los sistemas de deep learning o sistemas neuronales.
Cualquier asistente virtual tiene una capa de lenguaje basada en tecnología denominada natural languaje understanding (NLU) / Natural Language Processing (NLP), además debe tener un conocimiento de los contenidos de información porque tiene que proveer información o resolver problemas a los seres humanos, ese es el fundamento de la interfaz entre las máquinas y los seres humanos en lo que se refiere a reconocimiento de voz.
La comprensión de las voces de las personas ha sido el gran reto para que la inteligencia artificial esté en todos lados, pues ahora ya hay muchos sistemas que te ofrecen diferentes tipos de ella con diversas definiciones y componentes, sin embargo, al final el reto es comunicar a máquinas con humanos.
Para lograr salvar ese puente, los sistemas de reconocimiento de voz deben ser entrenados. Allí está una carencia de todas las plataformas conversaciones generales como Cortana, Siri, Google, lo cuales se usan “como están” de manera informal, ya que es una herramienta que hace la vida más fácil a sus usuarios.
Cuando un usuario le pide a su teléfono “márcale a Óscar” y si se equivoca y le marca a Omar, el dueño del teléfono lo intenta otra vez; eso ocurre porque no se ha entrenado al asistente en la voz, en la forma de expresión y en el acento del dueño del teléfono.
En cambio, cuando se construye un asistente virtual de uso específico (en lugar de los asistentes de propósito general, como los mencionados Siri, Cortana y Google) solicitado cada vez más por las empresas hoteleras, por ejemplo, una máquina podría contestar el teléfono y decir, con acento local, —“buenas tardes, en qué le puedo ayudar” y poder resolver cualquier pregunta parecida a —“Quiero reservar para Acapulco para marzo”, o —“Quiero un hotel para marzo en Acapulco”, o bien —“Quiero ir a Diamante en marzo”, y la capa de lenguaje del asistente virtual deberá de entender que todas esas expresiones corresponden a una misma necesidad, como hoy lo hace un ser humano.
En situaciones como la anterior, un asistente virtual específico no debe equivocarse porque podría dañar la experiencia del cliente y éste podría optar por otra cadena hotelera, esa es la importancia de la interfaz conversacional.
Si una empresa decidiera “enchufar” a Cortana, a Siri o a Google Assistant a sus sistemas y comenzaran a equivocarse en el entendimiento de la petición como ocurre día a día, la compañía podría perder clientes, porque no hay esa posibilidad de cometer errores cuando se atiende a clientes.
La diferencia fundamental entre una plataforma conversacional de uso específico y una general, es que la primera debe adaptarse y entrenarse en base a la interacción que tendrá con el cliente, en tanto que actualmente nosotros nos adaptamos a Siri o a Cortana porque le repetimos la instrucción de otra manera, o bien hablando lentamente porque sabes que así te va a entender, en otras palabras, te estás adaptando porque es coloquial, es casual y además es gratuito.
Las empresas que han intentado utilizar Cortana, Google o Siri en sus sistemas, deben resolver dos problemas, el idioma español y sus variantes, y después el uso de la API, de la conexión a su motor.
En el primer caso, el idioma tiene variantes de acento, pronunciación personal en las que debe ser entrenado el asistente. En el segundo las limitaciones de la API impiden que pueda entrenarse al asistente: no puedes enseñarle acentos, ni puedes contextualizarlo en los temas de negocio de la empresa.
Por lo anterior es indispensable considerar, para proyectos de asistentes virtuales de B2C (Business To Consumer), que la interfaz de lenguaje es la parte más importante para el éxito de dicho asistente, y deberá ser creada con una Plataforma Conversacional Cognitiva, capaz de ser entrenada en el contexto del negocio, los procesos a resolver, los modismos y acentos esperados por los clientes del negocio, las formas de expresión de las necesidades de dichos clientes, los diccionarios aplicables al contexto del negocio; todo ello para que no tenga problemas de entendimiento que fallen en la interacción con los clientes, representando una afectación negativa para el negocio.
Este reto del español está presente también en el uso de sistemas como Watson, la máquina de inteligencia artificial de IBM, que te resuelve problemas de salud, de leyes, pero que no entiende bien el idioma español.
Algunos proyectos requieren una interfaz del lenguaje natural que puede ser entrenada para contextualizarla en los temas de negocio con los que voy a interactuar, ya sean hoteles o bancos, para darle a Watson la información correcta de voz a texto y que entonces Watson pueda ofrecer la mejor respuesta o sugerencia al usuario, una vez que nos aseguramos que los datos de entrada fueron correctamente interpretados por la plataforma de lenguaje.
En este último caso, la valoración fonética de una palabra debe casar con el diccionario del negocio con el que alimentaste al sistema: el fonema “vaso” es diferente en un restaurante a “bazo” en la industria médica, en otras palabras, si alimentas con basura a un sistema te va a regresar basura.
A pesar de Gartner considere a las plataformas conversacionales cognitivas como una de las 10 tecnologías de tendencia para el 2018, mientras estas no tengan la aplicación correcta, la inteligencia artificial va a servir para comunicar sistemas con sistemas, pero no máquinas con humanos.
Estas plataformas de lenguaje cognitivas son, en sí mismo, una muy importante herramienta de entre toda la oferta de tecnología de IA que tendremos como artillería para agilizar y automatizar innumerables procesos en todas las industrias. Lo mejor está aún por venir.
Finalmente, debemos tener claro que la inteligencia artificial que se manifiesta en las plataformas conversacionales generales —como Siri o Cortana— es una muestra de la potencialidad de esta tecnología que es más evidente en los asistentes digitales que comienzan a ser utilizados cada vez más en mercados como la banca y turismo. Además, el incremento de su uso traerá retos como la sustitución de mano de obra humana, aunque de eso me ocuparé en otra entrega.