3.2. Las interfaces conversacionales
Las interfaces conversacionales son las interfaces primarias o complementarias a interfaces visuales, auditivas y táctiles que permiten la interacción de voz entre personas y dispositivos. Se caracterizan por un modelo de interacción por turnos.
Los dispositivos de comando de voz y las interfaces conversacionales (VUI) poseen micrófonos omnidireccionales para capturar las instrucciones de voz del usuario. A menudo, el mismo dispositivo incluye altavoces para cerrar el loop de interacción hombre-máquina.

Fuente: https://www.digitaltrends.com/home-theater/alexa-tivo-launch/.
Existen diversas herramientas de diseño para crear interfaces conversacionales:
- Diálogos de muestra: una herramienta sencilla y muy potente para determinar la experiencia de usuario y corregirla.
- Mockups visuales: en una aplicación VUI es importante que los wireframes se acompañen de diálogos de muestra para ayudar a visualizar la experiencia del usuario. Es por esto que los diseñadores de VUI y los diseñadores visuales deben trabajar en estrecha colaboración.
- Diagramas de flujo: especialmente útiles para ilustrar todos los caminos que se pueden tomar en un sistema VUI. En conversaciones cerradas este diagrama puede contener los detalles de todos los posibles caminos de la conversación. Sin embargo, en aquellas conversaciones más abiertas (por ejemplo, asistente virtual), el flujo de información se puede agrupar por tipos (por ejemplo, alarma, llamada, búsqueda, etc.).
Una vez el diseño ha sido esbozado, el diseñador debe asegurarse de que los usuarios se sientan comprendidos. Para ello se integran confirmaciones, las cuales también servirán para informar al usuario cuando no es entendido. Las confirmaciones pueden ser: explícitas, forzando al usuario a indicar que se ha emitido/recibido la información correctamente, o implícitas, dando a entender al usuario que se ha recibido la información y repitiéndola, pero sin solicitar aprobación.
¿Cuándo usar comando y control (por ejemplo, presionar un botón o usar una palabra clave) o un modo más conversacional?
Si la conversación es cerrada y su inicio y fin son explícitos, lo más adecuado será diseñarlo en modo conversacional. Si, por el contrario, el usuario puede acceder a la conversación en cualquier momento y esta es más abierta, deberemos marcar el inicio de la interacción usando una palabra clave (por ejemplo, Google Now, Amazon Alexa). En el caso de una conversación abierta, puede ser útil introducir marcadores conversacionales para indicar el cambio de turno:
- Temporales («Primero», «A mitad de camino» y «Finalmente»)
- Agradecimientos («Gracias», «Entendido», «Muy bien» y «Perdón por eso»)
- Comentarios positivos («Buen trabajo» y «Es bueno escuchar eso»)
Ejercicio
Explorad los usos más comunes para la interfaz de Amazon Alexa (https://en.wikipedia.org/wiki/Amazon_Alexa) y escribid un diálogo de muestra como ejemplo de ruta conversacional para cada uno de los siguientes casos:
- El sistema no escuchó al usuario.
- El sistema no reconoce lo que dice el usuario.
- El sistema malinterpretó al usuario.
Utilizad como referencia las secciones «Error Handling» y «Disambiguation» del capítulo 2 y el capítulo 4 del libro de Cathy Pearl, Designing Voice User Interfaces: Principles of Conversational Experiences.
Los usuarios expertos e inexpertos pueden necesitar usar caminos conversacionales distintos; conviene analizar las estrategias de interacción de cada categoría de usuario potencial y personalizar el flujo de interacción. Otro aspecto que enriquece notablemente la experiencia de usuario en una interacción conversacional es la provisión de contexto. Permitir al sistema recordar lo que los usuarios han dicho, ya sea en la misma conversación o en conversaciones anteriores, facilita predecir e interpretar las necesidades del usuario. En términos de accesibilidad, las interacciones deben ser eficientes en el tiempo, deben proporcionar contexto y deben priorizar la personalización sobre la personalidad. Por último, es importante que las interfaces conversacionales ofrezcan ayuda (por ejemplo, «Para obtener ayuda sobre lo que puede decir, eche un vistazo a la sección de cosas para probar en la aplicación Alexa») y otros comandos universales, tales como saludos y despedidas. En todas estas funciones, aplicar un modelo de comprensión del lenguaje natural convertirá la interfaz en un sistema más atractivo, fácil de usar y exitoso. Esta rama de la inteligencia artificial se ocupa de desarrollar métodos de software para manejar mejor las entradas de información no estructuradas que se rigen por reglas mal definidas y flexibles (por ejemplo, entradas de conversación libre por voz o texto) y convertirlas en una forma estructurada que una máquina pueda comprender. Por ejemplo, una herramienta que se puede usar en el contexto de NLU para que un VUI sea más inteligente y más empático es usar el análisis de sentimientos:
The process of computationally identifying and categorizing opinions expressed in a piece of text, especially in order to determine whether the writer’s attitude towards a particular topic, product, etc., is positive, negative, or neutral.
Ejercicio
Experimentad con el algoritmo de análisis de sentimientos que encontraréis en la página web https://www.paralleldots.com/sentiment-analysis.