3. Repte. Disseny d’una interfície gestual o conversacional

3.2. Les interfícies conversacionals

Els dispositius de reconeixement de veu i les interfícies conversacionals (VUI) posseeixen micròfons omnidireccionals per a capturar les instruccions de veu de l’usuari. Sovint, el mateix dispositiu inclou altaveus per tancar el loop d’interacció home-màquina.

Figura 15. L’usuari interactua amb un VUI (Echo, d’Amazon) i demana «ometre un comercial»
Font: https://www.digitaltrends.com/home-theater/alexa-tivo-launch/.

Hi ha diverses eines de disseny per a crear interfícies conversacionals:

  • Diàlegs de mostra: una eina senzilla i molt potent per a determinar l’experiència d’usuari i corregir-la.
  • Mockups visuals: en una aplicació VUI és important que els wireframes constin de diàlegs de mostra per a ajudar a visualitzar l’experiència de l’usuari. És per això que els dissenyadors de VUI i els dissenyadors visuals han de treballar en estreta col·laboració.
  • Diagrames de flux: especialment útils per a il·lustrar tots els camins que es poden prendre en un sistema VUI. En converses tancades, aquest diagrama pot contenir els detalls de tots els possibles camins de la conversa. No obstant això, en aquelles converses més obertes (per exemple, assistent virtual), el flux d’informació es pot agrupar per tipus (per exemple, alarma, trucada, cerca, etc.).

Una vegada el disseny ha estat esbossat, el dissenyador s’ha d’assegurar que els usuaris se sentin compresos. Per a això s’integren confirmacions, les quals també serviran per a informar l’usuari quan no és entès. Les confirmacions poden ser explícites, forçant l’usuari a indicar que s’ha emès / rebut la informació correctament, o implícites, donant a entendre a l’usuari que s’ha rebut la informació i repetint-la, però sense sol·licitar aprovació.

Quan cal usar una odre i control (per exemple, pressionar un botó o usar una paraula clau) o un mode més conversacional?

Si la conversa és tancada i el seu inici i fi són explícits, el més adequat serà dissenyar-la en mode conversacional. Si, per contra, l’usuari pot accedir a la conversa en qualsevol moment i aquesta és més oberta, haurem de marcar l’inici de la interacció usant una paraula clau (per exemple, Google Now, Amazon Alexa). En el cas d’una conversa oberta, pot ser útil introduir marcadors conversacionals per a indicar el canvi de torn:

  • Temporals («Primer», «A mig camí» i «Finalment»)
  • Agraïments («Gràcies», «Entès», «Molt bé» i «Perdó per això»)
  • Comentaris positius («Bon treball» i «És bo escoltar això»)

Els usuaris experts i inexperts poden necessitar usar camins conversacionals diferents. Convé analitzar les estratègies d’interacció de cada categoria d’usuari potencial i personalitzar el flux de la interacció. Un altre aspecte que enriqueix notablement l’experiència d’usuari en una interacció conversacional és la provisió de context. Permetre al sistema recordar el que els usuaris han dit, sigui en la mateixa conversa o en converses anteriors, facilita predir i interpretar les necessitats de l’usuari. En termes d’accessibilitat, les interaccions han de ser eficients en el temps, han de proporcionar context i han de prioritzar la personalització sobre la personalitat. Finalment, és important que les interfícies conversacionals ofereixin ajuda (per exemple, «Per a obtenir ajuda sobre el que pot dir, faci un cop d’ull a la secció de coses per a provar-les en l’aplicació Alexa») i altres ordres universals, com ara salutacions i comiats. En totes aquestes funcions, aplicar un model de comprensió del llenguatge natural convertirà la interfície en un sistema més atractiu, fàcil d’usar i reeixit. Aquesta branca de la intel·ligència artificial s’ocupa de desenvolupar mètodes de programari per a manejar millor les entrades d’informació no estructurades que es regeixen per regles mal definides i flexibles (per exemple, entrades de conversa lliure per veu o text) i convertir-les en una forma estructurada que una màquina pugui comprendre. Per exemple, una eina que es pot usar en el context d’NLU, perquè un VUI sigui més intel·ligent i més empàtic, és usar l’anàlisi de sentiments:

The process of computationally identifying and categorizing opinions expressed in a piece of text, especially in order to determine whether the writer’s attitude towards a particular topic, product, etc., is positive, negative, or neutral.

Google