User research para interfaces de voz

Share on facebook
Share on twitter
Share on linkedin

La voz es nuestra herramienta natural de comunicación.
Es el primer canal  que hemos tenido como seres humanos y nuestra forma “nativa” para comunicarnos, a diferencia de las herramientas visuales.
La evolución tecnológica ha ido enriqueciendo el panorama de nuestras interacciones más allá de la textual y gráfica y la presencia de las interfaces de voz cada vez es más habitual en nuestra vida diaria. Todos los teléfonos que usamos tienen un asistente virtual, cada vez más hogares cuentan con un Echo y nadie piensa ya en un nombre de mujer cuando escucha “Alexa”.

A pesar de que las interfaces de voz no son nuevas en el sector (Nielsen Norman las calificaba ya en 2017 como el futuro de la interacción), este accidentado año 2020 iba a ser su puesta de largo en el mercado. Desde luego, la adopción de esta tecnología y su número de usuarios cada vez más creciente hacen que sea más que  interesante tenerla en cuenta.

Con esta información, queda claro por qué debemos testar las interfaces de voz, pero la pregunta es ¿cómo hacerlo?

Antes de nada, es importante entender los niveles de interacción por voz y elegir cuál queremos. Podemos optar por:

Voice- early: la interacción es 100% por voz. Tanto la interacción como el output del dispositivo se realizan mediante la voz. Este tipo de dispositivos son menos frecuentes.

Voice first: estos dispositivos tienen parte del output de forma visual (por ejemplo, Amazon Echo o Amazon Show) y una parte de la interacción (bien en la selección o en la respuesta) es táctil.

Ventajas y consecuencias de la voz

La clave de cualquier diseño es que el usuario sepa exactamente qué debe esperar de la interfaz con la que está interactuando. En voz es imprescindible dejarle claro al usuario al inicio qué es lo que puede esperar de esa herramienta. Por eso, las interfaces de voz suelen presentarse e indicar cuál es su función (de una forma sencilla y clara) siempre que se las invoca. Por otro lado, también tienen “vocación  de servicio” y están pensadas para ayudar al usuario en necesidades concretas. Por eso, las preguntas como “¿En qué te puedo ayudar”, ¿qué puedo hacer por ti” son tan frecuentes en las interfaces de voz. El objetivo de estas preguntas es identificar el problema del usuario y llevarle por el flujo de conversación más adecuado a su necesidad.

Si estás pensando en iniciarte en un proyecto con esta tecnología es importante que conozcas sus ventajas y sus posibles inconvenientes.

La voz presenta numerosas ventajas en determinados contextos frente a las interfaces en pantalla. Algunas de ellas son:

  • Si la tecnología y el flujo de interacción están trabajados adecuadamente, la relación con la interfaz resulta más natural y más cercana a la conversación entre individuos. Esto facilita la comunicación y, sobre todo, hace que la interacción sea más sencilla y rápida.
  • Mayor accesibilidad: para personas con visión limitada o incluso con discapacidad visual, la voz lleva décadas siendo un gran aliado, que les permite utilizar dispositivos móviles, ordenadores o incluso “leer” a través de audiolibros. Hasta el diseño de herramientas voice-first, esta tecnología estaba en parte limitada por ciertos pasos de interacción con las pantallas, que con la voice-first ya no son necesarios. Si quieres conocer más sobre las posibilidades de esta tecnología para personas invidentes, lee el artículo “Voice guidance in Maps, built for people with impaired vision” de Google.
  • Rapidez: gracias a la tecnología IoT, la voz permite controlar de forma rápida acciones cotidianas como encender la tele, la luz o poner música mientras te duchas. Esto permite que hacer varias tareas a la vez sea sencillo y muy rápido. Además, queda genial si tienes visitas 😉 (efecto wow).

 

Sin embargo, esta tecnología también presenta algunos inconvenientes o limitaciones a considerar, como:

  • La tecnología aún está poco madura y por ello no permite abarcar todos los casos de uso que podrían darse en una conversación real. 
  • La memoria de las personas es cada vez más limitada. Por eso, en una conversación tendemos a prestar más atención a la información que se nos presenta en primer lugar e ir perdiendo el foco a medida que avanza lo que nos están contando. Existen técnicas para evitarlo como hacer preguntas para comprobar que se ha entendido, dar distintas opciones de selección en lugar de contar todo en un primer momento, etc. Sin embargo, para presentar información muy variada o compleja es interesante usar una inferfaz gráfica ya que permite un escaneo más rápido de la información. 
  •  Hay cosas que sencillamente es más fácil comunicar de forma gráfica o por escrito, como mapas, planos, gráficos o textos complejos, etc. Es necesario adaptar las necesidades al contexto y no llevar todo a la voz solo porque sea tendencia.

Técnicas de research para interfaces de voz

Como en cualquier otro proyecto, el primer paso de la investigación sería comprobar si el proyecto es adecuado para realizar con voz y validar con qué tipo de interacción conseguiremos un caso de uso óptimo. 

Está claro que la voz es tendencia, pero hay que tener siempre en cuenta que hay proyectos que funcionarán mejor con voice first, voice early y otros que funcionarán mucho mejor con interfaces gráficas o mixtas. Recuerda que el objetivo es siempre conseguir la herramienta más útil e intuitiva para el usuario. Si te estás planteando un proyecto de voz, comprobar la viabilidad es un paso tan esencial como en cualquier otro proyecto.

Una vez que hemos definido la viabilidad de la voz en el proyecto, ¿qué sería lo siguiente?

Elegir las técnicas de investigación que mejor encajen con el momento en el que se encuentra nuestro proyecto.

En las fases previas

Antes de empezar a plantear nuestra interfaz de voz,  podemos querer explorar cómo se relacionan los usuarios con las interfaces de voz ya existentes.

En este caso es esencial realizar estudios de investigación contextuales o etnográficos, en los que se observa la interacción del usuario con la tecnología en su entorno habitual para detectar de forma orgánica cualquier barrera que pueda surgir en la interacción. Cuando los usuarios no tienen mucha experiencia en el uso de una tecnología concreta, como sucede en el caso de la voz, en ocasiones las preguntas directas o las entrevistas pueden no ser tan eficaces como la observación directa para llegar a entender cómo se enfrentan a la tecnología y si tiene sentido utilizar la voz en el proyecto.

Durante el proceso de diseño

Según Helen Zipora, una de las mayores expertas en voice en España “hay que empezar hablando, no pintando”. Antes de diseñar todos los flujos de conversación y de probar con la tecnología es importante hablar con los usuarios y comprobar si nuestros guiones iniciales tienen sentido y validar los casos de uso.

 

Una de las técnicas más usadas en research de voz es el mago de oz. Se trata de una técnica de investigación en la cual un usuario interactúa (sin saberlo) con una persona que actúa como si fuera la tecnología de voz, siguiendo un guión previsto. Esta técnica se realiza antes de invertir el tiempo en crear un prototipo, ya que es más rápido mantener una conversación y cambiar el guión en función de cómo fluya que probar distintos flujos ya implementados. 

Como en los proyectos gráficos, las interfaces permiten que los usuarios puedan tomar caminos distintos dentro de la misma web o aplicación. En la voz sucede de la misma forma. Por eso es importante definir bien los flujos de conversación que pueden presentarse teniendo en cuenta el tipo de usuarios que van a acceder a la interfaz.

El role play también es una técnica muy frecuente para encontrar la forma de conversación más natural. Es similar al mago de oz ya que una persona del equipo actúa como si fuera la tecnología de voz y mantiene una conversación con el usuario. Es muy interesante para detectar fallos en el discurso o  mejorar los flujos de conversación. La técnica resulta útil para identificar de forma ágil puntos de fricción antes de la fase de prototipado.

Estas técnicas se pueden aplicar en todas las fases del proceso de diseño, utilizando estímulos cada vez más complejos y completos, desde un simple guion hasta una interfaz de voz ya completamente funcional.

Durante el proceso de diseño

Una vez que nuestra interfaz de voz ya sea accesible a nuestro público, podemos realizar un seguimiento de la experiencia de los usuarios a través de distintos métodos. Por un lado, podemos recopilar cuantitativos datos de uso real que nos permitan analizar al detalle las conversaciones de los usuarios.

Por otro lado, también podemos llevar a cabo estudios de corte más cualitativo, como los Diarios de usuario. Los diarios permiten obtener información sobre la interacción del usuario y el producto de forma prolongada en el tiempo. De esta forma, se consigue una percepción cercana al uso que le daría el usuario en la vida real. Esto podría servir para validar si una propuesta de interacción por voz es útil y cuáles son las barreras o problemas que se encuentran a lo largo del tiempo.


Si te quedas con ganas de más y quieres saber cómo trabajar las interfaces de voz usando tu experiencia con interfaces gráficas, te recomiendo la presentación de Esther Checa “Cómo trabajar la intención de búsqueda para la experiencia de voz” en la que lo explora en profundidad.

Conclusiones

Las interfaces de voz vienen para quedarse y están empezando a pisar fuerte y tener mayor adopción en el mercado. Es el momento perfecto para empezar a trabajarlas, siempre teniendo en cuenta en qué proyectos pueden brillar y cuáles son sus limitaciones. 

Foto de portada: Luis Cortés desde Unsplash