Also available in English

Inf@Vis!

La revista digital de InfoVis.net

¿Visualización o Vocalización?
por Juan C. Dürsteler [mensaje nº 87]

La idea de que la interacción hombre máquina pasa por el reconocimiento de voz no goza de un consenso amplio y como en todas las cosas, probablemente sea cierto para unas aplicaciones y no tanto para otras.

En múltiples instituciones de investigación a escala mundial se están invirtiendo notables sumas de dinero para el desarrollo de la síntesis y reconocimiento de voz. En otro tiempo considerada como el futuro de la interacción con el ordenador, la promesa no se ha llegado a concretar y generalizar todavía, pese a los muchos años que se viene trabajando en ello. 

El teclado y el ratón siguen siendo nuestros ubicuos compañeros de trabajo, aunque el teclado no deja de ser un trasto engorroso que poca gente utiliza con eficacia. ¿Cuántos dedos usamos para escribir con él?.

Ben Shneiderman

Ben Shneiderman opina, en una entrevista concedida al Washington Post, que la imagen que vertía la película “2001 una odisea del espacio” con los astronautas hablando con la paranoica computadora HAL 9000 dista mucho de la realidad. 

Según estudios realizados en el Human Computer Interface Lab (HCIL) en la generación del habla el cerebro utiliza la memoria auditiva, que comparte espacio con la memoria a corto plazo y la memoria de trabajo. En otras palabras no es fácil trabajar concentrado en una tarea y hablar al mismo tiempo porque el habla utiliza importantes áreas de memoria a corto plazo que necesitamos para concentrarnos en la tarea que estamos haciendo.

Por este motivo, aunque es obvio que la voz encontrará un espacio en la interfaz entre el ser humano y la máquina, no parece que vaya a ser la vía preferente de interacción. 

Shneiderman considera que en la asimilación de información y en la interacción con los ordenadores regirá el mantra de la búsqueda de información: 

“visión de conjunto primero, filtra y amplifica, y entonces da detalles a discreción” (Overview first, zoom and filter, then details-on-demand)

y que ello estará soportado por sistemas de visualización avanzados. Este tipo de sistemas serían los únicos capaces de verter ingentes cantidades de información de forma fácilmente asimilable.

No obstante, el interesante artículo del Washington Post presenta una dicotomía - lo verbal versus lo visual – que probablemente sea excesivamente maniqueísta como demuestra el creciente interés por los sistemas de interacción multimodales, en los que juegan simultáneamente el tacto, la visión y la voz.

Empresas tan importantes como IBM o Microsoft están invirtiendo notables sumas de dinero en el estudio del reconocimiento y síntesis de voz computerizados, sin olvidar en el estudio de la visualización y de la interacción entre ambas interfases. 

Un interesante ejemplo se puede ver en el artículo de Emily Benedek en la revista Think Research  en el que se presentan sistemas experimentales capaces de presentar gran cantidad de información visual combinada con el seguimiento de la posición y gestos del usuario y del reconocimiento de su voz. El sistema puede identificar adonde apunta con el dedo el usuario y situar una imagen en la posición indicada cuando la persona dice “ponla aquí”.

El día en que nos despidamos, no sin cierta tristeza, del teclado y el ratón aún está lejos, pero hay decididos intentos de eliminar estos engorrosos compañeros de viaje a favor de formas más naturales de interactuar.

La realidad no suele ser blanca o negra, sino de algún matiz de gris. En este caso el gris, sin embargo, se presenta brillante.

Enlaces de este artículo:

http://www.infovis.net/printRec.php?rec=persona&lang=1#Shneiderman  
http://www.washingtonpost.com/wp-dyn/articles/A56499-2002May8.html  
http://www.cs.umd.edu/hcil/research/visualization.shtml  
http://domino.research.ibm.com/comm/wwwr_thinkresearch.nsf/pages/interface198.html  
© Copyright InfoVis.net 2000-2018