Also available in English

Inf@Vis!

La revista digital de InfoVis.net

TextArc, visualizando textos
por Juan C. Dürsteler [mensaje nº 103]

La visualización de la estructura textual de un documento resulta de gran ayuda en su análisis y complementa técnicas como la lingüística computacional, al utilizar la capacidad de detección de patrones del cerebro humano.
TextArc.gif (69916 bytes)
TextArc   Vista del texto de Alicia en el país de las maravillas. Se aprecian la doble espiral que contiene el texto integro del libro. Dentro se hallan las palabras más frecuentes, situadas en el "centro de gravedad" de sus posiciones en el texto.
Imagen cortesía de Digital Image Design Inc.
Se recomienda verla en tamaño ampliado  
Pulse sobre la imagen para agrandarla (68 KB).

La lectura de un libro es un proceso estimulante, pero lento. Tener que analizar muchos de ellos no es tarea fácil. Los motores de búsqueda nos permiten hoy en día buscar el libro adecuado o una parte del mismo, pero no nos ayudan a entenderlo ni nos dan la posibilidad de descubrir patrones o conceptos en un texto arbitrario.

TextArc es una herramienta experimental, que permite visualizar textos de forma alternativa. Diseñado por W. Bradford Paley, de Digital Image Design Incorporated con la idea de permitir al usuario “obtener una visión de conjunto acerca de un cuerpo de textos sin formato de tamaño medio, por ejemplo, la cantidad que uno recibe en un solo día” de ficheros ASCII como e-mails, news, etc.

Durante muchos años se han utilizado índices, resúmenes, concordancias, léxicos y otros tipos de listas estructuradas. La lingüística computacional ha producido múltiples e interesantes técnicas capaces de producir automáticamente resúmenes, abstracts e identificar ideas y párrafos clave en un texto. 

También se ha hecho uso de técnicas gráficas para mostrar la dominancia de ciertas palabras en grandes colecciones de documentos. Como ejemplos tenemos los treemaps o los mapas de Kohonen de los que ya hablamos en los números 39 y 51. Hemos visto ya técnicas que combinan el foco y el contexto en una misma vista (números 3 y 85)

A diferencia de otras aproximaciones, TextArc tiene en cuenta el orden lineal que todos los textos poseen. Para ello muestra el texto en la pantalla en forma íntegra, como dos espirales concéntricas compuestas de muchas líneas escritas con una fuente de 1 píxel de alto. 

Cada línea corresponde a su homologa en el texto, incluyendo todas sus palabras. El espaciado, los capítulos, secciones, tipografía, la distribución de las poesías y todas las características “geométricas” del texto se preservan de forma que se convierten en puntos de referencia que ayudan al usuario a identificar secciones particulares del texto.

La espiral ocupa la periferia de la representación, dejando el centro para las palabras usadas más frecuentemente (véanse los dibujos adjuntos). De esta forma, las palabras que aparecen más de una vez se dibujan dentro de la espiral, en su posición media, en el “centro de gravedad” de los distintos lugares que ocupa en el texto. 

Por ejemplo, una palabra que aparece más veces en la parte derecha de la espiral que en la izquierda se hallará más cercana a ese lado. Seleccionando una palabra con el mouse podemos ver un conjunto de rectas que la enlazan con sus posiciones en el texto. Apuntando a una línea del texto, éste muestra su contenido y se pueden ver iluminadas todas las líneas de la espiral exterior donde aparece.

TextArcRabbit.gif (94921 bytes) TextArcConcor.gif (85855 bytes)
Enlaces de una palabra. La palabra seleccionada "Rabbit" muestra su distribución mediante líneas que la unen a sus ocurrencias en el texto dispuesto en forma de espiral y en el extracto del texto superpuesto a la imagen. En verde se ven las líneas donde aparece.
Imagen cortesía de Digital Image Design Inc..
Se recomienda verla en tamaño ampliado  
Pulse sobre la imagen para agrandarla (93 KB)
Concordancias.   Las concordancias muestran cuántas veces se usa una palabra. Se puede construir un tesauro donde consultar las palabras y sus frecuencias. En la imagen las palabras concordantes se dibujan en rojo. 
Imagen cortesía de Digital Image Design Inc.
Se recomienda verla en tamaño ampliado  
Pulse sobre la imagen para agrandarla (84 KB)

Las palabras se vuelven mas gruesas y más brillantes cuanto mayor es su frecuencia. En la versión para impresora, el tamaño de los tipos codifica también la frecuencia. Hay muchas más posibilidades en este software que merecen un espacio del que no disponemos aquí. Por ello vale la pena jugar con él, utilizando cualquier texto de los disponibles en el proyecto Gutenberg.

De especial interés es el “front end” que permite realizar búsquedas de textos en la base de datos de dicho proyecto. Una vez seleccionado el texto de nuestro interés, no se olviden de arrastrarlo y dejarlo caer en la caja apropiada para verlo en modo TextArc.

Después de haber jugado durante cierto tiempo con esta elegante herramienta con diversos textos del proyecto Gutenberg se me aparecen algunas sensaciones: TextArc proporciona una forma inusual de aproximarnos a un texto. Puedes localizar las palabras más relevantes, buscar asociaciones entre términos, y hacer listas de las palabras mas frecuentes en un instante. Ver qué personajes aparecen más en una novela y en que parte del texto lo hacen es sencillo y muy intuitivo.

Puedes ver, por ejemplo que en un libro la palabra más utilizada aparece sólo en tres capítulos, mientras que en otro está distribuida más o menos regularmente por el texto. Cargar un texto grande lleva un cierto tiempo, empero. Un precio que vale la pena pagar para acceder al mismo en “modo de acceso aleatorio” que te permite analizar visual y efectivamente el documento

No estoy seguro de si esta herramienta es la apropiada para indexar la información del escritorio de todo el mundo. El usuario final nos lo dirá una vez esté en el mercado. En cualquier caso, su elegante metáfora del reloj y la facilidad de encontrar patrones en documentos de texto la convierte en un excelente ejemplo de Visualización de Información.


Véase también el número 25 que cubre la visualización de software. Hasta cierto punto TextArc comparte características comunes con SeeSoft, una herramienta de visualización de software.

Enlaces de este artículo:

http://www.textarc.org/Stills.html   Galeria de imágenes de Digital Image Design Inc.
http://www.textarc.org   El sitio web de TextArc
http://www.didi.com   Digital Image Design Incorporated
http://www.infovis.net/printMag.php?num=39&lang=1   Número 39 Mapas de Kohonen
http://www.infovis.net/printMag.php?num=51&lang=1   Número 51 Treemaps
http://www.infovis.net/printMag.php?num=3&lang=1   Número 3 Displays bifocales
http://www.infovis.net/printMag.php?num=85&lang=1   Número 85 Foco y Contexto
http://www.textarc.org/Thousands.html   Visualización TextArc con textos del proyecto Gutenberg
http://www.infovis.net/printMag.php?num=25&lang=1   Número 25 Visualización de Software
© Copyright InfoVis.net 2000-2018