Also available in English

Inf@Vis!

La revista digital de InfoVis.net

Barras de Mosaicos
por Juan C. Dürsteler [mensaje nº 104]

Las barras de mosaico (TileBars) son una técnica de visualización de búsquedas en documentos que permiten hacerse una idea más clara de lo que nos devuelve un buscador, añadiendo la serendipia (descubrimiento accidental) al concepto de relevancia.
TileBarOsteo.jpg (119780 bytes)
Fig. 1 TileBar.  Vista del resultado de consultar una base de datos médica con tres términos: osteoporosis, prevention y research. Los documentos aparecen a la derecha, mientras que a la izquierda se alinean las barras de mosaicos.
Imagen tal como aparece en los ejemplos de la web de Marti Hearst
Se recomienda verla en tamaño ampliado  
Pulse sobre la imagen para agrandarla (118 KB).

La visualización de documentos es uno de los “temas estrella” de la Visualización de Información. No en vano Robert Spence le dedica un capítulo entero en su libro “Information Visualization”. En él Spence identifica los tipos de preguntas a las cuales el propietario o el usuario de una colección de documentos puede querer dar respuesta:

  • ¿Qué documentos me pueden interesar?

  • ¿Qué otros documentos pueden estar suficientemente cercanos a mi interés para que valga la pena considerarlos?

  • ¿Hay otros documentos cuyo título pueda desatar ideas útiles para mi? 

  • ¿Cómo están distribuidas mis palabras-clave en este documento?

En definitiva, las preguntas giran en torno a dos conceptos:

  • Relevancia (qué es directamente interesante para mí) 

  • Serendipia* (qué cosa que no buscaba puede interesarme). 

La búsqueda de información en un conjunto de textos resulta, en muchas ocasiones, un proceso iterativo, en el que la respuesta a una pregunta produce una reformulación de la propia pregunta y por lo tanto de lo que realmente es relevante para el que busca.

Así pues, incluso si los algoritmos actuales pudieran devolver solamente los documentos verdaderamente relevantes, resultaría necesario un mecanismo de refinamiento en el que la interacción y la visualización pueden jugar papeles decisivos. Spence refiere que hay estudios que indican que la probabilidad de que dos personas utilicen espontáneamente la misma palabra para el mismo concepto está entre el 7% y el 18% solamente.

Un ejemplo de herramienta visual en este sentido es TileBar que traducimos libremente por “barra de mosaicos”

Las barras de mosaicos fueron propuestas por Marti Hearst en 1995 con el objetivo de indicar simultáneamente y en forma compacta la longitud relativa de los documentos devueltos junto a la frecuencia, distribución y solapamiento de los términos usados en la interrogación (query) dentro de los propios documentos.

Para entenderlo mejor supongamos que buscamos en una base de datos documental las palabras Visualización + Información. TileBar permite utilizar términos compuestos por más de una palabra, que operan como un solo término. Para simplificar el ejemplo, no obstante, usaremos términos simples. El resultado sería un conjunto de títulos de documentos devueltos por la base de datos junto con una serie de rectángulos cuya longitud es proporcional a la longitud relativa del documento que cada uno representa. El aspecto que ofrecería es similar al de la Fig. 1.

Cada rectángulo es como una tabla con tantas filas como términos de búsqueda hemos introducido, en nuestro caso 2. Las columnas representan las secciones (capítulos, párrafos u otras subdivisiones) en que se divide el texto. Cada una de las celdas está pintada con un color cuya intensidad indica la frecuencia de aparición del término en esa sección del texto, cuanto más oscuro más veces aparece. 

TileBarDoc1.gif (3769 bytes) Barras de mosaicos de dos de entre los múltiples documentos que se obtienen en una "query" como la del ejemplo propuesto. 
La fila superior indica la frecuencia de la palabra "Information" en cada sección del documento. La inferior corresponde a Visualization. En el documento 1 no hay ninguna sección en la que se encuentren ambas palabras.
En el documento 2, de menor extensión que el 1, hay tres secciones en las que ambas palabras coinciden, lo que probablemente nos interese más.
Pulse sobre la imagen para agrandarla (36 KB)
TileBarDoc2.gif (3685 bytes)

Con este simple esquema podemos hacernos una idea bastante buena de la relevancia de un documento, de su longitud y de lo que podemos encontrar en él. En el ejemplo anterior podemos encontrar documentos en los que las “baldosas” coloreadas del mosaico sean pocas y en ninguna de las secciones coincidan ambas, lo que nos indica que probablemente el documento no es muy relevante. Aquellos documentos en los que ambos términos aparezcan con intensidades apreciables en la misma columna quizá son los más relevantes. 

Este esquema de visualización se está usando en algunas librerías digitales, como por ejemplo la librería de la Universidad de California en Berkeley, de acceso libre, cuyo objetivo es ayudar a encontrar documentos en una base de datos gubernamental sobre recursos hídricos. Con esta librería se puede jugar y decidir por uno mismo la utilidad de TileBars.

Lo más interesante de Tilebars es que ejemplifica la diferencia con la recuperación de información, dominada por el concepto de relevancia. Aquí la serendipia tiene un hueco. No es necesario conocer la palabra clave correcta, se pueden dar muchos términos, acaso sinónimos y valorar visualmente el contenido de la búsqueda, de forma acaso cambiante, como el curso de nuestro pensamiento. 


  • Relevancia: para ver la definición en el glosario pulse sobre el enlace anterior
  • Serendipia: para ver la definición en el glosario pulse sobre el enlace anterior

Enlaces de este artículo:

http://www.sims.berkeley.edu/~hearst/tb-example.html   Páginas de ejemplos en la web de Marti Hearst
http://www.sims.berkeley.edu/~hearst   Página personal de Marti Hearst
http://www.infovis.net/printRec.php?rec=llibre&lang=1#InformationVisualisation   Libro "Information Visualization", de Robert Spence
http://www.sims.berkeley.edu/~hearst/tb-overview.html   Resumen de lo que son los TileBars
http://elib.cs.berkeley.edu/tilebars/   Librería digital de la Universidad de California
http://www.infovis.net/printRec.php?rec=glosario&lang=1#Relevancia   Definición de Relevancia en el glosario
http://www.infovis.net/printRec.php?rec=glosario&lang=1#Serendipia   Definición de Serendipia en el glosario
© Copyright InfoVis.net 2000-2018