| InfoVis.net>Revista>mensaje nº 104 | Publicado 2002-10-21 |
| Also available in English | |
La revista digital de InfoVis.net
La visualización de documentos es uno de los “temas estrella” de la Visualización de Información. No en vano Robert Spence le dedica un capítulo entero en su libro “Information Visualization”. En él Spence identifica los tipos de preguntas a las cuales el propietario o el usuario de una colección de documentos puede querer dar respuesta:
En definitiva, las preguntas giran en torno a dos conceptos:
La búsqueda de información en un conjunto de textos resulta, en muchas ocasiones, un proceso iterativo, en el que la respuesta a una pregunta produce una reformulación de la propia pregunta y por lo tanto de lo que realmente es relevante para el que busca. Así pues, incluso si los algoritmos actuales pudieran devolver solamente los documentos verdaderamente relevantes, resultaría necesario un mecanismo de refinamiento en el que la interacción y la visualización pueden jugar papeles decisivos. Spence refiere que hay estudios que indican que la probabilidad de que dos personas utilicen espontáneamente la misma palabra para el mismo concepto está entre el 7% y el 18% solamente. Un ejemplo de herramienta visual en este sentido es TileBar que traducimos libremente por “barra de mosaicos” Las barras de mosaicos fueron propuestas por Marti Hearst en 1995 con el objetivo de indicar simultáneamente y en forma compacta la longitud relativa de los documentos devueltos junto a la frecuencia, distribución y solapamiento de los términos usados en la interrogación (query) dentro de los propios documentos. Para entenderlo mejor supongamos que buscamos en una base de datos documental las palabras Visualización + Información. TileBar permite utilizar términos compuestos por más de una palabra, que operan como un solo término. Para simplificar el ejemplo, no obstante, usaremos términos simples. El resultado sería un conjunto de títulos de documentos devueltos por la base de datos junto con una serie de rectángulos cuya longitud es proporcional a la longitud relativa del documento que cada uno representa. El aspecto que ofrecería es similar al de la Fig. 1. Cada rectángulo es como una tabla con tantas filas como términos de búsqueda hemos introducido, en nuestro caso 2. Las columnas representan las secciones (capítulos, párrafos u otras subdivisiones) en que se divide el texto. Cada una de las celdas está pintada con un color cuya intensidad indica la frecuencia de aparición del término en esa sección del texto, cuanto más oscuro más veces aparece. Con este simple esquema podemos hacernos una idea bastante buena de la relevancia de un documento, de su longitud y de lo que podemos encontrar en él. En el ejemplo anterior podemos encontrar documentos en los que las “baldosas” coloreadas del mosaico sean pocas y en ninguna de las secciones coincidan ambas, lo que nos indica que probablemente el documento no es muy relevante. Aquellos documentos en los que ambos términos aparezcan con intensidades apreciables en la misma columna quizá son los más relevantes. Este esquema de visualización se está usando en algunas librerías digitales, como por ejemplo la librería de la Universidad de California en Berkeley, de acceso libre, cuyo objetivo es ayudar a encontrar documentos en una base de datos gubernamental sobre recursos hídricos. Con esta librería se puede jugar y decidir por uno mismo la utilidad de TileBars. Lo más interesante de Tilebars es que ejemplifica la diferencia con la recuperación de información, dominada por el concepto de relevancia. Aquí la serendipia tiene un hueco. No es necesario conocer la palabra clave correcta, se pueden dar muchos términos, acaso sinónimos y valorar visualmente el contenido de la búsqueda, de forma acaso cambiante, como el curso de nuestro pensamiento.
Enlaces de este artículo:
|
||||||||||||||||||||||||||||
|
Reserva tu ejemplar gratuito |