Also available in English

Inf@Vis!

La revista digital de InfoVis.net

Encontrando agujas en el pajar.
por Juan C. Dürsteler [mensaje nº 22]

Encontrar información relevante en el océano informacional de Internet quizá requiera aproximaciones completamente nuevas al problema.

La búsqueda de información en Internet es una tarea ardua, que requiere casi siempre de una notable intervención por parte del usuario. A pesar de que sistemas como Google a veces llegan a sorprenderme por la precisión de los resultados, normalmente hay que buscar entre un maremagnum de datos la información que nos interesa. Esto es especialmente cierto cuanto menos habitual o standard es la información que buscas.

Es imprescindible distinguir entre los sistemas de recuperación de datos y los de recuperación de información, con toda el espectro de casos intermedios.

Los sistemas mas predecibles y sencillos de usar son los de recuperación de datos. En ellos la tarea consiste en devolver los documentos de una colección que contienen ciertas palabras clave o cuyos campos satisfacen ciertas condiciones lógicas claramente definidas.

Es el caso de las bases de datos en una empresa donde, con un cierto conocimiento del lenguaje de interrogación y (obviamente) del negocio, se extraen los datos necesarios para el funcionamiento diario. Los sistemas de visualización típicos de estos casos son gráficos de barras, de pastel y demás gráficos de uso típico en las empresas.

En el otro extremo están los sistemas de recuperación de información, donde los datos pueden ser de carácter genérico, no necesariamente bien estructurados y semánticamente ambiguos.

Esta posible ambigüedad semántica está en el corazón del problema fundamental de estos sistemas: el de la relevancia. La relevancia separa lo que nos interesa de lo que no, y es diferente para cada usuario y hasta en cada momento. El objetivo de un sistema de recuperación de información es proporcionar todos los documentos relevantes para el usuario con el mínimo de documentos irrelevantes, es decir devolver la máxima señal con el mínimo ruido.

Pero para muestra un botón: el otro día, buscando información sobre el pionero de los Browsers, Mosaic, me encontré con una avalancha de información sobre cerámica, losetas vidriadas y hasta historia de la Roma antigua, pero francamente poco sobre el Mosaic que yo buscaba.

Resolver la ambigüedad semántica no es fácil y, hoy por hoy, requiere de una importante colaboración por nuestra parte. Los sistemas actuales están lejos de interpretar la semántica de lo que les pedimos de una forma sólida. Por otra parte, en muchos casos, sólo tenemos una vaga idea de cómo expresar lo que buscamos.

Por ello se está trabajando en la visualización de información y en la interfase de usuario mediante nuevos sistemas de interacción y presentación, con el objetivo de resaltar y separar la información relevante

A este respecto resulta muy interesante la lectura del libro Modern Information Retrieval. En particular el capítulo 10, que se refiere a estos temas, se puede consultar en línea.

Para encontrar mejor las agujas que buscamos todos en el pajar de Internet harán falta nuevos sistemas de recuperación de información acoplados con sistemas de visualización e interacción que permitan identificar visualmente la información de interés. En próximos artículos hablaremos sobre algunos de estos sistemas.

Enlaces de este artículo:

http://www.google.com  
http://www.infovis.net/printRec.php?rec=glosario&lang=1#Relevancia  
http://www.ncsa.uiuc.edu  
http://www.infovis.net/printRec.php?rec=llibre&lang=1#ModernInfoRet  
http://sunsite.dcc.uchile.cl/irbook/chapters/chap10.html  
© Copyright InfoVis.net 2000-2018