Also available in English

Inf@Vis!

La revista digital de InfoVis.net

Visualización del Contenido de la Web
por Juan C. Dürsteler [mensaje nº 175]

La visualización del contenido de la web es posiblemente la más compleja de las partes de la visualización de la minería de la web. No sólo por lo vasto y diverso de los contenidos en la web, sino también por la complejidad de su semántica. En este artículo intentamos arañar la superficie de este problema exponiendo algunas de las técnicas de búsqueda y visualización del contenido.

En el número 172 hablábamos sobre los tres paradigmas que soportan la minería web: Estructura, Utilización y Contenido. Hoy nos centramos en la visualización del contenido existente en la web.

La "telaraña mundial", la web para abreviar, es probablemente el más amplio repositorio de información existente hoy en día. Su engañosa facilidad de acceso a través de cualquier navegador esconde la dificultad intrínseca de encontrar lo que queremos.

El problema genérico de la minería de contenidos en cuanto a la visualización es cómo representar la vasta cantidad de información de forma que se haga inmediatamente comprensible aquello que es relevante para nosotros, la mayoría de los cuales no tenemos una formación visual ni mucho menos informática.

En nuestra ayuda acuden dos hechos bien conocidos:

  • la gran amplitud de banda del sistema visual humano que permite el reconocimiento de grandes cantidades de información en pocos segundos. 

  • es posible representar datos de forma que encajen de forma natural con nuestra habilidades perceptivas, un  hecho íntimamente relacionado con el anterior.

Por ejemplo, el complejo reconocimiento de una cara es virtualmente instantáneo para un ser humano, nos cuesta tan sólo unos segundos orientarnos efectivamente en un complejo mapa que puedo contener cientos de miles de referencias.

La clave consiste en realizar una conversión que transforme el espacio de información en una representación de tal espacio que pueda ser percibido (deseablemente en forma óptima) por el usuario. Esto, que en inglés se denomina "rendering", nosotros lo llamaremos "trazado".

Nos interesa especialmente el trazado visual, el que usa el canal visual para mostrar la información. Siguiendo a Kimani, Catarci y Cruz (capítulo 5 de Visualizing the Semantic Web*) el trazado visual tiene tres componentes destacados:

  • Codificación visual.   Es el conjunto de técnicas que permiten representar los datos en una pantalla o un papel. Comprende el uso de formas, áreas, colores, y demás variables visuales que permiten asociar variables de datos a variables gráficas. 

    Más allá de estas variables elementales, se suelen usar estructuras visuales compuestas tales como grafos y redes que representan la estructura conectiva de los datos de forma más o menos directa. La codificación visual pura sin una metáfora visual que la soporte no es muy habitual. Como ejemplo dos muestras de codificación visual sobre una mapa 3d de la Tierra, en la que las rutas que siguen los paquetes se han representado mediante líneas, textos y colores.

    geoboy2.gif (97826 bytes) XtraceRoute.jpg (59971 bytes)
    Geoboy: Representación de las rutas que siguen los paquetes de datos.
    Fuente: Imagen tal como se puede ver en la web del Atlas de Cibergeografía.
    Pulse sobre la imagen para agrandarla
    XtraceRoute: Otro ejemplo de codificación visual de las rutas de paquetes en Internet.
    Fuente
    : Imagen tal como se puede ver en la web del Atlas de Cibergeografía.
    Pulse sobre la imagen para agrandarla

     

  • Metáfora visual.  Ya vimos en el artículo número 91  cómo las metaforas visuales permiten representar un sistema desconocido utilizando una correspondencia con otro ya conocido por el usuario. Ejemplos de metáforas visuales los hemos visto en el número 168 sobre la metáfora del paisaje, que utiliza la estructura familiar de un mapa de terreno para codificar la distribución de documentos u otros elementos de un repositorio facilitando su búsqueda. No menos interesantes son las metáforas de la Galaxia documental (Galaxies) del Pacific Northwest Lab o Web Forager y Web Book, que ya vimos en el número 154 
    galaxy.gif (96777 bytes)
    Galaxies: Visualización de más de medio millón de abstracts en la literatura sobre el cáncer.
    Fuente: Imagen tal como se puede ver en la web del Pacific Northwest National Laboratory.
    Pulse sobre la imagen para agrandarla


  • Técnicas conceptuales.  Nos referimos aquí a la cúspide de la pirámide en lo que a elaboración de la visualización se refiere. Todas las técnicas conceptuales apuntan de una u otra forma al descubrimiento de la semántica que subyace a los datos, para trasladarlo entonces a una metáfora visual o a una codificación visual.  Existen diversas técnicas que no enumeraremos exhaustivamente aquí por mor de la brevedad. Nos quedaremos, empero con las más importantes:

    • Agrupación o clustering. Ataca el problema de la clasificación y/o agrupamiento automático de los contenidos en función de lo similares que éstos sean. La idea es agrupar los objetos de forma que revelen la estructura del conjunto, por un lado, y clasifiquen sin ambiguedades sus elementos, por otro. Por ejemplo en una base de datos bibliográfica, agruparemos en un mismo grupo (también llamado cluster)  los documentos en los que coincidan mayor número de palabras clave.

      Típicamente se utilizan algoritmos matemáticos que representan los documentos como vectores cuya dimensión es igual al tamaño del vocabulario empleado. Cada documento tiene un "punto" asociado a su vector en este espacio multidimensional. Podemos entonces definir una distancia entre dos vectores, que será tanto menor cuanto más similares sean ambos documentos. 

      Uno de los problemas fundamentales de estas técnicas es que su visualización en un espacio bi o tridimensional requiere de técnicas sofisticadas de reducción de la dimensionalidad como son la descomposición en valores / vectores propios (eigenvalue / eigenvector value decomposition) o el análisis de componentes principales. (véase por ejemplo la página web de Statsoft para una introducción)

    • Mapas conceptuales, de los que hablamos en el número 141, se usan para estructurar la información y encontrar relaciones entre conceptos de un determinado dominio de conocimiento. Un ejemplo de la generalización de los mapas conceptuales a la web es WebMap
    • Análisis de la Latencia Semántica: A la hora de analizar textos, se presenta el problema de los sinónimos, palabras distintas que significan lo mismo, y de la polisemia, palabras únicas con distintos significados según el contexto. Esta técnica utiliza un algoritmo denominado descomposición en valores singulares que permite expresar los términos "latentes" que se expresan mediante distintas palabras. Con estas técnicas es posible encontrar textos en los que no aparece explícitamente ninguna de las palabras clave solicitadas, pero que son relevantes semánticamente para la búsqueda propuesta.

Estas tres categorías no son disjuntas. En muchos casos una técnica conceptual sirve de base para una metáfora visual que, al final, se sirve de una codificación visual para expresarse. La cantidad de técnicas para encontrar el sentido en los contenidos de la web crece sin cesar. 

Cada año se añaden nuevas metáforas y diferentes codificaciones visuales. Muchas de las que fueron novedades prometedoras han quedado abandonadas aunque no olvidadas. Algunas se utilizan todavía en círculos más o menos restringidos. Pero todavía no se ha encontrado la aplicación definitiva en este campo, que nos permita bucear de una manera fácil e intuitiva en el vasto océano de la web.


* Geroimenko, V y Chen, C. (eds.) Visualizing the Semantic Web, XML-based Internet and Information Visualization. 2nd edition, Springer, 2003

Enlaces de este artículo:

http://www.infovis.net/printMag.php?num=172&lang=1   Num 172 sobre Mineria Web
http://www.infovis.net/printMag.php?num=173&lang=1   Num 173 sobre Visualización de la Estructura de la Web
http://www.infovis.net/printMag.php?num=174&lang=1   Num 174 sobre Análisis de Logfiles
http://www.cybergeography.org/atlas/routes.html   Página sobre traceroutes en Atlas del Ciberespacio.
http://www.infovis.net/printMag.php?num=91&lang=1   Num 91 sobre Metáforas Visuales
http://www.infovis.net/printMag.php?num=168&lang=1   Num 168 sobre La Metáfora del Paisaje
http://www.infovis.net/printMag.php?num=154&lang=1   Num 154 sobre Web Forager
http://www.pnl.gov/infoviz/technologies.html   Página sobre tecnologías (Galaxies) del PNNL
http://www.statsoft.com/textbook/stfacan.html   Página sobre reducción de dimensionalidad en Statsoft
http://www.infovis.net/printMag.php?num=141&lang=1   Num 141 sobre Mapas Conceptuales
http://ksi.cpsc.ucalgary.ca/articles/WWW/WWW4WM/   WebMap
© Copyright InfoVis.net 2000-2018