Also available in English

Inf@Vis!

La revista digital de InfoVis.net

Minería de Textos
por Juan C. Dürsteler [mensaje nº 27]

La Minería de Textos es una (otra) tecnología emergente cuyo objeto es la búsqueda de conocimiento en grandes colecciones de documentos no estructurados.

Aproximadamente un 80% de la información de las organizaciones está almacenada en forma textual no estructurada: informes, e-mail, actas de reuniones, etc. A diferencia de lo que comentábamos la semana pasada sobre la Web Semántica la minería de textos opera sobre bases de datos textuales no estructuradas con el objetivo de detectar patrones no triviales e incluso información sobre el conocimiento almacenado en las mismas.

La telaraña semántica pretende construir toda una estructura de metadatos, información sobre la estructura y significado de los datos almacenados, e incluirlos en los documentos de forma que sean navegables, identificables y "comprensibles" por las máquinas. Por otro lado, la minería de datos pretende extraer los metadatos a partir de información textual no necesariamente estructurada. En este sentido, la minería de datos puede servir de ayuda para crear la telaraña semántica.

Así, los sistemas de text mining permiten el análisis léxico de los textos y especialmente la construcción automática de estructuras de clasificación y categorización que se codifican en forma de tesauros. No en vano tesauro viene del griego thesaurós; tesoro.

La gracia del tesauro consiste en que cada uno de sus términos, al menos en principio, se utiliza para denotar un concepto, la unidad semántica básica que permite expresar una idea.

Los sistemas de minería de textos pueden ayudar en la categorización de la información existente en una organización, en el filtrado y enrutado de información por ejemplo de e-mail, en la detección de información similar o relacionada con otra existente o para eliminar información duplicada.

Algunas aplicaciones no son ya tan teóricas. Por ejemplo, parece ser que algunas empresas utilizan ya sistemas de minería de textos para identificar el contenido de los e-mails que les envían sus clientes y redirigirlos a los departamentos apropiados. En otros casos, si el sistema es capaz de identificar el contenido de una consulta frecuente en un e-mail, envía una respuesta estándar a la consulta, sin necesidad de intervención humana.

Donde quizá lleva más tiempo utilizándose esta tecnología es en la Vigilancia Tecnológica y en la "Business Intelligence" para bucear en las bases de datos textuales y seguir la evolución de la competencia.

Se apunta también la posibilidad de usar esta técnica en la investigación de mercados en la Web, a base de recoger estadísticas sobre la utilización de determinados conceptos y/o temas en la red con el objetivo de estimar la demografía y las curvas de demanda de productos asociados a los mismos.

No obstante, no he podido encontrar fuentes fiables que permitan evaluar hasta qué punto las anteriores aplicaciones son realmente eficientes o siquiera satisfactorias. Una interesante página al respecto es la de James Lawson que contiene información y enlaces sobre el tema junto con una serie de evaluaciones de sistemas comerciales como Cambio, de Data Junction) del que se puede obtener una demo, Semio Map de Semio Corporation entre otros

El Instituto de Sistemas Autónomos Inteligentes AiS reune información interesante y un activo grupo de investigación sobre el tema.

La minería de textos, aún en mantillas, es un ataque desde otro ángulo al problema común: encontrar la información relevante y sobrevivir a la infoxicación vigente. Aún es difícil saber por donde vendrá la solución definitiva. Probablemente será producto de un tratamiento multidisciplinar.

Enlaces de este artículo:

http://www.infovis.net/printMag.php?num=26&lang=1  
http://allen.comm.virginia.edu/jtl5t/index.htm  
http://www.datajunction.com/  
http://www.semio.com  
http://set.gmd.de/KD/textmining.html  
© Copyright InfoVis.net 2000-2018