Also available in English

Inf@Vis!

La revista digital de InfoVis.net

Descubriendo el Conocimiento
por Juan C. Dürsteler [mensaje nº 105]

La Minería de Datos (Data Mining) es un término del que se hablado bastante en los últimos años. Sin embargo es sólo una parte de algo mucho más interesante: el Descubrimiento de Conocimientos o Knowledge Discovery. 

La necesidad de extraer conocimiento en forma automática a partir de grandes bases de datos se está volviendo cada vez más acuciante, dado el volumen de datos que se acumula continuamente cuyo tratamiento consume cada vez más recursos.

La minería de datos es una de las respuestas a este problema. Usama Fayyad en el artículo (disponible en formato PDF ) “From Data Mining to Knowledge Discovery in Databases”  define el descubrimiento de conocimientos (o KDD, Knowledge Discovery in Databases) y la minería de datos como

  • KDD: “el proceso de descubrir conocimiento útil dentro de los datos” 

  • Minería de datos: “La aplicación de algoritmos específicos para extraer patrones de los datos”.

Fayyad y sus colegas enuncian, en una forma que puede explicitarse matemáticamente, una serie de importantes conceptos que conducen a una definición operativa del conocimiento. Vale la pena repasarlos (en versión simplificada, véase por ejemplo el libro “Information Visualisation in Data Mining and Knowledge Discovery", chap. 21.) :

  • Datos: Un conjunto de hechos D.

  • Patrón: Una expresión E, en algún lenguaje L que describe un subconjunto de los datos d, siempre que sea más sencilla que la simple enumeración de todos los hechos que componen d.

  • Validez: La certeza de que el patrón sigue siendo válido cuando se aplica a datos nuevos. Se define como una función C(E, D) que asigna una calificación (un número) al patrón.

  • Novedad: Una función N(E, D) que devuelve verdadero si el patrón no es simplemente una recombinación de patrones ya detectados o falso en caso contrario. 

  • Utilidad: La definición de utilidad es más resbaladiza y subjetiva. Un patrón es útil si nos permite decidir o realizar una acción. De nuevo se puede representar como una función que califica la utilidad U(E,D). Por ejemplo el dinero ahorrado o ganado al descubrir un patrón de compra en un supermercado.

  • Comprensibilidad: Los patrones han de ser comprensibles por los seres humanos. De nuevo un concepto subjetivo y difícil de evaluar. Fayyad sugiere como medida cuantitativa la sencillez del patrón, de nuevo una función S(E, D) que asigna un valor. 

Todo ello conduce finalmente al importante concepto de “medida del interés” de un patrón (interestingness), que se define como una combinación de Validez, Novedad, Utilidad y Comprensibilidad que nos permite valorar y clasificar los patrones. 

i = I(E, D, N, U, S)

Ni que decir tiene que ciertos aspectos de este concepto requieren la intervención humana, ya que no admiten una cuantificación objetiva. La medida del interés es fundamental para la definición de Conocimiento:

  • Conocimiento: Un patrón E se llama conocimiento si su medida del interés I supera un cierto umbral “u” definido por el usuario.

Aunque puede parecer una definición muy alejada de nuestra experiencia de lo que es conocimiento, realmente no lo es tanto. El conocimiento lo constituyen aquellos patrones que hemos aprendido a detectar y que hemos guardado por que nos permiten aplicarlos a nuevos datos y, por tanto, predecir el comportamiento de los fenómenos o las personas que nos rodean. 

De ahí deriva la utilidad del conocimiento. Un ejemplo claro es el diagnóstico médico, cada enfermedad tiene un conjunto de síntomas, un patrón, que la diferencia de otras, lo que permite diagnosticar y aplicar el tratamiento. Cuesta años hacerse con el bagaje de patrones clínicos que permiten ser un buen diagnosticador.

Los fraudes siguen patrones que se apartan del comportamiento habitual de las transacciones legales en las bases de datos financieras. En marketing es importante descubrir los grupos de usuarios y sus patrones de comportamiento para definir productos y/o servicios específicos con resultados predecibles. Por ejemplo los usuarios que compran el artículo A y también el B probablemente compren también el C. 

Al final resulta que el conocimiento no es tan mágico como parece. Disponemos de medios para aproximarnos a él y encontrar patrones interesantes para diversos campos.


Existe un interesante artículo sobre el tema, escrito en español.

Enlaces de este artículo:

http://www.digimine.com/about/fayyad.asp   Página personal de Usama Fayyad
http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf   El artículo de referencia
http://berzal.freeservers.com/etexts/spanish/kdd/KDD.html   Página en español sobre el tema
© Copyright InfoVis.net 2000-2018