You are on page 1of 5

INTRODUCCIN Minera de Datos (Data Mining) y descubrimiento de conocimiento en base de datos (KDD).

Algunos sistemas que son slo parcialmente conocidos, producen una cantidad inmensa de datos; estos datos con frecuencia contienen valiosa informacin que puede resultar muy til y ser vista como vetas de oro por los ojos de un ejecutivo de una corporacin. Las dimensiones de las base de datos grandes (montaas) y sus velocidades de crecimiento, hacen muy difcil para un humano su anlisis y la extraccin de alguna informacin importante (oro). An con el uso de herramientas estadsticas clsicas esta tarea es casi imposible. El descubrimiento de conocimiento en base de datos (KDD) combina las tcnicas tradicionales con numerosos recursos desarrollados en el rea de la inteligencia artificial. En estas aplicaciones el trmino "Minera de Datos" (Data mining) ha tenido ms aceptacin. En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas, no del todo comprendidas y carentes de un soporte terico formal. Pero en este caso el objetivo es tan valioso, que los resultados prcticos han rebasado a la elegancia acadmica.

DEFINICIN DE MINERA DE DATOS Es esta: "Una actividad de extraccin cuyo objetivo es el de descubrir hechos contenidos en las bases de datos". En la mayora de los casos se refiere a un trabajo automatizado. Si hay alguna intervencin humana a lo largo del proceso, este no es considerado como minera de datos por parte algunas personas. La palabra "descubrimiento" est relacionada con el hecho de que mucha de la informacin valiosa es desconocida con anterioridad; En todo caso, estas tcnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto. En cuanto a los hechos escondidos, Estos estarn principalmente bajo la forma de reglas; las cuales nos ayudarn a entender el modelo del sistema relacionado con los datos observados. Por otra parte, las reglas tambin pueden ser usadas en las predicciones de ciertos estados del sistema.

APLICACIONES DE LA MINERA DE DATOS Deteccin de fraudes: Esta es una aplicacin que puede ser considerada como una tcnica de clasificacin. En efecto, cuando el algoritmo analiza una gran cantidad de transacciones, el mismo tratar de categorizar aquellas que sean ilegtimas mediante la identificacin de ciertas caractersticas que estas ltimas tengan en comn. Esto puede ser usado en las corporaciones para prevenir que se culmine un proceso que muestre pertenecer a una "clase" peligrosa.

Anlisis de riesgos en crditos: Esta es una aplicacin similar a la anterior, pero con la ventaja de de la existencia de maneras tradicionales para realizarlo. El clsico procedimiento de asignacin de puntos puede ser complementado y mejorado con la ayuda de la minera de datos.

Clasificacin de cuerpos celestes: Debido a la gran contribucin a estas tareas por parte del reconocimiento de imgenes y los pre-procesamientos involucrados, esta aplicacin tambin puede considerarse como perteneciente al rea del reconocimiento de patrones de imgenes (Pattern Recognition).

Minera de texto: Con billones de pginas en la red, se requieren de nuevas tecnologas para encontrar, clasificar y detectar particulares patrones en la informacin disponible. La esencia de los mtodos de la minera de datos aplicados a los datos numricos, puede tambin ser aplicada a datos de texto.

CUANDO ES TIL LA MINERA DE DATOS Sistemas parcialmente desconocidos: Si el modelo del sistema que produce los datos es bien conocido, entonces no necesitamos de la minera de datos ya que todas las variables son de alguna manera predecibles. Este no es el caso del comercio electrnico, debido a los efectos del comportamiento humano, el clima y de decisiones polticas entre otros. En estos casos habr una parte del sistema que es conocida y habr una parte aparentemente de naturaleza aleatoria. Bajo ciertas circunstancias, a partir de una gran cantidad de datos asociada con el sistema, existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo. Enorme cantidad de datos: Bases de datos muy grandes compensan las limitaciones de un modelo incompleto. Esto es particularmente cierto cuando las redes neuronales y otros tcnicas

adaptativas son utilizados. En estos casos, se requieren suficiente cantidad de datos para el entrenamiento y la verificacin. Potente hardware y software: Muchas de las herramientas presentes en la minera de datos estn basadas en el uso intensivo de la computacin, en consecuencia convenientes equipos y software eficientes aumentarn el desempeo del proceso, el cual a veces debe vrselas con producciones de datos del orden de los Gbytes/hora.

TIPOS DE DESCUBRIMIENTOS EN LA MINERA DE DATOS Se pueden perseguir diferentes objetivos. Descripcin: El principal producto del proceso de la minera de datos es el descubrimiento de reglas. Estas mostrarn nuevas relaciones entre las variables o excepciones a las ya establecidas. Ello enriquecer el anlisis y la descripcin del modelo y ayudar en la planificacin y en el diseo de futuros cambios. Es posible que algunas de las reglas descubiertas no puedan ser cambiadas, pero si resulte posible realizar modificaciones apropiadas en la organizacin con el propsito de mejorar su desempeo.

Prediccin (Forecasting): Una vez descubiertas reglas importantes que gobiernen e sistema, estas pueden ser utilizadas pera estimar algunas variables de salida. Puede ser en el caso de secuencias en el tiempo, o bien en la identificacin e interrupcin a tiempo, de una futura mala experiencia de crdito. En esta tarea, se complementan las tcnicas estadsticas tradicionales con aquellas provenientes de la inteligencia artificial. Conceptos adaptativos como los algoritmos genticos y las redes neuronales, permiten realizar predicciones ms acertadas, especialmente en casos de gran complejidad y con relaciones internas no-lineales.

HERRAMIENTAS USADAS EN LA MINERA DE DATOS De la Inteligencia Artificial.

Redes Neuronales (Neural Networks): Grupo de unidades no-lineales interconectadas y organizadas por capas. Estas pueden ser funciones matemticas y nmeros almacenados en computadoras digitales, pero pueden ser elaboradas tambin mediante dispositivos analgicos como los transistores a efecto de campo (FET). A pesar del incremento en velocidad y de la escala de integracin en los semiconductores, la mejor contribucin de las redes neuronales tendr que esperar por computadoras ms rpidas, masivas y paralelas.

Mapas caractersticos de Kohonen (Self-organizing Maps): Es una red neuronal del tipo de entrenamiento no-supervisado. Los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes. Una vez entrenada es capaz de identificar tales patrones en nuevos datos. Reconocimiento de patrones (Pattern Recognition): Se trata de un grupo de tcnicas orientadas a evaluar la similitud y las diferencias entre seales. Se involucran en esto a varios tipos de preprocesamiento tales como la transformada de Fourier. k-nearest neibor: Un procedimiento para clasificar a los "records" de un archivo mediante la identificacin de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los "records". Algoritmo Gentico (Genetic Algorithm): Imitando la evolucin de las especies mediante la mutacin, reproduccin y seleccin, estos algoritmos proporcionan programas y optimizaciones que pueden ser utilizados en la construccin y entrenamiento de otras estructuras como las redes neuronales.

EJEMPLO DE MINERA DE DATOS. Una situacin muy popular sucedi en una cadena de vveres en USA. Utilizando un software de minera de datos para estudiar el comportamiento de sus clientes, encontraron relaciones interesantes entre paales, cervezas, hombres, y da de la semana. Encontraron que los das jueves y sbado, los hombres que compraban paales tambin compraban cerveza. Informacin como esa, que no siempre es evidente a primera vista, puede ser utilizada para reubicar la mercanca en lugares ms estratgicos, en este ejemplo, manteniendo a los paales y a las cervezas cercanas unos de otros.

Este resultado suministrado por un proceso de minera de datos, puede ser analizado en profundidad por expertos humanos. Si ellos encuentran una explicacin razonable, esta de seguro ser de mucho ayuda para que los ejecutivos de la empresa alcancen sus objetivos de una manera ms eficiente.

Jos Alberto Garcs Cceres Luis Felipe Palacio Salamanca

You might also like