You are on page 1of 22

Minera de datos

ndice
Introduccin KDD: Proceso de Extraccin de conocimiento Procesos de un proyecto de minera de datos Tcnicas de minera de datos Ciclo de un Proyecto de Minera de Datos

De donde venimos y hacia dnde vamos

Qu es la Minera de Datos?
La minera de datos (DM, Data Mining) consiste en la extraccin no trivial de informacin que reside de manera implcita en los datos. Dicha informacin era previamente desconocida y podr resultar til para algn proceso. En otras palabras, la minera de datos prepara, sondea y explora los datos para sacar la informacin oculta en ellos.
Fuente: wikipedia

Qu es la Minera de Datos?

Deducir conocimiento examinando los datos y realizando predicciones

examinar datos examinar ejemplos de hechos conocidos


sobre casos utilizando sus atributos variables

conocimiento: Patrones, Clusters, Reglas, rboles de


Decisin, Redes Neuronales, Reglas de Asociacin,.

OLAP: Anlisis orientado al modelo DM: Anlisis orientado al dato Nombres alternativos: Anlisis Predictivo

Qu es la Minera de Datos?
La minera de datos (es la etapa de anlisis de "Knowledge Discovery in Databases" o KDD) Proceso de detectar la informacin procesable de los conjuntos grandes de datos. Utiliza el anlisis matemtico para deducir los patrones y tendencias que existen en los datos. Estos patrones no se pueden detectar mediante la exploracin tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos. Estos patrones y tendencias se pueden recopilar y definir como un modelo de minera de datos.

KDD: Proceso de Extraccin de conocimiento


Como muestra la figura, las etapas del proceso KDD se dividen en 5 fases y son: 1. Seleccin de datos 2. Preprocesamiento 3. Transformacin 4. Data Mining 5. Interpretacin y Evaluacin

KDD: Proceso de Extraccin de conocimiento


Como muestra la figura anterior, las etapas del proceso KDD se dividen en 5 fases y son: 1. Seleccin de datos. En esta etapa se determinan las fuentes de datos y el tipo de informacin a utilizar. Es la etapa donde los datos relevantes para el anlisis son extrados desde la o las fuentes de datos. Preprocesamiento. Esta etapa consiste en la preparacin y limpieza de los datos extrados desde las distintas fuentes de datos en una forma manejable, necesaria para las fases posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en blanco, datos inconsistentes o que estn fuera de rango, obtenindose al final una estructura de datos adecuada para su posterior transformacin. Transformacin. Consiste en el tratamiento preliminar de los datos, transformacin y generacin de nuevas variables a partir de las ya existentes con una estructura de datos apropiada. Aqu se realizan operaciones de agregacin o normalizacin, consolidando los datos de una forma necesaria para la fase siguiente. Data Mining. Es la fase de modelamiento propiamente tal, en donde mtodos inteligentes son aplicados con el objetivo de extraer patrones previamente desconocidos, vlidos, nuevos, potencialmente tiles y comprensibles y que estn contenidos u ocultos en los datos. Interpretacin y Evaluacin. Se identifican los patrones obtenidos y que son realmente interesantes, basndose en algunas medidas y se realiza una evaluacin de los resultados obtenidos.

2.

3.

4.

5.

Procesos de un proyecto de minera de datos


Un proyecto de minera de datos tiene varias fases necesarias que son, esencialmente: Comprensin del negocio y del problema que se quiere resolver. Determinacin, obtencin y limpieza de los datos necesarios. Creacin de modelos matemticos. Validacin, comunicacin, etc. de los resultados obtenidos. Integracin, si procede, de los resultados en un sistema transaccional o similar.

Procesos de un proyecto de minera de datos


La relacin entre todas estas fases slo es lineal sobre el papel. En realidad, es mucho ms compleja y esconde toda una jerarqua de subfases. A travs de la experiencia acumulada en proyectos de minera de datos se han ido desarrollando metodologas que permiten gestionar esta complejidad de una manera ms o menos uniforme.

Procesos de un proyecto de minera de datos


Generacin de Recomendaciones Qu productos o servicios deberamos de ofrecer a nuestros clientes? Deteccin de anomalas Deteccin de fraude Anlisis de Rotacin Qu clientes son ms proclives de irse a la competencia? Gestin de Riesgos Debera de concederse el crdito? Segmentacin de clientes Clasificacin de nuestros clientes Anuncios Orientados Personalizacin de anuncios, contenido,

Procesos de un proyecto de minera de datos


Previsin Cunto venderemos el prximo semestre? Clasificacin Se asigna una categora a cada caso. Cada caso tiene un conjunto de atributos uno de ellos es el atributo clase. Se busca un modelo que describa el atributo clase como una funcin de los atributos de salida Agrupacin Tambin conocido como segmentacin Identifica grupos naturales basndose en un conjunto de atributos Asociacin Tambin conocido como anlisis de cesta de la compra Regresin Similar a clasificacin pero con el objetivo de buscar patrones para determinar un valor numrico Ej.: Prediccin de la velocidad del viento basada en temperatura presin de aire y humedad

Tcnicas de minera de datos

Las tcnicas de la minera de datos provienen de la Inteligencia artificial y de la estadstica, dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.

Tcnicas de minera de datos


Las tcnicas ms representativas son
Redes neuronales rboles de decisin Modelos estadsticos Agrupamiento o Clustering Algoritmos supervisados (o predictivos) Algoritmos no supervisados (o del descubrimiento del conocimiento)

Tcnicas de minera de datos


Redes neuronales Son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexin de neuronas en una red que colabora para producir un estmulo de salida. Algunos ejemplos de red neuronal son: El Perceptrn El Perceptrn multicapa. Los Mapas Autoorganizados, tambin conocidos como redes de Kohonen.

Tcnicas de minera de datos


rboles de decisin Un rbol de decisin es un modelo de prediccin utilizado en el mbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lgicas, muy similares a los sistemas de prediccin basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolucin de un problema. Ejemplos: Algoritmo ID3. Algoritmo C4.5.

Tcnicas de minera de datos


Modelos estadsticos Es una expresin simblica en forma de igualdad o ecuacin que se emplea en todos los diseos experimentales y en la regresin para indicar los diferentes factores que modifican la variable de respuesta.

Tcnicas de minera de datos


Agrupamiento o Clustering Es un procedimiento de agrupacin de una serie de vectores segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos aquellos que tengan caractersticas comunes. Ejemplos: Algoritmo K-means. Algoritmo K-medoids.

Tcnicas de minera de datos


Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998): Algoritmos supervisados (o predictivos) Predicen un dato (o un conjunto de ellos)

desconocido a priori, a partir de otros conocidos. Algoritmos no supervisados (o del descubrimiento del conocimiento) Se descubren patrones y tendencias en los datos.

Tcnicas de minera de datos


Ejemplo Comprador potencial de bicis:
Provincia Ciudad Edad Coche Distancia trabajo Bici

Ciclo de un Proyecto de Minera de Datos

GRACIAS POR SU ATENCIN


info@alianzo.com
www.alianzo.com

You might also like