You are on page 1of 41

Introduccin al Data Mining: su Aplicacin

a la Empresa

Cursada 2012

POR QU?
 Sociedad del Conocimiento
 Mercados altamente dinmicos y competitivos.
 Necesidad de tomar decisiones rpidamente.
 Las empresas recogen datos de todos los procesos
 Las empresas de todos los tamaos necesitan aprender de sus datos para crear una
relacin uno-a-uno con sus clientes.
 El conocimiento en la empresa es un activo ms.

 Aumento de la capacidad de almacenamiento y abaratamiento del

hardware
 Crecientes

volmenes
MULTIDIMENSIONALIDAD

de

informacin

disponible:

Del Dato al Conocimiento

Datos Superficiales (se descubren con SQL)


Datos Multi-Dimensionales (se descubren con OLAP)
Datos Escondidos
(se descubren con minera)
Datos Profundos (se descubren slo con pistas)

La Minera de Datos proporciona la


Inteligencia
La inteligencia permitir buscar en esos datos tratando de
encontrar patrones, descubrir reglas, nuevas ideas que
probar, y hacer predicciones acerca del futuro.

Se estudiarn las tcnicas y herramientas que aaden la


inteligencia a la empresa para explotar los datos de los
clientes y sacar el mximo rendimiento

Cmo nos ayudan?


Qu clientes permanecern fieles?
Qu clientes estn a punto de abandonar?
Dnde debemos localizar la prxima sucursal?
Qu productos se deben promocionar en que medios?
...

Las respuestas a estas preguntas estn enterradas en los


datos y se necesitan las tcnicas de Minera de Datos para
buscarlas

Definicin Intuitiva
La Minera de Datos (en este contexto) es el anlisis y
exploracin, por medios automticos o semiautomticos de
grandes cantidades de datos para descubrir patrones
significativos (tiles), y reglas.
La meta es permitir a la organizacin mejorar sus ventas, sus
campaas de marketing, las operaciones de soporte a los
clientes, a travs de una mejor comprensin de sus clientes.

Qu es la Minera de Datos?

Es una de las actividades principales asociadas a la


comprensin, navegacin y explotacin de los datos
en el nuevo mundo digital.
Automatiza el proceso de identificacin y
descubrimiento de estructuras tiles en la
informacin.

Por qu ahora?
Las tcnicas de Minera de Datos existan hace aos pero la
convergencia de los siguientes factores:
Cantidad de datos producida
Los datos estn integrados (data warehouse o almacn de datos)
La potencia de las computadoras
Fuerte presin de la competencia
Software de minera de datos ha hecho que ahora se vuelva a hablar
de ellas

Minera de Datos:
Confluencia de reas
Algoritmos,*, otras
disciplinas

Bases de
Datos
Computacin
paralela y
distribuida

Teora de la
Informacin

Minera de Datos

Estadstica

Inteligencia
ArtificialAprendizaje
Automtico

Visualizacin

Cmo se usa hoy la Minera de


Datos?
 Conocer a los clientes
 Detectar segmentos
 Calcular perfiles
 Cross-selling
 Detectar buenos clientes
 Deteccin de morosidad
 Mejora de respuesta de mailings
 Campaas de adquisicin de clientes

El ciclo de Minera de Datos


Identificar
el problema

Usar las tcnicas de


minera de datos para
transformar los datos
en informacin

Medir
los resultados

Actuar basndonos
en la informacin

Importante
La promesa de Minera de Datos es encontrar los
patrones.
Simplemente el hallazgo de los patrones no es suficiente.
Debemos ser capaces de entender los patrones.
responder a ellos, actuar sobre ellos, para finalmente
convertir los datos en informacin, la informacin en
accin y la accin en valor para la empresa.

Minera de Datos es un proceso


La Minera de Datos es un proceso que se tiene que centrar
en las acciones derivadas del descubrimiento de
conocimiento no en el mecanismo de descubrimiento en s
mismo.
Aunque los algoritmos son importantes, la solucin es
ms que un conjunto de tcnicas y herramientas.
Las tcnicas se tienen que aplicar en el caso correcto a los
datos correctos.

Descubrimiento de Conocimiento en Bases


proceso no trivial de
de Datos (KDD)

Es el
identificar los patrones vlidos,
novedosos,
potencialmente
tiles y en ltima instancia,
comprensibles a partir de un
conjunto de datos [Fayyad et al
96]

INTERPRETACIN Y EVALUACIN

Minera de Datos

Conocimiento
Modelos

CODIFICACIN

Datos Transformados

LIMPIEZA

Datos Procesados

SELECCIN

Datos objetivo
Datos

Estndar de proyecto de Minera de


Datos : Crisp-DM

Compresin
del problema

Implantacin

Compresin
de los datos.

Preparacin de
los datos
Modelado
Evaluacin
CRoss-Industry Standard Process for Data Mining

Comprensin del problema (I)


Comprensin de los objetivos y requerimientos del
proyecto desde una perspectiva de negocio, convertir este
conocimiento en una definicin de un problema de minera
de datos y en un plan preliminar diseado para alcanzar los
objetivos.

Comprensin del problema (II)


 Determinar los objetivos del negocio

Antecedentes
Objetivos del negocio
Criterios de xito del proyecto (perspectiva del negocio)

 Evaluar la situacin

Recursos,
Requerimientos, suposiciones, restricciones
Riesgos y contingencias
Terminologa
Costos y beneficios

Comprensin del problema (III)


Determinar las metas de Minera de Datos
Metas de Minera de Datos
Criterios de xito (perspectiva de Minera de Datos)

Producir un plan de proyecto


Plan de proyecto
Evaluacin inicial de herramientas y tcnicas disponibles

Comprensin de los datos


La fase de comprensin de los datos comienza con una
coleccin de datos inicial y realiza actividades para
familiarizarse con los datos, identificar problemas de
calidad para descubrir las primeras caractersticas de los
datos o detectar subconjuntos para realizar las primeras
hiptesis sobre la informacin oculta

Comprensin de los datos (II)


 Conseguir el conjunto inicial de datos
Informe inicial sobre los datos

 Describir los datos


Informe con la descripcin de los datos

 Explorar los datos


Informe acerca de la exploracin de los datos

 Verificar la Calidad de los datos


Informe acerca de la calidad de los datos

Comprensin de datos: tareas a


realizar
 Seleccin de las fuentes
 Estudiar los datos
 Establecer los metadatos
 Establecer el tipo de las variables:
Cuantitativas
Cualitativas

 Establecer la caducidad de cada dato: vida de las variables

Estudio de los datos


 El mundo que nos rodea consiste de objetos que percibimos y

lo que interesa es descubrir las relaciones entre los objetos


 Los objetos tienen unas caractersticas que son las que se van

a analizar
 Las medidas tienen un perodo de caducidad y se toman en

unas circunstancias

Tipos de datos
Cuantitativas.
Discretas (nmero de empleados)
Continuas (sueldo, ...)
Cualitativas.
Nominales. Nombrar el objeto al que se refieren (estado civil,
gnero)
Ordinales. Se puede establecer un orden en sus valores (alto,
medio, bajo)

Preparacin de los datos


Cubre todas las actividades de construccin del conjunto final
de datos (datos entrada de los algoritmos de Minera de
Datos), desde el conjunto inicial de datos. Es posible que
estas actividades se tengan que realizar mltiples veces y sin
orden determinado. Entre las tareas destacan las de seleccin
de tablas, atributos, registros, asi como las de transformacin
y limpieza de los datos.

Preparacin de los datos (II)


Entradas
Conjunto de datos
Descripcin del conjunto de datos

Fases y Salidas:
 Seleccin de datos
Informe de los motivos de la seleccin

 Limpieza de datos
Informe de la limpieza de los datos

Preparacin de los datos (III)


Construir el conjunto de datos
Atributos derivados
Registros generados

Integrar los datos


Datos integrados

Formato de los datos


Datos con nuevo formato

Preparacin de los datos


Asegurar la calidad de los datos
Los datos no fueron recogidos para tareas de Minera de Datos
Datos pobres, inconsistentes
Numerosas fuentes, diferentes sistemas
Funciones
Revisin de los datos
Tratamiento de Valores nulos e informacin incompleta

Preparacin: Revisin de los datos


 Mtodos estadsticos y de visualizacin
 Variables categricas:

Distribucin de variables
Histogramas

90
80
70
60
Este
Oeste
Norte

50
40
30

Pie charts

20
10

1e
r
2d
o

0
1er trim.

2do trim.

3er trim.

 Variables cualitativas

Media, varianza, moda


Scaterplots, boxplots...

100
90
80
70
60
50
40
30
20
10
0

Este
Oeste
Norte

Preparacin: Informacin incompleta


 Valores atpicos (outliers):

Su tratamiento depende de su naturaleza

Se pueden eliminar en el proceso de carga del data warehouse

 Valores nulos: (ninguna de las tcnicas es perfecta)

Eliminar las observaciones con nulos

Eliminar las variables con muchos nulos

Utilizar un modelo predictivo

Preparacin: Transformacin
 Conseguir una

la visin integrada, consistente y consolidada

de los datos
 Los datos hay que refinarlos para que cumplan con los

requisitos de entrada de los algoritmos:

Conversin de variables

Reduccin /adicin de variables

Discretizacin / generalizacin

Modelado
En esta fase se seleccionan distintas tcnicas de minera y
se aplican calibrando sus parmetros para conseguir los
valores ptimos. Hay distintas tcnicas para el mismo
tipo de problema la diferencia muchas veces radica en los
requisitos que han de cumplir los datos de entrada por
ello a menudo es necesario volver a la fase de
preparacin de datos.

Modelado (II)
 Seleccin de la tcnica de modelado
Tcnica elegida
Requisitos de la tcnica elegida

 Generar un diseo de prueba


Diseo de prueba

 Construir el modelo
Parmetros elegidos
Modelo y descripcin

 Evaluar el modelo
Evaluacin del modelo
Parmetros revisados

Evaluacin
En este momento se dispone de al menos un modelo que
parece tener buena calidad desde la perspectiva del anlisis de
datos. Antes de la implantacin es importante revisar el
proceso para cerciorarse de que tambin ha logrado los
objetivos de negocio. Es importante en este punto
determinar si algn aspecto de negocio no ha sido tenido
suficientemente en consideracin. Al final de la fase se tendr
la decisin sobre el uso de los resultados de minera.

Evaluacin (II)
Evaluar los resultados
Contrastar los resultados de minera con los criterios de xito del

negocio
Modelos aprobados

Proceso de revisin
Revisin del proceso

Determinar los pasos siguientes


Lista de posibles acciones futuras
Decisin sobre la implantacin

Implantacin
La creacin del modelo no es el final del proyecto. Incluso
cuando se trata de incrementar el conocimientos, este se
tiene que poner en orden y presentarlo de manera que se
pueda hacer uso del mismo. Esta fase por tanto, puede ser tan
simple como la generacin de un informe o tan compleja
como la implantacin de un proceso de minera en toda la
empresa. Es importante que al cliente se le deje claro las
acciones necesarias para hacer uso efectivo del los modelos
obtenidos.

Implantacin (II)
Desarrollo del plan de implantacin

Plan de Implantacin

Desarrollo del plan de monitorizacin y

mantenimiento

Plan de seguimiento

Realizacin del informe final

Informe final

Revisin del proyecto

Experiencia

Documentacin

Minera de Datos : Tareas


Los distintos problemas se pueden expresar en trminos
de las siguientes tareas:

Descripcin
Clasificacin
Estimacin
Asociacin
Clustering

Descubrimiento directo e indirecto


Todas las tareas estudiadas se pueden agrupar en dos
grandes tipos:

Descubrimiento Directo (predictivo)


Descubrimiento Indirecto (descriptivo)

Descubrimiento Directo
Se selecciona el atributo y se le pide al algoritmo que
estime, clasifique, o prediga el atributo.
Es orientado por la meta a descubrir
Ejemplos:
Quien es el probable comprador de seguros de vida?
Cual es el valor potencial de este nuevo cliente?
Perfil del cliente que va a cambiarse a la competencia

Descubrimiento Indirecto
 No hay atributo objetivo.
 Simplemente se le pide al algoritmo que identifique patrones
significativos en los datos.
 Ejemplos:
 Qu productos se compran juntos?

 Qu mezclas de colores deben ir juntas en un almacn?


 Segmentar la cartera de clientes

Resumen
 La Minera de Datos es un proceso.
 Todas las fases son igualmente significativas.
 Sin una preparacin adecuada los resultados perdern calidad.
 El conocimiento del dominio es muy importante!!!

You might also like