You are on page 1of 69

SISTEMAS DE INFORMACIN ESTRATGICOS

PARTE DM

TEMA I: INTRODUCCIN
A LA MINERA DE DATOS

Mara Jos Ramrez


mramirez@dsic.upv.es

Departamento de Sistemas Informticos y Computacin


Universitat Politcnica de Valncia
1

Objetivos Tema DM1

Reconocer la problemtica del anlisis de grandes


volmenes de datos y de los beneficios de su uso
sistemtico para la obtencin de modelos y
patrones predictivos o descriptivos.

Conocer las aplicaciones habituales de la minera


de datos.

Conocer la relacin de la minera de datos con


otras disciplinas.
2

1. Introduccin a la Minera de Datos


(DM)

1.1. Ejemplos y motivacin


1.2. Relacin de DM con otras disciplinas y aplicaciones
1.3. El proceso de KDD.
1.4. Tipologa de Tareas y Tcnicas
1.6. Metodologas (CRISP-DM)
1.7. Herramientas
3

Ejemplos
AGENTE en un BANCO:
Debo conceder el crdito a este cliente?

GERENTE de un SUPERMERCADO:
Cundo se compran huevos, se suele comprar tambin
aceite?

DIRECTOR de RR.HH. de una EMPRESA:


Qu tipos de empleados tengo?

COMERCIAL de una EMPRESA DE COMERCIALIZACIN:


Cuntos televisores planos se estima vender el mes que
viene?
4

Ejemplos
AGENTE en un BANCO:
Debo conceder el crdito a este cliente?
D-crdito C-crdito Salario Casa Cuentas Devuelve-
Idc
(aos) (euros) (euros) propia morosas crdito
101 15 60.000 2.200 s 2 no
102 2 30.000 3.500 s 0 s

Datos 103 9 9.000 1.700 s 1 no

histricos: 104
105
15
10
18.000
24.000
1.900
2.100
no
no
0
0


s
no
...

Minera de Datos

Patrn / Si Cuentas-Morosas > 0 entonces Devuelve-crdito = no


Si Cuentas-Morosas = 0 Y [(Salario > 2.500) O (D-crdito > 10)]
Modelo: entonces Devuelve-crdito = s
5

Ejemplos
GERENTE de un SUPERMERCADO:
Cundo se compran huevos, se suele comprar tambin aceite?
Idcesta Huevos Aceite Paales Vino Leche Mantequilla Salmn Endibias ...

1 s no no s no s s s ...

2 no s no no s no no s ...

3 no no s no s no no no ...
Datos 4 no s s no s no no no ...

histricos: 5

6
s

s
s

no
no

no
no

s
no

s
s

s
no

s
s

no
...

...

7 no no no no no no no no ...

8 s s s s s s s no ...

... ... ... ... ... ... ... ... ... ...

Minera de Datos
Patrn /
Modelo: Huevos Aceite : Confianza = 75%, Soporte = 12%
6

Ejemplos
DIRECTOR de RR.HH. de una EMPRESA:
Qu tipos de empleados tengo?
Id Sueldo Casado Coche Hijos Alq/Prop Sindicado Bajas/Ao Antigedad Sexo

1 10000 S No 0 Alquiler No 7 15 H

2 20000 No S 1 Alquiler S 3 3 M

3 15000 S S 2 Prop S 5 10 H

Datos 4

5
30000

10000
S

S
S

S
1

0
Alquiler

Prop
No

S
15

1
7

6
M

histricos: 6 40000 No S 0 Alquiler S 3 16 M

7 25000 No No 0 Alquiler S 0 8 H

8 20000 No S 0 Prop S 2 6 M

15 8000 No S 0 Alquiler No 3 2 H

... ... ... ... ... ... ... ... ... ...

Patrn / Minera de Datos


Modelo:
Grupo 1: Sin hijos y con vivienda de alquiler. Poco sindicados. Muchas bajas.
Grupo 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente son mujeres y tienen casas de alquiler.
Grupo 3: Con hijos, casados y con coche. Mayoritariamente hombres propietarios de su vivienda. Poco sindicados.
7

Ejemplos
COMERCIAL de una EMPRESA DE COMERCIALIZACIN:
Cuntos televisores planos se estima vender el mes que
viene?
PRODUCTO MES-12 ... MES-4 MES-3 MES-2 MES-1 MES

televisor plano 30 20 ... 52 14 139 74 ?

Datos vdeo-dvd-recorder

discman
11

50
...


43

61
32

14
26

5
59

28
?

histricos: frigorfico gama alta 3 21 27 1 49 ?

nevera 14 ... 27 2 25 12 ?

...

Minera de Datos
Patrn /
Modelo: Modelo lineal: Ventas Mes Siguiente TV planos:

V(Mes)TVplanos = 0.62 V(Mes-1)Tvplanos + 0.33 V(Mes-12)Tvplanos + 0.12 V(Mes-1)DVD-Recorder 0.05


8

Motivacin
Nuevas Necesidades del Anlisis
de Grandes Volmenes de Datos

El aumento del volumen y variedad de informacin que se


encuentra informatizada en bases de datos digitales ha
crecido espectacularmente en la ltima dcada.

Gran parte de esta informacin es histrica, es decir,


representa transacciones o situaciones que se han producido.

Aparte de su funcin de memoria de la organizacin, la


informacin histrica es til para predecir la informacin
futura.
9

Motivacin
La mayora de decisiones de empresas, organizaciones e
instituciones se basan tambin en informacin de experiencias
pasadas extradas de fuentes muy diversas.
las decisiones colectivas suelen tener consecuencias mucho
ms graves, especialmente econmicas, y, recientemente, se
deben basar en volmenes de datos que desbordan la
capacidad humana.

El rea de la extraccin (semi-)automtica de


conocimiento de bases de datos ha adquirido
recientemente una importancia cientfica y
econmica inusual
10

Motivacin
El usuario final no es un experto en aprendizaje
automtico ni en estadstica.
El usuario no puede perder ms tiempo analizando
los datos:
industria: ventajas competitivas, decisiones ms efectivas.
ciencia: datos nunca analizados, bancos no cruzados, etc.
personal: information overload...

Los sistemas clsicos de estadstica son difciles de


usar y no escalan al nmero y tipo de datos que se
suelen encontrar en bases de datos.
11

Relacin de DM con Otras Disciplinas


Aparece...
Descubrimiento de Conocimiento a partir de Bases
de Datos (KDD, del ingls Knowledge Discovery from
Databases).
proceso no trivial de identificar patrones vlidos, novedosos,
potencialmente tiles y en ltima instancia comprensibles a
partir de los datos. Fayyad et al. 1996
RELACIONES:
Diferencia clara con mtodos estadsticos: la estadstica se
utiliza para validar o parametrizar un modelo sugerido y
preexistente, no para generarlo.
Diferencia sutil con Anlisis Inteligente de Datos (IDA,
Intelligent Data Analysis) que corresponda con el uso de
tcnicas de inteligencia artificial en el anlisis de los datos.
12

Relacin de DM con Otras Disciplinas


KDD nace como interfaz y se nutre de diferentes
disciplinas:
aprendizaje
automtico bases de datos

visualizacin DM estadstica

teora de la gestin de
decisin organizaciones
13

Relacin de DM con Otras Disciplinas

La minera o prospeccin de datos (DM) no es ms


que una fase del KDD:
Fase que integra los mtodos de aprendizaje y
estadsticos para obtener hiptesis de patrones y
modelos.

Al ser la fase de generacin de hiptesis, vulgarmente se


asimila KDD con DM.
Adems, las connotaciones de aventura y de dinero fcil del
trmino minera de datos han hecho que ste se use como
identificador del rea.
14

Relacin de DM con Otras Disciplinas


La minera de datos no es una extensin de los
sistemas de informes inteligentes o sistemas OLAP.

La minera de datos aspira a ms


Otras herramientas, p.ej. consultas sofisticadas o anlisis
estadstico, pueden responder a preguntas como:
Han subido las ventas del producto X en junio?
Las ventas del producto X bajan cuando promocionamos el producto Y?
El factor Y influye en las ventas del producto X?

Pero slo con tcnicas de minera de datos podremos


responder a preguntas del estilo:
He de conceder el prstamo al cliente X?
Qu se suele comprar cuando se compran paales?
Cul ser el producto ms vendido si abrimos una delegacin en Portugal?
15

Relacin de DM con Otras Disciplinas


Los sistemas OLAP y las herramientas de minera de
datos son complementarias.

Los sistemas OLAP permiten obtener la informacin que est


en la base de datos (sea implcita o explcitamente) de
manera agregada, cruzada y sumarizada, eficientemente.
El resultado siempre es cierto y exacto. No es un resultado
hipottico.

Las herramientas de minera de datos permiten obtener


informacin que no est en la base de datos, pero que se
puede inferir de ella con cierta plausibilidad.
El resultado puede ser falso y es aproximado. Es un
resultado hipottico.
16

Relacin de DM con Otras Disciplinas


Visin con las herramientas tradicionales:
El analista empieza con una pregunta, una suposicin
o simplemente una intuicin y explora los datos y
construye un modelo. El analista propone el modelo.
Visin con la minera de datos:
Aunque el analista no pierde la posibilidad de
proponer modelos, el sistema encuentra y sugiere
modelos.
Ventajas:
Generar un modelo requiere menos esfuerzo manual y permite
evaluar cantidades ingentes de datos.
Se pueden evaluar muchos modelos generados automticamente,
y esto aumenta la probabilidad de encontrar un buen modelo.
El analista necesita menos formacin sobre construccin de
modelos y menos experiencia.
17

reas de Aplicacin Ms importante


industrialmente

Toma de Decisiones (banca-finanzas-seguros,


mrketing, polticas sanitarias/demogrficas, ...)
Procesos Industriales (componentes qumicos,
compuestos, mezclas, esmaltes, procesos, etc.)
Investigacin Cientfica (medicina, astronoma,
meteorologa, psicologa, ...). Aqu la eficiencia no es tan
importante.
Soporte al Diseo de Bases de Datos.
Reverse Engineering (dados una base de datos,
desnormalizarla para que luego el sistema la normalice).
Mejora de Calidad de Datos.
Mejora de Consultas (si se descubren dependencias
funcionales nuevas u otras condiciones evitables).
18

reas de Aplicacin. Problemas Tipo.


KDD para toma de decisiones (Dilly 96)
Comercio/Marketing: - Identificar patrones de compra de los clientes.
- Buscar asociaciones de clientes y caractersticas demogrficas.
- Predecir respuesta a campaas de mailing.
- Anlisis de cestas de la compra.
Banca: - Detectar patrones de uso fraudulento de tarjetas de crdito.
- Identificar clientes leales.
- Predecir clientes con probabilidad de cambiar su afiliacin.
- Determinar gasto en tarjeta de crdito por grupos.
- Encontrar correlaciones entre indicadores financieros.
- Identificar reglas de mercado de valores a partir de histricos.
Seguros y Salud Privada: - Anlisis de procedimientos mdicos solicitados conjuntamente.
- Predecir qu clientes compran nuevas plizas.
- Identificar patrones de comportamiento para clientes con riesgo.
- Identificar comportamiento fraudulento.
Transportes: - Determinar la planificacin de la distribucin entre tiendas.
- Analizar patrones de carga.
19

reas de Aplicacin. Problemas Tipo.


KDD para toma de decisin
Medicina:
- Identificacin de terapias mdicas satisfactorias para diferentes
enfermedades.
- Asociacin de sntomas y clasificacin diferencial de patologas.
- Estudio de factores (genticos, precedentes, hbitos, alimenticios,
etc.) de riesgo/salud en distintas patologas.
- Segmentacin de pacientes para una atencin ms inteligente segn
su grupo.
- Predicciones temporales de los centros asistenciales para el mejor
uso de recursos, consultas, salas y habitaciones.
- Estudios epidemiolgicos, anlisis de rendimientos de campaas de
informacin, prevencin, sustitucin de frmacos, etc.
20

reas de Aplicacin. Problemas Tipo.


KDD para Procesos Industriales

- Extraccin de modelos sobre comportamiento de compuestos.


- Deteccin de piezas con trabas.
- Prediccin de fallos
- Modelos de calidad.
- Estimacin de composiciones ptimas en mezclas.
- Extraccin de modelos de coste.
- Extraccin de modelos de produccin.
- Simulacin costes/beneficios segn niveles de calidad
21

reas de Aplicacin. Problemas Tipo.


Estrechamente relacionado con otras reas de
aplicacin (ms o menos genricas)
- Data Science
- Big Data
- (Data) Analytics
- Web mining
- Sentiment analysis
- Mining the social web
22

El Proceso del KDD. FASES


1. Determinar las fuentes de informacin que pueden ser
tiles y dnde conseguirlas.
Sistema de
Informacin 2. Disear el esquema de un almacn de datos (Data
Warehouse) que consiga unificar de manera operativa
toda la informacin recogida.
Preparacin de
los Datos 3. Implantacin del almacn de datos que permita la
navegacin y visualizacin previa de sus datos, para
Minera de Datos discernir qu aspectos puede interesar que sean
estudiados.
KDD
Patrones 4. Seleccin, limpieza y transformacin de los datos que
se van a analizar. La seleccin incluye tanto una criba o
fusin horizontal (filas) como vertical (atributos).
Evaluacin /
Interpretacin / 5. Seleccionar y aplicar el mtodo de minera de datos
Visualizacin
apropiado.
6. Evaluacin, interpretacin, transformacin y
Conocimiento representacin de los patrones extrados.
7. Difusin y uso del nuevo conocimiento.
23

El Proceso del KDD. FASES


Datos Minera Modelos
(Informacin) (Conocimiento)
de Datos

mbito, objetivos de negocio y de minera de datos

+ +
++ -
- -
almacn vista minable patrones conocimiento decisiones
datos de datos
iniciales
Integracin y preparacin
modelado evaluacin despliegue
recopilacin de datos

revisin
24

Integracin de Datos
Recogida de Informacin

Fuente de Fuente de
Datos 1 Datos 3 Fuente de
texto Datos 2
HTML

Base de Datos
Transaccional 1
Fuentes
Externas
Informes
Fuentes
Internas
texto
Base de Datos
Transaccional 2
Repositorio o
Almacn de Datos
25

Fases del KDD: Preparacin de Datos


Limpieza (data cleansing) y criba (seleccin) de datos:

Se deben eliminar el mayor nmero posible de datos


errneos o inconsistentes (limpieza) e irrelevantes
(criba).

Mtodos estadsticos casi exclusivamente.


resmenes e histogramas (deteccin de datos anmalos).
seleccin de datos (muestreo, ya sea verticalmente,
eliminando atributos, denominado seleccin de
caractersticas, u horizontalmente, eliminando tuplas,
denominado muestreo).
redefinicin de atributos (agrupacin o separacin).
26

Fases del KDD: Preparacin de


Datos
La seleccin y la limpieza pueden acompaarse de
transformacin de atributos (numerizacin,
discretizacin, ).

El resultado es un conjunto de filas y columnas


denominado:

VISTA MINABLE

La vista minable integra datos de diferentes fuentes,


los limpia, selecciona y transforma, y los tipa, con el
fin de prepararlos para la modelizacin.
27

Fases del KDD: La Minera de Datos


Patrones a descubrir:
Una vez recogidos los datos de inters, un explorador puede
decidir qu tipo de patrn quiere descubrir.
El tipo de conocimiento (tarea) que se desea extraer va a
marcar claramente las tcnicas posibles de minera de datos
a utilizar.
Seleccin del algoritmo o algoritmos (tcnicas) a aplicar
para obtener el modelo.
Seleccin de los valores de los parmetros del algoritmo.
Aplicacin/Entrenamiento del algoritmo.
28

Fases del KDD: Evaluacin y


Validacin
La fase anterior produce una o ms hiptesis de
modelos.
Para seleccionar y validar estos modelos es
necesario el uso de criterios de evaluacin de
hiptesis. Por ejemplo:
1 Fase: Comprobacin de la precisin del modelo en un
banco de ejemplos independiente del que se ha utilizado
para aprender el modelo. Se puede elegir el mejor modelo.
2 Fase: Se puede realizar una experiencia piloto con ese
modelo. Por ejemplo, si el modelo encontrado se quera
utilizar para predecir la respuesta de los clientes a un
nuevo producto, se puede enviar un mailing a un
subconjunto de clientes y evaluar la fiabilidad del modelo.
29

Fases del KDD: Interpretacin y


Difusin
El despliegue del modelo a veces es trivial pero otras
veces requiere un proceso de implementacin o
interpretacin:
El modelo puede requerir implementacin (p.ej. tiempo real
deteccin de tarjetas fraudulentas).
El modelo es descriptivo y requiere interpretacin (p.ej. una
caracterizacin de zonas geogrficas segn la distribucin
de los productos vendidos).
El modelo puede tener muchos usuarios y necesita
difusin: el modelo puede requerir ser expresado de una
manera comprensible para ser distribuido en la
organizacin (p.ej. las cervezas y los productos congelados
se compran frecuentemente en conjunto ponerlos en
estantes distantes).
30

Fases del KDD: Actualizacin y


Monitorizacin
Los procesos derivan en un mantenimiento:

Actualizacin: Un modelo vlido puede dejar de serlo:


cambio de contexto (econmicos, competencia, fuentes de
datos, etc.).
Monitorizacin: Consiste en ir revalidando el modelo con
cierta frecuencia sobre nuevos datos, con el objetivo de
detectar si el modelo requiere una actualizacin.

Producen realimentaciones en el proceso KDD.


31

Tareas y Tcnicas de Minera de


Datos
Los modelos de minera de datos pueden ser predictivos
o descriptivos.

Un modelo predictivo responde preguntas sobre datos que


desconocemos (generalmente, pero no siempre, futuros).
Cules sern las ventas el ao prximo?
Es esta transaccin fraudulenta?
Qu tipo de seguro es ms probable que contrate el cliente X?

Un modelo descriptivo proporciona informacin sobre las


relaciones entre los datos y sus caractersticas. Genera
informacin del tipo:
Los clientes que compran paales suelen comprar cerveza.
El tabaco y el alcohol son los factores ms importantes en la
enfermedad Y.
Los clientes sin televisin y con bicicleta tienen caractersticas muy
diferenciadas del resto.
32

Tareas y Tcnicas de Minera de


Datos
Ejemplo de Modelo Predictivo:
Queremos saber si jugar o no jugar esta tarde al tenis.
Hemos recogido datos de experiencias anteriores:
Example Sky Temperature Humidity Wind PlayTennis
1 Sunny Hot High Weak No
2 Sunny Hot High Strong No
3 Overcast Hot High Weak Yes
4 Rain Mild High Weak Yes
5 Rain Cool Normal Weak Yes
6 Rain Cool Normal Strong No
7 Overcast Cool Normal Strong Yes
8 Sunny Mild High Weak No
9 Sunny Cool Normal Weak Yes
10 Rain Mild Normal Weak Yes
11 Sunny Mild Normal Strong Yes
12 Overcast Mild High Strong Yes
13 Overcast Hot Normal Weak Yes
14 Rain Mild High Strong No
33

Tareas y Tcnicas de Minera de


Datos
Ejemplo de Modelo Predictivo:
Pasamos estos ejemplos a un algoritmo de aprendizaje de
rboles de decisin, sealando el atributo PlayTennis como la
clase (output).
El resultado del algoritmo es el siguiente modelo:

Outlook?

Sunny Rain
Overcast

Humidity? YES Wind?

High Normal Strong Weak

NO YES NO YES
Ahora podemos utilizar este modelo para predecir si esta tarde
jugamos o no al tenis. P.ej., la instancia:
(Outlook = sunny, Temperature = hot, Humidity = high, Wind = strong)
es NO.
34

Tareas y Tcnicas de Minera de


Datos
Ejemplo de Modelo Descriptivo:
Queremos categorizar nuestros empleados.
Tenemos estos datos de los empleados:
#Ej Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Ao Antigedad Sexo
1 10000 S No 0 Alquiler No 7 15 H
2 20000 No S 1 Alquiler S 3 3 M
3 15000 S S 2 Prop S 5 10 H
4 30000 S S 1 Alquiler No 15 7 M
5 10000 S S 0 Prop S 1 6 H
6 40000 No S 0 Alquiler S 3 16 M
7 25000 No No 0 Alquiler S 0 8 H
8 20000 No S 0 Prop S 2 6 M
9 20000 S S 3 Prop No 7 5 H
10 30000 S S 2 Prop No 1 20 H
11 50000 No No 0 Alquiler No 2 12 M
12 8000 S S 2 Prop No 3 1 H
13 20000 No No 0 Alquiler No 27 5 M
14 10000 No S 0 Alquiler S 0 7 H
15 8000 No S 0 Alquiler No 3 2 H
35

Tareas y Tcnicas de Minera de


Datos
Ejemplo de Modelo Descriptivo:
Pasamos estos ejemplos a un algoritmo de clustering K-meams.
Se crean tres clusters, con la siguiente descripcin:
cluster 1: 5 examples cluster 2: 4 examples cluster 3: 6 examples
Sueldo : 22600 Sueldo : 22500 Sueldo : 18833
Casado : No -> 0.8 Casado : No -> 1.0 Casado : S -> 1.0
S -> 0.2 Coche : S -> 1.0 Coche : S -> 1.0
Coche : No -> 0.8 Hijos : 0 Hijos : 2
S -> 0.2 Alq/Prop : Alquiler -> 0.75 Alq/Prop : Alquiler -> 0.17
Hijos : 0 Prop -> 0.25 Prop -> 0.83
Alq/Prop : Alquiler -> 1.0 Sindic. : S -> 1.0 Sindic. : No -> 0.67
Sindic. : No -> 0.8 Bajas/Ao : 2 S -> 0.33
S -> 0.2 Antigedad : 8 Bajas/Ao : 5
Bajas/Ao : 8 Sexo : H -> 0.25 Antigedad : 8
Antigedad : 8 M -> 0.75 Sexo : H -> 0.83
Sexo : H -> 0.6 M -> 0.17
M -> 0.4

GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.


GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres.
GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.
36

Tipos de Estudios (tareas)


Tipos de conocimiento:
Asociaciones y dependencias (anlisis exploratorio): Una
asociacin entre dos atributos categricos ocurre cuando la
frecuencia de que se den dos valores determinados de cada
uno conjuntamente es relativamente alta.
Ejemplo, en un supermercado se analiza si los paales y
los potitos de beb se compran conjuntamente.
Correlaciones: Las correlaciones analizan las relaciones
bivariantes o multivariantes entre atributos numricos.
Ejemplo: analizar la relacin entre el nmero de llamadas
mensuales y el importe total de las ventas mensuales.

La bsqueda de asociaciones y dependencias, junto con los anlisis


correlacionales se conoce a veces como anlisis exploratorio.
37

Tipos de Estudios (tareas)


Tipos de conocimiento (cont.):

Agrupamiento / Segmentacin / Sumarizacin: El agrupamiento


(o clustering) es la deteccin de grupos de individuos. Se
diferencia de la clasificacin en el que no se conocen ni las
clases ni su nmero (aprendizaje no supervisado), con lo que el
objetivo es determinar grupos o racimos (clusters)
diferenciados del resto.
Ejemplo: determinar qu tipos de clientes tengo
atendiendo a sus patrones de compra.
38

Tipos de Estudios (tareas)


Tipos de conocimiento (cont.):

Clasificacin: Una clasificacin se puede ver como el


esclarecimiento de una dependencia, en la que el atributo
dependiente puede tomar un valor entre varias clases, ya
conocidas.
Ejemplo: obtener para qu pacientes una operacin de
ciruga ocular es satisfactoria segn los atributos edad,
nmero de miopas y astigmatismo
39

Tipos de Estudios (tareas)


Tipos de conocimiento (cont.):

Tendencias/Estimacin/Regresin: El objetivo es predecir los


valores de una variable continua a partir de la evolucin sobre
otra variable continua, generalmente el tiempo.
Ejemplo, se intenta predecir el nmero de clientes o
pacientes, los ingresos, llamadas, ganancias, costes, etc. a
partir de los resultados de semanas, meses o aos
anteriores.
40

Tipos de Estudios (tareas)


Tipos de conocimiento / Tareas (RESUMEN):
DESCRIPTIVOS (ningn atributo de salida):
RELACIN ENTRE VARIABLES (ATRIBUTOS):
Asociaciones y dependencias (si las variables son
categricas):
Correlaciones (si las variables son numricas).
RELACIN ENTRE INDIVIDUOS (EJEMPLOS)
Agrupamiento
PREDICTIVOS (un atributo de salida):
Clasificacin (si la variable de salida es categrica)
Regresin (si la variable de salida es numrica)
41

Tipos de Estudios y Tcnicas de Modelado

No hay que confundir los tipos de estudios con las


tcnicas de modelado que se pueden utilizar.

Ejemplos de Tcnicas:
rboles de decisin.
Regresin logstica.
Redes neuronales.
Algoritmo APRIORI.
Kmedias.

42

Tipos de Estudios y Tcnicas de Modelado

La tcnica utilizada afectar significativamente la


manera de expresar el conocimiento adquirido y su
comprensibilidad.
Ejemplo de tres modelos para el mismo problema:
Regresin lineal:
MedianumUrgSemana = 0,0051 * SemanaAnyo - 2,30 * lluviaMediaSemana
4,72 * NumFestivos + 0,61 * MedianumUrgSemanaMenos1 - 10072,9

rbol de regresin:
SI lluviaMediaSemana < 123,8 ENTONCES
MedianumUrgSemana = 0,0049 * SemanaAnyo - 2,57 * NumFestivos +
0,53 * MedianumUrgSemanaMenos1 10305,1
SI NO MedianumUrgSemana = 0,0052 * SemanaAnyo 3,20 * DasPuente +
0,67 * MedianumUrgSemanaMenos1 9823,7

Red neuronal
MedianumUrgSemana =
]MNdzD
43

Tipos de Estudios y Tcnicas de Modelado

Un tipo de tcnica puede servir para


varios tipos de estudios

Un tipo de estudio puede resolverse


con distintos tipos de tcnicas

Es necesario conocer qu tcnicas son posibles y ms


adecuadas para cada tipo de estudio
44

Correspondencia Tarea / Tcnica


PREDICTIVO DESCRIPTIVO
TCNICA
Clustering Reglas Otros (factoriales,
Clasificacin Regresin
(agrup.) asociacin correl, dispersin)

Redes Neuronales *
rboles de Decisin (c4.5) (CART)

Kohonen

Regresin lineal (local,


global), exp..
Reg. Logstica


Kmeans *
A Priori (asociaciones)

Estudios Factoriales,
anlisis multivariante
CN2

K-NN

RBF

Bayes Classifiers
45

Metodologa CRISP-DM
CRISP-DM (www.crisp-dm.org) (CRoss-Industry
Standard Process for Data Mining)
es un consorcio de empresas (inicialmente bajo una
subvencin inicial de la Comisin Europea), incluyendo
SPSS, NCR y DaimlerChrysler.

Comprensin Comprensin
del negocio de los datos

Preparacin
Despliegue de los datos

Modelado
Evaluacin
46

Metodologa CRISP-DM
Comprensin del negocio:
entender los objetivos y requerimientos del
proyecto desde una perspectiva de negocio.
Subfases:
establecimiento de los objetivos de negocio (contexto
inicial, objetivos y criterios de xito),
evaluacin de la situacin (inventario de recursos,
requerimientos, suposiciones y restricciones, riesgos y
contingencias, terminologa y costes y beneficios),
establecimiento de los objetivos de minera de datos
(objetivos de minera de datos y criterios de xito) y
generacin del plan del proyecto (plan del proyecto y
evaluacin inicial de herramientas y tcnicas).
47

Metodologa CRISP-DM
Comprensin de los datos:
recopilar y familiarizarse con los datos,
identificar los problemas de calidad de datos y
ver las primeras potencialidades o subconjuntos
de datos que puede ser interesante analizar
(segn los objetivos de negocio en la fase
anterior). Subfases:
recopilacin inicial de datos (informe de recopilacin),
descripcin de datos (informe de descripcin),
exploracin de datos (informe de exploracin) y
verificacin de calidad de datos (informacin de
calidad).
48

Metodologa CRISP-DM
Preparacin de los datos:
el objetivo de esta fase es obtener la vista
minable. Aqu se incluye la integracin,
seleccin, limpieza y transformacin. Subfases:
seleccin de datos (razones de inclusin / exclusin),
limpieza de datos (informe de limpieza de datos),
construccin de datos (atributos derivados, registros
generados),
integracin de datos (datos mezclados) y
formateo de datos (datos reformateados).
49

Metodologa CRISP-DM
Modelado:
es la aplicacin de tcnicas de modelado o de
minera de datos propiamente dichas a las vistas
minables anteriores. Subfases:
seleccin de la tcnica de modelado (tcnica de
modelado, suposiciones de modelado),
diseo de la evaluacin (diseo del test),
construccin del modelo (parmetros elegidos,
modelos, descripcin de los modelos) y
evaluacin del modelo (medidas del modelo, revisin de
los parmetros elegidos).
50

Metodologa CRISP-DM
Evaluacin:
es necesario evaluar (desde el punto de vista de
la finalidad) los modelos de la fase anterior. Es
decir, si el modelo nos sirve para responder a
algunos de los requerimientos del negocio.
Subfases:
evaluacin de resultados (evaluacin de los resultados
de minera de datos, modelos aprobados),
revisar el proceso (revisin del proceso) y
establecimiento de los siguientes pasos (lista de
posibles acciones, decisin).
51

Metodologa CRISP-DM
Despliegue:
se trata de explotar la potencialidad de los
modelos, integrarlos en los procesos de toma de
decisin de la organizacin, difundir informes
sobre el conocimiento extrado, etc. Subfases:
planificacin del despliegue (plan del despliegue),
planificacin de la monitorizacin y del mantenimiento
(plan de la monitorizacin y del despliegue),
generacin del informe final (informe final, presentacin
final) y
revisin del proyecto (documentacin de la
experiencia).
52

Metodologa CRISP-DM
Implantacin progresiva en una organizacin:

Planificacin y organizacin.
Identificar problemas de
minera de datos
Identificar Problemas
de Negocio

Extraccin de
Conocimiento
Iter. 1 Iter. 2

Evaluacin de
Resultados. Medida de
Difusin, Despliegue y Costes y Beneficios
Explotacin de Modelos
53

Herramientas
Paquetes de Minera de Datos:
Durante los 90, aparecen paquetes de minera de datos
desde diferentes mbitos:
como evolucin de paquetes o libreras de aprendizaje
automtico o reconocimiento de patrones: CART, See5,
Neuroshell, Weka, PRW, ..
como solucin de los grandes del anlisis de datos:
SPSS, SAS,
como complemento de las herramientas de business
intelligence y explotacin de datos: IBM, Oracle,
Microsoft, Teradata,
Incorporan tcnicas de preparacin de datos, de
modelado, de visualizacin y de evaluacin.
54

Herramientas

Elder Research,
www.datamininglab.com
55

Herramientas
Tipos de Herramientas:

Segn el acoplamiento:
Standalone: Los datos se deben exportar/convertir al formato
interno del sistema de DM: Angoss Knowledge Seeker, Weka, .
On-top: pueden funcionar sobre un sistema propietario (SPSS
Clementine sobre ODBC, ).
Embedded (funcionan integrados propietarios): Oracle Data
Miner, IBM...
Segn la extensibilidad y el uso directo en aplicaciones:
Se pueden aadir nuevos algoritmos fcilmente: Kepler, Weka,
Se puede (con paciencia): Clementine, Oracle
Complejo o imposible: SAS,
Segn la variedad de tcnicas:
Monotcnica: Neuroshell, CART, See5.0,
Suites: Clementine, Enterprise Miner, Oracle Data Miner
56

Herramientas
Costes:
Muy variables:
gratuito (p.ej. Weka, RapidMiner).
miles de euros (p.ej. SQL Server Data Mining)
decenas de miles euros (p.ej. IBM SPSS Modeler, Oracle, )
a cientos de miles de euros (inc. Hardware, p.ej. Teradata)

Herramientas Gratuitas ms importantes:

RapidMiner de Rapid-I (www.rapid-i.com).


WEKA (http://www.cs.waikato.ac.nz/~ml/weka/) (Libro: Witten &
Frank 2004)
Rproject: herramienta gratuita de anlisis estadstico (http://
www.R-project.org/)
57

Herramientas
EJEMPLO: IBM SPSS Modeler (www.spss.com)
Antes de que IBM comprara SPSS se llamaba
Clementine
Herramienta que incluye:
fuentes de datos (ASCII, XLS, ODBC, ).
interfaz visual.
distintas tcnicas de minera de datos: redes
neuronales, reglas, clustering, .
evaluacin por particin,
manipulacin de datos (combinacin y separacin).
gestin de proyectos (CRISP-DM), exportacin de
modelos,
Incluye herramientas para flujo de proceso: trata en el
proceso KDD como un proceso y las fases se pueden repetir,
modificar y grabar.
58

Herramientas
EJEMPLO: IBM SPSS Modeler (www.spss.com)
59

Herramientas
EJEMPLO: SAS ENTERPRISE MINER (EM)
Herramienta completa. Incluye:

interfaz grfico.
conexin a bases de datos (a travs de ODBC y SAS
datasets).
evaluacin por particin,
distintas tcnicas: rboles de decisin, redes
neuronales, regresin y clustering.
conversin de los modelos en cdigo SAS.

Incluye herramientas para flujo de proceso: trata en el


proceso KDD como un proceso y las fases se pueden
repetir, modificar y grabar.
60

Herramientas
EJEMPLO:

SAS
ENTERPRISE
MINER (EM)

(flujo del
proceso KDD)
61

Herramientas
Angoss Knowledge Seeker:
62

Herramientas
Oracle: Herramientas Business Intelligence y
Data Mining Oracle
Engine (Java DM) desde Oracle 9iEnterprise
Suite (OracleBi Data Miner). Planning &
Budgeting OracleActivity
Based
Oracle Definir Management
Modelar
Reports Hiptesis
Services Oracle
Balanced
Scorecard

OracleBI Difundir Oracle 10g Decidir


Spreadsheet (RDBMS con
Add-in OLAP y DM)

OracleBI
OracleBI Warehouse
Data Miner Analizar Builder Actuar
Oracle Daily
Non-Oracle Business
sources Rastrear Intelligence
Oracle
OracleBI
E-Business
Discoverer
Fuente: IDC, 2004 Suite
63

Herramientas
OracleBI Data Miner
64

Herramientas
MS SQL SERVER: Analysis Services

OLAP Services de SQL Server 97 se ampli a partir de SQL


Server 2000 con caractersticas de DM en el llamado
Analysis Services.
Reforzado en el SQL Server 2005.

Lenguaje DMX:

1. Crear el modelo
2. Entrenar el modelo
3. Realizar predicciones

La integracin y visualizacin es a veces mediante Data


Mining Client Ribbon o Excel.
65

Herramientas
Weka, University of Waikato, NZ. (cs.waikato.ac.nz)
66

Herramientas
Weka, University of Waikato, NZ. (cs.waikato.ac.nz)
67

Herramientas
RapidMiner (www.rapid-i.com)
68

Popularidad
Herramientas
Popularidad