Professional Documents
Culture Documents
PARTE DM
Objetivos Tema 2
• Conocer el proceso de integración y preparación de
datos y sus técnicas más relevantes.
• Conocer las distintas técnicas de aprendizaje
automático y estadísticas utilizadas en minería de
datos, su potencial, su coste computacional y sus
limitaciones de representación y de inteligibilidad.
• Conocer los métodos descriptivos y predictivos más
importantes.
• Utilizar métodos de combinación de técnicas (p.ej.
voting) y de reiteración (p.ej. boosting).
• Conocer medidas de evaluación de modelos (p.ej.
validación cruzada).
• Establecer nociones sobre implantación y
mantenimiento de modelos.
3
2. El proceso de KDD.
Técnicas de Minería de Datos
En la inmensa mayoría de
los casos se utiliza
minería de datos dirigida
Integración de Datos
§ Una vez definidos y seleccionados los objetivos de
análisis es necesario esclarecer qué datos son
necesarios para poder obtener los modelos
deseados:
Es necesario RECOPILAR e
INTEGRAR los datos.
§ Dos aproximaciones:
§ Recoger exclusivamente los datos necesarios para el
objetivo u objetivos de análisis en cuestión.
§ Crear un repositorio de datos para permitir este y otros
análisis ulteriores.
8
Integración de Datos
§ Generalmente, la información que se quiere investigar sobre
un cierto dominio de la organización se encuentra:
§ en bases de datos y otras fuentes muy diversas,
§ tanto internas como externas.
§ muchas de estas fuentes son las que se utilizan para el
trabajo transaccional.
§ se requiere un histórico suficiente (1, 5 o 10 años
dependiendo del ámbito.
§ el nivel de detalle (granularidad) para la minería de datos
ha de ser alto.
§ volúmenes de datos muy grandes.
9
Integración de Datos
Integración de Datos
§ Recogida de Información
Fuente de Fuente de
Datos 1 Datos 3 Fuente de
texto Datos 2
HTML
Base de Datos
Transaccional 1
Fuentes
Externas
Informes
Fuentes
Internas
texto
Base de Datos
Transaccional 2
Repositorio o
Almacén de Datos
11
Integración de Datos
§ Recogida de Información Interna
§ Diferentes formatos:
§ Bases de datos operacionales…
§ Hojas de cálculo…
§ Informes internos: estratégicos…
§ Reglas de negocio…
§ La integración es costosa y difícil hacia un único
formato.
12
Integración de Datos
§ Recogida de Información Interna
§ Información no siempre adecuada:
§ Datos insuficientes:
§ Ejemplo: el formulario de alta de un nuevo cliente pide la
nacionalidad del cliente, pero no los hábitos alimenticios o
el tipo de trabajo (sólo cuenta propia o ajena o parado).
Estos factores no podrán entrar en el análisis.
§ Datos incompletos o de baja calidad:
§ Ejemplo: el formulario permite dejar algunos campos en
blanco. Los datos de la tarjeta no se actualizan si el cliente
cambia de domicilio, de trabajo, de pareja, …
13
Integración de Datos
§ Recogida de Información Externa
§ Necesidad de fuentes muy diversas:
§ Demografías (censo), páginas amarillas, usos y hábitos
de la población, penetración de teléfono, luz o Internet.
§ Datos compartidos en una industria o área de negocio,
organizaciones y colegios profesionales, catálogos, etc.
§ Datos resumidos de áreas geográficas, distribución y
precios de la competencia, evolución de la economía...
§ Información de calendarios y climatológicas,
información de tráfico, programaciones televisivas-
deportivas, catástofres,..
§ Bases de datos externas compradas a otras compañías.
14
Integración de Datos
§ ¿Es necesario siempre tener un almacén de datos para hacer
minería de datos?
§ NO
Preparación de Datos
§ La preparación de datos es una de las fases del
proceso de extracción de conocimiento a partir de
datos (KDD).
Preparación de Datos
VISTA MINABLE
D-crédito C-crédito Salario Casa Cuentas Devuelve-
Idc …
(años) (euros) (euros) propia morosas crédito
... … … … … … … …
Preparación de Datos
Examinando
dato a dato con
TableLens
§ Podemos
detectar:
§ Valores
despreciables
(agrupar valores como
otros)
24
Podemos detectar:
Reducción de datos:
Maldición de la dimensionalidad
EJEMPLO:
Una tabla de cestas de la compra, donde cada atributo indica
si el producto se ha comprado o no.
§ Objetivo: Ver si dos productos se compran conjuntamente
(regla de asociación).
Sin embargo...
Productos sólo hay unos 8.000.
31
B1 B2 B3 B4 B5 B6 ...
Jabón X X
Huevos X X
Patatas Fritas X X X
Champú X X
Jabón + Champú X X
Huevos + Patatas X X
Creación de atributos:
§ En otras ocasiones añadir atributos nuevos puede mejorar el
proceso de aprendizaje
8
7
Datos § La regresión lineal no se
6
Modelo Lineal At. Originales aproxima a la solución
Ventas (mill. euros)
Creación de atributos:
§ El conocimiento del dominio es el factor que más determina la
creación de buenos atributos derivados
Atributo Derivado Fórmula
Síntomas SARS 3-de-5 (fiebre alta, vómitos, tos, diarrea, dolor de cabeza)
Riesgo póliza X-de-N (edad < 25, varón, años de carné < 2, vehículo deportivo)
Discretización:
La discretización, o cuantización (también llamada “binning”)
es la conversión de un valor numérico en un valor nominal
ordenado.
Discretización :
Ejemplo: atributo “tícketssemanales” (numérico, de 1 a 15).
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Numerización:
Numerización:
Normalización:
§ …
Selección de características:
Existen dos tipos generales de métodos para seleccionar
características:
Muestreo:
La manera más directa de reducir el tamaño de una población
o conjuntos de individuos es realizar una selección o muestreo.
Nos podemos plantear dos situaciones, dependiendo de la
disponibilidad de la población:
• Se dispone de la población: en este caso se ha de
determinar qué cantidad de datos son necesarios y cómo
hacer la muestra
• Los datos son ya una muestra de realidad y sólo
representan una parte de esta realidad
42
Tipos de muestreo:
Muestreo:
Modelado
Modelado
T1 1 1 0 0 0 1 0
T2 0 1 1 0 0 0 0
T3 0 0 0 1 1 1 0
T4 1 1 0 1 1 1 1
T5 0 0 0 0 0 1 0
T6 1 0 0 0 0 1 1
T7 0 1 1 1 1 0 0
T8 0 0 0 1 1 1 1
T9 1 1 0 0 1 0 1
T10 0 1 0 0 1 0 0
50
Ejemplo:
53
Mary
55
Se denomina
Dendograma o
Hierarchical
Tree Plot:
57
Gráficas:
Enrique Vidal
58
Métodos:
§ k-NN.
§ K-medias.
§ basados en centroides.
§ SOM (Self-Organizing Maps) o Redes Kohonen.
§ El algoritmo Cobweb.
§ El algoritmo AUTOCLASS.
59
G4
G2
G3
k-medias:
§ Se utiliza para encontrar los k puntos más densos en un
conjunto arbitrario de puntos.
k-medias:
2 2
1 1
2 2
3 3 3 3
1 1 1 1
1 1 x2 x1 1 1
2 2 3
3 x
2 3 2 3
3
3 1 3 1
2 2 2
2 2 2
1 1 1
2 1 2 2 1 1 2 2 1 1
2
x2 x1
1 2 x x 1 2 x x 1
1 1 1 1 1 1
2 3 2 3
3 x
2 3 2 3 2 1
3 x3 3 x3
2 3 2 3 3 3
2 2 2 2 2
2 2
2
1 1 x 1
2 22 2
x 1
x 1
1 x 1
x 1
1
1 1
2
1 1
2
1 1
2
1 x11
3 3 3
2 1 3 1 3 3 3 1
3
x3 x
3 3 x
3 3 3 3 3 3
62
Estimación
fˆ ( x) = w0 + w1 x1+... + wn xn
y = ln(f)
§ Se hace regresión lineal para calcular los coeficientes y a la
hora de predecir se calcula la f = ey.
f’ = ey
? ? ?
f= ln(p/(1-p)))
72
Clasificación: k-NN:
1. Se miran los k casos más cercanos.
2. Si todos son de la misma clase, el nuevo caso se
clasifica en esa clase.
3. Si no, se calcula la distancia media por clase o se asigna
a la clase con más elementos.
? Clasifica ? Clasifica
círculo cuadrado
W1,1
W2,1 W3,1
W4,1 W5,1
Entradas x1 x2 x3 x4 x5
PARTICIÓN
LINEAL
POSIBLE
PARTICIÓN
LINEAL
IMPOSIBLE
76
Salidas y1 y2 y3
Capa
h1,1 h1,3 h1,5
oculta h1,2 h1,4
Entradas x1 x2 x3 x4
77
PARTICIÓN NO LINEAL
MÚLTIPLE POSIBLE CON
4 UNIDADES INTERNAS
Separa Separa
perfectamente, perfectamente,
pero los tres pero además los
ejemplos más ejemplos más
cercanos cercanos
(vectores soporte) (vectores soporte)
están muy cerca están lo más lejos
de la frontera. posible de la
frontera.
79
X>0.25 Y>0.25
PARTICIÓN No Sí
X>0.66
X>0.66
CUADRICULAR. X>0.75
No Sí No Sí
X>0.75
Y>0.6
1 No Sí
Y>0.25 Y>0.6
81
Sunny Rain
Overcast
NO YES NO YES
§ Representación Lógica:
(Outlook=Sunny AND Humidity=Normal) OR (Outlook=Overcast) OR
(Outlook=Rain AND Wind=Weak)
P.ej., la instancia:
(Outlook = sunny, Temperature = cool, Humidity = high, Wind = strong) es NO.
83
Modelado
Modelado
Redes k-NN
Neuronales
Multicapa
85
Modelado
Modelado
Evaluación
Evaluación
Evaluación
§ Evaluación de modelos predictivos:
¿Qué medida usamos para comparar el
valor correcto “f” del valor estimado “h” ?
§ Clasificación:
§ %Acierto o, inversamente, %Error
§ Alcance y precisión (recall & precision).
§ Área bajo la curva ROC.
§ …
§ Regresión:
§ Error cuadrático medio.
§ Error absoluto medio.
§ …
90
Evaluación
§ Evaluación de modelos predictivos:
§ Dado un conjunto S de n datos, el error se define:
§ Clasificación: Error
1
errorS (h) = ∑ ∂( f ( x), h( x))
n x∈S
donde δ(a,b)=0 si a=b y 1 en caso contrario.
Compra Compra No
No Compra No Compra No
91
Evaluación
§ Evaluación de modelos predictivos:
§ Dado un conjunto S de n datos, el error se define:
§ Regresión: Error Cuadrático Medio
1
errorS (h) = ∑ ( f ( x) − h( x))2
n x∈S
Valor predicho (h(x)) Valor real (f(x)) Error Error2
100 mill. € 102 mill. € 2 4
102 mill. € 110 mill. € 8 64
105 mill. € 95 mill. € 10 100
95 mill. € 75 mill. € 20 400
101 mill. € 103 mill. € 2 4 Error = 744/10 = 74,4
105 mill. € 110 mill. € 5 25
105 mill. € 98 mill. € 7 49
40 mill. € 32 mill. € 8 64
Evaluación
§ Evaluación de modelos predictivos.
§ ¿Qué muestra S usamos para evaluar las medidas
anteriores?
§ Si usamos todos los datos para entrenar los modelos
y esos mismos datos para evaluar, tendremos:
§ sobreajuste (over-fitting).
Evaluación
§ Evaluación de modelos predictivos.
entrenamiento
prueba
Evaluación
94
Evaluación
§ Evaluación de modelos predictivos.
Evaluación
§ Evaluación de modelos predictivos.
§ Validación cruzada (detalle):
h1
Aprendizaje
Entrenamiento
§ Se realizan n particiones,
incluyendo n-1 pliegues
Datos
Evaluación
para entrenamiento y 1
Test
para evaluación.
§ El error medio se calcula
promediando las 10 veces.
Aprendizaje
hn § Se reentrena un último
Entrenamiento
modelo con todos los
datos.
Evaluación
Test
96
Evaluación
§ Evaluación de Modelos Descriptivos:
§ Reglas de asociación:
§ Evaluación sencilla:
§ soporte
§ confianza
§ Se ordenan usando funciones que combinan ambos
indicadores.
Evaluación
§ Evaluación de Modelos Descriptivos:
§ Agrupamiento: mucho más compleja
Evaluación
§ Soluciones:
§ Utilizar sobremuestro...
§ Macromedia,
§ Análisis ROC
99
Evaluación
Evaluación
§ Evaluación con sesgos o desequilibrios.
§ Desequilibrios: Solución → MACROMEDIA:
§ Otra solución es evaluar usando la macromedia, en vez
del porcentaje de aciertos.
aciertosclase 1 aciertosclase 2 aciertosclase m
+ + ... +
totalclase 1 totalclase 2 totalclase m
macromedia(h) =
m
§ Ejemplo anterior:
§ Acierto global: 99%
§ Macromedia:
Acierto para la clase sí: 100%
Acierto para la clase no: 0% Se ve claramente que
MACROMEDIA: 50% el modelo es inútil
101
Evaluación
Evaluación
COST actual
low medium high
low 0€ 5€ 2€
predicted medium 200€ -2000€ 10€
high 10€ 1€ -15€
Coste total:
ERROR actual
low medium high
-29787€
low 20 0 13
predicted medium 5 15 4 Se elegirá el modelo
high 4 7 60 de menor coste, no el
de menor error
103
Evaluación
§ Con un α = 0,01:
§ Si el error es -200 el Coste= 0,86
§ Si el error es +200 el Coste= 6,3
§ De modo similar, se elige el modelo que minimice la
función de coste.
104
Evaluación
Aplicación de Modelos
Aplicación de Modelos
Árbol de
decisión
107
Aplicación de Modelos
Comparación de
clústers creados
con K-Medias
108
Aplicación de Modelos
Representación
© Francisco Javier
de clústers en Ferrer Troyano
3D.
109
Aplicación de Modelos
Reglas de
asociación
Aplicación de Modelos
§ Mailings:
§ Existen técnicas específicas para evaluar la conveniencia de
campañas de ‘mailings’ (propaganda por correo selectiva):
§ EJEMPLO: Supongamos que una empresa de venta de productos por
catálogo posee una base de datos de clientes. Esta empresa desea
promocionar la venta de un nuevo producto de otra división del grupo.
Aplicación de Modelos
§ Mailings:
1. Selección de una muestra aleatoria y suficientemente
numerosa de clientes
2. Se realiza el envío de la propaganda a los clientes
seleccionados
3. Una vez pasado un tiempo prudencial etiquetamos a los
clientes de la muestra: 1 ha comprado el producto, 0 no ha
comprado el producto
4. Con la muestra etiquetada aprendemos un clasificador
probabilístico
§ Asigna a cada ejemplo (cliente) no la clase predicha,
sino una estimación de la probabilidad de respuesta
de ese cliente
112
Aplicación de Modelos
§ Mailings:
§ Con el clasificador probabilístico podemos ordenar a los clientes
según su interés y dibujar un gráfico de respuesta acumulada
100%
90%
80%
70%
60%
Sin modelo
50%
Modelo
40%
30%
20%
10%
0%
0%
%
%
%
%
%
%
%
%
%
0%
10
20
30
40
50
60
70
80
90
10
Aplicación de Modelos
§ Además si estimamos la matriz de coste, podemos conocer la
configuración optima mediante los gráficos de beneficio
§ Configuración 1: Coste inicial de la campaña 10.000€, coste de envío de
cada folleto 1,5€. Por cada producto vendido ganamos 3€
§ Configuración 2: Coste inicial de la campaña 20.000€, coste de envío de
cada folleto 0,8€. Por cada producto vendido ganamos 2,5€
30.000 €
20.000 €
10.000 €
0€
-10.000 € Configuración 1
-20.000 € Configuración 2
-30.000 €
-40.000 €
-50.000 €
-60.000 €
0%
0%
%
%
10
20
30
40
50
60
70
80
90
10
114
Aplicación de Modelos
Combinación de Hipótesis:
La opinión de 10 expertos es mejor
que la opinión de 1 experto.
§ Combinación:
§ Se utiliza DISTINTOS algoritmos para aprender distintas
hipótesis sobre todo el conjunto de los datos.
§ Luego se combinan las distintas hipótesis.
Aplicación de Modelos
Potenciación mediante Combinación de Hipótesis:
§ BOOSTING:
§ Se utiliza el MISMO algoritmo para aprender distintas hipótesis sobre
los mismos datos, aumentando el peso de aquellos ejemplos que han
sido clasificados incorrectamente. Luego se combinan las distintas
hipótesis.
§ BAGGING:
§ Se utiliza el MISMO algoritmo para aprender distintas hipótesis sobre n
muestras de m de los m datos con reemplazamiento (bootstrap). Luego
se combinan las distintas hipótesis.
116
§ Monitorización:
§ Detecta si es necesaria la revisión.
§ Evaluación periódica del modelo con datos frescos.
§ Receptividad ante los comentarios de los usuarios.
§ Evalúa cambios de contexto.
§ Revisión:
§ Parcial: parte del modelo se cambia (p.ej. las reglas
obsoletas) y parte del modelo se preserva.
§ Total: el nuevo modelo se cambia drásticamente o se
reentrena completamente.