You are on page 1of 52

rboles de decisin

Tema 9
Parte terica

Minera de datos
Dr. Francisco J. Mata 1
rboles de decisin
Conjunto de reglas representadas en
forma de una estructura de rbol

Minera de datos
Dr. Francisco J. Mata 2
rboles de decisin
Son muy tiles cuando hay ms de una manera
para convertirse en miembro de una clase meta
Modelo para encontrar tarjeta habientes rentables
puede identificar tres tipos de clientes:
Tarjeta habientes que mantienen saldos altos
Tarjeta habientes que compran mucho
Tarjeta habientes que ocasionalmente hacen compras
grandes y pagan sus balances a tiempo
Cada uno de estos representa un paso diferente a travs del
rbol.

Minera de datos
Dr. Francisco J. Mata 3
rboles de decisin
El paso a travs del
rbol de decisin Enva hijos
a escuela
explica la clasificacin pblica

Minera de datos
Dr. Francisco J. Mata 4
rboles de decisin
Cada hoja contiene
informacin sobre el
nmero de observaciones
que caen en ella y la
proporcin para cada
clase
La clase ms densa se
selecciona como la
clasificacin para el nodo

Minera de datos
Dr. Francisco J. Mata 5
rboles de decisin
Se utilizan para
Asignar scores a los datos
Explorar datos
Hacer clasificaciones y predicciones
Comprender que variables son ms
importantes

Minera de datos
Dr. Francisco J. Mata 6
rboles de decisin y scoring
Se puede asignar un score a los datos
de acuerdo a la hoja a la que fueron
clasificados

Minera de datos
Dr. Francisco J. Mata 7
rboles de decisin y scoring

Minera de datos
Dr. Francisco J. Mata 8
rboles de decisin y scoring
Problemas
Usualmente hay muy pocas hojas por lo que
hay pocos valores de scoring

Minera de datos
Dr. Francisco J. Mata 9
rboles de decisin y exploracin

rboles de decisin son tiles para


explorar un conjunto de datos y entender
cmo ciertas variables (input) inciden
sobre otra (target)

Minera de datos
Dr. Francisco J. Mata 10
rboles de decisin y exploracin

Penetracin de un
producto en ciudades

Ciudades
producto no
est bien

Ciudades
producto
est bien

Minera de datos
Dr. Francisco J. Mata 11
rboles de decisin y
clasificaciones/predicciones
Aplicacin ms comn

Minera de datos
Dr. Francisco J. Mata 12
rboles de decisin y
clasificaciones/predicciones
Predecir
clientes que
pondran
rdenes si
se les enva
catlogo de
Navidad,
basado en
aquellos
que pusieron
rdenes el
ao pasado

Minera de datos
Dr. Francisco J. Mata 13
rboles de decisin y variables
ms importantes
Ayuda a eliminar variables para otros
modelos, por ejemplo regresin

Minera de datos
Dr. Francisco J. Mata 14
rboles de decisin y variables
ms importantes

Minera de datos
Dr. Francisco J. Mata 15
Proceso para crear un rbol de
decisin
Se utiliza un conjunto de datos de
entrenamiento (training) para crear el
rbol
Se utiliza un conjunto de datos de
validacin para reducir la complejidad del
rbol y generalizarlo (proceso de poda o
pruning)
Eliminar el problema del overfitting

Minera de datos
Dr. Francisco J. Mata 16
Proceso para crear un rbol de
decisin
Tres conjuntos de datos obtenidos de
particionar el conjunto de datos original
Entrenamiento: 40%
Validacin: 30%
Prueba: 30%

Minera de datos
Dr. Francisco J. Mata 17
Algoritmos ms comunes para
rboles de decisin
CART (classification and regression
trees)
C4.5
CHAID (chi square automatic induction)
Varan en
Medida de pureza utilizada para los grupos
Forma de poda

Minera de datos
Dr. Francisco J. Mata 18
Creacin de rboles de decisin
Proceso recursivo
Se inicia con todos los datos del conjunto de adiestramiento en
la raz
Para cada variable input se decide la mejor forma para separar
los valores de la variable target
Se selecciona la variable input y criterio de mejor separacin
mediante sta para los valores de la variable target
Se divide el nodo en cuestin en dos o ms hijos de acuerdo
con aquella variable que mejor divide la variable target
Se repite proceso con los otros nodos hasta que no sea posible
ms divisiones

Minera de datos
Dr. Francisco J. Mata 19
Divisiones

Minera de datos
Dr. Francisco J. Mata 20
Divisiones
Medida para evaluar la calidad de una
divisin en un rbol de decisin se
denomina pureza

Minera de datos
Dr. Francisco J. Mata 21
Medidas de pureza
Depende de la variable target no de las
variables input
Variable target categrica
Gini (diversidad de poblacin)

Entropa (ganancia de informacin)

Radio de ganancia de informacin

Prueba chi cuadrado

Variable target intervalo o radio


Reduccin en varianza

Prueba F

Minera de datos
Dr. Francisco J. Mata 22
Pureza
ndice de Gini
Utilizado en las ciencias sociales y la economa
Probabilidad de que dos cosas escogidas al azar de
una poblacin sean la misma
Una poblacin pura tiene un ndice de Gini de 1
Si hay dos grupos igualmente representados en una
poblacin el ndice de Gini es 0.5
El ndice de Gini es la suma de los cuadrados de las
proporciones de las poblaciones
p1 2 + p 2 2
El objetivo es maximizar el ndice de Gini

Minera de datos
Dr. Francisco J. Mata 23
Gini

Minera de datos
Dr. Francisco J. Mata 24
Gini

Minera de datos
Dr. Francisco J. Mata 25
Gini

Minera de datos
Dr. Francisco J. Mata 26
Pureza
Entropa
Utilizada en la teora de la informacin para medir la
cantidad de informacin almacenada en un nmero
de bits
Una poblacin pura tiene una entropa de 0
Si existen dos grupos igualmente representados la
entropa es 1
Clculo de entropa
-(p1 log p1 + p2 log p2)
El objetivo es minimizar entropa

Minera de datos
Dr. Francisco J. Mata 27
Entropa

Minera de datos
Dr. Francisco J. Mata 28
Entropa

Minera de datos
Dr. Francisco J. Mata 29
Entropa

Minera de datos
Dr. Francisco J. Mata 30
Gini versus entropa
Entropa tiene preferencia por grupos ms
pequeos y puros
Gini tiene preferencia por grupos similares
en tamao

Minera de datos
Dr. Francisco J. Mata 31
Pureza
Chi cuadrado
Prueba importante en estadstica para medir la
probabilidad de que la frecuencia observada de una
muestra sea debida slo a la variacin de la muestra
Es relativa a la proporcin en la poblacin original
(nodo padre)
Si las proporciones en los hijos son las mismas que
en el padre entonces el valor de chi cuadrado es 0
Si los hijos son puros, el valor de chi cuadrado es alto
Para una poblacin dividida 50%-50%, el valor es
igual al tamao de la poblacin

Minera de datos
Dr. Francisco J. Mata 32
Pureza
Chi cuadrado
Clculo para el chi cuadrado para cada hijo:
(observado (c1) esperado (c1))2 / esperado (c1) +
(observado (c2) esperado (c2))2/ esperado (c2)
ci nmero de instancias de clase i en el hijo
obsevado (ci ): nmero de instancias observadas de
clase i en el hijo
esperado (ci ): nmero de instancias esperadas de clase
i en el hijo
tamao del hijo multiplicado por la proporcin de la
clase en el padre
El objetivo es maximizar chi cuadrado
Minera de datos
Dr. Francisco J. Mata 33
Chi cuadrado

Minera de datos
Dr. Francisco J. Mata 34
Chi cuadrado

Coinciden
en este caso

Minera de datos
Dr. Francisco J. Mata 35
Algoritmos y pureza
CART: Gini
C4.5: entropa
CHAID: chi cuadrado

Minera de datos
Dr. Francisco J. Mata 36
Valores perdidos
Tratamiento
Ignorar registros con valores perdidos (puede
introducir sesgo)
Tratar los valores perdidos como legtimos y
asignarlos a un nodo del rbol

Minera de datos
Dr. Francisco J. Mata 37
Error en un rbol de decisin
Para una hoja:
1-probabilidad de clase dominante para la
hoja
Para un rbol:
Suma ponderada de error de hoja i
multiplicada por probabilidad de que un
registro pertenezca a esta hoja

Minera de datos
Dr. Francisco J. Mata 38
Poda de rboles de decisin
Incrementa la estabilidad del modelo al
reducir su complejidad

Minera de datos
Dr. Francisco J. Mata 39
Poda

Minera de datos
Dr. Francisco J. Mata 40
Poda
Con el conjunto de entrenamiento, cada divisin
del rbol reduce el error
Pero al aumentar el nmero de hojas, stas
contienen menos registros o tuples y se reduce la
posibilidad de que la distribucin de resultados en
una hoja sea similar de un conjunto de datos a otros
(overfitting)
Los datos de prueba son utilizados para
encontrar el punto donde la complejidad
adicional empieza a daar en lugar de ayudar

Minera de datos
Dr. Francisco J. Mata 41
Poda

Minera de datos
Dr. Francisco J. Mata 42
Algoritmo tpico de poda
Identificar sub-rboles candidatos para poda
Tasa de error ajustada:
AE(T) = E(T) + leaf_count (T)

Se inicia considerando todos los subrboles que


contienen la raz
se incrementa
Si AE(Ti) <= E(T completo), Ti es un rbol candidato para
conservar y aquellas ramas que no pertenecen a l son
podadas
El proceso se repite de nuevo para los subrboles en
Ti

Minera de datos
Dr. Francisco J. Mata 43
Poda
Vara de acuerdo con los diferentes
algoritmos
CART
C4.5
CHAID

Minera de datos
Dr. Francisco J. Mata 44
Resultados clasificacin

Minera de datos
Dr. Francisco J. Mata 45
Resultados clasificacin
..
Es clasificada como
Mala Buena Total
Solicitud es Mala 313 140 453
realmente Buena 122 1809 1931
Total 435 1949 2384

Error clasificar solicitud como buena siendo mala: 140/453= 31%


Error clasificar solicitud como mala siendo buena: 122/1931= 6%
Error de mala clasificacin: (140+122)/2384=11%

Minera de datos
Dr. Francisco J. Mata 46
Resultados clasificacin
Clasificado 1 Clasificado 0
Realmente 1 Verdadero positivo Falso negativo
Realmente 0 Falso positivo Verdadero negativo

Minera de datos
Dr. Francisco J. Mata 47
Resultados clasificacin

Minera de datos
Dr. Francisco J. Mata 48
Resultados de clasificacin

Variable Adiestramiento Validacin


respuesta

1=malo
0=bueno

Minera de datos
Dr. Francisco J. Mata 49
Resultado clasificacin
Regla:
IF 492238.5 <= VALUE
AND DEBTINC < 45.43897
THEN
NODE : 5
N : 12
1 : 83.3%
0 : 16.7%

Interpretacin:
Condicin Resultado Probabilidad N*
esperado (Error de
clasificacin}*
492238.5 <= Solicitud mala 83% 12
VALUE AND (17%) (0.50%)
DEBTINC <
45.43897
Minera de datos
Dr. Francisco J. Mata 50
Ventajas de los rboles de
decisiones
Fcil de entender
Resultados se adaptan bien a reglas de
negocios
No se requieren suposiciones acerca de
los datos
Variables input pueden ser continuas y
categricas
Minera de datos
Dr. Francisco J. Mata 51
Desventajas de los rboles de
decisiones
Algunos algoritmos slo pueden tratar variables
target binarias
Otros algoritmos pueden tratar variables target
con ms de dos valores pero no funcionan bien
cuando el nmero de casos de entrenamiento
es pequeo por clase
Son costosos en trminos computacionales

Minera de datos
Dr. Francisco J. Mata 52

You might also like