You are on page 1of 17

rboles de Decisin

Data Mining with Rattle and R

Introduccin

Los rboles de decisin son los bloques de construccin tradicionales de la


minera de datos y los clsicos algoritmos de las mquinas de aprendizaje.

Se caracteriza por la simplicidad del modelo resultante, donde un rbol de


decisin es bastante fcil de ver, comprender, y sobre todo explicar.

La estructura del rbol de decisin puede representar clasificaciones o


modelos de regresin.

Representacin del conocimiento

Algoritmo de bsqueda

Medidas

Ejemplo

Parmetros de ajustes

Representacin del Conocimiento

La estructura de un rbol es usada en muchos campos diferentes, como en medicina, lgica,


solucin de problemas, y ciencia de la administracin. Tambin es una estructura tradicional de
la informtica para organizar datos.

Algoritmos

Identificando Modelos Alternativos

La estructura del rbol de decisin se utiliza para expresar nuestros


conocimientos.Una frase (o modelo) en este idioma es un rbol de decisin en
particular.Para cualquier conjunto de datos habran mucho o incluso infinitos
posibles arboles de decisin (sentencias).
Por lo general, tenemos una coleccion infinita de posibles frases para elegir.
Enumerar cada frase sea posible, y probar si es un buen modelo ,en general ,
ser demasiado costoso computacionalmente.

Dividir el conjunto de datos

El algoritmo se ha desarrollado para la induccin del rbol de decisin se conoce como


la induccin de arriba hacia debajo de los arboles de decisin , usando un enfoque
divide y venceras ,o particionamiento recursivo.

La distribucin de las observaciones, con respecto a la meta RainTomorrow variables,


es de particular inters. Hay 66 observaciones que tienen el objetivo como S (18%) y
300 observaciones con No (82%).

Ahora tenemos en cuenta las proporciones de S y No hay observaciones dentro de los


dos nuevos conjuntos de datos. Para el subconjunto de observaciones con sol menor
de 9, las proporciones son 28% y 72% S No. Para el subconjunto de observaciones con
sol mayor o igual a 9 las proporciones son del 5% y el 95% S No.

Queremos encontrar cualquier variable de entrada que se puede utilizar para dividir
el conjunto de datos en dos conjuntos de datos ms pequeos. El objetivo es
aumentar la homogeneidad de cada uno de los dos conjuntos de datos con respecto a
la variable de destino

La particin recursiva

El proceso se repite de nuevo ahora por separado para los dos


nuevo conjunto de datos. Es decir para el conjunto de datos
izquierda arriba (observaciones que tienen sol <9), consideramos
todas las variables posibles y se divide para particionar ese
conjunto de datos en dos conjunto de datos mas pequeos.
Independientemente , para el conjunto de datos a la
derecha(observaciones teniendo sol>=9) tenemos en cuenta todas
las variables posibles y se divide para particionar ese conjunto de
datos en dos conjuntos de datos mas pequeos tambin.En
general , podramos parar cuando se acaben las variables , se
queden sin datos o que al particionar el conjunto de datos no
mejora la proporciones o el resultado.

Medidas

Al describir el algoritmo bsico anterior , se indico que necesitamos medir lo


bien que es una particular particin del conjunto de datos

Ganancia de la informacin

Rattle utiliza una medida de ganancia de informacin para decidir entre


divisiones alternativas. El concepto viene de teora de la informacin y utiliza
una formulacin del concepto de la entropa de la fsica (es decir, el concepto
de la cantidad de desorden en un sistema). Se discuten los conceptos aqu en
trminos de una variable objetivo binario, pero el concepto generaliza a
mltiples clases e incluso a las variables objetivo numricos para tareas de
regresin

Desde una perspectiva de teora de la informacin, interpretamos una medida de 0 (es decir,
una entropa de 0) como indicativo de que no necesitamos ms informacin para clasificar una
observacin especfica dentro del conjunto de datos, todas las observaciones pertenecen a la
misma clase. Por el contrario, una medida de 1 sugiere que necesitamos la mxima cantidad de
informacin extra para clasificar nuestras observaciones en una de las dos clases disponibles. Si
la divisin entre las observaciones donde llueve maana y donde no llueve maana no es 50% /
50%, pero tal vez el 75% / 25%, entonces tenemos menos informacin adicional con el fin de
clasificar nuestras observaciones, el conjunto de datos ya contiene algunos informacin acerca
de qu manera la clasificacin se va a ir. Al igual que la entropa, nuestra medida de la
"informacin necesaria" es, pues, entre 0 y 1.

Formula para capturar la entropa de un


conjunto de datos

Otras medidas

Existe una variedad de medidas que se puede utilizar como alternativas a la


medida de informacin. La alternativa ms comn es el ndice de Gini de la
diversidad.

Este se introdujo en la construccin de rbol de decisin a travs de la CART


originales (clasificacin y el rbol de regresin) algoritmo (Breiman et al.,
1984).

Tutorial

Resumen

Algoritmos de rboles de decisin manejan tipos mixtos de variables y valores


perdidos, y son robustos a los valores atpicos y transformaciones montonas
de la entrada y de insumos irrelevantes. El poder predictivo de rboles de
decisin tiende a ser ms pobres que los de otras tcnicas que vamos a
introducir. Sin embargo, el algoritmo es generalmente sencillo, y la resultante
modelos son generalmente fcilmente interpretable. Esta ltima
caracterstica ha hecho que la decisin del rbol de induccin muy popular
durante ms de 30 aos.

En este captulo se ha introducido el concepto bsico de la representacin del


conocimiento como un rbol de decisin y present una medida para la
eleccin de un buen rbol de decisin y un algoritmo para la construccin de
uno.

Resumen de Comandos

Ctree() funcin Construye una rbol de inferencia condicional

Draw.tree() comando

Maptree paquete Proporciona draw.tree()

Party

Path.rpart() funcin Identifica el paquete a travs de un rbol de decisin

Plot ()

Plotcp() comando

Estructura el parmetro complejo.

Print () comando

Versin textual del rbol de decisin

Printcp()comando

Tabla de parmetros complejos

Rattle

Rpart() funcin Construye un modelo de rbol de decisin predictivo

Rpart

Grafica un rbol de decisin mejorada

paquete rboles de inferencia condicionales


comando

Gradica el rbol

paquete El conjunto de datos weather y GUI


paquete Provee funciones del rbol de decisin

You might also like