Arvores Decisao

IA004 Profs. Fernando J. Von Zuben & Romis R. F.
Attux DCA/FEEC/Unicamp
rvores de Deciso
ndice
Introduo ....................................................................................................................................................... 2 rvores de deciso e a tarefa de classificao ................................................................................................ 6 Principais conceitos vinculados induo de rvores de deciso................................................................. 15 3.1 Top-Down Induction of Decision Tree (TDIDT) ........................................................................................ 16 3.2 Escolha dos atributos preditivos para os ns da rvore .......................................................................... 19 3.3 Ganho de informao .............................................................................................................................. 21 3.4 Razo de Ganho ....................................................................................................................................... 23 3.5 Gini ........................................................................................................................................................... 24 3.6 Representao dos ns para atributos categricos ................................................................................. 26 3.7 Representao dos ns para atributos contnuos ................................................................................... 29 3.8 Mtodos de poda..................................................................................................................................... 31 4. Algoritmos de induo de rvores de deciso .............................................................................................. 35 4.1 ID3............................................................................................................................................................ 36 4.2 C4.5 .......................................................................................................................................................... 37 4.3 CART ........................................................................................................................................................ 40 5. Referncias bibliogrficas ............................................................................................................................. 42 Obs: O contedo deste tpico est baseado no captulo de rvores de Deciso constante da Tese de Doutorado de Mrcio Porto Basgalupp (BASGALUPP, 2010) e tambm em FERREIRA (2008).
Tpico 7 rvores de Deciso
1. 2. 3.
IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp
1. Introduo Boa parte das aplicaes de relevncia prtica em inteligncia artificial est baseada na concepo de modelos computacionais do conhecimento empregado por um especialista humano. Na sntese de modelos de classificao, a associao entre as classes e o conjunto de atributos que caracterizam os objetos a serem classificados pode se dar de formas variadas, empregando processamento simblico e/ou numrico. A construo dos modelos computacionais de classificao geralmente emprega um dentre dois paradigmas alternativos: Top-down: obteno do modelo de classificao a partir de informaes fornecidas por especialistas; Bottom-up: obteno do modelo de classificao pela identificao de relacionamentos entre variveis dependentes e independentes em bases de
dados rotuladas. O classificador induzido por mecanismos de generalizao fundamentados em exemplos especficos (conjunto finito de objetos rotulados). Existem propostas tambm para dados no-rotulados. As rvores de deciso, tema deste tpico do curso, esto fundamentadas no paradigma bottom-up e sua aplicao requer as seguintes condies: Toda informao sobre cada objeto (caso) a ser classificado deve poder ser expressa em termos de uma coleo fixa de propriedades ou atributos. Dessa forma, objetos distintos no podem requerer colees distintas de atributos. Bases de dados que atendem a este requisito so denominadas flat files. O nmero de classes pode ser definido a priori, o que transforma a modelagem num processo de treinamento supervisionado, ou ento ser definido automaticamente a partir dos dados disponveis, o que caracteriza um processo de treinamento no-supervisionado.
H duas possibilidades de classes: classes discretas e classes contnuas. Quando um objeto pertence ou no pertence a uma determinada classe, no havendo a possibilidade de pertinncia gradual, nos referimos a classes discretas, em contrapartida a classes de valores contnuos. Algumas rvores de deciso vo trabalhar apenas com classes discretas, enquanto que outras admitem classes contnuas (resolvem problemas de regresso). Deve haver uma quantidade bem maior de objetos do que classes, inclusive para permitir a aplicao de testes estatsticos. A quantidade adequada de objetos vai depender do nmero de atributos, do nmero de classes e da complexidade intrnseca ao modelo de classificao. A tarefa de classificao deve poder ser implementada de forma lgica, ou seja, empregando uma base de regras de deciso. Assim, a classificao de cada objeto pode ser descrita por uma expresso lgica. Em contrapartida a este requisito, podemos mencionar a classificao por operaes aritmticas,
empregada em discriminantes lineares, por exemplo, que realizam a classificao por uma combinao linear dos atributos, seguida da comparao com um limiar. Dessa forma, sero consideradas neste estudo bases de dados constitudas por objetos descritos por um conjunto de atributos (propriedades, caractersticas), sendo que a cada objeto deve ser associada uma classe, dentre um conjunto de classes possveis. Os atributos so variveis observveis e independentes, que assumem valores em variados domnios. Costuma-se especificar os atributos da seguinte forma: Contnuos: assumem valores numricos em intervalos no eixo dos nmeros reais; Categricos ordinais: assumem um conjunto finito de valores, que podem ser ordenados; Categricos no-ordinais: assumem um conjunto finito de valores que no podem ser ordenados.
A classe uma varivel dependente cujo valor definido a partir das variveis independentes, ou seja, a partir dos atributos. rvores de deciso so geralmente aplicadas junto a grandes bases de dados. Para tanto regularidades implcitas presentes na base de dados devem ser descobertas automaticamente e expressas, predominantemente, na forma de regras. Conhecimentos de Inteligncia Artificial e Estatstica so comumente empregados para a gerao das rvores de deciso. 2. rvores de deciso e a tarefa de classificao O aprendizado indutivo de rvores de deciso geralmente dividido em aprendizado supervisionado e no-supervisionado, embora o aprendizado semi-supervisionado tambm tem sido considerado ao longo dos ltimos anos (CHAPELLE et al., 2006). Uma tarefa de classificao bastante conhecida o diagnstico mdico, em que para cada paciente so definidos atributos contnuos ou categricos ordinais (Ex: idade,
altura, peso, temperatura do corpo, batimento cardaco, presso, etc.) e atributos categricos no-ordinais (Ex: sexo, cor da pele, local da dor, etc.). A tarefa do classificador realizar um mapeamento dos atributos para um diagnstico (Ex: saudvel, pneumonia, Influenza A, etc.). Na Figura 1, ilustrado um diagrama do processo de induo de um classificador e, posteriormente, a sua utilizao. Primeiro, o conjunto de treinamento, no qual os rtulos das classes dos exemplos so conhecidos, utilizado por um algoritmo de aprendizado para construir um modelo. Aps a construo, esse classificador pode ser aplicado para predizer os rtulos das classes dos exemplos do conjunto de teste, ou seja, exemplos cujas classes so desconhecidas. De acordo com TAN et al. (2005), a classificao pode ser utilizada para os seguintes propsitos: modelagem descritiva e modelagem preditiva.
Figura 1 Induo de um classificador e deduo das classes para novas amostras Na modelagem descritiva, um modelo de classificao utilizado como uma ferramenta para distinguir exemplos de diferentes classes. Como exemplo, um mdico
pode utilizar um modelo de classificao para identificar quais so as principais causas (sintomas) de uma determinada doena. A partir disso, possvel chegar a concluses, por exemplo, de que na grande maioria dos casos o paciente que est com a doena Influenza A apresentou febre e pneumonia. Quando h o interesse em anlise descritiva, desejvel que o modelo de classificao seja fcil de interpretar, ou seja, que fique claro ao usurio o porqu de um determinado exemplo pertencer a uma determinada classe. Na modelagem preditiva, um modelo de classificao utilizado para classificar exemplos cujas classes so desconhecidas, ou seja, exemplos que no foram utilizados na construo do modelo. Como exemplo, um mdico pode utilizar um conjunto de dados histricos de seus pacientes, em que as classes (diagnstico) j so conhecidas,
para construir um modelo de classificao a ser utilizado para diagnosticar novos pacientes. Dependendo da rea de aplicao, a interpretabilidade do modelo de classificao no essencial para a predio. No exemplo anterior, seria interessante um modelo com boa interpretabilidade, tornando possvel medicar o paciente para combater os sintomas apresentados e, consequentemente, tratar da doena diagnosticada. As rvores de deciso constituem uma tcnica muito poderosa e amplamente utilizada em problemas de classificao. Uma das razes para que esta tcnica seja bastante utilizada o fato do conhecimento adquirido ser representado por meio de regras. Essas regras podem ser expressas em linguagem natural, facilitando o entendimento por parte das pessoas.
10
Como exemplos de modelos de classificao que no so baseados em regras, temos: k-vizinhos mais prximos, mquinas de vetores-suporte (SVM) e redes neurais artificiais. Para ilustrar o funcionamento bsico de uma rvore de deciso, pode ser considerado novamente o problema de diagnosticar pacientes (Figura 1). Suponha que um novo paciente chegue ao consultrio do mdico. Como o mdico poderia diagnosticar o paciente? A primeira pergunta que pode ser feita ao paciente se ele tem sentido dor (corresponderia ao n-raiz da rvore de deciso). A seguir, outras perguntas podem ser feitas, dependendo da resposta obtida. Por exemplo, se o paciente est tendo febre ou enjoos, ou ainda se tem notado alguma mancha no corpo. O exemplo anterior apresenta uma forma de solucionar um problema de classificao por meio de uma sequncia de perguntas sobre uma srie de caractersticas de um
11
objeto (no caso, um paciente). Uma vez obtida a resposta quela pergunta, outra pode ser realizada at que se chegue a uma concluso sobre a classe a que pertence o objeto. Essa sequncia de perguntas e suas possveis respostas podem ser organizadas na forma de uma rvore de deciso, a qual uma estrutura hierrquica composta por ns e arestas. Dessa forma, possvel utilizar uma rvore de deciso para classificar um novo paciente como saudvel ou doente. Para isso, basta partir do n raiz da rvore e ir percorrendo-a, atravs das respostas aos testes dos ns internos, at chegar em um n folha, o qual indica a classe correspondente do novo paciente. Alm da obteno da classe, a grande vantagem que a trajetria percorrida at o n folha representa uma regra, facilitando a interpretabilidade do modelo pelo usurio, no caso um mdico. A Figura 2 mostra uma rvore de deciso, que uma estrutura que contm:
12
folha(s), indicando uma classe; n(s) de deciso, que define(m) algum teste sobre o valor de um atributo especfico (ou de um subconjunto de atributos), com um ramo e sub-rvore para cada um dos valores possveis do teste.
Saldo em conta corrente
Positivo Cliente sem risco
Negativo Aplicaes Sim Cliente sem risco No Cliente com risco
Figura 2 Exemplo fictcio de rvore de deciso, tomando atributos de clientes de alguma instituio financeira.
13
Partindo da raiz, a cada n de deciso o resultado do teste de deciso determinado e inicia-se o processo pela raiz da sub-rvore correspondente a esse resultado. Um mesmo conjunto de dados pode gerar vrias rvores de deciso distintas. Assim, usando o exemplo da Figura 2, o n raiz poderia ser Aplicaes em vez de Saldo em conta corrente, fazendo com que o n Saldo em conta corrente passe a ocupar uma outra posio na rvore. Essa troca de ns faz com que seja necessrio percorrer um caminho maior ou menor para se chegar a uma deciso. Na construo da rvore de deciso, procura-se associar a cada n de deciso o atributo mais informativo entre aqueles ainda no utilizados no caminho desde a raiz da rvore. Iremos tratar de Teoria de Informao mais adiante no curso. No entanto, cada algoritmo tem a sua prpria metodologia para distinguir o atributo mais informativo, fazendo com que a topologia da rvore e a qualidade da rvore variem em funo do algoritmo utilizado.
14
3. Principais conceitos vinculados induo de rvores de deciso Uma vez construda uma rvore de deciso, seu uso imediato e muito rpido computacionalmente. Alm disso, a interpretabilidade da rvore de deciso um de seus pontos fortes. No entanto, a construo de uma rvore de deciso, chamado de processo de induo, pode ser uma tarefa de alta demanda computacional. Embora a induo de uma rvore de deciso possa ser realizada de forma manual, numa abordagem top-down, as principais demandas por rvores de deciso geralmente recorrem a processos automticos de induo, numa abordagem bottom-up, a partir de dados disponveis. Todo processo de induo possui um bias indutivo, associado preferncia de uma hiptese sobre outras, supondo a existncia de hipteses que so igualmente consistentes.
15
H muitas maneiras de uma rvore de deciso ser estruturada a partir de um conjunto de atributos. De forma exaustiva, o nmero de rvores de deciso possveis cresce fatorialmente medida que o nmero de atributos aumenta. Logo, torna-se impraticvel definir a estrutura da rvore de deciso tima para um determinado problema, devido ao elevado custo computacional envolvido nessa busca. Nesse sentido, algoritmos baseados em heursticas tm sido desenvolvidos para a induo de rvores de deciso. Mesmo que eles no garantam uma soluo tima, apresentam resultados satisfatrios em tempo factvel.
3.1 Top-Down Induction of Decision Tree (TDIDT)
O Top-Down Induction of Decision Tree (TDIDT) um algoritmo bem conhecido e utilizado como base para muitos algoritmos de induo de rvores de deciso, dentre eles os mais conhecidos como ID3 (QUINLAN, 1986), C4.5 (QUINLAN, 1993) e CART (BREIMAN et al., 1984).
16
O TDIDT produz regras de deciso de forma implcita numa rvore de deciso, a qual construda por sucessivas divises dos exemplos de acordo com os valores de seus atributos preditivos. De acordo com BRAMER (2007), esse processo conhecido como particionamento recursivo. O esqueleto do algoritmo de TDIDT baseado em trs possibilidades sobre um conjunto de treinamento T contendo classes C1, C2, ..., Ck: 1. T contm um ou mais objetos, sendo todos da classe Cj. Assim, a rvore de deciso para T um n folha que identifica a classe Cj. 2. T no contm objetos. A rvore de deciso tambm um n folha, mas a classe associada deve ser determinada por uma informao externa. Por exemplo, podese utilizar o conhecimento do domnio do problema. 3. T contm exemplos pertencentes a mais de uma classe. Neste caso, a ideia dividir T em sub-conjuntos que so, ou tendem a dirigir-se para, colees de
17
exemplos com classes nicas. Para isso, escolhido um atributo preditivo A, que possui um ou mais possveis resultados O1, O2, ..., On. T particionado em subconjuntos T1, T2, ..., Tn, onde Ti contm todos os exemplos de T que tm resultado Oi para o atributo A. A rvore de deciso para T consiste de um n de deciso identificando o teste sobre o atributo A, e uma aresta para cada possvel resultado, ou seja, n arestas. No lugar de um nico atributo A, pode tambm ser considerado um subconjunto de atributos. O mesmo algoritmo de induo de rvores de deciso (passos 1, 2 e 3) aplicado recursivamente para cada sub-conjunto de exemplos Ti, com i variando de 1 at n. Basicamente, o algoritmo TDIDT um algoritmo recursivo de busca gulosa que procura, sobre um conjunto de atributos, aqueles que melhor dividem o conjunto de exemplos em sub-conjuntos. Inicialmente, todos os exemplos so colocados em um nico n, chamado de raiz.
18
A seguir, um atributo preditivo escolhido para representar o teste desse n e, assim, dividir os exemplos em sub-conjuntos de exemplos. Esse processo se repete recursivamente at que todos os exemplos j estejam classificados ou ento at que todos os atributos preditivos j tenham sido utilizados.
3.2 Escolha dos atributos preditivos para os ns da rvore
O critrio de seleo define qual atributo preditivo utilizado em cada n da rvore. Existem diferentes tipos de critrios de seleo, sendo esta uma das variaes entre os diversos algoritmos de induo de rvores de deciso. Esses critrios so definidos em termos da distribuio de classe dos exemplos antes e depois da diviso (TAN et al., 2005). A maioria dos algoritmos de induo de rvores de deciso trabalha com funes de diviso univarivel, ou seja, cada n interno da rvore dividido de acordo com um
19
nico atributo. Nesse caso, o algoritmo tenta encontrar o melhor atributo para realizar essa diviso. Os critrios de seleo para a melhor diviso so baseados em diferentes medidas, tais como impureza, distncia e dependncia. A maior parte dos algoritmos de induo busca dividir os dados de um n-pai de forma a minimizar o grau de impureza dos ns-filhos. Quanto menor o grau de impureza, mais desbalanceada a distribuio de classes. Em um determinado n, a impureza nula se todos os exemplos nele pertencerem mesma classe. Analogamente, o grau de impureza mximo no n se houver o mesmo nmero de exemplos para cada classe possvel. A seguir, so apresentadas as medidas mais utilizadas para a seleo da melhor diviso.
20
3.3 Ganho de informao
Uma das medidas baseadas em impureza o Ganho de Informao, o qual usa a entropia como medida de impureza. O algoritmo ID3 (QUINLAN, 1986), pioneiro em induo de rvores de deciso, utiliza essa medida. Para determinar o quo boa uma condio de teste realizada, necessrio comparar o grau de entropia do n-pai (antes da diviso) com o grau de entropia dos ns-filhos (aps a diviso). O atributo que gerar uma maior diferena escolhido como condio de teste. O ganho dado pela Equao (1), na forma:
n N (v ) j ganho = entropia (pai ) entropia (v j ) j =1 N
(1)
nmero total de objetos do n-pai e N (v j ) o nmero de exemplos associados ao nfilho v j .

onde n o nmero de valores do atributo, ou seja, o nmero de ns-filhos, N o
21
O grau de entropia definido pela Equao (2) a seguir:
entropia (n ) = p(i / n ) log 2 [ p(i / n )]

i =1
(2)
onde p (i / n ) a frao dos registros pertencentes classe i no n, e c o nmero de classes. O conceito de entropia ser abordado em detalhes no tpico sobre Teoria de Informao. O critrio de ganho seleciona como atributo-teste aquele que maximiza o ganho de informao. O grande problema ao se utilizar o ganho de informao que ele d preferncia a atributos com muitos valores possveis (nmero de arestas). Um exemplo claro desse problema ocorreria ao utilizar um atributo totalmente irrelevante (por exemplo, um identificador nico). Nesse caso, seria criado um n para cada valor possvel, e o nmero de ns seria igual ao nmero de identificadores. Cada um desses ns teria apenas um exemplo, o qual pertence a uma nica classe, ou seja,
22
os exemplos seriam totalmente discriminados. Assim, o valor da entropia seria mnima porque, em cada n, todos os exemplos (no caso um s) pertencem mesma classe. Essa diviso geraria um ganho mximo, embora seja totalmente intil.
3.4 Razo de Ganho
Para solucionar o problema do ganho de informao, foi proposto em QUINLAN (1993) a Razo de Ganho (do ingls Gain Ratio), que nada mais do que o ganho de informao relativo (ponderado) como critrio de avaliao. A razo de ganho definida pela Equao (3), na forma: razo_de_ganho(n ) = ganho entropia (n ) (3)
Pela Equao (3), possvel perceber que a razo no definida quando o denominador igual a zero. Alm disso, a razo de ganho favorece atributos cujo
23
denominador, ou seja, a entropia, possui valor pequeno. Em QUINLAN (1988), sugerido que a razo de ganho seja realizada em duas etapas. Na primeira etapa, calculado o ganho de informao para todos os atributos. Aps isso, considerar apenas aqueles atributos que obtiveram um ganho de informao acima da mdia, e ento escolher aquele que apresentar a melhor razo de ganho. Dessa forma, Quinlan mostrou que a razo de ganho supera o ganho de informao tanto em termos de acurcia quanto em termos de complexidade das rvores de deciso geradas.
3.5 Gini
Outra medida bastante conhecida o Gini, a qual emprega um ndice de disperso estatstica proposto em 1912 pelo estatstico italiano Corrado Gini. Este ndice muito utilizado em anlises econmicas e sociais, por exemplo, para quantificar a distribuio de renda em um certo pas.
24
Ele utilizado no algoritmo CART (BREIMAN et al., 1984). Para um problema de c classes, o giniindex definido pela Equao (4), na forma:
c
giniindex (n ) = 1 p(i / n )
i =1
(4)
Assim como no clculo do ganho de informao, basta calcular a diferena entre o giniindex antes e aps a diviso. Essa diferena, Gini, representada pela Equao (5):
n N (v ) j giniindex (v j ) Gini = giniindex (pai ) j =1 N
(5)
nmero total de objetos do n-pai e N (v j ) o nmero de exemplos associados ao nfilho v j . Assim, selecionado o atributo que gerar um maior valor para Gini. Para outras medidas, consultar ROKACH & MAIMON (2008).
onde n o nmero de valores do atributo, ou seja, o nmero de ns-filhos, N o
25
3.6 Representao dos ns para atributos categricos
A forma de representao dos ns pode influenciar de maneira decisiva no desempenho das rvores de deciso induzidas. Dependendo do tipo de atributo, existem diferentes tipos de representao dos ns para o particionamento dos dados. A seguir, so apresentadas algumas formas de representao considerando atributos categricos ordinais e no-ordinais. Na prxima subseo, ser a vez dos atributos contnuos. 1. Um ramo para cada valor de atributo: a partio mais comum, na qual criada uma aresta para cada valor do atributo usado como condio de teste. Embora esse tipo de partio permita extrair do atributo todo o seu contedo informativo, possui a desvantagem de tornar a rvore de deciso mais complexa. O algoritmo C4.5 (QUINLAN, 1993) utiliza esse tipo de diviso para atributos categricos noordinais.
26
2. Soluo de Hunt: A partio utilizada pelo algoritmo ID3, sugere uma partio binria. Nesse caso, um dos valores atribudo a uma das arestas e todos os outros valores outra aresta. A desvantagem desse tipo de partio no aproveitar todo o poder de discriminao do atributo em questo. 3. Atributos categricos ordinais: Como j definido, um atributo ordinal quando h uma relao de ordem entre os seus possveis valores. Por exemplo, tem-se um atributo altura que pode possuir os valores baixa, mdia e alta. Com atributos desse tipo, possvel realizar uma partio binria do tipo altura < mdia, em que todos os exemplos cujo atributo altura tem valor baixa seguem por uma aresta e os outros seguem por outra aresta. Esse tipo de partio uma das que foram implementadas para o algoritmo CART (BREIMAN et al., 1984). 4. Agrupamento de valores em dois conjuntos: De acordo com BREIMAN et al. (1984), a diviso binria tambm pode ser realizada de uma forma mais
27
complexa, onde cada um dos dois subconjuntos pode ser formado por registros com mais de um valor para o atributo utilizado como condio de teste. O grande desafio desse tipo de partio o elevado custo computacional para encontrar a melhor diviso, pois o nmero de combinaes possveis 2n 1 1, onde n o nmero de valores possveis para o atributo em questo. 5. Agrupamento de valores em vrios conjuntos: Visando permitir o agrupamento de valores em vrios conjuntos com uma complexidade de clculo razovel, o algoritmo C4.5 (QUINLAN, 1993) permite encontrar uma soluo de boa qualidade. Para isso, inicia criando uma aresta para cada valor do atributo em questo. Aps, so testadas todas as combinaes possveis de dois valores e, caso nenhuma dessas combinaes produza um ganho maior que a diviso anterior, o processo interrompido e a diviso anterior adotada como diviso final. Seno, repetido o processo tendo como base a melhor das solues
28
anteriores. Nota-se que no se pode garantir que a diviso encontrada seja a melhor possvel, pois verificado se houve melhoria apenas um passo frente. Esse o custo de se produzir um algoritmo mais simples.
3.7 Representao dos ns para atributos contnuos
Os atributos contnuos permitem uma maior variedade de testes e, consequentemente, implicam uma maior complexidade de clculo. Segundo FONSECA (1994), alguns dos testes mais usados para partio de atributos contnuos so: testes simples ou pesquisa exaustiva, testes mltiplos (segmentao global e segmentao ao nvel do n) e combinao linear de caractersticas. O teste simples, tambm conhecido como pesquisa exaustiva, o mais utilizado. Um dos algoritmos que o utiliza o C4.5, e a diviso sempre binria. Supondo um atributo contnuo X a ser utilizado como n teste, mesmo que seu domnio seja
29
infinito, o nmero de exemplos num conjunto de treinamento T finito e, portanto, o nmero de valores diferentes para esse atributo tambm finito. Assim, os exemplos do conjunto T so ordenados de acordo com seus valores para o atributo X. Supondo que os diferentes valores de X sejam, em ordem crescente,
{a1, a2 ,..., am }, T dividido em duas partes. So elas: T1, cujos exemplos possuem valores {a1 , a2 ,..., ai } e T2, com valores {ai +1, ai + 2 ,..., am } para o atributo X. Para cada
ai , i = 1, ..., m1, calculado o ganho (independente do critrio utilizado) para a respectiva diviso. Aps avaliar todas as divises possveis, escolhida aquela que fornecer o maior ganho. Por fim, necessrio definir o valor que ser usado como limiar (valor usado para dividir os exemplos no n). Tendo posse do ai que produziu o melhor ganho, o valor mais utilizado como limiar
ai + ai +1 , pois assim espera-se que a rvore resultante 2
30
apresente melhores resultados para exemplos que no participaram do conjunto de treinamento.

3.8 Mtodos de poda
Quando rvores de deciso so construdas, muitas das arestas ou sub-rvores podem refletir rudos ou erros. Isso acarreta em um problema conhecido como sobreajuste, que significa um aprendizado muito especfico do conjunto de treinamento, no permitindo ao modelo generalizar. Para detectar e excluir essas arestas e sub-rvores, so utilizados mtodos de poda (pruning) da rvore, cujo objetivo melhorar a taxa de acerto do modelo para novos exemplos, os quais no foram utilizados no conjunto de treinamento (HAN, 2001). Consequentemente, a rvore podada se torna mais simples, facilitando a sua interpretabilidade por parte do usurio. Junto ao mtodo de seleo, o mtodo de poda
31
tambm varia de acordo com os diferentes algoritmos de induo de rvores de deciso. Existem diversas formas de realizar poda em uma rvore de deciso, e todas elas so classificadas como pr-poda ou ps-poda. O mtodo pr-poda realizado durante o processo de construo da rvore, em que o processo pode simplesmente parar de dividir o conjunto de elementos e transformar o n corrente em um n folha da rvore. O ganho de informao, por exemplo, pode ser utilizado como critrio de poda. Caso todas as divises possveis utilizando um atributo A gerem ganhos menores que um valor pr-estabelecido, ento esse n vira folha, representando a classe mais frequente no conjunto de exemplos.
32
A dificuldade encontrar um valor adequado para x, visto que um valor muito alto pode gerar uma rvore super-simplificada, enquanto que um valor muito baixo pode simplificar bem pouco a rvore. J o ps-poda realizado aps a construo da rvore de deciso, removendo ramos completos, onde tudo que est abaixo de um n interno excludo e esse n transformado em folha, representando a classe mais frequente no ramo. Para cada n interno da rvore, o algoritmo calcula a taxa de erro caso a sub-rvore abaixo desse n seja podada. Em seguida, calculada a taxa de erro caso no haja a poda. Se a diferena entre essas duas taxas de erro for menor que um valor prestabelecido, a rvore podada. Caso contrrio, no ocorre a poda. Esse processo se repete progressivamente, gerando um conjunto de rvores podadas. Por fim, para cada uma delas calculada a acurcia na classificao de um conjunto
33
de dados independente dos dados de treinamento (por exemplo, o conjunto de validao), e a rvore que obtiver a melhor acurcia ser a escolhida. Embora a poda seja um mtodo bastante utilizado e eficaz na soluo do problema de sobreajuste, deve-se ter cuidado para no podar demais a rvore. Quando isso ocorre, tem-se o problema conhecido como sub-ajuste, em que o modelo de classificao no aprendeu o suficiente sobre os dados de treinamento. Dentre os mtodos de poda existentes, destacam-se: Cost Complexity Pruning, Reduced Error Pruning, Minimum Error Pruning (MEP), Pessimistic Pruning, ErrorBased Pruning (EBP), Minimum Description Length (MDL) Pruning, Mininum Message Length (MML) Pruning, Critical Value Pruning (CVP), OPT e OPT-2. Maiores detalhes sobre esses mtodos podem ser encontrados em ROKACH & MAIMON (2008).
34
4. Algoritmos de induo de rvores de deciso Nesta seo, so apresentados sucintamente os trs principais algoritmos para induo de rvores de deciso. So eles: ID3 (QUINLAN, 1986), C4.5 (QUINLAN, 1993) e CART (BREIMAN et al., 1984). Na literatura, existem novos algoritmos para induo de rvores de deciso, inclusive alguns que fogem do algoritmo bsico TDIDT. Como exemplos, podemos mencionar: NBTree (KOHAVI, 1996), ADTree (FREUND & MASON, 1999), LMT (LANDWEHR et al., 2005) e BFTree (SHI, 2007). Essas novas propostas no sero cobertas neste curso.
35
4.1 ID3
O ID3 (QUINLAN, 1986) o algoritmo pioneiro em induo de rvores de deciso. Ele um algoritmo recursivo e baseado em busca gulosa, procurando, sobre um conjunto de atributos, aqueles que melhor dividem os exemplos, gerando sub-rvores. A principal limitao do ID3 que ele s lida com atributos categricos no-ordinais, no sendo possvel apresentar a ele conjuntos de dados com atributos contnuos, por exemplo. Nesse caso, os atributos contnuos devem ser previamente discretizados. Alm dessa limitao, o ID3 tambm no apresenta nenhuma forma para tratar valores desconhecidos, ou seja, todos os exemplos do conjunto de treinamento devem ter valores conhecidos para todos os seus atributos. de conhecimento geral que, na prtica, os conjuntos de dados possuem muitos valores desconhecidos. Logo, para se utilizar o ID3, necessrio gastar um bom tempo com pr-processamento dos dados.
36
O ID3 utiliza o ganho de informao para selecionar a melhor diviso. No entanto, esse critrio no considera o nmero de divises (nmero de arestas), e isso pode acarretar em rvores mais complexas. Somado a isso, o ID3 tambm no apresenta nenhum mtodo de ps-poda, o que poderia amenizar esse problema de rvores mais complexas.
4.2 C4.5
O algoritmo C4.5 (QUINLAN, 1993) representa uma significativa evoluo do ID3 (QUINLAN, 1986). As principais contribuies em relao ao ID3 so: Lida tanto com atributos categricos (ordinais ou no-ordinais) como com atributos contnuos. Para lidar com atributos contnuos, o algoritmo C4.5 define um limiar e ento divide os exemplos de forma binria: aqueles cujo valor do atributo maior que o limiar e aqueles cujo valor do atributo menor ou igual ao limiar;
37
Trata valores desconhecidos. O algoritmo C4.5 permite que os valores desconhecidos para um determinado atributo sejam representados como ?, e o algoritmo trata esses valores de forma especial. Esses valores no so utilizados nos clculos de ganho e entropia; Utiliza a medida de razo de ganho para selecionar o atributo que melhor divide os exemplos. Essa medida se mostrou superior ao ganho de informao, gerando rvores mais precisas e menos complexas; Lida com problemas em que os atributos possuem custos diferenciados; Apresenta um mtodo de ps-poda das rvores geradas. O algoritmo C4.5 faz uma busca na rvore, de baixo para cima, e transforma em ns folha aqueles ramos que no apresentam nenhum ganho significativo. A ferramenta de minerao de dados WEKA (WITTEN & FRANK, 1999) (http://www.cs.waikato.ac.nz/~ml/weka/index.html) (Waikato Environment for
38
Knowledge Analysis) disponibiliza a implementao do algoritmo C4.5, porm o mesmo chamado de J48 nessa ferramenta. O C4.5 um dos algoritmos mais utilizados na literatura, por ter mostrado timos resultados em problemas de classificao. Embora j tenha sido lanado o C5.0, o C4.5 possui cdigo-fonte disponvel, enquanto que o C5.0 um software comercial. O C4.5 do tipo: Guloso: executa sempre o melhor passo avaliado localmente, sem se preocupar se este passo, junto sequncia completa de passos, vai produzir a melhor soluo ao final; Dividir para conquistar: partindo da raiz, criam-se sub-rvores at chegar nas folhas, o que implica em uma diviso hierrquica em mltiplos subproblemas de deciso, os quais tendem a ser mais simples que o problema original.
39
4.3 CART
O algoritmo CART (Classification and Regression Trees) foi proposto em BREIMAN et al. (1984) e consiste de uma tcnica no-paramtrica que induz tanto rvores de classificao quanto rvores de regresso, dependendo se o atributo nominal (classificao) ou contnuo (regresso). Dentre as principais virtudes do CART est a grande capacidade de pesquisa de relaes entre os dados, mesmo quando elas no so evidentes, bem como a produo de resultados sob a forma de rvores de deciso de grande simplicidade e legibilidade (FONSECA, 1994). As rvores geradas pelo algoritmo CART so sempre binrias, as quais podem ser percorridas da sua raiz at as folhas respondendo apenas a questes simples do tipo sim ou no.
40
Os ns que correspondem a atributos contnuos so representados por agrupamento de valores em dois conjuntos. Da mesma forma que no algoritmo C4.5, o CART utiliza a tcnica de pesquisa exaustiva para definir os limiares a serem utilizados nos ns para dividir os atributos contnuos. Adicionalmente, o CART dispe de um tratamento especial para atributos ordenados e tambm permite a utilizao de combinaes lineares entre atributos (agrupamento de valores em vrios conjuntos). Diferente das abordagens adotadas por outros algoritmos, os quais utilizam pr-poda, o CART expande a rvore exaustivamente, realizando ps-poda por meio da reduo do fator custo-complexidade (BREIMAN et al., 1984). Segundo os autores, a tcnica de poda utilizada muito eficiente e produz rvores mais simples, precisas e com boa capacidade de generalizao.
41
5. Referncias bibliogrficas BASGALUPP, M.P. (2010) LEGAL-Tree: Um algoritmo gentico multi-objetivo lexicogrfico para induo de rvores de deciso. Tese de Doutorado, ICMC-USP, So Carlos. BRAMER, M. (2007). Principles of data mining. Springer, London. BREIMAN, L., FRIEDMAN, J. H., OLSHEN, R. A., & STONE, C. J. (1984). Classification and Regression Trees. Wadsworth. CHAPELLE, O., SCHLKOPF, B., & ZIEN, A. (2006). Semi-supervised learning. MIT Press. FERREIRA, H.M. (2008) Uso de ferramentas de aprendizado de mquina para prospeco de perdas comerciais em distribuio de energia eltrica, Dissertao de Mestrado, FEEC/Unicamp. FONSECA, J. (1994). Induo de rvores de deciso. Tese de Mestrado, Lisboa.
42
FREUND, Y. & MASON, L. (1999). The alternating decision tree learning algorithm. In Proc. 16th International Conf. on Machine Learning, pag. 124{133. Morgan Kaufmann, San Francisco, CA. HAN, J. (2001). Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA. KOHAVI, R. (1996). Scaling up the accuracy of Naive-Bayes classifiers: a decision-tree hybrid. In Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, pag. 202-207. LANDWEHR, N., HALL, M., & FRANK, E. (2005). Logistic model trees. Machine Learning, 59(1-2):161-205. QUINLAN, J. R. (1993). C4.5: programs for machine learning. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA. QUINLAN, J. R. (1986). Induction of decision trees. Machine Learning, 1(1):81-106.
43
QUINLAN, J. (1988). Decision trees and multivalued attributes. Machine Intelligence, 11:305-318. ROKACH, L. & MAIMON, O. (2008). Data mining with decision trees. Theory and applications. World Scientific Publishing. SHI, H. (2007). Best-first decision tree learning. Masters thesis, University of Waikato, Hamilton, NZ. COMP594. TAN, P.-N., STEINBACH, M., & KUMAR, V. (2005). Introduction to Data Mining, (First Edition). Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA. WITTEN, I. H. & FRANK, E. (1999). Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann.
44

Arvores Decisao

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Arvores Decisao

Uploaded by

Copyright:

Available Formats

IA004 Profs. Fernando J. Von Zuben & Romis R. F.

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Positivo Cliente sem risco

Negativo Aplicaes Sim Cliente sem risco No Cliente com risco

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

3.3 Ganho de informao

nmero total de objetos do n-pai e N (v j ) o nmero de exemplos associados ao nfilho v j .

onde n o nmero de valores do atributo, ou seja, o nmero de ns-filhos, N o

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

O grau de entropia definido pela Equao (2) a seguir:

entropia (n ) = p(i / n ) log 2 [ p(i / n )]

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

onde n o nmero de valores do atributo, ou seja, o nmero de ns-filhos, N o

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

3.6 Representao dos ns para atributos categricos

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 7 rvores de Deciso

IA004 Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp