Data Mining

Conceitos e Aplicaes de Data Mining
Data Mining Concepts and Applications

HELOISA HELENA SFERRA
Universidade Metodista de Piracicaba (Piracicaba, Brasil) hhsferra@uol.com.br
NGELA M. C. JORGE CORRA

Universidade Metodista de Piracicaba (Piracicaba, Brasil) ajcorrea@unimep
RESUMO Atualmente, muito se fala em Data Mining, encontrando-se na literatura signicativa variedade de estudos sobre o tema. Este artigo tem como objetivo introduzir conceitos bsicos dessa tecnologia a interessados que ainda esto iniciando o estudo de Data Mining. Nesse contexto, o presente texto pretende apresentar alguns desses conceitos sobre as tcnicas que envolvem a descoberta de conhecimento em grandes conjuntos de dados, alm de registrar algumas caractersticas de um software especco para minerao de dados, o Clementine, da SPSS, bem como algumas aplicaes realizadas nessa ferramenta. Palavras-chave MINERAO DE DADOS DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS ANLISE EXPLORATRIA DE DADOS MODELOS ESTATSTICOS DE RELACIONAMENTO ENTRE VARIVEIS CLEMENTINE/SPSS. ABSTRACT Much is said about Data Mining nowadays and there is a signicant variety of studies on the subject. This papers aim is to introduce some of the technologys basic concepts to those who are beginning their studies on Data Mining. In such context, the present article presents some of the concepts related to the techniques involved in knowledge discovery within large databases. Moreover, it presents some features of a specic software for Data Mining: Clementine, from SPSS. The paper also indicates some applications for this tools use. Keywords DATA MINING KNOWLEDGE DISCOVERY IN DATABASES EXPLORATORY ANALYSIS STATISTICAL MODELS OF RELATIONSHIP BETWEEN VARIABLES CLEMENTINE/SPSS.
REVISTA DE CINCIA & TECNOLOGIA V. 11, N 22 pp. 19-34
19
INTRODUO
rpida evoluo dos recursos computacionais ocorrida nos ltimos anos permitiu que, simultaneamente, fossem gerados grandes volumes de dados. Estima-se que a quantidade de informao no mundo dobra a cada 20 meses e que o tamanho e a quantidade dos bancos de dados crescem com velocidade ainda maior (Dilly, 1999). O explosivo crescimento do volume de dados tem gerado uma urgente necessidade de novas tcnicas e ferramentas capazes de transformar, de forma inteligente e automtica, terabytes de dados em informaes signicativas e em conhecimento. Essas informaes, de grande valia para o planejamento, gesto e tomadas de deciso, esto, na verdade, implcitas e/ou escondidas sob uma montanha de dados, e no podem ser descobertas ou, no mnimo, facilmente identicadas utilizando-se sistemas convencionais de gerenciamento de banco de dados. Em resposta a essa necessidade, surgiu o Data Mining (DM), tambm chamado de Minerao de Dados. Data Mining uma tecnologia que emergiu da interseco de trs reas: estatstica clssica, inteligncia articial e aprendizado de mquina, sendo a primeira a mais antiga delas. Observa-se que o Data Mining parte de um processo maior conhecido como KDD (Knowledge Discovery in Databases) em portugus, Descoberta de Conhecimento em Bases de Dados , que, segundo Addrians & Zantinge (1996), permite a extrao no trivial de conhecimento previamente desconhecido e potencialmente til de um banco de dados. Esse conceito enfatizado por Fayyad et al. (1996b), ao armar que o processo no trivial de identicao de padres vlidos, desconhecidos, potencialmente teis e, no nal das contas, compreensveis em dados. Nesse contexto, o presente artigo tem como nalidade apresentar conceitos sobre as principais tcnicas que envolvem a descoberta de conhecimento em grandes conjuntos de dados e relatar algumas caractersticas de um software especco para minerao de dados, o Clementine, da SPSS, bem como aplicaes realizadas nesta ferramenta. Assim, so mostrados o processo de descoberta de conhecimento (KDD) e o Data Mining (DM), como parte desse processo, bem como suas tcnicas e as metodologias estatsticas que as fundamentam. Em seguida, so discutidas as caractersticas de uma ferramenta de Data Mining, o Clementine, da SPSS, com a qual se desenvolve a aplicao relatada neste texto.
DESCOBERTA DE CONHECIMENTO (KDD) E DATA MINING (DM)

Considere-se uma hierarquia de complexidade: se algum signicado especial atribudo a um dado, ele se transforma em uma informao (ou fato). De acordo com Sade (1996), se uma norma (ou regra) elaborada, a interpretao do confronto entre o fato e a regra constitui um conhecimento. O processo KDD constitudo de vrias etapas, como ilustrado na gura 1, que so executadas de forma interativa e iterativa. De acordo com Brachman & Anand (1996), as etapas so interativas porque envolvem a cooperao da pessoa responsvel pela anlise de dados, cujo conhecimento sobre o domnio orientar a execuo do processo. Por sua vez, a iterao deve-se ao fato de que, com freqncia, esse processo no executado de forma seqencial, mas envolve repetidas selees de parmetros e conjunto de dados, aplicaes das tcnicas de Data Mining e posterior anlise dos resultados obtidos, a m de renar os conhecimentos extrados. Dentre as vrias etapas do processo KDD, a principal, que forma o ncleo do processo e que, muitas vezes, confunde-se com ele, chama-se Data Mining.
20
jul./dez. 2003
Fig. 1. Viso geral das etapas que constituem o processo KDD (Fayyad et al., 1996b).
Esse processo tem incio com o entendimento do domnio da aplicao e dos objetivos a serem atingidos. Em seguida, realizado um agrupamento organizado da massa de dados alvo da descoberta. Como em toda anlise quantitativa, a qualidade dos dados essencial para a obteno de resultados conveis. Portanto, dados limpos e compreensveis so requisitos bsicos para o sucesso do Data Mining, como armam Diniz & Louzada-Neto (2000). A limpeza dos dados (identicada na literatura como Data Cleaning) realizada por meio de um pr-processamento, visando assegurar a qualidade dos dados selecionados. Destaca-se que, segundo Mannila (1996), essa etapa pode tomar at 80% do tempo necessrio para todo o processo, devido s diculdades de integrao de bases de dados heterogneas. Os dados pr-processados devem passar por outra transformao, que os armazena adequadamente, visando facilitar o uso das tcnicas de Data Mining. Nessa fase, o uso de Data Warehouses expande-se consideravelmente, j que, nessas estruturas, as informaes esto alocadas da maneira mais eciente. Addrians & Zantinge (1996) denem Data Warehouse como um depsito central de dados, extrado de dados operacionais, em que a informao orientada a assuntos, no voltil e de natureza histrica. Devido a essas caractersticas, Data Warehouses tendem a se tornar grandes repositrios de dados extremamente organizados, facilitando a aplicao do Data Mining. Prosseguindo no processo KDD, chega-se especicamente fase de Data Mining. O objetivo principal desse passo a aplicao de tcnicas de minerao nos dados pr-processados, o que envolve ajuste de modelos e/ou determinao de caractersticas nos dados. Em outras palavras, exige o uso de mtodos inteligentes para a extrao de padres ou conhecimentos dos dados. importante destacar que cada tcnica de Data Mining utilizada para conduzir as operaes de Minerao de Dados adapta-se melhor a alguns problemas do que a outros, o que impossibilita a existncia de um mtodo de Data Mining universalmente melhor. Para cada problema particular, tem-se uma tcnica particular. Portanto, o sucesso de uma tarefa de Data Mining est diretamente ligado experincia e intuio do analista. A etapa nal do processo de minerao consiste no ps-processamento, que engloba a interpretao dos padres descobertos e a possibilidade de retorno a qualquer um dos passos anteriores. Assim, a informao extrada analisada (ou interpretada) em relao ao objetivo proposto, sendo identicadas e apresentadas as melhores informaes. Dessa forma, o propsito do resultado no consiste somente em visualizar, grca ou logicamente, o rendimento do Data Mining, mas, tambm, em ltrar a informao que ser apresentada, eliminando possveis rudos (ou seja, padres redundantes ou irrelevantes) que podem surgir no processo. Apresenta-se, a seguir, uma breve caracterizao do processo de Data Mining.
21
DATA MINING
Data Mining, ou Minerao de Dados, pode ser entendido como o processo de extrao de informaes, sem conhecimento prvio, de um grande banco de dados e seu uso para tomada de decises. uma metodologia aplicada em diversas reas que usam o conhecimento, como empresas, indstrias e instituies de pesquisa. Data Mining dene o processo automatizado de captura e anlise de grandes conjuntos de dados para extrair um signicado, sendo usado tanto para descrever caractersticas do passado como para predizer tendncias para o futuro. Para encontrar respostas ou extrair conhecimento interessante, existem diversos mtodos de Data Mining disponveis na literatura. Mas, para que a descoberta de conhecimentos seja relevante, importante estabelecer metas bem denidas. Essas metas so alcanadas por meio dos seguintes mtodos de Data Mining: Classicao, Modelos de Relacionamento entre Variveis, Anlise de Agrupamento, Sumarizao, Modelo de Dependncia, Regras de Associao e Anlise de Sries Temporais, conforme citao e denio feita por Fayyad et al. (1996a). importante ressaltar que a maioria desses mtodos baseada em tcnicas das reas de aprendizado de mquina, reconhecimento de padres e estatstica. Essas tcnicas vo desde as tradicionais da estatstica multivariada, como anlise de agrupamentos e regresses, at modelos mais atuais de aprendizagem, como redes neurais, lgica difusa e algoritmos genticos. Os mtodos tradicionais de Data Mining so: Classicao: associa ou classica um item a uma ou vrias classes categricas pr-denidas. Uma tcnica estatstica apropriada para classicao a anlise discriminante. Os objetivos dessa tcnica envolvem a descrio grca ou algbrica das caractersticas diferenciais das observaes de vrias populaes, alm da classicao das observaes em uma ou mais classes predeterminadas. A idia derivar uma regra que possa ser usada para classicar, de forma otimizada, uma nova observao a uma classe j rotulada. Segundo Mattar (1998), a anlise discriminante permite que dois ou mais grupos possam ser comparados, com o objetivo de determinar se diferem uns dos outros e, tambm, a natureza da diferena, de forma que, com base em um conjunto de variveis independentes, seja possvel classicar indivduos ou objetos em duas ou mais categorias mutuamente exclusivas. Modelos de Relacionamento entre Variveis: associa um item a uma ou mais variveis de predio de valores reais, consideradas variveis independentes ou exploratrias. Tcnicas estatsticas como regresso linear simples, mltipla e modelos lineares por transformao so utilizadas para vericar o relacionamento funcional que, eventualmente, possa existir entre duas variveis quantitativas, ou seja, constatar se h uma relao funcional entre X e Y. Observa-se, conforme Gujarati (2000), que o mtodo dos mnimos quadrados ordinrios, atribudo a Carl Friedrich Gauss, tem propriedades estatsticas relevantes e apropriadas, que tornaram tal procedimento um dos mais poderosos e populares mtodos de anlise de regresso. Anlise de Agrupamento (Cluster): associa um item a uma ou vrias classes categricas (ou clusters), em que as classes so determinadas pelos dados, diversamente da classicao em que as classes so pr-denidas. Os clusters so denidos por meio do agrupamento de dados baseados em medidas de similaridade ou modelos probabilsticos. A anlise de cluster (ou agrupamento) uma tcnica que visa detectar a existncia de diferentes grupos dentro de um determinado conjunto de dados e, em caso de sua existncia, determinar quais so eles. Nesse tipo de anlise, segundo Pereira (1999), o procedimento inicia com o clculo das distncias entre os objetos estudados dentro do espao multiplano constitudo por eixos de todas as medidas realizadas (variveis), sendo, a seguir, os objetos agrupados conforme a proximidade entre eles. Na seqncia, efetuam-se os agrupamentos por proximidade geomtrica, o que permite o reconhecimento dos passos de agrupamento para a correta identicao de grupos dentro do universo dos objetos estudados. Sumarizao: determina uma descrio compacta para um dado subconjunto. As medidas de posio e variabilidade so exemplos simples de sumarizao. Funes mais sosticadas envolvem tcnicas de visualizao e a determinao de relaes funcionais entre variveis. As funes de sumarizao so fre22
jul./dez. 2003
qentemente usadas na anlise exploratria de dados com gerao automatizada de relatrios, sendo responsveis pela descrio compacta de um conjunto de dados. A sumarizao utilizada, principalmente, no pr-processamento dos dados, quando valores invlidos so determinados por meio do clculo de medidas estatsticas como mnimo, mximo, mdia, moda, mediana e desvio padro amostral , no caso de variveis quantitativas, e, no caso de variveis categricas, por meio da distribuio de freqncia dos valores. Tcnicas de sumarizao mais sosticadas so chamadas de visualizao, que so de extrema importncia e imprescindveis para se obter um entendimento, muitas vezes intuitivo, do conjunto de dados. Exemplos de tcnicas de visualizao de dados incluem diagramas baseados em propores, diagramas de disperso, histogramas e box plots, entre outros. Autores como Levine et al. (2000) e Martins (2001), entre outros, abordam com grande detalhamento esses procedimentos metodolgicos. Modelo de Dependncia: descreve dependncias signicativas entre variveis. Modelos de dependncia existem em dois nveis: estruturado e quantitativo. O nvel estruturado especica, geralmente em forma de grco, quais variveis so localmente dependentes. O nvel quantitativo especica o grau de dependncia, usando alguma escala numrica. Segundo Padovani (2000), anlises de dependncia so aquelas que tm por objetivo o estudo da dependncia de uma ou mais variveis em relao a outras, sendo procedimentos metodolgicos para tanto a anlise discriminante, a de medidas repetidas, a de correlao cannica, a de regresso multivariada e a de varincia multivariada. Regras de Associao: determinam relaes entre campos de um banco de dados. A idia a derivao de correlaes multivariadas que permitam subsidiar as tomadas de deciso. A busca de associao entre variveis , freqentemente, um dos propsitos das pesquisas empricas. A possvel existncia de relao entre variveis orienta anlises, concluses e evidenciao de achados da investigao. Uma regra de associao denida como se X ento Y, ou X Y, onde X e Y so conjuntos de itens e X Y = . Diz-se que X o antecedente da regra, enquanto Y o seu conseqente. Medidas estatsticas como correlao e testes de hipteses apropriados revelam a freqncia de uma regra no universo dos dados minerados. Vrios mtodos para medir associao so discutidos por Mattar (1998), de natureza paramtrica e noparamtrica, considerando a escala de mensurao das variveis. Anlise de Sries Temporais: determina caractersticas seqenciais, como dados com dependncia no tempo. Seu objetivo modelar o estado do processo extraindo e registrando desvios e tendncias no tempo. Correlaes entre dois instantes de tempo, ou seja, as observaes de interesse, so obtidas em instantes sucessivos de tempo por exemplo, a cada hora, durante 24 horas ou so registradas por algum equipamento de forma contnua, como um traado eletrocardiogrco. As sries so compostas por quatro padres: tendncia, variaes cclicas, variaes sazonais e variaes irregulares. H vrios modelos estatsticos que podem ser aplicados a essas situaes, desde os de regresso linear (simples e mltiplos), os lineares por transformao e regresses assintticas, alm de modelos com defasagem, como os autoregressivos (AR) e outros deles derivados. Uma interessante noo introdutria ao estudo de sries temporais desenvolvida por Morettin & Toloi (1987). Diante da descrio sumria de metodologias estatsticas aplicveis ao procedimento de Minerao de Dados, registra-se que, embora Hand (1998) arme que o termo Data Mining possa trazer uma conotao simplista para os estatsticos, Fayyad et al. (1996a) mostraram a relevncia da estatstica para o processo de extrao de conhecimentos, ao armar que essa cincia prov uma linguagem e uma estrutura para quanticar a incerteza resultante quando se tenta deduzir padres de uma amostra a partir de uma populao. De acordo com Hand (1998), a estatstica preocupa-se com a anlise primria dos dados, no sentido de que eles so coletados por uma razo particular ou por um conjunto de questes particulares a priori. Data Mining, por outro lado, preocupa-se tambm com a anlise secundria dos dados, num sentido mais amplo e mais indutivo do que uma abordagem hipottico-dedutiva, freqentemente considerada como o paradigma para o progresso da cincia moderna. Assim, Data Mining pode ser visto como o descendente direto da estatstica, j que so tcnicas metodolgicas complementares.
23
CLEMENTINE: UMA FERRAMENTA DE DATA MINING

Nos itens anteriores deste artigo, foram apresentados conceitos e tcnicas para descoberta de conhecimentos em banco de dados. Esta sesso tem como objetivo discutir a utilizao de uma ferramenta de Data Mining e analisar sua aplicao em uma base de dados de natureza econmica. A ferramenta em questo o Clementine, da empresa SPSS Inc. Todos os passos do processo de descoberta de conhecimento podem ser realizados pelo Clementine. No entanto, segundo o manual do usurio (Clementine Users Guide, 2001), a metodologia indicada para ser usada em conjunto com a ferramenta o modelo CRISP-DM (Cross-Industry Standard Process for Data Mining), que foi desenvolvido a partir da experincia de trs empresas pioneiras no setor: a DaimlerChrysler, que aplica anlises de Data Mining em seus negcios desde 1996; a NCR, que prov solues de Data Warehouse; e a SPSS, que disponibiliza solues baseadas no processo de minerao de dados desde 1990. Essa metodologia composta por seis fases, como ilustrado na gura 2. Fig. 2. O modelo CRISP-Data Mining (CRISP-DM, 2001).
Como pode ser observada na gura 2, a seqncia das fases desse processo no rgida. Voltar e ir avante entre as diferentes fases sempre necessrio. Dessa forma, uma fase depende do resultado de outra, ou da tarefa particular de uma fase que precisa ser executada na prxima etapa. O crculo externo simboliza a natureza cclica do processo de Data Mining. As fases desse processo so: Entendimento do Negcio (Business Understanding): visa o entendimento dos objetivos e requisitos do projeto, do ponto de vista do negcio. Baseado no conhecimento adquirido, o problema de minerao de dados denido e um plano preliminar projetado para alcanar os objetivos. Entendimento dos Dados (Data Understanding): inicia com uma coleo de dados e prossegue com atividades que visam buscar familiaridade, identicar problemas de qualidade, descobrir os primeiros discernimentos nos dados ou detectar subconjuntos interessantes para formar hipteses da informao escondida.
24
jul./dez. 2003
Preparao dos Dados (Data Preparation): cobre todas as atividades de construo do dataset nal. As tarefas de preparao de dados so, provavelmente, desempenhadas vrias vezes e sem qualquer ordem prescrita. Essas tarefas incluem a seleo de tabelas, registros e atributos, bem como a transformao e limpeza dos dados para as ferramentas de modelagem. Modelagem (Modelling): vrias tcnicas de modelagem so selecionadas e aplicadas, e seus parmetros so ajustados para valores timos. Geralmente, existem vrias tcnicas para o mesmo tipo de problema de minerao de dados. Algumas delas tm requisitos especcos na formao de dados. Portanto, retornar fase de preparao de dados freqentemente necessrio. Avaliao (Evaluation): o modelo (ou modelos) construdo na fase anterior avaliado e os passos executados na sua construo so revistos, para se certicar que o modelo representa os objetivos do negcio. Seu principal objetivo determinar se existe alguma questo de negcio importante que no foi sucientemente considerada. Nesta fase, uma deciso sobre o uso dos resultados de minerao de dados dever ser obtida. Utilizao ou Aplicao (Deployment): aps a construo e avaliao do modelo (ou modelos), ele pode ser utilizado de duas formas: em uma, o analista pode recomendar aes a serem tomadas baseando-se, simplesmente, na viso do modelo e de seus resultados; na outra, o modelo pode ser aplicado a diferentes conjuntos de dados.
A Interface do Clementine
O Clementine possui uma interface de programao visual que facilita a construo de modelos de Data Mining para o processo de descoberta de conhecimento. A ferramenta oferece ricas facilidades para a explorao e manipulao de dados, alm de vrias tcnicas de modelagem e recursos grcos, para a visualizao de dados. As operaes so representadas em uma rea de trabalho por ns (nodes) que, conectados, formam o uxo de dados, chamado de streams, conforme ilustra a gura 3. Fig. 3. A Interface de Programao Visual do Clementine.
1. Desktop ou rea de trabalho 3. Paleta de Modelos Gerados
4. Boto de Execuo
2. Paleta de Objetos
5. Report Window
6. Status Window
25
A rea de trabalho, ou desktop, tambm chamada de stream pane, a rea de construo e manipulao dos streams e dados. Em outras palavras, a rea de construo do modelo de Data Mining. Os ns apresentam-se agrupados de acordo com seu tipo de funcionalidade na paleta de objetos localizada na parte inferior da rea de trabalho do Clementine, que pode ser acessado e do qual possvel importar dados, por meio das funcionalidades dos ns do grupo Source; manipular registros e campos, atravs do grupo Record Ops; visualizar os dados a partir de grcos contidos nos diversos ns do grupo Graphs; construir modelos por meio de uma variedade de tcnicas de modelagem disponveis no grupo Modelling; e avaliar os resultados com os recursos do grupo Output. A paleta de modelos gerados, localizada direita do leitor na rea de trabalho, contm os resultados de um modelo construdo depois de executado. Para executar um modelo, basta clicar no boto de execuo, abaixo da paleta de modelos gerados. Ao se clicar no boto, todos os streams vlidos so executados. O Report Window, localizado abaixo da paleta de objetos, prov um feedback do progresso de vrias operaes, tal como quando os dados esto sendo lidos. O Status Window, tambm abaixo da paleta de objetos, prov informao sobre o que a aplicao est realizando no momento, bem como mensagens de pedido de retorno do usurio.
Aplicao
Visamos aqui mostrar algumas aplicaes realizadas com a ferramenta em estudo. importante destacar que o objetivo mostrar como o Data Mining pode ser aplicado por meio dessa ferramenta e, no, fazer marketing do Clementine. Os dados utilizados para essa pesquisa foram fornecidos pelo Instituto Brasileiro de Geograa e Estatstica (IBGE), em CD (microdados), e referem-se Pesquisa Nacional por Amostra de Domiclios (PNAD) do ano de 1999. importante lembrar que essa massa de dados tem sua origem temporal no sistema de pesquisas domiciliares, que foi implantado progressivamente no Brasil a partir de 1967, com a criao da Pesquisa Nacional por Amostra de Domiclios, e tem por nalidade a produo de informaes bsicas para o estudo do desenvolvimento socioeconmico do Pas (PNAD, 1999). Os dados encontram-se organizados e disponveis em CD-ROM, divididos em dois arquivos: um referente a pessoas e o outro, a domiclios. O arquivo de pessoas contm, em sntese, informaes sobre a identicao dos moradores, suas caractersticas gerais, educao, trabalho e rendimento, entre outras. O arquivo de domiclios possui, em resumo, informaes sobre caractersticas da unidade domiciliar. Os dados do presente estudo referem-se a pessoas ocupadas em atividades agrcolas. As variveis selecionadas para essa aplicao so: UF Unidade da Federao; V0302-Sexo; V8005-Idade; V0404-Cor ou Raa; V0601-Sabe ler e escrever; V4703-Anos de Estudo; e V4614-Rendimento Mensal Domiciliar. O primeiro passo realizado para essa aplicao foi carregar os arquivos de Pessoas e Domiclios. Para isso, utilizou-se o n SAS1 da paleta Source (g. 4). Em seguida, foi preciso ligar os arquivos, por meio do n Merge, j que so usadas variveis dos dois arquivos. Em seguida, os dados foram separados em regies, para se ter clareza dos resultados em relao Unidade da Federao a que pertencem. Para isso, foi utilizado o n Select, conforme ilustra a gura 5. Fig. 4. N SAS.
O SAS (Statistical Analysis System) um pacote para anlises estatsticas compatvel para aplicaes no Clementine SPSS.
jul./dez. 2003
26
Fig. 5. N Select para diviso em regies.
Fig. 6. N Select para formar a regio Centro-Oeste.
Para cada n Select utilizado, foi selecionado o modo Include para incluir o resultado da condio (Condition) que seleciona a Unidade da Federao (UF) correspondente a cada regio, caso ela seja verdadeira. A gura 6 mostra as condies usadas para formar a regio Centro-Oeste, constituda pelas seguintes UFs: 50. Mato Grosso do Sul; 51. Mato Grosso; 52. Gois; e 53. Distrito Federal.
27
Ao iniciar uma aplicao com o Clementine, no preciso, necessariamente, saber o que se est procurando. possvel explorar os dados investigando diferentes relacionamentos at encontrar informaes teis. Desse modo, para melhor entendimento das informaes, foi realizada uma anlise exploratria de dados usando o n Statistics da paleta Output (veja quadro correspondente). Anlise exploratria de dados, apenas com n Statistics da paleta Output: resultados.
NORTE STATISTICS FOR FIELD: RENDMENSALDOM OCCURRENCES MINIMUM MAXIMUM RANGE MEAN STANDARD DEVIATION STANDARD ERROR OF THE MEAN VARIANCE MEDIAN SUM NORDESTE STATISTICS FOR FIELD: RENDMENSALDOM OCCURRENCES MINIMUM MAXIMUM RANGE MEAN STANDARD DEVIATION STANDARD ERROR OF THE MEAN VARIANCE MEDIAN SUM SUL STATISTICS FOR FIELD: RENDMENSALDOM OCCURRENCES MINIMUM MAXIMUM RANGE MEAN STANDARD DEVIATION STANDARD ERROR OF THE MEAN VARIANCE MEDIAN SUM SUDESTE STATISTICS FOR FIELD: RENDMENSALDOM OCCURRENCES MINIMUM MAXIMUM RANGE MEAN STANDARD DEVIATION STANDARD ERROR OF THE MEAN VARIANCE MEDIAN SUM = = = = = = = = = = 1486 0.0000 9612.0 9612.0 522.59 807.40 20.945 651887.5 331.00 776570.0
= = = = = = = = = =
14745 0.0000 9936.0 9936.0 311.06 353.92 2.9146 125259.0 236.00 4586630.0
= = = = = = = = = =
5776 0.0000 17300.0 17300.0 633.63 913.36 12.018 834232.6 408.00 3659861.0
= = = = = = = = = =
6927 0.0000 18000.0 18000.0 583.94 807.79 9.7057 652529.9 380.00 4044930.0
28
jul./dez. 2003
CENTRO-OESTE STATISTICS FOR FIELD: RENDMENSALDOM OCCURRENCES = 3521 = 0.0000 MINIMUM = 36700.0 MAXIMUM RANGE = 36700.0 = 624.40 MEAN = 1242.1 STANDARD DEVIATION 20.932 STANDARD ERROR OF THE MEAN = = 1542758.2 VARIANCE MEDIAN = 350.00 =2198522.0 SUM
Vrias medidas estatsticas como contagem, mdia, mnimo, mximo, amplitude, desvio padro, varincia, soma e erro padro da mdia foram obtidas a partir do n Statistics para a varivel Renda Mensal Domiciliar associada s pessoas ocupadas na agricultura em 1999, de forma a subsidiar uma anlise exploratria do comportamento dessa varivel nas grandes regies geogrcas do pas. A gura 7 apresenta a utilizao do n Build C5.0 para a Regio Centro-Oeste. Esse n utiliza o algoritmo C5.02 para construir uma rvore de deciso ou um conjunto de regras (ruleset). Todas as opes selecionadas para aplicao desse n so ilustradas pela referida gura. Para gerar uma rvore de deciso atravs do n Build C5.0, so necessrios uma ou mais variveis de entrada (In) e apenas um campo de sada (Out). Para selecionar essas variveis foi usado o n Type, conforme ilustra a gura 8. O resultado obtido apresentado na gura 9. Fig. 7. Opes do n Build C5.0.
O algoritmo de induo de regras capaz de produzir rvores de deciso compactas rulesets, conjunto de regras. A verso anterior desse algoritmo foi chamada de C4.5 (Clementine Users Guide).
29
Fig. 8. N Type.
Fig. 9. rvore de deciso obtida com o n Build C5.0.
A gura 9 apresenta informaes sobre o nmero de observaes usadas para gerar as ramicaes da rvore de deciso, bem como os nveis de certeza. Analisando os resultados obtidos pela rvore, possvel visualizar a classicao da varivel de sada (ou seja, varivel de predio) Unidade da Federao (UF) na regio Centro-Oeste. Para melhor entendimento dos resultados obtidos, apresenta-se, a seguir, uma explicao do funcionamento das rvores de deciso. importante ressaltar que esse exemplo apenas ilustrativo e seu objetivo somente explicar um resultado obtido com a ferramenta de estudo.
Entendendo as rvores de Deciso

Ao navegar pelos ns de uma rvore de deciso, possvel vericar uma lista de condies que denem a diviso dos dados que foram descobertos pelo algoritmo no Clementine.
30
jul./dez. 2003
As rvores de deciso funcionam/trabalham recursivamente, dividindo os dados com base nos valores dos campos de entrada. Os dados que foram divididos so denominados ramo, ou galho. O galho inicial (tambm denominado raiz) engloba todos os registros. A raiz dividida em subconjuntos, ou galhos lhos, baseados no valor de um particular campo de entrada. Cada galho lho pode ser dividido, mais de uma vez, em subgalhos, que podem ser divididos novamente, e assim por diante. No nvel mais baixo da rvore, encontram-se os galhos que no podem mais ser divididos, conhecidos como galhos terminais, ou folha. O navegador da rvore de deciso mostra os valores de entrada que denem cada diviso, ou galho, e um resumo do campo (ou varivel) de sada para os registros da diviso. Para divises baseadas em campos numricos, o galho mostrado por uma linha, na forma: nome_do_campo relao valor [resumo] em que a relao uma relao numrica. Por exemplo, um galho denido por valores maiores que 22 para a varivel Idade aparecer como: idade =< 22 [resumo] Para divises baseadas em campos simblicos, o galho mostrado da seguinte forma: nome_do_campo valor [resumo] ou nome_do_campo [valores] [resumo] em que os valores so os da varivel que dene o galho. Por exemplo, um galho que inclui registros onde o valor da varivel Cor ou Raa3 pode ser 0 (indgena), 2 (branca) ou 4 (preta), deve ser representado como: cor 2 [resumo] ou cor [0,2,4] [resumo] Para galhos terminais, uma predio tambm dada adicionando-se uma seta e o valor que foi previsto para o nal da condio da regra. Por exemplo, uma folha denida por Anos de Estudo =< 7, que prediz um valor 7 para o campo de sada, a rvore mostrar: AnosEstudo =< 7 [mode: 50] -> 50 O resumo para o galho denido diferentemente para campos de sada simblica e numrica. Para rvores com campos de sada numrica, o resumo o valor mdio para o galho, e o efeito do galho, denido como a diferena entre a mdia deste e a mdia para seus pais. Para rvores com campos de sada simblica, o resumo a moda, ou seja, o valor mais freqente para os registros no galho. Aps entendimento do funcionamento da rvore de deciso gerada por meio do Clementine, pode-se chegar s seguintes concluses ou regras: 1) se a varivel Cor ou Raa for igual a indgena (0), a varivel UF Mato Grosso do Sul; 2) se a varivel Cor ou Raa for branca (2), a varivel UF Gois; porm, se a idade for menor ou igual a 22 anos, a varivel UF Mato Grosso do Sul; e se a idade for maior que 22 anos, a varivel UF Gois; 3) se a varivel Cor ou Raa for Preta (4), a varivel UF Mato Grosso do Sul; 4) se a varivel Cor ou Raa for amarela (6), a varivel UF Mato Grosso do Sul; porm, se a varivel Anos de Estudo for menor ou igual a sete anos, a UF Mato Grosso do Sul; e se a varivel Anos de Estudo for maior que sete anos, a varivel UF Distrito Federal; 5) se a varivel Cor ou Raa for Parda (8), a varivel UF Gois; e, 6) se a varivel Cor ou Raa for ignorada, a UF tambm Gois.
3
A denio da varivel como Cor ou Raa segue a classicao padro da PNAD-IBGE, assim como suas categorias, denidas como branca, preta, amarela, parda e indgena (conforme dicionrio de dados, PNAD 1998, cd-ROM).
31
Em sntese, de acordo com as regras mencionadas e com a gura 9, a UF da Regio Centro-Oeste com maior diversidade de pessoas de Cor ou Raa diferente Gois (UF igual a 52).
CONSIDERAES FINAIS
A idia central deste artigo foi a de apresentar, de forma sucinta, os principais conceitos e tcnicas envolvidos na nova rea interdisciplinar Data Mining. Alm desses conceitos e tcnicas, foram apresentadas as caractersticas de um software especco para minerao de dados, o Clementine, da SPSS. Destaca-se Data Mining como parte de um processo maior, denominado KDD, e que se refere ao meio pelo qual padres so extrados e enumerados a partir dos dados, ou seja, ao uso de mtodos inteligentes para se extrair novos conhecimentos. Entendendo-se por mtodos inteligentes a aplicao de alguma tcnica especca de Data Mining, neste artigo foi destacada a utilizao de classicao por meio de rvores de deciso, com o apoio do software Clementine. Constata-se que todos os passos do processo de descoberta de conhecimento podem ser realizados pelo Clementine. Uma grande vantagem dessa ferramenta sua interface de programao visual, o que favorece a construo de modelos de Data Mining para o processo de descoberta de conhecimento e ainda oferece ricas facilidades para explorao e manipulao de dados, alm de vrias tcnicas de modelagem e recursos grcos para visualizao de dados. A utilizao de um software de Data Mining pode trazer descobertas inovadoras para estudiosos da rea econmica. Porm, deve car claro que nenhuma ferramenta de Data Mining trabalha por si s e elimina a necessidade de conhecimento e entendimento do negcio e a compreenso dos dados a serem minerados, nem mesmo substitui analistas e pesquisadores da rea (ou gestores de negcios). Mas deve car claro que o uso da ferramenta proporciona aos usurios meios para encontrar tesouros de informaes que permitam detectar tendncias e caractersticas disfaradas, conrmar a necessidade de estudos de novas relaes, no necessariamente previstas pela teoria econmica ou que sejam indicativas de temas a serem pesquisados, ou, ainda, reagir rapidamente a um evento que ainda pode estar por vir.
REFERNCIAS BIBLIOGRFICAS
ADDRIANS, P & ZANTINGE, D. Data Mining. Inglaterra: Addison-Wesley, 1996. . BRACHNAD, R.J. & ANAND, T. The process of knowledge discovery in databases. In: FAYYAD, U.M. et al. Advances in Knowledge Discovery in Data Mining. Menlo Park: AAAI Press, 1996. CLEMENTINE 6.0 Users Guide, Copyright 2001 by SPSS Inc. Printed in the United States of America, 2001. CRISP-DM: Cross Industry Standard Process Model for Data Mining. . Printed in the United States of America, 2001. DILLY, R. Data Mining: an introduction. Belfast: Parallel Computer Centre, Queens University, 1999. DINIZ, C.A. &LOUZADA-NETO, F. Data Mining: uma introduo. So Carlos: Associao Brasileira de Estatstica, 2000. FAYYAD, U.M. et al. The KDD Process for Extracting Useful Knowledge from Volumes of Data. In: ___. Advances in Knowledge Discovery in Data Mining. Menlo Park: AAAI Press, 1996a. FAYYAD, U.M. et al. Advances in Knowledge Discovery and Data Mining. California: AAAI Press, 1996b. GUJARATI, D.N. Econometria Bsica. Trad. Ernesto Yoshita. So Paulo: Makron Books, 2000. HAND, D.J. Data Mining: statistics and more? The American Statistician, England, 52 (2): 112-118, mai./98. IBGE. Pesquisa Nacional por Amostras de Domiclios 1999. Rio de Janeiro: IBGE, 1999. CD-rom. LEVINE, D.M. et al. Estatstica: teoria e aplicaes. Trad. Teresa C.P de Souza. Rio de Janeiro: LTC Editora, 2000. . MANNILA, H. Data mining: machine learning, statistics and databases. International Conference on Statistics and Scientic Database Management, Estocolmo, 8, 1996. MARTINS, G.A. Estatstica Geral e Aplicada. So Paulo: Atlas, 2001. MATTAR, F.N. Pesquisa de Marketing. So Paulo: Atlas, 1998. MORETTIN, P & TOLOI, C.M. Sries Temporais. 2. ed. So Paulo: Atual, 1987. .A. PADOVANI, C.R. Estatstica na Metodologia da Investigao Cientca. Botucatu: UNESP, 1995. PEREIRA, J.C.R. Anlise de Dados Qualitativos. So Paulo: Edusp/Fapesp, 1999. SADE, A.S. & SOUZA, J.M. Prospeco de Conhecimento em Bases de Dados Ambientais. Rio de Janeiro: UFRJ, 1996.
32
jul./dez. 2003
Dados dos autores HELOISA HELENA SFERRA Analista de Sistemas. Mestranda em Cincia de Computao pela UNIMEP NGELA M. C. JORGE CORRA Professora doutora do Grupo de rea em Mtodos Quantitativos (FCMNTI/UNIMEP) do Mestrado em Administrao e convidada do Mestrado em Cincia da Computao/UNIMEP Recebimento do artigo: 19/mar./03 Consultoria: 24/mar./03 a 18/dez./03 Aprovado: 18/dez./03
33
34
jul./dez. 2003

Data Mining

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Data Mining

Uploaded by

Copyright:

Available Formats

Conceitos e Aplicaes de Data Mining

Data Mining Concepts and Applications

NGELA M. C. JORGE CORRA

DESCOBERTA DE CONHECIMENTO (KDD) E DATA MINING (DM)

CLEMENTINE: UMA FERRAMENTA DE DATA MINING

1. Desktop ou rea de trabalho 3. Paleta de Modelos Gerados

REVISTA DE CINCIA & TECNOLOGIA V. 11, N 22 pp. 19-34

Fig. 5. N Select para diviso em regies.

Fig. 6. N Select para formar a regio Centro-Oeste.

REVISTA DE CINCIA & TECNOLOGIA V. 11, N 22 pp. 19-34

Fig. 9. rvore de deciso obtida com o n Build C5.0.

Entendendo as rvores de Deciso

REVISTA DE CINCIA & TECNOLOGIA V. 11, N 22 pp. 19-34

REVISTA DE CINCIA & TECNOLOGIA V. 11, N 22 pp. 19-34

You might also like