"Data Mining" Review

Learning and Nonlinear Models (L&NLM) Journal of the Brazilian Neural Network Society, Vol. 9, Iss.3, pp.
. 168-184, 2011.
Sociedade Brasileira de Redes Neurais (SBRN)
Minerao de Dados: Uma Introduo
Luis Cludius Coradine

Roberta Vilhena Vieira Lopes
Andrilene Ferreira Maciel
Universidade Federal de Alagoas - UFAL

Instituto de Computao
Rod. BR 104 N, km 96 - Campus A. C. Simes
CEP 57057-800, Macei, AL, Brasil
e-mails: lccoral@gmail.com, rv2l@hotmail.com, andrilene.ferreira@gmail.com
Resumo Minerao de dados pode ser visto como um conjunto de mtodos para fazer inferncias a partir de dados.
Existe uma grande sobreposio entre os objetivos da minerao de dados, e os da estatstica multivariada. Contudo, existem
algumas diferenas filosficas e metodolgicas importantes. Este breve tutorial busca abordar os principais mtodos de anlise
multivariada e de minerao de dados com critrios de classificao. Alem disso, sero abordados os principais mtodos de
anlise de agrupamentos e de projeo, suas caractersticas e aplicaes, no escopo de uma reviso da literatura.
Palavras chaves minerao de dados, data mining, descoberta de conhecimento em base de dados, knowledge
discovery in Databases, KDD, aprendizagem de mquinas, machine learning.
1 Introduo
Na dcada de 70, muitos especialistas foram instrudos a armazenar seus dados em quaisquer recursos tecnolgicos (discos
rgidos, fitas magnticas, banco de dados, etc...), que fornecessem segurana. A evoluo da tecnologia, o surgimento de novos
mtodos de armazenamento de dados e a popularizao dos Sistemas de Gerenciamento de Banco de Dados (SGBD) como
recursos da tecnologia da informao (TI), favoreceram proliferao da informao. O surgimento dos sistemas de apoio a
deciso (SAD) na dcada de 80 e a necessidade de reduzir o impacto das integraes entre sistemas de diversas plataformas,
tanto no que se refere ao custo com a tecnologia da informao quanto ao aumento da velocidade de processamento dos
sistemas de informao (SI), fizeram com que novas tecnologias fossem adotadas para esse armazenamento (Inmon, 1997).
Os sistemas de informaes construdos para apoiar o processo decisrio geralmente armazenam seus dados em sistemas de
banco de dados ou at mesmo em grandes repositrios de dados, data warehouse. A idia de se criar um banco de dados (BD)
para armazenar os registros do sistema, fez com que o tamanho desses bancos crescesse rapidamente. A tecnologia data
warehouse permite atender sistemas de informao capazes de produzir transaes de alto desempenho com objetivo de
armazenar e cruzar grande volume de dados (Inmon, 1997; Kimball e Caserta, 2004).
Segundo Inmon (Inmon, 1997), um data warehouse consiste de um banco de dados especializado capaz de manipular um
grande volume de informaes obtidas a partir de bancos de dados operacionais e de fontes de dados externas organizao.
Apenas, parte da informao armazenada transformada em conhecimento, isso quando no quase que totalmente esquecida
nesses repositrios. De acordo com tipo de informao que possa ser extrado desses bancos de dados, o processo de extrao
pode ser considerado complexo e superar a capacidade humana de analisar essas informaes e transform-las em
conhecimento (Adriaans e Zantinge, 1996).
Para que os dados sejam devidamente manipulados, e conseqentemente, se tenha extrao de informaes importantes, no
sentido de, posteriormente, serem transformadas em conhecimento, faz-se necessrio a utilizao de tcnicas que propiciem a
automao desse processo a partir de estruturas artificialmente inteligentes, as quais envolvam tcnicas necessrias para a
compreenso da linguagem, percepo, raciocnio, aprendizagem e resoluo de problemas, buscando a criao de teorias e
modelos com capacidade cognitiva e a implementao de sistemas computacionais baseados nestes modelos, objetivando a
descoberta dos conhecimentos engendrados no banco de dados, processo conhecido como descoberta de conhecimento em
base de dados, knowledge discovery in databases - KDD (Adriaans e Zantinge, 1996; Russel e Novic, 1995; Diniz e Louzada-
Neto, 2000).
O KDD foi proposto em 1989 (Piatetsky-Shapiro, 1991) para referir-se s etapas que produzem conhecimentos a partir de
dados relacionados, sendo a minerao de dados, data mining, a etapa que transforma dados em informaes. Assim, o KDD
168
Learning and Nonlinear Models (L&NLM) Journal of the Brazilian Neural Network Society, Vol. 9, Iss.3, pp. 168-184, 2011.
refere-se ao processo de extrao da informao relevante ou de padres nos dados contidos em grandes BD e que sejam no-
triviais, implcitos, previamente desconhecidos e potencialmente teis, objetivando a tomada de deciso (Fayyad et al, 1996a).
Nesse sentido, a minerao de dados provm da anlise inteligente e automtica de dados para descobrir padres ou
regularidades em grandes conjuntos de dados, atravs de tcnicas que envolvam mtodos matemticos, algoritmos baseados
em conceitos biolgicos, processos lingusticos e heursticos, os quais fazem parte do processo KDD responsvel pela busca de
conhecimentos em banco de dados (Adriaans e Zantinge, 1996; Han e Kamber, 2006; Bigus, 1996; Fayyad et al, 1996a).
Os passos adicionais minerao de dados no KDD, como preparao de dados, seleo de dados, limpeza de dados,
incorporao de conhecimento prvio adequado e interpretao adequada dos resultados da minerao, so essenciais para
garantir que se extraia o conhecimento til a partir dos dados brutos. A figura 1.1 destaca essas etapas (Fayyad et al, 1996a).
Figura 1.1: Principais tarefas do processo do KDD (Fayyad et al, 1996a)
A figura 1.1 apresenta as principais tarefas do KDD, ou seja, a anlise de requisitos, que representa a maneira pela qual os
dados e eventos se modificam nas transaes do sistema, possibilitando a criao dos elementos necessrios para o estudo e
compreenso do domnio da aplicao objetivando o refinamento das informaes relevantes; a seleo de dados, que busca
identificar conjunto de dados relevantes e seus subconjuntos de variveis objetivando a criao de um conjunto de restrito de
dados para a descoberta de conhecimento; o pr-processamento, que envolve a limpeza dos dados, com operaes de remoo
dos rudos, elaborao de esquemas e mapeamentos de valores desconhecidos; a transformao dos dados, onde se busca
caractersticas teis nos dados, utilizando mtodos de reduo ou transformao da dimensionalidade dos dados para um o
melhor desempenho; a minerao de dados onde se aplica tcnicas especficas em dados pr-processados com objetivo de
buscar modelos de interesse numa representao incluindo regras de classificao, rvores de deciso, regresso ou
agrupamento; e a interpretao dos dados, com a anlise dos resultados obtidos, a qual permite avaliar padres com objetivo de
determinar quais as melhores maneiras de usar as informaes na tomada de deciso (Fayyad et al, 1996a).
KDD evoluiu, e continua a evoluir, a partir da interseo de campos de pesquisa, como aprendizagem de mquina,
reconhecimento de padres, bases de dados, estatsticas, inteligncia artificial, aquisio de conhecimento para sistemas
especialistas, visualizao de dados e computao de alto desempenho. O objetivo unificar a extrao de alto nvel de
conhecimento a partir de dados de baixo nvel, no contexto de grandes conjuntos de dados. O componente de minerao de
dados se baseia fortemente em tcnicas conhecidas de aprendizagem de mquina, reconhecimento de padres e estatsticas,
para encontrar padres de dados na etapa de minerao de dados do processo de KDD (Adriaans e Zantinge, 1996; Fayyad et
al, 1996a; Han e Kamber, 2006; Diniz e Louzada-Neto, 2000).
2 A Minerao de Dados e a Anlise Estatstica

A anlise estatstica pressupe a coleta, a manipulao e a organizao dos dados, buscando a construo de modelos a partir
da conceituao de distribuio de probabilidade, como a distribuio normal, da mdia e da varincia. As tcnicas de
inferncia estatstica desses modelos, como a estimao e o teste de hiptese, a anlise de regresso, anlise de disperso dos
dados, anlise discriminante, anlise de agrupamento e de componentes principais so utilizadas para buscar informaes
169
contidas nos dados, bem como analisar, reduzir dimenses e descobrir relacionamentos entre eles (Hair Jr. et al, 2005).
Dessa forma, as tcnicas estatsticas, como anlise multivariada de dados se colocam como ferramental importante no contexto
de minerao de dados, inclusive quando combinadas com outras tcnicas, tendo uma importante funo na extrao de
informaes relevantes de um conjunto de dados (Hair Jr. et al, 2005; Johnson, 1992; Field, 2009).
Em minerao de dados, dentre as especificidades, possvel utilizar tanto mtodos estatsticos tradicionais como tcnicas
mais sofisticadas descrita em um ambiente de inteligncia computacional. Nesse sentido, a minerao de dados pode ser vista
como uma descendente direta da estatstica, estando exatamente no limite do que poderia ser encontrado e inferido por
mtodos tradicionais de anlise de dados, tratando de questes que esto alm do domnio desses procedimentos (Adriaans e
Zantinge, 1996; Han e Kamber, 2006; Diniz e Louzada-Neto, 2000).
3 Funcionalidades da Minerao de Dados

A multidisciplinaridade da minerao de dados pode ser considerada inevitvel devido integrao de diversas reas de
conhecimento no processo de anlise, abordando reas de pesquisas que envolvem estatstica, matemtica e a computao, as
quais so disciplinas fundamentais para realizao do processo de minerao de dados. A figura 3.1 apresenta esses aspectos
multidisciplinares da minerao de dados (Han e Kamber, 2006).
Figura 3.1: Minerao de dados e seu aspecto multidisciplinar (Han e Kamber, 2006).
Algumas limitaes podem ser identificadas quando se refere escolha do melhor mtodo de minerao de dados, uma vez
que, existe uma grande dificuldade dos especialistas na identificao desses mtodos. Geralmente, os especialistas adotam um
mtodo mais adequado para cada problema especfico. O processo de minerao de dados pode ser dividido em componentes
capazes de favorecer a identificao mais adequada dos algoritmos de minerao quando se leva em considerao algumas
informaes relevantes tais como: a funo do modelo e a representao do modelo (Han e Kamber, 2006).
4 Funes do Modelo
As funes do modelo so utilizadas para especificar o tipo de aplicao do algoritmo minerador. A seguir, sero descritas as
funes mais comumente usadas, ou seja:
4.1 Classificao
A funo de classificao tem por premissa reconhecer, em um conjunto de dados, as observaes que tenham as mesmas
caractersticas. A tarefa descobrir se um item vindo do banco de dados pertence a uma das algumas classes, previamente,
definidas. O problema como definir essas classes. Na prtica, as classes so muitas vezes definidas usando-se valores
especficos de determinados campos nos registros de dados ou alguns derivados desses valores. Por exemplo, se um registro de
170
dados contm o campo Regio, ento algum dos valores tpicos do campo, por exemplo, Norte, Sul, Leste ou Oeste, pode
definir a classe (Devedzic, 2001).
A classificao de dados pode ser vista um processo em duas etapas. Na primeira etapa, um modelo construdo descrevendo
um conjunto pr-determinado de classes de dados ou conceitos. O modelo construdo atravs da anlise de uma lista
ordenada de elementos do banco de dados, descrita por atributos. Cada lista suposta pertencer a uma classe pr-definida,
conforme determinado por um dos atributos, chamado atributo rtulo de classe. No contexto da classificao, os dados listados
tambm so referidos como amostras, exemplos ou objetos.
As listas de dados analisadas para construir o modelo formam coletivamente um conjunto de treinamento de dados. As listas
individuais que compem o conjunto de treinamento so referidas como amostras de treinamento e so selecionados
aleatoriamente da populao de amostra. Como o rtulo de classe de cada amostra de treinamento fornecido, esta etapa
vista como um aprendizado supervisionado. Na segunda etapa, o modelo usado para a classificao. Primeiro, a preciso da
previso do modelo (classificador) estimada. O mtodo de validao usa um conjunto de testes das amostras de treinamento
(Han e Kamber, 2006).
Uma vez que o algoritmo classificador tenha sido desenvolvido de forma eficiente, ele poder ser usado de forma preditiva
para classificar novos registros naquelas mesmas classes pr-definidas (Han e Kamber, 2006; Diniz e Louzada-Neto, 2000).
As tcnicas de classificao mais usadas so a anlise discriminante, atravs de rvore de deciso, baseadas em regras de
deciso, por associao, baseadas em modelos adaptativos e evolutivos e a classificao bayesiana (Johnson, 1992; Apt e
Weiss, 1997; Michie et al, 1994; Curram e Mingers, 1994; Haykin, 2009).
4.2 Regresso
A funo de regresso , basicamente, um conjunto de mtodos que permite a interpretao da relao funcional entre
variveis com boa aproximao, considerando a existncia de uma relao entre essas as variveis, de modo que a medida
possa estabelecer modelos utilizados para fins de predio. A anlise de regresso pode ser considerada uma ferramenta
analtica simples e eficiente, dentro de uma determinada relao de vizinhana, para explorar todos os tipos de relaes de
dependncia. No caso mais simples, a regresso uma funo de aprendizado que mapeia um dado item a uma varivel de
predio de valor real. No caso geral tem-se a predio de uma ou mais varivel dependente, considerada como resposta, a
partir de conjunto de variveis independentes, os preditores. Essa relao de mltiplas variveis independentes como preditores
denominada anlise de regresso multivariada (Hair Jr. et al, 2005; Johnson, 1992; Hrdle e Simar, 2003).
Os mtodos de regresso podem ser utilizados em diversas reas de conhecimento como, por exemplo, para previso da
economia nacional com base em certas informaes (nveis de renda, investimentos, etc...), para a verificao de quais fatores
ajudam a manter a qualidade dos servios oferecidos ou na medida de viabilidade de um novo produto. Tambm na construo
de sries temporais onde as variveis de entrada so verses atrasadas da varivel de predio.
4.3 Anlise de Associao

Anlise de associao tem como objetivo elaborar uma representao explcita entre os objetos, visando determinar
relacionamentos entre conjuntos de itens de associao. Ela gera redes de interaes e conexes presentes nos conjuntos de
dados usando as associaes item a item. Nesse sentido, a presena de um item implica necessariamente na presena do outro
item na mesma transao. Em geral, uma regra de associao pode ser representada formalmente atravs do tipo, se X ento Y,
considerados corpo e cabea da regra, respectivamente (Diniz e Louzada-Neto, 2000).
A figura 4.1 exemplifica uma regra de associao voltada a identificar afinidades entre itens de um subconjunto de dados,
dentro de um conjunto de valores (produtos comprados por um cliente, sintomas apresentados por um paciente, etc.),
destacando, ainda, dois fatores importantes, o de confidncia e o de suporte.
171
Figura 4.1: Exemplo de uma regra de associao (Diniz e Louzada-Neto, 2000).
4.4 Anlise de Seqncia

Anlise de seqncia constitui-se de uma variao da anlise associativa objetivando extrair e registrar desvios e tendncias no
tempo. As regras identificadas so usadas para reconhecer seqncias relevantes que possam ser utilizadas para prever
comportamentos, modelar processos gerando uma seqncia ou relatar tendncias de um processo ao longo do tempo
(Adriaans e Zantinge, 1996).
Assim, por exemplo, seja um conjunto de dados ordenado pelo sobrenome do consumidor e pelo perodo de transao de
compras (Oliveira* visitou a loja em dois dias consecutivos, comprou cerveja no primeiro dia e vodka no segundo dia). A
tabela 4.1, mostra as seqncias de transaes de consumidores organizadas segundo o tempo, onde cada conjunto de
parnteses indica uma transao que inclui um ou mais itens (Diniz e Louzada-Neto, 2000).
Tabela 4.1: Seqncias de transaes dos consumidores data (Diniz e Louzada, 2000)
Consumidor* Seqncia diria de compras de bebidas

Oliveira (Cerveja) (Vodka)
Soares (Guaran, Suco) (Cerveja) (gua, Licor, Vinho) (Gin, Licor)
Tenrio (Cerveja) (gua, Gin, Vinho) (Vodka, Soda)
Zacaria (Vodka)
*sobrenomes fictcios
As tcnicas de busca de caracterstica seqencial detectam caractersticas entre as transaes de tal forma que a presena de um
conjunto de itens seguida por outro conjunto de itens em um banco de dados de transaes em um perodo de tempo
(Adriaans e Zantinge, 1996). V-se, no caso da tabela 4.1, que a caracterstica seqencial cerveja comprada em uma
transao anterior a que a vodka comprada ocorre em dois dos quadros de consumidores. A tcnica tambm determina a
freqncia de cada combinao de transaes que pode ser produzida nas seqncias de consumidores e disponibiliza as
caractersticas seqenciais cujas ocorrncias relativas so maiores que um determinado nvel de suporte mnimo requerido
(Adriaans e Zantinge, 1996). A tabela 4.2, apresenta as caractersticas seqenciais com suporte maior que 40%.
Tabela 4.2: Caractersticas Seqenciais com Suporte > 40% (Diniz e Louzada, 2000)
Caractersticas Seqenciais (com Fator de

Consumidores de Apoio
Sustentao > 40%)
(Cerveja), (Vodka) (Oliveira, Tenrio)
(Cerveja), (Vinho, gua) (Soares, Tenrio)
172
4.5 Sumarizao
A funo de sumarizao visa obter uma descrio compacta de um conjunto de dados, bastante usada em anlise exploratria
de dados. Geralmente, a sumarizao no usada para a resoluo de problemas, mas possibilita identificar caractersticas no
conjunto de dados que possa estar contaminadas por rudos, que interfiram no processo de anlise, ou redundantes, gerando
uma tendncia errnea anlise. A sumarizao usada, principalmente, no pr-processamento dos dados, onde valores
invlidos, no caso de variveis quantitativas, so determinados atravs do clculo de medidas estatsticas e, no caso de
variveis categricas, atravs da distribuio de freqncia dos valores (Hair Jr. et al, 2005; Johnson, 1992). O objetivo da
sumarizao em minerao de dados propiciar a limpeza dos dados facilitando a anlise e a gerao automatizada de
relatrios (Bigus, 1996; Diniz e Louzada-Neto, 2000).
Em base de dados com informaes complexas, outras formas complementares de sumarizao podem ser implementadas, tais
como a anlise de componentes principais (Johnson, 1992) ou de componentes independentes (Hyvrinen, Karhunen e Oja,
2001), mais sofisticadas, destinando-se, inclusive, a auxiliar em tcnicas de visualizao de dados (Gnsel, Tekalp e Van Beek,
1998), as quais tm sido parte integrante da anlise estatstica tornando-se de extrema importncia para se obter informaes a
partir de um entendimento, muitas vezes, indutivo do conjunto de dados. importante destacar, neste item, a caracterizao, a
qual descreve qualidades relevantes a partir da anlise quantitativa, propiciando uma descrio compacta do conjunto, podendo
generalizar, resumir e inclusive contrastar caractersticas de dados. Nesse sentido, sumarizao e caracterizao tendem a ser
complementares (Hrdle e Simar, 2003).
4.6 Visualizao
As tcnicas de visualizao podem ser consideradas ferramentas eficientes para se analisar grandes quantidades de dados. Em
muitas situaes, elas so suficientes para a extrao das respostas de interesse, descobrindo padres, tendncias, estruturas e
relaes, dentro de um conjunto de dados (Han e Kamber, 2006; Gnsel, Tekalp e Van Beek, 1998). O mtodo de visualizao
escolhido para anlise depender basicamente do tipo de conjunto de dados disponvel e como esses dados podem ser
modelados, por exemplo, se o conjunto de dados envolve chamadas telefnicas feitas em um intervalo de tempo especfico,
ento uma representao visual desta informao poderia ser sumarizada atravs de um simples diagrama de associao,
disponibilizando todas as relaes entre as chamadas, conforme tabela 4.3 (Diniz e Louzada-Neto, 2000).
Tabela 4.3 Representao tabular das chamadas telefnicas (Diniz e Louzada-Neto, 2000)
A figura 4.2, apresenta a visualizao de vrias camadas entre certos pares de telefones. As linhas mais grossas no diagrama
representam os nmeros maiores de chamadas. A partir desse diagrama, possvel detectar, rapidamente, quais nmeros
requerem uma anlise mais detalhada, enquanto, no formato tabular, clculos adicionais so necessrios para a anlise de
freqncia. Tambm possvel verificar ocorrncias de associaes com outros nmeros, para se obter a mesma informao.
Figura 4.2: Diagrama de associao das chamadas telefnicas (Diniz e Louzada-Neto, 2000)
173
Representaes de mtodos de visualizao bem comum so, por exemplo, os mtodos de visualizao simples de dados, os
quais se baseiam em grficos ou resumos rpidos que, de alguma forma, representam ou resumem caractersticas dos conjuntos
de dados. Os grficos podem ser plotados em formatos bidimensionais, tridimensionais e etc., proporcionando o
relacionamento entre atributos de dados ou integrando expresses matemticas a partir da mdia, da potenciao, do logaritmo,
etc. Esses grficos formam uma espcie de "descrio sucinta" dos conjuntos de dados, cuja anlise preliminar, possibilitaria
um melhor entendimento dos dados e evitaria a aplicao negligente de tcnicas de minerao de dados, o que muitas vezes
leva a resultados sem sentido (Fayyad et al, 1996a).
A classificao dos mtodos de visualizao de dados pode ser resumida a partir de histogramas, grficos relacionando
atributos ou resumos destes entre si ou representaes icnicas, onde normalmente associa-se um atributo de dado a um
atributo de uma figura que o representar (Everitt, Landau, e Leese, 2001). Outros mtodos de visualizao de dados incluem:
diagramas baseados em propores, diagramas de disperso, histogramas, box plots entre outros (Hrdle e Simar, 2003).
Os modelos que incluem a representao dos dados atravs de figuras poligonais podem ser visualizados a partir das "faces de
Chernoff ", considerada uma tcnica para ilustrar tendncias em dados multidimensionais. As faces representadas por este
modelo ilustram caractersticas para representar dados em diferentes dimenses, capazes de representar tendncias em termos
de valores nos dados e podem ser utilizadas para visualizar graficamente dados multivariados complexos (Chernoff, 1973). As
faces apresentadas na figura 4.3, ilustram o usurio na deteco de padres, agrupamentos e correlaes entre os dados, os
quais so simplificados a partir de desenhos provenientes da face humana.
Figura 4.3: Faces de Chernoff (Chernoff, 1973).
5 Representao do Modelo
As funes do modelo tm um papel importante na anlise e modelagem do problema. Porm, a integrao da funo e a
representao do modelo podem ser consideradas um dos fatores de grande relevncia, uma vez que, os modelos representados
a partir de algoritmos de minerao de dados, podem determinar a flexibilidade do mesmo em representar o conjunto de dados
e a sua interpretao. Os modelos mais complexos podem ajustar melhor os dados, entretanto, ficam mais difceis de serem
interpretados (Diniz e Louzada-Neto, 2000). Representaes mais tradicionais incluem rvore de deciso (Adriaans e Zantinge,
1996), conjunto de regras (Han e Kamber, 2006), mtodos de agrupamento (Fayyad et al, 1996a), modelos lineares (Hair Jr. et
al, 2005; Johnson, 1992) e no lineares (Hrdle e Simar, 2003; Haykin, 2009), os quais so descritos a seguir.
5.1 rvores de Deciso e Regras de Deciso

Quando o processo de minerao de dados direcionado classificao, o mtodo de rvore de deciso pode ser conveniente
quando o objetivo se relaciona categorizao dos dados. As rvores de deciso so ferramentas eficientes e populares para
classificao e diagnstico. A rvore formada por ns e o primeiro, n raiz, envolve todo o conjunto de dados, onde o
processo de classificao se inicia. A estrutura de uma rvore de deciso pode ser ilustrada conforme figura 5.1, onde cada n
interno identifica um dos atributos de previso. Cada linha que sai desse n identifica um valor assumido por tal n e cada n
terminal (folha) identifica o resultado da previso ou objetivo (Apt e Weiss, 1997).
174
Figura 5.1: Classificao por rvore de deciso do formato de pinos dados comprimento e dimetro (Apt e Weiss, 1997).
No exemplo da figura 5.1, o n raiz testa todos os itens para o comprimento 0,75. Os que satisfazem o teste so considerados
verdadeiros, indo para uma folha, indicando que todos os pinos pertencem a classe Quadrado. A linha de falsos, que sai do n
raiz encaminha todos os casos que falharam no teste inicial. Esses pinos ainda no pertencem a uma s classe e, portanto,
futuros testes sero necessrios ao n intermedirio. O teste nesse n para o dimetro 3,00. Os pinos que satisfazem o teste
vo para a classe Estrela e os que falharam, para a classe Losango, ou seja, o teste conduziu a outras folhas.
Considerando ainda o exemplo anterior, onde esto disponveis dados sobre o comprimento e dimetro de uma srie de pinos,
que podem ter o formato de quadrado, de estrela ou de losango, uma classificao que caracterize a variedade do pino como
uma funo do comprimento e do dimetro pode ser til para se entender como essas variedades diferem. Os dados so
ilustrados na figura 5.2, que apresenta duas linhas paralelas aos eixos, uma no comprimento 0.75 e outra no dimetro 3,00,
particionando as trs variedades em trs sub-reas. Mtodos de soluo por deciso por rvore fornecem automaticamente estas
parties de eixos paralelos (Apt e Weiss, 1997).
Figura 5.2: Dados dos pinos: classificao que caracteriza a variedade dos pinos (Apt e Weiss, 1997).
As regras de deciso podem ser consideradas um processo para analisar uma srie de dados e a partir dela gerar padres.
Tambm podem ser vistas como a expresso verbal das rvores de deciso. Nesse sentido, a integrao dos mtodos de rvore
175
de deciso e regra de deciso pode ser considerada ferramenta fundamental em previso. Uma regra pode ser construda
atravs da formao de um conjunto de testes que ocorre nos caminhos entre n raiz e os ns terminais da rvore. A coleo de
todas as regras obtidas em cada caminho do n raiz a um n terminal uma soluo baseada em regras para a classificao
(Han e Kamber, 2006).
No exemplo dos pinos, figuras 5.1 e 5.2, pode-se utilizar, para ilustrar a deciso por rvore, a soluo por regra (Diniz e
Louzada-Neto, 2000):
Se (comprimento 075)
Ento Quadrado
Se (no (comprimento 075)) & (dimetro 3,00)
Ento Estrela
Se (no (comprimento 075)) & (no (dimetro 3,00))
Ento Losango
Gerada uma soluo utilizando rvore de deciso ou regra de deciso, esta pode ser usada para estimar ou predizer a resposta
ou classe varivel para um novo caso (Han e Kamber, 2006).
6 Anlise de Agrupamento
A prtica de classificar objetos de acordo com similaridades percebidas pode ser considerada a base inicial para vrios aspectos
da cincia. O principal objetivo da anlise de agrupamento (cluster) est relacionado ao processo de agrupar elementos de
dados mediante o particionamento de uma populao heterognea em subgrupos mais homogneos. Nesse sentido, a anlise de
agrupamento o estudo formal dos algoritmos e dos mtodos para agrupar ou classificar objetos (Jain e Dubes, 1988).
No agrupamento, no h classes pr-definidas, os elementos so agrupados de acordo com a semelhana, o que a diferencia da
tarefa de classificao, buscando reunir indivduos ou objetos em grupos tais que os objetos no mesmo grupo so mais
parecidos uns com os outros do que com os objetos de outros grupos. A sua abordagem se d em diversas reas de
conhecimento tais como cincias biolgicas (por exemplo, criar a taxonomia biolgica para a classificao de vrios grupos de
animais), cincias humanas (por exemplo, analisar vrios perfis psiquitricos) e outros. A idia maximizar a homogeneidade
de objetos dentro dos grupos, ao mesmo tempo em que maximiza a heterogeneidade entre os grupos (Han e Kamber, 2006).
A figura 6.1 mostra uma rvore abordando diferentes mtodos de agrupamento aplicados ao problema de classificao de
forma simplificada, os quais so descritos a seguir:
Figura 6.1: Classificao simplificada dos mtodos de agrupamentos (Jain e Dubes, 1988).
176
6.1 Mtodos de Agrupamento

O mtodo de agrupamentos uma tcnica analtica para desenvolver subgrupos significativos de indivduos ou objetos e tm
como objetivo classificar uma amostra de entidades em um pequeno nmero de grupos mutuamente exclusivos, com base nas
similaridades entre eles (Hair Jr. et al, 2005; Johnson, 1992). Essa tcnica pode ser dividida em trs etapas: a primeira
relaciona-se a medida de similaridade ou associao entre as entidades para determinar quantos grupos realmente existem na
amostra; a segunda refere-se ao processo de busca do agrupamento, no qual entidades so particionadas, e o ltimo passo busca
estabelecer o perfil das variveis para determinar sua composio (Jain e Dubes, 1988). A figura 6.2 mostra os mtodos.
Figura 6.2: Classificao simplificada dos mtodos de agrupamentos adaptados (Jain e Dubes, 1988).
O critrio de classificao utilizando os mtodos intrnsecos a essncia da anlise de agrupamento (Jain e Dubes, 1988).
Existem vrias adaptaes ao modelo simplificado aos mtodos de agrupamentos, representados graficamente a partir da figura
6.2 (Jain e Dubes, 1988; Rencher, 2002).
6.2 Agrupamento Hierrquico

A anlise de agrupamentos corresponde ao grupo de tcnicas multivariadas de dados cuja finalidade primria agregar objetos
com base nas caractersticas que eles possuem. Entre essas tcnicas encontram-se o procedimento hierrquico, que opera para
formar um intervalo inteiro de solues de agrupamentos (Hair Jr. et al, 2005; Johnson, 1992), ou ainda, que opera como um
mtodo aglomerativo, objetivando fundir agrupamentos individuais (inicialmente, cada grupo contm um nico objeto) em
parties maiores at a obteno de uma nica partio contendo todos os objetos do conjunto, onde os agrupamentos so
formados pela combinao de outros j existentes (Rencher, 2002) .
O procedimento hierrquico trata o conjunto de dados como uma estrutura de parties, cada uma correspondendo a um
agrupamento, hierarquicamente organizadas segundo a similaridade entre seus objetos (Jain e Dubes 1988). A maioria dos
mtodos de anlise de agrupamento requer uma medida de similaridade entre os elementos a serem agrupados, a qual
normalmente expressa por uma funo distncia ou mtrica. Por exemplo, a similaridade pode ser medida a partir de uma
associao, onde os coeficientes de correlao positivos maiores medidos representam maior similaridade (Hair Jr. et al, 2005).
A proximidade entre cada par de objetos pode avaliar a similaridade onde medidas de distncia ou de diferena so
empregadas e as menores distncias ou diferenas representam maior similaridade (Rencher, 2002; Han e Kamber, 2006).
A tabela 6.1, exibe a representao formal de algumas medidas de similaridade que so usadas na anlise de agrupamentos. A
mtrica mais utilizada a distncia euclidiana, principalmente, quando no h nenhuma outra informao prvia existente
acerca dos dados de entrada que possa afetar diretamente na quantidade de formao dos grupos encontrados pelos algoritmos
de agrupamento (Jain e Dubes, 1988; Rencher, 2002; Kohonen, 1997; Haykin, 2009).
Tabela 6.1: Distncias: (A) Euclidiana, (B) Quadrado da Euclidiana, (C) Manhattan e (D) Chebychev.
Medidas de Similaridade Representao Formal
Objetos X=[x1, x2, ...,xn] e Y = [y1, y2, ...,yn]
177
A dxy =
B dxy =
C dxy =
D dxy = mx (|x1 y1|+ |x2 y2|+...+ |xn yn|)
6.3 Mtodos Aglomerativos

Dentre os mtodos hierrquicos que envolvem a construo de uma hierarquia numa estrutura em rvore, encontram-se as
tcnicas aglomerativas, utilizadas para descobrir agregados e so divididas em (Kaufman e Rousseeuw, 1990):
Ligao Individual ou Simples: Procedimento baseado na distncia mnima. Ele encontra os dois objetos separados pela
menor distncia e os coloca primeiro no agrupamento. Em seguida, a prxima distncia mais curta determinada, e um
terceiro objeto se junta aos dois primeiros para formar um agregado, ou um novo agrupamento de dois membros formado. O
processo continua at que todos os objetos formem um s agregado. Esse procedimento tambm pode ser chamado de
abordagem do vizinho mais prximo.
Ligao Completa: Procedimento baseado na distncia mxima. Por essa razo, s vezes chamado de abordagem do vizinho
mais distante ou de mtodo do dimetro. A distncia mxima entre indivduos em cada agregado representa a menor esfera
(dimetro mnimo) que pode incluir todos os objetos em ambos os agrupamentos. Esse mtodo chamado de ligao completa
porque todos os objetos em um agrupamento so conectados um com o outro a alguma distncia mxima ou similaridade
mnima. Podemos dizer que a similaridade interna se iguala ao dimetro do grupo. Esta tcnica elimina o problema de
encadeamento identificado na ligao individual.
Ligao Mdia: Procedimento baseado na distncia mdia de todos os indivduos em um agrupamento aos demais em outro.
Esta tcnica no depende de valores extremos, como ocorre na ligao individual ou completa, pois a partio baseada em
todos os elementos dos agregados, ao invs de um nico par de membros extremos. Abordagens de ligao mdia tendem a
combinar agregados com pequena variao interna tendendo a produzir agregados com aproximadamente a mesma varincia.
A figura 6.3 ilustra esse dois casos. O critrio de ligao simples define dAB como a menor distncia entre todos os pares (x, y)
de dois objetos onde x A e y B e o critrio de ligao completa define dAB como a maior distncia entre todos os pares (x, y).
Assim, depois de calculadas as distncias entre os agrupamentos, os algoritmos promovem a unio dos agrupamentos com a
menor distncia entre si.
Figura 6.3 Ilustrao do Critrio de Ligao Simples e Completa (Kaufman e Rousseeuw, 1990).
Alm dos procedimentos de ligao, a agregao ainda pode ser listada por (Kaufman e Rousseeuw, 1990; Hair Jr. et al, 2005):
Mtodo de Ward: Procedimento onde a distncia entre dois agrupamentos a soma dos quadrados entre os dois
agrupamentos, feita sobre as variveis. Em cada estgio do procedimento de agrupamento, a soma interna de quadrados
minimizada sobre todas as parties (o conjunto completo de agrupamentos disjuntos ou separados) que podem ser obtidas
pela combinao de dois agregados do estgio anterior. Este procedimento tende a combinar agrupamentos com um pequeno
nmero de observaes. Ele tambm tende a produzir agregados com aproximadamente o mesmo nmero de observaes.
178
Mtodo Centride: Procedimento onde a distncia entre dois agrupamentos a distncia (geralmente euclidiana quadrada ou
euclidiana simples) entre seus centrides. Centrides so valores mdios das observaes na varivel estatstica de
agrupamento. Neste mtodo, toda vez que indivduos so reunidos, um novo centride computado. Os centrides migram
quando ocorrem fuses de agregados. Em outras palavras, existe uma mudana no centride do agrupamento toda vez que, um
novo indivduo ou grupo de indivduos acrescentado a um agregado j existente. Esses algoritmos diferem na forma como a
distncia entre os agrupamentos computada. A sada gerada por esses algoritmos podem proporcionar a criao de grficos
demonstrando o processo de formao desses agrupamentos, conforme figura 6.4. Os diagramas representados na figura 6.4,
exibem uma representao grfica de diferentes tipos de clusters. As representaes mais comuns so do modelo
dendrograma, do grego dendro (rvore), ou seja, diagrama em rvore, que representa as junes sucessivas de parties e que
pode gerar agrupamentos diferentes conforme o nvel em que seccionada (Witten e Frank, 1999; Rencher, 2002).
Figura 6.4 Diferentes tipos de representao de agrupamentos.

6.4 Mtodos Divisivos
Quando o processo de classificao utiliza mtodos divisivos ocorre uma inverso com relao ao mtodo hierrquico
aglomerativo. Pode-se observar que um conjunto contendo todos os dados particionado a partir de um aglomerado unificado.
Os mtodos divisivos comeam o processamento a partir de um grande agregado que contm todas as observaes (objetos).
Em passos sucessivos, as observaes mais diferentes entre si so separadas e transformadas em agrupamentos menores, ou
seja, pode-se considerar a existncia de uma nica partio (o prprio conjunto de dados), subdividindo esta partio em uma
srie de parties alinhadas. Os mtodos hierrquicos so bastante utilizados no processo de anlise multivariada de dados,
porm, em bases de dados de grande porte, esses mtodos podem se tornar impraticvel por ser difcil visualizar as
informaes contidas no dendrograma e nos demais tipos de grficos resultados dessa classificao, tornando-os pouco
indicveis em minerao de dados (Jain e Dubes 1988; Hair Jr. et al, 2005).
6.5 Mtodos Particionais

Os mtodos particionais tm como objetivo dividir um conjunto de objetos em um nmero pr-estabelecido de clusteres. O
mtodo mais popular conhecido como k-means. Esse algoritmo divide o conjunto de dados em partes disjuntas, satisfazendo
as seguintes recomendaes: a) objetos de uma mesma parte esto prximos, de acordo com um critrio de dado; b) objetos de
partes distintas esto longe, de acordo com este mesmo critrio. A subdiviso realizada pelo algoritmo k-means, como mtodo
particional, feita da seguinte maneira: cria-se uma partio inicial aleatria de K partes e posteriormente, em um processo
iterativo, os elementos das partes vo sendo realocados para outras partes, de modo a melhorar o particionamento a cada
iterao, isto , de modo que cada parte contenha, realmente, objetos que esto prximos e objetos em partes distintas estejam
longe um do outro. Dessa forma, os mtodos particionais dividem o conjunto dos N objetos em K agrupamentos sem relacion-
los hierarquicamente entre si, como o fazem os mtodos hierrquicos (Jain e Dubes 1988; Rencher, 2002).
Normalmente as parties so obtidas por um processo de otimizao, com a busca a partir de um critrio local, definido sobre
um subconjunto de objetos, ou de um critrio global, na forma de uma funo objetivo. A aproximao dos objetos pode ser
179
analisada a partir da formao de uma matriz de distncia ou das similaridades de acordo com uma mtrica pr-estabelecida
(no caso da distncia euclidiana). Assim, pode-se descrever os objetos do conjunto de dados, por uma simples representao
matemtica, onde X = [x1, x2, x3, ...xn] representa o conjunto de objetos de um nmero K X representando o nmero de
clusters que se deseja formar.
Seja C = [C1, C2, C3, ..., Cn] uma partio do conjunto de dados em k clusters e sejam os elementos escolhidos em cada um
dos clusters, representando os centros dos mesmos, os centrides. Cada entidade influencia o grupo, cujo prottipo V = [v1, v2,
v3, ...,vk] so os elementos escolhidos em cada um dos clusters, representando os centros de rea ou centrides. Cada entidade
xi (i = 1, ..., n), influencia o grupo Ck (k = 1, ..., K),cujo prottipo vk est mais prximo. Os centrides constituem valores
mdios dos objetos contidos no agrupamento sobre cada varivel usada nas variveis estatsticas de agrupamento ou no
processo de validao.
Toda vez que os objetos so reunidos, um novo centride computado e os objetos so realocados a partir de vk (Hair Jr. et al,
2005; Rencher, 2002), onde:
Uma caracterstica relevante do k-means est no emprego da funo objetivo erro quadrtico total, definida para um nmero K
de agrupamentos, representada pela equao (Jain e Dubes 1988; Rencher, 2002):
O k-means recebe como entrada um nmero K de agrupamentos e atribui aleatoriamente um objeto como sendo o centride
inicial de cada agrupamento. Sucessivamente, cada objeto associado ao agrupamento mais prximo e o centride de cada
agrupamento ento recalculado levando-se em conta o novo conjunto de objetos a ele pertencentes (Jain e Dubes 1988).
A figura 6.5 mostra as iteraes do algoritmo k-means utilizando K = 3. Os objetos selecionados em crculos representam a
escolha aleatria dos k prottipos, nas iteraes seguintes os centrides so marcados pelo sinal de +. Em seguida, pode-se
visualizar o critrio de convergncia do algoritmo que pode ser analisado a partir das observaes referentes as trocas de
objetos.
O algoritmo k-means converge quando ocorrem poucas trocas de objetos entre os grupos ou quando o valor de ek2
minimizado, ou at mesmo quando vk no se altera em duas iteraes consecutivas. O mtodo k-means possui sua maior
vantagem quando atua sobre um conjunto de dados com elevado nmero de objetos pertencentes (Rencher, 2002).
Figura 6.5 Mtodo k-means na formao de clusters (Rencher, 2002).
7 - Grafos
Os agrupamentos de dados baseado em grafos utilizam algoritmo baseado na construo de uma rvore geradora mnima
(Minimum Spanning Tree - MST) e tm como objetivo gerao de um grafo, de modo que os objetos no possuam ciclos e
sejam conectados por um arco, ou seja, uma rvore. Assim, os agrupamentos so obtidos a partir do primeiro arco de maior
comprimento de produo dos aglomerados. Os agrupamentos obtidos pelo algoritmo MST so sub-grafos bastante similares
ao mtodo de agrupamento aglomerativo, especificamente as ligaes simples e completa (Jain e Dubes 1988).
180
Figura 6.6 Algoritmo de caminho mnimo abrangendo a rvore de clusters (Jain e Dubes 1988).
8 Mtodos de Projeo
Os operadores de projeo procuram realizar um conjunto de testes a partir do mapeamento de objetos de um espao N -
dimensional em um espao M - dimensional, onde M < N. O principal objetivo da realizao desses testes permitir a anlise
visual dos dados utilizando tcnicas que possam exibir uma estrutura do espao original o mais fielmente possvel no
hiperplano de projeo, possibilitando assim uma anlise de agrupamentos que pode ser realizada visualmente, nos casos M=2
ou M=3, e que poder servir para validar resultados obtidos por outros mtodos de minerao de dados (Jain e Dubes 1988).
Quando esses testes so executados a partir de uma projeo linear, pode-se obter novas caractersticas a partir da combinao
linear das caractersticas originais dos dados na dimenso N (Jain e Dubes 1988). Nesse caso, o mapeamento pode ser
representada por:
yi = A xi , i = 1, ..., N
onde A uma matriz P x D que gera os vetores y = [y1, y2, y2, ...yP] T R P, podendo ser representado por uma combinao
linear de suas colunas aj R P, tal como:
Os algoritmos de projeo lineares so bastante simples, e os diferentes tipos so definidos a partir das colunas da matriz A.
Um dos mais populares algoritmos a projeo de auto-vetores, que tambm pode ser conhecida como mtodo de
KarhunenLoeve ou Anlise de Componentes Principais, PCA (Jain e Dubes 1988; Johnson, 1992; Diamantaras e Kung,
1996). Essa tcnica estatstica tem como objetivo condensar dados originais obtidos a partir de um conjunto de variveis com
dimenso elevada em um conjunto menor de variveis com uma perda mnima de informao. O PCA um mtodo de
identificar padres nos dados, visando expressar os mesmos de modo a salientar as similaridades e diferenas existentes. Essas
diferenas podem ser denominadas de processo de seleo ou extrao de caractersticas (Diamantaras e Kung, 1996; Rencher,
2002; Hrdle e Simar, 2003; Haykin, 2009).
De acordo com Haykin (Haykin, 2009) "a seleo de caracterstica se refere a um processo no qual um espao de dados
transformado em um espao de caracterstica que, em teoria, tem exatamente a mesma dimenso que o espao original de
dados. Entretanto, a transformao projetada de tal forma que o conjunto de dados pode ser representado por um nmero
reduzido de caractersticas "efetivas" e ainda reter a maioria do contedo de informao intrnseco dos dados; em outras
palavras, o conjunto de dados sofre uma reduo de dimensionalidade".
O mtodo PCA toma um conjunto x = [x1, x2, ..., xN] onde xn = [xn1, xn2, ..., xnD] , numa base ortogonal e encontra uma nova
base ortonormal {q1, q2, ..., qD} capaz de gerar o espao original. Essa nova base rotacionada de forma que o primeiro eixo
coincida com a direo de maior varincia dos dados, e assim sucessivamente com os demais eixos ortogonais ao primeiro.
Para as n solues possveis para o vetor q, podem ser constatadas a existncia de n projees possveis do vetor de dados x a
serem considerados por:
T
ai = qi x, i = 1,2, ..., n
onde
181
Q = [q1, q2, ..., qN] (autovetores)

e os ais so considerados as projees de x sobre as direes principais representadas pelos vetores de entrada, tambm
conhecidos como componentes principais e possuem as mesmas dimenses fsicas que o vetor de dados x. A equao acima
pode ser vista como uma frmula de anlise.
Para reconstruir exatamente o vetor de dados original x a partir das projees ai, considerando [ai i = 1, 2, ..., n],
combinaes do conjunto de projees em um nico vetor a partir de:
x = Qa
Neste sentido, os vetores representam uma base no espao de dados, ou seja, no nada mais do que uma transformao de
coordenadas, de acordo com a qual um ponto x no espao de dados transformado em um ponto a correspondente um espao
caractersticas. Desta forma, a praticidade na anlise de componentes principais constitui em fornecer uma tcnica efetiva para
reduo de dimensionalidade, descartando as combinaes lineares que tm varincias pequenas.
Haykin (Haykin, 2009) aborda a anlise de componentes principais utilizando redes neurais na busca dos coeficientes. Outros
mtodos so vistos na literatura, se destacando a anlise discriminante (Jain e Dubes 1988; Johnson, 1992).
9 Concluso
Este artigo buscou uma introduo a minerao de dados, no tendo a inteno de ser uma obra completa. Neste contexto,
outras tcnicas podem ser vista na literatura, com detalhes, como forma complementar aos mtodos de minerao de dados.
Nesse sentido pode-se citar as ferramentas supervisionadas e no supervisionadas com o uso da teoria de redes neurais
(Principe et al, 2000; Haykin, 2009; Kohonen, T. K. 1997), dos algoritmos bio-inspirados (Holland, 1992, Jain et al, 1999), dos
conjuntos nebulosos (Zadeh, 1996), da anlise de componentes independentes (Hivrinen, 2001) e outros.
No contexto da classificao, trabalhos referenciados podem ser vistos em Metha et al (1996) e Shafer et al (1996). Novos
mtodos de agrupamento fuzzy cluster podem ser vistos em Silvanandam et al (2007). Outros trabalhos importantes so citados
em Fayyad et al (1996b), Costa (1999), Zuchini (2003).
10 Agradecimentos
Os autores agradecem CAPES, no contexto do projeto PROCAD NF 2009, pelo apoio financeiro.
11 Referncias
Adriaans, P. e Zantinge, D. (1996). Data Mining. Addison Wesley, England.
Apt, C. e Weiss, S. (1997). Data mining with decision trees e decision rules, Future Generation Comp. Sys., 13: 197-210.
Bigus, J. P. (1996). Data mining with neural network solving business problems from applications development to
decision support, McGraw-Hill, New York.
Chernoff, H. (1973). The use of faces to represent points in k-dimensional space graphically. Journal of the American
Statistical association, vol 342, 68: 361368.
Costa, J.A.F. (1999), Classificao automtica e anlise de dados por redes neurais auto-organizveis, tese de doutorado,
Unicamp, S.P.
Curram, S.P. e Mingers, J. (1994). Neural networks, decision tree induction e discriminant analysis: An empirical comparison,
J. Operational Research Society, 45: 440-450.
Devedzic, V. (2001). Knowledge Discovery e Data Mining in Databases, in Handbook of Software Engineering e Knowledge
Engineering.
Diamantaras, K.I. e Kung, S.Y. (1996), Principal Component Neural Networks, John Wiley, New York.
182
Diniz, C.A.R. e Louzada-Neto, F. (2000), Hair Jr., J.F., Anderson, R.E., Tatham, R.L. e Black, W.C. (2005). Anlise
Multivariada de Dados, Traduo, 5 ed., Bookman, Porto Alegre.
Han, J. e Kamber, M. (2006). Data Mining: Concepts e Techniques, 2 ed., Morgan Kaufmann, San Francisco.
Hrdle, W. e Simar, L. (2003). Applied Multivariate Statistical Analysis. Springer-Verlag, Berlin
Haykin, S. (2009). Neural Networks e Learning Machine, Prentice Hall, New Jersey.
Data Mining: Uma Introduo, ABE - Associao Brasileira de Estatstica, So Carlos SP.
Everitt. B., Landau, S. e Leese, M. (2001). Cluster Analysis, 4th edition. Wiley, London.
Fayyad, U.M., Piatetsky-Shapiro, G.. e Smyth, P. (1996a). From Data Mining to Knowledge Discovery in Databases. AI
Magazine 17(3): 37-54.
Fayyad, U.M., Piatetsky-Shapiro, G.., Smyth, P. e Uthurusamy, R. (1996b), Advances In Knowledge Discovery e Data
Mining,AAI Press/ The MIT Press.
Field, A. (2009). Descobrindo a Estatstica Usando SPSS, Traduo de Lor Viali, Artmed, Porto Alegre.
Gnsel, B., Tekalp, A.M. e Van Beek, P.J.P. (1998). Content-based access to video objects: Temporal Segmentation, visual
summarization, e feature extraction, Signal Processing, vol 66, issue 2 (30): 261-280.
Hair Jr., J.F., Anderson, R.E., Tatham, R.L. e Black, W.C. (2005). Anlise Multivariada de Dados, Traduo, 5 ed.,
Bookman, Porto Alegre.
Han, J. e Kamber, M. (2006). Data Mining: Concepts e Techniques, 2 ed., Morgan Kaufmann, San Francisco.
Hrdle, W. e Simar, L. (2003). Applied Multivariate Statistical Analysis. Springer-Verlag, Berlin.
Haykin, S. (2009). Neural Networks e Learning Machine, Prentice Hall, New Jersey.
Hivrinen, A., Karhunen, J. e Oja, E. (2001), Independent Component Analysis, Jonh Wiley, New York.
Inmon, W. H. (1997). Como construir um Data Warehouse, Traduo de Ana M. N. Guz, 2 ed., Campus, Rio de Janeiro.
Jain, A.K. e Dubes, R.C. (1988). Algorithms for Clustering Data, Prentice Hall, New Jersey.
Jain, A.K., Murty, M.N. e Flynn, P.J. (1999), Data clustering: A review, ACM Computing Surveys, 31:264323.
Johnson, R.A. e Wichern, D.W. (1992). Applied Multivariate Statistical Analysis, Prentice-Hall, New Jersey.
Liu, B., Hsu, W. e Ma, Y. (1998). Integrating classification e association rule mining. In Proc. 1998 Int. Conf. Knowledge
Discovery e Data Mining (KDD'98), pages 80-86, New York.
Kaufman, L. e Rousseeuw, P.J.(1990), Finding Groups in Data: An Introduction to Cluster Analysis, Wiley, London.
Kimball, R. e Caserta, J. (2004). The data warehouse ETL toolkit: practical techniques for extracting, cleaning,
conforming, e delivering data, Wiley, USA.
Kohonen, T. K. (1997). Self-Organizing Maps, 2nd extended edition, Springer-Verlag, Berlin, Heidelberg.
Metha, M.; Agraval R. e Rissanen, J. SLIQ: A Fast Scalable Classifier for Data Mining, IBM Almaden Research Center, 1996.
Michie, D., Spiegelhalter, D.J. e Taylor, C.C. (1994). Machine Learning, Neural e Statistical Classification, Ellis Horwood,
1994.
Piatetsky-Shapiro, G. (1991), Knowledge Discovery in Real Databases, A Report on the IJCAI-89 Workshop, AI Magazine
11(5): 6870.
Principe, J. C., Euliano, N. R. e Lefebvre, W. C. (2000). Neural Adaptive Systems: Fundamentals Through Simulations, John
Willey & Sons, New York, NY.
Rencher, A.C. (2002), Methods of Multivariate Analysis, 2 ed., John Wiley e Sons, Canada.
Shafer, J.; Agraval, R.; Mehta, M. SPRINT: A scalable parallel classifier for data mining. In Proc. Of the 22nd VLDB
Conference, 1996.
183
Silvanandam, S.N., Sumatri, S. e Deepa, S.N., (2007). Introduction to Fuzzy Logic Using Matlab. Berlin.
Van Trees, H.L. (1968), Detection, Estimation, e Modulation Theory, Part I, John Wiley e Sons, New York.
Witten, I.H. e Frank. E. (1999), Data Mining: pratical machine learning tools e techniques with Java implementation, So
Francisco, California.
Zadeh. L.A., Klir, G.J., Yuan. B. (1996), Fuzzy Sets, Fuzzy Logic, e Fuzzy Systems, World Scientific Publishing, New Jersey.
Zuchini, M.H. (2003), Aplicaes de mapas auto-organizveis em minerao de dados e recuperao de informaes,
dissertao de mestrado, Unicamp, S.P.
184

"Data Mining" Review

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

"Data Mining" Review

Uploaded by

Copyright:

Available Formats

Learning and Nonlinear Models (L&NLM) Journal of the Brazilian Neural Network Society, Vol. 9, Iss.3, pp.

Minerao de Dados: Uma Introduo

Luis Cludius Coradine

Universidade Federal de Alagoas - UFAL

Figura 1.1: Principais tarefas do processo do KDD (Fayyad et al, 1996a)

2 A Minerao de Dados e a Anlise Estatstica

3 Funcionalidades da Minerao de Dados

4.3 Anlise de Associao

Figura 4.1: Exemplo de uma regra de associao (Diniz e Louzada-Neto, 2000).

4.4 Anlise de Seqncia

Consumidor* Seqncia diria de compras de bebidas

Caractersticas Seqenciais (com Fator de

Figura 4.3: Faces de Chernoff (Chernoff, 1973).

5.1 rvores de Deciso e Regras de Deciso

6.1 Mtodos de Agrupamento

6.2 Agrupamento Hierrquico

Medidas de Similaridade Representao Formal

Objetos X=[x1, x2, ...,xn] e Y = [y1, y2, ...,yn]

D dxy = mx (|x1 y1|+ |x2 y2|+...+ |xn yn|)

6.3 Mtodos Aglomerativos

Figura 6.4 Diferentes tipos de representao de agrupamentos.

6.5 Mtodos Particionais

Figura 6.5 Mtodo k-means na formao de clusters (Rencher, 2002).

Q = [q1, q2, ..., qN] (autovetores)

You might also like