You are on page 1of 65

FACULDADES PITAGORAS

Business Intelligence, Anlise Multidimensional de dados (Olap) e Datamining

Divinpolis-MG 2013

MARCELO MARTINS, LUIZ CARLOS DE SOUZA, MAURCIO LIMA, JOS LUIS ROJAS

Business Intelligence, Anlise Multidimensional de dados (Olap) e Datamining

Trabalho referente a BI, Olap e Datamining da matria, Sistemas de Apoio Deciso, do Curso de Sistemas de Informao das Faculdades Pitgoras, Divinpolis/MG.

Professor Eduardo Oliveira.

Divinpolis-MG 2013

RESUMO

Este trabalho trata do conceito, tcnicas e tecnologias relacionadas ao Business Intelligence, Olap e Data Mining, com suas definies, destacando as funcionalidades. O processo de busca do conhecimento em Banco de Dados, com nfase na limpeza, seleo e transformao dos dados. O BI u m conjunto de tcnicas que utilizam T I para ajudar na tomada de deciso com o objetivo na minerao de dados, gesto de desempenho e benchmarking. A aplicao OLAP vem com a anlise e consolidao de dados, pois o processamento analtico online dos dados. Tem capacidade de visualizaes das informaes a partir de muitas perspectivas diferentes, enquanto mantm uma estrutura de dados adequada e eficiente. A Minerao de Dados (Data mining) parte de um processo maior de pesquisa denominado Busca de Conhecimento em Banco de Dados (Knowledge Discovery in Database - KDD), com metodologia prpria para preparao e explorao dos dados, interpretao de seus resultados e assimilao dos conhecimentos minerados. Isto nos leva s perspectivas tecnolgicas e gerenciais para a tomada de deciso.

LISTA DE ILUSTRAES

Figura 1: Interatividade entre as funcionalidades e tcnicas da minerao de dados ........................................................................................................................ 13 Figura 2: Funcionalidades em minerao de dados ..................................... 14 Figura 3: Sub-funcionalidades da anlise prvia e do descobrimento. ......... 15 Figura 4: Deteco de outliers utilizando uma abordagem visual ................. 16 Figura 5: Deteco de outliers utilizando uma abordagem visual ................. 17 Figura 6: Trs critrios diferentes de formao de agrupamentos (clusters) 20 Figura 7: Minerao de dados com resultados da sumarizao e visualizao .................................................................................................................................. 22 Figura 8: Um exemplo de visualizao de dados ......................................... 27 Figura 9: Um exemplo de visualizao de uma rvore de deciso ............... 28 Figura 10: Um exemplo de anlises de transaes de compras extrado de Data Mining Concepts and Techniques ............................................................... 29 Figura 11: Uma representao de um processamento de uma rede neural . 30 Figura 12: Ciclo de vida de operao das tcnicas de minerao de dados 32 Figura 13: Abordagens para aplicao da minerao de dados ................... 34 Figura 14: Minerao de dados como uma etapa no processo de KDD....... 36 Figura 15: Detectando outliers com a tcnica de anlise de agrupamento (clustering)................................................................................................................. 39 Figura 16: Agregao de dados em forma multidimensional ........................ 43 Figura 17: Representao de dados no modelo multidimensional ............... 44 Figura 18: Minerao de dados no contexto da inteligncia de negcios ..... 46

LISTA DE TABELAS

Tabela 1: Funcionalidades e suas tcnicas .............................................................. 26 Tabela 2: Caractersticas que diferenciam os sistemas OLAP e OLTP .................... 52

SUMARIO
1. INTRODUO......................................................................................... 9 1.1 Business Intelligence ........................................................................ 9

1.1.1 Um pouco da histria e conceitos de Business Intelligence ......... 9 2. DATA MINING ....................................................................................... 12 2.1 Funcionalidades da minerao de dados, tcnicas e abordagens .. 12

2.1.1 Funcionalidades em minerao de dados .................................. 13 2.1.2 Anlise Descritiva ....................................................................... 14 2.1.3 Descobrimento ........................................................................... 18 2.2 Tcnicas para obteno das funcionalidades ................................. 24

2.2.1 Ferramentas de consulta e tcnicas de estatstica..................... 26 2.2.2 Visualizao ............................................................................... 27 2.2.3 Anlise de vizinhana (K-nearest neighbor) ............................... 27 2.2.4 rvores de deciso..................................................................... 28 2.2.5 Regras de associao ................................................................ 28 2.2.6 Redes neurais artificiais ............................................................. 29 2.2.7 Algoritmos Genticos ................................................................. 30 2.2.8 Tcnicas de anlise de agrupamento (clustering) ...................... 31 2.2.9 Concluso sobre as tcnicas de minerao de dados ............... 31 2.3 Abordagens da minerao de dados .............................................. 32

2.3.1 Busca de conhecimento direta ................................................... 32 2.3.2 Busca de conhecimento indireta ................................................ 33 3. O PROCESSO BUSCA DE CONHECIMENTO EM BANCO DE DADOS 35 3.1 Limpeza de dados (data cleaning) .................................................. 36

3.1.1 Valores ausentes (missing values) ............................................. 37 3.1.2 Valores fora de padro (noisy data) ........................................... 38 3.1.3 Dados inconsistentes ................................................................. 40

3.2

Integrao de Dados ....................................................................... 40

3.2.1 Integrao de diversas fontes de dados..................................... 40 3.3 3.4 Seleo de dados ........................................................................... 42 Transformao de Dados ................................................................ 42

3.4.1 Reduo de Dados..................................................................... 43 3.5 3.6 3.7 4. Minerao dos dados ...................................................................... 44 Avaliao dos Padres ................................................................... 45 Apresentao e assimilao do conhecimento ............................... 45

MINERAO DE DADOS NO CONTEXTO DA INTELIGNCIA DE

NEGCIOS 46 4.1 5. Aplicaes potenciais em minerao de dados .............................. 48

OLAP CONCEITOS E UTILIZAO ..................................................... 50 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 Origem ............................................................................................ 50 Multidimensionalidade ..................................................................... 50 Definio de OLAP .......................................................................... 51 Soluo OLAP................................................................................. 52 Arquiteturas ..................................................................................... 54 Ferramentas .................................................................................... 54 Ligao do DW e OLAP .................................................................. 55 Ligao do Data Mining e OLAP ..................................................... 56

6.

APLICAES PRTICAS DE DATA MINING....................................... 57 6.1 6.2 6.3 6.4 Aplicaes para Assistncia Mdica ............................................... 57 Aplicaes em Cincia e Tecnologia............................................... 58 Aplicaes para o Poder Judicirio ................................................. 58 Aplicaes para Bancos de Varejo ................................................. 59

7.

ALGUMAS BARREIRAS AO USO DO DATA MINING .......................... 60 7.1 Altos Custos .................................................................................... 60

7.2 7.3 7.4 7.5 de DM 7.6 8. 9.

Necessidade de grandes volumes de dados ................................. 60 Complexidade das Ferramentas .................................................... 60 O desafio da preparao dos dados para a minerao ................ 61 As dificuldades de se realizar a anlise custo/benefcio do projeto 61 Viabilidade dos fornecedores de ferramentas de DM ................... 61

CONCLUSES...................................................................................... 63 REFERNCIAS ..................................................................................... 64

1. INTRODUO

1.1 Business Intelligence

1.1.1 Um pouco da histria e conceitos de Business Intelligence

Uma simples definio de Business Intelligence (BI) seria: u m conjunto de tcnicas que utilizam T I para ajudar na tomada de deciso, com o objetivo d a anlise e minerao de dados e a gesto de desempenho e benchmarking. Na realidade, para compreender BI e suas aplicaes, precisamos entender a tomada de decises. Nas empresas, as decises de negcios precisam ser tomadas a cada instante para continuar vigente no mercado. Elas so tomadas mediante um contexto de negcio, que o contexto interno e externo (mercado) da empresa. As decises de negcio possuem um forte fator humano envolvido, com isso conclumos que pessoas tomam decises, e no sistemas. Uma empresa precisa ter conhecimento de suas capacidades, suas fraquezas, as tendncias de mercado e, alm disso, o conhecimento sobre as empresas competidoras. Nesse processo de aquisio do conhecimento, surgem questes teis para as tomadas de deciso, referentes ao contexto do mercado. Com referncia a nosso clientes: Quais as suas necessidades? Qual a demanda? O que fazemos certo? Em que pontos os deixamos desejando? O que a concorrncia fazem parar solucionar questes recorrentes? So algumas das questes que precisam ser respondidas para importantes tomadas de deciso, como balanceamento de produo, evoluo de produtos e mudana de estratgia de marketing, entre outras. Como mencionado, pessoas tomam decises. Mas baseado no que se faz uma boa deciso? Informao. Ao longo da nossa histria, o homem usou a informao para difundir o

10

conhecimento, aprender e manter registro de fatos. Em suma, a informao usada pra encontrar respostas para questes que levam o homem a uma melhor compreenso do mundo a sua volta. Continuando, as respostas permitem que pessoas tomem decises. E como os empresrios conseguem informao? De dados. Os dados proveem informaes capazes de responder as nossas perguntas, s o p r e c i o s o s e tm muito v a l o r e precisam ser guardados. Antigamente os dados eram guardados em gabinetes de arquivos, depois com o advento dos computadores passaram a ser guardados em formatos de mdia como disquetes. Ambos sistemas de armazenagem eram arriscados e difceis de gerenciar. Edgard Codd, em 1969, inventou o banco de dados, revolucionando a maneira como eram armazenados os dados, mas, para carregar um banco de dados era necessria muita experincia e especializao. As empresas precisavam de um modo mais fcil de carregar um banco de dados. Devido a essa grande demanda, as Aplicaes de Negcios foram criadas para ficar entre o usurio e o banco de dados, provendo o poder de insero de dados. Ento bancos de dados foram a soluo para o problema de

armazenamento de dados e as aplicaes de negcio para inserir dados no banco de dados. E o acesso? Em princpio foi a gerao de relatrios, mas no deu certo, eles eram unidimensionais e tinham um agravante, a fragmentao de dados. Pelo fato dos dados virem de mltiplas fontes, extrair dados ainda era uma tarefa difcil. Geralmente uma empresa possui vrias Aplicaes de Negcio, gerando dados de diferentes contextos. Unificar tais fontes de dados no era um processo simples. Logo da dcada de 1980 surgiram os Data Warehouses, que trouxeram a soluo para a fragmentao dos dados. Eles tornaram o acesso e a gerncia dos dados mais fcil, com dados acessveis e bem gerenciados eles podiam ser bem servidos. Iniciando o consumo dos mesmos em grande escala. J em 1981, ferramentas de BI podiam gerar relatrios e analisar dados, novas ferramentas foram surgindo e a demanda de dados crescendo, com o passar do tempo. Es s a demanda trouxe a necessidade de velocidade na aquisio de dados, e d e v i d o a i s s o , BI tornou-se tambm uma questo de 0

11

desempenho. Com o advento da internet, as fontes de informaes cresceram rapidamente. As empresas queriam mais dados e na mesma velocidade que

eram recebidas. Na dcada dos 90 as ferramentas de BI proviam mecanismos de consulta, relatrios, anlise e apresentao de dados. Mesmo assim, tinham defeitos, pois a maior parte da informao era feita em Excel, que no tinha uma boa apresentao de dados. As ferramentas de BI, e v e n t u a l m e n t e , trouxeram um novo

desafio: a consistncia. Elas facilitaram o acesso e este abriu caminho para mltiplas verses de dados, g e r a n d o mais um desafio para a gerncia dos dados. As plataformas de BI comearam a surgir pelo fato de que as ferramentas eram muito caras e difceis de manter, e os desenvolvedores buscaram adicionar funcionalidades a custos reduzidos, isso levou que as grandes empresas da rea de TI (Oracle, SAP, IBM e Microsoft) adquiram as empresas desenvolvedoras. Aps isso, tinham mais ferramentas e funcionalidades, o BI estava consolidado no mercado e tornou-se uma prioridade para o mundo dos negcios. Ainda assim, as pessoas de negcio no conseguiam obter respostas para suas decises. O problema era as pessoas acessando os sistemas de BI, as ferramentas no eram intuitivas, logo o acesso a elas era difcil. Quando pessoas de negcio tm problemas com sistemas, elas chamam o departamento de TI desviando-as de suas funes para prestar suporte. BI, tornou-se uma questo de usabilidade. Transformando dados que possam ser consumidos por pessoas de negcios, que so eles precisamente os usurios finais. Agora o acesso aos dados precisa ser mais amigvel.

12

2. DATA MINING

Data Mining est sendo mais popular como ferramenta de descoberta de informaes, que podem revelar estruturas de conhecimento, que possam guiar na toma de decises em condies de dvida ou certeza limitada. Tivemos recentemente, um interesse crescente em desenvolver novas tcnicas de anlise de dados, projetadas para questes relativas a minerao de dados. No entanto, a minerao de dados, ainda est baseada em princpios conceituais de Anlise de Dados Exploratrios (Exploratory Data Analysis - EDA) e de modelagem. Minerao de dados um processo interativo entre homens e mquinas, que visa a explorao de grandes bancos de dados, em busca de padres e relacionamento entre variveis, obtendo conhecimentos por tcnicas

comprovadamente confiveis e validados pela sua expressividade estatstica. Minerao de Dados (Data mining) parte de um processo maior de pesquisa denominado Busca de Conhecimento em Banco de Dados (Knowledge Discovery in Database - KDD), com metodologia prpria para preparao e explorao dos dados, interpretao de seus resultados e assimilao dos conhecimentos minerados. Mas, se tornou mais conhecida do que o prprio processo de KDD em funo de ser a etapa onde so aplicadas as tcnicas de busca de conhecimentos.

2.1 Funcionalidades da minerao de dados, tcnicas e abordagens

O processo de aplicao da minerao de dados envolve vrias etapas, mas a principal antes de se iniciar a busca do conhecimento oriundo dessa aplicao definir, claramente, a que resultados deseja-se chegar. Logo definir que tcnicas utilizar e como aplicar essas tcnicas para obteno dos conhecimentos desejados.

13

2.1.1 Funcionalidades em minerao de dados

No processo de minerao diversos tipos de armazenamento de dados e de banco de dados podem ser utilizados. O que determina que tipo de padres ou relacionamentos entre registros e suas variveis podem ser utilizadas, so os tipos de dados armazenados. Essa funcionalidade tratada, por alguns autores, como resultados (outcomes) ou tarefas (tasks). Em muitos casos, no fica claro as diferenas entre funcionalidades e tcnicas. A seguinte figura mostra, as interaes em camadas, entre

funcionalidades, tcnicas e algoritmos, tentando esclarecer a interatividade do objetivo da minerao de dados com as tcnicas a serem empregadas.

Figura 1: Interatividade entre as funcionalidades e tcnicas da minerao de dados

As funcionalidades da minerao de dados so vistas pelos autores de forma diferente. No um consenso e tratada mais pela rea de atuao do que pelo formalismo necessrio. Consideramos que definir bem os conceitos da 3

14

funcionalidade da minerao de dados, e a que resultados queremos chegar fundamental para o processo como um todo. Feito isto, se pode escolher melhor as tcnicas a serem aplicadas para se obter os resultados esperados. Assim, classificamos a funcionalidade em data mining como Anlise Descritiva e Anlise de Prognstico. A figura 2 ilustra essa forma de abordagem da funcionalidade na minerao de dados.

A
Figura 2: Funcionalidades em minerao de dados

Uma das vantagens de focar as funcionalidades da minerao de dados dessa forma, diz respeito das facilidades que podem ser obtidas quando surge uma nova necessidade de anlise de dados. Neste caso, basta saber a que resultado se deseja chegar para a identificao de que tcnica aplicar.

2.1.2 Anlise Descritiva

A Anlise Descritiva representa a rea de investigao nos dados que busca tanto descrever fatos relevantes, no-triviais e desconhecidos dos usurios, como analisar a base de dados, principalmente pelo seu aspecto de qualidade, para validar todo o processo da minerao e seus resultados, ou seja, o conhecimento encontrado. Pode ser subdivida em Anlise Prvia e Descobrimento. 4

15

Anlise Prvia e s t e p r o c e s s o analisa uma base de dados

p a r a identificar anomalias ou resultados raros que influenciem os resultados da minerao de dados. Descobrimento este processo examina uma base de dados

procurando encontrar padres escondidos, sem que necessariamente exista uma ideia ou hiptese clara previamente estabelecida. Para facilitar a aplicabilidade dos processos de minerao de dados, podemos especializar tanto a anlise prvia quanto o descobrimento em outras subfuncionalidades conforme a figura 3 a seguir.

Figura 3: Sub-funcionalidades da anlise prvia e do descobrimento.

A continuao especificaremos as sub-funcionalidades das funcionalidades descritas.

2.1.2.1 Anlise Prvia

A funcionalidade anlise prvia pode ser aplicada usando-se uma das seguintes sub- funcionalidades:

16

2.1.2.1.1 Anlise de Outliers ou deteco de desvios

Esta funcionalidade objetiva encontrar conjuntos de dados que no obedecem ao comportamento ou modelo dos dados. Uma vez encontrados podem ser tratados ou descartados para utilizao no processo de minerao de dados. Trata-se de uma importante avaliao nos dados no sentido de descobrir probabilidades crescentes de desvios ou riscos associados aos vrios objetivos traados inicialmente na minerao dos dados. Detectar esses desvios muito anlogo s tcnicas utilizadas em anlises estatstica, onde so aplicados testes de significncia que assumem uma distribuio, utilizando medidas estatsticas do tipo mdia aritmtica e desvio padro para aferir essas diferenas. [Jiawei Han, Micheline Kamber; Data Mining Concepts and Techniques; Morgan Kaufmann Publishers, Inc, 2001, Sholom M. Weis, Nitim Indurkhya; Predict Data Mining; Morgan Kaufmann Publishers, Inc, 1999] Podemos avaliar as vendas de uma determinada empresa, por exemplo, para verificar o comportamento de suas vendas como um todo, bem como podemos avaliar suas vendas por produtos, regies e estados, podendo encontrar outro tipo de comportamento. A figura 4 a seguir, extrada de [Jiawei Han, Micheline Kamber; Data Mining Concepts and Techniques; Morgan Kaufmann Publishers, Inc, 2001], identifica visualmente a presena de outliers, onde os pontos externos aos polgonos so valores fora dos padres da populao (vendas) observada.

Figura 4: Deteco de outliers utilizando uma abordagem visual

17

2.1.2.1.2 Anlise de desvios

Funcionalidade

que

tem

por

objetivo

detectar

mudanas

de

comportamentos, comparando as aes com os padres para detectar mudanas de comportamento [Bhavani Thuraisingham; Data Mining; CRC Press, 1999]. Por exemplo, em um plano de sade aps avaliar o comportamento de clientes, qualquer alterao de comportamento pode ser imediatamente analisado e verificado. Essa mesma anlise pode ser feita para fraudes em cartes de crdito, conhecendo-se o comportamento de compra dos clientes, entre outras diversas aplicaes.

2.1.2.1.3 Visualizao

Esta funcionalidade utilizada, principalmente, quando no se tem nenhuma ideia da distribuio dos dados e se deseja encontrar algum tipo de disparidades nos dados. Construir histogramas por tempo de durao de chamadas telefnicas, por exemplo, com o intuito de identificar os bairros de uma cidade onde o tempo de durao maior ou menor que o resto. Logo da anlise, identificamos melhor como segmentar os dados ou selecionar atributos (variveis) para formao de agrupamento (clustering). A figura 5 a seguir exemplifica a visualizao empregada numa anlise prvia deste tipo.

Figura 5: Deteco de outliers utilizando uma abordagem visual

18

2.1.3 Descobrimento

A funcionalidade descobrimento pode ser aplicada usando-se uma das seguintes sub- funcionalidades:

2.1.3.1 Classificao - descrio por classes e conceitos

A classificao consiste em examinar uma certa caracterstica nos dados e atribuir uma classe previamente definida. Dados podem ser associados a classes ou a conceitos atravs de um processo de discriminao ou de caracterizao. Discriminao se caracteriza por ter seu resultado obtido atravs da atribuio de um valor a um atributo no registro, em funo de um ou mais atributos do mesmo. Por exemplo, em um supermercado podemos classificar os produtos por tipo como alimentcio, vesturio, higiene e limpeza etc. J caracterizao a sumarizao de um atributo de estudo por uma caracterstica de um ou mais atributos [Michael J. A. Berry; Gordon Linoff, Data Mining Techniques for Marketing, Sales, and Customer Support; John Wiley & Sons, Inc., 1997], [Jiawei Han, Micheline Kamber; Data Mining Concepts and Techniques; Morgan Kaufmann Publishers, Inc, 2001]. Por exemplo, podemos caracterizar um empregado pelo seu salrio anual,

identificando faixas da agregao mensal de seus salrios em baixa, mdia e alta.

2.1.3.2 Anlise de associaes

So tambm conhecidas na rea de marketing como grupos de afinidade ou anlise de cestas de venda esta funcionalidade objetiva determina que coisas esto relacionadas, esto juntas, ou seja, descobrir as regras de associao condicionadas a valores de atributos que ocorrem juntos em um conjunto de 8

19

dados. Se aplica nos casos em que deseja-se estudar preferncias, afinidades, visando principalmente criar oportunidades para formao de pacotes para consumidores ([Michael J. A. Berry; Gordon Linoff, Data Mining Techniques for Marketing, Sales, and Customer Support; John Wiley & Sons, Inc., 1997 ], [Jiawei Han, Micheline Kamber; Data Mining Concepts and Techniques; Morgan Kaufmann Publishers, Inc, 2001]). Por exemplo, uma vez observado que dois itens so frequentemente adquiridos juntos num supermercado, pode-se preparar e oferecer estes produtos juntos, numa mesma cesta, pois existe grande afinidade na preferncia de seus compradores.

2.1.3.3 Agrupamento (clustering)

Esta funcionalidade visa segmentar um conjunto de dados num nmero de subgrupos homogneos ou clustering. Seu objetivo formar grupos baseados no princpio de que esses grupos devem ser o mais homogneos em si e mais heterogneos entre si. A diferena fundamental entre a formao de agrupamento e a classificao que no agrupamento no existem classes predefinidas para classificar os registros em estudo. Os registros so agrupados em funo de suas similaridades bsicas, ou seja, quando se deseja formar agrupamentos, selecionase um conjunto de atributos (variveis) e em funo da similaridade desses atributos so formados os grupos ([Michael J. A. Berry; Gordon Linoff, Data Mining Techniques for Marketing, Sales, and Customer Support; John Wiley & Sons , Inc., 1997], [Jiawei Han, Micheline Kamber; Data Mining Concepts and Techniques; Morgan Kaufmann Publishers, Inc, 2001], [Sholom M. Weis, Nitim Indurkhya; Predict Data Mining; Morgan Kaufmann Publishers, Inc, 1999 ]). Como exemplo, podemos utilizar dados de um recenseamento nacional para formar grupos de domiclios, utilizando os atributos escolaridade, profisso, faixa etria, sexo, nmero de filhos. Observa-se que no existem classes pr definidas e poderemos ter num mesmo grupo domiclios de estados geograficamente opostos, porm, semelhantes nestes atributos (variveis). A figura 6 a seguir exemplifica trs possveis agrupamentos (clustering) formados partir de um conjunto de dados .

20

Figura 6: Trs critrios diferentes de formao de agrupamentos (clusters)

2.1.3.4 Descrio

Funcionalidade empregada para tornar mais clara alguma ideia que est sendo utilizada numa anlise, hipteses ou fatos observados em um banco de dados. Pode ser executada em uma anlise de classificao quando as classes no estiverem bem definidas ([Michael J. A. Berry; Gordon Linoff, Data Mining Techniques for Marketing, Sales, and Customer Support; John Wiley & Sons, Inc., 1997], [Christopher Westphal, Teresa Blaxton, Data Mining Solutions Methodos and Tools for Solving real-Word Problems; John Wiley & Sons, Inc., 1998]). Um exemplo, as caractersticas de uma pessoa que frauda cartes de crdito do tipo sexo masculino, idade entre 25 e 40 anos e possui nvel superior.

2.1.3.5 Deteco de sequncias

Esta funcionalidade tem por objetivo utilizar algum tipo de padro nos dados para determinar que tipos de sequncias podem ser determinadas [Bhavani Thuraisingham; Data Mining; CRC Press, 1999]. Por exemplo, clientes que compram determinado produto, trs meses aps retornaro para comprar algum outro produto associado ao primeiro (comprar um aparelho celular e trs meses aps um carregador de baterias para utilizao em carros).

21

2.1.3.6 Segmentao

Nesta funcionalidade o conjunto de dados subdividido em conjuntos menores, com comportamento similares nos atributos de segmentao. Com esses subconjuntos, pode-se determinar novos agrupamentos (clustering) ou mesmo fazer algum tipo de prognstico. Difere da anlise de agrupamento (clustering) pois a formao dos grupos conduzida pelo usurio e no determinada pelo sistema, conforme descrito anteriormente ([Jesus Mena; Data Mining Your Website; Digital Press, 1999], [Christopher Westphal, Teresa Blaxton, Data Mining Solutions Methodos and Tools for Solving real-Word Problems; John Wiley & Sons, Inc., 1998], [Sholom M. Weis, Nitim Indurkhya; Predict Data Mining; Morgan Kaufmann Publishers, Inc, 1999]). Por exemplo, podemos segmentar os registros dos bilhetes areos de uma companhia de aviao por cidade de origem, sexo e classe do assento. Aps a segmentao, podemos formar agrupamentos (clustering) por profisso, faixa etria, estado de moradia, frequncia de viagens e faixa salarial para traar um perfil de seus passageiros.

2.1.3.7 Sumarizao e Visualizao

Um dos principais objetivos da tecnologia de minerao de dados oferecer seus resultados numa forma fcil de ser interpretado pelos usurios finais. Utilizar a sumarizao de dados para facilitar o entendimento dos dados uma estratgia muito usual que facilita e identifica inmeras caractersticas nos dados em estudo. Uma das principais abordagens para descrio de informaes a visualizao, principalmente quando o conjunto de dados a ser explorado no est organizado em uma forma padro. Os resultados da sumarizao e da

visualizao so normalmente utilizados em conjunto com outras funcionalidades [Sholom M. Weis, Nitim Indurkhya; Predict Data Mining; Morgan Kaufmann Publishers, Inc, 1999]. Por exemplo, podemos imaginar um grfico de colunas impresso num mapa do Brasil, indicando em cada estado o nmero de chamadas telefnicas realizadas no ano de 2000. Facilmente, podemos comparar esses 1

22

resultados entre os estados. Se colocarmos os dados de dois anos, nossa anlise ser ainda mais rica. A figura 7 a seguir um exemplo de minerao de dados fornecendo seus resultados com tcnicas de sumarizao e visualizao.

Figura 7: Minerao de dados com resultados da sumarizao e visualizao

2.1.3.8 Otimizao

Esta funcionalidade visa aperfeioar recursos limitados como tempo, espao, dinheiro, matria-prima etc., buscando maximizar variveis de resultado como vendas, lucros, distribuio, economia de espao etc. Como exemplo, podemos estudar as vendas de um supermercado, no sentido de aperfeioar a distribuio de seus produtos em suas gndolas, visando aperfeioar a exposio de um nmero cada vez maior de produtos.

2.1.3.9 Identificao

Esta funcionalidade tem por objetivo utilizar os padres de dados para identificar a existncia de um item, um evento ou uma atividade. Por exemplo, intrusos que tentam romper um sistema podem ser identificados atravs dos 2

23

programas executados, dos arquivos acessados e do tempo de CPU por sesso. A rea conhecida como autenticao uma forma de identificao. Ela verifica se um usurio de fato um usurio especfico ou se pertence a uma classe autorizada; envolve uma comparao de parmetros ou imagens ou sinais em relao ao banco de dados.

2.1.3.10 Anlise de Evoluo

Esta funcionalidade descreve e estuda a regularidade de modelos ou tendncias para objetos cujo comportamento muda ao longo do tempo. Como exemplo, podemos citar a evoluo de estoques em que as empresas que necessitam constantemente decidir sobre a sua ampliao, ou melhor, distribuio de seus produtos, em funo da regularidade das vendas da empresa.

2.1.3.11 Anlise em dados no formato texto

Esta funcionalidade visa trabalhar os diversos dados armazenados no formato texto, tais como narrativas, processos judiciais etc., visando transformar esses textos em uma forma de uso e extrair seus resultados baseados em tcnicas de tratamento e explorao de textos. Como exemplo, podemos citar a explorao de dados no formato texto em processos criminais, no sentido de utiliz-los no reconhecimento de padres e verificao de similaridade entre crimes.

2.1.3.12 Anlise de Prognstico

A Anlise de Prognstico representa a rea de investigao nos dados que busca inferir resultados a partir dos padres encontrados na anlise descritiva, ou 3

24

seja, prognosticar o comportamento de um novo conjunto de dados. Podemos subdividi-la em Classificao, Estimao e Predio. Estimao o processo de predizer algum valor, baseado num

padro j conhecido. Por exemplo, conhecendo-se o padro de despesas e a idade de uma pessoa, estimar seu salrio e seu nmero de filhos. Predio o processo de predizer um comportamento futuro,

baseado em vrios valores. Por exemplo, baseado na formao escolar, no trabalho atual e no ramo de atividade profissional de uma pessoa, predizer que seu salrio ser de certo montante at um determinado ano. Classificao o processo para predizer algum valor para uma

varivel categrica. Por exemplo, podemos num banco financeiro, determinar que conjunto de clientes oferecem risco ou no para contrair um emprstimo pessoal.

2.2 Tcnicas para obteno das funcionalidades

Uma vez definidas as funcionalidades (resultados) a que se deseja chegar com o processo de minerao de dados, cabe agora escolher que tcnicas devemos utilizar, que sejam mais aderentes para a obteno dos resultados, com uma melhor preciso. Por exemplo, a funcionalidade de estimao pode ser feita utilizando-se a tcnica de regresso linear ou regresso mltipla. Entretanto, sabemos que para uma estimativa de curtssimo prazo e com poucas variveis a regresso linear mais fcil de ser utilizado e proporciona bons resultados, entretanto, para estimativas de longo prazo no a mais indicada. A tabela 1 a seguir mostra um conjunto parcial de tcnicas que podem ser utilizadas em cada funcionalidade:

Funcionalidade Anlise Prvia

Sub-funcionalidade

Tcnica

Anlise de outliers

Ferramentas de consulta e tcnicas de estatstica Induo por rvores de deciso

25
Anlise de desvios Ferramentas de consulta e tcnicas de estatstica Induo por rvores de deciso Visualizao Descobrimento Classificao Anlise de associaes Induo por rvores de deciso Minerao de Regras de associao (Anlise da cesta de venda - Market basket analysis) Minerando regras de associao booleanas unidimensionais a partir de bancos de dados transacionais Minerando regras de associao em mltiplos nveis a partir de bancos de dados transacionais Minerando regras de associao multidimensionais a partir de bancos de dados transacionais e data warehouse Da minerao de associao anlise de correlao Minerao de associao baseada em restrio Agregaes e grficos diversos

Agrupamento (clustering)

Mtodos de particionamento Mtodos hierrquicos Mtodos baseados em densidade Mtodos baseados em grid Mtodos de clustering baseados em modelos abordagem estatstica e redes neurais Anlise de outliers

Descrio do Conceito (caracterizao e comparao)

Sumarizao e Generalizao dos dados baseados em caracterizao Caracterizao analtica anlise da relevncia do atributo

Segmentao Sumarizao e Visualizao Anlise em dados no formato texto

Induo por rvores de deciso Agregaes e grficos diversos Anlise de dados textual e recuperao de informaes

26
Minerao de textos classificao de documentos e associao por palavras chaves Estimao/Predio Estimao/Predio Regresso Linear Regresso Mltipla Regresso no linear Regresso Logstica Regresso de Poisson Outros modelos de regresso Classificao Classificao Induo por rvores de deciso Classificao bayseana Classificao por backpropagation Redes Neurais Artificiais Classificao baseada em conceitos da minerao de regras de associao Classificao por Backpropagation

Redes Neurais
Anlise de vizinhana (k-Nearest Neighbor) Casos baseados em Raciocnio Algoritmos genticos Abordagem por conjuntos fuzzy Tabela 1: Funcionalidades e suas tcnicas

2.2.1 Ferramentas de consulta e tcnicas de estatstica

O primeiro passo em um projeto de minerao de dados pode ser uma anlise simples, preliminar, grosseira do conjunto de dados que ser minerado, utilizando-se de ferramentas de consultas. Aplicando-se as funes built-in da linguagem SQL de um banco de dados relacional, podemos obter informaes bastante ricas sobre a distribuio dos dados. Estatsticas como mdia aritmtica, 6

27

desvio padro, valores mximos e mnimos e distribuio percentual de todo o conjunto de dados ou por grupos (utilizando-se a clusula group by) representam os passos iniciais num processo de minerao de dados.

2.2.2 Visualizao

A tcnica de visualizao de dados extremamente til como tcnica de descobrimento de padres em conjunto de dados e pode ser largamente utilizada no incio do processo de minerao de dados. Quando utilizada nos processos mais avanados da minerao de dados, possibilita a utilizao de grficos tridimensional de forma interativa, grficos hierrquicos para segmentao da base de dados em formato de rvores, entre outras formas de visualizao.

Figura 8: Um exemplo de visualizao de dados

2.2.3 Anlise de vizinhana (K-nearest neighbor)

28

Quando se interpreta dados como um ponto no espao, ns precisamos definir o conceito de vizinhana, o qual significa identificar o conjunto de registros que esto prximos, que so fechados por alguma caracterstica nos dados. Por exemplo, podemos estimar a renda de um indivduo de uma populao, pesquisando k=20 vizinhos mais prximos do mesmo pelos valores dos atributos bairro de moradia, profisso, escolaridade e idade.

2.2.4 rvores de deciso

Uma rvore de deciso um fluxograma semelhante a uma estrutura de rvore, onde cada n interno denota um teste em um atributo, cada ramo (subrvore) representa o resultado do teste e cada folha representa a distribuio dos registros. Quando utilizada na anlise de prognstico, em classificao, sua aplicao chamada por alguns autores de induo por rvore de deciso. Sua utilizao recomenda o treinamento do mtodo, utilizando-se vrias amostras nos dados, at que se conhea as melhores regras para segmentao do conjunto de dados. Um outro problema que deve ser estudado a poda da rvore, ou seja, determinar quantas sub-rvores, particionamentos, ser necessrio gerar.

Figura 9: Um exemplo de visualizao de uma rvore de deciso

2.2.5 Regras de associao

29

Anlise de associao o processo de interconexo de objetos na tentativa de expor caractersticas e tendncias. Gera redes de interaes e conexes presentes nos conjuntos de dados usando as associaes item a item. O banco de dados visto como uma coleo de transaes, cada uma envolvendo um conjunto de itens. Um exemplo comum aquele referente cesta do

supermercado. Neste caso, a cesta do supermercado corresponde quilo que o consumidor compra em um supermercado durante uma visita. Na rea de marketing conhecido como anlises de transaes de compras (market basket analysis).

Figura 10: Um exemplo de anlises de transaes de compras extrado de Data Mining Concepts and Techniques

2.2.6 Redes neurais artificiais

As redes neurais compreendem procedimentos computacionais que envolvem o desenvolvimento de estruturas matemticas com habilidade de aprendizado. Representam o esforo implementar computacionalmente, a de investigaes acadmicas para

maneira pela qual o crebro humano

funciona. So programas que implementam deteces sofisticadas de padres e algoritmos de aprendizado de mquina, para construir modelos, principalmente, de 9

30

prognstico de grandes bancos de dados histricos. Est baseada nos conceitos de como um crebro humano est organizado e como ele aprende. Existem duas estruturas principais: (1) O n, que corresponde ao neurnio; (2) O link, que corresponde as conexes entre neurnios. 1. O conhecimento adquirido pela rede a partir de seu ambiente

atravs de um processo de aprendizagem; 2. Foras de conexo entre neurnios conhecidos como pesos sinpticos, so utilizados para armazenar o conhecimento adquirido.

Figura 11: Uma representao de um processamento de uma rede neural

2.2.7 Algoritmos Genticos

Algoritmos Genricos AGs so algoritmos de otimizao e busca baseados nos mecanismos de seleo natural e gentica. Enquanto os mtodos de otimizao e busca convencionais trabalham geralmente de forma sequencial, avaliando a cada instante uma possvel soluo, os AGs trabalham com um conjunto de possveis solues simultaneamente. As solues produzidas por algoritmos genticos (AGs) so diferenciadas da maioria das outras tcnicas de pesquisa atravs das seguintes caractersticas: Uma pesquisa de AG utiliza um conjunto de solues durante

cada gerao ao invs de uma nica soluo. A pesquisa no espao de strings representa uma pesquisa paralela

maior no espao de solues codificadas. 0

31

A memria da pesquisa realizada representada unicamente atravs

do conjunto de solues disponveis Um algoritmo gentico um algoritmo aleatrio, uma vez que

mecanismos de pesquisa utilizam operadores de probabilidade. Ao prosseguir de uma gerao para a seguinte, um AG encontra o

equilbrio prximo ao timo entre aquisio e explorao de conhecimento, manipulando solues codificadas. Algoritmos genticos so utilizados para resolver problemas e para agrupar problemas. Sua capacidade de resolver problemas em paralelo fornece uma ferramenta poderosa para Minerao de dados. As deficincias de AGs incluem a grande superproduo de solues individuais, o carter aleatrio do processo de pesquisa e a elevada demanda no processamento computacional. Em geral, uma substancial demanda computacional exigida para alcanar qualquer coisa significativa com algoritmos genticos.

2.2.8 Tcnicas de anlise de agrupamento (clustering)

Os mtodos de particionamento, hierrquicos, baseados em densidade, em grid, em modelos so tcnicas da anlise de agrupamento (clustering) que visam detectar a existncia de diferentes grupos dentro de um determinado conjunto de dados e, em caso da existncia, determinar estes grupos. O clustering tenta identificar um conjunto finito de categorias ou clusters para os quais cada registro possa ser mapeado. As categorias podem ser disjuntas ou podem algumas vezes ser organizadas em rvores. sobrepostas e

2.2.9 Concluso sobre as tcnicas de minerao de dados

32

Vrias outras tcnicas de minerao de dados esto em uso nos dias de hoje. Elas incluem lgica fuzzy, reduo de dados e classificao baysiana entre outras.

Figura 12: Ciclo de vida de operao das tcnicas de minerao de dados

2.3 Abordagens da minerao de dados

As abordagens da minerao de dados ou metodologias de aplicao descrevem como o usurio ir conduzir o processo da minerao na obteno de suas funcionalidades. Essencialmente existem as abordagens top-down e bottonup, e uma terceira que pode ser a combinao dessas abordagens chamada de hbrida. Na abordagem top-down, tambm chamada de teste de hiptese, o usurio parte do princpio que existe uma hiptese, uma ideia pr-concebida e que mesmo deseja confirm-la ou refut-la. na abordagem botton- up, tambm chamada de busca de conhecimento, o usurio inicia o processo de explorao dos dados na tentativa de descobrir alguma coisa que ainda no de conhecimento.

2.3.1 Busca de conhecimento direta

33

Na busca de conhecimento direta ou supervisionada sua meta orientada. Existe um valor para ser prognosticado, uma classe a ser atribuda aos registros ou um determinado relacionamento para ser explorado. Existe apenas uma vaga ideia do que se estar procurando. Os passos para aplicao da busca de conhecimento direta so: Identificar as fontes dos dados selecionados para minerao; Prepara os dados para anlise; Construir e trinar o modelo computacional; Avaliar o modelo computacional.

2.3.2 Busca de conhecimento indireta

Na busca de conhecimento indireta ou no-supervisionada no existe uma meta bem definida. As ferramentas so mais livres na sua aplicao sobre os dados e espera-se que ser descoberto alguma estrutura significante nos dados. Os passos para aplicao da busca de conhecimento direta so: Identificar as fontes dos dados; Prepara os dados para anlise; Construir e trinar o modelo computacional; Avaliar o modelo computacional; Aplicar o modelo computacional no novo conjunto de dados; Identificar potenciais objetivos para busca de conhecimento direta; Gerar novas hipteses para teste.

A prxima figura, extrada de [Bhavani Thuraisingham; Data Mining; CRC Press, 1999], resume a forma de aplicao do processo de minerao de dados.

34

Figura 13: Abordagens para aplicao da minerao de dados

35

3. O PROCESSO BUSCA DE CONHECIMENTO EM BANCO DE DADOS

Para alguns, minerao de dados representa o passo essencial, principal, no processo de Busca de Conhecimento em Banco de Dados (Knowledge Discovery in Database - KDD). O processo de KDD consiste de uma sequncia iterativa dos seguintes passos: 1. Limpeza de dados - remove dados inconsistentes e fora dos padres

(noise data); 2. Integrao de dados - possibilita a integrao de vrias fontes de

dados, mantendo a consistncia e coerncia dos dados integrados; 3. Seleo dos dados - seleciona os dados relevantes para aplicao Transformao de dados possibilita a transformao ou

das tcnicas de minerao de dados; 4.

consolidao dos dados no formato apropriado para o processo de minerao (mining), atravs de operaes do tipo sumarizao ou agregao, entre outras tcnicas; 5. Minerao dos dados processo essencial, onde tcnicas so Avaliao dos Padres identifica os padres verdadeiramente

aplicadas para anlise e extrao de padres dos dados; 6.

interessantes entre os diversos apresentados pelo processo de minerao de dados, baseados em algumas medidas de interesse; 7. Apresentao e assimilao do conhecimento utiliza tcnicas de

visualizao e representao do conhecimento para apresentar o conhecimento adquirido aos usurios, bem como introduzi-los no mbito estudado.

Cada etapa do processo de KDD pode retornar a um processo anterior, conforme sua necessidade. Esta necessidade pode se d em funo de uma reavaliao nos dados, uma nova hiptese a ser testada etc. Note que segundo essa viso, minerao de dados apenas uma etapa no processo de KDD, essencial para descobrir padres para avaliao, padres estes at ento escondidos nas bases de dados. 5

36

Os bancos de dados do mundo real so altamente suscetveis a armazenarem dados incoerentes, inconsistentes, grande quantidade de valores ausentes e geralmente armazenam uma quantidade de dados em torno de muitos gigabytes e terabytes. Preparar os dados para o processo de minerao de dados significa melhorar a qualidade dos dados a serem processados e

consequentemente a qualidade dos resultados obtidos. Preparar os dados para o processo de minerao de dados envolve preparar e executar as fases de limpeza, integrao, seleo e transformao de dados. Essas fases do processo de KDD esto detalhadamente examinadas a seguir.

Figura 14: Minerao de dados como uma etapa no processo de KDD

3.1 Limpeza de dados (data cleaning)

No mundo real os dados tendem a ser incompletos, inconsistentes e sem padres. As rotinas de limpeza de dados empreendem esforos no sentido de preencher os valores ausentes (missing values), aplainar dados (padronizar - noise data) enquanto identificam valores fora de padres (outliers) e corrigem inconsistncias nos dados [Jiawei Han, Micheline Kamber; Data Mining Concepts and Techniques; Morgan Kaufmann Publishers, Inc, 2001 ]. Existem vrios tipos de 6

37

processos de limpeza que podem ser aplicados inicialmente, outros, no entanto, podem ser aplicados somente aps a deteco de algum tipo de problema nas etapas subsequentes do KDD, minerao de dado ou avaliao de padres [Pieter Adriaans, Dolf Zantinge; Data Mining; Addison-Wesley, 1996].

3.1.1 Valores ausentes (missing values)

Valores ausentes se caracterizam por existirem em diversos registros atributos (campos) que no possuem valores armazenados, os quais podem ser importantes para o processo de minerao de dados. Como exemplo, o atributo rendimento em uma instncia de uma entidade cliente. A seguir apresentamos alguns mtodos que podem ser utilizados para preencher (atribuir) valores a esses atributos [Jiawei Han, Micheline Kamber; Data Mining Concepts and Techniques; Morgan Kaufmann Publishers, Inc, 2001]. 1. Ignorar o registro usualmente utilizada quando o contedo da

varivel est ausente - null (assumindo que o processo de mining envolver classificao ou descrio). No muito efetivo, a menos que o registro possua muitos atributos com valores ausentes. especialmente pobre quando o percentual de valores ausentes varia consideravelmente. 2. Preencher (imputar) o valor manualmente em geral essa

abordagem consome muito tempo e pode no ser possvel em grandes bases de dados com muitos valores ausentes. 3. Usar uma constante global para preencher os valores ausentes

atualizar todos os valores ausentes com um nico valor constante, tal qual desconhecido ou high values. Embora simples, no muito recomendado. 4. Utilizar um atributo mdio para preencher os valores ausentes

utilizado quando o atributo do tipo numrico e seu significado passvel de utilizao de um valor mdio. Calcular o valor mdio do atributo em estudo (por exemplo, rendimento do cliente) e atribuir esse valor a todos os valores ausentes do atributo. 5. Utilizar um atributo mdio pertencente a mesma classe qual o registro pertena utilizado quando o atributo do tipo numrico e seu significado passvel de utilizao de um valor mdio. Calcular valores mdios do atributo em 7

38

estudo segundo os valores (classificao) de um outro atributo (por exemplo profisso do cliente) e atribuir esse valor a todos os valores ausentes do atributo (por exemplo rendimento do cliente), segundo a classificao do atributo. 6. Utilizar o valor de maior probabilidade para preencher os valores ausentes este valor pode ser determinado atravs da aplicao de uma tcnica de regresso, ferramentas de inferncia bsica, utilizando induo por rvores de deciso. Por exemplo, utilizar outros atributos do conjunto de dados de clientes para construir uma rvore de deciso para estimar o rendimento dos mesmos. Os mtodos de 3 a 6 inferem sobre o dado. O valor imputado pode no ser correto. O mtodo 6, entretanto, o mais popular. Comparando com outros mtodos, ele considera mais informaes sobre os dados para predizer valores ausentes. Assim, a utilizao de outros atributos na estimao dos valores ausentes, nos d uma grande chance de preservar o relacionamento entre o atributo estimado e os demais atributos utilizados no processo de estimao.

3.1.2 Valores fora de padro (noisy data)

Noisy data (valores extremos) um erro aleatrio ou uma variao acentuada na medio de uma varivel. Ocorre em variveis numricas do tipo rendimento, faturamento etc. e que precisam ser aplainadas (smooth), retirando-se esse erro de medio. A seguir apresentamos alguns mtodos que podem ser utilizados para corrigir esses valores [Jiawei Han, Micheline Kamber; Data Mining Concepts and Techniques; Morgan Kaufmann Publishers, Inc, 2001]. 1. Binning esse mtodo ordena os valores do atributo para utilizar o

conceito de vizinhana entre os dados. Aps a ordenao os valores so distribudos por grupos (bins ou buckets), onde cada grupo dever ter o mesmo nmero de elementos (valores). Em cada grupo aplica-se um critrio na escolha de uma medida para ajustar os valores dos grupos, tais como a mdia aritmtica, a mediana ou um valor de limite. Assim, substitui-se os valores pelas medidas calculadas em cada grupo, ajustando assim os valores da srie. Diversos mtodos podem ser utilizados para ajustar os valores dos grupos.

39

2.

Agrupamento (Clustering) Outliers podem ser detectados quando

valores similares so organizados em grupos ou clusters. Intuitivamente, valores que esto fora dos clusters podem ser considerados como outliers. A figura 15 seguir, extrada de [Jiawei Han, Micheline Kamber; Data Mining Concepts and Techniques; Morgan Kaufmann Publishers, Inc, 2001], mostra aplicao da tcnica de agrupamento para deteco de outliers.

Figura 15: Detectando outliers com a tcnica de anlise de agrupamento (clustering)

3.

Combinao de inspeo humana e computador outliers podem ser

identificados atravs da combinao de inspeo humana e do uso do computador. Em uma aplicao, uma medida terica pode ser utilizada para ajudar a identificar padres de outliers. Uma vez identificados os padres de outliers e sendo estes considerados lixo, podem ser excludos da utilizao na etapa de minerao de dados. 4. Regresso dados podem ser ajustados (smoothed) por funes de

ajustamentos de dados, tais como funes de regresso. Regresso linear busca encontrar a melhor linha de ajustamento para duas variveis, desde que uma possa ser estimada (predita) pela outra. Regresso linear mltipla uma extenso da regresso linear, onde duas ou mais variveis so envolvidas e os dados so combinados numa superfcie (plano) multidimensional.

40

3.1.3 Dados inconsistentes

Podem haver inmeras inconsistncias nos dados armazenados. Alguns dos dados inconsistentes podem ser corrigidos manualmente utilizando referncias externas, como erros causados por entrada de dados manual. Ferramentas de software de engenharia de conhecimento podem tambm ser utilizadas para detectar violaes nas restries de integridades dos dados, tais como funes de dependncia entre atributos. Podem tambm existir inconsistncias causadas por integraes de dados, onde um atributo pode possuir nomes diferentes em seus bancos de dados. Podemos ter redundncia de dados [Jiawei Han, Micheline Kamber; Data Mining Concepts and Techniques; Morgan Kaufmann Publishers, Inc, 2001].

3.2 Integrao de Dados

O processo de minerao de dados frequentemente requer a integrao (unio, consolidao, fuso) de vrias bases de dados. Neste processo, provavelmente, tambm existir a necessidade de transformar os dados integrados em um formato apropriado para o processo de minerao de dados ([Jiawei Han, Micheline Kamber; Data Mining Concepts and Techniques; Morgan Kaufmann Publishers, Inc, 2001], [Christopher Westphal, Teresa Blaxton, Data Mining Solutions Methodos and Tools for Solving real-Word Problems; John Wiley & Sons, Inc., 1998]).

3.2.1 Integrao de diversas fontes de dados

A integrao de dados geralmente envolve a combinao de vrias fontes de dados em um nico armazenamento coerente, semelhante as bases de dados 0

41

geradas no processo de construo de um data warehouse. Essas fontes de dados podem incluir vrios bancos de dados, arquivos textos, flat files entre outros tipos de armazenamento. Existem trs pontos importantes na integrao de esquemas: Integrao de esquemas internos diversas entidades do mundo

real podem ser semelhantes e estarem definidas em diversos esquemas com nomes e atributos diferentes, recaindo num problema tpico de identificao de entidades. Quando se tem apenas bancos de dados operacionais e/ou data warehouses para integrao, esta atividade se torna mais fcil, uma vez que esses armazenamentos devem possuir metadados, os quais ajudam a evitar esse tipo de problema. Redundncia de dados um atributo pode ser redundante se ele

puder ser derivado de outro armazenamento (tabela), tal como o atributo agregado salrio anual. Inconsistncias em atributos ou nome de dimenses (salrio, salrio anual etc.) podem ser a causa de redundncia em conjunto de dados. Uma tcnica muito interessante para verificar redundncia em conjunto de dados a utilizao da anlise de correlao, a qual medir o quanto dois atributos so correlatos. A redundncia a nvel de atributo tambm pode ser identificada atravs da gerao de registros (tuplas) idnticas geradas numa mesma entrada de dados. Deteco e resoluo de valores conflitantes para as mesmas

entidades do mundo real, os valores dos atributos podem diferir em diversas fontes de dados. Preos de produtos, dirias de hotis, salrios de empregados etc., numa mesma empresa podem ser registrados em unidades e moedas diferentes, incluindo ou no parcelas de valores tais quais impostos ou taxas. A heterogeneidade semntica dos dados pode causar grandes desafios na integrao dos dados. Outros fatores como os vrios formatos de armazenamento dos dados, tais como armazenamentos em bancos de dados relacionais, de rede e hierrquico, arquivos textos, campos fixos e variveis, entre outros formatos iro afetar a forma como se recupera e integra os dados. A variedade dos sistemas operacionais e plataformas de hardware tambm so fatores que dificultam o acesso aos inmeros protocolos para recuperao e integrao dos dados. Cuidados na integrao dos dados oriundos de vrias fontes podem ajudar a reduzir e evitar redundncias e inconsistncias no resultado do conjunto de dados gerado na integrao. Certamente ir melhorar a preciso dos resultados e a velocidade das fases subsequentes dos processos de garimpagem. 1

42

3.3 Seleo de dados

Nesta etapa ser identificado e selecionado todos os dados que so necessrios para o processo de minerao de dados. Vale a pena ressaltar que esta etapa ocorrendo aps a etapa de integrao, possibilita a seleo somente do conjunto de dados que possa ser efetivamente utilizado e que sua integrao j garantiu a coerncia entre as diversas fontes de dados utilizadas.

3.4 Transformao de Dados

Nesta etapa os dados so transformados e consolidados em formatos apropriados para a atividade de garimpagem (mining). A transformao de dados envolve: Smooting (aplainamento) este trabalho remove os noisy data. Agregao aplica operaes de sumarizao e agregao nos

Utiliza tcnicas de binning, agrupamento e regresso.

dados. Por exemplo, vendas dirias so agregadas em vendas semanais, quinzenais e mensais. Tipicamente usada para gerao de dados no formato multidimensional em dados com alta granularidade6 (muitos detalhes). Generalizao generalizao dos dados a etapa que permite

transformar os dados primitivos, como linhas de tabelas, em hierarquias de mais alto nvel, como por exemplo, criar novas categorias de bairro, cidade e estado a partir do atributo logradouro, ou criana, adolescente, adultos e idade a partir do atributo idade. Normalizao normalizao dos dados permite atribuir uma nova

escala a um atributo de forma que os valores desse atributo possam cair na nova escala em um intervalo especificado, tal como entre 1.0 a 1.0 ou de 0.0 a 1.0 etc.

43

Construo de atributos nesta etapa novos atributos podem ser

construdos a partir dos atributos existentes, no sentido de ajudar o processo de anlise. Por exemplo, pode-se gerar um novo atributo levando-se em considerao os atributos idade, peso e altura de uma pessoa ou a aplicao de uma frmula especfica.

3.4.1 Reduo de Dados

Reduo de dados uma tcnica que pode ser aplicada para obteno de uma representao reduzida (compactada) de um conjunto de dados, muito menor em volume, mantendo a integridade do conjunto de dados original. Isto , garimpar nesse conjunto de dados reduzido pode produzir resultados mais eficiente do que no conjunto de dados originais. Podemos aplicar as seguintes tcnicas para reduo de dados: 1. Agregao de dados em cubo operaes de agregao de dados so aplicadas para construo de cubos de dados (estrutura multidimensional para anlise de dados). A figura 16 a seguir, extrada de [Jiawei Han, Micheline Kamber; Data Mining Concepts and Techniques; Morgan Kaufmann Publishers, Inc, 2001], mostra a transformao de dados relacionais em multidimensionais. J a figura 17, mostra uma forma de visualizao e interpretao dos dados no modelo multidimensional.

Figura 16: Agregao de dados em forma multidimensional

44

Figura 17: Representao de dados no modelo multidimensional

2. Reduo de dimenso atributos ou dimenses irrelevantes, fracas ou redundantes so identificadas e retiradas. 3. Compresso de dados mecanismos de codificao so aplicados para reduzir o tamanho do conjunto de dados. 4. Reduo de numerosidade (numerosity reduction) dados so

alterados ou estimados por valores alternativos, menores representaes de dados tal como modelos paramtricos ou mtodos no paramtricos tais como clustering, amostras e usos de histogramas. 5. Discretizao e gerao de conceitos hierrquicos valores de atributos em linhas ou registros so alterados por intervalos ou nveis de conceitos mais elevados. Conceitos hierrquicos permitem a garimpagem de dados em vrios nveis de abstrao e so fortemente utilizados em ferramentas de Minerao de dados.

3.5 Minerao dos dados

A etapa de minerao de dados, conforme descrita na seo 2, envolve as etapas de identificao dos objetivos da minerao (sua funcionalidade), a identificao da melhor tcnica a ser aplicada e da abordagem da aplicao de seus processos.

45

3.6 Avaliao dos Padres

Nem todos os padres obtidos no processo de minerao de dados podem ser considerados para o negcio em estudo. Nesta etapa, dever ser feito um estudo e avaliao dos resultados, identificando claramente, quais padres ou prognsticos podem ser utilizados, sempre baseados em sua expressividade estatstica.

3.7 Apresentao e assimilao do conhecimento

Nesta etapa os resultados de todo o processo de minerao de dados dever retornar em aes baseadas no conjunto de conhecimentos adquiridos em todo o processo. Consiste basicamente das seguintes etapas: deciso Definir as vantagens e desvantagens do projeto Reavaliar o projeto Criar novos projetos Apresentar as descobertas obtidas Determinar a melhor forma de utilizar tais informaes na tomada de

46

4. MINERAO

DE

DADOS

NO

CONTEXTO

DA

INTELIGNCIA DE NEGCIOS

Inteligncia de Negcios ou Business Intelligence (BI) um conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apoia a tomada de decises em negcios. Diversas tecnologias tem sido usadas conjuntamente em Inteligncia de Negcios, entre elas se destacam as tecnologia de Data Warehousing (DW), de On-Line Analitical Processing (OLAP), de Anlise e Explorao de Dados (AED) e de Minerao de Dados. Minerao de dados foi aclamada como uma das principais tecnologias para o futuro prximo e considerada, atualmente, o ponto mais alto na busca de conhecimentos para tomada de decises. A figura seguinte exibe as tecnologias que so utilizadas no contexto da inteligncia de negcios. A minerao de dados, atualmente, representa, ao nvel da informao, a principal tecnologia para tomada de deciso. Nesta rea, no basta apenas trabalhar com informao, cada vez mais importante ter conhecimento de seus negcios, conhecimentos esses que a minerao de dados proporciona.

Figura 18: Minerao de dados no contexto da inteligncia de negcios

47

As reas de negcios das empresas, principalmente das grandes empresas, j esto iniciando a utilizao de minerao de dados como busca de conhecimento. Estas solues se apresentam, basicamente, de quatro formas: Soluo Direcionadas apresentam o poder de minerao de dados

mas so aplicadas a um problema ou indstria em particular, como por exemplo o HNC Falcon System, que uma soluo baseada em redes neurais, e direcionada especificamente a fraudes de cartes de crdito e risco de perdas e o sistema Churn Prophet, que foi criado especificamente para deteco de agitao de clientes (como no caso da telefonia celular). Soluo de negcio - direcionadas a usurios finais de negcios com

a inteno de apresentar o poder da minerao de dados de modo fcil o bastante para usar e compreensvel o bastante para que os executivos consigam extrair algum valor da ferramenta, sem risco de erros causados pelo mal uso do produto. Soluo do analista de negcios - direcionadas para usurios de

aplicaes de negcios com algum conhecimento de como a minerao de dados funciona e algumas variaes diferentes. Geralmente apresentam os resultados de forma mais parecida com algoritmos de minerao de dados do que para uso final. Soluo de analistas de pesquisas - Direcionadas para analistas

de pesquisa ou estatsticos que desejam obter o mximo controle, bem como escolher o algoritmo. Geralmente oferecem bibliotecas de software estatstico, grficos e visualizao. So as primeiras a incluir tcnicas mais modernas, recmdescobertas. Nem sempre a minerao de dados agrega valor aos Sistemas de Apoio a Deciso - SAD. De fato, houve no passado (e ainda h, de certa forma) muitas barreiras para a minerao de dados se tornar uma funo essencial dos SAD. As mais importantes tm sido superadas, mas outras ainda se mantm.

Fundamentalmente, as mais importantes foram: alto custo das solues, a necessidade de grandes volumes de dados armazenados em poderosos servidores e a pouca amigabilidade das ferramentas de minerao de dados para pessoas que no fossem altamente especializadas. Outras que podem ser citadas so o desafio de preparar os dados para minerao, as dificuldades em se obter uma anlise custo/benefcio bem fundamentada antes do incio do projeto e a preocupao quanto viabilidade de fornecedores dessas ferramentas.

48

A seo a seguir apresentar algumas reas de negcios e pesquisas que possuem um grande potencial para minerao de dados.

4.1 Aplicaes potenciais em minerao de dados

As tecnologias de minerao de dados podem ser aplicadas a uma grande variedade de contextos de tomada de deciso no ramo dos negcios. Em particular, reas que envolvem contrapartidas (retornos) significativas supostamente incluem o seguinte: Marketing As aplicaes incluem a anlise do comportamento do

consumidor com base em padres de compra; a determinao de estratgias de marketing incluindo propaganda, localizao de lojas e mala direta; a segmentao de clientes, lojas ou produtos; bem como o projeto de catlogos, o layout de lojas e campanhas publicitrias. Finanas As aplicaes incluem a anlise da avaliao para

concesso de crdito a clientes, segmentao de contas a receber, anlise de desempenho de investimentos financeiros como aes, bnus e fundos mtuos; avaliao de opes financeiras e deteco de fraudes. Manufatura (Indstria) As aplicaes envolvem a otimizao de

recursos como equipamentos, fora de trabalho e matria-prima; o projeto timo de processos de produo, layouts de lojas e projetos de produtos, como por exemplo para automveis, com base em exigncias dos clientes. Sade As aplicaes incluem a anlise da eficcia de certos

tratamentos; a otimizao de processos dentro de um hospital, o relacionamento de dados sobre o estado de sade do paciente com a qualificao mdica; e a anlise de efeitos colaterais de drogas. rea biomdica Diversos aparelhos de diagnsticos esto sendo

desenvolvidos segundo os padres encontrados em populaes observadas ao longo de vrios anos. Seu objetivo principal detectar e identificar, principalmente, grupos de riscos para os pacientes e trabalhar na preveno de possveis doenas.

49

Outras aplicaes Diversas reas do conhecimento comeam a

utilizar as tcnicas de minerao de dados, visando conhecer e identificar padres at ento desconhecidos. Entre essas reas destacam-se as reas de seguros, bancos, comunicaes, explorao de petrleo etc.

50

5. OLAP CONCEITOS E UTILIZAO

5.1 Origem

A base da anlise Multidimensional para OLAP remonta a 1962, com a publicao do livro A Programming Language, de Ken Iverson. A IBM desenvolveu e implementou a primeira linguagem com anlise multidimensional, no fim da dcada de 60, chamada de APL, baseada em smbolos gregos, utilizadas por usurios finais e grande consumidora de recursos, foi amplamente utilizada nas dcadas de 80 e 90 em aplicaes de negcio. Na dcada de 90, acompanhando a evoluo dos sistemas, foi criada uma nova classe de ferramentas no mercado, que foi batizada de OLAP. Essas ferramentas possuem a maioria dos conceitos introduzidos pela linguagem APL, porm, com maior integrao na utilizao dos dados fontes.

5.2 Multidimensionalidade

O termo OLAP foi citado pela primeira vez por E.F.Codd, quando ele definiu doze regras que estas aplicaes deveriam atender. A viso conceitual

multidimensional dos negcios de uma empresa foi umas das regras citadas, a qual se tornou a caracterstica fundamental no desenvolvimento destas aplicaes. A viso multidimensional consiste em consultas que fornecem dados a respeito de medidas de desempenho, decompostas por uma ou mais dimenses dessas medidas. Podendo tambm serem filtradas pela dimenso e/ou pelo valor da medida. As vises multidimensionais fornecem as tcnicas bsicas para clculo e anlise requeridos pelas aplicaes de BI. Para se obter a viso multidimensional necessrio compreender outras caractersticas: Cubo uma estrutura que armazena os dados de negcio em formato multidimensional, tornando-os mais fcil de analisar.

51

Dimenso uma unidade de anlise que agrupa dados de negcio relacionados. As dimenses se tornam cabealho de colunas e linhas, como

exemplo linhas de produto, regies de venda ou perodos de tempo. Hierarquia composta por todos os nveis de uma dimenso, podendo ser balanceada ou no. Na hierarquia balanceada os nveis mais baixos so equivalentes, porm, isto no ocorre nas hierarquias no balanceadas onde a equivalncia hierrquica no existe. Por exemplo, em uma dimenso geogrfica o nvel pas no possui o subnvel Estado para um determinado membro e possui para outro. No caso especfico pode-se citar o pas Liechtenstein que no possui Estado e o Brasil, que possui uma srie de Estados. Membro um subconjunto de uma dimenso. Cada nvel hierrquico tem membros apropriados aquele nvel. Por exemplo, em uma dimenso geogrfica existe o nvel e seus membros.

Nvel Regio Pases Estados/Provncias

Membros sia, Amrica do Sul, Amrica do Norte China, Brasil, USA Yunna, Piau, California

Medida uma dimenso especial utilizada para realizar comparaes. Ela inclui membros tais como: custos, lucros ou taxas.

5.3 Definio de OLAP

A aplicao OLAP soluciona o problema de sntese, anlise e consolidao de dados, pois o processamento analtico online dos dados. Tem capacidade de visualizaes das informaes a partir de muitas perspectivas diferentes, enquanto mantm uma estrutura de dados adequada e eficiente. A visualizao realizada em dados agregados, e no em dados operacionais porque a aplicao OLAP tem por finalidade apoiar os usurios finais a tomar decises estratgicas. Os dados so apresentados em termos de medidas e dimenso, a maior parte das dimenses hierrquica. Considerando as aplicaes bancrias utilizadas diariamente no controle

52

de contas correntes, na qual so efetuados saques ou depsitos pelos correntistas, se tem o exemplo tpico de sistema de OLTP. O interesse destes usurios criar, atualizar e recuperar informaes sobre registros individuais. J para o Gerente de Conta Correntes os requisitos de uso de informaes dos dados das contas tem por finalidade a anlise global de contas correntes com diversas vises. Por exemplo, o Gerente de Contas pode requer uma anlise sobre o desempenho de contas correntes que tenham cheque especial e tenham utilizado o valor mximo dos

mesmos em um determinado perodo de tempo em algumas regies. Obter a resposta a esta consulta mais complexa fazendo uso de ferramentas relacionais padro, no fornece soluo requerida. Analisando as limitaes do uso de ferramentas relacionais padro, E.F. Codd disse: Ter um RDBMs no significa ter a nirvana instantnea de suporte a deciso. Mesmo com tantas possibilidades que os RDBMs tm oferecido aos usurios, eles nunca pretenderam fornecer poderosas funes de sntese, anlise e consolidao de dados. (Computerworld, 1993). As aplicaes OLAP diferem das aplicaes OLTP nos requisitos funcionais e de desempenho, conforme apresentado na Tab. 2.

CARACTERSTICAS Operao Tpica Telas Nvel de Dados Idade dos Dados Recuperao Orientao Modelagem

OLTP Atualizao Imutvel Atomizado Presente Poucos registros Registro Processo

OLAP Anlise Definida pelo Usurio Altamente Sumarizado Histrico, Atual e Projetado Muitos registros Arrays Assunto

Tabela 2: As caractersticas marcantes que diferenciam os sistemas OLAP e OLTP

5.4 Soluo OLAP

53

O OLAP (On-line Analytical Processing) mais do que uma aplicao uma soluo de ambiente, integrao e modelagem de dados. A maioria dos dados de uma aplicao OLAP, so originrias de outros sistemas e fontes de dados. Para formular a topologia e o projeto de uma soluo OLAP multidimensional as seguintes perguntas devem ser feitas: Quando? O qu? Onde? e Quem? Essas perguntas formam a base de todos os arrays multidimensionais. A obteno dos dados originrios das respostas so destinados aos DW e, da, possivelmente para um ou vrios Data Marts (DMs). Os DMs so subconjunto de informaes dos DWs, segmentado para uma determinada rea ou assunto, visando aumentar a velocidade na consulta de informaes. Durante o projeto de OLAP, conforme os requisitos do usurio, poder haver a necessidade de integrao de dados de plataformas diferentes e solues de conectividade devem ser planejadas. Alm disto, a modelagem dos dados outra preocupao importante para que as respostas esperadas s consultas complexas, possam ser fornecidas com a flexibilidade e com a performance adequada aos requisitos dos usurios. O armazenamento dos dados ou ser feito em um RDBMS ou em um banco de dados multidimensional (MDDB). A modelagem para o armazenamento dos dados deve considerar vantagens, desvantagens as

e aplicabilidade oferecidas por cada tipo. Os modelos

relacionais normalizados atendem basicamente ao processamento de poucos registros, sendo de baixa performance na agregao da informao. Os Modelos Star Schema so ligeiramente normalizados, composto por dois tipos bsicos de tabelas, de fatos e dimenso. A tabela de fatos a tabela central normalizada, que representa as transaes contendo os valores que esto sendo analisados e as chaves estrangeiras das tabelas de dimenso. J o modelo Snow Flakes uma variao do modelo Star, com vises ajustadas para o enfoque desejado, no qual as tabelas de dimenso tambm so normalizadas. E os Modelos Multidimensionais so os cubos que visam a performance, com as informaes fortemente agregadas. A escolha da ferramenta de OLAP no deve ser uma das primeiras tarefas em um projeto de desenvolvimento de uma aplicao OLAP. O mais interessante iniciar com a obteno dos dados, sua modelagem, armazenamento e, a sim, se proceda a escolha da ferramenta de OLAP.

54

5.5 Arquiteturas

A arquitetura de uma aplicao OLAP vai depender muito do mtodo de armazenamento de dados. Os mtodos de armazenamento de dados so MOLAP, ROLAP, DOLAP e HOLAP. MOLAP quer dizer Multidimensional ONLine Analytical Processing, os dados so armazenados de forma multidimensional, implantado em um banco de dados relacional, porm no na terceira forma normal (ANZANELLO, 2012). Os bancos de dados relacionais possui algumas restries de armazenamentos e tem dificuldades nos processos de cargas devida sua complexidade e o processo pode tornar-se demorado. ROLAP, Relational ONLine Analytical Processing, um mtodo utilizado para armazenamento modelo de dados relacionais. Tem como vantagem sua facilidade de entendimento e pelo Sistemas Gerenciadores de Banco de Dados Relacionais gerarem consultas facilmente. DOLAP, Desktop ONLine Analytical Processing, Variao da aplicao OLAP para fornecer portabilidade, com nfase e vantagem de diminuir o trfico na rede, uma vez que maioria das instrues enviadas para o servidor so devolvidas como macro resposta (macro cubo) e a anlise desses dados fica a cargo da parte cliente da rede. HOLAP uma forma hbrida de ROLAP e MOLAP. HOLAP possui os pontos fortes dos dois mtodos, que a performance de MOLAP e a estabilidade de ROLAP.

5.6 Ferramentas

Atualmente, existem muitas ferramentas de OLAP no mercado e mudanas tm ocorrido em um ritmo acelerado. Na maioria das ferramentas observa-se a existncia de dois componentes: a ferrramenta do administrador e a ferramenta do usurio final. O componente do administrador usado para administrar e gerar os cubos de dados a serem acessados, enquanto o componente do usurio final, tem
4

55

acesso aos dados para extra-los de suas bases de dados, com os quais geram relatrios capazes de responder as suas questes gerenciais. As ferramentas

surgiram juntamente com os sistemas de apoio a deciso para fazerem a extrao e anlise dos dados contidos nos DW e DMs. Algumas das caractersticas destas ferramentas: Consultas ad-hoc: geradas pelos usurios finais de acordo com os suas necessidades de cruzar informaes de uma forma no vista e que o levem a descoberta do que procuram. Segundo Inmom so consultas com acesso casual nico e tratamento de dados segundo parmetros nunca antes utilizado de forma iterativa e heurstica. [INMOM, W.H.; HACKTHOM, R.D.H.; Using DataWarehouse New York, John Wilwy & Son, Inc, 1994.]. Slice and Dice: possibilita a alterao da perspectiva de viso. Serve

para modificar a posio de uma informao, trocar linhas por colunas de maneira facilitar a compreenso dos usurios e girar o cubo sempre que houver necessidade. Drill down/up: consiste em realizar explorao em diferentes nveis de Com drill down dividi-se um item de resumo em seus

detalhes da informao.

componentes detalhados, como por exemplo ano, semestre trimestre, mensal e dirio. Alm das principais caractersticas apresentadas so necessrios que estas aplicaes forneam vrios modelos de visualizao em uma variedade de formatos, e no apenas em simples tabelas, sendo muitas vezes apresentados atravs de grficos.

5.7 Ligao do DW e OLAP

O DW utilizado para armazenar informaes e o OLAP para recuper-las, ambos so especializados para exercer suas funes de forma eficiente. As duas tecnologias so complementares de modo que um bom DW planejado com produo de relatrios em mente. Desta forma, para explorar o DW completamente necessrio o OLAP que ir extrair e alavancar totalmente as informaes nele contidas.

56

5.8 Ligao do Data Mining e OLAP

O OLAP e Data Mining so partes integrantes de todo e qualquer processo de suporte deciso. Ainda, nos dias de hoje, a maioria dos sistemas de OLAP tem o foco no provimento de acesso aos dados multidimensionais, enquanto os sistemas de DM lidam com a anlise de influncia para os dados de uma nica dimenso. As grandes empresas como a IBM, Oracle esto liberando verses de seus RDBMS que possuem ferramentas de OLAP e DM. Quando os usurios possuem ferramentas de OLAP e no de minerao de dados, eles gastam boa parte de seu tempo fazendo as tarefas pertinentes a um DM, como classificaes e predies das informaes recebidas

57

6. APLICAES PRTICAS DE DATA MINING

Data Mining constitui-se em uma tecnologia capaz de automatizar processos de busca por informaes preditivas que podem estar ocultas dentro de um amontoado de banco de dados ou relatrios gerenciais. Questes que

tradicionalmente exigem um extensivo trabalho de anlise podem agora ser resolvidas diretamente dos dados instantaneamente, j que as ferramentas Data Mining fazem uma verdadeira varredura nos bancos de dados, buscando identificar padres. Um exemplo so as anlises feitas com dados de vendas de varejo para descobrir supostas relaes entre produtos sem conexo aparente mas que so muitas vezes vendidos juntos. Outras descobertas incluem deteco de transaes fraudulentas com cartes de crdito e identificao de anomalias que podem representar erros nos registros dos dados comerciais. Quando as ferramentas Data Mining so implementadas em sistemas de processamento de alta performance, elas podem analisar massivos bancos de dados em questo de minutos. Atravs de um processamento mais rpido, os usurios podem executar simulaes com diferentes modelos, compreendendo dados ainda mais complexos, obtendo ento predies mais aperfeioadas.

6.1

Aplicaes para Assistncia Mdica

Os laboratrios GTE, construram um avanado sistema de Data Mining, para reavaliar os custos relativos a empregados e dependentes de sua carteira de assistncia mdica. Com o Software Health-KEFIR (Key Findings Reporter) usando como alvo de modelagem, os centros de custo que foram divididos por reas propensas a duplicao no ano seguinte, reas estas onde seriam necessrias intervenes estratgicas visando diminuio dos custos visveis e invisveis. Outra caracterstica do programa Health-KEFIR a seleo, para anlise e estudo de casos de ocorrncias mdicas consideradas como importantes; sob a forma de

58

procedimentos mdicos capazes de gerar benefcios para a sade, diminuindo os custos.

6.2

Aplicaes em Cincia e Tecnologia

Tcnicas Data Mining esto encontrando padres de estruturas moleculares, dados genticos, mudana global no clima e na temperatura, etc. O NASA-Jet

Propulsion Laboratory e Caltech, Inc. desenvolveram o SKICAT (SKY Image Cataloging and Analysis Tool), um avanado sistema Data Mining para analisar e catalogar automatizadamente descobertas do segundo Observatrio Espacial Palomar. Ao trmino da primeira fase do projeto, o SKICAT ter observado e

analisado o catlogo de mais de 50 milhes de galxias, 20 bilhes de estrelas e cem mil quasars e pulsares.

6.3

Aplicaes para o Poder Judicirio

Beverly Cook, uma pesquisadora da Universidade de Wisconsin em Milwaukee, modelou algumas aplicaes Data Mining com o software IDIS para avaliar um processo judicirio que envolvia a pena de morte - foram correlacionados dados como opinies pessoais e votos dados pela Suprema Corte de Justia americana em referncia a um caso especfico que esteve em julgamento, conhecido como o caso Byron White. O relatrio final da Universidade indicava que o

comportamento de escolha pela penalidade de morte estava sempre relacionado com filiao do membro do jri ao bloco conservador da Corte de Justia, e que o seu padro de voto era geralmente ligado raa do acusado.

59

6.4

Aplicaes para Bancos de Varejo

Stratton Trust um banco full-service com 1 milho de clientes.

O Vice

Presidente de Marketing est interessado em persuadir os clientes mais ricos a transferir os seus saldos de outros cartes de outros bancos para o carto da Stratton Trust. O Vice Presidente decide fazer um teste e envia uma mala direta luxuosa

para uma amostra de 10.000 clientes escolhidos aleatoriamente. Quinhentos clientes aceitaram a oferta = (5% de resposta). Aplicando um Data Mining com o software Discovery Server, o banco usa a informao obtida com os 10.000 clientes para criar modelos preditivos de segmentao, e aplica em seguida este "molde" nos 990.000 clientes restantes para extrair os registros de clientes que apresentam as mesmas caractersticas. Aps anlise, o Vice Presidente aprende que o nmero de saques em Caixa Automtico e como clientes antigos vem mantendo contas no banco so fatores preditivos para determinar quem apresentar maiores chances de

aceitar uma oferta de transferncia de saldo.

60

7. ALGUMAS BARREIRAS AO USO DO DATA MINING

7.1 Altos Custos

O alto custo da maioria das ferramentas faz com que fique difcil a disseminao das mesmas entre as corporaes. Um exemplo, um projeto com o custo de US$ 20.000 por usurio, pode no ser um atrativo para as corporaes, que querem investimentos rentveis a curto prazo.

7.2 Necessidade de grandes volumes de dados

Um fator que no passado era um grande empecilho para o crescimento do uso do DM, era a necessidade de armazenar grandes volumes de dados e/ou servidores. Ainda assim fornecedores dessa tecnologia continua insistindo no discurso de que o DM requer terabytes de dados e poderosos servidores, mas existem algumas solues mais acessveis aos usurios de menor porte de dados.

7.3 Complexidade das Ferramentas

Mesmo com diversas ferramentas mais enxutas, e a custos acessveis, uma das barreiras ainda permanece: a complexidade da maioria das ferramentas DM. De fato, muitas ferramentas ainda fazem o seu trabalho de forma oculta no permitindo que se saiba como alcanaram os seus resultados. O DM solicitado pelo usurio, que aguarda alguns dias ou semanas enquanto o analista/programador processa os dados para ento receber uma sada detalhada. Se o resultado no for a

61

contento todo processo tem que ser recomeado.

7.4 O desafio da preparao dos dados para a minerao

A preparao dos dados para se realizar a minerao envolve muitas e trabalhosas tarefas num projeto de DM, sendo considerada como 80% do trabalho. Os dados devem ser relevantes para as necessida des dos usurios, limpos (livres de erros lgicos ou de entrada de dados), consistentes, e livres de excessivas nulidades. Mesmo que haja um projeto de Datawarehouse (DW) anterior, onde os dados so normalmente limpos e centralizados em um nico local, continua havendo a necessidade de prepara-los para a minerao, assim como a escolha dos dados certos para minerar continua sendo crtico.

7.5 As dificuldades de se realizar a anlise custo/benefcio do projeto de DM

Estimar a taxa de retorno do investimento de um projeto de DM complicado devido ao fato que, como o objetivo da tecnologia descobrir tendncias (em dados) que no seriam visveis de outra maneira, torna-se virtualmente impossvel estimar tal taxa a partir de algo que desconhecido. Visto que normalmente um projeto de DM razoavelmente caro, pode ser um tanto arriscado se decidir por um projeto desse tipo.

7.6 Viabilidade dos fornecedores de ferramentas de DM

Finalmente, a viabilidade de mercado da maioria das ferramentas uma preocupao das empresas que procuram uma ferramenta confivel, para hoje e para o futuro. O mercado est abarrotado de fornecedores, desde pequenas empresas
1

62

que comercializam apenas este produto at grandes companhias em que sua ferramenta de DM apenas mais uma das que produz. Assim como qualquer nova tecnologia, a escolha do fornecedor to importante quanto a escolha da ferramenta.

63

8. CONCLUSES

No sabemos qual caminho nos leva toma de deciso certa, mas podemos tomar as melhores decises para a escolha do nosso caminho. A tecnologia traz solues para os diversos problemas que surgiram com o BI, mas nem sempre resolve todos os problemas. Observamos uma falta de definio dos papeis dos usurios no sistema, provocando a carncia de produtores de informao. A empresa deve balancear o uso das ferramentas de BI, alcanando o equilbrio no desempenho de seus processos que requerem acesso e controle de dados. Vemos que com o uso da minerao de dados, obtm-se reduo de custos (tempo e dinheiro) e de recursos humanos envolvidos no desenvolvimento desses sistemas para conseguir o sucesso, depende em grande parte da iterao dos seus usurios. As solues de ambiente, integrao e modelagem de dados, OLAP, trabalham de modo interativo, permitindo que a partir de uma resposta o usurio faa outros questionamentos, ou seja, o usurio consiga analisar o porqu dos resultados obtidos, pois cada vez mais se faz necessrio analisar as informaes que alavanquem os negcios das empresa com rapidez e eficincia. Na utilizao de OLAP no existe a melhor estratgia, ela ser definida pelos requisitos de seu aplicativo.

64

9. REFERNCIAS

BERRY, Michael J. A.; LINOFF, Gordon, Data Mining Techniques for Marketing, Sales, and Customer Support; John Wiley & Sons, Inc., 1997.

BRAGA, Antnio de Pdua; LUDERMIR, Teresa Bernarda; CARVALHO, Andr Carlos P. de L. F.; Redes Neurais Artificiais Teoria e Aplicaes, Editora LTC, 2000.

COREY, Michael; ABBEY, Michael; ABRAMSON, Ian; TAUB, Ben; ORACLE 8i, 2001 DINIZ, Carlos Alberto R.; LOUZADA NETO, Francisco; Data Mining: Uma Introduo; 14a Sinape Caxambu ABE Associao Brasileira de Estatstica, 2000. ELMASRI, Ramez; NAVATHE, Shamkant; Fundamentals of Database Systems; Addison-Wesley, 1999, 3rd Edition. HAN, Jiawei; KAMBER, Micheline; Data Mining Concepts and Techniques; Morgan Kaufmann Publishers, Inc, 2001. HAYKIN, Simon; Redes Neurais - Princpios e Prtica, traduo da segunda edio, Editora Bookman, 1999.

INMOM, W.H.; HACKTHOM, R.D.H.; Using DataWarehouse New York, John Wilwy & Son, Inc, 1994. MENA, Jesus; Data Mining Your Website; Digital Press, 1999. MENDES, Ilza Maria B.; PLASTINO, Alexandre; SATORU OCHI, Luiz; Regras de Associao: suas Diferentes Formas e seus Algoritmos de Minerao, Minicurso apresentado no SBBD 2001.

THURAISINGHAM, Bhavani; Data Mining; CRC Press, 1999.

65

WEIS. Sholom M.; INDURKHYA, Nitim; Predict Data Mining; Morgan Kaufmann Publishers, Inc, 1999

WESTPHAL, Christopher; BLAXTON, Teresa; Data Mining Solutions Methodos and Tools for Solving real-Word Problems; John Wiley & Sons, Inc., 1998.

ZANTINGE, Dolf; ADRIAANS, Pieter; Data Mining; Addison-Wesley, 1996.

You might also like