Professional Documents
Culture Documents
SUMÁRIO
Introdução ____________________________________________________________________ 4
Data Warehouse _______________________________________________________________ 6
Data Mart __________________________________________________________________ 9
KDD – Knowledge Discovery ____________________________________________________ 11
Data Mining _________________________________________________________________ 13
Principais Objetivos de um Data Mining _______________________________________ 14
Aplicações para Data Mining _________________________________________________ 15
Marketing ________________________________________________________________ 15
Vendas __________________________________________________________________ 16
Finanças _________________________________________________________________ 16
Manufatura _______________________________________________________________ 16
Saúde ___________________________________________________________________ 16
Energia __________________________________________________________________ 17
Redes Neurais ________________________________________________________________ 18
O Paradigma do modelo neural _______________________________________________ 18
Um Breve Histórico _________________________________________________________ 19
Alguns Conceitos Básicos ____________________________________________________ 20
O Neurônio Artificial _______________________________________________________ 21
O Modelo Neural __________________________________________________________ 23
Estrutura de uma Rede Neural ________________________________________________ 23
Projeto de um Sistema Neural ________________________________________________ 25
Treinamento de uma Rede Neural _____________________________________________ 26
Aprendizado ______________________________________________________________ 27
PRW – Uma Ferramenta para Data Mining ________________________________________ 28
Como obter uma cópia_______________________________________________________ 28
Tutorial On-Line ___________________________________________________________ 28
Componentes do PRW_______________________________________________________ 28
Guia para Utilização ________________________________________________________ 29
Como Carregar (importar) a base de dados ______________________________________ 29
Como criar um experimento __________________________________________________ 29
Como selecionar as variáveis de entrada e de saída ________________________________ 29
Como selecionar o conjunto para treinamento e para teste __________________________ 29
Como monitorar os experimentos _____________________________________________ 30
Como configurar um modelo _________________________________________________ 30
Como especificar os parâmetros do algoritmo de treinamento _______________________ 31
Redes Neurais – Uma Ferramenta para KDD e Data Mining
Introdução
O crescimento explosivo das bases de dados, sejam elas administradas pelo
governo, pela sociedade civil ou pelas entidades de pesquisa, vem ultrapassando em
muito, a capacidade humana de interpretar e digerir o volume de dados disponível. Esta
realidade vem fazendo surgir a demanda por uma nova geração de ferramentas e técnicas,
que possibilitem uma análise automática e mais inteligente destas bases de dados.
“As wave after wave of new information technology hits the market and slowly
gets assimilated into daily operations, the risks (and rewards) grow higher for
those who have placed their bets on the technology roulette wheel.”
Joseph P. Bigus [Bigus96]
Nestas últimas três décadas o computador evoluiu de uma posição de uso limitado
a automação de algumas operações rotineiras, principalmente nas áreas administrativa e
financeira, para um uso mais abrangente e profundo, oferecendo soluções e respostas para
os mais diferentes níveis do processo empresarial. Não apenas a tecnologia computacional
Antonio Carlos Gay Thomé Inteligência Computacional 4
Redes Neurais – Uma Ferramenta para KDD e Data Mining
mudou, mas também, e principalmente, a forma como ela é vista e usada no mundo dos
negócios.
Em 1981 tivemos o nascimento do IBM PC que, usando um processador Intel 8088
de 16 bits, uma memória RAM de 64Kbytes e apenas um floppy disk de 5 ½”, foi lançado
no mercado pelo singelo valor de US$3000. O primeiro disco rígido a aparecer no mercado
foi o Seagate 5.25”, com capacidade de armazenar apenas 5Mbytes de dados. Hoje,
passados vinte anos, com os mesmos US$3000, podemos adquirir um computador dual
com dois processadores Pentium III de 1GHz, 512Mbytes de RAM, 40Gbytes de
armazenamento em disco rígido e mais um número de outros recursos inexistentes na
época, como CD-ROM, DVD, Zip Drive, placa de rede, etc.
As bases de dados hoje ganharam status e passaram a ser vistas como bem de
capital da empresa. Os dados operacionais representam o estado corrente dos negócios e,
quando combinados com dados históricos, podem dizer onde estamos, de onde viemos e
para onde vamos. Premidos pela necessidade de tomar decisões em tempo cada vez mais
curto, os executivos atuais precisam dispor de informações rápidas e precisas que lhes
sirvam de suporte. Segundo a revista HSM Management, o planejamento estratégico é a
ferramenta mais utilizada pelos executivos nesta última década.
Ter informações on line apenas não é mais o suficiente. Há tempos que as
tradicionais consultas e relatórios gerenciais perderam a capacidade de proporcionar ao
executivo algum diferencial competitivo. Ferramentas avançadas de análise de dados,
conhecidas como OLAP (OnLine Analytical Processing), oferecem a possibilidade de uma
análise interativa através de diferentes formas de agregação dos dados e apresentação dos
resultados na forma de tabelas (2D) ou na forma de gráficos em 3D. Porém, o que observa
é que mesmo estas ferramentas já não respondem aos desafios impostos pelo cotidiano da
competitividade empresarial.
O que o mercado procura hoje são maneiras ou técnicas que permitam tirar maior
proveito do investimento feito na coleta e no armazenamento de montanhas de dados
sobre o seu negócio. O desafio está em descobrir e extrair conhecimento novo a partir dos
dados, que este conhecimento seja útil e que ao ser usado no processo de tomada da
decisão, possa representar um diferencial competitivo e um ganho real para a empresa.
Nesta área, de forma ainda nebulosa, isto é, sem um consenso, surgem ferramentas,
metodologias e mesmo paradigmas, cujas definições muitas vezes se confundem, mas que
apontam todas para a multiplicidade de bases de dados e para o caminho do
processamento inteligente destas bases. Data Warehouse, KDD – Knowledge Discovery in
Databases, Data Mining, Inteligência Computacional e Redes Neurais são alguns dos nomes
encontrados neste novo segmento.
No texto a seguir fazemos uma breve exposição dos principais conceitos e
definições sobre os termos acima citados:Data Warehouse, KDD e Data Mining. Sobre Redes
Neurais fazemos uma apresentação um pouco mais detalhada porém sem muita
profundidade. A seguir apresentamos a ferramenta PRW – Pattern Recognition Workbench,
que será utilizada em apoio ao curso e, finalmente, apresentamos alguns problemas que
serão explorados como estudo de casos.
Data Warehouse
Nos anos 80 a sociedade presenciou o surgimento e o apogeu dos
microcomputadores que não só viraram objeto de consumo mas também revolucionaram
a forma de se fazer computação no meio empresarial. Os antigos e paquidérmicos
sistemas centralizados deram lugar a sensação de que cada setor ou mesmo funcionário
tem agora o poder de resolver seus próprios problemas e necessidades – finalmente
alcançada a tão almejada independência da área de TI.
O desenvolvimento de diversas ferramentas de software, como planilhas
eletrônicas, gerenciadores de pequenos bancos de dados, interfaces gráficas com ícones e
menus e sofisticados ambientes de programação, estimulou ao extremo a veneração pelo
conceito do “faça você mesmo”.
Embora interessantes e estimuladoras da criatividade e da auto-suficiência, a
proliferação desta prática gerou uma nova classe de problemas para o mundo dos
negócios. É muito comum hoje uma empresa ter um número elevado de pequenas bases
de dados espalhadas por diversas áreas ou setores. Bases estas completamente
desconectadas uma das outras, possivelmente com redundância de informações e, não
raramente, contendo valores inconsistentes.
A falta de um procedimento integrado para concepção e administração do dado
como patrimônio corporativo da empresa começou a ser questionada no princípio da
década de 90, principalmente por aqueles com tendência à nostalgia. Voltar no entanto aos
grandes e pesados sistemas centralizados, em plena era da teleinformática, seria um
retrocesso grande demais. É neste contexto que surge um novo conceito - o de Data
Warehouse (ou Armazém de Dados em português) - cuja proposta maior é estabelecer um
telhado virtual sob o qual se integram as diferentes bases de dados da empresa que agora,
sob a perspectiva dos usuários, passam a ser vistas como uma grande base corporativa.
Um Data Warehouse, como o nome indica, constitui-se de um grande aglomerado de
dados provenientes das mais diversas bases de dados existentes e mantidas por uma
empresa. A qualidade e a integridade dos dados no Data Warehouse deve ser mantida por
uma equipe centralizada de profissionais competentes. Por outro lado, desenvolvedores
de aplicações não precisam mais se preocupar com o layout das diferentes bases, nem com
possíveis incompatibilidades em termos de formas e meios de armazenamento,
redundâncias ou inconsistências. Em outras palavras, eles precisam apenas saber que todo
e qualquer dado pode ser facilmente encontrado através dos recursos oferecidos pela
interface de gerenciamento do Data Warehouse.
Na bibliografia encontramos conceitos e definições as vezes um pouco distintas
sobre DW , tais como:
♦ Segundo Inmon [INM97a], que é tido como o pai do conceito, Data Warehouse é
uma coleção de dados integrados, orientados por assunto, variáveis com o
tempo e não voláteis, usados para dar suporte ao processo gerencial de tomada
de decisão.
♦ Conforme Harjinder [HAR96], Data Warehouse é um processo que aglutina
dados de fontes heterogêneas, incluindo dados históricos e dados externos a
empresa, usados para atender à necessidade de consultas estruturadas e ad-hoc,
relatórios analíticos e de suporte à decisão.
♦ Para Barquini [BAR96], Data Warehouse é uma coleção de técnicas e tecnologias
que juntas disponibilizam um enfoque pragmático e sistemático para tratar com
o problema do usuário final que precisa acessar informações que estão
distribuídas em vários sistemas da organização.
Fazendo uma comparação com o conceito tradicional de banco de dados, este pode
ser visto como uma coleção de dados operacionais armazenados e utilizados pelos
diferentes sistemas de aplicação de uma determinada empresa [BAT86]. Os dados
mantidos nesta forma são chamados de "operacionais" ou "primitivos". No caso do DW,
tem-se uma coleção de dados derivados dos dados operacionais que servem a sistemas de
suporte à decisão. Estes dados são, muitas vezes, referidos como dados "gerenciais",
"informacionais" ou "analíticos" [INM96].
Os bancos de dados operacionais armazenam as informações necessárias para as
operações do dia-a-dia da empresa. São utilizados por todos os funcionários para registrar
e executar operações pré-definidas e seus dados podem sofrer constantes mudanças
conforme as necessidades atuais da empresa. Por não ocorrer redundância num banco de
dados e as informações históricas não ficarem armazenadas por muito tempo, este tipo de
estrutura não exige grande capacidade de armazenamento.
Já um DW armazena dados analíticos, tanto detalhados como resumidos, e
destinados às necessidades da gerência no processo de tomada de decisões. Isto pode
envolver consultas complexas que necessitam acessar um grande número de registros, por
isso é importante a existência de muitos índices criados para acessar as informações da
maneira mais rápida possível. Um DW armazena informações históricas de muitos anos e
por isso deve ter uma grande capacidade de processamento e de armazenamento.
Na Tabela abaixo, estão relacionadas algumas diferenças entre um banco de dados
convencional e um DW [INM96] [BAR96] [KIM96] [ONE97]:
Com base nestes conceitos podemos concluir que o DW não é um fim, mas sim um
meio para que as empresas possam dispor e analisar informações históricas com vistas a
melhoria dos processos e dos negócios. Um DW é construído com base em resumos
retirados de múltiplos sistemas de computação normalmente utilizados há vários anos e
que continuam em operação. São construídos para que tais dados possam ser
armazenados e acessados de forma que não sejam limitados por tabelas e linhas
estritamente relacionais. Os dados de um DW podem ser compostos por um ou mais
sistemas distintos e sempre estarão separados de qualquer outro sistema transacional, ou
seja, deve existir um local físico onde os dados desse sistema sejam armazenados. A
Figura abaixo ilustra o esquema de emprego de um DW, mostrando que entre as fontes de
dados e os aplicativos está o DW.
Consultas Consultas
Da ta Warehouse
Integrador
recuperar estes dados de uma forma que eles possam auxiliar os administradores na
tomada de decisões estratégicas de maneira rápida, eficiente e segura.
Apesar de possuir uma arquitetura relativamente simples, os processos de extração,
filtragem, carga e recuperação dos dados são bastante complexos, exigindo que pessoas
altamente capacitadas façam parte do projeto para que os objetivos sejam atingidos no
menor espaço de tempo possível e sem gastos desnecessários de recursos.
Além dos benefícios relativos a qualidade e a segurança dos dados, um DW abre
toda uma gama de novas possibilidades em termos de sistemas de informações
estratégicas e gerenciais para a tomada da decisão. Um DW mantém a história dos
negócios e torna os dados facilmente acessáveis, abrindo assim, caminho para todo um
novo paradigma que visa a geração de conhecimento novo e útil para a empresa a partir
da busca de padrões e correlações desconhecidas envolvendo partes das bases de dados.
Esta nova área é conhecida por KDD – Knowledge Discovery in Databases.
Data Mart
Trata-se de uma alternativa mais modesta aos data warehouse. Menores e mais
baratos, os data marts são menos abrangentes limitando-se, na maioria das vezes, ao
contexto de um departamento. Pela complexidade que envolve um DW, sua construção é
geralmente lenta e cara. Para equilibrar os custos e oferecer resultados em prazos mais
curtos, é possível construir Data Marts, que são pequenos DW departamentais. Entre as
principais vantagens da utilização de um Data Mart está a redução do tempo de
implementação, em média de 120 dias cada, e o fator preço. Segundo estimativas,
enquanto um Data Mart departamental custa de US$ 100 mil a US$ 1 milhão, um DW
completo começa na casa dos US$ 2 milhões e leva cerca de um ano para estar
consolidado.
Conforme [INM97], data marts são subconjuntos de dados da empresa armazenados
fisicamente em mais de um local, geralmente divididos por departamento (data marts
"departamentais"). Existem diferentes alternativas de se implementar um data mart
[ONE97], sendo que a proposta original é a aquela onde os Data Marts são desenvolvidos
a partir de um DW central. A abaixo exemplifica esta situação.
Data Mart
Vendas Estoque
Data Warehouse
“KDD, portanto, se caracteriza por ser um processo não trivial, que busca
gerar conhecimento que seja novo e potencialmente útil para aumentar os ganhos,
reduzir os custos ou melhorar o desempenho do negócio, através da procura e da
identificação de padrões a partir de dados armazenados em bases muitas vezes
dispersas e inexploradas.”
Data Warehouse
Interpretação
Seleção
Transformação
Pré-processamento Mineração
(Data Mining)
Data Mining
Data Mining - DM, ou mineração de dados, é uma das principais etapas de um
processo de KDD. Consiste na construção de modelos computacionais para a descoberta
automática de novos fatos e relacionamentos entre dados, a partir da aplicação repetida e
muitas vezes interativa, de algoritmos de busca. A eficiência de um processo de data
mining está no potencial de ganho para a empresa a ser gerado pelas informações
extraídas.
É importante não confundir data mining com complexas estruturas de consulta a
bases de dados, onde o usuário já possua alguma hipótese e deseja apenas extrair material
para manualmente verificar e confirmar a validade de sua hipótese. A idéia central em
data mining é a de que seus algoritmos atuem eles próprios como mineiros e sejam capazes
de automaticamente identificar a existência de padrões e relacionamentos desconhecidos,
que ao serem analisados posteriormente, possam suscitar e induzir a geração de hipóteses
úteis e relevantes para o usuário.
Regressão consiste na busca por uma função que represente, de forma aproximada,
o comportamento apresentado pelo fenômeno em estudo. A forma mais conhecida de
regressão é a linear, por exemplo, uma reta que minimiza o erro médio entre todos os
valores considerados, mas também pode ser não linear.
Predição envolve uma componente temporal, isto é, representa aquela classe de
problemas nos quais estamos interessados em prever o comportamento ou valor futuro de
uma determinada variável com base em valores anteriores desta mesma variável (mono-
variável) ou em valores anteriores da variável de interesse e de outras variáveis (multi-
variável).
Como mencionado, várias são as técnicas que podem ser utilizadas na
implementação destas estratégias, onde as principais são:
Estratégia Algoritmos
Dentre as técnicas listadas podemos notar que redes neurais é a que apresenta
maior abrangência, podendo ser aplicada em praticamente todas as estratégias.
Marketing
Database marketing é um segmento emergente que vem revolucionando a forma de
encarar e fazer a divulgação dos produtos de uma empresa. Quando aliado às técnicas de
data mining amplia suas potencialidades abrindo novas e diferentes formas de avaliar e
alavancar a relação entre o cliente e o faturamento da empresa.
O esforço de marketing geralmente é elevado, nem sempre é efetivo, mas fatalmente
influi no preço final de venda. Qualquer tecnologia que seja capaz de tornar mais efetivo o
resultado da propaganda ou de reduzir seus custos, tem impacto direto no faturamento e
no sucesso do empreendimento.
A manutenção de grandes bancos de dados onde são armazenadas as transações de
vendas, operações de crédito ao cliente, de compra a prazo e de pagamento, tem feito do
database marketing uma das áreas mais ricas e promissoras para aplicação dos conceitos
de KDD e data mining. As principais aplicações estão na seleção de candidatos para
propaganda seletiva ou na seleção de produtos a serem oferecidos num mesmo pacote.
Numa campanha de marketing a possibilidade de identificar antecipadamente aqueles
clientes que apresentam maiores chances de responder positivamente a abordagem reduz
os custos da propaganda, o mesmo ocorre quando a cesta de produtos a ser oferecida é
otimizada para cada cliente em potencial.
Vendas
No setor de vendas a aplicação provavelmente de maior interesse seja a de
identificar produtos que possam ser colocados em uma mesma cesta ou pacote. Isto
envolve a garimpagem por associação entre produtos, que pode revelar afinidades ou
aversões nunca imaginadas e como conseqüência, sugerir estratégias para maximizar o
lucro.
A descoberta de que dois ou mais produtos têm suas vendas fortemente associadas
pode, por exemplo, ser usada no sentido de não colocá-los em promoção ao mesmo
tempo, de organizá-los de uma forma que facilite o cliente a encontrá-los ou de organizá-
los de maneira que no caminho entre eles o cliente seja exposto a outros produtos cuja
venda seja estimulada.
Outra aplicação é a busca por associações que envolvam uma componente temporal,
isto é, aquela que revela, por exemplo, que a compra de um produto hoje induz, com alta
probabilidade, a compra de outro algum tempo depois. Tal descoberta pode sugerir uma
estratégia de venda que busque efetivar a venda de ambos logo na primeira
oportunidade.
Finanças
Em finanças as aplicações têm sido várias envolvendo associação, classificação,
agregação e também predição. Análise de crédito, potencial transações fraudulentas em
cartões de crédito, avaliação de risco, constituição de bolsa de ações (portfólio), previsão
de transferência de numerário entre agencias bancárias, previsão de flutuações nos
mercados de ações e de commodities e previsão de falências, são algumas das aplicações
mais comumente encontradas.
Nesta área as transações podem envolver volumes financeiros efetivamente
elevados, os riscos e a concorrência também são altos e neste cenário, qualquer
oportunidade de ganho é considerada e pode representar, por menor que seja a margem
de ganho, um diferencial efetivo.
Manufatura
A complexidade dos modernos parques de produção e a pressão pela eficiência e
pela qualidade tem possibilitado o uso de data mining e de automação em diversas áreas.
CAD/CAM e robôs são algumas das aplicações de maior demanda na área.
Saúde
São basicamente duas frentes distintas de trabalho nesta área: administração e
diagnóstico. Na administração os sistemas lidam com os serviços oferecidos aos pacientes,
com os seguros, com as ações potencialmente fraudulentas, etc.
Energia
Previsão de consumo e previsão de falhas em sistemas de transmissão ou de
distribuição são as duas aplicações mais comuns, embora muitas outras tenham sido
pesquisadas e difundidas na literatura.
Conforme visto na tabela 2, a tecnologia de maior emprego atualmente em data
mining é a de redes neurais, assunto ao qual dedicamos o próximo capítulo. Nele
tentaremos proporcionar ao leitor uma visão geral sobre o paradigma das redes neurais e
capacitá-lo a utilizá-las na resolução de alguns problemas reais.
Redes Neurais
Como mencionado na sessão anterior, redes neurais têm sido cada vez mais
intensamente utilizadas em aplicações de data mining. Este fato deve-se não só a
possibilidade de aplicação do paradigma em praticamente todas as diferentes estratégias
de data mining mas também pela relativa simplicidade de uso das redes neurais quando
comparadas às demais tecnologias. Existem várias ferramentas neurais oferecidas
comercialmente, que são relativamente fáceis de serem usadas e que permitem o usuário
final aplicar redes neurais a diversos problemas reais. O PRW – Pattern Recognition
Workbench é uma destas ferramentas, que descrevemos na próxima sessão e que será
usada como suporte aos exercícios práticos preparados para este curso.
Uma rede neural é portanto, uma abstração computacional que busca emular o
funcionamento do sistema nervoso do ser humano. Nosso sistema nervoso é uma rede por
onde fluem sinais eletroquímicos e suas principais partes são: o cérebro, a medula
espinhal e os nervos. O cérebro e a medula espinhal formam o sistema nervoso central
(SNC) — centro de controle e coordenação do corpo. Bilhões de neurônios, a maioria
agrupados em nervos, formam o sistema nervoso periférico, transmitindo impulsos
nervosos entre o SNC e as demais regiões do corpo. Cada neurônio possui três partes: o
corpo celular — composto por um núcleo e um citoplasma, onde os estímulos recebidos
são integrados e onde a maioria do metabolismo celular é realizado, o axônio — que é
encarregado da transmissão dos impulsos gerados pela célula para outros neurônios e os
dendritos — que recebem os impulsos provenientes dos axônios de outros neurônios e os
levam ao corpo celular para integração, reiniciando assim, um novo ciclo.
Pesquisadores estimam a existência de aproximadamente 100 bilhões de neurônios
no córtex cerebral do ser humano. Cada neurônio podendo tratar até 1000 estímulos
simultâneos de entrada, o que traduz na capacidade do cérebro processar até 100 trilhões
de estímulos simultâneos. Cada neurônio pode disparar até 100 vezes por segundo e,
assim, o cérebro humano apresenta uma singela capacidade de processar até 10 000
trilhões de estímulos/seg. Mais veloz que os maiores supercomputadores até hoje
construídos pelo homem. Esta imensa capacidade de processamento torna-se ainda mais
expressiva ao se constatar que o cérebro não pesa mais que 1.5 Kg e ocupa
aproximadamente 300 cm3 (menos de 1/2 litro).
Um Breve Histórico
As primeiras pesquisas para o desenvolvimento de computadores baseados no
comportamento das células nervosas (os neurônios) datam da década de 40 [Minsk88]. Em
1943 Wax Ten McCulloch e Walter Pitts propõem um modelo matemático (artificial) para
o neurônio biológico. O campo de atuação estava limitado ao entendimento do
funcionamento do cérebro para aplicações em medicina e psicologia [McCulloch43]. Em
1947 publicaram um segundo estudo intitulado “How we know universal”. Dois anos
depois, em 1949, Donald Hebb, observando o que ocorria nas sinapses dos neurônios,
desenvolveu a “Teoria do Aprendizado Neural” a qual determina que quanto mais
correlacionadas estiverem as saídas de dois neurônios em cascata, maior deverá ser o
nível ou a intensidade da ligação entre eles (sinapse).
No período entre 1951 e 1958, pouco se evoluiu no campo das redes neurais. Porém
em 1959, dois grandes trabalhos foram apresentados: Bernard Widrow desenvolveu o
elemento linear adaptativo chamado ADALINE (“ADAptative LINear Element”), capaz de
auto ajustar-se de forma a minimizar o erro entre a resposta desejada e a resposta gerada
pelo sistema. A primeira aplicação prática de um sistema de computação neural foi a
utilização do ADALINE para o desenvolvimento de filtros digitais adaptativos com a
função de eliminar ecos em linhas telefônicas.
Ainda em 1959, paralelamente a Widrow, Franck Rosemblatt concluia o projeto do
“Perceptron”, iniciado em 1958, que resultou num livro publicado em 1962. O fato causou
excitação no meio científico da época e expectativas muito acima das possibilidades foram
espalhadas e divulgadas no seio da sociedade — “O cérebro humano finalmente chegava aos
computadores”. O “Perceptron” de Rosemblatt consistia em um sistema de classificação de
padrões, utilizando apenas uma camada de neurônios.
de saída. Este sinal de saída é então, propagado para os neurônios seguintes da rede,
como no modelo biológico.
x1
x2
. Corpo Celular y
.
xn Saída
Entradas Mapeamento
O Neurônio Artificial
O modelo matemático de um neurônio artificial foi primeiramente idealizado pelos
pesquisadores W. S. McCulloch e W. H. Pitts [McCulloch43] no ano de 1943. Compõe-se
basicamente de conexões emulando os dendritos, pesos emulando as sinapses, uma
função de mapeamento emulando o corpo celular, e uma saída emulando o axônio,
conforme exemplificado na figura abaixo.
x1
w1
Função Função
x2 w2 de de y
Ativação Propagação
w3
x3
y = f ( X , W ) = P • A( X , W )
n
a i ( x , w )= w T x = ∑ wij x j (1.1)
j =1
• Esférica
n
a i ( x , w) = ρ −2
∑(x j − w ij ) 2 (1.2)
j =1
• Mahalanobis
ai ( x, w)=( x − wi )T Ω −1 ( x − wi ) (1.3)
Ω= X XT (1.4)
• Polinomial
n
a i ( x , w )= ∑ x j ij
w
(1.5)
j =1
+1
1, x > − b +1
Degrau y =
0, x < − b 0 x -b 0 x
+1
+1
Degrau 1, x > − b
y =
Simétric 0, x < − b 0 x -b 0
-1
x
-1
o
+b
+1
Linear y=x+b -b 0
0 +1 x x
-b
+1
+1
Logística 1
Sigmoid y= − (n + b )
al 1+ e
0 x -b 0 x
+1
+1
( x + b) − ( x + b)
Tangente e −e
y= =
Sigmoid ( x + b) − ( x + b) 0 x -b 0 x
e +e
al -1 -1
O Modelo Neural
A concepção básica dos modelos neurais está centrada na figura do neurônio. A
potencialidade do modelo para solução de problemas complexos se baseia no paralelismo,
na capacidade de processamento advinda da integração, na não linearidade
proporcionada pela atividade operacional de cada elemento da rede e pela capacidade da
mesma de buscar a solução através de um método próprio de treinamento e auto-
aprendizado.
Diversos são os modelos de rede propostos na literatura, cada qual advindo de uma
linha de pesquisa diferente e visando um melhor desempenho na solução de um tipo
específico de problema.
Basicamente, os modelos neurais podem ser classificados segundo:
a) a estratégia de treinamento: em supervisionados (quando a rede dispõe de um
instrutor apontando erros e acertos) ou não-supervisionados (caso contrário).
b) a forma de treinamento: em incremental (quando o conhecimento da rede se ajusta
após a apresentação de cada padrão de entrada (estímulo)) ou lote (onde o ajuste do
conhecimento só é realizado após “visão” de todos os estímulos), e
c) a forma de operação: em unidirecional (os sinais internos se propagam apenas na
direção entrada/saída - feedforward) e recorrente (quando há realimentação - recurrent).
E
n S
t a
r í
a d
d a
a s
s Aprendizado
Parâmetros
Parâmetrosde
deProjeto:
Projeto:
• nr. de camadas • função de transferência
• nr. de neurônios / camada • representação dos dados
• topologia das interconexões • dinâmica de aprendizado
w
X
Y
P
P o
r s
e
parada por este critério deve sempre ser utilizada em conjunto com qualquer outro, com
vistas a evitar processos de treino intermináveis.
Aprendizado
Redes neurais “aprendem” por experiência, como uma criança que aprende a andar,
falar, associar objetos e nomes, através de exemplos ou tentativa e erro. Assim, após a
escolha de uma representação para os dados do problema, deve-se montar um conjunto
de treinamento. Este conjunto é gerado a partir de dados históricos, ou seja, a partir de
experiências e fatos ocorridos no passado.
O aprendizado geralmente se constitui no ajuste do conjunto de pesos de modo a
que a rede consiga executar uma tarefa específica. O aprendizado pode ser realizado,
basicamente, de duas formas distintas:
• aprendizado supervisionado - é aquele que utiliza um conjunto de pares (entrada -
saída), em que para cada padrão de entrada é especificado um padrão de saída desejado
(resposta desejada). O aprendizado ocorre no momento em que a saída gerada pela rede,
a partir dos cálculos efetuados com o padrão de entrada e os pesos correntes, for diferente
da saída desejada e o algoritmo de treinamento, segundo alguns critérios, ajusta os pesos
da rede de forma a reduzir o erro. Essa dinâmica é repetida para todo conjunto de dados
(entradas e saídas) inúmeras vezes, até que a taxa atinja uma faixa considerada
satisfatória.
O processo básico do aprendizado supervisionado pode ser resumido pelos
seguintes passos (para um treinamento incremental):
Passo 1: Escolha inicial dos pesos, em geral esses valores são pequenos e escolhidos
aleatoriamente;
Passo 2: Apresentação de uma nova entrada cuja saída correspondente é conhecida;
Passo 3: Cálculo da saída gerada pela rede;
Passo 4: Cálculo do erro (saída desejada x saída gerada);
Passo 5: Verificação do erro e do número de ciclos, se satisfatório encerra o treinamento.
Passo 6: Atualização do ponteiro para a próxima observação a ser apresentada a rede, caso seja
a última observação do conjunto de treinamento, reinicializa o ponteiro;
Passo 7: Ajuste dos pesos;
Passo 8: Retorno ao passo 2;
• aprendizado não-supervisionado - este tipo de aprendizado também é conhecido
como aprendizado auto-supervisionado, e classifica os padrões similares sem utilizar
pares (entrada - saída), isto é, no treinamento da rede são usados apenas valores de
entrada. A rede trabalha essas entradas e se organiza de modo a classificá-las mediante
algum critério de semelhança. Esse tipo de rede utiliza os neurônios como classificadores,
e os dados de entrada como elementos de classificação.
Tutorial On-Line
◊ O PRW possui um tutorial simples mas que fornece ao usuário algumas
informações sobre a funcionalidade e conceitos empregados no aplicativo. Para
usar o tutorial, o usuário de iniciar o aplicativo e escolher a opção “tutorial” dentre
as duas disponíveis.
◊ O tutorial se divide em duas partes:
o Part I: A Simple Classification Problem
o Part II: PRW Basics
Componentes do PRW
◊ Uma planilha de dados (tipo Excel) – para onde devemos importar a matriz de
dados a ser utilizada na construção do modelo
Estudo de Casos
Neste capítulo são apresentados alguns casos para estudo e aplicação de redes
neurais. Todos os casos são fictícios porém alguns são construídos a partir de dados reais.
Descrição do Problema
Um dos problemas que aflige Senhor Montoya são os custos associados a divulgação
de seus produtos nos clubes de golf da cidade. Embora a estratégia de contratar
demonstradoras em agências de modelos tenha se revelado extremamente eficaz, ela é
muito onerosa. Se o número de gringos jogando golf for reduzido a operação resulta em
prejuízo. O centro do problema é que a hora paga pelas demonstradoras é muito alta e
aparentemente não pode ser reduzida face a outras ofertas de trabalho que estão
disponíveis.
Ao contar seu problema para Don José Diaz, um velho amigo da família e grande
aficionado do golf, Senhor Montoya foi convencido a tentar encontrar um que lhe
permitisse determinar com precisão razoável, quando deveria e quando não enviar suas
demonstradoras para os clubes de golf. Don José argumentou que os dados necessários
para a construção deste modelo já estavam disponíveis. Bastava cruzar os dados históricos
do faturamento diário com variáveis tais como temperatura, vento, umidade, etc., que
podem ser facilmente recuperadas dos arquivos dos principais jornais da cidade ou
diretamente do serviço de meteorologia.
Aplicação do Modelo
Generalização do Modelo
Ensolarado 1 60 100
Nublado 2
c) Umidade (%)
Chuvoso 3
Mínimo Máximo
d) Vento
65 96
Valor Código
e) Mês do ano
Parado 1
Fraco 2 Valor Código
Médio 3 Janeiro 1
Forte 4 Fevereiro 2
Abril 4
Valor Código
Maio 5
Sim 1 Junho 6
Não 0 Julho 7
Agosto 8
Setembro 9
Outubro 10
Novembro 11
Dezembro 12
Descrição do Problema
Um dos problemas mais importantes com que a empresa se depara no momento é o
da redução dos custos do processo de vendas de seus produtos. Cada catálogo que é
postado e que não resulta em vendas de pelo menos R$ 42,00 (quarenta e dois rublos)
Antonio Carlos Gay Thomé Inteligência Computacional 37
Redes Neurais – Uma Ferramenta para KDD e Data Mining
Emprestada 1 Syktyvkar 9
Alugada 2 Vyborg 10
Própria c/Financiamento 3
Própria 4
The Stylist
Revista mensal voltada para o mundo da moda. Mostra e discute as principais
tendências do mercado pret-a-porte. As entrevistas com estilistas famosos e as fotografias
altamente elaboradas são os destaques da revista.
Interior Design
Revista mensal voltada para decoração de interiores. As fotos do interior de
residências de pessoas famosas e de ambientes especialmente preparados em maquetes de
tamanho natural são os elementos que mais agradam os leitores.
Descrição do Problema
Com o intuito de aumentar o market share da µBooks a diretoria da empresa decidiu
lançar uma grande campanha de marketing para atrair novos assinantes para suas
revistas. A primeira parte desta campanha consiste em levantar o perfil das pessoas que
subscrevem as revistas publicadas pela empresa. Numa segunda etapa, de posse do perfil
dos assinantes de suas revistas a µBooks espera encontrar possibilidades de ampliar suas
vendas dentro do próprio conjunto de assinantes e pretende também, lançar diversas
campanhas promocionais capturando informações pessoais e psicográficas de prospects
(clientes em potencial). Como resultado destas campanhas será criado um banco de dados
cuja análise deverá identificar aqueles prospects mais propensos a assinarem cada uma das
revistas publicadas pela µBooks.
Existem ainda duas fontes adicionais de informações que a µBooks deverá estar
utilizando para prospectar clientes. A primeira tem origem nos bancos de dados de
campanhas promocionais de empresas que não competem no mesmo segmento. A outra
consiste no aluguel de banco de dados de empresas especializadas na captação de
informações psicográficas junto ao grande público, tais como Data Demografics, America
Data, Data General entre outras.
Construção do Modelo
Você e seu grupo de trabalho são os especialistas que a µBooks contratou para
identificar o perfil dos assinantes das revistas publicadas pela empresa e para indicar que
revistas são mais prováveis de serem subscritas por um determinado prospect. Você e seu
grupo de especialistas estão trabalhando a todo vapor. O grupo projetou o formulário com
as informações em anexo que foi enviado aos assinantes das revistas publicadas pela
µBooks.
A empresa especializada em fulfilment que a µBooks contratou, seguindo a indicação
que vocês fizeram, acaba de informar que centenas destes formulários já foram devolvidos
pelos assinantes. Todos os formulários recebidos até o momento foram digitados e
conferidos. Estas informações estão disponíveis no arquivo Profile. Eles informaram
também que o primeiro lote de informações de prospects oriundos das campanhas
promocionais se encontra disponível no arquivo Prospec. Cabe a você e a seu grupo de
trabalho, identificarem que revistas, se alguma, estes prospects estariam propensos a
assinarem.
Construção do Modelo
A idéia foi aprovada e o gerente de informática encarregou sua equipe de apresentar
um sistema para processar os dados, emitir o pré-diagnóstico e, se possível, desenvolver
um esquema capaz de reduzir o custo das malas diretas a serem enviadas, focando-as
apenas ao conjunto das pessoas que apresentem um pré-diagnóstico positivo. O desafio
maior da equipe não está na emissão das malas diretas, mas sim na confiabilidade do pré-
Descrição Valor
Construção do Modelo
Considere a possibilidade de construir um modelo capaz de prever o valor futuro da
ação de uma das empresas disponíveis na base de dados: Vale do Rio Doce, Telebrás,
Petrobrás ou Eletrobrás. O sistema pode ser concebido inicialmente para prever com o
horizonte de um dia e depois estendido para um horizonte de cinco dias.
1 ( yd − ye ) 2
Desempenho = ∗
n −1 δt
Para a avaliação prática, financeira, considere a seguinte regra de negócio:
a) não há falta de recursos para comprar ações;
b) há sempre compradores interessados nas ações postas a venda;
c) toda operação de compra e venda será sempre de um lote de 1000 ações;
d) a cada operação de compra ou venda haverá uma taxa de corretagem no valor de
1% do valor do negócio;
e) a tentativa de lucro deve ser buscada tanto nas operações de compra (quando a
estimativa do valor futuro superar o valor presente) como nas operações de venda
(quando a estimativa do valor futuro for para um valor menor que o presente);
f) as operações de compra e venda devem ser realizadas sempre que o lucro
estimado superar a taxa de corretagem em pelo menos 5%;
g) o valor da operação deve ser calculado com base nos valores reais da série, e o
desempenho do modelo deve ser levantado sobre todo o conjunto de teste e
comparado com a hipótese de ganho máximo, isto é, aquela em que se consegue
realizar sempre a melhor operação de venda ou de compra.
Referências Bibliográficas
[BAR01] Barbieri, Carlos – BI – Business Intelligence, Modelagem & Tecnologia,
Axcel Books, 2001.
[BAR96] Barquini, Ramon - Planning and designing the Warehouse, New Jersey,
Prentice-Hall, 1996, 311 pg.
[BAT86] Batini, C. E Lenzerini, M. - Comparative Analysis Of Methodologies For Database
Schema Integration, ACM Computing Surveys, New York, v.18, nº 4, pg.323-364,
Dezembro 1986.
[Bigus96] Joseph P. Bigus, Data Mining with Neural Networks – Solving Business
Problems – from Application Development to Decision Support, McGraw-Hill,
1996.
[Cha97] Chaudhuri, S. e Dayal, U. – An Overview of Data Warehousing and Olap
Tecnology, SIGMOD Record, New York, v.26, nº 1, pg.65-74, Março 1997.
[Cod95] Codd, E. F. Twelve Rules for On Line Analytical Processing, Computerworld,
Abril 1995.
[Fayyad99] Usama M. Fayyad, Gregory Piatetsky-Shapiro and Padhraic Smyth, From Data
Mining to Knowledge Discovery – An Overview.
[Flo97] Flohr, U. – OLAP by Web. Byte, Peterborough, v.22, nº 9, pg.81-84, Setembro
1997.
[Har96] Harjinder, G. E Rao, P. C. – The Officil Guide to Data Warehousing, Que
Corporation, 1996.
[INM96] Inmon, W. H. – Building the Data Warehouse, John Wiley & Sons Inc., New
York, 1996.
[INM97a] Inmon, W. H. & Richard D. Hackathorn – Como usar o Data Warehouse,
Infobook, Rio de Janeiro, 1997.
[KIM96] Kimball, Ralph – The Data Warehouse Toolkit, John Wiley & Sons Inc., New
York, 1996.
[ONE97] Oneil, B. – Oracle Data Warehousing. Indianapolis, Sams Publishing, 1997.
[Toshinori99] Toshiro Munakata, Discovery, Communication of the ACM, November
1999/ Vol. 42, Nr. 11, pág. 27-29.
[Zurada98] Jacek M. Zurada, Introduction to Neural Systems,