Professional Documents
Culture Documents
Por
Dissertao de Mestrado
iii
AGRADECIMENTOS
Ao meu noivo Leonardo, cujo incentivo e apoio foram fundamentais para seguir
at o fim.
sugestes.
trabalho.
iv
Duvidar das concluses de outros cientistas e
Raul S. Wazlawick
v
RESUMO
Esta dissertao apresenta um novo mtodo de otimizao de redes neurais artificiais para
Differential Evolution with Global and Local Neighborhood) com trs tcnicas multimodais:
rede neural artificial est intimamente relacionado sua arquitetura e aos seus pesos iniciais,
para atingir bom desempenho, as redes neurais artificiais foram construdas de maneira
para que um maior nmero de solues timas fosse encontrado, tcnicas multimodais foram
This master thesis presents a new artificial neural network (ANN) optimization method for
Differential Evolution with Global and Local Neighborhood (DEGL) evolutionary algorithm
and three multimodal techniques: fitness sharing, speciation and simple subpopulation
scheme.
characteristics: good performance and diversity. The artificial neural network generalization
power is closely related to their architecture and their initial weights, so, to achieve good
performance, ANNs have been built in an automatic way through the evolutionary algorithm.
To maintain diversity between ANNs and in order that a greater number of optimal solutions
were found, multimodal techniques were incorporated into the evolutionary algorithm.
competitive when compared to other methods of literature and statistically significant when
vii
SUMRIO
ix
A.3 Base de Dados Diabetes .......................................................................................... 123
A.4 Base de Dados Glass............................................................................................... 126
A.5 Base de Dados Heart .............................................................................................. 129
A.6 Base de Dados Horse .............................................................................................. 132
x
LISTA DE TABELAS
xi
Tabela 7.20 Teste de Hiptese Diabetes: Melhores Ensembles Mdia X Melhores Sistemas e
Melhores Ensembles Mdia Ponderada X Melhores Sistemas............................................... 75
Tabela 7.21 Teste de Hiptese Diabetes: Melhores Ensembles Voto Majoritrio X Melhores
Sistemas e Melhores Ensembles Vencedor X Melhores Sistemas ......................................... 76
Tabela 7.22 Teste de Hiptese Diabetes: Melhores Ensembles DEGL X Melhores Ensembles
DE ....................................................................................................................................... 77
Tabela 7.23 Resultados Glass: Melhores Sistemas .............................................................. 78
Tabela 7.24 Resultados Glass: Combinao por Mdia e Mdia Ponderada......................... 79
Tabela 7.25 Resultados Glass: Combinao por Voto Majoritrio e Vencedor .................... 80
Tabela 7.26 Teste de Hiptese Glass: Melhores Ensembles Mdia X Melhores Sistemas e
Melhores Ensembles Mdia Ponderada X Melhores Sistemas............................................... 81
Tabela 7.27 Teste de Hiptese Glass: Melhores Ensembles Voto Majoritrio X Melhores
Sistemas e Melhores Ensembles Vencedor X Melhores Sistemas ......................................... 82
Tabela 7.28 Teste de Hiptese Glass: Melhores Ensembles DEGL X Melhores Ensembles DE
............................................................................................................................................ 83
Tabela 7.29 Teste de Hiptese Glass: Melhores Ensembles DEGL X Melhores Ensembles DE
............................................................................................................................................ 84
Tabela 7.30 Resultados Heart: Melhores Sistemas .............................................................. 85
Tabela 7.31 Resultados Heart: Combinao por Mdia e Mdia Ponderada ........................ 87
Tabela 7.32 Resultados Heart: Combinao por Voto Majoritrio e Vencedor .................... 88
Tabela 7.33 Teste de Hiptese Heart: Melhores Ensembles Mdia X Melhores Sistemas e
Melhores Ensembles Mdia Ponderada X Melhores Sistemas............................................... 89
Tabela 7.34 Teste de Hiptese Heart: Melhores Ensembles Voto Majoritrio X Melhores
Sistemas e Melhores Ensembles Vencedor X Melhores Sistemas ......................................... 90
Tabela 7.35 Teste de Hiptese Heart: Melhores Ensembles DEGL X Melhores Ensembles
DE ....................................................................................................................................... 91
Tabela 7.36 Resultados Horse: Melhores Sistemas .............................................................. 91
Tabela 7.37 Resultados Horse: Combinao por Mdia e Mdia Ponderada ........................ 93
Tabela 7.38 Resultados Horse: Combinao por Voto Majoritrio e Vencedor .................... 94
Tabela 7.39 Teste de Hiptese Horse: Melhores Ensembles Mdia X Melhores Sistemas e
Melhores Ensembles Mdia Ponderada X Melhores Sistemas............................................... 95
Tabela 7.40 Teste de Hiptese Horse: Melhores Ensembles Voto Majoritrio X Melhores
Sistemas e Melhores Ensembles Vencedor X Melhores Sistemas ......................................... 96
Tabela 7.41 Teste de Hiptese Horse: Melhores Ensembles DEGL X Melhores Ensembles
DE ....................................................................................................................................... 98
Tabela 7.42 Arquiteturas e Algoritmos Selecionados........................................................... 99
xii
Tabela 7.43 Diabetes: Comparao entre E-MDEGL e DEMI ........................................... 103
Tabela 7.44 Cancer: Comparao entre Mtodos .............................................................. 104
Tabela 7.45 Card: Comparao entre Mtodos .................................................................. 104
Tabela 7.46 Diabetes: Comparao entre Mtodos ............................................................ 105
Tabela 7.47 Comparao entre E-MDEGL e EAPSONN................................................... 107
xiii
LISTA DE FIGURAS
xiv
1
CAPTULO 1 INTRODUO
1.1 Motivao
A linha de pesquisa Redes Neurais Artificiais Evolucionrias, um dos temas de pesquisa mais
recentes na rea de Redes Neurais Artificiais (RNAs), visa a combinao de RNAs com
2008).
algoritmos baseados em evoluo para a definio dos parmetros de uma RNA, como pesos
e arquitetura, vem sendo utilizada desde o incio da dcada de 1990. Seu principal objetivo
rede neural artificial prxima do ideal uma rede com parmetros especficos e escolhidos
adequada definio dos parmetros de uma RNA um processo crtico, alm de ser uma tarefa
determinado problema?
Outro problema que os projetistas teriam que enfrentar est relacionado com o
tamanho da RNA. Se o tamanho da rede menor do que o necessrio, ela ser incapaz de
Por outro lado, se o tamanho da rede maior do que o necessrio, ela aprender informaes
so muito grandes e complexos para que uma nica RNA resolva-o sozinha. Para estes
nmero de opinies antes de tomar uma deciso. Esta ideia est diretamente relacionada ao
ou pedir pareceres mdicos diferentes antes de passar por uma cirurgia importante so apenas
alguns dos inmeros exemplos cotidianos onde podemos considerar as decises de vrios
3
especialistas.
pode ser encarada como a sada dada por um classificador. Aps consultar diferentes
classificadores, a deciso final tomada atravs da combinao das sadas de cada um dos
classificadores. Este sistema formado por uma coleo de classificadores treinados para
resolver o mesmo problema, cuja sada dada pela combinao das sadas dos classificadores
No projeto de redes neurais artificiais, em vez de usar uma nica RNA para
forma eficiente.
conseguir executar tarefas mais complexas, ser um sistema mais robusto e geralmente
apresentar desempenho superior ao desempenho das redes que o compe. Apesar de todas
desempenho e diversidade.
1.2 Objetivo
Este trabalho tem como objetivo propor um mtodo de busca automtica por redes neurais
artificiais para a composio de ensembles. Para que este objetivo seja alcanado,
importante que as RNAs apresentem bom desempenho e que haja diversidade entre elas.
artificial est intimamente relacionado sua arquitetura e aos seus pesos iniciais. Portanto
4
para obter RNAs com alto desempenho, foi desenvolvido um sistema que combina redes
parmetros da RNA.
Para esta tarefa foi escolhido o algoritmo evolucionrio evoluo diferencial com
vizinhana global e local (DEGL Differential Evolution with Global and Local
fato de ela favorecer a explotao, j que nela, todos os indivduos so atrados pelo mesmo
explorao e explotao, atravs de dois modelos de vizinhana: vizinhana local onde cada
vetor mutado usando o melhor vetor encontrado em sua vizinhana, e mutao global que
leva em considerao o melhor vetor encontrado na populao inteira para mutar um membro
da populao.
Este algoritmo foi escolhido por ser uma variao recente da evoluo diferencial
e por apresentar bons resultados quando comparado com outros mtodos tambm derivados
Para obter diversidade entre as redes neurais artificiais que formaro o ensemble,
sharing.
5
1.3 Contribuies
perceptron evitando que o projetista da RNA tenha que definir tais parmetros;
uma rede neural artificial e comparar seu desempenho com o desempenho de outros mtodos;
artificial neural networks using differential evolution. In: International Joint Conference on
Neural Networks, 2010. Barcelona Espanha. Anais Los Alamitos - EUA: IEEE Press,
Neste captulo ser apresentada uma introduo sobre o tema e sero apresentados
6
trs tcnicas capazes de resolv-los. Tais tcnicas so as usadas nos algoritmos evolucionrios
deste trabalho.
- Captulo 4: Ensembles
Este captulo apresenta uma introduo sobre o tema e descreve algumas regras de
evolucionrios e apresenta alguns trabalhos que usaram esta abordagem com sucesso.
Composio de Ensembles
multimodais. Ainda descreve como um indivduo representa uma RNA e como ele
Este captulo traz um resumo do que foi feito ao longo deste trabalho e aborda
2.1 Introduo
evoluo das espcies, ou seja, eles se baseiam na teoria da evoluo de Darwin (1859) cujo
competir pelos recursos do ecossistema ao qual pertencem, pois estes recursos so limitados.
A seleo natural favorece os indivduos que tem melhor desempenho nesta competio,
fazendo com que os indivduos mais aptos sobrevivam, gerem suas proles e tenham seus
genes propagados ao longo das prximas geraes. Este processo pode favorecer a produo
de indivduos cada vez mais adaptados ao seu ecossistema (EIBEN, 2003; LINDEN, 2008).
solues, ou seja, quo bem uma soluo resolve o problema. Os AEs propem um mtodo de
otimizao atravs de tentativa e erro, onde uma populao de solues (indivduos) gerada
e a presso de seleo causa a seleo natural, fazendo com que a aptido da populao
aumente. Algumas das melhores solues so usadas para gerar novas solues atravs dos
de modo a gerar uma nova soluo (indivduo). A Figura 2.1 ilustra o processo de mutao.
Neste exemplo os indivduos so binrios e a mutao ocorre trocando o bit 1 pelo 0 e vice-
pai 1 1 1 1 1 1 1 1
prole 0 1 1 0 1 0 1 1
prole. O processo em que a recombinao ocorre selecionando-se dois indivduos para serem
pais conhecido como cruzamento (EIBEN, 2003; HOLLAND, 1992). A Figura 2.2 exibe
diviso dos pais selecionado. Ento a prole criada atravs da troca dos pedaos resultantes
da diviso.
Nesta figura cada pai possui uma cor: o primeiro pai branco e o segundo pai
cinza. Atravs da representao em cores possvel ver que cada filho recebeu uma parte de
um pai e outra do outro pai. O primeiro filho recebeu os 3 primeiros bits do primeiro pai e os
1 1 1 1 1 1 1 1
pais
0 0 0 0 0 0 0 0
1 1 1 0 0 0 0 0
proles
0 0 0 1 1 1 1 1
solues candidatas de modo a formar a populao inicial. A populao inicial formada por
indivduos gerados aleatoriamente, embora nesta fase seja possvel inserir algum tipo de
O prximo passo avaliar cada um dos indivduos da populao inicial para que o processo
de otimizao seja guiado pelas melhores solues. Ento o algoritmo entra num ciclo de
aplicando os operadores genticos, e ento selecionado os indivduos que esto aptos para
passar para a prxima gerao. O ciclo de otimizao acaba quando o critrio de parada
A Evoluo Diferencial (DE Differential Evolution) foi proposta por Storn e Price em 1995
no relatrio tcnico (STORN, 1995) com o objetivo de ser uma funo de otimizao verstil,
que gera novos indivduos a partir de perturbaes em indivduos atuais da populao. Esta
gerao G.
intervalo = , ,, , e = , ,, , , se distribuindo
inicializado como
12
,, = , + , (0,1) ( , , ) (2.1)
onde randi,j(0,1) um nmero aleatrio que segue uma distribuio uniforme com valores
entre 0 e 1.
, = , + ( , , ) (2.2)
outras o melhor vetor encontrado naquela gerao (equao 2.6). Em algumas estratgias h
apenas uma subtrao entre vetores selecionados aleatoriamente (equao 2.3 e 2.6), em
DE/rand/1: , = , + ( , , ) (2.3)
DE/rand/2: , = , + ( , , )+ ( , , ) (2.4)
DE/target-to-best/1: , = , + ( , , ) + ( , , ) (2.5)
DE/best/1: , = , + ( , , ) (2.6)
13
vetores aleatrios e z o tipo de cruzamento: exp para exponencial e bin para binomial.
do parmetros do algoritmo, controla a troca de atributos. Ela atua como um limiar que
determina quando o vetor trial herda um atributo do vetor mutante ou do vetor atual da
inteiro n entre [1, D]. O atributo do vetor mutante com o ndice n copiado para o vetor trial
uniforme rand j(0,1). Para cada atributo gerado um novo nmero. Enquanto rand j(0,1) Cr,
os atributos so copiados do vetor mutante, mas assim que randj(0,1) > Cr o atributo corrente
se inicia no ndice j igual a 4 (n = 4). A partir deste ponto, se inicia a comparao da taxa de
cruzamento com um valor aleatrio entre 0 e 1. Em todos os casos que randj foi menor ou
igual taxa de cruzamento, os atributos do vetor trial foram herdados do vetor mutante, isto ,
o valor e a posio foram transferidas do vetor mutante para o vetor trial. Mas assim que rand j
14
foi maior que a taxa de cruzamento, todos os atributos que estavam vazios no vetor trial
n
j= 1 2 3 4 5 6 7 8
, 20 1 11 5 12 24 13 6
randj Cr randj Cr randj Cr randj Cr
incio
, 8 19 22 5 12 24 13 3
randj > Cr
, 8 19 22 15 7 23 12 3
aleatrio que segue a distribuio uniforme gerado para cada atributo (randj(0,1)). Se o valor
gerado for menor ou igual que Cr, o atributo j copiado do vetor mutante. Se o valor gerado
, , , se (0,1) ou = (2.7)
,, =
, , , se no
onde jrand um valor qualquer gerado a partir de uma distribuio uniforme inteira (randint)
jrand
j= 1 2 3 4 5 6 7 8
, 20 1 11 5 12 24 13 6
randj Cr randj Cr randj Cr randj Cr
, 20 19 11 5 12 23 13 3
randj > Cr randj > Cr randj > Cr
, 8 19 22 15 7 23 12 3
definidos como
, , se , (, ) (2.8)
, =
, , se no.
Uma vez que a nova populao foi criada, os processos de mutao, cruzamento e
cada uma das fases do algoritmo, enquanto as caixas indicam o que gerado aps cada fase.
Mutao Vetores
Mutantes
Inicializao
Cruzamento
Populao (Mutantes X Populao)
Trmino
Vetores
Seleo Trial
(Trial X Populao)
A Evoluo Diferencial com Vizinhana Global e Local (DEGL Differential Evolution with
Global and Local Neighborhood) foi desenvolvida por Das et al. (2009) no qual uma famlia
busca, enquanto explotao significa a capacidade de convergir para as solues quase timas
gerar seus vetores mutantes. Tal abordagem favorece a explotao, j que todos os vetores so
atrados pelo mesmo melhor vetor encontrado na populao, convergindo rapidamente para o
mesmo ponto. Para combinar as capacidades de explorao e explotao da DE, a DEGL usa
vizinhana local onde cada vetor mutado atravs do melhor vetor encontrado em sua
conectado, ou seja, a vizinhana criada de acordo com a ordem dos ndices dos membros da
Cada vetor possui uma vizinhana de raio k, onde k um inteiro tal que 0 < k
vetor , , como ilustra a Figura 2.6. Nesta figura, possvel visualizar a vizinhana de raio
, ,
,
,
,
,
fase de mutao global. So estas novas fases que caracterizam os modelos de vizinhana
local e global do algoritmo. Pela Figura 2.7, possvel visualizar a estrutura da DEGL.
Mutao Mutao
Local Vetores Global Vetores
Mutantes Mutantes
Locais Globais
Inicializao
Combinao dos Mutantes
Populao (Local X Global)
Trmino
Vetores Vetores
Trial Mutantes
Seleo Cruzamento
(Trial X Populao) (Mutantes X Populao)
populao usando o melhor vetor da vizinhana deste membro e mais dois outros vetores
, = , + ( _ , , )+ ( , , ) (2.9)
, = , + ( _ , , )+ ( , , ) (2.10)
escala.
, = , + (1 ) , . (2.11)
global para gerar seus vetores mutantes. Portanto quando o fator de peso da DEGL for 1,
(PRICE, 2005). No entanto, o parmetro mais crucial na DEGL talvez o fator de peso .
artigo que prope a DEGL (DAS, 2009) so considerados 3 esquemas de seleo e adaptao
de .
mtodos:
a) Linear: = . (2.12)
Peso Randmico: o peso de cada vetor varia de acordo com uma distribuio
vetor como uma varivel adicional, aumentando a dimenso do problema. Uma gerao agora
, = , + _ , , + ( , , ) (2.14)
associados a , e , que foram usados para formar o mutante global. O novo valor de
, = , , + (1 , ) , . (2.16)
adaptao, j que agora o fator de peso est incorporado no indivduo. O cruzamento entre
global e local.
3.1 Introduo
Uma funo multimodal aquela que possui diversas solues timas em seu espao de
busca, das quais muitas solues so timas locais e apenas uma tima global. Em
problemas de busca e otimizao, tais funes so muito difceis de serem resolvidas, pois a
fornece uma viso panormica da funo o que pode ser bastante til quando for necessrio
escolher uma soluo tima alternativa. Isto porque a soluo tima atual pode no
podem inserir novas restries que impossibilitam a implementao da soluo tima atual.
Alm disso, esta viso panormica da funo tambm pode trazer informaes teis sobre as
identificar mltiplas solues timas, principalmente porque nas geraes iniciais, solues
24
prximas a mltiplas solues timas ganham destaque. Mas o nmero finito da populao
faz com que a populao acabe convergindo para um nico timo. Sendo assim, apesar de ser
possvel encontrar mltiplas solues nas geraes iniciais, no possvel mant-las ao longo
diversidade no processo evolutivo. Dois dos principais mtodos para tal tarefa so a
especiao e o niching.
os indivduos pelas regies de alta aptido que so conhecidas como nichos. Exemplos
especiao ser descrita com mais detalhes na sesso 3.3 (BCK, 1997).
escalonamento de aptido que resulta em indivduos sendo alocados nas regies timas do
espao de busca. Tal mecanismo controla o nmero de indivduos que podem ser alocados em
(BCK, 1997).
Figura 3.1 Distribuio dos indivduos dentre os nichos usando fitness sharing
( )
( ) =
(3.1)
( ( , ))
distncia entre dois indivduos da populao. Tal informao usada para calcular o grau de
modo que apenas os indivduos que esto dentro do raio de distncia afetaro a aptido
compartilhada uns dos outros. A funo de compartilhamento retorna 0 para indivduos fora
1( / ) se (3.2)
( ) =
0 se no
3.3 Especiao
aplicados apenas entre indivduos genotpica ou fenotipicamente similares. Tal tcnica impe
Nos problemas de otimizao multimodal, cada soluo tima pode ser vista
como mantenedora de uma espcie, portando a ideia por trs da especiao que cada
conjunto de espcies trabalhe para encontrar a soluo tima do nicho ao qual pertence
(BCK, 1997).
especiao, e estes podem ser divididos em duas abordagens. Uma delas usar informaes
do prprio indivduo para restringir seu relacionamento, como Phenotypic and genotypic
mating restriction proposto por Deb (1989), onde para escolher o companheiro de um
indivduo considerada a distncia entre eles. Caso essa distncia seja menor que um limiar
eles podem se relacionar, se no outro companheiro deve ser encontrado. A outra forma de
implementar esta tcnica incluindo rtulos nos indivduos a fim de identificar a qual espcie
eles pertencem. Esses rtulos so includos no gentipo dos indivduos e sofrem alteraes
atravs dos operadores genticos. Eles podem ser inicializados aleatoriamente ou atravs de
27
2003).
O simple subpopulation scheme, proposto por Spears (1994), uma tcnica que implementa a
especiao atravs do uso de rtulos compostos por bits, chamados tag bits. As tag bits so
anexadas aos indivduos e cada conjunto de bits representa uma espcie da populao. Cada
indivduo pertence a apenas uma espcie e indivduos de mesma espcie possuem o mesmo
bits podem ser usadas para representar 2n subpopulaes. Desta forma, uma tag bit capaz de
Duas tag bits representaro 4 subpopulaes e assim por diante (SPEARS, 1994).
o fitness sharing, a fim de evitar a superpopulao das regies timas. Com isso, a aptido de
subpopulao
() (3.3)
( ) =
isto , o nmero de indivduos que pertencem a esta subpopulao (BCK, 1997; SPEARS,
28
1994).
29
CAPTULO 4 ENSEMBLES
4.1 Introduo
desempenho possvel, isto , alcanar a menor taxa de erro possvel. Isto fez com que diversos
ser resolvido. Desta forma, uma avaliao dos resultados de uma srie de experimentos com
classificadores diferentes parece ser a soluo para a escolha do classificador que fornecer a
sistema, h uma infinidade de parametrizaes que podem ser feitas para a gerao de
para cada rede neural artificial. Sendo assim, possvel fazer alguns testes para tentar
melhor rede encontrada. No entanto, embora uma RNA possa apresentar melhor desempenho
do que as outras redes, o conjunto de padres classificados errados pelas diferentes redes
conjunto de redes, ou pelo menos um subconjunto delas, e execut-las todas com uma
30
estratgia de deciso coletiva. Tal conjunto de redes neurais artificiais trabalhando de maneira
classificadores treinados para resolver o mesmo problema, cuja sada dada pela combinao
das sadas dos classificadores que o compe (BROWN, 2004; ZHAO, 2005).
sada do ensemble
entrada
gerada e treinada. Ento, para formar o ensemble necessrio selecionar algumas destas
candidatas, isto , escolher dentre as redes neurais artificiais disponveis, aquelas que
possivelmente melhor iro contribuir no desempenho final do ensemble. Nesta fase, o ideal
que haja diversidade entre as redes selecionadas, isto porque, desejvel que os
classificadores tenham opinies diferentes, evitando que eles todos faam os mesmos
31
julgamentos ao mesmo tempo. A fase de seleo necessria, pois incluir todos as RNAs
evolucionrios. Para manter a diversidade entre as redes, necessria na seleo, foram usadas
A combinao de componentes pode ser realizada de diversas maneiras, como exposto por
de seus componentes antes da converso para os rtulos das classes. Para cada neurnio de
(4.1)
= ( )
A classe com maior valor mdio a classe escolhida para a resposta final do
peso i que calculado atravs da taxa de classificao do classificador atual dividida pela
1 (4.2)
=
(1 )
onde a taxa de erro da i-sima rede neural artificial e K o nmero de RNAs que compe
o ensemble.
Aps ponderar as sadas de cada rede por seus pesos, a sada do ensemble pode ser
calculada usando o mtodo mdia descrito acima (COELHO, 2006; KIM, 2008).
ensemble a classe que obtiver o maior nmero votos, isto , a classe escolhida pela maioria
sada da RNA que apresentar o maior valor dentre todos seus componentes (COELHO, 2006;
KIM, 2008).
Tabela 4.1 apresenta o caso de um problema de duas classes, classe A e B, e ensembles com
trs componentes combinados atravs dos mtodos apresentados. A sada real de cada rede e
de cada ensemble apresentada nas colunas classe A e classe B. A coluna rtulo indica a
5.1 Introduo
neurnios em cada uma das camadas ocultas, o tipo de funo de ativao, os pesos iniciais,
aprendizagem. Isto faz com que a adequada definio dos parmetros de uma rede neural
artificial seja um processo crtico, alm de ser uma tarefa complicada, devido ao grande
nmero de possveis redes neurais artificiais no espao de busca. Outro problema que a
escolha destes parmetros deve ser feita especialmente para modelar o problema a ser
resolvido, fazendo com que o uso de redes previamente utilizadas no garanta um bom
muito dependente do conhecimento e habilidades que o projetista tem acerca das diferentes
o projeto manual torna-se cada vez mais difcil, chegando ao ponto de ser humanamente
intratvel. Alm disso, o mtodo de tentativa e erro demanda muito tempo e no apresenta
algoritmos conhecida como algoritmos evolucionrios para executar a tarefa de busca por
redes de alto desempenho. Sua principal caracterstica a possibilidade de uma rede neural
artificial evoluir em direo RNA tima do problema em questo sem interveno externa,
eliminando assim a tarefa de busca por redes neurais artificiais timas ou quase timas de
tratar este tipo de problema est relacionada s propriedades destes algoritmos: eles
apresentam bom desempenho em encontrar a regio tima e so capazes de lidar com espaos
neural artificial. Dentre eles esto: evoluo dos pesos, evoluo da arquitetura, evoluo dos
comum usar o algoritmo evolucionrio para encontrar os pesos iniciais, ou seja, para
encontrar uma regio boa no espao de busca, e ento usar um algoritmo de aprendizagem de
RNAs para refinar os pesos. Dentro desta abordagem hbrida existem dois mtodos: o mtodo
indivduo, embora a aptido seja calculada usando a rede treinada. Outra possibilidade usar
pesos da rede. Tal abordagem muito til quando a funo de ativao dos neurnios no
usados, e tambm porque o mesmo algoritmo evolucionrio pode ser usado para treinar
evolucionrio tambm pode ser usado para refinar os pesos encontrados por um algoritmo de
YAO, 1999).
precisaria ter para codificar todas estas informaes quando uma rede neural artificial grande
dos anos 1990. Sua principal caracterstica juntar em um nico modelo computacional o
37
(YAO, 2008).
Aps a evoluo diferencial ser proposta em 1995, e com sua popularizao nos
combinando redes neurais artificiais e evoluo diferencial. Tais trabalhos utilizam a evoluo
diferencial para treinar RNAs (ILONEN, 2003), para definir sua arquitetura (BHUIYAN,
2009), para selecionar seus parmetros de treinamento (TRICHAKIS, 2009) e para selecionar
seus atributos de entrada (JURSA, 2008), e foram usados com sucesso para resolver diversos
2009), problemas de engenharia (LAHIRI, 2009), previso de fora de vento (JURSA, 2008),
cada subpopulao evolui de forma independente em direo a uma soluo. Para promover o
uma subpopulao vizinha. Este trabalho parte da dissertao de mestrado Zarth (2010).
Kim e Cho (2008) apresentam em seu trabalho, um mtodo para gerar redes
neurais artificiais otimizadas de maneira evolucionria e com diversidade entre elas para a
uso do fitness sharing, foi necessrio utilizar mtodos para calcular a distncia e medir a
diferena entre as RNAs. Foram usados trs mtodos: sada mdia, correlao de Pearson e
38
eles usaram 9 mtodos diferentes, mas o destaque ficou com a tcnica behavior-knowledge
space (BKS). Mais detalhes sobre esta tcnica podem ser encontrados em Huang e Suen
(1995).
mdia, voto majoritrio e vencedor. Neste artigo, ele apresenta uma comparao entre duas
para formar um segundo objetivo. Portanto, nesta formulao um objetivo minimizar o erro
sobre todo o conjunto de treinamento e o outro objetivo minimizar o erro sobre todo o
O sistema proposto integra uma rede neural artificial (RNA) perceptron multicamadas e o
algoritmo evolucionrio evoluo diferencial com vizinhana global e local (DEGL). Ainda
evolucionrio DEGL. As tcnicas usadas foram fitness sharing (FS), especiao (ESP) e
A seguir ser descrito em detalhes a combinao da DEGL com cada uma das
combinaes descritas nesta sesso, foram feitas com o algoritmo evolucionrio evoluo
diferencial (DE).
Nesta combinao, a DEGL executada e a rede neural artificial incorporada em sua fase de
encontrar os valores dos parmetros da rede. Ento, estes valores so passados para a RNA de
modo a montar sua estrutura inicial, isto , arquitetura e pesos iniciais. Nesta etapa, a rede
40
neural artificial treinada por algumas pocas e para a aptido do indivduo considerado o
erro de classificao sobre o conjunto de treinamento. O mtodo de Baldwin foi usado nesta
integrao entre RNA e algoritmo evolucionrio, ou seja, os pesos alterados pelo algoritmo de
SISTEMA DEGL+RNA
ALGORITMO EVOLUCIONRIO
incio
inicializao da populao
avaliao dos indivduos
REDE NEURAL ARTIFICIAL
treinar
aptido = erro de classificao sobre treino
enquanto critrio de parada no for alcanado faa
mutao local
mutao global
mutao
recombinao
avaliao dos indivduos
REDE NEURAL ARTIFICIAL
treinar
aptido = erro de classificao sobre treino
seleo
fim enquanto
fim
Na combinao da DEGL com o fitness sharing, aps a fase de avaliao dos indivduos
1
=
2
(6.1)
artificial.
Considerando que a rede neural artificial a possua m neurnios de sada, seu vetor
(6.2)
= ( )
padro de entrada. A distncia entre duas RNAs a distncia euclidiana entre suas sadas
= ( ) . (6.3)
fase de seleo, isto , na fase de escolha dos indivduos que iro passar para a prxima
gerao. No DEGL-FS a seleo feita juntando os pais e os filhos em uma nica populao
foram adicionados aos indivduos aumentando sua dimenso em uma unidade. Logo, os
rtulos tambm passam pelos operadores genticos da DEGL. No entanto, devido ao uso de
Para evitar que subpopulaes muito pequenas fossem criadas, definiu-se que
cada subpopulao teria no mnimo 60% de indivduos sobre seu valor mdio de indivduos.
43
= / 0,6. (6.4)
especiao.
aptido. De acordo com o SSS, este compartilhamento feito dividindo-se a aptido de cada
indivduo pelo nmero de indivduos de sua subpopulao. Como no caso deste trabalho, o
( ) = () (6.5)
subpopulation scheme.
nmero de nmero de
algoritmo de parmetros dos algoritmos funes de
camadas neurnios pesos
aprendizagem de aprendizagem ativao
ocultas ocultos
do valor dos parmetros da RNA que no so contnuos foi utilizada uma abordagem igual
usada em Almeida e Ludermir (2010). Nesta abordagem, a seleo do valor destes parmetros
feita considerando o atributo com valor mais representativo da parte a qual ele pertence. A
seguir, ser descrita de forma detalhada como feita a seleo de cada um dos valores das
Para esta parte foram definidos quatro possveis algoritmos, sendo eles Backpropagation
Gradient (SCG).
rede feita selecionando o maior valor dentre os quatro atributos. Se o maior valor for o do
primeiro atributo ento ser usado o algoritmo BP, se o maior valor for o do segundo atributo
alterao no peso, alterao de peso inicial e alterao de peso mxima, para o algoritmo
Resilient Backpropagation;
algoritmo Levenberg-Marquardt;
Conjugate Gradient.
Esta parte possui um nmero total de treze atributos, sendo cada atributo
desta parte, desta forma, assim que definido o algoritmo de aprendizagem possvel recuperar
A parte camadas possui a dimenso igual ao nmero mximo de camadas. Neste trabalho, o
nmero mximo de camadas trs, portanto esta parte possui a dimenso igual a trs. Para a
47
representativo. Se este valor estiver no primeiro atributo ento a RNA ter apenas uma
camada, se estiver no segundo atributo a RNA ter duas camadas, e assim por diante.
camadas e o nmero mximo de neurnios por camada. Portanto a dimenso desta parte
. (6.6)
problema.
Para a seleo das funes de ativao usado um esquema parecido com o usado em
algoritmo de aprendizagem. Para cada camada h um conjunto de funes que podem ser
selecionadas, sendo elas: sigmide logstica, tangente hiperblica, linear e de base radial.
48
. (6.7)
A parte pesos possui dimenso fixa, que calculada de acordo com o nmero de bias, o
A Figura 6.3 exemplifica um indivduo que possui o nmero mximo de camadas igual a dois
e nmero mximo de neurnios por camada igual a quatro. Esta rede neural artificial ser
treinamento correspondem aos dois primeiros atributos da parte parmetros dos algoritmos
de aprendizagem. A RNA possui duas camadas ocultas, sendo a primeira camada com dois
neurnios e segunda camada com trs neurnios. A primeira camada possui funo de
hiperblica.
de um indivduo calculada considerando o tamanho de cada uma das partes acima citadas. A
Para a validao do mtodo proposto, foram usadas seis bases de dados para problemas de
classificao, sendo elas: Cancer, Card, Diabetes, Glass, Heart e Horse. Todas as bases so
ftp://ftp.cs.cuhk.hk/pub/proben1.
50% para treinamento e 50% para teste. Para evitar overfitting, a metade usada para o
treinamento foi dividida em dois conjuntos: o conjunto de avaliao do indivduos (70% dos
conforme descrito por Cant-Paz e Kamath (2005). Desta forma 35% dos exemplos so
usados para o treino da rede, 15% dos exemplos so usados para validao e 50% dos
A base Cancer contm dados para o diagnstico em cncer de mama, ou seja, ela
tenta classificar um tumor como sendo benigno ou maligno com base em descries de
clulas colhidas por exame microscpico, como por exemplo, a regularidade do tamanho e da
forma da clula. Esta base possui 699 exemplos com 9 atributos de entrada e 2 atributos de
corresponde resposta dada pela instituio financeira. Esta base possui 690 exemplos com
1994).
A base Diabetes, baseada em dados pessoais (idade, nmero de vezes que ficou
grvida) e resultados de exames mdicos (como por exemplo presso sangunea, ndice de
massa corprea, etc.) de ndias Pima, possui 768 exemplos com 8 atributos de entrada e 2 de
sadas. Seu objetivo determinar se uma ndia Pima tem ou no diabete. Esta base de dados
possui muitos atributos com valores 0, o que muito provavelmente indica valores faltosos
(PRECHELT, 1994).
anlises qumicas de estilhaos de vidros mais o ndice de refrao so usados para classificar
idade, sexo, hbito de fumar e descries de dores dos pacientes, e resultados de exames
mdicos como presso sangunea e eletro cardiograma. Esta base composta de 920
exemplos com 35 atributos de entrada e 2 atributos de sada. A maioria dos atributos possui
Para validar os resultados obtidos foi aplicado o teste de hiptese t pareado com 95% de
equao abaixo
cada clula representa o resultado do teste de hiptese entre o sistema da linha versus o
sistema da coluna. O resultado do teste de hiptese segue a seguinte legenda, lembrando que a
estatisticamente relevante);
- os smbolos < e > indicam que o teste de hiptese rejeitou a hiptese nula,
mdias estatisticamente relevante). Desta forma, o smbolo < indica melhor desempenho e
Teste de hiptese B C D
A < = >
Descrio Valor
Esquemas da DE DE/rand/1/bin e DE/target-to-best/1/bin
Seleo e adaptao de w na DEGL Incremental linear, incremental exponencial,
randmico, auto-adaptativo e pesos fixos: 0 e 0,5
Nmero de indivduos 100
Nmero de subpopulaes dos 4, 5 e 6
algoritmos multimodais
AE
Pesos iniciais [-1, 1]
Taxa de cruzamento (Cr) 0,9
Fatores de escala , e F 0,8
Tamanho da vizinhana k para DEGL 10% do tamanho da populao
Critrios de parada Nmero mximo de 50 geraes ou alcanar valor
mnimo de aptido 0
Nmero mximo de camadas 3
Nmero mximo de neurnios 10
RNA
Critrios de parada dentro do SH Nmero mximo de 5 pocas ou alcanar valor
mnimo de erro 0
55
vizinhana so os valores encontrados por Das et al. (2009), no artigo que prope a DEGL.
Cada algoritmo foi executado 30 vezes, sendo que para cada execuo uma nova
diviso do conjunto de treino, validao e teste foi realizada. As mesmas 30 divises de cada
uma das bases de dados selecionadas foram usadas por todos os algoritmos.
7.4 Resultados
Os experimentos foram executados para os seguintes grupos, sempre com a mesma populao
- redes neurais artificiais: neste grupo foram executados cinco tipos de rede
neurais, cada tipo variando apenas de algoritmo de aprendizagem. O primeiro tipo considera o
reservados para a parte algoritmo de aprendizagem, aquele que apresentar o maior valor
determina o algoritmo a ser utilizado. Portanto, neste tipo as RNAs podem ser treinas atravs
(SCG). Este tipo mencionado nas tabelas de resultados com o nome RNA.
56
atravs do indivduo, embora considerem todos os outros parmetros da rede que esto no
indivduo. Nestas abordagens cada um dos 50 indivduos foi executado com os quatro
as redes treinadas pelo levenberg-marquardt e RNA-SCG indica RNAs treinadas pelo scaled
conjugate gradient.
integram apenas uma rede neural artificial e um algoritmo evolucionrio. Nas tabelas de
resultados, este grupo ser referido como RNA+DE tipo de tcnica multimodal (nmero de
que rene apenas os sistemas com melhor desempenho, isto , com menor erro de
melhor sistema DE e o melhor sistema DEGL. Os resultados completos de cada grupo podem
calculados atravs dos valores obtidos em cada uma das 30 execues. Eles so representados
da seguinte forma: mdia (desvio-padro). Para cada sistema ser apresentado o erro de
classificao mdio (coluna Erro) sobre o conjunto de testes e o tempo mdio em minutos
ainda ser apresentado o nmero de avaliaes mdio (coluna Avaliaes) realizado em cada
avaliaes em uma execuo significa que o sistema interrompeu a evoluo porque alcanou
o critrio de parada valor mnimo de aptido 0. O melhor sistema para cada base de dados
aparece em negrito nas tabelas de resultados. Caso o melhor sistema no seja RNA+DEGL, o
itlico.
indivduo de cada subpopulao final. O fitness sharing (FS) usou os melhores indivduos da
Para a exibio dos resultados dos testes de hiptese, o nome dos sistemas foram
exibidos apenas os resultados que apresentaram alguma diferena estatstica (smbolos < ou
>).
58
Sistemas Pseudnimo
DE/ rand DE rand
DE/ target-to-best DE ttb
DEGL/ w linear DEGL lin
DEGL/ w exponencial DEGL exp
DEGL/ w randmico DEGL rand
DEGL/ w auto-adaptativo DEGL aa
DEGL/ w= 0 DEGL 0
DEGL/ w=0,5 DEGL 0,5
Para a base de dados Cancer, os melhores resultados de cada sistema so exibidos atravs da
Tabela 7.5. O sistema com menor erro de classificao foi o sistema multimodal RNA +
A Tabela 7.6 exibe os resultados das rede neurais combinadas pela regra mdia e
mdia ponderada. O sistema com menor erro de classificao para ambas as regras de
combinao foi RNA + especiao com 6 componentes DEGL/ w randmico com 3,62% de
erro.
Pela Tabela 7.7 possvel visualizar os resultados das rede neurais combinadas
pela regra voto majoritrio e vencedor. Para a regra voto majoritrio, o sistema com menor
erro de classificao foi RNA + simple subpopulation scheme com 6 componentes DEGL/
w=0 com 3,66% de erro. Para a regra vencedor, o sistema com menor erro de classificao foi
As Tabelas 7.8 e 7.9 exibem os resultados dos testes de hiptese comparando cada
superior aos sistemas. Para esta base se destacaram os ensembles com regra de combinao
mdia e mdia ponderada. Neles, apenas os ensembles formados atravs do fitness sharing
obtiveram desempenho igual a 3 sistemas: RNA + especiao com 6 componentes DE/ target-
to-best, RNA + simple subpopulation scheme com 4 componentes DEGL/ w linear e RNA +
+ simple subpopulation scheme com 6 componentes DEGL/ w=0. Os ensembles com pior
ensembles DEGL e os melhores ensembles DE. Para esta base apenas o sistema RNA +
especiao com 6 componentes DEGL/ w randmico nos ensembles mdia e mdia ponderada
vencedor formado por sistemas FS-DEGL apresentou erro mdio maior, ou seja, desempenho
inferior, que os ensembles mdia e mdia ponderada formados pelo sistema RNA +
Tabela 7.8 Teste de Hiptese Cancer: Melhores Ensembles Mdia X Melhores Sistemas e
Melhores Ensembles Mdia Ponderada X Melhores Sistemas
FS ESP SSS
Sistema
(4) (5) (6) (4) (5) (6)
RNA- DEGL DEGL
DEGL DE DE DEGL DEGL DEGL
Ensemble GCE rand lin
aa ttb ttb lin 0,5 0
(4) DEGL
< < < < < = = < <
lin
F (5) DEGL
< < < < < = = < <
S rand
(6) DEGL
< < < < < = = < =
lin
(4) DEGL
M < < < < < < < < <
aa
E
(5) DEGL
D S < < < < < < < < <
0
I P
(6) DEGL
A < < < < < < < < <
rand
(4) DEGL
< < < < < < < < <
0,5
S
(5) DEGL
S < < < < < < < < <
0
S
(6) DEGL
< < < < < < < < <
0,5
(4) DEGL
< < < < < = = < <
lin
M
F (5) DEGL
< < < < < = = < <
S rand
D
(6) DEGL
I < < < < < = = < =
lin
A
(4) DEGL
< < < < < < < < <
aa
P E
(5) DEGL
O S < < < < < < < < <
0
N P
(6) DEGL
D < < < < < < < < <
rand
E
(4) DEGL
R < < < < < < < < <
0,5
A S
(5) DEGL
D S < < < < < < < < <
0
A S
(6) DEGL
< < < < < < < < <
0,5
63
Tabela 7.9 Teste de Hiptese Cancer: Melhores Ensembles Voto Majoritrio X Melhores
Sistemas e Melhores Ensembles Vencedor X Melhores Sistemas
FS ESP SSS
Sistema
(4) (5) (6) (4) (5) (6)
RNA- DEGL DEGL
DEGL DE DE DEGL DEGL DEGL
Ensemble GCE rand lin
aa ttb ttb lin 0,5 0
(4) DEGL
= < = = < = = < =
rand
F (5) DEGL
< < < < < = < < <
S rand
(6) DEGL
< < < < < = < < <
rand
(4) DEGL
< < < < < = = < =
V rand
E
O (5) DEGL
S < < < < < < < < <
T aa
P
O (6) DEGL
< < < < < < < < <
aa
(4) DEGL
< < < < < = = < =
aa
S
(5) DEGL
S < < < < < < < < <
lin
S
(6) DEGL
< < < < < < < < <
0
(4) DEGL
= = = = = = = = =
lin
F (5) DEGL
= = = = = = = = =
S rand
(6) DEGL
= = = = = = = = =
V rand
E (4) DEGL
< < < < < = < < <
N aa
E
C (5) DEGL
S < < < < < = < < <
E 0,5
P
D (6) DEGL
< < < < < < < < <
O 0,5
R (4) DEGL
< < < < < = = < =
0,5
S
(5) DEGL
S < < < < < = < < <
0
S
(6) DEGL
< < < < < = < < <
0,5
64
Tabela 7.10 Teste de Hiptese Cancer: Melhores Ensembles DEGL X Melhores Ensembles
DE
Mdia
Ensemble DE Mdia Vencedor
Ponderada
ESP ESP FS ESP SSS
Para a base Card, os melhores resultados dos sistema so exibidos atravs da Tabela 7.11. O
sistema com menor erro de classificao foi o sistema multimodal RNA + simple
A Tabela 7.12 exibe os resultados das rede neurais combinadas pela regra mdia e
mdia ponderada. Para a regra mdia, os sistemas com menor erro de classificao foram
RNA + simple subpopulation scheme com 6 componentes DE/ rand e RNA+ fitness sharing
com 5 componentes DEGL/ w=0 com 14,04% de erro. Para a regra mdia ponderada, o
melhor sistema foi RNA + fitness sharing com 5 componentes DEGL/ w=0 com 14,03% de
erro.
A Tabela 7.13 exibe os resultados das rede neurais combinadas pela regra voto
majoritrio e vencedor. O sistema com menor erro de classificao para a regra voto
majoritrio foi RNA + fitness sharing com 6 componentes DEGL/ w=0 com 13,75% de erro.
Para a regra vencedor, o sistema com menor erro de classificao foi RNA + fitness sharing
ensembles com melhor desempenho com o melhor sistema de cada grupo. Atravs destas
tabelas possvel ver que os ensembles obtiveram desempenho superior aos sistemas. Para
esta base se destacaram os ensembles com regra de combinao mdia e mdia ponderada.
Nestas regras todos ensembles obtiveram desempenho superior aos sistemas. Os ensembles
formados pela regra voto tambm obtiveram bom desempenho, pois apenas o ensemble RNA
ensembles com pior desempenho foram aqueles formados atravs da especiao com a regra
vencedor, pois a maioria de seus resultados ficou estatisticamente equivalente aos resultados
dos sistemas. Com esta mesma regra o fitness sharing DEGL obteve melhor resultado do que
todos os sistemas.
66
Tabela 7.14 Teste de Hiptese Card: Melhores Ensembles Mdia X Melhores Sistemas e
Melhores Ensembles Mdia Ponderada X Melhores Sistemas
FS ESP SSS
Sistema
(4) (5) (6) (4) (5) (6)
RNA- DEGL DEGL
DEGL DEGL DE DEGL DEGL DEGL
Ensemble RPROP aa exp
0 0,5 rand exp 0 AA
(4) DEGL
< < < < < < < < <
0
F (5) DEGL
< < < < < < < < <
S 0
(6) DEGL
< < < < < < < < <
0
(4) DEGL
M < < < < < < < < <
aa
E
(5) DEGL
D S < < < < < < < < <
aa
I P
(6) DEGL
A < < < < < < < < <
0,5
(4) DEGL
< < < < < < < < <
lin
S
(5) DEGL
S < < < < < < < < <
0
S
(6) DEGL
< < < < < < < < <
rand
(4) DEGL
< < < < < < < < <
0
M
F (5) DEGL
< < < < < < < < <
S 0
D
(6) DEGL
I < < < < < < < < <
0
A
(4) DEGL
< < < < < < < < <
aa
P E
(5) DEGL
O S < < < < < < < < <
lin
N P
(6) DEGL
D < < < < < < < < <
0,5
E
(4) DEGL
R < < < < < < < < <
lin
A S
(5) DEGL
D S < < < < < < < < <
0
A S
(6) DEGL
< < < < < < < < <
rand
69
Tabela 7.15 Teste de Hiptese Card: Melhores Ensembles Voto Majoritrio X Melhores
Sistemas e Melhores Ensembles Vencedor X Melhores Sistemas
FS ESP SSS
Sistema
(4) (5) (6) (4) (5) (6)
RNA- DEGL DEGL
DEGL DEGL DE DEGL DEGL DEGL
Ensemble RPROP aa exp
0 0,5 rand exp 0 AA
(4) DEGL
< < < < < < < < <
0
F (5) DEGL
< < < < < < < < <
S 0
(6) DEGL
< < < < < < < < <
0
(4) DEGL
< = < < = = = < =
V lin
E
O (5) DEGL
S < < < < < < < < <
T lin
P
O (6) DEGL
< < < < < < < < <
0
(4) DEGL
< < < < < < < < <
lin
S
(5) DEGL
S < < < < < < < < <
0,5
S
(6) DEGL
< < < < < < < < <
exp
(4) DEGL
< < < < < < < < <
0
F (5) DEGL
< < < < < < < < <
S 0
(6) DEGL
< < < < < < < < <
V 0
E (4) DEGL
< = = < = = = = =
N aa
E
C (5) DEGL
S < = = < = = = = =
E rand
P
D (6) DEGL
< < < < = < < < =
O rand
R (4) DEGL
< = = < = = = = =
0,5
S
(5) DEGL
S < < < < = = < < =
exp
S
(6) DEGL
< < < < < < < < <
rand
70
Tabela 7.16 Teste de Hiptese Card: Melhores Ensembles DEGL X Melhores Ensembles DE
Ensemble (4) (4) (4) (5) (6) (4) (5) (6) (4) (5) (6)
(5) ttb
DEGL rand ttb rand rand rand ttb ttb rand rand rand rand
(4) w=0 < <
F
(5) w=0 < < < <
S
M (6) w=0 < < <
E (5) aa <
D S (6)
I <
P w=0,5
A S (5) w=0 <
S
(6) rand <
S
(4) w=0 < <
F
M (5) w=0 < < < <
S
(6) w=0 < < <
D E (5) lin <
I S (6)
A <
P w=0,5
S (5) w=0 <
P S
(6) rand <
S
(4) w=0 < < < <
F
(5) w=0 < < < < < < < < < <
S
(6) w=0 < < < < < < < < < < < <
V
O E (5) lin <
T S
(6) w=0 <
O P
S (5)
<
S w=0,5
S (6) exp <
ensembles DEGL e os melhores ensembles DE. Para esta base, o destaque fica com os
ensembles formados pela regra voto majoritrio sistema FS-DEGL. Eles foram os sistemas
que obtiveram o maior nmero de desempenho melhor quando comparados com os sistemas
DE, e praticamente todos seus sistemas foram melhores que os sistemas formados pela regra
71
vencedor DE.
Para a base de dados Diabetes, os melhores resultados de cada sistema so exibidos atravs da
Tabela 7.17. O sistema com menor erro de classificao foi o sistema multimodal RNA +
simple subpopulation scheme com 4 subpopulaes DEGL/ w=0,5 com 24,84% de erro.
A Tabela 7.18 exibe os resultados das rede neurais combinadas pela regra mdia e
mdia ponderada. Para a regra mdia e mdia ponderada, o sistema com menor erro de
classificao foi RNA + especiao com 5 componentes DE/ target-to-best com 23,45% de
72
erro. Considerando o ensemble DEGL, o melhor sistema da regra mdia foi RNA + simple
subpopulation scheme com 5 componentes DEGL/ w linear com 23,52% de erro e da regra
mdia ponderada foi RNA + simple subpopulation scheme com 5 componentes DEGL/ w
A Tabela 7.19 exibe os resultados das rede neurais combinadas pela regra voto
majoritrio e vencedor. Para a regra voto majoritrio, o sistema com menor erro de
classificao foi RNA + especiao com 5 componentes DEGL/ w linear com 23,533% de
erro. Para a regra vencedor foi RNA + especiao com 6 componentes DEGL/ w auto-
ensembles com melhor desempenho com o melhor sistema de cada grupo. Atravs destas
tabelas possvel ver que os ensembles obtiveram desempenho superior aos sistemas. Para
esta base todos os ensembles obtiveram erro mdio estatisticamente menor do que os sistemas
individualmente, exceto por trs ensembles: RNA + simple subpopulation scheme com 4
componentes DEGL/ w=0,5 com a regra de combinao voto majoritrio e RNA + especiao
ensembles DEGL e os melhores ensembles DE. Para esta base alguns sistema RNA + DEGL
obtiveram desempenho superior a trs sistemas DE: RNA + especiao com 4 componentes
DE/ rand e RNA + simple subpopulation scheme com 4 componentes DE/ rand da regra voto
majoritrio, e RNA + simple subpopulation scheme com 6 componentes DE/ rand da regra
vencedor.
73
Tabela 7.20 Teste de Hiptese Diabetes: Melhores Ensembles Mdia X Melhores Sistemas e
Melhores Ensembles Mdia Ponderada X Melhores Sistemas
FS ESP SSS
Sistema
(4) (5) (6) (4) (5) (6)
RNA- DEGL DEGL
DEGL DEGL DE DEGL DEGL DEGL
Ensemble SCG exp 0,5
rand 0 rand 0,5 0,5 exp
(4) DEGL
< < < < < < < < <
aa
F (5) DEGL
< < < < < < < < <
S aa
(6) DEGL
< < < < < < < < <
aa
(4) DEGL
M < < < < < < < < <
aa
E
(5) DEGL
D S < < < < < < < < <
lin
I P
(6) DEGL
A < < < < < < < < <
exp
(4) DEGL
< < < < < < < < <
0
S
(5) DEGL
S < < < < < < < < <
exp
S
(6) DEGL
< < < < < < < < <
lin
(4) DEGL
< < < < < < < < <
aa
M
F (5) DEGL
< < < < < < < < <
S aa
D
(6) DEGL
I < < < < < < < < <
aa
A
(4) DEGL
< < < < < < < < <
aa
P E
(5) DEGL
O S < < < < < < < < <
lin
N P
(6) DEGL
D < < < < < < < < <
exp
E
(4) DEGL
R < < < < < < < < <
0
A S
(5) DEGL
D S < < < < < < < < <
exp
A S
(6) DEGL
< < < < < < < < <
lin
76
Tabela 7.21 Teste de Hiptese Diabetes: Melhores Ensembles Voto Majoritrio X Melhores
Sistemas e Melhores Ensembles Vencedor X Melhores Sistemas
FS ESP SSS
Sistema
(4) (5) (6) (4) (5) (6)
RNA- DEGL DEGL
DEGL DEGL DE DEGL DEGL DEGL
Ensemble SCG exp 0,5
rand 0 rand 0,5 0,5 exp
(4) DEGL
< < < < < < < < <
0,5
F (5) DEGL
< < < < < < < < <
S aa
(6) DEGL
< < < < < < < < <
exp
(4) DEGL
< < < < < < < < <
V rand
E
O (5) DEGL
S < < < < < < < < <
T lin
P
O (6) DEGL
< < < < < < < < <
exp
(4) DEGL
< < < < < < = < <
0,5
S
(5) DEGL
S < < < < < < < < <
exp
S
(6) DEGL
< < < < < < < < <
lin
(4) DEGL
< < < < < < < < <
aa
F (5) DEGL
< < < < < < < < <
S aa
(6) DEGL
< < < < < < < < <
V 0,5
E (4) DEGL
< < < < < < = < <
N lin
E
C (5) DEGL
S < < < < < < < < <
E exp
P
D (6) DEGL
< < < < < < < < <
O aa
R (4) DEGL
< < < < < < = < <
rand
S
(5) DEGL
S < < < < < < < < <
aa
S
(6) DEGL
< < < < < < < < <
rand
77
Tabela 7.22 Teste de Hiptese Diabetes: Melhores Ensembles DEGL X Melhores Ensembles
DE
Voto Vencedor
Ensemble DE
ESP SSS SSS
Ensemble DEGL (4) DE (4) DE (6) DE
rand rand rand
FS (5) aa < < <
ESP (6) exp < < <
Mdia
(5) exp < < <
SSS
(6) lin < < <
(5) aa < <
FS
(6) aa < <
Mdia
ESP (6) exp < <
Ponderada
(5) exp < < <
SSS
(6) lin < <
Voto ESP (5) lin < < <
Vencedor ESP (6) aa <
Para a base de dados Glass, os melhores resultados de cada sistema so exibidos atravs da
Tabela 7.23. O sistema com menor erro de classificao foi o sistema multimodal RNA +
simple subpopulation scheme com 5 subpopulaes DEGL/ w=0,5 com 37,13% de erro.
A Tabela 7.24 exibe os resultados das rede neurais combinadas pela regra mdia e
mdia ponderada. O sistema com menor erro de classificao para ambas as regras foi RNA +
especiao com 6 componentes DEGL/ w auto-adaptativo. Para a regra mdia a taxa de erro
A Tabela 7.25 exibe os resultados das rede neurais combinadas pela regra voto
majoritrio e vencedor. O sistema com menor erro de classificao para a regra voto
majoritrio foi RNA + especiao com 5 componentes DEGL/ w=0,5 com 35,45% de erro.
Para a regra vencedor foi RNA + simple subpopulation scheme com 6 componentes DEGL/
ensembles DEGL com melhor desempenho com o melhor sistema de cada grupo. Para esta
base todos os ensembles mdia e mdia ponderada apenas no obtiveram melhor desempenho
absoluto quando comparados aos sistemas RNA + especiao com 5 componentes DEGL/
entanto, foram os ensembles com melhor resultado. O ensemble voto majoritrio tambm
obteve mesmo desempenho quando comparado aos sistemas acima citados e mais alguns
outros sistemas obtendo por volta de 65% de resultados favorveis no teste de hiptese. J o
ensemble vencedor obteve o pior desempenho, j que mais da metade de seus resultados do
Tabela 7.26 Teste de Hiptese Glass: Melhores Ensembles Mdia X Melhores Sistemas e
Melhores Ensembles Mdia Ponderada X Melhores Sistemas
FS ESP SSS
Sistema
(4) (5) (6) (4) (5) (6)
RNA- DEGL DEGL
DEGL DEGL DEGL DEGL DEGL DEGL
Ensemble GCE 0 0
rand 0,5 exp 0 0,5 0,5
(4) DEGL
< < < < = < < = <
exp
F (5) DEGL
< < < < = < < = <
S lin
(6) DEGL
< < < < < < < = <
0
(4) DEGL
M < < < < = < < = <
0
E
(5) DEGL
D S < < < < < < < = <
aa
I P
(6) DEGL
A < < < < < < < < <
aa
(4) DEGL
< < < < = < < = <
exp
S
(5) DEGL
S < < < < = < < = <
aa
S
(6) DEGL
< < < < = < < = <
0,5
(4) DEGL
< < < < = < < = <
exp
M
F (5) DEGL
< < < < = < < = <
S 0
D
(6) DEGL
I < < < < = < < = <
0
A
(4) DEGL
< < < < = < < = <
0
P E
(5) DEGL
O S < < < < < < < = <
aa
N P
(6) DEGL
D < < < < < < < < <
aa
E
(4) DEGL
R < < < < = < < = <
exp
A S
(5) DEGL
D S < < < < = < < = <
aa
A S
(6) DEGL
< < < < = < < = <
0,5
82
Tabela 7.27 Teste de Hiptese Glass: Melhores Ensembles Voto Majoritrio X Melhores
Sistemas e Melhores Ensembles Vencedor X Melhores Sistemas
FS ESP SSS
Sistema
(4) (5) (6) (4) (5) (6)
RNA- DEGL DEGL
DEGL DEGL DEGL DEGL DEGL DEGL
Ensemble GCE 0 0
rand 0,5 exp 0 0,5 0,5
(4) DEGL
= < < < = < < = <
exp
F (5) DEGL
< < < < = < < = <
S aa
(6) DEGL
< < < < = < < = <
0,5
(4) DEGL
= < < = = = = = <
V exp
E
O (5) DEGL
S < < < < = < < = <
T 0,5
P
O (6) DEGL
< < < < = < < = <
exp
(4) DEGL
= < < = = = < = <
0
S
(5) DEGL
S < < < < = < < = <
0,5
S
(6) DEGL
= < < = = < < = <
0,5
(4) DEGL
= = < = = = = = =
0,5
F (5) DEGL
= = < = = = = = =
S exp
(6) DEGL
= < < = = = = = <
V 0
E (4) DEGL
= < < = = = = = =
N 0,5
E
C (5) DEGL
S < < < < = < < = <
E 0,5
P
D (6) DEGL
= < < = = = < = <
O aa
R (4) DEGL
= = < = = = = = =
exp
S
(5) DEGL
S < < < < = < < = <
aa
S
(6) DEGL
< < < < = < < = <
0,5
83
melhores ensembles DEGL e os melhores ensembles DE. Como ilustra as tabelas, diversos
ensembles DEGL obtiveram melhor desempenho do que as ensembles DE. Mas o destaque
desta vez ficou com os sistemas RNA + especiao com 5 e 6 componentes DEGL/ w auto-
obtiveram melhor desempenho do que todos os ensembles formados pela regra vencedor,
desempenho superior a pelo menos um dos sistemas combinados pela regra vencedor.
ensembles DE, foi RNA + especiao com 6 componentes DEGL/ w auto-adaptativo com a
Tabela 7.28 Teste de Hiptese Glass: Melhores Ensembles DEGL X Melhores Ensembles DE
Mdia
Ensemble DE Mdia
ponderada
FS FS
Ensemble DEGL
(4) rand (4) ttb
Tabela 7.29 Teste de Hiptese Glass: Melhores Ensembles DEGL X Melhores Ensembles DE
Para a base de dados Heart, os melhores resultados de cada sistema so exibidos atravs da
Tabela 7.30. O sistema com menor erro de classificao foi o sistema multimodal RNA +
simple subpopulation scheme com 5 subpopulaes DE/ rand com 19,36% de erro.
so exibidos pela Tabela 7.31. Na regra mdia, o sistema com menor erro de classificao foi
RNA + especiao com 5 componentes DEGL/ w=0,5 com 17,7% de erro. Para a regra mdia
ponderada, o mesmo sistema obteve melhor desempenho, com taxa de erro de 17,72% de
erro.
A Tabela 7.32 exibe os resultados das rede neurais combinadas pela regra voto
majoritrio e vencedor. Para o voto majoritrio, o sistema com menor erro de classificao foi
86
RNA + simple subpopulation scheme com 5 componentes DEGL/ w=0 com 17,87% de erro.
Para o vencedor, o sistema com menor erro de classificao foi RNA + especiao
ensembles DEGL com melhor desempenho com o melhor sistema de cada grupo. Atravs
destas tabelas possvel ver que os ensembles obtiveram desempenho superior aos sistemas.
Para esta base todos os ensembles formados pelas regras mdia e mdia ponderada obtiveram
erro mdio estatisticamente menor do que os sistemas individualmente. Para a regra voto
scheme com 4 componentes DE/ rand. E para a regra vencedor foram dois ensembles: RNA +
ensembles DEGL e os melhores ensembles DE. Nesta base, alguns poucos ensembles DEGL
obtiveram erro mdio superior a trs ensembles DE formados pela regra vencedor. Os
ensembles DEGL que se destacaram foram: RNA + especiao com 5 componentes DEGL/
Tabela 7.33 Teste de Hiptese Heart: Melhores Ensembles Mdia X Melhores Sistemas e
Melhores Ensembles Mdia Ponderada X Melhores Sistemas
FS ESP SSS
Sistema
(4) (5) (6) (4) (5) (6)
RNA- DEGL DEGL
DEGL DE DEGL DEGL DE DEGL
Ensemble RPROP 0,5 rand
0 rand aa aa rand lin
(4) DEGL
< < < < < < < < <
exp
F (5) DEGL
< < < < < < < < <
S exp
(6) DEGL
< < < < < < < < <
exp
(4) DEGL
M < < < < < < < < <
rand
E
(5) DEGL
D S < < < < < < < < <
0,5
I P
(6) DEGL
A < < < < < < < < <
0
(4) DEGL
< < < < < < < < <
rand
S
(5) DEGL
S < < < < < < < < <
0
S
(6) DEGL
< < < < < < < < <
exp
(4) DEGL
< < < < < < < < <
exp
M
F (5) DEGL
< < < < < < < < <
S exp
D
(6) DEGL
I < < < < < < < < <
exp
A
(4) DEGL
< < < < < < < < <
rand
P E
(5) DEGL
O S < < < < < < < < <
0,5
N P
(6) DEGL
D < < < < < < < < <
0
E
(4) DEGL
R < < < < < < < < <
rand
A S
(5) DEGL
D S < < < < < < < < <
0
A S
(6) DEGL
< < < < < < < < <
exp
90
Tabela 7.34 Teste de Hiptese Heart: Melhores Ensembles Voto Majoritrio X Melhores
Sistemas e Melhores Ensembles Vencedor X Melhores Sistemas
FS ESP SSS
Sistema
(4) (5) (6) (4) (5) (6)
RNA- DEGL DEGL
DEGL DE DEGL DEGL DE DEGL
Ensemble RPROP 0,5 rand
0 rand aa aa rand lin
(4) DEGL
< < < < < < < < <
aa
F (5) DEGL
< < < < < < < < <
S 0
(6) DEGL
< < < < < < < < <
0
(4) DEGL
< < < < < < < < <
V 0
E
O (5) DEGL
S < < < < < < < < <
T 0,5
P
O (6) DEGL
< < < < < < < < <
0
(4) DEGL
< < < < < < < = <
exp
S
(5) DEGL
S < < < < < < < < <
0
S
(6) DEGL
< < < < < < < < <
aa
(4) DEGL
< < < < < < < < <
exp
F (5) DEGL
< < < < < < < < <
S exp
(6) DEGL
< < < < < < < < <
V lin
E (4) DEGL
< < < < < < < < <
N rand
E
C (5) DEGL
S < < < < < < < < <
E rand
P
D (6) DEGL
< < < < < < < < <
O lin
R (4) DEGL
< < < < < < < < <
aa
S
(5) DEGL
S < < < < < < < = <
rand
S
(6) DEGL
< < < < < < < = <
aa
91
Tabela 7.35 Teste de Hiptese Heart: Melhores Ensembles DEGL X Melhores Ensembles DE
Ensemble DE vencedor
ESP SSS
Ensemble DEGL (5) rand (5) rand (6) ttb
ESP (5) w=0,5 < < <
Mdia
SSS (6) w exp <
ESP (5) w=0,5 < < <
Mdia Ponderada
SSS (6) w exp < <
Para a base de dados Horse, os melhores resultados de cada sistema so exibidos atravs da
Tabela 7.36. O sistema com menor erro de classificao foi o sistema multimodal RNA +
simple subpopulation scheme com 4 subpopulaes DEGL/ w=0 com 37,95% de erro.
Como exibido pela Tabela 7.37, para regra mdia, o sistema com menor erro de
classificao foi RNA + especiao com 5 componentes DEGL/ w=0,5 com 35,24% de erro.
Para a regra mdia ponderada, este mesmo sistema obteve o menor erro de classificao com
35,29% de erro.
Pela Tabela 7.38 possvel visualizar os resultados das rede neurais combinadas
pela regra voto majoritrio e vencedor. O sistema com menor erro de classificao para a
regra voto majoritrio foi RNA + simple subpopulation scheme com 4 componentes DEGL/
Para regra vencedor, os sistemas com menor erro de classificao foram RNA +
Tabela 7.39 Teste de Hiptese Horse: Melhores Ensembles Mdia X Melhores Sistemas e
Melhores Ensembles Mdia Ponderada X Melhores Sistemas
FS ESP SSS
Sistema
(5) (6) (4) (5) (6)
RNA- DEGL DEGL (4)
DEGL DEGL DEGL DEGL DEGL
Ensemble RPROP AA 0 DE ttb
0,5 lin 0 rand lin
(4) DEGL
= < < = < < = < <
aa
F (5) DEGL
= < < = < < = < <
S 0,5
(6) DEGL
= < < < < < = < <
0,5
(4) DEGL
M < < < < < < < < <
0,5
E
(5) DEGL
D S < < < < < < < < <
0,5
I P
(6) DEGL
A < < < < < < < < <
0,5
(4) DEGL
< < < < < < < < <
lin
S
(5) DEGL
S < < < < < < < < <
rand
S
(6) DEGL
< < < < < < < < <
exp
(4) DEGL
= < < = < < = < <
aa
M
F (5) DEGL
= < < = < < = < <
S 0,5
D
(6) DEGL
I = < < < < < = < <
0,5
A
(4) DEGL
< < < < < < < < <
0,5
P E
(5) DEGL
O S < < < < < < < < <
0,5
N P
(6) DEGL
D < < < < < < < < <
0,5
E
(4) DEGL
R < < < < < < < < <
lin
A S
(5) DEGL
D S < < < < < < < < <
0,5
A S
(6) DEGL
< < < < < < < < <
exp
96
Tabela 7.40 Teste de Hiptese Horse: Melhores Ensembles Voto Majoritrio X Melhores
Sistemas e Melhores Ensembles Vencedor X Melhores Sistemas
FS ESP SSS
Sistema
(5) (6) (4) (5) (6)
RNA- DEGL DEGL (4)
DEGL DEGL DEGL DEGL DEGL
Ensemble RPROP aa 0 DE ttb
0,5 lin 0 rand lin
(4) DEGL
= < < = < < = < =
0
F (5) DEGL
= = = = = = = = =
S 0
(6) DEGL
= < < = < < = < <
0
(4) DEGL
= < < < < < = < <
V rand
E
O (5) DEGL
S < < < < < < < < <
T 0,5
P
O (6) DEGL
< < < < < < < < <
0,5
(4) DEGL
< < < < < < < < <
0,5
S
(5) DEGL
S < < < < < < < < <
rand
S
(6) DEGL
< < < < < < < < <
lin
(4) DEGL
= < < = = = = = =
aa
F (5) DEGL
= = = = = = = = =
S aa
(6) DEGL
= < < = < < = < =
V aa
E (4) DEGL
= < < < < < = < <
N 0,5
E
C (5) DEGL
S < < < < < < < < <
E exp
P
D (6) DEGL
= < < < < < = < <
O 0,5
R (4) DEGL
= < < < < < < < <
0,5
S
(5) DEGL
S = < < < < < < < <
0,5
S
(6) DEGL
= < < < < < < < <
lin
97
ensembles DEGL com melhor desempenho com o melhor sistema de cada grupo. Os
ensembles que se destacaram foram os formados pela especiao e pelo simple subpopulation
scheme para as regras mdia e mdia ponderada, pois todos seus ensembles obtiveram melhor
desempenho do que os sistemas. Ainda, para a regra voto majoritrio todos os ensembles
formados pelo simple subpopulation scheme tambm obtiveram melhor desempenho do que
os sistemas. Os ensembles com pior desempenho foram os formados pelo fitness sharing regra
vencedor, obtendo apenas 26% de resultados favorveis no teste de hiptese, seguidos dos
ensembles fitness sharing regra voto majoritrio com 41% de resultados favorveis.
ensembles DEGL e os melhores ensembles DE. Como ilustra as tabelas, diversos ensembles
DEGL obtiveram melhor desempenho do que as ensembles DE. Contudo, o destaque ficou
com os ensembles formados pela especiao e pelo simple subpopulation scheme combinados
pelas regras mdia e mdia ponderada. Eles superaram um nmero maior de ensembles DE, e
foram unanimemente melhores do que os ensembles fitness sharing para as regras voto e
vencedor.
w=0,5 combinado pela regra voto majoritrio tambm obteve bom desempenho quando
comparado aos ensembles DE formados pelo fitness sharing considerando todas as regras de
combinao.
Tabela 7.41 Teste de Hiptese Horse: Melhores Ensembles DEGL X Melhores Ensembles DE
7.5 Anlises
aprendizagem das redes neurais artificiais selecionadas para formarem os ensembles DEGL.
Neurnios
Camadas 1 camada 2 camada 3 camada Algoritmos
MED DP MED DP MED DP MED DP BP RPROP LM SCG
C FS 1,93 0,80 6,07 2,70 3,66 3,53 1,64 3,02 0,22% 10,48% 79,22% 10,07%
A
N ESP 1,99 0,78 6,07 2,61 3,86 3,48 1,77 3,12 0,11% 14,26% 68,85% 16,78%
C
E
SSS 2,00 0,78 6,02 2,61 3,85 3,45 1,78 3,12 0,00% 14,41% 68,26% 17,33%
R
C FS 1,77 0,81 5,64 2,90 3,14 3,62 1,40 2,83 0,00% 3,22% 95,89% 0,89%
A
ESP 2,05 0,76 5,76 2,83 4,29 3,50 1,88 3,17 0,00% 3,26% 94,15% 2,59%
R
D SSS 2,06 0,75 5,74 2,85 4,32 3,48 1,84 3,14 0,00% 3,07% 94,67% 2,26%
D FS 1,58 0,74 6,61 2,62 2,52 3,42 0,95 2,47 0,00% 3,41% 94,15% 2,44%
I
A ESP 1,76 0,77 6,73 2,64 3,51 3,74 1,27 2,80 0,00% 3,70% 91,96% 4,33%
B
E
T SSS 1,74 0,78 6,81 2,61 3,44 3,74 1,32 2,86 0,00% 3,22% 91,81% 4,96%
G FS 1,33 0,59 8,54 1,66 2,20 3,73 0,51 2,00 0,00% 0,00% 99,96% 0,04%
L
A ESP 1,49 0,66 7,99 1,96 3,11 4,04 0,69 2,22 0,00% 0,22% 99,33% 0,44%
S
S SSS 1,50 0,67 8,02 1,97 3,13 4,03 0,70 2,26 0,00% 0,22% 99,48% 0,30%
H FS 1,64 0,76 5,94 2,79 2,74 3,51 1,01 2,41 0,00% 4,78% 94,26% 0,96%
E
A ESP 1,88 0,76 6,13 2,81 4,02 3,72 1,36 2,77 0,00% 8,56% 89,19% 2,26%
R
T SSS 1,91 0,77 6,14 2,84 4,12 3,72 1,45 2,86 0,00% 8,44% 88,96% 2,59%
H FS 1,47 0,72 5,99 2,63 2,16 3,41 0,76 2,19 4,26% 4,63% 87,37% 3,74%
O
R ESP 1,77 0,78 5,90 2,75 3,39 3,61 1,30 2,77 0,22% 8,81% 81,89% 9,07%
S
E SSS 1,74 0,76 5,78 2,76 3,34 3,65 1,17 2,67 0,07% 7,93% 83,07% 8,93%
100
DP) do nmero de camadas ocultas (coluna Camadas) e do nmero de neurnios em cada uma
das trs camadas ocultas possveis (coluna Neurnios) das redes selecionadas para formarem
ou gradiente conjugado escalonado (SCG) para o seu treinamento. Os valores de cada coluna
Atravs da Tabela 7.42 possvel ver que o fitness sharing (FS) de maneira geral,
gerou redes neurais artificiais menores dos que as outras tcnicas e que a especiao (ESP) e o
simple subpopulation scheme (SSS) geraram arquiteturas muito parecidas, o que explica o
resultado dos ensembles formados por estas duas tcnicas serem to parecidos.
Para a base Cancer os ensembles formados pelas tcnicas multimodais ESP e SSS
mdia de cada uma das tcnicas usadas, isto , FS, ESP e SSS, muito prxima, portanto o
baixo desempenho do fitness sharing no est relacionado arquitetura. Mas o que pode-se
levenberg-marquadt, enquanto a ESP e o SSS, embora a maioria de suas redes tenham usado o
LM, conseguiram utilizar um pouco mais os algoritmos RPROP e SCG, que so algoritmos
que demonstraram melhor desempenho no treinamento de RNAs. Este fato pode ter
impactado diretamente no desempenho dos ensembles formados pelas tcnicas ESP e SSS.
principalmente na segunda camada, em que a mdia ficou bem abaixo das mdias da ESP e do
SSS. Na terceira camada, a mdia e o desvio padro ficaram abaixo da mdia e do desvio dos
101
outros mtodos. Para esta base, todas as tcnicas apresentaram o porcentual de algoritmos de
arquiteturas geradas pela ESP e pela SSS so muito parecidas, mas o FS gerou arquiteturas
um pouco mais compactas principalmente na segunda e terceira camadas. O que pode ter sido
algoritmo SCG tenha obtido melhor desempenho no treinamento de redes neurais artificiais
para esta base, a diferena de seu erro de classificao para o erro dos algoritmos LM e
RPROP pequena. Portanto, mesmo que o fitness sharing tenha usado mais o LM do que as
muito parecidos para as trs tcnicas. Apesar do desempenho parecido, ele no foi
satisfatrio. Este desempenho mediano pode ser devido ao fato desta base ter poucos
exemplos (214), fazendo com que o conjunto de treinamento seja muito pequeno e a rede
Para a base Heart todos os ensembles obtiveram bons resultados. Para esta base a
tiveram mais impacto sobre o aprendizado do que as caractersticas da rede. De fato, esta base
possui apenas duas classes que so balanceadas (44,7% exemplos de uma classe e 55,3% de
do FS ficaram bem diferentes dos valores da ESP e do SSS. O que mostra que a ESP e o SSS
DEGL), consiste em criar um algoritmo da DEGL multimodal para otimizar redes neurais
artificiais e usar alguns de seus indivduos para compor um ensemble. Ele ser comparado
(Zarth, 2009);
chamado PDE (Abbass, 2003). Como descrito na sesso 6.3, este mtodo utiliza duas
Para a comparao dos resultados sero exibidos a mdia (coluna MED) e desvio-
Na comparao entre E-MDEGL e DEMI, foi escolhido o sistema DEGL multimodal com
melhor desempenho dentre todas as regras de combinao de ensembles, que o sistema RNA
MDEGL teve a taxa de classificao um pouco melhor do que o DEMI e uma menor variao
E-MDEGL DEMI
MED DP MED DP
0,7648 0,0146 0,7586 0,0237
Para a comparao do E-MDEGL com AGFS e PDE, foi escolhido o sistema com melhor
para a regra voto majoritrio o melhor sistema foi RNA + SSS (6 componentes) DEGL/ w=0.
Para a regra vencedor foi RNA + ESP (6 componentes) DEGL/ w=0,5. Para as regras mdia e
mdia ponderada o melhor sistema foi RNA + ESP (6 componentes) DEGL/ w randmico. Os
AGFS E-MDEGL
Sada Mdia Correlao Entropia
MED DP MED DP MED DP MED DP
Voto Majoritrio 0,969 0,013 0,968 0,008 0,946 0,030 0,963 0,008
Vencedor 0,972 0,016 0,934 0,043 0,882 0,080 0,962 0,008
Mdia 0,977 0,006 0,980 0,008 0,975 0,013 0,964 0,006
Mdia Ponderada 0,977 0,005 0,980 0,008 0,975 0,013 0,964 0,006
BKS 0,988 0,008 0,988 0,006 0,988 0,010
Para esta base, o mtodo AGFS superou o mtodo E-MDEGL tanto quando
comparado os resultados dos melhores sistemas (em negrito), quanto quando comparado cada
Na base Card, para todas as regras de combinao, o melhor sistema foi RNA +
Mdia 0,852 0,008 0,855 0,011 0,864 0,007 0,865 0,043 0,844 0,058 0,860 0,017
Mdia
0,852 0,008 0,855 0,011 0,864 0,007 0,860 0,017
Ponderada
BKS 0,911 0,001 0,908 0,015 0,904 0,014
Para esta base, mais uma vez o mtodo AGFS superou o mtodo E-MDEGL
quando comparado os resultados dos melhores sistemas (em negrito), pois a regra de
combinao BKS se mostrou melhor que todas as outras regras. Mas quando cada regra de
105
comparado com os outros valores das regras voto majoritrio. Na regra vencedor, o mtodo E-
MDEGL ficou atrs apenas do mtodo PDE problema 1, por apenas 0,002 de diferena.
Entropia e ento o E-MDEGL. Na regra mdia ponderada o E-MDEGL ficou com o segundo
Na base Diabetes, para a regra voto majoritrio o melhor sistema foi RNA + ESP
(5 componentes) DEGL/ w linear. Para a regra vencedor foi RNA + ESP (6 componentes)
DEGL/ w auto-adaptativo. Para as regras mdia e mdia ponderada o melhor sistema foi RNA
Mdia 0,745 0,025 0,719 0,030 0,748 0,023 0,777 0,032 0,744 0,034 0,765 0,015
Mdia
0,742 0,023 0,721 0,029 0,748 0,023 0,765 0,015
Ponderada
BKS 0,782 0,036 0,795 0,028 0,798 0,047
cada regra de combinao separadamente, o melhor desempenho fica com o PDE problema 1
O prximo mtodo a ser comparado com o E-MDEGL o mtodo EAPSONN proposto por
Almeida e Ludermir (2010). Este mtodo foi escolhido por ser um mtodo recente de
otimizao evolucionria de redes neurais artificiais, por expor resultados para todas as bases
de dados usadas nesta dissertao e por usar um esquema de codificao de indivduos que
algumas caractersticas de cada uma desta tcnicas. Ele usa o mecanismo de mutao e auto-
refinamento das solues encontradas. Ento estas solues passam pelo treinamento atravs
dos algoritmos backpropagation e/ ou levenberg-marquardt para que uma busca local seja
executada. Em seguida as solues passam pela fase de seleo de sobreviventes usado pelo
algoritmo gentico.
bases,como ilustra a Tabela 7.47. O destaque ficou para o E-MDEGL na base Glass, onde ele
tambm obteve uma boa diferena, ficando 3% abaixo do erro de classificao do EAPSONN.
107
Base de
Mtodo MED DP
Dados
EAPSONN-BP 0,0387 0,0110
CANCER EAPSONN-BPLM 0,0449 0,0138
mdia SPE (6) DEGL/ w randmico 0,0362 0,0061
EAPSONN-BP 0,2085 0,0456
CARD EAPSONN-BPLM 0,1624 0,0186
voto FS (6) DEGL/ w =0 0,1375 0,0177
EAPSONN-BP 0,2533 0,0189
DIABETES EAPSONN-BPLM 0,2561 0,0202
mdia SSS (5) DEGL/ w exponencial 0,2352 0,0146
EAPSONN-BP 0,6210 0,0510
GLASS EAPSONN-BPLM 0,4184 0,0421
mdia SPE (6) DEGL/ w auto-adaptativo 0,3474 0,0357
EAPSONN-BP 0,2005 0,0165
HEART EAPSONN-BPLM 0,2065 0,0195
mdia SPE (5) DEGL/ w=0,5 0,1770 0,0162
EAPSONN-BP 0,3844 0,0220
HORSE EAPSONN-BPLM 0,3938 0,0332
mdia SPE (5) DEGL/ w=0,5 0,3524 0,0254
108
8.1 Concluses
Este trabalho apresentou um novo mtodo de otimizao de redes neurais artificiais para
Differential Evolution with Global and Local Neighborhood) com trs tcnicas multimodais,
gerando assim trs sistemas: fitness sharing combinado com DEGL (FS-DEGL), especiao
combinado com DEGL (ESP-DEGL) e simple subpopulation scheme combinado com DEGL
DEGL).
Para manter a diversidade entre as redes neurais artificiais, tcnicas multimodais foram
algoritmo de aprendizagem de uma rede multi-layer perceptron, ele pode ser facilmente
109
realizados experimentos considerando uma verso do mtodo proposto que utiliza o algoritmo
(RNA).
regra de combinao mdia, em 96% das vezes o mtodo proposto foi estatisticamente melhor
do que estes sistemas. Nas outras 4%, o mtodo foi estatisticamente equivalente.
MDEGL foi superior ao E-MDE. Dentro deste valor, o mtodo proposto se destacou nas bases
ensembles, o mtodo proposto obteve resultados muito similares aos resultados dos outros
regras, o mtodo AGFS usando a regra BKS obteve os melhores resultados. Levando em
tempo consumida para que as solues possam ser encontradas. Este consumo demasiado
devido ao treinamento das redes durante o processo evolucionrio. Durante a busca evolutiva,
mais pesquisas nesta rea. Esta sesso sugere alguns temas, basicamente voltados para o
evolucionrio DEGL. Neste trabalho foram utilizados apenas os parmetros sugeridos por Das
et al. (2009). Uma boa alternativa de implementao da variao dos parmetros atravs de
111
mtodos automticos, como o proposto por Zhang et al. (2009) que usa uma distribuio de
que tal adaptao dependente do problema e pode mudar durante o processo evolucionrio;
experimentos realizados foram considerados apenas algumas bases de dados para problemas
de classificao. Portanto ainda fica em aberto executar o mtodo proposto para diferentes
tipos de problema, como previso por exemplo, e para problemas de maior complexidade.
Tambm ainda no foi investigado o comportamento deste mtodo com diferentes medidas de
erro.
REFERNCIAS BIBLIOGRFICAS
Almeida, L. M. Uma metodologia de busca por redes neurais artificiais quase-timas. 2007.
Dissertao (Mestrado em Cincia da Computao) - Universidade Federal de
Pernambuco. Recife, 2007.
Basturk, A.; Gunay, E. Efficient edge detection in digital images using a cellular neural
network optimized by differential evolution algorithm. Expert Systems with
Applications, volume 36, nmero 2, pginas 2645-2650, 2009.
Brown, G. Diversity in neural network ensembles. 123 folhas. Tese (Doutorado) - School of
Computer Science, The University of Birmingham, Birmingham - Reino Unido, 2004.
Chauhan, N.; Ravi, V.; Chandra, D. K. Differential evolution trained wavelet neural
networks: Application to bankruptcy prediction in banks. Expert Systems with
Applications, volume 36, nmero 4, pginas 7659-7665, 2009.
Chen, Y. H.; Wang, Y.; Yang, B. Evolving hierarchical RBF neural networks for breast
cancer detection. Neural Information Processing, volume 4234, pginas 137-144,
2006.
Darwin, C. R. On the origin of species by means of natural selection. Londres: Murray, 1859.
Das, S.; Abraham, A.; Chakraborty, U. K.; Konar, A. Differential evolution using a
neighborhood-based mutation operator. IEEE Transactions on Evolutionary
Computation, volume 13, nmero 3, pginas 526-553, 2009.
Deb, K.; Saha, A. Finding multiple solutions for multimodal optimization problems using a
multi-objective evolutionary approach. In: Conference on Genetic and Evolutionary
Computation, 12., 2010, Portland - EUA. Anais... Nova York - EUA: ACM , 2010.
pginas 447-454.
Goldberg D. E.; Richardson J. Genetic algorithms with sharing for multimodal function
optimization. In: International Conference on Genetic Algorithms, 2., 1987, Cambridge
- EUA. Anais Hillsdale - EUA: Erlbaum, 1987. pginas 41-49.
Huang, Y. S.; Suen, C. Y. A method of combining multiple experts for the recognition of
unconstrained handwritten numerals. IEEE Transactions on Pattern Analysis and
Machine Intelligence, volume 17, nmero1, pginas 90-94, 1995.
Ilonen, J.; Kamarainen, J. K.; Lampinen, J. Differential evolution training algorithm for feed-
forward neural networks. Neural Processing Letters, volume 17, nmeo 1, pginas 93-
105, 2003.
115
Jursa, R.; Rohrig, K. Short-term wind power forecasting using evolutionary algorithms for
the automated specification of artificial intelligence models. International Journal of
Forecasting, volume 24, nmero 4, pginas 694-709, 2008.
Kim, K. J.; Cho, S. B. Evolutionary ensemble of diverse artificial neural networks using
speciation. Neurocomputing, vol. 71, pp. 1604-1618, 2008.
Kittler, J.; Hatef, M.; Duin, R. P.W.; Matas, J. On combining classifiers. IEEE Transactions
on Pattern Analysis and Machine Intelligence, Los Alamitos - EUA, volume 20,
nmero 3, pginas 226-239, 1998.
Lahiri, S. K.; Ghanta, K. C. Artificial neural network model with the parameter tuning
assisted by a differential evolution technique: The study of the hold up of the slurry
flow in a pipeline. Chemical Industry & Chemical Engineering Quarterly, volume 15,
nmero 2, pginas 103-117, 2009.
Liu, J. H.; Kukkonen, S.; Lampinen, J. Growing RBF networks for function approximation
by a DE-based method. Computational and Information Science, Proceedings, volume
3314, pginas 399-406, 2004.
Neri, F.; Tirronen, V. Recent advances in differential evolution: A survey and experimental
analysis. Artificial Intelligence Review, volume 33, nmero 1, pginas 61-106, 2010.
Storn, R.; Price, K. V. Differential evolution: a simple and efficient adaptive scheme for
global optimization over continuous spaces. Institute of Company Secretaries of India,
Chennai, Tamil Nadu. Technical Report TR-95-012, 1995.
116
Trichakis, I. C.; Nikolos, I. K.; Karatzas, G. P. Optimal selection of artificial neural network
parameters for the prediction of a karstic aquifers response. Hydrological Processes,
volume 23, nmero 20, pginas 2956-2969, 2009.
Yao, X. Evolving artificial neural networks. Proceedings of the IEEE, volume 87, nmero 9,
pginas 1423-1447, 1999.
Yao, X.; Islam, M. M. Evolving artificial neural network ensembles. IEEE Computational
Intelligence Magazine, pginas 31-42, 2008.
Zhang, J.; Sanderson, A. C. JADE: Adaptive differential evolution with optional external
archive. IEEE Transactions on Evolutionary Computation, volume 13, nmero 5,
pginas 945-958, 2009.
Zhao, Y.; Gao, J.; Yang, X. A survey of neural network ensembles. In: International
Conference on Neural Networks and Brain, 5., 2005, Pequim - China. Anais IEEE
press, 2005, pginas 438-442.
Zhou, Z. H.; Wu, J.; Tang, W. Ensembling neural networks: Many could be better than all.
Artificial Intelligence, volume 137, nmero 1-2, pginas 239-263, 2002.
117
APNDICE A