You are on page 1of 7

GRADIENTE EVOLUTIVO: UM NOVO MÉTODO DE TREINAMENTO PARA REDES

NEURAIS TIPO MLP


Celso Pascoli Bottura1 and César Daltoé Berci2
1
UNICAMP, CAMPINAS, BRASIL, cesardaltoe@hotmail.com
2
UNICAMP, CAMPINAS, BRASIL, cpbottura@fee.unicamp.br

Resumo bientais e comportamentais, porém, jamais é preciso re-


programar o cérebro, que devido a sua flexibilidade as-
A utilização de algoritmos genéticos no treinamento de
simila novos cenários de operação e se adapta a eles.
redes neurais artificiais não é um assunto novo, várias ten-
tativas já foram realizadas neste sentido obtendo bons re- • Possibilidade de trabalhar com informações nebulosas,
sultados, porém não competitivos para problemas onde o ruidosas, probabilísticas e inconsistentes. Apesar de ser
gradiente do erro é bem definido. O presente documento possível implementar métodos procedurais para tratar a
propõe uma alternativa ainda inexplorada para aplicação grande parte dessas informações, esta sem dúvida não
desses algoritmos no treinamento de redes neurais, utilizando é uma tarefa trivial, e exige um grande conhecimento e
AG(Algoritmos Genéticos) para evoluir o processo de treina- habilidade daquele que se aventura por esse caminho. A
mento da rede e não o seu resultado, conseguindo com isso computação biológica, por outro lado, tem a capacidade
resultados bastante superiores a outras propostas e tornando intrínseca de tratar essa tipo de informação.
o método proposto competitivo com técnicas procedurais de
otimização, usualmente utilizadas no treinamento de redes • Paralelismo. A implementação de redes neurais artifi-
neurais. ciais em computadores digitais obviamente leva a perda
Keywords: Algoritmos Genéticos, Método do Gradiente, dessa propriedade, porém, em uma máquina ideal que
Treinamento de Redes MLP melhor represente um sistema de processamento bi-
ológico, a informação é processada simultaneamente
1. INTRODUÇÃO em todos os neurônios, o que proporciona um par-
alelismo intrínseco a esse tipo de sistema, conferindo-
Redes neurais artificiais representam um paradigma com- lhe uma grande eficiência, mesmo suas unidades fun-
putacional originalmente inspirado no que se conhece a re- damentais sendo mais lentas que as de um computador
speito do modo de funcionamento do cérebro humano e de digital, essencialmente seqüencial.
outros animais. Esta inspiração visa emular uma série de
propriedades observadas no processamento biológico da in- Outro método computacional, também bio-inspirado, são
formação realizado no cérebro, muito atrativas do ponto de os algoritmos genéticos, baseados no trabalho de Charles
vista computacional por apresentarem soluções rápidas para Darwin, mais precisamente em seu livro The Origin of
problemas bastante complexos de serem tratados através de Species [6]. O filosofo Daniel Dennett grande defensor das
métodos mais convencionais. Dentre as principais caracterís- terias de Darwin, apresenta em seu livro: Darwin’s Danger-
ticas do processamento biológico computacionalmente rele- ous Idea: Evolution and the Meanings of Life [7], uma visão
vantes, as seguintes podem ser mencionadas [9]: de engenharia da teoria da evolução, e é atualmente umas das
obras mais influentes sobre o assunto.
• Robustez e tolerância a falhas. O cérebro humano Estes algoritmos são baseados em processos evolutivos
possui um número muito elevado de neurônios ampla- biológicos para encontrar soluções ótimas e sub-ótimas para
mente interconectados, formando uma complexa rede problemas computacionais. Um caso usual de aplicação é a
de processamento onde o neurônio é unidade princi- otimização de funções, onde os algoritmos genéticos podem
pal, e mesmo perdendo milhares destas unidades, a rede ser vistos como uma ferramenta de otimização global multi
pode continuar em operação sem perder nenhuma de objetivo, que encontra extremos de funções através de uma
suas funcionalidades. meta meta-heurística bio-inspirada.
O problema de otimização se estende a várias áreas das
• Flexibilidade. Estamos sujeitos a grandes variações am- ciências exatas, sendo uma delas a otimização dos pesos
sinápticos e polarizações de uma rede neural artificial, dora- para representar o mapeamento desejado.
vante referidos apenas como parâmetros da rede. O processo Este processo de aprendizagem da rede é em geral iter-
de se otimizar esses parâmetros é conhecido também como ativo, pois não se tem meios para calcular um vetor θ ade-
treinamento da rede, pois nele a mesma é treinada para re- quado analiticamente, e visa aumentar a adaptação da rede
conhecer um determinado padrão relacionando sua entrada e ao mapeamento desejado a cada iteração, também chada de
saída, donde diz-se que a rede aprendeu um comportamento. época do treinamento. Para tanto é definido um erro para
Esse treinamento geralmente se dá através de métodos it- a saída da rede, que expressa a diferença entre o estado at-
erativos de otimização, baseados no gradiente da superfície ual do seu treinamento e um estado desejado. Uma possível
de erro da rede neural, calculado através do algoritmo back- definição para o erro da rede pode ser a seguinte:
propagation [14, 15]. Dentre os métodos mais eficientes para
treinamento de redes neurais, pode-se citar o método quasi-
Newton: BFGS [1] e o método de direções conjugadas: Gra- e = (H(x) − F(x, θ)) (2)
diente Conjugado Escalonado [11, 12].
Uma maneira alternativa de se realizar a otimização dos onde H é o mapeamento que se deseja assimilar pela rede
parâmetros de uma rede neural, é a utilização de métodos neural.
meta-heurísticos de otimização, como os algoritmos genéti- Este erro cria uma superfície no espaço RN , onde N é a
cos e algoritmos baseados em inteligência coletiva. Vários dimensão do vetor θ, portanto o processo de treinamento da
pesquisadores vem utilizando esses algoritmos diretamente rede neural pode ser visto como a minimização da superfície
no ajuste dos parâmetros da rede [13, 16, 17], visando com de erro com relação a θ, onde iterativamente se locomove por
isso encontrar um ponto de otimalidade da superfície de esta superfície em direção a um mínimo local.
erro. Existem também propostas que buscam otimizar não Vários métodos de aprendizado são propostos na liter-
somente os pesos sinápticos e polarizações da rede, como atura de redes neurais, incluindo métodos meta-heurísticos
também outros parâmetros como sua topologia [4, 8], ten- de otimização como os algoritmos genéticos aqui utilizados,
tando com isso encontrar uma rede que melhor se adapte aos porém sem grande expressão devido a diferença de eficiência
dados utilizados no seu treinamento. existente entre estes métodos e procedimentos de otimização
Apesar dos algoritmos genéticos representarem uma fer- determinísticos que levam em conta maior informação sobre
ramenta de grande poder computacional, treinar uma rede a superfície de erro acarretando em aprendizado mais rápido
neural utilizando esse método, apesar de gerar bons resulta- da rede.
dos, não oferece a mesma eficiência do que métodos deter-
minísticos de otimização, que geralmente produzem resulta- 3. ALGORITMOS GENÉTICOS
dos melhores com relação a taxa de convergência, visto que Algoritmos genéticos são essencialmente métodos de
estes utilizam um maior conhecimento a respeito do prob- busca cega podendo ser estes aplicados à otimização de fun-
lema, oriundo de informações de ordem 1 e 2 a respeito da cionais, inspirados na evolução de processos naturais, prin-
superfície de erro. cipalmente na teoria da seleção natural proposta por Darwin
O presente documento, introduz um novo conceito de [6].
otimização via algoritmos genéticos para treinamento de re- Sistemas baseados neste princípio tem certas vantagem
des neurais, onde é utilizado um gradiente evoluído, e passos sobre métodos convencionais de otimização, quando aplica-
são dados na direção desse gradiente. Esta proposta faz uso dos a problemas muito complexos, com espaços de busca
da capacidade exploratória dos algoritmos genéticos, unida muito grandes, sendo de difícil modelagem matemática, e
a eficiência de métodos determinísticos de otimização, al- conseqüente obtenção do vetor gradiente do problema.
cançando resultados superiores do que aqueles obtidos por Para aplicar processos naturais de evolução em problemas
ambas as técnicas quando utilizadas separadamente. de otimização, codifica-se cada possível solução do problema
como sendo um cromossomo, que representa um individuo
2. APRENDIZADO DE REDES NEURAIS da população e baseado na adaptação de cada cromossomo
Redes neurais artificiais, são dispositivos com a capaci- fitness, aplica-se à população regras de seleção, reprodução
dade universal de aproximação, utilizadas para assimilar ma- e mutação, obtendo assim, ao final do processo, indivíduos
peamentos, com base em uma cadeia de neurônios artifi- melhor adaptados ao problema, ou seja, soluções melhores
cias interconectados. De maneira matematicamente formal, a para o problema de otimização.
saída de uma rede neural pode ser expressa como uma função
não linear de sua entrada da seguinte forma: 4. O GRADIENTE EVOLUTIVO
São encontradas na literatura, algumas propostas de uti-
lização de algoritmos genéticos na otimização da superfí-
y = F(x, θ) (1)
cie de erro da rede neural. Este processo é em geral mais
onde θ é um vetor de parâmetros da rede contendo empilha- oneroso do ponto de vista do custo computacional1 , e os re-
dos os valores dos pesos sinápticos e as polarizações. sultados pobres com relação a taxa de convergência, quando
A priori não é possível determinar um vetor de parâmetros 1 Entende-se aqui por custo computacional de um procedimento, o
θ de forma tal que a rede expresse corretamente qualquer número de operações de soma e multiplicação necessários para realização
mapeamento y = H(x), portanto, é necessário treinar a rede deste
comparado a métodos convencionais de otimização baseados algoritmo genético, podendo aumentar a taxa de convergên-
no gradiente do erro. cia do algoritmo. Porém, esse não é um requisito para apli-
Tendo em vista este cenário, o presente documento, ap- cação do método, que pode ser utilizado mesmo quando não
resenta uma solução alternativa inspirada no trabalho de se pode calcular o gradiente do erro, como é o caso em [2, 3],
Chalmers The Evolution of Learning: An Experiment in onde não se tem referência direta da saída desejada da rede
Genetic Connectionism[5], que aplicou processos evolutivos para realizar a retropropagação do erro.
para tentar evoluir o aprendizado de redes neurais de uma A seguir é mostrado o algoritmo EG para treinamento de
única camada, ao invés de tentar evoluir apenas a solução redes neurais.
deste processo como é usual. Determinar np , ni , nmax ;
No método EG: Gradiente Evolutivo, os algoritmos Inicializar θ;
genéticos são utilizados no processo de treinamento não para for i=1 to nmax do
otimizar os pesos sinápticos, e sim o processo de otimização, Calcular g0 pela retropropagação do erro, ou
evoluindo o vetor gradiente. simplesmente fazer g0 = 0;
Evoluir o gradiente g = AG(np , ni , g0 ) ;
4.1. Codificação
θi+1 = θi − g
O algoritmo genético introduzido no algoritmo hibrido end
EG, utiliza uma população de np indivíduos, com uma codi- Algorithm 1: Evolving Gradient
ficação real (não binaria) descrita a seguir:

• Cromossomos: Vetores contendo valores reais perten- 5. EXEMPLOS E COMPARAÇÕES


centes ao espaço RN Com a intensão de determinar a eficiência relativa do
método proposto, quando comparado com outros métodos
• Fitness: exp (−αe(x, θ − p)) onde α é um parâmetro a de treinamento de redes neurais, foram formulados alguns
ser ajustado, e p é um cromossomo. exemplos de aplicação de redes neurais, a fim de avaliar o
processo de treinamento da rede com relação exclusivamente
• Seleção: Roleta e Elitista.
a sua taxa de convergência.
A fim de formar uma base consistente de comparação, são
• Reprodução: Método matricial [2] baseado no sube-
considerados neste documento, dois métodos quasi-Newton,
spaço gerado pelos vetores pais.
dois métodos de direções conjugadas e um método de de-
scida do gradiente, todos descritos a seguir:
• Mutação: Mutação Gaussiana, onde soma-se um ve-
tor aleatório (com distribuição retangular) de norma pe- • GRAD: Gradiente Ótimo [10]: Método de descida do
quena ao cromossomo, a fim de introduzir um pertur- gradiente com convergência superlinear.
bação.
• DFP: Davidon Fletcher Powell [10]: Método quasi-
Nesta codificação, são escolhidos nrep pares para repro- Newton com convergência quadrática.
dução através de um mecanismo de roleta, onde nrep ∈ • BFGS:Broyden Fletcher Goldfarb Shanno [1]: Método
[1, np ] é número aleatório, o restante da população np − nrep quasi-Newton com convergência quadrática e maior ro-
é escolhida de forma elitista, visando com isso preservar a bustez ao mal condicionamento dos dados quando com-
melhor solução, bem como preservar a diversidade da popu- parado ao método DFP.
lação.
• FR: Fletcher Reeves [1]: Método de direções conju-
4.2. Algoritmo EG gadas com convergência n-passos quadrática.
Neste algoritmo utiliza-se um método de descida do gra- • SCG: Scaled Conjugated Gradient[12]: Método
diente, onde passos são dados na direção de um pseudo- de direções conjugadas com convergência n-passos
gradiente calculado com base em um algoritmo genético: quadrática, porém, não utiliza cálculos de buscas unidi-
AG, préviamente discutido. mensionais, o que o torna computacionalmente menos
A cada iteração do algoritmo, dado um vetor de parâmet- oneroso, sendo atualmente considerado o método mais
ros θi , uma nova população de inmdivíduos é criada em torno rápido para o treinamento de redes neurais.
da origem do espaço RN , e então inicia-se o a evolução
destes via algoritmo genético por ni gerações, o qual retorna O processo de busca unidimensional utilizado neste docu-
uma direção de descida evoluída gi sub-ótima, que minimiza mento é o método da sessão áurea, aplicado por 30 iterações
o erro com relação ao parâmetro θi + gi . Feito isso, é calcu- sobre o intervalo inicial.
lado um novo vetor de parâmetros θi+i = θi + gi , através de A seguir são definidos os problemas aqui propostos para
um passo unitário na direção gi . Esse processo é repetido até as comparações em questão.
que um critério de parada tenha sido atendido.
5.1. Corrente Em Motores de Indução
É possível ainda, inserir na população inicial um vetor
gradiente calculado via Backpropagation. Isso irá propor- Teoricamente a corrente de um motor de indução trifásico
cionar em muitos casos uma condição inicial ainda melhor o pode ser facilmente calculada com base em sua tensão e
potência, como mostra a equação (3).

P
I=√ (3)
3V η
onde P e V representam a potência e tensão do motor
respectivamente.
A variável η da equação (3) leva em conta vários fatores
construtivos do motor, bem como fatores de operação como
a sua condição de carga. Dessa forma, claramente não se
dispõe de meios para determinar com precisão esta variável,
e conseqüentemente, não é possível o calculo exato da sua
corrente.
O problema em questão propõe a utilização de uma rede
neural para estimar o valor dessa corrente, com base na
potência, tensão e rotação do motor, através de uma rede
MLP com 3 neurônios em sua camada sensorial e 1 neurônio Figura 2 – Treinamento da Rede
em sua camada de saída.
O conjunto de treinamento utilizado na assimilação desse
mapeamento, consiste em 300 amostras obtidas diretamente
de catálogos de fabricantes, que por sua vês baseiam-se em
ensaios práticos para obtenção desses valores. As amostras
utilizadas incluem motores que encontram-se nas seguintes
faixas de valores:

• Potência: 0.1 a 330 KW.

• Rotação: 600,900,1200,1800 e 3600 rpm.

• Tensão: 220, 380 e 440 V.

• Corrente: 0.3 a 580 A.

Em um primeiro teste, visando determinar a eficiência rela-


tiva entre o método proposto e os métodos previamente cita-
dos, foi utilizada uma rede neural contendo 3 neurônios em
sua camada intermediaria, tendo assim a seguinte configu- Dada a característica estocástica do método proposto, os
ração: 3-3-1. O resultado do treinamento da rede pode ser gráficos mostram o comportamento médio deste para um to-
visualizado nos gráficos que seguem. tal de 20 repetições.
O método proposto apresentou resultados bastante superi-
ores para o problema em questão, em comparação aos méto-
dos determinísticos avaliados. Uma outra análise relevante,
é comparar o resultado do treinamento da rede pelo método
EG e pela utilização do algoritmo genético diretamente na
obtenção do vetor θ ótimo.
Para realização desta análise, consideremos um algoritmo
genético, GA, implementado com o mesmo número de in-
divíduos com que o foi o método proposto EG. Este algo-
ritmo genético é então aplicado ao problema em questão por
100 gerações na busca do vetor de parâmetros ótimo. Por
outro lado, o algoritmo EG, é aplicado por apenas 5 épocas,
porém, realizando 20 gerações por época, o que confere a
ambos os métodos, exatamente o mesmo número de ger-
ações, e como estes tem ainda a mesma implementação com-
putacional, pode-se realizar uma análise comparativa bas-
tante consistente.
Figura 1 – Treinamento da Rede O resultado médio de 20 repetições de ambos os proces-
sos de treinamento, podem ser visualizados na Figura 3:
putacional, dado que um processo de evolução deve ser com-
pletado a cada época do treinamento. Dessa forma, a ex-
ecução do algoritmo pode tornar-se bastante lenta, depen-
dendo das escolhas feitas em sua implementação.
Em [12], o autor comprova a superioridade do método
SCG sobre os outros aqui métodos analisados, este fato
decorre diretamente da necessidade da maioria dos métodos
determinísticos de executarem buscar unidimensionais, que
tem um custo computacional O(N 2 ) por iteração, tornando
o processo final bastante oneroso. Assim, o método SCG ap-
resenta um custo computacional: O(N 2 ) por iteração, o que
é muito inferior a aos métodos GRAD, DFP, BFGS e FR que
possuem um custo computacional O(31N 2 )2 .
O método proposto por sua vez, apresenta um custo to-
tal O(ni np N 2 ), que pode se tornar bastante superior aos
outros métodos dependendo da escolha de ni e np . A ráp-
Figura 3 – Treinamento da Rede: EG × GA ida convergência do método, por outro lado, tente a equi-
librar este alto custo computacional, garantindo a viabili-
Nota-se claramente na Figura 3 que o método proposto dade do algoritmo. A Figura 5 ilustra um comparativo sim-
apresentou resultados superiores ao algoritmo genético para ples da evolução temporal do método do gradiente conju-
o caso em tela. gado escalonado e o método do gradiente evolutivo, para a
Outra análise bastante relevante neste estudo, é a veri- configuração da rede: 3-9-9-1 contendo duas camadas inter-
ficação das diversidades de ambas as populações, tanto no mediárias. Para o método SCG foram realizadas 500 épocas
algoritmo EG quanto no algoritmo GA. A análise conjunta enquanto que para o método EG foram apenas 5 épocas,
dos resultados anteriores com a diversidade das populações, visando com isso compensar a diferença de custo computa-
provê um entendimento mais preciso e maduro do processo cional.
de busca.
A métrica escolhida neste documento para avaliar a diver-
sidade da população, é a variância do fitness dos indivíduos.
A Figura 5 mostra o valor médio das diversidades de ambas
as populações para cada geração e/ou época do processo de
treinamento.

Figura 5 – Evolução temporal do treinamento

Dessa forma, o método proposto neste documento, apesar


de computacionalmente oneroso, tem uma convergência bas-
tante acelerada, e em alguns casos essa característica com-
Figura 4 – Diversidade das Populações pensa o alto custo computacional, como na situação mostrada
na figura 5. A característica de estocasticidade presente no
método proposto e também na inicialização do treinamento,
Fica claro na Figura 3 a superioridade do algoritmo pro-
impede que se conclua que o algoritmo EG é mais rápido que
posto com relação a preservação da diversidade da população
o método SCG, porém, deste resultado pode-se afirmar que o
com relação ao algoritmo genético, que apresenta um perda
método EG, é competitivo em relação a outras propostas, do
gradual de diversidade durante o processo de treinamento.
ponto de vista da eficiência computacional do treinamento.
Apesar de conseguir proporcionar uma significante re-
dução do erro médio quadrático da rede a cada iteração, o 2 Este valor é atribuído ao fato da busca linear realizar 30 iterações a cada

algoritmo proposto é bastante oneroso do ponto de vista com- iteração do método de treinamento
5.2. Aproximação de Curvas Outra característica vantajosa ao método proposto, é o
fato de que o este permite uma implementação paralela, dev-
Neste exemplo foi utilizado um conjunto de testes de 100
ido ao paralelismo intrínseco a meta-heurística aplicada, o
amostras de pares estrada-saída para uma função quadrática
que em uma máquina paralela hipotética representaria um
y = x2 , onde foi inserido um ruido branco de amplitude
método muito mais eficiente que métodos procedurais, in-
10−4 em ambos os sinais (entrada e saída). O treinamento
trinsecamente seqüenciais.
foi realizado para varias configurações da rede utilizando o
Dessa forma, conclui-se que o método Gradiente Evo-
algoritmo proposto e os algoritmos citados anteriormente, os
lutivo aqui apresentado, representa uma solução alternativa
resultados podem ser observados na tabelas que seguem.
viável para o treinamento de redes neurais artificiais em qual-
quer situação, especialmente em situações mais complexas,
Tabela 1 – Resultados do Treinamento: EG, SCG e FR principalmente onde há dificuldades, ou mesmo a impossi-
Arquitetura EG SCG FR bilidade da construção do vetor gradiente.
1-3-1 0.00016 0.00066 0.00030
1-6-1 0.00019 0.00069 0.00031 Referências
1-6-6-1 0.00024 0.01065 0.01395 [1] R. Battiti and F. Masulli. Bfgs optimization for faster
1-6-12-6-1 0.00014 0.00667 0.05779 and automated supervised learning. INNC 90 Paris,
International Neural Network Conference,, pages 757–
760, 1990.
Tabela 2 – Resultados do Treinamento: BFGS, DFP e GRAD
[2] César Daltoé Berci. Observadores Inteligentes
Arquitetura BFGS DPF GRAD de Estado: Propostas. Tese de Mestrado,
1-3-1 0.00032 0.00079 0.01012 LCSI/FEEC/UNICAMP, Campinas, Brasil, 2008.
1-6-1 0.00037 0.00529 0.01197
[3] César Daltoé Berci and Celso Pascoli Bottura. Ob-
1-6-6-1 0.01161 0.00959 0.01342
servador inteligente adaptativo neural não baseado em
1-6-12-6-1 0.00070 0.01060 0.01268
modelo para sistemas não lineares. Proceedings of 7th
Brazilian Conference on Dynamics, Control and Appli-
É possível notar que convergência do método proposto, cations. Presidente Prudente, Brasil, 7:209–215, 2008.
foi também bastante acelerada para este problema, sendo su-
perior aos outros algoritmos testados. Outra característica [4] Jürgen Branke. Evolutionary algorithms for neural net-
marcante observada nos resultados expostos, é a robustez do work design and training. In 1st Nordic Workshop on
método com relação a variações na topologia da rede neu- Genetic Algorithms and its Applications, 1995. Vaasa,
ral, pois devida a estocasticidade inerente ao algoritmo EG, é Finland, January 1995.
possível inferir que o mesmo apresentou o mesmo resultado [5] D.J. Chalmers. The evolution of learning: An ex-
para as várias configurações testadas. periment in genetic connectionism. Proceedings of
the 1990 Connectionist Summer School, pages 81–90,
6. CONCLUSÃO 1990.
O método proposto neste documento, representa uma [6] Charles Darwin. On the Origin of Species by Means
nova abordagem para utilização de métodos meta-heurísticos of Natural Selection, or the Preservation of Favoured
no treinamento de redes neurais artificiais tipo MLP. Races in the Struggle for Life. John Murray, London,
Até então esse procedimento apresentava um desem- 1859.
penho inferior quando comparado a métodos procedurais
de otimização. Esta nova abordagem, porém, mostra- [7] D.C. Dennett. Darwin’s Dangerous Idea: Evolution
se competitiva neste cenário, alcançando resultados com- and the Meanings of Life. Penguim Books, 1995.
paráveis com métodos usuais de treinamento de redes neu- [8] A. Fiszelew, P. Britos, A. Ochoa, H. Merlino, E. Fer-
rais, e ainda preservando características presentes em méto- nández, and R. García-Martínez. Finding optimal neu-
dos meta-heurísticas, como a possibilidade de otimizar fun- ral network architecture using genetic algorithms. Soft-
cionais dos quais não se conhece o gradiente, ampliando a ware & Knowledge Engineering Center. Buenos Aires
sua aplicação a problemas de maior complexabilidade em seu Institute of Technology. Intelligent Systems Laboratory.
modelamento, como o problema proposto em [3]. School of Engineering. University of Buenos Aires.,
O custo computacional elevado, característica de metas 2004.
eurísticas como os algoritmos genéticos, também esta pre-
sente no método proposto, que mostra-se muito mais oneroso [9] C. Fyfe. Artificial Neural Networks. Department of
do ponto de vista do número de cálculos numéricos em sua Computing and Information Systems, The University
execução, do que os outros métodos aqui discutidos. Porém, of Paisley, Edition 1.1, 1996.
fica claro nos exemplos mostrados, que este alto custo com- [10] D.G. Luenberger. Linear and Nonlinear Programming.
putacional, é compensado pela taxa de convergência aceler- Addison-Wesley, 2nd edition, 1984.
ada do método, tornando sua evolução temporal, comparável
a outros algoritmos de treinamento aqui análisados. [11] M.F. Møller. Learning by conjugate gradients. The
6th International Meeting of Young Computer Scien-
tists, 1990.
[12] M.F. Møller. A scaled conjugate gradient algorithm
for fast supervised learning. Computer Science Depart-
ment, University of Aarhus Denmark, 6:525–533, 1990.
[13] D. Montana and L. Davis. Training feedforward neu-
ral networks using genetic algorithms. Proceedings of
the International Joint Conference on Artificial Intelli-
gence, pages 762–767, 1989.
[14] D. E. Rumelhart, R. Durbin, R. Golden, and Y. Chau-
vin. Backpropagation: The basic theory. Lawrence
Erlbaum Associates, Inc., 1995.
[15] D. E. Rumelhart, G. E. Hinton, and R. J. Williams.
Learning internal representations by error propagation,
in: Parallel distributed processing: Exploration in the
microstructure of cognition. Eds. D.E. Rumelhart, J.L.
McClelland, MIT Press, Cambridge, MA., pages 318–
362, 1986.
[16] Udo Seiffert. Multiple layer perceptron training using
genetic algorithms. ESANN’2001 proceedings - Euro-
pean Symposium on Artificial Neural Networks, pages
159–164, 2001.
[17] Zhi-Hua Zhou, Jian-Xin Wu, Yuan Jiang, and Shi-Fu
Chen. Genetic algorithm based selective neural net-
work ensemble. Proceedings of the 17th International
Joint Conference on Artificial Intelligence., 2:797–802,
2001.

You might also like