Professional Documents
Culture Documents
• dada uma rede neural artificial, seja w(k) um peso sináptico de um dado neurônio,
no instante de tempo k. O ajuste ∆w(k) é aplicado ao peso sináptico w(k) no
instante k, gerando o valor corrigido w(k+1), na forma:
w(k+1) = w(k) + ∆w(k)
2 Aprendizado supervisionado
• exemplos de problemas de engenharia que podem ser apresentados na forma de
um problema de aprendizado supervisionado:
classificação e reconhecimento de padrões
predição de séries temporais
identificação de sistemas
controle de processos
projeto de filtros em processamento de sinais
(a) (b)
(c) (d)
Figura 4 – (a) Função a ser aproximada; (b) Amostras disponíveis; (c) Resultado de
um processo de interpolação; (d) Resultado de um processo de aproximação.
(a) (b)
n n
f (w, x) = w0 + ∑ w j h j (x) = ∑ w j h j (x) , com h0(x) = 1.
j =1 j =0
h0 (x1 ) h1 (x1 ) L hn ( x1 )
h (x ) h (x ) L hn (x 2 )
H = [h 0 h1 L hn ] = 0 2 1 2
M M O M
h0 ( x N ) h1 (x N ) L hn (x N )
Hw = s com w = [w0 w1 L wn ]T
H T Hw = H T s ⇒ w = H T H ( )
−1
HT s
4 5
4
3
3
2
2
1 1
0
0 0 2 4 6 8 10
0 2 4 6 8 10
5 7
6
4
5
3
4
2 3
1 2
1
0
0 2 4 6 8 10
0
0 2 4 6 8 10
(1,0) (1,1)
y=0
y=1
x
1
(0,0) (0,1)
1 w0
u y
x1 w1 g
x2 w2
• para qualquer valor dos parâmetros w0 , w1 e w2, a função g(u) separa o espaço de
entradas em duas regiões, sendo que a curva de separação é uma linha reta.
0.5
0
5
5
0
0
x2 -5 -5 x1
Figura 8 – Mapeamento de entrada-saída para o perceptron da Figura 7,
com w0 = −6, w1 = 4 e w2 = 3
• no problema do OU-exclusivo (Figura 6), pode-se constatar que não existe uma
única linha reta divisória de forma que os pontos (0,0) e (1,1) se posicionem de
um lado enquanto que (0,1) e (1,0) permaneçam do outro lado da linha.
• logo, pode-se imediatamente concluir que um neurônio tipo perceptron não
apresenta grau de liberdade suficiente para resolver o problema proposto, o que foi
corretamente constatado por Minsky & Papert, em 1969.
• no entanto, esses autores também acreditavam que não havia razão para supor que
redes multicamadas pudessem conduzir a uma solução para o problema proposto.
Esta hipótese só foi definitivamente rejeitada com o desenvolvimento do
algoritmo de retro-propagação (back-propagation), já nos anos 80, o qual permite
o ajuste automático de pesos para redes neurais multicamadas, arquitetura
necessária para a realização de mapeamentos não-lineares, como será verificado
mais adiante.
w10 1 w0
1 w11
z1 y
g w1 g
w12
x1
w20 z2
g w2
x2 w21
w22
• surge uma questão: existem parâmetros wij (i=1,2; j=0,1,2) e wk (k = 0,1,2) tais
que y = 0 para as entradas (0,0) e (1,1) e y = 1 para as entradas (1,0) e (0,1)?
• as saídas da primeira camada (z1 e z2) podem ser consideradas como variáveis
intermediárias utilizadas na geração da saída y.
• do que já foi visto a respeito de um neurônio tipo perceptron, sabe-se que existem
pesos w1j (j=0,1,2) tais que (veja curva de separação L1 na Figura 10(a)):
(0,1) produza z1 = 1
(0,0),(1,0),(1,1) produza z1 = 0.
• de forma similar, existem pesos w2j (j=0,1,2) tais que (veja curva de separação L2
na Figura 10(a)):
(0,1),(0,0),(1,1) produza z2 = 1
(1,0) produza z2 = 0
L2
x z
1 1
(0,0) (1,0) (0,0)
(a) (b)
x
1
• partindo das conclusões extraídas da seção anterior, é possível afirmar que cada
um dos três segmentos de reta que delimitam a região A pode ser representado por
um neurônio tipo perceptron. Tomando-se a função booleana AND das saídas
destes três perceptrons, a saída y pode ser feita 1 quando (x1,x2) ∈ A e 0 quando
(x1,x2) ∈ B. A estrutura desta rede é apresentada na Figura 12.
w10
w11
w12
1 g
w20
x1 w21 g AND y
w22
x2 g
w30
w31
w32
x
2
x
1
u1 y1
g
1
c0
x
b1
c1
y
1
a2
c2
u2 y2
g
x
b2
a : deslocamento no eixo x
y = c0 + c1 g (b1 x + a1 ) + c2 g (b2 x + a 2 ) ⇒ b : inclinação da sigmóide
c : amplitude da sigmóide
Tópico 1.2: Modelos e Aplicações de Redes Neurais Artificiais (Parte II) 24
EA072 – Prof. Fernando J. Von Zuben
DCA/FEEC/Unicamp
a b c d e
1 1 1 1 1
0.4 0.4
a
0.2 0.2
b e
0 0
-0.2 -0.2
-0.4 -0.4
-1 0 1 -1 0 1
0.6 0.6
-0.2 -0.2
-0.4 -0.4
a+b
-0.6 -0.6
a+b+c+d+e
-0.8 -0.8
-1 0 1 -1 0 1
0.6 0.6
0.4 0.4
0.2 0.2
d
0 0
-0.2 -0.2
-0.4 -0.4
-1 0 1 -1 0 1
1
1
0.8 0.8
0.6
0.6 f (vTx)
f ( x) j 0.4
j
0.4 0.2
0
0.2 4
2 4
0 2
0
0 -2
-4 -2 0 2 4 x2 -2
-4 -4 x1
x
2
x
− 0 , 5 ⋅ [1 0 ] 1
− 0 , 5⋅ x 2
(a) f j ( x) = e (b) f j ( v T x ) = e x2
w0 onde
1
x = [x0 x1 ... xn]T, x0 = 1
w1
x w = [w0 w1 ... wn]T
1
u
g y n
wn u(w) = wTx = ∑ wi xi
i =0
xn
y(w) = g(u(w))
Figura 16 – Neurônio do tipo perceptron
Dado um estado inicial w0, conduzir o neurônio para um estado final wf tal que,
para um determinado conjunto de dados de entrada-saída x l , yd l ( )lN=1 , a saída y do
neurônio assuma valores os mais próximos possíveis das saídas desejadas yd l ,
Dado um estado inicial w0, conduzir o neurônio para um estado final wf tal que,
para um determinado conjunto de dados de entrada-saída x l , yd l ( )lN=1 , a função erro
quadrático:
seja minimizada.
• como não existe uma solução na forma fechada para o problema de otimização
min J (w ) , deve-se recorrer a um processo de busca iterativo.
w
w (k + 1) = w (k ) − α∇J ( w (k ))
∂J ∂g (ul ( w ( k )) )
=wi(k) − α ∑ (g (ul ( w ( k )) ) − yd l ) ⋅
N
wi(k+1 )=wi(k) − α ⋅ xli , i=0,...,n (1)
∂wi (k ) l =1 ∂ul ( w ( k ))
1
x1
.
.. e e
wm s
x m0 0
xsp0 wp0
xn 1
e
wm s
1 wp1
e
um yme ups
g g ys
p
e
wm s
n wpm
Solução proposta: Neste caso, a solução também pode ser obtida com o auxílio da
equação:
w (k+1) = w (k ) − α∇J (w (k ) ) (3)
• para aplicar a equação (3) no processo de ajuste dos pesos da rede neural, basta
calcular ∇J (w (k ) ) , associado ao valor do vetor de pesos w no instante k:
= (g (ulis (w ) ) − yd li ) s xlijs
∂J N ∂J l ∂ulis N ∂J li dg ∂ulis N dg
s ∑
= =∑ s ∑
∂wij l =1 ∂uli ∂wij l =1 ∂g duli ∂wij l =1
s s s
duli
e então obtém-se:
∂J N ∂J l ∂ulj ∂J l dg ∂ulj N p
∂J dg e
e N e
= ∑ = ∑ = ∑ ∑ sli e xljk=
∂w jk l =1 ∂ulj ∂w jk l =1 ∂g dulj ∂w jk l =1 i=1 ∂xlij dulj
e e e e e
(( ) )
N p
dg s dg e
= ∑ ∑ g ulis (w ) − yd li wij xljk
l =1 i=1 dulis dulje
• se, na rede neural da Figura 17, forem incluídas múltiplas camadas entre as
camadas de entrada e saída, o procedimento de obtenção das derivadas parciais vai
ser o mesmo empregado acima, apenas exigindo um maior número de aplicações
da regra da cadeia. Logo, a extensão para mais de uma camada intermediária é
sempre possível.
• conjunto de treinamento
♦ k = k + 1;
♦ calcule J (w (k ) ) ;
α = rα ;
N
∑ ∇J l (w (k ) )
w prov
(k + 1) = w (k ) − α l =1
N
(
; calcule J w prov ( k + 1) ; )
∑ ∇J l (w (k ) )
l =1
♦ k = k + 1; w(k ) = w prov
( )
(k ) ; J (w(k )) = J w prov(k ) ; α = qα ; calcule J (w (k ) ) ;
2. encontrar a solução exata deste problema é uma tarefa muito mais custosa
computacionalmente que o método aproximado empregado acima.
Obs: Os algoritmos apresentados acima utilizam leis de ajuste que não empregam o
termo de momento e também não aplicam a normalização sobre α, os quais podem
ser prontamente incorporados.
5 Referências bibliográficas
GERAIS
HAYKIN, S. “Neural Networks: A Comprehensive Foundation”, 2nd edition, Prentice Hall, 1999.
HECHT-NIELSEN, R. “Neurocomputing”, Addison-Wesley Publishing Company, 1990.
HERTZ, J., KROGH, A. & PALMER, R.G. “Introduction to the Theory of Neural Computation”, Addison-Wesley Publishing Company, 1991.
SCHALKOFF, R.J. “Artificial Neural Networks”, The McGraw-Hill Companies, 1997.
REDES MLP
BARRON, A.R. “Universal approximation bounds for superpositions of a sigmoidal function”, IEEE Transactions on Information Theory,
vol. 39, no. 3, pp. 930-945, 1993.
COTTER, N.E. “The Stone-Weierstrass Theorem and Its Application to Neural Networks”, IEEE Transactions on Neural Networks, vol. 1,
no. 4, pp. 290-295, 1990.
CYBENKO, G. “Approximation by superposition of sigmoidal functions”, Mathematics of Control, Signals and Systems, vol. 2, no. 4, pp.
303-314, 1989.
FUNAHASHI, K.-I. “On the approximate realization of continuous mappings by neural networks”, Neural Networks, vol. 2, no. 3, pp. 183-
192, 1989.
HORNIK, K. “Approximation capabilities of multilayer feedforward networks”, Neural Networks, vol. 4, no. 2, pp. 251-257, 1991.
HORNIK, K., STINCHCOMBE, M., WHITE, H. “Universal approximation of an unknown function and its derivatives using multilayer
feedforward networks”, Neural Networks, vol. 3, no. 5, pp. 551-560, 1990.
HORNIK, K., STINCHCOMBE, M., WHITE, H., AUER, P. “Degree of Approximation Results for Feedforward Networks Approximating
Unknown Mappings and Their Derivatives”, Neural Computation, vol. 6, no. 6, pp. 1262-1275, 1994.
HORNIK, K., STINCHCOMBE, M., WHITE, H. “Multi-layer feedforward networks are universal approximators”, Neural Networks, vol. 2, no.
5, pp. 359-366, 1989.