Redes Neuronales Artificiales

REDES NEURONALES
ARTIFICIALES
1
2
1. Definicin de una red neuronal artificial (RNA).
2. Aspectos histricos de las redes neuronales.
3. Porque usar redes neurales artificiales?.
4. Las redes neuronales biolgicas.
5. Modelo de la red neuronal artificial.
6. Tipos de funciones de activacin.
7. Aplicaciones de RNA en ingeniera, etc.

1. Introduccin
3
No existe consenso para una nica definicin de
las redes neuronales. Algunas definiciones.

DARPA (1988):
Una red neuronal artificial (RNA) es un sistema
compuesto de muchos elementos simples de
procesamiento operando en paralelo y cuyo
funcionamiento est determinado por la estructura
de la red, la robustez de la interligacin y el
procesamiento realizado en lo elementos de clculo.
1.2 Definicin de una RNA (1/3)
Redes Neuronales Artificiales - Introduccin
4
Haykin S. (1994):
Una red neuronal artificial (RNA) es un procesador
distribuido masivamente en paralelo que tiene una
propensin natural para almacenar el conocimiento
de la experiencia y lo hace disponible para uso.
Recuerda al cerebro en dos aspectos:
1. El conocimiento es adquirido por la red a travs de un
proceso de aprendizaje (entrenamiento).
2. Las interligaciones (pesos sinpticos) entre las neuronas son
usadas para almacenar el conocimiento.
5
Zurada J.M. (1992):
Los sistemas neuronales artificiales, o redes
neuronales, son sistemas celulares fsicos que pueden
adquirir, almacenar y utilizar el conocimiento de la
experiencia.
6
a) Antecedentes
1680: John Locke y otros:
especulaciones filosficas sobre la interrelacin entre mente,
memoria y comportamiento humano.
1892-1908: aportes de la neuroanatoma:
- Golgi: visualizacin microscpica de la neurona.
- Santiago Ramn y Cajal: postula que el sistema nervioso es un
sistema complejo de clulas interligadas.
Sculo XVIII: aportes da neurofisiologa:
- Galvani muestra que las clulas nerviosas de los animales
producen electricidad.
1.3 Aspectos histricos de las RNA (1/7)
7
b) Avances iniciales
1943: McCulloch y Pitts propone la primera neurona
artificial.
1949: Hebb, un psiclogo de McGill University, publica
La organizacin del comportamiento y propone la
primera ley de aprendizaje para las redes
neuronales.
1951: Minsky construye el primer neurocomputador, o
Snark.
1958: Frank Rosenblatt introduce el perceptrn.
8
b) Avances iniciales ... (cont)
1960: Widrow y Hoff convierten una regla de
aprendizaje y presentan la red ADALINE
(ADAptive LINear Element).
1969: Minsky y Papert publican Perceptrons y
demuestran las limitaciones de los perceptrones con
una camada (capa), muestra pesimismo para la
extensin a varias capas ocultas (problema XOR).
9
c) Los aos silenciosos
1969-1982: a raiz del libro Peceptrons la investigacin
sobre RNA en pases como Estados Unidos es poco
incentivada.
1972: Teuvo Kohonen, de Helsinki University of
Technology, propone la primera red neuronal de
memoria asociativa.
1974: Paul Werbos convierte el poderoso algoritmo de
entrenamiento backpropagation.
10
d) El resurgimiento
1982: El fsico John Hopfield (Nobel de Fsica) propone
una RNA basada en pesos fijos y activaciones
adaptativas. El difunde las RNA: a fin de que las
mquinas piensen como los humanos es necesario
estudiar el conocimiento humano.
1982: Kohonen propone su mapa auto-organizativo.
1985: David Parker redescubre independientemente el
algoritmo backpropagation. Le Cun tambin en
1986.
11
d) El resurgimiento ... (cont) ...
1986: Los psiclogos David Rumelhart (San Diego) e
James McClelland (CMU), popularizan el
backpropagation publicado en uno de los captulos
del livro deles sobre PDP.
1987: En San Diego (Estados Unidos) es realizada la
primera conferencia internacional IEEE sobre redes
neuronales con 1700 participantes. Es creada la
International Neural Networks Society (INNS).
12
d) El resurgimiento ... (cont)
1988: INNS inicia la publicacin de Neural Networks.
1989: Se inicia la publicacin de Neural Computation.
1990: Se inicia la publicacin de IEEE Transactions on
Neural Networks.
1990 ... : implementaciones de hardware y aplicaciones
en diversas reas del conocimiento.
13
Por ejemplo en las siguientes situaciones:

- El modelo matemtico del sistema no es fcil de
obtener.
- El conocimiento no est en una forma funcional.
- Condiciones de operacin con ruido.
- Soluciones repetitivas para operacin y
funcionamiento en tiempo real (on-line).
1.4 Por que usar redes neuronales
artificiales?
14
Ventajas de las RNA:

- Capacidad de aprender.
- Tiempo de ejecucin mucho ms rpido.
- Agregar o retirar fcilmente variables de entrada.
- Son poco sensibles al ruido.
1.4 Por que usar redes neuronales
artificiales?
15
Conjunto de clulas nerviosas (neuronas) interligadas y
que presentan funciones localizadas por regiones.

1.5 Las redes neuronales biolgicas
estmulos
sensores
Red
neuronal
actuadores
respuesta
respuestas
locales
Diagrama de bloques del sistema nervioso humano
16
Zona Somatosensorial
17
18
Organizacin estructural de niveles en el cerebro
Molculas y iones
Sinapsis
Microcircuitos neurales
rboles dendrticas Neuronas
Circuitos locales
Circuitos interregionales
Sistema nervioso central
19
Modelo de una neurona biolgica
Ncleo
Dendritas (~ 10
-4
)
Soma o
cuerpo celular
Axn
Sinapsis (~ 10
-3
)
20
La Estructura y funcionamiento de una
neurona biolgica son extremamente complejos.

Dendritas.
Excitadoras (peso de conexin positivo).
Inhibidoras (peso de conexin negativo).

Terminales sinpticos: aumentan o disminuyen
a travs de la vida, da los pesos.
21
Potencial de accin (acumulacin de iones):
a partir de un cierto umbral (threshold) o neurona
dispara y produce una serie de pulsos elctricos de
amplitud constante y frecuencia variable
(funcionamiento en frecuencia).
Neurona artificial de amplitud variable.
La excitacin en frecuencia es menos sensible al
ruido, lo contrario es la amplitud.
22
El cerebro posee unas 10
11
neuronas.
La neurona posee mas de 1000 sinapsis.
Las neuronas son direccionables y se conectan a
diferentes neuronas.
El extremo transmisor de una sinapsis est al final del
axn. El extremo receptor pude estar en la dendrita o
en el cuerpo celular.
Despus de disparar la neurona aguarda un cierto
perodo (refractario).
23
La neurona es una unidad de procesamiento de la
informacin y sus elementos bsicos son:
1. Sinapsis o interligaciones, cada una caracterizada
por un peso (+ para peso excitatorio o para
peso inhibitorio).
2. Sumador de las seales de entrada a manera de un
combinador linear.
3. Funcin de activacin para limitar la amplitud de la
salida de una neurona. Tpicamente [0, 1] o [-1, 1].
1.6 Modelo de la neurona artificial
24
Adicionalmente la neurona posee un threshold
( limitador) u
k
que disminuye la entrada de la
funcin de activacin.

Alternativamente la entrada de la funcin de
activacin puede ser aumentada utilizando un
trmino bias (es el negativo del threshold).
Imitacin del proceso de una
neurona biolgica. Puede tambin
asemejarse a un sumador hecho
con un amplificador operacional

26

(.)
w
k1
w
k2
w
kp
u
k
Funcin de
activacin
Salida
y
k
u
k
(threshold)
x
1
x
2
x
p
Sinapsis
de entrada
Pesos
sinpticos
Unin
sumadora
...
27
Matemticamente la neurona se representa por
las ecuaciones:

=
=
p
j
j kj k
x w u
1
( ) ( )
k k k k
v u y u = =
28
En la figura anterior:
x
1
, x
2
, ..., x
p
= sinapsis de entrada.
w
k1
, w
k2
, ..., w
kp
= pesos sinpticos de la neurona k.
u
k
= salida del combinador linear.
(.) = funcin de activacin.
y
k
= seal de salida de la neurona k.
29
u
k
> 0
u
k
= 0
u
k
< 0
u
k

v
k

0
Transformacin afin producida por la presencia de un threshold
30
Igualmente, se adiciona una sinapsis de entrada
y peso: x
0
= -1, w
k0
= u
k

( )
k k
p
j
j kj k
v y
x w v
=
=
=0
31

(.)
w
k1
w
k2
w
kp
v
k
Funcin de
activacin
Salida
y
k
x
1
x
2
x
p
Pesos sinpticos
(incluyendo threshold)
Unin
sumadora
...
w
k0
x
0
= -1
Modelo de neurona no lineal (threshold incluido)
w
k0
= u
k

32

(.)
w
k1
w
k2
w
kp
v
k
Funcin de
activacin
Salida
y
k
x
1
x
2
x
p
Pesos sinpticos
(incluyendo bias)
Unin
sumadora
...
w
k0
x
0
= 1
Modelo de neurona no lineal (bias incluido)
w
k0
= b
k
(bias)
33
1.7 Tipos de funciones de activacin
-1
-1
1
1
sign(v)
x e {-1, 1}
m
y e {-1, 1}

Unidad threshold
(Perceptron lineal)

34
-1
-1
1
1
identidade
x e 9
m
y e 9
Unidad lineal
(Perceptron lineal)

35
-1
-1
1
1
Identidad saturada
x e 9
m
y e 9
Unidad lineal
saturada
(ADALINE)

36
-1
-1
1
1
y = tanh(| v)
Unidad
no-lineal
(sigmoide)

y
x e 9
m
y e [-1, 1]
| = inclinacin
37
-1 0 1
1
y = (.)= [1 + exp(-2 | v)]
-1
x e 9
m
y e [0, 1]
| = inclinacin
Unidad
no-linear
(sigmoide)

y
38
-1 0 1
1
y = (.)= exp[ -(v - c
i
)
2
|2o
2
| ]

x e 9
m
y e [0, 1]

c
i
= centro
o = largo
Unidad de
funcin de
base radial
(RBF)

y
Funcin de ativacin
Gaussiana
39
0
1
y = (.)= 1 (unidad i* mas estimulada)
y = (.)= 0 (caso contrario)

x e 9
m
y e {0, 1}
Unidad o
ganador toma
todo
(Mapa auto-
organizativo)

y
1.8. Aplicaciones
Tipos de problemas abordables:
Asociacin
Clasificacin de Patrones
Prediccin
Control
Aproximacin
Optimizacin
En general:
Difcil describir conocimiento/forma de resolverlos
Se dispone de una gran cantidad de datos
Problemas de Asociacin
NETalk (Sejnowski & Rosemberg):
A partir de textos escritos genera
gonemas correspondientes.
Mejoras durante aprendizaje
Tratamiento de imgenes:
Ruido placas matrculas
Restitucin
Compresin de Imgenes:
Problemas de Clasificacin de Patrones
Conteo de clulas:
Clasificacin de glbulos
blancos

Inspeccin visual:
Seguimiento de pupila
Problemas de Prediccin
Airline Marketing Tactician
(AMT):
Monitoriza y recomienda la reserva
de plazas

Neuralstocks:
Servico de predicciones financieras
a corto plazo
Problemas de Control
Control de robots:
Cinemtica inversa
Dinmica

ALVINN:
Conduccin de
vehculo
Problemas de Aproximacin

Aproximacin de
funciones utilizando RBFs
Problemas de Optimizacin
Optimizacin de rutas:
TSP
Aplicaciones en Astronoma/Astrofsica
Reconocimiento de estrellas/galaxias
Clasificacin espectral y morfolgica de
estrellas/galaxias
Estudios de superficies planetarias
Estudio del campo magntico interplanetario
Determinacin de parmetros en atmsferas
estelares
Clasificacin de poblaciones de enanas blancas
Redes Neuronales Artificiales

1. Introduccin.
2. Modelos bsicos y reglas de aprendizaje.
3. Red neuronal de retropropagacin.
4. Sistemas auto-organizativos.
5. Redes neuronales recurrentes.
47
1. Definicin de red neuronal artificial (RNA).
2. Tipos de redes neuronales artificiales.
3. Aprendizaje en RNA.
4. Aprendizaje de correccin de errores.
5. Aprendizaje Hebbiano.
6. Aprendizaje competitivo.
7. Aprendizaje de Boltzmann.
2. Modelos bsicos y reglas de
aprendizaje de RNA
48
Las redes neuronales artificiales (RNA) son
sistemas de procesamiento de informacin con
algunas caractersticas de las redes neuronales
biolgicas (RNB), obtenidas despus de un
entrenamiento o aprendizaje.

RNA RNB
2.1 Definicin de RNA
Redes Neuronales. Modelos bsicos y reglas de aprendizaje de RNA
49
Una RNA est compuesta de muchas unidades
(clulas, procesadores o neuronas) interligadas
que transmiten o conducen datos numricos
como un procesador distribudo masivamente
paralelo. Las interconexiones almacenan el
conocimiento y se denominan pesos sinpticos.
Cada neurona tiene un estado interno o
activacin que es funcin de las entradas
recibidas.
2.1 Definicin de RNA
Redes Neuronales. Modelos bsicos y reglas de aprend50izaje de RNA
50
aprendizaje de RNA
51
a) Aprendizaje supervisado:
Perceptron, Adaline, Madaline.
Backpropagation.
Learning vector quantization (LVQ).
Backpropagation through time.
2.2 Tipos de RNA

2.2.1 Segn el tipo de aprendizaje
52
b) Aprendizaje no supervisado:
Teora resonante adaptativa (ART).
Mapa auto-organizativo de Kohonen (SOM).
Memoria asociativa bidireccional (BAM).
Counterpropagation.
2.2 Tipos de RNA

2.2.1 Segn el tipo de aprendizaje
53
a) Redes en camadas
Perceptron de una camada
Perceptron multicamada (MLP).
b) Redes neuronales recurrentes
c) Redes reticuladas
2.2 Tipos de RNA

2.2.2 Segn la arquitectura
54
Vector
de salida
y
Vector de
entrada
x

Neuronas o unidades
de entrada x
Perceptron de una camada
w
(.)
(.)
Neuronas de
salida y
Camada de
pesos
55
Vector de
entrada
x

Neuronas o unidades
de entrada x
Perceptron multicamada
(.)
Neuronas de
salida y
(.)
(.)
(.)
(.)
(.)
Neuronas
escondidas z
1 camada
de pesos
2 camada
de pesos
Vector de
salida y
w
1
w
2
56
Vector de
entrada
x

Neuronas o unidades
de entrada x
Perceptron multicamada
Neuronas
de salida y
Neuronas
escondidas z
1 camada
de pesos
2 camada
de pesos
Vector de
salida y
w
1
w
2
57
RNA recurrente
Neuronas
escondidas
salida

z
-1
z
-1
z
-1
58
Usan un delay z
-1
a fin de evitar saturacin.
Hopfield establece que pueden ser estables cuando
las unidades no tienen realimentacin de ellas
mismas.
2.2 Tipos de RNA

Redes recurrentes o realimentadas
59
RNA reticulada (bidimensional)
60
Arreglo muy utilizado en redes auto-organizadas de
aprendizaje tipo competitivo.
Se actualiza la neurona que gan la competencia.
El cerebro humano posee funciones como estas
redes neuronales.
2.2 Tipos de RNA

Redes reticuladas
61
Generalmente son usadas neuronas no lineales
para aplicaciones prcticas, excepto en las
camadas de salida donde pueden ser lineales.
Deben usarse como mnimo dos camadas de
pesos sinpticos porque posibilitan aplicaciones
prcticas.
2.2 Tipos de RNA

Arquitectura a ser adoptada - recomendaciones
62
aprendizaje de RNA
63
El aprendizaje es un proceso en el cual los
parmetros libres de una RNA son alterados
por la estimulacin continua causada por el
ambiente en el cual la red se encuentra.

El tipo de aprendizaje es determinado por la
manera en que los parmetros de la RNA son
alterados.
2.3 Aprendizaje en RNA
64
Estmulo Adaptacin
Nuevo
comportamiento
de la RNA
65
Interconexin de los pesos sinpticos:
j k
w
kj
( ) ( ) ( ) n w n w n w
kj kj kj
A + = +1
66
Un conjunto bien definido de reglas para la
obtencin de Aw
kj
es denominado algoritmo de
aprendizaje

La manera por la cual el ambiente influencia la
red en su aprendizaje define el paradigma de
aprendizaje para el sistema completo.
67

El objetivo final del aprendizaje en RNA es la
obtencin de un modelo implcito de los
conocimientos adquiridos. (En los sistemas
expertos el conocimiento es explcito).
68
Algoritmos de aprendizaje:

Correccin de errores (backpropagation).
Mquina de Boltzmann (simulated annealing).
Ley de Hebb.
Competicin.
69
Paradigmas de aprendizaje:

Aprendizaje supervisado.
Aprendizaje no supervisado
(auto-organizado).
70

RNA

Proceso

e = y
k
- y
k
d
y
k
d
y
k

+

-

x
k

Entrenamiento supervisado
71
Aprendizaje supervisado:
Funcin objetivo:
E
k
(w) = 0.5 { y
k
(w) y
k
d
(w) }
2
La funcin de coste error cuadrado ms frecuentemente
usada es:

Problema de optimizacin:
min { E
k
(w) }
72
1. Escoger un vector de pesos inicial w
1
y hacer k=1
2. Determinar la direccin de ajuste p
k
y la tasa de
ajuste q
k
de forma que:
E(w
k
+ q
k
p
k
) < E(w
k
)

3. Actualizar el vector de pesos:
w
k+1
= w
k
+ q
k
p
k

4. Si cE(w
k
)/cw = 0, hacer k=k+1 y volver al paso 2,
en caso contrario w
k+1
es el mnimo deseado.
Algoritmo bsico del entrenamiento supervisado
73
1943: Propuesta de la primera neurona artificial.
Warren McCulloch :
Mdico, filsofo, matemtico, poeta.
Walter Pitts:
Estadstico.
Bulletin of Mathematical Byophisics, A Logical
Calculus of the Ideas Immanent in Nervous
Activity

La neurona de McCulloch Pitts
74
La neurona de McCulloch Pitts
Una o dos entradas a la neurona
Las entradas son multiplicadas
por sus respectivos pesos
Si la suma del producto exceden
el threshold, la neurona se
dispara(activa)
75
Introducido por Frank Rosenblatt

1. La activacin es binaria (0 1)
2. Las neuronas estn conectadas por caminos (paths) o
trayectorias dirigidas ponderadas.
3. Una conexin es excitatoria (inhibitoria) si el peso es
positivo (negativo).
4. Cada neurona tiene un umbral fijo tal que si la entrada
neta es mayor que el umbral, la neurona dispara. La
inhibicin es absoluta.
5. Toma un paso de tiempo para que una seal pase sobre
un enlace de conexin.
El Perceptrn
Redes Neuronales. El Perceptrn
76
77

(.)
w
k1
w
k2
w
kp
v
k
Funcin de
activacin
Salida
y
k
x
1
x
2
x
p
Pesos sinpticos
(incluyendo bias)
Unin
sumadora
...
w
k0
x
0
= 1
Modelo de neurona no lineal (bias incluido)
w
k0
= b
k
(bias)
Qu tipo de problemas resuelve?
Un hiperplano es un objeto de dimensin n-1 que
acta en un espacio de dimensin n.
En general un perceptron de n entradas puede
ejecutar cualquier funcin que est determinada
por un hiperplano que corte un espacio de
dimensin n. Implicaciones?
QUE ES SEPARABILIDAD LINEAL
Para el caso de patrones en un espacio tridimensional, la
clasificacin entre categoras estara definido por un plano.

1. En el modelo de la neurona de McCulloch y
Pitts la salida de una neurona toma el valor 1 si
el nivel de actividad interna total de aquella
neurona es no negativa y 0 en caso contrario.

2. Propiedad del todo o nada.
El Perceptrn
80
La neurona de McCulloch y Pitts puede ser
modelada como un discriminador lineal de
entradas binarias.

El Perceptrn
(2) ] 1 ; 1 [ sgn
(1) ] 1 ; 0 [
1
1
e
|
|
.
|
\
|
u =
e
|
|
.
|
\
|
u =
=
=
y x w y
y x w y
p
j
k j kj k
p
j
k j kj k
81
La ecuacin 2 representa un hiperplano dividiendo
el espacio euclidiano en 2 regiones A y B.

El Perceptrn
1 0 0
1 0
= e < u
= e > u
y B x x w
y A x x w
T
T
82
A
B
x
2
0

=
u =
p
j
k j kj
x w
1
x
1
El Perceptrn
x
1
x
2
Colecciones
linealmente
separables
83
x
1
x
2
(0,0) (1,0)
(1,1)
(0,1)
1
0
1
1
Notar que el vector
de pesos es
perpendicular al
hiperplano. Esta
caracterstica se extiende
a dimensin n.
u =
=
i
n
i
i
x w
1
u = +
i i i i
x w x w
|
|
.
|
\
|
+
|
|
.
|
\
|
=
2
1
2
1
2
w
x
w
w
x
u
b mx x + =
1 2
Si hacemos w1=1, w2=1 y theta=0.5, tenemos:
Ecuacin del hiperplano
Ejemplo de 2 dimensiones Normalmente
el espacio es multidimensional
x
1
x
2
Funciones booleanas de 2 variables representadas en el plano binario
A
B
(1,1)
(1,0) (0,0)
(0,1)
AND
86
El Perceptrn
x
1
x
2
y
1
1
1
(y
1
) = y
u = 2 (threshold)
x
1
x
2
y

1 1 1
1 0 0
0 1 0
0 0 0
Funcin AND
87
x
1
x
2
A
B
(1,1)
(1,0) (0,0)
(0,1)
OR
88
El Perceptrn
x
1
x
2
y
1
2
2
(y
1
) = y
u = 2 (threshold)
x
1
x
2
y

1 1 1
1 0 1
0 1 1
0 0 0
Funcin OR
89
u = +
i i i i
x w x w
0 ) 1 ( = + + u
i i i i
x w x w
0 = + u
i i i i
x w x w
Ajuste del valor del valor de umbral como un peso ms.
W X=0
(producto punto = qu tan alineados estn)
W
X
W X>0
W
X
W X=0
W
X
W X<0
Si W X >= 0, y = 1; Si W X < 0, y = 0
Qu pasa si no se
obtiene el resultado
deseado?
Se requiere de un
ajuste.
Cmo?,
De qu valor?
Para entender mejor al procedimiento de entrenamiento, vamos a introducir
una representacin vectorial.
W
X
W=W+ oX
W
oX
W
oX
W
X
W=W-oX
Si el resultado es 0
en lugar de 1:
En resumen:
donde 0< o <1
Si el resultado es 1
en lugar de 0:
w = w + o(t-y)x
Aw = o(t-y)x
A esto se le
llama Regla
Delta de
aprendizaje.
El parmetro o
es la razn de
aprendizaje.
Regla Delta
Los patrones de entrenamiento estn constituidos por pares de
valores que son el vector de entrada y su salida deseada
La regla Delta utiliza la diferencia entre la salida producida para
cada patrn (p) y la deseada
Se calcula una funcin de error para todo el conjunto de patrones:
Ejemplo: Superficie de error con 2
pesos/entradas.

b
0

b
1

94
funcin de error
w
Error
2
0
2
>
c
c
w
error
Disminuyo w
Me quedo quieto
0
2
<
c
c
w
error
Aumento w
La clave, reside en el calculo de las DERIVADAS PARCIALES DEL ERROR,
respecto a los PESOS. Una LEY de APRENDIZAJE implica como usaremos esas
derivadas para cambiar los pesos

0
2
=
c
c
w
error
output Error
2
= (objetivo-output)
2
s
w
error
c
c
2
Cambio los pesos en la direccin en que se minimiza Error
2

APRENDIZAJE / ENTRENAMIENTO
97
funcin de error
Una generalizacin de la frmula o regla para decir los cambios en
los pesos es la siguiente:

Peso Nuevo = Peso Viejo + Cambio de Peso

Matemticamente esto es:
w
ij
(t+1) = w
ij
(t) + w
ij
(t)
donde t hace referencia a la etapa de aprendizaje, w
ij
(t+1) al peso
nuevo y w
ij
(t) al peso viejo.

w
ij
(t+1) = w
ij
(t) o[E
2
/w)]x = w
ij
(t) + oEx = w
ij
(t) + o(d-y)x

La regla de aprendizaje Delta o regla del
mnimo error cuadrado (LMS Error: Least
Mean Squared Error)
La tasa de aprendizaje controla la velocidad de convergencia de
los pesos sinpticos iniciales hacia los ideales. La seleccin del
valor para esta tasa tiene un efecto significativo en el rendimiento
de la red. Normalmente, debe ser un nmero pequeo, del orden
de 0 a 1, para asegurar que la red aprende correctamente, si es
demasiado grande se puede llegar a una situacin en la que se
oscila alrededor de los pesos ptimos sin llegar nunca a ellos, si es
demasiado pequeo el proceso se ralentizar mucho, corriendo
adems el riesgo de caer en un mnimo local.
En el proceso de entrenamiento a la red se le presenta un conjunto
de ejemplos, que recibe el nombre de poca. El aprendizaje se
realiza poca a poca hasta la estabilizacin de pesos y la
convergencia del error al mnimo.
Importancia de la tasa de aprendizaje
Entrenamiento del Perceptrn
repetir
para cada par en los vectores de entrenamiento (x,t)
evaluar la salida y
i
cuando x
i
es la entrada al ...
perceptron
si y = t, entonces
forme un nuevo vector de pesos w de acuerdo a...
la ecuacin correspondiente
de otra manera,
no haga nada
fin (del si)
fin (del para)
hasta que y = t para todos los vectores.

Los valores de los pesos para este caso estn restringidos entre -1 y 1.
101
Paso1: Inicializacin de los pesos y del umbral
Inicialmente se asignan valores aleatorios a cada uno de los pesos
(w
i
) de las conexiones y al umbral (-w
0
= u).
Paso 2: Presentacin de un nuevo par (Entrada, Salida esperada)
Presentar un nuevo patrn de entrada X
P
= (x
1
, x
2
, ..., x
N
) junto con la
salida esperada d(t).
Paso 3 : Clculo de la salida actual
y= f[Ew(t)x(t) - u]
Siendo f(x) la funcin de transferencia escaln.
Paso 4: Adaptacin de los pesos
w(t+1) = w
ij
(t) + o(d-y)x
donde d(t) representa la salida deseada y ser 1 si el patrn pertenece
a la clase A, y -1 o 0 si es de la clase B.
Paso 5 : Volver al paso 2

Entrenamiento del Perceptrn
Perceptron Learning Rule
t=1
t=-1
w=[0.25 0.1 0.5]
x
2
= 0.2 x
1
0.5
o=1
o=-1
(x,t)=([-1,-1],1)
o=sgn(0.25+0.1-0.5)
=-1
Aw=[0.2 0.2 0.2]
(x,t)=([2,1],-1)
o=sgn(0.45-0.6+0.3)
=1
Aw=[-0.2 0.4 0.2]
(x,t)=([1,1],1)
o=sgn(0.25-0.7+0.1)
=-1
Aw=[0.2 0.2 0.2]
Ejemplo: funcin AND
El Perceptrn
x
1
x
2
y
1
2
-1
(y
1
) = y
u = 2 (threshold)
x
1
x
2
y

1 1 0
1 0 1
0 1 0
0 0 0
Funcin AND NOT
110
Si los patrones o vectores de entrada son linealmente separables, entonces la
regla delta en un nmero finito de pasos encontrar un conjunto de pesos que
clasificar las entradas correctamente. La constante de aprendizaje debe ser
mayor que 0.
Por ejemplo, sean cuatro patrones de entrada aumentados representados por el
hiperplano de la figura. Las flechas indican sobre que lado de cada hiperplano,
el vector de pesos debe estar para que pueda clasificar correctamente los
patrones de entrada. Los patrones estn presentados en secuencia:
1,2,3,4,1,2,3,4, etc.
Comentarios acerca de la regla delta
El tamao que se considere para la constante de aprendizaje
determina que tan rpido el algoritmo pueda converger a una
solucin. El valor de la constante de aprendizaje puede ser
seleccionado en el rango entre 0,01 y 1.0. El valor ms comn
de comienzo es 0,1.
Una limitacin de la regla delta es que no funciona si los
vectores de entrada no son linealmente separables. Es decir
totalmente independientes. Esto producira procesos de
bsqueda de solucin cclica oscilando continuamente.
Para patrones mayores de tres dimensiones, el TLU implementara
hiperplanos. Supongamos que queremos separar los patrones de
entrada en ms de dos categoras. Veamos los ejemplos anteriores
acerca de la clasificacin del OR, AND y NAND.
OR
AND
NAND
Agrupados en una sola red con tres salidas, una para cada
categora sera:
z
1
= 1 solamente cuando la entrada pertenece a la clase 1
z
2
z
3
OR
AND
NAND
Aplicacin del Perceptrn
Se desea realizar un clasificador de 4 tipos diferentes de cajas
usando 6 sensores
x
1
x
2
A
B
(1,0) (0,0)
(0,1)
XOR
B
(1,1)
117
Ejemplo: Solucin al problema XOR
Si empleamos dos neuronas todo-nada:
y1 = H( x1 - x2 + 0.5)
y2 = H( x1 - x2 0.5)
En base a estos
resultados, un MLP
que resuelve el
problema XOR puede
ser el siguiente:
Ejemplo de redes neuronales artificiales (ANN) con mltiples capas

Este ejemplo de un multilayer neural network es capaz de resolver el problema
del XOR

El Perceptrn
z
1
z
2
y
1
2
-1
(y
1
) = y
Umbrales de z
1
, z
2
, y
1
: u = 2
x
1
x
2
y

1 1 0
1 0 1
0 1 1
0 0 0
Funcin XOR
x
1
x
2
-1
-1
2
2
120
El Perceptrn
N
3
N
4
N
5
2
2
Limiares = ?
N
1
N
2
2
1
1
-1
EPC: Definir N
5
en trminos de las activaciones N
1
y N
2
.
121
El Perceptrn
x
1
x
2
Colecciones
no linealmente
separables
122
Problemas de Clasificacin
Example: Voice Recognition
Task: Learn to discriminate between two
different voices saying Hello

Data
Sources
Steve Simpson
David Raubenheimer
Format
Frequency distribution (60 bins)
Analogy: cochlea
Network architecture
Feed forward network
60 input (one for each frequency bin)
6 hidden
2 output (0-1 for Steve, 1-0 for David)

Presenting the data
Steve
David
Presenting the data (untrained network)
Steve
David
0.43
0.26
0.73
0.55
Calculate error
Steve
David
0.43 0 = 0.43
0.26 1 = 0.74
0.73 1 = 0.27
0.55 0 = 0.55
Backprop error and adjust weights

Steve
David
0.43 0 = 0.43
0.26 1 = 0.74
0.73 1 = 0.27
0.55 0 = 0.55
1.17
0.82

Redes Neuronales Artificiales

Uploaded by

Document Information

Original Description:

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Redes Neuronales Artificiales

Uploaded by

Copyright:

Available Formats

REDES NEURONALES

You might also like