Professional Documents
Culture Documents
Y EVOLUTIVA
PERCEPTRON MULTICAPA
INTRODUCCION
El Perceptrón Multicapa (MLP, Multilayer Perceptron) al
igual que la mayoría de las redes neuronales artificiales,
crean modelos a partir de multiplicadores, sumadores,
funciones, etc. El perceptrón multicapa (Rumelhart et al.,
1986) es el exponente más típico de las redes
neuronales artificiales con aprendizaje supervisado.
1
Introducción
El entrenamiento de estas redes, se basa en la
presentación sucesiva y de forma reiterada, de pares de
vectores en las capas de entrada y salida (vectores
entrada y salida deseada). La red crea un modelo a
base de ajustar sus pesos en función de los vectores de
entrenamiento, de forma que a medida que se pasan
estos patrones, para cada vector de entrada la red
producirá un valor de salida más similar al vector de
salida esperado. Estas redes también se llaman de
retropropagación (backpropagation), nombre que viene
dado por el tipo de aprendizaje que utilizan.
INTRODUCCION
2
Red Multicapa
3
BACKPROPAGATION
4
BACKPROPAGATION
BACKPROPAGATION
5
BACKPROPAGATION
El Backpropagation Standard es el algoritmo de descenso
del gradiente donde los pesos de la red son movidos a lo
largo de la dirección negativa del gradiente (Es donde se
minimiza para obtener T).
Existen varias técnicas como lo son:
• El algoritmo del gradiente conjugado.
• El algoritmo de Newton.
En ultima instancia lo que busca este algoritmo del
Backpropagation es el entrenamiento de Redes Neuronales
Feedforward, con las cuales podemos resolver problemas
específicos como: Aproximación de Funciones,
clasificación, asociación de vectores, etc.
BACKPROPAGATION
6
BACKPROPAGATION
BACKPROPAGATION
7
BACKPROPAGATION
BACKPROPAGATION
8
BACKPROPAGATION: RESUMEN
9
BACKPROPAGATION: RESUMEN
BACKPROPAGATION: RESUMEN
10
BACKPROPAGATION: RESUMEN
BACKPROPAGATION: RESUMEN
11
CONCLUSION
• Las redes perceptrón multicapa (también
denominadas redes de retropropagación),
se engloban dentro de las redes con
aprendizaje supervisado, es decir, utilizan
para su entrenamiento patrones formados
por un vector de entrada y un vector de
salida. Son una variación del modelo
ADALINE que utiliza la regla Delta como
forma de aprendizaje.
CONCLUSION
El método de aprendizaje consta de dos etapas:
12
El proceso de aprendizaje del perceptrón puede
resumirse:
• Partiendo de un punto aleatorio W(0) del espacio R nw
donde nw es el numero de parámetros de la red
(pesos + umbrales), el aprendizaje desplaza el vector
de parámetros W(n-1) en el espacio siguiendo la
dirección negativa del gradiente del error en dicho
punto, alcanzando así un nuevo punto W(n) que
estará más próximo al mínimo del error que el anterior
. El proceso continua hasta encontrar un mínimo de la
función de error E, lo que sucede cuando∂∂ Ew
Capacidad de Generalización
• A la hora de evaluar el perceptron, no sólo es importante
saber si la RN ha aprendido con éxito los patrones de
entrenamiento, sino que es imprescindible, conocer el
comportamiento de la misma ante patrones no usados
durante este.
• De nada sirve que una RN aprenda correctamente los
patrones de entrenamiento y no responda de forma
adecuada ante patrones nuevos. Es necesario que
durante el aprendizaje la RN extraiga las características
de las muestras que le permitan responder
correctamente a patrones diferentes.
13
Capacidad de Generalización
• Para que se dé la generalización es necesario
disponer de dos conjuntos de muestras o
patrones; uno para entrenar la red y modificar
sus pesos y umbrales (conjunto de
entrenamiento) y otro para medir la capacidad
de la RN de responder correctamente ante
patrones que no han sido usados durante el
entrenamiento (conjunto de validación o test).
• Los anteriores deben obtenerse de
separaciones aleatorias dentro de las muestras
disponibles
14
Deficiencias del PMC
A pesar de su éxito, el algoritmo de retropropagación tiene
algunas deficiencias que son analizadas a continuación:
Minimos Locales
• La superficie que define el error E en función de los
parámetros de la red es compleja y ruidosa. Debido a la
utilización del método del gradiente se corre el riesgo
que el proceso finalice en un mínimo local
• Una forma de evitar lo anterior es aumentar el numero
de neuronas ocultas dado que se supone que la RN
posee un escaso poder de representación interna. Otro
posible método es utilizar una tasa de aprendizaje que
decrezca a medida que se avanza en el proceso de
aprendizaje
15
Ejemplo de funcionamiento
• El siguiente ejemplo muestra los pasos a seguir
para la resolución de un problema utilizando el
PMC y también la influencia que ciertos
parámetros podrían tener en el comportamiento
de la red.
• El caso trata sobre aproximación de funciones,
supóngase que se desea construir un PMC para
aproximar la sgte. función definida por partes.
16
Ejemplo de funcionamiento
Conjunto de muestras o ejemplos
• En este caso (dado que se conoce la expresión
analítica) podemos obtener dicho conjunto
sobre el intervalo[-10,10] en concreto 200
muestras uniformemente distribuidas.
• Aunque no es estrictamente necesario, es
recomendable realizar una transformación de
los datos de entrada y salida para que estén
normalizados o escalados en el intervalo [0,1]
Ejemplo de funcionamiento
Extracción de los conjuntos de entrenamiento y
test
• Del conjunto de muestras disponibles se extraen
estos dos conjuntos. Es conveniente realizar
dicha separación de forma aleatoria, para que los
conjuntos no tengan ningún sesgo de información
sobre el problema, en este caso puede tomarse
un 60% para entrenar y un 40% para validar.
17
Ejemplo de funcionamiento
Diseño de la arquitectura del PMC
• Para este caso el PMC tiene una neurona de
entrada y otra neurona de salida, en una
primera aproximación se fija una única capa
oculta con 10 neuronas. Posteriormente dicho
parámetro será modificado con el objeto de
conseguir la red más adecuada
Ejemplo de funcionamiento
Proceso de aprendizaje
• Una vez definida la arquitectura de la red, se
procede a realizar el entrenamiento de la
misma. Para ello se debe en primer lugar fijar
los parámetros que intervienen en dicho
proceso: la razón de aprendizaje y el numero de
ciclos de aprendizaje. Ambos parámetros
siempre van a depender del problema a resolver
y quizás sea necesario realizar simulaciones
previas para fijarlos de acuerdo al problema, en
este caso se fijan a: α= 0. 2 y 30000
18
Ejemplo de funcionamiento
Cuestiones
• ¿Cómo afecta el numero de neuronas
ocultas la resolución de este problema?
• ¿Cómo afecta la razón de aprendizaje al
proceso de entrenamiento?
Ejemplo de funcionamiento
19
Los MLP son aproximadores
universales
Teorema: Sea g una función real creciente y acotada, sea K un
conjunto compacto en Rd ,y f K ->R una función continua.
Entonces para cada ε > 0 existe un k ∈ N y w i , w ij , θi , ∈ R
tales que
Donde:
Prueba en:
G. Cybenko. Approximation by superpositions of a Sigmoid
function. Mathematics of Control, Signals and Systems,
2:303--314, 1989
Ejemplo de funcionamiento
20