Apuntesrnai 22 Agostop 01

REDES NEURONALES ARTIFCIALES I
CAPITULO I
INTRODUCCION A LAS REDES NEURONALES ARTIFICIALES
INTRODUCION:
El cerebro es un procesador de informacin con unas caractersticas muy notables: es capaz
de procesar a gran velocidad grandes cantidades de informacin procedentes de los
sentidos, combinarla o compararla con la informacin almacenada y dar respuestas
adecuadas incluso en situaciones nuevas. Logra discernir un susurro en una sala ruidosa,
distinguir una cara en una calle mal iluminada o leer entre lneas en una declaracin
poltica; pero lo ms impresionante de todo es su capacidad de aprender a representar la
informacin necesaria para desarrollar tales habilidades sin instrucciones eplcitas para
ello.
!un"ue todava se ignora mucho sobre la forma en "ue el cerebro aprende a procesar la
informacin, se han desarrollado modelos "ue tratan de mimetizar tales habilidades;
denominados redes neuronales artificiales modelos de computacin conexionista #otras
denominaciones son computacin neuronal y procesamiento distribuido paralelo o P.D.P.$.
La elaboracin de estos modelos supone en primer lugar la deduccin de los rasgos o
caractersticas esenciales de las neuronas y sus coneiones, y en segundo lugar, la
implementacin del modelo en una computadora de forma "ue se pueda simular. Es obvio
decir "ue estos modelos son idealizaciones burdas de las aut%nticas redes neuronales, en
muchos casos de dudosa plausibilidad neurofisiolgica, pero "ue sin embargo resultan
interesantes cuando menos por sus capacidades de aprendiza&e.
'e la prehistoria al futuro "ue tal vez (abbage nunca so). El desarrollo de m"uinas "ue
puedan imitar la capacidad de aprendiza&e del hombre es actualmente un desafo en el "ue
pone sus miras buena parte de la comunidad cientfica. *on esta amplia +ntroduccin a las
redes neuronales, se pretende dar a conocer los elementos bsicos de lo "ue com,nmente se
denomina +nteligencia !rtificial, para as comprender de "u% modo pueden llegar a
-pensar. y -aprender. las m"uinas.
El hombre se ha caracterizado siempre por una b,s"ueda constante de nuevas vas para
me&orar sus condiciones de vida. Estos esfuerzos le han servido para reducir el traba&o en
a"uellas operaciones en las "ue la fuerza &uega un papel primordial. Los progresos
obtenidos han permitido dirigir estos esfuerzos a otros campos, como por e&emplo, a la
construccin de m"uinas calculadoras "ue ayuden a resolver de forma automtica y rpida
determinadas operaciones "ue resultan tediosas cuando se realizan a mano.
/no de los primeros en acometer esta empresa fue *harles (abbage, "uien trat
infructuosamente de construir una m"uina capaz de resolver problemas matemticos.
0osteriormente otros tantos intentaron construir m"uinas similares, pero no fue hasta la
1egunda 2uerra 3undial, cuando ya se dispona de instrumentos electrnicos, "ue se
empezaron a recoger los primeros frutos. En 4567 se construy la primera computadora
4
electrnica, E8+!*. 'esde entonces los desarrollos en este campo han tenido un auge
espectacular.
Estas m"uinas permiten implementar fcilmente algoritmos para resolver multitud de
problemas "ue antes resultaban engorrosos de resolver. 1in embargo, se observa una
limitacin importante: 9"u% ocurre cuando el problema "ue se "uiere resolver no admite un
tratamiento algortmico, como es el caso, por e&emplo, de la clasificacin de ob&etos por
rasgos comunes:.
Este e&emplo demuestra "ue la construccin de nuevas m"uinas ms verstiles re"uiere un
enfo"ue del problema desde otro punto de vista.
Los desarrollos actuales de los cientficos se dirigen al estudio de las capacidades humanas
como una fuente de nuevas ideas para el dise)o de las nuevas m"uinas. !s, la inteligencia
artificial es un intento por descubrir y describir aspectos de la inteligencia humana "ue
pueden ser simulados mediante m"uinas. Esta disciplina se ha desarrollado fuertemente en
los ,ltimos a)os teniendo aplicacin en algunos campos como visin artificial,
demostracin de teoremas, procesamiento de informacin epresada mediante lengua&es
humanos... etc.
Las redes neuronales son otra forma de emular otra de las caractersticas propias de los
humanos: la capacidad de memorizar y asociar hechos. 1i eaminamos con atencin
a"uellos problemas "ue no pueden epresarse a trav%s de un algoritmo nos daremos cuenta
de "ue todos ellos tienen una caracterstica com,n: la eperiencia. El hombre es capaz de
resolver estas situaciones acudiendo a la eperiencia acumulada. !s, parece claro "ue una
forma de aproimarse al problema consista en la construccin de sistemas "ue sean capaces
de reproducir esta caracterstica humana. En definitiva, las redes neuronales no son ms "ue
un modelo artificial y simplificado del cerebro humano, "ue es el e&emplo ms perfecto del
"ue disponemos de sistema "ue es capaz de ad"uirir conocimiento a trav%s de la
eperiencia. /na red neuronal es -un nuevo sistema para el tratamiento de la informacin
cuya unidad bsica de procesamiento est inspirada en la c%lula fundamental del sistema
nervioso humano, la neurona..
1.1 MARCO HISTORICO DE LAS REDES NEURONALES
;ue en 456< cuando =arren 3c*ulloch y =alter 0itts propusieron el clsico modelo de
neurona en el "ue se basan las redes neuronales actuales. 1eis a)os despu%s, en 4565, en su
libro The Organization of Behavior, 'onald >ebb presentaba su conocida regla de
aprendiza&e.
En 45?7 se organiz en 'artmouth la primera conferencia sobre +!. !"u se discuti el
uso potencial de las computadoras para simular @todos los aspectos del aprendiza&e o
cual"uier otra caracterstica de la inteligenciaA y se present la primera simulacin de una
red neuronal, aun"ue todava no se saban interpretar los datos resultantes.
B
En 45?C, ;ranD Eosenblatt present el 0erceptron, una red neuronal con aprendiza&e
supervisado cuya regla de aprendiza&e era una modificacin de la propuesta por >ebb. El
0erceptron traba&a con patrones de entrada binarios, y su funcionamiento, por tratarse de
una red supervisada, se realiza en dos fases: una primera en la "ue se presentan las entradas
y la salidas deseadas; en esta fase la red aprende la salida "ue debe dar para cada entrada.
La principal aportacin del 0erceptron es "ue la adaptacin de los pesos se realiza teniendo
en cuenta el error entre la salida "ue da la red y la salida "ue se desea. En la fase siguiente,
de operacin, la red -es capaz. de responder adecuadamente cuando se le vuelven a
presentar los patrones de entrada. 1e crearon grandes epectativas sobre sus aplicaciones,
"ue posteriormente se tornaron en gran decepcin cuando en 4575 3insDy y 0apert
demostraron las grandes limitaciones de esta red.
En 45?5, =idroF publica una teora sobre la adaptacin neuronal y unos modelos
inspirados en esa teora, el !daline #!daptative Linear 8euron$ y el 3adaline #3ultiple
!daline$. Estos modelos fueron usados en numerosas aplicaciones y permitieron usar, por
primera vez, una red neuronal en un problema importante del mundo real: filtros
adaptativos para eliminar ecos en las lneas telefnicas.
En los a)os 7G se propusieron otros dos modelos, tambi%n supervisados, basados en el
0erceptron de Eosenblatt denominados !daline y 3adaline. En estos, la adaptacin de los
pesos se realiza teniendo en cuenta el error, calculado como la diferencia entre la salida
deseada y la dada por la red, al igual "ue en el 0erceptron. 1in embargo, la regla de
aprendiza&e empleada es distinta. 1e define una funcin error para cada neurona "ue da
cuenta del error cometido para cada valor posible de los pesos cuando se presenta una
entrada a la neurona. !s, la regla de aprendiza&e hace "ue la variacin de los pesos se
produzca en la direccin y sentido contrario del vector gradiente del error. ! esta regla de
aprendiza&e se la denomina 'elta.
En 457B, Eosemblatt publica los resultados de un ambicioso proyecto de investigacin, el
desarrollo del 0erceptrn, un identificador de patrones pticos binarios, y salida binaria.
Las capacidades del 0erceptrn se etendieron al desarrollar la regla de aprendizaje delta,
"ue permita emplear se)ales continuas de entrada y salida.
1.2 DEFINICINES DE REDES NEURONALES
/na red neuronal es un sistema compuesto de muchos elementos procesadores simples
operando en paralelo, cuya funcin es determinada por la estructura de la red, fuerza en las
coneiones y el procesamiento realizado por los elementos computacionales en los nodos.
>ayDin, 1. #4556, 8eural 8etForDs: ! comprehensive foundation, 8H, 3c3illan,
0.B$:
I/na red neuronal es un procesamiento distribuido masivamente paralelo "ue tiene
una tendencia natural para almacenar conocimiento emprico y hacerlo disponible
para el uso. Eecuerda al cerebro en dos aspectos:
<
4.J *onocimiento se ad"uiere por la red a trav%s de un proceso de aprendiza&e.
B.J Las coneiones interneurnicas se conocen como pesos synapticos y se usan
para almacenar el conocimiento.I
Kurada,L.3. #455B, +ntroduction to artificial neural nsystems, (oston: 0=1
0ublishing *ompany, 0. MN$:
I1istemas de redes neuronales artificiales, o redes neuronales son sistemas celulares
fsicos "ue puedan ad"uirir, almacenar y usar conocimiento emprico.I
Las redes neuronales son una forma de un sistema computarizado multiJproceso
con:
Elementos de procesamiento sencillos.
!lto grado de interconein.
3ensa&es simples escalares.
+nteraccin adaptable entre elementos.
El concepto de Eed 8euronal !rtificial est inspirado en las Eedes 8euronales (iolgicas.
/na Eed 8euronal (iolgica es un dispositivo no lineal altamente paralelo, caracterizado
por su robustez y su tolerancia a fallos. 1us principales caractersticas son las siguientes:
!prendiza&e mediante adaptacin de sus pesos sinpticos a los cambios en el
entorno.
3ane&o de imprecisin, ruido e informacin probabilstica.
2eneralizacin a partir de e&emplos.
Las Eedes 8euronales !rtificiales intentan imitar algunas, o todas, de estas caractersticas.
Este paradigma de programacin difiere de las secuencias de instrucciones en "ue la
informacin se encuentra almacenada en las coneiones sinpticas. *ada neurona es un
procesador elemental con operaciones muy primitivas como la suma ponderada de sus
pesos de entrada y la amplificacin o umbralizacin de esta suma.
/na Eed 8euronal viene caracterizada por su topologa, por la intensidad de la conein
entre sus pares de neuronas #pesos$, por las propiedades de los nodos y por las reglas de
actualizacin de pesos. Las reglas de actualizacin, tambi%n llamadas de aprendiza&e,
controlan los pesos yOo estados de los elementos de procesados #neuronas$.
Los principales aspectos de este modelo de computacin distribuida son los siguientes:
/n con&unto de unidades de procesamiento.
/n estado de activacin para cada unidad, "ue es e"uivalente a la salida de la
unidad.
*oneiones entre unidades, generalmente definida por un peso , "ue determina
el efecto de la unidad & sobre la unidad D.
6
/na regla de propagacin "ue determina la entrada de la unidad a partir de sus
entradas eternas.
/na funcin de activacin "ue determina el estado de activacin en funcin de la
entrada de la unidad #en algunos casos la funcin de activacin tiene en cuenta la
activacin actual de la unidad$.
/na entrada eterna #o offset$ para cada unidad.
/n m%todo para modificar los valores de los pesos #regla de aprendiza&e$.
/n entorno de traba&o en el "ue sistema opere, compuesto por se)ales de entrada y,
si es necesario, se)ales de error.
8ormalmente, la dinmica de actuacin es definir una funcin ob&etivo "ue representa el
estado completo de la red y localizar el con&unto de mnimos de esa funcin "ue se
corresponden con los diferentes estados estables de la red.
1.3 CARACTERISTICAS DE LAS REDES NEURONALES.
'esde hace algunos a)os, algunos investigadores han estado creando modelos, tanto en
hardFare como en softFare, "ue interpretan la actividad cerebral en un esfuerzo por
producir una forma de inteligencia artificial.
Las E8! estn compuestas de un gran n,mero elementos de procesamiento altamente
interconectados #8euronas$ traba&ando al mismo tiempo para la solucin de problemas
especficos. Las E8!, tal como las personas, aprenden de la eperiencia.
Las E8! estn compuestas de muchos elementos sencillos "ue operan en paralelo, el
dise)o de la red est determinado mayormente por las coneiones entre sus elementos. !l
igual "ue las coneiones de las neuronas cerebrales.
Las E8! han sido entrenadas para la realizacin de funciones comple&as en variados
campos de aplicacin. >oy en da pueden ser entrenadas para la solucin de problemas "ue
son difciles para sistemas computacionales comunes o para el ser humano.
Las caractersticas de operacin son las siguientes:
Pesos
Las E8! puede tener factores de peso fi&os o adaptables. Las "ue tienen pesos adaptables
emplean leyes de aprendiza&e para a&ustar el valor de la fuerza de un interconein con
otras neuronas. 1i las neuronas utilizan pesos fi&os, entonces su tarea deber estar
previamente definida. Los pesos sern determinados a partir de una descripcin completa
del problema. 0or otra parte, los pesos adaptables son esenciales si no se conoce
previamente cual deber de ser su valor correcto.
?
Dos tipos de aprendizaje
Eisten dos tipo de aprendiza&e: supervisado y no supervisado. El primero ocurre cuando se
le proporciona a la red tanto la entrada como la salida correcta, y la red a&usta sus pesos
tratando de minimizar el error de su salida calculada. Este tipo de entrenamiento se aplica
por e&emplo, en el reconocimiento de patrones. El entrenamiento no supervisado se presenta
cuando a la red se le proporcionan ,nicamente los estmulos, y la red a&usta sus
interconeiones basndose ,nicamente es sus estmulos y la salida de la propia red. Las
leyes de aprendiza&e determinan como la red a&ustar sus pesos utilizando una funcin de
error o alg,n otro criterio. La ley de aprendiza&e adecuada se determina en base a la
naturaleza del problema "ue se intenta resolver.
Dos fases de operacin
Las E8! adaptables tienen dos fases en su operacin.
4. Entrenamiento de la red. El usuario proporciona a la red un n,mero IadecuadoI de
estmulos de entrada, y de salida, la red entonces a&usta su pesos de interconein o
sinpsis hasta "ue la salida de la red esta Ilo suficientemente cercaI de la salida
correcta.
B. Eecuperacin de lo aprendido. ! la red se le presenta un con&unto de estmulos de
entrada y esta simplemente calcula su salida. *uando la red emplea entrenamiento
no supervisado, algunas veces ser necesario "ue rea&uste su sinpsis durante la fase
de recuperacin.
No son a!or"t#icas
La gran diferencia del empleo de las redes neuronales en relacin con otras aplicaciones de
la computacin radica en "ue no son algortmicas, esto es no se programan haci%ndoles
seguir una secuencia predefinida de instrucciones. Las E8! generan ellas mismas sus
propias IreglasI, para asociar la respuesta a su entrada; es decir, aprende por e&emplos y de
sus propios errores.
El conocimiento de una E8! se encuentra en la funcin de activacin utilizada y en los
valores de sus pesos.
Asociar $ !eneraizar sin re!as co#o en e cere%ro &'#ano
Las redes neuronales formadas por los perceptrones se interconectan en forma muy similar
a como las neuronas humanas se disponen en la corteza cerebral humana, y lo ms
importante, son capaces de asociar y generalizar sin reglas. >an sido utilizadas con gran
%ito para reconocer retornos de sonar ba&o el agua, escritura a mano, voz, topografa de
7
terrenos, controlar brazos de robots, evaluar datos personales, modelar fenmenos
cognoscitivos, y, predecir tendencias financieras.
Re('ieren de a!)n tipo de patrn
La clase de problemas "ue me&or se resuelven con las redes neuronales son los mismos "ue
el ser humano resuelve me&or: !sociacin, evaluacin, y reconocimiento de patrones. Las
redes neuronales son perfectas para problemas "ue son muy difciles de calcular pero "ue
no re"uieren de respuestas perfectas, slo respuestas rpidas y buenas. Pal y como acontece
con el escenario burstil en el "ue se "uiere saber 9compro:, 9vendo:, 9mantengo:, o en el
reconocimiento cuando se desea saber 9se parece: 9es el mismo pero tienen una ligera
modificacin:
0or otra parte, las redes neuronales son muy malas para clculos precisos, procesamiento
serie, y no son capaces de reconocer nada "ue no tenga inherentemente alg,n tipo de
patrn. Es por esto, "ue no pueden predecir la lotera, ya por definicin es un proceso al
azar.
Eisten varias formas de hacer las coneiones en una E8!, as como eisten varias formas
de conectar neuronas biolgicas en el cerebro. *ada tipo sirve para diferentes procesos, el
elegir la correcta topologa y sus caractersticas, es imprescindible para lograr fcilmente la
solucin del problema.
1.4 APLICACIONES DE LAS REDES NEURONALES.
'esde el punto de vista de la aplicaciones, la venta&a de las Eedes 8euronales !rtificiales
#E8!$, reside en el procesado paralelo, adaptativo y no lineal. Las #E8!$ han encontrado
muchas aplicaciones con %ito en la visin artificial, en el procesado de se)ales e imgenes,
reconocimiento del habla y de caracteres, sistemas epertos, anlisis de imgenes m%dicas,
control remoto, control de robots, inspeccin industrial y eploracin cientfica. El dominio
de aplicacin de las #E8!$ se puede clasificar de la siguiente forma: asociacin y
clasificacin, regeneracin de patrones, regresin y generalizacin, y optimizacin.
*on el fin de llegar al entendimiento global de #E8!$, adoptamos la siguiente perspectiva,
llamada top-down "ue empieza por la aplicacin se pasa al algoritmo y de a"u a la
arquitectura, como se muestra en la figura 4.4
C
;igura 4.4 'iagrama PopdoF
Esta aproimacin a las #E8!$ est motivada por la aplicacin, basada en la teora y
orientada hacia la implementacin. Las principales aplicaciones son para el procesado de
seal y el reconocimiento de patrones. La primera etapa algortmica representa una
combinacin de la teora matemtica y la fundamentacin heurstica por los modelos
neuronales. El fin ,ltimo es la construccin de neurocomputadores digitales, con la ayuda
de las tecnologas NL1+ y el procesado adaptativo, digital y paralelo.
Q!as "edes #euronales son $tiles para%:
*lasificacin de patrones
!proimacin de funciones
3apeo
En los "ue eista informacin imprecisa y con tolerancia a fallos
!prendiza&e !daptativo.
!utoorganizacin.
Polerancia a ;allos.
Rperacin en tiempo real.
;cil construccin en circuitos integrados.
1. MODELO !IOL"ICO NEURONAL.
El cerebro, como todo el organismo animal, est formado por c%lulas llamadas neuronas. La
estructura y la comunicacin de las neuronas fueron descritas por el espa)ol 1antiago
Eamn y *a&al, "uien encontr una caracterstica fundamental de la comunicacin entre las
c%lulas nerviosas: casi nunca se tocan, estn separados por pe"ue)simos espacios, cuyo
significado y enorme importancia vendra a conocerse mucho tiempo despu%s. ! pesar de
las diferencias en la forma de las neuronas, su estructura en los sitios en "ue se comunican
unas con otras es muy similar. La parte de la neurona "ue se comunica con otra neurona
S
tiene siempre una estructura tpica, y la regin de la neurona "ue recibe ese contacto
tambi%n tiene una forma caracterstica. ! esta zona de integracin de la neurona se le llama
sinapsis, y su funcionamiento es esencial para eplicar prcticamente todas las acciones del
cerebro, desde la ms sencilla como ordenar a los m,sculos "ue se contraigan y se rela&en
en forma coordinada para llevar a cabo un simple movimiento, hasta las ms complicadas
tareas intelectuales, pasando tambi%n por las funciones "ue originan, controlan y modulan
las emociones.
! trav%s de esta comunicacin las neuronas forman redes complicadsimas, "ue por
supuesto estamos le&os de conocer por completo. 1abemos "ue unos de estos circuitos estn
relacionados con el sue)o, otros con el movimiento, y otros ms con las emociones y la
conducta. La identificacin de %stos circuitos puede lograrse con distintos m%todos, pero
uno relativamente simple consiste en estimular una neurona o un grupo de neuronas y luego
tomar un registro en las neuronas "ue sospechamos se comunican con las primeras.
Estos eperimentos demostraron la localizacin de las funciones motoras en la corteza del
cerebro y la eistencia de coneiones neuronales desde %sa hasta los m,sculos. 1e observ
en %stos eperimentos "ue el movimiento y la sensibilidad de algunas regiones del cuerpo
re"uieren un mayor n,mero de neuronas en la corteza.
El cerebro humano contiene aproimadamente 4B billones #4G
46
$de c%lulas nerviosas o
neuronas. *ada neurona tiene de ?.7GG a 7G.GGG #4G
<
a 4G
6
$ conexiones dendr&ticas
provenientes de otras neuronas. Estas coneiones transportan los impulsos enviados desde
otras neuronas y estn conectadas a la membrana de la neurona. *ada neurona tiene una
salida denominada axn. El contacto de cada an con una dendrita se realiza a trav%s de la
sinapsis. Panto el an como las dendritas transmiten la se)al en una ,nica direccin. La
sinapsis consta de un etremo presinptico de un an conectado a un etremo
postsinptico de una dendrita, eistiendo normalmente entre %stos un espacio denominado
espacio sin'ptico.
Las neuronas son el%ctricamente activas e interact,an entre ellas mediante un flu&o de
corrientes el%ctricas locales. Estas corrientes se deben a diferencias de potencial entre las
membranas celulares de las neuronas. /n impulso nervioso es un cambio de volta&e "ue
ocurre en una zona localizada de la membrana celular. El impulso se transmite a trav%s del
an hasta llegar a la sinapsis, produciendo la liberacin de una sustancia "umica
denominada neurotransmisor "ue se esparce por el fluido eistente en el espacio sinptico.
*uando este fluido alcanza el otro etremo transmite la se)al a la dendrita. Los impulsos
recibidos desde la sinapsis se suman o restan a la magnitud de las variaciones del potencial
de la membrana. 1i las contribuciones totales alcanzan un valor determinado #alrededor de
4G milivoltios$ se disparan uno o ms impulsos "ue se propagarn a lo largo del an.
!un"ue todava no est del todo claro, parece "ue este impulso se inicia en la conein
entre el an y la membrana. 1u amplitud y velocidad dependen del dimetro del an y su
frecuencia del n,mero de disparos "ue se efect,en.
Las redes neuronales artificiales basan su funcionamiento en las redes neuronales reales,
estando formadas por un con&unto de unidades de procesamiento conectadas entre s. 0or
5
analoga con el cerebro humano se denomina -neurona. a cada una de estas unidades de
procesamiento. *ada neurona recibe muchas se)ales de entrada y enva una ,nica se)al de
salida #como ocurre en las neuronas reales$.
Eecordemos "ue el cerebro humano se compone de decenas de billones de neuronas
interconectadas entre s formando circuitos o redes "ue desarrollan funciones especficas.
/na neurona tpica recoge se)ales procedentes de otras neuronas a trav%s de una pl%yade de
delicadas estructuras llamadas dendritas. La neurona emite impulsos de actividad el%ctrica a
lo largo de una fibra larga y delgada denominada an, "ue se escinde en millares de
ramificaciones.
;igura 4.B: 8eurona y coneiones sinpticas
Las etremidades de estas ramificaciones llegan hasta las dendritas de otras neuronas y
establecen unas coneiones llamadas sinpsis, en las cuales se produce una transformacin
del impulso el%ctrico en un mensa&e neuro"umico, mediante la liberacin de unas
sustancias llamadas neurotransmisores.

;igura 4.<: 'etalle de una sinpsis
El efecto de los neurotransmisores sobre la neurona receptora puede ser ecitatorio o
inhibitorio, y es variable #la intensidad del efecto depende de numerosos factores "ue no
sera oportuno describir a"u$ , de manera "ue podemos hablar de la fuerza o efectividad de
una sinpsis. Las se)ales ecitatorias e inhibitorias recibidas por una neurona se combinan,
y en funcin de la estimulacin total recibida, la neurona toma un cierto nivel de activacin,
"ue se traduce en la generacin de breves impulsos nerviosos con una determinada
4G
frecuencia o tasa de disparo# y su propagacin a lo largo del an hacia las neuronas con las
cuales sinapta.
;igura 4.6: !ctivacin y disparo de una neurona
'e esta manera la informacin se transmite de unas neuronas a otras y va siendo procesada
a trav%s de las coneiones sinpticas y las propias neuronas. El aprendiza&e de las redes
neuronales se produce mediante la variacin de la efectividad de las sinpsis, de esta
manera cambia la influencia "ue unas neuronas e&ercen sobre otras, de a"u se deduce "ue
la ar"uitectura, el tipo y la efectividad de las coneiones en un momento dado, representan
en cierto modo la memoria o estado de conocimiento de la red.
1.$ ELEMENTOS DE UNA RED NEURONAL.
Los elementos individuales de clculo "ue forman los modelos de sistemas neuronales
artificiales reciben el nombre de Elementos de 0rocesado o 8euronas !rtificiales. *ada
unidad realiza un traba&o muy simple: recibe impulsos de otras unidades o de estmulos
eternos y calcula una se)al de salida "ue propaga a otras unidades y, adems, realiza un
a&uste de sus pesos. Este tipo de modelos es inherentemente paralelo en el sentido de "ue
varias unidades pueden realizar sus clculos al mismo tiempo. El elemento de procesado
ms simple suele tener el siguiente es"uema:
44
;igura 4.?. Es"uema de una neurona artificial
Este es"uema de elemento de procesado tiene las siguientes caractersticas:
*ada elemento de procesado puede tener varias entradas asociadas a propiedades
diferentes.
La entrada de tendencia es opcional #valor constante$.
Las entradas pueden ser: Ecitadoras, inhibidoras, de ganancia, de disparo fortuito o
de amortiguamiento.
Las entradas estn ponderadas por un factor multiplicativo de peso o intensidad de
conein "ue resaltan de forma diferente la importancia de cada entrada..
*ada elemento de procesado tiene un valor de activacin calculado en funcin del
valor de entrada neto #calculado a partir de las entradas y los pesos asociados a
ellas$. En algunos casos, el valor de activacin, depende adems de la entrada neta
del valor anterior de activacin.
/na vez calculado el valor de activacin, se determina un valor de salida aplicando
una funcin de salida sobre la activacin del elemento de procesado.
Cone*in entre 'nidades
En la mayor parte de los casos se asume "ue cada unidad recibe contribuciones aditivas de
las unidades "ue estn conectadas a ellas. La entrada total de la unidad D es la suma
ponderada de las entradas "ue recibe ms el t%rmino de offset
*uando el peso de la contribucin es positivo se considera "ue la entrada es ecitatoria y
cuando el peso es negativo "ue es inhibitoria.
Este tipo de epresiones "ue calculan la entrada total se denominan reglas de propagacin
y, en general, pueden tener diferentes epresiones.
4B
F'nciones de acti+acin $ saida
!dems de la regla de propagacin es necesario poseer epresiones para las funciones de
activacin #calculan la activacin en funcin de la entrada total$ y funciones de salida
#calculan la salida en funcin de la activacin$.
La funcin de activacin calcula la activacin de la unidad en funcin de la entrada total y
la activacin previa, aun"ue en la mayor parte de los casos es simplemente una funcin no
decreciente de la entrada total. Los tipos de funcin ms empleados son: la funcin signo,
funciones con umbral lineal y la funcin sigmoidal.
La funcin de salida empleada usualmente es la funcin identidad y as la salida de la
unidad de procesado es id%ntica a su nivel de activacin.
Las redes neuronales estn formadas por un con&unto de neuronas artificiales
interconectadas. Las neuronas de la red se encuentran distribuidas en diferentes capas de
neuronas, de manera "ue las neuronas de una capa estn conectadas con las neuronas de la
capa siguiente, a las "ue pueden enviar informacin.
La ar"uitectura ms usada en la actualidad de una red neuronal se presente en la figura 4.?,
la cual consista en:
/na primera capa de entradas, "ue recibe informacin del eterior.
/na serie de capas ocultas #intermedias$, encargadas de realizar el traba&o de la red.
/na capa de salidas, "ue proporciona el resultado del traba&o de la red al eterior.
;igura 4.7. Es"uema de una red neuronal antes del entrenamiento. Los crculos representan neuronas,
mientras las flechas representan coneiones entre las neuronas
El n,mero de capas intermedias y el n,mero de neuronas de cada capa depender del tipo
de aplicacin al "ue se vaya a destinar la red neuronal.
4<
1.% ESTRUCTURAS "ENERALES DE LAS REDES NEURONALES
PERCEPTRON
En 456<, =arren 3c*ulloc y =alter 0itts originaron el primer modelo de operacin
neuronal, el cual fu% me&orado en sus aspectos biolgicos por 'onald >ebb en 456S.
En 457B (ernard =idroF propuso la regla de aprendiza&e =idroFJ>off, y ;ranD
Eosenblatt desarroll una prueba de convergencia, y defini el rango de problemas para los
"ue su algoritmo aseguraba una solucin. El propuso los T0erceptronsT como herramienta
computacional.
;igura 4.C 3odelo del perceptron simple.
,AC-PROPA.ATION
En esta red, se interconectan varias unidades de procesamiento en capas, las neuronas de
cada capa no se interconectan entre s. 1in embargo, cada neurona de una capa proporciona
una entrada a cada una de las neuronas de la siguiente capa, esto es, cada neurona
transmitir su se)al de salida a cada neurona de la capa siguiente. La figura muestra un
e&emplo es"uemtico de la ar"uitectura de este tipo de redes neuronales.
;igura 4.S Eed bacDpropagation.
46
/OPFIELD
La Eed de >opfield es recurrente y completamente conectada. ;unciona como una
memoria asociativa no lineal "ue puede almacenar internamente patrones presentados de
forma incompleta o con ruido. 'e esta forma puede ser usada como una herramienta de
optimizacin. El estado de cada neurona puede ser actualizado un n,mero indefinido de
veces, independientemente del resto de las neuronas de la red pero en paralelo.
;igura 4.5 Eed de >opfield de < unidades
-O/ONEN
Eisten evidencias "ue demuestran "ue en el cerebro eisten neuronas "ue se organizan en
muchas zonas, de forma "ue las informaciones captadas del entorno a trav%s de los rganos
sensoriales se representan internamente en forma de capas bidimensionales. 0or e&emplo,
en el sistema visual se han detectado mapas del espacio visual en zonas de crte #capa
eterna del cerebro$. Pambi%n en el sistema auditivo se detecta organizacin seg,n la
frecuencia a la "ue cada neurona alcanza la mayor respuesta #organizacin tono tpica$.
!un"ue en gran medida esta organizacin neuronal est predeterminada gen%ticamente, es
probable "ue de ella se origine mediante el aprendiza&e. Esto sugiere, por tanto, "ue el
cerebro podra poseer la capacidad inherente de formar mapas topolgicos de las
informaciones recibidas del eterior. 'e hecho, esta teora podra eplicar su poder de
operar con elementos semnticos: algunas reas del cerebro simplemente podran crear y
ordenar neuronas especializadas o grupos con caractersticas de alto nivel y sus
combinaciones. 1e tratara, en definitiva, de construir mapas espaciales para atributos y
caractersticas.
4?
1.& TOPOLO"'AS DE REDES NEURONALES.
La topologa es el n,mero de elementos de procesado "ue forman la red y las
interconeiones eistentes entre ellos.
Los elementos de procesado de una red neuronal se distribuyen por capas #con&unto de
elementos de procesado "ue se encuentran en el mismo nivel en la estructura$. Eisten tres
tipos de capas:
4. *apa de entrada: 'ependen del problema a abordar.
B. *apa de salida: 1alidas "ue proporciona la estructura.
<. *apas ocultas: con&unto de elementos de procesado asociados en capas "ue
se encuentran entre la capa de entrada y la capa de salida.
El n,mero de elementos de procesado puede variar en unas capas respecto a otras. Las
funciones #tanto de activacin como de salida$ de los elementos de procesado pueden ser
diferentes. 8o eiste limitacin en el n,mero de capas ocultas. En general, cuanto mayor
sea la diferencia entre los elementos de entrada y los de salida, ser necesario dotar a la
estructura de ms capas ocultas. Estas capas ocultas crean una representacin interna de los
patrones de entrada. La habilidad de la red para procesar informacin crece en proporcin
directa al n,mero de capas ocultas.
1eg,n el n,mero de interconeiones entre capas las redes se clasifican en: totalmente
conectadas y localmente conectadas. En las redes totalmente conectadas la salida de un
elemento de procesado de la capa i es entrada a todos los elementos de procesado de la capa
iU4. 0or contra, en las redes localmente conectadas, la salida de un elemento de procesado
de la capa i es entrada a una regin de elementos de procesado de la capa iU4.
En funcin de la direccin del movimiento de la informacin se puede realizar una
clasificacin en: redes feedforFard, redes feedbacD, redes feedlateral y redes recurrentes,
tal como puede verse en la siguiente figura:
;igura 4.4G Pipos de coneiones entre neuronas
47
(onexiones hacia delante)*eed *or+ard,: para todos los modelos neuronales, los datos de
las neuronas de una capa inferior son propagados hacia las neuronas de la capa superior por
medio de las redes de coneiones hacia adelante.
(onexiones hacia atr's)*eed Bade,: estas coneiones llevan los datos de las neuronas de
una capa superior a otras de la capa inferior.
(onexiones laterales. /n e&emplo tpico de este tipo es el circuito @el ganador toma todoA,
"ue cumple un papel importante en la eleccin del ganador.
(onexiones con retardo: los elementos de retardo se incorporan en las coneiones para
implementar modelos dinmicos y temporales, es decir, modelos "ue precisan de memoria.
Pambi%n es posible "ue las redes sean de una capa con el modelo de pesos hacia atrs o
bien el modelo multicapa hacia adelante. Es posible as mismo, el conectar varias redes de
una sola capa para dar lugar a redes ms grandes.
! continuacin se describirn algunas topologas de E8!:
;igura 4.44. 0erceptron simple
;igura 4.4B. Popologa con coneiones hacia delante, hacia atrs,
laterales y de retroalimentacin
4C
;igura 4.4<. Popologa con coneiones hacia delante y laterales.
;igura 4.46. Popologa con coneiones hacia delante.
;igura 4.4?. Popologa con coneiones hacia delante,
hacia atrs, laterales y de retroalimentacin.
;igura 4.47. Popologa con coneiones hacia delante.
4S
;igura 4.4C.Popologa con coneiones hacia delante.
;igura 4.4S. Popologas con coneiones hacia delante,
con diferente tipo de correspondencia.
1.( MECANISMOS DE APRENDI)A*E
*onstruir un sistema "ue aprenda ha sido tradicionalmente uno de los ob&etivos ms
escurridizos de la inteligencia artificial. El aprendiza&e es un proceso de adaptacin al
entorno; durante el se crean y manipulan representaciones "ue sean capaces de eplicar
dicho entorno.
En las redes neuronales la esencia del aprendiza&e se encuentra en la modificacin colectiva
de los pesos de los elementos de procesado. /na definicin de aprendiza&e en redes
neuronales podra ser la siguiente: 0roceso por el cual los parmetros libres de una red
neuronal son a&ustados a trav%s de un proceso continuo de estimulacin por parte del
entorno en donde se sit,a el sistema. El tipo de aprendiza&e viene determinado por la forma
en la "ue tienen lugar dichos cambios. Esta definicin implica tres hechos fundamentales:
La red neuronal se encuentra estimulada por el entorno, cambia como consecuencia
de esos estmulos y responde de manera diferente al entorno a causa de los cambios
"ue se han producido en sus estructura interna.
45
Eisten tres paradigmas de aprendiza&e: 1upervisado, 8o supervisado #o auto supervisado$
y Eeforzamiento #se puede considerar como un caso especial del aprendiza&e supervisado$.
>ay bastantes algoritmos dentro de cada una de estas categoras.
S'per+isado
En el aprendiza&e supervisado #aprender con un maestro$, la adaptacin sucede cuando el
sistema compara directamente la salida "ue proporciona la red con la salida "ue se deseara
obtener de dicha red. Eisten tres tipos bsicos: por correccin de error, por refuerzo y
estocstico.
En el aprendiza&e por correccin de error el entrenamiento consiste en presentar al sistema
un con&unto de pares de datos, representando la entrada y la salida deseada para dicha
entrada #este con&unto recibe el nombre de con&unto de entrenamiento$. El ob&etivo es
minimizar el error entre la salida deseada y la salida "ue se obtiene.
El aprendiza&e por refuerzo es ms lento "ue el anterior. 8o se dispone de un e&emplo
completo del comportamiento deseado pues no se conoce la salida deseada eacta para cada
entrada sino "ue se conoce el comportamiento de manera general para diferentes entradas.
La relacin entradaJsalida se realiza a trav%s de un proceso de %ito o fracaso, produciendo
este una se)al de refuerzo "ue mide el buen funcionamiento del sistema. La funcin del
supervisor es ms la de un crtico "ue la de un maestro.
El aprendiza&e estocstico consiste bsicamente en realizar cambios aleatorios de los
valores de los pesos y evaluar su efecto a partir del ob&etivo deseado.
"egla del Perceptron
1upongamos "ue tenemos un con&unto de muestras de aprendiza&e consistentes en vectores
de entrada y salidas deseadas d#$ #en tareas de clasificacin d#$ es, usualmente, U4 o
J4$. La regla de aprendiza&e del perceptrn es muy simple y se desarrolla a trav%s de los
siguientes pasos:
4. +niciar la red con un con&unto aleatorio de pesos para las coneiones.
B. 1eleccionar un vector de entrada del con&unto de muestras de entrenamiento.
<. 1i el perceptrn proporciona una salida incorrecta, modificar todas las coneiones
mediante la epresin .
6. Nolver al paso B.
*uando la red responde de forma correcta los pesos de la coneiones no se modifican
"egla delta
0ara una red con una ,nica capa con un ,nico elemento de procesado en la salida con una
funcin de activacin lineal, la salida viene dada por
BG
/na red simple con una ,nica capa es capaz de representar relaciones lineales entre el valor
del elemento de procesado de la salida y el valor de los elementos de procesado de la
entrada. umbralizando el valor de la salida se puede construir un clasificador. 0ero tambi%n
se pueden realizar otras tareas como aproimacin de funciones. En espacios de entrada
multidimensionales la red representa un hiperplano de decisin y es trivial asumir "ue se
pueden definir varias unidades de salida.
1upongamos "ue vamos a entrenar una red para localizar el hiperplano de decisin ms
idneo para un con&unto de muestras de entrada consistente en valores de entrada y
valores de salida deseada . 0ara cada muestra dada del con&unto de entrada, la salida real
de la red difiere de la salida deseada en , donde es la salida real para el patrn de
entrada . La regla delta una funcin de error #o funcin de coste$ basada en dicha
diferencia para realizar el a&uste de los pesos.
La funcin de error, dada por el m%todo del menor error cuadrtico medio, es la suma de los
cuadrados de los errores individuales de cada patrn. Es decir, el error total E viene dado
por
donde el ndice p recorre el con&unto de patrones de entrada y representa el error del
patrn pJ%simo. Los valores de los pesos de conein se buscan de forma tal "ue se
minimice la funcin y este proceso se realiza por un m%todo conocido gradiente
descendiente. La idea del m%todo es realizar un cambio en los pesos inversamente
proporcional a la derivada del error respecto al peso para cada patrn
donde es una constante de proporcionalidad. La derivada se puede descomponer mediante
la siguiente epresin
'ado "ue la funcin de activacin es lineal, como se comentaba al comienzo,
y
con lo cual
B4
donde es la diferencia entre la salida deseada y la salida real para el patrn de
entrada p.
La regla delta modifica los pesos como funcin de las salidas deseada y real para unidades
de entrada y salida binarias o continuas. Estas caractersticas abrieron un nuevo campo de
posibilidades para las redes neuronales.
"egla delta generalizada
La regla delta generalizada, ampla la regla delta al caso de usar unidades de procesamiento
con funciones de activacin no lineal. La activacin es una funcin diferenciable de la
entrada total dada por
donde
0ara realizar la generalizacin de la regla delta debemos considerar
La medida de error viene definida como el error cuadrtico total para el patrn p en las
unidades de salida
*onsiderando E como la suma de los errores cuadrticos podemos ver "ue la variacin del
error respecto a los pesos viene dada por
! partir de la epresin de la salida total y definiendo
se puede obtener una regla de actualizacin de pesos e"uivalente a la regla delta, resultando
un descenso en el valor del gradiente sobre la superficie de error si se realizan los cambios
de los pesos de acuerdo a la epresin
La conclusin ms importante es "ue el clculo recursivo de los factores delta puede
implementarse propagando las se)ales de error desde la capa de salida a capas ocultas de la
red.
El clculo de puede realizarse en t%rminos de un producto de dos factores; uno "ue
refle&e el cambio del error como funcin de la salida de las unidades y otro "ue refle&e el
cambio de la salida como funcin de los cambios en la entrada, es decir
BB
!hora bien, el segundo factor no es otro "ue la derivada de la funcin de activacin ;. 0ara
calcular el primer factor vamos a considerar dos casos: "ue la unidad D es una unidad de
salida de la red y "ue la unidad D es una unidad de una capa oculta.
En el primer caso, a partir de la definicin del error para el patrn p, podemos obtener "ue
"ue es el mismo resultado "ue en la regla delta bsica. 0or tanto, para las unidades de la
capa de salida
en el segundo caso, no se conoce como contribuye la unidad al error de salida de la red,
pero la medida de error se puede escribir como funcin de los pesos de las unidades de la
capa oculta a la capa de salida
con lo cual
Etendiendo este clculo de forma recursiva se pueden calcular los cambios en los pesos de
todas las unidades de la red. Este procedimiento se denomina regle delta generalizada para
redes feedforFard con unidades no lineales.
No s'per+isado
En el aprendiza&e no supervisado #o auto supervisado$, la red se sintoniza a las
regularidades estadsticas de datos de entrada de forma tal "ue se formen categoras "ue
optimizan, respecto a los parmetros libres de la red, una medida de calidad de la tarea "ue
se "uiere realizar con la red. El funcionamiento de estas redes se basa en la b,s"ueda de
caractersticas, regularidades, correlaciones y categoras del con&unto de datos de entrada.
Eisten diferentes interpretaciones "ue se le pueden dar a las salidas generadas por una red
"ue utilice este tipo de aprendiza&e: similaridad #seme&anzas entre la informacin actual y la
informacin pasada$, clusterizacin #establecimiento de clases$, codificacin #versin
codificada de las entradas$ o mapeo #representacin topogrfica de los datos de entrada$.
-prendizaje competitivo
El aprendiza&e competitivo es un proceso "ue divide el con&unto de patrones de entrada en
clusters inherentes a los datos de entrada. El procedimiento de entrenamiento es muy
simple: cuando se presenta un patrn de entrada se selecciona una ,nica unidad de salida
#la unidad ganadora$ y se modifican los pesos de esa unidad.
B<
1eleccin de la unidad ganadora mediante producto:
!sumamos "ue los patrones de entrada y los pesos estn normalizados a la unidad. *ada
unidad de salida o calcula su valor de activacin a partir del producto del vector del patrn
de entrada por el vector de pesos
! continuacin, se selecciona el elemento de procesado de salida "ue presenta mayor valor
de activacin. 1u activacin se pone a valor 4 y la del resto de elementos de procesado a G.
En este hecho radica el aspecto competitivo de la red.
/na vez "ue se ha seleccionado el elemento de procesado D ganador, se adaptan sus pesos
#slo del elemento ganador$ de acuerdo a la epresin
1eleccin de la unidad ganadora mediante distancia:
*uando no se pueden utilizar patrones normalizados la eleccin del elemento de procesado
ganador se realiza mediante el clculo de la distancia Euclidea entre el vector del patrn y
el vector de pesos. !"uel vector de pesos "ue presente una distancia mnima determinar el
elemento ganador. La ley de actualizacin de pesos del elemento ganador es la misma "ue
en el caso anterior, sin el denominador pues los vectores no estn normalizados.
Reforza#iento
En el aprendiza&e con reforzamiento, la red aprende de relaciones entradaJsalida. 1in
embargo, al contrario "ue en el aprendiza&e supervisado, el sistema conoce si la salida es
correcta o no, pero no conoce la salida correcta.
B6
CAP'TULO II
REDES NEURONALES MONOCAPA CON APRENDI)A*E SUPER+ISADO
Las redes monocapa se utilizan tpicamente en tareas relacionadas en lo "ue se conoce como auto Las redes monocapa se utilizan tpicamente en tareas relacionadas en lo "ue se conoce como auto
asociacin: por e&emplo, para regenerar informaciones de entrada "ue se presentan a la red asociacin: por e&emplo, para regenerar informaciones de entrada "ue se presentan a la red
incompletas o distorsionadas. incompletas o distorsionadas.
E, P-./-pt.0n
;ranD Eosenblatt cre muchas variantes de una m"uina, la cual llam Perceptrn. /na de
las ms simples fue una red monocapa cuyos pesos y umbrales pueden ser entrenados para
producir un correcto vector ob&etivo cuando se presenta un correspondiente vector de
entrada.
La t%cnica de entrenamiento usada es llamada "egla de aprendizaje del perceptrn. El
perceptrn gener un gran inter%s debido a su habilidad para generalizar a partir de sus
vectores de entrenamiento y aprendiza&e a partir de coneiones iniciales distribuidas
aleatoriamente. Los perceptrones son apropiados especialmente para clasificacin de
patrones simples.
C1.1/t-.23t4/13
J !prendiza&e 1upervisado #offline$
J !prendiza&e por correccin de error
J Eeconocimiento de patrones sencillos
J *lasificacin de patrones linealmente separables
A.564t-/t6.1
La red perceptrn consiste de una capa de 1 neuronas perceptrn, conectadas a r entradas a
trav%s de un con&unto de pesos =#i&$ como se muestra en la figura B.4. *omo ya se
mencion anteriormente, los ndices de la red i y & indican "ue =#i&$ es la fuerza de
conein de la &Jesima entrada a la iJesima neurona.
B?
;igura B.4. !r"uitectura de una red perceptrn.
La red perceptrn puede tener ,nicamente una sola capa, debido a "ue la regla de
aprendiza&e del perceptrn es capaz de entrenar solamente una capa. Esta restriccin coloca
limitaciones en cuanto a lo "ue un perceptrn puede realizar computacionalmente.
A,7o.4t8o d- 1p.-nd491:-
El algoritmo de aprendiza&e es supervisado, en el cual la regla es provista con un con&unto de El algoritmo de aprendiza&e es supervisado, en el cual la regla es provista con un con&unto de
e&emplos del comportamiento propio de la red: e&emplos del comportamiento propio de la red:
'p4, t4 ) 'pB , tB) 'p< , t<)
donde:
p" V es la entrada de la red
t" V es la salida destino correspondiente
La regla de aprendiza&e es un procedimiento para modificar los pesos y los niveles de
umbral de activacin en una red neuronal.
La principal aportacin de Eosenblatt fue el desarrollo de una regla de aprendiza&e simple y
automtica aplicada al reconocimiento de patrones.
La red aprenda de sus errores y se inicializaba con valores aleatorios.

La regla de aprendiza&e siempre convergir a los pesos correctos de la red si es "ue eisten
los pesos "ue solucionen dicho problema.
B7
El entrenamiento comienza asignndole valores iniciales pe"ue)os #aleatorios$ a los
parmetros de la red #= y b$, por medio de las siguientes ecuaciones:
0ara el vector de pesos #=$
.
nuevo
/ .
anterior
0 ep
t
0ara el umbral #b$ 0ara el umbral #b$
b
nuevo
/ b
anterior
0 e
0ara el error #e$ 0ara el error #e$
e / t 1 a
-plicaciones
El rango de tareas "ue el 0erceptrn puede mane&ar es mucho mayor "ue simples decisiones
y reconocimiento de patrones. 0or e&emplo, se puede entrenar una red para formar el tiempo
pasado de los verbos en ingles, leer teto en ingles y manuscrito. El 0erceptrn multicapa
#3L0$ puede ser usado para la prediccin de una serie de datos en el tiempo; tal a sido su
%ito en la medicin de la demanda de gas y electricidad, adems de la prediccin de
cambios en el valor de los instrumentos financieros.
8EPtalD es un 0erceptrn "ue es capaz de transformar teto en ingles en sonido individual
#representaciones fon%ticas$ y la pronunciacin con la utilizacin de un sintetizador de voz;
cuenta con aproimadamente <GG nodos de neuronas #siendo SG en la capa escondida$ y
BG,GGG coneiones individuales.
BC
2jercicios
M;todo 7.<=4/o
1. U3- 6n p-./-pt.0n 348p,- p1.1 /,134=4/1. -, 34764-nt- /on:6nto d- p1t.on-3: 1. U3- 6n p-./-pt.0n 348p,- p1.1 /,134=4/1. -, 34764-nt- /on:6nto d- p1t.on-3:
p1 >
1
]
1
B
G
t1>1? p2 >
1
]
1
B
B
t2>1?
p3 >
1
]
1
G
B
t3>1? p4 >
1
]
1
B
B
t4>1?
p >
1
]
1
B
G
t>@? p$ >
1
]
1
B
B
t$>@?
p% >
1
]
1
G
B
t%>@? p& >
1
]
1
B
B
t&>1?
a$ Prace la frontera de decisin
BS
So,6/40n
1e traza sobre la grfica una lnea "ue separe los patrones "ue arro&en salida 4 #negro$ de
los patrones cuya salida deseada sea G #blanco$. El trazo de esta lnea o frontera de decisin
depende del dise)ador, siempre y cuando se cumpla la clasificacin #separacin de patrones
con salida 4 de los de salida G$. El trazo de la frontera de decisin implica la determinacin
inmediata del vector de pesos "ue da solucin al problema #la frontera de decisin es
siempre perpendicular al vector de pesos =$. Esto se muestra en la figura B.B.
;igura B.B. Prazo de la frontera de decisin y vector de pesos
b$ Encuentre la matriz de pesos = y el umbral de activacin b
'e la grfica anterior, se obtiene el vector de pesos =:
A > B-2 1C
'ado "ue la frontera de decisin atraviesa por el origen #G,G$, el umbral de activacin es
cero.
D > @
c$ *ompruebe el funcionamiento del perceptrn con el con&unto de patrones de
entrada.
Para el primer par de entrada3salida
B5
p4 V
1
]
1
B
G
t4V4;
4e calcula la salida utilizando la funcin de activacin propia de la red%
a V hardlim#Fp U b$
a V hardlim#WJB 4X
1
]
1
B
G
U G$
a V hardlim#B$ V 4
4e calcula el error%
e V t4 Y a V 4 Y 4
- > @
Para el segundo par de entrada3salida
pB V
1
]
1
B
B
tBV4;
a V hardlim#Fp U b$
<G
a V hardlim#WJB 4X
1
]
1
B
B
U G$
a V hardlim#7$ V 4
e V tB Y a V 4 Y 4
- > @
Para el tercer par de entrada3salida
p< V
1
]
1
G
B
t<V4;
a V hardlim#Fp U b$
a V hardlim#WJB 4X
1
]
1
G
B
U G$
a V hardlim#6$ V 4
e V t< Y a V 4 Y 4
<4
- > @
Para el cuarto par de entrada3salida
p6 V
1
]
1
B
B
t6V4;
a V hardlim#Fp U b$
a V hardlim#WJB 4X
1
]
1
B
B
U G$
a V hardlim#B$ V 4
e V t6 Y a V 4 Y 4
- > @
Para el quinto par de entrada3salida
p? V
1
]
1
B
G
t?VG;
a V hardlim#Fp U b$
<B
a V hardlim#WJB 4X
1
]
1
B
G
U G$
a V hardlim#JB$ V G
e V t? Y a V G Y G
- > @
Para el sexto par de entrada3salida
p7 V
1
]
1
B
B
t7VG;
a V hardlim#Fp U b$
a V hardlim#WJB 4X
1
]
1
B
B
U G$
a V hardlim#J7$ V G
e V t7 Y a V G Y G
<<
- > @
Para el s5ptimo par de entrada3salida
pC V
1
]
1
G
B
tCVG;
a V hardlim#Fp U b$
a V hardlim#WJB 4X
1
]
1
G
B
U G$
a V hardlim#J6$ V G
e V tC Y a V G Y G
- > @
Para el octavo par de entrada3salida
pS V
1
]
1
B
B
tSVG;
<6
a V hardlim#Fp U b$
a V hardlim#WJB 4X
1
]
1
B
B
U G$
a V hardlim#JB$ V G
e V tS Y a V G Y G
- > @
R-7,1 d- 1p.-nd491:-
B. Eesuelva el siguiente problema de clasificacin del perceptrn y su regla de aprendiza&e donde
los pares de entradaOsalida son:
p1 >
1
]
1
B
4
t1>1?
p2 >
1
]
1
B
4
t2>@?
<?
p3 >
1
]
1
4
G
t3>@?
1E 631ndo ,1 .-7,1 d- 1p.-nd491:- d-, p-./-pt.0n# /1,/6,- ,1 81t.49 d- p-3o3 A F -,
68D.1, d- 1/t4G1/40n D. Con34d-.- ,o3 p1.<8-t.o3 4n4/41,-3:
A > B1 -@.&C
D > @
So,6/40n
p4 V
1
]
1
B
4
t4V4;
a V hardlim#Fp U b$
a V hardlim#W4 YG.SX
1
]
1
B
4
U G$
a V hardlim#JG.7$ V G
e V t4 Y a V 4 Y G
<7
e V 4
6sando la regla de aprendizaje del perceptrn7 se modifica el vector de pesos%
=
nuevo
V =
anterior
U ep
t
=
nuevo
V W4 YG.SX U W4 BX
A
n6-Go
> B2 1.2C
pB V
1
]
1
B
4
tBVG;
4e calcula la salida utilizando la funcin de activacin propia de la red )con os nuevos
pesos,%
a V hardlim#Fp U b$
a V hardlim#WB 4.BX
1
]
1
B
4
U G$
a V hardlim#G.6$ V 4
e V tB Y a V G J 4
e V J4
=
nuevo
V =
anterior
U ep
t
<C
=
nuevo
V WB 4.BX U #J4$WJ4 BX
A
n6-Go
> B3 H@.&C
p< V
1
]
1
4
G
t<VG;
a V hardlim#Fp U b$
a V hardlim#W< YG.SX
1
]
1
4
G
U G$
a V hardlim#G.S$ V 4
e V t< Y a V G J 4
e V J4
=
nuevo
V =
anterior
U ep
t
=
nuevo
V W< YG.SX U #J4$ WG J4X
A
n6-Go
> B3 @.2C
Es necesario comprobar "ue, cada "ue se obtiene un vector de pesos nuevo, el error e V G para todos Es necesario comprobar "ue, cada "ue se obtiene un vector de pesos nuevo, el error e V G para todos
los pares de entradaOsalida, para dar por terminado el proceso de entrenamiento: los pares de entradaOsalida, para dar por terminado el proceso de entrenamiento:
<S
p4 V
1
]
1
B
4
t4V4;
a V hardlim#Fp U b$
a V hardlim#W< G.BX
1
]
1
B
4
U G$
a V hardlim#<.6$ V 4
e V t4 Y a V 4 Y 4
- > @
pB V
1
]
1
B
4
tBVG;
a V hardlim#Fp U b$
<5
a V hardlim#W< G.BX
1
]
1
B
4
U G$
a V hardlim#JB.7$ V G
e V tB Y a V G Y G
- > @
p< V
1
]
1
4
G
t<VG;
a V hardlim#Fp U b$
a V hardlim#W< G.BX
1
]
1
4
G
U G$
a V hardlim#JG.B$ V G
e V t< Y a V G Y G
6G
- > @
0or lo tanto, los valores finales de A y D son:
A > B3 @.2C
D > @
DE 2rafi"ue su solucin, indicando la frontera de decisin, indicando la frontera de
decisin y su vector de pesos.
;igura B.< 2rficaJsolucin del e&ercicio B
La fi!'ra 012 #'estra a so'cin de ejercicio1 En ea se p'ede +is'aizar e +ector de
pesos .3 a frontera de decisin 4perpendic'ar a +ector de pesos .5
atra+esando e ori!en1 Esto )ti#o se de%e a ('e e +aor de '#%ra b es cero1
3. D43-I- 6n1 .-d n-6.on1, 56- p-.84t1 /,134=4/1. do3 t4po3 d- =.6t1 /on34d-.1ndo ,1
=o.81# ,1 t-Jt6.1 F -, p-3o. OD3-.G- ,1 =476.1 2.4.
;igura B.6. *lasificador de frutas
64
L13 -nt.1d13 p1.1 -, p-./-pt.0n t4-n-n ,1 =o.81:
P >
1
1
1
]
1
peso
textura
forma
Lo3 G1,o.-3 p1.1 /1d1 p1.<8-t.o 3on:
Fo.81:
J 1# 34 ,1 =.6t1 -3 .-dond1
J -1# 34 ,1 =.6t1 -3 -,2pt4/1
T-Jt6.1:
J 1# 34 ,1 36p-.=4/4- d- ,1 =.6t1 -3 361G-
J -1# 34 ,1 36p-.=4/4- -3 .67o31
P-3o:
J 1# 1 ,4D.1
J -1# K 1 ,4D.1
S-7Ln ,o 1nt-.4o.# ,o3 G-/to.-3 d- -nt.1d1 p1.1 ,13 =.6t13 1 /,134=4/1. 3on:
N1.1n:1
p1 >
1
1
1
]
1
4
4
4
t1 > @
6B
M1n91n1
p2 >
1
1
1
]
1
4
4
4
t2 > 1
Lo3 G1,o.-3 4n4/41,-3 d-, G-/to. d- p-3o3 F -, 68D.1, 3on:
A > B@. -1 -@.C
D > @.
1E Ap,456- ,1 .-7,1 d- 1p.-nd491:- d-, p-./-pt.0n p1.1 /1,/6,1. -, G-/to. d- p-3o3
A F -, 68D.1, D.
So,6/40n
0rimera %poca
Para el primer par de entrada3salida #0rimera iteracin$
p4 V
1
1
1
]
1
4
4
4
t4VG;
a V hardlim#Fp U b$
6<
a V hardlim#WG.? J4 JG.?X
1
1
1
]
1
4
4
4
U G.?$
a V hardlim#B.?$ V 4
e V t4 Y a V G J 4
e V J4
6sando la regla de aprendizaje del perceptrn7 se modifica el vector de pesos 8 el umbral%
=
nuevo
V =
anterior
U ep
t
=
nuevo
V WG.? J4 JG.?X U #J4$W4 J4 J4X
A
n6-Go
> B-@. @ @.C
b
nuevo
V b
anterior
U e
b
nuevo
V G.? J 4
D
n6-Go
> -@.
Para el segundo par de entrada3salida #segunda iteracin$
pB V
1
1
1
]
1
4
4
4
tBV4;
66
a V hardlim#Fp U b$
a V hardlim#WJG.? G G.?X
1
1
1
]
1
4
4
4
U #JG.?$$
a V hardlim#J4.?$ V G
e V t4 Y a V 4 J G
e V 4
=
nuevo
V =
anterior
U ep
t
=
nuevo
V WJG.? G G.?X U W4 4 J4X
A
n6-Go
> B@. 1 -@.C
b
nuevo
V b
anterior
U e
b
nuevo
V JG.? U 4
D
n6-Go
> @.
Se!'nda 6poca
Para el primer par de entrada3salida #0rimera iteracin$
6?
p4 V
1
1
1
]
1
4
4
4
t4VG;
a V hardlim#Fp U b$
a V hardlim#WG.? 4 JG.?X
1
1
1
]
1
4
4
4
U G.?$
a V hardlim#G.?$ V 4
e V t4 Y a V G J 4
e V J4
=
nuevo
V =
anterior
U ep
t
=
nuevo
V WG.? 4 JG.?X U #J4$W4 J4 J4X
A
n6-Go
> B-@. 2 @.C
b
nuevo
V b
anterior
U e
b
nuevo
V G.? J 4
D
n6-Go
> -@.
67
Para el segundo par de entrada3salida #segunda iteracin$
pB V
1
1
1
]
1
4
4
4
tBV4;
a V hardlim#Fp U b$
a V hardlim#WJG.? B G.?X
1
1
1
]
1
4
4
4
U #JG.?$$
a V hardlim#G.?$ V 4
e V t4 Y a V 4 J 4
- > @
No &a$ #odificacin de 7 $ %1 So resta pro%ar si se c'#pe para e pri#er par de
entrada1
p4 V
1
1
1
]
1
4
4
4
t4VG;
6C
a V hardlim#Fp U b$
a V hardlim#WJG.? B G.?X
1
1
1
]
1
4
4
4
U #JG.?$$
a V hardlim#J<.?$ V G
e V t4 Y a V G J G
- > @
A > B-@. 2 @.C
D > @.
S486,1/4on-3 -n M1t,1D
4. Eesuelva el siguiente problema de clasificacin del perceptrn y su regla de aprendiza&e
Los pares de entradaOsalida son:
p4 V
1
]
1
B
4
t4V4;
6S
pB V
1
]
1
B
4
tBVG;
p< V
1
]
1
4
G
t<VG;
En el editor de 3atlab teclee el siguiente cdigo "ue resuelve el problema anterior:
clear;echo on;clc;
%Se definen los vectores de entrada
P=[1 -1 0;
2 2 -1];
%Se define el vector de salida
T = [1 0 0]
% Se inicializa la red con los valores anteriores
[w,b]=init!P,T";
%Se entrena la red #sando la re$la de arendiza%e
[w,b,eoch,errors]=train!w,b,P,T,-1";
%&val'a #n ar de entrada ara clasificarlo
a=si(#![-1;0],w,b"
echo off
En la ventana de comandos de 9atlab aparece paso a paso la e&ecucin del programa,
como sigue:
P=[1 -1 0;
T = [1 0 0]
65
T =
1 0 0
[w,b]=init!P,T";


T)*+,P- 0.100 eochs, SS& = 2/

T)*+,P- 1.100 eochs, SS& = 1/

T)*+,P- 2.100 eochs, SS& = 0/
a=si(#![-1;0],w,b"

a =
0
echo off
La salida del programa #adems del proceso descrito en la ventana de comandos de 9atlab$
es una grfica donde aparecen los patrones de entrada en un plano de dos dimensiones, con
la clasificacin correspondiente #frontera de decisin$. Esto se muestra en la figura B.?.
;igura B.?. 0atrones clasificados
La frontera de decisin y el vector de pesos y umbral "ue dan solucin al problema
depender de los valores iniciales "ue 3atlab asigna a F y b.
B. 0erceptrn de cuatro clases
*lasifi"ue el siguiente grupo de vectores de entrada en cuatro clases.
?G
*lase 4:
'
1
]
1
1
]
1
B
4
B ,
4
4
4 p p

'
1
]
1
1
]
1
G
G
B ,
G
G
4 t t

*lase B:
'
1
]
1
1
]
1
G
B
6 ,
4
B
< p p

'
1
]
1
1
]
1
4
G
6 ,
4
G
< t t
*lase <:
'
1
]
1
1
]
1
4
B
7 ,
B
4
? p p

'
1
]
1
1
]
1
G
4
7 ,
G
4
? t t
?4
*lase 6:
'
1
]
1
1
]
1
B
B
S ,
4
4
C p p

'
1
]
1
1
]
1
4
4
S ,
4
4
C t t
0ara solucionar un problema de 6 clases de entrada, se necesita un perceptrn con al menos
dos neuronas, lo "ue traer como consecuencia dos vectores de pesos y, por lo tanto, dos
fronteras de decisin.
clear;echo on;clc;
P=[1 1 2 2 -1 -2 -1 -2;
1 2 -1 0 2 1 -1 -2];
%Se define los vectores de salida
T = [0 0 0 0 1 1 1 1;
0 0 1 1 0 0 1 1];
[w,b]=init!P,T"
a=si(#![1;1],w,b"
echo off
como sigue:
P=[1 1 2 2 -1 -2 -1 -2;
T = [0 0 0 0 1 1 1 1;
[w,b]=init!P,T"
?B

w =
0/0001 0/2112
-0/3122 -0/0240
b =
0/2425
0/3262

T)*+,P- 0.100 eochs, SS& = 11/
T)*+,P- 1.100 eochs, SS& = 1/
T)*+,P- 2.100 eochs, SS& = 0/
a=si(#![1;1],w,b"

a =
0
0
echo off
es una grfica donde aparecen los patrones de entrada de las cuatro clases, con una marca
especial para diferenciar cada una de ellas en un plano de dos dimensiones, con la
clasificacin correspondiente. !hora se ve una frontera de decisin en ro&o, mientras "ue la
otra es de color azul. Esto se muestra en la figura B.7.
;igura B.7. 0atrones de las 6 clases clasificados
Las fronteras de decisin al "ue dan solucin al problema depender de los valores iniciales "ue Las fronteras de decisin al "ue dan solucin al problema depender de los valores iniciales "ue
3atlab asigna a F y b. 3atlab asigna a F y b.
L1 R-d Ad1,4n-
Las redes !daline fueron desarrolladas por (ernie =idroF en la /niversidad de 1tanford
poco despu%s de "ue Eosenblatt desarrollara el 0erceptrn.
?<
El t%rmino -daline es una sigla; sin embargo, significado ha cambiado ligeramente con el
paso de los a)os. +nicialmente se llamaba -D-ptative !:near #euron #neurona Lineal
!daptativa$; pas a ser el -D-ptative !:near 2lement #Elemento Lineal !daptativo$
cuando las redes cayeron en desgracia al final de los a)os setenta.
Piene una estructura casi id%ntica a la del perceptrn general. La figura B.C. muestra la estructura de Piene una estructura casi id%ntica a la del perceptrn general. La figura B.C. muestra la estructura de
una red !daline. una red !daline.
;igura B.C. Estructura de una red !'!L+8E
Es necesario hacer dos modificaciones bsicas a la estructura del
perceptrn general para transformarla en una red Adaline. La
primera consiste en aadir una conexin de peso Wo, que se conoce
con el nombre de trmino de tendencia. Este trmino es el peso de
una conexin que siempre tiene un valor de entrada igual a 1. La
inclusin de este trmino se debe fundamentalmente a la
experiencia.
La segunda modificacin consiste en a)adir una condicin bipolar a la salida. El cuadro de
trazos "ue se ve en la figura B.C encierra una parte de la red "ue es lo "ue se denomina
combinador adaptativo lineal #!L*$. 1i la salida del !L* es positiva, la salida de la red es
U4. si la salida del !L* es negativa, entonces la salida de la red es Y4.
El !L* lleva a cabo el clculo de una suma de productos empleando los vectores de
entrada y de peso, y aplica una funcin de salida para obtener un valor ,nico de salida, tal y
como lo hace el perceptrn.
?6
M8
Salida
binaria
M
G
M
4
M
B
=
G
=
4
=
B
=
8
S
3
Salida
Lineal
F
Con86t1do. !4po,1.
3
F
J4
4
Co8D4n1do. Ad1pt1t4Go L4n-1,
La funcin de salida en este caso es la funcin identidad, as como la funcin de activacin.
El uso de esta funcin como funcin de salida y como funcin de activacin significa "ue la
salida es igual a la activacin, "ue es lo mismo "ue la entrada neta de la unidad.
La red !daline #o el !L*$ es adaptativa en el sentido de "ue eiste un procedimiento bien
definido para modificar los pesos con ob&eto de hacer posible "ue la red proporcione el
valor de salida correcto para la entrada dada. La red !daline es lineal por"ue la salida es
una funcin lineal sencilla de los valores de entrada. Es una neurona tan slo en el sentido
#muy limitado$ del perceptrn. Pambi%n se podra decir "ue la red !daline es un elemento
lineal, evitando por completo el tema de la neurona.
Algoritmo de aprendizaje
4. 1e aplica un patrn de entrada 0.
B. 1e obtiene la salida del !L* y se calcula la diferencia con respecto a la deseada
#error$.
<. 1e actualizan los pesos.
6. 1e repiten pasos 4 a < con todos los vectores de entrada.
?. 1i el Error es un valor aceptable, detenerse, si no repetir algoritmo.

La regla de aprendiza&e de =idroFJ>off o L31 #Least 3ean 1"uare$, "ue utiliza la red
!daline para su entrenamiento, hace posible la realizacin del paso <.
0or medio de las siguientes ecuaciones, se realiza la actualizacin de los parmetros de la red: 0or medio de las siguientes ecuaciones, se realiza la actualizacin de los parmetros de la red:
0ara el vector de pesos #=$
.
nuevo
/ .
anterior
0 ; ep
t
0ara el umbral #b$ 0ara el umbral #b$
b
nuevo
/ b
anterior
0 ;e
0ara el error #e$ 0ara el error #e$
e / t 1 a
donde se conoce como razn o tasa de aprendizaje ! " " 1.
El clculo de dicho parmetro se realiza mediante una matriz de correlacin E:
??
E V E#0 0
t
$
Los eigenvalores i de la matriz de correlacin sern ,tiles para la determinacin del
parmetro a, pues:
0 < Z
max
4
Aplicaciones
El principal campo de aplicacin es el 0rocesamiento de 1e)ales.
;iltros "ue eliminen el ruido en se)ales portadoras de informacin.
;iltros de ecualizacin adaptativos en 3dems de alta velocidad.
*ancelacin del ruido materno de grabaciones E*2 del latido del feto humano.
Eliminacin de ecos en circuitos telefnicos.
*anceladores adaptativos del eco para el filtrado de se)ales en comunicaciones
telefnicas de larga distancia y comunicaciones va sat%lite.
2jercicios
1. C,134=456- -, 34764-nt- /on:6nto d- p1t.on-3 631ndo -, 1,7o.4t8o LMS F 6n1 .-d
Ad1,4n-.
?7
p1 >
1
]
1
4
4
t1>1?
p2 >
1
]
1
4
4
t2>-1?
Los parmetros iniciales son:
> @.2
A >B@ @C# D>@
1E C1,/6,- -, G-/to. d- p-3o3 A F -, 68D.1, D
Pri#era 6poca
p4 V
1
]
1
4
4
t4V4;
a V pureline#Fp U b$ V Fp U b
?C
a V WG GX
1
]
1
4
4
U G
a V G
e V t4 Y a V 4 JG V 4
6sando la regla de aprendizaje de .idro+1<off7 se modifica el vector de pesos 8 el
umbral%
=
nuevo
V =
anterior
U Bep
t
=
nuevo
V WG GX U B#G.B?$#4$W4 4X
A
n6-Go
> B@. @.C D> @
pB V
1
]
1
4
4
tBVJ4;
a V WG.? G.?X
1
]
1
4
4
U G
a V G
?S
e V tB Y a V J4 JG V J4
umbral%
=
nuevo
V =
anterior
U Bep
t
=
nuevo
V WG.? G.?X U B#G.B?$#J4$W4 J4X
A
n6-Go
> B@ 1C D> @
Se!'nda 6poca
p4 V
1
]
1
4
4
t4V4;
a V WG 4X
1
]
1
4
4
U G
a V 4
e V t4 Y a V 4 J4 V @
?5
pB V
1
]
1
4
4
tBVJ4;
a V WG 4X
1
]
1
4
4
U G
a V J4
e V tB Y a V J4 U 4 V @
A > B@ 1C
D > @
DE ".1=456- ,1 =.ont-.1 d- d-/4340n F ,o3 p1t.on-3
7G
;igura B.S 2rficaJsolucin del e&ercicio 4
La fi!'ra 018 #'estra a so'cin de ejercicio1 En ea se p'ede +is'aizar e +ector de
pesos .3 a frontera de decisin 4perpendic'ar a +ector de pesos .5
atra+esando e ori!en1 Esto )ti#o se de%e a ('e e +aor de '#%ra b es cero1
2. C,134=456- -, 34764-nt- /on:6nto d- p1t.on-3 631ndo -, 1,7o.4t8o LMS F 6n1 .-d
Ad1,4n-.
p1 >
1
1
1
]
1
4
4
4
t1>-1?
p2 >
1
1
1
]
1
4
4
4
t2>1?
Los parmetros iniciales son:
A >B@ @ @C
D>@
) C1,/6,- ,1 .190n d- 1p.-nd491:-
El clculo de este parmetro se realiza mediante una matriz de correlacin E:
E V E#0 [ 0
t
$
E V E#0 0
t
$
74
E V
B
4
04[ 04
t
U
B
4
0B[ 0B
t

E V
B
4
1
1
1
]
1
4
4
4
W4 Y4 Y4X U
B
4
1
1
1
]
1
4
4
4
W4 4 Y4X
E V
B
4
1
1
1
]
1

4 4 4
4 4 4
4 4 4
U
B
4
1
1
1
]
1
4 4 4
4 4 4
4 4 4
V
B
4
1
1
1
]
1
B G B
G B G
B G B
V
1
1
1
]
1
4 G 4
G 4 G
4 G 4
4e procede ahora al c'lculo de los 2igenvalores )i, de la matriz " mediante la frmula%
0#$ V \! Y +\
2sto hace%
1
1
1
]
1
4 G 4
G 4 G
4 G 4
J
1
1
1
]
1
G G
G G
G G
V
( )
( )
( )

4 G 4
G 4 G
4 G 4
<aciendo el c'lculo del determinante se tiene%
( )
( )
( )

4 G 4
G 4 G
4 G 4
V #4 J $
<
Y #4 Y $
*actorizando se tiene%
#4 J $
<
Y #4 Y $
V #4 J $ ]#4 J $
B
Y 4^
V #4 J $ ]4 J B U
B
J4^
V #4 J $ ]JB U
B
^
V #4 J $#2$ V G
7B
<aciendo el c'lculo de las ra&ces7 se obtienen los eigenvalores de la matriz "%
1
VG
2
V4
3
VB
!a m'xima razn de aprendizaje estable es% !a m'xima razn de aprendizaje estable es%
m V
3
V B

0 < Z
max
4
max
4
V 4 O B V G.?
4e elige una tasa de aprendizaje de =.; )valor t&pico,
8ota: 8ota: se puede proponer a trav%s de prueba y error. se puede proponer a trav%s de prueba y error.
) C1,/6,- -, G-/to. d- p-3o3 A F -, 68D.1, D
Pri#era 6poca
p4 V
1
1
1
]
1
4
4
4
t4VJ4;
7<
a V WG G GX
1
1
1
]
1
4
4
4
U G
a V G
e V t4 Y a V J4 JG V J4
umbral%
=
nuevo
V =
anterior
U Bep
t
=
nuevo
V WG G GX U B#G.B$#J4$W4 J4 J4X
A
n6-Go
> B-@.4 @.4 @.4C D> @
pB V
1
1
1
]
1
4
4
4
tBV4;
76
a V WJG.6 G.6 G.6X
1
1
1
]
1
4
4
4
U G
a V JG.6
e V tB Y a V 4 U G.6 V 4.6
umbral%
=
nuevo
V =
anterior
U Bep
t
=
nuevo
V WJG.6 G.6 G.6X U B#G.B$#4.6$W4 4 J4X
A
n6-Go
> B@.1$ @.($ -@.1$C D> @
Se!'nda 6poca
p4 V
1
1
1
]
1
4
4
4
t4VJ4;
7?
a V WG.47 G.57 YG.47X
1
1
1
]
1
4
4
4
U G
a V JG.76
e V t4 Y a V J4 U G.764 V JG.<7
umbral%
=
nuevo
V =
anterior
U Bep
t
=
nuevo
V WG.47 G.57 JG.47X U B#G.B$#J<.7$W4 J4 J4X
A
n6-Go
> B@.@1$ 1.1@4@ -@.@1$C D> @
1i se continua el proceso, el algoritmo convergir en:
A > B@ 1 @C
D > @
S486,1/4on-3 -n MATLA!
4. Eesuelva el siguiente problema de clasificacin de la red !daline y su regla de aprendiza&e
Los pares de entradaOsalida son:
p4 V
1
]
1
B
G
t4V4;
77
pB V
1
]
1
G
B
tBV4;
p< V
1
]
1
B
B
t<VG;
clear;echo on;clc;
P=[0 2 -2;
2 0 -2];
T = [1 1 0];
%Se crea #na red lineal adatativa ,&78+,!P),S,+9,8)"
donde-
P) : (atriz );2 de los valores (<;i(os = (>ni(os ara ) ele(entos
de entrada/
S - ,'(ero de ele(entos de salida
+9 : ?ector de retardo, defa#lt = [0]/
8) : Tasa de arendiza%e, defa#lt = 0/01;
net=newlin![-2 2;-2 2],1";
%Se a%#sta el error !valor or o(isi@n=0"
net/trainPara(/$oal=0/1;
%Se a%#stan las Aocas !valor or o(isi@n=100"
net/trainPara(/eochs=30;
%Se entrena la red
[net,tr]=train!net,P,T";
%Si se desea dar valores iniciales al vector de esos = #(bral,
escr>banse las si$#ientes dos l>neas de c@di$o
7C
net/+7B1,1C=[-1 -1];
net/bB1C=[2];
%Se asi$nan a las variables 7 = b los valores calc#lados #na vez
ter(inado el roceso de entrena(iento
7=net/+7B1,1C
b=net/bB1C
%Se $rafican los atrones de entrada, las salidas deseadas = la frontera
de decisi@n (ediante las si$#ientes l>neas
lotv!P,T"
lotc!net/+7B1,1C,net/bB1C"
echo off
como sigue:
P=[0 2 -2;
T = [1 1 0];
%Se crea #na red lineal
net=newlin![-2 2;-2 2],1";
%Se a%#sta el error !valor or o(isi@n=0"
net/trainPara(/$oal=0/1;
%Se a%#stan las Aocas !o(isi@n=100"
net/trainPara(/eochs=30;
%Se entrena la red
[net,tr]=train!net,P,T";
T)*+,7D, &och 0.30, ES& 0/555552.0/1/
T)*+,7D, &och 23.30, ES& 0/0022001.0/1/
T)*+,7D, Perfor(ance $oal (et/
%net/+7B1,1C=[-1 -1];
%net/bB1C=[2];
7=net/+7B1,1C
7 =
0/1304 0/1304
b=net/bB1C
b =
0/1336
lotv!P,T"
7S
lotc!net/+7B1,1C,net/bB1C"
echo off
es una sucesin de grficas donde aparece la variacin del error en un n,mero 8 de %pocas.
Esto se muestra en la figura B.5.
;igura B.5. Evolucin del error
Los patrones de entrada en un plano de dos dimensiones, con la clasificacin
correspondiente #frontera de decisin$ aparecen despu%s de terminado el proceso de
entrenamiento. Esto se muestra en la figura B.4G.
;igura B.4G. 0atrones clasificados
75
CAPITULO III
REDES NEURONALES 9ULTICAPA CON APRENDI:A;E
SUPER<ISADO..
3.1.@ P-./-pt.on M6,t4/1p1
El 0erceptrn multicapa #3L0$ puede ser usado para la prediccin de una serie de datos
en el tiempo; tal a sido su %ito en la medicin de la demanda de gas y electricidad,
adems de la prediccin de cambios en el valor de los instrumentos financieros.
0rediccin de mercados financieros, diagnsticos m%dicos, el 0erceptrn como una red
codificadora, el 0erceptrn aprende a sumar enteros.
8EPtalD es un 0erceptrn "ue es capaz de transformar teto en ingles en sonido individual
#representaciones fon%ticas$ y la pronunciacin con la utilizacin de un sintetizador de voz;
cuenta con aproimadamente <GG nodos de neuronas #siendo SG en la capa escondida$ y
BG,GGG coneiones individuales.
3.1.1 C1.1/t-.23t4/13
*ada capa de la red es caracterizada por la matriz de parmetros, y el funcionamiento de la
red por una composicin no lineal de operaciones como se muestra:
/na red neuronal hacia adelante #feedforFard$ con dos capas #una oculta y una de salida$
es com,nmente usada para aproimacin de mapas no conocidos. 1i la capa de salida es
lineal, la red puede tener una estructura similar a una red de base radial #E(;$.
El perceptron multicapa es com,nmente usado para aproimar mapas no lineales
comple&os. En general, esto es posible, dos capas son suficientes para aproimar cual"uier
funcin no lineal. 0or consiguiente, estamos restringiendo nuestras consideraciones a una
red de dos capas.
La estructura de la parte de decodificacin de la red de dos capas es representada en la
figura #<.4$.
;igure <.4: 'iagrama a blo"ues de una red neuronal de una sola capa oculta con conein hacia adelante
CG
;#=, J$ V #=4 [#=l [J$ $ #<.44$
La estructura de cada capa ha sido descrita en la figura. En la capa oculta se usan funciones
no lineales y en la capa de salida puede ser diferente. Eisten dos matrices de pesos: una
matriz de L _p =
h
en la capa oculta, y una matriz de m _L =
y
en la capa de salida. El
funcionamiento de la red puede ser descrito de la siguiente manera:
o simplemente como
#<.4B$
Ppicamente, la funcin sigmoidal #tangente hiperblica$ es usada, pero eisten otras
funciones "ue tambi%n se pueden utilizar. /na condicin importante desde el punto de vista
de el aprendiza&e es "ue la funcin debe ser diferenciable.
Ppicamente funciones no lineales y sus derivadas se usan en el perceptron multicapa:

4igmoidal unipolar%
La derivada de la funcin sigmoidal:
4igmoidal bipolar%
La derivada de la funcin bipolar sigmoidal:
8ota "ue
'erivadas de la funcin sigmoidal son siempre no negativas.
y V
d
d v
V
6 e
B v

#e
B v
U4$
B

V #4 J y
B
$
y V
d
d v
V
e
Jv

#4 U e
Jv
$
B

V y #4 J y$
y V # v $ V
4
4 U e
Jv
V
4
B
#tanh#vOB$ J4$ #47G,<G$
C4
6#n$ V =
h
[J#n$ ; M#n$ V #6#n$$ J hidden signals ;
G#n$ V =
y
[ M#n$ ; F#n$ V #G#n$$ J output signals .
F#n$ V # =
y
[ # =
h
[J#n$ $ $
# v $ V tanh#v$#<BG,G$
'erivadas pueden ser calculadas directamente desde la se)al de salida usando
simplemente operaciones aritm%ticas.
En saturacin, para valores grandes de potencial de activacin, v, las derivadas se
acercan al cero.
3.1.2 A.564t-/t6.1
*igura >.;. -rquitectura de un perceptron multicapa.
3.1.3 Ap,4/1/4on-3
El rango de tareas "ue el 0erceptrn puede mane&ar es mucho mayor "ue simples decisiones
y reconocimiento de patrones. 0or e&emplo, se puede entrenar una red para formar el tiempo
pasado de los verbos en ingles, leer teto en ingles y manuscrito.
3.2.@ Ad1,4n-
(ernard =idroF comenz a traba&ar en las redes neuronales a finales de los a)os ?G, al
mismo tiempo "ue ;ranD Eosenblatt desarrollaba la regla de aprendiza&e del perceptrn. En
457G =idroF y su estudiante graduado 3arcian >off, introdu&eron la red !'!L+8E
#!'!ptive Linear 8Euron$, y su regla de aprendiza&e a la cual ellos llamaron el algoritmo
de 3nimos *uadrados o L31 #!east 9ean 4quare$.
El algoritmo L31 ha encontrado mucho mayores aplicaciones prcticas "ue la regla de
aprendiza&e del perceptrn.
3.2.1 C1.1/t-.23t4/13 d- ,13 .-d-3 ADALINE F MADALINE.
Las redes !'!L+8E #!'!ptive L+8ear Element$ y 3!'!L+8E #3ultiple !'!L+8E$,
fueron desarrolladas por (ernard =idroF en la universidad de 1tanford poco despu%s de
"ue Eosenblatt desarrollar el 0erceptrn. Las ar"uitecturas de !'!L+8E y 3!'!L+8E
son esencialmente las mismas "ue las del 0erceptrn. !mbas estructuras utilizan neuronas
CB
con funciones de transferencia escaln. La red !daline est limitada a una ,nica neurona,
mientras "ue la 3adaline puede tener varias. La diferencia fundamental respecto al
0erceptrn se refiere al mecanismo de aprendiza&e, !daline y 3adaline utilizan la
denominada R-7,1 D-,t1 de =idroFJ >off o regla del 3nimo Error *uadrtico 3edio
#L31$, basada en la b,s"ueda del mnimo de una epresin del error entre la salida
deseada y la salida lineal obtenida antes de aplicarle la funcin de activacin escaln #frente
a la salida binaria utilizada en el caso del 0erceptrn$. 'ebido a esta nueva forma de
evaluar el error, estas redes pueden procesar informacin analgica, tanto de entrada como
de salida, utilizando una funcin de activacin lineal o sigmoidal.
3.2.2 A.564t-/t6.1 d- ,1 R-d Ad1,4n-.
/na red neuronal como la "ue se muestra en la figura <.4 tiene una capa de S neuronas
conectadas a R entradas a trav%s de una matriz de pesos A.
;igura <.< !r"uitectura de la red !daline
Esta red es con frecuencia llamada 3!'!L+8E o 3,ltiples !'!L+8E. La figura a la
derecha define un vector de salida 1 de longitud S.
La regla de =idroF Y >off puede entrenar solamente una capa de redes lineales. Esto no es
tanto una desventa&a, ya "ue una red de una sola capa es tan capaz como una red de
m,ltiples capas. 0ara cada red lineal multicapa, eiste una red lineal de una sola capa.
3.2.3 A,7o.4t8o d- Ap.-nd491:-
!a "egla de -prendizaje !94.
1i tenemos un vector de entradas = puede ser muy sencillo determinar el vector de pesos 7
"ue produzcan una salida S. 1in embargo, si se tiene un con&unto de entrada ]J4, JB, ..., J!^,
a cada uno de los cuales les corresponde una salida correcta d?, con ? V 4, ..., L, ya no es tan
fcil saber cules son los pesos "ue produciran un me&or resultado; para esto, el !daline
utiliza la regla de mnimos cuadrados, o "ue minimiza el error cuadrtico medio, llamada
L31 #!east 9ean 4quare$, o regla delta, por"ue minimiza la delta o diferencia entre el
valor obtenido y el deseado.
C<
1i "ueremos "ue el me&or vector de pesos "ue realice la proyeccin de los vectores de
entrada J? a las salidas deseadas d?, lo "ue estamos buscando es minimizar el error en la
salida. 1i denotamos la salida para el ?J%simo vector de entrada con s?, el error es denotado
por la ecuacin <.4.
? ?
s d
#<.B4$
Entonces el error cuadrtico medio, "ue es el valor "ue deseamos minimizar esta dado por
la ecuacin <.B.
!
?
? ?
!
4
B B
4

#<.BB$
considerando a L como el tama)o del con&unto de entrenamiento, o sea, el n,mero de
vectores de entrada "ue usaremos para el entrenamiento. 'esarrollando se obtiene <.B<.
( )
w J w J J w
w J J w w J
J w
t
? ?
t
? ?
t
?
t
? ?
t t
? ? ?
?
t
? ?
d d
d d
d
B
B
B
B
B
B
+
+

#<.B<$
0ara minimizar esta funcin debemos derivar con respecto a w e igualar a cero, como se
muestra en <.B6.
? ?
t
? ?
?
t
? ?
?
t
? ?
d
d
d
J J J w
J w J J
J w J J
N
N
4
G B B

#<.B6$
!hora, como representa al error cuadrtico medio, su grfica #con dos entradas y dos
pesos$ debe ser un paraboloide, y como no puede ser negativo, la grfica debe ser cncava
hacia arriba. 'e a"u resta "ue el mnimo encontrado es ,nico, y "ue no tiene mimos.
0ero para obtener un vector de pesos como indica el procedimiento anterior es necesario
contar con informacin estadstica acerca de los vectores de entrada. 0ero basndonos en lo
obtenido, podemos desarrollar un m%todo capaz de aproimar cada vez ms el vector de
pesos al "ue nos produce un error cuadrtico mnimo. Empezamos suponiendo "ue el
vector de pesos es una funcin discreta del tiempo, en el "ue cada paso se actualiza
basndose en el vector anterior, como se muestra en la ecuacin <.B?.
( ) ( ) ( ) t t t w w w + +4
#<.B?$
Este cambio w lo se aproima mediante el gradiente del error, "ue nos da la direccin del
ascenso ms pronunciado, "ue multiplicado por un =1/to. nos da la direccin y magnitud
correcta; vea la ecuacin <.B7
C6
( ) ( ) ( ) ( ) t t t w w w +4 #<.B7$
0ero asumimos "ue no conocemos las estadsticas de las entradas, por lo "ue no podemos
encontrar el gradiente eacto del error; para librar este inconveniente, aproimamos el error
esperado con el error actual, con lo "ue se obtiene <.BC y <.BS.
( )
( ) ( ) ( )
( )
? ?
?
t
?
t
?
t
t d
t
J
w
J w

B
B

#<.BC$
( ) ( )
? ?
t t J w w B 4 + +
#<.BS$
Esta es la epresin para el descenso ms pronunciado, del algoritmo L31. !l factor lrVB
se le conoce como constante de proporcionalidad o tasa de aprendizaje. La actualizacin
de pesos y de umbral para la red adaline se describe por la ecuacin <.B5.
( ) ( )
( ) ( ) ( ) t t t
t t
? ?
- D D
J w w
B 4
B 4
+ +
+ +
<.B5
8ota:
0ara la eleccin de un valor de debemos tener cuidado. 1e puede suponer "ue mientras
"ue el valor de sea mayor, nos acercaremos ms rpido al error mnimo, sin embargo no es as: un
valor grande de nos puede hacer "ue la solucin via&e por toda la superficie del paraboloide sin
convergir nunca. 0or otro lado, un valor muy pe"ue)o seguramente provocar "ue se consuma un
tiempo mayor durante el entrenamiento.
Pampoco es necesario "ue el valor de permanezca esttico: conforme el error vaya
disminuyendo, el algoritmo dar pasos ms cortos, y en esos momentos es cuando es
recomendable incrementar ligeramente en cada paso; pero se debe tener cautela, puesto
"ue si incrementamos demasiado daremos saltos por el fondo de la superficie sin me&orar el
error ni llegar al lmite buscado.
3.2.4 Ap,4/1/4on-3
Esta red ha sido etensamente utilizada en ciencia, estadstica #en el anlisis de regresin
lineal$, ingeniera #el procesamiento adaptativo de se)ales, control de sistemas$, y as
sucesivamente.
En general, la !daline es usada para e&ecutar:
C?
/na aproimacin lineal de un pe"ue)o segmento de una superficie no lineal, la
cual es generada por una funcin variable p, 8 V f#J$. En este caso, el bias es
usualmente necesario, de a"u, +p V 4.
;iltrado lineal de datos #se)ales$.
!sociacin de patrones, esto es, generacin de mJelemento del vector de salida
asociados con su respectivo pJelemento del vector de entrada.
3.2. E:-./4/4o3 F 3486,1/40n -n M1t,1D
0rediccin adaptativa con !daline J E&emplo #adlpr.m$
En este e&emplo una configuracin !daline como en la figura #<.6$ es usada para predecir
una se)al de unidimensional #series de tiempo$. 0ara predecir el siguiente valor de la se)la
de entrada, p muestras de %sta son colocados a la !daline. La se)al de entrada es tambi%n
usada como la salida deseada. La regla de aprendiza&e L31 es usada para adaptar el vector
de pesos en cada paso.
Empezaremos con las especificaciones de una se)al senoidal de frecuencia BD>z muestrada
cada ?Gsec. 'espu%s de ?sec la frecuencia de la se)al se cuadriplicara con el tiempo de
muestreado siendo tambi%n reducido a 4B.?sec.
f1 = 2 ; % FGz
ts = 1.!60Hf1" ; % 12/3 sec -- sa(lin$ ti(e, fs = 40FGz
, = 100 ;
t1 = !0-,"H6Hts ;
t2 = !0-2H,"Hts I 6H!,I1"Hts;
t = [t1 t2] ; % 0 to 2/3 sec
, = size!t, 2" ; % , = 102
;t = [sin!2HiHf1Ht1" sin!2HiH2Hf1Ht2"];
lot!t, ;t", $rid, title!JSi$nal to be redictedJ"
C7
;igura <.6: La se)al de entrada y la se)al predicha
La se)al #series de tiempo$ se convertira en una colleccin de vectores de entrada, J#n$, y
guardadas en una matriz @ de p _#.
= 6 ; % ,#(ber of s=nases
K = conv(t;!;t, " ; K = K!-, 1-," ;
d = ;t ; % The tar$et si$nal is eL#al to the in#t si$nal
= = zeros!size!d"" ; % (e(or= allocation for =
es = zeros!size!d"" ; % (e(or= allocation for es
eta = 0/6 ; % learnin$ rate.$ain
w = rand!1, " ; % +nitialisation of the wei$ht vector
for n = 1-, % 8ES learnin$ loo
=!n" = wHK!-,n" ; % redicted o#t#t si$nal
es!n" = d!n" - =!n" ; % error si$nal
w = w I etaHes!n"HK!-,n"J; % wei$ht #date
end
CC
;igura <.?: El error de prediccin
El vector de pesos estimado es w = 0.7049 0.2818 0.2366 -0.2795
3.3.@ R-d !1/Np.op171t4on
El perceptrn solo es el e&emplo ms elemental de una red neuronal, de hecho, no puede
si"uiera ser considerado una IredI, puesto "ue no intervienen otros elementos. 1i se
combinan varios perceptrones en una IcapaI, y los estmulos de entrada despu%s se suman
tendremos ya una red neuronal. /na red neuronal muy eficaz para resolver
fundamentalmente problemas de reconocimiento de patrones es la red neuronal de
propagacin hacia atrs, en ingl%s bacD propagation netForD.
#rigen
!l parecer el algoritmo fue ideado a principios de los CG por =erbos, y redescubierto a principios
de los SG por 0arDer y Eumelhart independientemente, sin embargo, no se hizo popular hasta 45S7,
cuando Eumerlhart, >inton y =illiams presentaron una descripcin clara y concisa del mismo. H es
"ue en un primer momento no se valor como se mereca. El hecho de "ue permaneciera en el
olvido tanto tiempo tambi%n debe ser una consecuencia de la condicin interdisciplinaria del campo,
repartido entre las matemticas y ciencias de la computacin, las neurociencias y la sicologa.
'esde la fecha clave de 45S7 han surgido nuevas versiones "ue han tratado de aumentar la
velocidad de convergencia del algoritmo y han tratado de superar algunos de sus inconvenientes,
como la tendencia a alcanzar mnimos locales y no globales, punto "ue ser discutido ms tarde.
CS
3.3.1 Caractersticas
!l hablar de redes de retropropagacin o redes de propagacin hacia atrs hacemos referencia a un
algoritmo de aprendiza&e ms "ue a una ar"uitectura determinada. La retropropagacin consiste en
propagar el error hacia atrs, es decir, de la capa de salida hacia la capa de entrada, pasando por las
capas ocultas intermedias y a&ustando los pesos de las coneiones con el fin de reducir dicho error.
>ay distintas versiones o reglas del algoritmo de retropropagacin y distintas ar"uitecturas de
conein a las "ue pueden ser aplicados.
'urante mucho tiempo no se dispuso de algoritmos para entrenar redes multicapa, y como las redes
de una capa estaban muy limitadas en cuanto a lo "ue eran capaces de representar, el campo de las
redes neuronales artificiales estaba estancado. La invencin y perfeccionamiento del algoritmo de
retropropagacin dio un gran impulso al desarrollo de este campo. Piene un buen fundamento
matemtico y a pesar de sus limitaciones ha epandido enormemente el rango de problemas donde
se aplican las redes neuronales artificiales.
'escripcin matemtica
1e eplica una versin del algoritmo #>inton, 455B$ para redes con las siguientes caractersticas:
8o recurrentes
;uncin de activacin sigmoidal
*apas totalmente interconectadas
Rperacin totalmente sncrona
3.3.2 A.564t-/t6.1
;igura <.7. !r"uitectura de una red bacDpropagation.
21212 A!orit#o de Aprendizaje
!leatorizamos los pesos de las coneiones.
0resentamos un patrn de entrada y calculamos la salida.
C5
'ada una unidad &J%sima de la capa de salida y unidades iJ%simas de la capa oculta
inmediatamente anterior, calculamos la entrada total ponderada y la salida o activacin de
la misma.
;igura <.C . +lustra el calculo de la capa de salida
x 8 +
j i
i
n
ij

# $
4
8
e
j x
j
+

4
4
/na vez computadas las actividades de todas las unidades de salida se calcula una
estimacin del error, generalmente una funcin cuadrtica de los errores individuales
cometidos por cada unidad, siendo cada error individual la diferencia entre la salida
deseada y la obtenida.
2 d 8
j j
j

4
B
B
# $
34-ndo d: ,1 31,4d1 d-3-1d1 p1.1 ,1 6n4d1d :-;3481
#ota% 4e van a indicar por un lado las expresiones matem'ticas 8 por otro lado la explicacin
intuitiva de cada paso. (onviene recordar que nuestro objetivo es calcular como var&a el error al
variar el peso de cada conexin )tasa de variacin del error respecto al peso de una conexin7 2P,
*mputo de la rapidez de variacin del error al cambiar la actividad de cada unidad de
salida #E!, error respecto a la actividad$
2-
2
8
d 8
j
j
j j

Es &ustamente la diferencia entre la salida deseada y la salida real obtenida, es decir, la diferencia
entre la actividad deseada y la actividad real
*mputo de la rapidez de variacin del error al cambiar la entrada total "ue recibe cada
unidad de salida.
SG
Y 1
Y 2
Y n
Y j
W1,j
W2,j
Wn,j
Y1
Ym
j=1..m
CAPA DE SALIDA
i=1..n
CAPA OCULTA
j
j j
j
j
j j j j j j j
2
x
2
8
8
x
2- 8 8 8 8 d 8 # $ # $# $ 4 4
Es igual a la tasa de variacin del error al variar su activacin multiplicado por la tasa de variacin
de la activacin al cambiar su entrada # "ue es &ustamente la derivada de la funcin sigmoidal $
*mputo de la rapidez de variacin del error al ser modificado un peso de la conein
aferente a una unidad de salida.
2P
2
+
2
x
x
+
8
ij
ij j
j
ij
j i

Es igual a la tasa de variacin del error al variar su entrada, por la tasa de variacin de la entrada al
variar ese peso.
>asta ahora sabemos calcular el E! slo para las unidades de salida, 9 "u% pasa con las unidades
ocultas:. En este caso no tenemos una estimacin directa del error aportado por cada unidad oculta;
a"u es donde interviene la retropropagacin o propagacin hacia atrs del error:
;igura <.S. +lustra la propagacin hacia atrs del error.
La unidad iJ%sima de la capa oculta afecta a todas las unidades de salida, por lo tanto, para estimar
como vara el error al variar la actividad de esa unidad oculta, habr "ue sumar los efectos
individuales de su actividad sobre todas las neuronas de salida. *ada efecto individual sobre la
variacin del error, ser igual a la tasa de variacin del error de la unidad de salida al cambiar su
entrada total, multiplicado por la tasa de variacin de su entrada al variar la actividad de la unidad
oculta.

2-
2
8
2
x
x
8
+
i
i j
j
i j
m
j ij
j
m

# $ # $
4 4
*onociendo E! para las unidades de cual"uier capa podemos calcular y E0 con las
epresiones ya conocidas.
S4
Y i
Y 1
C A P A O C U L T A
Y2
Ym
i = 1 . . n
Y n
Y 1
Wi,1
Wi,2
Wi,m
CAPA DE SALIDA
j=1..m
Wh,i

i i i i i i j ij
j
m
2- 8 8 8 8 +
# $ # $ # $ 4 4
4
2P 8
hi i h

'isponiendo de la tasa de variacin del error respecto al peso de una conein #E0$, podemos usar
distintas reglas para modificar ese peso en aras a reducir dicho de error. /na de las primeras reglas
"ue aprovech este algoritmo es la .-7,1 d-,t1 7-n-.1,491d1, "ue calcula el incremento a aplicar a
un peso como una proporcin directa de la tasa de variacin del error.
+ 8
ij j i

siendo el coeficiente de aprendiza&e, tpicamente con valores
comprendidos entre G.G4 y 4.G
+ t + t +
ij ij ij
# $ # $ + + 4
El algoritmo de retropropagacin presenta ciertos problemas, algunos referentes a su dudosa
plausibilidad neurofisiolgica, y otros referentes a ciertos aspectos computacionales, "ue son los
"ue vamos a comentar a"u.
Los resultados dependen de los valores iniciales, aleatorios, de las coneiones. Esto hace
"ue sea conveniente entrenar varias redes con distintas valores iniciales y elegir la "ue
me&or funcione.
! veces se re"uiere mucho tiempo para obtener soluciones sencillas. Este problema se
reduce gracias al aumento de potencia de los procesadores y al uso de nuevas tecnologas,
sin embargo, el tiempo de cmputo aumenta mucho al aumentar el tama)o de la red. 1i bien
el volumen de clculo es proporcional al n,mero total de coneiones. En la prctica, al
aumentar el tama)o de la red, hacen falta ms e&emplos de aprendiza&e, y eso provoca un
aumento aumenta mucho mayor del tiempo de aprendiza&e. 0ara incrementar la velocidad
de convergencia se han desarrollado diferentes modificaciones del algoritmo.
La @interferencia catastrficaA o empeoramiento en el rendimiento del sistema, como
consecuencia de la incorporacin de nuevos e&emplos de aprendiza&e.
La parlisis: esto sucede cuando los pesos "uedan a&ustados a valores muy grandes, esto
hace operar a las unidades de proceso con una activacin muy prima a 4, y por lo tanto,
el gradiente del error, `atiende a G, en consecuencia no se producen modificaciones en los
pesos, el aprendiza&e "ueda detenido. 0or eso es conveniente aleatorizar los pesos de las
coneiones con valores pe"ue)os y usar la tasa de aprendiza&e, `aatambi%n pe"ue)a, a pesar
de "ue se alentase el aprendiza&e.
+nestabilidad temporal. 1i usamos un coeficiente de aprendiza&e elevado, se van a producir
incrementos grandes en los pesos, de manera "ue es fcil pasarse de incremento y tener "ue
tratar de compensarlo en el siguiente ciclo, de manera "ue se produciran oscilaciones
continuas. Esto se soluciona usando un coeficiente pe"ue)o, o, para no tener un aprendiza&e
muy lento, modificar dicho coeficiente adaptativamente #aumentarlo si el error global
disminuye, y disminuirlo en caso contrario$.
El problema de los mnimos locales. El algoritmo de retropropagacin usa un t%cnica por
gradiente descendiente, esto significa "ue sigue la @superficie del errorA siempre hacia
SB
aba&o, hasta alcanzar un mnimo local, pero no garantiza "ue se alcance una solucin
globalmente ptima. 1in embargo, se ha comprobado "ue el hecho de alcanzar mnimos
locales no impide "ue se consigan resultados satisfactorios. 0or otro lado, se han
desarrollado m%todos para solventar este problema, como el modo de operacin asncrono o
probabilstica y el uso de m%todos estadsticos, como el equilibrio termodin'mico simulado
#ver siguiente apartado$.
'istribucin de 0esos
pesos
;uncin ob&etivo #error$
;igura <.5. 0roblema de los mnimos locales
0odemos considerar el error como una superficie llena de desniveles, si soltamos una pelota
caer en alg,n valle, pero no necesariamente en el ms hondo, sino en el ms cercano #un
mnimo local$. /na idea intuitiva para solucionar esto, sera aplicarle cierta energa a esa
superficie agitndola o haci%ndola vibrar, esto hara saltar a la pelota de valle en valle,
como de los valles ms profundos es ms difcil salir, tendera a estar en valles cada vez
ms profundos. 1i de&amos de agitar esa superficie poco a poco, al final tendremos la pelota
en el valle ms profundo de la superficie.
Rtras t%cnicas "ue pueden ayudar a no caer en mnimos locales consisten en a)adir cierto
nivel de ruido a las modificaciones de los pesos de las coneiones. Rtra medida propuesta
es a)adir ruido a las coneiones, pero esto es ms ,til para darle robustez y aumentar la
capacidad de generalizacin de la red. Estas medidas, por contra, aumentan el tiempo de
aprendiza&e.
Ap,4/1/4on-3
E:-./4/4o F 3486,1/4on-3 -n M1t,1D
E&emplo de una funcin de aproimacin #fapB'.m$
En este e&emplo de 3!PL!( aproimamos dos funciones de dos variables,
/sando un perceptron de dos capas,
Los pesos del perceptron, =
h
, =
y
, son entrenados usando el algoritmo bsico de D1/N-
p.op171t4on.
Empezaremos con la especificacin de la red neuronal #fapB'i.m$:
= 1 ; % ,'(ero de entradas !2" (as la entrada de el bias
S<
F V =#J$ , or y4 V f4 # 4, B$ , yB V fB # 4, B$
F V # =
y
[ # =
h
[J$ $
8 = 12; % ,'(ero de seMales oc#ltas !con bias"
( = 2 ; % ,'(ero de salidas
La estructura de la red es la siguiente:
;igura <.4G. Estructura de la red
'os se)ales sern aproimadas por un perceptron de dos capas:
El dominio de la funcin es un cuadrado 4, B WJB, B$.
1e tomaran muestras de las funciones para el entrenamiento y se colocaran en una regilla de
47 _47. El cdigo para formar las matrices de muestras M y ' es el siguiente:
na = 15; , = naN2; nn = 0-na-1; % ,'(ero de casos de entrena(iento
Especificacin del dominio de las funciones:
K1 = nnH6.na-2; % na #ntos de -2 en dos, desde !6.na"=/23 a !2-
6.na"=1/23
[K1 K2] = (esh$rid!K1"; % esecificaci@n de los vArtices de la
(atriz K1 = K2 son na or na
)=!K1/N2IK2/N2I1e-3"; % ) !rho" es #na (atriz c#adr<tica de
distancias de los vArtices de la (atriz al #nto ori$inal/
91 = K1/He;!-)"; 9 = !91!-""J; % 91 es na or na, 9 es 1 or ,
92 = 0/23Hsin!2H)"/.) ; 9 = [9 ; !92!-""J]; %92 es na or na, 9
es #na (atriz 2 or , de 2-9 vectores
El dominio de los puntos de muestras es el siguiente:
K1=-2/00 -1/23 /// 1/30 1/23 K2=-2/00 -2/00 /// -2/00 -2/00
-2/00 -1/23 /// 1/30 1/23 -1/23 -1/23 /// -1/23 -1/23
/ / / / / / / / / / / /
-2/00 -1/23 /// 1/30 1/23 1/30 1/30 /// 1/30 1/30
-2/00 -1/23 /// 1/30 1/23 1/23 1/23 /// 1/23 1/23
y4 V 4 e
J
, yB V
sinB
6
, donde V 4
B
U B
B

S6
Eecorriendo las columnas M4 y MB y colocando el bias, obtenemos la matriz de entrada
M la cual es p _8:
K = [K1!-"J; K2!-"J;ones!1,,"];
Los e&emplares de entrenamiento son los siguientes:
K = -2/0000 -2/0000 /// 1/2300 1/2300
-2/0000 -1/2300 /// 1/3000 1/2300
1/0000 1/0000 /// 1/0000 1/0000
9 = -0/0002 -0/0012 /// 0/0045 0/0014
-0/0000 0/0136 /// -0/0610 -0/0122
La funcin a ser aproimada se puede ver en la ;igura <.44.
s#rfc![K1-2 K1I2], [K2 K2], [91 92]"
;igure <.44: 'os funciones de BJ' a ser aproimadas
+nicializando la matriz de pesos aleatoriamente:
7h = randn!8,".; 8a (atriz de esos de la caa oc#lta 7
h
es 8 O
7= = randn!(,8".8; 8a (atriz de esos de la caa de salida 7
=
es (
O8
P = 200; % (<;i(o n#(ero de Aocas de entrena(iento
Q = zeros!(,P"; % +nicializaci@n de la f#nci@n de error
eta = [0/001 0/1]; % Ranancia de entrena(iento
El ciclo principal #fapB'.m$:
S?
for c = 1-P
El paso hacia adelante:
G = ones!8-1,,"/.!1Ie;!-7hHK""; % SeMales oc#ltas !8-1 ; ,"
G = G/H!1-G"; % 9erivadas de las seMales oc#ltas
G = [G ; ones!1,,"]; % bias
S = tanh!7=HG"; % seMales de salida !( ; ,"
S = 1 - S/N2; % 9erivadas de las seMales de salida
La retroalimentacin:
&= = 9 - S; % 8os errores de salida !( ; T"
QQ = !s#(!!&=/H&="J""J; % &l error total des#As de #na Aoca
% de aro;i(aci@n ( ; 1
delS = &=/HS; % SeMal de salida delta !( ; T"
d7= = delSHGJ; % *ct#alizaci@n de la (atriz de salida
% d7= es 8 ; (
&h = 7=!-,1-8-1"JHdelS % 8a roa$aci@n hacia la caa oc#lta del
error
% &h es 8-1 ; ,
delG = &h/HG ; % SeMal oc#lta delta !8-1 ; ,"
d7h = delGHKJ; % *ct#alizaci@n de la (atriz oc#lta
% d7h es 8-1 ;
La actualizacin de los pesos:
7= = 7=Ieta=Hd7=; 7h = 7hIetahHd7h;
Las dos funciones de aproimacin son graficadas despu%s de cada %poca. Ner la figura
<.4B de la aproimacin final.
S7
;igura <.4B: ;unciones al final de la aproimacin
91!-"=S!1,-"J; 92!-"=S!2,-"J;
s#rfc![K1-2 K1I2], [K2 K2], [91 92]" Q!-,c" = QQ ;
end % fin del entrena(iento
La suma del error cuadrtico al final de cada %poca de entrenamiento es guardado en una
matriz de B _ * y mostrado en la figura <.4<.
SC
;igura <.4<: Error de entrenamiento por cada funcin al final de cada %poca
3.4.@ +1.41nt-3 d-, 1,7o.4t8o d- .-t.op.op171/40n
El algoritmo de retropropagacon fue el mayor avance en el campo de la investigacin de
las redes neuronales. 1in embargo el algoritmo resulta demasiado lento para aplicaciones
practicas.
*uando se aplica el algoritmo bsico de retropropagacin a problemas prcticos el tiempo de
entrenamiento puede llevar das e incluso semanas de computo. 0or lo "ue se a investigado en la
b,s"ueda de m%todos para acelerar el algoritmo de convergencia.
La investigacin de algoritmos ms veloces se clasifica en dos categoras:
4. P%cnicas >eursticas
3omento
Eazn de aprendiza&e variable
B. P%cnicas de optimizacin num%rica
!lgoritmo de gradiente con&ugado
!lgoritmo de LevenbergJ3ar"uardt
SS
3.4.1 TCNICAS HEURSTICAS
E, 8;todo d-, 8o8-nto
Este m%todo esta fundamentado en suavizar las oscilaciones, en la trayectoria hacia la
convergencia, usando un filtro pasa ba&as. El momento toma el siguiente intervalo de
valores:
@ 1
!l incrementar el momento las oscilaciones en la salida filtrada se reducen. El filtro tiene la
tendencia a reducir la cantidad de oscilaciones mientras la trayectoria continua avanzando a un
valor promedio. El m%todo del momento tiene las siguientes ecuaciones para actualizar los
parmetros de las redes neuronales:
;igura <.46. 3uestra la trayectoria del algoritmo de momento
Aentajas del m5todo del momento.
S5
A
m
? ( ) A
m
? 4 Y ( ) 4 Y ( )3
m
1
m 4 Y
( )
T
Y V
A
m
? ( ) A
m
? 4 Y ( ) 4 Y ( )3
m
1
m 4 Y
( )
T
Y V
-5 0 5 10 15
-5
0
5
10
15
!l usar el m%todo del momento se puede usar una velocidad de aprendiza&e mayor,
mientras se mantenga la estabilidad del algoritmo. El momento tiende a acelerar la
convergencia cuando la trayectoria se esta moviendo en una direccin constante. Este
m%todo tiende a hacer la trayectoria continua en la misma direccin.
! continuacin se muestra un e&emplo del algoritmo del momento.
;igura <.4?. E&emplo del algoritmo del momento
5G
0 50 100 150 200
0
0.5
1
1.5
2
+ ? ( ) 4
B?
47
JJJJJJJJJ
,
_
sin U V
G.5S V
;igura <.47. 3uestra el algoritmo del momento
A!orit#o de retropropa!acin con Razn de Aprendizaje <aria%e
Este algoritmo incrementa la velocidad de convergencia incrementando la velocidad de
aprendiza&e en superficies planas y disminuy%ndola, cuando la pendiente aumenta.
R-7,13 d-, 1,7o.4t8o d- 1p.-nd491:- G1.41D,-
4.J 1i el error cuadrtico se incrementa mayor a un porcenta&e establecido #4b a ?b$
despu%s de haber actualizado =; entonces se descarta la actualizacin;
a se multiplica por G Z r Z 4
g se a&usta a cero #si se utiliza el momento$.
B.J 1i el error cuadrtico disminuye despu%s de haber actualizado =, entonces la
actualizacin es aceptada.
1 es multiplicada por un factor M c4.
1i 7 haba sido a&usta a cero, este regresa a su valor original.
<.J 1i el error cuadrtico se incrementa en un valor menor a 9 , entonces la actualizacin
de = se acepta pero 1 no cambia.
1i g haba sido a&usta a cero, este regresa a su valor original.
Nalores tpicos: M V 4.G? .V G.C 9V6b
54
G.5 V
0 50 100 150 200
0
0.5
1
1.5
2
La razn de aprendiza&e y el tama)o del paso tienden a incrementarse cuando la
trayectoria esta via&ando en lnea recta con una disminucin del error constante.
*uando la trayectoria llega a un valle angosto la razn de aprendiza&e es disminuido
rpidamente. 'e otra forma la trayectoria se hara oscilatoria y el error se
incrementara dramticamente.
E&emplo:
;igura <.4C. 3uestra el algoritmo de razn de aprendiza&e variable
5B
-5 0 5 10 15
-5
0
5
10
15
10
0
10
2
10
4
0
0.5
1
1.5
Iterti!n "#m$er
10
0
10
2
10
4
0
20
40
%0
Iterti!n "#m$er
+
B
4,4
4.G? V G.C V 6b V
3.4.2 TOCNICAS DE OPTIMI)ACION NUMORICA
A,7o.4t8o d- ".1d4-nt- Con:671doPC"!PE
*2(0 converge a un mnimo de una funcin cuadrtica en un numero finito de iteraciones.
El procedimiento general para localizar un mnimo de una funcin en una direccin
re"uiere:
4. Localizar el intervalo donde se encuentra
B. Eeducir el intervalo
!lgoritmo
4.J La primera direccin en buscar es un paso descendente
B.J Pomar el paso y escoger la razn de aprendiza&e para minimizar el error en esa direccin
<.J 1eleccionar la siguiente direccin de acuerdo con:
donde
Localizacin del intervalo
1e eval,a el ndice de desempe)o de un punto inicial ;#o$. 1e eval,a la funcin en un
segundo punto, el cual tiene una distancia d del punto inicial, a lo largo de la direccin de
b,s"ueda 0o. 1e continua evaluando sucesivamente el ndice de desempe)o de los nuevos
puntos, duplicando la distancia entre estos.
5<
p
G
7
G
Y V
7
?
* J ( )
J J
?
V
J
? 4 U
J
?

?
p
?
U V
p
?
7
?
Y
?
p
? 4 Y
U V
?
7
? 4 Y
T
7
?
7
? 4 Y
T
p
? 4 Y
JJJJJJJJJJJJJJJJJJJJJJJJJJJJJ V
?
7
?
T
7
?
7
? 4 Y
T
7
? 4 Y
JJJJJJJJJJJJJJJJJJJJJJJJJ V

?
7
? 4 Y
T
7
?
7
? 4 Y
T
7
? 4 Y
JJJJJJJJJJJJJJJJJJJJJJJJJ V
;igura <.4S. Localizacin del intervalo
Eeduccin del intervalo
Esto involucra la evaluacin de la funcin en puntos dentro del intervalo.
;igura <.45. #a$ +ntervalo sin reducir. #b$ Eeduccin del intervalo entre a y b.
A,7o.4t8o LM!P
0resentar todas las entradas a la red y calcular la salidas correspondiente y los errores.
*alcular la suma de los errores cuadrticos en todas las entradas. *alcular la matriz
Lacobiana. 'espu%s de inicializar, calcule la sensibilidades con el algoritmo de
retropropagacin. !umente la matrices en las sensibilidades de 3ar"uardt. *alcule los
elementos de la matriz Lacobiana.
1olucione para obtener el cambio en los pesos.
Eecalcule la suma del error cuadrtico con los nuevos pesos.
56
1i esta nueva suma de cuadrados es mas pe"ue)a, "ue el calculado en el paso 4,
entonces divida m
?
en u, actualice los pesos y regrese al paso 4.
1i la suma de los cuadrados no es reducida, entonces multipli"ue m
?
por u y regrese
al paso <.
$igura %.&!. E'emplo de la traectoria del algoritmo
El L3(0 es el algoritmo mas rpido "ue se ha probado para entrenar redes neuronales
multicapa de tama)o moderado.
1u principal inconveniente es los re"uerimientos de memoria; si la red tiene mas de unos
cuantos cientos de paramentos el algoritmo se vuelve imprctico.
3.4.4 E:-8p,o F S486,1/40n -n M1t,1p
C.-1/40n d- 6n1 .-d n-6.on1, Pn-w==E
El primer paso del entrenamiento de una red neuronal es crear la red. La funcin n-w== crea
una red con conein hacia adelante. Esta funcin re"uiere de cuatro parmetros y regresa
un ob&eto del tipo red:
4. La primera entrada es una matriz de #pJ4$_B ME de mnimos y mimos valores por
cada uno de los elementos #pJ4$ de el vector de entrada.
B. La segunda entrada es un arreglo con el tama)o de cada capa.
<. La tercera entrada es un arreglo con los nombres de las funciones de transferencia
"ue se van a usar en cada capa.
5?
-5 0 5 10 15
-5
0
5
10
15
6. La ,ltima entrada contiene el nombre del algoritmo de entrenamiento "ue se va a
utilizar.
0or e&emplo el siguiente comando crea una red de dos capas. Pendr un vector de entrada
con dos elementos #pJ4 V B$, tres neuronas en la primera capa #LJ4 V <$ y una neurona en la
segunda capa #salida$ #m V 4$.
La funcin de transferencia en la primera capa ser la tansig, y la funcin de transferencia
en la capa de salida ser lineal. Los valores para el primer elemento del vector de entrada
estarn en el rango de J4 y B, los valores del segundo elemento del vector de entrada estar
en el rango de G y ?, esto es, la matriz ME es de la forma siguiente:
K) = [-1 2; 0 3];
H la funcin de entrenamiento ser t.14n7d #la cual describiremos ms adelante$.
net=newff!K),[8-1,(],Jtansi$J,J#relinJ,Jtrain$dJ";
Este comando crea un ob&eto del tipo red y tambi%n inicializa los pesos y el bias de la red,
usando por default el comando #4n4tnw$. 0or lo tanto la red esta lista para ser entrenada.
:nicializacin de pesos )init7 initn+7 rands,
1i necesitas reJ inicializar, o cambiar la inicializacin por default de los pesos, utiliza el
comando 4n4t:
net=init!net";
Esta funcin toma como entrada un ob&eto de tipo red y regresa un ob&eto de tipo red con
los pesos y bias inicializados. Esta funcin es invocada por el comando n-w== y usa el
algoritmo de 8guyenJ=idroF.
1i, por e&emplo, "ueremos reJinicializar los pesos y los bias en la primera capa de forma
aleatoria, usando la funcin .1nd3, debemos usar los siguientes comandos:
net/la=ersB1C/initUcn = JinitwbJ;
net/in#t7ei$htsB1,1C/initUcn = JrandsJ;
net/biasesB1,1C/initUcn = JrandsJ;
net = init!net";
S486,1/40n P348E
57
La funcin 348 simula una red neuronal. La funcin 348 toma la entrada de la red M, y el
ob&eto red net, y regresa la salida de la red H.
!"u se muestra como puede ser usado el comando 3486==# para simular la red "ue creamos
anteriormente para un vector de entrada simple:
; = [1;2];
a = si(!net,;"
a = -0/1011
!ba&o, el comando 348 es llamado para calcular las salidas para un vector de entrada de
tres elementos.
K = [1 1 2;2 6 1];
S = si(!net,K"
S = -0/1011 -0/2104 0/6033
Ent.-n184-nto 4n/.-8-nt1do P1d1ptE
La funcin 1d1pt es usada para entrenar redes en el modo de crecimiento #pattern$. Esta
funcin toma el ob&eto red, las entradas y los valores deseados para el entrenamiento, y
regresa el ob&eto red entrenado con los valores de salida y errores de la red para los pesos y
bias finales.
Ent.-n184-nto !1t/M Pt.14nE
La alternativa para un entrenamiento en crecimiento es el entrenamiento batch, el cual es
invocado usando la funcin t.14n. En el modo batch los pesos y bias de la red son
actualizados solo despu%s de haber concluido el entrenamiento en la red.
!lgunas de las funciones disponibles para el entrenamiento de tipo batch se listan en la
tabla siguiente &unto con un tiempo relativo de convergencia.
;unction Pechni"ue Pime Epochs 3flops
traingd Nariable Learning Eate ?C.C4 5SG B.?G
trainrp Eprop 4B.5? 4S? G.?7
trainscg 1caled *on&. 2rad. 47.G7 4G7 G.CG
traincgf ;letcherJ0oFell *2 47.6G S4 G.55
traincgp 0olaDJEibi%re *2 45.47 S5 G.C?
traincgb 0oFellJ(eale *2 4?.G< C6 G.?5
trainoss RneJ1tepJ1ecant 4S.67 4G4 G.C?
trainbfg (;21 "uasiJ8eFton 4G.S7 66 4.GB
trainlm LevenbergJ3ar"uardt 4.SC 7 G.67
5C
E:-8p,o
En este e&emplo usaremos el algoritmo de LevenbergJ3ar"uardt para aproimar dos
funciones de dos variables.
% Reneraci@n de los #ntos de entrena(iento
na = 15 ; , = naN2; nn = 0-na-1;
K1 = nnH6.na - 2;
[K1 K2] = (esh$rid!K1";
) = -!K1/N2 I K2/N2 I0/00001";
91 = K1 /H e;!)"; 9 = !91!-""J;
92 = 0/23Hsin!2H)"/.) ; 9 = [9 ; !92!-""J];
S = zeros!size!9"" ;
K = [ K1!-"J; K2!-"J];
fi$#re!1", clf reset
s#rfc![K1-2 K1I2], [K2 K2], [91 92]",
title!JTwo 2-9 tar$et f#nctionsJ", $rid, drawnow
% esecificaciones de la red
= 2 ; % ,#(ero de entradas
8 = 12; % ,#(ero de ne#ronas oc#ltas
( = 2 ; % ,#(ero de salidas
;(n(; = [-2 2; -2 2] ;
net = newff!;(n(;, [8, (]" ;
fi$#re!2"
net = train!net, K, 9" ; % &ntrena(iento
S = si(!net , K" ; % ?erificaci@n
91!-"=S!1,-"J; 92!-"=S!2,-"J;
% Rraficaci@n de las f#nciones aro;i(adas
fi$#re!1"
s#rfc![K1-2 K1I2], [K2 K2], [91 92]", $rid, ///
title!Jf#nction aro;i(ationJ", drawnow
3..@ R-d-3 d- D13- R1d41,
Las redes de (ase radial fueron desarrolladas por (roomhead y LoFe #45SS$, L. 3oody y
*. 'arDen #45S5$
Las redes de funcin de base radial #E(;8$ han sido tradicionalmente asociados con
funciones radiales en una red de capa simple.
Los modelos de redes tratados anteriormente estn basados en unidades #neuronas$
"ue producen a la salida una funcin lineal del producto escalar del vector de
entrada y el vector de pesos.
aV ;# =0 Ub$
5S
En las E(;8 consideraremos una clase dentro de los modelos de las redes neuronales, en
el cual la activacin de las unidades ocultas, esta determinada por la distancia entre el
vector de entrada y el vector de pesos
!V f#dist#=,0$db$
Las redes de base radial pueden re"uerir mas neuronas "ue las redes de retropropagacin
estndar, pero ellas pueden ser dise)adas a menudo en una fraccin del tiempo "ue toma
entrenar una red de retropropagacin estndar. Estas redes tienen un me&or desempe)o
cuando el con&unto de vectores de entrenamiento es amplio.
0ara este tipo de redes se crearon procedimientos para entrenamiento de redes de funcin
de base radial, los cuales son mucho ms rpidos "ue los m%todos usados para entrenar un
perceptrn multicapa.
3..1 C1.1/t-.23t4/13
9odeo Ne'rona
La figura <.B4 muestra el modelo neuronal de una red de base radial con E entradas.
;igura <.B4. 3odelo de una neurona de base radial
La funcin de transferencia, para una funcin de base radial es rad%as. 1e puede observar
"ue la epresin para la entrada de red a una neurona con funcin tipo rad%as no es igual a
las vistas anteriormente. /na neurona con funcin de base radial recibe como entrada de
red, la distancia vectorial entre el vector de pesos = y el de entrada 0, multiplicada por el
umbral (. La figura <.BB muestra grficas de la funcin de transferencia de base radial.
55
;igura <.BB. ;uncin de transferencia de una funcin de base radial.
La grfica de la figura <.BB muestra una funcin de base radial la cual tiene un mimo de
uno cuando la entrad es un cero. Esta funcin es ,til al efectuar la resta entre el vector de
pesos = y el vector de entrada. conforme la distancia vectorial entre = y 0 decrece, la
salida se incrementa. 'e esta forma la funcin de base radial act,a como un detector, cuya
salida es uno cuando la entrada 0 es id%ntica al vector =.
El umbral ( permite la sensibilidad de la neurona de base radial #redbas$ sea a&ustada. 0or
e&emplo si una neurona tiene un umbral de G.4este enviara una salida de G.?, para
cual"uier vector de entrada 0 a una distancia de S.<B7 #G.S<B7O($ a partir del vector de
peso =.
>.B.; -rquitectura de "ed
Las redes de base radial consistente de dos capas: una capa oculta de base radial #redbas$ de
14 neuronas y una capa de salida lineal #pureline$ de 1B neuronas.
;igura <.B<. !r"uitectura *ompacta de una red neuronal con funciones de base radial.
Las lneas de cdigo contenidas deba&o de cada capa de la figura <.B< estn contenidas en
la funcin si#'r%, la cual toma un vector de entrada 0, los pesos y los umbrales de la red de
base radial, y regresa la salida correspondiente para cada capa.
1i si#'r% es llamado con un argumento de salida, este regresara &ustamente la salida de la
segunda capa.
4GG
[ ] ( ) B , B , 4 , 4 , B , 4 b . b . p simurb a a
1e puede comprender como esta red se comporta al seguir un vector de entrada 0, a trav%s
de la red a la salida aB. 1i se presenta un vector de entrada tal como una red, cada neurona
en la capa de base radial redbas, enviara un valor de salida de acuerdo a "ue tan primo
este el vector de entrada al vector peso de cada neurona.
El resultado es "ue las neuronas de base radial red%as, con vectores de peso muy diferentes
de los vectores de entrada 0, tendrn salidas cercanas a cero. Estas salidas de valor pe"ue)o
tendrn efectos mnimos en las salidas lineales de las neuronas.
En contraste cual"uier neurona de base radial red%as cuyo vector de peso es muy primo
al vector de entrada 0 tendr un valor cercano a uno. 1i una neurona tiene una salida de uno
sus pesos de salida en la segunda capa pasan sus valores a las neuronas lineales p'reine,
en la segunda capa.
'e hecho, si ,nicamente una neurona tiene salida uno, y todas las otras tienen salida cero o
cercana a este, la salida de la capa lineal, activara las neuronas de los pesos de salida. Esto
seria un caso etremo. Ppicamente varias neuronas se activan siempre, con variacin de
grados.
21>12 A!orit#o de aprendizaje
Las redes de base radial pueden ser dise)adas con la funcin so+er%e, la cual dise)a
actualmente una red con cero error en los vectores de entrenamiento.
La funcin so+er%e toma matrices de los vectores de entrada 0, y vectores de salida P, y
una constan de etensin #spread$ para la capa de base radial sc, y regresan los pesos y
umbrales para la red las cuales permiten una salida eacta P, dada por 0.
Esta funcin traba&a creando tantas neuronas de base radial como eistan vectores de
entrada 0. *ada vector de pesos de las neuronas de base radial =4 es a&ustado a la
transpuesta del vector de entrada diferencial. 'e esta forma se tiene una capa de neuronas
de base radial de tal forma "ue cada neurona actua como un detector para diferentes
vectores de entrada. 1i eisten e vectores de entrada entonces eistirn e neuronas. *ada
umbral b4 es a&ustado a G.S<B7Osc. Esto determina la anchura de un rea en el espacio de
entrada en al cual cada neurona responde. 1i 1 es 6 entonces cada neurona de base radial
responder con G.? o ms a cual"uier vector de entrada, dentro de un vector de distancia de
6 a partir de su vector de peso. *omo pudiera verse, ese debe ser lo suficientemente grande,
"ue las neuronas respondan fuertemente a las regiones de traslape del espacio de entrada.
4G4
( ) B , B , 4 , 4 , B b . b . p simurb a
[ ] ( ) sc T P solverb b . b . , , B , B , 4 , 4
/na vez "ue =4 y b4 se han encontrado, la salida de la capa radial !4 se puede calcular,
por las entradas 0. !hora se dise)ara los pesos de la capa lineal. 1e conocen las entradas a
la capa lineal !4 y el ob&etivo P. 0or lo tanto se puede llamar a la funcin so+ein para
calcular los pesos =B y el umbral bB, los cuales minimizan la suma del error cuadrtico.
'e esta forma, la funcin so+er%e crea una red con cero error en los vectores de
entrenamiento. La ,nica condicin "ue se tiene "ue conocer es asegurar "ue 1 sea lo
suficientemente grande de tal forma "ue las regiones de entrada activas de las neuronas de
base radial se traslapen los suficiente "ue varias neuronas de base radial siempre salidas
ligeramente grandes en cual"uier momento. Esto hace la funcin de red ms suave y resulte
en una me&or generalizacin para nuevos vectores de entrada ocurriendo entre los vectores
de entrada usados en el dise)o. #1in embargo, 1 no debe ser demasiado grande, de tal forma
"ue cada neurona este respondiendo efectivamente en el mismo largo y espacio de
entrada.
El ,nico inconveniente con la funcin so+er%e es "ue produce una red con tantas neuronas
en la capa oculta como eistan vectores de entrada. 0or esta razn solverbe no regresa una
solucin aceptable cuando se necesitan muchos vectores de entrada para definir a la red
neuronal, como normalmente sucede.
A!orit#os de Redes de ,ase Radia #?s Eficientes
La funcin so+er% interactivamente crea una red de base radial con una neurona a la vez.
Las neuronas son agregadas a la red hasta "ue la suma de los errores cuadrados caen deba&o
de un error meta o se ha alcanzado un numero mimo de neuronas.
La funcin so+er% toma matrices de los vectores de entrada y destino y parmetros de
dise)o dp, y regresa los pesos y umbrales para la red de base radial, %l numero de neuronas
en la capa de base radial nr y una memoria de errores de dise)o dr.
Los parmetros de dise)o indican "ue tan a menudo se mostraran los resultados, el numero
mimo de neuronas en la capa de base radial, la meta del error cuadrtico medio, y la
etensin de las neuronas de base radial. !lgunos o todos los parmetros pueden ser
pasados a solverb; los parmetros omitidos sern remplazados por valores por omisin.
El m%todo de dise)o de solverb es similar al de solverbe. La diferencia es "ue so+er% crea
neuronas una a la vez. 0ara cada iteracin del vector de entrada el cual produzca una
disminucin mima en el error de la red, ser usado para crear una neurona de base radial.
El error de la red es revisado y si es lo suficientemente ba&o finaliza la funcin solverb. 'e
otra forma la siguiente neurona es agregada. Este proceso se repite hasta alcanzar la meta
de error o el mimo numero de neuronas.
4GB
[ ]
[ ] ( ) dp T P solverb dr nr b . b .
spread goal err neuron max freq disp dp
, , , , B , B , 4 , 4
; f f f

!l igual "ue la funcin so+er%e, es importante "ue el parmetro de etensin sea lo
suficientemente grande, "ue las neuronas de base radial responda a las regiones de traslape
del espacio de entrada, pero "ue no sea demasiado grande "ue todas las neuronas respondan
esencialmente de la misma manera.
Las redes de base radial aun cuando se dise)en eficientemente por la funcin solverb,
tienden a tener la mayora de las veces mas neuronas "ue una red de retropropagacin con
neuronas con funciones sigmoidales en la capa oculta.
Esto se debe a "ue las neuronas sigmoidales pueden tener salidas sobre una regin grande
del espacio de entrada, mientras "ue las neuronas de base radial solo responden a regiones
relativamente pe"ue)as del espacio de entrada. Esto es "ue entre ms grande es el espacio
de entrada #en t%rminos del numero de entradas e intervalos en los "ue las entradas varan$
mayor es el numero de neuronas de base radial "ue se re"uieren.
Pabla 7.4. Eesumen de ;unciones relacionadas con redes de base radial.
Las funciones radiales son simplemente una clase de funciones. En principio, ellas
podras ser empleadas en cual"uier tipo de modelo #lineal o no lineal$ y en cual"uier
red #una capa o multicapa$. 'e cual"uier forma, desde el artculo de (roomhead y
LoFe, acerca de las redes de funciones de base radial #E(; netForDs$ han sido
tradicionalmente asociadas con funciones radiales en una red de una sola capa, tal
como se muestra en la siguiente figura.
4G<
Ap,4/1/4on-3
E:-./4/4o3
/na red E(; es no lineal si las funciones base pueden mover o cambiar de tama)o o si hay
ms de una capa oculta.
Las redes de base radial pueden re"uerir ms neuronas "ue las redes estndar de
retropropagacin hacia delante, pero estas pueden ser dise)adas en una fraccin de tiempo
"ue toma entrenar a las redes hacia delante. Este tipo de redes traba&an me&or cuando
muchos vectores de entrenamiento estn disponibles.
Las redes de base radial constituyen la base para una transformacin no lineal para un
vector de entrada dado. Las funciones radiales estn caracterizadas por el hecho de "ue su
respuesta decrece #o incrementa$ montonamente con la distancia de un punto central. /na
funcin radial tpica es la funcin 2aussiana "ue, en el caso de una se)al de entrada escalar,
est dada por
,
_

B
B
$ #
ep $ #
c 8
8 h
Los parmetros de esta funcin son el centro c y el radio, denotado por . 0ara el caso
general de una se)al de entrada 3Jdimensional #vector$ la funcin radial cambia a:
,
_

B
B
ep $ #
c 8
8 h
donde F y / son vectores de tama)o 3.
La figura <.B6a. ilustra una E(; 2aussiana con una se)al de entrada escalar y, centro cVG y
un radio V4. /no puede fcilmente ver "ue el mencionado punto central c es simplemente
el mimo de la funcin y "ue decrementa montonamente es obvio. El decrecimiento
radial caracterstico de las E(; dado en la ecuacin 4 puede ser observada al epandirse la
se)al de entrada en un vector de entrada de B dimensiones. La figura Bb muestra una
grfica de la funcin 2aussiana en < dimensiones con un vector de entrada de dos
dimensiones
T
8 8 8 X
B
;
4
W . El centro c es un vector de la misma dimensin "ue la se)al de
entrada F y establecido en
T
c X G ; G W , el radio igual a uno: V4 . La lnea circular del
contorno en la figura <.B6b ilustra "ue la respuesta de &4$5 decrementa montonamente
incrementando la distancia de su mimo a
T
8 X G ; G W .
4G6
;igura <.B6: ;uncin Eadial si a$1e)al de entrada escalar. b$ Nector de entrada BJdimensional.
Simulaciones en Matlab
4G?
CAP'TULO I+
DISEQO DE ARRUITECTURAS DE REDES FEEDFORAARD
*iertos problemas se resuelven de una manera ms fcil utilizando ar"uitecturas de redes
particulares. 0ara redes feedforFard multicapa, el n,mero de neuronas ocultas puede hacer la
diferencia entre %ito y fracaso. 3ientras no eistan frmulas estrictas conocidas hasta este
momento, este captulo trata brevemente algunas reglas empricas para la seleccin de un modelo
apropiado de red y la definicin de caractersticas especficas de dicho modelo.
En este captulo se trata el difcil problema de decisin de una estructura y del
entrenamiento de una red feedforFard. 1e asume "ue el problema a resolver indica "ue una
red feedforFard multicapa es el modelo ms apropiado. 'ado lo anterior, se debe dise)ar la
red. 3ientras no eistan reglas estrictas y rpidas para la definicin de los parmetros de la
red, se puede determinar "ue se alcanzar el %ito si se siguen los siguientes tres
paradigmas:
4$ /sar una capa oculta.
B$ /sar muy pocas neuronas ocultas.
<$ Entrenar hasta donde sea posible.
! continuacin se eaminan los puntos anteriores.
SC6<nt13 /1p13 o/6,t13T
Ha se ha visto "ue no hay ninguna razn hasta el momento para usar ms de dos capas
ocultas. Pambi%n se ha visto "ue para la mayora de los problemas prcticos, no hay una
razn para usar ms de una capa oculta. !"uellos problemas "ue re"uieren dos capas
ocultas son muy raros en situaciones de la vida real. 0ero la pregunta surge en cmo los
re"uerimientos tericos se relacionan con los re"uerimientos prcticos. 9>ay problemas
para los cuales el aprendiza&e se beneficia teniendo ms del mnimo n,mero de capas
ocultas tericamente re"uerido:
0or eperiencia se sabe "ue usar ms de una capa oculta casi nunca es ben%fico. El
problema es "ue el entrenamiento es dramticamente ms lento cuando se usan ms capas
ocultas. Esto se debe a dos efectos:
4$ La capa adicional a trav%s de la cual los errores deben ser retropropagados hace "ue
el gradiente sea ms inestable. El %ito de cual"uier algoritmo de optimizacin por
gradiente depende del grado en el cual el gradiente permanece sin ser modificado
mientras los parmetros #pesos en el caso de una red$ cambian.
B$ El n,mero de mnimos falsos se incrementa usualmente de una manera dramtica.
Esto significa "ue hay una probabilidad mayor de "ue, despu%s de muchas
iteraciones "ue consumen tiempo, se "uede estancado en un mnimo local, sin ms
remedio de abortar la operacin o reiniciar.
4G7
Eiste, por supuesto, la posibilidad de "ue un problema sea resuelto de una manera
ecelente usando muchas capas ocultas con pocas neuronas, mientras "ue utilizar pocas
capas ocultas con muchas neuronas para ser prctico. El caso es "ue la eperiencia ha
mostrado "ue casi ninguna solucin a un problema se haya visto beneficiada con tener ms
de dos capas ocultas.
1e ha puntualizado "ue la ,nica vez en "ue una red de dos capas ocultas ha sido re"uerida
en la prctica se da cuando la red tiene "ue @aprenderA una funcin con discontinuidad. La
funcin "ue se muestra en la figura 6.4. es un buen e&emplo.
;igura 6.4. La discontinuidad tratada con una red de dos capas ocultas.
'iferentes redes fueron entrenadas usando <G4 puntos igualmente espaciados de esta
funcin. Los resultados se muestran en la siguiente tabla:
Neuronas
ocultas
Error de
entrenamiento
Error de
prueba
Error
RMS
1 6/111 6/110 0/2041
2 2/216 2/210 0/1533
1 2/115 2/164 0/1653
6 0/621 0/643 0/0502
3 0/124 0/160 0/0300
10 0/110 0/662 0/0554
1,2 0/104 0/616 0/0561
3,3 0/151 0/200 0/0662
2,1 0/111 0/151 0/0601
La primera columna es el n,mero de neuronas ocultas, con las cantidades en la primera y
segunda capas mostradas para redes de cuatro capas. La columna de 2rror de
entrenamiento muestra 4GG veces el error cuadrtico medio del con&unto de entrenamiento.
/n con&unto de prueba fue construido usando 4,GGB puntos, un valor escogido para evitar la
replicacin de los puntos del con&unto de entrenamiento, forzando a la red a interpolar. El
error para este con&unto es mostrado en la siguiente columna. La ,ltima columna en la tabla
muestra la raz cuadrada del error cuadrtico medio del con&unto de prueba. *omo tal,
puede ser considerado un tipo de error promedio.
4GC
Lo primero "ue se nota es "ue para las redes de tres capas se necesita un n,mero mgico de
neuronas ocultas. La e&ecucin @da un saltoA al cambiar de tres a cuatro neuronas. 8o es
inusual cuado se tratan datos de entrenamiento con caractersticas muy fuertes. Las redes
"ue son ms pe"ue)as simplemente no tienen la capacidad terica "ue se necesita para
separar el espacio del problema. Lo ms importante es observar "ue parece ser un piso "ue
no puede ser traspasado a)adiendo ms neuronas. 'e hecho, el error del grupo de prueba
empieza a incrementar cuando se a)aden ms neuronas ocultas.
En resumen, se recomienda demasiado "ue usar una sola capa oculta sea la primera opcin
a considerar para un dise)o prctico de redes feedforFard. 1i la utilizacin de muchas
neuronas ocultas no resuelve el problema de manera satisfactoria, valdr la pena probar
utilizando una segunda capa oculta y reducir el n,mero de neuronas ocultas si es posible.
SC6<nt13 n-6.on13 o/6,t13T
La eleccin de un apropiado n,mero de neuronas en las capas ocultas es etremadamente
importante. El usar muy pocas neuronas ocultas de&ar a la red neuronal sin los recursos
necesarios para resolver el problema. El usar muchas neuronas podr incrementar el tiempo
de entrenamiento, "uiz demasiado como para "ue se vuelva imposible el entrenamiento de
la red en un perodo razonable de tiempo. !dems, un n,mero ecesivo de neuronas ocultas
puede causar un problema de sobreajuste. La red tendr una gran capacidad de
procesamiento de informacin "ue aprender aspectos insignificantes del con&unto de
entrenamiento, aspectos "ue son irrelevantes en una poblacin general. 1i el rendimiento de
la red es evaluado con el con&unto de entrenamiento, ser ecelente. 1in embargo, cuando
la red tenga "ue traba&ar con una poblacin en general, lo har de una manera deficiente.
Esto se debe a "ue considerar caractersticas triviales "ue son ,nicas en el con&unto de
entrenamiento, as como las caractersticas generales relevantes, y se confundir. !s, es
forzoso "ue se use el mnimo n,mero de neuronas ocultas con las "ue la red tenga un
rendimiento adecuado.
/n paradigma somero para la eleccin del n,mero de neuronas ocultas en muchos
problemas es la regla de la pir'mide geom5trica. Establece "ue, para muchas redes
prcticas, el n,mero de neuronas sigue una forma piramidal, con el n,mero decreciendo de
la capa de entrada a la capa de salida. Rbviamente esto no se cumple para redes
autoasociativas, "ue tienen el mismo n,mero de entradas y salidas. 0ero muchas otras redes
siguen este patrn. Esto se muestra en la figura 6.B.
4GS
;igura 6.B. /na red de < capas tpica.
El n,mero de neuronas en cada capa sigue una progresin geom%trica. !s, si se tiene una
red de tres capas con n neuronas de entrada y m neuronas de salida, la capa oculta tendr
s"rt#mn$ neuronas. /na regla similar se aplica a las redes de cuatro capas, como se puede
ver en la figura 6.<. En este caso, el clculo del n,mero de neuronas ocultas se hace
ligeramente ms comple&o:
. V
<
m
n
...................6.4
NHID1 V mCr
;
NHID2 V mCr
Las frmulas anteriores son slo aproimaciones al tama)o ideal de la capa oculta. 1i hay
muy pocas neuronas de entrada y de salida y el problema es comple&o, dichas frmulas
subestimarn el n,mero re"uerido. 0or e&emplo, la aproimacin de una funcin
complicada de una variable involucra slo una neurona de entrada y una de salida, pero
re"uiere una docena o ms de neuronas ocultas. 0or el otro lado, si es un problema simple
con muchas entradas y salidas, bastar con pocas neuronas ocultas.
;igura 6.<. /na red de 6 capas tpica.
4G5
8o se deben tratar ests frmulas como estrictas o rigurosas. 1on muy utilizadas puesto "ue
un gran n,mero de problemas prcticos "ue se pueden resolver mediante el uso de redes
neuronales tienen muchas neuronas de entrada y pocas neuronas de salida. En dichos casos,
las reglas piramidales se utilizan con mucha frecuencia.
La me&or aproimacin para encontrar el n,mero ptimo de neuronas ocultas es el consumo
de tiempo, pero se debe seguir siempre para las tareas importantes. *omenzar con un
n,mero de neuronas "ue sea definitivamente muy pe"ue)o. 1i el tener %ito con una buena
suposicin de @muy pe"ue)oA es imposible, comi%ncese con dos neuronasg Escoger un
criterio apropiado para evaluar el rendimiento de la red. Entrenar y probar la red, haciendo
un registro de su rendimiento. 'espu%s incrementar levemente el n,mero de neuronas, y
entrenar y probar de nuevo. Eeptase hasta "ue el error no sea aceptablemente pe"ue)o o
hasta el punto en "ue ya no haya me&ora. Es fuerza bruta y demasiado lento, pero funciona.
1i los con&untos de validacin son obtenidos fcilmente, se "uerr posiblemente tratar de
agregar neuronas ms all del punto de resultados aceptables, contando con el
procedimiento de validacin para prevenir el sobrea&uste. 'e otra manera se debe estar
contento con utilizar el n,mero mnimo de neuronas ocultas necesario para conseguir un
funcionamiento aceptable. El incremento del n,mero ms all del mnimo causa
frecuentemente un deterioro en la habilidad de la red para generalizar. 3s adelante se da
una descripcin ms detallada del procedimiento anterior. 1e muestra un diagrama de flu&o
en la figura 6.?.
>ay un peligro "ue se debe evitar en el procedimiento anterior. 1e debe preservar los pesos
aprendidos anteriores para la siguiente prueba. En otras palabras, supngase "ue se ha
entrenado una red con cinco neuronas ocultas. *uando se agrega una seta neurona,
mant%ngase los mismos pesos para las primeras cinco. +nicialcense los pesos para la nueva
seta neurona con n,meros aleatorios pe"ue)os, y contin,ese entrenando desde ah. La
racionalizacin es muy importante. 1lo ,sese la nueva neurona para lo "ue a,n no se ha
aprendido. 8o se debe realizar esto a menos "ue se haya decidido inicializar totalmente de
manera aleatoria.
SC6<nto t4-8po 3- d-D- -nt.-n1.T
Eiste una concepcin errnea muy com,n concerniente al entrenamiento iterativo. 1e dice
"ue las redes neuronales pueden ser sobreentrenadas. euiere decir "ue hay una cantidad
ptima de entrenamiento y "ue se puede entrenar ms all de dicho punto para me&orar el
funcionamiento en el con&unto de entrenamiento, pero degradando dicho funcionamiento en
la poblacin general. Esta idea es particularmente arriesgada por"ue tiene un elemento de
verdad en ella, para el caso en "ue la red yOo el con&unto de entrenamiento hayan sido mal
dise)ados, el mito puede ser realidad.
! continuacin se eaminar brevemente cmo el concepto de sobreentrenamiento tom
forma, por"u% es usualmente #si no es "ue siempre$ una nocin inapropiada y cmo se
puede detectar y evitar el problema com,n "ue se malentiende como sobreentrenamiento.
44G
;igura 6.6. 3anifestacin de sobreentrenamiento.
La figura 6.6. es una grfica del error en una red neuronal para dos con&untos diferentes de
datos en funcin del n,mero realizado de iteraciones de entrenamiento. /n con&unto de
datos es el con&unto de entrenamiento. *omo era de esperarse, el error para ese con&unto de
datos decrece montonamente, aproimando una asntota. El otro con&unto de datos,
llamado con&unto de validacin, es tomado de la misma poblacin "ue el con&unto de
entrenamiento, pero no es usado para entrenar. 1u error decrece al inicio del entrenamiento.
0ero, para sorpresa, si se contin,a con el entrenamiento ms all de cierto n,mero de
iteraciones, el error empieza a incrementar. 0artiendo del hecho "ue el con&unto de
validacin es representativo de la poblacin a la cual la red ser finalmente aplicada, la
solucin obvia aparente es detener el entrenamiento hasta "ue el error de dicho con&unto
desaparezca totalmente. 1in embargo, actuar as es un caso en "ue el remedio es peor "ue el
mal.
1e vio en la seccin anterior "ue usar muchas neuronas ocultas puede ocasionar un
sobrea&uste. En vez de aprender slo los patrones generales necesarios para producir una
decisin correcta, la red se enfoca ecesivamente a idiosincrasias de muestras individuales.
*uando %stas demuestran no tener valor en su traba&o posterior, el funcionamiento decae.
Ha "ue se necesita un tiempo considerable para aprender estas idiosincrasias, mientras los
patrones importantes se aprenden al menos rpidamente, la calidad de la red alcanza
frecuentemente un pico mientras el entrenamiento progresa, despu%s se deteriora. !s naci
el mito de entrenamiento ecesivo. 1in embargo, hay dos razones para no limitar el
entrenamiento con esperanzas a encontrar ese pico tan difcil de encontrar:
4$ Pratando el sntoma, no la enfermedad. Eeducir el n,mero de neuronas ocultas al
punto en "ue la red no aprenda idiosincrasias, o incrementar el tama)o y variedad
del con&unto de entrenamiento, y la enfermedad es curada.
B$ 8o olvidar "ue usualmente se empieza el entrenamiento con valores aleatorios de
pesos. 1i se detiene prematuramente el entrenamiento, posiblemente se habr
aprendido lo "ue se tena "ue aprender. 0robablemente despu%s ya no. H nunca se
estar seguro de eso.
El segundo punto merece un eamen ms profundo. *uando se usa un con&unto de
entrenamiento para representar una poblacin entera, se est confiando en "ue la red ser
444
#$mero de iteraciones
entrenamiento
Error
'atos de entrenamiento
'atos de prueba
capaz de interpolar entre muestras e de entrenamiento cuando haya muestras desconocidas
"ue no son id%nticas a las "ue se utilizaron al entrenar. Esto implica una suave transicin
entre casos de entrenamiento vecinos. 'ado "ue se empieza tpicamente el proceso de
entrenamiento con pesos aleatorios pe"ue)os, las derivativas de las salidas con respecto a
las entradas sern pe"ue)as, dirigi%ndose a la suavidad deseada. 1in embargo, slo con usar
polinomiales de grado mayor en aproimacin de funciones permite mayor oscilacin
debida a derivativas mayores, el uso de ms neuronas ocultas tambi%n permite mayor
oscilacin. *uando todos los recursos de las capas ocultas no se utilizan slo para asegurar
un funcionamiento adecuado, algunas neuronas pueden aprender a especializar. !s como
el entrenamiento contin,a, sus pesos pueden llevarse a etremos en los cuales las neuronas
slo se dedican a encontrar idiosincrasias en el con&unto de entrenamiento. Las derivativas
de las salidas con respecto a las entradas se hacen mayores, y la interpolacin suave se
pierde. La filosofa de detener el entrenamiento prematuramente es la prevencin de "ue los
pesos alcancen esos valores etremos.
1uperficialmente, esto parece razonable. Es indiscutible el hecho de "ue, en cierto casos,
continuar con el entrenamiento degrada el desempe)o en el con&unto de validacin y por lo
tanto degradar probablemente el desempe)o en la poblacin entera. 0ero el defecto en
este razonamiento proviene del hecho de "ue los pesos iniciales fueron elegidos de manera
aleatoria. 8o se sabe realmente si se est aproimando a los pesos ptimos desde una buena
direccin. 0uede ser "ue se tenga "ue pasar por una regin en la cual el con&unto de
validacin tenga un desempe)o pobre, pero "ue me&orara si se continuase. H ciertamente
no se tienen bases para eigir "ue se de&e de entrenar cuando el con&unto de validacin ha
encontrado un tipo de optimalidad prctica. Eso es estafar. Es en efecto usar lo "ue se
supone es el &uez final de calidad como un con&unto de entrenamiento sustituto. 1e podra
haberlo unido tambi%n al con&unto de entrenamiento. *ual"uier grado al cual el con&unto de
validacin no es representativo de la poblacin ser refle&ado en la red entrenada si se basa
la decisin de paro en ese con&unto. El desempe)o estimado ser ecesivamente optimista.
La morale&a es "ue se debe utilizar el menor n,mero posible de neuronas ocultas. Empezar
con el n,mero mnimo y despu%s a)adir tantas como sea necesario para asegurar el
desempe)o adecuado en el con&unto de entrenamiento. 8unca se debe empezar con muchas
neuronas ocultas y despu%s ver cuntas se pueden desechar mientras se mantenga un buen
desempe)o.
Pambi%n se debe tener especial cuidado en escoger un con&unto de entrenamiento "ue
represente lo me&or posible a la poblacin. 1i no, el fenmeno visto en la figura 6.6
aparecer casi siempre, independientemente del n,mero de neuronas ocultas.
En resumen, un entrenamiento correcto se hace de la siguiente manera. 0ara cada n,mero
eperimental de neuronas ocultas, generar pesos iniciales aleatorios y entrenar hasta "ue la
me&ora sea despreciable. 'espu%s generar ms pesos iniciales y entrenar de nuevo. H otra
vez. H otra vez. *uando un n,mero moderado de estas repeticiones fracasa a me&orar el
desempe)o, se puede estar seguro "ue la red se entren lo me&or "ue se pudo para el
con&unto de entrenamiento. 'espu%s se debe probarla con un con&unto de validacin
independiente. 1i, despu%s de todo el entrenamiento, su desempe)o en el con&unto de
validacin es significativamente peor "ue con el con&unto de entrenamiento, o el con&unto
44B
de entrenamiento es p%simo #muy pe"ue)o o no representativo de la poblacin$, o hay
muchas neuronas ocultas. La red no fue sobreentrenada.
1iempre se debe recordar "ue el sobrea&uste es el refle&o de un con&unto de entrenamiento
no representativo de la poblacin. 8o puede haber sobrea&uste si el con&unto de
entrenamiento est formado por toda la poblacin. 8aturalmente, esto es una imposibilidad
prctica. 1i embargo, los con&untos de entrenamiento minuciosos hacen "ue el sobrea&uste
sea menos problemtico.
Pambi%n es necesario recordar "ue el sobre&uste se produce cuando el con&unto de
entrenamiento es pe"ue)o en relacin con el n,mero de neuronas ocultas. 1e compensa la
escasez de datos de entrenamiento limitando el n,mero de neuronas ocultas. El tama)o del
con&unto de entrenamiento y el n,mero de capas ocultas estn ntimamente ligados. *uando
no estn balanceados en una direccin, la red no es capaz de aprender tan bien como
debera. *uando no estn balanceados a la inversa, la red aprende mucho y generaliza poco.
'ebe haber un balance. !hora se discute una manera de conseguir ese balance.
En el evento fortuito en "ue se puedan acumular fcilmente grandes cantidades de datos
conocidos, hay un procedimiento de entrenamiento efectivo a seguir. /na venta&a de este
procedimiento es "ue puede ser utilizado tambi%n para seleccionar el n,mero ptimo de
neuronas ocultas. !,n se escogen un con&unto de entrenamiento inicial y un con&unto de
validacin independiente "ue sern usados para calificar a la red final. 0ero ahora se
permite escoger un tercer con&unto, llamado con&unto de prueba de entrenamiento. Este
con&unto se utiliza para revisar la habilidad de generalizacin de una red entrenada. 1i el
desempe)o de la red con el con&unto de prueba de entrenamiento es significativamente peor
"ue con el con&unto de entrenamiento, se puede concluir "ue se ha producido un
sobrea&uste, o "ue la informacin importante presente en el con&unto de prueba no estuvo
presente en el con&unto de entrenamiento. En ambos casos, la solucin es a)adir el con&unto
de prueba al con&unto de entrenamiento, y volver a entrenar. Esto se hace eplcito en el
diagrama de flu&o mostrado en la figura 6.?.
44<
;igura 6.?. Entrenamiento cuando los casos conocidos son pocos
8tese "ue el algoritmo anterior depende de "ue el con&unto de prueba de entrenamiento
sea representativo de la poblacin y sea independiente del con&unto de entrenamiento. 1e
tienen problemas si el error de toma de muestras provee un con&unto de prueba
etremadamente similar al con&unto de entrenamiento. En consecuencia, se deben tomar
dos precauciones. 0rimero, asegurarse de "ue los con&untos son suficientemente grandes
para disminuir la probabilidad de ocurrencia de problemas de este tipo. 1egundo, no evitar
la validacin final. !un"ue se puede evitar este paso, siempre se estar ms seguro si se
realiza antes de determinar a la red como definitiva.
;inalmente, obs%rvese "ue el algoritmo anterior puede ser utilizado tambi%n para obtener el
me&or desempe)o posible de la red. 1upngase "ue se empieza con un considerable buen
estndar de desempe)o, y se sigue el algoritmo hasta "ue se alcanza el nivel de desempe)o.
8o se valida la red. 1e salva y despu%s se pide me&or desempe)o. Rbviamente,
inmediatamente se a)adir una neurona oculta. 1e tendr "ue a)adir al con&unto de
entrenamiento un nuevo con&unto de prueba. 1e sigue el algoritmo hasta "ue se canse de
lidiar con un con&unto de entrenamiento enorme o hasta "ue se haya alcanzado la nueva
epectativa. Panto tiempo en lo "ue la suposicin fundamental de la calidad de los
446
+nicializar pocas
neuronas
Entrenar
Error de
entrenamiento
aceptable:
!gregar neurona
Escoger con&unto
de prueba de
entrenamiento
Error del con&unto
de prueba
aceptable:
/nir con&unto de
prueba al
con&unto de
entrenamiento
>echo
8o
1
8o
1
con&untos de prueba se alcanza, las acciones son legales. El ob&etivo de desempe)o es
limitado slo por la capacidad de acumular nuevos datos y por los recursos
computacionales. El n,mero de neuronas ocultas crecer tanto como sea necesario, y el
sobrea&uste ser prevenido mediante los con&untos de prueba.
44?
CAPITULO +. S486,1do.-3 d- R-d-3 N-6.on1,-3 A.t4=4/41,-3.
.1 M1t,1D: N-6.1, N-two.N Too,DoJ.
>1@1@ Introd'ccin1
Los t%cnicos profesionales por todo el mundo confan en 3!PL!( acelera su
investigacin, condensa el tiempo invertido en el anlisis y desarrollo, reduce costos del
proyecto, y produce soluciones eficaces. El ambiente de 3!PL!( fomenta la creatividad y
le permite probar y comparar rpidamente alternativas m,ltiples. *onsecuentemente, usted
produce soluciones me&ores
Los usuarios han encontrado "ue la combinacin de la interfaz de 3!PL!(, el lengua&e, y
las funciones incorporadas de las matemticas y de los grficos hace a 3!PL!( la
plataforma preferida para programar, comparado a *, al ;REPE!8, y a otros lengua&es.
3!PL!( incluye las herramientas para:
Q !d"uisicin de datos
Q !nlisis y eploracin de datos
Q 0rocesamiento de imagen y visualizacin
Q !lgoritmo de prototipo y desarrollo
Q El modelar y simulacin
Q 0rogramacin y desarrollo
>1@10 Caracter"sticas .eneraes1
3!PL!( mane&a una gama de tareas computacionales "ue se usan en la ingeniera y la
ciencia, de la ad"uisicin de datos y del anlisis, al desarrollo. El ambiente de 3!PL!(
integra procesador matemtico, la visualizacin, y un lengua&e t%cnico de gran alcance. Las
interfaces incorporadas le permiten tener acceso rpidamente e importar datos a los
instrumentos, de los archivos, y de las bases de datos y de los programas eternos. !dems,
3!PL!( le de&a integrar las rutinas eternas escritas en *, *UU, el ;REPE!8, y Lava con
sus usos de 3!PL!(.
(aracter&sticas Dominantes
447
Q El procesador num%rico para los resultados rpidos y eactos
Q 2rficos para visualizar y para analizar sus datos
Q !mbiente interactivo del lengua&e y de programacin
Q >erramientas para construir 2/+s de encargo
Q +nterfaces a las lengua&es eternos, tales como *, *UU, ;REPE!8, y Lava
Q !yuda para los datos de importacin de archivos y de dispositivos eternos y
para usar el archivo ba&o +OR #ms el acceso a las bases de datos y al hardFare
adicional va productos adicionados$
Q *onversin de los usos de 3!PL!( a * y a *UU con la habitacin del
recopilador
Este amplio sistema de capacidades hace de 3!PL!( una base de origen ideal para los
l"uidos de revelado de los problemas t%cnicos.
El ambiente de 3!PL!( se dise)a para el cmputo interactivo o automatizado. /sando las
funciones incorporadas de la matemticas y de los grficos y las herramientas fciles de
utilizar, usted puede analizar y visualizar sus datos en marcha. Las herramientas
estructuradas del lengua&e y la programacin le de&an los resultados de sus eploraciones
interactivos y desarrollan sus propios algoritmos y usos.
DEue es 9-T!-BF
El h
de 3!PL!(
es una lengua de alto rendimiento para un proceso computacional t%cnico.
+ntegra el cmputo, la visualizacin, y la programacin en un ambiente fcil de utilizar
donde los problemas y las soluciones se epresan en la notacin matemtica familiar. Las
aplicaciones tpicas incluyen:
3atemticas y cmputo
'esarrollo de algoritmo
El modelar, simulacin, y el prototipo
!nlisis de datos, eploracin, y visualizacin
2rficos cientficos y de ingeniera
'esarrollo del uso, incluyendo el edificio grfico del interfaz utilizado
3!PL!( es un sistema interactivo con un elemento de datos bsico, es un arsenal "ue no
re"uiere el dimensioning. Esto permite "ue usted solucione muchos problemas t%cnicos,
especialmente %sos con formulaciones de matriz y de vector, en una fraccin del tiempo "ue
tomara para escribir un programa en una lengua no interactivo escalar tal como * o
;REPE!8.
El nombre 3!PL!( est dado por el laboratorio de la matriz . 3!PL!( fue escrito
originalmente para proporcionar el acceso fcil al softFare de la matriz desarrollado por los
proyectos de L+80!*i y de E+10!*i. >oy, el softFare de las aplicaciones de 3!PL!(
se convirti por los proyectos de L!0!*i y de !E0!*i, "ue &untos representan el estado
plus ultra en el softFare para el cmputo de la matriz.
44C
3!PL!( se ha desarrollado durante a)os con la entrada de muchos usuarios. En ambientes
de la universidad, es la herramienta educacional estndar para los cursos introductorios y
avanzados en matemticas, la ingeniera, y la ciencia. En industria, 3!PL!( es la
herramienta de la opcin para la investigacin, el desarrollo, y el anlisis de altaJ
productividad.
3!PL!( ofrece una familia de las soluciones de aplicacin especifica #applicationJ
specific$ llamadas las cajas de herramientas . 3uy importante para la mayora de los
usuarios de 3!PL!(, las ca&as de herramientas permite "ue usted aprenda y que aplique
tecnologa especializada. Las ca&as de herramientas son colecciones comprensivas de las
funciones de 3!PL!( #3Jarchivos$ "ue etienden el ambiente de 3!PL!( para
solucionar clases particulares de problemas. Las reas en las cuales las ca&as de
herramientas estn disponibles incluyen el proceso de se)al, sistemas de control, redes
neuronales, lgica difusa, la simulacin, y muchos otras.
2l 4istema de 9-T!-B
El sistema de 3!PL!( consiste en cinco porciones principales:
-mbiente Del Desarrollo. jste es el sistema de las herramientas y de las instalaciones "ue
le ayudan a utilizar funciones y archivos de 3!PL!(. 3uchas de estas herramientas son
interfaces grficas. +ncluye el tablero del escritorio de 3!PL!( y la ventana del comando,
una historia del comando, y los broFsers para la visin, el espacio de traba&o, los archivos,
y el camino de b,s"ueda en un fichero.
!a Biblioteca 9atem'tica De la *uncin de 9-T!-B. jsta es una coleccin etensa de
algoritmos de cmputo "ue se etienden de funciones elementales como la suma, seno,
coseno, y la aritm%tica comple&a, a funciones ms sofisticadas como lo contrario de la
matriz, valores propios de la matriz, las funciones de (essel, y transformada rpida de
;ourier.
2l !enguaje de 9-T!-B. Este es un lengua&e de alto nivel de matriOarray con
declaraciones de control del flu&o, funciones, las estructuras de datos, la entradaJsalida, y
las caractersticas de programacin orientadas al ob&eto. 0ermite la creacin rpida de
pe"ue)os programas desechables, y tambi%n crear programas completos de uso grande y
comple&o.
9anejador GraphicsH. jste es el sistema de los grficos de 3!PL!(. +ncluye los
comandos de alto nivel para la visualizacin de los datos, el proceso de imagen, la
animacin, y los grficos de dos dimensiones y tridimensionales de la presentacin.
Pambi%n incluye los comandos ba&os as como los cuales permita "ue usted modifi"ue
completamente el aspecto para re"uisitos particulares de grficos para construir interfaces
grficas completas en sus usos de 3!PL!(.
2l -pplication Program :nterface de 9-T!-B )-pi,. jsta es una biblioteca "ue permite
"ue usted escriba los programas de * y del ;REPE!8 "ue traba&an recprocamente con
3!PL!(. +ncluye las instalaciones para las rutinas "ue llaman de 3!PL!( #el ligamiento
44S
dinmico$, llamando a 3!PL!( como motor de cmputo, y para los archivos de lectura y
de escritura.
D-3/.4p/40n d- ,1 /1:1 d- M-..184-nt13 d- .-d-3 n-6.on1,-3 PN-6.1, N-two.N Too,DoJE
La ca&a de herramientas de redes neuronales etiende el ambiente de aplicacin de
3!PL!( para proporcionar las herramientas para el dise)o, la puesta en prctica, la
visualizacin, y la simulacin de redes neuronales. Las redes neuronales son herramientas
,nicamente de gran alcance en usos donde estara difcil o imposible el anlisis formal, por
e&emplo el reconocimiento de patrones y la identificacin y el control no lineales del
sistema. La ca&a de herramientas de redes neuronales proporciona la ayuda comprensiva
para muchos paradigmas probados de la red, as como una interfaz grfica "ue permita "ue
usted dise)e y "ue mane&e sus redes. El dise)o modular, abierto, y etensible de la ca&a de
herramientas simplifica la creacin de funciones y de redes modificadas para re"uisitos
particulares.
(aracter&sticas Dominantes
Q +nterfaz grfica #2/+$ para crear, entrenar, y simular a sus redes neuronales
Q La ayuda para usuario lo ms com,nmente posible ar"uitecturas de red supervisada y
no supervisada.
Q /n sistema comprensivo de entrenamiento y de funciones de aprendiza&e
Q /na habitacin de los blo"ues del 1imulinD, as como la documentacin y
demostraciones de los usos del sistema de control
Q La generacin automtica de 1imulinD modelado de los ob&etos de la red neuronal
Q Eepresentacin modular de la red, permitiendo un n,mero ilimitado de la entrada
"ue fi&a capas, e interconeiones de la red
Q ;unciones pre y de proceso del bias para me&orar el entrenamiento de la red y
determinar el funcionamiento de la red
Q Eutinas para me&orar la generalizacin
Q ;unciones de la visualizacin para el funcionamiento de la red neuronal
?.4.<. *onstruccin de redes neuronales.
C.-1/40n d- 6n1 .-d n-6.on1, Pn-w==E
El primer paso del entrenamiento de una red neuronal es crear la red. La funcin n-w== crea
una red con conein hacia adelante. Esta funcin re"uiere de cuatro parmetros y regresa
un ob&eto del tipo red:
?. La primera entrada es una matriz de #pJ4$_B ME de mnimos y mimos valores por
cada uno de los elementos #pJ4$ de el vector de entrada.
7. La segunda entrada es un arreglo con el tama)o de cada capa.
C. La tercera entrada es un arreglo con los nombres de las funciones de transferencia
"ue se van a usar en cada capa.
445
S. La ,ltima entrada contiene el nombre del algoritmo de entrenamiento "ue se va a
utilizar.
0or e&emplo el siguiente comando crea una red de dos capas. Pendr un vector de entrada
con dos elementos #pJ4 V B$, tres neuronas en la primera capa #LJ4 V <$ y una neurona en la
segunda capa #salida$ #m V 4$.
La funcin de transferencia en la primera capa ser la tansig, y la funcin de transferencia
en la capa de salida ser lineal. Los valores para el primer elemento del vector de entrada
estarn en el rango de J4 y B, los valores del segundo elemento del vector de entrada estar
en el rango de G y ?, esto es, la matriz ME es de la forma siguiente:
K) = [-1 2; 0 3];
H la funcin de entrenamiento ser t.14n7d #la cual describiremos ms adelante$.
net=newff!K),[8-1,(],Jtansi$J,J#relinJ,Jtrain$dJ";
Este comando crea un ob&eto del tipo red y tambi%n inicializa los pesos y el bias de la red,
usando por default el comando #4n4tnw$. 0or lo tanto la red esta lista para ser entrenada.
:nicializacin de pesos )init7 initn+7 rands,
1i necesitas reJ inicializar, o cambiar la inicializacin por default de los pesos, utiliza el
comando 4n4t:
net=init!net";
Esta funcin toma como entrada un ob&eto de tipo red y regresa un ob&eto de tipo red con
los pesos y bias inicializados. Esta funcin es invocada por el comando n-w== y usa el
algoritmo de 8guyenJ=idroF.
1i, por e&emplo, "ueremos reJinicializar los pesos y los bias en la primera capa de forma
aleatoria, usando la funcin .1nd3, debemos usar los siguientes comandos:
net/la=ersB1C/initUcn = JinitwbJ;
net/in#t7ei$htsB1,1C/initUcn = JrandsJ;
net = init!net";
>1@1A1 Si#'acin de Redes Ne'ronaes1
4BG
S486,1/40n P348E
La funcin 348 simula una red neuronal. La funcin 348 toma la entrada de la red M, y el
ob&eto red net, y regresa la salida de la red H.
!"u se muestra como puede ser usado el comando 3486==# para simular la red "ue creamos
anteriormente para un vector de entrada simple:
; = [1;2];
a = si(!net,;"
a = -0/1011
!ba&o, el comando 348 es llamado para calcular las salidas para un vector de entrada de
tres elementos.
K = [1 1 2;2 6 1];
S = si(!net,K"
S = -0/1011 -0/2104 0/6033
Ent.-n184-nto 4n/.-8-nt1do P1d1ptE
La funcin 1d1pt es usada para entrenar redes en el modo de crecimiento #pattern$. Esta
funcin toma el ob&eto red, las entradas y los valores deseados para el entrenamiento, y
regresa el ob&eto red entrenado con los valores de salida y errores de la red para los pesos y
bias finales.
Ent.-n184-nto !1t/M Pt.14nE
La alternativa para un entrenamiento en crecimiento es el entrenamiento batch, el cual es
invocado usando la funcin t.14n. En el modo batch los pesos y bias de la red son
actualizados solo despu%s de haber concluido el entrenamiento en la red.
!lgunas de las funciones disponibles para el entrenamiento de tipo batch se listan en la
tabla siguiente &unto con un tiempo relativo de convergencia.
;unction Pechni"ue Pime Epochs 3flops
traingd Nariable Learning Eate ?C.C4 5SG B.?G
trainrp Eprop 4B.5? 4S? G.?7
trainscg 1caled *on&. 2rad. 47.G7 4G7 G.CG
traincgf ;letcherJ0oFell *2 47.6G S4 G.55
traincgp 0olaDJEibi%re *2 45.47 S5 G.C?
traincgb 0oFellJ(eale *2 4?.G< C6 G.?5
trainoss RneJ1tepJ1ecant 4S.67 4G4 G.C?
trainbfg (;21 "uasiJ8eFton 4G.S7 66 4.GB
4B4
trainlm LevenbergJ3ar"uardt 4.SC 7 G.67
Lista de funciones
Nersin 6,G,4
F6n/4on-3 d-, 1n<,4343
errs'rf J superficie del error de la neurona de entrada
#a*inr Y mima tarifa del aprendiza&e para una capa lineal
F6n/4on-3 d- 4n4/41,491/40n d- ,1 /1p1
initnB J funcin de la inicializacin de la capa de 8guyenJ=idroF
initB% J funcin de inicializacin de los pesos y del bias.
F6n/4on-3 d- 1p.-nd491:-
earncon J funcin de aprendiza&e diagonal de la conciencia
earn!d J funcin de aprendiza&e del gradiente descendente
earn!d# J funcin de aprendiza&e del gradiente con momentum
earn& J funcin del aprendiza&e de >ebb
earn&d J >ebb con la funcin de aprendiza&e descendente
earnis J funcin de aprendiza&e del peso de +nstar
earnC J funcin de aprendiza&e iohonen
earn+@ J funcin de aprendiza&e LNe4
earn+0 J funcin de aprendiza&e LNeB
earnos J funcin de aprendiza&e de Rutstar
earnp J funcin de aprendiza&e del 0erceptron
earnpn J funcin normalizada de aprendiza&e del perceptron
earnso# J funcin de aprendiza&e del mapa de autoJorganizacin
earnB& J regla de aprendiza&e de =idroFJ>off
F6n/4on-3 d- ,1 DL356-d1 d- ,1 ,2n-1
src&%ac J b,s"ueda de la vuelta hacia atrs
src&%re J interpolacin de la combinacin de la seccin de oro y cuadrtica de (rent
src&c&a J interpolacin c,bica de *haralambous
src&!o J b,s"ueda de la seccin oro
src&&$% J b,s"ueda del hbrido bisectionOcubic
C.-1/40n .-d-3
red J crea una red neuronal
neBc J crea una capa competitiva
neBcf J crea una red conein hacia adelante bacDpropagation
neBe# J crea una red de Elman bacDpropagation
neBff J crea una red feedJforFard bacDpropagation
neBfftd J crea un red feedJforFard de entrada retrasada bacDpropagation
4BB
neB!rnn J dise)a una red neuronal generalizada de regresin
neB&op J crea una red recurrente de >opfield
neBin J crea una capa lineal
neBind J dise)a una capa lineal
neB+( J crea una red de cuantizacin del vector de aprendiza&e
neBp J crea un perceptron
neBpnn J dise)a una red probabilistica
neBr% J dise)a una red de base radial
neBr%e J dise)a una red de base radial eacta
neBso# J crea un mapa de autoJorganizacin
F6n/4on-3 d- 4n4/41,491/40n d- ,1 .-d
inita$ J funcin de inicializacin de la red capa por capa
F6n/4on-3 d-, -..o.
#ae J funcin absoluta del error
#se Y funcin cuadrtica media del error
#sere! Y funcin de regularizacin de a&uste del error medio
sse Y funcin "ue a&usta la suma del error
F6n/4on-3 p1.1 7.1=4/1.
&intonB J grfico de >inton de la matriz del peso
&intonB% J grfico de >inton de la matriz del peso y del vector bias
pot%r Y grafica el funcionamiento de la red del diagrama para el entrenamiento bayesian de
la regularizacin
potes J traza una superficie del error de una sola neurona de entrada
potpc J traza la lnea en diagrama del vector de clasificacin del perceptron
potp+ Y diagrama de los vectores inputOtarget del perceptron
potep J traza una posicin del pesoJbias respecto a una superficie de error
potperf Y diagrama del funcionamiento de la red
potso# Y diagrama del mapa de autoJorganizacin
pot+ Y diagrama de los vectores de origen como lneas
pot+ec Y diagrama de los vectores con diversos colores
F6n/4on-3 d- -nt.-n184-nto
train% J entrenamiento con regla de aprendiza&e de la hornada del peso y del bias
train%f! J bacDpropagation "uasiJ8eFton de (;21
train%r J regularizacin bayesiana
trainc J funciones ascendentes de entrenamiento cclico
trainc!% J bacDpropagation conyugal del gradiente de 0oFellJ(eale
trainc!f J bacDpropagation conyugal del gradiente de ;letcherJ0oFell
trainc!p J bacDpropagation conyugal del gradiente de 0olaDJEibiere
train!d J bacDpropagation de la pendiente del gradiente
train!d# J pendiente del gradiente con el bacDpropagation del mpetu
train!da J pendiente del gradiente con el bacDpropagation adaptativo del lr
train!d* J pendiente FOmomentum y bacDpropagation adaptativo del gradiente del lr
train# J bacDpropagation de LevenbergJ3ar"uardt
4B<
trainoss J bacDpropagation secante de un solo paso
trainr J funciones ascendentes del entrenamiento FOlearning al azar
trainrp J bacDpropagation resistente #Eprop$
trains J funciones incrementales del entrenamiento FOlearning secuencial
trainsc! J bacDpropagation conyugal del gradiente descendente
F6n/4on-3 d- t.1n3=-.-n/41
co#pet J funcin de transferencia competitiva
&ardi# J funcin de transferencia escalon
&ardi#s J funcin de transferencia de limite sim%trica
o!si! J funcin de transferencia sigmoidal
posin J funcin de transferencia lineal positiva
p'rein J funcin de transferencia lineal
rad%as J funcin de transferencia de base radial
satin J saturacin de la funcin de transferencia lineal
satins J funcin de transferencia lineal de saturacin sim%trica
soft#a* J funcin de transferencia mima suave
tansi! J funcin de transferencia sigmoidea de la tangente hiperblica
tri%as J funcin de transferencia de base triangular
S486,1/40n .-d-3
348 J simula una red neuronal
init J inicializa una red neuronal
adap J permite "ue una red neuronal se adapte
train J entrena a una red neuronal
disp J ehibe las caractersticas de una red neuronal
e*&i%it J ehibe el nombre y las caractersticas de una variable de la red neuronal
F6n/4on-3 d-, p-3o
dist J funcin euclidiana de la distancia del peso
dotprod J funcin del producto de punto del peso
#andist J funcin de la distancia de 3aniatan del peso
ne!dist J funcin del producto de punto del peso
nor#prod J funcin normalizada del producto de punto del peso
F6n/4on-3 d- 4n4/41,491/40n d- ,o3 p-3o3 F D413
initcon J funcin de inicializacin diagonal de la conciencia
initzero J funcin de inicializacin a cero de FeightObias
randnc J funcin de inicializacin normalizada de la columna del peso
randnr J funcin de inicializacin normalizada de la fila del peso
rands J funcin de inicializacin sim%trica al azar de FeightObias
4B6
.2. N-6.oSo,6t4on3
?.B.4. +ntroduccin
Ne'roSo'tions est? %asado en 'na apro*i#acin a diseDo de siste#as
adaptati+os orientada a o%jetos1 Las redes son desco#p'estas en 'n
conj'nto f'nda#enta de co#ponentes ('e son indi+id'a#ente
si#pes pero s'scepti%es a ser co#%inados para crear siste#as
poderosos capaces de reso+er pro%e#as #'$ co#pejos1
La interfaz de 's'ario de Ne'roSo'tions est? inspirada en e proceso de
diseDo de 'n circ'ito eectrnico1 Di+ersos co#ponentes son
coocados en 'na ta%ia de cone*in $ desp'6s interconectados
para for#ar 'n circ'ito1 Desp'6s e circ'ito se pr'e%a
introd'ciendo seDaes $ #onitoreando resp'estas1 Esta interfaz
pro+ee #?s fe*i%iidad ('e 'n si#'ador de tipo Ecaja ne!raF1
Ne'roSo'tions inc'$e 'na coeccin co#pre&ensi+a de #'estrasG
eje#po ('e per#iten a 's'arioHdiseDador #onitorear c'a('ier
aspecto de a red ne'rona d'rante os procesos de entrena#iento $
pr'e%a1

Los atri%'tos especiaes de Ne'roSo'tions o &acen idea para 'n
entrena#iento interacti+o1 De%ido a a si#picidad $ a a potencia de
Ne'roSo'tions3 es idea para e desarroo de redes ne'ronaes1
>10101 Caracter"sticas .eneraes1
La interfaz de usuario de 8euro1olutions organiza sus componentes en paletas. *ada paleta
de componentes contiene una familia de componentes "ue tienen una funcin similar. 0or
e&emplo, todos los displays de salida o monitores estn contenidos en una sola paleta. 1e
pueden encontrar todas las paletas en el men, de paletas.
4B?
;igura 4.4 3en, de paletas
1i se abre una paleta, se marcar inmediatamente con una palomita, como se muestra en la figura
4.4. /na paleta abierta se ve y act,a como una barra de herramientas con un con&unto de iconos.
Las paletas pueden ser desplazadas y colocadas como cual"uier barra de herramientas estndar de
=indoFs. La figura 4.B muestra como e&emplo la paleta de la familia !n.
4.B 0aleta de la familia !n
1e pueden seleccionar los componentes de la paleta y colocarlos en la tablilla de conein.
(olocacin de componentes

1i el puntero del ratn se coloca sobre la paleta y se esperan unos segundos, aparecer una
pe"ue)a ventana con el nombre del componente. Esto es muy ,til para determinar el
componente "ue se est seleccionando de la paleta. 1i se hace clic en un componente, el
puntero se convierte en una @estampaA. 1i se hace de nuevo clic sobre cual"uier punto de la
tablilla de conein, la estampa #componente$ ser pegada en ese punto. ! este proceso se
le denomina @estampado de componentesA.
-8uda en l&nea )on1line,
/na descripcin completa de cada componente est contenida en la ayuda en lnea. El
medio ms fcil de acceder a la ayuda de un componente dado es haciendo clic con el
cursor en el componente. El cursor de ayuda est colocado en la barra de herramientas.
1lo basta con hacer clic en %l y despu%s trasladar el puntero del ratn hacia el componente
deseado, haciendo clic sobre el icono de %ste.
Con-J40n d- /o8pon-nt-3
4B7
8tese "ue en los componentes de la familia de aones #as como en algunas otras familias$
hay un punto de contacto dobleJdiamante a la iz"uierda #conector hembra$ y un punto de
contacto de simpleJdiamante a la derecha #conector macho$. El flu&o de datos en
8euro1olutions est dise)ado para un movimiento de iz"uierda a derecha en la tablilla de
conein. 0ara conectar dos componentes, simplemente es necesario @arrastrarA el conector
macho a la derecha del componente hacia el conector hembra #lado iz"uierdo5 del otro
componente. La conein est visualmente indicada por tres lneas dibu&adas entre los
componentes.

Pambi%n se podr notar "ue mientras se arrastra el conector, la flecha "ue caracteriza el
puntero del ratn cambiar a un cursor de movimiento, "ueriendo decir "ue se puede
colocar el conector macho en cual"uier posicin no ocupada de la tablilla. 1i es colocado en
una posicin no vlida, el puntero se convierte en un crculo cruzado, "ueriendo decir "ue
en ese lugar no se puede colocar el conector.

/na manera alternativa de conectar componentes es seleccionando el primer componente
#haciendo clic con el botn iz"uierdo del ratn$, y despu%s haciendo clic en el segundo
componente con el botn derecho del ratn, para despu%s seleccionar la opcin @*onectar
aA #@*onnect toA$ del men,. 1e establecern automticamente las tres lneas de conein.
>10121 Constr'ccin de Redes Ne'ronaes1
AJon-3 F S4n1p343
1e puede aplicar fcilmente la aproimacin tipo construyendoJblo"ues para construir
sistemas neuronales o adaptativos. Estas redes bsicamente estn constituidas por
elementos de procesamiento #0Es$ atados &untos con coneiones con pesos. La familia
!n #la mayora de la terminologa utilizada en 8euro1olutions est basada en la
neurobiologa$ implementa los 0Es en la red, y la familia 1inapsis implementa las
coneiones con pesos.
;igura 4.< 0aleta de la familia !n y algunos de sus componentes
4BC
La familia !n tiene dos funciones. Los componentes suman todas sus entradas y despu%s
aplican una funcin de activacin a dicha suma. Los diferentes componentes en la familia
!n aplican una funcin diferente a la suma de entradas. *ada una de las diferentes
imgenes en los iconos de dicha familia representa la funcin "ue ser aplicada. El an de
tipo lineal #llamado simplemente !n$ simplemente pasa la suma de las entradas
directamente a la salida. El an (ias suma la entrada y agrega un valor de umbral. /n slo
componente de la familia !n puede representar cual"uier n,mero de 0Es. Esto se
muestra en la figura 4.<.
;igura 4.6. 0aleta de la familia 1inapsis y algunos de sus componentes
La familia 1inapsis, mostrada en la figura 4.6., se usa para hacer coneiones entre aones. En
general, se le asigna un peso a cada conein en una sinapsis "ue hace un escalamiento de los datos
"ue pasan a trav%s de ella. La manera en "ue se a&ustan esos pesos ser la manera en "ue se entrena
una red o sistema adaptativo para e&ecutar la tarea deseada. El miembro ms utilizado de esta
familia es la 1inapsis *ompleta y conecta todos y cada uno de los 0Eks en el an del otro
componente. !dems, la 1inapsis *ompleta contiene nm coneiones #y pesos$ para n 0Es de
entrada y m 0es de salida. La 1inapsis !rbitraria permite seleccionar cul de las nm coneiones
posibles unir un an a otro.
>101A1 Si#'acin de Redes Ne'ronaes1
2ntrenamiento de una red
Esta seccin trata los componentes etra necesarios para entrenar un sistema adaptativo
utilizando gradiente descendente. Lo importante de esta seccin no es entender todos los
conceptos, sino la mecnica.

El aprendiza&e adaptativo se basa en utilizar el error entre la salida del sistema y la salida
del sistema deseada para entrenar el sistema. El algoritmo de aprendiza&e adapta los pesos
del sistema basado en el error hasta "ue el sistema no produzca la salida deseada. La
familia de *riterios de Error, "ue se muestra en la figura 4.?. en 8eurosolutions calcula
diferentes medidas de error "ue pueden ser utilizadas en el entrenamiento de una red.
4BS
;igura 4.? 0aleta de la familia *riterios de Error
-prendizaje 8 retropropagacin
1e puede utilizar el error para modificar los pesos del sistema, permitiendo a %ste aprender.
La misin del sistema es igualar la salida del sistema a la salida deseada, por lo "ue se
necesita minimizar el error cuadrtico. El m%todo para hacerlo es conocido como
retropropagacin del error. Esencialmente es un proceso de tres pasos. 0rimero, los datos de
la entrada son propagados hacia adelante a trav%s de la red para calcular la salida del
sistema.
El paso siguiente es calcular el error y propagarlo hacia atrs. Esto se utiliza finalmente
para modificar los pesos.

8euro1olutions implementa la retropropagacin del error en un @planoA secundario "ue se
encuentra en la parte superior de aones y sinapsis. Este es el plano de retropropagacin, y
se muestra en la figura 4.7.
;igura 4.7.Eed neuronal con plano de retropropagacin
8euro1olutions muestra el plano de retropropagacin utilizando versiones ms pe"ue)as de
aones y sinapsis apilados sobre ellos. El plano de retropropagacin pasa los errores hacia
atrs desde el componente de *riterios de error hasta el principio de la red #y manipula los
errores durante el camino$. 8euro1olutions agrega un tercer plano "ue utiliza el error en
ese momento en el plano de retropropagacin para cambiar los pesos de la red Y es a"u
donde realmente se lleva a cabo el aprendiza&e.

Este plano se conoce como plano de gradiente descendente y se encuentra por arriba del
plano de retropropagacin. /n componente tpico de gradiente descendiente es el
componente 3omentum. 8tese en la figura 4.C. "ue slo los componentes relacionados
con los pesos utilizan los componentes de gradiente descendente.
4B5
;igura 4.C. Eed neuronal con los tres planos: de propagacain hacia delante, retropropagacin y gradiente descendiente
4<G

Apuntesrnai 22 Agostop 01

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Apuntesrnai 22 Agostop 01

Uploaded by

Copyright:

Available Formats

REDES NEURONALES ARTIFCIALES I

REDES NEURONALES ARTIFCIALES I

You might also like