15 Redes Neuronales

Todo lo que siempre quiso saber sobre
Redes neuronales
y nunca se atrevi a preguntar
Billy Reynoso
UNIVERSIDAD DE BUENOS AIRES
billyreyno@hotmail.com
http://carlosreynoso.com.ar
Temario
Implementaciones
Criterios de clasificacin
Topologas
Paradigmas de aprendizaje
Funciones de activacin y propagacin
Implementaciones
(Solamente binarios)
SNNS
Unix, Windows con X Server
JavaNNS
Independiente de plataforma, Windows con JRE
Incluye nuevas topologas, pero no 3D
PDP++
C++, Windows con CygWin - Pocos algoritmos
NeuroSolutions
Full-Windows, COM, Excel, VB, VC++
Nuevas topologas y lgica difusa, pero no ART
Cobalt A.I. Code Builder Neural Network Edition

Genera cdigo .NET - Backprop only
ANN y estadsticas
ANN = modelo estadstico (caja negra, E-R)
Las redes FF sin capa oculta (incluyendo redes neuronales de vnculo funcional y
redes de orden ms elevado) son bsicamente modelos lineales generalizados.
Las redes FF con una capa oculta se relacionan estrechamente con projection
pursuit regression.
PPR: tcnica exploratoria para analizar datos de alta dimensionalidad con
proyecciones de baja dimensionalidad y encontrar estructuras interesantes
Las redes probabilistas son idnticas al anlisis discriminante de kernel.

KDA: clasificador multidimensional que proyecta datos en un espacio de menor
dimensionalidad para visualizarlo
Las redes de Kohonen para cuantificacin de vector adaptativo se asemejan a kmeans cluster analysis.
El aprendizaje hebbiano se asemeja al anlisis de componente principal.
Criterios
Falta de unidad de criterio taxonmico
Por topologa (Feedforward, recurrentes)
Por modelo de memoria
Gamma, autoasociativas, asociativa, heteroasociativa, Laguerre,
almacenamiento directo...
Estticas / dinmicas, Continuas / discretas

Por regla de activacin (lineal, umbral-binaria, sigmoidal)
Por algoritmo de aprendizaje
Supervisado/No supervisado, Hebbiano, regla competitiva, propagacin
hacia atrs, adaptativos (RPROP, QuickProp, D-B-B...)
Algunos componentes o tcnicas puntuales se promueven como tipos de

redes (p. ej. Time-Delay NN, winner-take-all NN, PCA)
Mtodos de optimizacin se presentan como paradigmas de aprendizaje
(p. ej. simulacin de templado, dao cerebral ptimo)
Topologas bsicas
Redes de alimentacn hacia adelante
(feedforward)
No hay autoconexiones, ni feedback
Mapeadores instantneos: la salida es vlida
apenas presentado el input
Redes recurrentes
Total y parcialmente recurrentes
Conexin con cualquier PE, incluso a s mismo
Feedforward
[Neurona McCulloch-Pitts (1943)]
[Pandemonium (Selfridge, 1958)]
Adalines (Widrow 1960) - Madalines
Perceptrones
Perceptrones de mltiples capas
Redes de alimentacin hacia adelante generalizadas
Redes de alimentacin hacia adelante modulares
Redes de Funcin de Base Radial (RBF)
Memorias asociativas
Redes de anlisis de componentes principal (PCA)
Cognitron - Neocognitron de Fukushima
Redes de Kohonen
Mapas de rasgos auto-organizantes de Kohonen (SOFM)
Redes de cuantificacin de vector (VQ)
Redes de cuantificacin de vector de aprendizaje (LVQ)
Recurrentes
Redes de Hopfield
Mquinas de Boltzmann
Redes de Elman
Memoria asociativa bidireccional
Redes de Jordan
Redes de resonancia adaptativa
Redes recurrentes generalizadas
Time lagged recurrent networks
Redes de anlisis de componente principal
Feedforward (1/11) - Adalines

ADAptive LINear Element (Widrow & Hoff 1960)
Antes: ADAptive Linear NEuron
Es un filtro adaptativo lineal

La potencia le viene del proceso de aprendizaje
En vez de ecuaciones para ptimo valor de pesos (Wiener-Hopf),
aprendizaje de descenso de gradiente (least mean square, LMS)
Garantiza encontrar mnimo global
Es el ms usado en procesamiento de seales
Eliminacin de eco o ruido, ecualizacin de lneas
Para algunos, no es una red neuronal (es lineal)

NeuroSolutions: Linear Adaptive Filter
Feedforward (2/11) Madalines

Adalines mltiples (1960s)
Primera capa adaptativa, segunda con
funcin fija de umbral
Feedforward (3/11) Perceptrn

Rosenblatt: una sola capa, sin feedback (1950s)
Slo puede discriminar clases linealmente separables
Ultimamente, tambin no lineales
Pero es entrenable en un nmero finito de pasos

Presentar un patrn; si la respuesta es OK, no hacer nada; si no lo es,
cambiar los pesos hacia el output deseado
Tambin se aplica proparagacin
hacia atrs simplificada (regla delta)
Pero el aprendizaje de peceptrn es
ms rpido y estable si las clases
son lineales
Clebres limitaciones: XOR, T/C,

recursividad
Feedforward (4/11) - MLP (1/2)

Red FF de mltiples capas perteneciente al modelo aditivo
Capas sin acceso a mundo externo: capas ocultas
Habitualmente se entrenan con algoritmo de propagacin

hacia atrs (Rumelhart)
Siempre: aprendizaje con correccin de errores - Debe
conocerse respuesta
Descenso de gradientes - Tambin Momentum Learning (el
incremento anterior se usa para estabilizar convergencia)
PEs no lineales: No-linealidad debe ser suave

Funcin logstica y tangente hiperblica son las ms usadas
Interconectividad masiva: Todos los elementos de una capa
alimentan a todos los de la capa siguiente
Feedforward (4/11) - MLP (2/2)

Son poderosos clasificadores: 1 o 2 capas
pueden aproximar cualquier mapa
input/output
Pero necesitan un montn de input: 3 veces
ms ejemplares que pesos
Se confunden con
backpropagation networks
Feedforward (5/11) - Redes FF

generalizadas
MLP con eventuales saltos en conexin
de capas (bypass)
Ms eficientes para problemas
especficos (problema de los 2 espirales)
Requiere cientos de veces
menos entrenamiento que
MLP standard
Feedforward (6/11) - Redes

FF modulares
MLP con agrupaciones especializadas
Especializacin de funcin en cada submdulo
No hay conectividad plena entre capas
Muy usadas en biologa
Good: Entrenamiento ms rpido que MLP
Bad: Hay muchas maneras de segmentar un
problema
Feedforward (7/11) - Memorias

asociativas (Filtros lineales)
Propuestas por varios investigadores

Kohonen, Steinbuch, Anderson
Pueden aprender asociaciones entre objetos binarios dismiles

Dispositivo simple que mapea un punto de un espacio N
dimensional (input) en otro M dimensional (output)
Operacin de proyeccin lineal
Las salidas se comportan como unidades

lineales de umbral (M-P) o perceptrones
La solucin puede ser aproximada por aprendizaje
hebbiano (o tambin LMS de Widrow)
Bad: Baja capacidad, recuerdos espurios
NeuroSolutions: Linear associator
Feedforward (8/11) - Redes de

funcin de base radial (RBF)
Para reducir ruido, se introduce una constriccin relevante al problema:

habitualmente, una funcin de smoothness
Fase no supervisada Fase supervisada
La capa oculta representa centros en el espacio de input
Cada centro tiene una funcin de activacin (generalmente gaussiana)
Para resolver el problema acarreado de dimensin de la capa oculta,
se utiliza una tcnica de clustering (k-nearest neighbor rule)
La capa de ouput se entrena con backprop no lineal
Buena para reconocimiento de voz. Ms
rpidas que MLP. Matemticamente
simples
Bad: Algo menos confiables
NeuroSolutions: RBF network
Feedforward (9/11) - Anlisis de

componente principal (PCA)
Reducir rasgos (feature extraction) del input: la
informacin se retiene pero la dimensionalidad se reduce
Principal component analysis (PCA) o transformacin de
Karhunen-Loeve de la Decomposicin del Valor Singular
(SVD)
Encontrar un conjunto ortogonal de direcciones [eigenvectores
de la matriz de correlacin] en el espacio de input
Este espacio de proyeccin es lineal
El aprendizaje es hebbiano modificado
Se usan para reducir input de otras redes

NeuroSolutions: PCA+MLP hbrida (Reconocimiento de caracteres
manuscritos)
Feedforward (10/11) Cognitron

Fukushima: Primera red auto-organizada
de capas mltiples
Cognitron (1975)
Reconoce patrones anidados
Neocognitron (1980)
Reconoce el mismo objeto en otra posicin en
el campo visual
Variantes: Tricognitron, Shape Cognitron
Feedforward (11/11) Kohonen

Redes de cuantificacin de vector (VQ)
Redes de cuantificacin de vector de aprendizaje (LVQ)
Variante supervisada
Mapas de rasgos auto-organizantes de Kohonen (SOFM)

Una capa con PE lineales pero con aprendizaje competitivo
En lugar de actualizar el PE ganador, se actualizan un poco los pesos de los PE
vecinos
Se generan relaciones de vecindad
topolgica que corresponden a los
rasgos de los elementos de input
(semejanza con topografa del cortex
visual u olfativo)
Algoritmo: Auto-organizacn (Kohonen)
Recurrentes (1/10) - Hopfield

Autoasociativa, no lineal (1982): El output hace feedback sobre
input - Sin unidades ocultas
Inspirada en cristales de spin - Modelo termodinmico
Almacenan informacin en configuraciones dinmicamente
estables
Se aplican a problemas de optimizacin (p. ej. vendedor viajero)
No supervisada - Algoritmo delta;
simulacin de templado
Ventaja: aprendizaje en un solo
paso
Desventaja: Pueden quedar
atrapadas en estados
metaestables
Recurrentes (2/10) - Mquinas de

Boltzmann
Asociativa
Redes de Hopfield con unidades ocultas y reglas
de activacin estocsticas (annealing)
Las unidades no son neuronas M-P, sino
dispositivos analgicos
Aprendizaje no supervisado
Resuelven problema de asignacin de crdito a
unidades ocultas
Desventaja: Aprendizaje muy lento No se usan
mucho actualmente
Recurrentes (3/10) - Elman

Parcialmente recurrente - No hay ciclos
Extensin de MLP con unidades de contexto: PEs que
recuerdan actividad pasada de corto plazo
El output de PE oculto se copia en unidades de contexto
Puede reconocer secuencias o completar secuencias
parciales
Usos: reconocimiento de habla, composicin o prediccin
musical,
Malo: No muy confiables (aproximativas).
Redes idnticas pueden dar resultados
diferentes
Variante: Elman jerrquica extendida
Recurrentes (4/10) - Jordan

Extensin de MLP con unidades de contexto:
PE que recuerdan actividad pasada
El output de la red se copia en Ucs, que son
adems localmente recurrentes
La recurrencia decrece por una constante
multiplicativa, que define amplitud de memoria
Algo ms verstiles que Elman
Desventaja: atenuacin exponencial del pasado
Recurrentes (5/10) - Memorias

Asociativas Bidireccionales
Extensin de redes de Hopfield
BAM (1988) - Kosko
Discretas
Continuas: funcin de salida sigmoidea o
hiperblica tangente
Utiliza regla de Hebb

Bad: Poca capacidad de
memoria (0.1998n)
Recurrentes (6/10) - Resonancia

adaptativa (1/2)
Carpenter-Grossberg, 1976/86
Dilema de estabilidad-plasticidad: con FF el nuevo conocimiento puede
desplazar al viejo (experiencia)
No supervisada:
ART1 - Binario (1987)
FUZZY ART - Analgico
Mixta:
ARTMAP - Combina 2 mdulos no supervisados para implementar
aprendizaje supervisado
dART - ART distribuida / ART2 (analgico), ART3
ART: proceso de match entre input y memoria estado resonante

Adecuado para largos aprendizajes en lnea y procesos cambiantes
Variante: fast learning
Recurrentes (6/10) - Resonancia

adaptativa (2/2)
ART se autoorganiza
Puede reconocer nuevos ejemplares reteniendo
los antiguos
Combina feedback, control de alto nivel y nolinealidad
Dos componentes: atencional y orientador
La estabilizacin ocurre comparando activacin
bottom-up del input con expectativa top-down
El orientador es un detector de novedades
Recurrentes (7/10) - Recurrentes

generalizadas (GRN)
Tienen una capa que hace auto-feedback usando
pesos adaptativos
Ventaja:
Tericamente las ms poderosas
Tienen memoria ilimitada
Desventajas:
Inestables durante entrenamiento, porque el feedback
es adaptable (en Jordan/Elman es fijo)
El algoritmo backprogation through time (BPTT) decae
exponencialmente
Recurrentes (8/10) - Timelagged

TLRN: MLPs extendidos con memoria de corto
plazo con conexiones recurrentes
Buenas para informacin que vara en el tiempo
Ventajas: Tamao pequeo, baja sensibilidad al
ruido
Desventaja: Adaptacin no lineal de pesos
(mnimo local) - El BPTT es complejo y requiere
mucha memoria
Caso especial: Time-delay NN (TDNN)
Recurrentes (9/10) - Anlisis de

componente principal (PCA)
PCA: procedimiento no lineal para encontrar
direccin de mayor energa en espacio de input
(feature extraction: eigenvalues de matriz de
covarianza)
Mezcla de supervisada/ no supervisada: primero
PCA, luego entrenamiento
Ventaja: se entrena fcil, porque el input es
ortogonal
Desventajas: los rasgos con mejor valor no siempre
son los ms discriminantes
Recurrentes (10/10) Mquina de vector de soporte

Siglo XXI: Implementa algoritmo kernel adatron
http://www.kernel-machines.org
NS usa RBF para asociar gaussiana a cada ejemplar

de input
Ventaja: Excelentes resultados en problemas
prcticos de clasificacin (reconocimiento de
firmas...)
Desventaja: Asigna una matriz gaussiana a cada
ejemplar de input - Imprctico para conjuntos
grandes (> 1000)
Otras redes
Red reverberante conectada al azar (Farley & Clark, 1954)
Red reverberante con auto-ensamblado (Rochester, 1956)
Pandemonium
Selfridge, 1958 - Dividir y conquistar dominio del problema. El
agente (daemon) que grita ms fuerte gana
Red neuronal hbrida (Reilly & Cooper 1982)

1a capa generaliza, 2a capa especifica
Red neuronal de lgica multivaluada (1990)

Multivalued tectum reticular network (Olmsted)
BIMM (Brain-inspired memory model, 2000)

NeuroML - Lenguaje de markup (XML)
Neuroevolucin - ANN + AG
Aprendizaje - Algoritmos [supervisados

solamente]
1. Ada Boost.
2. Backpropagation neural network with batch training
(Backpropagation_Batch).
3. Backpropagation neural network with conjugate gradient
descent (Backpropagation_CGD).
4. Backpropagation neural network with Quickprop learning
(Backpropagation_Quickprop).
5. Backpropagation neural network with stochastic training
(Backpropagation_Stochastic).
6. Backpropagation neural network with stochastic training
and
momentum (Backpropagation_SM).
7. Balanced Winnow.
8. Batch perceptron (Perceptron_Batch).
9. Batch relaxation with margin (Relaxation_BM).
10. Batch variable-increment perceptron (Perceptron_BVI).
11. Bayesian Model Comparison
12. C4.5.
13. Cascade-Correlation type neural network
(Cascade_correlation).
14. Classification and regression trees (CART).
15. Component classifiers with descriminant functions
(Components_with_DF).
16. Component classifiers without descriminant functions
(Components_without_DF).
17. Deterministic Boltzmann classifier.
18. Discrete Bayes classifier.
19. Expectation-maximization (EM).
20. Genetic algorithm (Basic GA).
21. Genetic programming.
22. Gibbs algorithm.
23. ID3.
24. Interactive Learning (Learning with queries).
25. Linear Least squares (LS).
26. Least-mean squares (LMS).
27. Local polynomial fitting
28. Local boosting.

29. LVQ1.
30. LVQ3.
31. Marginalization
32. Maximum likelihood (ML).
33. Maximum likelihood using diagonal covariance matrices
(ML_diag).
34. Maximum likelihood model comparison (ML_II).
35. Minimum cost classification.
36. Multivariate adaptive regression splines.
37. Nearest Neighbors.
38. Nearest Neighbor Editing.
39. Normal density discriminant function (NDDF).
40. Optimal brain surgeon.
41. Parzen windows.
42. Perceptron.
43. Pocket.
44. Probabilistic neural network.
45. Projection pursuit regression.
46. Quickprop (Backpropagation_Quickprop).
47. Recurrent neural network (Backpropagation_Recurrent).
48. Radial basis function network (RBF_Network).
49. Reduced coulomb energy algorithm (RCE).
50. Regularized descriminant analysis (RDA) - Friedman
shrinkage.
51. Single-step relaxation with margin (Relaxation_SSM).
52. Store-Grabbag.
53. Stumps.
54. Support-vector machines (SVM)
55. Variable-increment perceptron with margin
(Perceptron_VIM).
56. Voted perceptron.
Paradigmas de aprendizaje
No supervisado:
Feature map [Kohonen]

Aprendizaje competitivo
Componente principal
Teora de la Resonancia Adaptativa (ART)
Supervisado:
Decidir: criterio de error, propagacin y constraint de output
O sea: Funcin de costo, p. ej. descenso de gradiente, definicin de conducta en
tiempo final (punto fijo para FF)
Adaline
Perceptrn
Redes dinmicas
Backpropagation
MLP
Mixto : Reinforcement learning
Aprendizaje hebbiano
Constituye la base del aprendizaje no supervisado,
conductista
Se cambian pesos multiplicando input, output,
learning rate
Variantes:
Hebb - Se aumentan pesos su hay correlacin positiva
Anti-Hebbiano (Hebb with decay) - Se disminuyen para que olvide
lo que no es reforzado
Hebbiano forzado
Regla de Oja
Encuentra el componente principal del input (eigenfilter)
Regla de Sanger
Aprendizaje de refuerzo
(Reinforcement L.)
Basado en aprendizaje hebbiano
No del todo supervisado
Feedback evaluativo en vez de
instructivo
Se le dice si est mal,
y eventualmente en
qu medida
Backpropagation
Basado en regla delta de Widrow-Hoff
Generalizacin de LMS
Entrena una red neuronal FF de mltiples capas,

no recurrente, funcin de activacin sigmoidal
Se calcula error de output contra valor deseado
Se ajustan pesos mediante error cuadrtico
medio (mean square error)
P.ej: NETTalk (1986)
Alternativas a BackProp
Regla Delta:
DBD (Delta-bar-delta) - Jordan, 1988
Usa un coeficiente variable propio para cada conexin
Momentum
Rumerhart & al - Coeficiente proporcional al ltimo cambio
EDBD = DBD+Momentum
Gradiente conjugadoFletcher-ReevesPolak-Riviere PowellBeale
Mtodo de Newton - Quasi-Newton
Mtodo de Levenberg-Marquard (gen. de Newton)
QuickProp (Fahlman 1988)
Gprop (Genetic learning rule, Castillo 1999)
Rprop (Resilient Prop, Riedmiller 1993)
Aprendizaje competitivo
Red excitadora hacia adelante y redes
inhibidoras laterales
La red hacia adelante implementa regla
de Hebb
La red inhibidora selecciona al ganador
mediante winner-take-all
Una variante se usa en SOFM:
Competencia, cooperacin, adaptacn
Aprendizaje de trayectoria
(aplica a Redes dinmicas)
Fundamental para patrones que varan
en el tiempo
Dos procedimientos:
Backpropagation through time (BPTT)
Algoritmo de tiempo real de aprendizaje
recurrente (RTRL)
Funciones
Propagacin
Funcin lineal de base
Suma de las entradas ponderadas
Funcin radial de base

Hiperesfrico, segundo orden, no lineal
Activacin
Funcin de umbral
La salida es un valor discreto, usualmente binario
Funcin sigmoidal o logstica

Muy usada; continua, no lineal; no puede expresar polaridades (siempre valor
positivo)
Funcin tangencial hiperblica

Alternativa; entre -1 y 1
Funcin gaussiana
Modelos y
usos
Preguntas?
Billyr@microsoft.com.ar
Billyreyno@hotmail.com

15 Redes Neuronales

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

15 Redes Neuronales

Uploaded by

Copyright:

Available Formats

Todo lo que siempre quiso saber sobre

Cobalt A.I. Code Builder Neural Network Edition

Las redes probabilistas son idnticas al anlisis discriminante de kernel.

Estticas / dinmicas, Continuas / discretas

Algunos componentes o tcnicas puntuales se promueven como tipos de

[Neurona McCulloch-Pitts (1943)]

[Pandemonium (Selfridge, 1958)]

Adalines (Widrow 1960) - Madalines

Perceptrones de mltiples capas

Redes de alimentacin hacia adelante generalizadas

Redes de alimentacin hacia adelante modulares

Redes de Funcin de Base Radial (RBF)

Redes de anlisis de componentes principal (PCA)

Cognitron - Neocognitron de Fukushima

Mapas de rasgos auto-organizantes de Kohonen (SOFM)

Redes de cuantificacin de vector (VQ)

Redes de cuantificacin de vector de aprendizaje (LVQ)

Feedforward (1/11) - Adalines

Es un filtro adaptativo lineal

Para algunos, no es una red neuronal (es lineal)

Feedforward (2/11) Madalines

Feedforward (3/11) Perceptrn

Pero es entrenable en un nmero finito de pasos

Clebres limitaciones: XOR, T/C,

Feedforward (4/11) - MLP (1/2)

Habitualmente se entrenan con algoritmo de propagacin

PEs no lineales: No-linealidad debe ser suave

Feedforward (4/11) - MLP (2/2)

Feedforward (5/11) - Redes FF

Feedforward (6/11) - Redes

Feedforward (7/11) - Memorias

Propuestas por varios investigadores

Pueden aprender asociaciones entre objetos binarios dismiles

Las salidas se comportan como unidades

Feedforward (8/11) - Redes de

Para reducir ruido, se introduce una constriccin relevante al problema:

Feedforward (9/11) - Anlisis de

Se usan para reducir input de otras redes

Feedforward (10/11) Cognitron

Variantes: Tricognitron, Shape Cognitron

Feedforward (11/11) Kohonen

Mapas de rasgos auto-organizantes de Kohonen (SOFM)

Recurrentes (1/10) - Hopfield

Recurrentes (2/10) - Mquinas de

Recurrentes (3/10) - Elman

Recurrentes (4/10) - Jordan

Recurrentes (5/10) - Memorias

Utiliza regla de Hebb

Recurrentes (6/10) - Resonancia

ART: proceso de match entre input y memoria estado resonante

Recurrentes (6/10) - Resonancia

Recurrentes (7/10) - Recurrentes

Recurrentes (8/10) - Timelagged

Recurrentes (9/10) - Anlisis de

Recurrentes (10/10) Mquina de vector de soporte

NS usa RBF para asociar gaussiana a cada ejemplar

Red neuronal hbrida (Reilly & Cooper 1982)

Red neuronal de lgica multivaluada (1990)

BIMM (Brain-inspired memory model, 2000)

Aprendizaje - Algoritmos [supervisados

28. Local boosting.

Feature map [Kohonen]

Mixto : Reinforcement learning

Entrena una red neuronal FF de mltiples capas,