You are on page 1of 43

Todo lo que siempre quiso saber sobre

Redes neuronales
y nunca se atrevi a preguntar

Billy Reynoso
UNIVERSIDAD DE BUENOS AIRES

billyreyno@hotmail.com
http://carlosreynoso.com.ar

Temario

Implementaciones
Criterios de clasificacin
Topologas
Paradigmas de aprendizaje
Funciones de activacin y propagacin

Implementaciones
(Solamente binarios)
SNNS
Unix, Windows con X Server

JavaNNS
Independiente de plataforma, Windows con JRE
Incluye nuevas topologas, pero no 3D

PDP++
C++, Windows con CygWin - Pocos algoritmos

NeuroSolutions
Full-Windows, COM, Excel, VB, VC++
Nuevas topologas y lgica difusa, pero no ART

Cobalt A.I. Code Builder Neural Network Edition


Genera cdigo .NET - Backprop only

ANN y estadsticas
ANN = modelo estadstico (caja negra, E-R)
Las redes FF sin capa oculta (incluyendo redes neuronales de vnculo funcional y
redes de orden ms elevado) son bsicamente modelos lineales generalizados.
Las redes FF con una capa oculta se relacionan estrechamente con projection
pursuit regression.
PPR: tcnica exploratoria para analizar datos de alta dimensionalidad con
proyecciones de baja dimensionalidad y encontrar estructuras interesantes

Las redes probabilistas son idnticas al anlisis discriminante de kernel.


KDA: clasificador multidimensional que proyecta datos en un espacio de menor
dimensionalidad para visualizarlo

Las redes de Kohonen para cuantificacin de vector adaptativo se asemejan a kmeans cluster analysis.
El aprendizaje hebbiano se asemeja al anlisis de componente principal.

Criterios
Falta de unidad de criterio taxonmico
Por topologa (Feedforward, recurrentes)
Por modelo de memoria
Gamma, autoasociativas, asociativa, heteroasociativa, Laguerre,
almacenamiento directo...

Estticas / dinmicas, Continuas / discretas


Por regla de activacin (lineal, umbral-binaria, sigmoidal)
Por algoritmo de aprendizaje
Supervisado/No supervisado, Hebbiano, regla competitiva, propagacin
hacia atrs, adaptativos (RPROP, QuickProp, D-B-B...)

Algunos componentes o tcnicas puntuales se promueven como tipos de


redes (p. ej. Time-Delay NN, winner-take-all NN, PCA)
Mtodos de optimizacin se presentan como paradigmas de aprendizaje
(p. ej. simulacin de templado, dao cerebral ptimo)

Topologas bsicas
Redes de alimentacn hacia adelante
(feedforward)
No hay autoconexiones, ni feedback
Mapeadores instantneos: la salida es vlida
apenas presentado el input

Redes recurrentes
Total y parcialmente recurrentes
Conexin con cualquier PE, incluso a s mismo

Feedforward

[Neurona McCulloch-Pitts (1943)]

[Pandemonium (Selfridge, 1958)]

Adalines (Widrow 1960) - Madalines

Perceptrones

Perceptrones de mltiples capas

Redes de alimentacin hacia adelante generalizadas

Redes de alimentacin hacia adelante modulares

Redes de Funcin de Base Radial (RBF)

Memorias asociativas

Redes de anlisis de componentes principal (PCA)

Cognitron - Neocognitron de Fukushima

Redes de Kohonen

Mapas de rasgos auto-organizantes de Kohonen (SOFM)

Redes de cuantificacin de vector (VQ)

Redes de cuantificacin de vector de aprendizaje (LVQ)

Recurrentes
Redes de Hopfield
Mquinas de Boltzmann
Redes de Elman
Memoria asociativa bidireccional
Redes de Jordan
Redes de resonancia adaptativa
Redes recurrentes generalizadas
Time lagged recurrent networks
Redes de anlisis de componente principal

Feedforward (1/11) - Adalines


ADAptive LINear Element (Widrow & Hoff 1960)
Antes: ADAptive Linear NEuron

Es un filtro adaptativo lineal


La potencia le viene del proceso de aprendizaje
En vez de ecuaciones para ptimo valor de pesos (Wiener-Hopf),
aprendizaje de descenso de gradiente (least mean square, LMS)
Garantiza encontrar mnimo global
Es el ms usado en procesamiento de seales
Eliminacin de eco o ruido, ecualizacin de lneas

Para algunos, no es una red neuronal (es lineal)


NeuroSolutions: Linear Adaptive Filter

Feedforward (2/11) Madalines


Adalines mltiples (1960s)
Primera capa adaptativa, segunda con
funcin fija de umbral

Feedforward (3/11) Perceptrn


Rosenblatt: una sola capa, sin feedback (1950s)
Slo puede discriminar clases linealmente separables
Ultimamente, tambin no lineales

Pero es entrenable en un nmero finito de pasos


Presentar un patrn; si la respuesta es OK, no hacer nada; si no lo es,
cambiar los pesos hacia el output deseado
Tambin se aplica proparagacin
hacia atrs simplificada (regla delta)
Pero el aprendizaje de peceptrn es
ms rpido y estable si las clases
son lineales

Clebres limitaciones: XOR, T/C,


recursividad

Feedforward (4/11) - MLP (1/2)


Red FF de mltiples capas perteneciente al modelo aditivo
Capas sin acceso a mundo externo: capas ocultas

Habitualmente se entrenan con algoritmo de propagacin


hacia atrs (Rumelhart)
Siempre: aprendizaje con correccin de errores - Debe
conocerse respuesta
Descenso de gradientes - Tambin Momentum Learning (el
incremento anterior se usa para estabilizar convergencia)

PEs no lineales: No-linealidad debe ser suave


Funcin logstica y tangente hiperblica son las ms usadas
Interconectividad masiva: Todos los elementos de una capa
alimentan a todos los de la capa siguiente

Feedforward (4/11) - MLP (2/2)


Son poderosos clasificadores: 1 o 2 capas
pueden aproximar cualquier mapa
input/output
Pero necesitan un montn de input: 3 veces
ms ejemplares que pesos
Se confunden con
backpropagation networks

Feedforward (5/11) - Redes FF


generalizadas
MLP con eventuales saltos en conexin
de capas (bypass)
Ms eficientes para problemas
especficos (problema de los 2 espirales)
Requiere cientos de veces
menos entrenamiento que
MLP standard

Feedforward (6/11) - Redes


FF modulares
MLP con agrupaciones especializadas
Especializacin de funcin en cada submdulo
No hay conectividad plena entre capas
Muy usadas en biologa
Good: Entrenamiento ms rpido que MLP
Bad: Hay muchas maneras de segmentar un
problema

Feedforward (7/11) - Memorias


asociativas (Filtros lineales)

Propuestas por varios investigadores


Kohonen, Steinbuch, Anderson

Pueden aprender asociaciones entre objetos binarios dismiles


Dispositivo simple que mapea un punto de un espacio N
dimensional (input) en otro M dimensional (output)
Operacin de proyeccin lineal

Las salidas se comportan como unidades


lineales de umbral (M-P) o perceptrones
La solucin puede ser aproximada por aprendizaje
hebbiano (o tambin LMS de Widrow)
Bad: Baja capacidad, recuerdos espurios
NeuroSolutions: Linear associator

Feedforward (8/11) - Redes de


funcin de base radial (RBF)

Para reducir ruido, se introduce una constriccin relevante al problema:


habitualmente, una funcin de smoothness
Fase no supervisada Fase supervisada
La capa oculta representa centros en el espacio de input
Cada centro tiene una funcin de activacin (generalmente gaussiana)
Para resolver el problema acarreado de dimensin de la capa oculta,
se utiliza una tcnica de clustering (k-nearest neighbor rule)
La capa de ouput se entrena con backprop no lineal
Buena para reconocimiento de voz. Ms
rpidas que MLP. Matemticamente
simples
Bad: Algo menos confiables
NeuroSolutions: RBF network

Feedforward (9/11) - Anlisis de


componente principal (PCA)
Reducir rasgos (feature extraction) del input: la
informacin se retiene pero la dimensionalidad se reduce
Principal component analysis (PCA) o transformacin de
Karhunen-Loeve de la Decomposicin del Valor Singular
(SVD)
Encontrar un conjunto ortogonal de direcciones [eigenvectores
de la matriz de correlacin] en el espacio de input
Este espacio de proyeccin es lineal
El aprendizaje es hebbiano modificado

Se usan para reducir input de otras redes


NeuroSolutions: PCA+MLP hbrida (Reconocimiento de caracteres
manuscritos)

Feedforward (10/11) Cognitron


Fukushima: Primera red auto-organizada
de capas mltiples
Cognitron (1975)
Reconoce patrones anidados

Neocognitron (1980)
Reconoce el mismo objeto en otra posicin en
el campo visual

Variantes: Tricognitron, Shape Cognitron

Feedforward (11/11) Kohonen


Redes de cuantificacin de vector (VQ)
Redes de cuantificacin de vector de aprendizaje (LVQ)
Variante supervisada

Mapas de rasgos auto-organizantes de Kohonen (SOFM)


Una capa con PE lineales pero con aprendizaje competitivo
En lugar de actualizar el PE ganador, se actualizan un poco los pesos de los PE
vecinos
Se generan relaciones de vecindad
topolgica que corresponden a los
rasgos de los elementos de input
(semejanza con topografa del cortex
visual u olfativo)
Algoritmo: Auto-organizacn (Kohonen)

Recurrentes (1/10) - Hopfield


Autoasociativa, no lineal (1982): El output hace feedback sobre
input - Sin unidades ocultas
Inspirada en cristales de spin - Modelo termodinmico
Almacenan informacin en configuraciones dinmicamente
estables
Se aplican a problemas de optimizacin (p. ej. vendedor viajero)
No supervisada - Algoritmo delta;
simulacin de templado
Ventaja: aprendizaje en un solo
paso
Desventaja: Pueden quedar
atrapadas en estados
metaestables

Recurrentes (2/10) - Mquinas de


Boltzmann
Asociativa
Redes de Hopfield con unidades ocultas y reglas
de activacin estocsticas (annealing)
Las unidades no son neuronas M-P, sino
dispositivos analgicos
Aprendizaje no supervisado
Resuelven problema de asignacin de crdito a
unidades ocultas
Desventaja: Aprendizaje muy lento No se usan
mucho actualmente

Recurrentes (3/10) - Elman


Parcialmente recurrente - No hay ciclos
Extensin de MLP con unidades de contexto: PEs que
recuerdan actividad pasada de corto plazo
El output de PE oculto se copia en unidades de contexto
Puede reconocer secuencias o completar secuencias
parciales
Usos: reconocimiento de habla, composicin o prediccin
musical,
Malo: No muy confiables (aproximativas).
Redes idnticas pueden dar resultados
diferentes
Variante: Elman jerrquica extendida

Recurrentes (4/10) - Jordan


Extensin de MLP con unidades de contexto:
PE que recuerdan actividad pasada
El output de la red se copia en Ucs, que son
adems localmente recurrentes
La recurrencia decrece por una constante
multiplicativa, que define amplitud de memoria
Algo ms verstiles que Elman
Desventaja: atenuacin exponencial del pasado

Recurrentes (5/10) - Memorias


Asociativas Bidireccionales
Extensin de redes de Hopfield
BAM (1988) - Kosko
Discretas
Continuas: funcin de salida sigmoidea o
hiperblica tangente

Utiliza regla de Hebb


Bad: Poca capacidad de
memoria (0.1998n)

Recurrentes (6/10) - Resonancia


adaptativa (1/2)
Carpenter-Grossberg, 1976/86
Dilema de estabilidad-plasticidad: con FF el nuevo conocimiento puede
desplazar al viejo (experiencia)
No supervisada:
ART1 - Binario (1987)
FUZZY ART - Analgico

Mixta:
ARTMAP - Combina 2 mdulos no supervisados para implementar
aprendizaje supervisado
dART - ART distribuida / ART2 (analgico), ART3

ART: proceso de match entre input y memoria estado resonante


Adecuado para largos aprendizajes en lnea y procesos cambiantes
Variante: fast learning

Recurrentes (6/10) - Resonancia


adaptativa (2/2)
ART se autoorganiza
Puede reconocer nuevos ejemplares reteniendo
los antiguos
Combina feedback, control de alto nivel y nolinealidad
Dos componentes: atencional y orientador
La estabilizacin ocurre comparando activacin
bottom-up del input con expectativa top-down
El orientador es un detector de novedades

Recurrentes (7/10) - Recurrentes


generalizadas (GRN)
Tienen una capa que hace auto-feedback usando
pesos adaptativos
Ventaja:
Tericamente las ms poderosas
Tienen memoria ilimitada

Desventajas:
Inestables durante entrenamiento, porque el feedback
es adaptable (en Jordan/Elman es fijo)
El algoritmo backprogation through time (BPTT) decae
exponencialmente

Recurrentes (8/10) - Timelagged


TLRN: MLPs extendidos con memoria de corto
plazo con conexiones recurrentes
Buenas para informacin que vara en el tiempo
Ventajas: Tamao pequeo, baja sensibilidad al
ruido
Desventaja: Adaptacin no lineal de pesos
(mnimo local) - El BPTT es complejo y requiere
mucha memoria
Caso especial: Time-delay NN (TDNN)

Recurrentes (9/10) - Anlisis de


componente principal (PCA)
PCA: procedimiento no lineal para encontrar
direccin de mayor energa en espacio de input
(feature extraction: eigenvalues de matriz de
covarianza)
Mezcla de supervisada/ no supervisada: primero
PCA, luego entrenamiento
Ventaja: se entrena fcil, porque el input es
ortogonal
Desventajas: los rasgos con mejor valor no siempre
son los ms discriminantes

Recurrentes (10/10) Mquina de vector de soporte


Siglo XXI: Implementa algoritmo kernel adatron
http://www.kernel-machines.org

NS usa RBF para asociar gaussiana a cada ejemplar


de input
Ventaja: Excelentes resultados en problemas
prcticos de clasificacin (reconocimiento de
firmas...)
Desventaja: Asigna una matriz gaussiana a cada
ejemplar de input - Imprctico para conjuntos
grandes (> 1000)

Otras redes
Red reverberante conectada al azar (Farley & Clark, 1954)
Red reverberante con auto-ensamblado (Rochester, 1956)
Pandemonium
Selfridge, 1958 - Dividir y conquistar dominio del problema. El
agente (daemon) que grita ms fuerte gana

Red neuronal hbrida (Reilly & Cooper 1982)


1a capa generaliza, 2a capa especifica

Red neuronal de lgica multivaluada (1990)


Multivalued tectum reticular network (Olmsted)

BIMM (Brain-inspired memory model, 2000)


NeuroML - Lenguaje de markup (XML)
Neuroevolucin - ANN + AG

Aprendizaje - Algoritmos [supervisados


solamente]

1. Ada Boost.
2. Backpropagation neural network with batch training
(Backpropagation_Batch).
3. Backpropagation neural network with conjugate gradient
descent (Backpropagation_CGD).
4. Backpropagation neural network with Quickprop learning
(Backpropagation_Quickprop).
5. Backpropagation neural network with stochastic training
(Backpropagation_Stochastic).
6. Backpropagation neural network with stochastic training
and
momentum (Backpropagation_SM).
7. Balanced Winnow.
8. Batch perceptron (Perceptron_Batch).
9. Batch relaxation with margin (Relaxation_BM).
10. Batch variable-increment perceptron (Perceptron_BVI).
11. Bayesian Model Comparison
12. C4.5.
13. Cascade-Correlation type neural network
(Cascade_correlation).
14. Classification and regression trees (CART).
15. Component classifiers with descriminant functions
(Components_with_DF).
16. Component classifiers without descriminant functions
(Components_without_DF).
17. Deterministic Boltzmann classifier.
18. Discrete Bayes classifier.
19. Expectation-maximization (EM).
20. Genetic algorithm (Basic GA).
21. Genetic programming.
22. Gibbs algorithm.
23. ID3.
24. Interactive Learning (Learning with queries).
25. Linear Least squares (LS).
26. Least-mean squares (LMS).
27. Local polynomial fitting

28. Local boosting.


29. LVQ1.
30. LVQ3.
31. Marginalization
32. Maximum likelihood (ML).
33. Maximum likelihood using diagonal covariance matrices
(ML_diag).
34. Maximum likelihood model comparison (ML_II).
35. Minimum cost classification.
36. Multivariate adaptive regression splines.
37. Nearest Neighbors.
38. Nearest Neighbor Editing.
39. Normal density discriminant function (NDDF).
40. Optimal brain surgeon.
41. Parzen windows.
42. Perceptron.
43. Pocket.
44. Probabilistic neural network.
45. Projection pursuit regression.
46. Quickprop (Backpropagation_Quickprop).
47. Recurrent neural network (Backpropagation_Recurrent).
48. Radial basis function network (RBF_Network).
49. Reduced coulomb energy algorithm (RCE).
50. Regularized descriminant analysis (RDA) - Friedman
shrinkage.
51. Single-step relaxation with margin (Relaxation_SSM).
52. Store-Grabbag.
53. Stumps.
54. Support-vector machines (SVM)
55. Variable-increment perceptron with margin
(Perceptron_VIM).
56. Voted perceptron.

Paradigmas de aprendizaje
No supervisado:

Feature map [Kohonen]


Aprendizaje competitivo
Componente principal
Teora de la Resonancia Adaptativa (ART)

Supervisado:
Decidir: criterio de error, propagacin y constraint de output
O sea: Funcin de costo, p. ej. descenso de gradiente, definicin de conducta en
tiempo final (punto fijo para FF)

Adaline
Perceptrn
Redes dinmicas
Backpropagation
MLP

Mixto : Reinforcement learning

Aprendizaje hebbiano
Constituye la base del aprendizaje no supervisado,
conductista
Se cambian pesos multiplicando input, output,
learning rate
Variantes:
Hebb - Se aumentan pesos su hay correlacin positiva
Anti-Hebbiano (Hebb with decay) - Se disminuyen para que olvide
lo que no es reforzado
Hebbiano forzado
Regla de Oja
Encuentra el componente principal del input (eigenfilter)

Regla de Sanger

Aprendizaje de refuerzo
(Reinforcement L.)
Basado en aprendizaje hebbiano
No del todo supervisado
Feedback evaluativo en vez de
instructivo
Se le dice si est mal,
y eventualmente en
qu medida

Backpropagation
Basado en regla delta de Widrow-Hoff
Generalizacin de LMS

Entrena una red neuronal FF de mltiples capas,


no recurrente, funcin de activacin sigmoidal
Se calcula error de output contra valor deseado
Se ajustan pesos mediante error cuadrtico
medio (mean square error)
P.ej: NETTalk (1986)

Alternativas a BackProp
Regla Delta:
DBD (Delta-bar-delta) - Jordan, 1988
Usa un coeficiente variable propio para cada conexin

Momentum
Rumerhart & al - Coeficiente proporcional al ltimo cambio

EDBD = DBD+Momentum
Gradiente conjugadoFletcher-ReevesPolak-Riviere PowellBeale
Mtodo de Newton - Quasi-Newton
Mtodo de Levenberg-Marquard (gen. de Newton)
QuickProp (Fahlman 1988)
Gprop (Genetic learning rule, Castillo 1999)
Rprop (Resilient Prop, Riedmiller 1993)

Aprendizaje competitivo
Red excitadora hacia adelante y redes
inhibidoras laterales
La red hacia adelante implementa regla
de Hebb
La red inhibidora selecciona al ganador
mediante winner-take-all
Una variante se usa en SOFM:
Competencia, cooperacin, adaptacn

Aprendizaje de trayectoria
(aplica a Redes dinmicas)
Fundamental para patrones que varan
en el tiempo
Dos procedimientos:
Backpropagation through time (BPTT)
Algoritmo de tiempo real de aprendizaje
recurrente (RTRL)

Funciones
Propagacin
Funcin lineal de base
Suma de las entradas ponderadas

Funcin radial de base


Hiperesfrico, segundo orden, no lineal

Activacin
Funcin de umbral
La salida es un valor discreto, usualmente binario

Funcin sigmoidal o logstica


Muy usada; continua, no lineal; no puede expresar polaridades (siempre valor
positivo)

Funcin tangencial hiperblica


Alternativa; entre -1 y 1

Funcin gaussiana

Modelos y
usos

Preguntas?

Billyr@microsoft.com.ar
Billyreyno@hotmail.com

You might also like