Professional Documents
Culture Documents
INTRODUCION:
Aunque todava se ignora mucho sobre la forma en que el cerebro aprende a procesar la
informacin, se han desarrollado modelos que tratan de mimetizar tales habilidades;
denominados redes neuronales artificiales modelos de computacin conexionista (otras
denominaciones son computacin neuronal y procesamiento distribuido paralelo o P.D.P.).
La elaboracin de estos modelos supone en primer lugar la deduccin de los rasgos o
caractersticas esenciales de las neuronas y sus conexiones, y en segundo lugar, la
implementacin del modelo en una computadora de forma que se pueda simular. Es obvio
decir que estos modelos son idealizaciones burdas de las autnticas redes neuronales, en
muchos casos de dudosa plausibilidad neurofisiolgica, pero que sin embargo resultan
interesantes cuando menos por sus capacidades de aprendizaje.
De la prehistoria al futuro que tal vez Babbage nunca so. El desarrollo de mquinas que
puedan imitar la capacidad de aprendizaje del hombre es actualmente un desafo en el que
pone sus miras buena parte de la comunidad cientfica. Con esta amplia Introduccin a las
redes neuronales, se pretende dar a conocer los elementos bsicos de lo que comnmente se
denomina Inteligencia Artificial, para as comprender de qu modo pueden llegar a pensar
y aprender las mquinas.
El hombre se ha caracterizado siempre por una bsqueda constante de nuevas vas para
mejorar sus condiciones de vida. Estos esfuerzos le han servido para reducir el trabajo en
aquellas operaciones en las que la fuerza juega un papel primordial. Los progresos obtenidos
han permitido dirigir estos esfuerzos a otros campos, como por ejemplo, a la construccin de
mquinas calculadoras que ayuden a resolver de forma automtica y rpida determinadas
operaciones que resultan tediosas cuando se realizan a mano.
Uno de los primeros en acometer esta empresa fue Charles Babbage, quien trat
infructuosamente de construir una mquina capaz de resolver problemas matemticos.
Posteriormente otros tantos intentaron construir mquinas similares, pero no fue hasta la
Segunda Guerra Mundial, cuando ya se dispona de instrumentos electrnicos, que se
empezaron a recoger los primeros frutos. En 1946 se construy la primera computadora
electrnica, ENIAC. Desde entonces los desarrollos en este campo han tenido un auge
espectacular.
Los desarrollos actuales de los cientficos se dirigen al estudio de las capacidades humanas
como una fuente de nuevas ideas para el diseo de las nuevas mquinas. As, la inteligencia
artificial es un intento por descubrir y describir aspectos de la inteligencia humana que
pueden ser simulados mediante mquinas. Esta disciplina se ha desarrollado fuertemente en
los ltimos aos teniendo aplicacin en algunos campos como visin artificial, demostracin
de teoremas, procesamiento de informacin expresada mediante lenguajes humanos... etc.
Las redes neuronales son otra forma de emular otra de las caractersticas propias de los
humanos: la capacidad de memorizar y asociar hechos. Si examinamos con atencin aquellos
problemas que no pueden expresarse a travs de un algoritmo nos daremos cuenta de que
todos ellos tienen una caracterstica comn: la experiencia. El hombre es capaz de resolver
estas situaciones acudiendo a la experiencia acumulada. As, parece claro que una forma de
aproximarse al problema consista en la construccin de sistemas que sean capaces de
reproducir esta caracterstica humana. En definitiva, las redes neuronales no son ms que un
modelo artificial y simplificado del cerebro humano, que es el ejemplo ms perfecto del que
disponemos de sistema que es capaz de adquirir conocimiento a travs de la experiencia. Una
red neuronal es un nuevo sistema para el tratamiento de la informacin cuya unidad bsica
de procesamiento est inspirada en la clula fundamental del sistema nervioso humano, la
neurona.
Fue en 1943 cuando Warren McCulloch y Walter Pitts propusieron el clsico modelo de
neurona en el que se basan las redes neuronales actuales. Seis aos despus, en 1949, en su
libro The Organization of Behavior, Donald Hebb presentaba su conocida regla de
aprendizaje.
En 1956 se organiz en Dartmouth la primera conferencia sobre IA. Aqu se discuti el uso
potencial de las computadoras para simular todos los aspectos del aprendizaje o cualquier
otra caracterstica de la inteligencia y se present la primera simulacin de una red neuronal,
aunque todava no se saban interpretar los datos resultantes.
En 1957, Frank Rosenblatt present el Perceptron, una red neuronal con aprendizaje
supervisado cuya regla de aprendizaje era una modificacin de la propuesta por Hebb. El
Perceptron trabaja con patrones de entrada binarios, y su funcionamiento, por tratarse de una
red supervisada, se realiza en dos fases: una primera en la que se presentan las entradas y la
salidas deseadas; en esta fase la red aprende la salida que debe dar para cada entrada. La
principal aportacin del Perceptron es que la adaptacin de los pesos se realiza teniendo en
cuenta el error entre la salida que da la red y la salida que se desea. En la fase siguiente, de
operacin, la red es capaz de responder adecuadamente cuando se le vuelven a presentar
los patrones de entrada. Se crearon grandes expectativas sobre sus aplicaciones, que
posteriormente se tornaron en gran decepcin cuando en 1969 Minsky y Papert demostraron
las grandes limitaciones de esta red.
En 1959, Widrow publica una teora sobre la adaptacin neuronal y unos modelos inspirados
en esa teora, el Adaline (Adaptative Linear Neuron) y el Madaline (Multiple Adaline). Estos
modelos fueron usados en numerosas aplicaciones y permitieron usar, por primera vez, una
red neuronal en un problema importante del mundo real: filtros adaptativos para eliminar
ecos en las lneas telefnicas.
Las redes neuronales son una forma de un sistema computarizado multi-proceso con:
Elementos de procesamiento sencillos.
Alto grado de interconexin.
Mensajes simples escalares.
Interaccin adaptable entre elementos.
El concepto de Red Neuronal Artificial est inspirado en las Redes Neuronales Biolgicas.
Una Red Neuronal Biolgica es un dispositivo no lineal altamente paralelo, caracterizado por
su robustez y su tolerancia a fallos. Sus principales caractersticas son las siguientes:
Las Redes Neuronales Artificiales intentan imitar algunas, o todas, de estas caractersticas.
Este paradigma de programacin difiere de las secuencias de instrucciones en que la
informacin se encuentra almacenada en las conexiones sinpticas. Cada neurona es un
procesador elemental con operaciones muy primitivas como la suma ponderada de sus pesos
de entrada y la amplificacin o umbralizacin de esta suma.
Una Red Neuronal viene caracterizada por su topologa, por la intensidad de la conexin
entre sus pares de neuronas (pesos), por las propiedades de los nodos y por las reglas de
actualizacin de pesos. Las reglas de actualizacin, tambin llamadas de aprendizaje,
controlan los pesos y/o estados de los elementos de procesados (neuronas).
Los principales aspectos de este modelo de computacin distribuida son los siguientes:
Desde hace algunos aos, algunos investigadores han estado creando modelos, tanto en
hardware como en software, que interpretan la actividad cerebral en un esfuerzo por producir
una forma de inteligencia artificial.
Las RNA estn compuestas de muchos elementos sencillos que operan en paralelo, el diseo
de la red est determinado mayormente por las conexiones entre sus elementos. Al igual que
las conexiones de las neuronas cerebrales.
Las RNA han sido entrenadas para la realizacin de funciones complejas en variados campos
de aplicacin. Hoy en da pueden ser entrenadas para la solucin de problemas que son
difciles para sistemas computacionales comunes o para el ser humano.
Pesos
Las RNA puede tener factores de peso fijos o adaptables. Las que tienen pesos adaptables
emplean leyes de aprendizaje para ajustar el valor de la fuerza de un interconexin con otras
neuronas. Si las neuronas utilizan pesos fijos, entonces su tarea deber estar previamente
definida. Los pesos sern determinados a partir de una descripcin completa del problema.
Por otra parte, los pesos adaptables son esenciales si no se conoce previamente cual deber
de ser su valor correcto.
No son algortmicas
La gran diferencia del empleo de las redes neuronales en relacin con otras aplicaciones de
la computacin radica en que no son algortmicas, esto es no se programan hacindoles seguir
una secuencia predefinida de instrucciones. Las RNA generan ellas mismas sus propias
"reglas", para asociar la respuesta a su entrada; es decir, aprende por ejemplos y de sus
propios errores.
Las redes neuronales formadas por los perceptrones se interconectan en forma muy similar a
como las neuronas humanas se disponen en la corteza cerebral humana, y lo ms importante,
son capaces de asociar y generalizar sin reglas. Han sido utilizadas con gran xito para
reconocer retornos de sonar bajo el agua, escritura a mano, voz, topografa de terrenos,
controlar brazos de robots, evaluar datos personales, modelar fenmenos cognoscitivos, y,
predecir tendencias financieras.
La clase de problemas que mejor se resuelven con las redes neuronales son los mismos que
el ser humano resuelve mejor: Asociacin, evaluacin, y reconocimiento de patrones. Las
redes neuronales son perfectas para problemas que son muy difciles de calcular pero que no
requieren de respuestas perfectas, slo respuestas rpidas y buenas. Tal y como acontece con
el escenario burstil en el que se quiere saber compro?, vendo?, mantengo?, o en el
reconocimiento cuando se desea saber se parece? es el mismo pero tienen una ligera
modificacin?
Por otra parte, las redes neuronales son muy malas para clculos precisos, procesamiento
serie, y no son capaces de reconocer nada que no tenga inherentemente algn tipo de patrn.
Es por esto, que no pueden predecir la lotera, ya por definicin es un proceso al azar.
Existen varias formas de hacer las conexiones en una RNA, as como existen varias formas
de conectar neuronas biolgicas en el cerebro. Cada tipo sirve para diferentes procesos, el
elegir la correcta topologa y sus caractersticas, es imprescindible para lograr fcilmente la
solucin del problema.
Esta aproximacin a las (RNA) est motivada por la aplicacin, basada en la teora y
orientada hacia la implementacin. Las principales aplicaciones son para el procesado de
seal y el reconocimiento de patrones. La primera etapa algortmica representa una
combinacin de la teora matemtica y la fundamentacin heurstica por los modelos
neuronales. El fin ltimo es la construccin de neurocomputadores digitales, con la ayuda de
las tecnologas VLSI y el procesado adaptativo, digital y paralelo.
Clasificacin de patrones
Aproximacin de funciones
Mapeo
En los que exista informacin imprecisa y con tolerancia a fallos
Aprendizaje Adaptativo.
Autoorganizacin.
Tolerancia a Fallos.
Operacin en tiempo real.
Fcil construccin en circuitos integrados.
El cerebro, como todo el organismo animal, est formado por clulas llamadas neuronas. La
estructura y la comunicacin de las neuronas fueron descritas por el espaol Santiago Ramn
y Cajal, quien encontr una caracterstica fundamental de la comunicacin entre las clulas
nerviosas: casi nunca se tocan, estn separados por pequesimos espacios, cuyo significado
y enorme importancia vendra a conocerse mucho tiempo despus. A pesar de las diferencias
en la forma de las neuronas, su estructura en los sitios en que se comunican unas con otras es
muy similar. La parte de la neurona que se comunica con otra neurona tiene siempre una
estructura tpica, y la regin de la neurona que recibe ese contacto tambin tiene una forma
caracterstica. A esta zona de integracin de la neurona se le llama sinapsis, y su
funcionamiento es esencial para explicar prcticamente todas las acciones del cerebro, desde
la ms sencilla como ordenar a los msculos que se contraigan y se relajen en forma
coordinada para llevar a cabo un simple movimiento, hasta las ms complicadas tareas
intelectuales, pasando tambin por las funciones que originan, controlan y modulan las
emociones.
A travs de esta comunicacin las neuronas forman redes complicadsimas, que por supuesto
estamos lejos de conocer por completo. Sabemos que unos de estos circuitos estn
relacionados con el sueo, otros con el movimiento, y otros ms con las emociones y la
conducta. La identificacin de stos circuitos puede lograrse con distintos mtodos, pero uno
relativamente simple consiste en estimular una neurona o un grupo de neuronas y luego tomar
un registro en las neuronas que sospechamos se comunican con las primeras.
Las neuronas son elctricamente activas e interactan entre ellas mediante un flujo de
corrientes elctricas locales. Estas corrientes se deben a diferencias de potencial entre las
membranas celulares de las neuronas. Un impulso nervioso es un cambio de voltaje que
ocurre en una zona localizada de la membrana celular. El impulso se transmite a travs del
axn hasta llegar a la sinapsis, produciendo la liberacin de una sustancia qumica
denominada neurotransmisor que se esparce por el fluido existente en el espacio sinptico.
Cuando este fluido alcanza el otro extremo transmite la seal a la dendrita. Los impulsos
recibidos desde la sinapsis se suman o restan a la magnitud de las variaciones del potencial
de la membrana. Si las contribuciones totales alcanzan un valor determinado (alrededor de
10 milivoltios) se disparan uno o ms impulsos que se propagarn a lo largo del axn.
Aunque todava no est del todo claro, parece que este impulso se inicia en la conexin entre
el axn y la membrana. Su amplitud y velocidad dependen del dimetro del axn y su
frecuencia del nmero de disparos que se efecten.
Las redes neuronales artificiales basan su funcionamiento en las redes neuronales reales,
estando formadas por un conjunto de unidades de procesamiento conectadas entre s. Por
analoga con el cerebro humano se denomina neurona a cada una de estas unidades de
procesamiento. Cada neurona recibe muchas seales de entrada y enva una nica seal de
salida (como ocurre en las neuronas reales).
Una neurona tpica recoge seales procedentes de otras neuronas a travs de una plyade de
delicadas estructuras llamadas dendritas. La neurona emite impulsos de actividad elctrica a
lo largo de una fibra larga y delgada denominada axn, que se escinde en millares de
ramificaciones.
Figura 1.2: Neurona y conexiones sinpticas
Las extremidades de estas ramificaciones llegan hasta las dendritas de otras neuronas y
establecen unas conexiones llamadas sinpsis, en las cuales se produce una transformacin
del impulso elctrico en un mensaje neuroqumico, mediante la liberacin de unas sustancias
llamadas neurotransmisores.
Los elementos individuales de clculo que forman los modelos de sistemas neuronales
artificiales reciben el nombre de Elementos de Procesado o Neuronas Artificiales. Cada
unidad realiza un trabajo muy simple: recibe impulsos de otras unidades o de estmulos
externos y calcula una seal de salida que propaga a otras unidades y, adems, realiza un
ajuste de sus pesos. Este tipo de modelos es inherentemente paralelo en el sentido de que
varias unidades pueden realizar sus clculos al mismo tiempo. El elemento de procesado ms
simple suele tener el siguiente esquema:
En la mayor parte de los casos se asume que cada unidad recibe contribuciones aditivas de
las unidades que estn conectadas a ellas. La entrada total de la unidad k es la suma ponderada
de las entradas que recibe ms el trmino de offset
Este tipo de expresiones que calculan la entrada total se denominan reglas de propagacin y,
en general, pueden tener diferentes expresiones.
Las redes neuronales estn formadas por un conjunto de neuronas artificiales interconectadas.
Las neuronas de la red se encuentran distribuidas en diferentes capas de neuronas, de manera
que las neuronas de una capa estn conectadas con las neuronas de la capa siguiente, a las
que pueden enviar informacin.
Figura 1.6. Esquema de una red neuronal antes del entrenamiento. Los crculos representan neuronas,
mientras las flechas representan conexiones entre las neuronas
El nmero de capas intermedias y el nmero de neuronas de cada capa depender del tipo de
aplicacin al que se vaya a destinar la red neuronal.
PERCEPTRON
BACKPROPAGATION
En esta red, se interconectan varias unidades de procesamiento en capas, las neuronas de cada
capa no se interconectan entre s. Sin embargo, cada neurona de una capa proporciona una
entrada a cada una de las neuronas de la siguiente capa, esto es, cada neurona transmitir su
seal de salida a cada neurona de la capa siguiente. La figura muestra un ejemplo esquemtico
de la arquitectura de este tipo de redes neuronales.
KOHONEN
Existen evidencias que demuestran que en el cerebro existen neuronas que se organizan en
muchas zonas, de forma que las informaciones captadas del entorno a travs de los rganos
sensoriales se representan internamente en forma de capas bidimensionales. Por ejemplo, en
el sistema visual se han detectado mapas del espacio visual en zonas de crtex (capa externa
del cerebro). Tambin en el sistema auditivo se detecta organizacin segn la frecuencia a la
que cada neurona alcanza la mayor respuesta (organizacin tono tpica).
Aunque en gran medida esta organizacin neuronal est predeterminada genticamente, es
probable que de ella se origine mediante el aprendizaje. Esto sugiere, por tanto, que el cerebro
podra poseer la capacidad inherente de formar mapas topolgicos de las informaciones
recibidas del exterior. De hecho, esta teora podra explicar su poder de operar con elementos
semnticos: algunas reas del cerebro simplemente podran crear y ordenar neuronas
especializadas o grupos con caractersticas de alto nivel y sus combinaciones. Se tratara, en
definitiva, de construir mapas espaciales para atributos y caractersticas.
Los elementos de procesado de una red neuronal se distribuyen por capas (conjunto de
elementos de procesado que se encuentran en el mismo nivel en la estructura). Existen tres
tipos de capas:
El nmero de elementos de procesado puede variar en unas capas respecto a otras. Las
funciones (tanto de activacin como de salida) de los elementos de procesado pueden ser
diferentes. No existe limitacin en el nmero de capas ocultas. En general, cuanto mayor sea
la diferencia entre los elementos de entrada y los de salida, ser necesario dotar a la estructura
de ms capas ocultas. Estas capas ocultas crean una representacin interna de los patrones de
entrada. La habilidad de la red para procesar informacin crece en proporcin directa al
nmero de capas ocultas.
Segn el nmero de interconexiones entre capas las redes se clasifican en: totalmente
conectadas y localmente conectadas. En las redes totalmente conectadas la salida de un
elemento de procesado de la capa i es entrada a todos los elementos de procesado de la capa
i+1. Por contra, en las redes localmente conectadas, la salida de un elemento de procesado
de la capa i es entrada a una regin de elementos de procesado de la capa i+1.
Conexiones hacia delante(Feed Forward): para todos los modelos neuronales, los datos de
las neuronas de una capa inferior son propagados hacia las neuronas de la capa superior por
medio de las redes de conexiones hacia adelante.
Conexiones hacia atrs(Feed Bade): estas conexiones llevan los datos de las neuronas de una
capa superior a otras de la capa inferior.
Conexiones laterales. Un ejemplo tpico de este tipo es el circuito el ganador toma todo,
que cumple un papel importante en la eleccin del ganador.
Conexiones con retardo: los elementos de retardo se incorporan en las conexiones para
implementar modelos dinmicos y temporales, es decir, modelos que precisan de memoria.
Tambin es posible que las redes sean de una capa con el modelo de pesos hacia atrs o bien
el modelo multicapa hacia adelante. Es posible as mismo, el conectar varias redes de una
sola capa para dar lugar a redes ms grandes.
Supervisado
Regla delta
Para una red con una nica capa con un nico elemento de procesado en la salida con una
funcin de activacin lineal, la salida viene dada por
Una red simple con una nica capa es capaz de representar relaciones lineales entre el valor
del elemento de procesado de la salida y el valor de los elementos de procesado de la entrada.
umbralizando el valor de la salida se puede construir un clasificador. Pero tambin se pueden
realizar otras tareas como aproximacin de funciones. En espacios de entrada
multidimensionales la red representa un hiperplano de decisin y es trivial asumir que se
pueden definir varias unidades de salida.
Supongamos que vamos a entrenar una red para localizar el hiperplano de decisin ms
idneo para un conjunto de muestras de entrada consistente en valores de entrada y valores
de salida deseada . Para cada muestra dada del conjunto de entrada, la salida real de la red
difiere de la salida deseada en , donde es la salida real para el patrn de entrada
. La regla delta una funcin de error (o funcin de coste) basada en dicha diferencia para
realizar el ajuste de los pesos.
La funcin de error, dada por el mtodo del menor error cuadrtico medio, es la suma de los
cuadrados de los errores individuales de cada patrn. Es decir, el error total E viene dado por
con lo cual
La regla delta modifica los pesos como funcin de las salidas deseada y real para unidades
de entrada y salida binarias o continuas. Estas caractersticas abrieron un nuevo campo de
posibilidades para las redes neuronales.
La regla delta generalizada, ampla la regla delta al caso de usar unidades de procesamiento
con funciones de activacin no lineal. La activacin es una funcin diferenciable de la entrada
total dada por
donde
Para realizar la generalizacin de la regla delta debemos considerar
La medida de error viene definida como el error cuadrtico total para el patrn p en las
unidades de salida
Considerando E como la suma de los errores cuadrticos podemos ver que la variacin del
error respecto a los pesos viene dada por
se puede obtener una regla de actualizacin de pesos equivalente a la regla delta, resultando
un descenso en el valor del gradiente sobre la superficie de error si se realizan los cambios
de los pesos de acuerdo a la expresin
Ahora bien, el segundo factor no es otro que la derivada de la funcin de activacin F. Para
calcular el primer factor vamos a considerar dos casos: que la unidad k es una unidad de
salida de la red y que la unidad k es una unidad de una capa oculta.
En el primer caso, a partir de la definicin del error para el patrn p, podemos obtener que
que es el mismo resultado que en la regla delta bsica. Por tanto, para las unidades de la capa
de salida
en el segundo caso, no se conoce como contribuye la unidad al error de salida de la red, pero
la medida de error se puede escribir como funcin de los pesos de las unidades de la capa
oculta a la capa de salida
con lo cual
Extendiendo este clculo de forma recursiva se pueden calcular los cambios en los pesos de
todas las unidades de la red. Este procedimiento se denomina regle delta generalizada para
redes feedforward con unidades no lineales.
No supervisado
Aprendizaje competitivo
Asumamos que los patrones de entrada y los pesos estn normalizados a la unidad. Cada
unidad de salida o calcula su valor de activacin a partir del producto del vector del patrn
de entrada por el vector de pesos
Una vez que se ha seleccionado el elemento de procesado k ganador, se adaptan sus pesos
(slo del elemento ganador) de acuerdo a la expresin
Seleccin de la unidad ganadora mediante distancia:
Reforzamiento