Professional Documents
Culture Documents
ABSTRACT: In approximation theory, conditionally significacin biolgica, pero que resultaron idneos para
positive definite radial functions, or radial basis functions resolver problemas de procesamiento de Informacin.
(RBF), are used to solve problems of interpolation of sparse
data in Euclidean space. Among the many byproducts of RBF En la Ultima dcada se ha realizado un gran esfuerzo de
interpolation, the RBF neural networks are particularly investigacin en la aplicacin de redes neuronales para el
interesting, as their study has evolved into an independent control de sistemas lineales. Una de las principales ventajas de
subject in the fields of computer science and artificial las redes neuronales y su utilizacin en los varios campos
intelligence, with many applications in areas so diverse as como el control de sistemas, en la bsqueda de la calidad de
finance, medicine, biology, geology, engineering or physics. un fruto, etc. Es que se trata de identificadores universales, por
The purpose of this report is to study, by means of functional- lo que no es necesario obtener un modelo de la planta a
analytic techniques, the properties of interpolation and controlar, y se pueden a adaptar a diferentes condiciones de
approximation by RBF neural networks in spaces of trabajo. (Sanner y Slotine, 1992; Behera et al. 1996; Fabri y
continuous and of integrable functions, illustrating the theory Kardirkamanathan,1996). Las redes neuronales ms
with some numerical experiments and practical applications. frecuentemente utilizadas en control han sido perceptrn
multicapa, y las redes de base radial. Estas ltimas estn
KEYWORDS: RBF neural network - Radial Basis formadas por funciones bases, en donde cada una de ellas
Function Exact interpolation - Universal approximation - solamente responde a las entradas que estn cercanas a ciertos
Classification problems. parmetros de dichas funciones.
RESUMEN: En teora de la aproximacin, las funciones La funcin de base radial es una funcin que calcula la
radiales condicionalmente definidas positivas, o funciones distancia eucldea de un vector de entrada x respecto de un
base radiales (RBF, por sus siglas en ingls), se usan para centro c, de tal manera que resulta la siguiente funcin:
resolver problemas de interpolacin en datos dispersos del
espacio eucldeo. Entre los muchos subproductos de la
interpolacin RBF resultan particularmente interesantes las
A cada neurona de la capa de entrada le corresponde una
redes neuronales RBF, cuyo estudio ha evolucionado hasta
funcin de base radial (x) y un peso de salida wi. El patrn
constituir una disciplina de inters independiente en el campo
de salida ingresa a una neurona de salida que suma las
de las ciencias de la computacin y la inteligencia artificial, entradas y da como resultado una salida. La funcin de una
con numerosas aplicaciones en reas tan diversas como red RBF final resulta:
finanzas, medicina, biologa, geologa, ingeniera o fsica. El
presente trabajo tiene por objeto estudiar, mediante tcnicas de
anlisis funcional, las propiedades de interpolacin y
aproximacin por redes neuronales RBF en espacios de
funciones continuas e integrables, ilustrando el corpus terico
con experimentos numricos y alguna aplicacin practica
Palabras Claves: Red neuronal RBF - Funcin base radial En este articulo veremos la arquitectura tpica de una red
Interpolacin exacta - Aproximacin universal Problemas de de tipo RBF, caractersticas, aprendizaje, entrenamiento de la
clasificacin. red, teora de la regularizacin, para llegar a entender su
implementacin y en qu caso se pueda utilizar.
I.INTRODUCCIN
Una red neuronal artificial es un sistema procesador de
informacin cuyo funcionamiento se inspira en el de las redes
neuronales biolgicas. Originariamente, aquellas pretendan II. REDES NEURONALES RBF
modelizar el funcionamiento de stas. Con el transcurso del Las redes de base radial son un tipo de redes de neuronas
tiempo fueron surgiendo modelos artificiales carentes de artificiales que calculan la salida de la funcin en funcin de la
distancia a un punto denominado centro. Al igual que con los la red tiene p capa oculta y r neuronas en la capa de
perceptrones multicapa, sirven como aproximadores salida, las activaciones de las neuronas de salida para el patrn
universales. de entrada n:
X(n) = (x1(n), x2(n), , xp(n),),
CARACTERISITICAS PRINCIPALES son denotadas como yk(n), vienen dadas por la siguiente
ecuacin:
Las redes de base radial tienen sus orgenes a finales de los
aos 80.
Son redes de tipo multicapa que tienen conexiones hacia donde: Wi es el peso de la conexin de la neurona oculta i a
delante y que solo tienen una capa oculta. Mientras que las la neurona de salida k; uk es el umbral de la neurona de salida
neuronas ocultas poseen carcter local, las neuronas de salida k; y i(n) son las activaciones de las neuronas ocultas para el
realizan una combinacin lineal de las activaciones de las patrn de entrada X(n).
neuronas ocultas. Las funciones de base radial i(n)determinan las activaciones
de las neuronas de las neuronas ocultas de la red en funcin de
Este tipo de redes construyen aproximaciones que son un vector de entrada a la red X(n) y vienen dadas por
combinaciones lineales de mltiples funciones locales no expresiones que dependen de los centros de la funcin de base
lineales. radial, la desviacin o amplitud de la funcin de base radial y
Entre sus aplicaciones se encuentran anlisis de series la distancia del vector de entrada X(n) al centro Ci.
temporales, procesamiento de imgenes, reconocimiento
automtico del habla, diagnsticos mdicos, etc. Las entradas x1, x2, x m conforman un vector de entrada x,
y son aplicadas a todas las neuronas en una capa oculta. Segn
la topologa de la red que se muestra en la siguiente figura:
ARQUITECTURA Cada neurona de la capa oculta calcula la siguiente funcin
exponencial (radial):
Cada red de base radial tiene 3 capas diferentes en total:
hi = expo [-Di /)]
Capa de entrada: Transmiten las seales de entrada a las Donde:
neuronas ocultas sin realizar procesamiento, es decir, las X = un vector de entrada
conexiones de la capa de entrada a la capa oculta no llevan w1, i y w2, j = vector peso de la neurona i de la capa
pesos asociados. oculta y j de la capa de salida
Capa oculta: Realizan una transformacin local y no lineal de b1, i y b2, j = umbrales de la neurona i de la capa
dichas seales. oculta y j de la capa de salida
ui = centros de las neuronas ocultas
Capa de salida: Realiza una combinacin lineal de las Di = (x - ui) T (x - ui) = Distancia Euclidea
activaciones de las neuronas ocultas. x y u = vectores columna
T = indica la transpuesta del vector
Se encontr que las redes de neuronas de base radial son las
que mejor se adecuan a nuestro objetivo, debido a que son Los pesos de cada neurona de capa oculta son asignados desde
redes multicapa con conexiones hacia delante, que se los valores de un vector de entrenamiento de entrada.
caracterizan porque estn formadas por una nica capa oculta La neurona de salida produce la suma de pesos lineal de estos:
y cada neurona de esta capa posee un carcter local, en el
sentido de que cada neurona oculta de la red se activa en una y = hi wi + bij
regin diferente del espacio de patrones de entrada. Este
carcter local viene dado por el uso de las llamadas funciones donde wi, j = peso en la capa de salida.
de base radial, generalmente la funcin gausiana, como
funciones de activacin. Las neuronas de la capa de salida de
las redes de base radial simplemente realizan una combinacin
lineal de las activaciones de las neuronas ocultas. La capa de
entrada la componen un conjunto de neuronas que reciben las
seales del exterior, transmitindolas a la siguiente capa sin
realizar ningn procesado sobre dichas seales. Las neuronas
de la capa oculta reciben las seales de la capa de entrada y
realizan una transformacin local y no lineal sobre dichas
seales. Activacin de las neuronas de la red de base radial. Si
Mtodo hbrido
En la fase no supervisada, los centros y las desviaciones de las
funciones de base radial deben ser determinados con el - Algoritmo de K-medias
objetivo de agrupar el espacio de entrada en diferentes clases.
El representante de cada clase ser el centro de la funcin de
base radial y la desviacin vendr dada por la amplitud de Dado el nmero de clases K
cada clase. En la fase supervisada, se determinan de forma
supervisada los pesos y umbrales de la capa de salida. 1. Se inicializan aleatoriamente los centros de los K
clusters (Unidad de capa oculta)
A la hora de determinar los centros, se utilizar un algoritmo
de clasificacin no supervisado que permita dividir el espacio 2. Se asignan Ni patrones de entrada a cada clster i del
de entrada en clases o clusters. El nmero de clusters ser el siguiente modo:
nmero de neuronas ocultas en la red de base radial. El
algoritmo ms utilizado es el algoritmo de K-medias.1 El patrn X(n) pertenece al clster i si:
Mientras, a la hora de determinar las desviaciones, se deben
calcular las amplitudes de manera que cada neurona oculta se
active en la regin del espacio de entrada y de manera que el
solapamiento de las zonas de activacin de una neurona a otra
sea lo ms ligera posible, para suavizar as la interpolacin. Con lo cual cada unidad tendr asociado un determinado
Una opcin bastante efectiva es determinar la amplitud de la nmero de patrones de entrada, aquellos ms cercanos a su
funcin de base radial como la media geomtrica de la centro.
distancia del centro a sus dos vecinos ms cercanos.
3. Se calcula la nueva posicin de los centros como la
En la fase supervisada, se calculan los pesos y umbrales de las media de todos los patrones que pertenecen al clster:
neuronas de salida de la red. El objetivo es minimizar las
diferencias entre las salidas de la red y las salidas deseadas. El
proceso de aprendizaje est guiado por la minimizacin de una
funcin error computada en la salida de la red. Como la salida
de la red depende linealmente de los pesos, puede utilizarse un
mtodo directo, como es el mtodo de la pseudoinversa, o bien
el mtodo de mnimos cuadrados.
4. Se repiten 2 y 3 hasta que las nuevas posiciones de los
Los centros se determinan usando la siguiente frmula:
centros no se modifiquen respecto de la anterior:
Las redes neuronales de funciones base radiales comparecen En ella se observa una variable y que es una funcin no lineal
en multitud de aplicaciones, adems de la ya mencionada de de la variable de entrada x1. Nos gustara poder aproximar
interpolacin exacta. Todos estos puntos de vista sugieren que dicha funcin usando una red RBF.
los parmetros de las funciones base deben conformar una Seleccionamos las funciones base de forma que cubran la
representacin de la densidad de probabilidad de los datos de regin del eje x1 donde hay datos presentes. Supongamos
entrada. Ello conduce a un procedimiento ahora que se introduce otra variable x2 que no est
de entrenamiento no supervisado para la optimizacin de los correlacionada con x1. Entonces el nmero de funciones base
parmetros necesarias
de las funciones base que solo depender de los datos de para cubrir la regin requerida del espacio de entrada crece
entrada, ignorando la informacin objetivo. drsticamente, como se muestra en la figura 4. Sin embargo, si
Los centros uj de las funciones base pueden ser considerados la variable y no depende de x2, estas funciones base
como prototipos de los vectores de entrada. Algunas de las adicionales carecen de utilidad para ajustar el valor de y.
estrategias que se discutirn en la presente seccin estn
motivadas por estas consideraciones.
Existen muchas aplicaciones posibles de las redes neuronales
donde abundan los datos de entrada sin etiquetar, mientras que
los datos etiquetados escasean.
Por ejemplo, puede resultar sencillo reunir ejemplos de datos
de entrada para la red sin procesar, pero el etiquetarlos con
variables objetivo seguramente requiera de un experto
humano, lo que limita severamente la cantidad de datos que
pueden ser etiquetados en un tiempo razonable. El proceso de
entrenamiento en dos etapas de las redes neuronales RBF es
particularmente ventajoso para este tipo de aplicaciones, por
cuanto la determinacin de la representacin no lineal dada Figura 3. funcin y(x1) modelizada mediante una red de
por la segunda capa de la red se puede efectuar mediante el funciones base radiales.
uso de
una cantidad grande de datos no etiquetados, dejando un Por tanto, existen razones de cierto calado que aconsejan el
nmero relativamente reducido de los parmetros conducentes uso de mtodos no supervisados para determinar los
a la tercera capa por estimar usando los datos etiquetados. En parmetros de la segunda capa de una red RBF mediante la
cada una de las dos etapas podemos asegurar que la modelizacin de la densidad de los datos de entrada. Este
cantidad de parmetros a estimar es muy inferior a la cantidad mtodo tambin ha probado su eficacia en la prctica. Sin
de datos, como ser deseable para obtener una generalizacin embargo, es necesario advertir que una eleccin _optima de
adecuada. los parmetros de las funciones base para estimar la densidad
no siempre conduce a un ajuste ptimo de la curva. Tal
Una de las principales dificultades potenciales con las redes situacin se ilustra en la figura 4.
neuronales RBF emana del carcter local de la representacin
de las unidades ocultas. Si el
subespacio de datos tiene dimensin intrnseca d y los centros
de las funciones base llenan este subespacio, entonces el
nmero de centros crece exponencialmente con d. Adems de
incrementar el tiempo de computo, un nmero elevado de
funciones base requiere un nmero elevado de patrones de
entrenamiento para garantizar que los parmetros de la red son
determinados correctamente.
El problema se vuelve particularmente severo si se consideran
variables de entrada que presentan una variacin significativa,
pero tienen poca importancia Figura 4. funcin de la figura 3 tras la introduccin de la
a la hora de determinar las variables de salida adecuadas. Estas variable irrelevante x2. El nmero de funciones base cuyas
entradas irrelevantes localizaciones estn determinadas nicamente por los datos
son frecuentes en las aplicaciones. Cuando los centros se de entrada crece drsticamente, a pesar de que x2 no aporta
eligen solamente a partir de los datos de entrada, no hay forma informacin relevante para hallar la variable de salida.
de distinguir las entradas relevantes de las que no lo son.
Ilustramos esta idea con la grfica de la _figura 3.
Algoritmos de clustering
Aunque por razones de espacio no las desarrollaremos aqu,
cabe citar que la simple seleccin de un subconjunto de datos
como centros de las funciones base se puede mejorar usando
tcnicas de clustering para encontrar un conjunto
de centros que refleje con mayor exactitud la distribucin de
todos los datos. Entre estas tcnicas se encuentra el algoritmo
clustering de K-medias.
A continuacin, se muestran algunas tcnicas para elegir Un enfoque de este tipo ser muy costoso
apropiadamente los centros uj. computacionalmente, pues obligara a calcular en cada paso
una solucin pseudoinversa completa para cada posible
Subconjuntos de datos eleccin de funciones base. Un procedimiento mucho ms
Un procedimiento sencillo para seleccionar los centros uj de eficiente para conseguir el mismo resultado es el de mnimos
las funciones base consiste en elegirlos aleatoriamente de cuadrados ortogonales propuesto por Chen et al. En resumen,
entre los datos de entrada. Claramente, este proceso no es el algoritmo involucra la adicin secuencial de nuevas
ptimo por cuanto puede requerir un elevado nmero de funciones base, cada una centrada en uno de los datos, tal
funciones base para alcanzar un funcionamiento adecuado, como se acaba de exponer. Esto se consigue construyendo un
pero suele usarse como paso previo a otras tcnicas conjunto de vectores ortogonales en el espacio S generados
adaptativas iterativas. por los vectores de las unidades de activacin de la capa oculta
Un segundo procedimiento consiste en tomar el conjunto para cada patrn del conjunto de datos. As, ser posible
completo de datos como centros de las funciones base y calcular de forma directa qu punto debe ser elegido como
removerlos selectivamente de manera que se produzca la centro de la siguiente funcin base a _n de minimizar el error
mnima distorsin en el funcionamiento del sistema. cuadrtico medio residual. Los valores de los pesos de la
Estos procedimientos solo estn orientados a la seleccin de tercera capa se determinan simultneamente. Si se deja actuar
los centros; los parmetros de amplitud j deben ser elegidos el algoritmo
por otros mtodos. Un enfoque durante el tiempo necesario se seleccionarn todos los puntos
heurstico consistir en tomar todos los j iguales entre s y a y el error residual acabar siendo nulo, por lo que debe ser
algn mltiplo de la distancia promedio entre los centros de interrumpido antes de que esto suceda.
las funciones base. De esta forma se podr garantizar que las
funciones base se superponen hasta un cierto grado y obtener
rpidamente una representacin bastante suave de la
distribucin de los datos de entrenamiento, si bien es cierto
que tal representacin probablemente diste mucho de ser
ptima.
V. EJEMPLO DE APRENDIZAJE PARA UN exactamente el valor 1 ni el valor 0 pero con esos valores nos
PROBLEMA DE CLASIFICACION POR MEDIO DE bastara).
UNA RED. Para entrenar la capa oculta elegiremos el algoritmo de las k-
Como ejemplo de entrenamiento vamos a escoger un medias. El desarrollo de dicho algoritmo es el siguiente:
problema de clasificacin sencillo y utilizaremos una red de
tipo RBF. El problema en cuestin se plantea como sigue:
Imaginemos que tenemos puntos en el plano. Los puntos se Iteracin: 1
distribuyen en ciertas regiones, donde la densidad de puntos es -----------------------------------------
mayor. Queremos que la red neuronal sirva como un Muestra 0
clasificador de esas regiones de manera que si preguntamos dc0 = 0, dc1 = 0.509902, dc2 = 0.316228,
por nuevos puntos nos diga si est en alguna de esas tres Muestra 1
regiones. dc0 = 0.509902, dc1 = 0, dc2 = 0.632456,
Como tendremos tres regiones, escogeremos tres neuronas Muestra 2
para la capa oculta. En realidad, podamos haber escogido dc0 = 0.316228, dc1 = 0.632456, dc2 = 0,
ms, pero con tres sirve para ilustrar el ejemplo. La capa de Muestra 3
salida tendr tambin 3 neuronas y estar acotada entre 0 y 1. dc0 = 0.5, dc1 = 0.360555, dc2 = 0.412311,
Si la salida i-esima toma un valor cercano a 1 y el resto de las Muestra 4
salidas toman valores cercanos a 0 eso nos dir que la muestra dc0 = 9.46414, dc1 = 9.01388, dc2 =
de entrenamiento pertenece a la zona i-esima. Adems, la 9.36002,
funcin de activacin de las neuronas de la capa de salida ser Muestra 5
una sigmoide, que nos acota la salida entre 0 y 1. dc0 = 9.28493, dc1 = 8.8459, dc2 =
Nuestro conjunto de muestras de entrenamiento ser el 9.16788,
siguiente: Muestra 6
dc0 = 9.70824, dc1 = 9.26984, dc2 =
0.8 0.8 9.5901,
Muestra 7
0.9 0.1 0.1
dc0 = 9.47523, dc1 = 9.05539, dc2 =
0.9 1.3
9.33809,
0.9 0.1 0.1 Muestra 8
1.1 0.7 dc0 = 13.3821, dc1 = 13.2098, dc2 =
0.9 0.1 0.1 13.1034,
1.2 1.1 Muestra 9
0.9 0.1 0.1 dc0 = 14.3837, dc1 = 14.1792, dc2 =
6.7 8.2 14.1156,
0.1 0.9 0.1 Muestra 10
6.9 8.1 dc0 = 14.8933, dc1 = 14.6891, dc2 =
0.1 0.9 0.1 14.625,
7.2 8.1 Muestra 11
0.1 0.9 0.1 dc0 = 15.3584, dc1 = 15.1954, dc2 =
7.5 7.5 15.0765,
0.1 0.1 0.9 Dominios: 0 1 2 1 1 1 1 1 2 2 2
14.0 3.0 2
0.1 0.1 0.9
14.8 4.1
Centro 1: 0.8 0.8
0.1 0.1 0.9 Centro 2: 5.06667 5.66667
15.3 4.2 Centro 3: 12.24 3
0.1 0.1 0.9
16.0 3.0 ----------------------------------------
0.1 0.1 0.9 Iteracin: 2
----------------------------------------
Las filas corresponden a la entrada (un punto en el plano se Muestra 0
representa con dos coordenadas reales) y su correspondiente dc0 = 0, dc1 = 6.47216, dc2 = 11.6496,
salida deseada (tres nmeros entre 0 y 1. No usaremos Muestra 1
http://www.gc.ssr.upm.es/inves/neural/ann2/anntutorial.html
http://rfhs8012.-regensburg.de/~saj39122/jfroehl/diplom/e-
sample.html
http://www.infor.uva.es/biometria/Documentos/informes_uva/
EstadoArte/EstadoArte/EstadoArte.html