Formato Articulos IEEE

Laboratorio de Sistemas de la Universidad Seor de Sipn Sistemas Inteligentes - Redes Neuronales 1
RBS 23 de octubre de 2017
Redes Neuronales de Funciones Bases Radiales

Danny Otero Arrascue, Augusto Cantos Morantes y Milagros Chinguel Rodrguez.
Universidad Seor de Sipn Ingeniera de Sistemas
oarrascuedannyf@crece.uss.edu.pe, cantosmo@crece.uss.edu.pe,
crodriguezmilag@crece.uss.edu.pe
ABSTRACT: In approximation theory, conditionally significacin biolgica, pero que resultaron idneos para
positive definite radial functions, or radial basis functions resolver problemas de procesamiento de Informacin.
(RBF), are used to solve problems of interpolation of sparse
data in Euclidean space. Among the many byproducts of RBF En la Ultima dcada se ha realizado un gran esfuerzo de
interpolation, the RBF neural networks are particularly investigacin en la aplicacin de redes neuronales para el
interesting, as their study has evolved into an independent control de sistemas lineales. Una de las principales ventajas de
subject in the fields of computer science and artificial las redes neuronales y su utilizacin en los varios campos
intelligence, with many applications in areas so diverse as como el control de sistemas, en la bsqueda de la calidad de
finance, medicine, biology, geology, engineering or physics. un fruto, etc. Es que se trata de identificadores universales, por
The purpose of this report is to study, by means of functional- lo que no es necesario obtener un modelo de la planta a
analytic techniques, the properties of interpolation and controlar, y se pueden a adaptar a diferentes condiciones de
approximation by RBF neural networks in spaces of trabajo. (Sanner y Slotine, 1992; Behera et al. 1996; Fabri y
continuous and of integrable functions, illustrating the theory Kardirkamanathan,1996). Las redes neuronales ms
with some numerical experiments and practical applications. frecuentemente utilizadas en control han sido perceptrn
multicapa, y las redes de base radial. Estas ltimas estn
KEYWORDS: RBF neural network - Radial Basis formadas por funciones bases, en donde cada una de ellas
Function Exact interpolation - Universal approximation - solamente responde a las entradas que estn cercanas a ciertos
Classification problems. parmetros de dichas funciones.
RESUMEN: En teora de la aproximacin, las funciones La funcin de base radial es una funcin que calcula la
radiales condicionalmente definidas positivas, o funciones distancia eucldea de un vector de entrada x respecto de un
base radiales (RBF, por sus siglas en ingls), se usan para centro c, de tal manera que resulta la siguiente funcin:
resolver problemas de interpolacin en datos dispersos del
espacio eucldeo. Entre los muchos subproductos de la
interpolacin RBF resultan particularmente interesantes las
A cada neurona de la capa de entrada le corresponde una
redes neuronales RBF, cuyo estudio ha evolucionado hasta
funcin de base radial (x) y un peso de salida wi. El patrn
constituir una disciplina de inters independiente en el campo
de salida ingresa a una neurona de salida que suma las
de las ciencias de la computacin y la inteligencia artificial, entradas y da como resultado una salida. La funcin de una
con numerosas aplicaciones en reas tan diversas como red RBF final resulta:
finanzas, medicina, biologa, geologa, ingeniera o fsica. El
presente trabajo tiene por objeto estudiar, mediante tcnicas de
anlisis funcional, las propiedades de interpolacin y
aproximacin por redes neuronales RBF en espacios de
funciones continuas e integrables, ilustrando el corpus terico
con experimentos numricos y alguna aplicacin practica
Palabras Claves: Red neuronal RBF - Funcin base radial En este articulo veremos la arquitectura tpica de una red
Interpolacin exacta - Aproximacin universal Problemas de de tipo RBF, caractersticas, aprendizaje, entrenamiento de la
clasificacin. red, teora de la regularizacin, para llegar a entender su
implementacin y en qu caso se pueda utilizar.
I.INTRODUCCIN
Una red neuronal artificial es un sistema procesador de
informacin cuyo funcionamiento se inspira en el de las redes
neuronales biolgicas. Originariamente, aquellas pretendan II. REDES NEURONALES RBF
modelizar el funcionamiento de stas. Con el transcurso del Las redes de base radial son un tipo de redes de neuronas
tiempo fueron surgiendo modelos artificiales carentes de artificiales que calculan la salida de la funcin en funcin de la
Redes Neuronales de Funciones de Base Radial

distancia a un punto denominado centro. Al igual que con los la red tiene p capa oculta y r neuronas en la capa de
perceptrones multicapa, sirven como aproximadores salida, las activaciones de las neuronas de salida para el patrn
universales. de entrada n:
X(n) = (x1(n), x2(n), , xp(n),),
CARACTERISITICAS PRINCIPALES son denotadas como yk(n), vienen dadas por la siguiente
ecuacin:
Las redes de base radial tienen sus orgenes a finales de los
aos 80.
Son redes de tipo multicapa que tienen conexiones hacia donde: Wi es el peso de la conexin de la neurona oculta i a
delante y que solo tienen una capa oculta. Mientras que las la neurona de salida k; uk es el umbral de la neurona de salida
neuronas ocultas poseen carcter local, las neuronas de salida k; y i(n) son las activaciones de las neuronas ocultas para el
realizan una combinacin lineal de las activaciones de las patrn de entrada X(n).
neuronas ocultas. Las funciones de base radial i(n)determinan las activaciones
de las neuronas de las neuronas ocultas de la red en funcin de
Este tipo de redes construyen aproximaciones que son un vector de entrada a la red X(n) y vienen dadas por
combinaciones lineales de mltiples funciones locales no expresiones que dependen de los centros de la funcin de base
lineales. radial, la desviacin o amplitud de la funcin de base radial y
Entre sus aplicaciones se encuentran anlisis de series la distancia del vector de entrada X(n) al centro Ci.
temporales, procesamiento de imgenes, reconocimiento
automtico del habla, diagnsticos mdicos, etc. Las entradas x1, x2, x m conforman un vector de entrada x,
y son aplicadas a todas las neuronas en una capa oculta. Segn
la topologa de la red que se muestra en la siguiente figura:
ARQUITECTURA Cada neurona de la capa oculta calcula la siguiente funcin
exponencial (radial):
Cada red de base radial tiene 3 capas diferentes en total:
hi = expo [-Di /)]
Capa de entrada: Transmiten las seales de entrada a las Donde:
neuronas ocultas sin realizar procesamiento, es decir, las X = un vector de entrada
conexiones de la capa de entrada a la capa oculta no llevan w1, i y w2, j = vector peso de la neurona i de la capa
pesos asociados. oculta y j de la capa de salida
Capa oculta: Realizan una transformacin local y no lineal de b1, i y b2, j = umbrales de la neurona i de la capa
dichas seales. oculta y j de la capa de salida
ui = centros de las neuronas ocultas
Capa de salida: Realiza una combinacin lineal de las Di = (x - ui) T (x - ui) = Distancia Euclidea
activaciones de las neuronas ocultas. x y u = vectores columna
T = indica la transpuesta del vector
Se encontr que las redes de neuronas de base radial son las
que mejor se adecuan a nuestro objetivo, debido a que son Los pesos de cada neurona de capa oculta son asignados desde
redes multicapa con conexiones hacia delante, que se los valores de un vector de entrenamiento de entrada.
caracterizan porque estn formadas por una nica capa oculta La neurona de salida produce la suma de pesos lineal de estos:
y cada neurona de esta capa posee un carcter local, en el
sentido de que cada neurona oculta de la red se activa en una y = hi wi + bij
regin diferente del espacio de patrones de entrada. Este
carcter local viene dado por el uso de las llamadas funciones donde wi, j = peso en la capa de salida.
de base radial, generalmente la funcin gausiana, como
funciones de activacin. Las neuronas de la capa de salida de
las redes de base radial simplemente realizan una combinacin
lineal de las activaciones de las neuronas ocultas. La capa de
entrada la componen un conjunto de neuronas que reciben las
seales del exterior, transmitindolas a la siguiente capa sin
realizar ningn procesado sobre dichas seales. Las neuronas
de la capa oculta reciben las seales de la capa de entrada y
realizan una transformacin local y no lineal sobre dichas
seales. Activacin de las neuronas de la red de base radial. Si

Figura 1. Arquitectura tpica de una red de tipo RBF
Aunque la arquitectura pueda recordar a la de un MLP, la

diferencia fundamental est en que las neuronas de la capa
oculta en vez de calcular una suma ponderada de las entradas
y aplicar una sigmoide, estas neuronas calculan la distancia
eucldea entre el vector de pesos sinpticos (que recibe el Figura 2. Capa Oculta neurona gaussiana
nombre en este tipo de redes de centro o centroide) y la III. APRENDIZAJE
entrada (de manera casi anloga a como se haca con los
mapas SOM) y sobre esa distancia se aplica una funcin de El aprendizaje consiste en la determinacin de los centros,
tipo radial con forma gaussiana. desviaciones y pesos de la capa oculta a la capa de salida.
Como las capas de la red realizan diferentes tareas, se
Tipos de funciones de base radial separarn los parmetros de la capa oculta de la capa de salida
La funcin (r) siendo r la distancia eucldea, puede ser de para optimizar el proceso. De esta forma, los centros y las
varios tipos dependiendo de los patrones a clasificar. Las desviaciones siguen un proceso guiado por una optimizacin
elecciones ms comunes son las siguientes: en el espacio de entrada, mientras que los pesos siguen una
optimizacin sobre la base de las salidas que se desean
Funcin gaussiana: obtener.
Los dos mtodos de aprendizaje ms utilizados son el mtodo

hbrido y el mtodo totalmente supervisado.
Funcin multicuadratica:
Para el aprendizaje de la capa oculta, hay varios mtodos,
siendo uno de los ms conocidos el algoritmo denominado k-
medias (k-means) que es un algoritmo no supervisado de
clustering. k es el nmero de grupos que se desea encontrar, y
Funcin multi-cuadrtica inversa: se corresponde con el nmero de neuronas de la capa oculta,
que es un parmetro que hay que decidir de antemano. El
algoritmo se plantea como sigue:
1. Inicializar los pesos (los centros) en el instante

inicial. Una inicializacin tpica es la denominada k-primeras
mediante la cual los k centros se hacen iguales a las k primeras
muestras del conjunto de datos de entrenamiento {xp}p=1..N
Funcin Spline poliarmnico: c1 = x1, c2 = x2, ... cN = xN,
2. En cada iteracin, se calculan los dominios, es

decir, se reparten las muestras entre los k centros. Esto se hace
de la siguiente manera: Dada una muestra xj se calcula las
distancias a cada uno de los centros ck. La muestra
pertenecer al dominio del centro cuya distancia calculada sea
la menor.
Funcin Spline de placa delgada :
3. Se calculan los nuevos centros como los promedios
de los patrones de aprendizaje pertenecientes a sus dominios.
Viene a ser como calcular el centro de masas de la distribucin
de patrones, tomando que todos pesan igual.
4. Si los valores de los centros varan respecto a la

iteracin anterior se vuelve al paso 2, si no, es que se alcanz
la convergencia y se finaliza el aprendizaje.
FORMA FUNCIONAL DE UNA FUNCIN TIPO GAUSSIANA Una vez fijados los valores de los centros, slo resta ajustar las
anchuras de cada neurona. Las anchuras son los parmetros
sigma que aparecen en cada una de las funciones gaussianas y
reciben ese nombre por su interpretacin geomtrica, dan una

medida de cuando una muestra activa una neurona oculta para

que de una salida significativa.
Mtodo hbrido
En la fase no supervisada, los centros y las desviaciones de las
funciones de base radial deben ser determinados con el - Algoritmo de K-medias
objetivo de agrupar el espacio de entrada en diferentes clases.
El representante de cada clase ser el centro de la funcin de
base radial y la desviacin vendr dada por la amplitud de Dado el nmero de clases K
cada clase. En la fase supervisada, se determinan de forma
supervisada los pesos y umbrales de la capa de salida. 1. Se inicializan aleatoriamente los centros de los K
clusters (Unidad de capa oculta)
A la hora de determinar los centros, se utilizar un algoritmo
de clasificacin no supervisado que permita dividir el espacio 2. Se asignan Ni patrones de entrada a cada clster i del
de entrada en clases o clusters. El nmero de clusters ser el siguiente modo:
nmero de neuronas ocultas en la red de base radial. El
algoritmo ms utilizado es el algoritmo de K-medias.1 El patrn X(n) pertenece al clster i si:
Mientras, a la hora de determinar las desviaciones, se deben
calcular las amplitudes de manera que cada neurona oculta se
active en la regin del espacio de entrada y de manera que el
solapamiento de las zonas de activacin de una neurona a otra
sea lo ms ligera posible, para suavizar as la interpolacin. Con lo cual cada unidad tendr asociado un determinado
Una opcin bastante efectiva es determinar la amplitud de la nmero de patrones de entrada, aquellos ms cercanos a su
funcin de base radial como la media geomtrica de la centro.
distancia del centro a sus dos vecinos ms cercanos.
3. Se calcula la nueva posicin de los centros como la
En la fase supervisada, se calculan los pesos y umbrales de las media de todos los patrones que pertenecen al clster:
neuronas de salida de la red. El objetivo es minimizar las
diferencias entre las salidas de la red y las salidas deseadas. El
proceso de aprendizaje est guiado por la minimizacin de una
funcin error computada en la salida de la red. Como la salida
de la red depende linealmente de los pesos, puede utilizarse un
mtodo directo, como es el mtodo de la pseudoinversa, o bien
el mtodo de mnimos cuadrados.
4. Se repiten 2 y 3 hasta que las nuevas posiciones de los
Los centros se determinan usando la siguiente frmula:
centros no se modifiquen respecto de la anterior:
Determinacin de las desviaciones
Donde: Las desviaciones se calculan de manera que cada

unidad oculta se activa para una determinada regin del
N es el Nmero de patrones espacio entrada y adems que esta regin de esta
X (n)representa el patrn de entrada n unidad no se solape con la regin de otra unidad oculta.
es la Funcin de pertenencia
Existen diversas formas de calcular esta desviacin, siendo la
Adems, se puede determinar de la siguiente ms comn, la media geomtrica entre un centro y los centros
manera: adyacentes:

h(x) = w (||x -x||).

Donde Cm y Cs son los centros ms cercanos a Ci para la
desviacin del clster i. Las condiciones de interpolacin se pueden escribir
matricialmente en la forma
Fase Supervisada w = t
donde t = (t), w = (w), y la matriz cuadrada tiene
Durante esta fase se determinan pesos y umbrales. Se usan los elementos = (||x -x||). Si existe la matriz inversa, es
siguientes mtodos: Mtodo de la pseudo-inversa y Mtodo de posible resolver
los mnimos cuadrados. w = t
Se demuestra que para una amplia coleccin de funciones la
- Mtodo de la pseudo-inversa matriz es, en efecto, no singular, siempre que los datos sean.
La solucin viene dada por la siguiente expresin: Cuando los pesos en la ecuacin h(x) = w (||x -x||) se
toman como el conjunto de valores dados por w = t, la
W=G+S funcin h(x) representa una superficie continua y diferenciable
Siendo W la matriz de orden (n + 1) x r que posee los n pesos que pasa por todos y cada uno de los puntos dados. Tanto los
y los umbrales en la ltima fila. La matriz G posee todas las estudios tericos como los empricos han mostrado que, a
funciones de activacin para cada uno de los patrones de efectos del problema de interpolacin, muchas propiedades de
entrada, es de orden N x (n + 1), siendo gin = (n) siendo i la la funcin interpolante son independendientes de la forma
funcin de activacin de la neurona oculta i para el patrn de precisa de la funcin no lineal . En la literatura se han
entrada X(n). S es la matriz de salidas deseadas de la red, de ensayado varias posibilidades para , si bien, gracias a la
orden N X r. cantidad de propiedades analticas que atesora, la eleccin ms
frecuente es la funcin gaussiana:
Mtodo totalmente supervisado
Todos los parmetros de las redes de neuronas de base radial,

es decir, los centros, las desviaciones, los pesos y los
umbrales, se determinan de forma supervisada con el objetivo donde es un parmetro cuyo valor controla las propiedades
de minimizar el error cuadrtico medio. El proceso no se gua de regularidad de la funcin interpolante. Otras elecciones
para que las amplitudes sean tales que el solapamiento de las posibles son las siguientes:
gausianas sea lo ms suave posible, sino para minimizar el La funcin:
error cuadrtico; por tanto, pueden perderse las caractersticas
locales. Mientras que las salidas de la red dependen (x) = (x2 + 2 ) , 0 < < 1,
linealmente de los pesos, los centros y desviaciones no. Para que para = 1/2 se conoce como multicuadrica.
realizar el clculo de los parmetros, se aplicar el mtodo de
descenso del gradiente. Las Redes de funciones base son una alternative de perceptrn
El problema de la interpolacin exacta multicapa (PMC). Ambas tienen en comn el hecho de ser
Los mtodos que utilizan funciones base radiales (RBF, por redes directas, pero sus caractersticas son muy diferentes. Las
sus siglas en ingls) se originaron para dar solucin al redes de base radial RBR se basan en la idea que una funcin
problema de interpolacin exacta en varias variables. no lineal se puede generar superponiendo trozos ajustados
Consideremos una aplicacin definida en un conjunto de localmente. Estos trozos son llamados funciones base, de
entrada x, contenido en un espacio de dimensin d, con forma que la funcin generada por la red es suma ponderada
valores en un conjunto objetivo unidimensional t. El conjunto de las funciones base. Estas pueden tomar formas muy
de datos se compone de N vectores de entrada x, cariadas, pero todas ellas se caracterizan pore star
junto con los correspondientes t. El objetivo es encontrar una especialmente localizadas, es decir, por tener una salida no
funcin h(x) tal que nula en una porcin determinada del dominio.
h(x) = t; n = 1; 2, , N.
La tcnica de funciones base radiales presenta un conjunto de IV Optimizacin de las funciones base
N funciones base, una para cada dato, de la forma (||x -x||),
donde es una funcin no lineal cuyas caractersticas se Una de las principales ventajas con que cuentan las redes
discutirn ms adelante. As, la n-esima funcin base neuronales de funciones base radiales es la posibilidad de
depender de la distancia ||x -x||, usualmente la eucldea, entre elegir los parmetros de las unidades
x y x. ocultas sin necesidad de aplicar un proceso de optimizacin no
La salida de la aplicacin ser una combinacin lineal de las lineal a toda la red. En esta seccin se abordarn algunas de
funciones base las diferentes estrategias a tener en cuenta para la seleccin de
dichos parmetros.

Las redes neuronales de funciones base radiales comparecen En ella se observa una variable y que es una funcin no lineal
en multitud de aplicaciones, adems de la ya mencionada de de la variable de entrada x1. Nos gustara poder aproximar
interpolacin exacta. Todos estos puntos de vista sugieren que dicha funcin usando una red RBF.
los parmetros de las funciones base deben conformar una Seleccionamos las funciones base de forma que cubran la
representacin de la densidad de probabilidad de los datos de regin del eje x1 donde hay datos presentes. Supongamos
entrada. Ello conduce a un procedimiento ahora que se introduce otra variable x2 que no est
de entrenamiento no supervisado para la optimizacin de los correlacionada con x1. Entonces el nmero de funciones base
parmetros necesarias
de las funciones base que solo depender de los datos de para cubrir la regin requerida del espacio de entrada crece
entrada, ignorando la informacin objetivo. drsticamente, como se muestra en la figura 4. Sin embargo, si
Los centros uj de las funciones base pueden ser considerados la variable y no depende de x2, estas funciones base
como prototipos de los vectores de entrada. Algunas de las adicionales carecen de utilidad para ajustar el valor de y.
estrategias que se discutirn en la presente seccin estn
motivadas por estas consideraciones.
Existen muchas aplicaciones posibles de las redes neuronales
donde abundan los datos de entrada sin etiquetar, mientras que
los datos etiquetados escasean.
Por ejemplo, puede resultar sencillo reunir ejemplos de datos
de entrada para la red sin procesar, pero el etiquetarlos con
variables objetivo seguramente requiera de un experto
humano, lo que limita severamente la cantidad de datos que
pueden ser etiquetados en un tiempo razonable. El proceso de
entrenamiento en dos etapas de las redes neuronales RBF es
particularmente ventajoso para este tipo de aplicaciones, por
cuanto la determinacin de la representacin no lineal dada Figura 3. funcin y(x1) modelizada mediante una red de
por la segunda capa de la red se puede efectuar mediante el funciones base radiales.
uso de
una cantidad grande de datos no etiquetados, dejando un Por tanto, existen razones de cierto calado que aconsejan el
nmero relativamente reducido de los parmetros conducentes uso de mtodos no supervisados para determinar los
a la tercera capa por estimar usando los datos etiquetados. En parmetros de la segunda capa de una red RBF mediante la
cada una de las dos etapas podemos asegurar que la modelizacin de la densidad de los datos de entrada. Este
cantidad de parmetros a estimar es muy inferior a la cantidad mtodo tambin ha probado su eficacia en la prctica. Sin
de datos, como ser deseable para obtener una generalizacin embargo, es necesario advertir que una eleccin _optima de
adecuada. los parmetros de las funciones base para estimar la densidad
no siempre conduce a un ajuste ptimo de la curva. Tal
Una de las principales dificultades potenciales con las redes situacin se ilustra en la figura 4.
neuronales RBF emana del carcter local de la representacin
de las unidades ocultas. Si el
subespacio de datos tiene dimensin intrnseca d y los centros
de las funciones base llenan este subespacio, entonces el
nmero de centros crece exponencialmente con d. Adems de
incrementar el tiempo de computo, un nmero elevado de
funciones base requiere un nmero elevado de patrones de
entrenamiento para garantizar que los parmetros de la red son
determinados correctamente.
El problema se vuelve particularmente severo si se consideran
variables de entrada que presentan una variacin significativa,
pero tienen poca importancia Figura 4. funcin de la figura 3 tras la introduccin de la
a la hora de determinar las variables de salida adecuadas. Estas variable irrelevante x2. El nmero de funciones base cuyas
entradas irrelevantes localizaciones estn determinadas nicamente por los datos
son frecuentes en las aplicaciones. Cuando los centros se de entrada crece drsticamente, a pesar de que x2 no aporta
eligen solamente a partir de los datos de entrada, no hay forma informacin relevante para hallar la variable de salida.
de distinguir las entradas relevantes de las que no lo son.
Ilustramos esta idea con la grfica de la _figura 3.

Algoritmos de clustering
Aunque por razones de espacio no las desarrollaremos aqu,
cabe citar que la simple seleccin de un subconjunto de datos
como centros de las funciones base se puede mejorar usando
tcnicas de clustering para encontrar un conjunto
de centros que refleje con mayor exactitud la distribucin de
todos los datos. Entre estas tcnicas se encuentra el algoritmo
clustering de K-medias.
Mnimos cuadrados ortogonales

Este mtodo se fundamenta en la idea de seleccin de
Figura 5. Ilustracin del hecho de que el uso de mtodos no funciones base que se desarrolla a continuacin. Supongamos
supervisados que se apoyan en una estimacin de la densidad que se comienza considerando una red de una sola funcin
para determinar los parmetros de las funciones base no es base. De forma sucesiva, para cada dato se ajusta el centro de
necesariamente ptimo a la hora de aproximar la funcin la funcin base al vector de entrada correspondiente a dicho
objetivo. punto y luego se establecen los pesos de la segunda capa
El conjunto de datos est representado por los crculos y se mediante la tcnica de la matriz pseudoinversa, usando el
genera a partir de una distribucin gaussiana p, que se conjunto de N datos al completo. Finalmente, se retiene el
corresponde con el trazo discontinuo. El aprendizaje no valor del centro que minimice el error residual. De esta
supervisado de una funcin base gaussiana la centrar en el manera, en cada paso del algoritmo se incrementa el nmero
punto a, dando una buena aproximacin a p. Los valores de funciones base. Si en un determinado momento se han
objetivo para los datos de entrada estn generados a partir de elegido l datos como centros de las funciones base, se entran
una gaussiana centrada en b y representada mediante el trazo N -1 redes donde cada uno de los N 1 putos restantes se
slido. La funcin base centrada en a no proporciona un buen toman como centros de funciones base adicionales. De estas se
ajuste a la curva h, mientras que si la funcin base estuviera retiene la que minimice el error cuadrtico medio residual, y el
centrada en b representar h de manera exacta. algoritmo avanza a la siguiente etapa.
A continuacin, se muestran algunas tcnicas para elegir Un enfoque de este tipo ser muy costoso
apropiadamente los centros uj. computacionalmente, pues obligara a calcular en cada paso
una solucin pseudoinversa completa para cada posible
Subconjuntos de datos eleccin de funciones base. Un procedimiento mucho ms
Un procedimiento sencillo para seleccionar los centros uj de eficiente para conseguir el mismo resultado es el de mnimos
las funciones base consiste en elegirlos aleatoriamente de cuadrados ortogonales propuesto por Chen et al. En resumen,
entre los datos de entrada. Claramente, este proceso no es el algoritmo involucra la adicin secuencial de nuevas
ptimo por cuanto puede requerir un elevado nmero de funciones base, cada una centrada en uno de los datos, tal
funciones base para alcanzar un funcionamiento adecuado, como se acaba de exponer. Esto se consigue construyendo un
pero suele usarse como paso previo a otras tcnicas conjunto de vectores ortogonales en el espacio S generados
adaptativas iterativas. por los vectores de las unidades de activacin de la capa oculta
Un segundo procedimiento consiste en tomar el conjunto para cada patrn del conjunto de datos. As, ser posible
completo de datos como centros de las funciones base y calcular de forma directa qu punto debe ser elegido como
removerlos selectivamente de manera que se produzca la centro de la siguiente funcin base a _n de minimizar el error
mnima distorsin en el funcionamiento del sistema. cuadrtico medio residual. Los valores de los pesos de la
Estos procedimientos solo estn orientados a la seleccin de tercera capa se determinan simultneamente. Si se deja actuar
los centros; los parmetros de amplitud j deben ser elegidos el algoritmo
por otros mtodos. Un enfoque durante el tiempo necesario se seleccionarn todos los puntos
heurstico consistir en tomar todos los j iguales entre s y a y el error residual acabar siendo nulo, por lo que debe ser
algn mltiplo de la distancia promedio entre los centros de interrumpido antes de que esto suceda.
las funciones base. De esta forma se podr garantizar que las
funciones base se superponen hasta un cierto grado y obtener
rpidamente una representacin bastante suave de la
distribucin de los datos de entrenamiento, si bien es cierto
que tal representacin probablemente diste mucho de ser
ptima.

V. EJEMPLO DE APRENDIZAJE PARA UN exactamente el valor 1 ni el valor 0 pero con esos valores nos
PROBLEMA DE CLASIFICACION POR MEDIO DE bastara).
UNA RED. Para entrenar la capa oculta elegiremos el algoritmo de las k-
Como ejemplo de entrenamiento vamos a escoger un medias. El desarrollo de dicho algoritmo es el siguiente:
problema de clasificacin sencillo y utilizaremos una red de
tipo RBF. El problema en cuestin se plantea como sigue:
Imaginemos que tenemos puntos en el plano. Los puntos se Iteracin: 1
distribuyen en ciertas regiones, donde la densidad de puntos es -----------------------------------------
mayor. Queremos que la red neuronal sirva como un Muestra 0
clasificador de esas regiones de manera que si preguntamos dc0 = 0, dc1 = 0.509902, dc2 = 0.316228,
por nuevos puntos nos diga si est en alguna de esas tres Muestra 1
regiones. dc0 = 0.509902, dc1 = 0, dc2 = 0.632456,
Como tendremos tres regiones, escogeremos tres neuronas Muestra 2
para la capa oculta. En realidad, podamos haber escogido dc0 = 0.316228, dc1 = 0.632456, dc2 = 0,
ms, pero con tres sirve para ilustrar el ejemplo. La capa de Muestra 3
salida tendr tambin 3 neuronas y estar acotada entre 0 y 1. dc0 = 0.5, dc1 = 0.360555, dc2 = 0.412311,
Si la salida i-esima toma un valor cercano a 1 y el resto de las Muestra 4
salidas toman valores cercanos a 0 eso nos dir que la muestra dc0 = 9.46414, dc1 = 9.01388, dc2 =
de entrenamiento pertenece a la zona i-esima. Adems, la 9.36002,
funcin de activacin de las neuronas de la capa de salida ser Muestra 5
una sigmoide, que nos acota la salida entre 0 y 1. dc0 = 9.28493, dc1 = 8.8459, dc2 =
Nuestro conjunto de muestras de entrenamiento ser el 9.16788,
siguiente: Muestra 6
dc0 = 9.70824, dc1 = 9.26984, dc2 =
0.8 0.8 9.5901,
Muestra 7
0.9 0.1 0.1
dc0 = 9.47523, dc1 = 9.05539, dc2 =
0.9 1.3
9.33809,
0.9 0.1 0.1 Muestra 8
1.1 0.7 dc0 = 13.3821, dc1 = 13.2098, dc2 =
0.9 0.1 0.1 13.1034,
1.2 1.1 Muestra 9
0.9 0.1 0.1 dc0 = 14.3837, dc1 = 14.1792, dc2 =
6.7 8.2 14.1156,
0.1 0.9 0.1 Muestra 10
6.9 8.1 dc0 = 14.8933, dc1 = 14.6891, dc2 =
0.1 0.9 0.1 14.625,
7.2 8.1 Muestra 11
0.1 0.9 0.1 dc0 = 15.3584, dc1 = 15.1954, dc2 =
7.5 7.5 15.0765,
0.1 0.1 0.9 Dominios: 0 1 2 1 1 1 1 1 2 2 2
14.0 3.0 2
0.1 0.1 0.9
14.8 4.1
Centro 1: 0.8 0.8
0.1 0.1 0.9 Centro 2: 5.06667 5.66667
15.3 4.2 Centro 3: 12.24 3
0.1 0.1 0.9
16.0 3.0 ----------------------------------------
0.1 0.1 0.9 Iteracin: 2
----------------------------------------
Las filas corresponden a la entrada (un punto en el plano se Muestra 0
representa con dos coordenadas reales) y su correspondiente dc0 = 0, dc1 = 6.47216, dc2 = 11.6496,
salida deseada (tres nmeros entre 0 y 1. No usaremos Muestra 1

dc0 = 0.509902, dc1 = 6.03563, dc2 = Muestra 5

11.4667, dc0 = 9.02168, dc1 = 0.201556, dc2 =
Muestra 2 9.15785,
dc0 = 0.316228, dc1 = 6.35627, dc2 = Muestra 6
11.375, dc0 = 9.44487, dc1 = 0.23585, dc2 =
Muestra 3 9.03915,
dc0 = 0.5, dc1 = 5.98377, dc2 = 11.2023, Muestra 7
Muestra 4 dc0 = 9.21008, dc1 = 0.583631, dc2 =
dc0 = 9.46414, dc1 = 3.01423, dc2 = 8.48712,
7.59813, Muestra 8
Muestra 5 dc0 = 13.1568, dc1 = 8.48326, dc2 =
dc0 = 9.28493, dc1 = 2.81287, dc2 = 1.17527,
7.18022, Muestra 9
Muestra 6 dc0 = 14.1494, dc1 = 8.60904, dc2 =
dc0 = 9.70824, dc1 = 3.23608, dc2 = 0.571183,
7.17019, Muestra 10
Muestra 7 dc0 = 14.6591, dc1 = 9.0189, dc2 =
dc0 = 9.47523, dc1 = 3.04667, dc2 = 0.682825,
6.53587, Muestra 11
Muestra 8 dc0 = 15.1361, dc1 = 10.1816, dc2 =
dc0 = 13.3821, dc1 = 9.32285, dc2 = 1.76, 1.13192,
Muestra 9 Dominios: 0 0 0 0 1 1 1 1 2 2 2
dc0 = 14.3837, dc1 = 9.85861, dc2 = 2
2.78632,
Muestra 10
dc0 = 14.8933, dc1 = 10.3379, dc2 = Centro 1: 1 0.975
3.28688, Centro 2: 7.075 7.9
Muestra 11 Centro 3: 15.025 3.575
dc0 = 15.3584, dc1 = 11.2538, dc2 = 3.76,
Dominios: 0 0 0 0 1 1 1 1 2 2 2 Como vemos, en apenas 3 iteraciones el algoritmo ha
2 convergido totalmente. Se aprecia como los domins ya
reflejan los tres grupos claramente (de hecho estos grupos ya
aparecen en la 2 iteracin). Cabe resaltar que en este
Centro 1: 1 0.975 entrenamiento no se emple la salida deseada para nada, y esto
Centro 2: 7.075 7.9 es debido a que se trata de un algoritmo de aprendizaje no
Centro 3: 15.025 3.575 supervisado.
Una vez entrenada la capa oculta, le tocara el turno a la capa
----------------------------------------- de salida. En sta lo que se hace es pasar los patrones de
Iteracin: 3 entrenamiento durante un cierto nmero de pocas (en este
----------------------------------------- entrenamiento se escogi 60 pocas) y en cada poca con
Muestra 0 todos los patrones de entrenamiento se calcula la variacin de
dc0 = 0.265754, dc1 = 9.47553, dc2 = los pesos de la capa de salida segn lo explicado en el
14.4931, apartado 3.4 Al final, los pesos que resultan para toda la red
Muestra 1 son los siguientes:
dc0 = 0.340037, dc1 = 9.03829, dc2 =
14.307, Topologa de la red : 0
Muestra 2 -----------------------------------------
dc0 = 0.292618, dc1 = 9.35631, dc2 = Nmero de neuronas de entrada: 2
14.2187, Nmero de neuronas ocultas : 3
Muestra 3 Nmero de neuronas de salida : 3
dc0 = 0.23585, dc1 = 8.98641, dc2 = Funcin de la capa oculta : Gaussiana
14.0448, Funcin de la capa de salida : Sigmoide
Muestra 4 Red Hbrida MLP : false
dc0 = 9.20275, dc1 = 0.480234, dc2 = ----------------------------------------
9.52346, Datos del entrenamiento

----------------------------------------- La tasa de aciertos fue del 75 %.

Algoritmo de la capa oculta : K-medias
Tipo de inicializacin: K primeras VI. CONCLUSION
Epsilon : 0.0010
Algoritmo de la capa de salida : Regla Como resultado del trabajo se obtuvo un procedimiento
delta general que permite configurar los parmetros de inters
Ritmo de aprendizaje : 0.1000 establecidos en esta investigacin para utilizar una
Nmero de pocas : 60 clasificacin sencilla para una red de Base Radial, con el
----------------------------------------- propsito de aplicarla al diagnstico en la bsqueda de
Pesos de la red RBF aprendizaje presentes en un proceso de Red neuronal. Dicho
----------------------------------------- procedimiento garantiza la adecuada seleccin de parmetros
Pesos de la capa oculta tan importantes como la funcin de distancia y el mtodo de
----------------------------------------- estimacin del ancho de las neuronas ocultas, a partir de poner
Neurona 0 1 2 a competir las diferentes propuestas y basando la seleccin en
----------------------------------------- pruebas estadsticas reconocidas.
0 1.0000 7.0750 15.0250
1 0.9750 7.9000 3.5750 La aplicacin del procedimiento propuesto permite reducir la
----------------------------------------- cantidad de experimentos a realizar en el proceso de configurar
Anchuras de la capa oculta una red de Base Radial para la bsqueda de los puntos en un
----------------------------------------- plano, ya que se plantea que los puntos se distribuyen en ciertas
9.2120 9.0503 9.0503 regiones, donde la densidad de puntos es mayor basado en un
---------------------------------------- orden de configuracin lgico, lo cual se demostr mediante los
Pesos de la capa de salida experimentos realizados.
-----------------------------------------
Neurona 0 1 2 Con el principal aporte de este trabajo, el procedimiento de
----------------------------------------- clasificacin, se resuelve parcialmente la carencia de mtodos o
0 1.6047 -0.9334 -1.1720 procedimientos generales que guen en la que la Red neuronal
1 -1.5427 2.6404 -1.2721 sirva como un clasificador de esas regiones de manera que si
2 -1.3295 -1.1118 1.9833 preguntamos por nuevos puntos nos diga si est en alguna de esas
-----------------------------------------
tres regiones.
Bias de la capa de salida
-----------------------------------------
0.5470 -0.9427 0.0257
Con esto quedara realizada la etapa de aprendizaje de la red

neuronal. Si ahora presentamos otros datos para obtener su
VII. REFERENCIAS
clasificacin, estaramos en la etapa de recuperacin. Los
datos que presentaremos sern los siguientes:
C.M. Bishop: Neural networks for pattern recognition.
0.0 0.0 --> Regin A Clarendon Press, 1995.
2.0 0.0 --> Regin A
9.0 9.0 --> Regin B M.D. Buhmann: Radial Basis Functions: Theory and
13.0 13.0 --> Entre Regin B y Regin implementa- tions. Cambridge University Press, 2003.
C
cmo podemos apreciar, esta vez ya no se le presentan a la red T. Chen, H. Chen: Universal approximation to nonlinear
las salidas deseadas. El resultado que da la red ante estas operators by neural networks with arbitrary activation
entradas es el siguiente: functions and its application to dynamical systems. IEEE
0.8903 0.1692 0.0678 --> Transactions on Neural Networks 6 (1995), no. 4, 911-917.
Region A
0.8309 0.2013 0.0795 --> . Chen, C.F.N. Cowan, P.M. Grant: Orthogonal least squares
Region A learning algorithm for radial basis function networks. IEEE
0.1021 0.7057 0.2969 --> Transac-tions on Neural Networks 2 (1991), no. 2, 302-309.
Region B
0.1243 0.5372 0.5301 --> ??? C.A. Cruz-RodrIguez, C. Garcia-Vargas, I. Marrero: Further

comments on ((Relaxed conditions for radial-basis function

networks to be universal approximators)). Revista de la
Academia Canaria de Ciencias 27 (2015/2016), 29-31.
G. Cybenko: Approximation by superposition of a sigmoidal

function. Mathematics of Control, Signals, and Systems 3
(1989), 303-314.
G. Fasshauer: Meshfree approximation methods with

MATLAB. World Scienti_c, 2007.
A. Friedman: Generalized functions and partial di_erential

equa-tions. Prentice-Hall, 1963.
F. Girosi, T. Poggio: Networks and the best approximation

property. Biological Cybernetics 63 (1990), 169{176.
S. Haykin: Neural networks, 2nd ed. Pearson Prentice Hall,

1999.
K. Hornik: Approximation capabilities of multilayer

feedforward
neural networks. Neural Networks 4 (1990), 251{257.
B. Martin del Brio y A. Sanz Molina, Redes Neuronales y

Sistemas Borrosos, de. Ra-Ma, 1997
Haykin S., Neural Networks , 2nd Edition, Prentice Hall,

1999, ISBN 0 13 273350 1
IEEE Transactions on Neural Networks (http://ieee-nns.org/).
http://www.gc.ssr.upm.es/inves/neural/ann2/anntutorial.html
http://rfhs8012.-regensburg.de/~saj39122/jfroehl/diplom/e-
sample.html
http://www.infor.uva.es/biometria/Documentos/informes_uva/
EstadoArte/EstadoArte/EstadoArte.html

Formato Articulos IEEE

Uploaded by

Document Information

Original Description:

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Formato Articulos IEEE

Uploaded by

Copyright:

Available Formats

Laboratorio de Sistemas de la Universidad Seor de Sipn Sistemas Inteligentes - Redes Neuronales 1

RBS 23 de octubre de 2017

Redes Neuronales de Funciones Bases Radiales

Redes Neuronales de Funciones de Base Radial

Redes Neuronales de Funciones de Base Radial

Figura 1. Arquitectura tpica de una red de tipo RBF

Aunque la arquitectura pueda recordar a la de un MLP, la

Los dos mtodos de aprendizaje ms utilizados son el mtodo

1. Inicializar los pesos (los centros) en el instante

2. En cada iteracin, se calculan los dominios, es

4. Si los valores de los centros varan respecto a la

Redes Neuronales de Funciones de Base Radial

medida de cuando una muestra activa una neurona oculta para

Determinacin de las desviaciones

Donde: Las desviaciones se calculan de manera que cada

Redes Neuronales de Funciones de Base Radial

h(x) = w (||x -x||).

Todos los parmetros de las redes de neuronas de base radial,

Redes Neuronales de Funciones de Base Radial

Redes Neuronales de Funciones de Base Radial

Mnimos cuadrados ortogonales

Redes Neuronales de Funciones de Base Radial

Redes Neuronales de Funciones de Base Radial

dc0 = 0.509902, dc1 = 6.03563, dc2 = Muestra 5

Redes Neuronales de Funciones de Base Radial

----------------------------------------- La tasa de aciertos fue del 75 %.

Con esto quedara realizada la etapa de aprendizaje de la red

Redes Neuronales de Funciones de Base Radial

comments on ((Relaxed conditions for radial-basis function

G. Cybenko: Approximation by superposition of a sigmoidal

G. Fasshauer: Meshfree approximation methods with

A. Friedman: Generalized functions and partial di_erential

F. Girosi, T. Poggio: Networks and the best approximation

S. Haykin: Neural networks, 2nd ed. Pearson Prentice Hall,

K. Hornik: Approximation capabilities of multilayer

B. Martin del Brio y A. Sanz Molina, Redes Neuronales y

Haykin S., Neural Networks , 2nd Edition, Prentice Hall,

IEEE Transactions on Neural Networks (http://ieee-nns.org/).

Redes Neuronales de Funciones de Base Radial

You might also like