Professional Documents
Culture Documents
Pp 223 - 252
Especificacin de modelos
Recibido
10/10/2009
Revisado
2/12/2009
Aceptado
Departamento de Mtodos Cuantitativos en
18/12/2009
Economa y Gestin
Universidad de Las Palmas de Gran Canaria
RESUMEN
En este trabajo presentamos un nuevo procedimiento para seleccionar modelos
economtricos. Est basado en un enfoque heurstico, empleando algoritmos genticos, que
permite explorar el universo de modelos disponibles a partir de un modelo general sin
restricciones. Este proceso de bsqueda del modelo ptimo est guiado nicamente por el
criterio de informacin de Schwarz, que acta como la funcin prdida de un algoritmo gentico
empleado para seleccionar el modelo ptimo. Este procedimiento muestra buen comportamiento
en relacin a otras metodologas alternativas. A modo de ejemplos de su utilidad se muestran
tres problemas donde el algoritmo ha sido empleado con xito: la seleccin de variables que
explican el crecimiento econmico, la prediccin del fracaso empresarial y la formacin de una
cartera de pocos activos que siga el comportamiento de un ndice burstil como el IBEX35
Espaol.
Palabras claves: seleccin de modelos; algoritmos genticos; crecimiento econmico;
fracaso empresarial; seguimiento de un ndice;
ABSTRACT
. In this paper we present a new procedure for selecting econometric models. It is based
on a heuristic approach, called genetic algorithms, which permits us to explore the universe of
available models starting from a general model without restrictions. This search process for the
optimal model is guided only by the Schwarz Information Criterion, which acts as the lost
function of the genetic algorithm employed for selecting the optimum. This procedure shows
good performance with respect to other methodologies. As examples of its utility three
problems where the algorithm was successfully employed are presented: the selection of
variables that explain economic growth, the prediction of failure of firms and the construction of
a portfolio with few actives that follows the behaviour of a stock exchange index such as the
Spanish IBEX35.
Y = 0 + 1 X i1 + .... + K X iK + , donde
(1)
La teora de la complejidad computacional califica este problema como NP-Hard, es decir, al menos tan
difcil como un problema NP (non deterministic polynomial time) que se pueda resolver en tiempo
polinmico respecto al tamao del problema, aunque puede resultar todava ms difcil.
Rect@
225
Vol 10 (2009)
1.1.-
CONSECUENCIAS
DE
LA
INCLUSIN
DE
VARIABLES
IRRELEVANTES EN EL MODELO
(2)
(3)
226
Vol 10 (2009)
Rect@
227
Vol 10 (2009)
e 'e
N k
Y 'Y NY 2
N 1
(4)
Consiste en obtener un modelo que minimice la estimacin del error cuadrtico medio
de prediccin. Concretamente este criterio queda definido por la siguiente expresin:
Cp =
2k 2
e 'e
NR +
N
N
(5)
donde
Rect@
228
Vol 10 (2009)
e ' eNR
N k NR
2
NR
=
(6)
siendo e ' eNR y k NR la suma del cuadrado de los errores y el nmero de parmetros del
modelo no restringido respectivamente. El modelo no restringido hace referencia a
aquel donde se incluyen todas las variables explicativas candidatas a formar parte del
mismo, tambin denominado especificacin general. Por otro lado, el modelo
restringido hace referencia a aquel donde slo se incluye el subconjunto de variables
explicativas seleccionadas.
2k 2 e ' e
R +
N
N
(7)
La diferencia con el criterio de Mallows est en R2 , que en este caso se obtiene a partir
del modelo restringido.
R2 =
e 'e
N k
(8)
Este criterio, que denominaremos en lo sucesivo SIC, tomando sus iniciales de la lengua
inglesa (Schwarz Information Criterion), consiste en buscar aquel modelo que minimiza
el estadstico
e 'e k
SIC = log
+ log( N )
N N
(9)
229
Vol 10 (2009)
Se utiliza para modelos que se pueden estimar por mxima verosimilitud. Su expresin
es la siguiente:
AIC =
2l 2k
+
N
N
(10)
(11)
Regresin Stepwise
Se puede pensar que raramente se trabaja con modelos donde el nmero de variables explicativas
sobrepase la decena, sin embargo, si se considera la posibilidad de estar frente a especificaciones
funcionales distintas de la lineal en las variables, el nmero de variables explicativas se puede
incrementar considerablemente, al incluir como tales el cuadrado de las mismas, efectos interaccin, etc.
Adems, en el contexto de modelos dinmicos, la presencia de variables explicativas retardadas, o incluso
la propia endgena retardada, pueden incrementar considerablemente el nmero de regresores candidatos
iniciales del modelo.
Rect@
Vol 10 (2009)
230
Finalmente, hay que tener en cuenta que la seleccin de regresores est ntimamente
ligada a la forma funcional de la especificacin. sta cambiar en la medida que se
decida introducir como regresores el cuadrado de alguna de las variables explicativas,
los efectos de su interaccin, o la transformacin logartmica de alguna de ellas, por
sealar tan slo algunos ejemplos.
Rect@
231
Vol 10 (2009)
El hecho de que la seleccin del modelo final dependa de la senda que hagamos con
los regresores candidatos cuestiona los procedimientos de minera de datos consistentes
en la bsqueda de una especificacin consistente del modelo sobre la base de ir
introduciendo o eliminando regresores al emplear como criterios la significatividad dada
por el estadstico t o valores altos del estadsitico R 2 . Esta idea tambin cuestiona la
posibilidad de extraccin de informacin predictiva a partir de grandes bases de datos
mediante el uso de diversas estrategias de investigacin frecuentemente automatizadas
como es el caso tpico del stepwise.
Utilizar como criterios de seleccin de modelos el estadstico de significacin individual
Una parte esencial de los trabajos citados sobre la seleccin automtica de modelos es la
senda empleada para poder encontrar el modelo final dentro del universo de modelos.
Cuando el nmero de regresores potenciales es elevado, dicho universo de modelos se
vuelve prohibitivamente grande. En los trabajos previamente citados, el procedimiento
de seleccin de variables se basa principalmente en el estadstico t y en el procedimiento
Rect@
233
Vol 10 (2009)
stepwise con eliminacin backward, de modo que en cada paso se emplean numerosos
contrastes de diagnstico sobre los residuos para verificar los modelos.
234
Vol 10 (2009)
Schmertmann (1996), Szpiro (1997) y Beenstock y Szpiro (2002). Tales trabajos estn
basados en una variacin de los algoritmos genticos introducida por Koza (1992) y que
se denomina Programacin Gentica (PG). La PG hace uso de complejos cromosomas
que son, a su vez, programas de ordenador que evolucionan segn unas reglas
preestablecidas. El algoritmo de PG conduce finalmente a encontrar el programa ptimo
capaz de resolver un determinado problema propuesto de antemano, susceptible de ser
escrito en un lenguaje algortmico. La PG es un buen procedimiento para estimar e
identificar un proceso generador de datos con formas funcionales complicadas. Sin
embargo, este procedimiento adolece de graves problemas derivados de la complejidad
que se produce en las formas funcionales a las que conduce. El primer problema son los
altos tiempos de computacin, que frecuentemente obligan al algoritmo a parar sin
seguir ningn criterio de convergencia. El segundo se refiere a la pobre capacidad de
prediccin
extramuestral
de
generalizacin
que
puede
conducir
la
Rect@
235
Vol 10 (2009)
donde todos los regresores usados son obtenidos como combinacin de dos
variables.
Rect@
236
Vol 10 (2009)
Paso 1. Poblacin Inicial. Se genera una poblacin inicial de modelos. Por lo tanto, el
algoritmo comienza con la seleccin aleatoria de una poblacin inicial de cromosomas
binarios que representan modelos anidados en un modelo general sin restricciones.
Estos cromosomas actan como semillas del proceso. En este sentido, es importante
tener en cuenta que, tal como se ha comprobado mediante simulacin (Acosta-Gonzlez
y Fernndez-Rodrguez, 2007), el algoritmo es robusto ante el cambio de dichas
semillas y conduce, en la inmensa mayora de las ocasiones, al mismo modelo final.
Paso 2. Ranking. Se evala la funcin de prdida (SIC)
SIC (m) = log 2 (m) + c
log(T )k (m)
T
(12)
237
Vol 10 (2009)
{ X 2 , X 4}
238
Vol 10 (2009)
stepwise, que en la base de datos de Lovell tiende a sobre identificar los modelos,
siendo la seleccin de variables significativas falsas muy alta.
Por otra parte, tambin es posible comparar GASIC con otra metodologa muy flexible
para la construccin de modelos llamada RETINA propuesta por Prez-Amaral et al.
(2003). RETINA se basa en el uso de medidas extramuestrales de ejecucin para la
seleccin del modelo. Como sealan Acosta-Gonzlez y Fernndez-Rodrguez (2007),
GASIC y RETINA son asintticamente similares. Las simulaciones sealan que ambas
metodologas muestran gran capacidad para seleccionar el modelo verdadero en el
contexto de variables con alto grado de multicolinealidad. No obstante, GASIC suele
mejorar a RETINA para pequeos tamaos muestrales con bajos R 2 .
El trabajo seminal de Barro (1991) ha dado lugar a una literatura emprica sobre el
crecimiento econmico tratando de identificar las posibles variables que estn
correlacionadas parcialmente con las tasas de crecimiento econmico. Estos trabajos
Rect@
239
Vol 10 (2009)
intentan identificar los factores que explican las tasas de crecimiento de los diferentes
pases regresando el crecimiento del PIB observado sobre diversas caractersticas que
podran explicar dicho crecimiento. La metodologa bsica consiste entonces en realizar
regresiones de la forma
Y = 0 + 1 X 1 + .... + n X n + ,
donde Y es el vector de las tasas de crecimiento econmico, y X 1 ,..., X n son vectores de
variables explicativas que varan segn los investigadores que traten el tema. Entre los
diferentes trabajos desarrollados en este sentido es comn encontrar variables como el
nivel inicial de renta, diversas medidas relativas a la calidad del sistema educativo y del
capital humano del pas, la tasa de inversin, los impuestos, distorsiones del mercado,
grado de monopolio, indicadores sobre el sistema poltico y mantenimiento de los
derechos de propiedad, indicadores relativos a aspectos culturales, histricos e
ideosincrticos del pas (tales como su sistema democrtico, la religin, el sistema legal
o el haber sido antigua colonia), variables que describen el nivel de la tecnologa, acceso
a determinadas materias primas como el agua, y muchas otras variables que parecen
estar correlacionadas con el crecimiento y que no siempre existe una forma clara para
medirlas (tales son, por ejemplo, la eficiencia gubernamental, el nivel de corrupcin, la
actitud hacia el trabajo, etc.). De todas estas variables puede formarse un conjunto de
aproximadamente 60 regresores potenciales que explican el crecimiento. El problema al
que se enfrentan los investigadores es que la teora del crecimiento no especifica
claramente qu variables explicativas incluir en el modelo.
En este sentido, existe una amplia controversia a la hora de identificar los factores que
explican las diferentes tasas de crecimiento de los diversos pases. As, en ausencia de
una teora econmica que gue dicha bsqueda, han proliferando numerosos trabajos de
contenido contradictorio sobre cules deberan ser las variables explicativas ms
relevantes en el crecimiento.
Levine and Renelt (1992) han concluido que son muy pocos los regresores que han
pasado el contraste de cotas extremas de Leamer (1983, 1985) para identificar
relaciones empricas robustas. Dicho contraste funciona como sigue: supongamos un
conjunto X de K variables explicativas que han sido previamente identificadas como
potencialmente explicativas del crecimiento y que estamos interesados en averiguar si
una determinada variable z es robusta. En tal caso estimaremos las posibles
regresiones de la forma
Rect@
240
Vol 10 (2009)
Y = j + yj y + zj z + xj x j +
donde y es un vector de cuatro variables fijas que aparecen en todas las regresiones (el
nivel inicial de renta, la tasa de inversin, la tasa de matriculacin en la escuela
secundaria y la tasa de crecimiento de la poblacin). La z es la variable de inters y
Rect@
241
Vol 10 (2009)
contiene tan solo dos variables, el nmero de aos de economa abierta y la fraccin
de Confucionismo.
6.2
SELECCIN
DE
VARIABLES
QUE
EXPLICAN
LA
QUIEBRA
EMPRESARIAL
242
Vol 10 (2009)
Igualmente se han aadido a las 32 ratios iniciales sus cuadrados. De esta forma GASIC
parte de un conjunto de 64 regresores en el modelo general no restringido. Este tipo de
informacin es muy redundante y la alta correlacin entre variables puede producir
problemas de multicolinealidad en las estimaciones, dando lugar a elevados errores
estndar en los coeficientes estimados, lo que afecta negativamente a la precisin de las
estimaciones. No obstante, tal como seala Benishay (1971), se perdera un gran
contenido informativo si slo se incluyesen en el modelo economtrico un reducido
conjunto de variables poco dependientes. GASIC da respuesta a este problema en el
contexto de la construccin de un modelo LOGIT, posibilitando la identificacin
automtica de un subconjunto de ratios financieros explicativos del fracaso empresarial,
conteniendo la informacin ms completa posible, pero intentando evitar su duplicidad.
Rect@
243
Vol 10 (2009)
Esto es as debido principalmente a que el criterio de seleccin que utiliza GASIC est
basado en una medida global del modelo, como es el SIC, y no en criterios individuales
de significacin como es el caso del estadstico t, cuyos resultados estn fuertemente
condicionados por el alto grado de multicolinealidad que generan los ratios financieros.
*
1 si yi = 0 + j X ji + ui > 0 La empresa i fracasa
yi =
j =1
0 en otro caso. La empresa i no fracasa
(13)
Pi = P ( yi = 1) = P ui > ( 0 + j X ji ) =
j =1
k
k
1 F ( 0 + j X ji ) = F 0 + j X ji
j =1
j =1
(14)
Pi = F ( Z i ) =
exp( Z i )
1
=
1 + exp( Z i ) 1 + exp( Z i )
(15)
(1 P )
(16)
yi = 0
Con el fin de obtener la probabilidad de fracaso de una empresa i como una funcin de
los ratios financieros X i1 ,...., X iK , GASIC se enfrenta al problema de encontrar el mejor
modelo de la forma:
Pi =
Rect@
1
donde
1 + exp( 0 + 1 X i j1 + .... + K X i jk )
244
(17)
Vol 10 (2009)
2l k log ( N )
+
N
N
(18)
Los gestores de fondos cuentan, bsicamente, con dos tipos de estrategias de inversin,
la activa y la pasiva. Las estrategias de inversin activa se basan en la conviccin de que
la habilidad de un inversor con sus actividades de compra y venta de acciones puede
batir los rendimientos del mercado. En las estrategias de inversin pasiva el gestor de
fondos tiene muy poca flexibilidad en la toma de sus decisiones inversoras y su
actividad ha de limitarse a obtener, aproximadamente, los mismos rendimientos que un
determinado ndice burstil que se toma como referencia. Las estrategias de inversin
pasiva descansan en la creencia de que los mercados son eficientes y que es, por tanto,
imposible mejorar los rendimientos agregados del mercado de forma consistente. Este
tipo de estrategias se han hecho muy populares porque su coste es muy inferior al de las
estrategias activas. En este sentido, Elton et al. (1996) han demostrado en un exhaustivo
anlisis emprico que, histricamente, la mayora de los fondos gestionados de forma
activa no mejoran los rendimientos del mercado.
De cara a la formacin de una estrategia de inversin pasiva, hay dos posibles formas de
replicar el ndice burstil que se tome de referencia. Por un lado, se puede acudir a la
replicacin plena que consiste en la compra de todos los activos que conforman el
ndice, en la misma proporcin en que figuran en l. Esta replicacin plena tiene
numerosas desventajas tales como que ciertos activos de la cartera de rplica pueden
aparecer en muy pequeas cantidades, altos costes de transaccin y dificultades en la
Rect@
246
Vol 10 (2009)
recomposicin de la cartera cuando cambian los pesos en los activos financieros que
componen el ndice. Por esa razn el seguimiento de un ndice burstil se suele realizar
de esta otra forma, eligiendo un pequeo nmero de ttulos del ndice empleando algn
tipo de criterio.
En el trabajo de Fernndez-Rodrguez et al. (2009) se muestra como GASIC puede
contribuir a la seleccin de estos ttulos de forma muy eficiente, para el caso del
IBEX35. Se trata de resolver un complejo programa de programacin no lineal mixta
asociada con la seleccin de tales activos a la hora de replicar el ndice.
Especficamente, la tcnica que se propone con el propsito de seleccionar las acciones
en la cartera de seguimiento del ndice descansa en el siguiente modelo de regresin
k
rIt = 0 + i rit + ui
(19)
i =1
donde rIt representa el rendimiento del ndice en el momento t y rit el rendimiento del
activo financiero i en el momento t. Todos los rendimientos han sido obtenidos a partir
de la diferencia logartmica de los precios. Con el fin de obtener la cartera de rplica se
aaden al modelo las restricciones adicionales:
(a) 0 = 0
k
(b)
i =1
=1
(20)
(21)
Rect@
muestral, de modo que la cartera de rplica debera ser actualizada trimestralmente con
el fin de actualizar la informacin. As, con el fin de obtener predicciones extramuestrales, las estimaciones de la cartera de rplica, cada trimestre, se han realizado
usando observaciones del periodo muestral previo. Por tanto, durante el ltimo ao, la
cartera de rplica se reestructura cada tres meses, repitiendo el procedimiento GASIC
para la seleccin de ttulos y pesos. El nmero de empresas seleccionadas por GASIC
durante el ltimo ao fue de, 15 el primer cuatrimestre, 16 para el segundo, 16 para el
tercero y 14 para el cuarto. La composicin de la cartera de rplica es bastante estable
con respecto a los ttulos que contiene. As, ha habido 11 compaas que siempre han
formado parte de la cartera de rplica, mientras que cuatro han sido seleccionadas para
tres de los cuatro cuatrimestres; dos compaas fueron seleccionadas en dos
cuatrimestres; y una compaa fue solo seleccionada un cuatrimestre. Adems, los pesos
que tena cada ttulo en la cartera de rplica, durante los cuatro cuatrimestres, es muy
estable y su variacin nunca excede del 2.5% para dos cuatrimestres consecutivos. Tal
estabilidad de la cartera de rplica trae consigo la reduccin de los costes de transaccin
a la hora de hacer el seguimiento del ndice con estas carteras de rplica, respecto a la
realizacin de una replicacin plena basada en la adquisicin de todos los activos que
forman parte del ndice. Finalmente, tal como cabra esperar, los ttulos con peso ms
alto en las carteras de rplica han coincidido con aquellos que tienen un peso ms
elevado en el IBEX35, es decir, Telefnica, Santander y BBVA.
7. CONCLUSIONES
248
Vol 10 (2009)
caso en que las mltiples variables candidatas presenten una elevada correlacin entre
s. Adems, pese a tratarse de un procedimiento aleatorio que parte de una poblacin de
soluciones obtenidas inicialmente al azar, el algoritmo resulta muy robusto en el sentido
en que en casi el 100% de las veces obtiene el mismo modelo final, con independencia
de la semilla empleada.
GASIC ha sido empleado con xito en tres problemas prcticos, completamente
diferentes de la literatura econmica: la seleccin de variables que explican el
crecimiento econmico, la prediccin del fracaso empresarial y la formacin de una
cartera de pocos activos que siga el comportamiento de un ndice burstil como el
IBEX35.
Esta herramienta de seleccin de modelos presenta, por tanto, una amplia capacidad de
aplicaciones potenciales en numerosos otros campos de la economa.
REFERENCIAS BIBLIOGRFICAS
Credit Risk.
Altman, E. (2001). Bankruptcy, Credit Risk and High Yield Junk Bonds. Blackwell
Publishers. New York.
249
Vol 10 (2009)
Research 4, 71-111.
Elton, E., Gruber, G. y Blake, C. (1996). Survivorship bias and mutual fund
performance. Review of Financial Studies 9, 1097-1120.
Ebbeler, D.H. (1975). On the probability of Correct Model Selection Using the
Maximim R 2 Choice Criterion. International Economic Review, junio, 516-520.
Journal 2, 192-201.
250
Vol 10 (2009)
Holland, J. (1975). Adaptation in Natural and Artificial Systems. Ann Arbor: The
University of Michigan Press.
Leamer, E.E. (1983) Lets take the con out of econometrics. American Economic
Leamer, E.E. (1985). Sensitivity analyses would help. American Economic Review
75(5), 308-313.
Lovell, M.C. (1983) Data mining. Review of Economic and Statistics, 65 1-12.
Rect@
251
Vol 10 (2009)
Szpiro, G. G. (1997). A search for hidden relationship: Data mining with genetic
algorithms. Computational Economics 10, 267-277.
Rect@
252
Vol 10 (2009)