You are on page 1of 14

Introduccin a Modelos Lineales

Generalizados

R. Villegas, MSc PhD

Agosto 2017

1. Introduccin

Desde una perspectiva matemtica, el fundamento de gran parte de las pruebas


estadsticas se encuentra en el Modelo Lineal (ML) general o clsico. Su importan-
cia radica en que su estructura, suponemos, refleja los elementos explicativos de un
fenmeno por medio de relaciones funcionales probabilsticas entre variables.
El Modelo Lineal Generalizado (MLG), que trataremos en este curso, es la exten-
sin natural del Modelo Lineal clsico. Inicialmente expuesto por Nelder y Wedderburn
(1972), ha llegado a suponer una autntica revolucin estadstica, convirtindose en
una solucin especialmente adecuada para modelos de dependencia con datos no m-
tricos.
En los estudios en biomedicina es frecuente encontrarse con atributos que, siendo
en su dimensin latente continuos, se miden de forma no mtrica (discreta, nominal
u ordinal), no ajustndose, en consecuencia, al Modelo Lineal clsico e incumpliendo
los supuestos de linealidad y normalidad.
Ejemplos son la clasificacin binaria de sano-enfermo, la medida ordinal del nivel
de hipertensin, el recuento del nmero de clulas, etc., situaciones que requieren de

1
modelos que trabajen con datos dicotmicos, ordinales, categricos o de elecciones dis-
cretas, es decir, de modelos de probabilidad de un evento (fundamentalmente modelos
logit, probit, modelos de regresin de Poisson y modelos de regresin ordinal). Estos
modelos son parte integrante de los Modelos Lineales Generalizados y, junto con la
regresin lineal, el anlisis de varianza, la regresin logstica, los modelos de respuesta
multinomial, e incluso ciertos anlisis de la sobrevida y de series temporales, son, en
ltima instancia, extensiones del Modelo Lineal clsico.
Por tanto, para abordar aqu el Modelo Lineal Generalizado nos detenemos antes
en el Modelo Lineal clsico, justificando as la ubicacin del primero y posteriormente
haremos una comparacin entre ambos, Modelo Lineal y Modelo Lineal Generalizado.
Ahora bien, para hablar del Modelo Lineal Generalizado debemos explicar antes
el marco natural en el que se desarrolla, el modelado estadstico, un entorno que, a
diferencia de las aplicaciones ms tradicionales centradas en el contraste de hiptesis y
en las pruebas de significacin, se establece a partir de la dcada de los 60 atendiendo
a la estimacin de parmetros y a la comparacin y ajuste de modelos de probabilidad
a los datos empricos.

2. Modelado estadstico

El empleo de modelos es un proceso consustancial al ser humano. Para comprender


lo que sucede a nuestro alrededor, a partir de la observacin detallada de los aconte-
cimientos solemos elaborar modelos mentales sobre cmo funcionan los fenmenos,
pudiendo realizar, incluso, predicciones sobre ellos. En el mbito cientfico, un modelo
que explica un fenmeno suele expresarse de forma matemtica (un modelo que, igual-
mente, ha sido derivado de descripciones y que probablemente ser til para predecir).
Con esa vestimenta formal, la elaboracin de modelos a la que estamos acostumbrados
en la vida cotidiana puede transformarse aparentemente en algo extrao, pero no es

2
ms que una versin elegante del mismo procedimiento. As lo sealan McCullagh y
Nelder (1989) cuando afirman que la construccin de modelos requiere de una mezcla
de arte y conocimientos por parte del investigador.
Este proceso se conoce en ciencia como modelado matemtico o modelizacin ma-
temtica, y cuando los fenmenos a explicar son probabilsticos, antes que determins-
ticos (como sucede frecuentemente en las ciencias del comportamiento, sociales y de
la educacin), hablamos de modelado estadstico o estocstico.
En un sentido amplio, un modelo pretende explicar la variacin de una respues-
ta a partir de la relacin conjunta de dos fuentes de variabilidad, una de carcter
determinista y otra aleatoria, lo que responde a la expresin:
Respuesta = componente sistemtico + componente aleatorio.
Algunos autores toman la expresin anterior como:
DATOS = MODELO + ERROR,
asociando MODELO a la parte sistemtica. As, los DATOS corresponderan a las
observaciones que se quieren analizar (la variable de respuesta o variable dependiente).
MODELO es la funcin que se introduce con objeto de explicar los datos (una
funcin ponderada de una o ms variables explicativas o predictores). Y, dado que
la variabilidad recogida en DATOS no termina de estar explicada, se introduce el
trmino ERROR, que contiene la discrepancia o falta de ajuste entre DATOS y
MODELO (entre la realidad emprica y la explicacin terica o sustantiva). Es deseable
que el MODELO sea, por tanto, una buena representacin de los DATOS, de forma
que el ERROR se reduzca lo mximo posible.
De la construccin, formulacin y ajuste de modelos a los datos empricos se en-
carga precisamente el modelado estadstico, debiendo responder a tres criterios:

a) Criterio estadstico o principio de bondad de ajuste: la inclusin de parmetros


en el MODELO en beneficio de una mejor representacin de los DATOS con
la correspondiente disminucin del ERROR;

3
b) Criterio lgico o principio de parsimonia: la seleccin de los parmetros que
formen parte del modelo de tal modo que ste se convierta en una representacin
simple y sobria de la realidad y

c) Criterio sustantivo o integracin terica del modelo en la red conceptual que lo


gener.

Esta construccin del modelo ms parsimonioso que explique la variable respuesta


con el menor error posible se realiza atendiendo a unas etapas:

1. Especificacin del modelo terico, determinando qu variables son de inters,


as como cules son las relaciones entre ellas. Esta situacin da de lleno con el
dilema entre los principios de parsimonia versus ajuste: que el modelo describa
de la forma ms simple posible, o bien que la concordancia entre el modelo y los
datos sea lo ms completa posible, es decir, con el mnimo error.

2. Estimacin de parmetros, calculando el valor de los coeficientes del modelo


examinado a partir del conjunto de datos observados, al objeto de determinar
si el modelo terico propuesto es aceptable como representacin aproximada de
los datos.

3. Seleccin del modelo, valorando si el nivel de discrepancia entre los datos ob-
servados y los datos ajustados es suficientemente bajo como para optar por el
modelo o, por el contrario, suficientemente elevado como para rechazarlo.

4. Evaluacin del modelo, examinando las observaciones individuales (leverage points),


los datos influyentes (influentials) y los datos anmalos (outliers), as como com-
probando los supuestos de normalidad, linealidad, homoscedasticidad e indepen-
dencia.

4
5. Interpretacin del modelo, comprendiendo sus implicaciones con respecto a la
variable de respuesta. Esta fase conlleva una explicacin detallada de los par-
metros del modelo para comprobar si se cumplen los criterios estadstico, lgico
y sustantivo.

Finalmente se acepta o no el modelo y, si es preciso, se reinicia el proceso.


Un software estadstico que rene las caractersticas necesarias para trabajar el mo-
delado estadstico es Stata. La manera de trabajar del programa Stata con decisiones
y pasos sucesivos se adapta fcilmente a la filosofa del modelado: se van construyendo
distintos modelos, calculando, al mismo tiempo, medidas de la devianza o discrepan-
cia entre los valores empricos y los ajustados para valorar el modelo, aceptndolo
tentativamente o rechazndolo, y permitiendo, finalmente, una mejor integracin de
la solucin obtenida en la teora sustantiva de partida. Por estas razones el ejemplo
que aqu presentamos sobre una regresin de Poisson es ejecutado con Stata, especial-
mente diseado tambin para el trabajo con cualquiera de las funciones matemticas
que comprenden los Modelos Lineales Generalizados.

5
3. Modelo Lineal

La frmula general del Modelo Lineal es Y = f (X) + g(), donde toda observacin
sobre la variable de respuesta es la suma de: (a) los efectos de un grupo de factores
o componentes sistemticos f (X), que implican un conjunto de parmetros de una
poblacin y un conjunto de variables independientes relevantes medidas sobre cada
uno de los sujetos con los que se trabaja, y (b) la funcin g(), que representa el
efecto de los componentes aleatorios y es resultado de una o ms distribuciones de
probabilidad dependientes de un pequeo nmero de parmetros. En esta frmula
general tienen cabida una amplia variedad de modelos lineales representativos de las
relaciones estadsticas entre variables explicativas y de respuesta. Ahora bien, interesa
resaltar aquellos que cumplen con una serie de restricciones respecto a las variables
explicativas.
La primera es que para el caso de una variable de respuesta Y debe haber un
conjunto de observaciones yi sobre una o varias variables explicativas, y es necesario
establecer ciertos supuestos respecto a la distribucin de probabilidad de dichas va-
riables aleatorias, los cules, adems, varan segn la escala de medida utilizada. Una
segunda restriccin sobre las variables explicativas es que cada una representa una
muestra de valores observados seleccionados arbitrariamente por el investigador (com-
ponentes fijos) luego, al tratarse de valores prefijados, cualquier transformacin de una
variable explicativa puede ser considerada tambin como variable independiente. El
modelo debe incluir, adems, un conjunto de variables aleatorias no observables pero
s estimables: los parmetros del modelo (su estimacin es una etapa fundamental en
el ajuste del modelo, como ha quedado dicho). Por ltimo, es preciso que el modelo
incluya una o ms variables que no son ni observables ni estimables, los componentes
aleatorios, siendo el ms importante el componente de error aleatorio que recoge la
variabilidad debida a las diferencias individuales, a los errores de medida y, en general,

6
a otras variables explicativas no incluidas en el modelo.
Al hablar de Modelo Lineal es conveniente sealar que la linealidad puede tener
lugar de distintos modos y que, segn ellos se obtienen modelos de uno u otro tipo.
Cabe considerar como Modelo Lineal, no obstante, todo aquel que lo sea en sus par-
metros, con independencia de que sus variables explicativas cumplan esta condicin o
no. Se habla, entonces, de un Modelo Lineal de primer orden para k variables expli-
cativas y k + 1 parmetros si el modelo es lineal en sus parmetros y en sus variables
explicativas, respondiendo a la siguiente frmula general:

k
X
Y = 0 + j Xj + .
j=1

Si el modelo es lineal en sus parmetros pero no en las variables explicativas se-


ra un Modelo Lineal de m-simo orden (cuadrtico, cbico, etc.) con km variables
independientes y km + 1 parmetros. Puede incluir componentes de interaccin y ser
susceptible de ser linealizado transformando sus variables explicativas. Su formulacin
es:

k k
2
X X
Y = 0 + j Xj + j1 Xj1 + . . . + .
j=1 j=1

Si el modelo no es lineal en los parmetros y/o en las variables explicativas pue-


de adoptar mltiples formulaciones. No obstante, al poderse linealizar mediante las
transformaciones adecuadas suele ser tratado como modelo intrnsecamente lineal.
Los modelos que no se ajustan a ninguna de las anteriores situaciones son, entonces,
modelos no lineales.
Por otro lado, el Modelo Lineal es susceptible de numerosas variaciones para ajus-
tarse a las particularidades de una investigacin especfica, variaciones que a nivel
matemtico se ven reflejadas en las relaciones existentes entre la variable de respues-
ta, las variables explicativas, los parmetros del modelo y el componente de error

7
aleatorio. Sin embargo, por lo general, tres son las principales formas que el Modelo
Lineal general puede adoptar dependiendo de la estructura mtrica de las variables
explicativas: la forma de un modelo de regresin, la forma de un modelo de anlisis
de varianza (ANOVA) o de diseo experimental, y la forma de un modelo de anlisis
de covarianza (ANCOVA) o de diseo experimental con variables concomitantes
En los modelos de regresin las variables explicativas son de naturaleza mtri-
ca, cuantitativa continua o discreta, cumpliendo con los supuestos bsicos del Modelo
Lineal, a saber: linealidad, homoscedasticidad, normalidad e independencia de los erro-
res. Los modelos de regresin simple, mltiple, multivariante o la correlacin cannica
se incluyen en este tipo de modelos.
En los modelos de anlisis de varianza (ANOVA) o de diseos experimentales las
variables explicativas presentan una estructura no mtrica de carcter categrico (di-
cotmico o politmico), utilizando variables dummy con la intencin de representar
la pertenencia a los grupos que configuran las categoras. El inters fundamental de
estos modelos es la bsqueda de inferencias vlidas acerca de las medias poblacio-
nales a partir de las medias muestrales obtenidas en cada una de las condiciones de
tratamiento experimental. Aqu se sitan los modelos de ANOVA, que segn se con-
sidere el efecto de tratamiento pueden ser fijos, aleatorios o mixtos, y los modelos de
ANOVA factorial, que dependiendo de las relaciones entre los factores pueden ser de
clasificacin cruzada o anidada.
Por ltimo, en los modelos de anlisis de covarianza (ANCOVA) o modelos de
diseo experimental con variables concomitantes unas variables tienen una estructura
mtrica cuantitativa continua o discreta (covariables) y otras variables explicativas
tienen una estructura no mtrica. El objetivo de estos modelos es el mismo que el de
los modelos de anlisis de varianza, a saber, realizar inferencias sobre las medias de
los distintos grupos o condiciones de tratamiento, pero aqu se considera tambin la
posibilidad de reducir la varianza de error. Entre estos modelos se encuentra el modelo

8
de ANCOVA factorial, el modelo de ANCOVA multivariante, los diseos de bloques
aleatorios y, en general, el conjunto de diseos con variables concomitantes (cuadrado
latino, grecolatino, etc.).
En todos los modelos sealados se ha partido del supuesto de que la variable res-
puesta posee una estructura mtrica cuantitativa continua (habitualmente normal) o
discreta. Sin embargo, es posible flexibilizar este criterio y considerar una formulacin
ms general que permita tambin contemplar variables dependientes con una estruc-
tura no mtrica, es decir, variables categricas (ordinales o nominales), al tiempo que
relajar los supuestos del Modelos Lineal clsico, como la linealidad o la homoscedas-
ticidad, no as la independencia de los errores. Los modelos resultantes guardan una
estrecha similitud con los modelos citados y dan paso a los modelos con variables ca-
tegricas y a los Modelos Lineales Generalizados. En este gran grupo podemos situar
los modelos de regresin logstica, modelos logit, probit y modelos loglineales, entre
otros.
A modo de sntesis clasificatoria, los principales modelos apuntados hasta ahora se
recogen en la Tabla 1.

9
Figura 1: Principales modelos lineales generalizados (MLG).

10
4. Modelo Lineal Generalizado

Los primeros trabajos donde se introduce y desarrolla el Modelo Lineal Generaliza-


do son, respectivamente, Nelder y Wedderburgn (1972) y McCullagh y Nelder (1989).
Como ha quedado planteado, tanto el Modelo Lineal Generalizado (MLG) como
el modelado estadstico son herramientas metodolgicas que permiten codificar todas
las situaciones de anlisis dentro de un mismo esquema general. Obviamente, esto
facilita el aprendizaje de nuevos modelos de anlisis porque se trata simplemente
de contemplarlos como casos particulares de un modelo ms general ya conocido, el
Modelo Lineal (ML). Veamos las relaciones entre ambos.
En la siguiente figura (Fig. 2) puede observarse cmo el Modelo Lineal es el caso
ms elemental del Modelo Lineal Generalizado. Las coincidencias y las diferencias
entre uno y otro hacen posible, en el caso del MLG, un tratamiento matemtico y
estadstico adecuado a los niveles de medida de las variables que contiene.

Figura 2: Comparacin entre ML y MLG.

11
El MLG tiene componentes empricos (las variables que se registran) y componen-
tes tericos que son:
El vector de la respuesta media: g(i ) = i
El vector del predictor lineal: j xij (componente sistemtico) + i (componente
aleatorio).
Como puede verse en la figura anterior la expresin del modelo en ambos casos
(ML y MLG) es la misma, siendo los valores ajustados i = E(Yi ). El predictor lineal
P
tambin coincide: i = j j xj . Aparecen diferencias, no obstante, en la relacin entre
los valores ajustados i y el predictor lineal i . Estas diferencias se concretan en la
funcin de enlace y en la distribucin que sta debe seguir, funcin que cobra un
especial significado que pasamos a explicar.
(a) Mientras que en el ML se produce una relacin de identidad entre los valores
ajustados y el predictor lineal, i = i , en el MLG la linealidad se establece en la
escala del predictor lineal pero no en la escala de los valores ajustados.
Precisamente los trminos componente sistemtico y componente aleatorio respon-
den al enfoque del modelado estadstico al que nos hemos referido anteriormente. No
se da, por tanto, la identidad entre valores ajustados y valores predichos, sino que
entre ellos media una funcin que los relaciona, la funcin de enlace: g(i ) = i . Esto
hace que en el MLG ambos lados de la ecuacin no se expresen en la misma escala de
medida, lo que s sucede en el ML.
(b) El componente aleatorio del Modelo Lineal debe distribuirse normalmente, y
este hecho tiene una importancia considerable: segn sea la distribucin de los errores
sern las distribuciones condicionadas de los valores pronosticados del criterio, que,
por tanto, deben ser normales tambin. Esto es as porque ambas distribuciones estn
relacionadas a travs de una matriz, la matriz hat (ver Lpez-Gonzlez, 1994). En el
MLG sucede que el componente aleatorio no sigue necesariamente una distribucin
normal sino que utiliza cualquier distribucin de la familia exponencial y, en conse-

12
cuencia, las distribuciones de los valores pronosticados del criterio no sern normales
necesariamente (en Wood, 2006, 61 y en Faraway, 2006, 120 pueden consultarse las
distintas distribuciones de la familia exponencial).
(c) Las distribuciones condicionadas de los valores pronosticados de la variable
de respuesta en el ML deben ser homoscedsticas, y ello es posible siempre que esta
condicin se cumpla en el componente aleatorio. Como en el MLG los errores pueden
seguir cualquier distribucin de la familia exponencial, resulta que para la distribucin
de los errores la homoscedasticidad no es imprescindible. (d) Las diferencias expresadas
hasta ahora obligan a estimar los parmetros de un MLG con un mtodo de ajuste
distinto al procedimiento de mnimos cuadrados que se emplea en el ML: el mtodo
de mxima verosimilitud (que tambin puede ser aplicado en el ML).
Destacamos en el Modelo Lineal Generalizado, por tanto, el protagonismo de ese
tercer elemento que relaciona los componentes aleatorio y sistemtico, es decir, el
valor esperado y el valor predicho por el modelo: nos referimos a la funcin de enlace
g(). As, por ejemplo, para el caso de una variable de respuesta de recuento, el valor
esperado slo puede tomar valores enteros iguales o superiores a cero, mientras que
el predictor lineal i puede adoptar cualquier valor entre y +. Esto hace que el
valor esperado y el predictor lineal tengan diferentes escalas de medida, precisamente
por mediar entre ellos dicha funcin de enlace que termina transformando el valor de
recuento esperado a la escala del predictor lineal: g(i ) = i . La inversa de la funcin
de enlace (o funcin de transformacin) realiza el proceso contrario, y al ser aplicada
al resultado del predictor lineal i (que se halla en una escala de y +) se
obtiene el valor esperado, que se encuentra en la escala de la variable de respuesta:
i = g 1 (0 + 0 Xi ) .

13
5. Referencias

Nelder, J. y Wedderburn, R. (1972) Generalized Linear Models, Journal of the


Royal Statistical Society (A), 135, pp. 370-384.

Mccullagh, P. y Nelder, J. (1989) Generalized Linear Models (2 ed.) (London,


Chapman & Hall).

Dobson, A. J. y Barnett, A. (2008) An Introduction to Generalized Linear Mo-


dels (3a ed.) (Boca Raton, FL., Chapman and Hall/CRC).

Emelina Lpez-Gonzalez y Marcos Ruiz-Soler. (2011) Anlisis de datos con el


Modelo Lineal Generalizado. Una aplicacin con R. Revista Espaola de Peda-
goga Vol. 69, No. 248, pp. 59-80

14

You might also like