Professional Documents
Culture Documents
La Regresin Lineal Mltiple (RLM) es una tcnica que permite estudiar la relacin entre una
variable dependiente mtrica3 y dos o ms variables independientes usualmente mtricas
(tambin denominadas predictoras o explicativas), aunque tambin es posible incorporar
variables medidas a nivel ordinal o nominal. Las variables nominales deben ser recodificadas
como variables dummy, es decir, en categoras 0 (atributo omitido de referencia) y 1
(atributo a considerar). En trminos generales, la RLM intenta predecir o explicar los valores
de la variable dependiente a partir del conjunto de variables independientes consideradas en el
modelo.
La RLM se basa en el coeficiente de correlacin r de Pearson, pero nos permite ir ms all
del estudio de relaciones entre variables de modo de establecer predicciones (o modelos
explicativos). Entre mayor sea la correlacin entre las variables independientes y la
dependiente, mayor ser su capacidad de prediccin. Esto permite establecer hiptesis
correlacionales y causales. En el caso de hiptesis causales, cabe precisar, se requiere de un
fuerte fundamento terico/analtico, tanto para su formulacin como interpretacin, adems
de un diseo de investigacin apropiado (experimental o cuasi-experimental). El anlisis
estadstico no es suficiente para determinar una relacin de causalidad.
De igual modo, la seleccin apropiada de las variables requiere de un fundamento
terico/analtico adecuado y la revisin de estudios empricos previos. Con ello se ha de
determinar qu variables quedan dentro del modelo y cules no. En dicha opcin, solamente
podremos estudiar las relaciones entre las variables seleccionadas. Nada podremos decir
respecto de las variables que han sido excluidas. De lo que se trata entonces es de minimizar
el riesgo de incorporar un sesgo al anlisis debido a la omisin de variables relevantes (error
de especificacin). Y aunque la inclusin de variables independientes irrelevantes no implica
un sesgo, su incorporacin s reduce la parsimonia del modelo.
Se debe tener presente tambin, que no toda relacin causa-efecto es de tipo lineal, como es el
caso, por ejemplo, entre los niveles de ansiedad y el rendimiento acadmico. Llegado cierto
umbral de ansiedad, el nivel de rendimiento acadmico comienza a decrecer a medida que la
ansiedad aumenta. La relacin lineal que se estableca hasta antes de dicho umbral
desaparece. Por otra parte, debemos tener muy presente que algunas veces el bajo poder
predictivo de las variables consideradas en un modelo, no se debe tanto a su dbil relevancia
terica sino ms bien a un problema de validez (error de medida). Es decir, el concepto
medido empricamente no estara midiendo lo que intenta medir, afectando con ello su poder
predictivo.
Para estimar la lnea recta de regresin en la RLM se utiliza el criterio de los mnimos
cuadrados. Se trata de encontrar una lnea recta que minimice la diferencia entre los valores
observados (Y) y los valores esperados (Y). Es decir, que minimice su grado de dispersin
(varianza). De todas las rectas posibles, existe solamente una que logra pasar lo ms
equidistante de todos los puntos, es decir, que logra minimizar la suma al cuadrado de las
1
Notas preliminares para la elaboracin de un apunte de clases. Actualizado al primer semestre de 2009. No
reproducir sin la debida autorizacin del autor.
2
Socilogo y Magster en Ciencias Sociales de la Universidad de Chile; Ph.D. en Ciencia Poltica de la
Universidad de Essex, Inglaterra.
3
Se refiere a variables medidas a nivel intervalar o de razn.
diferencias entre Y e Y (esto es, el error). Entre menores sean las diferencias, ms precisa ser
la prediccin de nuestra variable dependiente (Y). Las diferencias se elevan al cuadrado
puesto que de lo contrario obtendramos valores tanto negativos como positivos, los cuales al
sumarlos se anularan.
La ecuacin de regresin resultante se expresa genricamente en los siguientes trminos:
Y = a + 1 X1 + 2 X2 + 3 X3+ 4 X4+ k Xk+
En donde, Y corresponde a la variable dependiente y X a las variables independientes, cada
una de las cuales va acompaada de un factor de que corresponde al peso de la variable
independiente en la ecuacin (ponderacin de la variable). La ecuacin incluye una constante
a (pendiente de la recta) y un error (que corresponde a lo no explicado por el modelo). Es
importante tener presente que la ecuacin de la recta resultante no define una recta en un
plano, sino en un hiperplano (espacio multidimensional).
Los coeficientes estimados en la ecuacin de regresin se utilizan para estimar los valores en
la variable dependiente y, a su vez, para expresar el cambio esperado en la variable
dependiente por cada unidad de cambio en las variables independientes. De modo que,
adems de la prediccin podemos estimar tambin cul de las variables independientes es la
que ms contribuye al cambio en la variable dependiente (mayor capacidad predictiva).
Puesto que las variables independientes suelen estar medidas en diferentes unidades, para
lograr lo anterior es necesario proceder a una estandarizacin de las variables. A partir de ello
se obtiene lo que se conoce como los coeficientes estandarizados beta. Al estandarizar los
coeficientes obtenemos una unidad comn de medida que nos permite evaluar la contribucin
relativa de cada variable al modelo.
Por otra parte, si bien es cierto que siempre es posible encontrar una recta que pase
equidistante a travs de una nube de puntos, no siempre dicha recta resume o da cuenta de
buen modo de los diferentes puntos. Esto tiene que ver con el error del modelo, es decir, la
varianza en la variable dependiente que no es explicada por el conjunto de las variables
independientes consideradas en el modelo. Para evaluar dicha capacidad predictiva o lo que es
lo mismo, la calidad de ajuste de la recta a la nube de puntos, es que usamos R cuadrado (R2).
Mediante R cuadrado podemos estimar cual es la proporcin de la varianza en la variable
dependiente explicada por el conjunto de variables independientes incluidas en el modelo. El
resto de la varianza, por tanto, por otras variables que no han sido consideradas o incluidas. R
cuadrado toma valores entre 0 y 1, dentro de tales rangos debemos interpretar la proporcin
de varianza explicada.
Tratamiento para las variables independientes nominales
Como se indic anteriormente, en el modelo de RLM es posible incorporar variables
independientes medidas a nivel nominal, sin embargo, stas deben ser recodificadas como
variables dummy, es decir, como variables dicotmicas cuyos valores son 0 y 1. Usualmente,
0 se refiere a la ausencia del atributo (o categora base) y 1 a la presencia del atributo (o
categora de referencia). Si pensamos en la variable Zona, usualmente sta aparece codificada
como: 1 = Urbano y 2 = Rural. Para transformarla en una variable dummy debemos proceder
a recodificar los valores asociados a las categoras originales en trminos de 0 y 1. En donde,
por ejemplo, 2 ser igual a 0.
Ciertamente el caso anterior es bastante sencillo. Algo ms complicado puede ser la situacin
de una variable nominal con varias categoras de respuesta como, por ejemplo, la variable
tendencia poltica cuyos valores (medidos en la Encuesta CEP) son: 1 = Alianza, 2 =
Concertacin de partidos por la democracia, 3 = Pacto Juntos Podemos y 4 = Otros. Una
opcin es i) recodificar la variable original en dos valores (0 y 1) y la otra consiste en ii) crear
tres nuevas variables (cada una con valores 0 y 1). Expliquemos esto.
En la primera situacin, podemos, por ejemplo, recodificar la variable original en los
siguientes trminos: 1 = Se Identifica con la Concertacin y 0 = No se Identifica con la
Concertacin. Por tanto, los valores originales 1, 3 y 4 pasan a tomar el valor 0, mientras que
el valor 2 es igual a 1. De este modo se generan dos grupos, los que se identifican versus los
que no se identifican con la Concertacin. Si bien tal solucin es correcta, alguien bien
pudiera estar interesado en trabajar con ms categoras de la variable tendencia poltica. En
dicha situacin se pueden generar tres nuevas variables (N de variables = N de categoras
1) escogiendo como categora base, por ejemplo, la categora Ninguno. Las tres nuevas
variables se expresaran del siguiente modo:
Categoras
Variable Dummy 1:
Identificacin con la
Alianza
Variable Dummy 2:
Identificacin con la
Concertacin
Ninguno
Alianza
Concertacin
Pacto Junto Podemos
0
1
0
0
0
0
1
0
Variable Dummy 3:
Identificacin con
Pacto Junto
Podemos
0
0
0
1
Como se puede apreciar se han creado tres nuevas variables a partir de la variable original (de
4 categoras). Si la variable original hubiese tenido 7 categoras se podran generar, por tanto,
6 nuevas variables dummy, as sucesivamente.
Objetivos
La RLM puede ser utilizada para responder al menos tres aspectos fundamentales en una
investigacin:
i) La capacidad del modelo en predecir (o explicar) a partir de un conjunto de variables
independientes el resultado de la variable dependiente (varianza).
ii) Determinar qu variable, dentro de un conjunto de variables independientes, es el
mejor predictor de la variable dependiente.
iii) Determinar la capacidad de una variable independiente (o un conjunto de ellas) de
predecir el resultado de la variable dependiente, controlando por el efecto del resto de
las variables independientes.
Condiciones de aplicacin
La RLM tiene un conjunto de condiciones de aplicacin, siendo un error comn el que se
descuide la adecuada verificacin acerca de si se cumplen o no tales condiciones. Esto puede
derivar en resultados inapropiados de los test de significacin (por ejemplo, que se muestren
3
Por otra parte, en la medida que la muestra sea muy grande (sobre 1.000 observaciones), la potencia estadstica
de los test de significacin se puede ver afectada. Los test se hacen demasiado sensibles de modo que casi
cualquier relacin es estadsticamente significativa.
5
Usamos el trmino multicolinealidad cuando hay ms de dos variables involucradas y de colinealidad cuando
hay dos.
extremos o bien son reclasificados. Los outliers deben chequearse en todas las variables,
ya sean independientes o dependiente. Si bien es recomendable eliminar tales casos, se
debe tener un especial cuidado de no eliminar aquellos que efectivamente son
representativos de la poblacin a partir de la cual ha sido extrada la muestra.
Normalidad, linealidad y homocedasticidad de los residuales: los residuales corresponden
las diferencias entre los valores observados y los valores estimados en la variable
dependiente. Por tanto dan cuenta del grado de exactitud de la prediccin: entre ms
pequeo sea el valor de los residuales, mejor es la prediccin. Dicho de otro modo, mejor
se ajusta la recta de regresin a la nube de puntos.
Normalidad: los residuos deben ajustarse a una distribucin normal. Las estimaciones
de los valores se calculan a partir del mtodo de los mnimos cuadrados. Se verifica
mediante un histograma de residuos, en el cual los residuos deben ajustarse a una
distribucin normal. Sin embargo, en muestras pequeas a veces la distribucin se
presenta deformada hacindose ms difcil su interpretacin. En tal caso, se hace ms
confiable chequear la linealidad de los residuales.
Linealidad: los residuales deben presentar una relacin lineal con los valores
estimados de la variable dependiente. Se verifica a partir de un grfico de
probabilidad normal, en donde se espera que los residuales se ajusten a una recta
diagonal.
Homocedasticidad: la varianza de los residuales sobre los valores estimados de la
variable dependiente deben ser los mismos para todos los valores estimados.
Mtodos de seleccin de las variables
Existen tres prodedimientos distintos de RLM que podemos utilizar en la seleccin de las
variables independientes que han de ser incorporadas al modelo. Ello sobre la base de respetar
el principio de parsimonia, el cual consiste en explicar el mximo de varianza en una variable
dependiente con el menor nmero posible de variables independientes. Por tanto, en el
modelo se han de considerar/retener aquellas variables que son ms significativas en su
capacidad predictiva.
Mtodo standard o simultneo: todas las variables independientes son incorporadas
simultneamente en la ecuacin. Cada variable independiente es evaluada en funcin de
su contribucin al modelo, esto es, su poder predictivo. Nos permite tambin determinar la
importancia relativa de cada variable. Vase i) y ii). En trminos de su uso, es el ms
frecuente.
Mtodo jerrquico o secuencial: las variables independientes son incorporadas en la
ecuacin en un cierto orden predefinido por el investigador, basado en su conocimiento
terico/analtico sobre el tema. Las variables son incorporadas en grupos (blocks), lo cual
permite estimar la contribucin explicativa de una variable independiente (o blocks) luego
de controlar por el efecto del resto de las variables independientes (o blocks). Por tanto, a
la vez que se logra i) y ii), tambin es posible determinar iii).
resto de las variables independientes sobre X1. En otras palabras, expresa la relacin entre
X1 e Y eliminando el efecto del resto de las variables sobre X1.6
ANOVA: indica si el modelo en su conjunto es estadsticamente significativo o no. Se debe
tener presente el nivel de significacin (mayor a 0.05 no es estadsticamente significativo).
Los coeficientes estandarizados beta: nos dan una medida de la contribucin relativa de
cada variable independiente al modelo (respecto de la variable dependiente). Se debe tener
presente el nivel de significacin (mayores a 0.05 no son estadsticamente significativos).
Aquellas variables que no son estadsticamente significativas no tienen ningn impacto en
el modelo. No contribuyen en nada a su capacidad predictiva, por lo cual pueden ser
eliminadas si se desea (R cuadrado no se ver afectado).
Sin embargo, al eliminar (o incorporar) variables en el modelo, los coeficientes
estandarizados beta son recalculados. Y su interpretacin no es en trminos absolutos,
sino ms bien en relacin a las otras variables consideradas en el modelo. Generalmente
se utilizan proporciones para comparar las variables entre s. Los valores fluctan entre 0
y 1. Entre ms cerca de 1, mayor ser la importancia o impacto de la variable
independiente sobre la dependiente. La importancia relativa de una variable respecto de
las otras se puede expresar en trminos de proporciones. El signo positivo o negativo de
los coeficientes nos indica si la relacin es directa o inversamente proporcional.
Mediante los coeficientes beta obtenemos los coeficientes de la ecuacin de la recta de
regresin estandarizada. Estos indican la cantidad de cambio (en puntuaciones tpicas,
esto es, estandarizadas) que se producir en la variable dependiente por cada cambio de
una unidad en la variable independiente que se escoja, manteniendo constante el resto de
las variables. Es por ello que se son muy tiles a la hora de evaluar la importancia relativa
de cada una de las variables en la ecuacin de la recta de regresin. Si queremos dar
cuenta de la recta en los valores de las unidades originales de las variables independientes,
debemos utilizar los coeficientes no estandarizados beta.
No debemos confundirlo con el coeficiente de correlacin parcial, el cual expresa la correlacin entre una
variable independiente X1 y una dependiente Y, eliminando los efectos de las otras variables independiente tanto
sobre X1 como Y.
Ejercicio aplicado
Veamos un ejemplo sencillo. Alguien puede estar especialmente interesado en determinar el
impacto que tiene sobre la percepcin de la situacin econmica del pas un conjunto de
variables independientes. En particular, podra plantearse las siguientes preguntas:
i) Cunto explican las variables sociodemogrficas (sexo, edad, Educacin, NSE y zona), la
identificacin con la Concertacin y la percepcin de la situacin econmica personal la
percepcin de la situacin econmica del pas?
ii) Cul es la variable que mayor impacto relativo tiene en la percepcin de la situacin
econmica del pas?
iii) Cunto explica la percepcin econmica personal la percepcin de la situacin
econmica del pas, controlando por el efecto del resto de las variables?
El procedimiento en SPSS sera el que se indica a continuacin:
10
Las respuestas a cada una de las preguntas planteadas anteriormente deben ser extradas a
partir de la interpretacin de las siguientes tablas:
Evaluando el modelo
R cuadrado
R cuadrado
corregida
Error tp. de la
estimacin
,177
,173
,792
,421a
ANOVAb
Suma de
cuadrados
Modelo
1
Media
cuadrtica
gl
Regresin
200,814
28,688
Residual
934,284
1489
,627
1135,099
1496
Total
F
45,718
Sig.
,000a
11
Coeficientesa
Coeficientes no
estandarizados
Modelo
1
Coeficientes
estandarizados
Error tp.
(Constante)
,827
,130
Sexo (Hombre)
,154
,041
Edad
,002
Aos de escolaridad
(en 4 grupos)
Nivel Socioeconmico
Beta
Sig.
6,381
,000
,088
3,733
,000
,001
,048
1,815
,070
,134
,030
,136
4,459
,000
,020
,043
,013
,469
,639
-,002
,064
-,001
-,037
,970
Identificacin con la
Concertacin (1 = S)
,147
,048
,072
3,043
,002
,366
,027
,339
13,551
,000
Zona (Urbana)
a. Variable dependiente: Cmo calificara Ud. la actual situacin econmica del pas?
R cuadrado
R cuadrado
corregida
Error tp. de la
estimacin
,275a
,075
,072
,839
,177
,173
,792
,421
12
ANOVAc
Suma de
cuadrados
Modelo
1
Regresin
Media
cuadrtica
gl
85,581
14,264
Residual
1049,517
1490
,704
Total
1135,099
1496
Regresin
200,814
28,688
Residual
934,284
1489
,627
1135,099
1496
Total
Sig.
20,249
,000a
45,718
,000b
___________________________________________________________________________
Bibliografa
Field, Andy (2003). Discovering Statistics Using SPSS for Windows (Sage, London).
Garca Ferrando, Manuel (1997). Socioestadstica (Alianza Editorial, Madrid).
Hair, Joseph et al (2007). Anlisis Multivariante. 5 Edicin (Pearson Prentice Hall, Madrid).
Leech, Nancy et al (2008). SPSS for Intermediate Statistics. Use and Interpretation. Third Edition (L.
Erlbaum Associates, New York).
Miles, Jeremy and Shevlin, Mark (2003). Applying Regression & Correlation (Sage, London).
Pallant, Julie (2003). SPSS Survival Manual. A Step by Step Guide to Data Analysis Using SPSS
(Buckinhad, Open University Press).
Pardo, Antonio y Ruiz, Miguel A. (2002). SPSS 11. Gua para Anlisis de Datos (McGraw-Hill,
Madrid)
Snchez Carrin, Juan J. (1995). Manual de Anlisis de Datos (Alianza Editorial, Madrid).
Ritzer, Ferris J. (2003). Estadstica para las Ciencias Sociales (McGraw-Hill, Mxico).
Tabachnick, Barbara y Fidell, Linda (2007). Using Multivariate Statistics. Fifth Edition (Pearson,
Boston).
13