Regresion Lineal Multiple

Regresin Lineal Mltiple1
Prof. Jaime Fierro2
La Regresin Lineal Mltiple (RLM) es una tcnica que permite estudiar la relacin entre una
variable dependiente mtrica3 y dos o ms variables independientes usualmente mtricas
(tambin denominadas predictoras o explicativas), aunque tambin es posible incorporar
variables medidas a nivel ordinal o nominal. Las variables nominales deben ser recodificadas
como variables dummy, es decir, en categoras 0 (atributo omitido de referencia) y 1
(atributo a considerar). En trminos generales, la RLM intenta predecir o explicar los valores
de la variable dependiente a partir del conjunto de variables independientes consideradas en el
modelo.
La RLM se basa en el coeficiente de correlacin r de Pearson, pero nos permite ir ms all
del estudio de relaciones entre variables de modo de establecer predicciones (o modelos
explicativos). Entre mayor sea la correlacin entre las variables independientes y la
dependiente, mayor ser su capacidad de prediccin. Esto permite establecer hiptesis
correlacionales y causales. En el caso de hiptesis causales, cabe precisar, se requiere de un
fuerte fundamento terico/analtico, tanto para su formulacin como interpretacin, adems
de un diseo de investigacin apropiado (experimental o cuasi-experimental). El anlisis
estadstico no es suficiente para determinar una relacin de causalidad.
De igual modo, la seleccin apropiada de las variables requiere de un fundamento
terico/analtico adecuado y la revisin de estudios empricos previos. Con ello se ha de
determinar qu variables quedan dentro del modelo y cules no. En dicha opcin, solamente
podremos estudiar las relaciones entre las variables seleccionadas. Nada podremos decir
respecto de las variables que han sido excluidas. De lo que se trata entonces es de minimizar
el riesgo de incorporar un sesgo al anlisis debido a la omisin de variables relevantes (error
de especificacin). Y aunque la inclusin de variables independientes irrelevantes no implica
un sesgo, su incorporacin s reduce la parsimonia del modelo.
Se debe tener presente tambin, que no toda relacin causa-efecto es de tipo lineal, como es el
caso, por ejemplo, entre los niveles de ansiedad y el rendimiento acadmico. Llegado cierto
umbral de ansiedad, el nivel de rendimiento acadmico comienza a decrecer a medida que la
ansiedad aumenta. La relacin lineal que se estableca hasta antes de dicho umbral
desaparece. Por otra parte, debemos tener muy presente que algunas veces el bajo poder
predictivo de las variables consideradas en un modelo, no se debe tanto a su dbil relevancia
terica sino ms bien a un problema de validez (error de medida). Es decir, el concepto
medido empricamente no estara midiendo lo que intenta medir, afectando con ello su poder
predictivo.
Para estimar la lnea recta de regresin en la RLM se utiliza el criterio de los mnimos
cuadrados. Se trata de encontrar una lnea recta que minimice la diferencia entre los valores
observados (Y) y los valores esperados (Y). Es decir, que minimice su grado de dispersin
(varianza). De todas las rectas posibles, existe solamente una que logra pasar lo ms
equidistante de todos los puntos, es decir, que logra minimizar la suma al cuadrado de las
1
Notas preliminares para la elaboracin de un apunte de clases. Actualizado al primer semestre de 2009. No
reproducir sin la debida autorizacin del autor.
2
Socilogo y Magster en Ciencias Sociales de la Universidad de Chile; Ph.D. en Ciencia Poltica de la
Universidad de Essex, Inglaterra.
3
Se refiere a variables medidas a nivel intervalar o de razn.
diferencias entre Y e Y (esto es, el error). Entre menores sean las diferencias, ms precisa ser
la prediccin de nuestra variable dependiente (Y). Las diferencias se elevan al cuadrado
puesto que de lo contrario obtendramos valores tanto negativos como positivos, los cuales al
sumarlos se anularan.
La ecuacin de regresin resultante se expresa genricamente en los siguientes trminos:
Y = a + 1 X1 + 2 X2 + 3 X3+ 4 X4+ k Xk+
En donde, Y corresponde a la variable dependiente y X a las variables independientes, cada
una de las cuales va acompaada de un factor de que corresponde al peso de la variable
independiente en la ecuacin (ponderacin de la variable). La ecuacin incluye una constante
a (pendiente de la recta) y un error (que corresponde a lo no explicado por el modelo). Es
importante tener presente que la ecuacin de la recta resultante no define una recta en un
plano, sino en un hiperplano (espacio multidimensional).
Los coeficientes estimados en la ecuacin de regresin se utilizan para estimar los valores en
la variable dependiente y, a su vez, para expresar el cambio esperado en la variable
dependiente por cada unidad de cambio en las variables independientes. De modo que,
adems de la prediccin podemos estimar tambin cul de las variables independientes es la
que ms contribuye al cambio en la variable dependiente (mayor capacidad predictiva).
Puesto que las variables independientes suelen estar medidas en diferentes unidades, para
lograr lo anterior es necesario proceder a una estandarizacin de las variables. A partir de ello
se obtiene lo que se conoce como los coeficientes estandarizados beta. Al estandarizar los
coeficientes obtenemos una unidad comn de medida que nos permite evaluar la contribucin
relativa de cada variable al modelo.
Por otra parte, si bien es cierto que siempre es posible encontrar una recta que pase
equidistante a travs de una nube de puntos, no siempre dicha recta resume o da cuenta de
buen modo de los diferentes puntos. Esto tiene que ver con el error del modelo, es decir, la
varianza en la variable dependiente que no es explicada por el conjunto de las variables
independientes consideradas en el modelo. Para evaluar dicha capacidad predictiva o lo que es
lo mismo, la calidad de ajuste de la recta a la nube de puntos, es que usamos R cuadrado (R2).
Mediante R cuadrado podemos estimar cual es la proporcin de la varianza en la variable
dependiente explicada por el conjunto de variables independientes incluidas en el modelo. El
resto de la varianza, por tanto, por otras variables que no han sido consideradas o incluidas. R
cuadrado toma valores entre 0 y 1, dentro de tales rangos debemos interpretar la proporcin
de varianza explicada.
Tratamiento para las variables independientes nominales
Como se indic anteriormente, en el modelo de RLM es posible incorporar variables
independientes medidas a nivel nominal, sin embargo, stas deben ser recodificadas como
variables dummy, es decir, como variables dicotmicas cuyos valores son 0 y 1. Usualmente,
0 se refiere a la ausencia del atributo (o categora base) y 1 a la presencia del atributo (o
categora de referencia). Si pensamos en la variable Zona, usualmente sta aparece codificada
como: 1 = Urbano y 2 = Rural. Para transformarla en una variable dummy debemos proceder
a recodificar los valores asociados a las categoras originales en trminos de 0 y 1. En donde,
por ejemplo, 2 ser igual a 0.
Ciertamente el caso anterior es bastante sencillo. Algo ms complicado puede ser la situacin
de una variable nominal con varias categoras de respuesta como, por ejemplo, la variable
tendencia poltica cuyos valores (medidos en la Encuesta CEP) son: 1 = Alianza, 2 =
Concertacin de partidos por la democracia, 3 = Pacto Juntos Podemos y 4 = Otros. Una
opcin es i) recodificar la variable original en dos valores (0 y 1) y la otra consiste en ii) crear
tres nuevas variables (cada una con valores 0 y 1). Expliquemos esto.
En la primera situacin, podemos, por ejemplo, recodificar la variable original en los
siguientes trminos: 1 = Se Identifica con la Concertacin y 0 = No se Identifica con la
Concertacin. Por tanto, los valores originales 1, 3 y 4 pasan a tomar el valor 0, mientras que
el valor 2 es igual a 1. De este modo se generan dos grupos, los que se identifican versus los
que no se identifican con la Concertacin. Si bien tal solucin es correcta, alguien bien
pudiera estar interesado en trabajar con ms categoras de la variable tendencia poltica. En
dicha situacin se pueden generar tres nuevas variables (N de variables = N de categoras
1) escogiendo como categora base, por ejemplo, la categora Ninguno. Las tres nuevas
variables se expresaran del siguiente modo:
Categoras
Variable Dummy 1:
Identificacin con la
Alianza
Variable Dummy 2:
Concertacin
Ninguno
Alianza
Concertacin
Pacto Junto Podemos
0
1
0
0
0
0
1
0
Variable Dummy 3:
Identificacin con
Pacto Junto
Podemos
0
0
0
1
Como se puede apreciar se han creado tres nuevas variables a partir de la variable original (de
4 categoras). Si la variable original hubiese tenido 7 categoras se podran generar, por tanto,
6 nuevas variables dummy, as sucesivamente.
Objetivos
La RLM puede ser utilizada para responder al menos tres aspectos fundamentales en una
investigacin:
i) La capacidad del modelo en predecir (o explicar) a partir de un conjunto de variables
independientes el resultado de la variable dependiente (varianza).
ii) Determinar qu variable, dentro de un conjunto de variables independientes, es el
mejor predictor de la variable dependiente.
iii) Determinar la capacidad de una variable independiente (o un conjunto de ellas) de
predecir el resultado de la variable dependiente, controlando por el efecto del resto de
las variables independientes.
Condiciones de aplicacin
La RLM tiene un conjunto de condiciones de aplicacin, siendo un error comn el que se
descuide la adecuada verificacin acerca de si se cumplen o no tales condiciones. Esto puede
derivar en resultados inapropiados de los test de significacin (por ejemplo, que se muestren
3
significativos cuando en realidad no los son o viceversa), generando estimaciones sesgadas e

imprecisas en la variable dependiente. A continuacin se revisan brevemente cada uno de
ellos.
Tamao de la muestra: cuando se trabaja con muestras pequeas uno puede obtener
resultados que no susceptibles de generalizar (que no se pueden repetir) a otras muestras.
Es por ello que se fijan algunos criterios para resguardar lo anterior. Uno de ellos consiste
en considerar al menos 15 casos por cada variable independiente a ser incorporada en la
ecuacin. Algunos argumentan que debiera considerarse al menos 40 casos por cada
variable independiente. Otro, consiste en considerar un nmero de casos de al menos 8
veces el nmero de variables independientes ms 50 (N > 50 + 8 * N variables
independientes).4
Nivel de medicin: la variable dependiente debe estar medida a nivel intervalar o de razn.
Las variables independientes pueden ser intervalares o de razn, ordinales y nominales
(requieren recodificacin).
Multicolinealidad: se da cuando dos variables independientes se encuentran altamente
correlacionadas (r de Pearson 0.90 r de Pearson 0.70), lo cual significa que aportan
informacin muy similar difcil de separar. Es decir, se hace difcil estimar la contribucin
de cada variable (comparten mucha varianza) a la estimacin de la variable dependiente.
Lo ideal es que las variables independientes estn altamente correlacionadas con la
variable dependiente y que tengan una baja correlacin entre s, pero esto es algo que no
siempre se da. En caso de presentarse dos variables independientes altamente
correlacionadas habra que optar por una de las dos, usualmente la que es tericamente
ms relevante (evitando as el error de especificacin). Otra alternativa, es generar una
nueva variable a partir de las dos.
En la eventualidad de no realizar el procedimiento anterior, lo que ocurra es que el poder
predictivo de cada variable independiente se ver seriamente afectado. A medida que
aumenta la colinealidad,5 la varianza explicada por cada variable independiente se reduce
y aumenta la varianza compartida. Las variables consideradas al compartir mucha
informacin en comn (varianza), poco agregan de informacin adicional al modelo. Con
ello se genera un modelo con muchas variables las cuales tienen una muy baja capacidad
explicativa debido a la multicolinealidad. Y, en algunos casos tambin, pueden llegar a ser
estadsticamente no significativas. En otras palabras, una alta correlacin entre las
variables independientes hace que algunas variables sean absolutamente redundantes en la
prediccin de la variable dependiente, debido a que agregan muy poca informacin
adicional al modelo predictivo. Finalmente, altos grados de multicolinealidad pueden
tener como consecuencia una incorrecta estimacin de los coeficientes de regresin.
Outliers: RLM es muy sensible a los valores extremos (valores muy bajos o muy altos).
La lnea recta intenta pasar equidistante de todos los puntos y, por ende, tiende a desviarse
hacia los valores extremos. Los outliers tienden a generar un efecto desproporcionado
sobre los resultados de la regresin. Usualmente se eliminan los casos con valores
4
Por otra parte, en la medida que la muestra sea muy grande (sobre 1.000 observaciones), la potencia estadstica
de los test de significacin se puede ver afectada. Los test se hacen demasiado sensibles de modo que casi
cualquier relacin es estadsticamente significativa.
5
Usamos el trmino multicolinealidad cuando hay ms de dos variables involucradas y de colinealidad cuando
hay dos.
extremos o bien son reclasificados. Los outliers deben chequearse en todas las variables,
ya sean independientes o dependiente. Si bien es recomendable eliminar tales casos, se
debe tener un especial cuidado de no eliminar aquellos que efectivamente son
representativos de la poblacin a partir de la cual ha sido extrada la muestra.
Normalidad, linealidad y homocedasticidad de los residuales: los residuales corresponden
las diferencias entre los valores observados y los valores estimados en la variable
dependiente. Por tanto dan cuenta del grado de exactitud de la prediccin: entre ms
pequeo sea el valor de los residuales, mejor es la prediccin. Dicho de otro modo, mejor
se ajusta la recta de regresin a la nube de puntos.
Normalidad: los residuos deben ajustarse a una distribucin normal. Las estimaciones
de los valores se calculan a partir del mtodo de los mnimos cuadrados. Se verifica
mediante un histograma de residuos, en el cual los residuos deben ajustarse a una
distribucin normal. Sin embargo, en muestras pequeas a veces la distribucin se
presenta deformada hacindose ms difcil su interpretacin. En tal caso, se hace ms
confiable chequear la linealidad de los residuales.
Linealidad: los residuales deben presentar una relacin lineal con los valores
estimados de la variable dependiente. Se verifica a partir de un grfico de
probabilidad normal, en donde se espera que los residuales se ajusten a una recta
diagonal.
Homocedasticidad: la varianza de los residuales sobre los valores estimados de la
variable dependiente deben ser los mismos para todos los valores estimados.
Mtodos de seleccin de las variables
Existen tres prodedimientos distintos de RLM que podemos utilizar en la seleccin de las
variables independientes que han de ser incorporadas al modelo. Ello sobre la base de respetar
el principio de parsimonia, el cual consiste en explicar el mximo de varianza en una variable
dependiente con el menor nmero posible de variables independientes. Por tanto, en el
modelo se han de considerar/retener aquellas variables que son ms significativas en su
capacidad predictiva.
Mtodo standard o simultneo: todas las variables independientes son incorporadas
simultneamente en la ecuacin. Cada variable independiente es evaluada en funcin de
su contribucin al modelo, esto es, su poder predictivo. Nos permite tambin determinar la
importancia relativa de cada variable. Vase i) y ii). En trminos de su uso, es el ms
frecuente.
Mtodo jerrquico o secuencial: las variables independientes son incorporadas en la
ecuacin en un cierto orden predefinido por el investigador, basado en su conocimiento
terico/analtico sobre el tema. Las variables son incorporadas en grupos (blocks), lo cual
permite estimar la contribucin explicativa de una variable independiente (o blocks) luego
de controlar por el efecto del resto de las variables independientes (o blocks). Por tanto, a
la vez que se logra i) y ii), tambin es posible determinar iii).
Es importante enfatizar que no se trata de realizar un ejercicio arbitrario en la secuencia en

que las variables son introducidas al modelo. La opcin adoptada debe dar cuenta de
consideraciones tericas o del marco conceptual con el que se est trabajando.
Mtodo estadstico: las variables independientes a ser incorporadas en la ecuacin son
seleccionadas mediante un conjunto de procedimientos estadsticos, con independencia de
los presupuestos terico/analticos del investigador. Tres son los procedimientos que se
pueden emplear en este caso: i) forward selection (procedimiento de adicin progresiva).
La primera variable incorporada al modelo es la que mayor correlacin presenta con la
variable dependiente y as sucesivamente; ii) bacward elimination (procedimiento de
eliminacin progresiva). Se incorporan todas las variables independientes al modelo y
luego se procede a eliminar progresivamente todas aquellas que no realicen una
contribucin significativa al modelo; y iii) stepwise selection (procedimiento por etapas).
Es una mezcla de los dos procedimientos anteriores. Las variables son seleccionadas por
etapas. La primera variable incorporada al modelo es la que presenta una ms alta
correlacin con la variable dependiente. En cada etapa se introduce o elimina una variable,
concluyendo el proceso cuando todas las variables han satisfecho los requisitos de
incorporacin/eliminacin. A diferencia de los mtodos anteriores, en donde ya sea se
aade o elimina una variable de modo irreversible, aqu es posible revertir la accin
posteriormente.
De los tres mtodos, stepwise selection es el ms empleado. Sin embargo, existe mucha
controversia respecto la conveniencia o no de utilizar alguno de estos procedimientos. En
particular, el mtdodo stepwise selection puede introducir un sesgo importante en la
medida que considera una sola variable a la vez. A veces se da una interaccin entre las
variables independientes que hace que si, por ejemplo, se introducen las dos variables
stas expliquen ms que si son consideradas de modo individual (debido al efecto de
interaccin que se genera entre ellas). Es ms, puede que consideradas individualmente no
sean estadsticamente significativas.
Instrucciones Generales para la RLM en SPSS
Mtodo Standard
1. Analizar Regresin Lineal
2. Ingresar la variable dependiente en la casilla Dependiente
3. Ingresar las variables independientes en la casilla Independientes
4. Mtodo Introducir
5. Opciones Excluir casos segn pareja (en valores perdidos)
6. Continuar Aceptar
Mtodo Jerrquico
El procedimiento es similar al caso anterior, salvo que al momento de ingresar las variables
independientes en la casilla Independientes, stas no son ingresas todas de una sola vez sino
que en bloques mediante la opcin Siguiente.
Verificando los supuestos de aplicacin de la RLM

Multicolinealidad
Correlaciones: muestra una matiz de correlaciones entre las variables independientes
incorporadas al modelo. Por regla general, valores superiores a 0,9 (r de Pearson) son
considerados como una indicacin clara de colinealidad. Sin embargo, no siempre valores
inferiores a 0,9 son garanta de no colinealidad ya que se puede dar un efecto combinado
de dos o ms variables independientes. En tal caso recurrimos a los valores de tolerancia
y, lo que es su inverso, el factor de inflacin de varianza (VIF).
Estadsticos de colinealidad: nos indican el grado en que cada variable independiente es
determinada por las dems. Los valores de tolerancia corresponden a una medida de
correlacin entre las variables independientes cuyo valor vara entre 0 y 1. El valor de
tolerancia es 1 menos la proporcin de la varianza explicada por las otras variables
independientes. En donde, valores cercanos a 0 indican una fuerte correlacin entre la
variable independiente y el resto de las variables independientes. Como criterio, se puede
sealar, habra que excluir del modelo todas aquellas variables cuyos valores de
tolerancia son inferiores a 0,10. Por otra parte, VIF es una medida alternativa de
colinealidad, que corresponde al inverso de la tolerancia. Valores altos indican una fuerte
correlacin entre las variables independientes, en este caso, valores VIF sobre 10.
Outliers
Los outliers en la variable dependiente pueden ser detectados mediante un grfico de
estandarizacin de los residuales. Algunos autores consideran como outliers a todos
aquellos valores estandarizados de los residuales mayores a 3.3 desviaciones tpicas.
Normalidad, linealidad y homocedasticidad de los residuales
Se puede verificar inspeccionando los grficos de los residuos tipificados mediante un
Histograma y un Grfico de probabilidad normal.
Evaluando el Modelo
Resumen del Modelo: permite evaluar la contribucin de las variables independientes en
explicar la varianza de la variable dependiente (R cuadrado). Se expresa en trminos de
una proporcin, tomando valores entre 0 y 1. Si lo multiplicamos por 100 obtenemos el
porcentaje de varianza explicada. R Cuadrado Corregido corresponde al parmetro para el
Universo en la inferencia estadstica, en tanto R Cuadrado lo es para la muestra.
El valor de R cuadrado se calcula a partir de la suma al cuadrado de las correlaciones
semiparciales, las cuales corresponden a la varianza nica explicada por cada variable
independiente. Una correlacin semiparcial refleja la correlacin entre una variable
independiente X1 y una dependiente Y, mientras se controlan los efectos predictivos del
resto de las variables independientes sobre X1. En otras palabras, expresa la relacin entre
X1 e Y eliminando el efecto del resto de las variables sobre X1.6
ANOVA: indica si el modelo en su conjunto es estadsticamente significativo o no. Se debe
tener presente el nivel de significacin (mayor a 0.05 no es estadsticamente significativo).
Los coeficientes estandarizados beta: nos dan una medida de la contribucin relativa de
cada variable independiente al modelo (respecto de la variable dependiente). Se debe tener
presente el nivel de significacin (mayores a 0.05 no son estadsticamente significativos).
Aquellas variables que no son estadsticamente significativas no tienen ningn impacto en
el modelo. No contribuyen en nada a su capacidad predictiva, por lo cual pueden ser
eliminadas si se desea (R cuadrado no se ver afectado).
Sin embargo, al eliminar (o incorporar) variables en el modelo, los coeficientes
estandarizados beta son recalculados. Y su interpretacin no es en trminos absolutos,
sino ms bien en relacin a las otras variables consideradas en el modelo. Generalmente
se utilizan proporciones para comparar las variables entre s. Los valores fluctan entre 0
y 1. Entre ms cerca de 1, mayor ser la importancia o impacto de la variable
independiente sobre la dependiente. La importancia relativa de una variable respecto de
las otras se puede expresar en trminos de proporciones. El signo positivo o negativo de
los coeficientes nos indica si la relacin es directa o inversamente proporcional.
Mediante los coeficientes beta obtenemos los coeficientes de la ecuacin de la recta de
regresin estandarizada. Estos indican la cantidad de cambio (en puntuaciones tpicas,
esto es, estandarizadas) que se producir en la variable dependiente por cada cambio de
una unidad en la variable independiente que se escoja, manteniendo constante el resto de
las variables. Es por ello que se son muy tiles a la hora de evaluar la importancia relativa
de cada una de las variables en la ecuacin de la recta de regresin. Si queremos dar
cuenta de la recta en los valores de las unidades originales de las variables independientes,
debemos utilizar los coeficientes no estandarizados beta.
No debemos confundirlo con el coeficiente de correlacin parcial, el cual expresa la correlacin entre una
variable independiente X1 y una dependiente Y, eliminando los efectos de las otras variables independiente tanto
sobre X1 como Y.
Ejercicio aplicado
Veamos un ejemplo sencillo. Alguien puede estar especialmente interesado en determinar el
impacto que tiene sobre la percepcin de la situacin econmica del pas un conjunto de
variables independientes. En particular, podra plantearse las siguientes preguntas:
i) Cunto explican las variables sociodemogrficas (sexo, edad, Educacin, NSE y zona), la
identificacin con la Concertacin y la percepcin de la situacin econmica personal la
percepcin de la situacin econmica del pas?
ii) Cul es la variable que mayor impacto relativo tiene en la percepcin de la situacin
econmica del pas?
iii) Cunto explica la percepcin econmica personal la percepcin de la situacin
econmica del pas, controlando por el efecto del resto de las variables?
El procedimiento en SPSS sera el que se indica a continuacin:
10
Las respuestas a cada una de las preguntas planteadas anteriormente deben ser extradas a
partir de la interpretacin de las siguientes tablas:
Evaluando el modelo
Resumen del modelo

Modelo
R cuadrado
R cuadrado
corregida
Error tp. de la
estimacin
,177
,173
,792
,421a
a. Variables predictoras: (Constante), Cmo calificara Ud.

SU actual situacin econmica? , Zona (Urbana),
Identificacin con la Concertacin (1 = S), Sexo (Hombre),
Edad, Nivel Socioeconmico, Aos de escolaridad (en 4
grupos)
Respuesta 1: el conjunto de variables independientes consideradas en el modelo explican el

17,3% (R cuadrado corregida) de la varianza en la percepcin de la situacin econmica del
pas. El modelo en su conjunto es estadsticamente significativo ya que el nivel de
significacin en la tabla de ANOVA es menor a 0.05.
ANOVAb
Suma de
cuadrados
Modelo
1
Media
cuadrtica
gl
Regresin
200,814
28,688
Residual
934,284
1489
,627
1135,099
1496
Total
F
45,718
Sig.
,000a
a. Variables predictoras: (Constante), Cmo calificara Ud. SU actual situacin

econmica? , Zona (Urbana), Identificacin con la Concertacin (1 = S), Sexo
(Hombre), Edad, Nivel Socioeconmico, Aos de escolaridad (en 4 grupos)
b. Variable dependiente: Cmo calificara Ud. la actual situacin econmica del
pas?
11
Coeficientesa
Coeficientes no
estandarizados
Modelo
1
Coeficientes
estandarizados
Error tp.
(Constante)
,827
,130
Sexo (Hombre)
,154
,041
Edad
,002
Aos de escolaridad
(en 4 grupos)
Nivel Socioeconmico
Beta
Sig.
6,381
,000
,088
3,733
,000
,001
,048
1,815
,070
,134
,030
,136
4,459
,000
,020
,043
,013
,469
,639
-,002
,064
-,001
-,037
,970
Concertacin (1 = S)
,147
,048
,072
3,043
,002
Cmo calificara Ud.

SU actual situacin
econmica?
,366
,027
,339
13,551
,000
Zona (Urbana)
a. Variable dependiente: Cmo calificara Ud. la actual situacin econmica del pas?
Respuesta 2: del conjunto de variables independientes incorporadas al modelo, Edad, NSE y

zona no son estadsticamente significativas. La variable percepcin de la situacin
econmica personal es la que mayor impacto relativo tiene sobre la percepcin de la
situacin econmica del pas (coeficiente estandarizado beta = ,339), verificndose una
relacin directamente proporcional. Esto es, a medida me mejora la percepcin de la
situacin econmica personal, mejora tambin la percepcin de la situacin econmica del
pas. Por otra parte, dicha variable tiene un impacto de 2,5 veces ms que aos de
escolaridad sobre la percepcin de la situacin econmica del pas (0,339/0,136).
Resumen del modelo
Modelo
R cuadrado
R cuadrado
corregida
Error tp. de la
estimacin
,275a
,075
,072
,839
,177
,173
,792
,421
a. Variables predictoras: (Constante), Identificacin con la

Concertacin (1 = S), Aos de escolaridad (en 4 grupos),
Sexo (Hombre), Zona (Urbana), Edad, Nivel
Socioeconmico
b. Variables predictoras: (Constante), Identificacin con la
Concertacin (1 = S), Aos de escolaridad (en 4 grupos),
Sexo (Hombre), Zona (Urbana), Edad, Nivel
Socioeconmico, Cmo calificara Ud. SU actual
situacin econmica?
Respuesta 3: la variable percepcin de la situacin econmica personal explica el 10,1% de

la varianza en la percepcin de la situacin econmica del pas (diferencia en R cuadrado
corregida entre el modelo 1 y 2), controlando por el efecto del resto de las variables
independientes. Los modelos en ambos casos estadsticamente significativo ya que el nivel de
significacin en la tabla de ANOVA es menor a 0.05.
12
ANOVAc
Suma de
cuadrados
Modelo
1
Regresin
Media
cuadrtica
gl
85,581
14,264
Residual
1049,517
1490
,704
Total
1135,099
1496
Regresin
200,814
28,688
Residual
934,284
1489
,627
1135,099
1496
Total
Sig.
20,249
,000a
45,718
,000b
a. Variables predictoras: (Constante), Identificacin con la Concertacin (1 = S),

Aos de escolaridad (en 4 grupos), Sexo (Hombre), Zona (Urbana), Edad, Nivel
Socioeconmico
b. Variables predictoras: (Constante), Identificacin con la Concertacin (1 = S),
Aos de escolaridad (en 4 grupos), Sexo (Hombre), Zona (Urbana), Edad, Nivel
Socioeconmico, Cmo calificara Ud. SU actual situacin econmica?
c. Variable dependiente: Cmo calificara Ud. la actual situacin econmica del
pas?
Verificando las condiciones de aplicacin

*** Dichos contenidos sern estudiados en el curso de Anlisis de Datos II.
___________________________________________________________________________
Bibliografa
Field, Andy (2003). Discovering Statistics Using SPSS for Windows (Sage, London).
Garca Ferrando, Manuel (1997). Socioestadstica (Alianza Editorial, Madrid).
Hair, Joseph et al (2007). Anlisis Multivariante. 5 Edicin (Pearson Prentice Hall, Madrid).
Leech, Nancy et al (2008). SPSS for Intermediate Statistics. Use and Interpretation. Third Edition (L.
Erlbaum Associates, New York).
Miles, Jeremy and Shevlin, Mark (2003). Applying Regression & Correlation (Sage, London).
Pallant, Julie (2003). SPSS Survival Manual. A Step by Step Guide to Data Analysis Using SPSS
(Buckinhad, Open University Press).
Pardo, Antonio y Ruiz, Miguel A. (2002). SPSS 11. Gua para Anlisis de Datos (McGraw-Hill,
Madrid)
Snchez Carrin, Juan J. (1995). Manual de Anlisis de Datos (Alianza Editorial, Madrid).
Ritzer, Ferris J. (2003). Estadstica para las Ciencias Sociales (McGraw-Hill, Mxico).
Tabachnick, Barbara y Fidell, Linda (2007). Using Multivariate Statistics. Fifth Edition (Pearson,
Boston).
13

Regresion Lineal Multiple

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresion Lineal Multiple

Uploaded by

Copyright:

Available Formats

Regresin Lineal Mltiple1

Prof. Jaime Fierro2

significativos cuando en realidad no los son o viceversa), generando estimaciones sesgadas e

Es importante enfatizar que no se trata de realizar un ejercicio arbitrario en la secuencia en

Verificando los supuestos de aplicacin de la RLM

Resumen del modelo

a. Variables predictoras: (Constante), Cmo calificara Ud.

Respuesta 1: el conjunto de variables independientes consideradas en el modelo explican el

a. Variables predictoras: (Constante), Cmo calificara Ud. SU actual situacin

Cmo calificara Ud.

Respuesta 2: del conjunto de variables independientes incorporadas al modelo, Edad, NSE y

a. Variables predictoras: (Constante), Identificacin con la

Respuesta 3: la variable percepcin de la situacin econmica personal explica el 10,1% de

a. Variables predictoras: (Constante), Identificacin con la Concertacin (1 = S),

Verificando las condiciones de aplicacin

You might also like