You are on page 1of 15

REGRESIN LINEAL MLTIPLE

1.- Planteamiento general ...................................................................................................... 2 2.- Mtodos para la seleccin de variables ............................................................................ 5 3.- Correlaciones parciales y semiparciales ........................................................................... 8 4.- Multicolinealidad en las variables explicativas .............................................................. 12

1.- Planteamiento general Como se sabe, le modelo de regresin mltiple se utiliza para predecir el comportamiento de una determinada variable variable dependiente o criterio- en funcin de otras variables independientes o explicativas (tambin regresores o predictores) Trabajaremos aqu con otro fichero de datos, Notas.sav, tal como se ilustra a continuacin:

Las variables consideradas son:

Inteligencia Horas de estudio Nivel social Calificacin Sexo

Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas de estudio y Nivel Social) sobre las calificaciones obtenidas. Nos dirigimos al comando regresin/lineal y hacemos la siguiente seleccin

Nos ofrece el siguiente conjunto de resultado que iremos desmenuzando. Comencemos por el resumen del modelo:
Resumen del modelo R cuadrado corregida ,884 Error tp. de la estimacin ,58900

Modelo 1

R ,950a

R cuadrado ,902

a. Variables predictoras: (Constante), Nivel Social, Horas de estudio, Inteligencia

El modelo explica un 90.2%, que una vez corregido por el efecto de la muestra y de las variables independientes resulta ser 88.4%. Por otro lado, el error tpico de la estimacin (raz cuadrada de la varianza no explicada) resulta ser de 0.589. La prueba de anlisis de la varianza, que nos muestra si la varianza explicada por la regresin es significativamente distinta ( y superior) a la varianza no explicada es:
ANOVAb Suma de cuadrados 51,101 5,551 56,652 Media cuadrtica 17,034 ,347

Modelo 1

gl 3 16 19

Regresin Residual Total

F 49,100

Sig. ,000a

a. Variables predictoras: (Constante), Nivel Social, Horas de estudio, Inteligencia b. Variable dependiente: Calificacin

El valor de F obtenido es 49.100, cuya probabilidad asociada segn las expectativas de la Hiptesis nula es menor del 0.0001, lo que nos lleva a rechazar tal hiptesis y suponer que existe un efecto real de dichas variables sobre la calificacin acadmica. Por otro lado, el modelo de regresin ser:

Coeficientesa Coeficient es estandari zados Beta ,597 ,580 ,200

Modelo 1

(Constante) Inteligencia Horas de estudio Nivel Social

Coeficientes no estandarizados B Error tp. -6,938 1,335 7,729E-02 ,014 ,196 ,027 ,290 ,163

t -5,197 5,350 7,272 1,787

Sig. ,000 ,000 ,000 ,093

a. Variable dependiente: Calificacin

De aqu se deduce que la ecuacin de regresin en directas es:

= 6.938 + 0.077 X + 0.196 X + 0.290 X Y 1 2 3

Siendo: Y: Calificacin acadmica X1: Inteligencia X2: Horas de estudio X3: Nivel Social Tal como est expresada la ecuacin anterior parecera que la Inteligencia tiene poca importancia. Se debe a que la magnitud de su escala es mucho ms alta que las restantes variables y su peso especfico por unida es menor. No obstante, la ecuacin de regresin en estandarizadas nos mostrar todas las variables en la misma dimensin. As:

= 0.597 Z + 0.58Z + 0.2Z Z 1 2 3

Se observa que aqu el peso especfico de la Inteligencia es superior a los restantes. Si nos atenemos al valor de t que nos indica la significacin estadstica de los distintos coeficientes observaremos un valor mximo para la Horas de estudio (t=7.272), seguido de la Inteligencia (t=5.35), y por ultimo le nivel social (t=1.787).

2.- Mtodos para la seleccin de variables

En los resultados anteriores se ha seguido un determinado procedimiento de inclusin de variables. Si se observa el cuadro de dilogo correspondiente aparecer en Mtodo, Introducir. Se quiere decir con ello que se consideren simultneamente todas la variables especificadas. Este procedimiento no es el ms aconsejable, a menos que haya razones tericas suficientes. Con frecuencia nos encontramos con variables redundantes o bien irrelevantes, que no aportan nada al modelo. Las primeras, porque ya se tiene en otras variables la informacin que necesitamos, y las segundas, porque adolecen precisamente de falta de informacin alguna. El procedimiento ms frecuentemente usado se denomina Pasos sucesivos (stepwise). Como su nombre indica consiste en ir elaborando sucesivas ecuaciones de regresin en las que se va aadiendo cada vez un regresor ms. El primer paso consiste en seleccionar el regresor de mxima correlacin simple con el criterio, y se define, en consecuencia una ecuacin de regresin simple con esa variable. A continuacin se elabora una segunda ecuacin de regresin aadiendo a la anterior otro regresor, esta vez el que ms proporcin de variabilidad explicada aporte sobre la ecuacin anterior. As hasta que no haya mas regresores que aporten nada sustantivo, que es cuando el procedimiento acaba. Hay que indicar, y aqu esta lo destacable de este procedimiento, que en este proceso de elaboracin del modelo definitivo, hay una continua reevaluacin de los predictores incluidos en el modelo, de forma que si algn regresor queda explicado por los restantes (en el sentido de que carece de contribucin especfica propia) queda eliminado. El procedimiento Hacia delante (forward), es equivalente al anterior excepto en el sentido que no existe ninguna reevaluacin, y se van incluyendo, por tanto en el modelo las variables segn su importancia. Frecuentemente este mtodo coincide con el anterior cuando no hay que extraer ninguna de las variables introducidas. El procedimiento Hacia atrs (backward) es justamente el contrario del anterior. Se comienza incluyendo todas las variables en el modelo de regresin y se van eliminando regresores progresivamente de menor a mayor contribucin especfica hasta que sta sea lo suficientemente significativa como para no poder ser eliminada. El procedimiento Eliminar (remove),permite cuando se ensayan diferentes modelos de regresin (con la especificacin de bloques) eliminar en cada uno de estos ensayos las variables que nos interese. Es una forma, digamos manual, de ir probando distintos modelos.

Probemos en lo que sigue el procedimiento Pasos sucesivos. En el cuadro de dilogo de Regresin lineal marcamos lo siguiente:

Si entramos en Estadstico podremos conseguir alguna informacin til, como cambio en R cuadrado, que nos indicar precisamente la mejora de cada variable en trminos de proporcin de variacin explicada.

En una primera instancia la informacin suministra es:

Variables introducidas/eliminadas Variables introducidas Variables eliminadas

Modelo 1

Inteligencia

Horas de estudio

Mtodo Por pasos (criterio: Probabili dad de F para entrar <= ,050, Probabili dad de F para salir >= ,100). Por pasos (criterio: Probabili dad de F para entrar <= ,050, Probabili dad de F para salir >= ,100).

a. Variable dependiente: Calificacin

Se nos indica las opciones que hay por defecto (subcuadro de dilogo opciones). Para entrar una variable debe ser inferior a una significacin de 0.05 y para salir, superior a 0.1. En la siguiente tabla aparecen las variables que configuran los diferentes modelos:
Resumen del modelo

Modelo 1 2

Cambiar los estadsticos R cuadradoError tp. de la Cambio en Sig. del R R cuadrado corregida estimacin R cuadradoCambio en F gl1 gl2 cambio en F ,760a ,577 ,554 1,15366 ,577 24,565 1 18 ,000 b ,939 ,882 ,869 ,62582 ,305 44,169 1 17 ,000

a. Variables predictoras: (Constante), Inteligencia b. Variables predictoras: (Constante), Inteligencia, Horas de estudio

El primer modelo est formado slo con el predictor Inteligencia y al segundo se le aade la variable Horas de estudio. El primer modelo explica una proporcin de 0.577, y el segundo de 0.882, lo que implica una mejora de 0.305 puntos. Vemos ms cosas, tales como los cambios en el cociente F, grados de libertad y la significacin de F. Adems se nos proporciona un anlisis de la varianza para cada uno de los modelos:

ANOVAc Suma de cuadrados 32,695 23,957 56,652 49,994 6,658 56,652 Media cuadrtica 32,695 1,331 24,997 ,392

Modelo 1

gl 1 18 19 2 17 19

Regresin Residual Total Regresin Residual Total

F 24,565

Sig. ,000a

63,824

,000b

a. Variables predictoras: (Constante), Inteligencia b. Variables predictoras: (Constante), Inteligencia, Horas de estudio c. Variable dependiente: Calificacin

Por ltimo las variables excluidas en ambos modelos.


Variables excluidasc Estadstic os de colinealid ad Tolerancia ,999 ,505 ,487

Modelo 1 2

Horas de estudio Nivel Social Nivel Social

Beta dentro ,553a ,046a ,200b

t 6,646 ,207 1,787

Sig. ,000 ,839 ,093

Correlacin parcial ,850 ,050 ,408

a. Variables predictoras en el modelo: (Constante), Inteligencia b. Variables predictoras en el modelo: (Constante), Inteligencia, Horas de estudio c. Variable dependiente: Calificacin

Se observa que en el primer modelo, las Horas de estudio tenan un peso importante (t=6.646), cosa que no ocurre con el Nivel social ni un modelo ni con el otro, por lo que es definitivamente eliminada. Otros estadsticos tales como correlacin parcial y colinealidad lo trataremos en las prximas pginas.

3.- Correlaciones parciales y semiparciales

Las correlaciones parciales y semiparciales tienen especial inters por permitir conocer las contribuciones especificas de las distintas variables al margen al margen de lo que comparten con otras variables. Frecuentemente las predictores estn correlacionados entres s y es importante saber deslindar lo que aportan unos y otros. No es fcil saber a donde atribuir la parte compartida, y frecuentemente son criterios tericos sustantivos del tema en cuestin- y no criterios estadsticos los que nos permiten asignar las contribuciones de los diferentes regresores a la explicacin de la variable dependiente.

Vamos a ver en primer lugar el conjunto de correlaciones existentes en estos datos. Vamos la comando Correlaciones/bivariadas:

Cuyos resultados son:


Correlaciones Horas de estudio

Inteligencia Inteligencia Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N

Nivel Social

Calificacin

Horas de estudio

Nivel Social

Calificacin

,038 ,873 20 ,703** ,001 20 ,760** ,000 20

-,108 ,651 20 ,581** ,007 20

,557* ,011 20

**. La correlacin es significativa al nivel 0,01 (bilateral). *. La correlacin es significante al nivel 0,05 (bilateral).

Veamos qu ocurre ahora si eliminamos de todas las variables la variabilidad que aporta la Inteligencia. Vanos para ello al comando Correlaciones/parciales:

La nueva matriz de correlacione ser:

- - -

P A R T I A L

C O R R E L A T I O N INT NSOCIAL -,1895 ( 17) P= ,437 1,0000 ( 0) P= , ,0500 ( 17) P= ,839 CALIF ,8498 ( 17) P= ,000 ,0500 ( 17) P= ,839 1,0000 ( 0) P= ,

C O E F F I C I E N T S

- - -

Controlling for.. HORAS HORAS 1,0000 ( 0) P= , -,1895 ( 17) P= ,437 ,8498 ( 17) P= ,000

NSOCIAL

CALIF

(Coefficient / (D.F.) / 2-tailed Significance) " , " is printed if a coefficient cannot be computed

Obsrvese el poco efecto que tiene ahora el Nivel social sobre la variable Calificacin. Los clculos han consistido en eliminar tanto de la variable dependiente (Calificacin) como del regresor Nivel Social, la variabilidad de la Inteligencia. Es una correlacin, digamos, entre los residuos de ambas variables una vez eliminada de ellas la participacin de la Inteligencia.

10

La correlaciones parciales frecuentemente son la alternativa estadstica- no experimental- a aquella otra experimental del control de variables, cuando no es posible la manipulacin de las mismas segn nuestros deseos. Ms interesante para el tema que nos atae son las denominadas correlacione semiparciales. En este caso, no tocamos la variabilidad e la variable dependiente, sino tan slo sustraemos el efecto de la variable que deseamos controlar, de los predictores que estamos tratando. Es justamente lo que hemos denominado contribucin especfica de una determinada variable. Es la proporcin (mejor su raz cuadrada) de variabilidad explicada exclusivamente por un determinado regresor sobre la variable dependiente. En el caso que nos atae, a efectos de simplicidad vamos a trabajar con dos nicos regresores, Inteligencia y Nivel social. As, en el cuadro de la Regresin lineal indicamos:

A continuacin en Estadsticos marcamos Correlaciones parcial y semiparcial:

11

Obtendremos:

a Coeficientes

Coeficient es Coeficientes no estandari estandarizados zados Modelo B Error tp. Beta 1 (Constante) -4,922 2,629 Inteligencia9,423E-02 ,029 ,727 Nivel Social6,637E-02 ,321 ,046 a. Variable dependiente: Calificacin

t -1,872 3,283 ,207

Correlaciones Sig. Orden cero Parcial Semiparcial ,078 ,004 ,760 ,623 ,517 ,839 ,557 ,050 ,033

Obsrvese como la correlacin simple (de orden cero) de Nivel social con Calificacin es 0.557, la parcial la observada en la tabla anterior y la semiparcial 0.033. Esto significa que la variable Nivel social contribuye (ella sola, sin lo que comparte con Inteligencia) en una proporcin de 0.0332 = 0.001, o sea 0.1% a las calificaciones. Por el contrario, la Inteligencia, cuando se le elimina lo que comparte con Nivel social, sigue contribuyendo en un 0.5172 = 26.72% a las Calificaciones.

Conviene aclarar la diferencia entre correlacin semiparcial y parcial. Supongamos que tenemos dos regresores X1 y X2, correlacin semiparcial (al cuadrado) de la variable X2 es la proporcin de variabilidad de Y debida exclusivamente a X2. Es lo que aporta X2 a X1 hasta llegar a R2y.12. Ms formalmente:
2 2 2 Ry ( 2.1) = R y .12 R y1

En el caso de la correlacin parcial (al cuadrado) es esa misma contribucin de X2 pero no del total de Y, sino de lo no explicado de Y por X1. Esto es, X1 se ha sustrado de todas las variables. Su expresin ser:
2 2 Ry .12 R y1 2 1 Ry 1

2 y 2.1

4.- Multicolinealidad en las variables explicativas Se dice que existe multicolinealidad entre las variables explicativas cuando existe algn tipo de dependencia lineal entre ellas, o lo que es lo mismo, si existe una fuerte correlacin entre las mismas. La correlacin no solamente se refiere a las distintas variables dos a dos, sino a cualquier de ellas con cualquier grupo de las restantes. Por esta razn no es suficiente (aunque s necesaria) que en la matriz de correlaciones bivariadas haya correlaciones altas. 12

El principal inconveniente de la multicolinealidad consiste en que se incrementan la varianza de los coeficientes de regresin estimados hasta el punto que resulta prcticamente imposible establecer su significacin estadstica, ya que como se sabe, el valor de t para un determinado coeficiente de regresin es el valor de dicho coeficiente dividido por su desviacin tipo. Si este es grande, el valor de t ser bajo y no llegara a la significacin. El SPSS adopta varios procedimientos para detectar multicolinealidad entre los predictores. El primero de ellos, basado en la correlacin mltiple de un determinado regresor con los restantes se denomina Tolerancia de dicho regresor. Su valor es:

1 Ri2

Siendo Ri2 la correlacin multiple alcuadrado de dicho regresor con los restantes. Para que haya multicolinealidad dicha correlacin ha de ser alta, o lo que es lo mismo la tolerancia baja. Adems otro ndice relacionado con ste y que nos da una idea del grado de aumento de la varianza se denomina Factor de Inflacin de la Varianza, y es precisamente el recproco de la tolerancia. Su valor es:
VIFi = 1 2 1 Ry 1

Para que no haya multicolinealidad el denominador tiene que valer cerca de la unidad, por tanto un poco ms de 1 el valor de VIF. Cuanto mayor sea de este valor mayor multicolinealidad habr. La varianza de los estimadores tiene que ver con (XX)-1, donde X es la matriz de regresores. Cuando las columnas de X son colineales, la matriz es singular y no tiene inversa. En este sentido los autovalores de la matriz XX (normalizada) nos puede proporcionar informacin del grado de singularidad de la misma. A este respecto, disponemos del Indice de Condicin, cuyo valor es la raz cuadrada del cociente entre el mximo autovalor y el mnimo de la matriz XX:

Indice de condicin =

Autovalormax Autovalormin

Se considera que a partir de un valor de 20 hay cierta multicolinealidad y que sta es alta a partir de 30. Podemos conocer adems qu variables presentan multicolinealidad analizando la proporcin de varianza de los estimadores de los coeficientes de regresin en los componentes con un ndice de condicin alto. Variables, cuya proporcin de varianza en dichos componentes, sea superior a 0.5 son indicativos de colinealidad.

13

En el ejemplo que estamos tratando, para conocer la posible colinealidad marcaremos en Regresin lineal/estadsticos, Diagnsticos de colinealidad:

Con lo que obtendremos (adems de otros resultados ya conocidos):


a Coeficientes

Coeficient es Coeficientes no estandari estandarizados zados Modelo B Error tp. Beta 1 (Constante) -6,938 1,335 Inteligencia 7,729E-02 ,014 ,597 Horas de estudio ,196 ,027 ,580 Nivel Social ,290 ,163 ,200 a. Variable dependiente: Calificacin

t -5,197 5,350 7,272 1,787

Sig. ,000 ,000 ,000 ,093

Estadsticos de colinealidad Tolerancia FIV ,492 ,963 ,487 2,031 1,039 2,052

Se observa que se ha aadido a lo que ya conocemos otros indicadores tales como la Tolerancia y el FIV. La variable Horas d estudio presenta una alta tolerancia y por tanto una pequea FIV, lo que nos indica que no presenta colinealidad. Por el contrario las otras dos variables, Inteligencia y Nivel social son colineales. En esta tabla se nos indica qu variables son colineales pero no con cuales, aunque con tres variables y una que no lo es, no es difcil imaginarse lo que pasa. Pero puede haber ms variables. Para ello recurrimos al Indice de condicin y a la proporciones de varianzas en los distintos componentes. As:

14

a Diagnsticos de colinealidad

Modelo 1

Dimensin 1 2 3 4

Autovalor 3,840 ,119 3,742E-02 4,023E-03

Indice de condicin 1,000 5,685 10,129 30,893

(Constante) ,00 ,00 ,09 ,91

Proporciones de la varianza Horas de Inteligencia Nivel Social estudio ,00 ,01 ,00 ,00 ,29 ,29 ,02 ,70 ,30 ,97 ,00 ,41

a. Variable dependiente: Calificacin

Se<observa que hay un ndice de condicin asignado al cuarto componente que vale 30.893, resultado de dividir 3.840 entre 0.004023 y extraer la raz cuadrada. En ese componente hay dos variables con una alta proporcin: la constante, Inteligencia. El Nivel social no llega a rebasar el umbral de 0.5. La constante es el estimador del coeficiente ligado a la primera variable de la matriz X, que est formado precisamente por un vector de 1. Si trabajamos con variables centradas, resolveremos algunos problemas de multicolinealidad. As si restamos a cada una de las variables explicativas su media y realizamos de nuevo la regresin, obtendremos en diagnsticos de colinealidad:
a Diagnsticos de colinealidad

Modelo 1

Dimensin 1 2 3 4

Autovalor 1,707 1,011 1,000 ,282

Indice de condicin 1,000 1,299 1,306 2,461

Proporciones de la varianza (Constante) INT2 HORAS2 NSOCIAL2 ,00 ,14 ,00 ,14 ,00 ,01 ,93 ,00 1,00 ,00 ,00 ,00 ,00 ,85 ,07 ,86

a. Variable dependiente: Calificacin

Se observa que el mayor ndice de condicin es muy bajo (2.461) y por tanto no hay multicolinealidad, al menos en un sentido importante, que altere la estimacin mnimo cuadrtica de nuestro modelo.

15

You might also like