You are on page 1of 70

MTODOS ESTADSTICOS I

Mdulo 3. Regresin Lineal Mltiple


Departamento de Ingeniera Industrial Facultad de Ingeniera Universidad de Antioquia mayo de 2013

Modelo de Regresin Lineal Mltiple Modelo de primer orden con ms de una variable predictora En este caso se tienen p variables predictoras medidas sobre n observaciones La estructura de los datos es como sigue Y Y1 Y2 . . . Yn X1 X11 X21 . . . Xn1 X2 X12 X22 . . . Xn2 Xp X1p X2p . . . Xnp
2

Modelo de Regresin Lineal Mltiple Est diseado para variables predictoras cuyos efectos en la respuesta media son aditivos o sin interaccin. Los parmetros k se llaman coeficientes parciales de la regresin porque slo reflejan el efecto parcial de una variable predictora cuando las otras variables estn incluidas en el modelo y se mantienen constantes.

Modelo de Regresin Lineal Mltiple El modelo se escribe como:

Donde, 0,, k son los parmetros del modelo Xi1,,Xip son constantes conocidas ei ~ Normal (0,2) iid Yi ~ Normal (E[Yi],2) iid Puesto que E[ei]=0, entonces

i = 0 + 1 X i 1 + 2 X i 2 + ... + p X ip E[Yi ] = Y
4

Modelo de Regresin Lineal Mltiple En este caso, lineal se refiere a que el modelo es lineal en los parmetros y adems no hay efectos de interaccin entre las variables predictoras Interpretacin de los coeficientes de la regresin 0, representa la respuesta media, E[Y], cuando todas las Xi=0 j, indican el cambio en la respuesta media, E[Y], por unidad de incremento en Xij cuando las otras X se mantienen constantes

Inferencias sobre los coeficientes de la regrresin Como en el caso de la regresin lineal simple, nos interesa verificar la hiptesis

H0 : k = 0 , k = 1,...,p vs. Ha : k 0
De este modo un IC al (1-)% para 1 es:
2 t S k 1 / 2 ,n p
k

De igual modo se puede construir una regin de rechazo para k donde el estadstico de prueba es:

t* = k S
*

Y la regla de decisin es si t t1 / 2;n p concluir H0, en otro caso concluir Ha De igual forma se puede calcular el valor-p y concluir
6

Notas i. Los modelos que contienen slo variables predictoras cualitativas son llamados modelos de anlisis de varianza ii. Los modelos que contienen variables predictoras tanto cuantitativas como cualitativas son llamados modelos de covarianza

Tabla ANOVA para el modelo de regresin lineal general

Fuente de variacin Regresin Error Total

SS SSR SSE SSTO

g.l p n-p+1 n-1

MS MSR=SSR/p MSE=SSE/n-p+1

Tabla ANOVA con descomposicin de la SSR en sumas de cuadrados extra. El caso de 3 variables Fuente de variacin Regresin X1 X2|X1 X3|X1,X2 Error Total SS SSR(X1,X2,X3) SSR(X1) SSR(X2|X1) SSR(X3|X1,X2) SSE(X1,X2,X3) SSTO(X1,X2,X3) g.l 3 1 1 1 n-4 n-1 MS MSR(X1,X2,X3) MSR(X1) MSR(X2|X1) MSR(X3|X1,X2) MSE(X1,X2,X3)

La suma de cuadrados extra mide el efecto marginal de aadir una variable al modelo cuando ya existe la presencia de otra. Ojo entonces de qu depende que una SSR sea significativa?... Del orden de entrada de las variables al modelo!!
9

Prueba general del modelo. Prueba de bondad de ajuste Para verificar si el modelo es significativo, es decir verificar

H0 : 1 = 2 = ... = p = 0 vs. Ha : No todos los k son iguales a 0 (k = 1,...,p)


El estadstico de prueba ser

MSR F = MSE
*

Y la regla de decisin es

F * F1 ;p1;n p H0 F * > F1 ;p1;n p Ha


10

Coeficiente de determinacin mltiple El R2 mltiple mide el porcentaje de explicacin de la variacin total de Y asociada con el uso del conjunto de variables independientes X1,,Xp

R2 =

(Y Y )
n i

(Y
i =1

i =1 n

)2

SSR SSTO

0 R2 1

Un valor grande del R2 no implica necesariamente que el modelo ajustado sea un modelo til Puesto que el R2 se incrementa al incluir ms variables predictoras en el modelo, se sugiere usar una medida modificada: El coeficiente de determinacin mltiple ajustado

SSR p 2 Ra == SSTO n 1

2 0 Ra 1

11

El modelo de regresin mltiple estandarizado El modelo de regresin estandarizado queda:

Yi ' = 1 ' X 'i 1 +'2 X 'i 2 +... + ' p X 'ip + e'i


Por qu cree que este modelo se presenta sin intercepto? Finalmente, k medir el tamao del impacto o efecto que tiene cada Xk en Y en unidades de desviaciones estndar. Nota. los coeficientes de la regresin (estandarizados o no) siempre se vern afectados por la presencia de correlaciones entre las variables predictoras (problema de multicolinealidad)
12

Ejemplo. Suponga que se desea modelar el IMC en funcin de las 8 variables de grasa corporal en el cuerpo. 1. 2. 3. Qu tipo de variables son las variables independientes? Cmo queda planteado este modelo? Cmo interpreta los parmetros de la regresin? Qu signo tienen?Concuerda esto con el anlisis descriptivo hecho anteriormente? 4. Cules de los parmetros son significativos en el modelo? Qu significa esto? Qu hacer con los parmetros que no son significativos? 5. 6. 7. 8. Concuerdan las salidas del summary y del ANOVA? Por qu puede estar ocurriendo esto? Cmo queda planteado el modelo si se estandarizan todas las variables? Cmo interpreta los parmetros de este nuevo modelo? Concuerda este modelo con las conclusiones obtenidas en el numeral 4?
13

model6<lm(imc~ileocrestal+abdovertical+subescapular+supraespinal+triceps+biceps+musloantrmedio+pieintem edia) summary(model6) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 17.649803 0.293996 60.034 < 2e-16 *** ileocrestal 0.011368 0.001842 6.173 1.70e-09 *** abdovertical 0.001633 0.001819 0.898 0.3699 subescapular 0.016897 0.002092 8.075 8.77e-15 *** supraespinal -0.003144 0.001727 -1.821 0.0694 . triceps 0.002473 0.002558 0.967 0.3344 biceps 0.008548 0.003594 2.378 0.0179 * musloantrmedio -0.002757 0.001528 -1.804 0.0720 . pieintemedia -0.001476 0.002039 -0.724 0.4696 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 2.132 on 384 degrees of freedom Multiple R-squared: 0.6587, Adjusted R-squared: 0.6516 F-statistic: 92.66 on 8 and 384 DF, p-value: < 2.2e-16

14

anova(model6) Analysis of Variance Table Response: imc Df ileocrestal abdovertical subescapular supraespinal triceps biceps musloantrmedio pieintemedia Residuals --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
15

Sum Sq Mean Sq 138.07 381.42 16.73 2.94 18.32 31.19 2.38 138.07 381.42 16.73 2.94 18.32 31.19 2.38 4.55

F value

Pr(>F)

1 2778.03 2778.03 611.2020 < 2.2e-16 *** 1 1 1 1 1 1 1 30.3767 6.537e-08 *** 83.9165 < 2.2e-16 *** 3.6814 0.6466 4.0314 6.8618 0.5240 0.055763 . 0.421844 0.045361 * 0.009155 ** 0.469576

384 1745.36

# Modelo estandarizado model7<lm(scale(imc)~scale(ileocrestal)+scale(abdovertical)+scale(subescapular)+scale(supraespinal)+ + scale(triceps)+scale(biceps)+scale(musloantrmedio)+scale(pieintemedia)) summary(model7) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.103e-16 2.977e-02 0.000 1.0000 scale(ileocrestal) 3.523e-01 5.707e-02 6.173 1.70e-09 scale(abdovertical) 6.412e-02 7.142e-02 0.898 0.3699 scale(subescapular) 4.798e-01 5.941e-02 8.075 8.77e-15 scale(supraespinal) -1.039e-01 5.703e-02 -1.821 0.0694 scale(triceps) 6.927e-02 7.167e-02 0.967 0.3344 scale(biceps) 1.500e-01 6.307e-02 2.378 0.0179 scale(musloantrmedio) -1.308e-01 7.251e-02 -1.804 0.0720 scale(pieintemedia) -4.759e-02 6.574e-02 -0.724 0.4696 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 Residual standard error: 0.5902 on 384 degrees of freedom Multiple R-squared: 0.6587, Adjusted R-squared: 0.6516 F-statistic: 92.66 on 8 and 384 DF, p-value: < 2.2e-16

*** *** . * .

16

anova(model7) Analysis of Variance Table Response: scale(imc) Df scale(ileocrestal) scale(abdovertical) scale(subescapular) scale(supraespinal) scale(triceps) scale(biceps) scale(musloantrmedio) scale(pieintemedia) Residuals --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
17

Sum Sq Mean Sq 10.582 29.234 1.282 0.225 1.404 2.390 0.183 10.582 29.234 1.282 0.225 1.404 2.390 0.183 0.348

F value

Pr(>F)

1 212.924 212.924 611.2020 < 2.2e-16 *** 1 1 1 1 1 1 1 30.3767 6.537e-08 *** 83.9165 < 2.2e-16 *** 3.6814 0.6466 4.0314 6.8618 0.5240 0.055763 . 0.421844 0.045361 * 0.009155 ** 0.469576

384 133.774

Seleccin de variables en el modelo de regresin lineal mltiple En el curso trabajaremos con dos metodologas para seleccin de variables i. Mtodo Backward: Comienza con el modelo full y se van sacando variables de acuerdo a su significancia estadstica ii. Mtodo Forward: Comienza con el modelo reducido y se van ingresando las variables al modelo de acuerdo a la correlacin que presenten con la variable respuesta (se comienza por la variable con mayor correlacin)

18

Ejemplo. Suponga que se desea modelar el IMC en funcin de las 8 variables de grasa corporal en el cuerpo. 1. A qu modelo llega con el mtodo forward? 2. A qu modelo llega con el mtodo backward? 3. Llega a modelos diferentes con las dos metodologas de seleccin de variables? 4. Con cul de los dos modelos se quedara? justifique

19

# Modelo Full model1<lm(imc~ileocrestal+abdovertical+subescapular+supraespinal+triceps+biceps+musloantrmedio+pieintemedia.) summary(model1) Coefficients: Estimate Std. Error t value (Intercept) 17.649803 0.293996 60.034 ileocrestal 0.011368 0.001842 6.173 abdovertical 0.001633 0.001819 0.898 subescapular 0.016897 0.002092 8.075 supraespinal -0.003144 0.001727 -1.821 triceps 0.002473 0.002558 0.967 biceps 0.008548 0.003594 2.378 musloantrmedio -0.002757 0.001528 -1.804 pieintemedia. -0.001476 0.002039 -0.724 --Signif. codes: 0 *** 0.001 ** 0.01 * Pr(>|t|) < 2e-16 1.70e-09 0.3699 8.77e-15 0.0694 0.3344 0.0179 0.0720 0.4696 *** *** *** . * .

0.05 . 0.1 1

Residual standard error: 2.132 on 384 degrees of freedom Multiple R-squared: 0.6587, Adjusted R-squared: 0.6516 F-statistic: 92.66 on 8 and 384 DF, p-value: < 2.2e-16

20

# Con el mtodo Backward partimos del model1 y llegamos al model3 model3<-lm(imc~ileocrestal+subescapular+biceps+musloantrmedio) summary(model3) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 17.7965218 0.2832163 62.837 < 2e-16 *** ileocrestal 0.0108181 0.0015258 7.090 6.38e-12 *** subescapular 0.0171466 0.0018452 9.293 < 2e-16 *** biceps 0.0088661 0.0029708 2.984 0.00302 ** musloantrmedio -0.0028483 0.0009819 -2.901 0.00393 ** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 2.135 on 388 degrees of freedom Multiple R-squared: 0.6543, Adjusted R-squared: 0.6508 F-statistic: 183.6 on 4 and 388 DF, p-value: < 2.2e-16
21

# Con el mtodo Forward partimos del model4 (modelo reducido) # llegamos al model5. Las variables se ingresan segn la correlacin cor(datos[,c(1,5:12)]) model4<-lm(imc~subescapular) summary(model4) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 18.101337 0.286856 63.10 <2e-16 *** subescapular 0.027075 0.001139 23.77 <2e-16 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 2.313 on 391 degrees of freedom Multiple R-squared: 0.5911, Adjusted R-squared: 0.59 F-statistic: 565.2 on 1 and 391 DF, p-value: < 2.2e-16

matriz

de

22

model5<-lm(imc~subescapular+ileocrestal) summary(model5)

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) subescapular ileocrestal --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 17.558868 0.017406 0.011587 0.276965 0.001650 0.001512 63.398 10.550 < 2e-16 *** < 2e-16 ***

7.664 1.45e-13 ***

Residual standard error: 2.159 on 390 degrees of freedom Multiple R-squared: 0.6446, Adjusted R-squared: 0.6428 p-value: < 2.2e-16
23

F-statistic: 353.7 on 2 and 390 DF,

Modelo de regresin lineal mltiple con variables cualitativas El modelo de regresin lineal mltiple anteriormente expuesto, puede contener tambin variables predictoras de tipo cualitativo, como gnero, estrato, entre otras. Como vimos en el Mdulo 2 la idea es usar variables indicadoras (o dummies) que toman el valor de 0 y 1 para identificar las categoras de la variable cualitativa

24

Ejemplo. Suponga que se desea modelar el IMC en funcin del sexo y la grasa subescapular 1. Cmo es la relacin del imc con estas dos variables 2. Cmo queda construido el modelo? 3. Cmo interpreta los coeficientes de la regresin? 4. Cmo se ve el ajuste del modelo grficamente?

25

par(mfrow=c(1,3)) boxplot(imc~sexo,xlab='sexo',ylab='imc') plot(subescapular,imc,pch=16) plot(subescapular,imc,col=sexo,pch=16) legend('topleft',c('Mujeres','Hombres'),col=1:2,bty='n',pch=16)

40

40

40

Mujeres Hombres

35

35

30

30

imc

imc

25

25

imc 20 100 200 300 400 500 20 25

20

F sexo

30

35

100

200

300

400

500

subescapular

subescapular

26

model6<-lm(imc~subescapular+sexo) summary(model6) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) subescapular sexoM --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 18.276997 0.029260 -1.228663 0.280554 0.001188 0.244668 65.146 24.635 < 2e-16 *** < 2e-16 ***

-5.022 7.81e-07 ***

Residual standard error: 2.244 on 390 degrees of freedom Multiple R-squared: 0.6159, Adjusted R-squared: 0.6139 p-value: < 2.2e-16

F-statistic: 312.7 on 2 and 390 DF,

anova(model6) Analysis of Variance Table Response: imc Df subescapular sexo Residuals --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Sum Sq Mean Sq F value Pr(>F)

1 3023.06 3023.06 600.193 < 2.2e-16 *** 1 127.02 127.02 5.04 25.218 7.806e-07 ***

390 1964.36

27

plot(subescapular,imc,pch=16,col=sexo) lines(subescapular,18.276997+0.029260*subescapular-1.228663*(0)) # Modelo para sexo=F

lines(subescapular,18.276997+0.029260*subescapular-1.228663*(1),col=2) # Modelo para sexo=M legend('topleft',c('Mujeres','Hombres'),col=1:2,bty='n',pch=16)

40

Mujeres Hombres

imc

20

25

30

35

100

200

300 subescapular

400

500

28

Ejemplo. Suponga que se desea modelar la grasa subescapular en funcin de la grasa abdovertical y el IMC categorizado 1. Cmo es la relacin de la grasa subescapular con estas dos variables 2. Cmo queda construido el modelo? 3. Cmo interpreta los coeficientes de la regresin? 4. Cmo se ve el ajuste del modelo grficamente?

29

par(mfrow=c(1,3)) boxplot(subescapular~imc.c,xlab='imc.c',ylab='subescapular') plot(abdovertical,subescapular,pch=16) plot(abdovertical,subescapular,col=imc.c,pch=16) legend('topleft',c('Bajo','Normal','Sobrepeso'),col=1:3,bty='n',pch=16)


Bajo Normal Sobrepeso 500 500 500 subescapular 100 200 300 400 500 600 100 100 200 300 400

400

subescapular

subescapular Bajo Normal imc.c Sobrepeso

300

200

100

100

200

300

400

200

300

400

500

600

abdovertical

abdovertical

30

model7<-lm(subescapular~abdovertical+imc.c) summary(model7) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) abdovertical imc.cNormal 34.4774 0.5280 29.1852 9.6783 0.0221 9.9331 15.2429 3.562 0.000413 *** 23.887 < 2e-16 ***

2.938 0.003498 ** 6.619 1.2e-10 ***

imc.cSobrepeso 100.8949 --Signif. codes:

0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 54.37 on 389 degrees of freedom Multiple R-squared: 0.7211, Adjusted R-squared: 0.719 p-value: < 2.2e-16

F-statistic: 335.3 on 3 and 389 DF,

anova(model7) Analysis of Variance Table Response: subescapular Df abdovertical imc.c Residuals --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Sum Sq Mean Sq F value Pr(>F)

1 2831002 2831002 957.591 < 2.2e-16 *** 2 142770 71385 2956 24.146 1.303e-10 ***

389 1150031

31

plot(abdovertical,subescapular,pch=16,col=imc.c) lines(abdovertical,34.4774+0.5280*abdovertical+29.1852*(0)+100.8949*(0),col=1) lines(abdovertical,34.4774+0.5280*abdovertical+29.1852*(1)+100.8949*(0),col=2) lines(abdovertical,34.4774+0.5280*abdovertical+29.1852*(0)+100.8949*(1),col=3) legend('topleft',c('Bajo','Normal','Sobrepeso'),col=1:3,bty='n',pch=16) # Modelo para imc.c=Bajo # Modelo para imc.c=Normal # Modelo para imc.c=Sobrepeso

Bajo Normal Sobrepeso

subescapular

100 100

200

300

400

500

200

300

400

500

600

abdovertical

32

Ejemplo. Suponga que se desea modelar la grasa subescapular en funcin de la grasa abdovertical, el IMC categorizado y el sexo 1. Cmo es la relacin de la grasa subescapular con estas tres variables 2. Cmo queda construido el modelo? 3. Cmo interpreta los coeficientes de la regresin?

33

par(mfrow=c(1,3)) boxplot(subescapular~sexo,xlab='sexo',ylab='subescapular') boxplot(subescapular~imc.c,xlab='imc.c',ylab='subescapular') plot(abdovertical,subescapular,pch=16)

500

500

400

400

subescapular

subescapular

subescapular Bajo Normal imc.c Sobrepeso

300

300

200

200

100

100

F sexo

100 100

200

300

400

500

200

300

400

500

600

abdovertical

34

model8<-lm(subescapular~abdovertical+imc.c+sexo) summary(model8)

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) abdovertical imc.cNormal 31.59217 0.51310 31.71955 9.83767 0.02405 10.04842 15.27557 6.10646 3.211 21.331 3.157 0.00143 ** < 2e-16 *** 0.00172 **

imc.cSobrepeso 103.00195 sexoM --Signif. codes: 9.48628

6.743 5.65e-11 *** 1.553 0.12112

0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 54.27 on 388 degrees of freedom Multiple R-squared: 0.7228, F-statistic: Adjusted R-squared: 0.72

253 on 4 and 388 DF,

p-value: < 2.2e-16

35

anova(model8)

Analysis of Variance Table

Response: subescapular Df abdovertical imc.c sexo Residuals --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Sum Sq Mean Sq F value Pr(>F)

1 2831002 2831002 961.0705 < 2.2e-16 *** 2 1 142770 7109 71385 7109 2946 24.2339 2.4133 1.21e-10 *** 0.1211

388 1142922

36

Modelo de regresin lineal mltiple con variables cualitativas En este caso la seleccin de variables del modelo se hace de la misma forma, pero en esta ocasin se debe tener en cuenta adems el ANOVA para ver la significancia global de las variables cualitativas

37

Diagnsticos y medidas remediales El diagnstico juega un papel importante en el desarrollo y evaluacin de los modelos de regresin mltiple. Se hace una extensin de los procedimientos de diagnstico y medidas remediales empleados en el modelo de regresin lineal simple En este caso se considera adicionalmente la verificacin de la multicolinealidad entre las variables independientes y la validacin de puntos influenciales a travs de pruebas especializadas.

38

La multicolinealidad y sus efectos En muchas situaciones las variables predictoras o explicatorias tienden a estar correlacionadas entre ellas. En este caso se dice que las variables estn intercorrelacionadas o que son multicolineales. Cuando las variables predictoras estn incorrelacionadas, los efectos asociados con ellas en el modelo de regresin de primer orden son los mismos sin importar qu otras variables de stas estn incluidas en el modelo En general, cuando dos o ms variables predictoras estn incorrelacionadas, la contribucin marginal de una variable para reducir la SSE cuando las otras variables predictoras estn en el modelo es exactamente la misma que cuando la variable predictora est sla en el modelo.
39

Problemas del modelo de regresin en presencia de la multicolinealidad Aadir o borrar una variable predictora cambia los coeficientes de la regresin Las sumas de cuadrados extras asociada con una variable predictora cambia, dependiendo de qu otras variables predictoras ya estn incluidas en el modelo. Las desviaciones estndar de los coeficientes de regresin se vuelven ms grandes. Puede que los coeficientes de regresin no sean estadsticamente significativos aunque exista evidencia de la relacin entre la variable respuesta y el conjunto de variables predictoras.

40

Diagnsticos informales para la multicolinealidad Grandes cambios en los coeficientes de regresin cuando una variable predictora es agregada o borrada. Resultados no significativos en pruebas individuales para los coeficientes de la regresin sobre variables predictoras importantes. Coeficientes de regresin estimados con un signo opuesto del esperado Coeficientes de correlacin simple grandes entre pares de variables predictoras Intervalos de confianza muy amplios para los coeficientes de regresin

41

Limitaciones de los diagnsticos informales para detectar multicolinealidad 1. No dan medidas cuantitativas del impacto de la multicolinealidad, lo que conlleva a que no se pueda a identificar su naturaleza. Suponga que X1, X2 y X3 tienen bajas correlaciones entre pares, as los coeficientes de correlacin simples no son capaces de mostrar las relaciones existentes entre grupos de variables predictoras, tales como una alta correlacin entre X1 y una combinacin lineal de X2 y X3 2. En ocasiones el comportamiento observado puede ocurrir sin que est presente la multicolinealidad

42

Diagnstico para la multicolinealidad. Factor de inflacin de varianza (VIF) Mide en cunto se infla la varianza de los coeficientes de regresin estimados comparada cuando las variables predictoras no estn relacionadas linealmente. El factor de inflacin de varianza para k, VIFk, se puede calcular como

VIFk = (1 Rk2 )1

k = 1, 2,..., p

Donde Rk2 es el coeficiente de determinacin mltiple cuando Xk es regresado en las otras p-1 variables predictoras en el modelo
VIFk=1 cuando Rk2 = 0, es decir, cuando Xk no est relacionado linealmente con las otras variables. Cuando VIFk>1, indica una varianza inflada para k como resultado de las intercorrelaciones entre las p1 variables restantes Cuando Xk tiene una asociacin lineal perfecta con las otras variables predictoras, Rk2 = 1 , y entonces VIFk es infinito
43

Diagnstico para la multicolinealidad. Factor de inflacin de varianza (VIF) El valor ms grande del VIF entre todas las variables predictoras se usa como indicador de la severidad de la multicolinealidad. Si VIFk > 3 se toma como un indicador de que la multicolinealidad puede estar influenciando los estimadores de mnimos cuadrados. Para solucionar este problema ver ANEXO 1. Mtodo de Componentes Principales

44

Ejemplo. Suponga que se desea modelar el IMC en funcin de las 8 variables de grasa corporal en el cuerpo. 1. Cules son los valores del VIF para el modelo full? 2. El modelo tiene problemas de multicolinealidad?

45

# Dado que hay variables independientes muy correlacionadas, ser que hay problemas de multicolinealidad? # para calcular el factor de inflacin de varianza (vif) se carga la librera car

require(car) vif(model1)

ileocrestal 3.6645 triceps 5.7792

abdovertical 5.7398

subescapular 3.9722

supraespinal 3.6603 pieintemedia. 4.8624

biceps musloantrmedio 4.4763 5.9163

# Puesto que ninguno de los vif es mayor a 10, nos quedamos tranquilos # Seguimos con la seleccin de las variables en el modelo (cuidado con esta conclusin!!!)

46

Identificando observaciones influenciales Despus de identificar grficamente casos que son outliers en sus valores de Y y/o en sus valores de las Xs, el paso a seguir es verificar si estos posibles outliers pueden llegar a ser influenciales. Un caso es influencial si su exclusin del modelo causa grandes cambios en los coeficientes de regresin ajustados. Estudiaremos 2 medidas de influencia que se usan comnmente en la prctica. Cada una est basada en la omisin del caso particular para medir su influencia.

47

Identificando casos influenciales.Influencia en un valor ajustado particular - DFFITS

i est dada por Una medida til de la influencia que tiene el caso i sobre el valor ajustado Y
DFFITSi = i Y i (i ) Y MSE (i )hii

i (i ) es el valor predicho para el i-simo caso obtenido cuando el i-simo caso es omitido al DondeY
ajustar la funcin de regresin.

i , pero usa el MSE cuando el i-simo caso es omitido El denominador es la desviacin estndar de Y
El denominador da una estandarizacin, as que el valor DFFITSi para el i-simo caso representa el

i que el valor ajustado Y nmero de desviaciones estndar estimadas de Y incrementa o decrementa i


con la inclusin del i-simo caso al ajustar el modelo de regresin Se sugiere considerar un caso como influencial si |DFFITSi|>1 para conjuntos pequeos o medianos y |DFFITSi|>2sqrt(p/n) para conjuntos de datos grandes
48

Identificando casos influenciales. Influencia en los coeficientes de regresin - DFBETAS Una medida de la influencia del i-simo caso en cada coeficiente de regresin k y se calcula como
DFBETASk (i ) = k k (i ) MSE (i )ckk

El signo de los valores de los DFBETAS indican si la inclusin de un caso llev a un incremento o no del coeficiente estimado de la regresin, y su magnitud absoluta muestra el tamao de la diferencia relativa a las desviaciones estndar estimadas de los coeficientes de regresin.

Se recomienda considerar un caso como influencial si |DFBETASk(i)|>1 para conjuntos pequeos o medianos y |DFBETASi|>2sqrt(n) para conjuntos de datos grandes
49

Ejemplo. Suponga que se desea modelar el IMC en funcin de las 8 variables de grasa corporal en el cuerpo. 1. Hay puntos influenciales en este modelo?Cules? 2. Qu hara con ellos?

50

scatterplot(rstandard(model1)~model1$fit,id.method="identify",reg.line=FALSE, smooth=FALSE, boxplots=FALSE) abline(h=c(0,-3,3),col=2,lty=2)

261

237

rstandard(model1)

-2

-1

20

25 model1$fit

30

35

51

inflm.SR <- influence.measures(model1) summary(inflm.SR) Potentially influential observations of lm(formula = imc ~ ileocrestal + abdovertical + subescapular + musloantrmedio + pieintemedia.) : supraespinal + triceps + biceps +

dfb.1_ dfb.ilcr dfb.abdv dfb.sbsc dfb.sprs dfb.trcp dfb.bcps dfb.msln dfb.pnt. dffit 20 48 67 ... 237 -0.17 ... 261 -0.05 ... 366 -0.03 367 -0.06 389 0.01 0.02 0.02 0.02 -0.02 0.00 0.06 0.02 0.02 0.02 -0.01 -0.03 -0.18 -0.04 0.01 0.02 0.02 0.02 -0.03 0.09 -0.06 0.02 -0.08 0.07 -0.02 -0.11 0.13 -0.21 0.15 -0.04 -0.11 -0.21 -0.28 0.58 -0.19 0.39 0.98_* -0.24 -0.13 0.32 0.25 0.09 0.35 -0.53 0.21 0.92_* -0.04 0.06 0.12 -0.01 -0.03 0.02 -0.05 -0.02 -0.20 0.10 -0.03 0.07 -0.01 0.02 -0.01 -0.12 -0.08 -0.07 0.10 0.11 0.02 0.10 0.09 0.34 -0.04 -0.09 -0.20 0.20 -0.16 0.42

cov.r 1.07_* 1.08_* 0.91_*

cook.d hat 0.00 0.00 0.02 0.06 0.06 0.03

0.92_*

0.09

0.09_*

0.80_*

0.10

0.07

1.12_* 1.07_* 1.10_*

0.00 0.00 0.01

0.09_* 0.05 0.08_*

52

ANEXO 1. SOLUCIONANDO EL PROBLEMA DE MULTICOLINEALIDAD: COMPONENTES PRINCIPALES -------------------------------------------------------------------

53

Componentes Principales Procedimiento matemtico que transforma un conjunto de variables

correlacionadas en un conjunto de menor nmero de variables no correlacionadas Este anlisis explica la estructura de correlacin de un conjunto de variables a travs de unas pocas combinaciones lineales de estas variables

54

Componentes Principales Aunque se requieren p componentes para reproducir la variabilidad total del sistema, con frecuencia mucha de esta variabilidad puede ser resumida por un nmero k pequeo de las componentes principales. Si esto es as, por lo menos hay tanta informacin en las k componentes principales como en las p variables originales. Las k componentes principales pueden reemplazar entonces las p variables originales.

55

Componentes Principales El conjunto de datos original, que consiste en n observaciones en p variables, se reduce a un conjunto de datos que consiste en n mediciones en k componentes principales. El anlisis de componentes principales, con frecuencia sirve como paso intermedio en la mayora de anlisis posteriores como es el caso de la regresin lineal mltiple Algebraicamente, las componentes principales son combinaciones lineales particulares de las p variables aleatorias X1, X2,, Xp

56

Definicin
X' = [X 1 , X 2 ,..., X p ] , donde tiene asociados los pares de valores y vectores propios

Sea la matriz de varianzas covarianzas asociada con el vector aleatorio

(1,e1), (2,e2),, (p,ep), con 1 2 p 0. Entonces la i-sima componente principal est dada por:

C i = e'i X = ei 1 X1 + ei 2 X 2 + ... + eip X p


Adems,

11 + 22 + ... + pp = Var ( X i ) = 1 + 2 + ... + p (Varianza Total)


i =1

57

Sobre la varianza Por tanto, la proporcin de la varianza total explicada por la k-sima componente principal sera

k 1 + 2 + ... + p

k = 1 ,...,p

Si la mayor parte de la varianza total puede ser atribuida a la primera, segunda y tercera componente, entonces estas componentes pueden reemplazar las p variables originales sin mucha prdida de informacin

58

Ejemplo. Suponga que las variables aleatorias X1, X2 y X3 tiene matriz de varianzas covarianzas

0.9 0 1 = 0 . 9 1 0 0 1 0

1. Verifique que los pares de valores y vectores propios son: 1 = 1.9 2 = 1.0 3 = 0.1 e1 = [0.7071,-0.7071, 0] e2 = [0, 0, 1] e3 = [0.7071, 0.7071, 0]

2. Construya las componentes principales e interprete. Cuntas componentes seran suficientes para explicar la varianza total de los datos?
59

Cuntas componentes principales elegir No hay una respuesta definitiva a esta pregunta Cantidad de varianza total acumulada explicada (se sugiere que sea ms del 80%) Tamaos de los valores propios (se sugiere que sea mayor que 1 cuando se usa la matriz de correlacin) Interpretaciones de las componentes Un grfico til que ayuda a determinar el nmero apropiado de componentes principales a usar es un scree plot
60

Ejemplo. Haga un anlisis de componentes principales para el modelo de imc vs. las 8 variables de grasa corporal. 1. Cuntas componentes obtiene? 2. Cmo las interpreta? 3. Cmo queda su modelo de regresin lineal?

61

# Calculando la matriz de correlaciones de las 8 variables de grasa corporal cor(datos[,5:12]) ileocrestal abdovertical subescapular supraespinal triceps biceps musloantrmedio pieintemedia. 1.000 0.819 0.765 0.760 0.560 0.617 0.493 0.477 0.819 1.000 0.829 0.829 0.657 0.671 0.651 0.572 0.765 0.829 1.000 0.755 0.665 0.693 0.609 0.536 0.760 0.829 0.755 1.000 0.615 0.652 0.616 0.558 0.560 0.657 0.665 0.615 1.000 0.844 0.853 0.818 0.617 0.671 0.693 0.652 0.844 1.000 0.758 0.780 0.493 0.651 0.609 0.616 0.853 0.758 1.000 0.863 0.477 0.572 0.536 0.558 0.818 0.780 0.863 1.000

ileocrestal abdovertical subescapular supraespinal triceps biceps musloantrmedio pieintemedia.

62

# Para calcular las componentes principales cp<-princomp(datos[,5:12],cor=T) # Cuando se imprime cp saca los valores propios cp Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8 2.4154573 1.0222698 0.5403950 0.4906290 0.4585631 0.3879986 0.3593582 0.3127709 8 variables and 393 observations. # Imprime en pantalla el % de varianza explicada por c/u de las cp summary(cp)
Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8 Standard deviation 2.4154573 1.0222698 0.54039497 0.4906290 0.45856308 0.38799857 0.35935820 0.3127709 Proportion of Variance 0.7293042 0.1306295 0.03650334 0.0300896 0.02628501 0.01881786 0.01614229 0.0122282 Cumulative Proportion 0.7293042 0.8599337 0.89643703 0.9265266 0.95281165 0.97162951 0.98777180 1.0000000

63

screeplot(cp,main='',type='l') abline(h=1,col=2,lty=2)

Variances

0 Comp.1

Comp.2

Comp.3

Comp.4

Comp.5

Comp.6

Comp.7

Comp.8

64

# saca los vectores propios asociados con cada cp vec.prop<-cp$loadings vec.prop Grasa corporal promedio Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 ileocrestal -0.332 -0.449 0.165 0.610 -0.414 abdovertical -0.365 -0.327 -0.197 -0.154 -0.214 subescapular -0.355 -0.301 0.363 -0.625 supraespinal -0.350 -0.314 -0.538 0.641 triceps -0.365 0.326 0.238 -0.112 biceps -0.365 0.208 0.528 0.240 0.503 musloantrmedio -0.355 0.382 -0.358 -0.243 -0.262 pieintemedia -0.340 0.455 -0.222 0.287 -0.201

Grasa corporal compensada Comp.6 Comp.7 -0.269 -0.199 0.737 0.431 -0.256 -0.272 -0.627 -0.319 0.376 -0.148 0.586 Comp.8 -0.194 0.260

0.443 -0.292 -0.670 0.404

Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8 SS loadings 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 Proportion Var 0.125 0.125 0.125 0.125 0.125 0.125 0.125 0.125 Cumulative Var 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000 65

# Para sacar los valores calculados de las observaciones en las componentes principales # (slo la 1 y la 2 que fueron las que resultaron significativas) cp1<-cp$scores[,1] cp2<-cp$scores[,2] cbind(cp1,cp2) Comp.1 Comp.2 -1.89642122 -0.8114956232 2.35897082 0.7669309658 1.57362029 0.1120591761 1.31467859 -0.0397734680 0.80188131 1.9394639145 -3.70354711 -0.4215408328 -1.99766158 0.0140275662 -0.49781305 0.8342025936 -4.26844615 0.0751492400 -6.71176922 -0.6568142150 -1.38059408 1.0608558448 0.61872361 1.4802512899 -2.47233153 0.1225475399 1.67828652 0.7265104018

[1,] [2,] [3,] [4,] [5,] [6,] [7,] ... [387,] [388,] [389,] [390,] [391,] [392,] [393,]

66

# Grafica las componentes 2 componentes principales (note que son independientes!!) plot(cp1,cp2)

cp2

-2 -8

-1

-6

-4

-2 cp1

67

# Modelo de regresin en funcin de las 2 componentes principales model9<-lm(imc~cp1+cp2) summary(model9) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 24.33150 0.11612 209.534 <2e-16 *** cp1 -1.05215 0.04807 -21.886 <2e-16 *** cp2 -1.11368 0.11359 -9.804 <2e-16 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 2.302 on 390 degrees of freedom Multiple R-squared: 0.5959, Adjusted R-squared: 0.5938 F-statistic: 287.6 on 2 and 390 DF, p-value: < 2.2e-16 anova(model9) Analysis of Variance Table Response: imc Df Sum Sq Mean Sq F value Pr(>F) cp1 1 2538.31 2538.31 478.985 < 2.2e-16 *** cp2 1 509.38 509.38 96.122 < 2.2e-16 *** Residuals 390 2066.75 5.30 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 vif(model9) cp1 cp2 1 1

68

EN RESUMEN -------------------------------------------------------------------

69

1. VERIFIQUE NORMALIDAD SOBRE Y


SI

NO

TRANSFORMACIN DE POTENCIA SOBRE Y

- ELIMINE VARIABLES DEL MODELO - CONSTRUYA INDICADORES - APLIQUE COMPONENTES PRINCIPALES

NO

2. VERFIQUE MULTICOLINEALIDAD SOBRE LAS XS


SI

NOTA. Y slo se transforma una vez

3. CONSTRUYA SU MODELO DE REGRESIN


SI

4. VALIDE EL MODELO
SI

4.1 INDEPENDENCIA
NO SI NO

4.2 VARIANZA CONSTANTE


SI

4.3 NORMALIDAD
SI NO

NO

ELIMINE OBSERVACIONES

4.4 DATOS INFLUENCIALES


SI

FIN

You might also like