You are on page 1of 21

CAPTULO 2 REGRESIN LINEAL MULTIPLE

Edgar Acua Fernndez


Departamento de Matemticas Universidad de Puerto Rico Recinto Universitario de Mayagez

REGRESIN LINEAL MULTIPLE


La regresin lineal multiple trata de explicar el comportamiento de Y con ms de una variable predictora usando una funcion lineal. Alternativas para mejorar el modelo. Transformar la variable predictora, o la variable de respuesta Y, o ambas y usar luego un modelo lineal. Usar regresin polinmica con una variable predictora. Conseguir ms variables predictoras y usar una regresin lineal mltiple.
Edgar Acua Analisis de Regresin Febrero, 2010

2.2 El modelo de regresin lineal mltiple


El modelo de regresin lineal mltiple con p variables predictoras y basado en n observaciones est dado por:

yi =o +1xi1 +2xi2 +...... pxip +ei


en forma matricial : Y = X + e

para i = 1,2,,n

Edgar Acua

Analisis de Regresin Febrero, 2010

Suposiciones del modelo


1. E(e)=0 2. Var(e)=2In Donde: e es un vector columna aleatorio de dimensin n. In es la matriz identidad de orden n.

Edgar Acua

Analisis de Regresin Febrero, 2010

2.2.1 Estimacin del vector de parmetros por Cuadrados Mnimos


Se tiene que minimizar la suma de cuadrados de los errores.

Q() = ei2 = e' e = (Y X)' (Y X)


i =1

Haciendo operaciones con los vectores y matrices

Q() = Y'Y 'X'Y Y'X + 'X' X = Y'Y 2'X'Y + 'X'X


Derivando Q con respecto a e igualando a cero se obtiene el sistema de ecuaciones normales X' X = X' Y resolviendo para se obtiene:

= (X' X) 1 X' Y

Edgar Acua

Analisis de Regresin Febrero, 2010

2.2.2 Propiedades del estimador


) ) es insesgado, o sea E () = . ) Var()=2(XX)-1
Si no se asume normalidad, el estimador minimo) cuadrtico es el mejor estimador dentro de los estimadores lineales insesgados de . ) Si se asume normalidad de los errores entonces es el mejor estimador entre todos los estimadores insesgados de
Edgar Acua Analisis de Regresin Febrero, 2010

2.2.3 Estimacin de la varianza 2


Un estimado de la varianza de los errores es:
) ) ) ) e' e SSE ( Y X )' (Y X ) )2 i =1 = = = = n p 1 n p 1 n p 1 n p 1 ) e i2
n

) ) SSE= (Y X)'(Y X) = (Y X(X' 1 X'Y)' X(X' 1 X'Y) X) (Y X)


SSE = Y' (I H)' (I H)Y

Donde H=X(XX)-1X es la Hat Matrix la varianza estimada de los errores puede ser escrita como: 2 = Y' (I X(X' X) 1 X' )Y = Y' (I H)Y )
n p 1 n p 1
Edgar Acua Analisis de Regresin Febrero, 2010

Algunas Propiedades
Sea Y un vector aleatorio n-dimensional tal que E(Y) = y VAR(Y) =V entonces E(YAY)=traza(AV) + A
Donde =X y V=2In Se puede mostrar que E[s2]=2.

Edgar Acua

Analisis de Regresin Febrero, 2010

2.3. Inferencia en Regresin lineal mltiple Involucra realizar pruebas de hiptesis eintervalos de confianza acerca de los coeficientes del modelo de regresin poblacional. Intervalos de confianza de las predicciones que se hacen con el modelo.
Suponemos que e~NI(0,2In) o equivalente que Y~NI(X, 2In)
Edgar Acua Analisis de Regresin Febrero, 2010

Descomposicin de la variacin total de Y


La variacin total de Y se descompone en dos variaciones: una debido a la regresin y otra debido a causas no controlables.

SST = SSR + SSE


El coeficiente de Determinacin R2, se clcula por:

SSR R = SST
2
Edgar Acua Analisis de Regresin Febrero, 2010

Resultados para sumas de cuadrados


i) SST ~ 2 ( n 1) 2

ii)

SSE

~ (2n p 1) 2

, tambin que

(n p 1) s 2

~ (2n p 1)

iii)

SSR

~ (2p ) 2
Analisis de Regresin Febrero, 2010

Edgar Acua

2.3.1 Prueba de hiptesis acerca de un coeficiente de regresin individual


Ho: i = 0 ( i=1,2,..,p), Ha: i 0; La prueba estadstica es la prueba de t: ) )
i i t= ) = se ( i ) s C ii

se distribuye como una tcon (n-p-

1) gl.

Donde, Cii es el i-simo elemento de la diagonal de (XX)-1. Los programas de computadoras, da el P-value de la prueba t.
Edgar Acua Analisis de Regresin Febrero, 2010

2.3.2 Prueba de Hiptesis de que todos los coeficientes de regresin son ceros.
Ho: 1=2==p=0 Ha: Al menos uno de los coeficientes es distinto de cero.
usando propiedades de formas cuadrticas se puede mostrar que: E(SSR) = E[Y(H-11/n)Y] = p2+ X(H-11/n)X = p2+ X(H-11/n)X Donde, 1 es un vector columna de n unos.
Edgar Acua Analisis de Regresin Febrero, 2010

Tabla de Anlisis de Varianza


____________________________________________________ Fuente de Suma de Grados de Cuadrados F Variacin Cuadrados libertad Medios ____________________________________________________ Regresin SSR p MSR=SSR/p MSR/MSE Error SSE n-p-1 MSE=SSE/n-p-1 Total SST n-1 ____________________________________________________

Edgar Acua

Analisis de Regresin Febrero, 2010

Particionamiento secuencial de la suma de cuadrados de regresin


La suma de cuadrados de regresin puede ser particionada en tantas partes como variables predictoras existen en el modelo. Sirve para determinar la contribucin de cada una de las variables predictoras al comportamiento de Y. SSR(1,2,,.p/ 0) = SSR(1/ 0) + SSR((2,/1,0) ++SSR(p/p-1,,1,0) SSR(k/k-1,,.1,0) significa el incremento en la suma de cudrados de regresin cuando la variable Xk es incluida en el modelo, el cual ya contiene las variables predictivas X1,Xk-1
Edgar Acua Analisis de Regresin Febrero, 2010

2.3.3 Prueba de hiptesis para un subconjunto de coeficientes de regresin


Ho: 1==k=0. (Los k primeros coeficientes son ceros ). Ha: Al menos uno de los k primeros coeficientes no es cero. La prueba de F parcial se calcula por:
SSR(C ) SSR( R ) SSR (C ) SSR ( R) k k Fp = = SSE (C ) MSE (C ) n p 1

k gl para el numerador y n-p-1 gl para el denominador

Donde:

SSR(C) = SSR(1,2,.p/o) y SSR(R) = SSR(k+1,k+2,,p/o) SSR( C) SSR( R)=SSR(1,2,.k/k+1,k+2,.p)


Edgar Acua Analisis de Regresin Febrero, 2010

2.3.4 Intervalos de Confianza y de Prediccin en Regresin Lineal Mltiple.


Se desea predecir el valor medio de la variable de respuesta Y para una combinacin predeterminada de las variables predictoras X1,Xp. Consideremos el vector de valores observados x' o = (1, x1,0,.xp,0 )

El valor predicho para el valor medio de la variable de respuesta Y ser


) y o = x'o

) Var ( y o ) = x'o Var(()x o = 2 x'o (X' X) 1 x o

Se asume que los errores estn normalmente distribuidos.

Edgar Acua

Analisis de Regresin Febrero, 2010

2.3.4 Intervalos de Confianza y de Prediccin en Regresin Lineal Mltiple.


Un intervalo del 100(1-)% para el valor medio de Y dado que x=xo es de la forma

) 1 yo t( / 2,n p1) s x'o (X'X) xo


Un intervalo de confianza (intervalo de prediccin) del 100(1-)% para el valor individual de Y dado x=xo es de la forma

) y o t ( / 2,n p 1) s 1 + x'o (X' X) 1 x o


Edgar Acua Analisis de Regresin Febrero, 2010

2.3.5 La prueba de Falta de Ajuste


Se usa para determinar si la forma del modelo que se est considerando es adecuada. En regresin mltiple se debe suponer que hay m combinaciones distintas de las n observaciones de las p variables predictoras y que por cada una de esas combinaciones hay ni (i = 1,,m) observaciones de la m variable de respuesta, es decir, n = n
i =1 i
Edgar Acua Analisis de Regresin Febrero, 2010

La Suma de Cuadrados del Error


m m i i ) 2 ) 2 2 ( yij yi ) = ( yij yi ) + ( yi yi ) i =1 j =1 i =1 j =1 i =1 j =1 m ni n n

Donde: ) yi es el valor predicho por el modelo de regresin para la i-sima combinacin de las variables predictoras y yi es el valor promedio de la variable predictora para la i-sima combinacin.

Edgar Acua

Analisis de Regresin Febrero, 2010

Suma de Cuadrados del Error Puro (SSPE) Es la primera suma de cuadrados del lado derecho, tiene n-m gl. Suma de Cuadrados de Falta de Ajuste (SSLOF) Es la segunda suma de cuadrados tiene m-p-1 gl. tambin puede ser escrita como: m ) 2
i =1

ni ( y i y i )

Prueba de hiptesis Ho: El modelo es adecuado (no hay falta de ajuste) Ha: el modelo no es adecuado La prueba estadstica es una prueba de F dada por:
SSLOF/(m p 1) MSLOF F= = SSPE/(n m) MSPE

se distribuye como una F(m-p-1,n-m).

Edgar Acua

Analisis de Regresin Febrero, 2010

You might also like