Cap 2 SL

CAPTULO 2 REGRESIN LINEAL MULTIPLE
Edgar Acua Fernndez

Departamento de Matemticas Universidad de Puerto Rico Recinto Universitario de Mayagez
REGRESIN LINEAL MULTIPLE

La regresin lineal multiple trata de explicar el comportamiento de Y con ms de una variable predictora usando una funcion lineal. Alternativas para mejorar el modelo. Transformar la variable predictora, o la variable de respuesta Y, o ambas y usar luego un modelo lineal. Usar regresin polinmica con una variable predictora. Conseguir ms variables predictoras y usar una regresin lineal mltiple.
Edgar Acua Analisis de Regresin Febrero, 2010
2.2 El modelo de regresin lineal mltiple

El modelo de regresin lineal mltiple con p variables predictoras y basado en n observaciones est dado por:
yi =o +1xi1 +2xi2 +...... pxip +ei

en forma matricial : Y = X + e
para i = 1,2,,n
Edgar Acua
Analisis de Regresin Febrero, 2010
Suposiciones del modelo

1. E(e)=0 2. Var(e)=2In Donde: e es un vector columna aleatorio de dimensin n. In es la matriz identidad de orden n.
Edgar Acua
2.2.1 Estimacin del vector de parmetros por Cuadrados Mnimos

Se tiene que minimizar la suma de cuadrados de los errores.
Q() = ei2 = e' e = (Y X)' (Y X)

i =1
Haciendo operaciones con los vectores y matrices
Q() = Y'Y 'X'Y Y'X + 'X' X = Y'Y 2'X'Y + 'X'X

Derivando Q con respecto a e igualando a cero se obtiene el sistema de ecuaciones normales X' X = X' Y resolviendo para se obtiene:
= (X' X) 1 X' Y
Edgar Acua
2.2.2 Propiedades del estimador

) ) es insesgado, o sea E () = . ) Var()=2(XX)-1
Si no se asume normalidad, el estimador minimo) cuadrtico es el mejor estimador dentro de los estimadores lineales insesgados de . ) Si se asume normalidad de los errores entonces es el mejor estimador entre todos los estimadores insesgados de
2.2.3 Estimacin de la varianza 2

Un estimado de la varianza de los errores es:
) ) ) ) e' e SSE ( Y X )' (Y X ) )2 i =1 = = = = n p 1 n p 1 n p 1 n p 1 ) e i2
n
) ) SSE= (Y X)'(Y X) = (Y X(X' 1 X'Y)' X(X' 1 X'Y) X) (Y X)

SSE = Y' (I H)' (I H)Y
Donde H=X(XX)-1X es la Hat Matrix la varianza estimada de los errores puede ser escrita como: 2 = Y' (I X(X' X) 1 X' )Y = Y' (I H)Y )
n p 1 n p 1
Algunas Propiedades
Sea Y un vector aleatorio n-dimensional tal que E(Y) = y VAR(Y) =V entonces E(YAY)=traza(AV) + A
Donde =X y V=2In Se puede mostrar que E[s2]=2.
Edgar Acua
2.3. Inferencia en Regresin lineal mltiple Involucra realizar pruebas de hiptesis eintervalos de confianza acerca de los coeficientes del modelo de regresin poblacional. Intervalos de confianza de las predicciones que se hacen con el modelo.
Suponemos que e~NI(0,2In) o equivalente que Y~NI(X, 2In)
Descomposicin de la variacin total de Y

La variacin total de Y se descompone en dos variaciones: una debido a la regresin y otra debido a causas no controlables.
SST = SSR + SSE

El coeficiente de Determinacin R2, se clcula por:
SSR R = SST
2
Resultados para sumas de cuadrados

i) SST ~ 2 ( n 1) 2
ii)
SSE
~ (2n p 1) 2
, tambin que
(n p 1) s 2
~ (2n p 1)
iii)
SSR
~ (2p ) 2
Edgar Acua
2.3.1 Prueba de hiptesis acerca de un coeficiente de regresin individual

Ho: i = 0 ( i=1,2,..,p), Ha: i 0; La prueba estadstica es la prueba de t: ) )
i i t= ) = se ( i ) s C ii
se distribuye como una tcon (n-p-
1) gl.
Donde, Cii es el i-simo elemento de la diagonal de (XX)-1. Los programas de computadoras, da el P-value de la prueba t.
2.3.2 Prueba de Hiptesis de que todos los coeficientes de regresin son ceros.
Ho: 1=2==p=0 Ha: Al menos uno de los coeficientes es distinto de cero.
usando propiedades de formas cuadrticas se puede mostrar que: E(SSR) = E[Y(H-11/n)Y] = p2+ X(H-11/n)X = p2+ X(H-11/n)X Donde, 1 es un vector columna de n unos.
Tabla de Anlisis de Varianza

____________________________________________________ Fuente de Suma de Grados de Cuadrados F Variacin Cuadrados libertad Medios ____________________________________________________ Regresin SSR p MSR=SSR/p MSR/MSE Error SSE n-p-1 MSE=SSE/n-p-1 Total SST n-1 ____________________________________________________
Edgar Acua
Particionamiento secuencial de la suma de cuadrados de regresin

La suma de cuadrados de regresin puede ser particionada en tantas partes como variables predictoras existen en el modelo. Sirve para determinar la contribucin de cada una de las variables predictoras al comportamiento de Y. SSR(1,2,,.p/ 0) = SSR(1/ 0) + SSR((2,/1,0) ++SSR(p/p-1,,1,0) SSR(k/k-1,,.1,0) significa el incremento en la suma de cudrados de regresin cuando la variable Xk es incluida en el modelo, el cual ya contiene las variables predictivas X1,Xk-1
2.3.3 Prueba de hiptesis para un subconjunto de coeficientes de regresin

Ho: 1==k=0. (Los k primeros coeficientes son ceros ). Ha: Al menos uno de los k primeros coeficientes no es cero. La prueba de F parcial se calcula por:
SSR(C ) SSR( R ) SSR (C ) SSR ( R) k k Fp = = SSE (C ) MSE (C ) n p 1
k gl para el numerador y n-p-1 gl para el denominador
Donde:
SSR(C) = SSR(1,2,.p/o) y SSR(R) = SSR(k+1,k+2,,p/o) SSR( C) SSR( R)=SSR(1,2,.k/k+1,k+2,.p)

2.3.4 Intervalos de Confianza y de Prediccin en Regresin Lineal Mltiple.

Se desea predecir el valor medio de la variable de respuesta Y para una combinacin predeterminada de las variables predictoras X1,Xp. Consideremos el vector de valores observados x' o = (1, x1,0,.xp,0 )
El valor predicho para el valor medio de la variable de respuesta Y ser

) y o = x'o
) Var ( y o ) = x'o Var(()x o = 2 x'o (X' X) 1 x o
Se asume que los errores estn normalmente distribuidos.
Edgar Acua
2.3.4 Intervalos de Confianza y de Prediccin en Regresin Lineal Mltiple.

Un intervalo del 100(1-)% para el valor medio de Y dado que x=xo es de la forma
) 1 yo t( / 2,n p1) s x'o (X'X) xo

Un intervalo de confianza (intervalo de prediccin) del 100(1-)% para el valor individual de Y dado x=xo es de la forma
) y o t ( / 2,n p 1) s 1 + x'o (X' X) 1 x o

2.3.5 La prueba de Falta de Ajuste

Se usa para determinar si la forma del modelo que se est considerando es adecuada. En regresin mltiple se debe suponer que hay m combinaciones distintas de las n observaciones de las p variables predictoras y que por cada una de esas combinaciones hay ni (i = 1,,m) observaciones de la m variable de respuesta, es decir, n = n
i =1 i
La Suma de Cuadrados del Error

m m i i ) 2 ) 2 2 ( yij yi ) = ( yij yi ) + ( yi yi ) i =1 j =1 i =1 j =1 i =1 j =1 m ni n n
Donde: ) yi es el valor predicho por el modelo de regresin para la i-sima combinacin de las variables predictoras y yi es el valor promedio de la variable predictora para la i-sima combinacin.
Edgar Acua
Suma de Cuadrados del Error Puro (SSPE) Es la primera suma de cuadrados del lado derecho, tiene n-m gl. Suma de Cuadrados de Falta de Ajuste (SSLOF) Es la segunda suma de cuadrados tiene m-p-1 gl. tambin puede ser escrita como: m ) 2
i =1
ni ( y i y i )
Prueba de hiptesis Ho: El modelo es adecuado (no hay falta de ajuste) Ha: el modelo no es adecuado La prueba estadstica es una prueba de F dada por:
SSLOF/(m p 1) MSLOF F= = SSPE/(n m) MSPE
se distribuye como una F(m-p-1,n-m).
Edgar Acua

Cap 2 SL

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cap 2 SL

Uploaded by

Copyright:

Available Formats

CAPTULO 2 REGRESIN LINEAL MULTIPLE

Edgar Acua Fernndez

REGRESIN LINEAL MULTIPLE

2.2 El modelo de regresin lineal mltiple

yi =o +1xi1 +2xi2 +...... pxip +ei

Analisis de Regresin Febrero, 2010

Suposiciones del modelo

Analisis de Regresin Febrero, 2010

2.2.1 Estimacin del vector de parmetros por Cuadrados Mnimos

Q() = ei2 = e' e = (Y X)' (Y X)

Haciendo operaciones con los vectores y matrices

Q() = Y'Y 'X'Y Y'X + 'X' X = Y'Y 2'X'Y + 'X'X

Analisis de Regresin Febrero, 2010

2.2.2 Propiedades del estimador

2.2.3 Estimacin de la varianza 2

) ) SSE= (Y X)'(Y X) = (Y X(X' 1 X'Y)' X(X' 1 X'Y) X) (Y X)

Analisis de Regresin Febrero, 2010

Descomposicin de la variacin total de Y

SST = SSR + SSE

Resultados para sumas de cuadrados

2.3.1 Prueba de hiptesis acerca de un coeficiente de regresin individual

se distribuye como una tcon (n-p-

Tabla de Anlisis de Varianza

Analisis de Regresin Febrero, 2010

Particionamiento secuencial de la suma de cuadrados de regresin

2.3.3 Prueba de hiptesis para un subconjunto de coeficientes de regresin

k gl para el numerador y n-p-1 gl para el denominador

SSR(C) = SSR(1,2,.p/o) y SSR(R) = SSR(k+1,k+2,,p/o) SSR( C) SSR( R)=SSR(1,2,.k/k+1,k+2,.p)

2.3.4 Intervalos de Confianza y de Prediccin en Regresin Lineal Mltiple.

El valor predicho para el valor medio de la variable de respuesta Y ser

) Var ( y o ) = x'o Var(()x o = 2 x'o (X' X) 1 x o

Se asume que los errores estn normalmente distribuidos.

Analisis de Regresin Febrero, 2010

2.3.4 Intervalos de Confianza y de Prediccin en Regresin Lineal Mltiple.

) 1 yo t( / 2,n p1) s x'o (X'X) xo

) y o t ( / 2,n p 1) s 1 + x'o (X' X) 1 x o

2.3.5 La prueba de Falta de Ajuste

La Suma de Cuadrados del Error

Analisis de Regresin Febrero, 2010

se distribuye como una F(m-p-1,n-m).

Analisis de Regresin Febrero, 2010

You might also like