You are on page 1of 30

EYP1113 - Probabilidad y Estadstica

Captulo 8: Analisis de Regresi


on (Otro Enfoque)

Ricardo Aravena C.

Ricardo Olea O.

Departamento de Estadstica
Pontificia Universidad Cat
olica de Chile

Primer Semestre 2015

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

1 / 30

Contenido I
1

El Modelo de Regresion M
ultiple
Especificacion del Modelo
Desarrollo del Modelo
Graficos Tridimensionales

Estimaci
on de Coeficientes
Metodos de Mnimos Cuadrados

Poder Explicativo de una Ecuaci


on de Regresi
on M
ultiple

Intervalos de Confianza y Contraste de Hip


otesis
Intervalos de Confianza
Contraste de Hipotesis

Contraste de Coeficientes de Regresi


on
Contraste de todos los Coeficientes
Contraste de un conjunto de Coeficientes

Prediccion
Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

2 / 30

El Modelo de Regresi
on M
ultiple

Especificaci
on del Modelo

El Modelo de Regresion Multiple


Especificaci
on del Modelo

La regresion lineal multiple permite obtener dos importantes resultados:


1. Una ecuacion lineal estimada que predice la variable dependiente, Y , en
funcion de K variables independientes observadas, xj , donde j = 1, . . . , K.
yi = b0 + b1 xi 1 + b2 xi 2 + + bK xi K
donde i = 1, . . . , n observaciones.

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

3 / 30

El Modelo de Regresi
on M
ultiple

Especificaci
on del Modelo

El Modelo de Regresion Multiple


Especificaci
on del Modelo

2. La variacion marginal de la variable dependiente, Y , provocada por las


variaciones de las variables independientes, que se estima por medio de los
on multiple, estos coeficientes dependen de
coeficientes, b0j . En la regresi
que otras variables se incluyan en el modelo.
El coeficiente bj indica la variaci
on de Y , dada una variacion unitaria de
xj , descontando al mismo tiempo el efecto simultaneo de las demas
variables independientes.
En algunos problemas, ambos resultados son igual de importantes. Sin
embargo, normalmente predomina uno de ellos.

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

4 / 30

El Modelo de Regresi
on M
ultiple

Desarrollo del Modelo

El Modelo de Regresion Multiple


Desarrollo del Modelo

El modelo de regresion m
ultiple define la relaci
on entre una variable
dependiente o endogena, Y , y un conjunto de variables independientes o
ex
ogenas, xj , donde j = 1, . . . , K. Se supone que las xj i son n
umeros
fijos; Y es una variable aleatoria definida para cada observacion, i, donde
i = 1, . . . , n, y n es el n
umero de observaciones.
El modelo se define de la forma siguiente:
yi = 0 + 1 xi 1 + 2 xi 2 + + K xi K + i
donde las j son coeficientes constantes y las son variables aleatorias de
media 0 y varianza 2 .

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

5 / 30

El Modelo de Regresi
on M
ultiple

Gr
aficos Tridimensionales

El Modelo de Regresion Multiple


Gr
aficos Tridimensionales

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

6 / 30

El Modelo de Regresi
on M
ultiple

Gr
aficos Tridimensionales

El Modelo de Regresion Multiple


Datos Ejemplo

Ejemplo: Datos sobre ahorro y cr


edito inmobiliario.
La siguiente tabla proporciona el margen anual de beneficios (Y ), ingresos
anuales netos por dolar depositado (X1 ), y el n
umero de oficinas
existentes ese a
no (X2 ).
Tabla :
A
no
1
2
3
4
5
6
7
8
9
10
11
12
13

Ingresos
3.92
3.61
3.32
3.07
3.06
3.11
3.21
3.26
3.42
3.42
3.45
3.58
3.66

Aravena - Olea (PUC)

Datos sobre ahorro y cr


edito inmobiliario
Oficinas
7298
6855
6636
6506
6450
6402
6368
6340
6349
6352
6361
6369
6546

Beneficio
0.75
0.71
0.66
0.61
0.70
0.72
0.77
0.74
0.90
0.82
0.75
0.77
0.78

A
no
14
15
16
17
18
19
20
21
22
23
24
25

Ingresos
3.78
3.82
3.97
4.07
4.25
4.41
4.49
4.70
4.58
4.69
4.71
4.78

Probabilidad y Estadstica

Oficinas
6672
6890
7115
7327
7546
7931
8097
8468
8717
8991
9179
9318

Beneficio
0.84
0.79
0.70
0.68
0.72
0.55
0.63
0.56
0.41
0.51
0.47
0.32

2015 - I

7 / 30

Estimaci
on de Coeficientes

Estimacion de Coeficientes
El modelo de regresion poblacional m
ultiple es
yi = 0 + 1 xi 1 + 2 xi 2 + + K xi K + i
y suponemos que se dispone de n conjuntos de observaciones. Se postulan
los siguientes supuestos habituales para el modelo.
Las xi j son o bien n
umeros fijos, o bien realizaciones de variables
aleatorias, Xj , que son independientes de los terminos del error, . En
el segundo caso, la inferencia se realiza condicionada a los valores
observados de las xi j .
El valor esperado de la variable aleatoria Y es una funcion lineal de
las variables independientes Xs.

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

8 / 30

Estimaci
on de Coeficientes

Estimacion de Coeficientes
Los terminos de error son variables aleatorias cuya media es cero y
que tienen la misma varianza, 2 . Este u
ltimo supuesto se denomina
homocedasticidad o varianza uniforme.
E(i ) = 0

E(2i ) = 2 ,

para i = 1, . . . , n.
Los terminos de error aleatorio, i , no estan correlacionados entre s,
por lo que
E(i j ) = 0 i =
6 j
No es posible hallar un conjunto de n
umeros que no sean iguales a
cero, c0 , c1 ,. . . , cK , tal que
c0 + c1 xi 1 + + cK xi K = 0
Esta es la propiedad de la ausencia de relaci
on lineal entre las Xj .
Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

9 / 30

Estimaci
on de Coeficientes

M
etodos de Mnimos Cuadrados

Estimacion de Coeficientes
Metodos de Mnimos Cuadrados

Para una muestra de n observaciones (x1 i , x2 i ,. . . , xK i , Yi , donde


i = 1, . . . , n) medidas para u proceso cuyo modelo de regresion
poblacional m
ultiple es
yi = 0 + 1 xi 1 + 2 xi 2 + + K xi K + i
Las estimaciones por mnimos cuadrados de los coeficientes 1 , 2 ,. . . , K
son los valores b0 , b1 ,. . . , bK para los que la suma de los cuadrados de las
desviaciones
SCE =

n
X

(yi b0 b1 xi 1 b2 xi 2 bK xi K )2

i=1

es la menor posible.
Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

10 / 30

Estimaci
on de Coeficientes

M
etodos de Mnimos Cuadrados

Estimacion de Coeficientes
Metodos de Mnimos Cuadrados

La ecuacion resultante
yi = b0 + b1 xi 1 + b2 xi 2 + + bK xi K
es la regresion m
ultiple de Y sobre X1 , X2 ,. . . ,XK .

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

11 / 30

Estimaci
on de Coeficientes

M
etodos de Mnimos Cuadrados

Estimacion de Coeficientes
Metodos de Mnimos Cuadrados

Ejemplo Consideremos el caso con dos variables de prediccion


yi = b0 + b1 xi 1 + b2 xi 2
Los estimadores de los coeficientes pueden resolverse utilizando las formas
siguientes:
sy (rx1 y rx1 x2 rx2 y )
sx1 (1 rx21 x2 )
sy (rx2 y rx1 x2 rx1 y )
b2 =
sx2 (1 rx21 x2 )

b1 =

b0 = y b1 x 1 b2 x 2

donde r es la correlacion muestral y s es la desviaci


on tpica muestral.
Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

12 / 30

Poder Explicativo de una Ecuaci


on de Regresi
on M
ultiple

Poder Explicativo de una Ecuacion de Regresion Multiple

Descomposici
on Suma de Cuadrados
Comenzamos con el modelo de regresi
on m
ultiple ajustado mediante
mnimos cuadrados
yi = b0 + b1 xi 1 + b2 xi 2 + + bK xi K + ei = yi + ei
donde las bj son las estimaciones por mnimos cuadrados de los
coeficientes del modelo de regresi
on poblacional y las e son los residuos del
modelos de regresion estimado.

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

13 / 30

Poder Explicativo de una Ecuaci


on de Regresi
on M
ultiple

Poder Explicativo de una Ecuacion de Regresion Multiple

Descomposici
on Suma de Cuadrados
La variabilidad del modelo puede dividirse en los componentes
SCT = SCR + SCE
las que se definen de la siguiente manera
STC =

n
X

(yi y)2

i=1

n
X
i=1

Aravena - Olea (PUC)

(
yi y) +

n
X

(yi yi )2

i=1

Probabilidad y Estadstica

2015 - I

14 / 30

Poder Explicativo de una Ecuaci


on de Regresi
on M
ultiple

Poder Explicativo de una Ecuacion de Regresion Multiple

Descomposici
on Suma de Cuadrados
Esta descomposicion puede interpretarse como
Variabilidad Muestral Total = Variabilidad Explicada + Variabilidad No Explicada

El coeficiente de determinaci
on, R2 , de la regresi
on ajustada es la
proporcion de la variabilidad muestral total explicada por la regresion
R2 =

SCE
SCR
=1
SCT
SCT

y se deduce que
0 R2 1

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

15 / 30

Poder Explicativo de una Ecuaci


on de Regresi
on M
ultiple

Poder Explicativo de una Ecuacion de Regresion Multiple


Estimaci
on de la Varianza de los Errores
Dado el modelo de regresi
on poblacional m
ultiple
yi = 0 + 1 xi 1 + 2 xi 2 + + K xi K + i
y los supuestos habituales de la regresi
on, sea 2 la varianza com
un del
termino de error, i . Entonces, una estimaci
on insesgada de esta varianza
es
n
X
SCE
1
e2i =
s2e =
nK 1
nK 1
i=1

donde K es el n
umero de variables independientes en el modelo de
regresion. La raz cuadrada de la varianza, se , tambien se llama error
tpico de la estimaci
on.
Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

16 / 30

Poder Explicativo de una Ecuaci


on de Regresi
on M
ultiple

Poder Explicativo de una Ecuacion de Regresion Multiple

Coeficiente de Determinaci
on Ajustado
2

El coeficiente de determinaci
on ajustado, R , se define de la forma
siguiente:
SCE/(n K 1)
2
R =1
SCT/(n 1)
Utilizamos esta medida para tener en cuenta el hecho de que las variables
independientes irrelevantes provocan una peque
na reduccion de la suma de
los cuadrados de los errores.
2

Por lo tanto, el R ajustado permite comparara mejor los modelos de


regresion m
ultiple que tienen diferentes n
umeros de variables
independientes.

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

17 / 30

Poder Explicativo de una Ecuaci


on de Regresi
on M
ultiple

Poder Explicativo de una Ecuacion de Regresion Multiple

Coeficiente de Correlaci
on Multiple
El coeficiente de correlacion m
ultiple es la correlaci
on entre el valor
predicho y el valor observado de la variable dependiente.

R = r(
y , y) = R2
y es igual a la raz cuadrada del coeficiente m
ultiple de determinacion.
Utilizamos R como otra medida de la fuerza de la relacion entre variable
dependiente y las variables independientes.
Por lo tanto, es comparable a la correlaci
on entre Y y X en la regresion
simple.

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

18 / 30

Poder Explicativo de una Ecuaci


on de Regresi
on M
ultiple

Poder Explicativo de una Ecuacion de Regresion Multiple


Salida R

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

19 / 30

Poder Explicativo de una Ecuaci


on de Regresi
on M
ultiple

Poder Explicativo de una Ecuacion de Regresion Multiple

Salida Excel

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

20 / 30

Intervalos de Confianza y Contraste de Hip


otesis

Intervalos de Confianza y Contraste de Hipotesis


Base para Inferencia
Sea el modelo de regresion poblacional
yi = 0 + 1 xi 1 + 2 xi 2 + + K xi K + i
Sean b0 , b1 , . . . , bK las estimaciones por mnimos cuadrados de los
parametros poblacionales y sb0 , sb1 , . . . , sbK las desviaciones tpicas de los
estimadores de mnimos cuadrados.
Entonces, si se cumplen los supuestos habituales de la regresion y si los
terminos de error, i , siguen una distribuci
on normal, entonces
Tbj =

bj j
,
sbj

j = 1, 2, . . . , K

sigue una distribucion t-student(n K 1).


Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

21 / 30

Intervalos de Confianza y Contraste de Hip


otesis

Intervalos de Confianza

Intervalos de Confianza y Contraste de Hipotesis


Intervalos de Confianza

Si lo errores de la regresion poblacional, i , siguen una distribucion normal


y se cumplen los supuestos habituales de la regresi
on, los intervalos de
confianza bilaterales al (1 ) 100% de los coeficientes de regresion, j ,
son
bj t1/2 (n K 1) sbj < j < bj + t1/2 (n K 1) sbj
donde t1/2 (n K 1) corresponde al percentil (1 /2) 100% de
una variable aleatoria t-Student(n K 1).

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

22 / 30

Intervalos de Confianza y Contraste de Hip


otesis

Contraste de Hip
otesis

Intervalos de Confianza y Contraste de Hipotesis


Contraste de Hip
otesis

Si los errores de la regresion, i , siguen una distribuci


on normal y se
cumplen los supuestos habituales del analisis de regresion, los siguientes
contrastes de hipotesis tienen el nivel de significaci
on :
Para contrastar cualquiera de las dos hip
otesis nulas
H0 : j = j

H0 : j j

frente a la hipotesis alternativa


Ha : j > j
Se rechaza H0 si

Aravena - Olea (PUC)

bj j
> t1 (n k 1)
s bj
Probabilidad y Estadstica

2015 - I

23 / 30

Intervalos de Confianza y Contraste de Hip


otesis

Contraste de Hip
otesis

Intervalos de Confianza y Contraste de Hipotesis


Contraste de Hip
otesis

Para contrastar cualquiera de las dos hip


otesis nulas
H0 : j = j

H0 : j j

frente a la hipotesis alternativa


Ha : j < j
Se rechaza H0 si

Aravena - Olea (PUC)

bj j
< t (n k 1)
sbj

Probabilidad y Estadstica

2015 - I

24 / 30

Intervalos de Confianza y Contraste de Hip


otesis

Contraste de Hip
otesis

Intervalos de Confianza y Contraste de Hipotesis


Contraste de Hip
otesis

Para contrastar la hip


otesis nula
H0 : j = j
frente a la hipotesis alternativa
Ha : j 6= j
Se rechaza H0 si


bj j


sb > t1/2 (n k 1)
j

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

25 / 30

Contraste de Coeficientes de Regresi


on

Contraste de todos los Coeficientes

Contraste de Coeficientes de Regresion


Contraste de todos los Coeficientes

Consideremos el modelo de regresi


on m
ultiple
yi = 0 + 1 xi 1 + 2 xi 2 + + K xi K + i
Para contrastar la hipotesis nula
H0 : 1 = 2 = = K = 0
Frente a la hipotesis alternativa
Ha : Al menos un j 6= 0

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

26 / 30

Contraste de Coeficientes de Regresi


on

Contraste de todos los Coeficientes

Contraste de Coeficientes de Regresion


Contraste de todos los Coeficientes

A un nivel de significacion , utilizamos la regla de decision:


Rechazar H0 si

CMR
> F1 (K, n K 1)
s2e

donde F1 (K, n K 1) es el percentil (1 ) 100% de una variable


aleatoria Fisher(K, n K 1).

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

27 / 30

Contraste de Coeficientes de Regresi


on

Contraste de un conjunto de Coeficientes

Contraste de Coeficientes de Regresion


Contraste de un conjunto de Coeficientes

Dado un modelo de regresi


on con la descomposici
on de las variables
independientes en los subconjuntos X y Z,
yi = 0 + 1 xi 1 + 2 xi 2 + + K xi K + 1 zi 1 + + r zi r + i
Para contrastar la hipotesis nula
H0 : 1 = 2 = = r = 0
de que los parametros de regresi
on de un subconjunto son
simultaneamente iguales a cero, frente a la hip
otesis alternativa
Ha : Al menos un j 6= 0,

Aravena - Olea (PUC)

Probabilidad y Estadstica

j = 1, . . . , r

2015 - I

28 / 30

Contraste de Coeficientes de Regresi


on

Contraste de un conjunto de Coeficientes

Contraste de Coeficientes de Regresion


Contraste de un conjunto de Coeficientes

Comparamos la suma de los cuadrados de los errores del modelo completo


con la suma de los cuadrados de los errores del modelo restringido.
Se rechaza H0 si
(SCE(r) SCE)/r
> F1 (r, n K r 1)
s2e
con r el n
umero de variables eliminadas y s2e la varianza estimada del error
del modelo completo, es decir, con los K + r regresores.

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

29 / 30

Predicci
on

Prediccion
Dado que se cumple el modelo de regresi
on poblacional
yi = 0 + 1 xi 1 + 2 xi 2 + + K xi K + i ,

i = 1, . . . , n

y que los supuestos habituales del analisis de regresi


on son validos, sean
b0 , b1 , . . . , bK las estimaciones por mnimos cuadrados de los coeficientes
del modelo, j , siendo j = 1, . . . , K, basados en los puntos de datos
x1 i , x2 i , . . . , xK i , (i = 1, . . . , n).
En tal caso, dada una nueva observaci
on de un punto de datos
x1, n+1 , x2, n+1 , . . . , xK, n+1 , la mejor predicci
on lineal insesgada de yn+1 es
yn+1 = b0 + b1 xn+1 ,1 + b2 xn+1 ,2 + + bK xn+1 ,K

Aravena - Olea (PUC)

Probabilidad y Estadstica

2015 - I

30 / 30

You might also like