Regresión Lineal

Universidad Carlos III de Madrid
Csar Alonso
ECONOMETRIA
EL MODELO DE REGRESIN LINEAL SIMPLE
ndice
1. Relaciones empricas y tericas . . . . . . . . . . . . . . . .
2. Conceptos previos . . . . . . . . . . . . . . . . . . . . . . .
2.1. Mejor Prediccin Constante . . . . . . . . . . . . . .
2.2. Mejor Prediccin Lineal . . . . . . . . . . . . . . . .
2.3. Mejor Prediccin . . . . . . . . . . . . . . . . . . . .
3. Introduccin al modelo de regresin lineal simple . . . . . .
4. Supuestos del modelo de regresin simple . . . . . . . . . .
5. Interpretacin de coecientes . . . . . . . . . . . . . . . . .
6. Estimacin . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1. El principio de analoga . . . . . . . . . . . . . . . .
6.2. El criterio de MCO . . . . . . . . . . . . . . . . . . .
7. Propiedades de los estimadores MCO . . . . . . . . . . . .
7.1. Linealidad (en las observaciones de Y ) . . . . . . . .
7.2. Insesgadez . . . . . . . . . . . . . . . . . . . . . . . .
7.3. Varianzas . . . . . . . . . . . . . . . . . . . . . . . .
7.4. El Teorema de Gauss-Markov . . . . . . . . . . . . .
7.5. Consistencia de los estimadores MCO . . . . . . . . .
8. Estimacin de las varianzas . . . . . . . . . . . . . . . . .
8.1. Estimacin de 2 . . . . . . . . . . . . . . . . . . . .
8.2. Estimacin de las varianzas de los estimadores MCO
9. Medidas de bondad del ajuste . . . . . . . . . . . . . . . .
9.1. Error estndar de la regresin . . . . . . . . . . . . .
9.2. El coeciente de determinacin . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
4
4
5
7
9
11
14
16
17
17
20
20
20
21
21
22
22
22
23
24
24
25
Captulos 6, 9, 10 y 12 de Goldberger. Captulo 2 de Wooldridge
1.
Relaciones empricas y tericas

Como economistas, nos interesa la relacin entre dos o ms variables econmicas.
Por ello, nos concentramos en poblaciones, al menos, bivariantes.
La teora econmica postula, en general, relaciones del tipo
Y = f (X)
donde f ( ) es una funcin.
Dichas relaciones son exactas o determinsticas, de manera que a cada valor
de X le corresponde un nico valor de Y .
Si tuviramos ms variables exgenas, el razonamiento sera idntico
Y = f (X1 ; : : : ; XK )
a cada combinacin de valores de X1 ; : : : ; XK le corresponde un nico valor de
Y.
Qu sucede en general con los datos reales de variables econmicas?
Ejemplo: Relacin entre tasa de ahorro (Y ) y renta (X)
(Goldberger, Captulo 1 de A Course in Econometrics, 1991. Harvard U.
Press.)
La teora econmica predice una relacin creciente entre tasa de ahorro y
renta
Datos de 1027 familias de EE.UU. en los aos 1960 a 1962.
Para simplicar, hemos agrupado los datos en intervalos para ambas variables, poniendo el punto medio del intervalo.
Para cada combinacin de X e Y presentamos la frecuencia relativa (en
tanto por uno).
Distribucin conjunta de frecuencias de X e Y

P (X; Y )
X (renta en miles de dlares)
Y
1.4
3.0
4.9
7.8
14.2
P (Y )
(tasa de ahorro)
(suma de las)
0.45
0.015 0.026 0.027 0.034 0.033
0.135
0.18
0.019 0.032 0.057 0.135 0.063
0.306
0.05
0.059 0.066 0.071 0.086 0.049
0.331
-0.11
0.023 0.035 0.045 0.047 0.015
0.165
-0.25
0.018 0.016 0.016 0.008 0.005
0.063
P (X)
0.134 0.175 0.216 0.310 0.165
1.000
(suma de columnas)
Dada la evidencia emprica, podemos armar que existe una relacin determinstica entre tasa de ahorro y renta?
Para que ello fuera cierto, deberamos encontrar en cada columna (para
cada nivel de renta X) una nica frecuencia distinta de 0.
Claramente, esto NO es cierto: para cada nivel de renta, existen familias que ahorran mucho y familias que desahorran mucho.
NO hay una funcin que relacione ahorro y renta: tenemos una distribucin, con valores ms y menos probables:
Observamos una proporcin mayor de familias con tasas de ahorro
ms altas cuanto mayor es su renta.
Para verlo mejor, podemos concentrarnos en las distribuciones condicionales
de la tasa de ahorro para cada nivel de renta.
Para ello, tenemos que dividir las frecuencias relativas de cada columna
por la suma de stas
Distribuciones condicionales de frecuencias de Y
para cada valor de X
P (Y j X)
Y (tasa de ahorro)
1.4
3.0
4.9
7.8
14.2
0.45
0.112 0.149 0.125 0.110 0.200
0.18
0.142 0.183 0.264 0.435 0.382
0.05
0.440 0.377 0.329 0.277 0.297
-0.11
0.172 0.200 0.208 0.152 0.091
-0.25
0.134 0.091 0.074 0.026 0.030
Suma de columnas
1
1
1
1
1
Media cond. b Y jX 0.045 0.074 0.079 0.119 0.156
2
Vemos que, en trminos relativos, las tasas de ahorro negativas son

ms frecuentes para rentas bajas.
Parece existir una contradiccin entre la relacin funcional exacta predicha
por la teora econmica y la evidencia emprica:
La teora arma que las familias de igual renta deberan presentar la
misma tasa de ahorro
PERO vemos que no es cierto en realidad.
Y no podemos argumentar que lo que observamos es una mera desviacin
del comportamiento ptimo.
(implicara que la mayora de las familias se equivocansistemticamente).
Por supuesto, cabe argumentar que hay otras caractersticas en las que
dieren familias de igual renta.
Ello requerira condicionar en otras caractersticas.
Ello reducira la dispersin (tendramos celdas con valores cercanos a
0).
PERO seguiramos teniendo tasas de ahorro distintas para familias
parecidas.
CONCLUSIN: las relaciones empricas entre variables econmicas NO son
determinsticas, sino estocsticas.
Para reconciliar teora y datos, debemos reinterpretar la teora econmica:
Cuando la teora postula que Y es funcin de X, entenderemos que el valor
medio de Y es una funcin de X.
En el ejemplo, vemos que las distribuciones condicionales del ahorro para cada
nivel de renta varan con la renta:
Cuanto mayor es la renta, las tasas de ahorro tienden a ser mayores.
Ello implica que la tasa de ahorro media, condicional a la renta, aumenta
con la renta.
Interpretacin: la media de la tasa de ahorro Y es una funcin creciente
.05
Y (Tasa de ahorr o media)

.1
.15
de la renta X. Grcamente:
10
15
X (R enta)
2.
Conceptos previos
Dada la distribucin de probabilidad conjunta de (X; Y ) (por ejemplo, tasa de
ahorro y renta familiar), supongamos que nos preguntan la tasa de ahorro de
una familia tomada aleatoriamente de la poblacin de inters.
Supongamos que nuestro criterio para medir el error en la prediccin c(X) es
la minimizacin de E(U 2 ), siendo:
U =Y
c(X)
el error de prediccin, pudiendo emplear en la prediccin de Y el valor de X

correspondiente.
2.1.
Mejor Prediccin Constante

Supongamos que no conocemos la renta de la familia considerada (X).
Entonces, nuestra eleccin de predictores queda restringida a la informacin
sobre la distribucin marginal de la tasa de ahorro Y .
En el ejemplo anterior, para calcular la distribucin marginal de Y debemos
sumar las frecuencias observadas para cada la.
Y (tasa de ahorro) P (Y )
0.45
0.135
0.18
0.306
0.05
0.331
-0.11
0.165
-0.25
0.063
En este caso, ignoramos cmo se comporta Y de acuerdo con X.
La prediccin que podemos hacer sobre Y se limita a las constantes.
El error de prediccin ser U = Y c. Se elegir c tal que minimice E(U 2 ) =
P
c)2 pk . Dicho valor no es otro que:
k (Yk
c = E(Y ) =
La media poblacional Y es el mejor predictor constante de Y en una

distribucin de probabilidad bivariante (vase Captulo 3 de Goldberger).
En el ejemplo, suponiendo que la distribucin presentada se reere a una poblacin,
E (Y ) = 0;45
0;135 + 0;18
0;11
0;165
0;25
0;306 + 0;05
0;331
0;063
= 0;09848 = 9;85 %
2.2.
Mejor Prediccin Lineal

Supongamos que conocemos la renta (X) de la familia para la que queremos
predecir su tasa de ahorro (Y ).
Adems, slo podemos elegir predictores que sean funciones lineales de X, es
decir,
c(X) = c0 + c1 X,
siendo c0 y c1 constantes.
El error de prediccin ser U = Y c0 c1 X. Se elegirn aquellas constantes
P
c0 y c1 que minimicen E(U 2 ) = k (Yk c0 c1 X)2 pk .
5
Sean
0,
1,
dichas constantes, de manera que c(X) =
1 X,
vericando
que
La recta
c0 =
c1 =
1X
= E(Y )
1 E(X) =
C(X; Y )
XY
= 2 .
=
V (X)
X
1 X,
es la proyeccin lineal (o mejor prediccin lineal) de
Y dado X
L(Y j X) =
1X
En nuestro ejemplo
C (X; Y ) = E (XY )
tenemos que calcular los 5
E (X) E (Y )
5 = 25 valores resultantes de multiplicar cada uno
de los valores de X e Y , respectivamente, y presentar la celda correspondiente

a la probabilidad de ocurrencia de cada valor:
Distribucin marginal de XY
XY P (XY )
XY P (XY )
-3.55
0.005 -0.75
0.016
-1.95
0.008 -0.54
0.045
-1.56
0.015 -0.35
0.018
-1.23
0.016 -0.33
0.035
-0.86
0.047 -0.15
0.023
donde
E (XY ) =
5 X
5
X
XY P (XY ) XY P (XY ) XY P (XY )

0.07
0.059 0.54
0.032 1.40
0.135
0.15
0.066 0.63
0.015 2.21
0.027
0.25
0.071 0.71
0.049 2.56
0.063
0.25
0.019 0.88
0.057 3.51
0.034
0.39
0.086 1.35
0.026 6.39
0.033
Xi Yj Pr (XY = Xi Yj ) = 0;782607
i=1 j=1
E (X) = 1;4
+7;8
0;134 + 3;0
0;310 + 14;2
0;175 + 4;9
0;216
0;165 = 6;532
y por tanto,
C (X; Y ) = 0;782607
6;532
0;09848 = 0;13934.
En consecuencia, teniendo en cuenta que

E X 2 = 1;42
+7;82
0;134 + 3;02
0;310 + 14;22
0;175 + 4;92
0;216
0;165 = 59;155
entonces
V (X) = E X 2
[E (X)]2 = 59;155
6;5322 = 16;488
con lo cual
c1 =
c0 =
C(X; Y )
0;13934
=
= 0;008451
V (X)
16;488
= E(Y )
0;008451
1 E(X) = 0;09848
=
6;532 = 0;043278
y por tanto la funcin de proyeccin lineal es

L(Y j X) = 0;043278 + 0;008451X
Aplicada nicamente a los valores de renta X, podemos escribir la proyeccin
lineal como
2.3.
8
0;043278 + 0;008451 1;4 = 0;055
>
>
>
>
< 0;043278 + 0;008451 3;0 = 0;069
0;043278 + 0;008451 4;9 = 0;085
L (Y j X) =
>
>
0;043278 + 0;008451 7;8 = 0;1092
>
>
:
0;043278 + 0;008451 14;2 = 0;1633
si X = 1;4
si X = 3;0
si X = 4;9
si X = 7;8
si X = 14;2
Mejor Prediccin
Supongamos que conocemos la renta (X) de la familia antes de hacer la prediccin de su tasa de ahorro (Y ).
Adems, podemos elegir como funcin de prediccin cualquier funcin de X,
c(X).
El error de prediccin ser U = Y c(X). Se elegir c(X) de forma que minimice
E(U 2 ), resultando que c(X) = E(Y j X).
El mejor predictor de Y dado X es su esperanza condicional, E (Y j X).
7
Solamente cuando la funcin de esperanza condicional es lineal, la funcin de proyeccin lineal L (Y j X) y la funcin de esperanza condicional
E (Y j X) coinciden.
De lo contrario, cuando la funcin de esperanza condicional no es lineal,
entonces la proyeccin lineal no es el mejor predictor, pero es la mejor
aproximacin lineal a la funcin de esperanza condicional.
La funcin de esperanza condicional viene dada por las medias de cada una de
las distribuciones condicionales de Y para cada uno de los valores de X.
En el ejemplo,
Distribuciones condicionales de frecuencias de Y
para cada valor de X
Y (tasa de ahorro)
1.4
3.0
4.9
7.8
14.2
0.45
0.112 0.149 0.125 0.110 0.200
0.18
0.142 0.183 0.264 0.435 0.382
0.05
0.440 0.377 0.329 0.277 0.297
-0.11
0.172 0.200 0.208 0.152 0.091
-0.25
0.134 0.091 0.074 0.026 0.030
b Y jX 0.045 0.074 0.079 0.119 0.156
La funcin de media condicional se obtiene calculando E (Y j X) para cada uno
de los valores de X:
E (Y j X = 1;4) = 0;45
0;11
0;172
E (Y j X = 3;0) = 0;45
0;11
0;25
0;25
0;25
0;377
0;264 + 0;05
0;329
0;435 + 0;05
0;277
0;026 = 0;119
0;200 + 0;18
0;091
0;183 + 0;05
0;074 = 0;079
0;110 + 0;18
0;152
0;440
0;091 = 0;074
0;125 + 0;18
E (Y j X = 14;2) = 0;45
0;11
0;25
0;142 + 0;05
0;134 = 0;045
0;149 + 0;18
0;208
E (Y j X = 7;8) = 0;45
0;11
0;25
0;200
E (Y j X = 4;9) = 0;45
0;11
0;112 + 0;18
0;382 + 0;05
0;030 = 0;156
0;297
de manera que la funcin de esperanza condicional se puede escribir como

8
0;045
si X = 1;4
>
>
>
>
0;074
si
X = 3;0
<
0;079
si X = 4;9
E (Y j X) =
>
>
0;119
si X = 7;8
>
>
:
0;156
si X = 14;2
En resumen,
Predictores de tasa de ahorro

C
L (Y j X) E (Y j X)
1.4
0;0985
0;055
0;045
3.0
0;0985
0;069
0;074
4.9
0;0985
0;085
0;079
7.8
0;0985
0;1092
0;119
14.2
0;0985
0;1633
0;156
Las predicciones asociadas a la proyeccin lineal son distintas de las basadas en
la funcin de esperanza condicional, porque sta no es lineal.
En el grco presentado anteriormente, puede verse que la funcin de esperanza condicional no es lineal.
L (Y j X) proporciona una aproximacin bastante buena a E (Y j X).
Ello implica que L (Y j X) puede ser, en casos como ste, un buen predictor,
aunque no coincida con E (Y j X).
Pero mientras que E (Y j X) caracteriza momentos (medias condicionales)

de las correspondientes distribuciones condicionales de Y dado X, L (Y j X)
NO.
Ello implica que E (Y j X) puede tener una interpretacin causal, pero

L (Y j X) NO.
3.
Introduccin al modelo de regresin lineal simple

El Modelo de Regresin Lineal Simple se puede emplear para estudiar la relacin
entre dos variables, aunque tiene limitaciones como herramienta para el anlisis
emprico.
9
Objeto de estudio: Y y X son dos variables que representan alguna poblacin

y estamos interesados en explicar Y en trminos de X o en estudiar cmo
vara Y ante variaciones en X.
Por ejemplo, Y = ventas, X = gastos en publicidad; Y = tasa ahorro, X =
renta.
Al tratar de formular un modelo que explique Y en trminos de Xdebemos
afrontar varias cuestiones:
Cmo tenemos en cuenta otros factores que afecten a Y adems de X?
Cul es la forma funcional de la relacin entre Y y X?
Estamos captando con nuestro modelo una relacin ceteris-paribus entre
Y y X?
El Modelo de Regresin Lineal Simple nos permite explicar Y en trminos de
Xresolviendo las cuestiones anteriores.
Sea
Y =
1X
+"
donde:
Y : Variable dependiente, endgena, explicada, de respuesta...
X : Variable independiente, exgena, explicativa, de control, regresor..
0
: Parmetros poblacionales
" : Trmino de error o perturbacin inobservable. Representa los factores

que inuyen en Y adems de X, el componente aleatorio de Y que no viene
explicado por
1 X.
Ejemplo 1 :
Si Y = salario y X = aos de estudio, entonces el trmino de error puede recoger
factores inobservables como:
- experiencia laboral
- capacidad o habilidad
- antigedad en la empresa...
10
Ejemplo 2 :
Si Y = cosecha y X = cantidad de abono, entonces el trmino de error puede
recoger factores como:
- calidad de la tierra
- lluvia.
4.
Supuestos del modelo de regresin simple
1. Linealidad en los parmetros (Y =
1X
+ ").
Este supuesto implica que un cambio unitario en X tiene el mismo efecto

sobre Y con independencia del valor inicial de X.
Puede no ser realista para algunas aplicaciones econmicas.
(por ejemplo, en el caso de salario y educacin podemos pensar en la
existencia de rendimientos crecientes)
Esta limitacin puede superarse formulando modelos lineales en parmetros que recogen relaciones no lineales entre variables.
2. E ("jX) = 0, es decir:
Para cualquier valor de X, la media de los inobservables es siempre la misma e
igual a cero
(que es la media de los inobservables para el total de la poblacin)
Implicaciones:
E (") = 0
Por la ley de esperanzas iteradas,
E (") = E [E ("jX)] = 0
Que E ("jX) = 0 implica que C (h (X) ; ") = 0, donde h ( ) es cualquier
funcin de X.
Por tanto, " no est correlacionado con ninguna funcin de X.
11
En particular, C(X; ") = 0

E(X)E(") donde
C(X; ") = E(X")
E(X") = E [E (X"jX)] = E [X E ("jX)] = 0

E(X)E(") = 0 dado que E (") = 0
Ntese que E ("jX) = 0 ) C(X; ") = 0, pero C(X; ") = 0 ; E ("jX) = 0
(que C(X; ") = 0 es cond. necesaria, pero no suciente, para E ("jX) = 0).
E(Y jX) =
1X
La funcin de esperanza condicional o funcin de regresin poblacional es lineal.

Entonces:
C(Y; X) = C [E(Y jX); X] =
E(Y ) = E [E(Y jX)] =
1V
(X)
1 E(X)
=
0
C(Y; X)
V (X)
= E(Y )
1 E(X)
Ntese que:
Hemos de utilizar esperanzas condicionales en X dado el carcter estocstico de dicha variable.
Si X fuera determinstica (como ocurrira en el caso de datos experimentales), bastara con aplicar esperanzas marginales.
Al ser la funcin de esperanza condicional lineal en X,
E(Y jX) = L(Y jX) =
1X
donde L ( ) denota la proyeccin lineal de Y dado X.

0
1
0
son los parmetros que minimizan la varianza del error " =

1 X, es decir, resuelven el problema
m n E(Y
2
1 X)
cuyas condiciones de primer orden son

E(Y
E [(Y
0
0
1 X)
1 X)X]
E(") = 0
= E(X") = 0
12
)
)
= E(Y )
1 E(X)
C(Y; X)
1 =
V (X)
3. V ("jX) =
para todo X
(Homocedasticidad condicional)
Implicaciones:
V (") =
Para verlo,
E E("jX)2 = E("2 jX) =
V ("jX) = E("2 jX)
E("2 ) = E E("2 jX) =

V (") = E("2 )
[E(")]2 =
V (Y jX) = 2
La varianza de Y dado X es constante.
13
5.
Interpretacin de coecientes
Supongamos, que el supuesto 1. de linealidad en parmetros se cumple, de
manera que nuestra especicacin es
Y =
1X
+"
Queremos ver cmo podemos interpretar los parmetros de este modelo.

La interpretacin depende de que se cumpla o no el supuesto 2. E ("jX) = 0.
Si E ("jX) = 0, entonces tenemos que
E (Y j X) =
1E
1X
(Xj X) + E ("j X)
En este caso, E (Y j X) = L (Y j X): la funcin de esperanza condicional es

lineal, y por tanto coincide con la proyecin lineal de Y dado X.
Por tanto, la pendiente
tiene una interpretacin causal:

1
E(Y jX)
X
Cuando X aumenta en una unidad, Y vara, en media,

La pendiente
unidades deY .
mide el cambio promedio en Y ante un cambio uni-
tario en X.
En otras palabras, 1 mide la diferencia de medias entre la distribucin
condicional f (Y jX = x) y la distribucin condicional f (Y jX = x + x).
En cuanto a la constante (tambin llamada trmino constante)
0,
puede verse que

E(Y jX = 0) =
es decir:
0,
es el valor medio de Y cuando X = 0.
Geomtricamente, es el valor de la recta de regresin en el eje de

ordenadas.
En la prctica,
no tiene a menudo interpretacin, en aquellos casos
en que no tiene sentido que X = 0.

14
Sin embargo, el trmino constante
debe incluirse siempre en el
modelo, para controlar por el hecho de que X e Y no tienen porqu

tener media 0.
Si E ("jX) 6= 0, entonces tenemos que

E (Y j X) =
1E
(Xj X) + E ("j X)
1X
+ E ("j X)
6=
1X
En este caso, si E ("jX) 6= 0,

E (Y j X) 6= L (Y j X) ,
porque E ("j X) = 0 8X.
Los parmetros
son en este caso los parmetros de la proyeccin
lineal, L (Y j X).
Pero
no tienen una interpretacin causal.
En resumen:
Si E ("jX) 6= 0, Y = 0 + 1 X + " caracteriza una proyeccin lineal, pero
no una esperanza condicional, y NO tiene interpretacin causal.
15
6.
Estimacin
Nuestro objetivo consiste en estimar los parmetros poblacionales, los betas,
a partir de un conjunto de datos.
Supondremos que nuestros datos (yi ; xi ), con i = 1; : : : ; n, son una realizacin
de una muestra aleatoria de tamao n de una poblacin, (Yi ; Xi ).
Sea el modelo:
Y =
1X
+"
0,
donde:
E("jX) = 0
V ("jX) =
Cmo podemos estimar los parmetros
Necesitaremos una muestra de la poblacin.

Dada una muestra aleatoria de tamao n de la poblacin, podemos escribir:
Yi =
1 Xi
+ "i
i = 1; : : : ; n
donde para todo i = 1; : : : ; n:

E("i jXi ) = 0
V ("i jXi ) =
Vamos a ver cmo podemos obtener estimadores de los parmetros

denotados como b0 , b1 y b2 .
16
0,
6.1.
El principio de analoga
Los parmetros de inters son caractersticas de la poblacin, que son funciones
de momentos poblacionales. El principio de analoga consiste en utilizar como
estimador la caracterstica anloga en la muestra.
Ejemplo: media marginal
Sea una muestra aleatoria de observaciones de Y , fyi gni=1 . Para estimar la media
P
marginal de Y , E(Y ), utilizamos la media muestral Y = n1 ni=1 yi .
Recurdese que, bajo los supuestos que hacamos en el modelo simple en la
poblacin:
E(Y jX) = L(Y jX) =
y que por tanto
1X
se obtienen de minimizar:
E("2 ) = E(Y
2
1 X)
siendo:
0
1
= E(Y )
1 E(X)
C(Y; X)
=
V (X)
Aplicando el principio de analoga, sustituyendo momentos poblacionales por

muestrales, obtenemos estimadores de
6.2.
0,
b =Y b X
0
P 1
X)(Yi Y )
i
b = i (X
=
P
1
X)2
i (Xi
1:
1
n
1
n
El criterio de MCO
(Xi
X)Yi
i (Xi
X)2
Pi
SXY
2
SX
Podemos ver tambin este mismo estimador de la siguiente forma: bajo los
supuestos que hacamos en el modelo simple en la poblacin,
parmetros que minimizan la varianza del error " = Y
resuelven el problema
m n E("2 ),
o de forma equivalente,
m n E(Y
17
2
1 X)
1 X,
son los
es decir,
Para una observacin de la muestra, el anlogo muestral del trmino de error

o perturbacin (desviacin entre el valor observado y valor esperado) "i =
Yi E(Yi jXi ), donde la funcin de esperanza condicional es lineal, se conoce
como residuo (desviacin entre el valor observado y el valor predicho),

b
" i = Yi
b0 + b1 Xi
Ybi = Yi
Por tanto, el anlogo muestral del problema de minimizar E("2 ) es

1X 2
b
",
n i=1 i
n
mn
0; 1
siendo b
" i = Yi
Ybi = Yi
b + b Xi
0
1
el residuo (desviacin entre el valor

observado y el valor predicho) de la observacin i-sima, donde Ybi es el valor predicho que mejor se ajusta a los datos (en el sentido de que minimiza
Pn 2
1
"i ),
i=1 b
n
b0 + b1 Xi
Ybi =
b i jXi )
= L(Y
Por tanto, el estimador que hemos obtenido antes a partir del principio de
analoga puede interpretarse tambin como un estimador que minimiza la suma
de los cuadrados de los residuos, lo que se conoce como estimador de mnimos
cuadrados ordinarios (MCO).
Las condiciones de primer orden son:
X
X
i
b
"i = 0;
Xib
"i = 0:
O, de forma equivalente,
1X
b
"i = 0 (media muestral de los residuos 0)
n i
1X
xib
"i = 0 (covarianza muestral entre residuos y regresores 0)
n i
donde xi = Xi
X (desviacin respecto a la media muestral).

18
Ntese que estas condiciones de primer orden son el anlogo muestral de las
condiciones de primer orden para el modelo de regresin clsico referido a los
s en la poblacin:
E(") = 0;
C(X; ") = 0:
El sistema de ecuaciones normales nos queda como:
P
P
nb0 + b1 i Xi = i Yi
b 1 P x2 = P yi xi
i
En el modelo de regresin simple Yi =

los estimadores MCO de
minimizan:
n
X
i=1
+ "i
i = 1; : : : ; n;
y 1 , es decir, b0 y b1 , seran los argumentos que
b
"2i =
n
X
(Yi
i=1
Las condiciones de primer orden seran:

P
1 Xi
b Xi )2
1
) b0 = YP b1 X
P
P
(X
X)(Y
Y
)
(Xi
i
i
i
"i = 0 ) b 1 =
= Pi
P
i Xib
2
X)
i (Xi
i (Xi
"i
ib
=0
X)Yi
SXY
= 2
2
SX
X)
Los valores predichos o valores ajustados en base a los estimadores MCO

resultantes, Ybi = b0 + b1 Xi , verican que
X
i
Ybib
"i = 0 (covarianza 0 entre valores ajustados MCO y residuos MCO).
(es inmediato de comprobar explotando las condiciones de primer orden

P
0y
Xib
"i = 0, puesto que Ybi es una funcin lineal de Xi ).
i
19
"i
ib
7.
7.1.
7.2.
Propiedades de los estimadores MCO

Linealidad (en las observaciones de Y )
b 0 = Y b 1 X = P Yi b 1 X
i
P
b1 = Pi xi Yi = P ci Yi , donde xi = Xi
i
2
i xi
xi
X, ci = P 2
i xi
Insesgadez
Esta propiedad se verica si se cumplen los supuestos 1. (linealidad) y 2.

(E ("j X) = 0).
E b0 =
E b1 =
(Vase ejercicio)
Demostracin: debemos probar que E b1 X =

i
h
b
b
= 1.
ato que E 1 = EX E
1 X
1;
despus, es inmedi-
(el carcter estocstico de X nos obliga a utilizar esperanzas condicionales).

En primer lugar, podemos escribir b1 como
b1 = P ci Yi = P ci ( 0 + 1 Xi + "i )
i
i
P
P
P
= 0 ci + 1 ci Xi + ci "i
i
Pero
P
ci
ci Xi
Por tanto,
1
= P
2
i xi
X
i
xi
= 0 porque
P xi Xi
1 X 2
P 2 =P 2
=
xi = 1
i
i xi
i xi
i
b1 =
y
E b1 X
+E(
xi =
Xi
nX = 0
c i "i
20
i ci "i j X)
i ci
E ("i j X)
| {z }
=0
Recordemos que la propiedad de insesgadez indica que si disponemos de un

nmero innito de muestras de tamao n de la misma poblacin y estimamos
el mismo modelo con cada una de las muestras:
tendremos una distribucin de valores estimados de
numrica distinta para cada muestra,
j,
con una realizacin
la media de la distribucin de dichos valores estimados de

con el parmetro poblacional
7.3.
j,
coincidir
j.
Varianzas
Adems de los supuestos 1. y 2., utilizaremos el supuesto 3. (V ("jX) =
para
todo X).
V
V
b
b
=(
Xi2 / n) V
1
.
Sx2
(Vase ejercicio)
Demostracin:
V
= E
= E
P
i
7.4.
=E
E c2i "2i X
c2i
c i "i
=E
P
i
P
i
E c2i "2i
c2i E "2i X
(por el supuesto 3.)

#
"
#
"
2
P
P
x
1
2
Pi 2
x2i
= 2E P 2 2
E
x
( i xi ) i
i
i i
2
3
1
2
1
7
2 6
n
E4 P
= E
5
2
1
n
SX
( i x2i )
n
E
i2
El Teorema de Gauss-Markov
En el contexto del modelo de regresin lineal, bajo los supuestos 1. a 3., b0 ,

b1 son los de menor varianza entre los estimadores lineales e insesgados.
(Demostracin: Goldberger p. 65-68, para el modelo simple)
21
Por tanto, cuando se cumplen los supuestos del modelo clsico, el estimador
de MCO es el ms eciente dentro de la familia de estimadores lineales e
insesgados.
7.5.
Consistencia de los estimadores MCO

Los estimadores MCO b0 y b1 son estimadores consistentes de
p l m bj =
n!1
es decir:
l m Pr
n!1
Intuicin:
j;
1:
j = 0; 1:
<
= 1;
8 >0
Los estimadores MCO se obtienen a partir de los anlogos muestrales de

momentos poblacionales. En concreto, explotan los anlogos muestrales de
las condiciones de momentos:
E(") = 0; C(X; ") = 0;
es decir:
1
n
"i
ib
= 0;
1
n
"i x i
ib
(*)
= 0;
Pero dichos anlogos muestrales son funciones de medias muestrales de

variables aleatorias, que bajo condiciones bastante generales son estimadores
consistentes de sus anlogos poblaciones.
La condicin esencial para consistencia es que las condiciones sobre los
momentos poblacionales (*) se cumplan.
(Lo que ocurre si se cumplen los supuestos 1. y 2. del modelo de regresin)
8.
8.1.
Estimacin de las varianzas

Estimacin de
Las varianzas de los estimadores MCO, b0 y b1 , dependen de

2
E (" ).
El problema es que los errores "i (i = 1; : : : ; n) son inobservables.

22
= V (") =
Una vez estimado el modelo por MCO, observamos los residuos b

"i :
b
" i = Yi
= "i
Si bien E b0 =
0,
b0
b Xi = (
1
0
E b1 =
1 Xi
b1
+ "i )
Xi
(i = 1; : : : ; n)
b
"i 6= "i . Adems, E (b
"i
1,
b Xi
1
"i ) 6= 0.
Si observramos, para nuestra muestra de temao n, los errores "i (i = 1; : : : ; n),

entonces el estimador natural de 2 sera el anlogo muestral de E ("2 ),
1P 2
" . PERO este estimador no es factible.
es decir,
n i i
Si reemplazamos los errores por sus anlogos muestrales, los residuos, podemos
calcular como estimador de
:
2
e =
"2i
ib
Este estimador s es factible, pero es sesgado. La razn es que, los residuos

P
P
verican 2 restricciones lineales, n1 i b
"i = 0 y n1 i b
"i xi = 0, de manera que
slo hay (n
libertad).
2) residuos independientes (lo que se conoce como grados de
Alternativamente, podemos obtener un estimador insesgado (que para n grande

es muy similar):
2
b =
"2i
ib
.
n 2
(Demostracin: vase Wooldridge, Teorema 2.3)
Tanto e2 como b2 son estimadores consistentes de
En general, para tamaos muestrales moderados, es irrelevante cul de los dos

estimadores utilizar, porque siempre que n no sea muy pequeo, proporcionan
estimaciones numricas muy parecidas.
8.2.
Estimacin de las varianzas de los estimadores MCO

Hemos visto que
V
=(
Xi2 / n) V
23
2
1
1
.
Sx2
b1 , podemos aproximar E
Como estimador de V
un estimador consistente de
1
Sx2
mediante
1
as como
Sx2
b2
b
b
V
1 =
nSx2
Y por tanto, para estimar V
9.
9.1.
b0 ,
Vb b0 =
b2
Xi2
n2 Sx2
Medidas de bondad del ajuste

Error estndar de la regresin
En el caso poblacional, vimos que la funcin de esperanza condicional E (Y j X)
es la proyeccin lineal de Y dado X. en el sentido de que minimiza E ("2 ).
Por analoga, en el caso de la estimacin MCO a partir de una muestra de los

coecientes del modelo de regresin clsico
Yi =
1 Xi
+ "i
i = 1; : : : ; n;
donde:
E("jX) = 0
V ("jX) =
resulta natural presentar la estimacin de E ("2 ), b2 como indicio del xito o

del fracaso del modelo.
De forma ms conveniente, suele considerarse la raz cuadrada de b2 , b, que se

denomina error estndar de la regresin, como medida de la bondad del
ajuste
24
9.2.
El coeciente de determinacin
Una medida ms popular de capacidad predictiva del modelo es el R2 o coeciente de determinacin, que se dene como
P 2
P 2
y
b
b
"
i
2
R = Pi 2 = 1 Pi i2 ,
i yi
i yi
donde yi = Yi
Y i , ybi = Ybi
Ybi .
Y i, b
" i = Yi
(la segunda igualdad es cierta siempre que el modelo tenga trmino constante)
El R2 se interpreta como la proporcin de la variacin muestral de Y explicada
por el modelo. (Vase Goldberger, pp. 82 y 83).
El R2 verica que 0
R2
1.
Cuando R2 = 0, el modelo explica el 0 % de la variacin de Y .

Cuando R2 = 1, el modelo explica el 100 % de la variacin de Y .
Puede verse que
R = bY Yb
SY Yb
SY SYb
1
n
6
=6
4q P
1
n
Yi
Yi
Y
Y Ybi
r
P
2
1
n
32
Y
Ybi
7
7
25
es decir: el R2 es el cuadrado del coeciente de correlacin muestral entre Yi e

Ybi .
En el caso de datos de seccin cruzada, no es inusual que el R2 de una regresin

presente valores bajos.
Ello implica que el modelo deja sin explicar una proporcin importante de
la variacin de Y .
PERO un R2 bajo no implica necesariamente que las estimaciones son
poco tiles o inadecuadas.
El R2 puede ser til para comparar distintos modelos para la misma variable
dependiente Y .
25

Regresión Lineal

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresión Lineal

Uploaded by

Copyright:

Available Formats

Universidad Carlos III de Madrid

EL MODELO DE REGRESIN LINEAL SIMPLE

Captulos 6, 9, 10 y 12 de Goldberger. Captulo 2 de Wooldridge

Relaciones empricas y tericas

Distribucin conjunta de frecuencias de X e Y

Vemos que, en trminos relativos, las tasas de ahorro negativas son

Interpretacin: la media de la tasa de ahorro Y es una funcin creciente

Y (Tasa de ahorr o media)

el error de prediccin, pudiendo emplear en la prediccin de Y el valor de X

Mejor Prediccin Constante

La media poblacional Y es el mejor predictor constante de Y en una

Mejor Prediccin Lineal

dichas constantes, de manera que c(X) =

es la proyeccin lineal (o mejor prediccin lineal) de

5 = 25 valores resultantes de multiplicar cada uno

de los valores de X e Y , respectivamente, y presentar la celda correspondiente

XY P (XY ) XY P (XY ) XY P (XY )

En consecuencia, teniendo en cuenta que

y por tanto la funcin de proyeccin lineal es

La funcin de media condicional se obtiene calculando E (Y j X) para cada uno

de manera que la funcin de esperanza condicional se puede escribir como

Predictores de tasa de ahorro

aunque no coincida con E (Y j X).

Pero mientras que E (Y j X) caracteriza momentos (medias condicionales)

Ello implica que E (Y j X) puede tener una interpretacin causal, pero

Introduccin al modelo de regresin lineal simple

Objeto de estudio: Y y X son dos variables que representan alguna poblacin

" : Trmino de error o perturbacin inobservable. Representa los factores

Supuestos del modelo de regresin simple

1. Linealidad en los parmetros (Y =

Este supuesto implica que un cambio unitario en X tiene el mismo efecto

En particular, C(X; ") = 0

C(X; ") = E(X")

E(X") = E [E (X"jX)] = E [X E ("jX)] = 0

La funcin de esperanza condicional o funcin de regresin poblacional es lineal.

donde L ( ) denota la proyeccin lineal de Y dado X.

son los parmetros que minimizan la varianza del error " =

cuyas condiciones de primer orden son

V ("jX) = E("2 jX)

E("2 ) = E E("2 jX) =

Queremos ver cmo podemos interpretar los parmetros de este modelo.

En este caso, E (Y j X) = L (Y j X): la funcin de esperanza condicional es

tiene una interpretacin causal:

Cuando X aumenta en una unidad, Y vara, en media,

mide el cambio promedio en Y ante un cambio uni-

puede verse que

es el valor medio de Y cuando X = 0.

Geomtricamente, es el valor de la recta de regresin en el eje de

no tiene a menudo interpretacin, en aquellos casos

en que no tiene sentido que X = 0.

Sin embargo, el trmino constante

debe incluirse siempre en el

modelo, para controlar por el hecho de que X e Y no tienen porqu

Si E ("jX) 6= 0, entonces tenemos que

En este caso, si E ("jX) 6= 0,

son en este caso los parmetros de la proyeccin

no tienen una interpretacin causal.

Cmo podemos estimar los parmetros

Necesitaremos una muestra de la poblacin.

donde para todo i = 1; : : : ; n:

Vamos a ver cmo podemos obtener estimadores de los parmetros

Aplicando el principio de analoga, sustituyendo momentos poblacionales por

Para una observacin de la muestra, el anlogo muestral del trmino de error