You are on page 1of 26

Universidad Carlos III de Madrid

Csar Alonso
ECONOMETRIA

EL MODELO DE REGRESIN LINEAL SIMPLE

ndice
1. Relaciones empricas y tericas . . . . . . . . . . . . . . . .
2. Conceptos previos . . . . . . . . . . . . . . . . . . . . . . .
2.1. Mejor Prediccin Constante . . . . . . . . . . . . . .
2.2. Mejor Prediccin Lineal . . . . . . . . . . . . . . . .
2.3. Mejor Prediccin . . . . . . . . . . . . . . . . . . . .
3. Introduccin al modelo de regresin lineal simple . . . . . .
4. Supuestos del modelo de regresin simple . . . . . . . . . .
5. Interpretacin de coecientes . . . . . . . . . . . . . . . . .
6. Estimacin . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1. El principio de analoga . . . . . . . . . . . . . . . .
6.2. El criterio de MCO . . . . . . . . . . . . . . . . . . .
7. Propiedades de los estimadores MCO . . . . . . . . . . . .
7.1. Linealidad (en las observaciones de Y ) . . . . . . . .
7.2. Insesgadez . . . . . . . . . . . . . . . . . . . . . . . .
7.3. Varianzas . . . . . . . . . . . . . . . . . . . . . . . .
7.4. El Teorema de Gauss-Markov . . . . . . . . . . . . .
7.5. Consistencia de los estimadores MCO . . . . . . . . .
8. Estimacin de las varianzas . . . . . . . . . . . . . . . . .
8.1. Estimacin de 2 . . . . . . . . . . . . . . . . . . . .
8.2. Estimacin de las varianzas de los estimadores MCO
9. Medidas de bondad del ajuste . . . . . . . . . . . . . . . .
9.1. Error estndar de la regresin . . . . . . . . . . . . .
9.2. El coeciente de determinacin . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

1
4
4
5
7
9
11
14
16
17
17
20
20
20
21
21
22
22
22
23
24
24
25

Captulos 6, 9, 10 y 12 de Goldberger. Captulo 2 de Wooldridge

1.

Relaciones empricas y tericas


Como economistas, nos interesa la relacin entre dos o ms variables econmicas.
Por ello, nos concentramos en poblaciones, al menos, bivariantes.
La teora econmica postula, en general, relaciones del tipo
Y = f (X)
donde f ( ) es una funcin.
Dichas relaciones son exactas o determinsticas, de manera que a cada valor
de X le corresponde un nico valor de Y .
Si tuviramos ms variables exgenas, el razonamiento sera idntico
Y = f (X1 ; : : : ; XK )
a cada combinacin de valores de X1 ; : : : ; XK le corresponde un nico valor de
Y.
Qu sucede en general con los datos reales de variables econmicas?
Ejemplo: Relacin entre tasa de ahorro (Y ) y renta (X)
(Goldberger, Captulo 1 de A Course in Econometrics, 1991. Harvard U.
Press.)
La teora econmica predice una relacin creciente entre tasa de ahorro y
renta
Datos de 1027 familias de EE.UU. en los aos 1960 a 1962.
Para simplicar, hemos agrupado los datos en intervalos para ambas variables, poniendo el punto medio del intervalo.
Para cada combinacin de X e Y presentamos la frecuencia relativa (en
tanto por uno).

Distribucin conjunta de frecuencias de X e Y


P (X; Y )
X (renta en miles de dlares)
Y
1.4
3.0
4.9
7.8
14.2
P (Y )
(tasa de ahorro)
(suma de las)
0.45
0.015 0.026 0.027 0.034 0.033
0.135
0.18
0.019 0.032 0.057 0.135 0.063
0.306
0.05
0.059 0.066 0.071 0.086 0.049
0.331
-0.11
0.023 0.035 0.045 0.047 0.015
0.165
-0.25
0.018 0.016 0.016 0.008 0.005
0.063
P (X)
0.134 0.175 0.216 0.310 0.165
1.000
(suma de columnas)
Dada la evidencia emprica, podemos armar que existe una relacin determinstica entre tasa de ahorro y renta?
Para que ello fuera cierto, deberamos encontrar en cada columna (para
cada nivel de renta X) una nica frecuencia distinta de 0.
Claramente, esto NO es cierto: para cada nivel de renta, existen familias que ahorran mucho y familias que desahorran mucho.
NO hay una funcin que relacione ahorro y renta: tenemos una distribucin, con valores ms y menos probables:
Observamos una proporcin mayor de familias con tasas de ahorro
ms altas cuanto mayor es su renta.
Para verlo mejor, podemos concentrarnos en las distribuciones condicionales
de la tasa de ahorro para cada nivel de renta.
Para ello, tenemos que dividir las frecuencias relativas de cada columna
por la suma de stas
Distribuciones condicionales de frecuencias de Y
para cada valor de X
P (Y j X)
X (renta en miles de dlares)
Y (tasa de ahorro)
1.4
3.0
4.9
7.8
14.2
0.45
0.112 0.149 0.125 0.110 0.200
0.18
0.142 0.183 0.264 0.435 0.382
0.05
0.440 0.377 0.329 0.277 0.297
-0.11
0.172 0.200 0.208 0.152 0.091
-0.25
0.134 0.091 0.074 0.026 0.030
Suma de columnas
1
1
1
1
1
Media cond. b Y jX 0.045 0.074 0.079 0.119 0.156
2

Vemos que, en trminos relativos, las tasas de ahorro negativas son


ms frecuentes para rentas bajas.
Parece existir una contradiccin entre la relacin funcional exacta predicha
por la teora econmica y la evidencia emprica:
La teora arma que las familias de igual renta deberan presentar la
misma tasa de ahorro
PERO vemos que no es cierto en realidad.
Y no podemos argumentar que lo que observamos es una mera desviacin
del comportamiento ptimo.
(implicara que la mayora de las familias se equivocansistemticamente).
Por supuesto, cabe argumentar que hay otras caractersticas en las que
dieren familias de igual renta.
Ello requerira condicionar en otras caractersticas.
Ello reducira la dispersin (tendramos celdas con valores cercanos a
0).
PERO seguiramos teniendo tasas de ahorro distintas para familias
parecidas.
CONCLUSIN: las relaciones empricas entre variables econmicas NO son
determinsticas, sino estocsticas.
Para reconciliar teora y datos, debemos reinterpretar la teora econmica:
Cuando la teora postula que Y es funcin de X, entenderemos que el valor
medio de Y es una funcin de X.
En el ejemplo, vemos que las distribuciones condicionales del ahorro para cada
nivel de renta varan con la renta:
Cuanto mayor es la renta, las tasas de ahorro tienden a ser mayores.
Ello implica que la tasa de ahorro media, condicional a la renta, aumenta
con la renta.

Interpretacin: la media de la tasa de ahorro Y es una funcin creciente

.05

Y (Tasa de ahorr o media)


.1

.15

de la renta X. Grcamente:

10

15

X (R enta)

2.

Conceptos previos
Dada la distribucin de probabilidad conjunta de (X; Y ) (por ejemplo, tasa de
ahorro y renta familiar), supongamos que nos preguntan la tasa de ahorro de
una familia tomada aleatoriamente de la poblacin de inters.
Supongamos que nuestro criterio para medir el error en la prediccin c(X) es
la minimizacin de E(U 2 ), siendo:
U =Y

c(X)

el error de prediccin, pudiendo emplear en la prediccin de Y el valor de X


correspondiente.

2.1.

Mejor Prediccin Constante


Supongamos que no conocemos la renta de la familia considerada (X).
Entonces, nuestra eleccin de predictores queda restringida a la informacin
sobre la distribucin marginal de la tasa de ahorro Y .
En el ejemplo anterior, para calcular la distribucin marginal de Y debemos
sumar las frecuencias observadas para cada la.

Y (tasa de ahorro) P (Y )
0.45
0.135
0.18
0.306
0.05
0.331
-0.11
0.165
-0.25
0.063
En este caso, ignoramos cmo se comporta Y de acuerdo con X.
La prediccin que podemos hacer sobre Y se limita a las constantes.
El error de prediccin ser U = Y c. Se elegir c tal que minimice E(U 2 ) =
P
c)2 pk . Dicho valor no es otro que:
k (Yk
c = E(Y ) =

La media poblacional Y es el mejor predictor constante de Y en una


distribucin de probabilidad bivariante (vase Captulo 3 de Goldberger).
En el ejemplo, suponiendo que la distribucin presentada se reere a una poblacin,
E (Y ) = 0;45

0;135 + 0;18

0;11

0;165

0;25

0;306 + 0;05

0;331

0;063

= 0;09848 = 9;85 %

2.2.

Mejor Prediccin Lineal


Supongamos que conocemos la renta (X) de la familia para la que queremos
predecir su tasa de ahorro (Y ).
Adems, slo podemos elegir predictores que sean funciones lineales de X, es
decir,
c(X) = c0 + c1 X,
siendo c0 y c1 constantes.
El error de prediccin ser U = Y c0 c1 X. Se elegirn aquellas constantes
P
c0 y c1 que minimicen E(U 2 ) = k (Yk c0 c1 X)2 pk .
5

Sean

0,

1,

dichas constantes, de manera que c(X) =

1 X,

vericando

que

La recta

c0 =

c1 =

1X

= E(Y )
1 E(X) =
C(X; Y )
XY
= 2 .
=
V (X)
X

1 X,

es la proyeccin lineal (o mejor prediccin lineal) de

Y dado X
L(Y j X) =

1X

En nuestro ejemplo
C (X; Y ) = E (XY )
tenemos que calcular los 5

E (X) E (Y )

5 = 25 valores resultantes de multiplicar cada uno

de los valores de X e Y , respectivamente, y presentar la celda correspondiente


a la probabilidad de ocurrencia de cada valor:
Distribucin marginal de XY
XY P (XY )
XY P (XY )
-3.55
0.005 -0.75
0.016
-1.95
0.008 -0.54
0.045
-1.56
0.015 -0.35
0.018
-1.23
0.016 -0.33
0.035
-0.86
0.047 -0.15
0.023
donde
E (XY ) =

5 X
5
X

XY P (XY ) XY P (XY ) XY P (XY )


0.07
0.059 0.54
0.032 1.40
0.135
0.15
0.066 0.63
0.015 2.21
0.027
0.25
0.071 0.71
0.049 2.56
0.063
0.25
0.019 0.88
0.057 3.51
0.034
0.39
0.086 1.35
0.026 6.39
0.033

Xi Yj Pr (XY = Xi Yj ) = 0;782607

i=1 j=1

E (X) = 1;4
+7;8

0;134 + 3;0
0;310 + 14;2

0;175 + 4;9

0;216

0;165 = 6;532

y por tanto,
C (X; Y ) = 0;782607

6;532

0;09848 = 0;13934.

En consecuencia, teniendo en cuenta que


E X 2 = 1;42
+7;82

0;134 + 3;02
0;310 + 14;22

0;175 + 4;92

0;216

0;165 = 59;155

entonces
V (X) = E X 2

[E (X)]2 = 59;155

6;5322 = 16;488

con lo cual
c1 =

c0 =

C(X; Y )
0;13934
=
= 0;008451
V (X)
16;488
= E(Y )
0;008451
1 E(X) = 0;09848
=

6;532 = 0;043278

y por tanto la funcin de proyeccin lineal es


L(Y j X) = 0;043278 + 0;008451X
Aplicada nicamente a los valores de renta X, podemos escribir la proyeccin
lineal como

2.3.

8
0;043278 + 0;008451 1;4 = 0;055
>
>
>
>
< 0;043278 + 0;008451 3;0 = 0;069
0;043278 + 0;008451 4;9 = 0;085
L (Y j X) =
>
>
0;043278 + 0;008451 7;8 = 0;1092
>
>
:
0;043278 + 0;008451 14;2 = 0;1633

si X = 1;4
si X = 3;0
si X = 4;9
si X = 7;8
si X = 14;2

Mejor Prediccin

Supongamos que conocemos la renta (X) de la familia antes de hacer la prediccin de su tasa de ahorro (Y ).
Adems, podemos elegir como funcin de prediccin cualquier funcin de X,
c(X).
El error de prediccin ser U = Y c(X). Se elegir c(X) de forma que minimice
E(U 2 ), resultando que c(X) = E(Y j X).
El mejor predictor de Y dado X es su esperanza condicional, E (Y j X).
7

Solamente cuando la funcin de esperanza condicional es lineal, la funcin de proyeccin lineal L (Y j X) y la funcin de esperanza condicional
E (Y j X) coinciden.
De lo contrario, cuando la funcin de esperanza condicional no es lineal,
entonces la proyeccin lineal no es el mejor predictor, pero es la mejor
aproximacin lineal a la funcin de esperanza condicional.
La funcin de esperanza condicional viene dada por las medias de cada una de
las distribuciones condicionales de Y para cada uno de los valores de X.
En el ejemplo,
Distribuciones condicionales de frecuencias de Y
para cada valor de X
X (renta en miles de dlares)
Y (tasa de ahorro)
1.4
3.0
4.9
7.8
14.2
0.45
0.112 0.149 0.125 0.110 0.200
0.18
0.142 0.183 0.264 0.435 0.382
0.05
0.440 0.377 0.329 0.277 0.297
-0.11
0.172 0.200 0.208 0.152 0.091
-0.25
0.134 0.091 0.074 0.026 0.030
b Y jX 0.045 0.074 0.079 0.119 0.156

La funcin de media condicional se obtiene calculando E (Y j X) para cada uno

de los valores de X:

E (Y j X = 1;4) = 0;45
0;11

0;172

E (Y j X = 3;0) = 0;45
0;11

0;25

0;25

0;25

0;377

0;264 + 0;05

0;329

0;435 + 0;05

0;277

0;026 = 0;119

0;200 + 0;18

0;091

0;183 + 0;05

0;074 = 0;079

0;110 + 0;18

0;152

0;440

0;091 = 0;074

0;125 + 0;18

E (Y j X = 14;2) = 0;45
0;11

0;25

0;142 + 0;05

0;134 = 0;045

0;149 + 0;18

0;208

E (Y j X = 7;8) = 0;45
0;11

0;25

0;200

E (Y j X = 4;9) = 0;45
0;11

0;112 + 0;18

0;382 + 0;05

0;030 = 0;156

0;297

de manera que la funcin de esperanza condicional se puede escribir como


8
0;045
si X = 1;4
>
>
>
>
0;074
si
X = 3;0
<
0;079
si X = 4;9
E (Y j X) =
>
>
0;119
si X = 7;8
>
>
:
0;156
si X = 14;2
En resumen,

Predictores de tasa de ahorro


X (renta en miles de dlares)
C
L (Y j X) E (Y j X)
1.4
0;0985
0;055
0;045
3.0
0;0985
0;069
0;074
4.9
0;0985
0;085
0;079
7.8
0;0985
0;1092
0;119
14.2
0;0985
0;1633
0;156
Las predicciones asociadas a la proyeccin lineal son distintas de las basadas en
la funcin de esperanza condicional, porque sta no es lineal.
En el grco presentado anteriormente, puede verse que la funcin de esperanza condicional no es lineal.
L (Y j X) proporciona una aproximacin bastante buena a E (Y j X).

Ello implica que L (Y j X) puede ser, en casos como ste, un buen predictor,

aunque no coincida con E (Y j X).

Pero mientras que E (Y j X) caracteriza momentos (medias condicionales)


de las correspondientes distribuciones condicionales de Y dado X, L (Y j X)
NO.

Ello implica que E (Y j X) puede tener una interpretacin causal, pero


L (Y j X) NO.

3.

Introduccin al modelo de regresin lineal simple


El Modelo de Regresin Lineal Simple se puede emplear para estudiar la relacin
entre dos variables, aunque tiene limitaciones como herramienta para el anlisis
emprico.
9

Objeto de estudio: Y y X son dos variables que representan alguna poblacin


y estamos interesados en explicar Y en trminos de X o en estudiar cmo
vara Y ante variaciones en X.
Por ejemplo, Y = ventas, X = gastos en publicidad; Y = tasa ahorro, X =
renta.
Al tratar de formular un modelo que explique Y en trminos de Xdebemos
afrontar varias cuestiones:
Cmo tenemos en cuenta otros factores que afecten a Y adems de X?
Cul es la forma funcional de la relacin entre Y y X?
Estamos captando con nuestro modelo una relacin ceteris-paribus entre
Y y X?
El Modelo de Regresin Lineal Simple nos permite explicar Y en trminos de
Xresolviendo las cuestiones anteriores.
Sea
Y =

1X

+"

donde:
Y : Variable dependiente, endgena, explicada, de respuesta...
X : Variable independiente, exgena, explicativa, de control, regresor..
0

: Parmetros poblacionales

" : Trmino de error o perturbacin inobservable. Representa los factores


que inuyen en Y adems de X, el componente aleatorio de Y que no viene
explicado por

1 X.

Ejemplo 1 :
Si Y = salario y X = aos de estudio, entonces el trmino de error puede recoger
factores inobservables como:
- experiencia laboral
- capacidad o habilidad
- antigedad en la empresa...
10

Ejemplo 2 :
Si Y = cosecha y X = cantidad de abono, entonces el trmino de error puede
recoger factores como:
- calidad de la tierra
- lluvia.

4.

Supuestos del modelo de regresin simple

1. Linealidad en los parmetros (Y =

1X

+ ").

Este supuesto implica que un cambio unitario en X tiene el mismo efecto


sobre Y con independencia del valor inicial de X.
Puede no ser realista para algunas aplicaciones econmicas.
(por ejemplo, en el caso de salario y educacin podemos pensar en la
existencia de rendimientos crecientes)
Esta limitacin puede superarse formulando modelos lineales en parmetros que recogen relaciones no lineales entre variables.
2. E ("jX) = 0, es decir:
Para cualquier valor de X, la media de los inobservables es siempre la misma e
igual a cero
(que es la media de los inobservables para el total de la poblacin)
Implicaciones:
E (") = 0
Por la ley de esperanzas iteradas,
E (") = E [E ("jX)] = 0
Que E ("jX) = 0 implica que C (h (X) ; ") = 0, donde h ( ) es cualquier
funcin de X.
Por tanto, " no est correlacionado con ninguna funcin de X.

11

En particular, C(X; ") = 0


E(X)E(") donde

C(X; ") = E(X")

E(X") = E [E (X"jX)] = E [X E ("jX)] = 0


E(X)E(") = 0 dado que E (") = 0
Ntese que E ("jX) = 0 ) C(X; ") = 0, pero C(X; ") = 0 ; E ("jX) = 0
(que C(X; ") = 0 es cond. necesaria, pero no suciente, para E ("jX) = 0).
E(Y jX) =

1X

La funcin de esperanza condicional o funcin de regresin poblacional es lineal.


Entonces:
C(Y; X) = C [E(Y jX); X] =
E(Y ) = E [E(Y jX)] =

1V

(X)

1 E(X)

=
0

C(Y; X)
V (X)
= E(Y )

1 E(X)

Ntese que:
Hemos de utilizar esperanzas condicionales en X dado el carcter estocstico de dicha variable.
Si X fuera determinstica (como ocurrira en el caso de datos experimentales), bastara con aplicar esperanzas marginales.
Al ser la funcin de esperanza condicional lineal en X,
E(Y jX) = L(Y jX) =

1X

donde L ( ) denota la proyeccin lineal de Y dado X.


0

1
0

son los parmetros que minimizan la varianza del error " =


1 X, es decir, resuelven el problema
m n E(Y

2
1 X)

cuyas condiciones de primer orden son


E(Y
E [(Y

0
0

1 X)
1 X)X]

E(") = 0
= E(X") = 0

12

)
)

= E(Y )
1 E(X)
C(Y; X)
1 =
V (X)

3. V ("jX) =

para todo X

(Homocedasticidad condicional)
Implicaciones:
V (") =

Para verlo,
E E("jX)2 = E("2 jX) =

V ("jX) = E("2 jX)

E("2 ) = E E("2 jX) =


V (") = E("2 )

[E(")]2 =

V (Y jX) = 2
La varianza de Y dado X es constante.

13

5.

Interpretacin de coecientes
Supongamos, que el supuesto 1. de linealidad en parmetros se cumple, de
manera que nuestra especicacin es
Y =

1X

+"

Queremos ver cmo podemos interpretar los parmetros de este modelo.


La interpretacin depende de que se cumpla o no el supuesto 2. E ("jX) = 0.
Si E ("jX) = 0, entonces tenemos que
E (Y j X) =

1E

1X

(Xj X) + E ("j X)

En este caso, E (Y j X) = L (Y j X): la funcin de esperanza condicional es


lineal, y por tanto coincide con la proyecin lineal de Y dado X.
Por tanto, la pendiente

tiene una interpretacin causal:


1

E(Y jX)
X

Cuando X aumenta en una unidad, Y vara, en media,


La pendiente

unidades deY .

mide el cambio promedio en Y ante un cambio uni-

tario en X.
En otras palabras, 1 mide la diferencia de medias entre la distribucin
condicional f (Y jX = x) y la distribucin condicional f (Y jX = x + x).
En cuanto a la constante (tambin llamada trmino constante)

0,

puede verse que


E(Y jX = 0) =
es decir:

0,

es el valor medio de Y cuando X = 0.

Geomtricamente, es el valor de la recta de regresin en el eje de


ordenadas.
En la prctica,

no tiene a menudo interpretacin, en aquellos casos

en que no tiene sentido que X = 0.


14

Sin embargo, el trmino constante

debe incluirse siempre en el

modelo, para controlar por el hecho de que X e Y no tienen porqu


tener media 0.

Si E ("jX) 6= 0, entonces tenemos que


E (Y j X) =

1E

(Xj X) + E ("j X)

1X

+ E ("j X)

6=

1X

En este caso, si E ("jX) 6= 0,


E (Y j X) 6= L (Y j X) ,
porque E ("j X) = 0 8X.
Los parmetros

son en este caso los parmetros de la proyeccin

lineal, L (Y j X).
Pero

no tienen una interpretacin causal.

En resumen:
Si E ("jX) 6= 0, Y = 0 + 1 X + " caracteriza una proyeccin lineal, pero
no una esperanza condicional, y NO tiene interpretacin causal.

15

6.

Estimacin
Nuestro objetivo consiste en estimar los parmetros poblacionales, los betas,
a partir de un conjunto de datos.
Supondremos que nuestros datos (yi ; xi ), con i = 1; : : : ; n, son una realizacin
de una muestra aleatoria de tamao n de una poblacin, (Yi ; Xi ).
Sea el modelo:
Y =

1X

+"

0,

donde:
E("jX) = 0
V ("jX) =

Cmo podemos estimar los parmetros

Necesitaremos una muestra de la poblacin.


Dada una muestra aleatoria de tamao n de la poblacin, podemos escribir:
Yi =

1 Xi

+ "i

i = 1; : : : ; n

donde para todo i = 1; : : : ; n:


E("i jXi ) = 0
V ("i jXi ) =

Vamos a ver cmo podemos obtener estimadores de los parmetros


denotados como b0 , b1 y b2 .

16

0,

6.1.

El principio de analoga
Los parmetros de inters son caractersticas de la poblacin, que son funciones
de momentos poblacionales. El principio de analoga consiste en utilizar como
estimador la caracterstica anloga en la muestra.
Ejemplo: media marginal

Sea una muestra aleatoria de observaciones de Y , fyi gni=1 . Para estimar la media
P
marginal de Y , E(Y ), utilizamos la media muestral Y = n1 ni=1 yi .
Recurdese que, bajo los supuestos que hacamos en el modelo simple en la
poblacin:
E(Y jX) = L(Y jX) =
y que por tanto

1X

se obtienen de minimizar:
E("2 ) = E(Y

2
1 X)

siendo:
0
1

= E(Y )
1 E(X)
C(Y; X)
=
V (X)

Aplicando el principio de analoga, sustituyendo momentos poblacionales por


muestrales, obtenemos estimadores de

6.2.

0,

b =Y b X
0
P 1
X)(Yi Y )
i
b = i (X
=
P
1
X)2
i (Xi

1:

1
n
1
n

El criterio de MCO

(Xi

X)Yi

i (Xi

X)2

Pi

SXY
2
SX

Podemos ver tambin este mismo estimador de la siguiente forma: bajo los
supuestos que hacamos en el modelo simple en la poblacin,
parmetros que minimizan la varianza del error " = Y
resuelven el problema
m n E("2 ),
o de forma equivalente,
m n E(Y
17

2
1 X)

1 X,

son los
es decir,

Para una observacin de la muestra, el anlogo muestral del trmino de error


o perturbacin (desviacin entre el valor observado y valor esperado) "i =
Yi E(Yi jXi ), donde la funcin de esperanza condicional es lineal, se conoce

como residuo (desviacin entre el valor observado y el valor predicho),


b
" i = Yi

b0 + b1 Xi

Ybi = Yi

Por tanto, el anlogo muestral del problema de minimizar E("2 ) es


1X 2
b
",
n i=1 i
n

mn

0; 1

siendo b
" i = Yi

Ybi = Yi

b + b Xi
0
1

el residuo (desviacin entre el valor


observado y el valor predicho) de la observacin i-sima, donde Ybi es el valor predicho que mejor se ajusta a los datos (en el sentido de que minimiza
Pn 2
1
"i ),
i=1 b
n
b0 + b1 Xi

Ybi =

b i jXi )
= L(Y

Por tanto, el estimador que hemos obtenido antes a partir del principio de
analoga puede interpretarse tambin como un estimador que minimiza la suma
de los cuadrados de los residuos, lo que se conoce como estimador de mnimos
cuadrados ordinarios (MCO).
Las condiciones de primer orden son:
X
X
i

b
"i = 0;

Xib
"i = 0:

O, de forma equivalente,
1X
b
"i = 0 (media muestral de los residuos 0)
n i
1X
xib
"i = 0 (covarianza muestral entre residuos y regresores 0)
n i
donde xi = Xi

X (desviacin respecto a la media muestral).


18

Ntese que estas condiciones de primer orden son el anlogo muestral de las
condiciones de primer orden para el modelo de regresin clsico referido a los
s en la poblacin:
E(") = 0;
C(X; ") = 0:
El sistema de ecuaciones normales nos queda como:
P
P
nb0 + b1 i Xi = i Yi
b 1 P x2 = P yi xi
i

En el modelo de regresin simple Yi =


los estimadores MCO de
minimizan:

n
X
i=1

+ "i
i = 1; : : : ; n;
y 1 , es decir, b0 y b1 , seran los argumentos que

b
"2i =

n
X

(Yi

i=1

Las condiciones de primer orden seran:


P

1 Xi

b Xi )2
1

) b0 = YP b1 X
P
P
(X
X)(Y
Y
)
(Xi
i
i
i
"i = 0 ) b 1 =
= Pi
P
i Xib
2
X)
i (Xi
i (Xi
"i
ib

=0

X)Yi
SXY
= 2
2
SX
X)

Los valores predichos o valores ajustados en base a los estimadores MCO


resultantes, Ybi = b0 + b1 Xi , verican que
X
i

Ybib
"i = 0 (covarianza 0 entre valores ajustados MCO y residuos MCO).

(es inmediato de comprobar explotando las condiciones de primer orden


P
0y
Xib
"i = 0, puesto que Ybi es una funcin lineal de Xi ).
i

19

"i
ib

7.
7.1.

7.2.

Propiedades de los estimadores MCO


Linealidad (en las observaciones de Y )
b 0 = Y b 1 X = P Yi b 1 X
i
P
b1 = Pi xi Yi = P ci Yi , donde xi = Xi
i
2
i xi

xi
X, ci = P 2
i xi

Insesgadez

Esta propiedad se verica si se cumplen los supuestos 1. (linealidad) y 2.


(E ("j X) = 0).
E b0 =
E b1 =

(Vase ejercicio)

Demostracin: debemos probar que E b1 X =


i
h
b
b
= 1.
ato que E 1 = EX E
1 X

1;

despus, es inmedi-

(el carcter estocstico de X nos obliga a utilizar esperanzas condicionales).


En primer lugar, podemos escribir b1 como
b1 = P ci Yi = P ci ( 0 + 1 Xi + "i )
i
i
P
P
P
= 0 ci + 1 ci Xi + ci "i
i

Pero
P

ci

ci Xi

Por tanto,

1
= P

2
i xi

X
i

xi

= 0 porque

P xi Xi
1 X 2
P 2 =P 2
=
xi = 1
i
i xi
i xi
i
b1 =

y
E b1 X

+E(

xi =

Xi

nX = 0

c i "i

20

i ci "i j X)

i ci

E ("i j X)
| {z }
=0

Recordemos que la propiedad de insesgadez indica que si disponemos de un


nmero innito de muestras de tamao n de la misma poblacin y estimamos
el mismo modelo con cada una de las muestras:
tendremos una distribucin de valores estimados de
numrica distinta para cada muestra,

j,

con una realizacin

la media de la distribucin de dichos valores estimados de


con el parmetro poblacional

7.3.

j,

coincidir

j.

Varianzas
Adems de los supuestos 1. y 2., utilizaremos el supuesto 3. (V ("jX) =

para

todo X).
V
V

b
b

=(

Xi2 / n) V

1
.
Sx2

(Vase ejercicio)

Demostracin:
V

= E
= E

P
i

7.4.

=E

E c2i "2i X

c2i

c i "i

=E

P
i

P
i

E c2i "2i

c2i E "2i X

(por el supuesto 3.)


#
"
#
"
2
P
P
x
1
2
Pi 2
x2i
= 2E P 2 2
E
x
( i xi ) i
i
i i
2
3
1
2
1
7
2 6
n
E4 P
= E
5
2
1
n
SX
( i x2i )
n
E

i2

El Teorema de Gauss-Markov

En el contexto del modelo de regresin lineal, bajo los supuestos 1. a 3., b0 ,


b1 son los de menor varianza entre los estimadores lineales e insesgados.
(Demostracin: Goldberger p. 65-68, para el modelo simple)
21

Por tanto, cuando se cumplen los supuestos del modelo clsico, el estimador
de MCO es el ms eciente dentro de la familia de estimadores lineales e
insesgados.

7.5.

Consistencia de los estimadores MCO


Los estimadores MCO b0 y b1 son estimadores consistentes de
p l m bj =
n!1

es decir:

l m Pr

n!1

Intuicin:

j;

1:

j = 0; 1:

<

= 1;

8 >0

Los estimadores MCO se obtienen a partir de los anlogos muestrales de


momentos poblacionales. En concreto, explotan los anlogos muestrales de
las condiciones de momentos:
E(") = 0; C(X; ") = 0;
es decir:
1
n

"i
ib

= 0;

1
n

"i x i
ib

(*)

= 0;

Pero dichos anlogos muestrales son funciones de medias muestrales de


variables aleatorias, que bajo condiciones bastante generales son estimadores
consistentes de sus anlogos poblaciones.
La condicin esencial para consistencia es que las condiciones sobre los
momentos poblacionales (*) se cumplan.
(Lo que ocurre si se cumplen los supuestos 1. y 2. del modelo de regresin)

8.
8.1.

Estimacin de las varianzas


Estimacin de

Las varianzas de los estimadores MCO, b0 y b1 , dependen de


2

E (" ).

El problema es que los errores "i (i = 1; : : : ; n) son inobservables.


22

= V (") =

Una vez estimado el modelo por MCO, observamos los residuos b


"i :
b
" i = Yi
= "i

Si bien E b0 =

0,

b0

b Xi = (
1
0

E b1 =

1 Xi

b1

+ "i )

Xi

(i = 1; : : : ; n)

b
"i 6= "i . Adems, E (b
"i

1,

b Xi
1

"i ) 6= 0.

Si observramos, para nuestra muestra de temao n, los errores "i (i = 1; : : : ; n),


entonces el estimador natural de 2 sera el anlogo muestral de E ("2 ),
1P 2
" . PERO este estimador no es factible.
es decir,
n i i

Si reemplazamos los errores por sus anlogos muestrales, los residuos, podemos
calcular como estimador de

:
2

e =

"2i
ib

Este estimador s es factible, pero es sesgado. La razn es que, los residuos


P
P
verican 2 restricciones lineales, n1 i b
"i = 0 y n1 i b
"i xi = 0, de manera que

slo hay (n
libertad).

2) residuos independientes (lo que se conoce como grados de

Alternativamente, podemos obtener un estimador insesgado (que para n grande


es muy similar):
2

b =

"2i
ib

.
n 2
(Demostracin: vase Wooldridge, Teorema 2.3)
Tanto e2 como b2 son estimadores consistentes de

En general, para tamaos muestrales moderados, es irrelevante cul de los dos


estimadores utilizar, porque siempre que n no sea muy pequeo, proporcionan
estimaciones numricas muy parecidas.

8.2.

Estimacin de las varianzas de los estimadores MCO


Hemos visto que
V

=(

Xi2 / n) V

23

2
1

1
.
Sx2
b1 , podemos aproximar E

Como estimador de V

un estimador consistente de

1
Sx2

mediante

1
as como
Sx2

b2
b
b
V
1 =
nSx2

Y por tanto, para estimar V

9.
9.1.

b0 ,

Vb b0 =

b2

Xi2

n2 Sx2

Medidas de bondad del ajuste


Error estndar de la regresin
En el caso poblacional, vimos que la funcin de esperanza condicional E (Y j X)

es la proyeccin lineal de Y dado X. en el sentido de que minimiza E ("2 ).

Por analoga, en el caso de la estimacin MCO a partir de una muestra de los


coecientes del modelo de regresin clsico
Yi =

1 Xi

+ "i

i = 1; : : : ; n;

donde:
E("jX) = 0
V ("jX) =

resulta natural presentar la estimacin de E ("2 ), b2 como indicio del xito o


del fracaso del modelo.

De forma ms conveniente, suele considerarse la raz cuadrada de b2 , b, que se


denomina error estndar de la regresin, como medida de la bondad del
ajuste

24

9.2.

El coeciente de determinacin
Una medida ms popular de capacidad predictiva del modelo es el R2 o coeciente de determinacin, que se dene como
P 2
P 2
y
b
b
"
i
2
R = Pi 2 = 1 Pi i2 ,
i yi
i yi
donde yi = Yi

Y i , ybi = Ybi

Ybi .

Y i, b
" i = Yi

(la segunda igualdad es cierta siempre que el modelo tenga trmino constante)
El R2 se interpreta como la proporcin de la variacin muestral de Y explicada
por el modelo. (Vase Goldberger, pp. 82 y 83).
El R2 verica que 0

R2

1.

Cuando R2 = 0, el modelo explica el 0 % de la variacin de Y .


Cuando R2 = 1, el modelo explica el 100 % de la variacin de Y .
Puede verse que

R = bY Yb

SY Yb
SY SYb

1
n

6
=6
4q P
1
n

Yi

Yi
Y

Y Ybi
r
P
2
1
n

32

Y
Ybi

7
7
25

es decir: el R2 es el cuadrado del coeciente de correlacin muestral entre Yi e


Ybi .

En el caso de datos de seccin cruzada, no es inusual que el R2 de una regresin


presente valores bajos.
Ello implica que el modelo deja sin explicar una proporcin importante de
la variacin de Y .
PERO un R2 bajo no implica necesariamente que las estimaciones son
poco tiles o inadecuadas.
El R2 puede ser til para comparar distintos modelos para la misma variable
dependiente Y .

25

You might also like