You are on page 1of 40

Econometra Cap. 3.

1 Violacin de supuestos: Sesgo de especicacin


Matas Cabello*

Universidad Diego Portales Facultad de Ingeniera


15 de octubre de 2013

* Quisiera agradecer a Andrs Sagner por proveerme su presentacin de la UCH, la cual he utilizado para completar parte de esta clase. 1

Introduccin Marco de anlisis Estimador MCO cuando Sesgo de especicacin Omisin de variables relevantes

= [X1

X2 ]

Impacto sobre el Insesgamiento Impacto sobre la Varianza Impacto sobre el Insesgamiento Impacto sobre la Varianza

Inclusin de variables irrelevantes

Resumen Apndice Proyecciones: Matriz M y matriz H Teorema de Frish-Waugh-Lovell Sesgos y varianzas con 2 matrices de regresores

Literatura:
Gujarati, captulos 7 y 8. Nota: Otros libros economtricos pueden

presentacin los supuestos que se estudian en esta clase.

diferir en la

Introduccin

Introduccin

Introduccin

La violacin del supuesto de especicacin correcta contempla que no se omitan variables relevantes ni que se incluyan variables irrelevantes. Si bien el supuesto tambin requiere de una relacin lineal de los vectores de la matriz

especicacin para referirse de forma particular a la omisin de


regresin.

y con X , se usa comnmente el trmino sesgo de

regresores necesarios o inclusin de regresores innecesarios en la

Introduccin
Mediante un experimento, la clase anterior se obtuvo que para un modelo polinomial de orden PGD: n

k , donde k el nmero de regresores del


2
incorrecto correcto incorrecto

de regr.

2 ) p-value(
bajo bajo alto

k < k k = k k > k

Es este un resultado general? Es decir, podemos derivar dichas conclusiones formalmente? Este es el propsito de esta clase.

Introduccin
Marco de anlisis

Marco de anlisis: El modelo real (o proceso generador de datos) est dado por

y = X1 1 + X2 2 + u
Es decir,

(1)

y1 y2 yn y
. . .

1 1 . . . 1

1,1 1,2 . . . . .. . . . . . . . . . x1,2,n x1,3,n x1,k1 ,n 1,k1

x1,2,1 x1,3,1 x1,2,2 x1,3,2

x1,k1 ,1 x1,k1 ,2

2,1 u1 2,2 u2 . + . . . . .. . . . . . . . . . . . x2,1,n x2,2,n x2,k2 ,n 2,k2 un

x2,1,1 x2,2,1 x2,1,2 x2,2,2

X1

x2,k2 ,1 x2,k2 ,2

X2

Introduccin
Marco de anlisis

Otras formas de escribir (1) son

x1,1

1,1 1,2 x1,k1 . + . . 1,k1


representan a los

x2,1 kJ

2,1 2,2 x2,k2 . + u . . 2,k2

donde

J = 1, 2, o

xJ ,1 , ..., xJ ,kJ

vectores de la matriz

y X X1 X2

= =

X1 X2 X + u

1 +u 2 1 2

donde

es un vector de matrices y

es un

vector de vectores.

Introduccin
Marco de anlisis

Distinguiremos entre dos casos: 1. Los regresores contenidos en

X1 y en X2 son relevantes, es decir X1 son relevantes, es decir

1 = 0, 2 = 0.
2. Solo los regresores contenidos en

1 = 0, 2 = 0.
Note que en el segundo caso

y = X + u = X1 1 + u .

Introduccin
Marco de anlisis
Cuadro : Marco de anlisis e interrogantes

Proceso generador de datos Modelo estimado

y = X1 1 + u
Especicacin correcta
1 ] =? E [ 1 ] =? Var [

y = X1 1 + X2 2 + u
Especicacin incorrecta
1 ] =? E [ 1 ] =? Var [

1 y = X1

1 + X2 2 y = X1

Especicacin incorrecta
1 ] =? E [ 1 ] =? Var [

Especicacin correcta
1 ] =? E [ 1 ] =? Var [

Introduccin
Estimador MCO cuando

X = [ X1 X2 ]

Cmo se ve el estimador MCO cuando X = X1 X2 y = 1 2 ?


Recuerde que el problema de minimizacin de cuadrados tenemos

2 SE

= 2X =

=0 y + 2X X

X X

Xy (X X )1 X y
1 2 1 2 = =

cuya penltima lnea podemos representar tambin como

X1 X X X2 1 2 X1 X1 X1 X2 X2 X1 X2 X2

X1 X2 y X1 y X2 y

(2)

10

Introduccin
Estimador MCO cuando

X = [ X1 X2 ]

1 cuando = 1 2 Coeciente y varianza de


Para derivar la varianza de

para los casos 1 y 2 (cuando

2 = 0

2 = 0

respectivamente) nos ser de inters la siguiente

representacin alternativa de

(derivacin en el apndice, p. 33):

1 = (X1 M2 X1 )1 X1 M2 Y
donde

(3)

M2 = I X2 (X2 X2 )1 X2 .
1 ] = 2 (X1 M2 X1 )1 Var [

Utilizando el teorema de Frish-Waugh-Lovell (ver. p. 32), en el apndice (p. 35) mostramos cmo la varianza de (3) est dada por

(4)

11

Sesgo de especicacin

Sesgo de especicacin

Sesgo de especicacin
Omisin de variables relevantes

Omisin de variables relevantes en el caso 1


Suponga que el proceso generador de datos corresponde a

y = X1 1 + X2 2 + u
Suponga adems que el investigador se equivoca y estima el siguiente modelo:

1 + u = X1 y

ha omitido variables relevantes del modelo de regresin poblacional.


En otras palabras, el investigador

12

Sesgo de especicacin
Omisin de variables relevantes

Si estimamos el modelo incorrecto obtenemos:

1 = (X1 X1 )1 X1 y

= 1 + (X1 X1 )1 X1 X2 2 + (X1 X1 )1 X1 u = 1 + (X1 X1 )1 X1 X2 2 = 1

Esto implica que, por lo general, la omisin de variables relevantes del modelo poblacional causar que los parmetros estimados sean

sesgados.

Sesgo de especicacin
Omisin de variables relevantes

La y

simplica si pensamos en

1 y 2 como escalares. En este caso, si x1 x2 son los vectores con los regresores asociados a 1 y 2 , tenemos: 1 ] E [ = 1 + (x1 x1 )1 x1 x2 2 Cov [x1 , x2 ] 2 = 1 + Var [x1 ]

direccin del sesgo es difcil de obtener, pero el anlisis se

De la ecuacin anterior se desprende que la depender de: 1. La

direccin del sesgo

2.

covarianza entre las variables incluidas respecto de las excluidas. El signo del parmetro omitido.
14

Sesgo de especicacin
Omisin de variables relevantes

1 al omitir x2 Sesgo de
Cor(x1 , 2 )

>0

Cor(x1 , 2 )

<0

2 > 0 2 < 0
Si omitimos la variable y el signo de

sesgo positivo sesgo negativo

sesgo negativo sesgo positivo

x2 de la regresin podemos anticipar el sesgo


1
en funcin de la correlacin

que se producir en la estimacin de

2 .

15

Sesgo de especicacin
Omisin de variables relevantes

Estimaciones de MCO: Mortalidad infantil, ingreso y fertilidad Variable dependiente: MortInf (1) const (2) 263.2

478.3

(42.60)
ln(Ingreso)

(50.01)

51.36
(6.415)

38.18
(5.620)
23.20

Fertilidad

(3.929)

64

64

Desviaciones tpicas entre parntesis * indica signicativo al nivel del 10 por ciento ** indica signicativo al nivel del 5 por ciento

16

Sesgo de especicacin
Omisin de variables relevantes

Coecientes de correlacin para MortInf, Fertilidad y ln(Ingreso): MortInf 1,0000 Fertilidad 0,6711 1,0000 ln(Ingreso)

0,7130 0,3969 1,0000

MortInf Fertilidad l(Ingreso)

Cmo obtener esta matriz en Gretl?: seleccione las variables de inters, pinche con el botn derecho y seleccione

correlacin.

Matriz de

17

Sesgo de especicacin
Omisin de variables relevantes

18

Sesgo de especicacin
Omisin de variables relevantes

Variable dependiente: ingreso mensual

19

Sesgo de especicacin
Omisin de variables relevantes

20

Sesgo de especicacin
Omisin de variables relevantes

Variable dependiente: ingreso mensual

21

Sesgo de especicacin
Omisin de variables relevantes

Bajo el modelo incorrecto, el estimador de la varianza de siguiente:

es el

1 |X1 ] = 2 (X1 X1 )1 Var [


Bajo el modelo correcto, la varianza del estimador insesgado de

1 ,

es la siguiente (ver apndice, p. 36):

1 |X1 , X2 ] = 2 (X1 M2 X1 )1 Var [


donde

M2 = I X2 (X2 X2 )1 X2 . Luego, comparando las inversas de


1

ambas matrices tenemos que:

1 |X1 ] Var [

1 Var [ | X1 , X2 ]

= 2 X1 X2 (X2 X2 )1 X2 X1

Sesgo de especicacin
Omisin de variables relevantes

positiva.

Es posible demostrar que la matriz obtenida es

semidenida

Lo anterior signica que al omitir variables relevantes, los parmetros estimados son

sesgados y varianzas menores.

Ms an, es posible demostrar que el estimador de la varianza de los errores

es sesgado hacia arriba (la varianza poblacional de los

errores es menor).

Sesgo de especicacin
Inclusin de variables irrelevantes

Inclusin de variables irrelevantes en el caso 2


Consideremos ahora el siguiente proceso generador de datos:

y = X1 1 + u
Supongamos que el investigador se equivoca y estima el siguiente modelo:

1 + X2 2 + u = X1 y

24

Sesgo de especicacin
Inclusin de variables irrelevantes

Estimando el modelo incorrecto obtenemos que (ver apndice):

1 = (X1 M2 X1 )1 X1 M2 Y

= 1 + (X1 M2 X1 )1 X1 M2 u

donde hacemos uso de

y = X1 1 + u (es decir 2 = 0) y M2 se
1 ] = 1 E [

dene igual que en la seccin anterior.. De esta forma:

Con el mismo razonamiento se puede demostrar que:

E [ 2]

= 2

u u N k1 k2

25

Sesgo de especicacin
Inclusin de variables irrelevantes

Notamos que la inclusin de variables irrelevantes no afecta el insesgamiento de los parmetros estimados ni de la varianza de los errores estimados.

Bajo dichos resultados, pareciera ser ptimo incluir muchos regresores en nuestro modelo. Sin embargo, nos falta estudiar que ocurre con la varianza de los parmetros estimados.

26

Sesgo de especicacin
Inclusin de variables irrelevantes

Recordemos que:

1 = 1 + (X1 M2 X1 )1 X1 M2 u
con lo cual, la varianza se encuentra dada por:

1 |X1 , X2 ] = 2 (X1 M2 X1 )1 Var [


mientras que la varianza verdadera es:

1 Var [ |X1 ] = 2 (X1 X1 )1

27

Sesgo de especicacin
Inclusin de variables irrelevantes

Como probamos con anterioridad, la varianza verdadera que la varianza estimada.

es menor

Esto signica que al incluir regresores adicionales, la varianza de nuestros parmetros estimados aumenta, lo que se traduce en una

menor eciencia.

28

Sesgo de especicacin
Resumen
Cuadro : Sesgo y varianza ante ausencia o redundancia de variables

Proceso generador de datos Modelo estimado

y = X1 1 + u
Especicacin correcta, no hay problemas

y = X1 1 + X2 2 + u
Coecientes sesgados y errores estndar invlidos (muy bajos)

1 y = X1

1 + X2 2 y = X1

Coecientes insesgados pero inecientes (errores estndar elevados)

Especicacin correcta, aunque con errores estndar correctos pero elevados


29

Apndice

Apndice

Apndice
Proyecciones: Matriz M y matriz H

Los residuos de

pueden escribirse como y u = = = =

y X y X (X X )1 X y (I X (X X )1 X )y (I HX )y = MX y
y

(5)

Las matrices

HX

= X (X

X )1 X

MX

= I X (X

X )1 X

son

matrices particulares que cuentan con la propiedades enumeradas en la siguiente tabla.

30

Apndice
Proyecciones: Matriz M y matriz H

Cuadro : Propiedades de

= = Idempotencia Simetra

y X u

I M X (X X )1 X Hm = H H =H Hy = y HX = X =0 Hu

HX

HX MX
y

I H I X (X X )1 X Mm = M M =M My = u MX = 0 =u Mu

MX

31

Apndice
Teorema de Frish-Waugh-Lovell

Teorema de Frish-Waugh-Lovell (FWL)


En (3) se propone

1 = (X1 M2 X1 )1 X1 M2 y
con

M2 = I X2 (X2 X2 )1 X2 .
1 = (X1

Note que podemos reescribir (3) como

X1 )1 X1 y
1
se puede

(6)

con

X1 = M2 X1

y = M2 y M 2y y
= =

. Esto nos dice que

obtener tambin con la regresin

1 + M2 u M 2 X1 1 + u X1

(7) (8)

Apndice
Sesgos y varianzas con 2 matrices de regresores

Ecuacin

(3)

1 cuando = 1 2 :

En (3) se propone

1 = (X1 M2 X1 )1 X1 M2 y
con

M2 = I X2 (X2 X2 )1 X2 .
1 + X2 X2 2 X2 X1 = X2 y 1 ) 2 = (X2 X2 )1 X2 (y X1

Para obtener (3) empezamos extrayendo de la ecuacin (2)

(9)

33

Apndice
Sesgos y varianzas con 2 matrices de regresores

Luego, insertando (9) en la primera la de (2) obtenemos

1 + X1 X2 2 X1 X1 1 + X1 X2 (X2 X2 )1 X2 (y X1 1 ) X1 X1 1 X1 X1 X2 (X2 X2 )1 X2 X1 1 X1 I X2 (X2 X2 )1 X2 X1 1 X1 M 2 X1

= = = = =

1 =
As llegamos al resultado (3)

X1 y X1 y X1 y X1 X2 (X2 X2 )1 X2 y X1 I X2 (X2 X2 )1 X2 y X1 M2 y X1 M2 X1 1 X1 M2 y

1 =

X1 M2 X1

X1 M2 y
34

Apndice
Sesgos y varianzas con 2 matrices de regresores

Ecuacin

(4)

1 ] cuando = 1 2 : Var [
expresada en (3) debe ser igual a la varianza de

Aplicando el teorema de FWL (ver p. 32) es fcil demostrar que la varianza de

segn (6). Aplicando la frmula que ya nos es familiar:

1 ] Var [

= 2 (X1

= =
Como

X1 )1 1 2 (X1 X ) 2 (X1 M2 M2 X1 )1

M2 M2 = M2 (ver propiedades de M2 en p. 31) obtenemos el


1 ] = 2 (X1 M2 X1 )1 Var [
(10)

resultado (4):

35

Apndice
Sesgos y varianzas con 2 matrices de regresores

1 cuando 2 = 0 Varianza de
El resultado anterior implica que si ende

2 = 0,

entonces

1 ] = 1 . Por E [

1 ] Var [

= = =

1 E [ 1 ]

1 E [ 1 ]

E (X1 M2 X1 )1 X1 M2 u (X1 M2 X1 )1 X1 M2 u E (X1 M2 X1 )1 X1 M2 uu M2 X1 (X1 M2 X1 )1

(11)

Note que tanto

= A).

M2 como (X1 M2 X1 )1 son matrices simtricas (con

Apndice
Sesgos y varianzas con 2 matrices de regresores

Como el nico elemento estocstico en (11) es

uu

E [uu ] = 2 I ,

1 ] Var [

= (X1 M2 X1 )1 X1 M2 E [uu ]M2 X1 (X1 M2 X1 )1 = 2 (X1 M2 X1 )1

que corresponde al resultado (4).

37

You might also like