Analisis Econometrico 04-08

Anlisis Economtrico
ISBN: 978-84-692-1728-3
M Victoria Esteban Gonzlez
04-08
Anlisis Economtrico a e
Ma Victoria Esteban Gonzlez a

Departamento de Econom Aplicada III. Econometr y Estad a a stica Facultad de Ciencias Econmicas y Empresariales o Universidad del Pa Vasco/Euskal Herriko Unibertsitatea s
Prembulo a
Las notas que se desarrollan a continuacin no tienen ms ambicin que servir como apoyo o a o al proceso de aprendizaje de los estudiantes de la asignatura Econometr de la Licenciatura a en Econom y de la Licenciatura en Administracin y Direccin de Empresas. Estas notas se a o o estructuran en cinco cap tulos a travs de los cuales se van relajando las hiptesis bsicas sobre e o a la perturbacin aleatoria y sobre la matriz de regresores. El primero de ellos revisa los conceptos o de Teor Asinttica que los alumnos ya han visto en las asignaturas de Estad a o stica. Muestra los diferentes conceptos de convergencia y el Teorema de Mann y Wald adiestrando al alumno en su utilidad para derivar las propiedades en muestras grandes y distribucin asinttica de los o o diferentes estimadores que vern en el curso. a El cap tulo dos introduce el concepto de perturbaciones esfricas y muestra las consecuencias en e las propiedades del estimador M nimo Cuadrtico Ordinario de que las perturbaciones no cuma plan las hiptesis bsicas. Asimismo deriva el estimador M o a nimo Cuadrtico Generalizado. Los a cap tulos tres y cuatro analizan los problemas de heterocedasticidad y autocorrelacin, respeco tivamente. Muestran como detectar perturbaciones no esfricas y como contrastar la existencia e de heterocedasticidad y/o autocorrelacin. Aplican el estimador M o nimo Cuadrtico Generalia zado en el caso de que sea necesario y ensean cmo estimar cuando la matriz de varianzas y n o covarianzas de la perturbacin es desconocida utilizando el estimador de M o nimos Cuadrados Generalizados Factibles. En el quinto cap tulo se relaja la hiptesis bsica sobre la matriz de regresores. Se aborda el o a escenario en que la matriz de datos es estocstica analizando los diferentes estadios de relacin a o entre los regresores estocsticos y la perturbacin aleatoria. Se deriva el estimador de Variables a o Instrumentales y se muestra la utilidad del contraste de Hausman. El cap tulo naliza analizando cmo actuar cuando adems de tener regresores estocsticos la perturbacin esta autocorrelada o a a o y/o es heterocedstica. a En cada cap tulo se muestran ejemplos que ilustran diferentes escenarios de trabajo. Al trmino e de las notas aparece la bibliograf completa. a Como dec anteriormente, estas notas sirven de apoyo al estudio. Analizan los problemas en a profundidad y permiten al alumno profundizar en los temas ms all de lo visto en las clases a a presenciales. En ningn caso deben utilizarse como sustituto de los libros incluidos en la biu bliograf De igual manera recomiendo la realizacin de ejercicios tanto los recomendados en a. o clase como los que aparecen en la bibliograf La unin del estudio de los conceptos y la utilia. o zacin de los mismos en los ejercicios permite adquirir la agilidad necesaria para el dominio de o la asignatura.
iii
SARRIKO-ON 4/08
iv
Contenido
1. Teor Asinttica a o 1.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 1.2. Convergencia en probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Convergencia casi segura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4. Convergencia en media cuadrtica . . . . . . . . . . . . . . . . . . . . . . . . . . a 1.5. Insesgadez asinttica y consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . o 1.5.1. Insesgadez Asinttica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 1.5.2. Eciencia Asinttica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 1.6. Convergencia en distribucin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 1.7. Teorema de Mann y Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7.1. Distribuciones asintticas . . . . . . . . . . . . . . . . . . . . . . . . . . . o 1.8. Propiedades Asintticas del estimador MCO en el MRLG . . . . . . . . . . . . . o 1 1 4 7 7 9 10 10 10 13 13 14 22 25 25 27 29 29 30 32 32 33 33 35 35 39 40
1.9. Contraste de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 2. Generalizacin del MRL o 2.1. Modelo de regresin con perturbaciones no esfricas . . . . . . . . . . . . . . . . o e 2.2. Propiedades del estimador MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1. Estimador de 2 e inferencia . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Mtodo de M e nimos Cuadrados Generalizados (MCG) . . . . . . . . . . . . . . . 2.3.1. Propiedades de los estimadores MCG . . . . . . . . . . . . . . . . . . . .
2.3.2. Distribucin Asinttica . . . . . . . . . . . . . . . . . . . . . . . . . . . . o o 2.3.3. Estimador de 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. Mtodo de M e nimos Cuadrados Generalizados Factibles (MCGF) . . . . . . . . . 2.4.1. Propiedades del estimador de MCGF . . . . . . . . . . . . . . . . . . . . . 2.4.2. Estimador de 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5. Contrastes de restricciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6. Ejemplo: Sistemas de Ecuaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.1. Ecuaciones no relacionadas con varianza comn . . . . . . . . . . . . . . . u v
SARRIKO-ON 4/08 2.6.2. Ecuaciones no relacionadas con varianzas distintas . . . . . . . . . . . . . 2.6.3. Ecuaciones aparentemente no relacionadas . . . . . . . . . . . . . . . . . . 2.7. Contrastes de restricciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7.1. Estad stico de diferencias en las sumas de cuadrados . . . . . . . . . . . . 3. Heterocedasticidad 3.1. Denicin y causas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 3.2. Contrastes de heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1. Deteccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 3.2.2. Contrastes de heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . . 3.3. MCG: M nimos Cuadrados Ponderados . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. Heterocedasticidad causada por una variable exgena del modelo . . . . . o 3.3.2. Omisin de una variable relevante . . . . . . . . . . . . . . . . . . . . . . o 3.3.3. Datos agregados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.4. Coecientes cambiantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4. MCGF: M nimos Cuadrados Generalizados Factibles . . . . . . . . . . . . . . . . 3.4.1. Cmo estimar la matriz ( ) o o . . . . . . . . . . . . . . . . . . . . . . . 3.4.2. Qu propiedades exigimos a ? . . . . . . . . . . . . . . . . . . . . . . . e 3.4.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5. Estimador de White de V (M CO ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6. Contraste de restricciones lineales con desconocida . . . . . . . . . . . . . . . . 3.7. Prediccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 3.7.1. Ejercicio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. Autocorrelacin o 4.1. Causas y modelizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 4.1.1. Causas de autocorrelacin . . . . . . . . . . . . . . . . . . . . . . . . . . . o 4.1.2. Modelizacin de la autocorrelacin . . . . . . . . . . . . . . . . . . . . . . o o 4.2. Contrastes de autocorrelacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 4.2.1. Contraste de Durbin Watson . . . . . . . . . . . . . . . . . . . . . . . . . 41 43 43 46 47 47 50 50 52 56 57 60 61 64 66 66 67 68 70 71 72 75 77 77 78 80 88 90 93 93 94 95 97 99
4.2.2. Contraste de Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3. Contraste h de Durbin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.4. Contraste de Breusch y Godfrey . . . . . . . . . . . . . . . . . . . . . . . 4.3. MCG: Modelo transformado para AR(1) . . . . . . . . . . . . . . . . . . . . . . . 4.4. MCGF: Aplicacin para un AR(1) . . . . . . . . . . . . . . . . . . . . . . . . . . o 4.5. MCO: Estimador de Newey-West de V (M CO ) . . . . . . . . . . . . . . . . . . . vi
SARRIKO-ON 4/08 4.6. El estimador de la varianza de la perturbacin . . . . . . . . . . . . . . . . . . . 100 o 4.7. Contraste de restricciones lineales con desconocida . . . . . . . . . . . . . . . . 100 4.8. Prediccin bajo autocorrelacin de primer orden . . . . . . . . . . . . . . . . . . 101 o o 5. Regresores Estocsticos a 103
5.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 o 5.2. Propiedades de los MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.2.1. Independencia entre regresor y error . . . . . . . . . . . . . . . . . . . . . 106 5.2.2. Incorrelacin contempornea entre regresores y error . . . . . . . . . . . . 109 o a 5.2.3. Correlacin entre regresores y error . . . . . . . . . . . . . . . . . . . . . . 113 o 5.3. Mtodo de Variables Instrumentales . . . . . . . . . . . . . . . . . . . . . . . . . 114 e 5.3.1. Propiedades del estimador de Variables Instrumentales . . . . . . . . . . . 116 5.3.2. Cmo buscar los instrumentos o . . . . . . . . . . . . . . . . . . . . . . . . 117 5.3.3. Contraste de hiptesis con el estimador de MC2E . . . . . . . . . . . . . . 123 o 5.3.4. Contraste de Sargan de validez de instrumentos . . . . . . . . . . . . . . . 124 5.3.5. Perturbacin heterocedstica . . . . . . . . . . . . . . . . . . . . . . . . . 125 o a 5.3.6. Qu ocurre si existe autocorrelacin en la perturbacin? . . . . . . . . . 126 e o o 5.4. Contraste de Hausman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 5.5. Errores de medida en variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 5.5.1. Variable endgena medida con error . . . . . . . . . . . . . . . . . . . . . 133 o 5.5.2. Variable exgena medida con error . . . . . . . . . . . . . . . . . . . . . . 134 o 5.5.3. Variable exgena y variable endgena medidas con error . . . . . . . . . . 136 o o
vii
Tema 1
Teor Asinttica a o
1.1. Introduccin o
Escribimos el modelo de regresin lineal en los parmetros como: o a Y = X + u bajo las hiptesis: o (1) X es una matriz de regresores que no son realizaciones de variables aleatorias, es decir, son regresores jos, no estocsticos. Este supuesto puede ser vlido en experimentos controlados a a pero es bastante fuerte en econometr Si consideramos Xi1 , Xi2 , . . . XiT realizaciones de a. una variable aleatoria Xi diremos que el regresor Xi es estocstico. Adems, sobre los a a regresores suponemos que la matriz X es de rango completo por columnas. (2) E(u) = 0, E(ut ) = 0 t t y E(ut us ) = 0 t, s t = s)
(3) E(uu ) = 2 IT
(E(u2 ) = 2 t
(4) u se distribuye con funcin de distribucin normal multivariante. o o Los estimadores que proponemos para estimar los parmetros y 2 del modelo son: a M CO = (X X)1 (X Y ) tral) M CO = 2
uu T k
(vector de variables aleatorias que depende del tamao muesn
u Mu T k
(vector de variables aleatorias que depende del tamao muestral) n
M CO es un estimador lineal, en el sentido de que dado (1) (X X)1 X es una matriz (k T ) de constantes y
1 c11 . . . c1T Y1 . . . .. . . = . . i = ci1 Y1 + . . . + ciT YT . . . . . . YT ck1 . . . ckT T
Las propiedades del estimador M CO analizadas para un tamao de muestra dado, T, son: n 1
SARRIKO-ON 4/08 1. E(M CO ) = E((X X)1 X Y ) = E[ + (X X)1 X u] = + E[(X X)1 X u] = + (X X)1 X E(u) = E(M CO ) = , a esta propiedad la llamamos insesgadez, es decir, si calculamos M CO para cada muestra de (X, Y ) con el mismo tamao muestral T y repitiramos este proceso para n e todas las posibles muestras, obteniendo todas las posibles realizaciones de M CO , la media de todas ellas ser igual al verdadero valor del parmetro . Para demostrar esta propiedad a a hemos utilizado dos de las hiptesis bsicas, que X es una matriz de variables jas y que o a E(ut ) = 0 t. 2. Por otro lado la matriz de varianzas y covarianzas de M CO (para un tamao de muestra n dado T) es: V ar(M CO ) = E[(M CO E(M CO ))(M CO E(M CO )) ] bajo los supuestos (1) y (2) E(M CO ) = y V (M CO ) = E((X X)1 X (uu )X(X X)1 ) = (X X)1 X E(uu )X(X X)1 = 2 (X X)1 Se demuestra que bajo estos supuestos (1), (2) y (3) el estimador M CO es un estimador lineal, insesgado y eciente. Es decir, cualquier otro estimador lineal, insesgado de , = c Y tendr una matriz de varianzas y covarianzas V ( ) tal que V ( ) V (M CO ) a es una matriz semidenida positiva. Insesgadez y eciencia son propiedades deseables en un estimador, y son propiedades llamadas para muestras nitas, es decir para un tamao n de muestra nito dado T (no variamos el tamao muestral). n a e o 3. Adems, bajo el supuesto (4) de normalidad del trmino de perturbacin, como M CO es una combinacin lineal de variables aleatorias normales, es decir, o M CO = + (X X)1 X u = + cu entonces podemos conocer la distribucin de M CO para un tamao de muestra T nito o n dado, (M CO ) N (E(cu), E(cuu c )) bajo (1) y (2) E(cu) = 0 y bajo (3) E(cuu c ) = 2 cc = 2 (X X)1 esto nos permite hacer inferencia y contrastar hiptesis de restricciones lineales sobre , si 2 es conocida. o 4. Cuando 2 es desconocida proponemos como estimador estimador a M CO tal que: 2 E(M CO ) = 2 E(u M u) 1 = tr(M )E(uu ) T k T k
Calcular E(u M u) bajo el supuesto (1) tambin es fcil ya que M = [I X(X X)1 X ] e a es una matriz de constantes (no realizaciones de variables aleatorias) y por lo tanto esto permite encontrar E(u M u) = tr(M )E(uu ). Bajo (3) obtenemos E(M CO ) = 2 . 2 Dado tambin que bajo estos supuestos (1), (2), (3) y (4) e (T k) u u 2 k) (T 2 esto nos permite construir estad sticos como la t o la F habituales cuya distribucin para un o tamao de muestra nito T es conocida, es decir bajo H0 : R = r de q-restricciones lineales. n 2
SARRIKO-ON 4/08 F0 se distribuye como una F de Snedecor con (q, T k) grados de libertad. t0 se distribuye como una t de Student con (T k) grados de libertad (cuando q=1). Las distibuciones tabuladas de estos estad sticos nos permiten, estad sticamente, distinguir a un nivel de signicacin elegido si aceptar o no la hiptesis nula dado el valor del estad o o stico obtenido en la muestra. Hasta ahora, hemos derivado bajo los supuestos (1), (2), (3) y (4) las propiedades para estimadores y estad sticos y sus distribuciones para un tamao de muestra dado T y nito. En principio n T puede ser cualquier tamao muestral, pero al analizar las propiedades este tamao muestral n n est dado y no cambia. Esto se conoce como propiedades para muestras nitas. a La teor asinttica analiza el comportamiento y las propiedades de variables aleatorias (que, a o por ejemplo, puede ser un estimador) cuando var el tamao de la muestra y permitimos que T a n aumente hasta innito (aunque este innito puede ser algo nito pero sucientemente grande). Deniremos una serie de conceptos y propiedades deseables en un estimador que sern vlidos a a asintticamente, es decir, cuando el tamao muestral sea sucientemente grande (T ). o n Por qu analizamos esto? e Es deseable poder obtener estimadores y estad sticos y que conozcamos sus propiedades, para muestras nitas, de insesgadez, eciencia y sus distribuciones; pero en muchas ocasiones estas propiedades se conocen a costa de tener que hacer supuestos muy particulares y restrictivos que pueden no satisfacerse y ser dif ciles de contrastar. Otras veces no es posible encontrar estimadores que tengan propiedades deseables para muestras nitas pero que tienen propiedades deseables en muestras grandes, es decir cuando T , cuando el tamao muestral es sucientemente grande. A estas propiedades las llamaremos pron piedades asintticas. o En este tema pretendemos relajar dos hiptesis bsicas: o a a) Queremos relajar la hiptesis de normalidad del trmino de perturbacin y no especicamos o e o una funcin de distribucin determinada para u, entonces: o o n o i) no conocemos, para un tamao de muestra T dado, como se distribuye M CO 2 = uu o . Por lo tanto, no conocemos la distribucin de los estad o sticos t F para poder T k contrastar hiptesis sobre o 2 . o a o a u ii) veremos resultados de teor asinttica que nos permitirn bajo algn supuesto pero relajando u N ormal, conocer la distribucin asinttica de los estimadores y estos o o estad sticos. b) Si relajamos el supuesto de que los regresores en X son jos y ahora Xi1 , Xi2 , . . . , XiT , son T realizaciones de la variable aleatoria Xit , el estimador = (X X)1 X Y = + (X X)1 X u ahora es una combinacin no lineal de las variables aleatorias X y u. En este caso necesio taremos ver qu condiciones necesitamos ahora para que los estimadores sean insesgados. e En general vamos a buscar otro tipo de propiedades que llamaremos asintticas, veremos cono sistencia, insesgadez asinttica y eciencia asinttica. Realizaremos supuestos bajo los cuales o o uu podamos determinar cual es la distribucin de M CO y 2 = Tk y as poder conocer la distrio y F que nos permitan realizar inferencia. As veremos el concepto de bucin de los estad o sticos t , 3
SARRIKO-ON 4/08 distribucin asinttica y bajo qu condiciones podemos derivar distribuciones asintticas para o o e o los estimadores y los estad sticos que nos permitan hacer inferencia aunque ests sean vlidas a a slo asintticamente, es decir, cuando el tamao muestral sea sucientemente grande. o o n En resumen, queremos ver cmo se comportan las variables aleatorias en el l o mite, pero antes necesitamos ciertos conceptos previos.
1.2.
Convergencia en probabilidad. Operador plim, propiedades.
Sea Z una variable aleatoria y Z1 , Z2 , . . . ZT = {Z(T ) } una sucesin de variables aleatorias o denidas en un espacio de probabilidad {, , P r} Denicin de Convergencia en probabilidad o Convergencia en ley dbil de una o e sucesin de variables aleatorias. o Sea Z1 , Z2 , . . . ZT una sucesin de variables aleatorias denotadas por {Z(T ) }. Se dice que o esta sucesin de variables aleatorias converge en probabilidad a Z, donde Z puede ser una o variable aleatoria o una constante (no aleatoria) si: > 0, l P r{|Z(T ) Z| } = 1 m
T
o lo que es lo mismo, mirando al suceso contrario: > 0, l P r{|Z(T ) Z| > } = 0 m

T
lo denotamos como : Z(T ) Z

p
plimZT = Z o
y se lee el l mite en probabilidad de la sucesin de variables aleatorias {Z(T ) } es Z la o o sucesin de variables aleatorias {Z(T ) } converge en probabilidad a Z. o Qu estamos diciendo? e Si denimos un entorno a Z0 , Z0 , indica que la probabilidad de que Z(T ) est dentro e de un intervalo estrictamente pequeo en torno al valor Z0 se puede hacer tan prxima a n o 1 como queramos, haciendo T sucientemente grande. Si T la probabilidad de que Z(T ) salga fuera del entorno (Z0 , Z0 + ) es cero, las variables aleatorias tienen una distribucin ms ajustada al valor Z0 , es decir, tienden o a en probabilidad a Z0 para cualquier valor de . Ejemplo: Sea Xt una v.a tal que Xt (, 2 ), y denimos X = E(XT ) = V ar(XT ) =
Xt T ,
entonces:
2 T
si T V ar(XT ) 0 y la distribucin de XT est ms concentrada entorno a . o a a Comentarios: 4
SARRIKO-ON 4/08 a) La convergencia en probabilidad equivale al l mite numrico de una sucesin de proe o babilidades, es decir, > 0: P rob(|Z1 Z| ) = P1 ( ) P rob(|Z2 Z| ) = P2 ( ) . . . es un es un un numero numero numero
. . . . . .
P rob(|Z(T ) Z| ) = PT ( ) es . . .
Miramos si l T Pt ( ) = 1 m = la convergencia en probabilidad equivale al l mite en los nmeros reales. u b) Si Z es una constante (no aleatoria) o es una variable aleatoria acotada (es decir sus realizaciones estn dentro de un rango acotado) podemos escribir: a Z(T ) Z 0 plim(Z(T ) Z) = 0 o es decir, si Z es una constante, {Z(T ) } converge a la constante. c) La convergencia en probabilidad no precisa de la existencia ni el conocimiento de los momentos de la variable aleatoria de la sucesin. o d) Plim es un operador similar a lim y ser equivalente cuando {Z(T ) } no sean a T =1 variables aleatorias. o o e) Si {Z(T ) } es una sucesin de vectores aleatorios de dimensin (s 1) ja entonces: T =1 |Z(T ) Z| = norma eucl dea del = ( s (ZT j Z)2 )1/2 j=1 vector (Z(T ) Z) =
p
mites en probabilidad: Propiedades de los l Sean {Z(T ) } y {S(T ) } dos sucesiones de variables aleatorias: T =1 T =1 a) plimc = c donde c es una constante. b) plim(Z(T ) + S(T ) ) = plimZ(T ) + plimS(T ) c) plim(Z(T ) S(T ) ) = plimZ(T ) plimS(T ) d) plim e) plim
Z(T ) S(T ) 1 Z(T )
plimZ(T ) plimS(T )
siempre que plimS(T ) = 0
= (plimZ(T ) )1 si plimZ(T ) = 0
f) plim(Z(T ) )2 = (plimZ(T ) )2
En general, tenemos el siguiente resultado: Teorema de Slutsky: Si plimZ(T ) = Z y g() es una funcin continua entonces: o plimg(Z(T ) ) = g(plimZ(T ) ) = g(Z) En base a este teorema tenemos los resultados 5 y 6. plim() es un operador matemtico ms operativo que E(), sin embargo este ultimo a a requiere independencia E(XY ) = E(X)E(Y ) y plim() no. 5
SARRIKO-ON 4/08 Generalizacin de los resultados a vectores y matrices: o La denicin de convergencia en probabilidad se generaliza al caso de una sucesin de o o vectores de variables aleatorias de dimensin k ja. o a) Sea A1 , A2 , . . . , AT , . . . una sucesin de matrices de orden constante (k k) cuyos o elementos son variables aleatorias. plimAT = A indica que {aijT } converge en probabilidad a aij i, j donde aij es T =1 el elemento (i, j) de la matriz A y aij(T ) es el elemento (i, j) de la matriz A(T ) . (Nota: convergencia elemento a elemento). b) Si plimA(T ) = A y plimB(T ) = B plimA(T ) plimB(T ) = AB plimA(T ) + plimB(T ) = A + B 1 plimB(T ) = (plimB(T ) )1 = B 1
si B
es
no
singular
Ejemplo: h.q.d plimXn = X1 +X2 +...+Xn donde Xn = , E(Xi ) = i y V ar(Xi ) = 2 n Solucin: Tenemos la siguiente sucesin de v.a.: o o X1 = X2 = X3 = . . . . . . Xn =
X1 1 X1 +X2 2 X1 +X2 +X3 3 X1 +X2 +...+Xn n
i.
siendo Xi realizaciones de una misma variable. E(Xn ) = E(X1 ) + E(X2 ) + . . . + E(Xn ) + + ... + n = = = n n n
2
V ar(Xn ) = V ar =E
=E +P roductos cruzados = 1 1 = n2 E(X1 )2 + n2 E(X2 )2 + . . . + V ar(X1 ) V ar(X2 ) = n2 + n2 + . . . + V ar(Xn ) = n2 =

n i=1
X1 +X2 +...+Xn +...+Xn +...+Xn = E X1 +X2n E X1 +X2n n 2 X1 E(X1 ) + X2 E(X2 ) + . . . + Xn E(Xn ) n n n 2 2 X1 E(X1 ) 2 + E X2 E(X2 ) + . . . + E Xn E(Xn ) n n n 1 E(Xn n2
)2 =
V ar(Xi ) n2
n 2 n2
2 n
Aplicando la desigualdad de Chebychev: P r |X E(X)| > k V ar(X) < en nuestro caso tendremos: 1 P r |Xn | > k < 2 n k 6 k > 0 1 k2
SARRIKO-ON 4/08 llamamos =

k n
= k =
P r |Xn | >
<
1
2n 2
P r |Xn | > l P r |Xn | > m
<
2 2n
n
< l m
2 2n
as
n
l P r |Xn | > m
p = 0 = plimXn = Xn o
1.3.
Convergencia casi segura o con probabilidad 1. Convergencia en ley fuerte
Se dice que la sucesin {Z(T ) } de variables aleatorias converge con probabilidad uno o casi o T =1 segura a la variable aleatoria Z si: Pr l Z(T ) = Z = 1 m o Pr l |Z(T ) Z| m =1
o mirando al suceso contrario Pr

T
l |Z(T ) Z| > m
=0
Convergencia en probabilidad 1 = convergencia en probabilidad Lo denotamos: Z(T ) Z (nota a.s indica almost sure) Observaciones: a) Si Z es acotada Z(T ) Z
a.s a.s a.s
equivale a
Z(T ) Z 0
a.s
b) Si Z es degenerada Z(T ) Z 0 c) El l mite en convergencia casi segura no equivale al l mite en los nmeros reales. u
1.4.
Convergencia en media cuadrtica a
Denicin: Una sucesin de variables aleatorias {Z(T ) } se dice que converge a Z en media o o T =1 m.c 2 = 0. Se denota: Z cuadrtica si l T E(Z(T ) Z) a m (T ) Z Z (Z puede ser una v.a o una constante (no aleatoria)). Comentarios: a a) Este concepto de convergencia exige la existencia del error cuadrtico medio de cada variable aleatoria en la sucesin. o 7
SARRIKO-ON 4/08 b) Convergencia en media cuadrtica = convergencia en probabilidad. a Z(T ) Z Z = Z(T ) Z Demostracin: o Consideramos la v.a. (Z(T ) Z). Por la desigualdad de Chebychev podemos escribir: P r |Z(T ) Z| > k V ar(Z) < llamamos = k var(Z(T ) ) P r |Z(T ) Z| > P r |Z(T ) Z| > tomamos l mites cuando T
T m.c p
1 = k2
<
V ar(Z(T ) )
2
E(Z(T ) Z)2
2
E(Z(T )
2
Z)2
>0
l m P r|Z(T ) Z| >
2 T
l E(Z(T ) Z)2 m por lo tanto: >0 c.q.d.
si Z(T ) Z
m.c
entonces l T E(Z(T ) Z)2 = 0, m

T
l P r |Z(T ) Z| > m
p
=0
por lo tanto:
Z(T ) Z
plimZ(T ) = Z
c) Convergencia en media cuadrtica es ms fuerte que convergencia en probabilidad. Es a a decir, convergencia en probabilidad no implica necesariamente convergencia en media cuadrtica. a Z(T ) Z Z = Z(T ) Z = d) Si Z es una constante y (1) l T E(Z(T ) ) = Z m (2) l T V ar(Z(T ) ) = 0 m
m.c T m.c p
l E(Z(T ) Z)2 = 0 m
p
= Z(T ) Z = Z(T ) Z Demostracin: o E(Z(T ) Z)2 = E(Z(T ) E(Z(T ) ) + E(Z(T ) ) Z)2 = = E[(Z(T ) E(Z(T ) ))2 ] + E[(E(Z(T ) ) Z)2 ]+ +2E[(Z(T ) E(Z(T ) ))(E(Z(T ) ) Z)] como: E[(Z(T ) E(Z(T ) ))(E(Z(T ) ) Z)] = E[Z(T ) E(Z(T ) ) Z(T ) Z (E(Z(T ) ))2 + ZE(Z(T ) )] = [E(Z(T ) )]2 ZE(Z(T ) ) (E(Z(T ) ))2 + ZE(Z(T ) ) = 0 tenemos que: E[Z(T ) Z]2 = E[(Z(T ) E(Z(T ) ))2 ] + [E[Z(T ) ] Z]2 = V ar(Z(T ) ) + [E(Z(T ) ) Z]2 si y l T E(Z(T ) ) = Z = l T E(Z(T ) ) Z = 0 m m l T V ar(Z(T ) ) = 0 entonces m
T
l E(Z(T ) Z)2 = 0 m 8
c.q.d
SARRIKO-ON 4/08
1.5.
Insesgadez asinttica y consistencia o
Consistencia de un estimador: Supongamos que es un estimador del parmetro . es una variable aleatoria que es a funcin de la muestra de un tamao T. Si consideramos la sucesin de variables aleatorias: o n o 1 estimador funcin de la muestra tamao T1 o n 2 estimador funcin de la muestra tamao T2 o n ......... N estimador funcin de la muestra tamao TN o n y as sucesivamente a medida que consideramos muestras de mayor tamao (T ) n obtendr amos una sucesin de variables aleatorias {(T ) }. o Si la sucesin {(T ) } converge en probabilidad al verdadero valor (desconocido) del parmeo a es un estimador consistente. tro se dice que el estimador Denicin formal: o Se dice que un estimador es un estimador consistente del parmetro desconocido si la a (T ) } = {1 , 2 , . . .} converge en probabilidad a y lo denotamos. sucesin { o plim = l P r{|(T ) | } = 1 > 0 m
T
l P r{|(T ) | > } = 0 > 0 m

T
Comentarios: a) Es una propiedad asinttica deseable en un estimador ya que analizamos si la sucesin o o (T ) } converge en probabilidad al verdadero valor del parmetro. de estimadores { a b) Para que un estimador sea consistente no necesitamos conocer los momentos de T , T ) E(2 ), E[2 E(t )] etc . . . ni necesitamos que existan para cada o es decir E( o T T tamao muestral. n Condiciones sucientes de consistencia:(no necesarias) Sea {E((T ) )} una sucesin del momento de primer orden de T cuando el tamao muestral o n T aumenta hasta innito. Sea {V ar((T ) )} una sucesin del momento centrado de orden dos de T cuando el tamao o n muestral T aumenta hasta innito. Entonces si: (1) l T E((T ) ) = m (2) l T V ar((T ) ) = 0 m
p (T ) = plim(T ) =
Demostracin: como hemos demostrado o

p m.c (1) + (2) = l E((T ) )2 = 0 = (T ) = (T ) = plim = m T
Comentarios: a) Estas dos condiciones son sucientes pero no necesarias. b) Para vericar estas dos condiciones sucientes para que sea consistente necesitamos conocer y que existan: E((T ) ) T 9 y E((T ) E((T ) ))2 T
SARRIKO-ON 4/08 cosa que en principio no es necesaria para covergencia en probabilidad. Esto es debido a que estas dos condiciones son sucientes para convergencia en media cuadrtica de (T ) a y que implica convergencia en probabilidad pero ste a e ultimo es un concepto de convergencia ms dbil. a e
1.5.1.
Insesgadez Asinttica o
Denicin: o Diremos que el estimador de es un estimador insesgado asintticamente si o

T
m l E((T ) ) = l [E((T ) ] = 0 m
T
Comentarios: a) Insesgadez asinttica no implica consistencia. Adems se requiere como otra condicin o a o suciente aunque no necesaria, que
T
l V ar((T ) ) = 0 m
b) Insesgadez asinttica no requiere que el estimador sea insesgado, es decir que E((T ) ) = o T . Ahora si E((T ) ) = T = l E((T ) ) = m
T
o c) Consistencia no implica insesgadez asinttica. d) Insesgadez asinttica requiere el conocer y la existencia del momento de primer orden o (T ) ) T . E(
1.5.2.
Eciencia Asinttica o
Si nos limitamos a la clase de estimadores consistentes, asintticamente insesgados y asintticao o mente normales, diremos que un estimador de esa clase es eciente asintticamente si y slo si o o su varianza asinttica es la menor de todas las varianzas asintticas de los estimadores de esa o o clase.
1.6.
Convergencia en distribucin o
o o Denicin de Convergencia en Distribucin: Sea Z1 , Z2 , Z3 . . . , ZT una sucesin de variables aleatorias denidas conjuntamente con o sus respectivas funciones de distribucin F1 (Z1 ), F2 (Z2 ), F3 (Z3 ) . . . , FT (ZT ) diremos que o o o la sucesin {Z(T ) } converge en distribucin a la variable aleatoria Z con funcin de o T =1 distribucin F si y slo si para todos los puntos de continuidad de F (Z) se cumple: o o l FT (Z(T ) ) = F (Z) m o Z(T ) F (Z)
d
y lo denotamos Z(T ) Z
d
la distribucin F (Z) se conoce como Distribucin Asinttica o Distribucin L o o o o mite. 10
SARRIKO-ON 4/08 Ejemplo: Si tenemos una v.a. Z(T ) : P r[a < ZT < b] = en ley dbil nos dice: e
b a f (ZT )dZt
= FT (b) FT (a) la convergencia
l P r[a < ZT < b] = FT (b) FT (a) = m
b a
f (Z)dZ = F (b) F (a)
A medida que aumenta el tamao muestral T, la funcin de distribucin tiende a identin o o carse con F (Z). Comentarios: a) La utilidad de este concepto est en la posibilidad de aproximar una funcin de a o distribucin F(T ) , que podemos no conocer, o tener que realizar supuestos que no sean o satisfactorios para conocerla, por una funcin de distribucin F que sea conocida y o o que si T es sucientemente grande esa aproximacin sea vlida o buena para F(T ) . o a En Econometr muchas veces la distribucin para un T dado de un estimador o a o estad stico para la realizacin de un contraste no es conocida o es dif de evaluar, o cil pero todav es posible derivar la forma de la distribucin asinttica de ese estimador a o o o estad stico. La distribucin asinttica puede servirnos como una aproximacin a la o o o distribucin para un tamao muestral T dado o muestra nitas. Esta aproximacin o n o ser mejor cuanto mayor sea el tamao muestral T dado que es un resultado para a n T . o a e b) Convergencia en distribucin es una forma de convergencia ms dbil que convergencia en probabilidad, esto es. Z(T ) Z = Z(T ) Z pero la implicacin inversa no es necesariamente cierta. Z(T ) Z implica que para o un T sucientemente grande la probabilidad de que ZT diera de Z es muy pequea n y por lo tanto esperaremos que tengan aproximadamente la misma distribucin. En o cambio, es posible que una sucesin de variables aleatorias Z1 , Z2 , . . . independientes, o d con la misma distribucin, por ejemplo N (0, 2 ) si Z(T ) Z entonces cualquier v.a. o de la sucesin {Z(T ) } tendr aproximadamente la misma distribucin que Z, es o a o T =1 2 ). Pero cualquier realizacin de Z decir N (0, o o (T ) puede que no tenga relacin con una realizacin de la variable aleatoria Z. o o c) Si Z no es una v.a. entonces si Z(T ) converge en distribucin a la constante Z = Z(T ) converge en probabilidad a Z. El que Z(T ) converja en distribucin a una constante implica que la distribucin o o asinttica es una distribucin degenerada, es decir la varianza de la distribucin o o o asinttica es cero y la media de la distribucin asinttica es la constante Z. o o o En Econometr lo habitual va a ser encontrarnos con distribuciones centradas en a, una constante (, 2 ) a las que llamaremos degeneradas, en estos casos: Z(T ) Z = Z(T ) Z Ejemplo: Si X N (, 2 ) y tenemos X1 , X2 , . . . , XT , su media aritmtica muestral es: e XT = 11
T 1 d p p p d
Xt
SARRIKO-ON 4/08 y sabemos que XT N (, ) t T 2 Adems la varianza V ar(XT ) = 0 cuando T , por tanto FT (XT ) a T est concentrada entorno a , es decir en el l a mite es degenerada. Para evitar este problema hacemos transformaciones que nos dan distribuciones l mite no degeneradas. As formaremos: ZT = T (XT ) E(ZT ) = T [E(XT ) E()] = 0 2 V (ZT ) = E[ T (Xt )]2 = T = 2 T por tanto Zt N (0, 2 ) t l T FT (Z) = F (Z) m d) Los momentos de la distribucin asinttica no son necesariamente igual a los l o o mites de los momentos de las distribuciones de la sucesin de variables aleatorias. Es decir o si d Z(T ) Z donde Z se distribuye con funcin de distribucin F , E(Z) no tiene por qu ser igual o o e a l T E(Z(T ) ) lo mismo para cualquier otro momento. Puede incluso ocurrir m o que algunos de los momentos de las variables aleatorias en la sucesin {Z(T ) } no o T =1 existan, (es decir, no sean nitos) y en cambio los de la distribucin asinttica existan o o y estn bien denidos (es decir sean nitos). e Es decir, en general: E(XT ) = = l T E(XT ) m 2 = 2 = l mT E(XT E(XT ))2 E(XT E(XT )) T Sin embargo, en algunos casos, bajo determinadas condiciones es posible que coincidan. Si la sucesin F1 (Z1 ), F2 (Z2 ), . . . , FT (ZT ) converge a la distribucin l o o mite y si todos los momentos de la sucesin existen y convergen a l o mites nitos se puede demostrar que la distribucin l o mite tiene momentos nitos de todo orden y que son idnticos a e los momentos correspondientes a la sucesin. o e) Llamamos media asinttica al momento no centrado de orden uno de la variable o aleatoria a la que converge en distribucin la sucesin. Llamamos varianza asinttica o o o al momento centrado de segundo orden de la variable aleatoria a la que converge en distribucin la sucesin. o o Teorema de Cramer Si tenemos dos sucesiones de variables aleatorias {Z(T ) } y {A(T ) } donde: {Z(T ) } es una sucesin de vectores de v.a. de dimensin ja. o o {A(T ) } es una sucesin de matrices de v.a. de dimensin ja. o o Si Z(T ) Z p A(T ) A Entonces:
d
2
Z A
vector de v.a. matriz de constantes.

d
A(T ) Z(T ) AZ Este teorema ser de gran utilidad para derivar distribuciones asintticas de estad a o sticos para contrastes. 12
SARRIKO-ON 4/08
1.7.
Teorema de Mann y Wald
Sea X una matriz (T k) tal que: 1) Sean u1 , u2 , . . . , ut una sucesin de v.a. independientes tal que {u(T ) } cumple: o i) E(ut ) = 0 ii) E(u2 ) t = 2 t t t=s
iii) E(ut us ) = 0 t, s 2) E(Xit ut ) = 0 3) plim

1 TX
i = 1, 2, . . . k donde Xi es la columna i-sima de la matriz X. e
X = Q nita, simtrica y denida (+). e
Entonces se cumple: a) plim

1 TX
u =0
1 b) T X u N (0, 2 Q)
En este teorema los elementos de la matriz X son variables aleatorias, as en vez de X deber amos poner {X(T ) }. Si los elementos de X no fueran v.a. entonces: 2) se satisface por i) y 3) ser a equivalente a l T m
1 TX
X = Q pero se tendr los mismos resultados a) y b). an
Este teorema es condicin suciente de consistencia y existencia de distribucin asinttica. o o o
1.7.1.
Distribuciones asintticas o
Distribucin asinttica normal o o Diremos que una sucesin de variables aleatorias ZT es asintticamente normal con media mT y o o d 2 AN (m , 2 ) si la funcin de distribucin de las variables tipicadas ZT mT varianza o o T N (0, 1) cuando T . {Z(T ) } AN (mT , 2 ) T =1 l m Pr Z T mT d N (0, 1) = (x)
ZT mT x
Teorema Central del L mite. (Lindeberg y Levy) Caso A: Sea Z1 , Z2 , . . . , ZT v.a. distribuidas idntica e independientemente tal que E(Zi ) = y e V ar(Zi ) = 2 , entonces:
T
ZT =
i=1
Zi N (T , T 2 )
esto se puede expresar: ZT mT d N (0, 1) 13
SARRIKO-ON 4/08 donde llamamos mT = T ZT mT =

T i=1 Zi
T ZT = = T / T
T (ZT )
o sea, el Teorema Central del L mite en este caso nos dice: T (ZT ) 1 = T
T i=1
Zi
N (0, 1)
Caso B: Sean Z1 , Z2 , . . . , ZT v.a. independientes pero no idnticamente distribuidas, es decir: E(Zi ) = e 2 2 i y V ar(Zi ) = i , Zi (i , i ). En este caso el Teorema Central del L mite nos dice:
T i=1
Zi N (
i=1 T i=1 i
i ,
i=1
2 i )
o lo que es igual:
T i=1 Zi
T 2 i=1 i
N (0, 1)
Observaciones: a) El Teorema Central del L mite nos da una distribucin l o mite normal para T Zi = ZT i=1 con independencia de la forma de f (Zi ) (funcin de densidad de Zi ). Slo imponemos la o o condicin de independencia. o d T (ZT ) N (0, 2 ) b) Si Zi es idntica e independientemente distribuida pero no imponemos la distribucin e o normal el Teorema Central del L mite nos dice: ZT N , T y por tanto ZT = d T (ZT ) N (0, 2 )
2
1.8.
Propiedades Asintticas del estimador MCO en el MRLG o
En el Modelo de Regresin Lineal General: o Y = X + u bajo los supuestos: a) X matriz de regresores no estocsticos tal que rg(X) = k < T a 14
SARRIKO-ON 4/08 b) l T m singular.

1 TX
= Q, donde Q es una matriz simtrica, denida positiva, nita y no e
T t=1 T t=1
l m
1 XX T
m 1 l T l T m =
X2t
2 X2t
T T
. . . l T m ... .. . l T m . . . l T m
T t=1 T t=1
Xkt X2t Xkt T

2 Xkt
T t=1
c) E(u) = 0 d) E(uu ) = 2 IT , 2 constante nita. Se demuestra que muestras nitas: i) bajo 1) y 3), E(M CO ) = ii) bajo 1), 3) y 4), M CO tiene menor varianza entre los estimadores lineales e insesgados en muestras nitas. V ar(M CO ) = 2 (X X)1 iii) el estimador de 2 denido como 2 =
uu T k
es insesgado bajo 1), 3) y 4), E( 2 ) = 2
Adems vamos a demostrar los siguientes resultados asintticos. a o RESULTADO 1: M CO es un estimador consistente. Bajo 1), 2), 3) y 4) M CO es un estimador consistente, es decir, plim(T )M CO = para i , plim(T )i,M CO = i i = 1, . . . , k podemos demostrarlo de cada parmetro estimado a varias formas: a) ver si se satisfacen las condiciones sucientes de consistencia, ya que bajo estos su puestos podemos conocer E(M CO ) y V (M CO ). b) Ver si plim(T )M CO = bajo estos supuestos. A) Demostracin de la consistencia del estimador MCO por las condiciones sucientes de o consistencia. l T E(M CO ) = m l T V (M CO ) = 0 m condiciones sucientes a demostrar que se cumplen. a.1) E() = E( + (X X)1 X u) = + (X X)1 X E(u) = = l E() = l () = m m
T T
luego bajo (1) y (3) M CO es un estimador asintticamente insesgado. o a.2) V ar() = 2 (X X)1 =
2 T 1 TX
y se satisface para cualquier T dado. 2 T

1
l V ar() = l m m
1 XX T
= l m
2 1 l m XX T T T T 15
= 0 Q1 = 0
SARRIKO-ON 4/08 luego por las condiciones sucientes plim(T )M CO = y M CO es un estimador consistente. B) Demostracin de la consistencia de M CO utilizando la denicin de consistencia. o o Para demostrarlo aplicando plimM CO no necesitamos conocer E((T )M CO ) ni V ((T )M CO ). M CO = + (X X)1 X u = + plimM CO = plim + plim = + plim Sabemos que: plim
1 TX
1 XX T
1
1 Xu T
1 XX T
1
1 Xu T
1 XX T
plim
1 Xu T
X = Q = plim
1 TX
= Q1
y necesitamos buscar: 1 plim T T ut t=1 T 1 plim T t=1 X2t ut 1 plim T X u = . . . 1 plim T T Xkt ut t=1 Para buscar plim
1 TX
=?
u aplicamos las condiciones sucientes: E 1 1 X u = X E(u) = 0 t T T
(1)
= l T E m
1 TX
u =0 1 Xu =E T
2 T
V ar (2) l T V ar m por (1) + (2)

1 TX
1 X uu X T2 l T m
X X T
2 X X T T
u = l T m
1 TX
=0Q=0
plim u =0 y por tanto plim(T )M CO = + Q1 0 = = M CO es un estimador consistente.

1 TX
Para buscar plim
u tambin podr e amos haber hecho:
1 plim T 1 plim T 1 plim T T t=1 ut
1 plim Xu = T
. . .
T t=1 X2t ut
T t=1 Xkt ut
y buscar cada uno de los l mites en probabilidad de la matriz anterior. 16
SARRIKO-ON 4/08 a) Por (3) y (4) tenemos que las variables aleatorias u1 , u2 , . . . , uT son v.a. tal que E(ut ) = 0 t, E(u2 ) = 2 t y E(ut us ) = 0 t, s, t = s luego aplicando las t condiciones sucientes de consistencia tenemos: uT = de donde plim b) para j = 2, . . . , k plim
1 T
1 T
T t=1
ut 0
1 T
ut
t=1
= plim u(T ) = 0 =0 ya que:
T t=1 Xjt ut
i) por (1), (3) y (4): V ar 1 = 2E T 1 T

T t=1 T
Xjt ut
t=1
=E
1 T ( Xjt ut )2 T 2 t=1
2 Xjt u2 t
1 + 2E T
2 Xjt =
Xjt Xjs ut us =
=s
= luego ii) 2 T T l m 1 T
T t=1
2 T2
T t=1
2 T
1 T
T t=1
2 Xjt
2 Xjt
= l m
2 1 l m T T T T
1 TX
T t=1
2 Xjt
= 0 qjj = 0
ya que hemos supuesto que l T m (a) + (b) = plim luego bajo los supuestos (1), (2), (3) y (4) plim y RESULTADO 2: uu Sea M CO = Tk 2 (2), (3) y (4).
X = Q nito.
T
1 T
Xjt ut
t=1
=0
1 Xu =0 T
plim(T )M CO = + 0 Q1 =
donde u = Y X M CO es un estimador consistente de 2 bajo (1),
a) Demostracin aplicando la denicin de consistencia: o o M CO = 2 siendo M = I X(X X)1 X M CO = 2 = =

1 T k 1 T k T T k
u Mu uu = T k T k
u [I X(X X)1 X ]u u u u X(X X)1 X u

uu T
1 Tu
1 TX
1 TX
17
SARRIKO-ON 4/08 plimM CO = plim 2

T T k 1 Tu
plim
1 Tu
T T k
1 Tu
1 TX
1 TX
= l T m l T m l T m plim plim
T T k
T T k plim T T k
u X plim
1 TX
plim
1 1k/T
1 Tu
plim
1 TX
= l T m
1
=1
1 Tu 1 TX
X = plim X
1 TX
u = 0 demostrado anteriormente.
= Q1 por el supuesto (2).
1 1 plim T u u = plim T T u2 vamos a buscarlo utilizando el siguiente teorema o t=1 t ley dbil de los grandes nmeros: e u
Teorema de Khinchine: Si Zt t son variables aleatorias independientes, distribuidas con media nita , entonces se cumple que: 1 T plim Zt = T t=1 ya que si E(Zt ) = y Zt son independientes: 1 T
T t=1
Zt
plim
1 T
Zt
t=1
En nuestro caso Zt = u2 , E(u2 ) = 2 t. Dado que u1 , u2 , . . . , uT son indepent t dientes: 1 T 2 1 T 2 p 2 ut plim u = 2 T t=1 T t=1 t luego plimM CO = 2 0 Q1 0 = 2 2 o b) Demostracin por las condiciones sucientes de consistencia. Necesitamos conocer E(T,M CO ) y V (T,M CO ): 2 2 u Si u N (0, 2 I) entonces u 2 2 k) (T (T k)
T 2 t=1 ut /(T 2
k)
(T k)M CO 2 2 k) (T 2
ya que E(2 k) ) = T k: (T E (T k)
T,M CO 2 2
= T k = =
(T k)E(M CO ) 2 =T k 2 2 E(M CO ) = (T k) = 2 (T k)
ya que V (2 ) = 2n n V (T k) M CO 2 2 = 2(T k)
(T k)2 2(T k)( 2 ) 2( 2 ) V (M CO ) = 2(T k) = V (M CO ) = 2 2 = V ( 2 ) = 2 (T k)2 T k 18
SARRIKO-ON 4/08 l T E(M CO ) = 2 m 2 l T V (M CO ) = l T m 2 m RESULTADO 3: (T )M V es un estimador consistente. M V = (X X)1 X Y = M CO si u sigue una distribucin normal, luego plimM V = o M V es consistente. 2 M V = uTu donde u = Y X M V 2 2 ) = 1 E( u) = 1 2 (T k) = 2 sesgado en muestras nitas. E(M V u T T
2 plimM V
2( 2 ) T k
=0
plimM CO = 2 2
= = =
1 T plim(u M u) T 1 T plim T u u 2 0 Q1
plim 0= 2
1 Tu
plim
1 TX
plim
1 TX
luego consistente plimM V = 2 2 RESULTADO 4: Sea Y = X + u en el modelo de regresin lineal bajo las hiptesis: o o (1) X matriz de regresores jos rg(X) = k < T (2) l T m (3) E(u) = 0 (4) E(uu ) = 2 IT (5) u se distribuye con funcin de distribucin normal multivariante. o o bajo (1), (2), (3), (4) y (5) tenemos los siguientes resultados para muestras nitas (es decir para un tamao de muestra dado): n (i) (M CO ) N (0, 2 (X X)1 ) 2 k) (T Tambin bajo estos supuestos tenemos el siguiente resultado asinttico: e o d 2 Q1 ) (iii) T (M CO ) N (0, (ii)
p Hemos visto que bajo (1), (2), (3) y (4) M CO donde es un vector de constantes que son valores desconocidos de los parmetros poblacionales. a (T k)M CO 2 2 1 TX
X =Q
Entonces (M CO ) 0 = (M CO ) 0 y por tanto la distribucin asinttica de o o M CO ) es una distribucin degenerada, es decir, la matriz de varianzas y covarianzas ( o asinttica es cero y toda la masa de probabilidad est concentrada en el punto cero. Dada o a esta caracter stica podemos pensar que esta distribucin asinttica no es muy interesante o o por lo que realizaremos la transformacin T (M CO ) para obtener una distribucin o o no degenerada. Si u N (0, 2 I) distribucin exacta para cualquier T dado. o (M CO ) N (0, 2 (X X)1 ) distribucin exacta para cualquier T dado. o 1 1 T (M CO ) N 0, 2 T X X distribucin exacta para cualquier T dado. o ya que: E( T (M CO )) = T E[(M CO )] = 0 19
SARRIKO-ON 4/08 V ( T (M CO )) = E[T (M CO )(M CO ) ] = 2 T (X X)1 = 2 1 XX T

1
Entonces si miramos a la sucesin de vectores de variables aleatorias con sus funciones de o distribucin asociadas: o T1 (T1 ,M CO ) N 0, 2 T2 (T2 ,M CO ) N 0, 2 T3 (T3 ,M CO ) N 0, 2 . . . 1 XX T1
1 1
1 XX T2 1 XX T3
T1 < T2
1
T2 < T3
vemos que { T (M CO )} converge en distribucin a un vector de v.a. con funcin de o o m distribucin N 0, 2 l T o

1 TX
y lo denotamos como:
d T (M CO ) N (0, 2 Q1 ) Comentarios: a) Dado que u N (, ) para cualquier T dado, podemos conocer la funcin de distribuo cin exacta para cada uno de esos tamaos de muestra. o n o b) Si consideramos la sucesin: (T1 ,M CO ) N 0, (T2 ,M CO ) N 0, (T3 ,M CO ) N 0, 2 T2 2 T3 . . . cuando T (M CO ) 0 RESULTADO 5: (Relajacin del supuesto de normalidad) o Si relajamos el supuesto (5), bajo (1), (2), (3) y (4) sin el supuesto de que u se distribuye como funcin de distribucin normal (no especicamos su funcin de distribucin) entonces o o o o no podemos conocer la distribucin exacta para un tamao muestral dado T, de M CO , o n es decir, no tenemos el resultado (i). Tendremos el siguiente resultado asinttico: o (iii) d T (M CO ) N (0, 2 Q1 )
d
2 T1
1 XX T1
1
1 XX T2 1 XX T3
T1 < T2
1
T2 < T3
siendo (i) (M CO ) N (0, 2 (X X)1 ) El vector de variables aleatorias T (M CO ) converge en distribucin a un vector de v.a o que se distribuye normal de media cero y matriz de varianzas y covarianzas 2 Q1 . Luego si el tamao muestral es sucientemente grande podemos considerar esta distribucin n o 20
SARRIKO-ON 4/08 asinttica como una buena aproximacin a la distribucin exacta de o o o ese tamao muestral T. Demostracin de (iii): n o Bajo los supuestos (1), (2), (3) y (4): d T (M CO ) N (0, 2 Q1 ) M CO = + (X X)1 X u T (M CO ) = 1 XX T
1
T (M CO ) para
1 Xu T
Aplicando el Teorema de Mann y Wald y considerando X matriz de regresores jos, tenemos que: 1 d X u N (0, 2 Q) T es decir, converge en distribucin a un vector de v.a. Z que se distribuye N (0, 2 Q) donde o 1 Q = l T T X X . m Dado que:
T
l m
1 XX T
= Q1
1 XX T
= Q1
1 d X u N (0, 2 Q) T
Aplicando el Teorema de Cramer tenemos que la sucesin de vectores de variables aleatoo rias: 1 1 1 d X u Q1 Z XX T T donde Z N (0, 2 Q), luego Q1 Z N (0, 2 Q1 ) ya que: E(Q1 Z) = Q1 E(Z) = 0 V (Q1 Z) = E((Q1 Z)(Q1 Z) ) = Q1 E(ZZ )Q1 = = Q1 ( 2 Q)Q1 = 2 Q1 QQ1 = 2 Q1 luego podemos demostrar tambin que: e 1 XX T y dado que:
1
1 d X u N (0, 2 Q1 ) T 1 XX T
1
T (M CO ) =
1 Xu T
entonces
d T (M CO ) N (0, 2 Q1 )
Este resultado nos va a permitir hacer inferencia sobre basndonos en esta distribucin a o o n asinttica de T (M CO ) cuando no conozcamos la distribucin exacta para un tamao o de muestra dado (del que nosotros disponemos) y que ser una aproximacin mejor cuanto a o mayor sea el tamao muestral. n 21
SARRIKO-ON 4/08 RESULTADO 6: d T (T,M CO 2 ) N (0, 4 4 ) 2 donde 4 es el cuarto momento nito de u. Si u es normal 4 4 = 2 4 de donde si u es normal d T (T,M CO 2 ) N (0, 2 4 ) 2 Demostracin: o T,M CO 2 (T k) 2 k) (T 2 T,M CO d 2 (T k) N ((T k), 2(T K)) 2
2 T k 2 T k 2
trabajamos con la transformacin o
donde
T k 2
es una constante.
2 T k 2 d N T k 2
2 4 (T k), 2(T k) T k (T K)2

d
T,M CO N 2 , 2
2 4 T k
en el l mite, si T
d T k(T,M CO 2 ) N (0, 2 4 ) 2 T T k por tanto T,M CO N 2 , 2

a
p T (T,M CO 2 ) N (0, 2 4 ) 2
2 4 T
1.9.
Contraste de hiptesis o
Contraste de hiptesis de la forma H0 : R = r en el modelo de regresin lineal Y = X + u o o 1 2 I , l bajo los supuestos: E(u) = 0; E(uu ) = T mT T X X = Q nita, simtrica, denida e positiva y no singular, pero no especicamos la funcin de distribucin de u (en particular no o o suponemos normalidad). Caso 1: Una restriccin lineal o R es una matriz de constantes conocidas (q k). r es un vector de constantes conocidas (q 1). Un caso particular de H0 : R = r es H0 : i = 0. Si no suponemos normalidad, no conocemos la distribucin exacta. Bajo la hiptesis nula el estad o o stico: RM CO r R(X X)1 R en general no se distribuir como una t-Student, pero vamos a demostrar que la sucesin a o de este estad stico cuando el tamao muestral tiende a innito converge en distribucin a n o una v.a. con distribucin N (0, 1). o RM CO r d N (0, 1) 1 R R(X X) 22
SARRIKO-ON 4/08 Luego para un tamao de muestra T dado si ste es sucientemente grande podemos n e aproximar la distribucin exacta de este estad o stico por la distribucin asinttica N (0, 1). o o Por tanto, para un nivel de signicacin elegido , no aceptaremos la hiptesis nula H0 : o o R = r si el valor obtenido dada nuestra muestra de este estad stico es mayor que el valor cr tico mirando a las tablas de N (0, 1). Para H0 : i = 0 el estad stico de contraste ser a: tc = i,M CO aii
donde aii es el elemento i-simo de la matriz (X X)1 es decir i e Demostracin: o d T (M CO ) N (0, 2 Q1 ) como R es un vector de constantes de dimensin ja: o d T (RM CO R) N (0, 2 RQ1 R ) donde RQ1 R es un escalar. Dado que, R es un vector de constantes que no depende de T 1 1 T XX R RQ1 R R T Bajo estos supuestos M CO es un estimador consistente de 2 , as M CO 2 . Por las 2 : 2 propiedades del operador plim: M CO R 2 y por el teorema de Slustky: M CO R 2 y dado que bajo H0 : R = r de Cramer 1 XX T
1 p
1 XX T
R 2 RQ1 R
2 RQ1 R
d T (M CO ) Z N (0, 2 Q1 ) aplicando el teorema 1
d 1 T (RM CO r) Z 1 a 1 M CO R T X X 2 R
1 donde a Z se distribuye N (0, 1), dado que a es una constante y Z N (0, a2 )
E V 1 Z a =E
1 Z a
= =
1 E(Z) = 0 a
1 ZZ a2 1
1 1 E(ZZ ) = 2 2 (RQ1 R ) 2 a a ) (RQ1 R ) = 1
= 2 luego el estad stico:
2 (RQ1 R
T (RM CO r) d N (0, 1) T M CO R(X X)1 R
bajo H0 : R = r. 23
SARRIKO-ON 4/08 Por tanto si no especicamos la distribucin de u, en particular no especicamos que sea o normal, no conocemos la distribucin exacta de este estad o stico para un tamao de muestra n dado, pero si la muestra es sucientemente grande podemos aproximarla por una N (0, 1). Para un nivel de signicacin elegiremos el valor cr o tico con el que comparar el valor obtenido del estad stico, mirando las tablas de la normal N (0, 1). Por ejemplo, a un nivel = 5 % = 0,05) = 0,025 contraste a dos colas (1,96) = 1 0,025 = 0,975. 2 No aceptamos H0 al nivel de signicacin del 5 % si el valor absoluto del estad o stico obtenido con la muestra utilizada es mayor que el valor cr tico 1.96. Caso 2: En general, q restricciones lineales. R es una matriz de constantes conocidas (q k). r es un vector de constantes conocidas (q 1). Si no suponemos normalidad de u, el estad stico bajo la H0 : R = r es: Fc = (RM CO r) [R(X X)1 R ]1 (RM CO r)/q M CO 2
no tiene porqu distribuirse como una F de Snedecor con (q, T k) grados de libertad, ni e tampoco sabemos como se distribuye para un tamao de muestra dado T. n (RM CO r) [R(X X)1 R ]1 (RM CO r)/q d 2 (q) M CO 2
uu donde 2 = Tk es un estimador consistente de 2 , es decir M CO 2 , luego puedo 2 considerar, bajo estos supuestos p
M CO = 2
uu T k
M V = 2
uu T
Demostracin: Bajo H0 : R = r: o d T (RM CO r) N (0, 2 (RQ1 R )) donde RQ1 R es una matriz (q q). Por el teorema de Cramer: T (RM CO r) 2 R si 2 =
uu T k
1 XX T
(RM CO r) 2 (q)
es un estimador consistente de 2 por el Teorema de Cramer: 1 XX T

1 1
T (RM CO r) M CO R 2 o lo que es igual (RM CO r) R

1 TX
(RM CO r) 2 (q)
(RM CO r)
M CO 2
2 (q)
Por lo tanto si el tamao de muestra es sucientemente grande podemos utilizar este n estad stico y aproximar su distribucin por la distribucin asinttica 2 . o o o (q) No aceptaremos la hiptesis nula si el valor del estad o stico obtenido para la muestra utilizada es mayor que un valor cr tico, elegido un valor de signicacin ; mirando a las tablas o 2 , este valor cr ser aquel que. tico Z a de (q) P r{Z Z} = 1 24 donde Z 2 (q)
Tema 2
Generalizacin del Modelo de o Regresin Lineal o

2.1. Modelo de regresin con perturbaciones no esfricas o e
En el modelo de regresin lineal general o Y = X + u donde X es no estocstica y sobre las perturbaciones suponemos: a a) Homocedasticidad: var(ut ) = 2 , t. b) No autocorrelacin: cov(ut , us ) = 0, t = s. o lo que se conoce como perturbaciones esfricas, podemos escribir la matriz de varianzas y covae rianzas de la perturbacin como: o
(2.1)
E(uu ) =
2I
2 0 0 0 2 0 . . .. . . . . . . . . 0 0 2
En este tema relajamos estos supuestos permitiendo que exista heterocedasticidad:

2 var(ut ) = t
y/o autocorrelacin: o cov(ut , us ) = 0, t=s Para el propsito de estimacin distinguir entre heterocedasticidad y/o autocorrelacin no es o o o necesario ya que en ambos casos el modelo se estima de la misma manera por ello en este tema presentaremos el estimador M nimo Cuadrtico Generalizado y sus propiedades, comunes a a ambos casos. En los dos temas siguientes veremos los problemas de heterocedasticidad y autocorrelacin por separado particularizando en cada uno de ellos. o En general permitimos que las perturbaciones tengan una matriz de varianzas y covarianzas no escalar: 25
SARRIKO-ON 4/08
E(uu ) = =
2 1 21 . . .
12 2 2 . . .
T 1 T 2
1T 2T . .. . . . 2 T w1T w2T . .. . . . wT T
= 2 = 2
w11 w21 . . .
w12 w22 . . .
wT 1 wT 2 donde
2 var(ut ) = t = 2 wtt ,
t = 1, ..., T t=s
cov(ut , us ) = ts = st = 2 wts ,
vamos a empezar viendo ejemplos en los que la hiptesis de perturbaciones esfricas no se cumple: o e Ejemplo 1: Supongamos una muestra de observaciones relativas a gastos de consumo familiares, Ci , y renta disponible, Ri , de un colectivo de N familias. La perturbacin mide la o diferencia entre el consumo de una familia y el consumo medio de todas las familias que poseen la misma renta, ui = Ci E(Ci /Ri ), y 2 mide la dispersin de estas observaciones. En familias o con rentas bajas, las posibilidades de consumo estn restringidas por la renta. Sin embargo, a a medida que aumenta la renta se ampl las posibilidades y podrn decidir cuanto consumir y an a cuanto ahorrar. As podemos encontrarnos con familias de rentas altas ahorrativas, con bajo , consumo, y otras con alto consumo y poco ahorro. En este caso hay una gran dispersin y 2 o ser grande mientras que para las rentas bajas 2 ser pequea. En este supuesto la varianza a a n de la perturbacin cambia segn la renta de las familias, existe heterocedasticidad y podemos o u escribirla: 2 E(u2 ) = i seccin cruzada o i
2 E(u2 ) = t t
serie temporal
La matriz de varianzas y covarianzas de la perturbacin ser o a:
2 1 0 0 2 0 2 0 . . .. . . . . . . . . 2 0 0 N
E(uu ) = =
donde suponemos E(ui ) = 0 i,
2 E(u2 ) = i , i
E(ui uj ) = 0 i, j i = j
Ejemplo 2: Supongamos que investigamos la relacin entre la tasa de inacin, t , y el o o incremento en el nivel de salarios, Wt , para un conjunto de aos T . La indiciacin salarial nos n o indica que el nivel de salarios jado para el periodo t depender del nivel de inacin del periodo a o anterior. As lo que ocurre en un per , odo actual depende de lo ocurrido en el periodo pasado y ser dif mantener E(ut us ) = 0 t, s t = s. Ocurrir lo contrario, que las perturbaciones a cil a estn correladas, as a : E(ut us ) = 0 t, s t = s 26
SARRIKO-ON 4/08 En este caso, y suponiendo que la varianza es constante, escribimos la matriz de varianzas y covarianzas de la perturbacin como: o
E(uu ) = =
2 21 . . .
12 2 . . .
T 1 T 2
1T 2T . .. . . . 2
Ejemplo 3: Supongamos que queremos estimar la demanda de automviles Y como una o funcin de la renta X, utilizando datos microeconmicos sobre gastos de las familias en dos o o ncleos geogrcos distintos, ncleo urbano y ncleo rural. La funcin de demanda para las u a u u o familias del ncleo urbano es: u Yi = 1 + 1 Xi + ui
2 ui N (0, 1 IN1 )
La funcin de demanda para las familias del ncleo rural es: o u Yj = 2 + 2 Xj + uj

2 uj N (0, 2 IN2 )
Supongamos que la propensin marginal a consumir de ambos ncleos es la misma, 1 = 2 en o u este caso deber amos estimar la funcin de demanda en el siguiente modelo conjunto: o
Yi Yj
iN1 0
0 iN2
Xi Xj
1 2 +
ui uj
Y = X + u
y la matriz de varianzas y covarianzas del sistema de ecuaciones a estimar es: E(uu ) =

2 1 IN1 0
0 2 2 IN2
2 2 donde al ser 1 = 2 es heterocedstica. Adems estamos suponiendo que ui y uj son indepena a dientes, pero tambin podemos suponer que son dependientes. e
2.2.
Propiedades del estimador MCO
Sea el MRLG, Y = X + u, donde se mantienen las hiptesis bsicas salvo que: o a E(uu ) = = 2 , donde = I Propiedades de M CO = (X X)1 X Y : a) Lineal: dado que X es no estocstica el estimador MCO es lineal en u. a M CO = + (X X)1 X u a b) Insesgado: dado que X es no estocstica y E(u) = 0 el estimador MCO es insesgado. E(M CO ) = + E[(X X)1 X u] = + (X X)1 X E(u) = 27 (2.2)
SARRIKO-ON 4/08 c) Matriz de varianzas y covarianzas: V (M CO ) = E[( )( ) ] = E[(X X)1 X uu X(X X)1 ] = (X X)1 X E(uu )X(X X)1 = (X X)1 X X(X X)1 = 2 (X X)1 X X(X X)1 tal que 2 (X X)1 X X(X X)1 = 2 (X X)1 El estimador MCO no es el estimador con varianza m nima entre los estimadores lineales e insesgados. d) Distribucin en muestras nitas: o Si las perturbaciones tienen una distribucin normal u N (0, ) o M CO N (, (X X)1 X X(X X)1 ) Si las perturbaciones tienen una distribucin normal u N (0, 2 ) o M CO N (, 2 (X X)1 X X(X X)1 ) e) Consistente. Vamos a demostrar la consistencia del estimador por las condiciones sucientes: Sean XX = Q nita, semidenida positiva y no singular T T l m
T
l m
X X =Z T
nita, semidenida positiva y no singular
Entonces:
T
l E(M CO ) = m 2 T T l m XX T
1
l V (M CO ) = m
X X T
XX T
= 0 Q1 Z Q1 = 0 y as por las condiciones sucientes de consistencia: , plimM CO = Resumiendo, el estimador de MCO bajo perturbaciones no esfricas es lineal en la perturbacin, e o insesgado y consistente pero no es de varianza m nima. 28
SARRIKO-ON 4/08
2.2.1.
Estimador de 2 e inferencia
En este caso el estimador de 2 , 2 = T uu K es sesgado: E( 2 ) = E(u ) u 2 tr(M ) = = 2 T K T K
Este estimador sesgado no es vlido para hacer inferencia. a Consecuencias para la inferencia: Los estad sticos t y F habituales ahora no tienen las distribuciones t-student y F -Snedecor habituales por lo tanto la inferencia en base a estos estad sticos no es vlida. a Por todo ello parece ms adecuado buscar un nuevo estimador que tuviera una matriz de variana zas y covarianzas menor que 2 (X X)1 X X(X X)1 . En particular podemos encontrar un estimador que en circunstancias donde E(uu ) = 2 (bien heterocedasticidad, bien autocorrelacin, bien ambos) sea lineal, insesgado, de varianza m o nima y consistente. Este estimador es el de M nimos Cuadrados Generalizados, y a su vez permitir proponer un estimador insesgado a 2 y realizar inferencia vlida. para a
2.3.
Mtodo de M e nimos Cuadrados Generalizados (MCG)
Supongamos que en el MRLG Y = X + u conocemos E(uu ) = = 2 . Si lo que queremos es estimar los coecientes desconocidos de forma que el estimador sea eciente, una manera sensata de proceder es transformar el modelo (2.1) en otro con perturbaciones esfricas, de forma e que podamos proceder como lo hac amos hasta ahora. Resultado 1: Dado que = 2 es simtrica y semidenida positiva, existe una matriz no e singular P tal que = P P . La inversa de la matriz P se utiliza como matriz de transformacin del modelo original dado o que = PP
1
= (P P tr)1 = (P tr)1 P 1
P 1 (P tr)1 = P 1 P P (P )1 = I Premultiplicando el modelo (2.1) por P 1 obtenemos el siguiente modelo transformado: P 1 Y = P 1 X + P 1 u u Y X Y = X + u Este modelo transformado tiene perturbaciones esfricas, u : e E(u ) = E(P 1 u) = P 1 E(u) = 0 E(u u ) = E(P 1 uutr(P 1 )tr) = P 1 E(uutr)(P 1 )tr = = 2 P 1 P 1 tr = 2 P 1 P P tr(P tr)1 = 2 I. 29 (2.3)
SARRIKO-ON 4/08 Por lo tanto en el modelo transformado se cumplen las hiptesis bsicas, y el estimador MCO o a tendr las propiedades habituales de linealidad, insesgadez y varianza m a nima. M CO = (X X )1 X Y = = (X (P tr) = (X = (X
1 1 1
(2.4)
1
X)
X (P tr)
Y = (2.5) (2.6)
X) X)
1 1
X X
1 1
Y = Y = M CG
Si (o ) es conocida el estimador es inmediatamente calculable. En resumen, tenemos dos alternativas para estimar los coecientes de un modelo por MCG: Aplicar el estimador MCG (ecuacin (2.5) o (2.6)) al modelo original. o Aplicar el estimador MCO al modelo transformado (ecuacin (2.4)). o
2.3.1.
Propiedades de los estimadores MCG
Las propiedades del estimador MCG podemos demostrarlas alternativamente en el modelo transformado utilizando la expresin (2.4) o en el modelo original utilizando (2.5) o (2.6). o a) Lineal en la perturbacin u dado que X es no estocstica: o a M CO = (X 1 X)1 X 1 Y = + (X 1 X)1 X 1 u b) Insesgado: Dado que X es no estocstica, es conocida y E(u) = 0 el estimador MCG a es insesgado: E(M CO ) = + E[(X 1 X)1 X 1 u] = = + (X 1 X)1 X 1 E(u) = c) Matriz de varianzas y covarianzas: V (M CO ) = E[( )( ) ] = E[(X 1 X)1 X 1 uu 1 X(X 1 X)1 ] = (X 1 X)1 X 1 E(uu )1 X(X 1 X)1 = 2 (X 1 X)1 X 1 1 X(X 1 X)1 = 2 (X 1 X)1 = (X 1 X)1 El Teorema de Gauss-Markov aplicado en el modelo transformado, garantiza que el estimador MCO es el estimador con varianza m nima entre los estimadores lineales e insesgados. Del mismo modo, por el Teorema de Aitken aplicado al modelo original, garantiza que el estimador MCG es el estimador con varianza m nima entre los estimadores lineales e insesgados. d) Distribucin en muestras nitas: Bajo el supuesto de normalidad de las perturbacioo nes, u N (0, 2 ), tenemos que M CO N (, 2 (X 1 X)1 ) Si u N (0, ), tenemos que M CO N (, (X 1 X)1 ) 30
SARRIKO-ON 4/08 e) Consistencia: Sea plim X

1 X T
=G
nita, semidenida positiva y no singular
Por las condiciones sucientes de consistencia: plimM CG = , con lo que el estimador es consistente.
T
l E(M CG ) = m 2 l m T T X 1 X T
1
l Var(M CG ) = m
= 0 G1 = 0
Si buscamos las propiedades en el modelo transformado tenemos: a) Linealidad en u , dado que X es no estocstica el estimador es lineal en u : a = + (X X )1 (X u ) b) Insesgado: Dado que X es no estocstica y E(u ) = 0 el estimador es insesgado: a E() = + E[(X X )1 X u ] = = + (X X )1 X E(u ) = c) Matriz de varianzas y covarianzas: V () = E[( )( ) ] = E[(X X )1 X u u X (X X )1 ] = = (X X )1 X E(u u )X (X X )1 = = 2 (X X )1 = 2 (X 1 X)1 = (X 1 X)1 El Teorema de Gauss-Markov aplicado en el modelo transformado, garantiza que el estimador MCO es el estimador con varianza m nima entre los estimadores lineales e insesgados. d) Bajo el supuesto de normalidad de las perturbaciones, u N (0, 2 I), tenemos que N (, 2 (X X )1 ) e) Consistente: Sea plim X X = Q = G nita, semidenida positiva y no singular por las T condiciones sucientes de consistencia: plimM CG = .
T
l E(M CG ) = m 2 l m T T 31 X X T
1
l Var(M CG ) = m
= 0 G1 = 0
SARRIKO-ON 4/08
2.3.2.
Distribucin Asinttica o o
p p plimM CG = = M CG = (M CG ) 0
Dado que
el estimador tiene una distribucin degenerada en el l o mite, por lo que buscamos la distribucin o asinttica para T (M CG ) tal que : o T (M CG ) = X 1 X T
1
X 1 u T
En el modelo original el teorema de Mann-Wald no se puede aplicar por lo que demostrar la consistencia es un poco ms costoso que si lo hacemos en el modelo transformado. En el modelo a transformado las perturbaciones son esfricas y X es no estocstica por lo que podemos aplicar e a Mann-Wald: i) Sea u iid(0, 2 I) ii) Sea E(X u ) = X E(u ) = 0 iii) Sea plim
X X T
= Q = G nita y no singular
Entonces se cumplen los dos resultados siguientes: 1. plim 2.

X u T X u T d
=0
N (0, 2 G)
por lo que de Mann-Wald, y utilizando el teorema de Cramer, tenemos T (M CO ) = X X T

1
X u T
N 0, 2 plim
d d
X X T
G plim
X X T
N (0, 2 G1 G G1 ) N (0, 2 G1 ) por lo que T (M CG ) = X 1 X T

1
X 1 u d N (0, 2 G1 ) T
2.3.3.
Estimador de 2
Si E(uu ) = 2 en general 2 ser desconocida y habremos de estimarla. Al igual que los a coecientes del modelo podremos estimarla en el modelo original o en el transformado. En el modelo transformado, un estimador insesgado y consistente ser a: u u (Y X M CG ) (Y X M CG ) Y Y M CG X Y = = T K T K T K 32
2 =
SARRIKO-ON 4/08 En el modelo original un estimador insesgado y consistente de 2 bajo el supuesto de que es conocida ser a: utr CG 1 uM CG M = T K (Y X M CG ) 1 (Y X M CG ) Y 1 Y M CG X 1 Y = T K T K
M CO = 2 =
Funcin objetivo: Notar que para el estimador de MCG la funcin objetivo en un marco o o donde Y = X + u E(u) = 0 E(uu ) = 2 X ja ser a: M in u 1 u = M in (Y X M CG ) 1 (Y X M CG ) M in Y 1 Y 2M CG X 1 Y + M CG X 1 X M CG u 1 u | ; 2X 1 Y + 2X 1 X M CG = 0 M CG =0 las ecuaciones normales son: (X 1 X)M CG = X 1 Y de donde = (X 1 X)1 X 1 Y Y 1 Y M CG X 1 Y u 1 u = T K T K
y podemos estimar la varianza de la perturbacin como: o M CG = 2
2.4.
Mtodo de M e nimos Cuadrados Generalizados Factibles (MCGF)
Hasta ahora hemos supuesto que conoc amos E(uu ) = = 2 al menos . El estimador de o MCG en este caso es lineal, insesgado y de varianza m nima. Pero en la prctica la mayor de a a las veces o son desconocidas. En este caso el estimador MCG no es directamente calculable. La solucin habitual es sustituir (o ) por una estimacin suya en la expresin del estimador o o o de MCG dando lugar al estimador MCGF: M CGF = (X 1 X)1 X 1 Y = (X 1 X)1 X 1 Y (2.7)
2.4.1.
Propiedades del estimador de MCGF
Bajo el supuesto de que las varianzas de las perturbaciones se han modelado correctamente, tenemos las siguientes propiedades: Propiedades en muestras nitas: a) M CGF no es lineal en u. M CGF = + (X 1 X)1 (X 1 u) donde u y son variables aleatorias y por tanto M CGF es una combinacin no lineal de o variables aleatorias. 33
SARRIKO-ON 4/08 b) En general M CGF es sesgado: E(M CGF ) = + E[(X 1 X)1 (X 1 u)] para determinar E[(X 1 X)1 (X 1 u)] necesitamos conocer la distribucin conjunta o de las variables aleatorias en y en u. En general: E[] = 0 y por tanto E(M CGF ) = . c) Matriz de varianzas y covarianzas de M CGF : V (M CGF ) = E[M CGF E(M CGF )][M CGF E(M CGF )] expresin dif de obtener. o cil Propiedades asintticas: Dado que generalmente no podemos decir nada de las propiedades o en muestras nitas buscaremos propiedades en muestras grandes: a) Consistencia. Necesitamos que: plimM CGF = plimM CG = Tenemos que demostrar que plim[M CGF M CG ] = 0 Dado que: plimM CGF plimM CG entonces
plim[M CGF M CG ] = plim 1 X 1 X T
1
1 X 1 X T 1 X 1 X = + plim T = + plim
1 X 1 u T 1 1 plim X 1 u T plim
plim
1 X 1 u plim T
1
1 X 1 X T
plim
1 X 1 u T
Sumamos y restamos la expresin: o plim de forma que: plim[M CGF M CG ] = = plim 1 X 1 X T 1 X 1 X T 1 X 1 X T 1 X 1 u T

1
1 X 1 X T
plim
1 X 1 u T
1 X 1 u plim T 1 X 1 u plim T
1 X 1 X T 1 X 1 X T
plim
1
1 X 1 u T 1 X 1 u T =
+plim
plim
plim
plim
1 X 1 u plim T 1 X 1 X T
1
1 X 1 u T 1 X 1 X T
1
+plim Para que:
plim
plim
plimM CGF = plimM CG =
es suciente (no necesario) que:
34
SARRIKO-ON 4/08
i) plim ii) plim
1 T 1 T
X 1 u = plim X 1 X
1
1 T
X 1 u
1 T
= plim
X 1 X
Las condiciones sucientes de consistencia podemos encontrarlas como: i. plim ii. plim
1 T 1 T
X 1 u = 0 X 1 X
1
= G1
iii. plim = b) Distribucin asinttica. Para obtener la distribucin asinttica de M CGF debemos hacer uso de o o o o algunas propiedades asintticas. Sabemos que: o XT X XT X por tanto si: entonces:
p T (M CGF ) d T (M CGF ) p d
T (M CG ) T (M CG )
y en consecuencia ambos estimadores tendr idntica distribucin asinttica: an e o o d T (M CGF ) N (0, 2 G1 )
2.4.2.
Estimador de 2
Si especicamos la matriz de varianzas y covarianzas de la perturbacin E(uu ) = 2 , con 2 y o desconocidas, estimamos 2 de forma habitual pero teniendo en cuenta que las perturbaciones no son esfricas: e u 1 uM CGF M CGF = M CGF 2 T K Si es un estimador consistente de : plim 1 u (1 1 ) = 0 u T
y M CGF es un estimador consistente de 2 : 2 M CGF = 2 (Y X M CGF ) 1 (Y X M CGF ) Y 1 Y M CGF X 1 Y = T K T K
2.5.
Contrastes de restricciones lineales
Vamos a ver cmo realizar contrastes de restricciones lineales sobre el vector en el MRLG con o perturbaciones no esfricas pero normales. e Sean las hiptesis nula y alternativa para el contraste de q restricciones lineales: o H0 : R = r Ha : R = r donde R es una matriz (qK) y r es un vector de dimensin q, siendo q el nmero de restricciones o u lineales a contrastar. Podemos optar por realizar los contrastes en el modelo transformado para lo cual podemos aplicar el estad stico de diferencias en las sumas de cuadrados. 35
SARRIKO-ON 4/08 Suponiendo E(uu ) = 2 F = o equivalentemente (SCRr SCR)/q H0 F(q,T K) SCR/T K que implicar estimar dos modelos el restringido y el no restringido bajo la hiptesis de contraste a o correspondiente. La regla de decisin es la habitual. o conocida y 2 desconocida tendr amos:
(RM CG r) [R(X X )1 R ]1 (RM CG r)/q H0 F(q,T K) 2
Si optamos por trabajar en el modelo original podemos distinguir los siguientes casos: a) E(uu ) = , conocida. b) E(uu ) = 2 , y 2 conocidas. c) E(uu ) = 2 , conocida pero 2 desconocida. d) E(uu ) = , desconocida. e) E(uu ) = 2 , y 2 desconocidas. y aplicar el estad stico general o el correspondiente estad stico de diferencias en las sumas de cuadrados.
Caso 1: E(uu ) = , conocida. Sea Y = X + u con E(uu ) = , conocida. En este caso estimamos por MCG M CG = (X 1 X)1 X 1 Y y si las perturbaciones tienen una distribucin Normal tenemos, o M CG N (, (X 1 X)1 ) de donde RM CG N (R, R(X 1 X)1 R ) (2.8)
con lo que si la hiptesis nula es cierta o

0 RM CG N (r, R(X 1 X)1 R )
y con lo que el estad stico de contraste y su distribucin bajo H0 son: o

0 F = (RM CG r) [R(X 1 X)1 R ]1 (RM CG r) 2 q
donde q es el nmero de restricciones. Rechazamos la hiptesis nula si F > 2 para un nivel u o (q) de signicacin . o 36
SARRIKO-ON 4/08 Si q = 1 el estad stico anterior se puede escribir como: t= RM CG r H0 N (0, 1) 1 X)1 R R(X
por ejemplo si H0 : i = 0, es decir, contrastamos la signicatividad de una de las variables exgenas, podemos escribir el estad o stico anterior de la manera habitual: t= i,M CG Ho N (0, 1) i,M CG ) des(
Caso 2: E(uu ) = 2 , y 2 conocidas. Sea Y = X + u con E(uu ) = 2 , y 2 conocidas. En este caso estimamos por MCG M CG = (X 1 X)1 X 1 Y y si las perturbaciones tienen una distribucin Normal tenemos, o N (, 2 (X 1 X)1 ) con lo que el estad stico de contraste y su distribucin bajo H0 son: o
H0 (RM CG r) [ 2 R(X 1 X)1 R ]1 (RM CG r) 2 q
Rechazaremos la hiptesis nula si F > 2 para un nivel de signicacin . o o (q) Si q = 1 el estad stico anterior se puede escribir como: t= RM CG r H0 N (0, 1) R(X 1 X)1 R
Caso 3: E(uu ) = 2 , conocida y 2 desconocida. Sea Y = X + u con E(uu ) = 2 , conocida y 2 desconocida. En este caso estimamos por MCG M CG = (X 1 X)1 X 1 Y y si las perturbaciones tienen una distribucin Normal tenemos, o N (, 2 (X 1 X)1 ) con lo que el estad stico de contraste y su distribucin bajo H0 son: o F = (RM CG r) [R(X 1 X)1 R ]1 (RM CG r)/q H0 F(q,T K) M CG 2 37
SARRIKO-ON 4/08 Rechazaremos la hiptesis nula si F > F(q, T K) para un nivel de signicacin . o o Si q = 1 el estad stico anterior se puede escribir como: t= M CG RM CG r H0 t(T K) 1 X)1 R R(X
por ejemplo si H0 : i = 0, es decir, contrastamos la signicatividad de una de las variables exgenas, podemos escribir el estad o stico anterior de la manera habitual: t= i,M CG Ho t(T K) i,M CG ) des(
Rechazaremos la hiptesis nula si t > t(T K) para un nivel de signicacin . o o 2
Caso 4: E(uu ) = , desconocida. Sea Y = X + u con E(uu ) = , desconocida. En este caso estimamos por MCGF M CGF = (X 1 X)1 X 1 Y El estimador de MCGF es no lineal, en general es sesgado y consistente si es consistente, adems es eciente asintticamente y con distribucin asinttica conocida. Por tanto podemos a o o o hacer inferencia asinttica con este estimador: o d T (M CGF ) N (0, G1 ) d T (RM CGF R) N (0, RG1 R ) con lo que el estad stico de contraste y su distribucin bajo H0 son: o
d,H0 F = (RM CGF r) [R(X 1 X)1 R ]1 (RM CGF r) 2 q
donde q es el nmero de restricciones. Rechazamos la hiptesis nula si F > 2 para un nivel u o (q) de signicacin . o Si q = 1 el estad stico anterior se puede escribir como: t= RM CGF r R(X 1 X)1 R por ejemplo si H0 : i = 0, es decir, contrastamos la signicatividad de una de las variables exgenas, podemos escribir el estad o stico anterior de la manera habitual: t= i,M CGF d,H0 N (0, 1) des(i,M CGF )
d,H0
N (0, 1)
Caso 5: E(uu ) = 2 , y 2 desconocidas. Sea Y = X +u con E(uu ) = 2 , y 2 desconocidas. En este caso estimamos por MCGF M CGF = (X 1 X)1 X 1 Y 38
SARRIKO-ON 4/08 El estimador de MCGF es no lineal, en general es sesgado y consistente si es consistente, adems es eciente asintticamente y con distribucin asinttica conocida. Por tanto podemos a o o o hacer inferencia asinttica con este estimador: o d T (M CGF ) N (0, G1 ) d T (RM CGF R) N (0, RG1 R ) con lo que el estad stico de contraste y su distribucin bajo H0 son: o
d,H0 F = (RM CGF r) [M CGF R(X 1 X)1 R ]1 (RM CGF r) 2 2 q
donde q es el nmero de restricciones. Rechazamos la hiptesis nula si F > 2 para un nivel u o (q) de signicacin . o Si q = 1 el estad stico anterior se puede escribir como: t= RM CGF r M CGF R(X 1 X)1 R
d,H0
N (0, 1)
por ejemplo si H0 : i = 0, es decir, contrastamos la signicatividad de una de las variables exgenas, podemos escribir el estad o stico anterior de la manera habitual: t= i,M CGF d,H0 N (0, 1) i,M CGF ) des(
2.6.
Ejemplo: Sistemas de Ecuaciones
En ocasiones necesitamos estimar un sistema de ecuaciones. Nosotros vamos a ver diferentes posibilidades de estimacin de un sistema como ilustracin del tema de perturbaciones no esfricas o o e y a la vez, mostraremos como realizar el contraste de cambio estructural o de Chow. Supongamos que queremos estimar la demanda de automviles Y como una funcin de la renta o o X, utilizando datos microeconmicos sobre gastos de las familias en dos ncleos geogrcos o u a distintos, ncleo urbano y ncleo rural. u u La funcin de demanda para las familias del ncleo urbano es: o u Y1i = a1 + b1 X1i + u1i Y1 = X1 1 + u1 siendo
2 u1 N (0, 1 IN1 )
La funcin de demanda para las familias del ncleo rural es: o u Y2i = a2 + b2 X2i + u2i Y2 = X2 2 + u2 siendo
2 u2 N (0, 2 IN2 )
Podemos escribir el siguiente sistema de ecuaciones: Y1 Y2 = X1 0 0 X2 Y

((N1 + N2 ) 1)
1 2 =
+ X 39
u1 u2
Y = X + u u
((N1 + N2 ) 1)
(2.9)
((N1 + N2 ) 4) (4 1)
SARRIKO-ON 4/08 Sobre X suponemos que es no estocstica y a E(u)

((N1 + N2 ) 1)
E(u1 ) E(u2 ) =
0 0
E(uu )
((N1 + N2 ) (N1 + N2 ))
E(u1 u1 ) E(u1 u2 ) E(u2 u1 ) E(u2 u2 )
Notar: En el sistema de ecuaciones anterior no hay relacin entre los coecientes de las dos ecuao ciones. En cuanto a la estructura de E(uu ) podemos distinguir tres situaciones
2 2 2 2 a) E(u1 u1 ) = 1 IN1 , E(u2 u2 ) = 2 IN2 con 1 = 2 es decir homocedasticidad entre o ecuaciones y E(u1 u2 ) = E(u2 u1 ) = 0 lo que implica que no hay relacin entre las perturbaciones de las dos ecuaciones. 2 2 2 2 b) E(u1 u1 ) = 1 IN1 , E(u2 u2 ) = 2 IN2 con 1 = 2 es decir heterocedasticidad entre ecuaciones y E(u1 u2 ) = E(u2 u1 ) = 0.
c) Ecuaciones aparentemente no relacionadas E(u1 u2 ) = E(u2 u1 ) = 0. Notar que dado que X es no estocstica el mtodo ms adecuado para estimar un modelo a e a Y = X + u depende de la estructura de E(uu ).
2.6.1.
Ecuaciones no relacionadas con varianza com n u

Y1 = X1 1 + u1 Y2 = X2 2 + u2 N1 obs. N2 obs.
Sean las ecuaciones:
En principio 1 y 2 son distintos, como nada relaciona a las dos ecuaciones podr amos pensar que ganamos en eciencia utilizando toda la informacin conjuntamente y por ello deber o amos 2 = 2 y E(u u ) = E(u u ) = 0 tenemos que estimar conjuntamente el modelo. Dado que 1 1 2 2 1 2 E(uu ) =
2 1 IN1 0
0
2 2 IN2
2 IN1 0
0 2 IN2
= 2 IN1 +N2
El modelo puede ser estimado por MCO y que ser lineal, insesgado y de varianza m a nima. Se puede probar que dado que no hay informacin comn entre las ecuaciones, es decir dado que X o u es diagonal por bloques, la estimacin del modelo conjunto por MCO es equivalente a estimar o cada ecuacin por separado por MCO. La estimacin conjunta no gana en eciencia, por tanto o o estimaremos por separado que es ms sencillo. a Adems a 2 = uu u u1 + u2 u2 = 1 T K T K donde N = N1 + N2 y K = K1 + K2
es insesgado y consistente.
40
SARRIKO-ON 4/08 Contraste de cambio estructural o de Chow: Se llama contraste de cambio estructural al contraste de que todos o algunos de los parmetros que corresponden a las mismas variables en a las dos ecuaciones son iguales. Supongamos que queremos contrastar la igualdad de ordenadas y pendientes o lo que es igual cambio estructural total: H0 : a1 = a2 y b1 = b2 Ha : a1 = a2 y/o b1 = b2 Hay dos formas alternativas de realizar el contraste: Alternativa 1: Con el estad stico: (RM CO r) R(X X)1 R 2 donde
H0 : 1 = 2 q = 2 Ha : 1 = 2
(RM CO r)/q
H0
F(q, T K)
R r =
1 0 1 0 0 1 0 1
a1 b1 a2 b2
0 0
q=2
K=4
2 = Regla de decisin: o
u u1 + u2 u2 uu = 1 T K T K
Si Fc < F(q,T K) no rechazamos la H0 para un nivel de signicacin y concluimos o que no existe cambio estructural. Si Fc > F(q,T K) rechazamos la H0 para un nivel de signicacin y concluimos o que existe cambio estructural. stico Alternativa 2: Con el estad (r ur u u)/q H0 u F(q, T K) u u/T K donde u u es la SCR del modelo no restringido (2.9) tal que u u = u1 u1 + u2 u2 ; ur ur es la SCR del modelo restringido siguiente Y1 Y2 = X1 X2 + u1 u2 (2.10)
Dado que hemos supuesto que E(uu ) = 2 IN1 +N2 el modelo restringido se estima por MCO y no podemos hacerlo equivalentemente a MCO ecuacin por ecuacin ya que su o o matriz de regresores no es diagonal por bloques.
2.6.2.
Ecuaciones no relacionadas con varianzas distintas

Y1 = X1 1 + u1 Y2 = X2 2 + u2 41 N1 obs. N2 obs.
Sean las ecuaciones:
SARRIKO-ON 4/08
2 2 Dado que 1 = 2 y E(u1 u2 ) = E(u2 u1 ) = 0 tenemos que
E(uu ) =
2 1 IN1 0
0 2 2 IN2
2 2 Suponiendo 1 , 2 conocidas, el modelo debe ser estimado por MCG que coincide con MCO ecuacin por ecuacin ya que X es diagonal por bloques, E(uu ) tambin lo es y hay homoceo o e dasticidad dentro de cada ecuacin. o
M CG = (X 1 X)1 X 1 Y = V ar(M CG ) = (X 1 X)1 =
(X1 X1 )1 X1 Y1 (X2 X2 )1 X2 Y2
1 2
M CO
2 0 1 (X1 X1 )1 2 0 2 (X2 X2 )1
En este caso la estimacin del modelo conjunto por MCG no mejora la eciencia con respecto a o estimar cada ecuacin por separado por MCO, por tanto estimaremos por separado que es ms o a 2 2 sencillo. Adems el resultado es independiente de que conozcamos o no 1 , 2 . a Contraste de cambio estructural o de Chow: H0 : a1 = a2 y b1 = b2 Ha : a1 = a2 y/o b1 = b2 Hay dos formas alternativas de realizar el contraste: Alternativa 1: Con el estad stico: (RM CG r) R(X 1 X)1 R donde
1
0 (RM CG r) 2 (q)
H0 : 1 = 2 q = 2 Ha : 1 = 2
R r =
1 0 1 0 0 1 0 1
a1 b1 a2 b2
0 0
q=2
K=4
con la regla de decisin habitual. o Alternativa 2: Si queremos utilizar el estad stico de diferencias en las sumas residuales de cuadrados debemos estimar el modelo restringido (2.10) por MCG, dado la estructura de E(uu ), y no podemos hacerlo equivalentemente a MCO ecuacin por ecuacin ya que su o o matriz de regresores no es diagonal por bloques.
2 2 Si 1 y 2 son desconocidas tendremos que estimarlas. El estimador de los parmetros en el a modelo conjunto ser el de MCGF tal que: a
M CGF = (X 1 X)1 X 1 Y
2 2 2 Estimar implica estimar 1 y 2 ; un estimador consistente de i
i = 1, 2 ser a:
1 = 2
u1 u1 N1
M u1 u1 = Y1 Y1 1 CO X1 Y1 42
SARRIKO-ON 4/08 u2 u2 M u2 u2 = Y2 Y2 2 CO X2 Y2 N2 Notar que en cada ecuacin por separado hay homocedasticidad y no autocorrelacin. En este o o caso el contraste de cambio estructural podr amos hacerlo alternativamente por el estad stico de diferencias en las sumas de cuadrados o con el estad stico: 2 = 2 (RM CGF r) R(X 1 X)1 R con la regla de decisin habitual. o
1
(RM CGF r) 2 (q)
d,H0
2.6.3.
Ecuaciones aparentemente no relacionadas
Si un conjunto de ecuaciones se relacionan unicamente por los trminos de perturbacin reciben e o el nombre de Ecuaciones Aparentemente no Relacionadas. Sea el sistema de ecuaciones Y1 = X1 1 + u1 Y2 = X2 2 + u2 N obs N obs
Un supuesto sencillo acerca de la estructura de la matriz de varianzas y covarianzas ser a:

2 E(u1 u1 ) = 1 IN cada ecuacin. o 2 E(u2 u2 ) = 2 IN , homocedasticidad y no autocorrelacin dentro de o
o a E(u1 u2 ) = E(u2 u1 ) = 12 IN , correlacin contempornea entre las perturbaciones de las ecuaciones.
E(uu ) =
11 I 12 I 12 I 22 I
2 2 En este caso necesariamente debemos estimar el modelo conjunto (2.9) por MCG si 1 , 2 , 12 son conocidas. Si son desconocidas el modelo conjunto debe estimarse por MCGF. Podemos encontrar estimadores consistentes de estos parmetros utilizando los residuos MCO de estimar a cada ecuacin por separado: o
12
u1 u1 M u1 u1 = Y1 Y1 1 CO X1 Y1 N u u2 M 22 = 2 u2 u2 = Y2 Y2 2 CO X2 Y2 N u u2 = 1 u1 = Y1 X1 1 u2 = Y2 X2 2 N 11 =
2.7.
Contrastes de restricciones lineales
Vamos a ver cmo realizar contrastes de restricciones lineales sobre el vector en el MRLG con o perturbaciones no esfricas. e Sean las hiptesis nula y alternativa para el contraste de q restricciones lineales: o H0 : R = r Ha : R = r 43
SARRIKO-ON 4/08 donde R es una matriz (qK) y r es un vector de dimensin q, siendo q el nmero de restricciones o u lineales a contrastar. Vamos a distinguir los siguientes casos: a) E(uu ) = , conocida. b) E(uu ) = 2 , y 2 conocidas. c) E(uu ) = 2 , conocida pero 2 desconocida. d) E(uu ) = , desconocida. Caso 1: E(uu ) = , conocida. Sea Y = X + u con E(uu ) = , conocida. En este caso estimamos por MCG M CG = (X 1 X)1 X 1 Y y si las perturbaciones tienen una distribucin Normal tenemos, o M CG N (, (X 1 X)1 ) de donde RM CG N (R, R(X 1 X)1 R ) (2.11)
con lo que si la hiptesis nula es cierta o

0 RM CG N (r, R(X 1 X)1 R )
y con lo que el estad stico de contraste y su distribucin bajo H0 son: o

H0 F = (RM CG r) [R(X 1 X)1 R ]1 (RM CG r) 2 q
donde q es el nmero de restricciones. Rechazamos la hiptesis nula si F > 2 para un nivel u o (q) de signicacin . o Si q = 1 el estad stico anterior se puede escribir como: t= RM CG r H0 N (0, 1) R(X 1 X)1 R
Caso 2: E(uu ) = 2 , y 2 conocidas. Sea Y = X + u con E(uu ) = 2 , y 2 conocidas. En este caso estimamos por MCG M CG = (X 1 X)1 X 1 Y y si las perturbaciones tienen una distribucin Normal tenemos, o N (, 2 (X 1 X)1 ) 44
SARRIKO-ON 4/08 con lo que el estad stico de contraste y su distribucin bajo H0 son: o
H0 (RM CG r) [ 2 R(X 1 X)1 R ]1 (RM CG r) 2 q
Rechazaremos la hiptesis nula si F > 2 para un nivel de signicacin . o o (q) Si q = 1 el estad stico anterior se puede escribir como: t= RM CG r H0 N (0, 1) R(X 1 X)1 R
Caso 3: E(uu ) = 2 , conocida y 2 desconocida. Sea Y = X + u con E(uu ) = 2 , conocida y 2 desconocida. En este caso estimamos por MCG M CG = (X 1 X)1 X 1 Y y si las perturbaciones tienen una distribucin Normal tenemos, o N (, 2 (X 1 X)1 ) con lo que el estad stico de contraste y su distribucin bajo H0 son: o F = (RM CG r) [R(X 1 X)1 R ]1 (RM CG r)/q H0 F(q,T K) 2 M CG
Rechazaremos la hiptesis nula si F > F(q, T K) para un nivel de signicacin . o o Si q = 1 el estad stico anterior se puede escribir como: t= M CG RM CG r H0 t(T K) 1 X)1 R R(X
por ejemplo si H0 : i = 0, es decir, contrastamos la signicatividad de una de las variables exgenas, podemos escribir el estad o stico anterior de la manera habitual: t= i,M CG Ho t(T K) i,M CG ) des(
Rechazaremos la hiptesis nula si t > t(T K) para un nivel de signicacin . o o 2 Caso 4: E(uu ) = , desconocida. Sea Y = X + u con E(uu ) = , desconocida. En este caso estimamos por MCGF M CGF = (X 1 X)1 X 1 Y El estimador de MCGF es no lineal, en general es sesgado y consistente si es consistente, adems es eciente asintticamente y con distribucin asinttica conocida. Por tanto podemos a o o o hacer inferencia asinttica con este estimador: o 45
SARRIKO-ON 4/08
d T (M CGF ) N (0, G1 ) d T (RM CGF R) N (0, RG1 R ) con lo que el estad stico de contraste y su distribucin bajo H0 son: o F = (RM CGF r) [R(X 1 X)1 R ]1 (RM CGF r) 2 q donde q es el nmero de restricciones. Rechazamos la hiptesis nula si F > 2 para un nivel u o (q) de signicacin . o Si q = 1 el estad stico anterior se puede escribir como: t= RM CGF r R(X 1 X)1 R por ejemplo si H0 : i = 0, es decir, contrastamos la signicatividad de una de las variables exgenas, podemos escribir el estad o stico anterior de la manera habitual: t= i,M CGF d,H0 N (0, 1) des(i,M CGF )
d,H0 d,H0
N (0, 1)
2.7.1.
Estad stico de diferencias en las sumas de cuadrados
Cuando un conjunto de hiptesis lineales H0 : R = r se acepta tras un contraste para un nivel o de signicatividad dado deber amos estimar sujeto a estas restricciones. El problema objetivo ahora ser a: M in uM CG 1 uM CG s.a. R = r de donde M CGr = M CG (X 1 X)1 R[R(X 1 X)1 R ]1 (RM CG r)
donde M CGr es el estimador sujeto a restricciones. Por tanto el estad stico F de contraste puede escribirse como: (SCRr SCR)/q H0 F(q,T K) SCR/T K o lo que es igual (M CGr 1 uM CGr uM CG 1 uM CG )/q H0 u F(q,T K) (M CG 1 uM CG )/T K u
46
Tema 3
Heterocedasticidad
3.1. Denicin y causas o
Hasta el momento uno de los supuestos bsicos del modelo de regresin lineal es que la variana o za de cada trmino de perturbacin ut condicionada a los valores de las variables explicativas, e o es constante e igual a 2 . Llambamos a este supuesto homocedasticidad y lo denotbamos: a a E(u2 ) = 2 t. En este tema vamos a relajar este supuesto y consideraremos el modelo de t regresin lineal bajo heterocedasticidad. o Llamamos heterocedasticidad al caso en que la matriz de varianzas y covarianzas de la perturbacin de un modelo economtrico sigue siendo diagonal, pero los elementos de sta diagonal o e e ya no son todos iguales. Es decir, la varianza del trmino de error var a travs del tiempo e a e si miramos a series temporales, o cambia de un individuo a otro si miramos datos de seccin o cruzada, (familias, pa ses, etc.). El caso ms sencillo de heterocedasticidad es aquel en que la matriz de varianzas y covarianzas a tiene la forma siguiente:
E(uu ) =
2 1 0 0 2 0 2 0 2 0 0 3 . . . . . . . . . 0 0 0
... ... ... .. .
0 0 0 . . .
2 . . . T
2 a donde la varianza de la perturbacin, V (ut ) = t , no es constante porque var a lo largo del o tiempo. Seguimos suponiendo que no existe autocorrelacin entre perturbaciones de distinto moo mento del tiempo, es decir, E(ut us ) = 0 t, s t = s por lo que slo consideramos la existencia o de heterocedasticidad.
Para entender la diferencia entre el concepto de homocedasticidad y el concepto de heterocedasticidad podemos considerar el modelo de regresin simple en los dos grcos siguientes. o a En la Figura 3.1 se puede observar que la varianza condicional de Yt a las Xt permanece igual sin importar los valores que tome la variable X. Recordar que la varianza condicional de Yt es la misma que la de ut , por tanto, en el grco estamos observando cmo la varianza de la a o perturbacin permanece constante independientemente del valor que tome el regresor. En la o Figura 3.2 se puede observar que la varianza de Yt aumenta a medida que Xt aumenta y por 47
SARRIKO-ON 4/08
Grco 3.1: Perturbaciones homocedsticas a a

) u
) u
Grco 3.2: Perturbaciones heterocedsticas a a

( f
+
2 X
tanto hay heterocedasticidad:

2 E(u2 ) = t t
Hay diversas razones por las cuales las varianzas de ut pueden no ser constantes: - Modelos que tengan en cuenta expectativas: una expectativa no es ms que una medida a de lo que un agente espera que ocurra, la formacin de esa medida conlleva un proceso o de aprendizaje. Es de esperar que los agentes aprendan de sus errores y segn avance el u 2 tiempo se confundan menos, en este caso i se reducir. a - Si estamos analizando la relacin entre consumo y renta podemos esperar que a medida o 2 que aumente la renta aumente i . Una familia con mayor renta tiene mayores posibilidades de consumo, no slo consumir ms variedad de productos, sino que aumentar el valor del o a a consumo real. Si la renta es sucientemente grande, podr diferir consumo entre periodos a y podr ahorrar. a 48
SARRIKO-ON 4/08 - Por razonamientos parecidos a los anteriores las empresas con mayores benecios podrn a presentar mayor variabilidad en sus pol ticas de dividendos. Si las ganancias son muy bajas simplemente no podrn repartir dividendos. a - Otra causa de heterocedasticidad puede encontrarse en la mala especicacin de un moo delo. Si en un modelo se ha omitido una variable relevante su exclusin puede llevar a o pensar que existe heterocedasticidad en las perturbaciones del modelo. Por ejemplo, si consideramos la funcin de demanda de un producto y excluimos los precios de los bienes o complementarios a l o de sus competidores, los estimadores MCO sern sesgados y el e a estudio de los residuos minimocuadrticos del modelo puede dar la impresin de que la a o varianza de la perturbacin no es constante. Si incluimos la variable o variables omitidas o la impresin puede desaparecer. En este caso la solucin al problema pasa por especicar o o correctamente el modelo. El problema de heterocedasticidad es ms frecuente en datos de seccin cruzada. En datos de a o seccin cruzada disponemos de datos sobre diferentes unidades econmicas en el mismo momeno o to del tiempo. Las unidades generalmente son consumidores individuales, familias, empresas, industrias, pa ses, estados, provincias, etc., con diverso tamao dentro de la misma poblacin. n o En estos casos es ms adecuado aplicar el sub a ndice i que es el habitual en datos de seccin o cruzada. En este caso denotamos la existencia de heterocedasticidad como:
2 E(u2 ) = i i
i = 1, 2, . . . , N
y la matriz de varianzas y covarianzas de la perturbacin ser o a:

E(uu ) =
2 1 0 0 2 0 2 0 2 0 0 3 . . . . . . . . . 0 0 0
... ... ... .. .
0 0 0 . . .
2 . . . N
En presencia de heterocedasticidad el nmero de parmetros a estimar en el modelo crece con u a 2 2 el nmero de observaciones ya que con cada observacin aparece un nuevo parmetro i (t ). u o a Adems hay que recordar que se deben estimar los K-betas desconocidos del modelo. Esta a coleccin de parmetros desconocidos no es estimable con una muestra de tamao N (T) si lo o a n que queremos son estimaciones ables. Es preciso, por tanto, establecer algn supuesto acerca u 2 del modo en que i var a travs de las distintas familias, individuos o pa que integran la a e ses 2 a lo largo del tiempo), de forma que consigamos reducir el n mero de parmetros muestra (i u a desconocidos. Esta es una restriccin importante porque tanto la deteccin de la heterocedasticidad como la o o estimacin del modelo en presencia de sta se ven condicionados por el supuesto espec o e co que se haya establecido acerca del modo en que la varianza de la perturbacin var entre observaciones o a muestrales.
Cuando un modelo presenta una situacin de heterocedasticidad, hay varias cuestiones de imo portancia: a) Cmo puede detectarse la presencia de heterocedasticidad? o 49
SARRIKO-ON 4/08 b) Cules son las consecuencias de la heterocedasticidad sobre el estimador de MCO y su a matriz de varianzas y covarianzas? Sabemos que en presencia de heterocedasticidad el estimador MCO es lineal, insesgado y consistente pero ineciente. Su matriz de varianzas y covarianzas se dene: V (M CO ) = 2 (X X)1 (X X)(X X)1 c) Cmo debe estimarse un modelo que presenta heterocedasticidad? Si nuestro objetivo es o obtener estimadores lineales, insesgados, ecientes y consistentes estimaremos por MCG: M CG = (X 1 X)1 X 1 Y Este estimador puede obtenerse por dos v alternativas: as i) Aplicando directamente el estimador MCG, denido en la expresin anterior, al moo delo. ii) Transformando el modelo hasta obtener perturbaciones esfricas y aplicando MCO e al modelo transformado. d) Cul es la forma correcta de hacer contraste de hiptesis lineales en un modelo con a o heterocedasticidad? o e o e) Cmo se elaboran las predicciones del modelo economtrico en tal situacin? A todas estas preguntas intentaremos contestar en los puntos siguientes.
3.2.
3.2.1.
Contrastes de heterocedasticidad
Deteccin o
El hecho de que las perturbaciones de un modelo sean heterocedsticas no es una razn para a o rechazarlo. Lo importante es tenerlo en cuenta. Sabemos que en presencia de heterocedasticidad el estimador MCO es ineciente, mientras que si conocemos o lo que es lo mismo, la forma funcional de la heterocedasticidad, el estimador de MCG es ELIO. El mensaje parece claro, en presencia de heterocedasticidad con conocida debemos estimar el modelo por MCG. Sin embargo, slo estaremos dispuestos a estimar por MCG cuando verdaderamente exista heo terocedasticidad. As que el primer paso para nosotros ser detectar la posible existencia de a heterocedasticidad. La determinacin de la existencia de heterocedasticidad slo podremos conseguirla aplicando o o un test de heterocedasticidad, pero en ocasiones para aplicar este test necesitamos conocer la forma funcional de la misma. Salvo en casos puntuales en los que la heterocedasticidad venga provocada por una transformacin de los datos realizada por el investigador, en el resto de los o casos el investigador generalmente, no conocer su existencia a priori. Si maneja datos de seca cin cruzada estar sobre aviso ya que, como ya hemos dicho anteriormente, la existencia de o a heterocedasticidad en datos de seccin cruzada es ms una norma que una excepcin. Llegados o a o a este punto podemos pensar qu instrumento me va a proporcionar informacin sobre mi proe o blema? muy fcil si pensamos en cul es el problema. Nuestro problema es que la varianza de la a a perturbacin no es constante, la varianza poblacional es desconocida, a su vez la perturbacin o o no es observable, qu conocemos prximo a ella que nos sea de utilidad? el residuo, cul? e o a el de m nimos cuadrados ordinarios ya que no conocemos otro. Podemos utilizar el residuo 50
SARRIKO-ON 4/08 como aproximacin a la perturbacin? s es un estimador consistente aunque ineciente de la o o , perturbacin. Por la misma razn usaremos el residuo al cuadrado como aproximacin al como o o portamiento de la varianza de la perturbacin. o Por ejemplo si en el modelo: Yi = 1 + 2 Xi + 3 Zi + ui i = 1, 2, . . . , N (3.1)
donde E(ui ) = 0 i y E(ui uj ) = 0 i, j i = j sospechamos que ui es heterocedstica debido a la variable Xi , por ejemplo, su varianza es a creciente con Xi . La forma correcta de proceder para detectar la existencia de heterocedasticidad en las perturbaciones del modelo ser estimar ste por MCO y estudiar el grco de los residuos a e a MCO, (M CO,i ), y Xi . Si el grco es como el de la Figura 3.3 u a Grco 3.3: Perturbaciones heterocedsticas a a
2 i
2 i
pensaremos que los residuos uM CO,i se incrementan con Xi y que el incremento es proporcional. Dado que el residuo es una estimacin de la perturbacin propondremos, por ejemplo: o o V (ui ) = E(u2 ) = 2 Xi i

u
51
SARRIKO-ON 4/08 Si el grco de los residuos uM CO,i y Xi fuera como en la Figura 3.4 supondr a amos que el aumento en la varianza de ui es lineal a Xi y propondr amos: E(u2 ) = a + bXi i En el caso de que no conozcamos cul de las variables exgenas genera heterocedasticidad tena o dremos que estudiar los grcos de los residuos de MCO, contraponindolos a cada una de las a e variables exgenas restantes. As si la grca entre uM CO,i y Xi resultara como la de la Figura o , a 3.5, en la que no se aprecia ningn patrn de comportamiento y parece que hay una distribucin u o o aleatoria de los pares (Xi , u2 ), proceder i amos a analizar los residuos frente a Zi .
Grco 3.5: Perturbaciones homocedsticas a a

2 i u
En la Figura 3.6 podemos observar otros patrones de comportamiento en los residuos que pueden indicar la existencia de heterocedasticidad en las perturbaciones. Sin embargo el estudio grco de los residuos no es determinativo. Para determinar si existe o a no heterocedasticidad tendremos que realizar un contraste de existencia de heterocedasticidad con un estad stico adecuado. El anlisis grco no es una prdida de tiempo ya que la relacin a a e o entre Xki y uM CO,i nos indicar una posible forma funcional (de heterocedasticidad) para la a varianza de la perturbacin y puede indicarnos cul es el test de contraste ms adecuado. o a a
3.2.2.
Contrastes de heterocedasticidad
A continuacin veremos algunos de los test de contraste para heterocedasticidad ms importano a tes. Todos ellos contrastan la existencia de heterocedasticidad suponiendo: H0 : ausencia de heterocedasticidad. Ha : existencia de heterocedasticidad. Algunos de ellos necesitan conocer la forma funcional de heterocedasticidad y otros no. Algunos de ellos sugieren la forma funcional de la heterocedasticidad cuando se rechaza la H0 , por lo que la transformacin de variables necesaria para estimar por MCG es inmediata, otros en cambio o no. Test de Goldfeld y Quandt El test de Goldfeld y Quandt es un contraste paramtrico que depende de la forma de heteroe cedasticidad supuesta. El contraste fue propuesto por Goldfeld y Quandt en 1965 y parte del 52
i X
SARRIKO-ON 4/08

2 i i u
2 i u
2 o supuesto de que la magnitud de i depende montonamente de los valores de una variable Zi . Por ejemplo, en el anlisis del gasto familiar podemos suponer que la varianza del gasto depende a 2 del nivel de renta de cada familia y proponer i = 2 g(Ri ), donde g() es una funcin creciente o 2 un factor de escala. La variable Z generalmente suele ser una de las con la renta familiar y i variables explicativas del modelo, aunque no es preciso que lo sea para llevar a cabo el contraste. En todo caso, necesitamos disponer de informacin muestral acerca de dicha variable. Para o contrastar la hiptesis nula de ausencia de heterocedasticidad: o 2 2 2 H0 : 1 = 2 = . . . = N
contra la alternativa de existencia de heterocedasticidad:

2 Ha : i = 2 g(Zi , )
donde g() es una funcin montona creciente con Zi y un parmetro desconocido. Se procede o o a de la siguiente manera: a) Ordenar las observaciones de la muestra correspondindose con los valores de Zi de menor e a mayor. b) Dividir la muestra en dos bloques de tamao muestral N1 y N2 respectivamente, dejando n fuera p observaciones centrales para hacer ms independientes los dos grupos. El nmero a u de observaciones de cada grupo ha de ser similar y mayor que el nmero de parmetros a u a p estimar: N 2 = N1 = N2 c) Estimar, por MCO, el modelo de regresin separadamente para cada grupo de observacioo nes y calcular la Suma de Cuadrados Residual correspondiente. d) Construir el siguiente estad stico de contraste, que bajo la hiptesis nula de ausencia de o heterocedasticidad y suponiendo que la perturbacin sigue una distribucin normal y no o o est serialmente correlacionada, sigue una distribucin F-Snedecor. a o GQ = 2 2 u2 u2 N1 K H0 2 = u u N K F(N2 K,N1 K) 1 1 2 1
donde: u2 u2 es la SCR de la regresin de Y sobre X en el segundo grupo de observaciones. o 53
i X
SARRIKO-ON 4/08 u1 u1 es la SCR de la regresin de Y sobre X en el primer grupo de observaciones. o Y1 = X1 + u1 u1 u1 Y2 = X2 + u2 u2 u2 u1 u1 2 2 N1 K 1 u2 u2 2 2 N2 K 2
La idea del contraste es la siguiente: si existe homocedasticidad las varianzas han de ser iguales, u1 u1 u2 u2 y GQ 1. Pero si existe heterocedasticidad del tipo propuesto, con la ordenacin de la muestra de menor a mayor, la varianza del trmino de error ser mayor o e a al nal de la muestra. Como el cuadrado de los residuos est asociado a la varianza de ui , a a a entonces u2 u2 deber ser sensiblemente mayor que u1 u1 . Cuanto ms diverjan las sumas de cuadrados, mayor ser el valor del estad a stico y mayor ser la evidencia contra la H0 . a Rechazaremos H0 , a un nivel de signicacin si: o GQ > F(N1 K,N2 K) Observaciones: Si se sospecha que la varianza del trmino de error depende inversamente de los valores que e toma una variable Zi , entonces se ordena la muestra de acuerdo a los valores decrecientes de dicha variable y se procede del modo descrito anteriormente. Cmo elegir p? o Anteriormente se ha propuesto dividir la muestra en dos partes. Elegir el valor de p es relevante ya que cuanto mayor sea p ms grados de libertad se pierden y por tanto, perdemos a potencia del contraste. Si p es demasiado pequeo no habr independencia entre grupos n a y se prima la homocedasticidad frente a la posibilidad de heterocedasticidad. Harvey y Phillips (1974) sugieren jar p a un tercio de la muestra. En principio, el contraste se puede utilizar para detectar heterocedasticidad de forma general, aunque est pensado para alternativas espec a cas donde se supone un crecimiento de las varianzas en funcin de una determinada variable. Si en realidad existe otra forma o de heterocedasticidad, el estad stico puede no detectarla. e o Por otro lado si no se rechaza la H0 tambin puede deberse a una mala especicacin 2 de i , que puede depender de una variable diferente a la considerada. Por ello puede ser necesario repetir el contraste para otras variables de las que podamos sospechar a priori. Contraste de White El contraste de heterocedasticidad propuesto por White en 1980 es un contraste paramtrico, e de carcter general, que no precisa especicar la forma que puede adoptar la heterocedasticidad. a En este sentido puede calicarse de robusto. Se procede de la forma siguiente: a) Estimamos por MCO el modelo original y calculamos los residuos de MCO, uM CO,i . b) Estimamos la regresin auxiliar: el cuadrado de los residuos m o nimo-cuadrticos de la a regresin anterior, sobre una constante, los regresores del modelo original, sus cuadrados o y productos cruzados de segundo orden, evitando los redundantes: u2 CO,i M
K K K
= 0 +
j=1
j Xj +
j=1 =j
j Xji X i + vt 54
i = 1, 2, . . . , N
(3.2)
SARRIKO-ON 4/08 Contrastar la hiptesis nula de homocedasticidad es equivalente a contrastar que todos los o coecientes de esta regresin, exceptuando el trmino independiente son cero. Es decir: o e H0 : j = j = 0 j, c) El estad stico de contraste es = N R2 donde R2 es el coeciente de determinacin de la o regresin auxiliar (3.2). Se puede demostrar que bajo la H0 : o = N R2 2 (p) donde p es el nmero de regresores, sin incluir el intercepto, en la regresin auxiliar (3.2). u o Rechazamos la H0 si el valor muestral del estad stico excede del valor cr tico de las tablas elegido para un nivel de signicatividad dado. Observaciones: a) Este contraste es muy exible ya que no especica la forma funcional de heterocedasticidad, pero por otro lado, si se rechaza la hiptesis nula de homocedasticidad no indica cul puede o a ser la direccin a seguir. o o b) El contraste de White puede recoger otro tipo de problemas de mala especicacin de la parte sistemtica, omisin de variables relevantes, mala forma funcional etc. Esto es a o positivo si se identica cul es el problema, en caso contrario, la solucin que se tome a o puede estar equivocada. Contraste de Breusch y Pagan Breusch y Pagan en 1979 derivan un contraste de heterocedasticidad donde la hiptesis alternao tiva es bastante general:
2 H0 : i = 2 i 2 Ha : i = 2 g(0 + 1 Z1i + 2 Z2i + . . . + p Zpi ) = 2 g(Zj ) j = 1, . . . , p H0 ,d
donde las variables Zpi pueden ser variables explicativas del modelo y g() no se especica. Si todos los coecientes de la combinacin lineal Zj fuesen cero, excepto 0 , la varianza ser o a 2 = 2 g( ). La hiptesis nula de homocedasticidad equivale a la siguiente homocedstica, i a o 0 hiptesis: o H0 : 1 = 2 = . . . = p = 0 donde se contrastan p restricciones lineales. El proceso de contraste es el siguiente: a) Estimar por MCO el modelo original obteniendo los residuos correspondientes, uM CO,i . b) Obtener la siguiente serie de residuos normalizados: e2 = i u2 CO,i M u u/N i = 1, 2, . . . , N
donde: u u = M V es un estimador consistente, aunque sesgado, de la varianza de la 2 N perturbacin. o
55
SARRIKO-ON 4/08 c) Calcular la Suma de Cuadrados Explicada de la siguiente regresin realizada por MCO: o e2 = 0 + 1 Z1i + 2 Z2i + . . . + p Zpi + i i d) Se utiliza como estad stico de contraste el siguiente: SCE H0 ,d 2 p 2 siendo p los grados de libertad (el nmero de variables Zj en la regresin auxiliar). Reu o chazamos a un nivel de signicatividad , si el valor muestral del estad stico excede del cuantil 2 . (p) Observaciones: Interpretacin del contraste: Si los residuos fuesen homocedsticos, las variables {Zj }p o a j=1 no deber tener poder explicativo acerca de los residuos transformados y por tanto la an SCE deber ser pequea. Si SCE/2 es grande rechazaremos la H0 y existir heterocea n a dasticidad. a o En el caso de que el contraste rechace la H0 se podr dividir cada observacin por Zj como una aproximacin a la desviacin t o o pica de cada per odo. La estimacin por MCO o de este modelo transformado es equivalente a hacer MCG en el original. Candidatos a formar parte del vector Z: las variables explicativas o sus cuadrados, variables cticias (grupos, estacionalidad, etc). i = 1, 2, . . . , N
3.3.
MCG: M nimos Cuadrados Ponderados
En este tema nos estamos ocupando de relajar el supuesto clsico de homocedasticidad de la a varianza de las perturbaciones. Como ya hemos visto si E(uu ) = 2 el estimador MCO ser lia neal, insesgado y consistente pero no ser eciente. El problema radica en que nuestra matriz a de varianzas y covarianzas de la perturbacin ya no es de la forma E(uu ) = 2 I. Esta hipteo o sis bsica (en realidad recoge dos hiptesis bsicas, homocedasticidad y no autocorrelacin en a o a o las perturbaciones) es necesaria para obtener la siguiente matriz de varianzas y covarianzas del estimador MCO: V (M CO ) = 2 (X X)1 , que bajo las hiptesis bsicas proporciona varianzas o a M CO,i )) m (Var( nimas. Incumplida esta hiptesis bsica no podremos obtener las propiedades o a del estimador para las cuales esta hiptesis es necesaria. En concreto no obtendremos la misma o matriz de varianzas y covarianzas para el estimador MCO y por lo tanto la obtenida no garantiza que las varianzas sean m nimas. El resto de propiedades se mantienen como ya vimos en el tema anterior. En el criterio de estimacin de M o nimos Cuadrados Ordinarios la funcin objetivo es: o
N
min ( u) = min u
i=1
u2 i
esta funcin objetivo trata a todas las observaciones por igual ya que supone que la varianza o de la perturbacin es constante. Minimiza la distancia de la Funcin de Regresin Poblacional o o o a los puntos de la muestra. 56
SARRIKO-ON 4/08 En presencia de heterocedasticidad, las varianzas de las perturbaciones sern distintas. Cuanto a mayor sea la varianza de la perturbacin, mayor ser el peso de la misma dentro de la muestra. o a Si en estas circunstancias aplicamos el criterio MCO, que concede a todas las observaciones el mismo peso, el estimador que alcancemos no ser apropiado. Lo indicado ser ponderar cada a a observacin inversamente a su peso. Esto es lo que hace el criterio de MCG, cuya funcin objetivo o o es: N 1 2 min ( 1 u) = min u u 2 i i=1 i siendo E(uu ) = 2 . Dada la funcin objetivo lo que hace el criterio MCG es reconocer que o es ms importante que la Funcin de Regresin Muestral est ms cerca de los puntos con a o o e a menor varianza, aunque sea a costa de quedar ms alejada de otras observaciones, las de mayor a varianza. Para el caso particular de heterocedasticidad, la matriz es diagonal y por tanto la funcin o objetivo es una suma ponderada de residuos al cuadrado, donde se pondera cada observacin o inversamente a su varianza. Por ello en la literatura economtrica el estimador de MCG bajo e heterocedasticidad aparece nombrado como estimador de M nimos Cuadrados Ponderados. Por otro lado, vistas las dos funciones objetivo podemos decir que el estimador MCO es un caso 2 particular del estimador de MCG donde = I (i = 2 ). A continuacin veremos algunas situaciones donde la varianza de la perturbacin es heteroo o cedstica. En esta situacin el estimador lineal, insesgado y ptimo es el estimador de M a o o nimos Cuadrados Generalizados que toma el nombre especial de M nimos Cuadrados Ponderados, dado que consiste en ponderar la suma residual de cuadrados a minimizar.
3.3.1.
Heterocedasticidad causada por una variable exgena del modelo o
Sea el modelo: Yi = 1 + 2 X2i + 3 X3i + . . . + k XKi + ui donde: i = 1, 2, . . . , N (3.3)
E(ui ) = 0 i, E(u2 ) = 2 X2i i=1, 2, . . . , N, i E(ui uj ) = 0, i, j i = j. En este caso la varianza de la perturbacin depende de la variable X2i , por tanto es heteroo cedstica. La estructura de la matriz de varianzas y covarianzas de la perturbacin es la siguiente: a o
2 E(uu ) = = 2
X21 0 0 0 X22 0 0 0 X23 . . . . . . . . . 0 0 0
... ... ... .. .
0 0 0 . . .
. . . X2N
por lo que es conocida. El hecho de que la varianza de la perturbacin del modelo a estimar o sea heterocedstica, supone que el estimador de MCO en estas circunstancias aunque es lineal, a insesgado y consistente es ineciente. El estimador lineal, insesgado y ptimo de los parmetros o a del modelo es el estimador de M nimos Cuadrados Generalizados, que se dene: M CG = (X 1 X)1 X 1 Y 57
SARRIKO-ON 4/08 Para aplicar este estimador disponemos de dos alternativas: Alternativa 1: Aplicar el estimador de MCG directamente a los datos donde:
1 =
1 X21
0
1 X22
0 0 . . .
0 0
1 X23
0 . . .
. . . 0
... ... ... .. . ...
0 0 0 . . .
1 X2N
X=
1 1 . . .
X21 X22 . . .
X31 X32 . . . X3N
... ...
1 X2N
... . . . XkN
Xk1 Xk2 . . .
... ... .. .
XK1 XK2 . . .
Y =
Y1 Y2 . . . YN
. . . XKN
Formamos ahora las matrices (X 1 X)

1 (X X) =
N 1 1 X2i
(X 1 Y ):
N 1 N 1 N 1
N . . .
N N 1 X2i
N 1
X3i
2 X3i X2i
X3i X2i
... ... ... .. . ...
N X3i 1 X2i N XKi 1 X2i
. . .
X3i
. . .
N XKi 1 X2i N 1 XKi N X3i XKi 1 X2i
. . .
N 1
XKi
N X3i XKi 1 X2i
2 N XKi 1 X2i
1 (X Y ) =
N Yi 1 X2i N 1 Yi N X3i Yi 1 X2i
. . .
N XKi Yi 1 X2i
de donde:
M CG =
N 1 1 X2i
N . . .
N N 1 X2i
N 1
. . .
X3i
. . .
N 1 N 1 N 1
X3i
2 X3i X2i
X3i X2i
... ... ... .. . ...
. . .
N Yi 1 X2i N 1 Yi N X3i Yi 1 X2i
. . .
N 1
XKi
N X3i XKi 1 X2i
2 N XKi 1 X2i
N XKi Yi 1 X2i
La matriz de varianzas y covarianzas del estimador de MCG ser a:

M CG ) = 2 (X 1 X)1 = 2 V (
N 1 1 X2i
N . . .
N N 1 X2i
N 1
. . .
X3i
. . .
N 1 N 1 N 1
X3i
2 X3i X2i
X3i X2i
... ... ... .. . ...
. . .
N 1
XKi
N X3i XKi 1 X2i
2 N XKi 1 X2i
58
SARRIKO-ON 4/08
Un estimador insesgado de dicha matriz de varianzas y covarianzas es: V ar(M CG ) = M CG (X 1 X)1 2 donde: M CG = 2 = siendo Y 1 Y = uM CG 1 uM CG (Y X M CG ) 1 (Y X M CG ) = N K N K Y 1 Y M CG X 1 Y N K
2 N Yi 1 X2i .
Alternativa 2: Estimar por MCO el modelo transformado: P 1 Y = P 1 X + P 1 u Y =X +u

donde P es la matriz de transformacin tal que P P = : o 1 X21 0 0 ... 0 X21 0 0 X22 0 ... 0 X23 . . . 0 0 P 1 = 0 P = 0 . . . . .. . . . . . . . . . . . . X2N 0 0 0 ... 0
0
1 X22
0 0
1 X22
0 . . . 0
. . . 0
... ... ... .. . ...
0 0 0 . . .
1 X2N
Buscamos ahora las matrices transformadas P 1 X y XK1 X31 1 X21 X . . . X X21 21 21 XK2 X32 1 X22 X . . . X X22 22 22 X = P 1 X = . . . . .. . . . . . . . . . X3N XKN 1 . . . X X2N X X
2N 2N 2N
P 1 Y :
Y = P 1 Y =
Y1 X21 Y2 X22
. . .
YN X2N
Podemos escribir el modelo transformado como: Y XKi 1 X3i ui i = 1 + 2 X2i + 3 + . . . + k + X2i X2i X2i X2i X2i
i = 1, 2, . . . , N (3.4)
Comprobamos que la nueva perturbacin, la perturbacin en el modelo transformado, es o o homocedstica, no autocorrelada y de media cero: a u i X2i ui V ar X2i E E(ui ) = 0 i X2i ui ui = E E X2i X2i = = Cov u i , X2i uj X2j
=E
u i X2i
E(u2 ) 2 X2i i = = 2 i X2i X2i ui uj E(ui uj ) = E = = 0 i, j X2i X2j X2i X2j 59
i=j
SARRIKO-ON 4/08 A la vista de las propiedades de la perturbacin del modelo transformado el estimador de MCO o es lineal, insesgado y eciente. El estimador lo denotamos: M CG = (X X )1 (X Y ) = (X 1 X)1 X 1 Y donde X = P 1 X y Y = P 1 Y . En el modelo transformado debemos notar: a) No existe trmino independiente ya que el trmino e e cambia con cada observacin i y no una constante. o b) La correlacin entre la nueva variable endgena, o o original y tiene carcter espreo. a u
Yi , X2i 1 X2i
es una variable cuyo valor X2i es mayor que la
y el regresor
3.3.2.
Omisin de una variable relevante o
Veamos qu sucede cuando se omite una variable relevante en el modelo. Si el modelo realmente e se especica como: Yi = 1 + 2 X2i + 3 X3i + ui ui = Yi 1 2 X2i 3 X3i ui = Yi 1 2 X2i 3 X3i i = 1, 2, . . . , N
Pero estimamos: Yi = 1 + 2 X2i + vi i = 1, 2, . . . , N
vi = Yi 1 2 X2i = ui + 3 X3i vi = Yi 1 2 X2i = 1 + 2 X2i + 3 X3i + ui 1 2 X2i = ui (1 1 ) (2 2 )X2i + 3 X3i
En este contexto de omisin los estimadores MCO son sesgados en general: o 1 sesgado salvo que Cov(X2i , X3i ) = 0 y X 3 = 0, adems (1 1 ) = 0. a 2 ser sesgado salvo que Cov(X2i , X3i ) = 0, adems (1 1 ) = 0 a a En consecuencia, tras un anlisis de los residuos vi tanto grco como mediante tests, es muy a a probable que el investigador llegue a la conclusin de que o V (vi ) = a + bX3i o incluso, dependiendo de los sesgos, que V (vi ) = a + bX2i + cX3i . En este caso el investigador no debe corregir la heterocedasticidad directamente, sino que debe en primer lugar especicar correctamente el modelo y slo corregir por heterocedasticidad si el o modelo est correctamente especicado y su varianza es heterocedstica. a a 60
SARRIKO-ON 4/08
3.3.3.
Datos agregados
Sea el modelo Yj = + Xj + uj j = 1, 2, . . . , N (3.5)
donde uj N ID(0, 2 ), es decir, la perturbacin del modelo tiene media cero, es homocedstica o a y no autocorrelada. Supongamos que el nmero de observaciones N es tal que su manejabilidad aconseja agrupar u las observaciones en m-grupos de ni observaciones cada uno. As utilizaremos datos agregados. , Como observacin del grupo i-simo tomamos la media aritmtica dentro del grupo. o e e El modelo a estimar ser a: Y i = + X i + ui donde: Yi =
ni ji Yj
i = 1, 2, . . . , m
(3.6)
ni
Xi =
ni ji Xj
ni
ui =
ni ji uj
ni
En este caso nos interesan las propiedades de la perturbacin en el modelo anterior: o ui = que son las siguientes:
ni ji uj ni ji E(uj ) ni ji uj
ni
i = 1, 2, . . . , m
j = 1, 2, . . . , ni
E (ui ) = E
ni
=
2
ni
2
=0
i = 1, 2, . . . , m
ni ji uj 2
V ar(ui ) = E (ui E(ui )) = E(ui ) = E =

ni 2 ji E(uj ) (ni )2
ni
Cov(ui , u ) = E(ui u ) = E
ni 2 2 i = 1, 2, . . . , m = (ni )2 ni nj n j u ji ui =0 i, ni n
i=
La varianza de la nueva perturbacin ui es heterocedstica porque depende de ni , el nmero o a u de observaciones dentro de cada grupo. La matriz de varianzas y covarianzas tiene la forma siguiente:
1 n1 0 E(uu ) = 2 . . .
0
1 n2
. . . 0
0 ... 0 ... . .. . . . 0 ...
0 0 . . .
1 nm
= 2
donde es conocida siempre y cuando el nmero de observaciones de cada grupo sea conocido. u El hecho de que la varianza de la perturbacin del modelo a estimar sea heterocedstica, supone o a que el estimador de MCO en estas circunstancias, aunque sea lineal, insesgado y consistente, es ineciente. El estimador lineal, insesgado y ptimo de los parmetros del modelo es el estimador o a de MCG. Para aplicar este estimador tenemos dos posibilidades: 61
SARRIKO-ON 4/08 Alternativa 1: Aplicar el estimador de MCG directamente a los datos. El estimador de MCG se dene: M CG = (X 1 X)1 X 1 Y donde: n1 0 0 . . . 0 0 n2 0 . . . 0 1 = . . . .. . . . . . . . . . . 0 0 0 . . . nm y las matrices X e Y del modelo a estimar son:

X=
1 1 . . .
X1 X2 . . .
Y =
Y1 Y2 . . . Ym
1 Xm
Formamos ahora las matrices (X 1 X) y (X 1 Y ):

X=
1 1 ... 1 X1 X2 . . . Xm
n1 0 0 . . . 0 0 n2 0 . . . 0 . . . .. . . . . . . . . . . 0 0 0 . . . nm
m 1 ni X i 2 m 1 ni X i
1 1 . . .
X1 X2 . . .
1 Xm
m 1 ni m 1 ni X i
X 1 Y =
1 1 ... 1 X1 X2 . . . Xm
n1 0 0 . . . 0 0 n2 0 . . . 0 . . . .. . . . . . . . . . . 0 0 0 . . . nm
Y1 Y2 . . . Ym
m 1 ni Y i m 1 ni X i Y i
de donde: M CG =
m 1 ni m 1 ni X i m 1 ni X i 2 m 1 ni X i 1 m 1 ni Y i m 1 ni X i Y i
La matriz de varianzas y covarianzas del estimador de MCG ser a: V ar(M CG ) = 2 (X 1 X)1 = 2

m 1 ni m 1 ni X i m 1 ni X i 2 m 1 ni X i 1
Un estimador insesgado de dicha matriz de varianzas y covarianzas ser a: V ar(M CG ) = M CG (X 1 X)1 2 62
SARRIKO-ON 4/08 donde: uM CG 1 uM CG (Y X M CG ) 1 (Y X M CG ) = N K N K 1 Y 1 Y Y M CG X N K
M CG = 2 = siendo Y 1 Y =
2 m 1 ni Y i .
Alternativa 2: Aplicar MCO al modelo transformado: P 1 Y = P 1 X + P 1 u Y =X +u
donde P es la matriz de transformacin tal que P P = y: o

P =
1 n1
0
1 n2
0 . . . 0
. . . 0
0 0 . . . 0
... ... .. . ...
0 0 . . .
1 nm
n1 0 0 ... 0 n2 0 . . . 0 0 . . . .. . . . . . . . . . . nm 0 0 0 ...
Buscamos ahora las matrices transformadas P 1 X y P 1 Y :

X=
X =P
Y = P 1 Y
n1 0 0 n2 . . . . . . 0 0 n1 0 = . . . 0
0 ... 0 0 ... 0 . .. . . . . . . nm 0 ...
0 0 ... 0 n2 0 . . . 0 . . .. . . . . . . . . 0 0 ... nm
n1 n X 1 1 n2 n2 X 2 = . . . . . . nm nm X m 1 Xm Y1 n Y 1 1 n2 Y 2 Y 2 . = . . . . . Ym nm Y m 1 1 . . . X1 X2 . . .
Podemos escribir el modelo transformado como: ni Y i = ni + ni X i + ni u i i = 1, 2, . . . , m. (3.7)
Este modelo puede ser estimado por MCO y los estimadores sern lineales, insesgados y a ecientes si y slo si la nueva perturbacin es esfrica, es decir, tiene media cero, varianza o o e constante y covarianzas nulas. Demostracin: o E( ni ui ) = ni E(ui ) = 0 i 2 = 2 V ( ni ui ) = E( ni ui E( ni ui ))2 = E( ni ui )2 = ni E(u2 ) = ni i ni Cov( ni ui , n u ) = E( ni ui n u ) = ni n E(ui u ) = 0 i, i=
Por tanto en el modelo transformado la perturbacin tiene media cero, es homocedstica o a y no autocorrelada, el estimador de MCO en el modelo transformado es ELIO y por tanto el estimador MCG en el modelo original tambin es ELIO. e 63
SARRIKO-ON 4/08 Un caso particular de este ejemplo ser el caso en que todos los grupos tuvieran igual a nmero de observaciones, ni = n i = 1, 2, . . . , m. En este caso la varianza de la perturu bacin del modelo ser : o a 2 V (ui ) = n homodedstica con matriz de varianzas y covarianzas a
1 n 0 E(uu ) = 2 . . .
0 . . . 0
1 n
0 ... 0 ... . .. . . . 0 ...
0 0 . . .
1 n
2 = Im n
El modelo original ser estimable por MCO con propiedades adecuadas. a
3.3.4.
Coecientes cambiantes
Variacin determinista o Supongamos el modelo: Yi = 1 + 2 X2i + 3i X3i + ui i = 1, 2, . . . , N (3.8)
donde 3i = + Zi siendo y dos constantes desconocidas y Zi una variable determinista (grupo, estacionalidad, tendencia, etc). En este caso el modelo a estimar ser a: Yi = 1 + 2 X2i + ( + Zi )X3i + ui Pero si debido a la mala especicacin de los coecientes estimamos: o Yi = 1 + 2 X2i + X3i + vi donde vi = Yi 1 2 X2i X3i = ui + Zi X3i Podr amos llegar a la conclusin, a semejanza del caso de omisin, de que las perturbaciones o o presentan heterocedasticidad. La solucin en este caso no es la estimacin por MCG sino o o especicar correctamente el modelo. Variacin aleatoria o Otro caso de existencia de heterocedasticidad ser aquel en que alguno de los coecientes a del modelo es una variable aleatoria. Supongamos el modelo: Yi = 1 + 2 X2i + 3i X3i + ui i = 1, 2, . . . , N (3.9)
donde 3i = + i siendo una constante desconocida y este caso el modelo a estimar ser a: Yi = 1 + 2 X2i + ( + i )X3i + ui Yi = 1 + 2 X2i + X3i + vi donde vi = ui + i X3i . Si suponemos:
2 ui iid(0, u ) i
un trmino de error. En e (3.10) (3.11)
iid(0, 2 ) 64
Cov(ui , i ) = 0
SARRIKO-ON 4/08 podremos obtener la siguiente distribucin para vi : o E(vi ) = E(ui + i X3i ) = E(ui ) + X3i E( i ) = 0 i
2 V (vi ) = E(ui + i X3i )2 = E(u2 ) + X3i E( 2 ) + X3i E(ui i ) = i i 2 2 = u + X3i 2
Cov(vi , v ) = E((ui + i X3i )(u + X3 )) = 0 i,
i=
La varianza de vi tiene media cero, es heterocedstica ya que depende de X3i y no autoa correlada siempre que Cov(ui , i ) = 0 i:
2 2 vi iid(0, u + X3i 2 )
En estas circunstancias el estimador de MCO es lineal, insesgado, consistente pero ineciente. El modelo debe ser estimado por MCG. La matriz de varianzas y covarianzas de la perturbacin es: o
E(vv ) =
2 2 u + X31 2 0 ... 0 2 + X 2 2 . . . 0 u 0 32 . . . .. . . . . . . . 2 + X 2 2 0 0 . . . u 3N
2 Si u y 2 fuesen conocidos, tenemos dos posibilidades para estimar el modelo. La primera aplicar el estimador de MCG a los datos directamente utilizando M CG = (X 1 X)1 (X 1 1 y la segunda estimar por MCO el siguiente modelo trans con V (M CG ) = (X X) formado: P 1 Y = P 1 X + P 1 u Y = X + u
Y)
donde:
P =
2 2 u + X31 2
...
0 0 . . .
2 2 u + X3N 2
0 . . . 0
2 2 u + X32 2 . . . . .. . . .
0
1
...
1 P =
2 2 u +X31 2
0
1
2 2 u +X32 2
... ... . ... ..
0 0 . . .
1 2 2 u +X3N 2
0 . . . 0
. . . 0
As podemos escribir el modelo transformado como: ,

Yi
2 u
2 X3i 2
1
2 u
2 X3i 2
+ 2
X2i
2 u
2 X3i 2
+ 3
X3i
2 u
2 X3i 2
ui
2 u 2 + X3i 2
65
SARRIKO-ON 4/08
y las propiedades de la perturbacin en este modelo transformado ser o an:

ui
2 2 u + X3i 2
= = =
E(ui )
2 2 u + X3i 2
= 0 i
V ar
ui
2 2 u + X3i 2
2 E(u2 ) 2 + X3i 2 i = u = 1 i 2 2 2 2 u + X3i 2 u + X3i 2
Cov
ui
2 2 u + X3i 2
u
2 u + 2 X3
E(ui u )
2 2 2 2 u + X3i 2 u + X3 2
=0
es decir, media cero, homocedstica y no autocorrelada. La estimacin por MCO del modelo a o transformado proporciona estimadores ELIO.
2 Sin embargo, en este caso la matriz es desconocida ya que depende de u y de 2 que son desconocidas por lo que para poder aplicar cualquiera de las dos alternativas de estimacin, es necesario estimar estas varianzas previamente. Trataremos este caso en la o siguiente seccin. o
3.4.
MCGF: M nimos Cuadrados Generalizados Factibles
En el modelo de regresin lineal general o Y = X + u u N (0, 2 )
donde es desconocida. Nos preguntamos cmo estimar los parmetros desconocidos . Debeo a mos responder que: a) Si es conocida, el estimador M CG = (X 1 X)1 X 1 Y es un estimador lineal, insesgado, eciente y consistente de los coecientes desconocidos, . b) Si es desconocida, habitualmente lo es, lo tendremos que estimar para sustituirlo en la expresin del estimador de MCG y obtener as el estimador de M o nimos Cuadrados Generalizados Factible (MCGF): M CGF = (X 1 X)1 X 1 Y 1 1 M CGF = (X X)1 (X Y ) si si E(uu ) = 2 E(uu ) =
3.4.1.
Cmo estimar la matriz ( ) o o
Si es desconocida, en el modelo nos enfrentamos a la estimacin de K-coecientes y No varianzas: Yi = 1 + 2 X2i + . . . + K XKi + ui 66
SARRIKO-ON 4/08
E(uu ) =
2 1 0 0 . . . 0 2 0 2 0 . . . 0 . . . .. . . . . . . . . . . 2 0 0 0 . . . N
La estimacin de K + N parmetros con N observaciones no es posible si lo que deseamos es o a estimar estos parmetros de forma precisa. Es necesario establecer algn tipo de restriccin sobre a u o la forma funcional de los parmetros desconocidos de . Habitualmente, se modela la varianza a de la perturbacin en funcin de un conjunto de parmetros y un conjunto de observaciones o o a Zi , que pueden o no formar parte del conjunto de regresores del modelo, pero en todo caso la informacin sobre las mismas es conocida. Este supuesto reduce el nmero de parmetros a o u a estimar siempre que Zi sea un vector de orden (S 1), un vector de (S 1) ((S + 1) 1) o parmetros, siendo K + S < N . De este modo los parmetros del modelo ser estimables. a a an As si proponemos: 2 i = f (Zi , ) i tal que = () donde la funcin f () es la que mejor se ajusta a la informacin disponible (lineal, cuadrtica, exo o a ponencial, etc). Entonces, una vez obtenido el estimador de , , tendremos denido el estimador de (), = () y podremos estimar el vector de coecientes M CGF = (X 1 X)1 X 1 Y
3.4.2.
Qu propiedades exigimos a ? e
M CGF = (X 1 X)1 X 1 Y = (X
1
El estimador:
X)1 X
es una funcin no lineal de Y lo que diculta la derivacin anal o o tica de sus propiedades en muestras nitas. Por ello, nos interesaremos slo por sus propiedades en muestras grandes o propiedades asinttio o cas, es decir, consistencia y normalidad asinttica, para lo que es necesario que sea un estio mador consistente de . Si es consistente se puede demostrar que bajo ciertas condiciones de M CGF posee propiedades asintticas deseables: regularidad o a) M CGF es consistente. b) M CGF es asintticamente normal: o d N (M CGF ) N 0, 2 l m donde:
N
X 1 X N
l m
X 1 X N
= G1
El estimador de MCGF es un estimador de M nimos Cuadrados en dos etapas. En la primera etapa se busca un estimador consistente de para que = () sea consistente. En la segunda etapa se sustituye en la funcin objetivo y sta se minimiza con respecto a para obtener el o e estimador de MCGF. min (Y X) 1 (Y X) 67
SARRIKO-ON 4/08 de donde: M CGF = (X 1 X)1 X 1 Y Como aproximacin a la estimacin de generalmente se utiliza la relacin entre ui y ui y se o o o propone:
2 i = f (, Zi )
u2 = f (, Zi ) + error i u2 = 1 + 2 Z2i + 3 Z3i + . . . + S ZSi + error i donde: u = Y X M CO (3.12)
El estimador MCO del modelo auxiliar (3.12) proporciona estimadores consistentes {s }S , s=1 = () es consistente y podemos obtener el estimador por MCGF de los parmetros desas a conocidos del modelo. Observaciones: a) Si es conocida el estimador ELIO y consistente es: M CG = (X 1 X)1 X 1 Y b) Si es desconocida y es consistente el estimador consistente y asintticamente eciente o es: M CGF = (X 1 X)1 X 1 Y pero nada garantiza que en muestras pequeas la varianza sea m n nima.
3.4.3.
Ejercicios
Ejercicio 1 En el modelo: Yi = 1 + 2 X2i + . . . + k XKi + ui i = 1, 2, . . . , N Yi = Xi + ui

2 donde E(ui ) = 0 i y V (ui ) = i = 2 E(Yi ) Cmo estimamos los parmetros desconocidos del modelo anterior? o a
Solucin: o Proponemos como estimador el estimador de MCGF: M CGF = (X 1 X)1 X 1 Y dado que es desconocida. V (ui ) = 2 (1 + 2 X2i + . . . + k XKi ) = 2 (Xi ) donde Xi = (1 X2i . . . XKi ). Escribimos la matriz de varianzas y covarianzas de la perturbacin. o
E(uu ) = 1 + 2 X21 + . . . + k XK1 0 2 . . . 0
0 1 + 2 X22 + . . . + k XK2 . . . 0
... ... .. .
0 0 . . .
. . . 1 + 2 X2N + . . . + k XKN
68
SARRIKO-ON 4/08
= 2
X1 0 ... 0 0 X2 . . . 0 . . . .. . . . . . . . 0 0 . . . XN
de donde:
X1 0 0 X2 . . . . . . 0 0
... ... .. .
0 0 . . .
. . . XN
donde = M CO se obtiene de aplicar MCO a la ecuacin original. o Yi = 1 + 2 X2i + . . . + k XKi + ui i = 1, 2, . . . N,
Dado que M CO es un estimador consistente, ser consistente y tambin lo ser M CGF . a e a Ejercicio 2 Supongamos el modelo: Yi = 1 + 2 X2i + 3i X3i + ui i = 1, 2, . . . , N (3.13)
2 donde E(ui ) = 0 i y ; V (ui ) = a + bX3i siendo a y b constantes desconocidas. Cmo se o estiman los parmetros desconocidos del modelo anterior? a
Solucin: o En este caso debemos estimar el modelo por MCGF para lo cual podemos aplicar MCO en el siguiente modelo transformado: Yi a+
2 bX3i
= 1
1 a+
2 bX3i
+ 2
X2i a+
2 bX3i
+ 3
X3i a+
2 bX3i
ui
2 a + bX3i
(3.14)
Las propiedades de la perturbacin en este modelo transformado ser o an:

ui
2 a + bX3i
E(ui )
2 a + bX3i
= 0 i
V ar
ui
2 a + X3i
2 E(u2 ) a + bX3i i 2 = a + bX 2 = 1 i a + X3i 3i
Cov
ui a+
2 bX3i
uj a+
2 bX3j
E(ui uj )
2 2 a + bX3i a + bX3j
= 0 i, j
i=j
homocedstica y no autocorrelada. La estimacin por MCO del modelo transformado propora o ciona estimadores ELIO. En este caso en el modelo transformado tenemos dos constantes desconocidas a y b que deben ser previamente estimadas para poder aplicar el estimador de MCO al modelo (3.14). Para obtener estimadores consistentes de a y b podemos proceder de la forma siguiente: 69
SARRIKO-ON 4/08 a) Aplicamos MCO en el modelo (3.13) sin tener en cuenta la existencia de heterocedasticidad. Guardamos los residuos de m nimos cuadrados ordinarios. b) Estimamos la siguiente regresin auxiliar: o
2 u2 CO,i = a + bX3i + M i
i = 1, 2, . . . , N
de esta regresin obtenemos aM CO y M CO estimados consistentemente. o b c) Sustituimos a = aM CO y = M CO en el modelo: b b Yi a + 3i bX 2 = 1 1 a + 3i bX 2 + 2 X2i a + 3i bX 2 + 3 X3i a + 3i bX 2 + ui a + 3i bX 2
y estimamos este modelo por MCO o lo que es lo mismo el modelo original por MCGF. Los estimadores as obtenidos sern consistentes dado que los estimadores de a y b a su a vez lo son.
3.5.
Estimador de White de V (M CO )
Si estimamos el MRLG por MCO: Y = X + u E(uu ) =
los estimadores son lineales, insesgados, consistentes pero inecientes. La matriz de varianzas y covarianzas del estimador MCO en presencia de heterocedasticidad es: V (M CO ) = (X X)1 (X X)(X X)1 para calcular estas varianzas y covarianzas es necesario conocer , lo mismo que para evaluar el estimador M CG , ELIO, en estas circunstancias. Dada la dicultad que entraa el conocimiento de , un estimador consistente de V (M CO ) n resulta util porque de esta forma se pueden derivar estad sticos vlidos, al menos asintticamente, a o para contrastar hiptesis sobre el vector de coecientes . Sabemos que si: o Y = X + u entonces: u N (0, )
M CO N (, (X X)1 (X X)(X X)1 )
White (1980) proporciona un estimador consistente de la matriz de varianzas y covarianzas de M CO : (X X)1 (X SX)(X X)1 White demuestra que: X X = 1 X SX N
N,M 2,M donde S = diag(2 CO u2 CO . . . u2 CO ) de forma que: u1,M plim 1 X SX N = plim 70 1 X X N = G.
SARRIKO-ON 4/08 Por lo tanto, la distribucin asinttica del estimador MCO teniendo en cuenta el estimador o o consistente de White de su matriz de varianzas y covarianzas viene dado por: a N (M CO ) N 0, l m XX N
1 N
l m
X SX N
l m
XX N
a N (M CO ) N 0, Q1 GQ1 Esta matriz de varianzas y covarianzas es consistente y puede ser utilizada para hacer inferencia en muestras grandes, sin tener que especicar a priori la estructura de heterocedasticidad.
3.6.
Contraste de restricciones lineales con desconocida
Vamos a empezar esta seccin recordando cmo hacer inferencia cuando es conocida. o o Sea el modelo: Y = X + u en este caso u N (0, 2 ) conocida
M CG N (, 2 (X 1 X)1 )
Un estimador insesgado y consistente de 2 es: (Y X M CG ) 1 (Y X M CG ) . N K Podemos contrastar restricciones lineales sobre los parmetros de la forma H0 : R = a r con el estad stico: (RM CG r) [R(X 1 X)1 R ]1 (RM CG r)/q H0 F(q,N K) 2 M CG M CG = 2 con las reglas de decisin habituales. o Si queremos contrastar la signicatividad individual de una de las variables exgenas del o modelo, dado que q = 1 podemos utilizar el estad stico: i,M CG H0 t(N K) i,M CG ) desv( Sea el modelo: Y = X + u en este caso u N (0, ) conocida
M CG N (, (X 1 X)1 )
En este caso no tenemos una constante a estimar en la matriz de varianzas y covarianzas de la perturbacin. Contrastamos restricciones lineales del tipo H0 : R = r con el estad o stico:
H0 (RM CG r) [R(X 1 X)1 R ]1 (RM CG r) (q)
El estad stico para el contraste de signicatividad individual ser a: i,M CG H0 N (0, 1) i,M CG ) desv( 71
SARRIKO-ON 4/08 Ahora supongamos que: Y = X + u E(uu ) = 2 = con (o ) desconocidas. M CGF = (X 1 X)1 (X 1 Y ), estimador Debemos estimar el modelo por MCGF, es un estimador consistente de . Su distribucin asinttica es: consistente de si o o d N (M CGF ) N (0, 2 G1 ) G = plim 1 X 1 X N
Para contrastar hiptesis nulas del tipo H0 : R = r podemos utilizar el estad o stico: (RM CGF r) [R(X X)1 R ]1 (RM CGF r) d,H0 2 (q) 2 con distribucin asinttica 2 con q grados de libertad. o o Si queremos contrastar la signicatividad individual de una de las variables exgenas del o modelo, dado que q = 1 podemos utilizar el estad stico: i,M CGF d,H0 N (0, 1) i,M CGF ) desv( o Si desconocemos cmo estimar o podemos optar por realizar inferencia utilizando el estimador de White, el contraste de hiptesis se realiza con el estad o stico:
d,H0 (RM CO r) (R(X X)1 (X SX)(X X)1 R )1 (RM CO r) 2 (q)
La expresin del estad o stico para el contraste de signicatividad individual no var a: i,M CO d,H0 N (0, 1) i,M CO )W hite desv( con las reglas de aceptacin y rechazo habituales. o
3.7.
Prediccin o
Recordemos como hacer la prediccin por punto y por intervalo con el estimador MCO: o Y = X + u Yp = Xp + up E(Yp ) = Xp E(up ) = 0 u N (0, 2 IN ) p [1, N ] p [1, N ]
Xp = (1 X2,p . . . XK,p ) V (up ) = 2
a) Prediccin por punto del valor y el valor esperado: o Yp = Xp b) Prediccin por intervalo del valor, Yp : o Error de prediccin: e p = Yp Yp o Distribucin: ep N (0, 2 (1 + Xp (X X)1 Xp )) o 72 E(Yp ) = Xp
SARRIKO-ON 4/08 Si 2 es conocida:
ep H0 N (0, 1) des(ep ) ep des(ep )

H0
Si 2 es desconocida:
t(N K)
A partir de estas distribuciones se obtienen los intervalos de conanza. c) Prediccin por intervalo del valor esperado, E(YN +1 ): o Error de prediccin: p = E(Yp ) Yp o Distribucin: o
p
N (0, 2 (Xp (X X)1 Xp ))

p H0
Si 2 es conocida:
des( p ) Si 2 es desconocida:
p
N (0, 1)
H0
des( p )
t(N K)
A partir de estas distribuciones se obtienen los intervalos de conanza. Ahora, bajo el supuesto de heterocedasticidad tenemos que Y = X + u Yp = Xp + up E(Yp ) = Xp E(up ) = 0 u N (0, 2 ) V (ui ) = 2 wii p [1, N ] p [1, N ]
Xp = (1 X2,p . . . XK,p ) V (up ) = 2 wpp
Prediccin por punto La prediccin por punto del valor y el valor esperado de Yp vienen o o dados por: Yp = Xp M CG E(Yp ) = Xp M CG Prediccin por intervalo del valor, Yp : Error de prediccin: o o ep = Yp Yp = Xp + up (Xp M CG ) = X (M CG ) + up
p
Distribucin: o E(ep ) = E(Xp (M CG ) + up ) = 0 V(ep ) = E[(ep E(ep ))2 ] = E(ep ep ) = E[(Xp (M CG ) + up )(Xp (M CG ) + up ) ] = E(u2 ) + X E(M CG )(M CG ) Xp 2X E((M CG )up )
p p p
= V(up ) + Xp V(M CG )Xp 0 = V(up ) + 2 Xp (X 1 X)1 Xp 73
SARRIKO-ON 4/08 bajo normalidad de las perturbaciones, u N (0, 2 ): ep N (0, V (up ) + Xp V (M CG )Xp ) ep N (0, V (up ) + 2 Xp (X 1 X)1 Xp ) de donde IC1 (Yp ) = Yp N (0, 1)/2 V (up ) + Xp V (M CG )Xp Posibilidades: a) Supongamos que V (u) = 2 conocida. En este caso podemos hacer inferencia con la distribucin normal: o ep N (0, 2 (wpp + Xp (X 1 X)1 Xp )) de donde IC1 (Yp ) = Yp N (0, 1)/2 2 (wpp + 2 Xp (X 1 X)1 Xp ) b) Supongamos que V (u) = 2 con conocida pero 2 desconocido. En este otro caso tenemos: ep t(N K) 2 M CG (wpp + Xp (X 1 X)1 Xp ) de donde IC1 (Yp ) = Yp t(N K)/2 M CG (wpp + Xp (X 1 X)1 Xp ) 2 c) Supongamos que V (u) = 2 con y 2 desconocidos pero estimables. En este contexto tenemos que estimar el modelo por MCGF por lo que el intervalo tiene carcter asinttico: a o ep M CGF (wpp 2 de donde IC1 (Yp ) = Yp N (0, 1)/2 M CGF (wpp + Xp (X 1 X)1 Xp ) 2 o Prediccin por intervalo del valor esperado, E(Yp ) Error de prediccin: o
p
+ Xp (X
1 X)1 X
N (0, 1)
p)
= E(Yp ) E(Yp ) = Xp Xp M CG = Xp (M CG )
Distribucin: o E( p ) = E(Xp (M CG )) = 0 V ( p ) = E[( E( p ))2 ] = E( p p ) = E[(Xp (M CG ))(Xp (M CG )] = X E(M CG )(M CG ) Xp X

p p
= Xp V (M CG )Xp = 2 Xp (X 1 X)1 Xp 74
SARRIKO-ON 4/08 bajo normalidad de las perturbaciones, u N (0, 2 ):

p
N (0, Xp V (M CG )Xp )
N (0, 2 Xp (X 1 X)1 Xp )
de donde IC1 (Yp ) = Yp N (0, 1)/2 Xp V (M CG )Xp Se puede observar que la unica diferencia con respecto a la prediccin del valor Yp es que o el trmino V (up ) desaparece en la varianza del error de prediccin. Por tanto los intervalos e o de conanza correspondientes son los siguientes. a) Cuando V (u) = 2 conocida. IC1 (Yp ) = Yp N (0, 1)/2 2 Xp (X 1 X)1 Xp b) Cuando V (u) = 2 con conocida pero 2 desconocido. IC1 (Yp ) = Yp t(N K)/2 M CG Xp (X 1 X)1 Xp 2 c) Cuando V (u) = 2 con y 2 desconocidos pero estimables. 2 IC1 (Yp ) = Yp N (0, 1)/2 M CGF Xp (X 1 X)1 Xp
3.7.1.
Ejercicio
Yi = Xi + ui i = 1, 2, . . . , N
Sea el modelo:
2 donde i = 2 Xi2 . Dado el valor de la variable explicativa en el periodo de prediccin Xp , se quiere obtener una o prediccin por punto y por intervalo de Yp . o
Solucin: o Prediccin por punto: Yp = M CG Xp donde M CG = (X 1 X)1 (X 1 Y ) o equivaleno temente, el estimador lo obtenemos aplicando MCO en el modelo: Yi ui =+ Yi = + ui Xi Xi siendo: E(ui ) = E
ui Xi
=0
ui Xi
i = 2 = i =0 i =
Cov(ui ,u ) Xi X
V (ui ) = V ar En el modelo transformado:
Cov(ui , u ) = Cov
2 X 2 = X 2i i ui u ,X Xi
M CG = Y =
N 1
Yi = N 75
N 1
Yi Xi
=+
N 1
ui
SARRIKO-ON 4/08 Prediccin por intervalo de Yp : o Yp = Xp + up Yp = M CG Xp ep = Yp Yp = Xp (M CG ) + up E(ep ) = Xp (E(M CG ) ) + E(up ) = 0 Buscamos las propiedades de M CG :
E(M CG ) = E
N 1
Yi Xi
E(
N 1
Yi )
N +
N 1
E(ui )
V (M CG ) = E(M CG E(M CG ))2 = E(M CG )2 = E

N 1
ui
N 1
E(ui 2 ) N 2 2 = = N2 N2 N
2 As si ui N (0, 2 Xi2 ) entonces M CG N (, ) , N Varianza del error de prediccin: o
V (ep ) = E(ep )2 = E(Xp (M CG ) + up )2 2 = E(up )2 + E(Xp (M CG )2 ) 2E(Xp (M CG )up )

2 = 2 Xp + 2 Np 2 X 2 (1 + 1 ) = p N X2
Como 2 es desconocida debemos estimarla: M CG = 2 uM CG 1 uM CG N K
Por tanto el intervalo de conanza se dene como: 1 2 IC1 (Yp ) = Yp t (N K) M CG Xp 1 + 2 N A lo largo del tema se ha estudiado la heterocedasticidad ms simple que podemos encontrarnos. a Esta clase de heterocedasticidad, aunque pueda aparecer en series temporales, es muy frecuente en datos de seccin cruzada. Sin embargo, en datos de series temporales, especialmente en datos o nancieros, nos encontramos con otro tipo de heterocedasticidad (ARCH, GARCH,...) que deben ser analizado de forma distinta.
76
Tema 4
Autocorrelacin o
4.1. Causas y modelizacin o
En el modelo de regresin, el trmino de perturbacin engloba aquellos factores que determinano e o do la variable endgena, no estn recogidos en la parte sistemtica del modelo. Estos factores o a a pueden ser innovaciones, errores de medida en la variable endgena, variables omitidas, etc. o Hasta el momento uno de los supuestos bsicos del modelo de regresin lineal es que la covarianza a o entre perturbaciones de distintos periodos es cero. Sin embargo, si estos factores estn correlaa cionados en el tiempo o en el espacio, entonces no se satisface la hiptesis de NO autocorrelacin o o que escrib amos como E(ut us ) = 0 t, s t = s. Este fenmeno se conoce con el nombre de o autocorrelacin: correlacin serial, en el caso de series temporales y correlacin espacial en el o o o caso de datos de seccin cruzada. o En los modelos que especican relaciones en el tiempo entre variables, la propia inercia de las variables econmicas, donde el impacto de una perturbacin en un periodo de tiempo puede tener o o efectos en subsiguientes periodos, suele generar autocorrelacin en el trmino de perturbacin. o e o Esta dinmica, aunque no sea relevante en media, reeja un patrn sistemtico que tenemos de a o a considerar a la hora de estimar el modelo. Concepto de autocorrelacin: o Existe autocorrelacin cuando el trmino de error de un modelo economtrico est correlacionado o e e a consigo mismo. Es decir, la covarianza entre las perturbaciones es distinta de cero para diferentes momentos del tiempo (o entre distintos individuos): E(ut us ) = 0 t, s t=s No es preciso que ut est correlacionada consigo misma en cada dos instantes distintos del e tiempo, sino que basta que la correlacin se extienda a algunos periodos. o La presencia de autocorrelacin implica que la matriz de varianzas y covarianzas, E(uu ) = , o tiene elementos distintos de cero fuera de la diagonal principal. En este contexto el estimador MCO es ineciente y debemos estimar el modelo por MCG si es conocida para obtener estimadores lineales, insesgados y de m nima varianza. Si es desconocida estimamos el modelo por MCGF siempre y cuando podamos estimarla de forma consistente.
Estructura de la matriz de varianzas y covarianzas de la perturbacin. o 77
SARRIKO-ON 4/08 En presencia de autocorrelacin la matriz de varianzas y covarianzas tiene la forma siguiente: o
E(uu ) =
11 21 31 . . .
12 22 32 . . .
13 23 33 . . .
T 1 T 2 T 3
. . . 1T . . . 2T . . . 3T . .. . . . . . . T T
Suponiendo que 11 = 22 = . . . = T T = 2 , es decir, existe autocorrelacin pero hay homoceo dasticidad:

E(uu ) =
2 21 31 . . .
12 2 32 . . .
13 23 2 . . .
T 1 T 2 T 3
. . . 1T . . . 2T . . . 3T . .. . . . . . . 2
donde evidentemente se cumple que cov(ut , us ) = cov(us , ut ) t, s. Por tanto, tenemos una matriz 2 de varianzas y covarianzas que tiene T (T 1)/2 covarianzas ms una varianza, u . a
4.1.1.
Causas de autocorrelacin o
Shocks aleatorios prolongados Sea el modelo: Rt = 1 + 2 RMt + ut
t = 1, 2, . . . , T
donde Rt es la rentabilidad de un activo en el periodo t y RMt es la rentabilidad del mercado en dicho periodo t. Si en un momento dado se produce una ca del mercado, da la rentabilidad del activo se ver afectada a la baja y como consecuencia la rentabilidad a obtenida ser menor que la esperada. Este efecto se prolongar en el tiempo hasta que a a poco a poco los inversores recuperen la conanza y el mercado vuelva a estabilizarse. El shock se recoger en el trmino de perturbacin. Si por ejemplo, la ca se produce en a e o da (t-1), lo que estamos diciendo es que la perturbacin en t depender de lo ocurrido en (t-1) o a v ut1 . a Existencia de ciclos y tendencias Si estamos analizando un modelo economtrico cuya variable endgena presenta ciclos y/o e o tendencias que no se explican a travs de las variables exgenas, la perturbacin recoge e o o dichas estructuras, presentando un comportamiento de autocorrelacin. En este caso, los o residuos presentan rachas de desviaciones por encima del promedio (en la parte alta del ciclo) y rachas de desviaciones por debajo del promedio (parte baja del ciclo). Relaciones no lineales Supongamos que la verdadera relacin entre los tipos de inters, rt , y el stock de Deuda o e Pblica, Dt , es cuadrtica: u a
2 rt = 1 + 2 Dt + 3 Dt + ut
t = 1, 2, . . . , T
2 > 0, 3 < 0
Este modelo implica que los tipos de inters aumentan al crecer el stock de deuda pblica, e u aunque menos que proporcionalmente, puesto que se tiene: rt = 2 + 23 Dt < 2 Dt 78
SARRIKO-ON 4/08 tanto menor cuanto mayor es Dt . Pero sin embargo se especica y se estima un modelo lineal: rt = 1 + 2 Dt + ut t = 1, 2, . . . , T En este caso la curvatura de la parte sistemtica pasa a ser recogida por la perturbacin. a o Los residuos presentarn una racha de residuos negativos seguida de otra racha de residuos a positivos para seguir con otra negativa. Variables omitidas relevantes correlacionadas Si el modelo realmente se especica como: Yt = 1 + 2 X2t + 3 X3t + ut ut = Yt 1 2 X2t 3 X3t ut = Yt 1 2 X2t 3 X3t Pero estimamos: Yt = 1 + 2 X2t + vt t = 1, 2, . . . , T t = 1, 2, . . . , T
vt = Yt 1 2 X2t = ut + 3 X3t vt = Yt 1 2 X2t = ut (1 1 ) (2 2 )X2t + 3 X3t En este contexto de omisin los estimadores MCO son sesgados en general: o 1 y 2 estn sesgados salvo que Cov(X2i , X3i ) = 0 y X 3 = 0, adems (1 1 ) = 0 y a a 1 1 ) = 0 ( En consecuencia, tras un anlisis de los residuos vi tanto grco como mediante tests, a a es muy probable que el investigador llegue a la conclusin de que si la variable omitida o est correlacionada, presenta ciclos o tendencias: a Cov(vt , vs ) = 0 De todas formas hay que tener en cuenta que no siempre que se omite una variable relevante se causa autocorrelacin, podr solamente causar heterocedastidad. o a Existencia de variables endgenas retardas o El comportamiento de muchas variables econmicas en un periodo t depende no slo de o o otras variables sino tambin de cul fue el comportamiento de esa variable en el periodo e a anterior(t-1). En este sentido, a la hora de especicar el modelo economtrico debemos e incluirla como regresor de lo contrario esa inercia lo recoge la perturbacin. Esta situao cin se produce principalmente con observaciones mensuales o trimestrales. El modelo a o especicar ser por ejemplo: a, Ct = 1 + 2 Yt + 3 Ct1 + ut t = 1, 2, . . . , T
la existencia de Ct1 como variable explicativa provoca autocorrelacin, ya que depende o de ut1 y est a su vez inuye en ut : a ut = Ct 1 2 Yt 3 Ct1 Datos manipulados y Ct1 = 1 + 2 Yt1 + 3 Ct2 + ut1
79
SARRIKO-ON 4/08 Datos en diferencias: En muchas ocasiones en lugar de presentar datos originales, se presentan datos suavizados: diferencias, medias, etc. Si el modelo a especicar es Yt = + Xt + ut ut (0, 2 ) (4.1)
pero los datos disponibles estn en diferencias, Zt = Yt Yt1 , entonces el modelo a resultante es: Zt = (Xt Xt1 ) + et et = ut ut1 cuya perturbacin tiene media cero, la varianza se duplica (var(et ) = 2 2 ) y las o covarianzas entre perturbaciones que distan en un periodo no es nulo (cov(et , et1 ) = 2 ). Datos como media de observaciones pasadas. Supongamos que el dato que se proporciona corresponde a la media de los tres ultimos Yt1 +Yt2 +Yt3 meses Zt = , entonces el modelo resultante es: 3 Zt = + Xt1 + Xt2 + Xt3 + et 3 et = ut1 + ut2 + ut3 3
cuya perturbacin tiene media cero, la varianza es (var(et ) = 2 /3) y las covarianzas o entre perturbaciones que distan entre un periodo y dos no son nulas:
2 2 /9
cov(et , es ) =
2 /9 0
si |t s| = 1 si |t s| = 2 si |t s| > 2
Tasas de crecimiento: Generalmente las variables econmicas, que evolucionan continuamente, estn medio a das a intervalos de tiempo regulares (por ejemplo trimestrales) y expresadas como tasas de crecimiento sobre el periodo anterior. La utilizacin de datos econmicos o o medidos en tasas de crecimiento genera autocorrelacin en las perturbaciones. Por o ejemplo, supongamos la variable Yt , denimos su tasa de crecimiento como: Yt Yt1 Yt1 donde si Yt = f (Xt ) + ut el numerador de la expresin anterior depende de (ut ut1 ) o no independiente de lo que ocurre en t-1, donde (Yt1 Yt2 ) dependen de (ut1 ut2 ), ambas dependen de ut1 .
4.1.2.
Modelizacin de la autocorrelacin o o
Sea el MRLG Y = X + u donde: E(u2 ) = 2 t t;

=
E(ut us ) = 0 t, s
t=s
.
E(uu )
2 21 31 . . .
12 2 32 . . .
13 23 33 . . .
T 1 T 2 T 3 80
. . . 1T . . . 2T . . . 3T . .. . . . . . . 2
SARRIKO-ON 4/08
2 En presencia de autocorrelacin tenemos que estimar u , T (T21) covarianzas y K coecientes con o slo T observaciones. Evidentemente, esta estimacin no es factible. Para simplicar el nmero o o u de parmetros a estimar tenemos que hacer supuestos sobre la estructura de autocorrelacin, a o de forma que dependa de un conjunto de parmetros menor. Habitualmente el supuesto que se a establece es el de estacionariedad dbil, que entre otras cosas, implica que las covarianzas entre e dos perturbaciones no dependan de los tiempos a los que pertenecen, sino del retardo de tiempo que hay entre ellas. As la covarianza de orden sser a:
Cov(ut , uts ) = E(ut uts ) = s
s 1, 2, 3 . . .
donde s indica el retardo. De esta forma el nmero de covarianzas a estimar se reduce porque u todas aquellas covarianzas que tengan el mismo retardo s son iguales: E(ut ut1 ) = E(ut1 ut2 ) = E(ut2 ut3 ) = . . . = 1 E(ut ut2 ) = E(ut1 ut3 ) = E(ut2 ut4 ) = . . . = 2 As la matriz de varianzas y covarianzas de la perturbacin se simplica: , o
E(uu ) =
0 1 2 3 . . .
1 0 1 2 . . .
2 1 0 1 . . .
3 2 1 0 . . .
... ... ... ... .. .
T 1 T 2 T 3 T 4 . . . 0
T 1 T 2 T 3 T 4 . . .
2 donde 0 = E(ut ut ) = u denota la varianza (retardo cero, s = 0).
Esta matriz de varianzas y covarianzas se puede expresar en funcin de los coecientes de o correlacin, para lo cual denimos el coeciente de correlacin entre ut y uts como: o o s = Cov(ut , uts ) = V ar(ut ) V ar(uts ) s
2 u 2 u
s s = 2 u 0
2 de donde podemos deducir que s = s u = s 0 . De esta forma la matriz de varianzas y covarianzas de la perturbacin se puede escribir como: o
2 E(uu ) = u
1 1 2 3 . . .
1 1 1 2 . . .
2 1 1 1 . . .
3 2 1 1 . . .
... ... ... ... .. .
T 1 T 2 T 3 T 4 . . . 1
T 1 T 2 T 3 T 4 . . .
Bajo el supuesto de estacionariedad el nmero de parmetros desconocidos en la matriz de u a 2, , , . . . , a u varianzas y covarianzas es T : (u 1 2 T 1 ). Pero todav no es suciente porque a n 2 tenemos K coecientes, u y (T 1) covarianzas a estimar con las T observaciones muestrales disponibles. Tenemos que suponer algo adicional con objeto de reducir el nmero de parmetros u a desconocidos a estimar. A continuacin se describen algunas de las estructuras ms empleadas para especicar la autoo a correlacin. o 81
SARRIKO-ON 4/08 Proceso autorregresivo de primer orden, AR(1) Es el proceso de autocorrelacin ms sencillo y uno de los que mejor se suele ajustar a datos o a econmicos. Se especica como: o ut = ut1 +
t
t = 1, 2, . . . , T
de forma que la perturbacin en el periodo t depende de la perturbacin del periodo anterior o o (t 1) ms un trmino aleatorio (o innovacin) t cuyas caracter a e o sticas son: E( t ) = 0 t E( 2 ) = 2 t t E( t s ) = 0 t, s iid(0, 2 )
t=s
y que habitualmente se le llama ruido blanco. La relacin entre la perturbacin y la innovacin o o o se recoge en el diagrama siguiente: ut2
t2
ut1
t1
ut
t
ut+1
t+1
por lo que cada innovacin inuye sobre la perturbacin en el mismo periodo o per o o odos posteriores, pero nunca sobre los valores anteriores, es decir: E( t uts ) = 0 s > 0. donde mide la correlacin entre ut y ut1 : o = Cov(ut , ut1 ) 1 = 2 u V ar(ut ) V ar(ut1 ) || < 1
En un proceso AR(1) la condicin (necesaria y suciente) de estacionariedad es que || < 1. Dado o K ) que ut = Yt E(Yt /{Xit }i=1 la perturbacin representa la diferencia entre el comportamiento o observado y el comportamiento promedio, tenemos que: i) Si > 0 entonces un valor elevado de ut genera un valor de Yt por encima del promedio y tendr mayor probabilidad de ir seguido por un valor elevado de ut+1 y as sucesivamente. a ii) Si < 0 un valor alto de ut ir seguido por un valor bajo de ut+1 y ste por uno alto de a e ut+2 y as sucesivamente. En la Figura 4.1 se observa un proceso autorregresivo de primer orden con parmetro positivo. a En ella podemos una racha de residuos positivos seguidos de una racha de residuos negativos y as sucesivamente. En cambio, cuando el parmetro del proceso autorregresivo es negativo, los a signos de los residuos se alternan como podemos ver en la Figura 4.2.
Para conocer la estructura de la matriz de varianzas y covarianzas de la perturbacin o bajo un AR(1) tenemos que hallar los primeros momentos de la perturbacin. Comenzamos o por obtener una expresin ms compacta del proceso: o a Si t = 1 u1 = u0 + 1 = 1 + u0 82
SARRIKO-ON 4/08
Grco 4.1: Perturbaciones AR(1) positivo a

t u u
Grco 4.2: Perturbaciones AR(1) negativo a

t
Si t = 2 u2 = u1 + Si t = 3 u3 = u2 +
2 3
= =
2 3
+ ( + (
1 2
+ u0 ) = +
1
+ 2 u0
3
+ 2 u0 ) = . . . + 2
T 2
Si t = T uT = uT 1 + T = entonces de forma general: ut = ut1 +

t
+
t2
T 1
+ . . . + T 1 + t u0 .
t1
+ 2
+ . . . + t1
Suponiendo que el proceso comienza en un punto remoto, T u0 tomar un valor despreciable, a de forma general podemos escribir:
ut =
i=0
ti
ut = f ( t ,
t1 , t2 ,
es decir, la perturbacin ut es una combinacin lineal de las innovaciones pasadas t , ponderadas o o 2 . . . que decaen geomtricamente ya que || < 1. Esto implica que las innovaciones por 1, , e a a ti tienen menor inuencia en ut cuanto ms alejadas estn en el tiempo. 83
t t
+ 2
+ 3 u0
+ T u0
. . .)
(4.2)
SARRIKO-ON 4/08 A continuacin, basndonos en la expresin (4.2) hallamos la media, la varianza y las covarianzas o a o del proceso: E(ut ) = E( i ti ) = i E( ti ) = 0 t i=0 i=0 2 V ar(ut ) = u = 0 = E(ut E(ut ))2 = E(u2 ) = t = E(ut1 + t )2 = 2 E(u2 ) + E( 2 ) + 2E(ut1 t ) = t t1 2 = 2 u + 2 de donde obtenemos que
2 2 u = 2 u + 2
2 u (1 2 ) = 2
2 u =
2 = 0 (1 2 )
En cuanto a las covarianzas tenemos:

2 Cov(ut , ut1 ) = E(ut ut1 ) = E((ut1 + t )ut1 ) = E(u2 ) + E(ut1 t ) = u = 1 t1 2 Cov(ut , ut2 ) = E(ut ut2 ) = E((ut1 + t )ut2 ) = E(ut1 ut2 ) + E(ut2 t ) = 1 = 2 u = 2 32 = Cov(ut , ut3 ) = E(ut ut3 ) = E((ut1 + t )ut3 ) = E(ut1 ut3 ) + E(ut3 t ) = 2 = u 3 . . . 2 Cov(ut , uts ) = E(ut uts ) = s u = s
Si obtenemos la correlacin entre dos perturbaciones que distan s retardos, tenemos o Cor(ut , uts ) = Cov(ut , uts ) s s 0 = s = 2 = u 0 V ar(ut ) V ar(uts )
por lo que mide la correlacin entre ut y ut1 . As si dibujamos la FAC (Funcin de Autoo , o Correlacin) de un AR(1) positivo, vemos que los valores decaen exponencialmente (Figura 4.3) o hacia cero y si el proceso AR(1) es negativo los signos de estos valores se alternan (Figura 4.4). Grco 4.3: FAC: AR(1) positivo a
0.8
0.6
0.4
0.2
0.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
La matriz de varianzas y covarianzas de la perturbacin cuando sta sigue un proceso autorreo e gresivo de orden uno es: 84
SARRIKO-ON 4/08
Grco 4.4: FAC: AR(1) negativo a
0.5
0.0
-0.5
-1.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
E(uu ) =
2 u
1 . . .
1 . . .
2 . . .
T 1 T 2 T 3
. . . T 1 . . . T 2 . .. . . . ... ... 1
3 2 . . .
= 2 . u
La estimacin de la matriz de varianzas y covarianzas se ha simplicado de tal modo que slo o o 2 2 y . En realidad, dado que 2 = , los parmetros a tenemos que estimar dos parmetros: u a u (12 ) 2 . Conocido , queda totalmente determinada, a excepcin del factor desconocidos son y o de escala que depende de 2 . Proceso autorregresivo de cuarto orden, AR(4) Un proceso autorregresivo frecuentemente utilizado para recoger efectos estacionales en la perturbacin con datos trimestrales es el llamado proceso autorregresivo de cuarto orden, AR(4). o Su especicacin es la siguiente: o ut = ut4 +
t
|| < 1
iid(0, 2 )
donde se supone que ut depende de la perturbacin de cuatro periodos atrs ms una innovacin o a a o con propiedades esfricas. Si estamos utilizando datos de series temporales este proceso autorree gresivo recoge el hecho de que cada periodo (trimestre) est relacionado con el mismo trimestre a del ao anterior. Podr n amos haberlo escrito como: ut = 1 ut1 + 2 ut2 + 3 ut3 + 4 ut4 + con 1 = 2 = 3 = 0. La expresin compacta para este caso es o ut = ut4 + t = = (ut8 + t4 ) + t = = ... = = t + t4 + 2 t8 + . . . = = j t4j i=0 85
t
SARRIKO-ON 4/08
E(ut ) = E( j t4j ) = j E( t4j ) = 0 t i=0 i=0 2 V ar(ut ) = u = 0 = = E(ut E(ut ))2 = E(u2 ) = E(ut4 + t )2 = t = 2 E(u2 ) + E( 2 ) + 2E(ut4 t ) = t t4 2 = 2 u + 2 de donde
2 2 u = 2 u + 2
2 u (1 2 ) = 2
2 u =
2 = 0 . (1 2 )
En cuanto a las covarianzas: Cov(ut , ut1 ) = E(ut ut1 ) = E((ut4 + Cov(ut , ut2 ) = E(ut ut2 ) = E((ut4 + Cov(ut , ut3 ) = E(ut ut3 ) = E((ut4 + Cov(ut , ut4 ) = E(ut ut4 ) = E((ut4 + Cov(ut , ut8 ) = E(ut ut8 ) = E((ut4 +
t )ut1 ) t )ut2 )
=0 =0 )ut3 ) = 0 t 2 2 t )ut4 ) = E(ut4 ) + E(ut4 t ) = u = 4 2 2 t )ut8 ) = E(ut4 ut8 ) + E(ut8 t ) = 4 = u = 8
Por tanto la matriz de varianzas y covarianzas de la perturbacin cuando sta sigue un proceso o e autorregresivo de cuarto orden es:
2 E(uu ) = u
... ... ... ... . . . . . . = 2 u . .. . . . ... ... ... ... ... ... ... ... ... ... ... ... 1
1 0 0 . . .
0 1 0 . . .
0 0 1 . . .
0 0 0 . . .
0 0 . . .
0 0 . . .
0 0 . . .
0 0 0 . . .
2 0 0 . . .
0 2 0 . . .
... ... 2 . . .
2 en la que los unicos parmetros a estimar son u y , en realidad 2 y . a
Proceso de medias mviles de orden uno, MA(1) o El proceso de medias mviles ms sencillo es el MA(1) que se dene como: o a ut =
t
t1
t = 1, 2, . . . T
donde || < 1 para que el proceso sea estacionario. En este caso, la perturbacin ut es una o combinacin lineal de slo dos innovaciones t y t1 , por lo que se dice que es un proceso de o o memoria corta. Buscamos las propiedades de ut :
E(ut ) V ar(ut )
= = = Cov(ut , ut1 ) = = Cov(ut , ut2 ) = = Cov(ut , uts ) =
E( t + t1 ) = E( t ) + E( t1 ) = 0 E(u2 ) = E( t + t1 )2 = E( 2 ) + 2 E( 2 ) + 2E( t t1 ) = t t t1 2 + 2 2 = 2 (1 + 2 ) E(ut ut1 ) = E(( t + t1 )( t1 + t2 )) = E( t t1 ) + E( t t2 ) + E( 2 ) + 2 E( t1 t2 ) = 0 + 0 + 2 + 2 0 = 2 t1 E(ut ut2 ) = E(( t + t1 )( t2 + t3 )) = E( t t2 ) + E( t t3 ) + E( t1 t2 ) + 2 E( t1 t3 ) = 0 0 s 2 t 86
SARRIKO-ON 4/08 de donde:

E(uu ) = 2
(1 + 2 ) 0 0 (1 + 2 ) 0 0 (1 + 2 ) . . . 0 (1 + 2 ) . . . .. . . . . . . . 0 0 0 ...
... 0 ... 0 ... 0 . .. . . . .. . (1 + 2 )
= 2
la matriz de varianzas y covarianzas de la perturbacin u queda totalmente determinada una o vez conocida , salvo por el factor de escala 2 . En el caso de un proceso MA(1) el nmero de u correlaciones se reduce a uno ya que: Cor(ut , ut1 ) = Cor(ut , ut2 ) = . . . Cor(ut , uts ) = 0 Cov(ut , uts ) = 2 =0 s>1 u V ar(ut ) V ar(uts ) Cov(ut , ut1 ) 2 = 2 = u V ar(ut ) V ar(ut1 ) Cov(ut , ut2 ) 0 = 2 =0 u V ar(ut ) V ar(ut2 )
por lo que mide la correlacin entre ut y ut1 . As la FAC correspondiente a un MA(1) tiene o , un unico valor distinto de cero: el parmetro . Como se puede observar en las Figuras 4.6 y 4.5, a si el proceso MA(1) es positivo la correlacin ser positiva y viceversa. o a En algunas ocasiones se dene el proceso MA(1) como ut = t t1 donde reparametrizamos = y estamos en los mismos resultados que los obtenidos anteriormente:
E(uu ) = 2
(1 + 2 ) 0 0 ... 0 (1 + 2 ) 0 ... 0 0 (1 + 2 ) ... 0 . . . . 2) . . . . 0 (1 + . . . . .. .. . . . . . . . . 0 0 0 ... (1 + 2 )
= 2
Otros procesos ms generales ser por ejemplo: a an AR(2) AR(p) M A(2) M A(q) ut ut ut ut = 1 ut1 + 2 ut2 + t = 1 ut1 + 2 ut2 + . . . + p utp + = t + 1 t1 + 2 t2 = t + 1 t1 + 2 t2 + . . . + q tq
El modelo ms general es un ARMA(p,q) donde ut depende de sus valores pasados, de la innoa vacin t y de los valores pasados de sta. El modelo se especica: o e ut = 1 ut1 + 2 ut2 + . . . + p utp +
t
+ 1
t1
+ 2
t2
+ . . . + q
tq
en el que se combina un proceso AR(p) con un proceso MA(q). 87
SARRIKO-ON 4/08
Grco 4.5: FAC: MA(1) positivo a
0.5
0.4
0.3
0.2
0.1
0.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Grco 4.6: FAC: MA(1) negativo a
-0.1
-0.2
-0.3
-0.4
-0.5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
4.2.
Contrastes de autocorrelacin o
En la prctica no se conoce a priori si existe autocorrelacin ni cul es el proceso ms adecuado a o a a para modelarla. Para determinar su existencia es necesario contrastar dicha hiptesis mediante o un estad stico de contraste. Si embargo, ningn contraste de autocorrelacin debe excluir un examen riguroso de los residuos u o generados en la estimacin del modelo. El grco de los mismos puede indicarnos la existencia o a de autocorrelacin. Dado que los residuos son una aproximacin a la perturbacin, la existencia o o o de patrones o comportamientos sistemticos indicar la posible existencia de autocorrelacin. a a o Por ejemplo, si en el grco de la evolucin temporal de ut contra la de uts para s = 1 a o encontramos que la mayor de los puntos en dicho grco se hallan en el primer o tercer a a cuadrante, Figura 4.7, ello es un indicio de autocorrelacin positiva. Si se hallan en el segundo o y cuarto cuadrante indicar autocorrelacin negativa. a o 88
SARRIKO-ON 4/08
Grco 4.7: Perturbaciones AR(1) positivo a

t u u
Grco 4.8: Perturbaciones AR(1) negativo a

t
Cuando los residuos no se comportan aleatoriamente, si no que recogen una estructura, ello puede indicar la existencia de autocorrelacin. Tras el anlisis grco, debemos contrastarla. o a a Si el resultado del contraste es que existe autocorrelacin y sta no es debida a una mala o e especicacin del modelo el mtodo se estima por MCG o MCGF. o e Si la autocorrelacin es originada por una mala especicacin del modelo primero se ha de o o corregir esta especicacin y una vez el modelo est correctamente especicado analizar las o e propiedades de la perturbacin. o No obstante, a menudo y especialmente ante tamaos de muestra considerables, el anlisis grco n a a puede no sugerir nada en especial. En las siguientes guras se muestra un proceso AR(1) positivo y negativo junto con su Funcin de Autocorrelacin (FAC) y tambin un proceso MA(1) positivo o o e y negativo. En todas ellas resulta imposible divisar un comportamiento sistemtico, por lo que a se hace necesario emplear un contraste.
89
u u
SARRIKO-ON 4/08
Grco 4.9: Funciones de autocorrelacin y realizaciones de modelos a o

0.8 0.5
0.6
0.0 0.4
-0.5 0.2
0.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-1.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
3 2 2
1 0 0
-1 -2 -2
-3 -4 30 80 130 180 30 80 130 180
Yt = 0,8Yt1 + ut
0.5
Yt = 0,8Yt1 + ut
-0.1
0.4
-0.2
0.3
-0.3
0.2
-0.4
0.1
-0.5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
0.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
5 3
3 1 1
-1
-1
-3
-3
-5 -5 30 80 130 180 30 80 130 180
Yt =
0,8
t1
Yt =
+ 0,8
t1
4.2.1.
Contraste de Durbin Watson
Durbin y Watson propusieron en 1951 un estad stico para contrastar la existencia de un proceso AR(1) en el trmino de perturbacin. La hiptesis nula es la no existencia de autocorrelacin: e o o o H0 : = 0 90
SARRIKO-ON 4/08 frente a la alternativa Ha : = 0 en ut = ut1 +

t t
(0, 2 )
y se contrasta mediante el estad stico: DW =

T 2 u t=2 (t ut1 ) T 2 t=1 ut
T 2 t=2 ut
T 2 t=2 ut1 T 2 t=1 ut
T t=2 ut ut1
donde ut son los residuos m nimo-cuadrticos ordinarios de estimar el modelo original sin tener a en cuenta la existencia de autocorrelacin en las perturbaciones. o Si el tamao muestral es sucientemente grande podemos emplear las aproximaciones n
T t=2
u2 t
T t=2
u2 t1
T t=1
u2 t
con lo que DW 2
T 2 t=2 ut
T t=2 ut ut1 T 2 t=1 ut
22
T t=2 ut ut1 T 2 t=2 ut1
2(1 )
donde es el estimador de por MCO en el modelo ut = ut1 + t , empleando como proxy de ut el residuo MCO. Interpretacin del estad o stico DW: Si existe autocorrelacin positiva de primer orden, valores positivos del trmino de error ut o e tiendan a ir seguidos de valores positivos y asimismo, valores negativos tiendan a ir seguidos de valores negativos. Dado que la aproximacin a la perturbacin es el residuo, los patrones o o en la perturbacin sern detectados en el residuo. As observaremos rachas de residuos o a , positivos seguidas de rachas de residuos negativos. En estas circunstancias, generalmente |t ut1 | < |t | (t ut1 )2 < u2 y el numerador del estad u u u t stico ser pequeo en a n relacin al denominador, con lo que el estad o stico ser pequeo. En consecuencia cuanto a n ms cercano est el parmetro a la unidad ms prximo a cero estar el DW. En el a e a a o a extremo positivo tenemos que 1 DW 0. Si existe autocorrelacin negativa de primer orden, valores positivos de ut tienden a ir o seguidos de valores negativos, en este caso |t ut1 | > |t | (t ut1 )2 > u2 con lo u u u t que el estad stico DW tender a tomar valores grandes. En el extremo negativo tenemos a que 1 DW 4. A partir de la relacin DW o tomar el estad stico DW. 2(1 ) se puede establecer el rango de valores que puede 0 < < 1 DW (0, 2) =0 DW 2 1 < < 0 DW (2, 4)
la distribucin del estad o stico DW bajo H0 depende de la matriz de regresores X ya que u = M u = (I X(X X)1 X )u por lo que los valores cr ticos del contraste tambin sern e a diferentes para cada posible X. Durbin y Watson tabularon los valores mximo (dU ) y a m nimo (dL ) que puede tomar el estad stico independientemente de cul sea X, y tal que a dL < DW < dU . La distribucin de dL y dU depende del tamao de la muestra, T, y o n de K que denota el nmero de variables explicativas del modelo exceptuando el trmino u e independiente. Contraste de existencia de autocorrelacin positiva: o H0 : = 0 91
SARRIKO-ON 4/08 Ha : > 0 en ut = ut1 + || < 1 iid(0, 2 )
a) Si DW < dL se rechaza la H0 para un nivel de signicatividad dado, por tanto existe autocorrelacin positiva. o b) Si DW > dU no se rechaza la H0 para un nivel de signicatividad dado, por tanto no existe autocorrelacin positiva. o c) Si dL < DW < dU estamos en una zona de incertidumbre y no podemos concluir si existe o no autocorrelacin positiva de primer orden. o Contraste de existencia de autocorrelacin negativa: o H0 : = 0 Ha : < 0 en ut = ut1 + t || < 1 t iid(0, 2 ) a) Si DW < 4 dU no se rechaza la H0 para un nivel de signicatividad dado, por tanto no existe autocorrelacin negativa. o b) Si DW > 4 dL se rechaza la H0 para un nivel de signicatividad dado, por tanto existe autocorrelacin negativa. o c) Si 4 dU < DW < 4 dL estamos en una zona de incertidumbre y como en el caso anterior, no podemos concluir si existe o no autocorrelacin negativa de primer orden. o Grcamente: a Ho : = 0 Autocorrelacin positiva o Autocorrelacin negativa o Ha : > 0 Ha : < 0 | | | | | Rechazar | | Aceptar =0 | | Rechazar =0 | Duda | | | Duda | =0 | | | | | 0 dL dU 2 4 dU 4 dL 4 El contraste de Durbin Watson tambin se puede considerar un contraste de mala especicacin e o del modelo. La omisin de variables relevantes correlacionadas, una forma funcional inadecuada, o cambios estructurales no incluidos en el modelo, etc., pueden originar un estad stico DW signicativo. Esto nos puede llevar a errores si consideramos que hay evidencia de autocorrelacin y o se modela un proceso AR(1). Por otro lado, si ut sigue un proceso distinto de un AR(1), supongamos un AR(2), es probable que el estad stico DW lo detecte. Por lo tanto, el estad stico de Durbin Watson es util porque nos indica la existencia de problemas en el modelo, pero a veces no nos ayuda a establecer cul es la estructura real. En caso de no rechazar la Ho , podemos armar a que no tenemos un AR(1), pero no sabemos si tenemos alguna otra estructura alternativa. Por otro lado el estad stico DW slo debe aplicarse cuando los regresores son jos, en presencia o de regresores aleatorios como la variable endgena retardada no tiene validez. o Cuando el estad stico DW cae en zona de duda, y si no podemos llevar a cabo un contraste alternativo, no debemos concluir que no existe autocorrelacin. El procedimiento conservador o aconseja rechazar la hiptesis nula y estimar por MCGF ya que las consecuencias de ignorar su o existencia cuando s la hay son ms graves que las correspondientes al caso contrario. a 92
SARRIKO-ON 4/08
4.2.2.
Contraste de Wallis
El estad stico de Durbin-Watson es adecuado para contrastar la existencia de autocorrelacin o de primer orden. Wallis modic dicho estad o stico con el objetivo de recoger esquemas de autocorrelacin estacional muy presentes en datos trimestrales en los cuales la correlacin se produce o o con cuatro periodos de desfase. Se supone que en este caso las perturbaciones siguen el esquema: ut = ut4 + donde se contrasta: H0 : = 0
t
t = 1, 2, . . . , T con el estad stico: DW =
iid(0, 2 ) || < 1
T 2 u t=5 (t ut4 ) T 2 t=1 ut
Wallis comput los valores cr o ticos precisos para llevar a cabo el contraste bajo el supuesto de X jas y dependiendo de si el modelo incluye trmino independiente o no. As hay dos e tablas distintas, la primera para un modelo sin variables cticias estacionales pero con trmino e independiente y la segunda cuando se incluyen variables cticias estacionales. La regla de decisin o es similar al anterior, lo unico que var son las tablas de referencia. a
4.2.3.
Contraste h de Durbin
El contraste de Durbin Watson se deriva bajo el supuesto de que los regresores son jos, sin embargo, stos pueden ser estocsticos. En muchos modelos economtricos se incluyen retardos e a e de la variable endgena como regresores: o Yt = 1 + 2 X2t + . . . + K XKt + 1 Yt1 + . . . + s Yts + ut . (4.3)
Recordar que en este caso, el estad stico de Durbin-Watson no tiene validez ya que la condicin o de que los regresores sean jos no se cumple. En estos casos, cuando los unicos regresores estocsticos del modelo son los retardos de la variable a endgena aplicaremos el estad o stico h de Durbin: H0 : = 0 Ha : > 0 h= T 1 T V ar(1 ) o bien H0 : = 0 Ha : < 0
a,H0
N (0, 1)
donde T es el tamao muestral, la estimacin por MCO del coeciente de autocorrelacin de n o o primer orden en el proceso AR(1), y V ar(1 ) la varianza estimada de 1 , el coeciente estimado correspondiente al primer retardo de Yt ( independientemente de que otros retardos de Yt aparezcan como regresores.) Dado que la hiptesis alternativa es la existencia de autocorrelacin o o positiva o negativa el contraste se realiza a una cola comparando el valor calculado para h con el valor cr tico N (0, 1) . La regla de decisin es: o a) Si h > N (0, 1) rechazo la H0 y existe autocorrelacin positiva. o o b) Si h < N (0, 1) rechazo la H0 y existe autocorrelacin negativa. Observaciones: 93
SARRIKO-ON 4/08 a) Si la muestra no es sucientemente grande no se pueden garantizar los resultados del contraste. b) El unico coeciente que inuye en el estad stico es el del primer retardo de Yt , independientemente del nmero de retardos incluidos en el modelo. u c) Si T V ar(1 ) 1 el estad stico h de Durbin no es calculable y en este caso Durbin propone calcular la regresin de ut sobre ut1 ms los regresores del modelo original: o a ut = 1 + 2 X2t + . . . + K XKt + 1 Yt1 + . . . + s Yts + t1 + et u y ver si el coeciente asociado a ut1 () es signicativamente distinto de cero, en cuyo caso no se rechaza la existencia de autocorrelacin. o En caso de que sospechemos de un AR de mayor orden (AR(p)), se incluir dichos an retardos: ut = 1 + 2 X2t + . . . + K XKt + 1 Yt1 + . . . + s Yts + 1 ut1 + . . . + p utp + et y se analizar la signicatividad conjunta de las variables. a
4.2.4.
Contraste de Breusch y Godfrey
Este contraste de autocorrelacin, adems de no imponer la condicin de que los regresores o a o sean jos, permite que la hiptesis alternativa incluya especicaciones ms generales que las del o a AR(1): H0 : no autocorrelacin de orden p o AR(p) : ut = 1 ut1 + 2 ut2 + . . . + p utp + t Ha : M A(p) : ut = t + 1 t1 + 2 t2 + . . . + p tp El contraste de Breusch y Godfrey sugiere: o a) Estimar el modelo original por MCO ignorando la existencia de posible autocorrelacin y obtener la serie de residuos m nimo cuadrticos, uM CO,t . a b) Estimar una regresin auxiliar de uM CO,t sobre los p retardos (el orden de autocorrelacin o o de que sospechamos) ut1 , ut2 , . . . , utp y las variables explicativas del modelo original: uM CO,t = 0 +1 uM CO,t1 +. . .+p uM CO,tp +2 X2t +. . .+K XKt +vt y obtener el R2 de esta regresin. o o o c) Contrastamos la hiptesis nula de no autocorrelacin: H0 : no autocorrelacin o H0 : 1 = . . . = p = 2 = . . . = K = 0 con el siguiente estad stico asinttico: o T R2 2 p donde T es el tamao muestral a pesar de que la regresin incluye retardos y p el nmero n o u de residuos retardados incluidos en la regresin auxiliar. Rechazamos la H0 de no autoo correlacin si el estad o stico calculado es superior al valor de la distribucin en las tablas o para un nivel de signicacin dado. o 94
d,H0
t = p+1, p+2, . . . , T
SARRIKO-ON 4/08 Interpretacin del contraste. Si realmente no existe autocorrelacin, entonces en la regreo o sin auxiliar, hay dos tipos de variables explicativas: o 1. Las variables explicativas de la regresin y los residuos son ortogonales, es decir o X u = 0 (propiedad de la recta de regresin). o 2. Los retardos de los residuos MCO no tienen capacidad explicativa para los residuos. Esto implica que el R2 de la regresin auxiliar es muy pequeo, no rechazar o n amos H0 . En caso contrario los retardos de los residuos tienen poder explicativo sobre los residuos, el R2 es alto y rechazamos la H0 para un dado. Existir autocorrelacin del orden a o contrastado. Desventajas: a) El orden de la autocorrelacin (p) tiene que estar determinado para realizar el cono traste, de lo contrario puede ser necesario hacer pruebas sobre el valor de p. a b) Si se rechaza H0 , no sabemos cul de las dos especicaciones (AR(p) o MA(p)) es la correcta, por lo que tenemos que comparar los resultados de emplear una u otra.
4.3.
MCG: Modelo transformado para AR(1)

Yt = 1 + 2 Xt + ut t = 1, 2, . . . , T
t
Sea el modelo: donde las perturbaciones siguen un proceso AR(1) tal que ut = ut1 + t , conocido y || < 1. La matriz de varianzas y covarianzas viene dado por:
2 E(uu ) = 1 2
iid(0, 2 ) con
1 2 3 . . .
1 2 . . .
2 1 . . .
3 2 1 . . .
... ... ... ... .. .
T 1 T 2 T 3 T 4 . . . 1
= 2
T 1 T 2 T 3 . . . . . .
como hemos supuesto que es conocido la matriz de varianzas y covarianzas de la perturbacin o 2 . En este contexto el estimador MCO es ineciente y debemos estimar el es conocida salvo por modelo por MCG. Tenemos dos procedimientos alternativos para estimar el modelo en presencia de autocorrelacin: o 1) Aplicar el estimador MCG directamente a la muestra, M CG = (X 1 X)1 X 1 Y , obteniendo estimadores lineales, insesgados, de m nima varianza y consistentes. En este caso, y para el ejemplo elegido tenemos:
Y =
Y1 Y2 Y3 . . . YT
X=
1 X1 1 X2 1 X3 . . . . . . 1 XT
u=
u1 u2 u3 . . . uT
En cuanto a la matriz de varianzas y covarianzas, E(uu ) = 2 , se puede demostrar que: 95
SARRIKO-ON 4/08
1 1 = 2) (1
1 0 2) (1 + 0 (1 + 2 ) . . . . . . . . . 0 0 0 0 0 0
... . . . (1 + 2 )
... ... ...
0 0 0 . . . 0
0 0 0 . . .
0 0 0 . . .
...
y el trmino 2 se puede estimar de forma insesgada y consistente como: e 2 = uM CG 1 uM CG T K
2) Estimar el modelo transformado por MCO. La matriz de transformacin P 1 en el caso o de un AR(1) es tal que
P 1 =
1 2 0 0 0 1 0 0 0 1 0 0 0 1 . . . . . . ... . . . 0 0 0 ...
... ... ... ...
... . . . 1
0 0 0 0 . . .
0 0 0 0 . . .
siendo 1 =
1 (P 1 ) (12 )
P 1 . As podemos escribir el modelo transformado como: , t=1 t = 2, 3, . . . , T
1 2 Y1 = 1 1 2 + 2 1 2 X1 + 1 2 u1 Yt Yt1 = 1 (1 ) + 2 (Xt Xt1 ) + t
dado que del proceso AR(1) obtenemos que t = ut ut1 . En el modelo transformado observamos dos cosas, primero que est formado por dos ecuaciones ya que a la primera a observacin le corresponde una transformacin distinta a las dems. Y segundo, que el o o a trmino independiente ahora ha cambiado. e
De forma alternativa, ante un modelo con perturbaciones que siguen un proceso AR(1) y por tanto no tiene propiedades esfricas, el propio proceso AR(1) nos puede indicar una solucin a e o seguir, ya que t es un ruido blanco, es decir, una variable aleatoria con perturbaciones esfricas. e En consecuencia, si obtenemos un modelo transformado tal que su unica variable aleatoria sea e t , ste puede ser estimado por MCO obteniendo las propiedades habituales. Dado ut = ut1 + t , y por tanto t = ut ut1 debemos tomar el modelo en el momento t y (t-1), premultiplicar este ultimo por y tomar diferencias para obtener perturbaciones esfricas. e Si lo hacemos as tendremos la siguiente ecuacin: o Yt Yt1 = 1 (1 ) + 2 (Xt Xt1 ) + donde
t t
t = 2, 3, . . . , T
iid(0, 2 ) por lo que aplicar MCO en este modelo transformado es correcto.
Lo que hemos hecho en el modelo transformado es descontar la informacin que se ten con o a anterioridad ya que si ut = ut1 + t lo ocurrido en t se explica en parte por lo ocurrido en 96
SARRIKO-ON 4/08 (t-1), al tener (Yt Yt1 ) nos queda unicamente la informacin nueva. En este caso las variables o transformadas se denen como: Yt = (Yt Yt1 ) Xt = (Xt Xt1 ).
Hay que notar que en este modelo hemos perdido la primera observacin pero si la muestra es o sucientemente grande es una prdida de eciencia irrelevante. e Si la muestra es pequea, es mejor estimar el modelo transformado utilizando las dos ecuaciones n (es decir incluyendo la ecuacin para t=1) ya que podr o amos tener cambios signicativos en las estimaciones: 1 2 Y1 = 1 1 2 + 2 1 2 X1 + 1 2 u1 Yt Yt1 = 1 (1 ) + 2 (Xt Xt1 ) + t Las matrices correspondientes ser an:
= P 1 Y =
t=1 t = 2, 3, . . . , T
1 2 0 0 0 1 0 0 0 1 0 . . . . . . . . . . . . 0 0 ... ...
Y1 ... 0 1 2 Y1 Y Y Y ... 0 2 2 1 . . . 0 Y3 = Y3 Y2 . . . .. . . . . . . . YT 1 YT YT 1

1 X =P X=
1 2 0 0 0 1 0 0 0 1 0 . . . . . . . . . . . . 0 0 ... ...
1 ... 0 1 ... 0 ... 0 1 . . .. . . . . . 1 1
X1 X2 X3 . . . XT
1 2 (1 ) (1 ) . . . (1 )
1 2 X1 X2 X1 X3 X2 . . . XT Xt1

u = P 1 u =
1 2 0 0 0 1 0 0 0 1 0 . . . . . . . . . . . . 0 0 ... ...
u1 ... 0 . . . 0 u2 . . . 0 u3 = . . .. . . . . . ut 1
1 2 u1
2
. . .
Cuando el modelo transformado est formado solamente por la segunda ecuacin, las matrices a o correspondientes se obtienen de suprimir la primera la de cada una de ellas.
4.4.
MCGF: Aplicacin para un AR(1) o

Yt = 1 + 2 Xt + ut t = 1, 2, . . . , T
Sea el modelo: donde las perturbaciones siguen un proceso AR(1) tal que ut = ut1 + t y t iid(0, 2 ) con desconocido y || < 1. En este caso la matriz de varianzas y covarianzas de la perturbacin sigue o 2 teniendo la misma forma que en la seccin anterior, E(uu ) = 12 , pero al ser desconocido, o es desconocida. En este contexto el mtodo de estimacin apropiado es el de MCGF. e o 97
SARRIKO-ON 4/08 Para emplear el estimador por MCGF tenemos que estimar el parmetro consistentemente a porque as logramos que sea consistente. El parmetro puede ser estimado a priori o bien a conjuntamente con los coecientes del modelo. A continuacin describimos algunas formas alternativas de estimar : o Metodo de Durbin en dos etapas: Se basa en la estimacin del modelo transformado en el que las perturbaciones son esfricas: o e Yt Yt1 = 1 (1 ) + 2 Xt + 2 Xt1 + t . En este modelo la variable a explicar es desconocida dado que depende de por lo que se traslada este trmino a la parte sistemtica: e a Yt = 1 (1 ) +2 Xt + 2 Xt1 + Yt1 +
0 1 t
que estimado por MCO proporciona estimadores consistentes. Una vez obtenida la estimacin de , se procede a estimar el modelo original por cualquiera de las dos alternativas. o Proceso iterativo de Cochrane-Orcutt: El proceso iterativo consta de los siguientes pasos: 1. Estimar por MCO el modelo original ignorando la existencia de un proceso AR(1) en la perturbacin: o Yt = 1 + 2 Xt + ut guardar los residuos MCO, ut . 2. Utilizar los residuos MCO de la regresin anterior para estimar el parmetro en la o a regresin ut,M CO = t1,M CO + vt t = 2, 3, . . . , T : o u = 3. Se utiliza para transformar el modelo: Yt Yt1 = 1 (1 ) + 2 (Xt Xt1 ) +
t T t=2 ut ut1 T 2 t=2 ut1
t = 1, 2, . . . , T
(4.4)
t = 2, 3, . . . , T
(4.5)
que se estima por MCO, obteniendo las estimaciones MCGF de los coecientes, 1 y 2 . Este proceso se itera hasta que dos estimaciones consecutivas de alcancen un grado de convergencia prejado de antemano: |(i+1) (i) | < , donde es una cantidad prejada de antemano. Para iterar basta con generar una nueva serie de residuos con las estimaciones de 1 y 2 Dada la nueva serie de residuos, se repite el proceso desde el segundo paso. Notar que: 1) El trmino independiente en el modelo transformado es 1 (1 2 ) por lo que ser nee a cesario recuperar 1 . 2) Este procedimiento de estimacin puede presentar dos problemas: convergencia y o existencia de m nimos locales en vez de m nimos absolutos. 98
SARRIKO-ON 4/08 3) Es preciso tener en cuenta que los dos mtodos considerados minimizan la suma de e cuadrados sin tener en cuenta la primera observacin, por lo que slo son aproximacioo o nes al estimador de MCGF. Asintticamente ambos son equivalentes al estimador de o MCGF pero para muestras pequeas puede haber diferencias, a veces, importantes. n 4) Si desde el tercer paso se tienen en cuenta las dos ecuaciones a la hora de estimar el modelo transformado, mejoran los resultados en muestras pequeas. Este proceso n iterativo con informacin completa fue propuesto por Prais-Winsten (1957). o Mtodo de red de b squeda de Hildreth-Lu: e u El procedimiento de estimacin de de Hildreth-Lu (1960) es similar al procedimiento o anterior. La diferencia radica en que en lugar de hallar una primera aproximacin de o mediante MCO, se propone recorrer el dominio de , es decir, el intervalo (-1, 1): a) Se particiona el intervalo (1, 1) en n-puntos arbitrarios equidistantes entre s i : 1, 2, . . . , n. i=
b) Una vez prejados estos puntos, para cada uno de los valores de i jados se transforma el modelo de la forma usual: Yt i Yt1 = 1 (1 i ) + 2 (Xt i Xt1 ) +
t
t = 2, 3, . . . , T
se estima por MCO y se obtienen las correspondientes sumas de cuadrados de los residuos. o a c) Como estimacin denitiva, tanto de como de los parmetros desconocidos del modelo (en el ejemplo 1 y 2 ), se toma aquella que proporciona la menor SCRi . Este mtodo presenta la ventaja de que, utilizando una red sucientemente na -n elevadoe queda prcticamente garantizada la aproximacin al m a o nimo global. Por ello, con frecuencia se utiliza este procedimiento inicialmente para detectar la regin donde est el m o a nimo absoluto y proseguir, a continuacin, con el mtodo de Cochrane-Orcutt. o e
4.5.
MCO: Estimador de Newey-West de V (M CO )
Al igual que en el caso de heterocedasticidad el estimador de White proporciona un estimador consistente de la matriz de varianzas y covarianzas de M CO cuando se desconoce totalmente la estructura de heterocedasticidad, para autocorrelacin tenemos un estimador en la misma l o nea. Este estimador, de Newey-West (1987), propone utilizar como estimador de G = l T m la expresin: o 1 ST = T
T j=1 2 X X T
u2 Xt Xt t
1 + T
w ut ut [Xt Xt + Xt Xs ]
=1 t= +1
donde w = 1 L+1 siendo L el orden mximo de la autocorrelacin del trmino de error, que a o e no siempre ser fcil de determinar. a a Newey-West demostraron que: plim (ST ) = plim 99 2 X X T = G.
SARRIKO-ON 4/08 Por lo tanto, la distribucin asinttica del estimador MCO bajo autocorrelacin viene dado por: o o o a N (M CO ) N 0, l m
T
XX T
plimT (ST ) l m
XX T
a N (M CO ) N 0, M 1 GM 1 Esta matriz de varianzas y covarianzas es consistente y puede ser utilizada para hacer inferencia en muestras grandes, sin tener que especicar a priori la estructura de autocorrelacin. o
4.6.
El estimador de la varianza de la perturbacin o
El parmetro desconocido 2 la estimamos mediante la expresin habitual a o 2 = uM CGF 1 uM CGF T K
para lo cual habremos tenido que estimar el parmetro de antemano y obtener las estimaciones a MCGF de los coecientes del modelo. Bajo las mismas condiciones que vimos en el primer tema, este estimador ser consistente. a
M Si optamos por aplicar MCO en el transformado podemos estimar 2 como: 2 = M COk CO T en el caso de que sea desconocido debemos estimar 2 y y estar amos aplicando el estimador de MCGF. En este caso hay varias formas correctas de estimar 2 por MCO:
ut = ut1 +
esta regresin permite obtener estimadores para y 2 o

t
tambin podemos obtenerlo en: (Yt 1 2 Xt ) = (Yt1 1 2 Xt1 ) + e en cualquier caso tras obtener 2 tendremos u = 2 2 (1 2 )
y as el conocimiento de la matriz de varianzas y covarianzas es total.
4.7.
Contraste de restricciones lineales con desconocida
Los contrastes de restricciones lineales se llevan a cabo de la misma forma que vimos en el tema anterior. Si var(u) = 2 conocida Contrastamos restricciones lineales del tipo H0 : R = r con el estad stico: (RM CG r) [R(X 1 X)1 R ]1 (RM CG r) H0 (q) 2 Si var(u) = 2 con 2 desconocido Contrastamos restricciones lineales del tipo H0 : R = r con el estad stico: (RM CG r) [R(X 1 X)1 R ]1 (RM CG r)/q H0 Fq,T K 2 100
SARRIKO-ON 4/08 Si var(u) = 2 desconocido pero estimable Para contrastar hiptesis nulas del tipo H0 : R = r tendremos que aplicar el estad o stico: (RM CGF r) [R(X 1 X)1 R ]1 (RM CGF r) d,H0 2 (q) 2 Si var(u) = 2 totalmente desconocido Aplicamos el estimador de Newey-West, el contraste de hiptesis se realiza con el estad o stico:
d,H0 T (RM CO r) (RM 1 GM 1 R )1 (RM CO r) 2 (q)
donde lo que var es cmo obtener G que ahora corresponder a la expresin proporcioa o a o nada por Newey-West.
4.8.
Prediccin bajo autocorrelacin de primer orden o o
Bajo el supuesto de autocorrelacin tenemos que o Y = X + u ut = ut1 + conocidos u N (0, 2 )

t
(0, 2 )
por lo que en el modelo transformado est dado por: a Y = X + u

YT +1 = XT +1 +
u =
T +1
N (0, 2 I)
t
Yt Yt1 = 1 (1 ) + 2 (X2t X2t1 ) + . . . +
(0, 2 )
Si queremos predecir el valor YT +1 tenemos que: YT +1 = XT +1 + T +1 T +1 T +1
YT +1 YT = XT +1 XT + YT +1 = XT +1 + (YT XT ) +
Prediccin por punto o La prediccin por punto en presencia de un proceso AR(1) en las perturbaciones se obtiene o como: YT +1 = XT +1 M CG + (YT XT M CG ) YT +1 = XT +1 M CG + T u donde podemos observar que la diferencia es que se incorpora un trmino de correccin debido e o a que parte del error nuevo uT +1 puede ser predicho por T . u Prediccin por intervalo del valor, Yp : o 101
SARRIKO-ON 4/08 Error de prediccin: o eT +1 = YT +1 YT +1 = = XT +1 + (YT XT ) + T +1 XT +1 M CG (YT XT M CG ) = = (X X )(M CG ) + T +1 = = Distribucin: o

E(eT +1 ) = E(XT +1 (M CG ) + T +1 ) T +1 T M CG XT +1 (
) +
T +1
=0
Var(eT +1 ) = E[(eT +1 E(eT +1 ))2 ] = E(eT +1 eT +1 ) = E[(XT +1 (M CG ) + T +1 )(XT +1 (M CG ) + T +1 ) ] = E( 2 ) + X E(M CG )(M CG ) X 2X E((M CG ) = +
2 T +1 2
= 2 +
T +1 XT +1 (X 1 X)1 XT +1 2 XT +1 (X 1 X)1 XT +1 T +1 )
2XT +1 (X
T +1 1
T +1
T +1 )
X)
E(u
T +1 )
ya que la esperanza E(u E(u

T +1 )
es cero:

= E(u(uT +1 uT )) = E(u1 T +1 ) E(u1 (uT +1 uT )) E(u E(u (u 2 T +1 ) 2 T +1 uT )) E(u3 T +1 ) = E(u3 (uT +1 uT )) = . . . . . . E(uT T +1 ) E(uT (uT +1 uT ))
=
T T 1 T 1 T 2 T 2 T 3 . . .
2 T 1 2 T 2 2 T 2 2 T 3 . . . 2 2
2 T
2 T 1
1 0 0 0 0 . . . 0

2 T 1 2 T 1 2 T 2 2 T 2 . . . 2 2
2 T
2 T
Bajo normalidad de las perturbaciones, u N (0, 2 ): eT +1 N (0, Var(

T +1 ) + XT +1 Var(M CG )XT +1 )
eT +1 N 0, 2 + 2 XT +1 (X 1 X)1 XT +1
eT +1 N 0, 2 + de donde
2 X (X 1 X)1 XT +1 1 T +1
IC1 (YT +1 ) = YT +1 N (0, 1)/2 1
1 + XT +1 (X 1 X)1 XT +1
IC1 (YT +1 ) = (XT +1 M CG + T ) N (0, 1)/2 1 + (XT +1 XT )(X 1 X)1 (XT +1 XT ) u A partir de aqu los ajustes necesarios no distan de los realizados para heterocedasticidad. , 102
Tema 5
Regresores Estocsticos a
5.1. Introduccin o
Durante buena parte de estos contenidos hemos mantenido el supuesto bsico sobre los regrea sores, de que X era una matriz de variables explicativas jas (no estocsticas). Este supuesto a es apropiado para experimentos de laboratorio o para variables como la tendencia o variables cticias, sin embargo, no se ajusta a la realidad. En este tema y siguientes relajaremos dicho supuesto para adecuarnos a la realidad econmico-social. Por ejemplo, si analizamos la relacin o o entre consumo y renta no podemos suponer que la variable explicativa renta sea ja ya que tanto el consumo como la renta vienen determinados por el mismo sistema econmico-social y o son aleatorios. En este tema analizaremos si los mtodos de estimacin e inferencia vistos hasta ahora son vlidos e o a cuando X es estocstica. En caso de que no sea as analizaremos qu mtodos alternativos estn a e e a disponibles. Sea Y = X + u donde X es estocstica. En este entorno el estimador MCO de se a M CO = + (X X)1 X u es decir, es una funcin estocstica no lineal de X y u dene como o a y por tanto sus propiedades dependen de la distribucin conjunta de estas. Para analizar si el o estimador es insesgado buscamos su valor esperado: E(M CO ) = + E[(X X)1 X u] para poder obtener E[(X X)1 X u] debemos suponer o conocer la distribucin conjunta de las variables aleatorias X y u . Bajo el o supuesto de regresores jos, el problema se soluciona fcilmente: a E[(X X)1 X u] = (X X)1 X E(u) = 0 ya que E(u) = 0
pero bajo regresores estocsticos la igualdad no se cumple y es preciso contar con la distribua cin conjunta de X y u para poder derivar propiedades de los estimadores M CO as como las o distribuciones de los estad sticos de contraste habituales. Una forma de enfocar el problema es utilizar la distribucin de Y condicionada a X. Podemos o 2 ) como: escribir la distribucin conjunta f (Y, X; , u o
2 2 f (Y, X; , u ) = f (Y /X; , u ) f (X; )
103
SARRIKO-ON 4/08 distribucin conjunta = distribucin condicionada distribucin marginal o o o En trminos de la perturbacin u : e o
2 2 f (u, X; , u ) = f (u/X; , u ) f (X; )
f (u/X) =
f (u, X) f (X)
2 Si nuestro inters se centra en los parmetros de la distribucin condicionada (, u ) y estos no e a o estn relacionados con los parmetros de la distribucin marginal , podemos olvidarnos de ella a a o y considerar slo la distribucin de Y condicionada a unos valores jos de las variables o o aleatorias X.
El modelo lineal general condicionado a X se puede escribir como: Y = X + u donde: E(u/X) = 0 2 E(uu /X) = u IT rg(X) = k > T 2 u/X N (0, u IT ) y podemos derivar los siguientes resultados condicionados: E(/X) = + E[(X X)1 X u/X] = + (X X)1 X E(u/X) = = E[(X X)1 X uu X(X X)1 /X] = (/X) = (X X)1 X E(uu /X)X(X X)1 = 2 = (X X)1 X u IT X(X X)1 = 2 (X X)1 = u 2 E(u /X) = u 2 = u (X X)1 2 (/X)
El estimador de M CO no es un estimador lineal, sino una funcin estocstica no lineal de X e o a Y , por lo que estrictamente hablando no podemos aplicar el Teorema de Gauss Markov y decir que tiene menor varianza entre todos los lineales e insesgados. Sin embargo, si consideramos la varianza del estimador como condicionada a valores jos de X, entonces, el estimador es eciente. La distribucin condicionada a los valores jos de X es: o /X N (, 2 (X X)1 ) y los estad sticos t y F condicionados a X siguen una distribucin t-student y F-snedecor respeco tivamente. De esta forma, aunque en principio, las variables X son v.a. si condicionamos a unos valores jos de stas, los resultados habituales se mantienen. Esta conclusin no es sorprendente, e o porque trabajar condicionado a X es tratar a X como si fuera una matriz de variables jas y los resultados dependen de los valores concretos que toman estas variables en la muestra. El problema se plantea cuando nos encontramos con situaciones en las que los regresores son estocsticos y no tiene sentido realizar un anlisis condicionado a unos valores jos de X. Para a a ilustrar en qu situaciones no podemos hacer este supuesto vamos a considerar tres ejemplos: e Ejemplo 1 Suponemos el siguiente modelo de regresin: o Yt = + Yt1 + ut t = 2, 3, . . . , T 104
2 ut N (0, u )
SARRIKO-ON 4/08 en este modelo aparece como regresor la variable dependiente retardada un periodo. Dado que Yt es una v.a. el regresor Yt1 tambin lo es. En esta situacin la matriz de regresores X es e o estocstica y se dene como: a X = [1; Yt1 ] Por otro lado, no podemos realizar el anlisis condicionado a unos valores jos de Yt1 ya que a no tendr sentido porque es el propio modelo estocstico el que indica cmo se generan. a a o Ejemplo 2 Dado el siguiente modelo de regresin: o Yt = + Xt + vt
2 vt N (0, v )
t = 1, 2, . . . , T
siendo Xt la habilidad de un trabajador, variable no observable ya que es dif de medir. En cil su lugar observamos la variable Xt aos de experiencia del trabajador en el puesto de trabajo, n tal que: Xt = Xt +
t t
N (0, 2 )
Cov( t , vt ) = 0
t = 1, 2, . . . , T
o donde t es una v.a. que recoge el error de medida en t. En esta situacin, Xt es una v.a. aunque consideremos a Xt como ja. El modelo estimable ser a: Yt = + Xt + (vt t ) llamamos ut = (vt t ), en este caso ut es una funcin de o realizar un anlisis condicionado a unos valores jos de X. a
t
y X por ello no tendr sentido a
Ejemplo 3 Supongamos que se quiere estimar los parmetros de la siguiente ecuacin de demanda de un a o bien: Qt = + Pt + ut t = 1, 2, . . . , T donde Q es la cantidad demandada y P es el precio. Dado que en el momento t observamos la cantidad y precio de equilibrio, ambas variables se determinan simultneamente en el mercado. a Luego tanto Q como P son variables endgenas. Si en t se produce un shock en la demanda del o bien debido por ejemplo, a un cambio en los gustos de los consumidores. Al ser recogido por ut se genera un cambio tanto en la cantidad demandada como en el precio. En este contexto dado que las variables se determinan simultneamente ambas son aleatorias. Este es otro ejemplo a donde la matriz de regresores es estocstica y no tiene sentido realizar el anlisis condicionado a a a valores jos de Pt t = 1, 2, . . . , T , dado que Pt se determina simultneamente a Qt . a
5.2.
Propiedades de los MCO
Estudiaremos las propiedades del estimador MCO en las siguientes situaciones: 2.1 Independencia entre regresor y error. 2.2 Incorrelacin contempornea entre regresor y error. o a 2.3 Correlacin entre regresor y error. o 105
SARRIKO-ON 4/08
5.2.1.
Independencia entre regresor y error
Vamos a buscar las propiedades del estimador MCO cuando X y u son independientes. Sea Y = X + u donde: 1. X es una matriz estocstica, (alguno de sus regresores es una v.a) con una determinada a funcin de densidad f (X), es decir X toma diferentes valores con diferentes probabilidades. o
2 2. u N (0, u IT )
3. X y u se distribuyen independientemente, es decir E(X u) = E(X )E(u) = 0.

1 4. plim T X X = Q 1 5. plim T X u = 0
simtrica, semidenida (+) y no singular. e ya que se cumple el teorema de Mann y Wald. X2t , ... , Xkt ) no
La hiptesis dos garantiza que la funcin de densidad marginal de (X1t , o o 2 depende de los parmetros (, u ) t y por tanto: a f (u/X) = f (u) f (u/X) = ya que : f (u)f (X) f (u, X) = f (X) f (X) lo que en trminos de valores esperados signica: e
E(u/X) = E(u) = 0 2 E(uu /X) = E(uu ) = u IT E(Y /X) = E(X + u/X) = E(X) + E(u/X) = X + E(u) = X 2 V ar(Y /X) = V ar(u/X) = V ar(u) = u IT Esto signica que podr amos estimar el modelo de forma condicionada, lo que implica tratar a X como ja y por tanto tendr amos los resultados conocidos. Pero si las X son estocsticas lo a lgico es hacer inferencia no condicionada. o
Resultados en muestras nitas para valores de X no condicionados: a) Linealidad: M CO = + (X X)1 X u funcin no lineal de X y u. o El estimador M CO ya no es una combinacin lineal de las perturbaciones, sino que o es una funcin estocstica no lineal de X y u, por lo que sus propiedades dependen o a de la distribucin conjunta de stas. o e b) Insesgadez: Dado que X y u son independientes y E(u) = 0 por hiptesis bsica: o a E(M CO ) = E() + E[(X X)1 X u] = = + E[(X X)1 X ]E[u] = por tanto M CO es insesgado si X y u son independientes y E[(X X)1 X ] existe y es nito. Para demostrar esta propiedad hemos utilizado el siguiente resultado estad stico: E(a) = Eb [Ea/b ] ya que : E(M CO ) = EX [E(M CO /X)] = EX [ + (X X)1 X E(u/X)] = 106 y EW X = EX [EW/X ]
SARRIKO-ON 4/08 c) Matriz de varianzas y covarianzas: = E(M CO )(M CO ) Aplicando EW X = EX [EW/X ]

M CO 2 dado que E(uu ) = u IT
= E[(X X)1 X uu X(X X)1 ] = = EX {Eu/X [(X X)1 X uu X(X X)1 ]} = = EX {(X X)1 X Eu/X (uu )X(X X)1 } =
2 = EX {(X X)1 X u IT X(X X)1 } = 2 = u EX {(X X)1 }
M CO sigue siendo el estimador insesgado de m nima varianza. siendo: EX el valor esperado de la distribucin marginal de X. o Eu/X el valor esperado de la distribucin condicional de u dado X. o 1 es la matriz de covarianzas poblacional de los regresores calculada EX (X X) en la distribucin marginal de X. o Un estimador insesgado de desconocidos es:
M CO 2 donde u y EX (X X)1 son los dos elementos
(M CO ) = u {EX (X X)1 } 2 E
M CO 2 2 = EX {ES 2 /X [u (X X)1 ]} = EX {u (X X)1 } = u EX (X X)1 2
Distribucin e inferencia: o El estimador M CO es una combinacin no lineal de X y u y por tanto no tiene porqu tener o e una distribucin normal incluso aunque X e u la tengan. Como consecuencia no tenemos o garantizado que M CO N ( , ) y por tanto los estad sticos t y F no tienen una distribucin exacta conocida, por ello la inferencia no es vlida. o a Conclusin: La eliminacin del supuesto de que X es ja sustituyndolo por X estocstio o e a ca pero independiente de u no altera las propiedades deseables ni la variabilidad de la estimacin m o nimo cuadrtica. a (Nota: Green tiene una referencia a Hamilton en que ste demuestra que los estad e sticos t y F son vlidos para este caso de independencia entre X y u.) a Propiedades en muestras grandes: 1 Bajo los supuestos habituales, y si adems se satisface que plim T X X = Q nita a y no singular es posible derivar las propiedades asintticas para los estimadores MCO o utilizando el Teorema de Mann y Wald y el Teorema de Cramer. a) Consistencia: plimM CO = plim + plim i) plim
1 TX
1 XX T
plim
1 Xu T
= Q1
1 ii) plim T X u = 0 ya que se cumple el Teorema de Mann y Wald. Veamos sus condiciones: 2 i) u1 , u2 , . . . , uT v.a tal que ut iid(0, u ) ii) E(X u) = E(X )E(u) = 0 por independencia entre X y u.
ii) plim
1 TX
X =Q
nita, simtrica y no singular e 107
SARRIKO-ON 4/08 i) + ii) + iii) implican los resultados siguientes: 1. plim 2. As ,

1 X T 1 TX d
u =0
2 u N (0, u Q)
plim(M CO ) = + Q1 0 =
por tanto M CO es un estimador consistente del parmetro . a o o o b) Distribucin asinttica e inferencia asinttica: Aplicando el Teorema de Cramer: Si YT = AT ZT y : plimAT = A a ZT N (, ) de donde podemos escribir: (M CO ) = T (M CO ) = 1 XX T
1
AT ZT N (A , A
A)
1 Xu T
1 1 1 Xu XX T T Dado que como acabamos de ver se cumple el Teorema de Mann y Wald, con los dos resultados anteriores obtenemos:
T (M CO ) = de donde
1 XX T
1 d 2 X u N (0, Q1 u Q (Q1 ) ) T
d 2 T (M CO ) N (0, u Q1 )
Dado que se cumple el Teorema de Mann y Wald las propiedades asintticas se o mantienen y tiene sentido la inferencia asinttica. o Bajo H0 : R = r, los estad sticos t y F se distribuyen asintticamente como N (0, 1) y o 2 respectivamente, si el tamao de la muestra es sucientemente grande. Por lo tanto, n (q) podemos utilizar estas distribuciones asintticas para aproximar la distribucin exacta de o o los estad sticos. As para contrastar q restricciones lineales de la forma: Ho : R = r , Ha : R = r utilizamos el siguiente estad stico: (RM CO r) [R(X X)1 R ]1 (RM CO r) d 2 (q) 2 u Si q=1 podemos utilizar el estad stico: u RM CO r d N (0, 1) 1 R ) (R(X X)
Si por ejemplo queremos contrastar la signicatividad de una de las variables explicativas: Ho : i = 0 versus Ha : i = 0 en este caso q=1 y podemos escribir el estad stico a utilizar como: i,M CO d N (0, 1) des(i,M CO ) 108
SARRIKO-ON 4/08 Observacin: El supuesto de independencia entre regresores y perturbacin es muy restrictivo o o en ciertas ocasiones. Por ejemplo, en los casos ilustrados anteriormente no se cumple. Ejercicio: En el modelo lineal simple: Yt = + Xt + ut
2 ut iid(0, u )
t = 1, 2, . . . , T
donde Xt es una variable estocstica pero independiente de la perturbacin buscar el estimador a o de MCO y sus propiedades en muestras nitas. El estimador de MCO se dene. M CO = yt xt =+ x2 t xt ut x2 t
Buscamos ahora sus propiedades en muestras nitas: E(M CO ) = E + =+E =+E

xt ut x2 t x1 u1 x2 t x1 x2 t
=
x2 u2 x2 t
+ ... +
xT uT x2 t
=
xT x2 t
E(u1 ) + E
x2 x2 t
E(u2 ) + . . . + E
xt x2 t
E(uT ) =
Y por lo tanto, dado que E(ut ) = 0 t, M CO es insesgado si E V ar(M CO ) = E(M CO )2 = =E =E =E =

2 = u xt ut x2 t x1 u1 x2 t ( 2
existe y es nito t.
=
x2 u2 x2 t
+ ... +
xT uT x2 t (
=
x2 u 2 T T x2 )2 t
x2 u2 1 1 x2 )2 t (
x2 u2 2 2 x2 )2 t
+ ... +
2 (
xt xs ut us x2 )2 t
x2 t x2 )2 t (
E(u2 ) = t
x2 t x2 )2 t
T t=1 E
y la esperanza debe existir.
5.2.2.
Incorrelacin contempornea entre regresores y error o a
X, u no son independientes pero son incorreladas contemporneamente Cov(Xit , ut ) = 0, es a decir, mantenemos que E(Xit ut ) = 0 i = 1, 2, . . . , k, pero no la independencia entre Xit y ut . En este caso no podemos derivar anal ticamente las propiedades en muestras nitas del estimador: a) Valor medio: E(M CO ) = E() + E[(X X)1 X u] y en general ser sesgado ya que E[(X X)1 X u] puede ser distinto de cero. a 109
SARRIKO-ON 4/08 b) Matriz de varianzas y covarianzas: Su clculo es complicado dada la no linealidad del estimador en X y u. a o o u c) No conocemos su distribucin exacta, no siguen una distribucin normal an en el caso de que Xit i t y u la sigan. Como consecuencia los estad sticos t y F no tienen distribucin exacta conocida. o d) Las propiedades asintticas de consistencia y distribucin asinttica se mantienen ya que o o o podemos aplicar los Teoremas de Mann y Wald, Cramer y Slutsky. Ejercicio 1: En el modelo: Yt = Xt + ut donde:
2 ut N (0, u ) Xt es v.a tal que E(Xt ut ) = 0 pero Xt e ut no son independientes.
t = 1, 2, . . . , T
Denimos el estimador MCO como : M CO = Xt Yt 2 =+ Xt Xt ut 2 Xt
Buscamos las propiedades en muestras nitas: E(M CO ) = E + E

Xt ut 2 Xt
Xt u t =+E 2 Xt
Xt ut = 2 Xt
puede ser distinto de cero, por tanto el estimador MCO ser sesgado en general. a
Dado que Xt y ut no son independientes: E adems no podemos hacer a E Xt ut E[ Xt ut ] = 2 2 Xt E[ Xt ] Xt ut =E 2 Xt Xt 2 E(ut ) Xt
con lo que no podemos derivar sus propiedades estad sticas en muestras pequeas anal n ticamente. Sin embargo, si las propiedades habituales se cumplen podemos aplicar el Teorema de Mann y Wald y el estimador MCO ser consistente, con distribucin asinttica conocida y podremos a o o hacer inferencia en el l mite. plimM CO = + plim 1 T
2 Xt 1
plim
1 T
Xt ut
Por el Teorema de Mann y Wald, aplicado sus condiciones al ejercicio:

2 i) u1 , u2 , . . . , uT v.a tal que ut iid(0, u )
ii) E(Xt ut ) = 0 ya que Xt e ut son incorreladas. iii) plim

1 T 2 Xt = qXX
110
SARRIKO-ON 4/08 de i)+ii)+iii) obtenemos que: 1.plim

1 2. T 1 T
Xt ut = 0
d
2 Xt ut N (0, u qXX )
de i) plimM CO = por lo tanto es un estimador consistente de . 2 d de ii) T (M CO ) N (0, qu ) y haremos inferencia del tipo H0 : R = r con el XX siguiente estad stico asinttico: o (RM CO r) [R(X X)1 R ]1 (RM CO r) d 2 (q) u 2 si slo hay una hiptesis de contraste, es decir q=1 podemos realizar el contraste con el siguiente o o estad stico: RM CO r d N (0, 1) (R(X X)1 R )
u Ejercicio 2: Sea el modelo:
Yt = + Yt1 + ut donde:
t = 2, . . . , T
|| < 1
E(ut ) = 0 t
2 E(u2 ) = u t
t t=s
E(ut us ) = 0
t, s
dado que Yt es v.a. Yt1 tambin lo es, luego la matriz de regresores es estocstica. Vamos a e a tratar de determinar las propiedades del estimador MCO del parmetro . Para ello tenemos a que analizar las relaciones entre Yt1 y ut . Retardando el modelo obtenemos: Yt = + Yt1 + ut = = + ( + Yt2 + ut1 ) + ut = = + + 2 Yt2 + ut1 + ut = = (1 + ) + 2 ( + Yt3 + ut2 ) + ut1 + ut = = (1 + + 2 ) + 3 Yt3 + 2 ut2 + ut1 + ut = = ............ = = (1 + + 2 + . . . + t1 ) + t Y0 + ut + ut1 + 2 ut2 + . . . + t1 u1 = = t1 + t Y0 + s uts s=0 t=1 de donde: Yt depende de Y0 , u1 , u2 , u3 , . . . , ut1 , ut pero no depende de ut por lo tanto podemos mantener que Yt1 y ut estn incorreladas contemporneamente Cov(Yt1 , ut ) = 0 ya que a a Yt1 = Xt Cov(Xt , ut ) = 0 incorrelacin contempornea. Ahora vamos a probar que no o a son independientes: yt1 = Yt1 Y = Yt1 1 (Y1 + Y2 + . . . + Yt + Yt+1 + . . .) T
Yt depende de ut , como Yt1 incorpora a Yt y esta a su vez a ut , no son independientes. En este caso: 111
SARRIKO-ON 4/08 1) Y1 , Y2 , . . . , YT no ser v.a. independientes de u1 , u2 , . . . , uT . an 2) Como E(ut us ) = 0 t = s entonces E(Yt1 ut ) = 0 t, el regresor y la perturbacin o estn contemporneamente incorrelados. a a Propiedades de M CO en muestras nitas: M CO = +
T t=2 yt1 ut T 2 t=2 yt1 T t=2 yt1 ut T 2 t=2 yt1
E(M CO ) = + E Notar que: E

T t=2 yt1 ut T 2 t=2 yt1
E E
ya que numerador y denominador no son independientes. Sabemos que E

T t=2 yt1 ut
= 0 pero esto no implica que

=0
por tanto no podemos mantener la insesgadez y tampoco podemos hablar de eciencia. De igual manera no conocemos su distribucin exacta en muestras nitas. o o Propiedades asintticas. Consistencia: Podemos demostrar que el estimador es consistente ya que se cumple el Teorema de Mann y Wald. Aplicamos las condiciones del teorema al ejercicio:
2 1. ut iid(0, u )
2. E(Xt ut ) = E(Yt1 ut ) = 0 3. Suponemos que plim

1 TX
X = Q1 tal que plim

1 TX
1 T
2 yt1 = ,
es un escalar
de [1]+[2]+[3] obtenemos que plim [1; Yt1 ] implica: 1. plim 2. plim

1 T 1 T
u = 0 que aplicado al ejercicio, dado que X =
ut = 0 Yt1 ut = 0 plim
1 T
yt1 ut = 0
Por tanto el l mite en probabilidad del estimador MCO de la pendiente del modelo es: plimM CO = plim + plim = + plim =+0
1 T
T y u t=2 t1 t T 2 y t=2 t1
=
T t=2 yt1 ut
1 T 1 2 plim T t=2 yt1
112
SARRIKO-ON 4/08 Distribucin asinttica: o o d 1 2 El segundo resultado del Teorema de Mann y Wald es que T yt1 ut N (0, u ) por tanto la distribucin asinttica del estimador MCO de la pendiente del modelo es: o o 2 d T (M CO ) N 0, y podemos hacer inferencia asinttica. o Conclusin: Cuando ut cumple las hiptesis bsicas est justicado el uso de los MCO en un o o a a modelo donde entre los regresores aparece la variable endgena retardada, independientemente o del nmero de retardos, pero los resultados de MCO se cumplen slo asintticamente. u o o
5.2.3.
Correlacin entre regresores y error o
En muchas ocasiones la hiptesis Cov(Xit , ut ) = 0 no es vlida. En este caso los estimadores o a MCO no son ni siquiera consistentes. Hay cuatro puntos a solucionar en relacin a este tema: o o a) Cmo aparecen las correlaciones entre X y u ? i) En modelos con variable endgena retardada como regresor y perturbacin autocorreo o lada. o a ii) Cuando la variable exgena est medida con error. iii) En modelos de ecuaciones simultneas, por ejemplo en el modelo de oferta y demanda a donde P y Q se determinan simultneamente. a iv) Si el modelo tiene un problema de omisin de variable relevante y la variable omitida o est correlada con los regresores. Esta correlacin aparecer v la perturbacin ya a o a a o que la perturbacin recoge las variables omitidas. o e b) Qu importancia puede tener este problema? En realidad depende del caso concreto, pero de forma general podemos decir que se pierden las propiedades en muestras pequeas y n grandes. c) Cmo podemos detectar que existe el problema? Usando test de contraste que sean cao paces de detectar la correlacin entre X y u . o o o d) Cmo podemos solucionar el problema? Si la existencia de correlacin entre regresores y perturbacin se debe a un problema de omisin de variable relevante debemos especicar o o correctamente el modelo. En el resto de casos tendremos que buscar un mtodo de estie macin alternativo a MCO que nos produzca buenas propiedades, aunque stas se logren o e slo en muestras grandes. o Algunos ejemplos. Ejemplo 1: Omisin de variable relevante. o Sea el modelo correctamente especicado: Yt = 1 + 2 X2t + 3 X3t + vt donde E(X2t vt ) = 0 E(X3t vt ) = 0 2 vt iid(0, v ) 113 t = 1, 2, . . . , T
SARRIKO-ON 4/08 pero el modelo que se estima es el siguiente: Yt = 1 + 2 X2t + ut tal que ut = 3 X3t + vt En el modelo que nalmente se estima tendremos: E(X2t ut ) = E[X2t (3 X3t + vt )] = 3 E(X2t X3t ) + E(X2t vt ) = 3 E(X2t X3t ) E(ut ) = 3 E(X3t ) + E(vt ) = 3 E(X3t ) luego: E(X2t ut ) = 0 E(ut ) = 0 si 3 = 0 si 3 = 0 y E(X2t X3t ) = 0 y E(X3t ) = 0 t = 1, 2, . . . , T
Por tanto X y u son independientes y E(u/X) = E(u) = 0 si X2t y X3t son variables aleatorias independientes y E(X3t ) = 0 t. Ejemplo 2: Simultaneidad. Sea el modelo formado por las siguientes dos ecuaciones: Yt = 1 + 2 Xt + ut Xt = 1 + 2 Yt + vt tal que: ut vt N ID 0 0 ,
2 u uv 2 uv v
t = 1, 2, . . . , T t = 1, 2, . . . , T
(5.1) (5.2)
Es decir ut y vt son v.a normales e independientemente distribuidas en el tiempo. Estamos interesados en estimar 1 y 2 en (5.1), para ello queremos saber si X y u son independientes y/o incorreladas. E(ut ) = 0 t E(Xt ut ) = E[(1 + 2 (1 + 2 Xt + ut ) + vt )ut ] = 2 1 E(ut ) + 2 1 E(ut ) + 2 2 E(Xt ut ) + 2 E(u2 ) + E(vt ut ) = 2 2 E(Xt ut ) + 2 u + uv t resolviendo: E(Xt ut ) = 1 2 (uv + 2 u ) 1 2 2
con lo que E(Xt ut ) = 0 si 2 = 0 y/o uv = 0
5.3.
Mtodo de Variables Instrumentales e
En modelos donde existe correlacin entre regresores y error como por ejemplo: o Yt = 1 + 2 X2t + 3 X3t + ut t = 1, 2, . . . , T 2 ut iid(0, u ) X2t variable ja X3t variable aleatoria tal que E(X3t ut ) = 0 114
SARRIKO-ON 4/08 O tambin: e
Yt = 1 + 2 Yt1 + 3 Xt + ut t = 1, 2, . . . , T ut = ut1 + t 2 t iid(0, ) || < 1
el estimador MCO es inconsistente y sesgado ya que E(X u) = 0. El procedimiento para obtener estimadores consistentes en un modelo de este tipo es el Mtodo de Variables Instrumentales. e Una variable instrumental es una variable Zt que satisface tres condiciones: 1. No est incluida en el modelo como variable explicativa. a 2. Est incorrelacionada con el trmino de error, E(Zt ut ) = 0. a e 3. Est correlacionada con la variable para la cual hace de instrumento. a Cualquiera de los dos modelos anteriores podemos escribirlos de la forma matricial habitual Y = X + u y sus ecuaciones normales son: X Y = X X donde lo que hacemos es premultiplicar el modelo por X . Si plim
1 TX
u =0
los estimadores
1 TX
as obtenidos son consistentes. Por tanto parece que sugiere que cuando plim
1 TZ
u = 0 en
vez de premultiplicar por X lo hagamos por Z tal que plim u = 0 y llamamos a Z matriz de instrumentos. Al estimador as obtenido se le conoce por el estimador de Variables Instrumentales y se dene: V I = (Z X)1 Z Y Demostracin: o Y = X + u Z Y = Z X + Z u
Denotamos por u = Z u u = Z u = Z (Y X) u = Z u = Z (Y X ) u u = Z (Y X ) Z (Y X ) = (Y X ) ZZ (Y X ) La funcin objetivo podemos escribirla como: o M in u u = M in Y ZZ Y 2 X ZZ Y + X ZZ X por las condiciones de primer orden obtenemos:
( u ) u
= 2X ZZ Y + 2X ZZ X = 0 = X ZZ (Y X ) = 0
De donde las ecuaciones normales del modelo ser an: X ZZ X = X ZZ Y tal que: V I V I V I = (X ZZ X)1 (X ZZ Y ) = (Z X)1 (X Z)1 (X Z)(Z Y ) = (Z X)1 (Z Y ) 115
SARRIKO-ON 4/08
5.3.1.
Propiedades del estimador de Variables Instrumentales
1. Linealidad: V I = + (Z X)1 (Z u) no lineal 1. Insesgadez: V I = (Z X)1 Z Y E(V I ) = + E[(Z X)1 (Z u)] = 0 en general el estimador ser sesgado ya que E[(Z X)1 (Z u)] = 0. El requisito impuesto a 1 para obtener el estimador de Variables Instrumentales V I es plim T Z u = 0 y no la independencia entre Z y u necesaria para que el estimador sea insesgado. 2. Consistencia: Suponiendo que plim
1 TZ
= QZX y dado que buscamos los instrumentos tal que
1 plim T Z u = 0, (E(Zt ut ) = 0), el estimador de Variables Instrumentales ser consisa tente. En este contexto hay que tener cuidado con la aplicacin del Teorema de Mann y o Wald. El estimador de Variables Instrumentales es siempre consistente y su consistencia proviene de la ausencia de correlacin entre los instrumentos y el trmino de error, con o e independencia de que ste tenga o no autocorrelacin. As el l e o mite en probabilidad del estimador es:
plimV I = + plim
1 ZX T
plim
1 Z u = + Q1 0 = zx T
3. Distribucin asinttica: o o Con respecto a la distribucin asinttica de V I , slo la podremos caracterizar si el trmino o o o e de perturbacin no est autocorrelado. o a En ausencia de autocorrelacin en las perturbaciones y suponiendo: o i) E(Z u) = 0 ii) plim iii) plim
1 TZ 1 TZ
Z = QZZ X = QZX
nita, simtrica y denida positiva. e nita, no singular es consistente y se tiene que por el Teorema de Mann y Wald:
entonces el estimador V I a) plim b)

1 Z T 1 TZ d
u =0
2 u N (0, u QZZ )
de donde aplicando el Teorema de Cramer tendremos: T (V I ) = 1 ZX T

1
1 d 2 Z u N (0, u Q1 QZZ (Q1 ) ) ZX ZX T
El resultado anterior justica que en muestras grandes se utilice como matriz de covarianzas asinttica del estimador de variables instrumentales a: o
(V I )
2 u 1 1 T (QZX QZZ (QZX )
116
SARRIKO-ON 4/08 y si se utilizan las matrices de momentos muestrales ZTX y ZTZ para aproximar sus l mites respectivos QZX y QZZ entonces se tiene como matriz de covarianzas asinttica a: o
(V I )
= =
1 2 u Z X 1 Z Z X Z T T T T 2 u (Z X)1 Z Z((Z X)1 )
Un estimador consistente de la misma ser a:

(V I )
= V I (Z X)1 Z Z((Z X)1 ) 2 (Y X V I ) (Y X V I ) T k
donde: V I = 2
2 es un estimador consistente de u . El resultado anterior no puede generalizarse fcilmente al a caso en el que la perturbacin tiene autocorrelacin. Modelos de este tipo son estimados por o o mximaverosimilitud. a
5.3.2.
Cmo buscar los instrumentos o
Con respecto a los instrumentos sabemos que stos tienen que cumplir tres condiciones: e 1. No estar incluidos como regresores en el modelo de inters. e 2. Estar incorrelacionados con la perturbacin del modelo de inters. o e 3. Estar correlacionados con la variable para la cul hacen de instrumento. a En la prctica existen dos situaciones diferentes en la bsqueda de instrumentos: a u a) Que el nmero de instrumentos disponibles coincida con el nmero de variables que neceu u siten instrumento. b) Que el nmero de instrumentos disponibles sea mayor que el nmero de variables que u u necesiten instrumento. N mero de instrumentos igual al n mero de variables explicativas que lo necesitan u u Supongamos que el nmero de instrumentos de que se dispone es igual al nmero de variables u u explicativas que necesitan instrumento. En este caso cada instrumento constituye una variable instrumental para sustituir a su correspondiente variable exgena correlada con la perturbao cin. En general en la matriz de regresores X slo habr unas variables que no satisfagan la o o a condicin E(Xit ut ) = 0 y son estas variables las que necesitan de variables instrumentales. Es o decir, las matrices Z y X tendrn en comn aquellas columnas correspondientes a las variables a u incorrelacionadas con el trmino de error. Notar que necesariamente Z y X deben tener el mismo e nmero de columnas ya que en otro caso (Z X) no ser cuadrada. u a Los instrumentos deben cumplir tres requisitos, mencionados anteriormente, no deben estar incluidos como variables explicativas en el modelo original, no deben estar correlados con la perturbacin y deben de estar correlados con la variable exgena para la que actan de instruo o u mento. En cuanto a esta correlacin, debe existir pero no puede ser muy importante pues en o 117
SARRIKO-ON 4/08 este caso, si lo fuera, E(Zt ut ) = 0 y Zt no servir de instrumento. A continuacin buscaremos a o algunos ejemplos. Ejemplo 1: Sea el modelo: Yt = + Xt + ut tal que
2 ut iid(0, u ) t = 1, 2, . . . , T 2 Xt = 0, 7Xt1 + vt vt iid(0, v ) E(ut vs ) = 5 si t = s E(ut vs ) = 0 si t = s En este caso el regresor Xt es un regresor estocstico correlado con la perturbacin: a o
E(Xt ut ) = E((0, 7Xt1 + vt )ut ) = 0, 7E(Xt1 ut ) + E(vt ut ) = 5 El estimador MCO de los parmetros del modelo es inconsistente y debemos estimar por el a Mtodo de Variables Instrumentales. Para ello buscamos un instrumento para Xt , podemos e pensar en Zt = Xt1 ya que Xt1 no es un regresor del modelo, est incorrelado con la pertura bacin, E(Xt1 ut ) = 0 y correlado con Xt ya que sta se genera por un proceso autorregresivo, o e E(Xt Xtj ) = 0 j > 0. Aplicamos el estimador de Variables Instrumentales para Zt = Xt1 :

Y =
Y2 Y3 ... YT
X=
1 1 ... 1
X2 X3 ... XT
Z=
1 1 ... 1
X1 X3 ... XT 1
Y el estimador V I = (Z X)1 (Z Y ) ser el siguiente: a V I V I = (T 1) T 2 Xt1

T 2 T 2
Xt Xt Xt1
T 2 T 2
Yt Xt1 Yt
Su matriz de varianzas y covarianzas estimada se dene:

(V I )
= u,V I (Z X)1 (Z Z)((Z X)1 ) 2

1
=
(V I )
u,V I 2
(T 1) T 2 Xt1
T 2 T 2
Xt Xt Xt1
(T 1) T 2 Xt1
T 2 T 2
Xt1 2 Xt1
(T 1) T 2 Xt1
T 2 T 2
Xt Xt Xt1
siendo: u,V I = 2 Ejemplo 2: Sea el modelo:
(Y X V I ) (Y X V I ) T k
Yt = 1 + 2 Xt + 3 Yt1 + ut ut = ut1 + Xt
t t
t = 1, 2, . . . , T
iid(0, 2 ) || < 1
no estocstica a
en este caso Yt1 depende de ut1 y ste se relaciona con ut v el proceso AR(1) por tanto e a E(Yt1 ut ) = 0 y el estimador MCO de los parmetros es inconsistente. En este caso si nuestro a objetivo es encontrar estimadores consistentes podemos estimar por Variables Instrumentales. 118
SARRIKO-ON 4/08 Sin embargo cmo la perturbacin est autocorrelada no podremos encontrar su distribucin o o a o asinttica para hacer inferencia asinttica con este estimador. Ms adelante propondremos un o o a estimador alternativo al de Variables Instrumentales basado en la estimacin del modelo transo formado. Sin embargo ahora vamos a implementar el estimador de VI cmo una prctica ms. o a a Necesitamos instrumentalizar Yt1 , un instrumento vlido es Xt1 ya que: a a) No aparece como regresor en el modelo. b) Al ser una variable ja est incorrelada con la perturbacin, E(Xt1 ut ) = 0 a o c) Xt1 inuye en Yt1 a travs del propio modelo por tanto E(Xt1 Xt ) = 0 ya que e Yt1 = 1 + 2 Xt1 + 3 Yt2 + ut1 En este caso las matrices Y , X y Z ser an:

Y =
Y2 Y3 ... YT
X=
1 1 ... 1
X2 X3 ... XT
Y1 Y2 ... YT 1
Z=
1 1 ... 1
X2 X3 ... XT
X1 X2 ... XT 1
As el estimador de variables instrumentales ser a:
1,V I (T 1) T 2,V I = 2 Xt T 3,V I 2 Xt1
T 2 T 2 T 2
Xt 2 Xt Xt1 Xt
T 2 T 2 T 2
Yt1 Xt Yt1 Xt1 Yt1
T 2 T 2 T 2
Yt Xt Yt Xt1 Yt
Y su matriz de varianzas y covarianzas estimada ser a: (T 1) (V I ) = u,V I T Xt 2 2 T 2 Xt1

T 2 T 2 T 2
Xt 2 Xt Xt1 Xt
T 2 T 2 T 2 T 2 T 2 T 2
Yt1 Xt Yt1 Xt1 Yt1 Xt 2 Xt Xt1 Xt
(T 1) T 2 Xt T 2 Xt1 siendo:
T 2 T 2 T 2
Xt 2 Xt Xt1 Xt
T 2 T 2 T 2
Xt1 (T 1) Xt Xt1 T Xt 2 T 2 Xt1 2 Xt1
T 2 T 2 T 2
Yt1 Xt Yt1 Xt1 Yt1
u,V I = 2 Ejemplo 3: Sea el modelo:
(Y X V I ) (Y X V I ) T k
Yt = 1 + 2 Yt1 + ut ut =
t
t = 1, 2, . . . , T
t1
En este caso ut se relaciona con ut1 pero no con ut2 , ut3 , . . . etc. ya que ut sigue un proceso MA(1). El instrumento adecuado para Yt1 ser su propio retardo ya que Yt1 se relaciona con a ut1 y ste a su vez con ut , de donde Yt2 se relaciona con ut2 y ut3 pero no con ut1 , por e tanto tampoco con ut , es decir E(Yt1 ut ) = 0 pero E(Yt2 ut ) = 0. Para este modelo las matrices de datos e instrumentos ser an: 119
SARRIKO-ON 4/08
Y =
Y3 Y4 ... YT
X=
1 1 ... 1
Y2 Y3 ... YT 1
Z=
1 1 ... 1
Y1 Y2 ... YT 2
Y el estimador V I = (Z X)1 (Z Y ) ser el siguiente: a 1,V I 2,V I = (T 2) T 3 Yt2

T 3 T 3
Yt1 Yt2 Yt1
T 3 T 3
Yt Yt2 Yt
En este caso el estimador de VI no tiene una distribucin asinttica conocida y deber o o amos estimar el modelo por otro mtodo que nos permita hacer inferencia, mtodo que ms adelante e e a veremos. Mtodo de M e nimos Cuadrados en dos etapas Hasta ahora hemos desarrollado el estimador de variables instrumentales para el caso en que el nmero de instrumentos sea igual al nmero de variables que lo necesitan. Generalmente se u u dispondr de un nmero mayor de instrumentos que de variables explicativas a sustituir, en este a u caso habr muchas formas de construir las variables instrumentales que precisamos para obtener a consistencia. Pero dado que la matriz de covarianzas del estimador de variables instrumentales depende de los valores de stas, el modo en que se combinan los instrumentos para generar e variables instrumentales inuye sobre la eciencia del estimador de variables instrumentales respecto a otro estimador de variables instrumentales de su misma clase. De ah que en ocasiones se hable de la eciencia relativa de los estimadores de variables instrumentales. Ejemplo 1: En el modelo: Yt = 1 + 2 X2t + 3 X3t + 4 X4t + ut donde: t = 1, 2, . . . , T
2 ut iid(0, u ) X3t , X4t variables jas 2 X2t = 0, 5X2,t1 + vt vt iid(0, v ) E(ut vt ) = 5 t = s E(ut vs ) = 0 t = s
En este caso: E(X2t ut ) = E[(0, 5X2,t1 + vt )ut ] = 0, 5E(X2,t1 ut ) + E(vt ut ) = 0, 5 0 + 5 = 5 En este ejercicio la variable explicativa X2t y la perturbacin estn contemporneamente correlao a a das, por tanto E(X u) = 0 donde X = [1; X2t ; X3t ; X4t ], por lo tanto el estimador MCO ser no a lineal y sesgado. En muestras grandes adems ser inconsistente. Deber a a amos estimar por el Mtodo de Variables Instrumentales, buscando un instrumento para X2t . e En este caso hay varios instrumentos que cumplen los requisitos, por ejemplo: E(X2,t1 ut ) = 0 E(X3,t1 ut ) = 0 E(X4,t1 ut ) = 0 120
SARRIKO-ON 4/08 Las variables X2,t1 , X3,t1 y X4,t1 adems de estar correladas con X2t no son regresores a del modelo por tanto X2,t1 , X3,t1 y X4,t1 ser buenos instrumentos. Tambin lo ser an e an combinaciones lineales de los mismos. Dado que en esta situacin el nmero de instrumentos o u supera al de variables que lo precisan se trata de buscar cul de todos los posibles instrumentos a minimiza la varianza del estimador resultante. Puesto que la matriz de varianzas y covarianzas de V I depende de la matriz de instrumentos, Z, el modo en que los instrumentos se combinan para generar variables instrumentales inuye sobre la eciencia del estimador de VI respecto a otro estimador de su misma clase. De ah que se hable en ocasiones de la eciencia relativa del estimador de VI. Una posibilidad consiste en generar la variable instrumental con mayor correlacin con Y . Para ello se estima por MCO una regresin auxiliar de esta variable sobre o o todos los posibles instrumentos. Para el ejemplo que nos ocupa, si suponemos que los unicos instrumentos de que disponemos son los primeros retardos de los regresores originales la regresin o auxiliar ser a: X2t = 1 + 2 X2,t1 + 3 X3,t1 + 4 X4,t1 + t t = 2, 3, . . . , T
as X2t es una combinacin lineal de todos los posibles instrumentos ponderado cada uno por o su correlacin con X2t , la variable a instrumentalizar. A continuacin se reestima el modelo por o o VI con: Z = [1; X2t ; X3t ; X4t ] X = [1; X2t ; X3t ; X4t ] Al estimador as obtenido se le llama estimador de M nimos Cuadrados en dos Etapas, MC2E. (Nota: En este ejemplo perdemos una observacin al construir X2t t = 2, 3, . . . , T ). As o :
Z=
1 1 ... 1
X22 X23 ... X2T
X32 X33 ... X3T
X42 X43 ... X4T
X=
1 1 ... 1
X22 X23 ... X2T
X32 X33 ... X3T
X42 X43 ... X4T
Ejemplo 2: En el modelo: Yt = 1 + 2 Yt1 + 3 X1t + 4 X2t + 5 X3t + ut donde: ut = ut1 +

t t
t = 2, 3, . . . , T || < 1
iid(0, 2 )
X1t , X2t , X3t
variables determin sticas
Las variables X1t , X2t y X3t al ser consideradas determin sticas estn incorrelacionadas con el a trmino de error, de igual manera lo estn sus retardos y stos son instrumentos vlidos para e a e a Yt1 . Es un caso en que el nmero de instrumentos es superior al de variables explicativas a u sustituir. Adems cualquier combinacin lineal de estos retardos ser as a o a mismo un instrumento vlido. Se tratar por tanto, de buscar cul de todas las posibles variables instrumentales a a, a minimiza la Un posibilidad consiste en generar la variable instrumental con mayor correlacin con Yt1 . Para o ello, se estima una regresin auxiliar de sta variable sobre los instrumentos de que disponemos. o e Si suponemos que los unicos instrumentos disponibles son X1,t1 , X2,t1 y X3,t1 , la regresin o auxiliar para instrumentalizar a la variable Yt1 ser a: 121
SARRIKO-ON 4/08
Yt1 = 0 + 1 X1,t1 + 2 X2,t1 + 3 X3,t1 + t
t = 2, 3, . . . T
as Yt1 ser una combinacin lineal de X1,t1 , X2,t1 y X3,t1 y como tal una variable ins a o trumental vlida. A continuacin se utiliza Yt1 como instrumento para Yt1 y se reestima el a o modelo con: Z = [1; Yt1 ; X1t ; X2t ; X3t ] X = [1; Yt1 ; X1t ; X2t ; X3t ] en V I = (Z X)1 Z Y Ejemplo 3: Sea el modelo: Yt = 1 + 2 Xt + 3 Z1t + ut
2 ut N ID(0, u ) 2 vt N ID(0, v )
generando el estimador de MC2E.
t = 1, 2, . . . , T
Xt = 1 + 2 Yt + 3 Z2t + 4 Z3t + vt
Cov(ut , vt ) = uv dado que 2 = 0 y/o uv = 0 existe correlacin entre Xt y ut , E(Xt ut ) = 0. El estimador o adecuado es el estimador de Variables Instrumentales. Necesitamos buscar un instrumento para Xt y tenemos dos disponibles Z2t y Z3t . Para combinarlos de forma ptima podemos realizar la o siguiente regresin: o Xt = 1 + 1 Z2t + 3 Z3t + t t = 1, 2, . . . , T
As el instrumento adecuado para Xt es Xt obtenido de la estimacin por MCO de la regresin o o anterior. Utilizamos el instrumento para jar la matriz de instrumentos Z. As :

Z=
1 1 ... 1
X1 X2 ... XT

Z11 Z12 ... Z1T
Y aplicamos el estimador de Variables Instrumentales para el cul: a

X=
1 1 ... 1
X1 X2 ... XT
Z11 Z12 ... Z1T
Y =
Y1 Y2 ... YT
En general la regresin de todas las variables explicativas sobre todos los posibles instruo mentos, recogidos en la matriz W , produce los coecientes (W W )1 W X y genera el vector de variables explicadas X = W (W W )1 W X que utilizadas como variables instrumentales, Z = X, conducen nalmente al estimador de m nimos cuadrados en dos etapas: Sea: Y = X + u siendo: X la matriz de variables explicativas. 122
SARRIKO-ON 4/08 Y la matriz de variables a explicar. W la matriz de posibles instrumentos. Regresamos X/W : X = W + u = (W W )1 W X X = W = W (W W )1 W X si utilizamos X como matriz de variables instrumentales, es decir Z = X tendremos que: V I = (Z X)1 Z Y = (X X)1 X Y = 1 W X]1 [X W (W W )1 W Y ] = M C2E = [X W (W W )
que ser el estimador de M a nimos Cuadrados en dos Etapas. Su matriz de varianzas y covarianzas ser a: 2 1 1 M C2E = u (Z X) Z Z((X Z) ) = 2 2 = u (X X)1 X X((X X)1 ) = u (X X)1 2 [X W (W W )1 W X]1 = u y u = 2 SRCV I T k
Puede probarse que el estimador de MC2E es el estimador lineal de variables instrumentales eciente, en el sentido de tener m nima matriz de covarianzas entre los estimadores que utilizan como variables instrumentales combinaciones lineales de los instrumentos disponibles. Sobre este estimador podemos hacer dos observaciones: Hay que notar que en el estimador de MC2E se regresan todas las variables explicativas sobre los posibles instrumentos, es decir, se parte de la idea de que si E(Xt ut ) = 0 el mejor instrumento para Xt es ella misma. La inclusin de retardos de las variables exgenas como instrumentos aumentar el cono o a junto de informacin utilizado en la construccin del estimador de MC2E. As hay un o o , estimador de MC2E para cada conjunto de instrumentos que se considere. Al utilizar ms a informacin, el estimador MC2E resultante ser ms eciente que otro estimador similar o a a que utilizase menos informacin; sin embargo, el uso de retardos obliga a prescindir de o algunas observaciones muestrales, lo que disminuye algo la eciencia.
5.3.3.
Contraste de hiptesis con el estimador de MC2E o
Para hacer contraste de restricciones lineales con el estimador de MC2E podemos utilizar el siguiente estad stico: H0 : R = r Ha : R = r (RM C2E r) [R(X XR ]1 (RM C2E r) d 2 (q) u 2 donde q es el nmero de restricciones que se contrastan y u es el estimador obtenido desde u 2 uM C2E = Y X M C2E
123
SARRIKO-ON 4/08 Estad stico de diferencias en las sumas residuales de cuadrados: Por paralelismo con el estimador de MCO el cual minimiza la expresin siguiente: SM CO = o (Y X) (Y X), el estimador de MC2E es aquel que minimiza la expresin o SM C2E = (Y X) W (W W )1 W (Y X) cuyas condiciones de primer orden son: X W (W W )1 W (Y X) = 0k que coinciden con las ecuaciones normales del estimador M C2E . Si minimizamos ahora SM C2E sujeto a restricciones de la forma R = r obtenemos el siguiente estimador restringido: r M C2E = M C2E (X X)1 R (R(X X)1 R )1 (RM C2E r) de donde: r ur C2E = Y X M C2E = uM C2E + X(X X)1 R [R(X X)1 R ]1 (RM C2E r) M de donde el estad stico de sumas de cuadrados ser a: r SRC(M C2E ) SRC(M C2E ) d 2 (q) 2 u y las sumas de cuadrados restringida y sin restringir se obtendr utilizando los residuos de las an estimaciones restringida y sin restringir. As : r SRC(M C2E ) SRC(M C2E ) = ur C2E W (W W )1 W ur C2E uM C2E W (W W )1 W uM C2E M M
5.3.4.
Contraste de Sargan de validez de instrumentos
Dado que los instrumentos los elige en cierta manera el investigador y la eleccin es en cierto o modo subjetiva resulta de utilidad disponer de un contraste para la validez de estos instrumentos. Sargan mostr que el estad o stico: SM C2E d 2 (pk) u 2 sirve para contrastar la validez de los instrumentos utilizados siendo: i) SM C2E = uV I W (W W )1 W uV I valor que puede calcularse como la suma explicada en una regresin de los residuos de las variables instrumentales uV I sobre el vector de variables o W, calculndose uV I con las variables del modelo original. a ii) p es el nmero total de instrumentos utilizados. u iii) k es el nmero de variables explicativas del modelo original. u Si el valor del estad stico calculado es mayor que el de la distribucin 2 o (pk) para un dado se acepta que el modelo est mal especicado o bien que no todos los instrumentos utilizados son a vlidos, es decir alguno-s estn correlacionados con el trmino de perturbacin. a a e o 124
SARRIKO-ON 4/08
5.3.5.
Perturbacin heterocedstica o a
2 Qu ocurre si la varianza de la perturbacin es heterocedstica, por ejemplo E(u2 ) = t , es e o a t decir E(uu ) = ?
Nuestro problema ahora es tal que: Yt = 1 + 2 X2t + 3 X3t + 4 X4t + ut donde:

2 E(ut ) = 0 t E(u2 ) = t t X2t , X3t variables jas E(X4t , ut ) = 0
t = 1, 2, . . . , T E(ut us ) = 0 t = s
en este caso el estimador MCO es inconsistente y deber amos estimar el modelo por variables 1 instrumentales tal que encontremos instrumentos que cumplan plim T Z u = 0. En este caso no podemos aplicar el Teorema de Mann y Wald tal y como lo hemos enunciado, pero el segundo Teorema Central del L mite nos garantiza que vamos a encontrar una distribucin o asinttica para el estimador. Si recordamos del tema de heterocedasticidad vimos como White o (1980) prob la existencia de un estimador para la matriz de covarianzas del estimador MCO o bajo heterocedasticidad cuando la forma espec ca de sta es desconocida. Entonces ten e amos: Y = X + u X de donde: ja y u N (0, )
M CO N (, (X X)1 (X X)(X X)1 )
el estimador consistente de sta matriz de varianzas y covarianzas era aquel que utilizaba como e estimador de a una matriz diagonal de los residuos MCO al cuadrado en t. es decir,

S=
u2 1 0 ... 0
0 u2 2 ... ...
... ... ... 0
0 0 ... u2 T
Siguiendo el enunciado del ejemplo el estimador de MCO es inconsistente y debemos estimar 2 por VI. Dado que E(u2 ) = t podemos incluir la correccin de White en el estimador de o t Variables Instrumentales. White (1982) demuestra que cuando se desconoce la forma funcional de heterocedasticidad y se utiliza como estimador a aquel que usa como variables instrumentales a la matriz Z tal que V I = (Z X)1 Z Y la matriz de covarianzas del estimador, aproximada en muestras nitas es: 1 1 (V I ) = (Z X) (Z SZ)((Z X) ) donde S es la matriz diagonal de residuos m nimo cuadrticos ordinarios a cuadrado denida a anteriormente. As para el estimador de MC2E la matriz de covarianzas aproximada en muestras nitas es:
(M C2E )
= (X X)1 (X S X)((X X)1 )
donde X = W (W W )1 W X y S es la matriz diagonal denida anteriormente.
125
SARRIKO-ON 4/08 Nota: En trminos de sumatorios podemos escribir: e V I = (Z X)1 (Z Y ) V ar(V I ) = 1 T

T 1
zt xt
1
1 T
T 1
u2 zt zt t
1 T
zt xt
1
por lo que para el caso del estimador de MC2E: V ar(M C2E ) = (X X)1 donde X = W (W W )1 W X 1 T
T 1
u2 xt xt t
XX
en esta situacin, de carcter general, se tiene que la diferencia V ar(V I ) V ar(M C2E ) es o a semidenida positiva por lo que el estimador de MC2E sigue siendo relativamente ms eciente a que otro estimador de Variables Instrumentales. Ahora bien, introduciendo ms generalidad, si permitimos que las variables instrumentaa les disponibles no sean necesariamente independientes del trmino de error del modelo, White e prob en el trabajo citado que existe un estimador an ms eciente que el estimador de MC2E, o u a este estimador se denomina estimador de Variables Instrumentales en dos Etapas(VI2E). En una primera etapa se estima el modelo por un procedimiento de variables instrumentales, por ejemplo MC2E, se guardan los residuos del estimador de Variables Instrumentales utilizado, por ejemplo uM C2E , y se obtiene en la segunda etapa el estimador:
V I2E = X Z
1 T
T 1
u2 zt zt t
Z X
X Z
1 T
T 1
u2 Zt Zt t
Z Y
Cuya matriz de covarianzas puede aproximarse como:
V ar(V I2E ) = X Z
1 T
T 1
u2 zt zt t
Z X
5.3.6.
Qu ocurre si existe autocorrelacin en la perturbacin? e o o
Supongamos ahora el modelo: Yt = 1 + 2 X2t + 3 X3t + 4 Yt1 + ut donde: t = 1, 2, . . . , T
2 || < 1 ut = ut1 + t t iid(0, ) X2t , X3t variables determin sticas
en este caso E(X2t ut ) = E(X3t ut ) = 0 pero E(Yt1 ut ) = 0 en concreto, ya que:

2 E(u2 ) = u = t
2 1 2
2 2 u = =0 1 1 1 2
E(Yt1 ut ) = E (
i=0
i 1 ut1i )ut =
126
SARRIKO-ON 4/08 la estimacin por MCO proporciona estimadores inconsistentes. En cualquier caso, suponiendo o que E(Yt1 ut ) = 0 y dado que ut AR(1) el estimador de MCO ser ineciente y por tana to con conocido estar amos aplicando MCG o MCGF si es desconocido. La pregunta es, cmo estimamos ahora? El problema principal es que E(Yt1 ut ) = 0 y no la existencia de o autocorrelacin, por tanto, segn eso nosotros deber o u amos estimar por Variables Instrumentales. Nuestro problema es que dada la existencia de autocorrelacin en la perturbacin no vamos o o a poder aplicar el Teorema de Mann y Wald y no podremos buscar directamente la distribucin asinttica del estimador. No obstante dado que buscamos Z, matriz de instrumentos, tal o o 1 que plim T Z u = 0 nuestro estimador de Variables Instrumentales ser consistente y si no a necesitamos hacer inferencia el estimador de VI est justicado. a Si nosotros queremos hacer inferencia, lo mejor es que estimemos por mxima verosimilitud, a pero tambin podemos optar por mirar al modelo transformado. e
Caso 1: conocido. En este caso el estimador de MCG es consistente y asintticamente normal ya que podemos o obtenerlo estimando por MCO el correspondiente modelo transformado: (Yt Yt1 ) = 1 (1 ) + 2 (X2t X2,t1 ) + 3 (X3t X3,t1 ) + 4 (Yt1 Yt2 ) + y
t
Cov((Yt1 Yt2 ) t ) = 0 E((X2t X2,t1 ) t ) = 0 E((X3t X3,t1 ) t ) = 0 con lo que la inferencia basada en la estimacin M o nimo Cuadrtica Generalizada es a asintticamente vlida. o a Caso 2: desconocido. En este caso podemos optar por implementar un proceso de estimacin del tipo Cochraneo Orcutt tal que: (Yt Yt1 ) = 1 (1 ) + 2 (X2t X2,t1 ) + 3 (X3t X3,t1 ) + 4 (Yt1 Yt2 ) + donde t = (ut ut1 ). En este caso E((X2t X2,t1 ), t ) = E((X3t X3,t1 ) t ) = 0 y adems: a E((Yt1 Yt2 ) t ) = 0 por lo que podemos aplicar MCO a la ecuacin anterior previa estimacin del parmetro o o a desconocido . Sin embargo debemos notar que el estimador de no debe conseguirse v a el estimador de MCO en el modelo original ya que ahora este estimador es inconsistente. Debemos estimar por Variables Instrumentales de la forma siguiente: 1. Estimamos el modelo: Yt = 1 + 2 X2t + 3 X3t + 4 Yt1 + ut t = 2, 3, . . . , T
t
por VI obteniendo 1,V I , 2,V I , 3,V I y 4,V I consistentes. Guardamos los residuos del modelo uV I,t . Notar que necesitamos encontrar un instrumento para Yt1 y que tanto el retardo de X2t como el retardo de X3t son vlidos as que para este ejemplo en concreto, a , deber amos utilizar tcnicas de MC2E. e 127
SARRIKO-ON 4/08 2. Regresamos por MCO: uV I,t = V I,t1 + u

t
y el estimador de as obtenido ser consistente e igual a : a V I =

T 2
uV I,t uV I,t1 T 2 2 uV I,t1
e 3. Sustituimos V I en el modelo transformado y estimamos ste por MCO: (Yt V I Yt1 ) = 1 (1 V I ) + 2 (X2t V I X2,t1 ) + 3 (X3t V I X3,t1 ) + 4 (Yt1 V I Yt2 ) + El estimador as conseguido es consistente y con distribucin asinttica conocida. Los con o o trastes basados en las tcnicas de MCGF son asintticamente vlidos. e o a Sin embargo el estimador obtenido no es totalmente eciente. Hatanaka (1974) mostr que o una ligera modicacin en el modelo transformado permite obtener la eciencia. La correco cin de Hatanaka se basa en estimar por MCO el siguiente modelo transformado: o (Yt V I Yt1 ) = 1 (1 V I ) +2 (X2t V I X2,t1 ) + 3 (X3t V I X3,t1 ) + 4 (Yt1 V I Yt2 ) + 1 uV I,t1 donde el estimador V I se obtiene del modelo anterior y uV I,t1 = V I uV I,t2 En este caso podemos seguir haciendo inferencia con las tcnicas de MCGF descritas e anteriormente y la matriz de covarianzas del estimador se aproxima de la misma manera que en el caso anterior.
5.4.
Contraste de Hausman
Necesitamos conocer un test de contraste que sea capaz de juzgar la incorrelacin entre X y u. o Supongamos que disponemos de dos estimadores: 0 que bajo H0 es consistente y eciente pero inconsistente bajo H1 . 1 consistente bajo H0 y H1 pero ineciente bajo H0 . y siendo:
H0 : X y u incorreladas H1 : X y u no incorreladas p Bajo H0 : q = 1 0 0 p Bajo H1 : q = 1 0 0 V ar() = V ar(1 ) V ar(0 ) q siendo: V ar(1 ) bajo H0 128
SARRIKO-ON 4/08 V ar(0 ) bajo H0 V ar() es un estimador consistente de V ar() el test de contraste ser: q q a T q V ar()1 q 2 q (p) donde: 0 es el estimador de MCO 1 es el estimador de VI p es el nmero de restricciones que se contrastan. u El estad stico tambin podemos escribirlo como: e (V I M CO ) [
(IV
M CO
d ]1 (V I M CO ) 2 (p)
Cuando hay una unica restriccin de contraste, p=1, podemos escribir el estad o stico de contraste como: (V I M CO )2 V ar(IV ) V ar(M CO ) Demostracin: h.q.d: o es decir: i) Bajo H0 : 0 2 (1)
d
V ar() = V ar(1 ) V ar(0 ) q Cov(0 , q ) = 0
y 1 son consistentes para y por tanto: plim = plim1 + plim0 = = 0 q
ii) Consideremos un nuevo estimador para denido por: d = 0 + donde = cte q plimd = plim0 + plim = + 0 = lo que implica que d es un estimador consistente q de iii) V ar(d) = E(0 + )2 q = V ar(0 ) + 2 V ar() + 2Cov(0 , q ) V ar(0 ) q 2 V ar() + 2Cov(0 , q ) 0 Cov(0 , q ) = 0 q que es lo que queremos demostrar. Si suponemos Cov(0 , q ) > 0 y < 0
0 q = 2Cov() ,) V ar( q 2 V ar() + 2Cov(0 , q ) = q
q Cov(0 ,)2 V (V ar())2 q
ar() q
q 2(Cov(0 ,))2 V ar() q
<0
q Si suponemos que Cov(0 , q ) < 0 y = Cov(0 ,) ocurre lo mismo. Por tanto Cov(0 , q ) = V ar() q 0 , como 1 = 0 + q V ar(1 ) = V ar(0 ) + V ar() q
V ar() = V ar(1 ) V ar(0 ) q c.q.d. 129
SARRIKO-ON 4/08 Observaciones: El estad stico de contraste de Hausman tiene algunos problemas al ser implementado. Hay que buscar V ar(), sabemos que: q V ar() = V ar(1 ) V ar(0 ) q 2 (Z X)1 (Z Z)((Z X)1 ) 2 (X X)1 = u u i) Si nosotros estimamos: V ar() = V ar(1 ) V ar(0 ) q 2 = u,V I (Z X)1 (Z Z)((Z X)1 ) u,M CO (X X)1 2 no tendremos problemas ya que la diferencia no ser singular ya que ambos sumandos se a premultiplican por su estimador consistente de la varianza de la perturbacin correspono diente: (Y X V I ) (Y X V I ) u,V I = 2 T k u,M CO = 2 (Y X M CO ) (Y X M CO ) T k
pero es incorrecto ya que asintticamente ambos coinciden y el test es asinttico. Deo o 2 al estimador de VI, 2 ber amos utilizar como estimador consistente de u u,V I ya que as se puede demostrar que la potencia del contraste aumenta. ii) Sin embargo, si buscamos
2 V ar() = u ((Z X)1 (Z Z)((Z X)1 ) (X X)1 ) q
esta diferencia es singular y no podremos implementar el estad stico si ocurre alguna de las cosas siguientes: 1. Existe columna de unos en el modelo y/o 2. Z y X tienen alguna columna en comn. u en este caso u,M CO = 2 (Y X M CO ) (Y X M CO ) T k
y la solucin ser utilizar el modelo en desviaciones cuando Z y X no tengan ms columnas o a a en comn. Como en el ejemplo 1, que ilustra esta situacin. O alternativamente conformar u o el test para aquellas variables que puedan estar correlacionadas con el trmino de error. e Esta es la alternativa utilizada por Hausman y Wu (1978) quienes sugieren escribir el modelo como: Y = X + u = Y1 + Z1 + u donde: Y1 incluye las r variables explicativas que pueden estar correlacionadas con el trmino de error. e Z1 incluye las variables cuya ortogonalidad a u no se cuestiona. proceso de contraste: 1. Estimamos el modelo por MCO y obtenemos u0 u0,M CO 130
SARRIKO-ON 4/08 2. Estimamos las regresiones auxiliares Y1 /instrumentos y se obtiene Y1 que se sustituye en el modelo inicial reestimndolo por MCO guardando u1 u1,M CO . Se computa: a (M CO V I ) V ar(V I ) V ar(M CO )
1
(M CO V I ) =
u0 u0,M CO u1 u1,M CO 2 u
u u0,M CO u1 u1,M CO 2 r 2 u bajo la hiptesis nula de que todas las variables explicativas del modelo original o son exgenas. Un valor elevado del estad o stico rebatir el supuesto y mostrar la a a necesidad de utilizar un procedimiento de estimacin de variables instrumentales. o
Los ejemplos 1 y 2 conforman el test de Hausman para un modelo en desviaciones donde Z y X no tienen nada en comn excepto la columna correspondiente al trmino indepenu e diente. Si los modelos no se tratasen en desviaciones a la media la matriz de covarianzas 2 u ((Z X)1 (Z Z)((Z X)1 ) (X X)1 ) ser singular. a Ejercicio 1 Sea: Yt = + Xt + ut
2 ut N (0, u )
t = 1, 2, . . . , T
y queremos contrastar la incorrelacin entre X y u. o H0 : E(Xt ut ) = 0 H1 : E(Xt ut ) = 0

xt yt x2 t yt zt 1,V I = x z = t t 2 V ar(0 ) = u 2 xt
0,M CO =
+
2 zt xt zt )2
ut zt x t zt
2 V ar(1 ) = u ( q = 1 0
V ar() = V ar(1 ) V ar(0 ) q

2 = u 2 = u ( x2 t x2 t ( 1 2 rXZ
2 zt xt zt )2
2 zt
1 x2 t
=
1 x2 t
( x2 t
xt zt )2 x t zt
2 zt 2 )
= =
2 u x2 t 2 u x2 t
1 =
1 =
2 1rXZ 2 rXZ
= V ar(0 )
de donde el estad stico de Hausman, que denotamos por m ser a: m= q2 V ar() q = (0,M CO 1,V I )2 V ar(0 ) 131
2 1rXZ 2 rXZ
SARRIKO-ON 4/08 Operando: m= donde
2 (0,M CO 1,V I )2 rXZ 2 (1) V ar(0 )(1 r2 ) XZ
2 V ar(0 ) = u 2 xt
y u = u,V I 2 2
Ejercicio 2 Se propone la siguiente especicacin para la funcin de demanda de vino de un pa o o s: Qt = + Pt + ut t = 1, 2, . . . , T
donde ut (0, 0,0921). dado que el precio se determina simultneamente con la cantidad Qt , se a sospecha que Pt pueda estar correlacionada con ut . Se dispone de datos de un ndice de costes de almacenamiento, St que se determina exgenamente, por lo que se considera independiente o de ut . Dados los siguientes datos para los aos de 1955-1975: n st qt = 1, 78037 p2 = 0, 507434 t st qt = 2, 75474 s2 = 2, 1417 t pt st = 0, 500484
Queremos contrastar la incorrelacin entre Pt y ut : o H0 : E(Pt ut ) = 0 H1 : E(Pt ut ) = 0 0,M CO = 1,V I = pt qt 1, 78037 2 = 0, 507434 = 3, 5085 pt st qt 2, 75474 = = 5, 4862 st pt 0, 500484
de donde como instrumento para Pt se usa el ndice de coste de existencias de almacn St e q = 1,V I 0,M CO = 1, 9777
2 rP S =
pt qt )2 = 0, 2304 p2 s2 t t
2 = 0, 09217 2 0, 09217 V ar(0 ) = u 2 = = 0, 18164 0, 507434 pt m= q 2 rPt St 2 V ar(0 )(1 r2

Pt St )
(1, 9777)2 (0, 2304)2 = 6, 5721 0, 18164(1 0, 2304)
2 0,05(1) = 3, 841 6, 5721 > 3, 841 por tanto rechazo la hiptesis nula para = 5 % y Pt y ut no son incorreladas. o Nota: El resultado del problema es exactamente el mismo que si nosotros buscamos directamente el estad stico m como: (V I M CO )2 m= V ar(V I ) V ar(M CO ) 132
SARRIKO-ON 4/08 donde:

2 V ar(V I ) = u
s2 0, 0921 2, 1417 t = = 0, 78747 2 st pt ) (0, 500484)2
m=
2 ya que en este caso u es conocida.
(1, 9777)2 = 6, 5721 0, 78747 0, 18164
5.5.
Errores de medida en variables
Hasta ahora hemos supuesto que las variables utilizadas en el proceso de estimacin se med o an sin error. En la prctica es muy posible que existan errores de medida en las variables o que a simplemente las variables a utilizar no sean sino estimaciones de conceptos tericos que no se o observan en la realidad, por ejemplo el stock de capital, el PIB, o las variables de Contabilidad Nacional. Estas situaciones alterarn las propiedades de los estimadores de los parmetros, en a a concreto introduciendo sesgos en las estimaciones y generando estimadores de MCO inconsistentes. Estudiamos tres casos: o 1. Variable endgena medida con error. 2. Variable exgena medida con error. o 3. Variable exgena y endgena medidas con error. o o
5.5.1.
Sea
Variable endgena medida con error o

Yt = + Xt + ut
2 ut N (0, u )
t = 1, 2, . . . , T
el verdadero modelo. Pero por alguna razn la variable endgena disponible no es Yt sino Yt = o o Yt + t y por tanto el modelo que vamos a estimar es: Yt = + Xt + ut donde Yt = Yt +
t 2 ut N (0, u )
t = 1, 2, . . . , T
iid(0, 2 ) Cov(Xt , t ) = 0 Cov(ut , t ) = 0 por lo que la autntica relacin a estimar es: e o y

t
Yt
= + Xt + ut Yt = + Xt + (ut + t ) Yt = + Xt + ut
El error de medida en la variable endgena se acumula en la perturbacin original, con lo cual o o debemos preocuparnos por las propiedades de la nueva perturbacin: o E(ut ) = E(ut + t ) = E(ut ) + E( t ) = 0 2 V ar(ut ) = E(ut E(ut ))2 = E(ut )2 = E(ut + t )2 = E(u2 ) + E( 2 ) + 2E(ut t ) = u + 2 t t Cov(ut , us ) = E((ut E(ut ))(us E(us ))) = E(ut us ) = E(ut + t , us + s ) = 0 Por tanto la perturbacin del modelo a estimar es homocedstica y no autocorrelada. Resumieno a do, si:
2 ut N (0, u ) t
N (0, 2 )
y Cov(ut , t ) = 0 t 133
2 ut N (0, u + 2 )
SARRIKO-ON 4/08 Como conclusin podemos decir que en presencia de errores de medida en la variable endgena o o exclusivamente y dado que Cov(Xt , t ) = 0 y Cov(Xt , ut ) = 0 y la perturbacin del modelo o estimable tiene propiedades esfricas, los MCO son apropiados y tienen buenas propiedades. e
5.5.2.
Variable exgena medida con error o
Sea el verdadero modelo de regresin: o Yt = + Xt + ut t = 1, 2, . . . , T
donde la variable Xt es una variable ja pero inobservable, pero observamos Xt = Xt + vt , variable aleatoria que incorpora el efecto de vt , an en el caso de que Xt sea ja. Adems u a hacemos las siguientes hiptesis: o
2 ut iid(0, u ) 2) vt iid(0, v Cov(ut , vt ) = Cov(ut , vs ) = Cov(us , vt ) = 0
En esta situacin el modelo que efectivamente se estima es el siguiente: o Yt = + (Xt vt ) + ut Yt = + Xt + (ut vt ) Yt = + Xt + ut o Propiedades de la nueva perturbacin ut : E(ut ) V ar(ut ) = E(ut vt ) = E(ut ) E(vt ) = 0 = E(ut E(ut ))2 = E(ut )2 = E(ut vt )2 2 2 2 = E(u2 ) + 2 E(vt ) 2E(ut vt ) = u + 2 v 2 0 t 2 2 = u + 2 v homocedstica a Cov(ut , us ) = E((ut E(ut ))(us E(us ))) = E(ut vt , us vs ) = = E(ut us ) E(vt us ) E(ut vs ) + 2 E(vt vs ) = 0 no autocorrelada
a o Adems necesitamos conocer la relacin entre el regresor y el error, es decir Xt y ut : Cov(Xt , ut ) = E(Xt ut ) = E((Xt + vt )(ut vt )) = 2 2 = E(Xt ut ) + E(vt ut ) E(Xt vt ) E(vt ) = v ya que al ser Xt una variable ja E(Xt ut ) = E(Xt vt ) = 0. Al ser la covarianza entre o a o Xt y ut distinta de cero existe correlacin contempornea entre la variable exgena y la perturbacin. o Buscamos ahora la existencia de correlacin no contempornea: o a Cov(Xs , ut ) = E(Xs ut ) == E((Xs + vs )(ut vt ) = = E(Xs ut ) + E(vs ut ) E(Xs vt ) E(vs vt ) = 0 y por lo tanto no existe correlacin no contempornea entre la variable exgena y la o a o perturbacin del modelo estimable. o Lo que sabemos es: El modelo a estimar es: Yt = + Xt + ut 134 t = 1, 2, . . . , T
SARRIKO-ON 4/08
2 2 donde: ut iid(0, u + 2 v ) 2 Cov(Xt , ut ) = v Cov(Xs , ut ) = 0
El estimador MCO del parmetro en el modelo es: a M CO = yt x t =+ xt 2 xt ut xt 2
Buscamos sus propiedades en muestras pequeas: n E(M CO ) = + E xt ut xt 2 =
por lo tanto el estimador es sesgado y estaremos interesados en sus propiedades asintticas. o Para ello tendremos que introducir hiptesis sobre la relacin en el l o o mite entre las diferentes variables. Los supuestos, aplicados en trminos generales, son: e 1. Los errores de medida en X no estn correlacionados en el l a mite con los verdaderos 1 regresores X plim T X V = 0. 2. plim 3. plim
1 TX 1 TV
X = QXX . V = v
Bajo estos supuestos [1]+[2]+[3] tenemos: plim

1 TX
= plim = plim
= plim = QXX + v
1 T (X + V ) (X + V ) = 1 T (X X + V X + X V + 1 1 T X X + plim T V X
V V) = + plim
1 TX
V + plim
1 TV
4. La perturbacin no est correlacionada en el l o a mite ni con X ni con el error de medida en X, as : 1 plim T V U = 0 plim
1 TX
U =0
Buscamos la consistencia del estimador, para ello le escribimos como: 1/T M CO = + 1/T de donde: plimM CO = plim + plim 1 T xt 2 xt ut xt 2
1
+ plim
1 T
xt ut
plim
1 T
xt 2
= plim
1 T
(xt + vt )2 =
1 T 2 vt + 2 plim 1 T
1 plim T x2 + plim t 2 2 = X + v
xt vt
135
SARRIKO-ON 4/08 plim

1 T
xt ut
= plim
1 T
1 T
(xt + vt )(ut vt ) =
1 T 1 xt vt plim T 2 vt =
1 plim xt ut + plim T vt ut plim 2 = 2 = 0 + 0 0 v v
De donde: plimM CO = y por lo tanto inconsistente.
2 v = 2 2 X + v
2 v 2 2 X + v Aunque el error de medida afecta slo a X la inconsistencia se traslada a todos los parmetros o a estimados por MCO. As para el trmino independiente tenemos: e M CO = Y X = + X + u X = ( )X + u
Sesgo asinttico = plim = o
plim = plim( )plimX + plimu = +
2 v +0= 2 2 X + v X
por lo tanto como conclusin podemos decir que un error de medida en la variable exgena tal o o que E(Xt ut ) = 0 implica que los estimadores MCO son sesgados e inconsistentes. Si el error de medida fuese una constante no se producir sesgos en la estimacin de los parmetros. El an o a modelo deber ser estimado por el Mtodo de Variables Instrumentales. a e
5.5.3.
Variable exgena y variable endgena medidas con error o o
Sea el verdadero modelo: Yt = + Xt + ut t = 1, 2, . . . , T donde: Yt = Yt + t es la variable endgena disponible. o Xt = Xt + vt es la variable exgena disponible. o 2 2 ut iid(0, u ) vt iid(0, v ) t N (0, 2 ) Cov(ut , t ) = Cov(ut , vt ) = Cov( t , vt ) = Cov(Xt , t ) = 0 El modelo a estimar ser a: Yt
t
= + (Xt vt ) + ut
t
t = 1, 2, . . . , T t = 1, 2, . . . , T
Yt = + Xt + (ut + Llamamos ut = ut +
t
vt )
2 2 a vt iid(0, u + 2 + 2 v ) homocedstica y no autocorrelada.
Existe correlacin contempornea ya que: o a E(Xt ut ) = E((Xt + vt )(ut + t vt ) = 2 = E(Xt ut ) + E(vt ut ) + E(X t t ) + E(vt t ) E(Xt vt ) E(vt ) = 2 = v No existe correlacin no contempornea ya que o a E(Xs ut ) = 0
El error de medida en Yt implica un incremento en la varianza de la perturbacin del modelo o estimable mientras que el error de medida en Xt implica que los estimadores MCO de y sern a sesgados e inconsistentes. El modelo a estimar (bajo todos los supuestos realizas anteriormente) deber ser estimado por el Mtodo de Variables Instrumentales. a e 136
Bibliograf a
[1] Alegre, J., J. Arcarons, C. Bolanc y L. D (1995), Ejercicios y problemas de Econometr e az, a, Ed. AC, Coleccin Plan Nuevo, Madrid. o [2] Alonso, A., F.J. Fernndez e I. Gallastegui (2005), Econometr Prentice Hall, Madrid. a a, [3] Aznar, A. y A. Garc (1984), Problemas de Econometr Pirmide, Madrid. a a, a [4] Fernndez, A., P. Gonzlez, M. Reglez, P. Moral y M. V. Esteban (2005), Ejercicios de a a u a edn., MacGraw-Hill, serie Schaum, Madrid. Econometr 2 a, [5] Greene, W. (1998), Anlisis Economtrico, 3a edn., Prentice Hall, New Jersey. a e [6] Gujarati, D. (1990), Econometr 2a edn., MacGraw-Hill, Madrid. a, [7] Hill, R. C., W.E. Griths, y G. G. Judge (2001), Undergraduate Econometrics, 2a edn., John Wiley and Sons, Inc., England. e a, [8] Johnston, J y J. Dinardo (2001), Mtodos de Econometr Vicens Vives, Barcelona. [9] Novales, A. (1993), Econometr Edicin revisada, McGraw-Hill, Madrid. a, o [10] Ramanathan, R. (2002), Introductory Econometrics with applications, 5th. edition, Ed. South-Western, Mason, Ohio. [11] Stock, J. y M. Watson (2003), Introduction to Econometrics, Addison-Wesley, Boston. [12] Uriel, E., D. Contreras, L. Molt y A. Peiro (1990), Econometr El modelo lineal, Ed. AC, o a. Madrid. [13] Wooldridge, J. M. (2003), Introductory Econometrics: A modern Approach, 2nd. edition, Thomson Learning, Mason, Ohio.
137

Analisis Econometrico 04-08

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisis Econometrico 04-08

Uploaded by

Copyright:

Available Formats

Anlisis Economtrico

M Victoria Esteban Gonzlez

Ma Victoria Esteban Gonzlez a

(vector de variables aleatorias que depende del tamao muesn

(vector de variables aleatorias que depende del tamao muestral) n

Convergencia en probabilidad. Operador plim, propiedades.

o lo que es lo mismo, mirando al suceso contrario: > 0, l P r{|Z(T ) Z| > } = 0 m

lo denotamos como : Z(T ) Z

si T V ar(XT ) 0 y la distribucin de XT est ms concentrada entorno a . o a a Comentarios: 4

siempre que plimS(T ) = 0

=E +P roductos cruzados = 1 1 = n2 E(X1 )2 + n2 E(X2 )2 + . . . + V ar(X1 ) V ar(X2 ) = n2 + n2 + . . . + V ar(Xn ) = n2 =

SARRIKO-ON 4/08 llamamos =

P r |Xn | > l P r |Xn | > m

Convergencia casi segura o con probabilidad 1. Convergencia en ley fuerte

o mirando al suceso contrario Pr

Convergencia en media cuadrtica a

l E(Z(T ) Z)2 m por lo tanto: >0 c.q.d.

entonces l T E(Z(T ) Z)2 = 0, m

Insesgadez asinttica y consistencia o

l P r{|(T ) | > } = 0 > 0 m

Demostracin: como hemos demostrado o

Denicin: o Diremos que el estimador de es un estimador insesgado asintticamente si o

la distribucin F (Z) se conoce como Distribucin Asinttica o Distribucin L o o o o mite. 10

= FT (b) FT (a) la convergencia

l P r[a < ZT < b] = FT (b) FT (a) = m

f (Z)dZ = F (b) F (a)

vector de v.a. matriz de constantes.

Teorema de Mann y Wald

iii) E(ut us ) = 0 t, s 2) E(Xit ut ) = 0 3) plim

i = 1, 2, . . . k donde Xi es la columna i-sima de la matriz X. e

X = Q nita, simtrica y denida (+). e

Entonces se cumple: a) plim

X = Q pero se tendr los mismos resultados a) y b). an

Este teorema es condicin suciente de consistencia y existencia de distribucin asinttica. o o o

esto se puede expresar: ZT mT d N (0, 1) 13

SARRIKO-ON 4/08 donde llamamos mT = T ZT mT =

Propiedades Asintticas del estimador MCO en el MRLG o

SARRIKO-ON 4/08 b) l T m singular.

= Q, donde Q es una matriz simtrica, denida positiva, nita y no e

Xkt X2t Xkt T

es insesgado bajo 1), 3) y 4), E( 2 ) = 2

y se satisface para cualquier T dado. 2 T

u aplicamos las condiciones sucientes: E 1 1 X u = X E(u) = 0 t T T

V ar (2) l T V ar m por (1) + (2)

plim u =0 y por tanto plim(T )M CO = + Q1 0 = = M CO es un estimador consistente.

Para buscar plim

u tambin podr e amos haber hecho:

1 plim T 1 plim T 1 plim T T t=1 ut

y buscar cada uno de los l mites en probabilidad de la matriz anterior. 16

= plim u(T ) = 0 =0 ya que:

i) por (1), (3) y (4): V ar 1 = 2E T 1 T

donde u = Y X M CO es un estimador consistente de 2 bajo (1),

a) Demostracin aplicando la denicin de consistencia: o o M CO = 2 siendo M = I X(X X)1 X M CO = 2 = =

u [I X(X X)1 X ]u u u u X(X X)1 X u

SARRIKO-ON 4/08 plimM CO = plim 2

= Q1 por el supuesto (2).

(T k)2 2(T k)( 2 ) 2( 2 ) V (M CO ) = 2(T k) = V (M CO ) = 2 2 = V ( 2 ) = 2 (T k)2 T k 18

SARRIKO-ON 4/08 V ( T (M CO )) = E[T (M CO )(M CO ) ] = 2 T (X X)1 = 2 1 XX T

vemos que { T (M CO )} converge en distribucin a un vector de v.a. con funcin de o o m distribucin N 0, 2 l T o

trabajamos con la transformacin o

2 4 (T k), 2(T k) T k (T K)2

d T k(T,M CO 2 ) N (0, 2 4 ) 2 T T k por tanto T,M CO N 2 , 2

d T (M CO ) Z N (0, 2 Q1 ) aplicando el teorema 1