Professional Documents
Culture Documents
ULPGC. Licenciatura en Economía
Lección 1
ESPECIFICACIÓN DE
LA ECUACIÓN DE
REGRESIÓN.
CONTRASTES DE
ESPECIFICACIÓN
0
LECCIÓN 1. ESPECIFICACIÓN DE
INDICE
LA ECUACIÓN DE REGRESIÓN.
CONTRASTES DE ESPECIFICACIÓN
2
1
Tipos de errores de especificación
n ¿Qué es especificar un modelo?
n Variables (Y, X)
n Cómo medirlas
n Forma funcional
n Hipótesis sobre la perturbación
3
1
Tipos de errores de especificación
n En sentido amplio, entendemos por errores
de especificación todos aquellos errores
que se cometen en la construcción de un
modelo econométrico
n Definición de los regresores, hipótesis que
suponemos cumple la perturbación aleatoria
de la ecuación de regresión
n En sentido restringido, errores en la selección
de los regresores X (en esta lección)
4
1 Tipos de errores en la especificación
de las X
n Omitir variables relevantes
n Incluir variables irrelevantes
n Forma funcional incorrecta
n Errores de medida de las variables (en otra
lección)
5
1 Error de especificación de la matriz X.
Caso general
El caso general de error de especificación de X
(modelo de RLM)
Son sesgados:
6
2
¿Por qué omitimos variables relevantes?
7
2 Omisión de una variable relevante.
Caso particular del modelo de RLS
Modelo verdadero:
u : N (0, σ u2 )
con
8
2 Omisión de una variable relevante.
Caso particular del modelo de RLS
9
2 Omisión de una variable relevante. Caso
particular del modelo de RLS (3) …. Cometemos
el error de omitir Z:
Omisión de
n Es sesgado: variable relevante:
Estimadores
sesgados 10
2 Omisión de una variable relevante. Caso
particular del modelo de RLS (4) …. Cometemos
el error de omitir Z:
γ ∑ XZ
SESGO = 2
∑ X
β MENOR
VARIANZA
β MAYOR
VARIANZA
15
2 Omisión de una variable relevante. Caso particular del
modelo de RLS (5) …. Cometemos el error de omitir Z.
Comparación del ECM de los estimadores MCO (1)
n ECM del
modelo
correcto:
n ECM del
modelo
incorrecto:
n Valor teórico del
estadístico
n Por tanto: H0 : γ = 0
con 16
2 Omisión de una variable relevante. Caso particular del
modelo de RLS (5) …. Cometemos el error de omitir Z.
Comparación del ECM de los estimadores MCO (2)
> 1
Por tanto:
> 1>
Al incluir la variable omitida puede provocarse multicolinealidad......
contraponer un problema de varianza frente a uno de sesgo
(robustez frente a eficiencia)
Regla de decisión: podríamos decir que conviene comparar los dos modelos (omitiendo e incluyendo
la variable omitida) y observar los cambios relativos en el valor de los parámetros.
Si los parámetros cambian notablemente entre ambos modelos, conviene siempre optar por el
modelo menos restringido más amplio (el que incluye la variable “omitida” entre las exógenas) salvo
que, como sucede en ocasiones c on muestras pequeñas, esos c ambios vengan acompañados con
una pérdida muy notable de precisión por inducirse una multicolinealidad intensa (incremento de los
errores estándar de los parámetros o contraste s “t” que se tornan no significativos).
18
2 Error de especificación por omisión de
variables relevantes. Caso general
El modelo verdadero contiene K variables X [X1 X2]pero solo
incluimos las r primeras (r<K), omitiendo el subconjunto X2 :
Los estimadores MCO son sesgados y el sesgo depende de la correlación entre las variables
omitidas y las incluidas y de la influencia de las variables omitidas (demostrar)
El sesgo no tiende a cero cuando el tamaño de la muestra es grande, por tanto son inconsistentes
19
Además, la varianza se estima con sesgo……..
Error de especificación por omisión de variables relevantes.
Caso general
Modelo Verdadero:
Y = X β + U ; E (U ) = 0; E (UU ') = σ 2 I
Modelo Estimado:
Y = X *β + V
Los estimadores MCO que obtenemos utilizando X* como
matriz de variables explicativas son los siguientes:
b* = ( X *' X * )−1 X *'Y = ( X *' X * )−1 X *' ( X β +U ) = ( X *' X * )−1 X *' X β + ( X *' X * )−1 X *'U
estimador sesgado puesto que :
E(b* ) = ( X *' X * )−1 X *' X β ≠ β
20
Además, la varianza se estima con sesgo……..
" −1 %
( )
e = M 1Y = $I − X1 X1'X1 X1'' Y =
# &
M1
' m’m=m
( X 1β1 + X 2 β 2 +U ) M 1 ( X 1β1 + X 2 β 2 +U ) =
( X 2 β 2 +U )' M 1 ( X 2 β 2 +U ) =
Dado que X1M1=X’1M1=0
(U '+ β 2'X '2 )M 1 ( X 2 β 2 +U ) =
(U ' M 1U + β 2'X '2 M 1 X 2 β 2 + β 2'X '2 M 1U +U ' M 1 X 2 β 2 ) =
(U ' M 1U + β 2'X '2 M 1 X 2 β 2 + 2β 2'X '2 M 1U )
E e'e = E !"U ' M 1U #$ + β 2'X '2 M 1 X 2 β 2
( )
= σ u2traza M1 + β 2'X '2 M 1 X 2 β 2
( )
( " −1 %+ ' '
2
u
)
( )
σ *traza I n − traza $ X X'X
#
( ) X' '- + β 2X 2 M 1 X 2 β = σ 2 !"n − k #$ + β 2'X '2 M 1 X 2 β 2
&, 21
e 'e
σ̂ 2 =
Estimador MCO: n−k SESGO
e'e
σ̂ 2 =
n-k
2 ' '
E(e'e) σ "#n − k $% + β 2X 2 M 1 X 2 β 2
2 2 β2'X '2 M 1 X 2 β2
E(σ̂ ) = = =σ +
n-k n−k n−k
22
2 Error de especificación por omisión de
variables relevantes. Caso general
Conclusión:
23
24
γ ∑ XZ
SESGO = 2
∑X
25
3
Error de especificación por
inclusión de variables
irrelevantes
3 Error de especificación por inclusión de variables
irrelevantes. Caso particular de RLS
Modelo verdadero
(en desviaciones
respecto a las
medias):
n Modelo estimado:
n Estimador MCO:
3 Error de especificación por inclusión de variables
irrelevantes. Caso particular de RLS
n El estimador
MCO es
insesgado:
E[∑ cy ] = E[∑ c( βx + u )] = β ∑ xc
E[∑ xy ] = E[∑ x( βx + u )] = β ∑ x 2
n Su ECM =
Varianza es:
3 Error de especificación por inclusión de variables
irrelevantes. Caso particular de RLS
31
3 Error de especificación por inclusión de
variables irrelevantes. Caso general
Síntesis:
Error de especificación de la
forma funcional de la
ecuación
4 Error de especificación de la forma
funcional de la ecuación
n Entra en el
planteamiento del caso
general de omisión de
variables relevantes.
Los estimadores MCO
son sesgados e
inconsistentes
n Ejemplo;; relación
cuadrática que
estimamos por error
como lineal. Equivale a
omitir X2
4 Error de especificación de la forma
funcional de la ecuación
n Ejemplo;; relación
cuadrática que
estimamos por error
como lineal. Equivale a
omitir X2
4 Error de especificación de la forma
funcional de la ecuación
n Ejemplo;; relación
cuadrática que
estimamos por error
como lineal. Equivale a
omitir X2
X2
... Especificación incorrecta del nivel de análisis.
Agregación de datos y sesgo ecológico
n Un fenómeno se explica a nivel individual (micro).
Modeliza la conducta de los agentes económicos
n Pero estimamos el modelo con datos agregados
(macro) para la región o el sector, e interpretamos
incorrectamente los resultados
n “falacia ecológica” : interpretar para un colectivo
resultados que sólo son válidos a nivel individual
n Ejemplo: gasto en medicamentos del paciente es
función de la edad y gravedad. Estimamos un modelo
de gasto con datos de médicos (unidad de
observación). Piensa qué pasa….
gasto
pr
ovi edad
nci me
edad graveda gasto provincia a dia gravedad media
2 36 1 342 1
3 47 2 356 1
4 34 1 543 1
47,66666
5 35 3 345 2 1134 67 3
6 52 4 444 2
7 56 2 345 2
35,66666
8 42 3 456 3 1363 67 2
9 31 2 653 3
10 34 1 254 3
48,33333
11 56 2 123 4 792 33 3,66666667
12 54 4 234 4
39
13 35 5 435 4
5 VALIDACIÓN DEL MODELO DE
REGRESIÓN: CONTRASTES DE
ESPECIFICACIÓN INCORRECTA Y
CONTRASTES DE ESPECIFICACIÓN
5 Introducción. Tipos de pruebas de
validación de los resultados del modelo
n Pruebas de especificación incorrecta del modelo
n Sobre: Calidad de la información
muestral, estabilidad de la estructura,
hipótesis sobre las perturbaciones y
sobre el resto del modelo
n Pruebas de especificación entre modelos
alternativos
n Sobre: Qué regresores incluir y con
qué transformaciones (comparación
de modelos)
n Test de hipótesis anidadas (un modelo es
un caso particular del otro)
n Test de hipótesis no anidadas (hay dos
grupos de regresores, debemos elegir uno)
5
5
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 1. Significado de los parámetros. Signo y valores de
los coeficientes estimados
n Test t de significación individual
n 2. Test F de significación global (bondad global del
ajuste)
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 3. Test de subconjuntos de parámetros y de
restricciones lineales sobre los coeficientes (sugeridos
por la teoría)
n Test F de significación conjunta de q coeficientes:
n Busca en el material del año pasado los test F de
restricciones lineales sobre los coeficientes
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 4. Calidad de la información muestral
n ¿Outliers?
n ¿Hay residuos mayores que 2 desviaciones típicas en
valor absoluto?
n ¿Multicolinealidad? (ver matriz de correlaciones entre
las X;;…)
6 Pruebas de especificación incorrecta y
de calidad de los datos
¿Outliers? ¿Qué
hacemos con ellos?
6 Pruebas de especificación incorrecta y de
calidad de los datos .Hipótesis sobre la
perturbación
n 5. ¿Se cumplen
las hipótesis
sobre la
perturbación
aleatoria?
¿Ausencia de
autocorrelación
entre
perturbaciones?
n Tipo de datos (si
serie temporal,
sospechar)
6 Pruebas de especificación incorrecta y de
calidad de los datos. Hipótesis sobre la
perturbación
n 5. ¿Se cumplen las hipótesis n El test clásico: Durbin-Watson
sobre la perturbación aleatoria? (1950), cuyo estadístico de
¿Ausencia de autocorrelación prueba es
entre perturbaciones?
n 0<d<4
53
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 6. ¿Se cumplen las hipótesis sobre
la perturbación aleatoria?
n ¿Homocedasticidad?
n Tipo de datos (si unidades
muestrales de diferente
“tamaño”, sospechar)
n Gráficos
n Contrastes (Breusch y
Pagan)
n Los test de heterocedasticidad
nos sirven como test de
especificación incorrecta del
modelo
n Los residuos tienden a
comportarse con una variación
distinta según cuales sean los
valores estimados de Y o de
algunas explicativas del modelo
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 6. ¿Se cumplen las hipótesis
sobre la perturbación aleatoria? Estimar por MCO la regresión con
la variable dependiente:
n ¿Homocedasticidad?
n Contraste de
Breusch y Contra las q variables que podrían
Pagan (1979) provocar la heterocedasticidad
(pueden ser todos o algunos
regresores y/o otras variables)
El estadístico de prueba es la mitad
de la suma de cuadrados
explicada por esa regresión:
Una vez estimado el siguiente modelo Ci = β1 + β 2 Ri + ui i = 1,...,500
(1)
donde Ci y Ri son el consumo y renta anual de la familia i respectivamente. Se ha estimado
Dependent Variable:
ei2
σ%u2
Method: Least Squares
Sample: 1 500
A partir de la información aportada, contrasta la existencia de heterocedasticidad en el modelo (1) mediante el contraste de Breusch y Pagan.
56
Una vez estimado el siguiente modelo Ci = β1 + β 2 Ri + ui i = 1,...,500
(1)
donde Ci y Ri son el consumo y renta anual de la familia i respectivamente. Se ha estimado
A partir de la información aportada, contrasta la existencia de heterocedasticidad en el modelo (1) mediante el contraste de Breusch y Pagan.
57
58
Y X Yest e e^2
59
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 7. ¿Se cumplen las hipótesis
sobre la perturbación aleatoria?
n ¿Normalidad?
n Histograma de
los residuos
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 7. ¿Se cumplen las hipótesis
sobre la perturbación aleatoria?
n ¿Normalidad?
n Contrastes de
normalidad
n Jarque y Bera (1980)
(asimetría y
curtosis)
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 8. ¿Error en la forma
funcional? ¿Es lineal
el verdadero modelo?
n Gráficos de los
residuos contra y
ajustada y contra
cada X
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 8. ¿Error en la forma
funcional? ¿Es lineal
el verdadero modelo?
n El contraste RESET
de Ramsey
Test E quation:
Dependent V ariable: Y
Method: L east S quares
Sample: 1 2 30
Included o bservations: 2 30
Variable Coefficient Std. E rror t-Statistic Prob.
C 47.75503 27.78720 1.718598 0.0871
X1 2.924101 0.902916 3.238507 0.0014
X2 0.037174 0.361881 0.102724 0.9183
FITTED^2 0.001156 0.000160 7.210313 0.0000
R-squared 0.897881 Mean d ependent var 296.1999
Adjusted R-squared 0.896525 S.D. d ependent var 120.2907
S.E. o f regression 38.69446 Akaike info criterion 10.16651
Sum squared resid 338381.0 Schwarz criterion 10.22630
Log likelihood -1165.148 F-statistic 662.3679
Durbin-Watson stat 2.140098 Prob(F-statistic) 0.000000
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 9. Análisis de Hipótesis:
estabilidad Una misma estructura es válida para
toda la muestra y para el horizonte de
n Intra-muestral predicción
68
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 9. Análisis de n No requiere hipótesis sobre
el “momento” del cambio
estabilidad (la composición de los
n Intra-muestral subgrupos)
El contraste de Hansen (1992)
a) Para contrastar la estabilidad
de un coeficiente (i)
Tablas Hansen Valor Crítico 5%=0.47
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 9. Análisis de Estimación recursiva:
estabilidad
n Intra-muestral CUSUM
CUSUMQ
Para evaluar la estabilidad de los coeficientes estimar el modelo secuencialmente ,
añadiendo cada vez una observación muestral desde k+1 hasta T y ver cómo
cambian los coeficientes.
70
6 Pruebas de especificación incorrecta y
de calidad de los datos
CUSUM y CUSUMQ (Brown y otros
n 9. Análisis de 1975)
estabilidad
n Residuos recursivos
n Intra-muestral reescalados:
vt
wt = t = k + 1,.....T
' ' −1
1 + X ( X X t −1 ) X t
t t −1
nBajo H0:
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 9. Análisis de
estabilidad
n Intra-muestral
CUSUM
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 9. Análisis de
estabilidad
S=
n Intra-muestral
CUSUMQ
Regresión auxiliar:
Regresión auxiliar:
n Principios:
n Ratio de Verosimilitudes
n Wald
n Multiplicadores de
Lagrange
7 Principios generales de contrastación de
hipótesis: Ratio de Verosimilitudes (RV)
n Requiere estimar ambos modelos y calcular el cociente entre las
funciones de verosimilitud maximizadas en ambos casos. Si la diferencia
es pequeña se acepta la restricción (H0)
H 0 : Modelo restringido
H1 : Modelo no restringido
7 Principios generales de contrastación de
hipótesis: Wald
n Requiere estimar sólo el modelo no restringido
7 Principios generales de contrastación de
hipótesis: Multiplicadores de Lagrange
n Requiere estimar solo el modelo restringido
94
95
96
97
98
99
100