You are on page 1of 101

Econometría  I.

                                                         
ULPGC.  Licenciatura  en  Economía

Lección 1
ESPECIFICACIÓN DE
LA ECUACIÓN DE
REGRESIÓN.
CONTRASTES DE
ESPECIFICACIÓN

0
LECCIÓN 1. ESPECIFICACIÓN DE
INDICE
LA ECUACIÓN DE REGRESIÓN.
CONTRASTES DE ESPECIFICACIÓN

1. Errores  de  especificación.  Concepto  y  tipos.  Efectos  sobre  los  


estimadores  MCO.  Propiedades
2. Caso  particular  1:  Omisión  de  variables  relevantes
3. Caso  particular  2:  Inclusión  de  variables  irrelevantes  
4. Caso  particular  3:  Especificación  incorrecta  de  la  forma  
funcional  del  modelo
5. Contrastes  de  especificación  incorrecta  y  contrastes  de  
especificación
6. Contrastes  de  especificación  incorrecta  y  de  calidad  de  los  
datos
7. Contrastes  anidados  y  no  anidados  de  especificación.  
Principios  generales  de  contrastación  estadística
8. Procedimientos  automáticos  de  selección  de  variables  en  el  
modelo  de  regresión  lineal.  Utilidad  y  problemática.  Programas  
1
informáticos:  los  métodos  de  selección  automática  de  variables  
en  SPSS-­PC
PROBLEMAS DE ADECUACIÓN
MODELO-REALIDAD (I)
ERRORES DE ESPECIFICACIÓN

2
1
Tipos de errores de especificación
n ¿Qué  es  especificar  un  modelo?
n Variables  (Y,  X)
n Cómo  medirlas
n Forma  funcional
n Hipótesis  sobre  la  perturbación

n ¿Cómo  lo  hacemos?


n Guiados  por  la  teoría
n Pero  con  dudas….

3
1
Tipos de errores de especificación
n En  sentido  amplio,  entendemos  por  errores
de  especificación todos  aquellos  errores  
que  se  cometen  en  la  construcción  de  un  
modelo  econométrico
n Definición  de  los  regresores,  hipótesis  que  
suponemos  cumple  la  perturbación  aleatoria  
de  la  ecuación  de  regresión
n En  sentido  restringido,  errores  en  la  selección  
de  los  regresores  X  (en  esta  lección)

4
1 Tipos de errores en la especificación
de las X
n Omitir variables  relevantes
n Incluir variables  irrelevantes
n Forma  funcional incorrecta
n Errores  de  medida de  las  variables  (en  otra  
lección)

5
1 Error de especificación de la matriz X.
Caso general
El caso general de error de especificación de X
(modelo de RLM)

Vector de estimadores MCO:

Son sesgados:

6
2
¿Por qué omitimos variables relevantes?

n Limitación  de  la información estadística  


disponible  (pobreza muestral).  No  hay  datos  
o  son  poco  fiables
n Desconocimiento  de  la  existencia  de  una  
relación  estable  entre  dicha  variable  y  la  
variable  endógena  (desconocimiento  del  
modelo):  falla  la  teoría
n Simplificación  funcional  (error  de  
aproximación  de  la  forma  funcional)

7
2 Omisión de una variable relevante.
Caso particular del modelo de RLS

Modelo  verdadero:
u : N (0, σ u2 )

Expresado  en  desviaciones  respecto  a  las  medias:

con

8
2 Omisión de una variable relevante.
Caso particular del modelo de RLS

Los  estimadores  MCO  (ELIO)  son:

Y  sus  varianzas  son:

9
2 Omisión de una variable relevante. Caso
particular del modelo de RLS (3) …. Cometemos
el error de omitir Z:

n Modelo  estimado:                                                      con


Su  error  aleatorio  v  tiene  media  0  pero  quizá  es  
heterocedástico  y/o  autocorrelacionado
n Estimador  MCO:                            =  

Omisión  de  
n Es  sesgado:   variable  relevante:  
Estimadores  
sesgados 10
2 Omisión de una variable relevante. Caso
particular del modelo de RLS (4) …. Cometemos
el error de omitir Z:
γ ∑ XZ
SESGO = 2
∑ X

n Estimador  MCO  sesgado.  El  sesgo  


depende  de:
n La  influencia  de  la  variable  omitida  
sobre  y
n La  correlación  entre  la  variable  
incluida  (x)  y  la  omitida  (z)
En  el  caso  particular  de  incorrelación  
entre  x  y  z  (ortogonales),  sería  
insesgado.  Pero  en  la  práctica….
Piensa  en  el  signo  del  sesgo  y  
en  un  ejemplo  aplicado 11
12
13
2 Omisión de una variable relevante. Cometemos el error
de omitir Z. Comparación de las varianzas de los
estimadores MCO: 2
"
2 γ ∑ xz ∑ xu γ ∑ xz $
Var ( β ) = E "#β − E ( β )$% = E 'β + + −β − ( =
n Modelo   '# 2
∑x ∑x 2 2
∑ x (%
incorrecto: " ∑ xu $
2
1 2
E' ( =σ
2 u 2
'# ∑ x (% ∑x
γ ∑ xz ∑ xu γ ∑ xz

β=β+ + 
⇒ E (β ) = β +
2 2 2
∑x ∑x ∑x
n Modelo  verdadero:

El estimador del modelo


incorrecto tiene menor
varianza, es más preciso
que el del modelo
verdadero 14

SESGADO
ˆ
INSESGADO

β MENOR  
VARIANZA
β MAYOR  
VARIANZA

Tenemos que decidir entre sesgo


y varianza. Criterio: Error
Cuadrático Medio (ECM)

15
2 Omisión de una variable relevante. Caso particular del
modelo de RLS (5) …. Cometemos el error de omitir Z.
Comparación del ECM de los estimadores MCO (1)
n ECM  del  
modelo  
correcto:

n ECM  del  
modelo  
incorrecto:
n Valor  teórico  del  
estadístico

n Por  tanto:                                             H0 : γ = 0

con 16
2 Omisión de una variable relevante. Caso particular del
modelo de RLS (5) …. Cometemos el error de omitir Z.
Comparación del ECM de los estimadores MCO (2)

>  1
Por  tanto:                                                                              

que  equivale  a:

La ausencia de una variable relevante no es preocupante si el valor teórico


del estadístico t es menor, en valor absoluto, que la unidad.
Si τ (t ) < 1 ⇒ ECM ( β ) < ECM ( β̂ )

>  1>
Al  incluir  la  variable  omitida  puede  provocarse  multicolinealidad......
contraponer  un  problema  de  varianza  frente  a  uno  de  sesgo                                                                    
(robustez  frente  a  eficiencia)

Regla  de  decisión:  podríamos  decir  que  conviene  comparar  los  dos  modelos  (omitiendo   e  incluyendo  
la  variable  omitida)   y  observar  los  cambios  relativos  en  el  valor  de  los  parámetros.  
Si  los  parámetros  cambian  notablemente   entre  ambos  modelos,  conviene  siempre  optar  por  el  
modelo  menos  restringido  más  amplio   (el  que  incluye  la  variable  “omitida”   entre  las  exógenas)  salvo  
que,  como  sucede  en  ocasiones  c on  muestras  pequeñas,  esos  c ambios  vengan  acompañados  con  
una  pérdida  muy  notable  de  precisión  por  inducirse  una  multicolinealidad   intensa  (incremento  de  los  
errores  estándar  de  los  parámetros  o  contraste  s  “t”  que  se  tornan  no  significativos).

18
2 Error de especificación por omisión de
variables relevantes. Caso general
El modelo verdadero contiene K variables X [X1 X2]pero solo
incluimos las r primeras (r<K), omitiendo el subconjunto X2 :

Los estimadores MCO son sesgados y el sesgo depende de la correlación entre las variables
omitidas y las incluidas y de la influencia de las variables omitidas (demostrar)
El sesgo no tiende a cero cuando el tamaño de la muestra es grande, por tanto son inconsistentes
19
Además, la varianza se estima con sesgo……..
Error de especificación por omisión de variables relevantes.
Caso general

Modelo Verdadero:
Y = X β + U ; E (U ) = 0; E (UU ') = σ 2 I

Modelo Estimado:
Y = X *β + V
Los estimadores MCO que obtenemos utilizando X* como
matriz de variables explicativas son los siguientes:
b* = ( X *' X * )−1 X *'Y = ( X *' X * )−1 X *' ( X β +U ) = ( X *' X * )−1 X *' X β + ( X *' X * )−1 X *'U
estimador sesgado puesto que :
E(b* ) = ( X *' X * )−1 X *' X β ≠ β
20
Además, la varianza se estima con sesgo……..
  " −1 %
( )
e = M 1Y = $I − X1 X1'X1 X1'' Y =
# &
 
M1

M 1 simétrica,idempotente de rango (n − k) : m=  simétrica


X 1'M 1 = M 1 X 1 = 0 ⇒ M 1M 1' = M 1 idempotente

SCE = e 'e = Y ' M 1 ' M 1Y = Y ' M 1Y semidefinida  posit.

' m’m=m  
( X 1β1 + X 2 β 2 +U ) M 1 ( X 1β1 + X 2 β 2 +U ) =
( X 2 β 2 +U )' M 1 ( X 2 β 2 +U ) =
Dado  que  X1M1=X’1M1=0
(U '+ β 2'X '2 )M 1 ( X 2 β 2 +U ) =
(U ' M 1U + β 2'X '2 M 1 X 2 β 2 + β 2'X '2 M 1U +U ' M 1 X 2 β 2 ) =
(U ' M 1U + β 2'X '2 M 1 X 2 β 2 + 2β 2'X '2 M 1U )

E e'e = E !"U ' M 1U #$ + β 2'X '2 M 1 X 2 β 2
( )
= σ u2traza M1 + β 2'X '2 M 1 X 2 β 2
( )
( " −1 %+ ' '
2
u
)
( )
σ *traza I n − traza $ X X'X
#
( ) X' '- + β 2X 2 M 1 X 2 β = σ 2 !"n − k #$ + β 2'X '2 M 1 X 2 β 2
&, 21
e 'e
σ̂ 2 =
Estimador MCO: n−k SESGO
e'e
σ̂ 2 =
n-k
2 ' '
E(e'e) σ "#n − k $% + β 2X 2 M 1 X 2 β 2
2 2 β2'X '2 M 1 X 2 β2
E(σ̂ ) = = =σ +
n-k n−k n−k

El  estimador  de  la  varianza  de  


la  perturbación  es  sesgado

¿Qué signo tiene el


sesgo? ¿Qué
consecuencias para
la estimación?

22
2 Error de especificación por omisión de
variables relevantes. Caso general
Conclusión:

1. En casi de excluir del modelo variables relevantes, los


estimadores MCO de β son sesgados.
2. El sesgo depende del la correlación entre las variables
excluidas y las omitidas, y de la influencia de estas
últimas sobre Y
3. Los estimadores son inconsistentes
4. El estimador de la varianza de la perturbación también
es sesgado, por lo que el proceso de inferencia
estadística puede proporcionar resultados erróneos

23
24
γ ∑ XZ
SESGO = 2
∑X
25
3
Error de especificación por
inclusión de variables
irrelevantes
3 Error de especificación por inclusión de variables
irrelevantes. Caso particular de RLS

Modelo  verdadero  
(en  desviaciones  
respecto  a  las  
medias):

n Modelo  estimado:

n Estimador  MCO:
3 Error de especificación por inclusión de variables
irrelevantes. Caso particular de RLS

n El  estimador  
MCO  es  
insesgado:
E[∑ cy ] = E[∑ c( βx + u )] = β ∑ xc
E[∑ xy ] = E[∑ x( βx + u )] = β ∑ x 2

n Su  ECM  =  
Varianza  es:
3 Error de especificación por inclusión de variables
irrelevantes. Caso particular de RLS

n Es  menos  preciso  que  el  del  modelo  verdadero:


Error de especificación por inclusión de variables
irrelevantes. Caso particular de RLS

n El  estimador  de  la  varianza  de  la  perturbación  es  también  


insesgado  

e = MY con M = I − X * ( X '* X * ) −1 X '*


X * = vector regresores con var iables relevantes e irrelevantes (k+s)
X 1 = vactor reggresores var iables relevantes (k)
MX 1 = MX * = 0
SCE = e' e = Y ' MY = U ' MU
E (e' e) = E (U ' MU ) = σ 2traza ( M ) = σ 2 ( N − K − s )
e' e
σ~ 2 =
N −K −s
N −K −s
E (σ~ 2 ) = σ 2 =σ 2
N −k −s 30
Error de especificación por inclusión de variables
irrelevantes. Caso particular de RLS

El  estimador  MCO  de  la  variable  irrelevante  


incluida  en  el  modelo  tiene  esperanza  nula  
2
x cy − ∑ xc ∑ xy
δ =∑ ∑
~
2 2 2
∑ x ∑ c − (∑ xc) E[∑ cy ] = E[∑ c( βx + u )] = β ∑ xc
2
~ ∑ x E (∑ cy ) − ∑ xc E (∑ xy )
E (δ ) = 2 2
= 2 E[∑ xy ] = E[∑ x( βx + u )] = β ∑ x 2
x
∑ ∑ ∑ c − ( xc )
2 2
∑ x β ∑ xc − ∑ xc β ∑ x = 0
2 2 2
∑ x ∑ c − (∑ xc)

31
3 Error de especificación por inclusión de
variables irrelevantes. Caso general
Síntesis:

•En  caso  de  incluir  en  el  modelo  variables  


irrelevantes,  los  estimadores  MCO  son  
insesgados  y  consistentes.  El  estimador  de  
la  varianza  del  error  también  lo  es.
•Pero  hay  un  coste  de  eficiencia:  los  
estimadores  tienen  varianzas  mayores que  
si  se  hubiera  especificado  el  modelo  
correctamente.
4

Error de especificación de la
forma funcional de la
ecuación
4 Error de especificación de la forma
funcional de la ecuación
n Entra  en  el  
planteamiento  del  caso  
general  de  omisión  de  
variables  relevantes.  
Los  estimadores  MCO  
son  sesgados  e  
inconsistentes
n Ejemplo;;  relación  
cuadrática  que  
estimamos  por  error  
como  lineal.  Equivale  a  
omitir  X2
4 Error de especificación de la forma
funcional de la ecuación
n Ejemplo;;  relación  
cuadrática  que  
estimamos  por  error  
como  lineal.  Equivale  a  
omitir  X2
4 Error de especificación de la forma
funcional de la ecuación

n Ejemplo;;  relación  
cuadrática  que  
estimamos  por  error  
como  lineal.  Equivale  a  
omitir  X2

n En  este  caso  particular,  el  


~ ∑ x y
sesgo  depende  de  la   β =
2
2
2
asimetría  de  X2  en  la   ∑x 2
2
muestra  (momento   ~ ∑ x (β x + β x
2 2 2 3 2 + u) β 2 ∑ x22 + β 3 ∑ x23 + ∑ x2u
E (β ) =
2 2
= =
centrado  tercer  orden   ∑x 2 ∑ x22
3
nulo) =β +β
∑x 2
2 3 2
∑x 2
4 Error de especificación de la forma
funcional de la ecuación
n En  este  caso  
particular,  el  sesgo  
Y
depende  de  la  
asimetría  de  X2  en  la  
muestra

X2
... Especificación incorrecta del nivel de análisis.
Agregación de datos y sesgo ecológico
n Un  fenómeno  se  explica  a  nivel  individual  (micro).  
Modeliza  la  conducta  de  los  agentes  económicos
n Pero  estimamos  el  modelo  con  datos  agregados  
(macro)  para  la  región  o  el  sector,  e  interpretamos  
incorrectamente  los  resultados
n “falacia  ecológica” :  interpretar  para  un  colectivo  
resultados  que  sólo  son  válidos  a  nivel  individual
n Ejemplo:  gasto  en  medicamentos  del  paciente  es  
función  de  la  edad  y  gravedad.  Estimamos  un  modelo  
de  gasto  con  datos  de  médicos  (unidad  de  
observación).  Piensa  qué  pasa….
gasto  
pr
ovi edad  
nci me
edad graveda gasto provincia a dia gravedad  media

1 23 1 234 1 1475 35 1,25

2 36 1 342 1

3 47 2 356 1

4 34 1 543 1

47,66666
5 35 3 345 2 1134 67 3

6 52 4 444 2

7 56 2 345 2

35,66666
8 42 3 456 3 1363 67 2

9 31 2 653 3

10 34 1 254 3

48,33333
11 56 2 123 4 792 33 3,66666667

12 54 4 234 4
39

13 35 5 435 4
5 VALIDACIÓN  DEL  MODELO  DE  
REGRESIÓN:  CONTRASTES  DE  
ESPECIFICACIÓN  INCORRECTA  Y  
CONTRASTES  DE  ESPECIFICACIÓN
5 Introducción. Tipos de pruebas de
validación de los resultados del modelo
n Pruebas  de  especificación  incorrecta  del  modelo
n Sobre:  Calidad  de  la  información  
muestral,  estabilidad  de  la  estructura,  
hipótesis  sobre  las  perturbaciones  y  
sobre  el  resto  del  modelo
n Pruebas  de  especificación  entre  modelos  
alternativos
n Sobre:  Qué  regresores  incluir  y  con  
qué  transformaciones  (comparación  
de  modelos)
n Test  de  hipótesis  anidadas  (un  modelo  es  
un  caso  particular  del  otro)
n Test  de  hipótesis  no  anidadas  (hay  dos  
grupos  de  regresores,  debemos  elegir  uno)
5
5
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 1.  Significado  de  los  parámetros.  Signo  y  valores  de  
los  coeficientes  estimados
n Test  t  de  significación  individual  
n 2.  Test  F  de  significación  global  (bondad  global  del  
ajuste)
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 3.  Test  de  subconjuntos  de  parámetros  y  de  
restricciones  lineales  sobre  los  coeficientes  (sugeridos  
por  la  teoría)
n Test  F  de  significación  conjunta  de  q  coeficientes:

n Busca  en  el  material  del  año  pasado  los  test  F  de  
restricciones  lineales  sobre  los  coeficientes
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 4.  Calidad  de  la  información  muestral
n ¿Outliers?
n ¿Hay  residuos  mayores  que  2  desviaciones  típicas  en  

valor  absoluto?
n ¿Multicolinealidad?  (ver  matriz  de  correlaciones  entre  
las  X;;…)
6 Pruebas de especificación incorrecta y
de calidad de los datos
¿Outliers?  ¿Qué  
hacemos  con  ellos?
6 Pruebas de especificación incorrecta y de
calidad de los datos .Hipótesis sobre la
perturbación
n 5.  ¿Se  cumplen  
las  hipótesis  
sobre  la  
perturbación  
aleatoria?    
¿Ausencia  de  
autocorrelación  
entre  
perturbaciones?
n Tipo  de  datos  (si  
serie  temporal,  
sospechar)
6 Pruebas de especificación incorrecta y de
calidad de los datos. Hipótesis sobre la
perturbación
n 5.  ¿Se  cumplen  las  hipótesis   n El  test clásico:  Durbin-­Watson
sobre  la  perturbación  aleatoria?     (1950),  cuyo  estadístico  de  
¿Ausencia  de  autocorrelación   prueba  es
entre  perturbaciones?

n Los  test  de  autocorrelación  


nos  sirven  como  test  de  
especificación  incorrecta  del  
modelo  (omisión  de  variables  
relevantes,  error  en  la  forma  
funcional,…)
n No  aplicable  a  datos  de  corte  
transversal

Hay  que  compararlo  con  valores  


tabulados
6 Pruebas de especificación incorrecta y
de calidad de los datos
n El  test  clásico:  Durbin-­Watson  
(1950),  cuyo  estadístico  de  prueba  
es

n 0<d<4

Hay  que  compararlo  con  valores  


tabulados
H0:  No  autocorrelación
H1:  Hay  autocorrelación  positiva  (o  
negativa)  de  primer  orden.  Cada  
error  depende   del  anterior

n Solo  tiene  sentido  si  los  datos  están  


ordenados
n Las  tablas  dan  dos  valores  críticos,  
uno  inferior  y  otro  superior.  Si  d  está  
entre  ambos,  incertidumbre,  no  
podemos  concluir  nada
52
0 1.249 1.598 2.402= 2.751=
4-­du=4-­ 4-­dL=4-­ 4
1.598= 1.249

53
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 6.  ¿Se  cumplen  las  hipótesis  sobre  
la  perturbación  aleatoria?    
n ¿Homocedasticidad?
n Tipo  de  datos  (si  unidades  
muestrales  de  diferente  
“tamaño”,  sospechar)
n Gráficos
n Contrastes  (Breusch  y  
Pagan)
n Los  test  de  heterocedasticidad  
nos  sirven  como  test  de  
especificación   incorrecta  del  
modelo
n Los  residuos  tienden  a  
comportarse  con  una  variación  
distinta  según  cuales   sean  los  
valores  estimados  de  Y  o  de  
algunas  explicativas   del  modelo
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 6.  ¿Se  cumplen  las  hipótesis  
sobre  la  perturbación  aleatoria?     Estimar  por  MCO  la  regresión  con  
la  variable  dependiente:
n ¿Homocedasticidad?

n Contraste  de  
Breusch  y   Contra  las  q  variables  que  podrían  
Pagan  (1979) provocar  la  heterocedasticidad  
(pueden  ser  todos  o  algunos  
regresores  y/o  otras  variables)
El  estadístico  de  prueba  es  la  mitad  
de  la  suma  de  cuadrados  
explicada  por  esa  regresión:
Una vez estimado el siguiente modelo Ci = β1 + β 2 Ri + ui i = 1,...,500
(1)
donde Ci y Ri son el consumo y renta anual de la familia i respectivamente. Se ha estimado

Dependent  Variable:
ei2
σ%u2
Method:  Least  Squares

Sample:  1  500

Included  observations:  500

Variable Coefficient Std.  Error t-­Statistic Prob.    

RENTA 5.31E-­05 4.30E-­06 12.34576 0.0000

C -­0.651296 0.154339 -­4.219902 0.0000

R-­squared 0.234338 Mean  dependent  v ar 0.998000

Adjusted  R-­squared 0.232801 S.D.  dependent  v ar 1.973121

S.E.  of  r egression 1.728255 Akaike  info  c riterion 3.936093

Sum  squared  r esid 1487.459 Schwarz  c riterion 3.952952

Log  likelihood -­982.0234 F-­statistic 152.4178

Durbin-­Watson  s tat 1.963568 Prob(F-­statistic) 0.000000

A partir de la información aportada, contrasta la existencia de heterocedasticidad en el modelo (1) mediante el contraste de Breusch y Pagan.

56
Una vez estimado el siguiente modelo Ci = β1 + β 2 Ri + ui i = 1,...,500
(1)
donde Ci y Ri son el consumo y renta anual de la familia i respectivamente. Se ha estimado

Dependent  Variable: ei2


σ%u2
Method:  Least  Squares

No se puede mostrar la Sample:  1  500


imagen en este momento. Included  observations:  500
Variable Coefficient Std.  Error t-­Statistic Prob.    
RENTA 5.31E-­05 4.30E-­06 12.34576 0.0000
C -­0.651296 0.154339 -­4.219902 0.0000
R-­squared 0.234338 Mean  dependent  v ar 0.998000
Adjusted  R-­squared 0.232801 S.D.  dependent  v ar 1.973121
S.E.  of  r egression 1.728255 Akaike  info  c riterion 3.936093
Sum  squared  r esid 1487.459 Schwarz  c riterion 3.952952

Log  likelihood -­982.0234 F-­statistic 152.4178


Durbin-­Watson  s tat 1.963568 Prob(F-­statistic) 0.000000

A partir de la información aportada, contrasta la existencia de heterocedasticidad en el modelo (1) mediante el contraste de Breusch y Pagan.

57
58
Y X Yest e e^2

1 5 2,05 -­‐1,05 1,1025

3 4 1,7 1,3 1,69

2 5 2,05 -­‐0,05 0,0025

3 6 2,4 0,6 0,36

2 5 2,05 -­‐0,05 0,0025

59
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 7.  ¿Se  cumplen  las  hipótesis  
sobre  la  perturbación  aleatoria?    
n ¿Normalidad?

n Histograma  de  
los  residuos
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 7.  ¿Se  cumplen  las  hipótesis  
sobre  la  perturbación  aleatoria?    
n ¿Normalidad?
n Contrastes  de  
normalidad
n Jarque  y  Bera  (1980)  

(asimetría  y  
curtosis)
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 8.  ¿Error  en  la  forma  
funcional?   ¿Es  lineal  
el  verdadero  modelo?  
n Gráficos  de  los  
residuos  contra  y  
ajustada  y  contra  
cada  X
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 8.  ¿Error  en  la  forma  
funcional?   ¿Es  lineal  
el  verdadero  modelo?  
n El  contraste  RESET  
de  Ramsey

Contraste  t  de  significación  de  α

Contraste  F  de  significación  conjunta  de  los  α


6 Pruebas de especificación incorrecta y
de calidad de los datos
Ramsey  RESET  Test:
F-­statistic 51.98862 Probability 0.000000
Log  likelihood  ratio 47.62039 Probability 0.000000

Test  E quation:
Dependent  V ariable:  Y
Method:  L east  S quares
Sample:  1  2 30
Included  o bservations:  2 30
Variable Coefficient Std.  E rror t-­Statistic Prob.    
C 47.75503 27.78720 1.718598 0.0871
X1 2.924101 0.902916 3.238507 0.0014
X2 0.037174 0.361881 0.102724 0.9183
FITTED^2 0.001156 0.000160 7.210313 0.0000
R-­squared 0.897881 Mean  d ependent  var 296.1999
Adjusted  R-­squared 0.896525 S.D.  d ependent  var 120.2907
S.E.  o f  regression 38.69446 Akaike  info  criterion 10.16651
Sum  squared  resid 338381.0 Schwarz  criterion 10.22630
Log  likelihood -­1165.148 F-­statistic 662.3679
Durbin-­Watson  stat 2.140098 Prob(F-­statistic) 0.000000
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 9.  Análisis  de   Hipótesis:
estabilidad Una  misma  estructura  es  válida  para  
toda  la  muestra  y  para  el  horizonte  de  
n Intra-­muestral predicción

n Extra-­muestral ¿Qué  ocurre  si  no  se  cumple?

Piensa  en  la  diferencia  entre  ambos  


tipos  de  estabilidad
6 Pruebas de especificación incorrecta y
de calidad de los datos
n Pruebas  de  validación  cruzada  
n 9.  Análisis  de   (si  “bastantes” datos  
estabilidad transversales  “desordenados”):
n Submuestra  de  estimación  
n Intra-­muestral (n1)  y  submuestra  de  
predicción  (n2)  
Bondad  del  ajuste
n Caso  extremo:  n2  =1,  n  
¿Buen  ajuste  por  minería  de  datos? estimaciones:  Jacknife
Detecta  errores  de  especificación  de   n Bootstrapping
omisión  de  variables,  de  forma   n Dividir  la  muestra  (si  datos  
funcional,  etc.  
temporales)  en  dos  subperiodos,  
estimar  por  separado  y  comparar
6 Pruebas de especificación incorrecta y
de calidad de los datos
n Es  un  contraste  F  de  
n 9.  Análisis  de  estabilidad restricciones  lineales  sobre  los  
n Intra-­muestral coeficientes
n Se  divide  la  muestra  en  2  o  mas  
El  contraste   submuestras,  según  criterio  
(sospecha)
de  Chow n Se  estima  el  modelo  para  toda  la  
muestra  y  para  cada  submuestra  
por  separado
n Se  contrasta  si  los  coeficientes  
de  regresión  son  idénticos  para  
todos  los  grupos  (submuestras)
n Hay  una  versión  de  Chow  
modificada  para  aplicar  cuando  
una  submuestra  es  muy  
pequeña  (<K)  :  Chow  forecast  
test  en  E-­Views
Pruebas de especificación incorrecta y de
calidad de los datos
n El  resultado  del  contraste  de  Chow  es  
sensible  a  la  partición  de  la  muestra  y  
sospechamos  a  priori  del  cambio.
n Series  temporales:  cambio  legislación,  etc..
n Corte  trasversal:  hombres-­mujeres,  rural-­
urbana,  …
Contrastar  cambio  estructural  a  
ciegas………

68
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 9.  Análisis  de   n No  requiere  hipótesis  sobre  
el  “momento” del  cambio  
estabilidad (la  composición  de  los  
n Intra-­muestral subgrupos)
El  contraste  de  Hansen  (1992)
a)  Para  contrastar  la  estabilidad  
de  un  coeficiente  (i)
Tablas  Hansen  Valor  Crítico  5%=0.47
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 9.  Análisis  de   Estimación  recursiva:  
estabilidad
n Intra-­muestral CUSUM
CUSUMQ
Para  evaluar  la  estabilidad  de  los  coeficientes  estimar  el  modelo  secuencialmente  ,  
añadiendo  cada  vez  una  observación  muestral  desde  k+1  hasta  T  y  ver  cómo  
cambian  los  coeficientes.

70
6 Pruebas de especificación incorrecta y
de calidad de los datos
CUSUM  y  CUSUMQ   (Brown  y  otros  
n 9.  Análisis  de   1975)
estabilidad
n Residuos  recursivos  
n Intra-­muestral reescalados:
vt
wt = t = k + 1,.....T
' ' −1
1 + X ( X X t −1 ) X t
t t −1

nBajo  H0:
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 9.  Análisis  de  
estabilidad
n Intra-­muestral
CUSUM
6 Pruebas de especificación incorrecta y
de calidad de los datos
n 9.  Análisis  de  
estabilidad
S=
n Intra-­muestral
CUSUMQ

Si  se  cumple  la  H0:

(Valores  críticos  en  tablas)


6 Pruebas de especificación incorrecta y
de calidad de los datos
Ejemplo  CUSUM
6 Pruebas de especificación incorrecta y
de calidad de los datos
Ejemplo  CUSUMQ
6 Pruebas de especificación incorrecta y
de calidad de los datos
Estimación  recursiva
7

Contrastes anidados y no anidados de


especificación. Principios generales de
contrastación estadística
Contrastes  de  especificación:  Para  
seleccionar  entre  modelos  alternativos

n Hay  varios  modelos  compatibles  con  la  teoría  


que  difieren  en  sus  variables  explicativas
n Contrastar,  para  una  muestra  dada  de  tamaño  n,  
dos  modelos,  M1  y  M2  que  se  diferencian  en  las  
columnas  de  la  matriz  X
n Modelos  ANIDADOS:  las  variables   de  uno  de  ellos  
se  pueden   expresar  como  combinación   lineal   de  las  
del  otro.  una  de  las  hipótesis  a  contrastar  es  un  caso  
particular  o  versión  restringida   de  la  otra.
n Modelos  NO  ANIDADOS:  contrastes  de  familias  de  
hipótesis  separadas
7 Contrastes anidados y no anidados de
especificación

Contrastes  no  anidados  (familias  


de  hipótesis  separadas).  Hacer  
Contrastes  anidados en  los  dos  sentidos  M1  vs  M2  y  
M2  vs  M1)

H1:  Modelo  general


H1:  Modelo  M2 H0:  Modelo  M1

H0:  Modelo  restringido


7
Contrastes anidados de especificación
n Contrastes  t  y  F  ya  
conocidos
n Métodos  automáticos  
de  selección  de  
regresores  (forward,  
backward,  stepwise)  los  
usan
n Ejemplo  SPSS  
H 0 : mod elo restringid o con K1 regresores : Y = Xβ + U1
n Ojo  con  niveles  de   H1 : mod elo no restringid o con K 2 regresores : Y = Xβ + Zγ + U 2
significación!  
Estimadores  de  pre-­ (e1' e1 − e2' e2 ) / K 2
Fk2 ,n − K1 − K 2 = '
test e2 e2 /(n − K1 − K 2 )
7 Contrastes NO anidados de
especificación
Dos  especificaciones  con  dos  conjuntos  de  regresores  distintos,  sin  estar  
contenido  uno  en  otro.  Teorías  competitivas,  formas  funcionales  
alternativas,  transformaciones  diferentes  en  las  variables,  ….

K1  regresores  en  X,  K2  regresores  en  Z  (de  


ellos,  p  son  linealmente  independientes  de  X)
Recuerda:  hacerlo  en  los  dos  sentidos  
(también  M2  vs  M1).  Si  en  ambos  de  rechaza  
la  H0,  ninguno  de  los  dos  modelos  se  ajusta  a  
la  realidad
7 Contrastes NO anidados de
especificación
n Contraste  J  (Davidson   y  McKinnon,  1981,1993)
n 1.-­ Estimar  el  modelo  M2  por  MCO  y  guardar  los  valores  ajustados   de  y
n 2.-­ Estimar  el  modelo  M1  añadiendo   los  valores  de  y  ajustados  en  el  
paso  anterior
n 3.-­ Contrastar  la  significación  individual  del  coeficiente  de  la  variable  
añadida.  Si  es  significativa,  Rechazamos  M1

n Bajo  H0 (M1),  λ≈N(0,1)


7 Contrastes NO anidados de
especificación
n Contraste  de  abarcamiento  
(“encompassing”)

n Z*  contiene  los  p  regresores  de  Z  linealmente  independientes  


de  X

n Contraste  F  de  significacióN  subconjunto  de  parámetros,  de  los  


p  coeficientes  de    Z*
7 Contrastes NO anidados de
especificación: ¿Cuál es mejor?

n Para  muestras  grandes  parece  


preferible  el  test  J
n Con  muestras  pequeñas,  preferible  el  
F  (encompassing)  
n El  contraste  J  tiene  probabilidades  de  
error  de  tipo  I  muy  grandes  
n El  test  F  puede  tener  potencias  
menores  que  el  J  cuando  la  hipótesis  
nula  es  falsa.
Recuerda:  hacerlo  en  los  dos  sentidos  
(también  M2  vs  M1).  Si  en  ambos  de  rechaza  
la  H0,  ninguno  de  los  dos  modelos  se  ajusta  a  
la  realidad
7 Contrastes NO anidados de
especificación: El contraste PE
n Para  contrastar  modelo  lineal  contra  doble-­log  (o  log-­
lineal)
n Es  una  generalización  del  contraste  J

Regresión  auxiliar:

Bajo  H0,  la  ratio  t  de  α sigue  (asintóticamente)    una  N(0,1)


7 Contrastes NO anidados de
especificación: El contraste PE (2)
n En  la  versión  M2  contra  M1:

Regresión  auxiliar:

Bajo  H0,  la  ratio  t  de  α sigue  (asintóticamente)    una  N(0,1)


7 Principios generales de contrastación
de hipótesis
n Para  contrastes  de  hipótesis  anidadas
n Siempre  H0  es  el  modelo  restringido,  H1  es  el  modelo  general

n Principios:
n Ratio  de  Verosimilitudes
n Wald
n Multiplicadores  de  
Lagrange
7 Principios generales de contrastación de
hipótesis: Ratio de Verosimilitudes (RV)
n Requiere  estimar  ambos  modelos  y  calcular  el  cociente  entre  las  
funciones  de  verosimilitud  maximizadas  en  ambos  casos.  Si  la  diferencia  
es  pequeña  se  acepta  la  restricción  (H0)

H 0 : Modelo restringido
H1 : Modelo no restringido
7 Principios generales de contrastación de
hipótesis: Wald
n Requiere  estimar  sólo  el  modelo  no  restringido
7 Principios generales de contrastación de
hipótesis: Multiplicadores de Lagrange
n Requiere  estimar  solo  el  modelo  restringido

B  ajo  la  H0  sigue  


asintóticamente  una  Chi    
Cuadrado  con  tantos  g.l.  como  
restricciones

n Los  tres  principios  dan  resultados  equivalentes  en  


muestras  grandes
91
92
93
El  ejercicio  plante  a  selección  entre  modelos  NO  anidados.  En  concreto,  
las  ecuaciones  1  y  2  corresponden  al  contraste  J  de  Davidson  y  McKinnon  
donde  los  valores  ajustados  de  un  modelo  se  incluyen  como  regresor  en  el  
otro  modelo.  En  ambos  casos  el  coeficiente  de  la  variable  ajustada  por  el  
otro  modelo  es  estadísticamente  significativa  señalando  que  el  otro  
modelo  aporta  información  no  incluida  en  ese  modelo.  A  luz  de  los  
resultados  anteriores  un  modelo  alternativo  podría  ser  incluir  ambas  
variables  en  el  modelo  Y=f(X,Z)  siempre  y  cuando  ambas  variables  sean  
independientes  y  que  genera  problemas  de  multicolinealidad.  

94
95
96
97
98
99
100

You might also like