Professional Documents
Culture Documents
TÓPICOS DE
ECONOMETRIA
APLICADA
Junio / 2017
PDA – 1 SEMANA
Y\X 80 100 120 140 160 180 200 220 240 260
325 462 445 707 678 750 685 1043 966 1211
Ejemplo: probabilidad condicional
Y\X 80 100 120 140 160 180 200 220 240 260
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
Gasto de consumo semana
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
250
200
Título del eje
150
100
50
0
0 50 100 150 200 250 300
Título del eje
Una curva de regresión poblacional es simplemente el lugar geométrico de las medias condicionales de la
variable dependiente para los valores de las variables explicativas.
Modelo de regresión simple
• Primero, dado que nunca hay una relación exacta entre dos
variables, ¿cómo podemos permitir que otros factores afecten
a y?
• ¿Cuál es la relación funcional entre Y y X?
• ¿Como podemos estar seguros que nosotros estamos
capturando la relación “ceteris paribus” entre Y y X ?
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝜇
Pero…
• Pronóstico:
• Residual:
• Propiedades:
• El promedio muestral de los residuales es cero y de esta
manera 𝑦ത = 𝑦ො
• La covarianza muestral entre cada una de las variables
independientes y los residuales de MCO es cero. Por
consiguiente, la covarianza muestral entre los valores
ajustados de MCO y los residuales de MCO es cero.
• El punto (𝑥1 , 𝑥2 , … 𝑥𝑘 ,…𝑦)
ത se encuentra siempre sobre la
línea de regression de MCO 𝑦ത = 𝛽 0 + 𝛽1 𝑥ҧ1 + 𝛽
2 𝑥ҧ2 +…+𝛽
𝑘 𝑥ҧ𝑘
Bondad de ajuste
• R2 = SSE/SST = 1 – SSR/SST
y y yˆ yˆ
2
y y yˆ yˆ
2 i i
R 2 2
i i
R-squared
• Supuestos básicos:
• Supuestos básicos:
• Muestreo aleatorio
• Supuestos básicos:
• No hay colinealidad perfecta: En la muestra (y por
tanto en la población), ninguna de las variables
independientes es constante y no hay ninguna relación
lineal exacta entre las variables independientes.
• Si una variable independiente es una combinación lineal
exacta de las otras variables independientes, entonces se
dice que el modelo sufre de colinealidad perfecta y que
no puede ser estimado por el método de MCO.
• si permite que las variables independientes estén
correlacionadas; lo único que no permite es que estén
perfectamente correlacionadas
Valores esperados de los estimadores
Y = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + 𝜇𝑖
෪0 + 𝛽
𝑌෨ = 𝛽 ෪1 𝑋1 +𝛽
෪2 𝑋2 + 𝜇𝑖
Esto hace que los estimadores sean sesgados.
Debemos hacer el análisis de error de especificación.
Análisis de error de especificación: dos variables:
Y= 𝛽_0+𝛽_1 𝑋_1 + 𝛽_2 𝑋_(2 )+ 𝜇_𝑖
෪0 +
• Primero, estimamos el modelo con sesgo, 𝑌෨ = 𝛽
෪1 𝑋1 + 𝜇𝑖 .
𝛽
• Obtenemos el valor esperado de 𝛽 ෪1 condicional en
los valores muéstrales de X1, y X2 .
• Tenemos la siguiente relación algebraica 𝛽 ෪1 =𝛽
1 +
2 𝛿
𝛽 ෪1
• 𝛽𝑖 : Estimadores de la regresión bien definida.
• 𝛿෩𝑖 : Pendiente de las regresiones simples (covarianza
muestral entre X)
෪1 ) = E(𝛽
• El sesgo: Bias(𝛽 ෪1 ) - 𝛽1 = 𝛽2 𝛿
෪1
Resumen: Sesgo de variable omitida
෪1 ) =
• El sesgo: Bias(𝛽
Varianza de los estimadores de MCO
• Homocedasticidad:
𝜎2
𝑉𝑎𝑟 𝛽መ𝑗 =
𝑆𝑇𝐶𝐽 (1−𝑅𝐽2 )
Donde:
• STCj= σ𝑛𝑖=1(𝑥𝑖𝑗 − 𝑥𝑗ҧ )2 Variación muestral total en xj
• 𝑅𝐽2 : R cuadrada de regresión de x sobre todas las otras
j
variables independientes
• Significado:
• Una varianza grande significa un estimador menos
preciso, intervalos de confianza grandes y pruebas de
hipótesis menos exactas
Modelos mal especificados (Var)
• Y = 𝛽0 + 𝛽1 X1 + 𝛽2 X2 + μ: es el verdadero modelo
poblacional que cumple con los supuestos Gauss-
Markov.
𝜎2
• 𝑉𝑎𝑟 𝛽መ1 = La varianza de 𝛽ሚ1 𝑒𝑠 𝑠𝑖𝑒𝑚𝑝𝑟𝑒 𝑚𝑒𝑛𝑜𝑟
𝑆𝑇𝐶1 (1−𝑅12 )
𝑞𝑢𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝛽መ1 . A menos que
𝜎2
• 𝑉𝑎𝑟 𝛽෨1 = Xs no estén correlacionadas.
𝑆𝑇𝐶1
• Modelo sobredeterminado.
• Tendencia común.
Consecuencias
• Diagrama de dispersión.
¿Qué puede hacerse si la multicolinealidad es
grave?
• Sesgo de especificación:
• Caso variable excluida
• Forma funcional incorrecta
• Manipulación de datos.
• Transformación de datos.
• (ver notas)
• Sobreestimación de R cuadrado.
• Método gráfico:
• Gráfica secuencial de tiempo
• Gráfica los residuos estandarizados respecto al tiempo.
(res/error est)
• Gráfica ut respecto a ut-1
• Prueba d de Durbin-Watson.
Supuestos:
• Incluye intercepto.
• X son no estocásticas.
• Los errores siguen un esquema autoregresivo de primer
orden.
• Los errores están normalmente distribuidos.
• El modelo de regresión no incluye valor(es) rezagado(s)
de la variable dependiente
• No hay observaciones faltantes en los datos.
¿cómo saber que hay autocorrelación en una
situación dada? de Durbin-Watson
¿cómo saber que hay autocorrelación en una
situación dada? de Durbin-Watson
• Pasos:
• Calcular d
• Pasos:
• Estime mediante MCO la regresión y obtenga los
residuales
• Haga la regresión de los residuales sobre las Xs
originales y los residuales rezagados y obtenga
Rcuadrado
• Supongamos
• (a) se conoce p
Mínimos Cuadrados Generalizados (MCG)
• Varianza constante:
¿Cuál es la naturaleza de la
heteroscedasticidad?
• Ver notas
¿Cuáles son sus consecuencias?
1. Método gráfico:
• Residuales al cuadrado
contra Y estimados.
• Averiguar si el valor
medio estimado de Y
está relacionado
sistemáticamente con el
residuo al cuadrado.
• Aplicar una
transformación –
estimar el modelo.
¿Cómo se detecta?
2. Prueba de Park
• Procedimiento de dos etapas:
• Primero efectúe la regresión MCO ignorando el interrogante
de la heteroscedasticidad. Se obtiene ûi de esta regresión.
5. Prueba Breusch-Pagan-Godfrey:
Prueba Breusch-Pagan-Godfrey
¿Cómo se detecta?
𝑥 = 𝜋0 + 𝜋1 𝑧 + 𝑒;
y probando la hipótesis nula 𝐻𝑂 : 𝜋1 = 0 contra la alternativa
𝐻1 : 𝜋1 ≠ 0.
𝐶𝑜𝑣 𝑧, 𝑦 = 𝐶𝑜𝑣(𝑧, 𝛽0 + 𝛽1 𝑥 + 𝜇)
𝐶𝑜𝑣 𝑧, 𝑦 = 𝛽1 𝐶𝑜𝑣(𝑧, 𝑥) + 𝐶𝑜𝑣(𝑧, 𝜇)
𝐶𝑜𝑣(𝑧, 𝑦)
𝛽1 =
𝐶𝑜𝑣(𝑧, 𝑥)
• El coeficiente 𝛽1 es la covarianza poblacional entre z y y dividida por la
covarianza poblacional entre z y x.
Estimador de VI con un Único Regresor
𝜎2
𝐴𝑣𝑎𝑟(𝛽መ1,𝑉𝐼 ) =
𝑛𝜎𝑥2 𝜌𝑥,𝑧
2
𝜎2
𝑉𝐼
𝛽መ1,𝑉𝐼
𝐴𝑣𝑎𝑟 = 2
𝑆𝐶𝑇𝑥 𝑅𝑥,𝑧
σ𝑛
𝜇 2
donde 𝜎 2
𝑉𝐼 =
ൗ(𝑛−2) , 𝜇ො𝑉𝐼 son los residuales
𝑖=1 𝑖,𝑉𝐼
𝜎2
𝑉𝐼 𝜎
ො 2
𝑀𝐶𝑂
𝛽መ1,𝑉𝐼
𝐴𝑣𝑎𝑟 = > = 𝐴𝑣𝑎𝑟( መ1,𝑀𝐶𝑂 )
𝛽
2 𝑆𝐶𝑇𝑥
𝑆𝐶𝑇𝑥 𝑅𝑥,𝑧
Propiedades de VI con instrumentos
deficientes
𝜎𝑢
𝑝𝑙𝑖𝑚 𝛽መ1,𝑀𝐶𝑂 = 𝛽1 + 𝐶𝑜𝑟𝑟 𝑥, 𝜇
𝜎𝑥
• El sesgo asintótico del estimador de VI puede ser mas grande que el del
estimador de OLS si 𝐶𝑜𝑟𝑟 𝑧, 𝑥 es lo suficientemente pequeña.
log(𝑝𝑎𝑐𝑘𝑠) = 4,45 + 2,99𝑝𝑎𝑐𝑘𝑠
(0,091) (8,70)
n = 1:388;
Estimación de VI del modelo de regresión
múltiple
• Considere el modelo
𝑦1 = 𝛽0 + 𝛽1 𝑦2 + 𝛽2 𝑧1 + ⋯ + 𝛽𝑘 𝑧𝑘−1 + 𝜇1 ;
𝑦2 = 𝜋0 + 𝜋1 𝑧1 + ⋯ + 𝜋𝑘−1 𝑧𝑘−1 + 𝜋𝑘 𝑧𝑘 + 𝜈2 ;
Estimación de VI del modelo de regresión
múltiple
• El supuesto de relevancia del instrumento (la existencia
de alguna correlación parcial entre 𝑧𝑘 y 𝑦2 ) puede
verificarse estimando la regresión de 𝑦2 sobre todas las
variables exógenas (el instrumento y las regresores
exógenas de la ecuación original) por MCO
𝑦2 = 𝜋0 + 𝜋1 𝑧1 + ⋯ + 𝜋𝑘−1 𝑧𝑘−1 + 𝜋𝑘 𝑧𝑘 + 𝜈2 ;
Y probando 𝐻𝑂 : 𝜋𝑘 = 0 contra 𝐻1 : 𝜋𝑘 ≠ 0.
log 𝑤𝑎𝑔𝑒
= 𝛽0 + 𝛽1 𝑒𝑑𝑢 + 𝛽2 𝑒𝑥𝑝𝑒𝑟 + 𝛽3 𝑒𝑥𝑝𝑒𝑟 2 + 𝛽4 𝑏𝑙𝑎𝑐𝑘 + 𝛽5 𝑠𝑚𝑠𝑎
+ 𝛽6 𝑠𝑜𝑢𝑡ℎ + 𝛽7 𝑠𝑚𝑠𝑎66 + 𝛽8 𝑟𝑒𝑔662 + ⋯ + 𝛽15 𝑟𝑒𝑔669 + 𝜇
Primera Etapa:
• Para verificar la relevancia del instrumento se estima la
regresión de educ sobre nearc4 y todas las variables exógenas
que aparecen en la ecuación de salario, obteniendo
Segunda Etapa:
𝑒𝑥𝑝𝑒𝑟, 𝑒𝑥𝑝𝑒𝑟 2 ,
• La regresión de log(wage) sobre 𝑒𝑑𝑢𝑐,
black, smsa, south, smsa66, reg662,…, reg669 es
presentada en la siguiente Tabla (véase la tercera
columna).
Ejemplo: La Proximidad de la Universidad
como una VI para la Educación
Ejemplo: La Proximidad de la Universidad
como una VI para la Educación
• La Tabla además presenta los resultados de la regresión
𝑒𝑥𝑝𝑒𝑟, 𝑒𝑥𝑝𝑒𝑟 2 , black, smsa,
de log(wage) sobre 𝑒𝑑𝑢𝑐,
south, smsa66, reg662,…, reg669 es presentada en la
siguiente Tabla (véase la segunda columna).
• La mejor VI para
∗
𝑦2 es la combinación lineal de las 𝑧𝑗 , la cual
llamaremos 𝑦2
𝑦2∗ = 𝜋0 + 𝜋1 𝑧1 + 𝜋2 𝑧2 + 𝜋3 𝑧3;
Etapa 1:
• Se realiza la regresión de 𝑦2 sobre 𝑧1 , 𝑧2 y 𝑧3 , y se obtienen
los valores ajustados
𝑦ො2 = 𝜋ො 0 + 𝜋ො1 𝑧1 + 𝜋ො 2 𝑧2 + 𝜋ො 3 𝑧3 ;
Etapa 2:
• Se estima la regresión de 𝑦1 sobre 𝑦ො2 y 𝑧1 .
Interpretacion de MC2E
• La variable endógena 𝑦ො2 puede escribirse como
𝑦2 = 𝑦2∗ + 𝜐2
donde se asume que 𝑦2∗ no esta correlacionada con 𝜐2
𝑦1 = 𝛽0 + 𝛽1 𝑦2∗ + 𝛽2 𝑧1 + 𝜇1 + 𝛽1 𝜐2 ;
• El error
∗
compuesto 𝜇1 + 𝛽1 𝜐2 1v2 no está correlacionado
con 𝑦2 , tampoco con 𝑧1 .
Etapa 2:
Estime la regresión de y sobre los valores ajustados de las regresoras
endógenas 𝑥ො1 , 𝑥ො2 … 𝑥ො𝑘 y los valores observados de las regresoras
endógenas 𝑤1 , 𝑤2 … 𝑤𝑚
Prueba de Endogeneidad
• Para cada variable endógena 𝑥𝑗 , j = 1,…,k, calcule los
residuos de la 1ra etapa del procedimiento de MC2E
𝜐ො𝑗 = 𝑥𝑗 − 𝜋ො 0 − 𝜋ො1 𝑤1 − ⋯ − 𝜋ො 𝑚 𝑤𝑚 − 𝜃1 𝑧1 − ⋯ − 𝜃𝑟 𝑧𝑟 ;
• MC2E.5 (Homocedasticidad) 𝐸 𝜇2 𝑧ǁ = 𝜎 2
• Resultados:
• Bajo los supuestos MC2E.1 a MC2E.4, el estimador de MC2E
es consistente.
estimator Description
• 2sls two-stage least squares (2SLS)
• liml limited-information maximum
likelihood (LIML)
• gmm generalized method of moments
(GMM)
• Ivregress
• ivreg2
Stata
• ivreg2 is an alternative to Stata's official ivregress. ivreg2 may be used with time-
series or panel data, in which case the data must be tsset before using ivreg2;
• ivreg2 will also estimate linear regression models using robust (heteroskedastic-
consistent), autocorrelation-consistent (AC), heteroskedastic and autocorrelation-
consistent (HAC) and cluster-robust variance estimates.
Stata - ejemplo
• Referencia:
• Wooldridge, Capitulo 7, Capitulo 17.
• Stock & Watson, Capítulo 11
• Alicia H. Munnell, Geofrey M. B. Tootell, Geoffrey,
Lynne E. Browne y James McEneaney (1996).
• Evans, W. N., Farrelly, M.C., and Montgomery, E.
(1999).
Introducción
• La variable dependiente y de los modelos de regresión que se
han estudiado hasta ahora ha sido continua:
• Peso al nacer
• Precio de un bien
• Puntuación en el examen final
𝑦 = 𝛽0 + 𝛽1 𝑥 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝜇;
Donde la variable dependiente y es binaria.
donde X= 𝑥1 , … , 𝑥𝑘
Modelo de Probabilidad Lineal (MPL)
• La probabilidad de fracaso 𝑃 𝑦 = 0 𝑋 = 1 − 𝑃
𝑦 = 1 𝑋 es también una función linal de las X.
Modelo de Probabilidad Lineal (MPL)
𝑃 𝑦 = 1 𝑋 = 𝐺(𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 )
Donde G(.) es una función tal que
• 0 < 𝐺 𝑧 < 1 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑎 𝑧
• 𝐺 𝑧 𝑡𝑖𝑒𝑛𝑑𝑒 𝑎 0 𝑐𝑢𝑎𝑛𝑑𝑜 𝑧 𝑣𝑎 𝑎 𝑚𝑒𝑛𝑜𝑠 𝑖𝑛𝑓𝑖𝑛𝑖𝑡𝑜
• 𝐺 𝑧 𝑡𝑖𝑒𝑛𝑑𝑒 𝑎 1 𝑐𝑢𝑎𝑛𝑑𝑜 𝑧 𝑣𝑎 𝑎 𝑚á𝑠 𝑖𝑛𝑓𝑖𝑛𝑖𝑡𝑜
• 𝐺 𝑧 𝑖𝑛𝑐𝑟𝑒𝑚𝑒𝑛𝑡𝑎 𝑐𝑜𝑛 𝑧
• Máxima Verosimilitud
Mínimos Cuadrados No Lineales
• La densidad de 𝑦𝑖 dado 𝑥𝑖 es
𝑓 𝑦𝑖 𝑥𝑖 ; 𝛽0 , … , 𝛽𝑘 = 𝐺(𝑥𝑖 𝛽)𝑦𝑖 [1 − 𝐺(𝑥𝑖 𝛽)]1−𝑦𝑖 , 𝑦𝑖 = 0,1,
donde 𝑥𝑖 𝛽=𝛽0 + 𝛽1 𝑥𝑖1 , … , 𝛽𝑘 𝑥𝑖𝑘
𝑚𝑎𝑥𝑏0,…,𝑏1 𝐿 𝛽0 , … , 𝛽𝑘 ; 𝑦1 , … , 𝑦𝑛 𝑥1 , … , 𝑥𝑛
** GOODNESS OF FIT
lfit, group(10) table
// With a p-value of 0.255, we can say that Hosmer and Lemeshow's goodness-of-fit test indicates
that our model fits the data well.
Ejemplo – HMDA BOSTON / STATA
COMANDOS
** MULTICOLLINEALITY
collin x43 x45 x47 L_GDP_Rgdp_T ln_duration_1 x201 ln_demo_duration
/*
Two commonly used measures are tolerance (an indicator of how much collinearity that a
regression analysis can tolerate) and VIF (variance inflation factor-an indicator of how
much of the inflation of the standard error could be caused by collinearity). The tolerance
for a particular variable is 1 minus the R2 that results from the regression of the other
variables on that variable. The corresponding VIF is simply 1/tolerance. If all of the
variables are orthogonal to each other, in other words, completely uncorrelated with each
other, both the tolerance and VIF are 1. If a variable is very closely related to another
variable(s), the tolerance goes to 0, and the variance inflation gets very large.
*/
estat classification
* Almost 81,10 percent of the cases are correctly classified. This is quite good.
Ejemplo – HMDA BOSTON / STATA
COMANDOS
** INFLUENTIAL OBSERVARTIONS
gen index = _n
scatter stdres_DDR1_C Pr_DDR1_C, mlabel(x1) mlabsize (tiny) yline(0) name(IO1)
scatter stdres_DDR1_C index, mlab(x1) mlabsize (tiny) yline(0) name(IO2)
// rule of thumb abs(person) >2
clist x1 if stdres_DDR1_C < -2
****
scatter dv Pr_DDR1_C, mlab(x1) mlabsize (tiny) yline(0) name(IO3)
scatter dv index, mlab(x1) mlabsize (tiny) yline(0) name(IO4)
// rule of thumb abs(deviance) >2
clist x1 if dv < -2
****
scatter hat Pr_DDR1_C, mlab(x1) mlabsize (tiny) yline(0) name(IO5)
scatter hat index, mlab(x1) mlabsize (tiny) name(IO6)
// rule of thumb leverage (Hat) > 2
clist x1 if hat > 0.2 & hat != .
clist x1 x15 x17 x6 if hat > 0.2 & hat != .
Ejemplo – HMDA BOSTON / STATA
COMANDOS
* Now let's compare the logistic regression with this observation and without it to see how
*much impact it has on our regression coefficient estimates.
quiet logit x193 x43 x45 x47 L_GDP_Rgdp_T ln_duration_1 x201 ln_demo_duration, cluster(cluster)
estimate store w0, title(W0)
quiet logit x193 x43 x45 x47 L_GDP_Rgdp_T ln_duration_1 x201 ln_demo_duration ///
if x1!="22508903120031" & x1!= "22509103120031" & x1!="22524503120031", nolog cluster(cluster)
estimate store w1, title(W1)
quiet logit x193 x43 x45 x47 L_GDP_Rgdp_T ln_duration_1 x201 ln_demo_duration ///
if x1!="22278205320121", nolog cluster(cluster)
estimate store w2, title(W2)
estout w0 w1 w2, cells(b(star fmt(2)) se(par fmt(2))) starlevels(* 0.10 ** 0.05 *** 0.001) ///
legend label varlabels(_cons constant) stats(N r2_p chi2 ll_0 bic aic, fmt(0 2 2 0 0)) style(fixed)