Informe Final Libro Econometría I

Libro de Ejercicios de
Econometría
Pablo Lavado , Gonzalo Rivera , Claudia Lisboa, Luciana Velarde, Óscar Jara
Junio del 2014
Versión Preliminar (no citar)

Libro de Ejercicios de Econometría
Introducción
El adecuado manejo de los conocimientos y herramientas econométricas son de vital
importancia para cualquier economista, ya sea que se desempeñe en el sector privado,
público y, en especial, el sector académico. La econometría es una herramienta
estadística muy útil ya que, correctamente aplicada, el estudio de fenómeno presente en
la realidad. Brinda al investigador en cuestión la capacidad de poder aislar los efectos de
una variable de interés sobre otra. Esto permite poder confrontar la teoría con los datos
observados en la realidad. De este modo, la econometría permite explicar, predecir y
controlar el fenómeno que estamos analizando a través de un modelo econométrico
simple, que debe ser realista y manejable.
Los libros de texto disponibles dedicados, en la actualidad, al desarrollo del contenido

teórico econométrico básico son de muy buena calidad, ya que permiten que el alumno
adquiera de raíz los conocimientos básicos de esta herramienta estadística. En particular,
destacamos los textos llevados a cabo por Jeffrey Wooldridge (2009), Alfonso Novales
(1993), Guajarati (1995), Johnston y DiNardo (1997) y Stock y Watson (2009); y, para
mayor profundidad, el texto desarrollado por William Greene (2012). No obstante esta
gran cantidad de literatura, consideramos que no existe en la actualidad un documento
que permita reforzar la parte práctica de la econometría básica. Por la naturaleza de la
econometría, es conveniente que la parte teórica sea complementada por algunos
ejercicios prácticos a fin de que se pueda contrastar los conocimientos teóricos. Si bien
los libros de texto mencionados anteriormente poseen una parte práctica, consideramos
que hace falta una guía de resolución de ejercicios un poco más detallada que permita un
mayor entendimiento de la parte teórica; en especial para aquellos estudiantes que están
empezando a dar sus primeros pasos en el campo de la econometría.
De este modo, el objetivo de este libro es justamente ser una guía práctica de resolución
de ejercicios de econometría básica. Así, este documento permitirá al estudiante
contrastar los conocimientos teóricos con ejercicios prácticos, ayudándolo a internalizar
de una mejor manera los conceptos y la intuición que hay detrás de ellos; así como de los
modelos aplicados en trabajos de investigación aplicados a la realidad.
Queremos reafirmar, por si no haya quedado lo suficientemente claro, que el presente

documento no pretende ser un libro de texto, sino que el objetivo fundamental del mismo
es fomentar la parte práctica de la econometría, de tal manera que el estudiante pueda
aprovechar de la mejor manera posible el contenido teórico adquirido durante los cursos
que realice o a través de la lectura de libros de texto relacionados. Es por ello que se
recomienda al lector poseer conocimientos previos de álgebra lineal, estadística y alguna
noción acerca de econometría básica.
El presente trabajo es el resultado de una recolección y resolución de ejercicios. Las
fuentes de estos problemas presentados son muy diversas. Algunos provienen de las
épocas en que cada uno de los autores eran alumnos en la Universidad del Pacífico;
mientras que otros se originaron cuando luego los mismos pasaron a dictar el curso de
Econometría I, ya sea como jefes de prácticas o profesor. Los ejercicios desarrollados en
este libro provinieron de las tareas, prácticas dirigidas y calificadas; así como exámenes
de este curso. Es por ello que consideramos necesario reconocer que todos los
problemas propuestos no han sido completamente de nuestra autoría ni de la bibliografía
que aparece al final del documento; por lo que queremos agradecer el apoyo de todos los
profesores y jefes de práctica que han dictado el curso en estos últimos años por
habernos provisto de ejercicios; así como de permitirnos su uso en este libro. En
particular, queremos realizar un cordial agradecimiento profesores Juan Francisco Castro,
Guillermo Díaz, Miguel Jaramillo, Lucciano Villacorta, Fátima Ponce; entre muchos otros.
Asimismo, agradecemos el apoyo de nuestros coautores Claudia Lisboa, Luciana Velarde
y Oscar Jara sin cuyo apoyo este libro no podría haberse desarrollado. De este modo,
queremos enfatizar que todas las resoluciones propuestas en este libro son de nuestra
responsabilidad.
El documento de ejercicios se ha organizado en nueve capítulos; cada uno de los cuales

busca tratar cada uno de los temas seleccionados: Modelo Lineal General y Mínimos
Cuadrados Ordinarios (MCO), Inferencia, Predicción, Máxima Verosimilitud,
Multicolinealidad, Quiebre Estructural, Errores no esféricos (Heterocedasticidad y
Autocorrelación) y Endogeneidad. En cada uno de estos capítulos se proponen y
resuelven los ejercicios vinculados a cada uno de los temas previamente mencionados.
Pablo Lavado
Gonzalo Rivera
Glosario de términos
MCG: Mínimos Cuadrados Generalizados
MCGF: Mínimos Cuadrados Generalizados Factibles
MCO: Mínimos Cuadrados Ordinarios
MELI: Mejor Estimador Lineal Insesgado
MLG: Modelo Lineal General
MV: Máxima Verosimilitud
PGD: Proceso Generador de Datos
PMC: Propensión Marginal a Consumir
SCE: Suma de Cuadrados Explicados
SCR: Suma de Cuadrados Residuales
SCT: Suma de Cuadrados Totales
TLC: Teorema del Límite Central
VI: Variables Instrumentales
Índice
INTRODUCCIÓN ............................................................................................................... 1
1. MODELO LINEAL GENERAL: MÍNIMOS CUADRADOS ORDINARIOS ..................... 5
2. INFERENCIA ............................................................................................................ 69
3. MÁXIMA VEROSIMILITUD ..................................................................................... 104
4. ERRORES NO ESFÉRICOS: HETEROCEDASTICIDAD ....................................... 128
4.1 HETEROCEDASTICIDAD ........................................................................................... 131
4.2 AUTOCORRELACIÓN ............................................................................................... 151
5. ENDOGENEIDAD................................................................................................... 167
6. BIBLIOGRAFÍA ....................................................................................................... 181
1. Modelo Lineal General: Mínimos Cuadrados Ordinarios
Problema 1.1
Probar que para cualquier variable aleatoria , se cumple que:
>
Solución
Como la varianza de es positiva e igual a:
= − >0
Así, la condición que se solicita verificar en el enunciado sí se cumple.
Problema 1.2
De acuerdo con el criterio de los Mínimos Cuadrados Ordinarios, el modelo = +

+ , es imposible de estimar, ya que no es lineal en las variables.
Solución
Incierto, efectivamente no es posible de estimar por MCO ya que el modelo no es lineal en

sus parámetros. Una salida válida, es reemplazar el parámetro = ; de modo que sí
se pueda estimar y luego se logre recuperar .
Problema 1.3
El teorema de Gauss-Markov señala que es estimador MCO es MELI sobre la base de

que | = 0 y que = + (el modelo es lineal) con = 0.
Solución
El teorema de Gauss-Markov consiste en el cumplimiento de supuestos específicos. Estos

incluyen linealidad en los parámetros, homocedasticidad, errores independiente e
idénticamente distribuidos y regresores determinísticos. Si se cumplen todos estos
supuestos, entonces el estimador MCO es MELI.
Problema 1.4
Siempre es preferible el estimador de menor varianza. Comente.
Solución
Falso. Existe la posibilidad de tener un estimador con menor varianza al de MCO (siempre
que no se cumplan algunos supuestos) aunque estos sean sesgados (como el MCG).
Puede que el sesgo de un estimador sea tan grande que, a pesar de tener la menor
varianza, sea menos preferible que otro estimador sesgado. Esto dependerá
exclusivamente del propósito de la investigación.
Problema 1.5
El teorema del límite central (TLC) establece que la distribución de cualquier variable
aleatoria debe tener una distribución para que, en el límite, cuando el número de
observaciones tienda a infinito, converja a una distribución normal.
Solución
̅ [ ̅]
Falso. El TLC indica que todo promedio muestral estandarizando se distribuye
!"#[ ̅ ]
aproximadamente normal estándar, si el tamaño de muestra es lo suficientemente grande.
Problema 1.6
En un modelo econométrico, lo ideal es que los datos observados no varíen ya que de

esta forma reduzco las perturbaciones estocásticas $ , por lo que será más fácil minimizar
los ∑ y encontrar los parámetros eficientes.
Solución
Falso. Debido que se busca explicar la variabilidad en la dependiente mediante la

variabilidad en explicativa, es mejor que se cuente con un mayor nivel de variabilidad de
esta última. Más aún, se debe notar que la varianza del estimador depende inversamente
del nivel de variabilidad de la explicativa.
Problema 1.7
Siempre se puede usar el estimador MCO gracias a la existencia y unicidad de la

proyección ortogonal de en el espacio de las para la estimación del vector de
parámetros.
Solución
Falso, la existencia y unicidad de la proyección ortogonal garantizan que la estimación por

MCO, de poder desarrollarse, va a presentar el mínimo error. La utilización del estimador
MCO va a estar determinada por los supuestos del modelo lineal general, es decir, si se
cumplen estas el MCO va a tener buenas propiedades.
Problema 1.8
Si el estimador MCO cumple con distribuirse normalmente con media y varianza
& ′ cuando el tamaño de muestra tiende a infinito, entonces será un estimador
eficiente. Comente. Cambia su respuesta si no tiene media , ni varianza & ′ , pero
sigue distribuyéndose normal. Justifique.
Solución
Falso. El hecho de que ()*+ ∼ - ,& ′ cuando / → ∞, implica que se cumplen

los siguientes supuestos:
• son estocásticas y no presentan correlación contemporánea con el término de

error.
• Homocedasticidad en la distribución de los errores.
Sin embargo, para que el estimador sea eficiente, es necesario verificar los siguientes
supuestos:
• Independencia en media del término de error con las [ | ] = 0 , lo que

garantiza insesgamiento.
• El error presenta una matriz de varianzas y covarianzas escalar. Esto es necesario
para garantizar que el estimador MCO sea el de mínima varianza dentro del grupo
de los estimadores insesgados.
Ahora, en el caso de que no se cumpla que ()*+ ∼ - , & ′ , esto implica que no
se cumplen los supuestos de no contemporaneidad y homocedasticidad. Por lo tanto, el
comente continúa siendo falso.
Problema 1.9
Se desea calcular los determinantes del salario por hora para lo que se ha planteado la
siguiente regresión: 2343567 = 83ñ72 :; ;: <3<6ó> + + donde es la matriz del resto
de explicativas del modelo (asuma una correcta especificación del mismo).
a) Discuta la consistencia de los estimadores MCO.
Solución
En el término de error de esta ecuación de salarios se encuentran factores no

medibles como el esfuerzo, responsabilidad, entre otros. Es lógico pensar que
estos están correlacionados positivamente al salario de cada uno de los individuos
pero también a los años de educación. Por ende, al existir este problema
(correlación contemporánea entre y ), se ve afectada la consistencia de los
estimadores MCO.
b) Cambiaría su respuesta si el comportamiento de las personas fuese totalmente

atípico y siguiera el siguiente patrón: “Si una persona posee ganas de superación
trabaja más duro pero en lugar de estudiar más años apoya a su vecino para que
este lo haga”. Sustente.
Solución
En este segundo caso, claramente los factores no observables de la ecuación de salarios

del individuo i no afectan a su variable dependiente, sino a la de otro individuo, j (relación
entre ? y @? .). Por ello, no habría más correlación contemporánea entre y para un
mismo individuo. Por ende, no se vería afectada la consistencia de los estimadores MCO.
Problema 1.10
Considere el modelo de regresión:
= + para 6 = 1,2, … , >
Donde los valores de son determinísticos, =0y = & para todo 6. Obtenga
el estimador MCO de , diga si es insesgado y encuentre su varianza.
Solución
Para obtener el estimador D para el parámetro poblacional , se minimiza la suma de

errores al cuadrado del modelo. Así,
= −
F F
E =E −
G G
F F
min E =E − D
K
G G
Por lo tanto, la condición de primer orden es

F
0=E − D
G
F F
L
0=E −E D
G G
Tras simples manipulaciones,
F F
D= E ′ E = ′ ′
G G
Para analizar el insesgamiento, se reemplaza = + :
F F
D= E ′ E +
G G
F F
D= + E ′ E
G G
Se obtiene el valor esperado y la varianza del estimador MCO de , D:

F F
D = + E ′ E
G G
Dado que =0
D =
Y utilizando el resultado anterior de insesgamiento, se obtiene:
D = [ D− D D− D ′]
D = [ D− D− ′]
F F F F
L L
D = [ME N E E ME N ]
G G G G
Dado que es determinístico,

F F F
D = E ′ OE ′P E ′
G G G
Dado que los errores son homocedásticos entre los individuos,

F F F
D = E ′ OE ′P E ′
G G G
D =& E ´
G
Problema 1.11
Sea una variable que se distribuye normalmente con media $ y varianza & . Suponga
que se han obtenido independientemente dos muestras aleatorias simples a partir de ,
de tamaños / y / , y con medias S y S respectivamente.
a. Un investigador pretende estimar $ y propone como estimadores alternativos:
S + S / S +/ S
$̂ = ; $V =
2 / +/
Comparar las propiedades finitas de ambos: ¿los estimadores son insesgados? ¿Cuál de
ellos tiene menor varianza?
Solución
Primero, se halla la media del promedio muestral:
+ + ⋯+ Y 1 /$
S = W Z= [ + + ⋯+ \ Y ]^ = =$
/ / /
Segundo, se halla la varianza del promedio muestral1:
+ +⋯ Y_ −/$
[S − S ] = S −$ = W Z
/
1
S −$ = [ −$ + − $ + ⋯+ Y −$ ^
/
Para simplificar esta expresión, sin pérdida de generalidad, es útil calcular:
[ −$ + @ −$ ^ = −$ + @ −$ +2 [ −$ @ − $ ]
Dado que
[ −$ @ −$ ]= @ − $ − $ @ + $
[ −$ @ − $ ] = $ − 2$ + $ = 0
Con este resultado en mente, se obtiene que la varianza del promedio muestral es
1 /& &
S −$ = ` −$ + ⋯+ \ Y − $] a = =
/ / /
Sesgo
Se halla el sesgo para ambos estimadores:
S + S 2$
$̂ = = =$
2 2
1 Una forma alternativa de hallar la varianza muestral es la siguiente: 35 S =

_ c d c⋯c e g"# hd
35 b f= [ 35 + ⋯ + 35\ Y ]^ = = .
Y Yd Y Y
/ S +/ S $ / +/
$V = = =$
/ +/ / +/
Por lo tanto, los dos estimadores son insesgados.
Varianza
Se halla la varianza para $̂ :
S + S S −$ + S −$
35 $̂ = [$̂ − $̂ ] = i − $j = i j
2 2
1
35 $̂ = S −$ + S −$ +2 [ S −$ S −$ ]
4
Por lo tanto,
1 & & &

35 $̂ = i + + 0j = / +/ … 1
4 / / 4/ /
Ahora, se halla la varianza de $V:
/ S +/ S − / +/ $
35 $V = i j
/ +/
1
35 $V = [/ S −$ +/ S −$ ]
/ +/
Y_d h d Ydd h d
Y_
+ Yd &
35 $V = = / +/ … 2
/ +/ / +/
Para comparar (1) y (2), se prueba que
/ +/ = / + / + 2/ /
Restando −4/ / a ambos lados:
/ +/ − 4/ / = / − / >0
Entonces,
/ +/ > 4/ / , si / l /
Por lo tanto,
35 $̂ > 35 $V , si / l /
b. En un etapa posterior pretende estimar $ y propone los siguientes estimadores:

S + S S + S
mn = S ∗ S ; mn = i j ; mn =
2 2
¿Estos estimadores son sesgados? ¿Si es así, cuál de ellos presenta un menor sesgo?
Solución
Para mn :
p
m = S S = S S =$
Por lo que es insesgado.
Para mn :
S + S 1
mn = i j = [ S + S +2 S S ]
2 4
1 & & 1 & &

mn = i +$ + + $ + 2$ j = + + 4$
4 / / 4 / /
Por tanto, el sesgo de este estimador es
hd hd
q;2r7 mn = mn −$ =s +Y
Y_ d
Para mn :
S + S 1 & & 1 & &

\mn ] = = i +$ + +$ j= + + 2$
2 2 / / 2 / /
Por tanto, el sesgo de este estimador es
hd hd
q;2r7 mn = mn −$ = +Y
Y_ d
Se concluye que el de menor sesgo es el estimador mn ya que es insesgado.
Problema 1.12
Un investigador A sabe que la verdadera relación entre las variables y es la siguiente:
=1+2 +
Donde tiene una distribución normal con media igual a 0 y varianza igual a 1. Además,
toma los valores: 1, 2, 3, 4, 5 y 6. El investigador simula 6 observaciones de con la
distribución asumida y obtiene:
= 0.464 s = −0.160
= 0.060 u = 1.022
= −1.500 w = 0.200
A partir de estos datos genera valores de usando el modelo verdadero.
Otro investigador B solo tiene acceso a los datos de e generados por el investigador A
(pero no conoce el modelo verdadero) y a partir de ellos trata de obtener una estimación
del coeficientede la variable en el modelo verdadero, para lo cual utiliza dos
estimadores:
1 ∑ − S −S
x= w + u − − ; ( =
100 ∑ − S
Se pide:
a. Generar los valores de y calcular las dos estimaciones.
Solución
La generación de los datos es directa:
= 1 + 2 1 + 0.464 = 3.464
= 1 + 2 2 + 0.060 = 5.060
= 1 + 2 3 − 1.5 = 5.500
s = 1 + 2 4 − 0.160 = 8.840
u = 1 + 2 5 + 1.022 = 12.022
u = 1 + 2 6 + 0.200 = 13.200
Para calcular las dos estimaciones se construye la tabla 1.1:
Tabla 1.1. Estimaciones
− ̅ −S − ̅ −S − ̅
1 3.464 -2.5 -4.6 11.38 6.25
2 5.06 -1.5 -3.0 4.43 2.25
3 5.5 -0.5 -2.5 1.26 0.25
4 8.84 0.5 0.8 0.41 0.25
5 12.022 1.5 4.0 6.01 2.25
6 13.2 2.5 5.2 12.96 6.25

̅ =3.5 S =8.01 ∑ =34.45 ∑ =17.5
Con esta información, los estimadores serían los siguientes:
1 1
x= w + u − − = 16.698 = 0.17
100 100
∑ − S −S 34.45
(= = = 2.08
∑ − S 17.5
b. Obtener las propiedades finitas de ambos estimadores.
Solución
Las propiedades de muestras finitas son el sesgo y la varianza.
Las propiedades de ( son conocidas, pues es el estimador MCO:
( =
& &
}35\ ( ] = =
∑ − S 17.5
Sobre el estimador x :
1
\ x] = [ w + u − − ]
100
1 8
\ x] = w + u − − = = 0.08
100 100
Por tanto, el sesgo de este estimador será
\ x] − = 0.08 − = −0.92
Sobre su varianza:
1 4& &
}35\ x ] = [}35 w + }35 u + }35 + }35 ]= =
100 10000 2500
Se concluye que para cualquier valor de & , ocurre:
}35\ x ] < }35\ ( ]
c. Sobre la base de la varianza de ambos estimadores, el investigador B decide adoptar

el primer estimador x . Comente esta decisión, teniendo presente el concepto de Error
Cuadrático Medio ( •€).
Ayuda: El •€\ ̿ ] = [2;2r7 ̿ ] + }35\ ̿ ]. El mejor predictor del parámetro es el de
menor •€.
Solución
Considerando únicamente la varianza, la elección por x parece ser la correcta. Tomando

en cuenta el sesgo, los resultados pueden variar. Sin embargo, el investigador B no puede
considerar el sesgo ya que no conoce el verdadero valor de ; por lo tanto, solo puede
considerar el criterio de mínima varianza, por lo que escoge el estimador x . En cambio, el
investigador A puede calcular el •€ de los dos estimadores:
& 1
•€\ ( ] = 0 + }35\ ( ] = = = 0.05714.
17.5 17.5
&
•€\ x ] = [2;2r7 x ] + }35\ x ] = −0.92 + = 3.3856 + 0.0004 = 3.386
2500
Por tanto, se concluye que:
•€\ ( ] < •€\ x ]
Por lo tanto, conociendo el valor de ( , la decisión del investigador B no es la óptima.
Problema 1.13
Algunos econometristas (sobre todo en ciencias sociales fuera de la economía) utilizan el

método de regresión estandarizada. Esta consiste en la regresión tradicional, pero luego
de estandarizar cada variable, dependiente e independiente, restándole su media
muestral y dividiendo el resultado por su desviación estándar muestral. Entonces, si la
regresión original era
= ‚ + +
se plantea la regresión:
∗ ∗ ∗ ∗
= ‚ + +}
con
∗ −S ∗ − ̅
= ; =
2ƒ 2
Donde S y ̅ son las medias muestrales, y 2ƒ y 2 son las desviaciones estándar

muestrales de y respectivamente:
∑F −S ∑F − ̅
2ƒ = „ G ;2 = „ G
> >
∗ ∗ ∗
a) Tomando en cuenta las definiciones de y , interprete .
Solución
El coeficiente ∗ mide cuántas desviaciones estándar cambia si aumenta en una

desviación estándar.
b) Muestre que (‚∗ = 0.
Solución
Nótese que:
F F F
∗ − ̅ 1
E =E = E − ̅ =0
2 2
G G G
Esto implica que
∑FG ∗
̅∗ = =0
>
De manera similar se prueba que S ∗ = 0.
Por lo tanto,
(‚∗ = S ∗ − ( ∗ ̅ ∗ = 0
…
c) Muestre que ( ∗ = …† ( .
‡
Solución
Ya que se probó S ∗ = ̅ ∗ = (‚∗ = 0, la fórmula MCO para ( ∗ es la misma que en el modelo

sin intercepto:
∑FG ∗ ∗
(∗ =
∑FG \ ∗ ]
Sustituyendo los valores:
∑FG ∗ ∗ ∑FG − ̅ −S 2
…† …‡
(∗ = = = (
∑FG \ ∗ ] 2ƒ
b… f ∑FG − ̅
†
d) Muestre que ˆ ∗ = … ˆ − S , y que }ˆ = … ˆ .

‡ ‡
Solución
Usando el hecho de que (‚∗ = 0:

2 − ̅ 1
ˆ∗ = ( ∗ ∗
=i ( jW Z= \( − ( ̅]
2ƒ 2 2ƒ
1 1 1
ˆ∗ = \( − ( ̅] = \ ˆ − (‚ − S + (‚ ] = ˆ −S
2ƒ 2ƒ 2ƒ
Además,
∗ −S ˆ −S −ˆ ˆ
}ˆ = − ˆ∗ = − = =
2ƒ 2ƒ 2ƒ 2ƒ
…†
e) Muestre que ;;\ ( ∗ ] = ;;\ ( ]. (Recordar que ;; denota “error estándar” y es nuestro
…‡
estimador de la desviación estándar del coeficiente MCO estimado).
Solución
El error estándar del coeficiente asociado a puede ser expresado como:
!ˆ ∗
d Œd
‹
∑FG W… Z ∑FG F 2
;;\ ( ∗ ] = ‰ F
= i j ;; (
‡
=Š
∑FG ∗ 2ƒ
b… f ∑FG − ̅
†
F Œd
‹
2 ‰ ∑G F 2
( ∗
;;\ ] = i j = i j ;; (
2ƒ ∑FG − ̅ 2ƒ
Problema 1.14
Suponga que en el modelo de regresión lineal
= + para 6 = 1,2, … , >
Donde xŽ > 0 es una variable aleatoria escalar y se cumplen los supuestos S1* y S2*:
• S1*: εŽ y xŽ no se encuentran correlacionados para todo i: = 0.

L
• S2*: εŽ es homocedástico: \ ] = & , y •\ , ] = 0 para todo i. Una
L L
implicancia de esto es que \ ]=& .
Considere los estimadores:
∑FG
D=
∑FG
F
∗∗
1
D = ∙E
>
G
Muestre que estos estimadores son consistentes, encuentre sus distribuciones asintóticas
y establezca cuál de ellos es asintóticamente más eficiente.
Solución
Consistencia de D
Se reemplaza = + en la ecuación del estimador
F F F F
∑FG
D= F = OE P OE + P= + OE P OE P
∑G
G G G G
Se aplica ‘46’:
F F
‘46’ D = ‘46’ + ‘46’ OE P OE P

G G
Se divide entre >:
F F
1 1
‘46’ D = + ‘46’ O E P O E P
> >
G G
Por Ley de Grandes Números:
F
1 “
O E P →
>
G
1 “
” E •→
>
Entonces,
‘46’ D = +
‘46’ D = ⟺ =0
Distribución asintótica de D
∑FG F F
D= = ”E • È + a= + ”E • È a
∑FG G G
1 F 1
√- D − =” E • ” E •
- G √-
F
1 “
O E P →
>
G
Por TLC:
1 ˜
” E • → - , 35
√-
Por Teorema de Cramer:

˜
√- D − →[ ^ - 0, &™
˜
√- D − → -\0, &™ ]
Consistencia D ∗∗
F F F
∗∗
1 1 + 1
D = E = E = + E
> > >
G G G
F
∗∗
1
‘46’ D = ‘46’ + ‘46’ E
>
G
F
∗∗
1
‘46’ D = + ‘46’ E
>
G

F
1 “
O E P→
-
G
Entonces,
‘46’ D ∗∗ = +
‘46’ D ∗∗ = ⟺ = 0.
Distribución asintótica D ∗∗
F F F
∗∗
1 1 + 1
D = E = E = + E
> > >
G G G
F
∗∗
1
√- D − =O E P
√- G
Por TLC:
F
1 ˜
O E P → - W Z , 35 W Z
√- G
˜ 1
√- D ∗∗ − → - 0, &™
Comparación de varianzas
Por la Desigualdad de Jensen, para una función š convexa, š › š :
1 1
› W Z
Por lo que el primer estimador es el estimador eficiente.
Problema 1.15
∑œ•_ ƒ
En relación al estimador MCO D = ∑œ•_ d
, considerar un estimador alternativo como:
∑FG − ̅ −S
D∗ = F
∑G − ̅
a. Este sería el estimador MCO de si el modelo original incluyera una constante ž.

Luego, se pide responder: ¿Es D∗ insesgado? También encontrar la D∗ e indicar
cuál es preferible y por qué.
Solución
A partir de la definición del estimador D∗ , se opera sobre él para simplificarlo de la

siguiente manera:
∑FG − ̅ + − ̅− ̅
D∗ =
∑FG − ̅
∑FG − ̅ − ̅ + − ̅
D∗ =
∑FG − ̅
∑FG − ̅ ∑FG − ̅ − ̅
D∗ = F +
∑G − ̅ ∑FG − ̅
∑FG − ̅ − ̅
D∗ = + F
∑G − ̅
∑FG − ̅ ∑FG − ̅ ̅
D∗ = + −
∑FG − ̅ ∑FG − ̅
Luego, para verificar si el estimador D∗ es insesgado, se procede a evaluar la

esperanza del estimador:
D∗ =
Finalmente, se evalúa la dispersión de este estimador:
∑FG − ̅ & &

D∗ = F = F
∑G − ̅ ∑G − ̅
Entonces, D será preferible a D∗ si:
D∗ − D Ÿ0
& &
− Ÿ0
∑FG − ̅ ∑FG
∑FG − ∑FG − ̅
Ÿ0
∑FG F
− ̅ ∑G
∑FG − +2 ̅− ̅
Ÿ0
∑FG − ̅ ∑FG
2 ̅ ∑FG −> ̅
F Ÿ0
∑G − ̅ ∑FG
2> ̅ − > ̅
Ÿ0
∑FG − ̅ ∑FG
> ̅ Ÿ0
Dado que ambos números son positivos, entonces se preferirá el estimador D en

caso de que el modelo no tenga intercepto. Si el modelo estimado tuviera intercepto,
entonces el estimador D sería sesgado a pesar de tener menor varianza.
b. Muestre también que • D, D∗ = D . Finalmente, defina un estimador alternativo a

partir de la combinación lineal de D y D∗ (D∗∗ = λb + 1 − λ D∗ y demuestre que la
combinación óptima es aquella que minimiza la varianza del nuevo estimador D∗∗
ocurre cuando λ = 1
Solución
Se parte de recordar la definición de covarianza entre dos estimadores:
• D, D∗ = \ D − D∗ − ]
F F F F
• D, D∗ = ¢£ME N E ¤ £ME − ̅ N E − ̅ ¤¥
G G G G
F F
1 1
• D, D∗ = M E E − ̅ N
∑FG ∑FG − ̅
G G
F F
1 1
• D, D∗ = £ ME\ ] − ̅ E\ ]N¤
∑FG ∑FG − ̅
G G
F F
1 1
• D, D∗ = M & E − ̅E N
∑FG ∑FG − ̅
G G
F F
1 1
• D, D∗ = M & E ME − ̅ NN
∑FG ∑FG − ̅
G G
Resolviendo para ∑FG − ̅ :

F F
E − ̅ =E − ̅ − ̅
G G
F F F
E − ̅ − ̅ =E − ̅ −E − ̅ ̅
G G G
F F F F
E − ̅ −E − ̅ ̅=E − ̅ − ̅ ME − > ̅N
G G G G
Luego, como ∑FG = > ̅ ,

F F
E − ̅ =E − ̅
G G
Entonces, se tiene que:
&
• D, D∗ = i j= D
∑FG
Se propone el estimador:
D∗∗ = λb + 1 − λ D∗
D∗∗ = λ D + 1−λ D∗ + 2λ 1 − λ • D, D∗
D∗∗ = λ + 2λ − 2λ D + 1−λ D∗
D∗∗ = 2λ − λ D + 1−λ D∗
Para hallar el valor de λ que minimiza la varianza de este estimador alternativo, se

halla:
¦ D∗∗
= D 2 − 2λ + 2 1 − λ −1 D∗ = 0
¦λ
¦ D∗∗
= 2 D 1−λ −2 1−λ D∗ = 0
¦λ
2 1−λ D − D∗ =0
Finalmente, se tiene que λ = 1 para minimizar la varianza del estimador D∗∗ . Es

decir, como se halló previamente, el estimador D es el de mínima varianza.
Problema 1.16
∑œ•_ ƒ
Considere un estimador alternativo a MCO (D = ∑œ•_ d
) como:
∑F G
D° =
∑FG
Muestre que • D, D° = D . Finalmente, defina un estimador alternativo a partir de la

combinación lineal de D y D° (D°° = λb + 1 − λ D° y demuestre que la combinación optima,
aquella que minimiza D°° , se alcanza cuando λ = 1.
Solución
• D, D° = \ D − D° − ]
F F
∑F G
• D, D° = ¨£ME N E ¤i j©
∑FG
G G
F
1 ∑F G
• D, D° = £ E i j¤
∑FG ∑FG
G
&
• D, D° = = D
∑FG
Por otro lado, se solicita hallar la D°° , esto es:
D°° , = λ V b + 1 − λ D° + 2λ 1 − λ • D, D°
D°° , = λ V b + 1 − λ D° + 2λ 1 − λ D
D°° , = λ + 2λ − 2λ V b + 1 − λ D°
D°° , = 2λ − λ V b + 1 − λ D°
Para hallar el valor de λ que minimiza la varianza de este estimador alternativo, se halla:
¦ D°°
= b 2 − 2λ + 2 1 − λ −1 D° = 0
¦λ
b 1−λ − 1−λ D° = 0
1−λ \ b − D° ] = 0
Finalmente, se tiene que λ = 1 para minimizar la varianza del estimador D°° .
Problema 1.17
Se define:
∑FG − ̅ −S
D∗ =
∑FG − ̅
∑F G
D° =
∑FG
Muestre que • D∗ , D° = 0 y defina un estimador alternativo Dc = λD∗ + 1 − λ D° . Muestre

que la combinación que minimiza la Dc es tal que Dc = D.2
Solución
Se parte de la definición de covarianza entre ambos estimadores:
• D∗ , D° = \ D∗ − D° − ]
∑FG − ̅ ∑F G
• D∗ , D° = Mi ji jN
∑FG − ̅ ∑FG
2
Revisar problemas 1.13 y 1.14 para contextualizarse mejor en el problema.
F
1 1
• D∗ , D° = M & E − ̅ N
∑FG ∑FG − ̅
G
Resolviendo para ∑FG − ̅ , se tiene que:

F F
E − ̅ =E −> ̅ => ̅−> ̅ =0

G G
Lo que lleva a concluir que:
• D∗ , D° = 0
Por otro lado, se propone hallar la Dc , esto es:
Dc , = λ V D∗ + 1 − λ D° + 2λ 1 − λ • D∗ , D°
Dc , = λ V D∗ + 1 − λ D°
Para hallar el valor de λ que minimiza la varianza de este estimador alternativo, se halla:
¦ Dc
= D∗ 2λ + 2 1 − λ −1 D° = 0
¦λ
λV D∗ = 1 − λ D°
& >&
λ = 1−λ
∑FG − ̅ ∑FG
F F
λE = 1 − λ > ME −> ̅ N
G G
F F F
λ £E + > ME − > ̅ N¤ = > E −> ̅

G G G
> ∑FG −> ̅

λ=
∑FG F
+> ∑G −> ̅
Resolviendo para el denominador de la expresión previa, se tiene:

F F F F
E +>E −> ̅ = > ̅ +>E −> ̅ = >E

G G G G
Entonces,
> ∑FG −> ̅ > ̅

λ= F =1−
>∑ G ∑FG
Finalmente, el estimador alternativo Dc queda como:
> ̅ > ̅
Dc = 1 − D∗ + D°
∑FG ∑FG
Problema 1.18
Se presenta el siguiente modelo ž + + considerando que existe un estimador tal

∑œ•_ ƒ ∑œ•_ ̅ ƒ ƒS
que D ∗∗ = ∑œ•_ d
yD= ∑œ•_ ̅ d
. Sea 3 es el estimador MCO de ž, muestre que el
•€ D ∗∗ , es menor que •€ D, si y solo si ž < 3 .
Solución
Se tiene:
•€ D ∗∗ , = D ∗∗ + D ∗∗ −
& ∑FG ž+ +
•€ D ∗∗ , = +M i − jN
∑FG ∑FG
& ∑FG ž
•€ D ∗∗ , = +i j
∑FG ∑FG
•€ D, = D + D−
& ∑FG − ̅ −S
•€ D, = +M i − jN
∑FG − ̅ F
∑G − ̅
& ∑FG − ̅ ž + + − žS − ̅ − ̅
•€ D, = +M i − jN
∑FG − ̅ ∑FG − ̅
& ∑FG − ̅ − ̅ + − ̅
•€ D, = +M i − jN
∑FG − ̅ ∑FG − ̅
& ∑FG − ̅ + − ̅ − ̅
•€ D, = +M i − jN
∑FG − ̅ ∑G F
− ̅
& ∑FG − ̅
•€ D, = +M i jN
∑FG − ̅ ∑FG − ̅
&
•€ D, = = D
∑FG − ̅
Entonces,
•€ D ∗∗ , < •€ D,
& ∑FG ž &

+ <
∑FG \∑FG ] ∑FG − ̅
1 1 \∑FG ]
ž <& i − j F
∑FG − ̅ ∑FG ∑G
∑FG − ∑FG − ̅ \∑FG ]

ž <& i j
∑FG − ̅ ∑FG ∑FG
∑FG − ∑FG −2 ̅+ ̅ \∑FG ]

ž <& i F j
∑G − ̅ ∑FG > ̅
2> ̅ ̅ − > ̅ \∑FG ]

ž <& i j
∑FG − ̅ ∑FG > ̅
> ̅ \∑FG ]
ž <& i j
∑FG − ̅ ∑FG > ̅
∑FG
ž <& i j
> ∑FG − ̅
Luego, se tiene que una forma alternativa para encontrar el estimador del intercepto es:
3 = S − ̅D
Entonces,
3 = S − ̅D − 3
3 = S − ̅D − ž
3 = ž + ̅ + ̅ − ̅D − ž
3 = ̅ −D + ̅
3 = ̅ −D +2 ̅ −D ̅+ ̅
3 = ̅ −D +2 ̅ −D ̅ + ̅
Luego, como D es un estimador MCO insesgado de , se tiene que el segundo término es

igual a 0. Por lo que,
3 = ̅ −D + ̅
& &
3 = ̅ +
∑FG − ̅ >
& > ̅ + ∑FG −> ̅

3 = F
>∑ G − ̅
& ∑FG
3 =
> ∑FG − ̅
Finalmente, se tiene que
•€ D ∗∗ , < •€ D,
Si y solo si:
∑FG
ž <& i j= 3
> ∑FG − ̅
Problema 1.19
Una condición suficiente para que el estimador mínimo cuadrático sea insesgado es que
los errores sean independientes en media de la matriz . Por otro lado, para garantizar
consistencia no debe existir correlación contemporánea entre las variables explicativas y
el término de error.
Solución
Verdadero, basta que se cumpla que | = 0 para garantizar insesgamiento. Un

supuesto, menos fuerte que también garantiza insesgamiento es el supuesto de
correlación contemporánea. En ese sentido, no debe existir correlación contemporánea
( ? @? = 0) entre las variables explicativas y el término de error para garantizar
consistencia.
Problema 1.20
Demostrar que ‘46’ ; − = 0, donde ; es el i-ésimo residuo de una regresión de en

; mientras que es su correspondiente de la verdadera distribución.
Solución
Por dato, se cumple que:
• = + (Modelo Teórico)
• = ( + ; (Modelo Empírico)
Por lo tanto,
‘46’ ; − =0
‘46’\ − ( − − ]=0
‘46’\ − (] = 0
‘46’\ − ( ]=0
Por Slutsky3, esta expresión se puede representar como:
[‘46’ ][‘46’\ − ( ]] = 0
[‘46’ ][ − ‘46’ ( ] = 0
Asumiendo que se cumplen los supuestos del MLG (modelo lineal general) se sabe que el
estimador MCO de es consistente, lo cual implica que: ‘46’ « = . Finalmente:
[‘46’ ]∅ = 0
0=0
Por lo tanto, se cumple que ‘46’ ; − = 0.
Problema 1.21
Una variable está determinada por una variable . La relación tiene la forma de
= + +
Donde es la perturbación que satisface los supuestos del modelo. Los valores de las
son tomados aleatoriamente de una población con varianza & . Un investigador comete
un error y regresiona sobre ajustando el modelo = : + : + , donde :( =
∑œ•_ ̅ ƒ ƒS
∑œ•_ ƒ ƒS d
.
Cuando se nota su error, el investigador señala la relación original puede ser escrita como
1 1
=− + −
Y, por lo tanto : sería un estimador de , de donde puede recuperarse un estimador de

-d
. Se le encarga demostrar que : es un estimador inconsistente de y determinar la

-d
dirección del sesgo en muestras grandes.
Solución
3 El teorema de Slutsky señala que el límite probabilístico de un producto puede ser expresado
como el producto de los límites probabilísticos.

A partir del modelo estimado por el investigador, se tiene que:
∑FG − ̅ −S
:( = F
∑G −S
Entonces, bajo el modelo sugerido:

-_ -_
∑FG b− + − + − S+ Sf −S
-d -d -d -d -d -d
:( =
∑FG −S
∑FG b −- − - S + - Sf −S
-
:( = d d d d
∑FG −S
∑FG b −S − −S f −S
- -d
:( = d
∑FG −S
∑FG −S − ∑FG −S −S
-d -d
:( =
∑FG −S
∑FG −S − F ∑FG −S −S
F -d -d
:( =
∑FG −S
F
Aplicando el límite probabilístico para evaluar la consistencia del estimador desarrollado

por el practicante:
-d
}35 − - <7} ,
‘46’ :( = d
}35
1 1 <7} ,
‘46’ :( = −
}35
Finalmente, se observa que el estimador :( es inconsistente. Además, como <7} , >0

y }35 > 0, se tiene que el sesgo del estimador :( dependerá del signo de .
Problema 1.22
Considere que desea estimar el modelo = ž + ∗ + , donde denota al promedio

final obtenido por un alumno al terminar la secundaria y ∗ denota a las habilidades
cognitivas del alumno. Sin embargo, dado que las habilidades cognitivas no se conocen,
sólo se puede aproximar a ellas con los resultados de un grupo de tests que los alumnos
tomaron para medir su habilidad verbal y lógico-matemática. Por ello, no cuenta con ∗
sino con una variable proxy (resultados del test) = ∗ + ® . Además sabe que
~- 0, &™ es un término de error independiente de las habilidades cognitivas del
alumno; ® ~- 0, &° es un error de medición independiente de las habilidades cognitivas
hd
y de que cumple con ® ®… = 0 ∀ 6 l 2. Demuestre que ‘46’ ( = `1 − h²d a.
†
Solución
El modelo es =ž+ −® + ? =ž+ ? + ?, donde ? = − ®? + ?.
∑FG ∑ − ̅ −S ∑FG ∑ − ̅ −S
‘46’ ( = ‘46’ F = ‘46’ ³ + F ´
∑G ∑ − ̅ ∑G ∑ − ̅
•7} , •7} ,− ® +
‘46’ ( = + = +
& &
∗
•7} , ® •7} + ® ,®
‘46’ ( = − =−
& &
&° &°
‘46’ ( = − = ³1 − ´
& &
Problema 1.23
Se supone el siguiente modelo:
= +$ = + +$
Adicionalmente se define el siguiente modelo:

c
= +µ
c L L
Donde = ¶ , siendo ¶ = .
Se pide:
a. Obtener µ y derivar sus propiedades.
Solución
Obteniendo µ
c
µ= − = − ¶ +
Sus propiedades:
µ = [ − ¶ + ]= − ¶ l0
µµ L = ·[ − ¶ + ][ L
− ¶ L + ]¸
µµ L = − ¶ L
− ¶ L + & ¹Y
L
`\µ − µ ]\µ − µ ] a = & ¹Y
De forma que la matriz de varianzas y covarianzas es idéntica a la original.

c
b. Obtener el estimador MCO de . Evaluar sus propiedades de muestras pequeñas.
Solución
(c = L L
= c
+ ′ L
µ
(c = c
+ L L[
− ¶ + ]= c
+ L L
Por lo tanto, las propiedades de ese estimador son:
(c = c
[ (c − c (c − c
′] = & ′
Problema 1.24
Demuestre que el estimador MCO de del siguiente modelo:
= ‚ + + +
Puede expresarse como:
&ƒ 5 ƒ − 5 5 ƒ
( =
& 1−5
Nota: 5"K es el coeficiente de correlación entre a y b.
Solución
Se definen las variables en desviaciones: V y V
Entonces se plantea:
( = VL € V VL €
Donde € = ¹ − V VL V VL
( = V ′ V − VL V VL V VL V VL − V ′ V V ′V V ′
A la expresión anterior se le multiplica y divide por > y resulta:
& ƒ − & & ƒ /&

( =
& − & & /&
& ƒ& − & & ƒ
( =
& & −& &
Luego, si se tiene que: &"K = 5"K &" &K
5 ƒ & &ƒ & − 5 & & 5 ƒ &ƒ

( =
& & −5 & &
& &ƒ & 5 ƒ − 5 5 ƒ

( =
& & 1−5
&ƒ 5 ƒ − 5 5 ƒ
( =
& 1−5
Problema 1.25
Si se regresiona la variable dependiente contra su valor predicho n , se obtiene

necesariamente que el estimador MCO del intercepto y de la pendiente son 0 y 1
respectivamente.
Solución
Se supone que se estima el siguiente modelo empírico:
= ( +;
Asimismo, se tiene que el modelo original es el siguiente:
= +
Ahora, si se regresiona contra su valor predicho n se obtiene:
= n+
Sin embargo, utilizando el hecho de que n = ( , se puede expresar n = − ;.

Reemplazando este resultado, se llega a:
= −;+
;=
Es decir, se obtiene que el error teórico es igual al error empírico.
Recordar que una pendiente igual a 1 (en el caso que no haya intercepto en el modelo)
implica un ajuste perfecto (determinístico) entre la variable dependiente y la
independiente. Al regresionar contra su valor predicho n , se llega a que ; = . De ello,
se desprende que la regresión original a partir de la cual se obtuvo n y la nueva regresión
planteada se encuentran superpuestas. No obstante, la pendiente de la nueva regresión
no será exactamente uno en tanto exista un término de error reconocido en el modelo.
Problema 1.26
Se quiere regresionar una variable versus una variable » (la explicativa). Halle el
estimador MCO, si se sabe que » es el doble de .
Solución
La regresión que se plantea realizar es de la siguiente manera:
= »+;
Por tanto, el estimador MCO de » sería (tomando en cuenta que solo hay una variable):
∑½G ¼
)*+ = »L» »L =
∑½G ¼
Reemplazando en esta ecuación el hecho que » = 2 ; y desarrollando, se llega a:
∑½G 2 2 ∑½G 1
)*+ = = =
∑½G 2 4 ∑½G 2
Este resultado es evidente ya que el valor esperado de la variable y siempre será la mitad
del que tome la variable Z; por construcción de esta última.
Vale la pena recalcar que este resultado no varía si se añade a la especificación un

intercepto:
= ¾ + »+;
El estimador MCO será:
∑½G ¼ − ¼̅ −S ∑½G 2 − S −S 1
¿À¾ = ½ = ½ =
∑ G ¼ − ¼̅ ∑G 4 −S 2
En este segundo caso, el estimador MCO del intercepto resultará ser aproximadamente
cero.
Problema 1.27
Sean y dos variables aleatorias con varianzas finitas y positivas. Si se quiere predecir
a partir de una función lineal de la forma ž + , muestre que la elección de ž y que
* ,ƒ
minimiza el •€ ,ž + es = g
yž= − . Encuentre además el error
cuadrático medio de este predictor lineal.
Considere ahora el predictor de que se obtiene a partir de la combinación lineal de un
vector aleatorio . En particular, muestre que el vector que minimiza el •€ , L es
= ′ .
Solución
•€ ,ž + = \ − ž+ ]
€6> •€ ,ž +
€6> \ − ž + ]
¦Á
= b2\ − ž + ] − f=0
¦
¦Á
= −2 + 2ž + 2 =0
¦
¦Á
= − +ž + =0
¦
¦Á
=− +ž + =0
¦
−ž
=
Reemplazando ž = −
−\ − ]
=
− +
=
−
− =
−\ ] = −
−
=
−\ ]
• ,
=
L
Ahora, se muestra que el vector que minimiza el •€ , es =
′ :
•€ , ′ = − ′
€6> •€ , ′
€6> − ′
¦Á L
= 2 − − =0
¦
¦Á
= 2 −2 ′ =0
¦
− ′ =0
= ′
Problema 1.28
Demostrar qué ocurre con el estimador de mínimos cuadrados ordinarios cuando se omite
una variable relevante. ¿Qué pasa cuando se incluye una variable irrelevante?
Solución
Para ver qué es lo que ocurre ante estos dos casos, es necesario analizar cómo se ven
afectadas las propiedades del estimador MCO: insesgadez y eficiencia.
Omisión de una variable relevante:
En este caso, se tiene que el PGD es de la forma:
= +» + (M1)
Pero se estima un modelo de la forma:
= +; (M2)
Para analizar el efecto sobre las propiedades del estimador, se debe comparar los
resultados obtenidos bajo ambas especificaciones:
L L
(M1): = €Â ′€Â vs (M2): = ′
Sesgo
A priori, se puede ver que el estimador obtenido omitiendo una variable relevante se
encuentra sesgado. Para confirmar esta impresión, se procede a analizar si dicho
estimador es insesgado:
L L L L
,)*+ = = +» +
L L L
,)*+ = + ′» + L ′
Ahora, tomando el valor esperado de y reduciendo la expresión se llega a:
[ ,¿À¾ / , »] = [ L L
/ , »] + [ L L
» / , »] + [ L ′ / , »]
[ ,¿À¾ / , »] = + L L
» + L
′ [ / , »]
Por el supuesto de independencia en media condicional del error, se cumple que [ /

, »] = 0; por lo que se obtiene:
L L
[ ,¿À¾ / , »] = + »
Se puede apreciar claramente el sesgo que implica la omisión de la variable Z. Sin

embargo, se debe notar que dicho estimador será insesgado en cualquiera de los
siguientes dos casos: (i) ambas variables son ortogonales ’» = 0 o (ii) » es una
variable irrelevante; es decir, =0 .
Eficiencia:
En segundo lugar, para analizar la varianza de MCO, se debe comparar la varianza bajo
ambas especificaciones:
L L
(M1): 35 / ,» = & €Â vs (M2): 35 / ,» = &
Al comparar ambas expresiones, es claro ver que la varianza del estimador del segundo
modelo es menor. Esto se puede apreciar si se diferencia los denominadores de ambas
expresiones; obteniendo que el del segundo modelo es mayor; y por tanto, dicho
estimador tendrá una menor varianza:
L L L L
− €Â = ¶Â = ¶Â ′¶Â > 0
L L
(M1): 35 / ,» = & €Â > (M2): 35 / ,» = &
En conclusión, la omisión de una variable relevante lleva a obtener un estimador sesgado

pero con menor varianza. En este caso, MCO seguiría siendo MELI ya que todavía es el
estimador insesgado de mínima varianza.
Inclusión de una variable irrelevante:
En este caso, se tiene que el PGD es de la forma:
= + (M3)
Pero se estima un modelo de la forma:
= +» +; (M4)
Nuevamente, para efectos comparativos, se obtienen los estimadores de ambas

especificaciones:
L L
(M3): = ′ vs (M4): = €Â ′€Â
Sesgo
Al igual que el caso anterior, se analizará si el estimador MCO del M4 presenta un sesgo:
,)*+ = L €Â L
€Â = L €Â L
€Â +» +
L L
,)*+ = €Â €Â + L €Â ′€Â » + L €Â ′€Â
Recordar que el producto del “hacedor de residuos”, €, de una variable y ella misma es
cero (€Â » = 0 . De esta manera, simplificando, se llega a:
L
,¿À¾ = + €Â ′€Â
Tomando esperanzas a la expresión anterior:

L
[ ,¿À¾ /, »] = [ / , »] + [ ′ / , »]
[ ,¿À¾ / , »] = + L ′ [ / , »]
Por el supuesto de independencia en media condicional del error, se cumple que [ /

, »] = 0; por lo que se obtiene:
[ ,¿À¾ / , »] =
Es decir, la inclusión de una variable relevante no genera un sesgo en el estimador.
Eficiencia:
Finalmente, se debe comparar la varianza entre ambos modelos:

L L
(M3): 35 / ,» = & vs (M4): 35 / ,» = & €Â
La comparación entre ambas expresiones resulta en que es M3 el que tiene menor

varianza; según lo visto en el caso anterior. Es decir, incluir una variable irrelevante al
modelo genera ruido adicional (e innecesario) a la estimación; por lo que incrementa la
variabilidad del estimador.
En conclusión, la inclusión de una variable irrelevante lleva a obtener un estimador

insesgado pero con mayor varianza; justamente lo contrario al caso anterior.
Problema 1.29
Considere el modelo lineal = + + donde = 0 y la ′ = & ¹F .

Además, @ para Ä = 1, 2 son matrices de dimensión > Å@ de regresores no aleatorios.
Suponga que se estima a partir de una regresión de sobre .
• Muestre que el estimador MCO resultante es sesgado a menos que y sean

ortogonales.
• Muestre también que el estimador usual de la varianza del error presenta un sesgo
positivo. ¿Cambian sus conclusiones si se asume que y son ortogonales?
Solución
Conforme a lo que se indica en el enunciado, estimador de quedaría como:
( = ′ ′ + +
( = + ′ ′ ′ + ′ ′
( = + ′ ′ ′ + ′ ′
( = + ′ ′ ′
Esto indica que la estimación de a partir de una regresión de sobre genera un

sesgo positivo que está dado por: ′ ′ ′
Además, este sesgo desaparece o lo que es lo mismo, ( = , si ′ = 0, esto es, si

y son ortogonales.
Por otro lado, el estimador usual de la varianza del error está dado por:
;′;
2 =
>
Donde ; = − . Para el modelo estimado en este caso, se tiene:
; ′;
2 =
>
Donde ; = − ( . Entonces,
; = + + − (
L L L
; = + + − + ′ + ′
L L L L
; = + − ′ +
; = + –¶ +¶
; = ¹−¶ + ¹−¶
; =€ +€
Elevando al cuadrado la expresión:

L
; ′; = € +€ € +€
; ′; = ′€ ′€ + ′€ ′€ + ′€ ′€ + ′€ €
; ′; = ′€ + ′€ + ′€ + ′€
Considerando el hecho de que € =¹−¶
; ′; = ′ − ′ ′ ′ + ′ − ′ ′ ′ + ′
− ′ ′ ′ + ′ − ′ ′ ′
Tomando esperanzas y teniendo en cuenta que los errores son ortogonales a las :
; ′; = ′ − ′ ′ ′ +&
; ′; = ′€ +& ¹
Así, el sesgo positivo está dado por: ′€
En el caso de que y son ortogonales ( ′ = 0), el sesgo estaría dado únicamente

por: ′ , es decir, sería menor que el anterior.
Problema 1.30
Con el fin de mejorar el sistema de focalización de hogares en los programas sociales, se

requiere estimar un modelo que explique el efecto de participar en un programa social
entre los niños que se encuentran cursando la primaria sobre las notas de los mismos a
nivel nacional. Para ello, se cuenta con la siguiente información:
• -Ç = notas trimestrales de los alumnos

• = ¶È¹ per cápita trimestral departamental
• :3: = edad del alumno
• É = participa en el programa social 6
• q; 7 = sexo del alumno
• = características del hogar y de la vivienda
• •ÇÁ = características del colegio
Recuerde que los modelos que estima van cambiando según agrega o quita variables,
así que debe de especificar con qué modelo final está trabajando y que
transformaciones le haría a la data de ser conveniente.
a. Proponga un modelo econométrico teórico. Justifique la inclusión de las variables

más relevantes para el modelo para dar respuesta a lo pedido a sus jefes de
práctica. Asimismo, deberá discutir cuales son los principales supuestos sobre los
que sustenta las técnicas de estimación y justificar cada uno de los regresores
sugeridos. Interesa también saber qué controles cree conveniente incluir dada la
naturaleza de la variable explicada propuesta.
Solución
El modelo teórico considera aquellas variables que son parte del proceso generador
de datos. Así, el modelo teórico es el siguiente:
4>-Ç = ‚ +ž+ ;:3: + ;:3: + + •ÇÁ s + u
+ w 2; 7+ Ê: + Ë: + Ì: , + ‚ :5@ +
Donde las características del hogar y la vivienda seleccionadas son: nivel educativo
del jefe de hogar, ingreso del hogar, material del hogar, tipo de alumbrado y fuentes
de comunicación como radio y televisión. •ÇÁ está compuesto por indicadores de
número promedio de alumnos por aula en los colegios, material predominante en el
colegio, años de experiencia promedio de los profesores y si es el colegio es
multigrado y si tiene más de un turno.
Tanto : como : implican pertenencia del individuo a dos distintos programas

sociales, la variable : , intenta capturar efectos de complementariedad de ambos
programas, como lo serían desayunos escolares y otros programas nutricionales, El
ž recoge los efectos individuales de cada alumno tales como la habilidad innata. Los
efectos propios de cada región son recogidos por la dummy :5@ , donde Ä es por cada
región. (Podría considerarse a 4>-Ç? como regresor, pero es opcional).
En este caso, desde que se cuenta con toda la información disponible observable es
posible en principio estimar el modelo. El problema radica en que no se puede
incluir el efecto individual debido ya que no es observable (como es un corte
transversal tampoco se puede hacer un modelo de efectos aleatorios). Es decir, el
modelo usado al momento de la estimación no tendría problemas si no fuera por el
ž, el cual lleva un estimador sesgado pero consistente.
El punto principal radica en que no exista correlación entre los ž y los errores. En
segunda instancia, que la variable dependiente sea comparable entre los distintos
colegios y que no se presente error de medición en ningún regresor por lo difícil de
estandarizar la data a nivel nacional.
b. Considere el modelo propuesto en el inciso anterior y los supuestos tomados para

su estimación insesgada vía MCO. Discuta la razonabilidad de dichos supuestos.
Solución
Tales supuestos son poco realistas en la medida que en el error existan factores
idiosincráticos como el esfuerzo de los padres por educar a sus hijos o
institucionales relativos a cada comunidad y centro escolar. Es decir, debe
observarse si existe alguna correlación entre el ž y las .
Problema 1.31
Suponga que desea estimar el siguiente PGD:

q343567 = ;:3: + 3ñ72Í˜‹À + 2; 7 +
pero, por diversas razones, realiza una regresión de "q343567" sobre ";:3:" y "3ñ72_;: <"
únicamente. Respecto a los estimadores de mínimos cuadrados del modelo estimado
¿serán consistentes? ¿es posible que uno de ellos sea consistente y el otro no? Explique.
Solución
En tanto existe una variable relevante omitida, la consistencia de los estimadores puede
verse afectada. El estimador de será consistente si y solo si = 0. Ello, sin
embargo, no implica que el otro estimador sea también consistente, lo cual se dará si
= 0 ya que la variable formaría parte del error en el modelo estimado.
Problema 1.32
La siguiente ecuación describe el precio mediano de la vivienda en una comunidad en

función del nivel de contaminación medido por niveles de óxido nitroso (>7 ) y el número
medio de habitaciones en las viviendas de la comunidad (577’2):
log ‘56<; = ‚ + log >7 + 577’2 + $
a. ¿Cuáles serán los signos esperados probables de y ? ¿Cuál es la

interpretación de ? Explicar la respuesta.
Solución
• < 0: A mayor polución, se espera un menor valor de las casas.

• > 0: El número de cuartos está relacionado con el tamaño del inmueble.
• es la elasticidad del precio de la vivienda respecto a nox.
b. ¿Por qué log >7 y 577’2 pueden estar negativamente correlacionados? Y ¿en
qué caso, la regresión simple de log ‘56<; sobre log >7 produce un estimador de
con sesgo al alza o a la baja?
Solución
Si se asume que la cantidad de 577’2 aumenta con la calidad del inmueble,

entonces 47r >7 y 577’2 estaría negativamente correlacionados, especialmente
en vecindarios que tienen más contaminación ya que a mayor 47r >7 menor
4
calidad .
Si se realiza la regresión solo entre log ‘56<; y log >7 , se estaría omitiendo una
variable relevante. Sobre la base de la tabla 1.2, se puede decir que, debido a que
4 También podría darse el caso en el que las variables estén correlacionadas positivamente si se
asume que a mayor número de cuartos existe un mayor nivel de contaminación dado que existe un
mayor número de personas dentro de la vivienda, lo cual implica una mayor cantidad de
desperdicios generados.
<755 , <0 y > 0, el estimador ( podría tener un sesgo negativo. Sin
embargo, como < 0, esto implicaría que se estaría sobrestimando el efecto
negativo de la polución; es decir, existe un sesgo positivo.
Tabla 1.2. Sesgo según correlación y signo de coeficiente
<755 , >0 <755 , <0
>0 Sesgo positivo Sesgo negativo
<0 Sesgo negativo Sesgo positivo
c. Suponga que se han estimado las siguientes ecuaciones:
log ‘5Ó<;
Ô = 11.71 − 1.043 log >7 , > = 506, Õ = 0.264.
log ‘5Ó<;
Ô = 9.23 − 0.718 log >7 + 0.306577’2, > = 506, Õ = 0.514.
¿Es la relación entre los estimadores de la regresión simple y múltiple de la

elasticidad de ‘56<; con respecto a >7 la que estaba prevista, de acuerdo con la
respuesta de b? ¿Significa esto que -0.718 está más cerca de la elasticidad
verdadera que -1.043?
Solución
La relación es la esperada. La regresión simple estima un coeficiente más negativo.

Como se está estimando sobre una sola muestra, no se puede saber qué
estimación está más cerca de . Pero si se supone que esta es una muestra
representativa, se puede afirmar que el estimador es cercano a -0.718.
Problema 1.33
Un investigador requiere estimar una ecuación de demanda por alimentos. En un primer

intento, obtiene los siguientes resultados:
Ön˜ = 89.97 + 0.107¶˜
Su asistente le indica que el coeficiente asociado al precio es positivo por un problema de

variable omitida. Comente este argumento. Si es verdadero, ¿cómo podría mejorar su
estimación?
Solución
El argumento es verdadero. En las ecuaciones de demanda se suele usar una variable de

escala, como por ejemplo el ingreso. Por tanto, el problema (signo positivo viola la ley de
la demanda) se debería a la omisión de una variable omitida.
El coeficiente esperado del ingreso es positivo. Se espera una correlación positiva entre el
precio e ingreso. Con esto, el sesgo por la omisión de la variable es positivo. Esto podría
tornar un coeficiente negativo a positivo.
Un modelo sugerido para mejorar la estimación sería Ö˜ = ‚ + ¶˜ + + $, donde

denota el ingreso.
Problema 1.34
Considere un simple modelo de oferta y demanda.
Ö?˜ = ž + ¶? + ?
Ö?¾ = × + 8¶? + $?
Ö?˜ = Ö?¾
¿Será el estimador MCO de insesgado y consistente?
Solución
Igualando demanda y oferta, se obtendría una cantidad establecida en el mercado
Ö?˜ = Ö?¾ = Ö?
De esta forma, se podrían obtener la siguiente ecuación:
Ö? = ž + ¶? + ?
Sin embargo, se sabe que tanto las cantidades y los precios son determinados casi de
manera simultánea; por lo que otra ecuación relevante sería de la forma:
× Ö? $?
¶? = − + −
8 8 8
De donde se observa claramente que ¶? ? ) l 0. Aquí se presenta un problema de

causalidad reversa dado que la cantidad demandada causa a la cantidad ofertada; al
mismo tiempo que la cantidad ofertada también causa a la cantidad demandada. Por lo
tanto, el estimador MCO no es consistente al no tomar en cuenta esta relación
bidireccional.
Problema 1.35
Si se tiene la regresión = ¾ + + y se multiplica cada uno de los valores de por

una constante, ¿qué sucedería con el ( ? ¿Qué pasaría si se suma una constante a cada
valor de ?
Solución
Para ver qué ocurre cuando se modifican las explicativas en un modelo, es necesario
comparar los estimadores de ambos modelos. El estimador MCO del modelo inicial es:
L L
,¿À¾ = €‚ €‚
Ahora es necesario hallar el estimador del otro modelo y tratar de expresarlo en términos
del inicial. El primer caso es en el que se multiplica por una constante a los valores de ;
por lo que se debe definir la variable:
∗
=Ø
Ahora, recordar el modelo quedaría expresado de la siguiente manera:

∗
= ¾ + +
El estimador MCO de dicho estimador sería:
( =\ ∗L ∗ ∗L
€‚ ] €‚
∗
Reemplazando el valor de :
( = Ø L €‚ Ø Ø L €‚
( =Ø L
€‚ L
€‚
( =Ø ,)*+
Es decir, cuando se multiplica a las explicativas por una misma constante, el estimador
original queda multiplicado por la inversa de dicha constante.
De manera similar se analiza el segundo caso, en el cual se suma a cada variable de X

una constante; para lo cual se empieza definiendo la variable:
∗∗
= +8
En este caso, el modelo quedaría como:

∗∗
= ¾ + +
Reemplazando y reagrupando:
= ¾ + +8 +
= ¾+ 8 + +
= ž + + ; :7>:; ž = ¾+ 8
Es decir, no varían los coeficientes relacionados a las pendientes, pero si se modifica el

intercepto de la regresión ya que justamente absorbe el efecto promedio de todos los
demás regresores.
Otra forma de demostrarlo es a partir de la siguiente representación del estimador MCO
(dado que incluye intercepto):
p=[ ∗∗
− SSSSS
∗∗ L ∗∗
− SSSSS
∗∗ ] [ ∗∗
− SSSSS
∗∗ ′ −S ]
Sustituyendo y simplificando, se llega a:

L
( = `b + 8 − \SSSSSSS
+ 8 ]f b + 8 − \SSSSSSS
+ 8 ]fa `b + 8 − \SSSSSSS
+ 8 ]f ′ − S a
L
( = `b − S + \8 − 8̅]f b − S + \8 − 8̅]fa `b − S + \8 − 8̅]f ′ − S a
Dado que 8̅ = ∑FG 8 = 8:

F
( = ,)*+
En efecto, se puede observar que sumarle una constante a las explicativas no afecta el
estimador relacionado a las pendientes.
Problema 1.36
Un investigador desea hallar los determinantes del consumo de helados. Para eso, ha
estimado una ecuación de la forma:
n = 20 + 100•
Õqq = 1020
Õ = 0.90
Donde es el número de helados que se consumen a diario y • es la temperatura

promedio diaria en grados Celsius.
Qué pasaría con los siguientes componentes de la regresión si en vez de usar grados
Celsius se hubiera utilizado grados Fahrenheit ( ). Explique matemáticamente (Recuerde
que = 1.8• + 32 .
• El coeficiente estimado de
• El estimador del intercepto
• La suma de errores al cuadrado (SCR)
Solución
Ù
• A partir de = 1.8• + 32, se tiene que • = . Con esto, se reemplaza en la
.Ë
Ù
ecuación principal tal que n = 20 + 100 b f = −1757.7 + 55.5 . Entonces, el
.Ë
coeficiente estimado de es 11.1.
• El estimador del intercepto es: -1757.7.
• Luego, como el n no ha cambiado y la q•Õ = ∑FÚG − n , se tiene que la SCR
tampoco ha cambiado y sigue siendo 1020.
Problema 1.37
En un modelo bivariado = ‚ + + ;, se sabe que el estimador MCO de es: ( =

∑ Û ÛS S
∑ S d
. ¿Qué relación tiene esta estimación con el concepto de regresión
particionada y el teorema de Frisch-Waugh?
Solución
En primer lugar, se debe notar que, de acuerdo con la forma en la que está planteada la
regresión, se trata claramente de una regresión particionada. En este caso, se está
dividiendo a las variables explicativas en dos grupos: el intercepto y las variables de
interés. Tomando esto en cuenta, se puede definir las matrices “¶” y “€” (hacedor de
estimados y residuos respectivamente) como:
66′ 66′
¶‚ = 6 6 L 6 6L = €‚ = ¹ − ¶‚ = ¹ −
- -
Donde 6 representa un vector de (> >) lleno de unos. De esta manera, se puede ver que
multiplicando por €‚ al modelo inicial, se obtiene el modelo original pero con las variables
desviadas de su media:
€‚ = €‚ 6′ ‚ + €‚ + €‚ ;
−S = − S +;
Por tanto, se puede ver que el estimador MCO de en ambos modelos resulta ser el
mismo. Por otro lado, el teorema de Frisch-Waugh establece que el estimador MCO de
de una regresión particionada ( = + + ;) será el mismo que el estimador MCO
de ž en la siguiente regresión de residuos: ; Ûd = ž; _
d
+ }, donde } = € ;.
En este caso, se busca demostrar que el estimador ž de la siguiente regresión ; Û =

ž; _ + } equivale a . La variable dependiente son los residuos de contra un intercepto
(desviado de la media); mientras que la explicativa son los residuos de contra un
intercepto:
ž = ; _ ′ ; _
; _ ′; Û
L
ž = \ €‚ €‚ ] €‚ ′€‚
L
ž = \ €‚ €‚ ] €‚ ′€‚
∑ −S − S
ž= =
∑ − S
Por lo tanto, dicho modelo con intercepto sí tiene una relación con el teorema de Frisch-
Waugh.
Problema 1.38
En la siguiente regresión:
=ž+ +;
Para poder computar los coeficientes asociados a , se puede primero transformar a

desviaciones de su media ( ∗ y de la misma manera transformar cada columna de la
matriz a desviaciones de sus respectivas medias ( ∗ . Asimismo, se regresiona ∗
sobre ∗ sin constante. ¿Se obtiene el mismo resultado si solo se transforma y se
realiza la regresión? ¿Qué pasa si solo se transforma ?
Solución
Para evaluar qué sucede en los tres casos que se plantean en el problema, se tiene:
∗
= −S
∗
= − ̅
Entonces, si se transforman e :
∗ ∗
= +;
(= ∗
′ ∗ ∗ ∗
(=\ − ̅ − ̅ ] − ̅ −S
(= ′€‚ ′€‚
Si se transforma solo :
∗
= +;
(= ∗
′ ∗ ∗
(=\ − ̅ − ̅ ] − ̅
(= ′€‚ ′€‚
Si se transforma solo :
∗
= +;
(= ′ ′ ∗
(= ′ ′ −S
(= ′ €‚
Entonces, en el primer y segundo caso, se obtienen los mismos resultado; sin embargo, si
se desvía solo respecto de su media, esto no ocurre. Como €‚ es idempotente al
limpiar a del efecto de su media, se está limpiando a de la suya, pero al revés no
ocurre lo mismo.
Problema 1.39
Considere el modelo de regresión simple:

L
=ž+ + para 6 = 1,2, … , >
Esta ecuación equivale a = L + pero con = 1, L y = ž, L . Por simplicidad

asuma que es determinístico. Muestre que los estimadores MCO de y ž son
respectivamente:
∑FG − ̅ −S ∑FG − ̅
D= = F
∑FG − ̅ ∑G − ̅
3 = S − ̅D
∑œ•_ ƒ ∑œ•_
Donde S = F
y ̅= F
son los promedios muéstrales de y respectivamente.
Compare estos resultados con el caso general sin intercepto.
Solución
Se parte de la definición general del estimador D en sumatorias:
F F
L
D = ME N E
G G
Para este caso particular, se tiene que evaluar en primer lugar:

F F
L 1
E = E ” • [1 ]
G G
F
Þ > E á
F F
1 Ý à
G
E L
= E” •=Ý F F
à
G G
Ý à
ÝE E à
ÜG G ß
F F F
Þ > E á ÞE á
F −E
Ý à 1 Ý à
G
ME N =Ý F F
à = Ý GF G à
Ý à > ∑FG − ∑FG Ý à
G
ÝE E à Ý− E > à
ÜG G ß Ü G ß
Donde
F F F
>E − ME N = >E − > ̅

G G G
F F F
>E − ME N = >E −> ̅

G G G
F F F
>E − ME N = > OE −> ̅ P

G G G
F F F
>E − ME N = > OE − ̅ − ̅ P
G G G
F F F
>E − ME N = > OE − ̅ P=∆

G G G
Entonces,
∑FG ∑FG
F Þ − á
L Ý ∆ ∆ à
ME N =Ý ̅ 1 à
G Ý− F à
Ü [∑ G − ̅ ^ [∑FG − ̅ ^ß
En segundo lugar, para este caso particular, se evalúa la forma que toma: ∑FG
F
Þ E á
F F
1 Ý à
E = E” • = Ý FG à
G G
Ý à
ÝE à
ÜG ß
Entonces,
F
∑FG ∑FG Þ á
Þ − áÝ E à
ž ∆ ∆
= ` a = ÝÝ ̅ 1
àÝ G
àÝ F à
Ý− F à à
Ü [∑ G − ̅ ^ [∑FG − ̅ ^ß ÝE à
ÜG ß
Donde
F F
∑FG ∑FG
ž= E − E = S − ̅D
∆ ∆
G G
F F
̅ 1
=− E − E
[∑FG − ̅ ^ [∑FG − ̅ ^
G G
− ̅ > S + ∑FG ∑FG − ̅ −S

= = F
[∑FG − ̅ ^ ∑G − ̅
Problema 1.40
Considere el modelo = ‚ + + , en el cual [ | ] = m, donde m es una

constante diferente de cero. Demuestre que el estimador MCO de es insesgado, pero
el de ‚ es sesgado. Esto muestra que no se necesita asumir que m sea exactamente
igual a cero para estimar sin sesgo usando MCO.
Solución
Dado que el modelo posee intercepto, el modelo puede ser expresado como desviaciones
con respecto a la media:
−S= − ̅ +
Por tanto, ( puede expresarse como:
∑FG − ̅ −S
( =
F
∑G − ̅
Reemplazando − S , se obtiene
∑FG − ̅
( = + F
∑G − ̅
Aplicando esperanza condicional para ver el sesgo:
∑FG − ̅
[( ã ]= ³ + ä ´
∑FG − ̅
∑FG − ̅ [ | ]
= + F
∑G − ̅
m ∑FG − ̅
= +
∑FG − ̅
Dado que m es constante, se puede sacar de la sumatoria. Luego, se usa el hecho que
∑FG − ̅ = 0. Así,
[ ( ã ] =
Ahora, para el caso del intercepto:
[ (‚ ã ] = [ S − ( ̅ ã ^
Sustituyendo S = ‚ + ̅ + S,
[ (‚ ã ] = [ ‚ +\ − ( ] ̅ + Sã ^
[ (‚ ã ] = ‚ + [\ − ( ]ã ^ ̅ + [S| ]
Dado que [ ( ] = .
∑FG
[ (‚ ã ] = ‚+ ³ ä ´
>
∑FG [ | ]
[ (‚ ã ] = ‚+
>
[ (‚ ã ] = ‚ +m
Problema 1.41
Considere el modelo de regresión = + , donde es tal que existe un vector 3 de

dimensión Å 1 que satisface 1 = 3, donde 1 es un vector de dimensión > 1 lleno de
å
unos. Defina el vector ̅ L = cuyo Ä − é26’7 elemento es el promedio muestral de los
F
elementos de la Ä − é26’3 columna de .
• Utilizando las ecuaciones normales del problema de estimación MCO,

muestre que S = ̅ L D donde D es el estimador MCO de .
• Muestre que los residuos de esta regresión tienen una media muestral igual
a cero. Este resultado significa que la línea de regresión contiene a los
promedios de los datos.
Ayuda: Cuando 3 es igual a un vector unitario lleno de ceros excepto por el Ä − é26’7
elemento que es igual a 1, entonces el modelo de regresión incluye una constante como
regresor.
Solución
Se define:
3 = [1 … 0]
F
1
̅= E
>
G
L
1
̅=
>
L
1
S=
>
Luego, de las ecuaciones normales:

L L
D=
3L L
D = 3L L
L L
3 D= 3
1 LD = 1
̅ LD = S
Los residuos quedan de la siguiente manera:

L
;=0
3L L ;
=0
>
3 L;
=0
>
1L ;
=0
>
;̅ = 0
Finalmente, si 3 = 1, los residuos equivalen a 0 en promedio.
Problema 1.42
Considere el modelo de regresión lineal:

| = + para 6 = 1,2, … , >
Donde = 1 si el individuo 6 pertenece al grupo 1 y = 0 si el individuo 6 pertenece al

grupo 2. Muestre que el estimador MCO de puede expresarse como D = S − S ,
donde S@ es el promedio de las observaciones del grupo Ä Ä = 1,2 . Muestre además que
el estimador MCO de es D = S .
Solución
| = +
L L
D = € €
L L
De la definición € = ¹ − ,
En este caso particular: € = ¹ − 6 6 L 6 6L
Donde 6 = [1 … 1]
Entonces,
L ´
D = ¹ − 6 6L6 6L ¹ − 6 6L6 6L
D = ′ − ′6 6 L 6 6L ′ − ′6 6 L 6 6L
′6 6′ ′6 6′
D =i ′ − j i ´ − j
> >
F F
∑FG ∑FG ∑FG
D = ME − N ME − N
> >
G G
F
> > ∑FG
D = i> − j ME − N
> >
G
> >−> > ∑FG − > ∑FG

D =i j i j
> >
> > ∑FG − > ∑FG

D =i ji j
> >−> >
> ∑FG − > ∑FG

D =i j
> >−>
>S − >S
D =W Z
>−>
>S − >S
D =W Z
>
>S − > S − > S

D =W Z
>
D =S −S
Por otro lado,
D = S−D ̅
D = S− S − S ̅
Se sabe que
F
>
̅ =E =
>
G
Entonces,
>
D = S− S − S
>
>S − S > + S >
D =
>
> SSS + > SSS − SSS> + SSS>
D =
>
> SSS + SSS>
D =
>
D = SSS
Problema 1.43
Dadas las siguientes expresiones del modelo lineal: n = ( y $̂ = − ( . Se pide:
a) Demostrar que ∑YG‚ $̂ = 0.
Solución
Y
Ö=E − ‚ − − ⋯− ç ç
G
Derivando respecto a ‚ e igualando a 0:

Y
¦Ö
= −2 E − ‚ − − ⋯− ç ç =0
¦ ‚
G
Tras sustituir (@ por cada @ de forma que ∑ ˆ = 0.
b) Demostrar que ∑Y n = ∑Y‚
Solución
Se sabe que n = ( ; = ( + ˆ, de forma que = n + ˆ . Tomando sumatorias a

ambos lados de la última expresión, se tendría:
Y Y Y
E =E n +Eˆ
G G G
Pero por resultado de 6, ∑YG‚ ˆ = 0, se tiene que:

Y Y
E =En
G G
c) Demostrar que n L n = ( L ′ .
Solución
n L n = \ ( ]L ( = ( L (= ( L L L
= (′ ′
d) Demostrar que $̂ L $̂ = L
− (L ′ .
Solución
ˆL ˆ = \ L
− (L L
]\ − (] = L
− L ( − «′ L
+ ( ′ (
Y al ser ( ′ L
un escalar, se puede escribir igual que su traspuesta ′ (
ˆL ˆ = L
− 2 «′ L
+ (L L (= L
− 2 (L L
+ (L L L L
= L
− 2 (L L
+ (L L
= L
− (′ ′
e) Dada la siguiente información, calcular ( , n y $̂ y verificar que ∑YG‚ $̂ = 0 y ∑Y n =

∑Y‚ .
Tabla 1.3. Sesgo según correlación y signo de coeficiente
1 0 1 2 1
2 2 0 -1 0
2 2 5 10 5
Solución
Ordenando matricialmente, se tendría luego:
5 3 3
L L
= O3 7 −4P ; | | = 19;
3 −4 9
L
1 47 −39 −33 L
24
= O−39 36 29 P ; = M 28 N
19
−33 29 26 −2
El estimador MCO de ( es:
1 47 −39 −33 24 102/19 5.368

(= L L
= O−39 36 29 P M 28 N = M 14/19 N = M 0.736 N
19
−33 29 26 −2 −32/19 −1.684
1 −1 2 24 1.2631
Þ1 0 2 á 102/19 Þ 38 á Þ 2 á
1 Ý
n= ( = Ý1 1 à
0 à M 14/19 N =
à Ý à
116à = Ý6.1052à
Ý 19 Ý
Ý1 2 −1à −32/19 Ý162à Ý 8.263 à
Ü1 1 0ß Ü116ß Ü6.1052ß
Y Y
En =E = 24
‚
Problema 1.44
Se supone que se ha estimado la siguiente ecuación utilizando MCO (con las variables
medidas en logaritmos):
? = ‚ + ? + ? + $? , è = 1, … … 17.
Y las estimaciones de los parámetros son:
(‚ = 1.37; ( = 1.14 ( = −0.83.
También se sabe que:

L [¹ L L]
− = 0.0028
L
Y los elementos de son:
510.89 −254.35 0.42

O−254.35 132.70 −6.82P
0.42 −6.82 7.11
Se pide:
a. Calcular las varianzas de los estimadores MCO de ‚ ; .
Solución
L
La varianza de los estimadores está dada por la expresión & , donde & es
un escalar cuyo estimador insesgado viene dado por:
ˆ′
&ˆ =
/−Å
L
Conocida solo falta estimar ˆ′ ˆ
ˆ= − (= − L L
ˆL = [ L
− L L L ][
− L L ]
L L L L L L L L L
= − − + ′ ′ ′
L L L L L [¹ L L]
= − = − = 0.0028
Entonces
0.0028
&ˆ = = 0.0002
17 − 3
Las varianzas de los estimadores serían:
510.89 −254.35 0.42 var\βn‚ ] 0.10210

}35\ ( ] = 0.0002 O−254.35 132.70 −6.82P ⟹ êvar\βn ]ï = O0.02654P
0.42 −6.82 7.11 var\βn ] 0.00142
Problema 1.45
Un investigador ha estimado el siguiente modelo con una muestra de 5 observaciones:
? = + ? + ?
Una vez realizada la estimación extravía toda la información de que disponía excepto la
que aparece en la tabla 1.4.
Tabla 1.4. Información disponible de la estimación
Núm. Xt uˆ t
obs.
1 1 2
2 3 -3
3 4 0
4 5 ¿?
5 6 ¿?
Con la información anterior el investigador debe calcular una estimación de la varianza de
las perturbaciones aleatorias ¿Cómo debe proceder?
Solución
El primer problema que se debe resolver es hallar los valores de los residuos para las
observaciones número 4 y 5. Para ello, se considera que las dos ecuaciones normales de
los coeficientes imponen restricciones sobre los residuos, ya que:
Y
E ˆ? = 0
?G
E ˆ? ? =0
?G
Entonces,
ˆ + ˆ + ˆ + ˆs + û = 0
ˆ +ˆ +ˆ + ˆs s + û u =0
Reemplazando los valores de la tabla:
2 − 3 + 0 + ˆs + û = 0
2 1 − 3 3 + 0 4 + 5 ˆs + 6 û = 0
Es decir,
ˆs + û = 1
5 ˆs + 6 û = 7
Resolviendo el sistema:
ˆ s = −1
û = 2
Luego, el estimador insesgado de la varianza de las perturbaciones viene dado por
∑Y?G ˆ ?
&ˆ™ =
/−2
Aplicando la fórmula:
∑u?G ˆ ? 2 + −3 + 0 + −1 +2
&ˆ™ = = =6
5−2 3
Problema 1.46
En la siguiente regresión = ž + + ;, para poder computar los coeficientes asociados

a X, se puede primero transformar a desviaciones de su media (obteniendo ∗) y, de la
misma manera, transformar cada columna de la matriz a desviaciones de sus
respectivas medias (obteniendo ∗). Asimismo, se regresiona ∗ con ∗ sin incluir una
constante. ¿Se obtiene el mismo resultado si solo se transforma , y se regresiona? ¿Qué
pasa si solo se transforma ?
Solución
Partiendo del modelo: =ž+ + ;, se define dos variables transformadas

desviándolas de su media:
∗
= €‚ = −S
∗
= €‚ = − S
Recordando el concepto de regresión particionada, si se utiliza:

∗ ∗
(i) El modelo con ambas variables transformadas: = + ;:
∗ ∗ ∗ ∗
¿À¾ = ′ ′
¿À¾ =\ − S L
− S ] − S ′ −S
L
¿À¾ = \ €‚ €‚ ] €‚ ′ €‚
¿À¾ = ′€‚ ′€‚ ′€‚ ′€‚
Se sabe que las matriz M es simétrica e idempotente, por tanto:
¿À¾ = ′€‚ ′€‚ … (1)

∗
(ii) El modelo con sólo las X transformadas: = + ;:
∗ ∗ ∗
¿À¾ = ′ ′
L
¿À¾ = \ €‚ €‚ ] €‚ ′
¿À¾ = ′€‚ ′€‚ ′€‚ ′
¿À¾ = ′€‚ ′€‚ … (2)
Por tanto, se puede concluir que el modelo arroja el mismo estimador si se transforma
tanto la dependiente y las explicativas como si sólo se transforma las explicativas. El
último caso es:
∗
(iii) El modelo con sólo Y transformada: = + ;:
∗
¿À¾ = ′ ′
¿À¾ = L
′ −S
L
¿À¾ = ′€‚ … (3)
Finalmente, se puede concluir que desviando únicamente Y respecto de la media no se

obtiene el mismo resultado que en los dos casos anteriores. Esto se explica por la
idempotencia de €‚ , ya que logra limpiar a las del lado derecho mas no a las del
lado izquierdo; por lo que en el modelo estimado se terminan utilizando tres variables:
; €‚ ; €‚ .
Problema 1.47
El teorema de Gauss Markov sostiene que MCO es el MELI. El estimador ( de este
ejercicio corresponde al Mejor Estimador Lineal de , esto es, el estimador que minimiza
el ECM dentro del grupo de todos los estimadores lineales (sean estos sesgados o
insesgados).
Considere el modelo de regresión
= + para 6 = 1,2, … , >
Donde los valores de son determinísticos, =0 y = & para todo 6. Se tiene

el estimador:
∑FG
(=
hd
∑FG + -d
a) Muestre que ( = <̂ ´ , donde <̂ = 35r’6>À ·<̂ ´ , ¸
Solución
El primer paso es la función a minimizar que corresponde al •€ <´ , , para así

poder encontrar el valor de <̂ que minimiza esta función.
Entonces, como no es aleatorio, se tiene que el •€ <´ , es la suma de un

componente de varianza más un componente de sesgo tal que:
•€ <´ , = <´ +\ <´ − ]
•€ <´ , = <´ + + <´ −
Y como son determinísticos, su valor esperado es y su varianza es 0:
•€ <´ , = <´ <+ <´ −
•€ <´ , = & <´< + <´ + <´ −

F
•€ <´ , = & E< + <´ −1

G
•€ <´ , = & E< + <´ −1

G
Ahora, se halla el valor de < que minimiza esta función •€ <´ , tal que:
8 •€ <´ ,
= 2& < + 2 <´ −1 = 0, ∀6
8<
F
<&
= 1 − E< ´
G
F
<
= 1 − E< ´ , ∀6
&
G
Entonces, como el lado derecho de la igualdad es constante, entonces los ratios

para i y j son iguales tal que:
À Àð À ð
= , <@ =
ð
F
< < @
= 1−E @
&
@G
F
< <
= 1− E @
&
@G
F
< <
= 1− E @
&
@G
F
< &
£ +E @ ¤=1
@G
< = hd
-d
+ ∑F@G @
b) El estimador ( es sesgado. Encuentre el sesgo \ (] − y concluya que ( es

sesgado hacia cero.
∑FG +
(=
hd
∑FG +
-d
Solución
Para verificar si el estimador planteado es sesgado, se procede a evaluar su valor

esperado:
∑FG
\ (] = hd
l
∑FG +
-d
∑FG
\ (] − = hd
−
∑FG + -d
hd
∑FG − ∑FG − -
\ (] − = hd
∑FG + -d
hd
-
\ (] − =− hd
∑FG + -d
Entonces, como el denominador es estrictamente positivo, se tiene que:
Si > 0, entonces \ ( ] <
Si < 0, entonces \ ( ] >
c) Encuentre •€ ( , y compárelo con •€ D, , donde D es el estimador MCO

de
Solución
•€\ ( , ] = (−
∑FG +
•€\ ( , ] = hd
−
∑FG + -d
hd
∑FG + − ∑FG −
-
•€\ ( , ] = hd
∑FG + -d
hd
∑FG − -
•€\ ( , ] = hd
∑FG + -d
F
1 &
•€\ ( , ] = E & −i j
hd
b∑FG + -d f G
F
& &
•€\ ( , ] = E −
hd
b∑FG + f G
-d
hd
Entonces, como -d > 0, se tiene que:
& &
•€\ ( , ] = < = •€ D)*+ ,
∑FG +
hd ∑FG
-d
Problema 1.48
Si al trabajar con el logaritmo de las variables del modelo obtengo un R2 mayor que al
trabajar con las variables en niveles, ¿puede concluir que el modelo en logaritmos es
“mejor”?
Solución
En primer lugar, hay que notar que cuando se aplican logaritmos a las variables se está
modificando la escala de la regresión. En particular, lo que ocurre es que se reduce la
dispersión de los datos. Esto conlleva a obtener una menor Suma de Cuadrados Totales
(SCT), y; por ende, un mayor R2.
Sin embargo, de ello no se desprende que el modelo de regresión en logaritmos siempre

sea “mejor” que el expresado en niveles, dado que los modelos con variables
dependientes expresadas en distinta escala no son comparables.
Problema 1.49
Una regresión del residuo MCO sobre los regresores del modelo que los generó dará por
construcción un R2 igual a cero.
Solución
Los coeficiente de una regresión de los residuos contra los X que los generan son por
L L« « = 0 (de las ecuaciones
definición iguales a cero: ñ = 0, dado que L ñ
normales). Ahora, esto implica que el R será igual a cero puesto que: (1) cada valor
2
ajustado de esta regresión será igual a cero, y (2) que el promedio de los residuos es
igual a cero – ambos puntos implican que la SEC (suma explicada de cuadrados) de esta
regresión será cero. Luego basta recordar:
∑FG ˆ − S q•
Õ = =
∑FG −S q•/
Problema 1.50
Considere tres variables -, É e , con media cero y varianzas unitarias. Una cuarta
variable es creada como • = - + É. Se sabe que (i) en una regresión de • contra , se
obtiene que el coeficiente es 0.8, (ii) en una regresión de • contra -, se obtiene que el
coeficiente es 0.5 y (iii) en una regresión de É contra , el coeficiente obtenido es 0.4. ¿A
cuánto equivale la suma de cuadrados residuales (SCR) en una regresión de C contra D?
Considere que hay 21 observaciones.
Solución
Ahora, primero veamos que es lo que se necesita obtener para obtener la SCR. Sabemos
que esta suma equivale a:
•7} •; É
q•Õ = > − 1 E ; = E < − D: = E< − D : = • −i j É
É
•7} •; É
q•Õ = > − 1 ò • −i j É ó
É
El > − 1 aparece ya que hemos transformado sumatorias en varianzas muestrales.
Asimismo, la varianza de C equivale a:
• = -+É = - + É + 2•7} -; É = 2 1 + •7} -; É
Como sabemos que las varianzas son unitarias; lo único que debemos hallar es la
covarianza entre C y D; y la covarianza entre N y D.
Dado que las variables tienen media cero, los coeficientes proporcionados nos
proporcionan en general la covarianza entre la varianza. Sin embargo, como la varianza
de cada variable es unitaria; en general, los coeficientes que nos dan nos están diciendo
las covarianzas entre las variables relacionadas.
Por dato, sabemos que:
•7} •; = •7} -; + •7} É; = 0.8
•7} •; - = - + •7} -; É = 0.5
•7} É; = 0.4
De la segunda ecuación se obtiene que:

1 + •7} -; É = 0.5 → •7} -; É = −0.5
• = 2\1 + −0.5 ] = 1
Ahora, falta hallar la covarianza entre C y D:
•7} •; É = •7} -; É + É = −0.5 + 1 = 0.5
Con esto, obtenemos que la SCR equivale a
0.5
q•Õ = 21 − 1 ô1 − W Z 1õ = 15
1
Problema 1.51
Considere una regresión lineal bajo los supuestos de homocedasticidad del término de
error y dado y el de distribución normal del término de error dado también.
Considere, además estimadores de & de la forma:
;′;
2¿ =
’
Donde ; es el vector de residuos de la regresión y ’ es una constante por determinar.

ÍLÍ
Claramente, ’ = > − Å da el estimador insesgado 2 = F ç. Encuentra el valor de ’ que
minimiza •€ 2¿ , & .
ÍLÍ
Recuerde que ~öF ç . Mas aún no olvide que si ®~ö÷ , entonces ® =ø y ® =
hd
2ø
Solución
El primer paso consiste en hallar la función a optimizar, que tal y como se solicita, es la
siguiente:
35r’6>¿ 2¿ − & 2¿ − & ′
;′; ;′;
35r’6>¿ −& −& ′
’ ’
;′;
35r’6>¿ −&
’
ÍLÍ
¦ −& ;′; ;′;
¿
= i2 i − & j −1 j=0
¦’ ’ ’
;′; ;′;
Mi −& j N= 0
’ ’
; L; ; L ; ;′;
i j−& i j=0
’ ’
; L ; ; L;
i j=& ;′;
’
Entonces, recordando que:
= −
Se tiene que:
; L; + ;L;
=& ;′;
’
; L; + ;L;
=’
& ;′;
; L; ;L;
’= +
& ;′; &
Utilizando la propiedad que se menciona en el enunciado, se tiene que:
ÍåÍ ÍåÍ ÍåÍ

Si hd
~öF ç , entonces b hd f = > − Å y b hd f = 2 > − Å
2& s > − Å
’= + >−Å
& ;′;
2& > − Å
’= + >−Å
; L;
2& > − Å
’= F ç
+ >−Å
hd
’ =2+ >−Å
Problema 1.52
Muestre que si D es el estimador MCO de la regresión de sobre y si < es cualquier otro
vector de Å 1, se cumple lo siguiente:
− < ′ − < − − D ′ − D = <−D ′ ′ <−D
¿Qué implicancia tiene el resultado anterior con respecto al estimador MCO?
Solución
Primero se llega a la expresión planteada en la pregunta. Para ello, se define las
siguientes ecuaciones:
= D+;
= D+
Usamos < = D − D + <
′ = − < ′ − < = − \D + < − D ] ′ − \D + < − D ]
′ = − < ′ − < = − D− <−D ′ − D− <−D
′ = − D ′ − D −2 − D \ < − D ]′ + \ < − D ]′\ <−D ]
Tener en cuenta que − D = ;, y que ′; = 0 , por lo que el segundo término de la

ecuación anterior se hace 0. Si además se traspone el primer componente del último
término queda:
′ = − D ′ − D + <−D ′ ′ <−D
− < ′ − < − − D ′ − D = <−D ′ ′ <−D
Si se reemplaza ;:
′ − ;′; = < − D ′ ′ <−D
La matriz < − D ′ ′ < − D es semidefinida positiva, por lo que la suma de errores al

cuadrado del estimador < siempre será mayor a la del estimador D: MCO minimiza la
suma de errores al cuadrado.
2. Inferencia
Problema 2.1
El nivel de significancia de un test de hipótesis refleja la probabilidad de aceptar ù¾ dado

que ù¾ es falsa.
Solución
Falso. El nivel de significancia refleja la probabilidad de cometer Error Tipo 1, esto es, la
probabilidad de rechazar ù¾ dado que la ù¾ es verdadera. Para una muestra, existe un
nivel determinado de trade-off entre la probabilidad de cometer Error Tipo I y II. Para
reducir el error tipo II sin incrementar el Error Tipo I es necesario incrementar el tamaño
de la muestra.
Problema 2.2
¿Qué es el nivel de potencia de una prueba de hipótesis y cuál es la relación que tiene
con el nivel de significancia?
Solución
La potencia de una prueba se define como el complemento de la probabilidad de “aceptar”

una hipótesis nula falsa. Existe un trade-off entre la potencia de un test y su significancia.
Si se escoge una probabilidad de cometer error tipo I muy baja (nivel de significancia),
incrementará la probabilidad de cometer error tipo II; es decir, caerá la potencia de la
prueba.
Problema 2.3
En una prueba de significancia individual, siempre que el è calculado (èÀ"ú ) sea menor al è
de tabla puedo asegurar que la variable es no significativa.
Solución
Incierto. Si el èÀ"ú en valor absoluto y el estadístico calculado es mayor al de tabla se

puede asegurar que la variable es significativa. Si no se calcula el èÀ"ú en términos
absolutos y el coeficiente es negativo (por lo que el èÀ"ú también resultara negativo) la
respuesta depende de respecto a qué è de tabla se está comparando ya que la prueba es
de dos colas.
Problema 2.4
A menor varianza de ( la probabilidad de captar la hipótesis nula de no significancia es

mayor.
Solución
«
ã- -ã
Hipótesis nula de no significancia recae en el èÀ"ú = . Si disminuye la varianza del
hû
«
estimador, entonces el èÀ"ú aumenta. Considerando que se trabaja con el valor absoluto,
el objetivo de la prueba è es conocer si el coeficiente de ( es estadísticamente
significativo (proviene de una distribución en la cual el valor más probable, el parámetro,
es diferente de cero) o si el valor obtenido toma su valor debido a la varianza (el
coeficiente efectivamente proviene de una distribución centrada en cero pero por un tema
de varianza, aleatoriedad, el valor del coeficiente resultó diferente de cero). Es por ello
que se divide entre la desviación estándar y se compara con el è de tabla. Así, ante un
mayor èÀ"ú , se disminuye la posibilidad de aceptación de la hipótesis nula. Por lo tanto, el
comente es falso, sin importar si el coeficiente sea positivo o negativo.
Problema 2.5
Si existe evidencia estadística suficiente para rechazar que solo uno de los regresores
incluidos en un determinado modelo es distinto de cero (es decir que todos los demás
regresores son no significativos), entonces es probable que la prueba de significancia
conjunta lleve a no rechazar la ù‚ .
Solución
En primer lugar, la ù‚ suele llevar la restricción de igualdad, por lo que, en la prueba de

hipótesis, la hipótesis nula tendría que ser = 0. Entonces, si tras evaluar la significancia
se obtiene que sólo uno de ellos es distinto de 0, esto no implica que será probable que la
prueba de significancia conjunta arroje que todos los L 2 son 0. Esto se debe a que los
L
2 de regresiones con diferentes variables son distintos ya que al ir quitando variables,
los L 2 que quedan “incorporan” parte del efecto de las variables que salen. Por ende,
puede ocurrir que siendo sólo un significativo, la nula de no significancia conjunta se
rechace.
Problema 2.6
El proceso de inferencia no tiene sentido ya que siempre podré aceptar cualquier

hipótesis nula de trabajar con un nivel de significancia lo suficientemente alto.
Solución
Falso. “Manipular” el nivel de significancia genera un riesgo al investigador debido a que

se puede inducir el error tipo I (rechazar una ù‚ cuando no es falsa).
Problema 2.7
A medida que la correlación entre las variables explicativas tiende a uno, la potencia de la
prueba de hipótesis de no significancia individual crece.
Solución
Se define el siguiente modelo bivariado:

= +» +
La varianza del estimador de beta asociado a ( es de > 1) estará dada por:
35 ( = &™ L
€ü
35 ( = &™ L
¹ − ¶ü
35 ( = &™ L
− ′¶ü
L
&™ ¶ü
35 ( = L i1 − L j
Como P es simétrica e idempotente: L ¶ü = L ¶üL ¶ü = ¶ü ′ ¶ü = q• de una

regresión de sobre el espacio de ». Por otro lado, ’ es la suma de cuadrados total de
, con lo que la expresión anterior puede escribirse como:
&™
35 ( = L
1−Õ
Donde el R–cuadrado corresponde a una regresión de sobre ¼. Si estas variables están

fuertemente relacionadas, el R cuadrado subirá, lo que incrementa la varianza de beta.
Esto hace que los intervalos de confianza sean más amplios, con lo cual la prueba pierde
potencia.
Problema 2.8
En ocasiones imponer ø < Å restricciones lineales tal que Õ = 5, donde ø es el número

de restricciones lineales y Å es el número de parámetros a estimar, podría mejorar
algunos aspectos de la estimación. En ese sentido, se le solicita obtener el estimador de
Mínimos Cuadrados Restringidos (MCR) de manera similar al de MCO.
Solución
Se tienen las ø restricciones tal que ù+ : Õ÷ ç ç = 5÷ donde Õ no es necesariamente

una matriz cuadrada.
El problema consiste en resolver el problema de optimización sujeto a las restricciones

descritas. Entonces, se tiene como Lagrangiano:
1
Á ,λ = − ´ − + λ´ Õ − 5
2
Donde λ es un vector de dimensión ø 1 que contiene multiplicadores de Lagrange. Las

condiciones de primer orden (CPO) para minimizar:
þ - ,
þ-
´ Õ´λ 0 (1)
Õ 5 0
þ - ,
þ
(2)
A partir de (1):
Õ´λ ´ − ´
Entonces, como no se puede despejar λ porque Õ no es necesariamente una matriz

cuadrada, se premultiplica la expresión previa por ´ tal que:
´ Õ´λ ´ ´ −
´ Õ´λ D¿À¾ − (3)
Además, se premultiplica por Õ para poder encontrar una forma cuadrada que se pueda
invertir:
Õ ´ Õ´λ ÕD)*+ − Õ
Õ ´ Õ´ Õ ´ Õ´λ Õ ´ Õ´ ÕD)*+ − Õ
λ Õ ´ Õ´ ÕD)*+ − 5
Entonces, se reemplaza λ en (3) de modo que:
)*+ D)*+ − ´ Õ´λ
D)*+ − ´ Õ´ Õ ´ Õ´ ÕD)*+ − 5
Adicionalmente se tiene que si se premultiplica por Õ se tiene que
Õ ÕD)*+ − ÕD)*+ − 5
Õ 5
Entonces, en el óptimo, se satisfacen las restricciones.
Problema 2.9
El estimador de Mínimos Cuadrados Restringidos (MCR) es un estimador que minimiza la

suma de residuos al cuadrado tal como MCO, pero sujeto a restricciones. Este estimador
puede utilizarse para imponer explícitamente la hipótesis nula de un test de hipótesis y así
obtener, por ejemplo, la q•Õ del modelo restringido, que no sería otra cosa que la q•Õ de
€•Õ. Se puede probar que este estimador está relacionado con el estimador MCO de la
siguiente manera:
()* ()*+ − L
ÕL Õ L
ÕL Õ ()*+ 5
Donde Õ es una matriz de ø × Å (ø es el número de restricciones impuestas); L

(
una matriz de Å × Å; )*+ es un vector de Å × 1 y 5 es un vector de ø × 1 , de manera que
es
Ho: Õ 5. Sabiendo además, que la prueba para evaluar un modelo restringido vs. un
modelo sin restringir es a lsiguiente:
SCR # SCR …# > Å

F
SCR …# ø
Exprese la prueba en función de las matrices y Õ y los vectores ()*+ 5.
Solución
La expresión anterior de la prueba es equivalente a decir:
e# ′e# e…# ′e…# > Å

F W Z
e…# ′e…# ø
Además,
;# #
e# b ()*+ L
ÕL Õ L
ÕL \Õ ()*+ 5]f
e# e…# + ( L
ÕL Õ L
ÕL \Õ ()*+ 5]
Definiendo la matriz H como:
ù ( L
ÕL Õ L
ÕL \Õ ()*+ 5]
eL# e# eL…# e…# + e…# ′ ù + ù′ ′e…# + ù′ù
Pero por construcción: eL…# 0
Entonces:
\Õ ()*+
L
eL# e# eL…# e…# + b ( L
ÕL Õ L
ÕL 5]f
b ( L
ÕL Õ L
ÕL \Õ ()*+ 5]f
\Õ ()*+
L
eL# e# eL…# e…# + b L
ÕL Õ L
ÕL 5]f
b L
ÕL Õ L
ÕL \Õ ()*+ 5]f
eL# e# eL…# e…# + \Õ ()*+ 5]′ Õ L

ÕL \Õ ()*+ 5]
eL# e# eL…# e…# > Å \Õ ()*+ 5]′ Õ L

ÕL \Õ ()*+ 5] > Å
W Z W Z
eL…# e…# ø eL…# e…# ø
Problema 2.10
Un grupo de investigadores está analizando el impacto de la educación sobre el ingreso.

Para esto, dispone de una base de datos de individuos que contiene las siguientes
variables:
(a) ¹- Õ qÇ = el logaritmo del ingreso mensual;
(b) Éñ• = número de años de estudio del individuo;
(c) ¶ Õ = la edad del individuo menos sus años de educación;
(d) q Ç = adopta el valor de 1 si el individuo es mujer; 0 de otro modo.
En particular, el equipo de trabajo está interesado en evaluar las siguientes hipótesis:
(i) El mercado laboral local no discrimina por sexo.
(ii) Si bien la educación y la experiencia exhiben rendimientos positivos, la primera

muestra un retorno mayor.
(iii) Cada año adicional de estudios lleva a un incremento del orden del 7.5% en el
ingreso mensual.
(iv) Cinco años de experiencia pueden compensar por un año menos de

educación.
(v) La educación exhibe rendimientos positivos y crecientes.
a) Proponer un modelo econométrico teórico que permita, sobre la base de información

provista, analizar los determinantes del ingreso mensual.
Solución
¹>r5;27 ‚ + : < + [ : < + [ ‘;5 + s [q; 7 +
‚
‘;5 se calcula como la edad menos los
expresa el valor promedio del logaritmo del ingreso mensual cuando los valores de
las demás variables son iguales a cero.
años de educación. Cabe señalar también que, en la práctica, los modelos presentan
cierto grado de colinealidad o multicolinealidad, las variables explicativas no son del
todo ortogonales. Sin embargo, es posible permitir cierto grado de multicolinealidad
lineal de otras. Por su parte, : < busca introducir en el modelo el hecho que el
ya que el objetivo es que ninguna variable se pueda definir como una combinación
ingreso tiende a incrementarse más rápidamente en los últimos años de educación

que en los primeros.
El efecto de que la educación aumente en 1 (año de educación) en el ingreso será

diferente si el camino es, por ejemplo, de 4to a 5to de secundaria que si es del último
año de universidad al primer año de maestría. q; 7 es una variable dummy que
puede tener un efecto aditivo, un efecto multiplicativo o ambos.
¹>r5;27 ‚ + : < + [ : < + [ ‘;5 + s [q; 7 +
¹>r5;27 ‚ + : < + [ : < + [ ‘;5 + s[ : < [q; 7 +
¹>r5;27 ‚ + : < + [ : < + [ ‘;5 + s [q; 7 + u[ : < [q; 7 +
En el primer modelo, s reflejaría el efecto de la variable q; 7 en el ingreso. Se quiere

saber si el ingreso es diferente para dos individuos que tengan los mismos niveles de
educación y experiencia pero que tienen distinto sexo. En el segundo modelo, s
reflejaría el cambio en el efecto de la variable [ : < en el ingreso cuando se pasas
de un individuo que es hombre a un individuo mujer. El tercero refleja la combinación
de ambos.
b) Sobre la base de tu modelo teórico, plantea un conjunto de pruebas de hipótesis (y

los respectivos tests a utilizar) que permitan verificar las cinco hipótesis que tiene el
equipo de trabajo.
Solución
¹>r5;27 ‚ + : < + [ : < + [ ‘;5 + s [q; 7 +
i) Hipótesis nula s 0 y alternativa diferente de cero
ii) Hipótesis nula 1, menor o igual a cero y alternativa mayor a cero.
menor o igual a cero y la alternativa mayor a cero.

Hipótesis nula 2, menor o igual a cero y la alternativa mayor a cero.
Hipótesis nula 3,
iii) En el modelo se asume que el efecto de la variable educación en el ingreso

dependerá del nivel de educación, no será constante este efecto ( recoge
esta característica). El objetivo pide inferir si cada año adicional de estudios
lleva a un incremento del orden del 7.5% en el ingreso mensual, es decir,
este efecto constante. Para verificar esta hipótesis, se necesita dos
0) y por el otro, que este efecto es de 7.5%.

restricciones. Por un lado, que el efecto de la educación en el ingreso es
constante (
Hipótesis nula 1, 0.075 y la alternativa diferente 0.075.
Hipótesis nula 2, 0 y la alternativa diferente de 0.
iv) La pregunta de nuevo asume de nuevo un efecto de la educación constante.
Hipótesis nula 1, 5 0 y la alternativa diferente de cero.
Hipótesis nula 2, 0 y la alternativa diferente de cero.

v) Hipótesis nula 1, menor o igual a cero y la alternativa mayor a cero
(rendimientos positivos).
Hipótesis nula 2, menor o igual a cero y la alternativa mayor a cero

(rendimientos crecientes).
Problema 2.11
Se estimó la siguiente ecuación de regresión como una función de producción para Ö:
Á> Ö 0.632 Á> + 0.452 Á> Á
qè: 0.257; qè: 0.219; •7} , 0.055
Así, se le pide que verifique las hipótesis siguientes sabiendo que è‚.‚ u 1.96:
a) Verifique la hipótesis de que las elasticidades del capital y trabajo son idénticas.
Solución
ù¾ : ž 0
ù¾ : ž − ≠ 0
(0.632 − 0.452)
èÀ"ú = = 2.842498
(0.257) + (0.219) + 2(0.055)
èÀ"ú > è?"K ∶ 2.842498 > 1.96
Se rechaza la Ho, entonces ž ≠ .
b) Verifique la hipótesis de que hay rendimientos a escala constantes.
Solución
ù¾ : ž + 1
ù¾ : ž + ≠1
(0.632 + 0.452) − 1
èÀ"ú = = 0.177478
(0.257) + 0.219) + 2 0.055)
Como èÀ"ú < è?"K , no se puede rechazar la Ho, es decir, ž + 1.
Problema 2.12
Se le pide que comente la siguiente regresión de Mincer5 y analice de manera detallada
particular, interprete los criterios de información, el Õ cuadrado, los estadísticos è, la

cada uno de los estadísticos reportados en la ventana de resultados. De manera
prueba así como el valor del ‘ − }34 ;.

Source SS df MS Number of obs = 526
F( 3, 522) = 74.67
Model 44.5393702 3 14.8464567 Prob > F = 0.0000
Residual 103.790392 522 .198832168 R-squared = 0.3003
Adj R-squared = 0.2963
Total 148.329762 525 .28253288 Root MSE = .44591
lwage Coef. Std. Err. t P>|t| [95% Conf. Interval]
educ .0903658 .007468 12.10 0.000 .0756948 .1050368

exper .0410089 .0051965 7.89 0.000 .0308002 .0512175
expersq -.0007136 .0001158 -6.16 0.000 -.000941 -.0004861
_cons .1279975 .1059323 1.21 0.227 -.0801085 .3361034
Solución
La anterior regresión de Mincer es la más simple. Así, es importante analizar la
dependiente está en logaritmos. El ‘ − }34 ; es la probabilidad de aceptar la hipótesis

interpretación de los ’s. En este caso son semielasticidades dado que la variable
nula. Si ‘ − }34 ; > 5% (valor de significancia que se fija), entonces se acepta la hipótesis
nula. Si ‘ − }34 ; < 5% entonces se rechaza la hipótesis nula. Notar que, en este caso,
dado que la hipótesis nula es que el = 0, lo que se busca es que se rechace dicha
hipótesis.
El Õ2 es una medida de bondad de ajuste, que en este caso indica que el modelo, como
prueba de significancia global. En este caso dicho ‘ − }34 ; es menor al 5%, por ende, se
está planteado, no está explicando la variabilidad de la dependiente. La prueba es una
rechaza la ù¾ de la prueba (ù¾ de la prueba es que todos los betas son iguales a
cero).
Problema 2.13
Una estimación MCO de la demanda de vinos provee el siguiente resultado:
Tabla 2.1. Resultados de estimación
Variables Var. Dependiente:

Independientes log C
Constante -21.20
5 Se conoce como regresión de Mincer a aquellas ecuaciones que buscan explicar el salario de las
personas a partir, principalmente, de su educación y experiencia.

47r ¶°
(3.54)
-1.34
47r ¶
(0.26)
0.24
47r
(0.62)
2.35
(0.30)
Donde • es el consumo de vino per cápita, ¶° es el precio del vino, ¶ es el precio de la

cerveza, e es el ingreso per cápita. Además, los números en paréntesis corresponden a
los errores estándar de los coeficientes estimados.
a) ¿Este modelo provee evidencia de que el precio de la cerveza afecta el consumo

de vino? Si no es así, ¿se puede concluir que el precio de la cerveza no afecta el
consumo del vino? Explique.
Solución
è de
47r ¶ (se define como 8 ) es (0.24)/(0.62) < 1.96, por lo que no se rechaza
El test de significancia individual para el coeficiente
ù‚ : 8 0. Ahora, la no significancia estadística no significa que se acepte ù‚ ,
consumo de vino equivale a aceptar que 8 = 0, lo que no es correcto. De hecho,

simplemente que no se rechaza. Concluir que el precio de la cerveza no afecta el
si se realiza otro test t teniendo como hipótesis nula, por ejemplo, 8 = 0.01,
que 8 = 0.01 y 8 = 0 al mismo tiempo.

tampoco se rechaza pues (0.24 – 0.01)/(0.62) < 1.96. No tendría sentido aceptar
b) Suponga que el gobierno impone un impuesto que incrementa el precio del vino en
10%. ¿Qué efecto tendrá este impuesto sobre el consumo de vino? Dé una
respuesta numérica.
Solución
Se consideran dos respuestas correctas, aunque una es más precisa que la otra.
elasticidad de • con respecto a ¶° es igual al coeficiente de ¶° en la regresión

La respuesta más directa es usar la aproximación de cálculo: dado que la
anterior (definido como δ )
¶° ¦• ¦ log •
= =δ
• ¦¶° ¦ log ¶°
Entonces se estima el cambio porcentual en • con 10\δn ]% = −13.4% . Sin

embargo, las derivadas son precisas para cambios pequeños, y, en este caso, se
exacto, se asume que un cambio de ∆¶° en el precio del vino ocasiona un cambio
cuenta con un cambio potencialmente grande (10%). Para calcular el efecto
de ∆• en su consumo, entonces restando las expresiones:

log(• + ∆• 8‚ + 8 log ¶° + ∆¶° + 8 log ¶ + 8 log +ñ
log • 8‚ + 8 log ¶° + 8 log ¶ + 8 log +ñ
Se obtiene:
log • + ∆• log • 8 log ¶° + ∆¶° log ¶°
∆• ∆¶°
log W1 + Z 1.34 log W1 + Z
• ¶°
Por propiedades de logaritmos6:
∆• ∆¶° . s
W1 + Z 1 = (1 + 10%) . s
− 1 = −11.2%
• ¶°
c) Alguien sugiere que la demanda debería depender de los precios pero relativos al
ingreso. Es decir, se sugiere que el modelo debería ser:
¶° ¶
log • ‚ + log W Z + log W Z + +ñ
¿Qué valores de los coeficientes obtendría si estima este modelo por MCO?
Solución
Partiendo de la ecuación final y reordenando:
¶° ¶
log • ‚ + log W Z + log W Z + log + ñ
log • ‚ + log ¶° + log ¶ + log +ñ
Que es igual a la especificación original. Entonces, el coeficiente de log ¶° en la

tabla 2.1 da un estimado de , el de log ¶ da un estimado de , y el coeficiente
de log da un estimado de . Es decir 2.35 1.34) − 0.24, lo
que implica 1.25.
d) Alguien más le sugiere que debería incluir los precios relativos del vino y la
cerveza. Es decir, se sugiere que el modelo debería ser:
¶°
log • + log ¶° + log ¶ + log + +ñ
‚
¶ s
¿Qué pasará si intenta estimar este modelo?
Solución
6 . 47rÈ log È
Este modelo exhibe colinealidad perfecta pues se tiene que log b ² f
log ¶° log ¶ . Por lo tanto, no puede ser estimado.
e) La figura de abajo muestra los residuos de la regresión del cuadro anterior

(“residuals” es el término en inglés para residuos, y “fittedvalues” es el término
para valores ajustados). A partir de esta evidencia, ¿qué opina sobre la
especificación de la demanda de vino escogida?
Solución
La figura muestra un patrón entre los residuos y los valores ajustados: los residuos
tienden a ser negativos en los bordes, y positivos en el centro. Esto es una
indicación de que existiría alguna relación no lineal entre las X y la Y que no está
siendo capturada por nuestra regresión lineal.
Problema 2.14
Un investigador averigua los determinantes de los salarios de los gerentes de empresas.

Para esto estudia una muestra con datos de los salarios de 177 gerentes y los relaciona
con información del valor de las ventas anuales de las empresas (234;2), el valor en bolsa
ventas (‘57 ’35r), el número de años del individuo en la compañía (<7’è;>) y el número
de las empresas (’Åè}34), los beneficios netos de las empresas como porcentaje de las
de años del individuo como gerente de la compañía (<;7è;>). El investigador estudia

diversas especificaciones cuyos resultados (usando MCO) se encuentran en el siguiente
cuadro:
Variables (1) (2) (3)
47r 234;2
Independientes
0.224 0.158 0.188

47r ’Åè}34
(0.27) (0.40) (0.40)
-- 0.112 0.100
‘57 ’35r
-- (0.05) (0.049)

-- -0.0023 -0.0022
<;7è;>
-- (0.022) (0.0021)
-- -- 0.0171
<7’è;>
-- -- (0.0055)
-- -- -0.0092
<7>2è3>è;
-- -- (0.0033)
4.94 4.62 4.57
(0.20) (0.25) (0.57)
Observaciones 177 177 177
R2 0.281 0.304 0.353
SCR 46.49 45.03 41.86
a) Analice el efecto de ‘57 ’35r sobre el sueldo de los gerentes. Es decir, responda
a las preguntas, si el ‘57 ’35r aumenta en 1(%), ¿en cuánto cambiaría el sueldo
de los gerentes? ¿Es este efecto económico o estadísticamente significativo?
Solución
El efecto de ‘57 ’35r sería de aproximadamente una caída de 0.23% y 0.22% en

el sueldo de los gerentes. Sin embargo los tests è de significancia individual en
ambos casos son menores a 1.96, de manera que no son estadísticamente
significativos: no se puede rechazar la hipótesis nula de que ambos efectos son
cero. Por otro lado, asumiendo que lo fueran, el tamaño de los efectos los hace
económicamente poco significativos: no parecen ser un determinante importante
del salario de los gerentes.
b) ¿Tiene un efecto significativo el valor de mercado?
Solución
El valor de mercado sí parece tener un efecto significativo (el valor del estadístico è
en las columnas 2 y 3 es mayor a 1.96). Analizando la columna 3 (que tiene un
mayor número de controles y es menos probable que sufra de variable relevante
omitida), se observa que el efecto es relativamente pequeño: un cambio de 10%
generaría un incremento de 1% en el salario de los gerentes.
c) Interprete los coeficientes de <;7è;> y <7’è;>. ¿Son estas variables

estadísticamente significativas individual o conjuntamente?
Solución
Ambas son significativas individualmente. Sus tests è son (0.0171/0.005 ≈ 3.1) y (-

0.0092/0.0033 ≈ -2.8) por lo que están por encima en valor absoluto del valor
crítico de una normal estándar al 5% (la aproximación es razonable pues la
muestra es relativamente grande). Para la prueba de significancia conjunta se usa
el test :
qÕ•# qÕ•F# /ø (45.03 − 41.86)/2

= ≈ 6.47
qÕ•F# / > Å 1) 41.86/(177 − 6)
d
3 o con una ≈ 3,
d u.ÌÌ
Esto se compara con el valor crítico de una , Ê
chi cuadrado dividida entre ø se aproxima a una , al igual como la normal

dado que en muestras grandes ambos valores son aproximadamente iguales (la
estándar se aproxima a una è cuando la muestra es grande). Se rechaza la

hipótesis nula: las variables son conjuntamente significativas.
aproximadamente 1.71% (el efecto exacto sería ; ‘(1.71%) − 1 1.72%7). Si

El aumento de un año como CEO de la compañía (<;7è;>) aumenta el salario en
permanece un año más como empleado de la compañía (<7’è;>) el salario más

bien cae en 0.92%.
d) ¿Cómo se interpreta el signo negativo de la variable <7’è;>?
Solución
El signo negativo puede deberse a lo que se llama efecto “super estrella”. Las
compañías que contratan CEOs de fuera de la empresa tienden a buscar los
mejores candidatos posibles, con salarios potencialmente altos. Si una persona ha
sido muchos años un empleado normal (no CEO) de una compañía significa que
no es probablemente considerado una súper estrella.
Problema 2.15
Considere una ecuación para explicar los sueldos de los directores generales en términos
de las ventas anuales de la empresa, el rendimiento sobre capital (57;, en forma de
porcentaje), y el rendimiento de las acciones de la empresa (572, en forma de porcentaje):
log(2343567) = ‚ + log };>è32 + 57; + 572 +
a) Establezca la hipótesis nula de que controlando por };>è32 y 57;, 572 no tiene
efecto en el sueldo de los directores generales. Establecer la alternativa de que un
mejor desempeño de las acciones de la empresa incrementa el suelo de los
directores.
Solución
Las hipótesis en este caso son:
7 Note que la aproximación funciona bien para cambios pequeños.

ù‚ : 0
ù : >0
Esto se da ya que se pide explícitamente que la alternativa implique un incremento en

el sueldo dado un mejor desempeño de las acciones. La nula se iguala a cero, pues se
requiere evaluar si es que tiene efecto o no.
b) Se obtienen los siguientes resultados:
log(23435Ó7) = 4.32 + 0.28 log };>è32 + 0.0174 57; + 0.00024 572

0.32) 0.035) 0.0041) 0.00054)
¿Cuál es el porcentaje de aumento de salario que pronostica si 572 aumenta 50

puntos?
¿Tiene 572 un efecto práctico grande sobre salarios?
Solución
Se debe notar que, como el modelo está en logaritmos y 572 está expresado en
Por tanto, para calcular el aumento del salario ante un incremento de 572 en 50
porcentaje; el coeficiente estimado para ros en el modelo anterior es una elasticidad.
puntos porcentuales, se multiplica la elasticidad calculada por dicho aumento

porcentual:
0.00024(50) = 0.012 = 1.2%
El rendimiento de las acciones de la empresa parece no tener un efecto significativo

en un sentido “práctico” ya que un aumento de 50 puntos porcentuales de este
rendimiento solo genera un aumento de 1.2% en los salarios de los directores.
c) Pruebe la hipótesis nula que 572 no tiene efecto sobre 2343567 contra la hipótesis
alternativa de que 572 tiene un efecto positivo. Realice la prueba al 10% de
significancia.
Solución
Las hipótesis son:
ù‚ : 0
ù : >0
ž = 0.1
( −
è= ~èF
;;\ ( ]
ç
Se acepta ù‚ si è › 1.282.
0.00024
èÀ"ú = = 0.444
0.00054
Por lo tanto, no puede rechazarse ù‚ ; es decir, a un nivel de significancia de ž =

0.1, se concluye que ante las evidencias muestrales el rendimiento de las acciones
no tiene un efecto positivo sobre el salario de los directores.
d) Explique si incluiría 572 en el modelo final que explica las compensaciones de los
directores en términos del desempeño de la empresa.
Solución
Las evidencias muéstrales indican que la variable 572 no tiene ningún efecto sobre
la variable independiente, por lo que de existir algún sesgo por omitir esta variable
sería muy pequeño.
Problema 2.16
Se estima la siguiente ecuación para los estudiantes que se encuentran cursando el

segundo semestre del año:
Ô = −2.12 + .9>7è‘5‘7> + .193>7è3< + .0014š7532 + .001823è − .0039‘;5š

>7è‘5
+ .351 ;’ − .157è;’‘
(. 55) (. 175) (. 064) (. 0012)(. 0002)(. 0018)(. 085)(.098)
. 55 . 166 . 074 . 0012 . 0002 . 0019 . 079 .080
> = 269, Õ = .465
En este modelo, >7è‘5 es el promedio general de calificaciones del semestre actual,

>7è‘5‘7> es un promedio ponderado de calificaciones de los cursos que están tomando,
>7è3< es el promedio general de calificaciones antes del semestre presente, š7532 son
las horasde estudio del semestre anterior, 23è es la puntuación en la prueba SAT de
admisión a la universidad, ‘;5š es el percentil que ocupó el alumno entre los graduados
del bachillerato, ;’ es una variable binaria para el género femenino y è;’‘ es una
variable binaria que toma el valor de uno si el deporte del estudiante se practica durante el
segundo semestre. Entre paréntesis y entre corchetes se dan respectivamente los errores
estándares usuales y los errores estándares robustos a la heterocedasticidad.
a) ¿Tienen las variables >7è‘5‘7>, >7è3< y š7532 los efectos esperados? ¿Cuáles
de estas variables son estadísticamente significativas al 5%? ¿Importa qué error
estándar se use?
Solución
En general, todas tienen el signo esperado. Por ejemplo, è;’‘ tiene un coeficiente
negativo lo que era de esperarse ya que si el estudiante practica algún deporte
tendrá menos tiempo para estudiar y por ende tendrá notas más bajas.
Todos los efectos calculados (tanto con los estadísticos t usuales como los
robustos a la heterocedasticidad) son estadísticamente significativos excepto los
de š7532.
b) ¿Por qué es razonable la hipótesis F¾?“#“¾F = 1? Pruebe esta hipótesis contra la

alternativa de dos colas al nivel de 5%, usando los dos errores estándar.
Concluya.
Solución
Es razonable porque la estimación mide la calificación del estudiante promedio y

>7è‘5‘7> mide precisamente el promedio de los estudiantes. Sin embargo, al
hacer la prueba è se halla que no es estadísticamente significativo (ni para el
estadístico usual ni para el caso de heterocedasticidad).
c) Pruebe si el hecho de que el deporte del estudiante se practique en el segundo

semestre tiene un efecto sobre la nota del semestre, usando ambos errores
estándar. ¿El nivel de significancia al que se puede rechazar la prueba depende
de cual error estándar se emplee?
Solución
Efectivamente. La prueba con el estadístico è robusto a la elasticidad se rechaza a

un nivel de 5% de significancia; mientras que el estadístico usual no, ya que este
es mucho más bajo. Esto no es extraño porque los estadísticos è robustos a la
heterocedasticidad suelen ser mayores.
Problema 2.17
Un investigador está interesado en estimar el efecto que tiene una serie de factores sobre
la productividad agrícola de los productores de papa en la Sierra del Perú. Gracias a su
grupo de ayudantes, pudo estimar una serie de regresiones que se muestran a
continuación:
Regresión 1
Dependent Variable: LN(Producción)
Coeficient Std. Error T-Statistic Prob.

Constante 1.25 0.52 2.404 0.0164
Tamaño_parcela 0.95 0.09 10.556 0.0000
Temp 0.42 0.12 3.500 0.0005
R-Squared: 0.318516
Prob (F-Statistic): 0.000000
Regresión 2
Dependent Variable: Producción

Constante 189.27 25.2 7.511 0.0000
Tamaño_parcela 36.46 3.24 11.253 0.0000
No_Helada 16.40 5.67 2.892 0.0039
R-Squared: 0.295559
Regresión 3
Dependent Variable: Producción

Constante 193.65 22.34 8.668 0.0000
Años_Educ 24.03 2.43 9.889 0.0000
Otras_actividades -36.23 10.32 -3.511 0.0005
Miembros_familia 27.09 25.00 1.084 0.2788
R-Squared: 0.493302
Regresión 4

Constante 1.05 0.50 2.100 0.0360
Años_Educ 0.03 0.01 3.000 0.0028
Otras_actividades -0.15 0.07 -2.143 0.0324
R-Squared: 0.226759
Regresión 5

Constante 0.93 0.39 2.385 0.0173
Tamaño_parcela 0.87 0.11 7.909 0.0000
Temp 0.31 0.13 2.385 0.0173
No_Helada 0.05 0.01 5.000 0.0000
Temp*No_helada -0.15 0.07 -2.143 0.0324
R-Squared: 0.493072
Donde:
Tamaño_parcela Tamaño de la parela de ultivo, en km2.

Temp Temperatura de la zona de cultivo en grados Centígrados.
Dummy que toma el valor de 1 si la temperatura es
No_Helada
mayor a 15 grados centígrados.
Años_Educ Años de educación
Número de horas al día que dedica a actividades
Otras_actividades
diferentes de la agricultura.
Miembros_familia Miembros de la familia que cultiva la parcela.
Además, se sabe que la variable ¶57: <<6ó> está expresada en Nuevos soles.
Especifique para cada hipótesis: i) La regresión con la que cree que es más pertinente
trabajar, ii) La(s) hipótesis nula(s), iii) la prueba estadística correspondiente y iv) qué
resultados/valores le permiten concluir que la hipótesis efectivamente se cumple o no.
Trabaje con un nivel de confianza de 95%.
a. Un incremento del tamaño de la parcela de 3.5 kilómetros cuadrados generará un

incremento en la producción equivalente a 25 soles en la producción.
Solución
Regresión 2
ù‚ : 3.5 = 25
ù : 3.5 l 25
( − u
/À"úÀ = .u
qè:. 5575
36.46 − 7.14
/À"úÀ = = 9.06
3.24
Se rechaza ù‚ .
b. Realizar otras actividades diferentes de la agricultura durante una hora más por día
reducirá la producción en 13%.
Solución
Regresión 4
ù‚ : = −0.13
ù : l −0.13
( + 0.13
/À"úÀ =
qè:. 5575
0.02
/À"úÀ = = 0.28
0.07
No se puede rechazar ù‚ .
c. El incremento en la producción por tener a un integrante más en la familia es de 15

soles.
Solución
Regresión 3
Ho: = 15
H1: l 15
( − 15
/À"úÀ =
qè:. 5575
27.09 − 15
/À"úÀ = = 0.48
25
No se puede rechazar ù‚ . Sin embargo, hay que observar también que esta
variable no es significativa, por lo cual también se aceptaría la hipótesis de que
tener más integrantes en la familia no afecta a la producción.
d. A partir de la regresión 5, grafique la relación (céteris páribus) entre la temperatura y

el logaritmo de la producción. Noten que hay un término de interacción incorporado.
¿Cómo cambiaría el gráfico si la dummy -7_ù;43:3 no fuese significativa? ¿Cómo
cambiaría si la multiplicación de -7_ù;43:3 y /;’‘ no fuese significativa pero
-7_ù;43:3 sí lo fuera?
Solución
Si -7_ù;43:3 no fuese significativa:
Al no ser significativo el cambio en el intercepto, el segundo tramo de la recta partirá de

donde hubiera estado si hubiera tenido esa pendiente desde el inicio.
Si -7_ù;43:3 es significativa, pero no la multiplicación:

Problema 2.18
Un investigador ha decidido correr diferentes especificaciones de ecuaciones de salario.

Su principal interés es analizar el efecto de los años de educación en la determinación del
salario de los individuos en la muestra y, específicamente, cómo este efecto puede variar
según la raza y el género.
Considere lo siguiente:
• Earnings: representa el salario por hora y que la muestra está compuesta solo por
individuos de razas blanca y negra.
• Ethblack: es una dummy que indica si el individuo es de raza negra,
• Male: es una dummy que indica si el individuo es hombre,
• S: representa los años de educación,
• Sblack: es una variable creada multiplicando las dummies “S” y “Ethblack”
• MB: es la multiplicación de las dummies “Male” y “Ethblack”.
Trabaje con un nivel de significancia de 5%.
Especifique para cada hipótesis: i) La regresión con la que cree que es más pertinente
trabajar, ii) La(s) hipótesis nula(s), iii) la prueba estadística correspondiente y iv) qué
resultados/valores le permiten concluir que la hipótesis efectivamente se cumple o no.
A continuación, se especifican las hipótesis que desea probar:
a. Se puede decir que cada año adicional de educación genera un incremento de

11% en el salario por hora.
b. Los individuos de raza blanca ganan aproximadamente tres soles más por hora
que los de raza negra.
c. Se puede decir que el retorno a la educación es mayor para las personas de

raza negra.
d. El hecho de que un individuo de raza negra sea hombre contrarresta el castigo

en el salario generado por su raza (si bien un individuo de raza negra gana
menos que uno de raza blanca, un hombre de raza negra gana tanto como un
individuo promedio de raza blanca)
Además, sobre la base de la regresión 3, responda a las siguientes preguntas:
e. Si se trabaja con un nivel de significancia de 15%, represente gráficamente la

relación lineal entre el logaritmo del salario por hora y los años de educación
para individuos de raza blanca y para aquellos de raza negra.
f. Cómo cambiaría su respuesta si es que ahora se trabaja con un nivel de

significancia de 25%? ¿Es posible que a partir de cierto nivel educativo el
individuo promedio de raza negra supere en términos de salario al individuo
promedio de raza blanca?
g. Re exprese todas las hipótesis analizadas en función de la matriz de

restricciones R. Plantee las Hipótesis ù‚ = Õ = 5. Defina los órdenes de la
matriz y los vectores.
A continuación se muestran los resultados de las cinco regresiones estimadas:
Regresión 1
Dependent Variable: EARNINGS

Constante -13.2 3.23 -4.09 0.0001
Ethblack -3.5 1.84 -1.90 0.0576
S 2.43 0.23 10.57 0.0000
R-Squared 0.178038
Prob (F-statistic) 0.000000
Regresión 2
Dependent Variable: LNEARNINGS

Constante 1.32 0.13 10.15 0.0000
Ethblack -0.16 0.07 -2.29 0.0272
S 0.11 0.01 11.00 0.0000
R-Squared 0.213735
Regresión 3
Regresión 4

Constante 2.81 0.27 105.70 0
Ethblack -0.29 0.11 -2.73 0.0065
MB 0.18 0.16 1.14 0.2561
R-Squared 0.014904
Regresión 5

Constante 2.65 0.04 74.67 0.0000
Male 0.33 0.05 6.88 0.0000
Ethblack -0.19 0.08 -2.43 0.0154
R-Squared 0.092702
Solución
a. Se debe de trabajar con la regresión 2 porque al estar en logaritmos medirá el
cambio porcentual y porque el coeficiente asociado a “q” es el que mide el
efecto de los años de educación, sin importar la raza.
ù‚ : = 11
ù : l 11
( − 11
/À"úÀ =
qè:. 5575
11 − 11
/À"úÀ = =0
0.01
No se rechaza ù‚ .
b. Se debe de trabajar con la regresión 1 porque es la única que mide el cambio

absoluto en el salario.
ù‚ : = −3
ù: l −3
( +3
/À"úÀ =
qè:. 5575
−0.49
/À"úÀ = = −0.02
1.84
No se rechaza Ho.
c. Se debe de trabajar con la regresión 3:
Si ;èšD43<Å = 1 → ln( ) = (‚ + ( + ( q + ( q ∗ ;èšD43<Å + ;
ln( ) = (‚ + ( + ( q + ( q ∗ 1 + ;
ln( ) = (‚ + ( + ( ( + ( )q + ;
q6 ;èšD43<Å = 0 → ln( ) = (‚ + ( q + ;
( es el retorno adicional a los años de educación de las personas de raza

negra
ù‚ : ›0
ù: >0
( −0
/À"úÀ =
qè:. 5575
/À"úÀ = 1.27
No se rechaza Ho.
d. Se debe de trabajar con la regresión 4:
ù‚ : + Ÿ0
ù: + ~0
( + )−0
/À"úÀ =
qè:. 5575 + qè:. 5575 + 2•7}( ( ; ( )
d
En este caso no se puede realizar la prueba porque no se conoce •7}( ( ; ( ).
e. Al 15% de significancia, qÈ43<Å no es significativo, pero todos los demás betas

lo son. Por lo tanto, si se grafica la relación entre el logaritmo del ingreso y los
años de educación para los individuos de raza blanca y los de raza negra, se
tendrán dos rectas paralelas, pero con diferente intercepto. La diferencia en el
intercepto estará dada por .
f. Si se sube el nivel de significancia, cambiaría la situación, pues todos los betas

serían significativos, con lo cual la diferencia en el rendimiento de la educación
entre personas de raza blanca y de raza negra se daría no sólo en el
intercepto, sino también en la pendiente de las rectas:
El retorno de la educación de los individuos de raza negra supera al de los

de raza blanca alrededor de los 17 años de educación
g. Se roma todas las hipótesis como si fueran con una regresión que contiene a
todas las variables cuyos betas se van a evaluar:
‚ •7>2è3>è;
èšD43<Å
¹>r
q
s qD43<Å
u €34;
w €È
ù‚ : Õ = ø
Las matrices correspondientes se muestren abajo. Se debe recordar que cada

fila de la matriz Õ indica una restricción distinta; mientras que cada columna
indica si cada coeficiente se encuentra activo en cada una de las restricciones.
Es decir, la k-ésima columna indica sobre qué restricciones participa el
coeficiente ç .
0 0 0 1 0 0 0
Õ = £0 1 0 0 0 0 0¤
0 0 0 1 0 0 0
0 0 1 0 0 0 1
= ‚ s u w
ø = 11 − 3 0 0
Problema 2.19
Tres investigadores se encuentran analizando los determinantes de los ingresos por hora
con una data proveniente de una muestra de 104 trabajadores (todos varones) en EEUU
en 2006. Las variables incluidas son las siguientes:
¹>r: ingresos por hora en dólares

: <: años de educación
•
- ’: resultado del individuo en test de habilidad numérica

•
;5D: resultado del individuo en test de habilidad verbal.

•
•
Los test verbales y numéricos tienen un puntaje que va de 0 a 100 y la
correlación entre ambos es de 0.81.
• Á>¹>r: Logaritmo natural de los ingresos por hora en dólares
El primer investigador estima la siguiente ecuación (las desviaciones estándar de los

estimadores aparecen abajo entre paréntesis y SCR es la suma de cuadrados residual):
Á>¹>r = 2.02 + 0.063 ∗ : < + 0.0044 ∗ - ’ + 0.0026 ∗ ;5D; q•Õ = 2 000

(1.81) (0.007) (0.0011) (0.0010)
El investigador 2 define una nueva variable q•ÇÕ , como el promedio entre - ’ y ;5D.
Él estima la siguiente ecuación:
Á>¹>r = 1.72 + 0.050 ∗ : < + 0.0086 ∗ q•ÇÕ ; Õqq = 2 045

(1.78) (0.005) (0.0010)
El investigador 3 estima:
Á>¹>r = 2.02 + 0.063 ∗ : < + 0.0088 ∗ q•ÇÕ − 0.0018 ∗ ;5D; Õqq = 2 000
(1.81) (0.007) (0.0022) (0.0012)
a. Demostrar que la especificación del investigador 2 es una versión restringida de

la especificación del investigador 1 y plantear la restricción. Probar la restricción
con una prueba .
Solución
Se conoce que la variable q•ÇÕ puede reescribirse como:
;5D + - ’
2
Por ende, el modelo 2 puede reescribirse como:
Á>(¹>r) = + : <+ ;5D + - ’+

‚
2 2
Por otro lado, el modelo 1 es el siguiente:
Á>(¹>r) = ‚ + : <+ ;5D + - ’+
Aquí se puede notar que estimar el segundo modelo es equivalente a estimar el

primero con la restricción = . Se conoce que la prueba puede escribirse
en función de la suma de cuadrados residuales de los modelos:
(SCR # − SCR …# )/ø

F=
SCR …# /> − Å
En este caso, sólo hay una restricción, por lo que ø es 1. El número de

observaciones es 104, y el número de parámetros estimados es 4. Por ende, el
calculado sería:
2045 − 2000 100

= = 2.25
À"úÀ
2000 1
b. Demostrar que la especificación del investigador 3 es una versión re-

parametrizada de la especificación del investigador 1 (es decir, hallando la
ecuación 3 se puede llegar a los betas de la ecuación 1). Una vez hecho esto,
haga una prueba / para la restricción mostrada en la especificación del
investigador 2.
Solución
Se tiene el modelo 1:
Á>(¹>r) = ‚ + : <+ ;5D + - ’+
Además, se tiene el siguiente modelo en la ecuación 3:
Á>(¹>r) = ‚ + : <+ q<75; + ;5D +
Como en la pregunta anterior, q•ÇÕ puede reescribirse como el promedio

entre ;5D y - ’:
Á>(¹>r) = + : <+ ;5D + - ’+ ;5D +
‚
2 2
Reordenando:
Á>(¹>r) = + : <+W + Z ;5D + - ’+
‚
2 2
De donde puede decirse que entre dos, más del modelo 3 debería ser
igual al del modelo 1. Y del modelo uno, debería de ser igual a del
modelo tres entre 2. Esto se puede comprobar comparando los valores de
los betas obtenidos en las estimaciones de cada modelo.
Problema 2.20
El Ministerio de Desarrollo e Inclusión Social (MIDIS) está interesado en determinar los

efectos que tiene el grado de instrucción y sexo del jefe de hogar sobre la decisión de
enviar a los hijos al colegio. Para esto, te entrega una base de datos a nivel de hogar que
contiene: (a) q¹q/ -•¹ : el número de integrantes del hogar en edad escolar que asiste
a la primaria o secundaria; (b) ¶Õ¹€: adopta el valor de 1 si el jefe de hogar tiene
instrucción primaria, 0 de otro modo; (c) q •: adopta el valor de 1 si el jefe de hogar tiene
instrucción secundaria, 0 de otro modo; (d) qñ¶: adopta el valor de 1 si el jefe de hogar
tiene instrucción superior, 0 de otro modo; y (e) q Ç: adopta el valor de 1 si el jefe de
hogar es hombre.
Sobre la base de esta información, el MIDIS está interesado en verificar las siguientes
hipótesis:
(i) “El acceso a la educación secundaria por parte del jefe de hogar tiene un
impacto positivo sobre la decisión de enviar a los hijos al colegio”.
(ii) “La decisión de enviar a los hijos al colegio de un hogar cuyo jefe tiene
instrucción superior será similar a la de un hogar cuyo jefe tiene sólo
instrucción secundaria”.
(iii) “La falta de acceso a instrucción secundaria por parte del jefe de hogar puede
ser compensada si es que el hogar en cuestión tiene un jefe mujer”.
a. Propón un modelo econométrico teórico que permita, sobre la base de información
provista, analizar cuáles son los determinantes de la decisión de enviar a los hijos
al colegio. Propón un conjunto de variables relevantes y discute su pertinencia.
Discute cuáles son los principales supuestos sobre los que se sustentan las
técnicas de estimación e inferencia que utilizarás.
Solución
Un modelo posible es el siguiente:
262è = ‚ + ¶Õ¹€ + q • + qñ¶ + sq Ç + •7>è574;2 +
Los controles pueden ser una serie de variables diferentes que respondan a
características relevantes. Podrían ser:
a. Zona en donde vive (dummy urbano – rural)
b. Ingresos del hogar
c. Características de la vivienda (diversos controles - incluye acceso a

infraestructura)
d. El niño repitió uno o más años en el colegio (dummy)
e. Interacciones : < ∗ q; 7
Los signos esperados de las variables principales son positivos para ¶Õ¹€, q • y
qñ¶. Para la variable q Ç va a depender de la percepción del alumno. En
principio, podría esperarse que tenga un efecto negativo por la misma definición de
esta variable dummy. Es decir, se puede esperar que en promedio las mujeres
(como jefe de hogar) estén más preocupadas por mandar al colegio a sus hijos.
Sobre algunos supuestos, los básicos son el supuesto de normalidad y
homocedasticidad si se busca hacer inferencia en muestras pequeñas.
b. Sobre la base del modelo teórico, plantea un conjunto de pruebas de hipótesis (y

los respectivos tests a utilizar) que permitan verificar las tres hipótesis que tiene el
MIDIS.
Solución
Primera hipótesis:
ù‚ : >0
ù: ›0
Segunda hipótesis:
ù‚ : =
ù: l
Tercera hipótesis:
Una posible interpretación pasa por reconocer que el efecto de tener primaria y a la
vez ser mujer es equivalente al efecto de tener secundaria y ser hombre. En este
caso, es importante definir que el efecto de ser hombre impacta negativamente
sobre la asistencia al colegio. Así, podría compararse el impacto de ser jefe del
hogar hombre con secundaria versus solamente el hecho de ser mujer. Esto, no
obstante, es complicado por la definición de la variable dummy SEXO (1 si es
hombre, 0 de otro modo).
Para probar esta hipótesis, debería plantearse un modelo con interacciones:
262è = ‚ + ¶Õ¹€ + q • + qñ¶ + sq Ç + u ¶Õ¹€ q Ç

+ wq • q Ç + •7>è574;2 +
Si la persona es hombre con secundaria:
262è = ‚ + (1) + s (1) + w (1) + •7>è574;2 +
Si la persona es mujer con primaria:

262è = ‚ + + •7>è574;2 +
La hipótesis sería:
ù‚ : = + w
ù : l + w
Se asume que w es negativo bajo la percepción de que ser hombre impacta
negativamente a la asistencia al colegio con respecto a si el jefe del hogar es
mujer. Ceteris paribus:
Asist
Sec + mujer
Sec + hombre = Prim + mujer
Educ
Problema 2.21
Una función de consumo que tiene diferentes propensiones marginales a consumir (PMC)
de corto y de largo plazo puede escribirse como:
ln •? = ž + 4> ? + Ø4>•? + ?
En este modelo, la PMC de corto plazo es igual a ; mientras que la de largo plazo
equivale a 8 = /(1 − Ø).
Un investigador decidió estimar este modelo; pero olvidó incluir la variable dependiente
rezagada en la regresión (•? ). Sin embargo, dijo que no importaba demasiado,
argumentando que muchos estudios previos afirmaban que este parámetro era igual a
0.9. Los resultados que obtuvo de este modelo fueron los siguientes:
ln •? = 0.004132 + 0.126434> ? + ?
, Õ = 0.67845
. (0.01560) . (0.03157) . .
Las desviaciones estándar se encuentran entre paréntesis.
a) Pruebe la hipótesis de que la PMC de largo plazo equivale a 1.
Solución
-
La hipótesis nula en este caso es ù‚ : 8 = ( = 1. Por tanto, lo que se debe
‚.Ì)
probar es que:
ù‚ : = 0.1
El estadístico a utilizar es la prueba è:

( − 0.1 0.12643 − 0.1
è= = = 0.8371872
qÉ( ( ) 0.03157
Dado que se trata de una prueba a dos colas, el valor crítico del estadístico t es
1.96. Como el è calculado es menor al è crítico al 95% de confianza, no se puede
rechazar la hipótesis nula de que la PMC de LP es igual a 1.
No obstante, el investigador no se siente totalmente seguro de este resultado. Ante

ello, estima el modelo de manera correcta. Los resultados obtenidos se presentan
a continuación:
ln •? = 0.003142 + 0.074954> ? + 0.92464>•? + ;? , Õ = 0.999712
Donde la matriz de varianzas covarianzas asintóticas está dada por:
0.0008254 −0.0008207
35[ ( ; Ø̂^ = ` a
−0.0008207 0.0008173
b) Nuevamente, pruebe la hipótesis de que el PMC de largo plazo equivale a 1.

Utilice el método más adecuado tomando en cuenta la forma funcional de la
hipótesis planteada.
Solución
Ahora, no se conoce el valor de gamma; sino que se estima. La hipótesis nula es:
ù‚ : 8 = =1
(1 − Ø)
La prueba a utilizar es la prueba de Wald:
= Õ(m) − ø ′ 35(m) Õ(m) − ø ~ (Ä)
En este caso, se trata de una única restricción; por lo que el estadístico se puede
expresar como:
Õ(m) − ø
= ~ (Ä)
35(m)
Por lo tanto, dado que una chi-cuadrado es una normal al cuadrado; el estadístico
se distribruye como una normal estándar bajo la hipótesis nula:
Õ(m) − ø
¼= ~-(0,1)
qÉ(m)
En este caso, Õ(m) = 8. De esta forma, lo que se debe calcular es el valor

estimado de la PMC de LP; así como su varianza. El valor estimado se halla
fácilmente:
0.07495
8( = = 0.99403
(1 − 0.9246)
Para obtener la varianza, se utiliza el hecho de que el parámetro 8 es una función

no lineal de los parámetros. Por ello, para calcular la varianza se utiliza el método
delta:
35\8( ] = L
35[ ( ; Ø̂^
1
Þ á
1 ( 0.0008254 −0.0008207 Ý (1 − Ø̂) à
35\8( ] = ³ − ´` a
(1 − Ø̂) (1 − Ø̂) −0.0008207 0.0008173 ÝÝ ( à
à
−
Ü (1 − Ø̂) ß
0.0008254 −0.0008207 13.2626

35\8( ] = 13.2626 −13.1834 ` a` a
−0.0008207 0.0008173 −13.1834
0.0008254 −0.0008207 13.2626
35\8( ] = 13.2626 −13.1834 ` a` a
−0.0008207 0.0008173 −13.1834
35\8( ] = 13.2626 (0.0008254) + 13.1834 (0.0008173)

− 2(13.2626)(13.1834)(−0.0008207)
35\8( ] = 0.0002585
Reemplazando en la prueba anterior:
0.99403 − 1 0.99403 − 1
¼= = = −0.37131
√0.0002585 0.016078
Por lo tanto, no se puede rechazar que la PMC de LP sea igual a uno.
Otra manera de hacerlo es usando una prueba lineal. Si se plantea la hipótesis

nula como:
ù‚ : +Ø =1
Se puede utilizar una prueba t:
( + Ø̂ − 1
è=
qÉ( ( + Ø̂)
Para obtener la varianza:
35\ ( + Ø̂] = 35\ ( ] + 35(Ø̂) + 2•7}\ ( ; Ø̂]
qÉ\ ( + Ø̂] = 0.0008254 + 0.0008173 − 2(−0.0008207) = 0.00118
Por tanto, la prueba t queda expresada como:

( + Ø̂ − 1 0.9246 + 0.07495 − 1
è= = = −0.38135
qÉ( ( + Ø̂) 0.00118
Por lo tanto, no se puede rechazar la hipótesis nula.

3. Máxima Verosimilitud
Problema 3.1
¿Cuál es la intuición detrás del estimador de MV? ¿Cuál es el valor al que deben ser
igualadas las condiciones de primer y segundo orden de la maximización de MV?
Solución
El estimador de MV busca estimar el valor de los parámetros que mejor describen a la

distribución de la cual podrían provenir los datos observados. Es decir, aquellos
parámetros (correspondientes a una distribución determinada) que maximicen la
probabilidad de observar la data que efectivamente se observa. Por ejemplo, si la variable
dependiente proviene de una distribución normal, entonces se sabe que está
caracterizada por una media $ y una varianza & : estos dos serian los parámetros a
estimar. Así, si los valores que se observan son
= {54,53,49,61,58}
Entonces, es poco probable que se pueda obtener estas mismas observaciones si se

eligiera una distribución normal con media $ = 100, ya que todos los datos observados
están muy por debajo de ese valor. No obstante, las probabilidades mejoran si se
considera una distribución normal con media $ = 55. En conclusión, MV es una forma
sistematizada de encontrar valores para los parámetros de una distribución (previamente
determinada) que maximicen la probabilidad de observar la data que, efectivamente, se
observa.
Dado que MV es en esencia un problema de maximización, la condición de primer orden

de dicho problema deber igualarse a cero (para asegurarnos de que se ha llegado a un
máximo o un minimo). La condición de segundo orden debe corresponder a un valor
positivo, de esta manera se confirma que los parámetros hallados maximizan (y no
minimizan) la función.
Problema 3.2
¿Qué es la contribución individual a la verosimilitud y cuál es su relación con la función de

verosimilitud? ¿Cómo podría leerse esta contribución?
Solución
La contribución individual a la verosimilitud refleja cuánto es que una observación 6

contribuye a la función de verosimilitud. La función de verosimilitud siempre puede
expresarse como la productoria de las contribuciones individuales. Cada una de estas
contribuciones resume las características de la observación 6 en particular (la cual puede
ser una persona). Por ejemplo, una persona puede tener un salario dado, una edad que
afecta ese salario y experiencia relevante para sustentar, o no, ese salario.
Problema 3.3
Enumere y comente cada una de las 4 propiedades de los estimadores de MV:
Solución
El estimador de Máxima Verosimilitud (MV) cumple con las siguientes propiedades

asintóticas:
Consistencia: ‘46’ mn m‚ . Es decir, con un número suficientemente grande

de datos es posible encontrar el valor m‚ poblacional.
i)
mn ∼ - m‚ , ·¹(m‚ )¸ ] ¹(m‚ ) =
[: 4>Á/:m‚ :m‚ ]. Como se observa, la varianza del estimador termina
ii) Normalidad asintótica: donde
L
siendo la inversa de la matriz de información, la cual proviene del Hessiano del
iii) Eficiencia asintótica: mn es asintoticamente eficiente y alcanza la cota inferior

problema de maximización de la verosimilitud.
estimador con un •€ menor que el de mn.

de Cramér-Rao de estimadores consistentes. En otras palabras, no existe otro
iv) Invarianza: El estimador de MV de la función Ø‚ = <(m‚ ) es <(mn) si <(m‚ ) es

una función continua y continuamente diferenciable. Es decir, el estimador es
invariable cuando se le aplica una función con estas características.
Problema 3.4
El estimador de Máxima Verosimilitud sólo debe de utilizarse cuando es imposible estimar

por MCO. Esto se debe a que, si bien MV es consistente, siempre presentará una mayor
varianza que el estimador MCO. Precisamente, según el teorema de Gauss-Markov, MCO
es el mejor estimador lineal insesgado (MELI).
Solución
Falso. El estimador de MV es preferible cuando se conoce la función de densidad

condicional de los datos, o cuando se puede hacer un supuesto sobre la distribución y se
puede encontrar el estimado de los parámetros que maximiza la probabilidad de ajustar la
distribución hipotetizada a la distribución de los datos. Además, estimar por MV permite
utilizar especificaciones no lineales, mientras que MCO sólo permite trabajar con modelos
lineales.
Por otro lado, en la medida que se especifique correctamente la función de verosimilitud,

los estimados serán consistentes y tendrán la menor varianza asintótica de todos los
estimadores consistentes. A esto último se le conoce como la cota inferior de Cramer-
Rao.
Problema 3.5
Comente la siguiente afirmación: “Es lo mismo estimar un parámetro a partir de la función
de verosimilitud que a partir de la función de log-verosimilitud ya que el valor máximo de
ambas funciones, que se obtiene con el parámetro hallado, es el mismo”
Solución
Falso. La aplicación del logaritmo implica una transformación monotónica de la función en

cuestión, por lo tanto el valor del parámetro que maximiza ambas funciones es el mismo.
No obstante, el valor máximo de la función original y el logaritmo de la misma, evaluadas
en dicho parámetro, difiere.
Problema 3.6
El estimador de máxima verosimilitud busca maximizar la probabilidad de ocurrencia

conjunta de los valores observados de la variable dependiente ( ) y devuelve un único
vector )g . Esto último, sin embargo, puede no ser posible si los valores observados de
provienen de distribuciones con medias distintas.
Solución
El estimador de máxima verosimilitud busca maximizar la probabilidad (conjunta) de que

los datos observados provengan de una distribución determinada.
Por tanto, si se observan datos de distintas distribuciones y se quiere hallar un estimado

de máxima verosimilitud con esos datos, se busca estimar los parámetros que
caracterizarían a la distribución que ajusta (podría contener) a las realizaciones
observadas. En este caso, el estimado no debería buscar ser similar a ninguna de las dos
medias, sino de la media de la (nueva) distribución que podría haber contenido a las
realizaciones observadas.
En caso quisiera hallarse estimados de MV de las dos distribuciones de las que provienen
las observaciones, se debe proceder a estimar por separado usando realizaciones solo de
una u otra distribución (en caso sea posible identificar que vienen de alguna determinada
distribución).
Problema 3.7
El criterio de Máxima Verosimilitud consiste en encontrar el estimador mn)g que maximiza

la probabilidad de ocurrencia de los datos, dada una distribución asumida para estos. Este
criterio, sin embargo, no funcionará si los valores observados de los datos ( ) provienen
de una distribución Poisson algunos, y una Normal otros.
Solución
Verdadero. Por ejemplo, en un contexto de corte transversal, la función de verosimilitud

está conformada por las contribuciones de cada observación. En principio, uno asume
que cada una de estas contribuciones está caracterizada por la misma distribución. Por lo
tanto, si cada persona perteneciera a una distribución diferente, los parámetros asociados
a tales distribuciones serían distintos y no podrían estimarse debido a que se tendrían “>”
individuos con “>” distribuciones diferentes en el extremo, por lo que no hay suficientes
supuesto de 66: se aplica en este caso.

datos en el modelo para estimar “>” parámetros correspondientes a cada distribución. El
Problema 3.8
¿Qué sucede entre el estimador MCO y el de MV cuando se cumple el supuesto de

normalidad?
Solución
Bajo el supuesto de normalidad, ambos estimadores son equivalentes. Dada la función de

densidad de la distribución normal, al resolver las condiciones de primer orden del
problema de MV resulta en los estimadores MCO. Es decir, el estimador que maximiza la
verosimilitud considerando la función de densidad de la Normal es el estimador de MCO.
Si se considera perturbaciones distribuidas normalmente, entonces | se distribuye

(también) normal con media L y varianza & . De esta manera, la funcion de densidad
de | es:
_ L
) ]
( | ) =
exp d
√2 &
Por otro lado, la función de log verosimilitud de una muestra independiente de >
observaciones es igual al logaritmo de la función de densidad conjunta de las variables
aleatorias observadas. Asimismo, para una muestra aleatoria, la función de densidad
conjunta sería el producto del logaritmo de la función de densidad individual (contribución
> > 1
individual):
4>Á( , & | , 4>& 4>2 E( L
) ]
2 2 2& @
> > 1
Lo cual puede expresarse en forma matricial como:
4>Á( , & | , ) = 4>& 4>2 [( )′( )]
2 2 2&
> > 1
4>Á( , & | , ) = 4>& 4>2 [ L 2 L + L L
2 2 2&
gradiente derivando la función 4>Á respecto a y & .

Para hallar el valor de los parámetros que maximizan la verosimilitud, se busca el vector
Derivando respecto a :
:4>Á 1 :[ L
2 L
+ L L
: 2& :
:4>Á 1
[ 2 L
+2 L
: 2&
:4>Á 1 L L
]
: &
1 L
Con el fin de maximizar, se iguala el gradiente a cero,
L ]=0
&
L
= L
( L ) ′
Derivando respecto a σ :
:4>Á > 1
[( )′( )]
:& 2& 2& s
> 1
Con el fin de maximizar, se iguala el gradiente a cero,
− [( )L ( )] = 0
2& 2& s
1 >
[( )L ( )] =
2& s 2&
1
)L ( )] = >
&
1
Dado que ya se halló el valor de , se reemplaza dicha expresión,
)L ( )] = >
&
1
ˆ L ˆ >
&
1
;′;] = >
&
; L;
&p =
>
Problema 3.9
Asumiendo que las observaciones correspondientes a la variable dependiente provienen

de una función de distribución marginal normal, derive la normalidad asintótica del
estimador de MV.
Solución
Si las observaciones correspondientes a la variable dependiente provienen de una función

de distribución marginal normal, entonces el estimador que maximiza la verosimilitud de la
función equivale al estimador de Mínimos Cuadrados Ordinarios (MCO). Por tanto, basta
con derivar la normalidad asintótica del estimador MCO.
()*+ = ( L ) L
Reemplazando se obtiene:
()*+ − =( L ) L
Tras multiplicar por √> en ambos lados y reordenar en el lado derecho:
1 √>
√>( ()*+ − ) = W L
Z L
> >
Por Ley de Grandes números: bF L

f → ( L )
→ -[0, &" ( )]
√F L L
F
Por TLC:
Por tanto,
√>( ()*+ − ) − : → -[0, &" ( L ) ]
Problema 3.10
denota el número de veces un individuo 6 compra tabaco en un mes dado.

Suponga que cuenta con una muestra aleatoria de - individuos. La variable
La variable
es una
una distribución de Poisson con parámetro # ; ‘ + ), la probabilidad

característica del individuo (por ejemplo, género). Si se asume que para un ( , ) tiene
condicional de dado está dada por:
; ƒ
¶[ | ]=
$
#
!
a) Escriba la función de verosimilitud de este modelo de regresión Poisson.
Solución
Contribución individual a la verosimilitud:
; ƒ
Á
$
#
!
Función de verosimilitud:
F F
; ƒ
&Á &³ ´
$
#
!
G G
Poisson implica que [ | ] = # , demuestre que las contribuciones del

b) Halle las condiciones de primer orden. Considerando que la distribución de
score tienen media cero.
Solución
F
; ƒ
Á7rÁ = E Á7r ³ ´
$
#
!
G
F
; Í û_ 'ûd ( )‡
; (-_ c-d )ƒ
Á7rÁ E Á7r O P
!
G
Á7rÁ E ; -_ c-d )
+ + ) − log ( !
G
F
¦47rÁ
E ; -_ c-d )
]
¦
G
F
¦47rÁ
= E[ ; (-_ c-d )
]
¦
G
Para demostrar que las contribuciones al Score son cero, se usará el dato
que provee el enunciado. Si se evalúa los estimadores en los parámetros y
se toman expectativas condicionales en :
F
OE\ ; \-_ c-d ]P = E ( / ) − E \; \-_c-d ã ) = ># − ># = 0

« « ] « « ]
OE\ − ; \-_c-d | ]P = E ( / ) −E \; \-_ c-d ã )

« « ] « « ]
=E # −E # = 0
c) Derive una expresión para la matriz de información y úsela para determinar

la matriz de varianzas-covarianzas asintótica del estimador MV, y un
estimador.
Solución
Se puede hacer el análisis para la 6-ésima observación:

¦ ln Á)
; -_ c-d )

¦
¦ ln Á)
; (-_ c-d )

¦
¦ ln Á)
; (-_ c-d )
¦ ¦
Se debe recordar que la varianza es la inversa de la matriz de información.

Por tanto, primero se obtiene esta matriz; la cual es igual al negativo de la
esperanza del Hessiano:
½ ½
Þ )á
− E ; (-_ c-d ) −E ; (-_ c-d
Ý à
¹( ; Ý ½G G à
Ý ½
à
Ý− E ; (-_c-d ) −E ; (-_ c-d )
à
Ü G G ß
½ ½
Þ )á
E ; -_ c-d ) E ; (-_ c-d
Ý à
¹( ; Ý ½G G à
Ý ½
à
ÝE ; (-_ c-d ) E ; (-_ c-d )
à
ÜG G ß
Ahora, invirtiendo esta matriz para obtener la varianza:
½ ½
Þ á
E# E
Ý à
#
35( ; ¹ ; Ý ½G G à
Ý ½
à
ÝE # E #à
ÜG G ß
Problema 3.11
La UP ha decidido regalar un carro a cada alumno del salón de Econometría I (el salón
está compuesto por 14 alumnos). Cada alumno puede elegir el color del carro que recibe.
0 si el carro elegido es rojo, 1 si el carro

Considere que es la variable aleatoria que denota el color de carro elegido, asuma que
2 si el carro elegido es blanco.

esta puede tomar los siguientes valores:
elegido es negro, y
a) Plantee la contribución individual (de un determinado alumno) a la verosimilitud, en

función de los posibles valores de la variable dependiente “color del carro” ( ).
Solución
Si se tratara de un problema en que existieran dos posibilidades (éxito y fracaso),
la función de verosimilitud seria:
LŽ π+ 1 π +
Dado que el problema plantea tres opciones (rojo, negro y blanco), la función de
verosimilitud, la función de verosimilitud es:
LŽ Pr y 0 .
Pr y 1 /
Pr y 2 0
(1 y 2
donde A = ; B 2 y y; C 1
y
2
A B
b) Asuma que los 14 carros elegidos por los alumnos de la sección B del curso de
carros blancos. Asimismo, considere que ž es la probabilidad de que un alumno

Econometría I tienen la siguiente distribución: 3 carros rojos, 7 carros negros y 4
elija un auto rojo, es la probabilidad de que un alumno elija un auto negro y 8, la

probabilidad de que un alumno elija un auto blanco. A partir de la contribución
individual hallada en (i), plantee la función de verosimilitud y halle el valor de los
parámetros que maximizan dicha función.
Solución
Á ž F45ð56 Fœ78456 F9:;œ<56

8
Á ž F45ð56 Fœ78456
1 ž s F45ð56 Fœ78456
Á ž Ê
1 ž s
Á>Á 3Á>ž 7Á> 4 Á> 1 ž
¦Á>Á 3
0
4
¦ž 1 ž
≡ −
ž
¦Á>Á 7
0
4
¦ 1 ž
≡
ž
Ê Ê
-
>
;
3 4
1 ž ž
ž Ê
3 4
1 ž
ž ‚
10
3 W1 − žZ 4ž
3
3 − 10ž 4ž
3 14ž
Ê s
ž∗ ; ∗
; 8∗
s s s
Problema 3.12
Se considera el siguiente modelo:
| ∼- , ?)
Donde ? es una matriz simétrica conocida de dimensión - -.
a) Muestre que el estimador de MV de resuelve el siguiente problema:
( = 35r’6>K ( D)L ? ( D)
Solución
Se parte asumiendo que proviene de una distribución normal, tal que ∼

- $, @) . La función de densidad normal multivariada seria:
1 1
; ‘ B− ( $ ′@ ( $ C
2
A
d |@|
_
d
2
Donde ‘ es la dimensión de , y |@| es el determinante de @ . Con esta

expresión, se halla la función de verosimilitud (< es una constante):
1
Á D < ( D)′? ( D)
2
Ya que es una constante, maximizar la función L(b) equivale a maximizar

el segundo término, ( D)′? ( D), que es justamente lo que se
pedía demostrar.
b) Muestre que:
( = ( L? ) ′?
Solución
Partiendo del hecho de que el estimador resulta del siguiente problema:
( 35r’6>K D)L ? ( D)
Se halla la condición de primer orden (CPO):

−2 LDE_
+ 2 L? ( 0
Despejando ( , se obtiene la expresión planteada:
( L
? ) ′?
c) Halle la varianza de ( .
Solución
Ya que ( L
? ) ′? , se extrae la varianza de los dos lados de la
expresión:
35 ( | ) = ( L ? ) ′? 35( | )? ( L? )
y dado que 35( | ) = ?:
35( ( | ) = ( L ? )
d) ¿ ( es consistente? ¿Es insesgado?
Solución
Dado que ( es el estimador de MV, cuenta con las cuatro propiedades de
asintótica e invarianza) y es, por tanto, consistente. Mas aún, ( tambien es

ese tipo de estimadores (consistencia, normalidad asintótica, eficiencia
insesgado, ya que:
( ( | ) = ( L? ) ′? ( | )
( ( | ) = ( L? ) ′?
( (| ) =
e) Provea la expresión de la matriz de información de Fisher. ¿ ( es el

estimador insesgado de menor varianza (EIMV)?
Solución
Ya que ? es conocido, la matriz de información de Fisher es:
1: Á 1
¹( ) = i− j= W− L
Z
- : : ′ -
?
No obstante, por la ley de expectativas iteradas (LEI),
35( ( ) = [( L ? ) ]
Lo que implica que ( generalmente no alcanza la Cota Inferior de Cramér-
Rao ya que generalmente [( L ? ) ] l ( L? )] .
No obstante, en el caso particular en el que es no-estocástico, βn si

alcanza la cota de Cramér-Rao y es, por tanto, el estimador insesgado de
menor varianza.
f) Ahora considere que el modelo verdadero sigue siendo el mismo
| ∼- , ?)
Pero que ? es desconocido y, por tanto, se propone estimar por Maxima

Verosimilitud por medio de un pseudo-modelo:
| ∼- , @)
Donde @ es una matriz simétrica de - - distinta a ? . Halle la expresión

para el estimador de MV y su varianza. Discuta.
Solución
En este caso, el estimador MV sería:
x = ( L@ ) ′@
el cual es insesgado y consistente. No obstante, su varianza:
35\ x ã ] = ( L @ ) LF E_
35( | )@ ( L@ )
35( x | ) = ( L @ ) ′@ ?@ ( L@ )
35\ x ã ] = ( L @ ) LF E_
?@ ( L@ ) > L
@ ) = 35\ ( ã ]
Esta es la fórmula de White. Es un ejemplo de pseudo-verosimilitud en la

que se logra obtener consistencia, pero se debe considerar la estructura
(errónea) de las perturbaciones con el fin de obtener errores estándares
adecuados para la inferencia.
Problema 3.13
Considere el siguiente modelo:

L
+ ; ‘ ′Ø)
en el cual las observaciones son 66: y | ∼ -(0,1 . Además, asuma que ( y Ø̂ son los
estimadores de MV de y Ø, respectivamente.
,…, F ).
estimaría ( y Ø̂ en la práctica?
a) Escriba la función de log-verosimilitud (condicional a ¿Cómo
Solución
½
1 1( L
D)
Á(D, <) = E 4> ; ‘ ô− õ
√2 ; ‘ ( ′<) 2 ; ‘\2 L <]
G
respecto a D y <, haciendo uso de una rutina de maximización como el

Para hallar los estimados, se buscaría maximizar la función de verosimilitud
método iterativo de Newton-Raphson.
al argumento y muestre como ello implica que ( puede ser escrito como
b) Escriba la condición de primer orden del problema de maximización respecto
una función de las observaciones y de Ø̂. Brinde una interpretación de (

distinta a la propuesta.
Partiendo de la función de log-verosimilitud:

½
1( L
D)
Á D, <) = • − E i < + L
j
2 ; ‘\2 L <]
G
Se halla la CPO:
½
:Á D, <) ( L
D)
=E
: ; ‘\2 L <]
G
Por lo tanto,
:Á\ ( , Ø̂] L (
½
\ ]
=E
: ; ‘\2 L Ø̂]
G
Lo cual conlleva a:
½ ½
1 1
( = ME ′N E
; ‘\2 L Ø̂] ; ‘\2 L Ø̂]
G G
de , donde &ŒG ; ‘(2 L <

Este es el estimador de mínimos cuadrados generalizados factibles (MCGF)
Brinde la expresión correspondiente a la varianza asintótica de ( usando el

hecho de que ( es el estimador de MV.
c)
Solución
La derivada cruzada:
½
: Á D, <)
= −2 E( L
D) ; ‘(−2 L < L
: :Ø′
G
Por lo cual
: Á( , Ø)
i j=0
: :Ø′
ya que ( | ) = 0.
Por otro lado, la segunda derivada respecto a :

½
: Á D, <) 1
= −E L
: : ′ ; ‘\−2 L <]
G
Por lo tanto, la varianza asintótica de esta dada por la siguiente expresión:
WÍ “\ å H]
L
Z
-
Esto corresponde a la varianza asintótica del estimador factible de mínimos

cuadrados generalizados (MCG). Esto no debe llamar la atención ya que se
conoce que los estimadores MCG y MCGF son asintóticamente
equivalentes.
Problema 3.14
Se asume el siguiente modelo del logaritmo de los salarios y años de educación:
+ Ø¼ +
= 8¼ + }
en el cual , 6 1 … -, es el logaritmo de salario del individuo 6, es su nivel educativo y

zŽ , su coeficiente intelectual. Todas las variables son escalares. Se ha omitido los términos
constantes por simplicidad. ( , , ¼ ), 6 = 1 … - son 66:, } es independiente en media
respecto a zŽ , y uŽ es independiente en media respecto a y ¼ .
i) Halle el efecto (marginal) del CI en los salarios:
: ( |¼
K( , Ø, 8) =
:¼
Muestre que no depende de ¼ .
Solución
Reemplazando la ecuación de educación en la ecuación de salarios se
obtiene que
8+Ø ¼ + } +
Dado que y } son independientes en mendia respecto a ¼ ,
( |¼ 8+Ø ¼
De manera que:
K , Ø, 8) = ( 8 + Ø
Se quiere probar ù‚ : K 0 vs. ù : K ≠ 0. Para ello, se dispone de los

estimados MCO ( ,Ø̂ y 8( , y su matriz de varianza-covarianza, la cual se
ii)
asume diagonal:
&
Œ -« 0 0
@n ¨ 0 &
Œ HŒ 0 ©
0 0 &
Œ L«
Construya el estadístico de Wald para probar la hipótesis planteada.
Solución
Dado que } es independiente en media respecto a zŽ , y uŽ es

independiente en media respecto a y ¼ , todos los estimados MCO ( ,Ø̂ y
8( son consistentes.
De esta manera, se obtiene:
(
√- ¨£ Ø̂ ¤ − M Ø N© → - W0, ‘46’ -@n Z
˜
8( 8 ½→M
Sabiendo que se cumple que:
:K :K :K
W Z = (8 1
: :Ø :8
Y aplicando el método delta:
8
√- K( K → - £0, (8 1 ”‘46’ -@n • M 1 N¤
˜ ½→M
Se deriva que el estadístico de Wald es:

\ ( 8( + Ø̂]
8( & Œ HŒ + ( &
Œ -« + & Œ L«
iii) Indique cual es la distribución asintótica del estadístico de Wald bajo ù‚ .
Solución
Bajo ù‚ , se distribuye .
iv) ¿Cómo probaría Ud. ù‚ : K 0 vs. ù : K < 0?
Solución
Para probar la hipótesis ù‚ : K 0 vs. H : Δ < 0, se debe considerar una

prueba de una sola cola. Se puede usar el hecho de que si K 0,
entonces:
( 8( + Ø̂
€ ∼ - 0,1
8( & Œ HŒ + ( &
Œ -« + & Œ L«
De esta manera, con un nivel de confianza de 5%, se rechazaría la ù‚ si

€ < 1.64.
Problema 3.15
Pedro inventa un juego, similar al “Bingo”, que consta de una caja que contiene canicas,
donde cada canica representa a un número. Los números considerados como elegibles
son consecutivos y pertenecen a un rango determinado. En particular, Pedro decide incluir
números consecutivos, no repetidos, contenidos en el rango 5, 15 . Quien dirige el juego
elige en cada ronda una canica de la caja a manera de muestreo con reemplazo, es decir,
en cada ronda se elige una canica y anuncia el número correspondiente, tras lo cual se
vuelve a incluir dicha canica en el “pool” de canicas elegibles. Cada jugador tiene una
cartilla con números. Un jugador puede marcar un número en su cartilla si quien dirige el
juego anuncia dicho número como elegido en alguna determinada ronda. Quien llene la
cartilla primero gana.
Juan, muy ansioso, desea descifrar cómo ganar el juego antes de que Pedro le explique
cómo jugar. Juan deduce que todas las canicas tienen la misma probabilidad de ser
elegidas y que lo único que necesita para determinar dicha probabilidad es el intervalo al
que pertenecen los números elegibles en el juego. Así, logra descifrar que la distribución
de números elegibles corresponde a una distribución uniforme y recuerda que los
parámetros característicos de este tipo de distribución son el límite inferior y el límite
superior del rango al que pertenecen los números.
Considerando esta información:

a) Caracterice la función de densidad que representa el juego en cuestión.
Solución
El juego descrito corresponde a realizaciones que provienen de una

distribución uniforme. Gráficamente:
Por tanto, la función de densidad consta de tres segmentos:
?, ) = 0 26 ? <
1
?, )= 26 › ? ›
?, ) = 0 26 ? >
b) Plantee la función de log verosimilitud de dicho problema.
Solución
Los parámetros que caracterizan el problema son y .
Ya que, como se indicó en el enunciado todas las observaciones tienen la

misma probabilidad de ocurrencia, por lo que la función de verosimilitud es:
1
Á &
1
Á F
Por tanto, la función de log-verosimilitud sería:
47rÁ , ) = −>47r( − )
c) Halle el valor estimado para los parámetros que caracterizan la distribución y

explique en qué difiere el procedimiento utilizado para estimar los parámetros,
de lo que se habría aplicado si los números de las canicas provinieran de una
distribución normal.
Solución
( − ) sea la menor posible. Así, se busca que
En este caso, la manera de maximizar la verosimilitud es que la diferencia
sea lo mayor posible y
sea lo menor posible. No obstante, no puede ser mayor que el menor valor
observado de ? ni menor al mayor valor observado de ? , ya que de otro
modo la función de verosimilitud sería igual a 0. Por tanto, los estimadores de
MV deben ser:
( min ?
( max ?
Por supuesto, el procedimiento aplicado difiere al que se hubiera aplicado si

provinieran de una distribución normal. En ese caso, se habrían hallado las
condiciones de primer orden e igualado a cero. No obstante, no se puede
proceder de esa manera en este caso.
d) ¿Son los estimados consistentes? Explique y justifique (intuitivamente) cual es

la relación entre los estimados y los verdaderos parámetros.
y . Asi, se cumplira que ( Ÿ y

Por la forma como se encuentra definida una distribución uniforme, siempre los
valores de ? estarán contenidos entre
( › . Sin embargo, ambos estitmados son consistentes. De manera
intuitiva, ello se justifica por el hecho de que conforme se incremente el tamaño
de la muestra, los valores observados de ? irán rellenando el espacio entre
y .
Problema 3.16
distribuidos normalmente (evaluada en los estimados de y & que lo maximizan) es una

Demuestre que la función de log-verosimilitud para el modelo lineal general con errores
función creciente del Õ del modelo.
Solución
La función de log-verosimilitud cuando los errores se distribuyen normalmente es:

F
1 1 1
ln Á = E − 4>(2 4>(& ( ′ )
2 2 2&
G
Realizando el proceso de maximización, se sabe que los estimados obtenidos para los
parámetros son:
∑ ;′; ∑FG ( ′ )
(=( ′ ) L
= &p = =
∑ - -
La función de log-verosimilitud evaluada en estos parámetros resulta en:

F
> > ;′; -
ln Á = − 4>(2 4> i j − E( ′ )
2 2 - ∑F (
2 G ′ )
G
> ;′;
ln Á = − ³1 + 4> 2 + 4> i j´
2 -
Recordando que el Õ = 1 ; L ;/q•/; la expresión anterior queda como:
> q•/ 1 Õ
ln Á = − ³1 + 4> 2 + 4> i j´
2 -
> q•/
ln Á = − ”1 + 4> 2 + 4> W Z + 4> 1 Õ •
2 -
Derivando con respecto al Õ :
¦ ln Á) > 1
=− ” • 1 >0
¦Õ 2 1 Õ
Problema 3.17
Asuma que la variable posee la siguiente función de distribución:
( )=ž -
; > û
; Ÿ 0, ž, >0
a) Obtenga la función de log-verosimilitud para una muestra de n observaciones.

Indique claramente cuál es la contribución individual a la verosimilitud.
Solución
La contribución individual a la verosimilitud está dada por:
4 ž -
; > û
La función de verosimilitud es:

F F
Á = &4 = &ž -
; > û
G G
Aplicando logaritmos:
F
ln Á = E[4>(ž) + 4>( + 1 4> )−ž -

^
G
F F
ln Á = > ∗ 4>(ž) + > ∗ 4>( + 1 E 4> )−žE -
G G
b) Halle las condiciones de primer orden y obtenga una ecuación implícita para .
Solución
De la función de log-verosimilitud se obtienen las CPO:

F
¦(ln Á) > >
= −E -
= 0 → ž̂
¦ž ž ∑FG -
G
F F
¦(ln Á) >
+ E 4> ) − ž E 4>( ) -
=0
¦
G G
Reemplazando el primer resultado en la segunda ecuación, se obtiene la ecuación

implícita para :
F F
> >
+ E 4> )− E 4>( ) -
=0
∑FG -
G G
respecto a ž y . ¿Cómo obtendría la matriz de covarianzas si se tuvieran los

c) Encuentre las matriz de segundas derivadas de la función log-verosímil con
estimadores?
Solución
Las segundas derivadas serían:
¦ ln Á) >
= −
¦ž ž
F
¦ (ln Á) >
ž E 4> ) -
¦
G
F
¦ (ln Á)
E 4> ) -
¦ž¦
G
De esta forma, el Hessiano queda como:

F
Þ > á
− − E 4>( ) -
Ý ž à
ù=Ý F G à
Ý à
F
>
Ý− E 4>( ) -
− − ž E 4>( ) -
à
Ü G G ß
Si se tuvieran los estimadores, bastaría evaluar el Hessiano en dichos valores,

hallar el valor esperado (hasta aquí la matriz de información) y finalmente
invertirla.
d) Demuestre que ž •7}[ln ; -
^ 1. (Ayuda: Recuerde que el valor esperado
del score es cero).
Solución
Partiendo de que el valor esperado del 2<75; es cero:

F
¦(ln Á) > 1
³ ´= −E -
= 0 → [ -
^=
¦ž ž ž
G
F F
¦(ln Á) >
³ ´ + OE 4>( )P − ž OE 4>( ) -
P=0
¦
G G
Dividiendo entre >:

F
1 [∑FG 4>( )]
+ − ž OE 4>( ) -
P /> = 0
>
G
Utilizando el hecho de que cada término de la sumatoria tiene la misma

esperanza; y reemplazando el primer resultado obtenido se obtiene que:
1 [4>( ) - ^
+ [4>( )] − =0
[ -]
Multiplicando todo por [ -

^ se obtiene:
[ -
^ [ -
^
+ [ -
^ [4>( )] − [4>( ) -
^ = 0 →
= [4>( ) -
^− [ -
^ [4>( )]
1
•7}[ln ; -
^
ž
Problema 3.18
Asumiendo una función de distribución normal univariada; un investigador decide

y8 bh f. Encuentre los
-
reparametrizar la función de verosimilitud en términos de P
h
estimadores de máxima verosimilitud para P y 8; y obtenga la matriz de covarianzas de
dichos estimados.
Solución
La función log-verosimil para el modelo lineal general es:

F
1 1 1
ln Á = E − 4>(2 4>(& ( ′ )
2 2 2&
G
Reparametrizando P = 1/& y 8 /& se obtiene:
F
1 1 1
ln Á = E − 4>(2 + 4>(P (P ′ 8)
2 2 2
G
Las condiciones de primer orden son ahora:

F
¦(ln Á)
=E (P ′ 8) = 0
¦8
G
F
¦ ln Á) >
= −E ′ 8) = 0
¦P
P
P
G
De la primera condición se puede obtener el estimado para 8:
∑FG
8 = P( ′ ) L
= PD
∑FG
P
Reemplazando en la segunda condición:

F
>
=E P ′ PD)
P
G
F
>
= PE ′ D)
P
G
F
>
P = > QE ′ D) =
;′;
G
Sustituyendo en el resultado obtenido para 8 se obtiene:
F /
8 O>QE ′ D)P ∗D
G
Las segundas derivadas de este modelo son:

F
¦ (ln Á)
= −E ′
¦8
G
F
¦ ln Á) >
= − −E
¦P P
G
F
¦ ln Á)
=E
¦8¦P
G
Luego, se debe obtener el esperado de cada una de las segundas derivadas. Se debe
tomar en cuenta que [ | ] = D= Por lo tanto, [ | ] = 8′ ) + Rd (dado que
å
L L
Rd
.
R
los términos cruzados son cero). Agregando para todos los términos se reemplaza en la
segunda derivada con respecto a P. En términos matriciales, la matriz de información se
construye a partir de:
¦ (ln Á)
³ | ´ = − ′
¦8
¦ (ln Á) 2> >

³ | ´=− 8′ ′ 8)
¦P P P
¦ (ln Á) 1
³ | ´= ′ 8)
¦8¦P P
De esta forma, la matriz de covarianzas es la inversa del negativo de la matriz de

información; es decir:
1
′ ′ 8)
35(8, P) = ê ï
1 2> >
P
− ′ 8) 8′ ′ 8)
P P P
Problema 3.19
Considere una muestra (de > observaciones) obtenida a partir de una distribución normal
multivariada con media $ = ($ ; $ ; … ; $) y matriz de covarianzas escalar (& ¹ . La
función log-verosímil es de la forma:
F
−>€ >€ 1
ln Á = ln(2 ln(& ) − E( $ ′( $
2 2 2&
—
G
a) Obtenga los estimadores para $̂ y &ˆ .
Solución
Las CPO son:

F
¦ ln Á) 1
=− E 2( $ 0
¦$ 2&
G
F
¦ ln Á) >€ 1
=− E( $ ′( $ 0
¦& 2& 2& s
G
De la primera ecuación se puede observar que el estimador para $ es el vector
término de la suma es ∑) $¿ . Insertando el hecho de que los

de medias para cada variable. Por otro lado, en la segunda ecuación, cada
¿G ¿
estimadores de $¿ son los promedios muestrales se obtiene:
) F )
∑FG ∑) S¿ 1 1 1
&ˆ E E S¿ E &ˆ
¿G ¿
>€ € > ¿
€ ¿
¿G G ¿G
covarianzas estimada para $̂ y &ˆ .

b) Derive las condiciones de segundo orden. Asimismo, halle la matriz de
Solución
Las segundas derivadas son:

F
¦ ln Á) 1
= E ¹
¦$¦$′ &
G
F
¦ ln Á) 1
= s E 2( $
¦$¦& 2&
G
F
¦ ln Á) >€ 1
= s E $ ′( $
¦& ¦& 2& &w
G
¦ (ln Á) >
El esperado de estas derivadas es:
³ ´ = − ¹
¦$¦$′ &
¦ (ln Á)
³ ´=0
¦$¦&
F
¦ (ln Á) >€ 1 >€ >€ >€
³ ´= s E €&
¦& ¦& 2& &w 2& s &s &s
G
Así, la matriz de covarianzas será la inversa del negativo de la matriz de
información; es decir:
>
¹ 0
&
35 $, & ) = ê >€ï
0
&s
4. Errores no esféricos: Heterocedasticidad
Problema 4.1
¿Cómo es la varianza del estimador MCO cuando la matriz de varianzas y covarianzas no

es escalar?
Solución
El problema de una matriz de varianzas y covarianzas no escalar es que ahora el
ya no tiene la menor varianza. Asumiendo que ( L ) = & Ω, ahora la varianza de MCO

estimador MCO, si bien sigue siendo insesgado y consistente, ya no es eficiente; es decir,
es:
35\ ( ] = `( − ( ))\ − ( )] | a
L
35\ ( ] = [(( ′ ) ′ )(( L ) L )L | ]

35\ ( ] = [( ′ ) L L ( L ) | ]
35\ ( ] = ( ′ ) ′ [ L
| ] ( L )
35\ ( ] = & ( ′ ) L
Ω ( L ) > 35\ ( ] & ′ )
Claramente, la varianza de MCO con heterocedasticidad (izquierda) es mayor que en el

caso de homocedasticidad (derecha).
Problema 4.2
¿Qué se debe hacer para obtener un estimador eficiente cuando la matriz de varianzas y
covarianzas no es escalar?
Solución
Lo que se debe hacer el transformar el modelo y aplicar MCO al modelo transformado. A

ello, se le denomina Mínimos Cuadrados Generalizados (MCG). Se supone el siguiente
modelo:
= +
donde ( L ) = & Ω. Para transformar el modelo, se debe multiplicar por una matriz,
llámese ¶ que haga que el nuevo error tenga una matriz de varianzas y covarianzas
escalar:
¶ =¶ +¶
Donde ahora (¶ (¶ )L ) = (¶ L ¶) = ¶′ ( L )¶ = & ¶′ΩP. Para que esta matriz sea

escalar; se debe cumplir que: ¶L ΩP = ¹; de donde se obtiene que : ¶¶′ = Ω . Para el
lector que tenga conocimientos de álgebra matricial, ¶ es la matriz que contiene a los
vectores propios ortonormales de Ω.
De este modo, aplicando MCO al nuevo modelo transformado, se obtiene el estimador por
MCG:
()*U = \(¶ )′¶ ] (¶ )′¶
()*U = ( ′¶′¶ ) ′¶′¶
()*U = ( ′Ω ) ′Ω
Problema 4.3
Demuestre que el estimador )*U minimiza la suma de cuadrados generalizada siguiente:
( − ( )′ Ω ()
Solución
Partiendo de lo mencionado, se debe:
€6> « ′ Ω «
€6> ′Ω − « ′ ′Ω − ′Ω « + « ′ ′Ω «
Derivando con respecto a « :
′Ω − ( ′Ω )′ + 2 ′Ω « ∅
2 ′Ω + 2 ′Ω « ∅
« ′Ω ) ′Ω
Problema 4.4
Demuestre que el estimador )*U es el estimador más eficiente en presencia de

heterocedasticidad.
Solución
En primer lugar, se tiene el siguiente modelo:
= +$
Donde [$$L | ] = & Ω. Pre-multiplicando el modelo por la matriz ¶ que convierte a los
errores en esféricos, se obtiene:
¶ =¶ + ¶$
∗ ∗
+
Donde ahora [ ′| ] = [¶$$′¶′| ] = ¶& Ω¶L = & I. Por tanto, se cumple que ¶Ω¶L = ¹;
es decir, que Ω = ¶′¶.
De esta forma, el )*U puede expresarse como:
« ′Ω ) ′Ω =( ∗
′ ∗) ∗
′ ∗
Para analizar la eficiencia, se debe hallar la varianza de )*U . Se sabe que este
estimador es insesgado (tarea) dado que las perturbaciones no esféricas sólo afectan la
eficiencia del estimador, mas no le incluyen un sesgo.
Por tanto, la varianza se puede expresar como:
35( )*U | )=& ( ∗

′ ∗)
= & ( ′¶′¶ )
35( )*U | ) = & ( ′Ω )
Se define otro estimador lineal insesgado: x = :
[ x| ^ = ∗
+ [ | ]
Para que sea insesgado, se debe cumplir que ∗

= ¶ = ¹.
La varianza de este estimador resulta ser:
35\ x | ] = [ ′ ]=& ′
Ahora, se define una matriz É tal que: É = −( ∗

′ ∗) ∗L
= − ( ′Ω ) ′¶′
De esta forma, la varianza del nuevo estimador lineal insesgado puede escribirse como:
35\ x | ] = & [É + ′Ω ) ′¶′][É + ′Ω ) ′¶′]′
35\ x | ] = & [ÉÉ′ + É¶ ( ′Ω ) + ′Ω ) ′¶′É′

+ ′Ω ) ′¶′¶ ( ′Ω ) ]
Los términos cruzados se anulan, puesto que, reemplazando D:
¶ ( ′Ω ) − ( ′Ω ) ′¶′¶ ( ′Ω )
¹( ′Ω ) − ( ′Ω ) ′Ω ( ′Ω )
( ′Ω ) − ( ′Ω ) =∅
De esta forma:
35\ x | ] = & [ÉÉ′ + ′Ω ) ′¶′¶ ( ′Ω ) ]
35\ x | ] = & [ÉÉ′ + ′Ω ) ′Ω ( ′Ω ) ]

35\ x | ] = & [ÉÉ′ + ′Ω ) ]
35\ x | ] = & ÉÉ L + & ′Ω )
35\ x | ] = & ÉÉ L + 35 )*U | )
35\ x | ] − 35( )*U | ) = & ÉÉ L
Definiendo ¼ = É L ø → ¼ L ¼ ø′ÉÉ′ø Ÿ 0. Por lo tanto, se cumple que la matriz ÉÉ’ es

semi-definida positiva.
De esta manera, la diferencia entre ambas varianzas siempre dará una matriz semi-
definida positiva; por lo que se concluye que el estimador MCG es el estimador de menor
varianza trabajando sobre el modelo transformado.
Problema 4.5
¿Cuáles son los casos en los que existe una matriz de varianzas y covarianzas no
escalar?
Solución
Se suele dividir este problema en dos casos:
• Heterocedasticidad: cuando no hay varianza constante. Este problema suele

encontrarse en datos de corte transversal.
• Autocorrelación: cuando los errores se encuentran correlacionados entre sí. Este
caso suele darse en series de tiempo; aunque también puede darse en datos de
corte a través de autocorrelación espacial; es decir, que los errores de individuos
cercanos geográficamente estén correlacionados.
4.1 Heterocedasticidad
Problema 4.6
En el caso de heterocedasticidad, ¿cómo es la matriz de errores y cómo se realiza la

corrección?
Solución
En el caso de heterocedasticidad, la matriz de errores es:
X ⋯ 0
Ω O ⋮ ⋱ ⋮ P
0 ⋯ X½
depende de su propio peso denotado por X. La matriz ¶ en este caso es:

Se puede ver claramente que la varianza de los errores será distinta ya que cada una
1
Þ ⋯ 0 á
Ý√X à
P=Ý ⋮ ⋱ ⋮ à
Ý 0 1 à
⋯
Ü √X½ ß
Como se puede ver, al multiplicar al modelo por la matriz ¶, se está ponderando a cada
negativa del peso X; es decir, lo que se hace al multiplicar por ¶ al modelo es

observación. La ponderación que se le asigne a cada una de ellas dependerá de manera
semiestandarizar cada observación, dándole mayor importancia a aquellas observaciones

menos variables (más precisas).
Problema 4.7
¿Cómo se detecta la heterocedasticidad?
Solución
Para detectar la heterocedasticidad, la prueba más utilizada es la prueba de White. Esta

prueba tiene como hipótesis nula que no hay heterocedasticidad. Para evaluarla, White
-Õ ~ ç ; donde k es el
corre una regresión entre los errores al cuadrado de la regresión y las explicativas; así
como sus productos cruzados. El estadístico que evalúa es
número de regresores. Si se acepta la hipótesis nula, la prueba indica que hay no hay
heterocedasticidad; por lo que se puede utilizar MCO. De lo contrario, se debe corregir el
modelo.
La lógica detrás de esta prueba es verificar si la varianza de los errores depende de
pensar como si estas características son las que forman el X señalado en la pregunta
características individuales; lo cual haría que justamente sea heterocedástico. Se puede
anterior.
características individuales explican la varianza del error; lo que conlleva a que el X sea
De este modo, si el ajuste de la regresión auxiliar es bueno; quiere decir que las
distinto para cada individuo.
Una gran limitación de esta prueba es que asume que el modelo está bien especificado.
Si el modelo no está bien especificado, la prueba puede indicar que hay
heterocedasticidad cuando en realidad no hay; es decir, es poco potente. Por ello, se
pueden utilizar otras pruebas como la prueba de Goldfeld y Quant o la de Breusch Pagan.
La primera compara los residuos recursivos en una submuestra al inicio y otra al final; y si
la SCR es muy distinta, entonces indica que hay heterocedasticidad. Por otro lado, la
prueba de Breusch-Pagan asume que hay una relación únicamente lineal entre los
regresores y la varianza del error. Por ello, corre una regresión de los errores al cuadrado
contra los regresores y utiliza la prueba F de significancia global para evaluar si los
coeficientes son cero. Si se acepta, entonces la prueba indica que no hay
heterocedasticidad. El estadístico es el mismo que le de la prueba de White.
Problema 4.8
¿Cómo se corrige la heterocedasticidad?
Solución
Para corregirla, se debe transformar el modelo por la matriz P. Si se conociera la matriz P,

la corrección sería únicamente armar la matriz P y multiplicar al modelo por dicha variable.
No obstante, no siempre se conoce. En este caso, se debe estimarla.
Para ello, lo que se hace es correr los errores al cuadrado de la regresión contra algunas
variables que uno considere puedan ser la causa de heterocedasticidad. Por ejemplo, en
una regresión donde la dependiente es el nivel educativo, el ingreso podría ser una
variable escala útil. Una vez realizada la regresión, se estima la varianza del error:
&ˆ ;̂ ž̂
Por último, se arma la matriz P estimada como y luego se transforma el modelo. El

estimado de este modelo transformado se le denomina Mínimos Cuadrados
Generalizados Factibles (MCGF):
1
Þ ⋯ 0 á
Ý ž̂ à
«=Ý ⋮
P ⋱ ⋮ à
Ý 1 à
Ý 0 ⋯ à
Ü ž̂ ½ ß
Finalmente, si no se puede determinar una variable escala ni cuál es la fuente de

heterocedasticidad, se puede utilizar la matriz de varianzas covarianzas de White
consistente ante la presencia de heterocedasticidad. Al realizar esto no se está
corrigiendo este problema; lo único que se hace es reconocer que existe. En efecto, White
realiza un estimado de la varianza de MCO cuando hay heterocedasticidad,
aproximándolo como:
35\ ( ] = & ( ′ ) bE ; L
f( L )
Es decir, se utiliza esta varianza a la hora de realizar inferencia una vez hecho el modelo.
Problema 4.9
El estimador de mínimos cuadrados generalizado (MCG) se prefiere al de mínimos

cuadrados ordinarios (MCO) cuando se ha omitido una variable importante del modelo.
Solución
Falso. MCG se prefiere cuando existe evidencia de que el error del modelo no tiene una
varianza homogénea ya que es más eficiente que MCO. Por otro lado, omitir una variable
importante del modelo genera estimadores sesgados e inconsistentes tanto en MCG
como en MCO.
Problema 4.10
El único problema que acarrea la presencia de heterocedasticidad es que la varianza del

estimador MCO deja de ser la clásica. Por lo mismo, bastaría con utilizar una matriz de
varianzas-covarianzas consistente con la presencia de errores heterocedásticos (como
aquella propuesta por White) para tener un estimador eficiente.
Solución
El problema que acarrea esto es que MCO ya no es eficiente. La segunda parte del
comente es falsa dado que utilizar esa matriz de White no corrige el problema, ya que
simplemente indica que se tomará en cuenta dicha varianza para realizar la inferencia.
Problema 4.11
¿Cuál de las siguientes causas pueden hacer que los estadísticos è de MCO no sean
válidos, es decir que no tengan una distribución è bajo ù¾ ?
a) Heterocedasticidad
Solución
Heterocedasticidad: La presencia de heterocedasticidad puede ocasionar que el

estadístico no tenga una distribución “t” exacta. Si bien pueden construirse
estadísticos robustos a la heterocedasticidad, estos solo son útiles para tamaños
de muestra grandes.
b) Presencia de un coeficiente de correlación muestral de 0.95 entre dos

variables independiente del modelo
Solución
Presencia de un coeficiente de correlación muestral de 0.95 entre dos variables
los supuestos que subyacen al teorema de distribución è para estimadores

independiente del modelo: La correlación entre variables independientes no afecta
«
estandarizados W ÍÍ\-« ~èF ç Z.
\- -]
]
c) Omisión de variable explicativa importante
Solución
Omisión de variable explicativa importante: La omisión de una variable
estadístico “t” como esta formulado en el teorema de distribución è para

“importante” (que pertenece al modelo) hacen al estimador sesgado, por lo que el
estimadores estandarizados ya no es válido.
Problema 4.12
Considere el siguiente modelo:
‚ + + +
[ 0
35[ ] = &™
Indique la estructura de la matriz de varianzas-covarianzas del error. Indica la forma que

tiene la matriz ( P ) que transforma el modelo tal que el “nuevo” error tenga una matriz de
homocedástica. ¿Qué implicancia tiene que dicha matriz contenga o no el parámetro &™ ?
varianzas escalar y demuestre que el modelo transformado presenta una varianza
¿Por qué?
Solución
La estructura de varianzas y varianzas del error es no escalar ya que interviene la variable

de cada individuo.
hallar la matriz ¶, la cual está compuesta por valores de y no de &™ :

Desde que se conoce la estructura de la matriz de varianzas y covarianzas es posible
1
Þ ⋯ 0 á
Ý√ à
¶=Ý ⋮ ⋱ ⋮ à
Ý 0 1 à
⋯
Ü √ ½ß
El modelo transformado sería ahora:
1 1
‚W Z+ W Z+ + W Z
Así, la matriz ¶ contiene &™ porque desde que este término es constante no es necesario
controlar por tal variable al momento de ponderar a las observaciones.
Problema 4.13
a) Dispuesto a obtener el estimado más preciso posible de la pendiente de , un

analista utiliza el ponderador asociado a la matriz ( P ) de la pregunta anterior, y
observa los siguientes resultados. Explícale que significa cada uno (paneles B, C,
D y E) e indícale qué modelo es el que utiliza la técnica de estimación más
eficiente. ¿Por qué? ¿Cuál es el estimado más preciso de la pendiente de ?
Solución
El Panel B indica la prueba de White. Por los resultados obtenidos, se rechaza la

hipótesis nula, por lo que se admite la presencia de heterocedasticidad
El Panel C muestra un modelo transformado, pero lo es erróneamente dado que

no está considerando que en el modelo original existe una constante.
El Panel D es la correcta transformación utilizando la matriz ¶; tal y como se

muestra en la parte a). Este es el mejor modelo; y el mejor estimado de es la
constante C de este panel.
El Panel E muestra un modelo en el cual admite la presencia de

heterocedasticidad considerando la matriz de varianzas y covarianzas de White.
Este modelo no corrige el problema.
se conoce que la heterocedasticidad proviene de una variable ( ç ). Si la matriz ?

b) Tomando en cuenta lo anterior, responda la siguiente afirmación: “Se asume que
depende de una potencia distinta de dos (de ç ); entonces los Õ del modelo sin
corregir y el modelo corregido con la matriz ¶ no serán comparables”.
Solución
Es verdadero ya que si depende de una potencia de dos: el modelo corregido y sin
modelos son comparables dado que el Õ está acotado entre 0 y 1. En cambio, si

corregir tendrán una constante (como se vio en este ejercicio). Por tanto, ambos
es de una potencia distinta de dos; el modelo corregido no tendrá constante, por lo

que los modelos no serán comparables.
Problema 4.14
Si no se confirma la naturaleza de la heterocedasticidad, siempre se podrá utilizar el

estimador consistente de White para obtener un estimado de la matriz varianza -
covarianza (Ω) y proceder a construir el estimador de Mínimos Cuadrados Generalizados.
Solución
White tiene la gran limitación de que va a trabajar desde el modelo (a partir de su
regresión extra). De esta forma, puede haber heterocedasticidad a partir del análisis
visual, pero White puede rechazarlo ya que esta heterocedasticidad puede que sea
explicada desde el error mismo y no desde las ’s.
Por otro lado, el estimador consistente de White no construye ?, sino que ajusta a MCO
para poder utilizarlo con la posibilidad de hacer inferencia más acotada.
Problema 4.15
hace que la prueba / de significancia sea menos potente.

Ante errores no esféricos, la estimación MCO de un modelo ignorando este problema
Solución
son subestimadas. Por lo tanto, los estadísticos è de significancia individual serían

Si no se considera la presencia de errores no esféricos, las varianzas de los estimadores
mayores, y se rechazarían más veces la hipótesis nula que en otros casos, aumentando
la probabilidad de cometer error tipo 1 (ž).
Problema 4.16
Determinado investigador pretende analizar los determinantes de las variables 1 y 2.
1? ?´ + ?
Para esto, propone las regresiones:
2? ¼? ´Ø + $?
Luego de obtener un primer conjunto de estimados para cada vector de parámetros a

través de MCO, nuestro investigador decide analizar el comportamiento del residuo
recursivo. Los resultados que obtiene se muestran a continuación:
a) Sobre la base de la evidencia gráfica mostrada, ¿qué “problema(s)” crees exhiben

los modelos propuestos? Justifica tu respuesta. ¿Por qué es importante
preguntarse si es que nuestro modelo presenta estas características?
Solución
Cuando se analicen estas pruebas de residuos recursivos, si se está trabajando

con data de corte transversal, es necesario ordenar la data según la variable que
uno considera que tiene el problema (por ejemplo, hombre y mujer, por años de
educación, edad, entre otros).
El modelo de la izquierda presenta heterocedasticidad, lo cual se evidencia en que

las bandas de confianza y el error de predicción se hace cada vez más disperso;
aunque sigue estando centrado en cero. Este problema genera que MCO deje de
ser eficiente; aunque sigue siendo consistente.
Por otro lado, el modelo de la derecha presenta un caso claro de quiebre

estructural ya que el error de predicción deja de estar centrado en cero. Este
problema genera inconsistencia en MCO, aunque sigue siendo eficiente.
b) ¿Qué pruebas adicionales recomiendas hacer para corroborar tus sospechas?

¿Qué medidas correctivas propones y cuál es su objetivo?
Solución
Para ver si están ocurriendo estos problemas, se debería correr el test de White
para verificar la presencia de heterocedasticidad. La hipótesis nula de esta prueba
es la ausencia de heterocedasticidad.
Por otro lado, para analizar la presencia de quiebre estructural, existen dos tipos
de pruebas: las recursivas y las estructurales. Las primeras son aquellas que te
ayudan a encontrar el momento del quiebre; dentro de las cuales se encuentra la
prueba de residuos recursivos (arriba), CUSUM y CUSUM cuadrado. Luego, con la
fecha de quiebre obtenida de estas pruebas, se puede realizar las estructurales,
que consiste principalmente en la prueba de Chow. Su hipótesis nula es que no
existe quiebre en el periodo colocado como input. Esta prueba se basa en la de
errores residuales entre el modelo restringido (que los betas no cambien) y el
modelo sin restringir (que los betas si son diferentes):
- Å ; ′; − (; ′; + ; ′; )
W Zi j
Ä ; ′; + ; ′;
c) Si se tiene que el modelo mostrado del lado derecho presenta los siguientes
resultados:
White Heteroskedasticity Test:

Obs*R-squared: 30.36113 Probability: 0.00023
Regresión auxiliar:
•
Variable Prob.
1
0.43987
0.19876
1
2
0.37875
2
0.14523
0.08765
¿Qué puede concluir acerca de lo planteado en a) y en b)?
Solución
A partir de lo obtenido tras correr el test de White se confirma que este test es muy
sensible ante cambios en la especificación, por lo cual puede llevar a rechazar la
hipótesis nula aún en ausencia de heterocedasticidad si es que el modelo está
incorrectamente especificado.
Problema 4.17
Una forma de solucionar la multicolinealidad es mediante la transformación de razón. Para

ilustrar este método considere el siguiente modelo:
•? ‚ + ¶È¹? + -? + ? ; ? ~6. 6. : 0; &
Donde • indica el gasto de consumo en soles, ¶È¹ es el producto bruto interno real y - es
la población total. No obstante, es probable que las variables incluidas en el modelo estén
altamente correlacionadas ya que aumentan con el tiempo. Ante ello, se puede solucionar
este problema expresando todo el modelo en términos per-cápita; la cual usualmente
reduce la colinealidad en las variables:
•? 1 ¶È¹? 1
‚W Z+ W Z+ + W Z
-? -? -? ?
-?
¿Encuentra algún problema en este método?
Solución
El principal problema que ocasiona este modelo es que genera heterocedasticidad, dado
multiplicando el modelo por la raíz cuadrada de -è (recuerde la forma de la matriz ¶).

que ahora el error nuevo dependerá de la población en cada periodo. Se debería corregir
Problema 4.18
Un economista desea estimar la ecuación de consumo:
< ž‚ + ž + ; ~- 0, &™ )
Donde < denota el consumo familiar e

información de N familias estructuradas en k subgrupos de tamaños -@ , con Ä 1, 2, . . , Å.
denota la renta disponible. Para ello se recoge
De cada uno de ellos se obtiene el consumo y la renta disponible agregados para cada
subgrupo poblacional •@ ∑ Gð < y ∑ Gð . Note que: ∑çG - -.
½ ½
@
a) Lamentablemente, sólo cuenta con los promedios para cada subgrupo de la
; S@
*ð Ûð
población (<̅@ ½ð ½ð
). Por tanto, estima el siguiente modelo:
<̅@ Ø‚ + Ø S@ +
¿Cuál es la relación existente entre los parámetros del primer modelo (ž‚ , ž ) y
los del nuevo modelo (Ø‚ , Ø )? Demuestre analíticamente la forma de la varianza
del error este nuevo modelo.
Solución
Reemplazando el valor de la ecuación de consumo individual:
•@ ∑ Gð ž‚ + ž + ∑ Gð
½ ½
<̅@ ž‚ + ž S@ +
-@ -@ -@
\ð
∑ •_ ™
Por tanto, ž‚ y ž , serán iguales a Ø‚ , Ø y = ½ð
. La varianza del nuevo error
será:
½ð
∑ Gð
½
1 1 &™
}35( ) = }35 M N= E }35 -@ ∗ &™
-@ -@ -@ -@
G
b) ¿Qué problema(s) encontró en el modelo anterior? Indique que transformación
de la matriz ? y de la matriz ¶.
realizaría a los modelos anteriores para corregirlos. En particular, indique la forma
Solución
El problema presente en este caso es el de heterocedasticidad. Las matrices

correspondientes son:
1
Þ ⋯ 0á
Ý- à
Ý⋮ ⋱ ⋮ à
1à
?
Ý0 ⋯
Ü -ç ß
- ⋯ 0
¶ ¢ ⋮ ⋱ ⋮ ¥
0 ⋯ -ç
Esto indica que cuando se trabaja con promedios de datos agrupados, hay
heterocedasticidad.
Problema 4.19
Un investigador le plantea el siguiente proceso generador de datos (PGD):
= 5 + ; ~- 0,4
¼ $ ; $ ~- 0, & ); & 5
1.2 + 0.35 + X ¼ ; X ~- 0,1
Al correr una regresión de sobre y aplicar el test de White, obtiene que no tiene
distintos valores de &. Para cada uno de ellos, genera los datos, corre una regresión y
suficiente evidencia para rechazar la hipótesis nula. Contrariado, decide probar con
aplica la prueba de White 100 veces. La tabla 4.1 muestra el porcentaje de veces que se
rechazó la hipótesis nula en cada caso:
Tabla 4.1. Porcentaje de rechazo de la nula
&=1 & 2 & 3 & 4 & 5
96% 59% 41% 38% 33%
Explique al investigador los resultados obtenidos. ¿Qué otra prueba se aplicaría para
detectar de manera correcta la heterocedasticidad?
Solución
El problema aquí es que a medida que aumenta sigma; quiere decir que hay una menor
correlación entre el error y el regresor . Por tanto, esto indica que mientras peor
especificado esté el modelo (medido a través de la correlación entre el error y el regresor);
la prueba de White aceptará más veces. Esto refleja la poca potencia que tiene este test.
Problema 4.20
Considere un modelo lineal para explicar el consumo mensual de cerveza (<;5};¼3 :
<;5};¼3 ¾ + 6>< + ‘5;<67 + ;: < + s ;’;>6>7 +
[[ |6><, ‘5;<67, ;: <, ;’;>6>7] = 0
35[ |6><, ‘5;<67, ;: <, ;’;>6>7] = & 6><
Escriba la ecuación transformada que tiene un término de error homocedástico.
Solución
El modelo anterior puede reescribirse de tal manera que presente un error

homocedástico:
<;5};¼3∗ ‚ + 6>< ∗ + ‘5;<67 ∗ + ;: < ∗ + s ;’;>6>7 ∗ + ;
Donde
∗
;;
6>< 6><
Y se cumple que:
[ ]
[;] = =0
6><
35[ ]
35[;] = =&
6><
Problema 4.21
Una de las formas de combinar las pruebas de Breusch-Pagan y de White para

heterocedasticidad es regresionar los errores estimados al cuadrado sobre sus
explicativas y los valores calculados de la dependiente al cuadrado:
ˆ sobre , ,…, ç, ˆ , 6 = 1, … , >.
Donde ˆ son los residuos MCO y las ˆ son los valores ajustados de MCO. Después se
prueba la significancia conjunta de , , … , ç y ˆ incluyendo un intercepto.
a) ¿Cuáles son los grados de libertad correspondientes a la prueba F propuesta para

heterocedasticidad?
Solución
Tiene Å + 1 y > Å 1 grados de libertad.
b) Explique por qué el Õ de la regresión indicada arriba siempre era por lo menos
tan grande como el Õ de la regresión BP y del caso especial de la prueba de
White.
Solución
Sera por lo menos tan grande como la prueba BP porque si ˆ no explica la

variación de ˆ entonces el Õ será justamente el de la prueba BP. En el caso de
la prueba de White, ˆ es justamente la parte explicada por las asi que si ˆ
explica tan bien la variación de ˆ como las x entonces su Õ será el mismo.
c) Explique porque el inciso b) implica que con la nueva prueba siempre se obtiene
un valor-p menor que el estadístico BP o que el del caso especial del estadístico
White.
Solución
No necesariamente, hay que ver los grados de libertad.
d) Suponga que alguien sugiere agregar también ˆ a la prueba recién propuesta.

¿Está de acuerdo con esta idea?
Solución
Sería redundante ya que las ya explican esa parte de la variación de ˆ .
Problema 4.22
Considere un modelo para los empleados,
,Í = ‚ + ,Í, + ,Í, + … + ç ,Í,ç + + } ,Í ,
empresa dada 6. El término de error } ,Í es específico para cada empleado ; en la

Donde la variable inobservada es un efecto de la empresa para cada empleado en una
empresa 6. El error compuesto es ,Í = + } ,Í .
a) Suponga que 35( ) = &] , 35\} ,Í ] = &! y que y } ,Í no estén correlacionadas.

Muestre que 35\ ,Í ] = &] + &! , llame a esto & .
Solución
35 &]
35\} ,Í ] = &!
•7}\ , } ,Í ] = 0
35\ ,Í ] = 35( ) + 35\} ,Í ] + •7}\ , } ,Í ]
35\ ,Í ] = &] + &! &
b) Ahora suponga que para ; ≠ r, } ,Í y } ,Í no están correlacionadas. Muestre que

•7}\ ,Í , ,^ ] = &] .
Solución
•7}\} ,Í , } ,^ ] = 0
•7}\ ,Í , ,^ ] = •7}\ + } ,Í , + } ,^ ]
•7}\ ,Í , ,^ ] = •7} , ) + •7}\} ,Í , ] + •7}\ , } ,^ ] + •7}\} ,Í , } ,^ ]
•7}\ ,Í , ,^ ] = •7} , ) = 35( ) = &]

c) Sea S = ’ ∑¿
ÍG ,Í el promedio de los errores compuestos dentro de una
empresa. Muestre que 35(S ) = &] +
h_d
¿
.
Solución
¿
S =’ E ,Í
ÍG
35(S ) = ’ E 35\ ,Í ]
ÍG
¿ ¿
1
35(S ) = •7}(S , S ) = E E •7}\ ,Í , ,^ ]
’
ÍG ^G
1
35(S ) = \’ &] + ’ &! ]
’
1 &!
35 S ) = \’ &] + ’ &! ] &] +
’ ’
d) Analice la relevancia del inciso b) para la estimación por mínimos cuadrados
ponderador empleado para observación 6 es el tamaño de la firma, como es

ponderados empleando datos promediados a nivel de las empresas, dando el
costumbre.
Solución
Si se utiliza como ponderador el tamaño de la empresa ’ , se obtendrán

estimadores insesgados y consistentes. Sin embargo, los errores estándar y los
estadísticos de prueba ya no son válidos incluso en muestras grandes. Además
nada asegura que el método de mínimos cuadrados ponderados sea más
eficiente.
Problema 4.23
Se tiene un investigador interesado en el siguiente modelo:

L
+ ,
es un vector de K regresores, las observaciones son iid, [[ | ] = 0 y

[[ | ] = L ž.
Donde
1. Asuma primero que ž es conocido. Muestre que el estimador MCG de se

escribe:
½ ½
1 1
()*U ME L L
N E
ž L
ž
G G
2. De la expresión de la varianza asintótica de ()*U .
3. Muestre que:
½ ½
plim ME L
N E = ž
½→M
G G
Solución
1. Sea:
ž L
… 0
M 0 … 0 N
0 … ½ ž
L
Entonces el estimador MCG de :
½ ½
1 1 1 1
()*U L ) L
M E L L
N E L
- ž - ž
G G
2. La varianza asintótica de ()*U es:
½
1 1 1
plim -( L ) = plim M E L L
N = M[ i L
jN
½→M - ž ž
L
½→M
G
Por la ley de grandes números.
3. La Ley de grandes números implica que:
½ ½
1 1
plim M E L
N E = \[( L
)] [\ ]
½→M - -
G G
Así, como:
[\ ] = [ [\ ã )) = [( L
) ž
De donde se tiene que:
½ ½
1 1
plim M E L
N E = ž
½→M - -
G G
Problema 4.24
Se considera el siguiente modelo clásico de regresión:
[ | )= , 35 | ) = & ¹½
Donde hay regresores y - observaciones.
son agrupados en J grupos de tamaños > ,

. . . , >` , y que solo se observa las medias de y de en los grupos:
Se asume que las observaciones ,
1 1
∗
E , ∗
E ,
@
>@ @
>@
" @ " @
Se construye un vector ∗
de Jx1 y una matriz ∗
de JxK.
1. Muestre que:
[( ∗ | ∗ ∗
, 35 ∗| ∗
& É½
Donde
&
0 0
e> h
d0
É½ d … 0g g
&
0 0
c >` f
Pista: encuentre una matriz € tal que ∗

€ y ∗
€ .
Solución
Se tiene:
∗
€ ∗
€ .
Donde € es una matriz de -:
1 1
… … 0 … 0
e> > h
0 … 0 … 0 … 0
€=d … … … … …g
d… … g
1 1
0 … 0 … …
c >` >` f
Entonces:
+
Donde [( | ) = 0. Por lo tanto: ∗ ∗
+ € ,[( | ∗
[ |€ ) = 0, asi
[(€ | ∗ 0 y:
[( ∗ | ∗ ∗
+ 0.
Así,
35( ∗ | ∗
€ 35 ∗| ∗
€L & É½
2. Muestre que:
` `
()*U £E >@ @ @ ¤
∗ ∗L
E >@ ∗ ∗
@ @
@G @G
Interprete.
Solución
Se tiene.
` `
()*U ∗L
É½ ∗ ∗L
É½ ∗
£E >@ @∗ @∗L ¤ E >@ ∗ ∗
@ @
@G @G
Problema 4.25
Se quiere estimar en el siguiente modelo clásico de regresión,
[( | , 35 | ) = & ¹ ½,
Donde 6 = 1, … ,2- son observaciones individuales.
Desde luego, no se dispone con información a nivel individual. En lugar de eso, se
por dos individuos. Se observa @∗ y @∗ , Ä 1, … , -, los cuales son los valores promedios
observa información tomada a nivel de hogar. Se asume que cada hogar está compuesto
en cada hogar. El tamaño de la muestra - es 1000.
Se regresiona @∗ contra ∗
@ mediante MCO y se usa formula estándar para computar el
error estándar.
∗| ∗
a) Dé el valor de 35 , donde ∗
es un vector de Nx1 compuesto por los ∗
@ y
∗
es una matriz de NxK compuesta por los ( ∗ L
@ , como función de & .
Solución
Se puede escribir para Ä 1, … , -:

1
∗
\ + ],
@
2 ¿(@ ] @
Donde ’(Ä) y (Ä) son hombre y mujer en el hogar Ä.
Del mismo modo:
1
∗
\ + ](@) ],
@
2 ¿(@
Por lo tanto:
∗
€ ∗
€ .
1 1 1 0 0 … 0 0
€ = M0 0 1 1 … 0 0N,
2
0 0 0 0 … 1 1
Y se ordena la data a nivel de hogar. M es una matriz de Nx2N.
Entonces
[( ∗ | ∗ [ [ ∗| | ∗
,
[ €[ | )| ∗
,
[ € | ∗ ,
= [( ∗ | ∗
,
= ∗
Más aun, por la descomposición de la varianza:

∗| ∗ ∗| | ∗| ∗ |
35 35 [ ∗
+[ 35 ∗
,
35( ∗| ∗
35 ∗ | ∗
+[ 35 € | )| ∗
,
35( ∗| ∗
0 + [ € 35 | )€L | ∗
,
35( ∗| ∗
[ €& ¹ ½ €L | ∗
,
35( ∗| ∗
& €€′
Por lo tanto:
1/2 0 0 … 0
0 1/2 0 … 0
35( ∗ | ∗
& ¨ … … 1/2 … … ©
0 0 0 … 1/2
b) ¿Es el modo en el que se ha computado el error estándar correcto?
Solución
Es consistente debido a que el modelo es homocedástico. En un modelo
homocedástico el estimador MCG y el MCO son idénticos.
Problema 4.26
¿Ante la presencia de heterocedasticidad, es el estimador de mínimos cuadrados

generalizados consistente? Sustente su respuesta analítica y matemáticamente.
Solución
Se tiene que el estimador MCG es:
Ω L L
Ω
D)*U L
Ω ) L
Ω + i j
> >
En este punto es necesario considerar cada uno de los términos:

F
( LΩ ) 1 L L
= E → [i j ≡ ÖS ,
> > š(¼ ) š(¼ )
G
F
L
Ω 1
= E →[W Z
> > š(¼ ) š(¼ )
G
Si la última expresión converge a cero y mediante el teorema de Slutsky8 se tiene:
L
Ω L
Ω
D)*U = ( L Ω ) L
Ω + i j → + ÖS 0 =
> >
Con lo cual se tiene que el estimador es consistente. Para que este proceso se pueda dar
es necesario que exista independencia en media condicional de la perturbación del
modelo y los regresores. Un caso más débil surge cuando la varianza del error no
depende de los regresores del modelo. Así, solo será necesario que la correlación entre la
perturbación y las ’s sea nula para obtener la consistencia.
8
El teorema de Slutsky señala que el límite probabilístico de un producto puede ser expresado
Problema 4.27
en efecto el que se debería utilizar cuando no se conoce la matriz Ω, por lo que no se

Derive y compruebe que el estimador de Mínimos Cuadrados Generalizados Factibles es
puede estimar MCG.
Solución
Los dos estimadores que se tienen son:
D)*U = ( L Ω ) L
Ω
D)*UÙ «
\ LΩ ] L«
Ω
nula. Debe de notarse que lo que en realidad se necesita es un estimador de ?n . Así,

Entonces lo que se necesita es comprobar que la diferencia asintótica entre ambos sea
debe de notarse que:
L
? L
?
√> D)*U i j
> √>
L
?n L
√>(D)*UÙ − ) = i j
> √>
Donde D)*UÙ tendrá la misma distribución asintótica que D)*U , es decir serán
asintóticamente equivalente si se cumple que:
L
? L
?n
− →0
> >
L
? L
?n
− →0
√> √>
å iE_
F
La primera expresión no hace sino asegurar que pueda ser efectivamente
« E_
reeplazada cuando > tienda a infinito por
åi
F
. Por otro lado, la segunda expresión
« E_ "
puede ser reemplazado por
å iE_ " åi
√F √F
implica que en el límite .
4.2 Autocorrelación
Problema 4.28
En el caso de autocorrelación, ¿cómo es la matriz de errores?
Solución
Asumiendo que el error es un proceso autorregresivo AR(1):

? ? + ?
? × ? + ?; donde ? ∼ -(0; &‹
Si se expresa el error únicamente en función de ? y sus rezagos:

Y
? = E ×… ? …
?G
La varianza del error será
&‹
}35( ? ) =
1−×
Mientras que la covarianza es
&‹
<7}( ? ; ×ç
? ç
1−×
Tomando esto en cuenta, la matriz de varianzas covarianzas es:
1 × ⋯ ×½
× 1 ⋯ ×½ ï
Ω=ê ⋮
⋮ ⋱ ⋮
×½ ×½ ⋯ 1
Problema 4.29
¿Cómo se detecta la autocorrelación?
Solución
Para detectar la autocorrelación, existen varias pruebas. Primero, se puede utilizar el

estadístico Durbin Watson. Esta prueba sólo permite ver autocorrelación de primer orden.
Si el valor de su estadístico es cercano a 2; quiere decir que no hay autocorrelación;
mientras que si es cercano a 0 ó 4 indica que la correlación es cercana a 1 y -1
respectivamente.
Otra prueba muy utilizada es la de Breusch Godfrey. Esta prueba consiste en regresionar
el error sobre sus “p” propios rezagos:
? = ž‚ + ž ? + ⋯ + ž“ ? “ + + $?
Se obtiene el Õ de este modelo auxiliar. La hipótesis nula es que todos los coeficientes ž
-Õ ~ (“) . Si el ajuste de la regresión es alto, quiere decir que, en efecto, el error depende
sean cero; lo cual implica que el error es un ruido blanco. El estadístico de la prueba es
de sus rezagos; por lo que se rechaza la nula afirmando que existe autocorrelación de
orden p.
Finalmente, se podría utilizar el correlograma y aplicar la prueba de Ljung-Box; la cual
consiste evalúa de manera secuencial el orden de la autocorrelación.
Problema 4.30
¿Cómo se corrige la autocorrelación?
Solución
Para corregirla, se transforma el modelo. La corrección en caso de errores tipo AR(1)

vendría dada por realizar la primera cuasidiferencia del modelo. Es decir, si se cuenta con
el siguiente modelo:
? ? + ?
? × ? + ?; donde ? ∼ -(0; &‹
La transformación consiste en:
? × ? ? −× ? ) + ? × ?
? × ? ? −× ? ) + ?
Donde ahora el nuevo error si cumple las propiedades del MLG.
Si se conoce el valor de ×, simplemente se realiza la transformación anterior para corregir

el problema. No obstante, si no se conoce ×, se debe estimarlo. Para ello, se utiliza el
proceso iterativo de Cochrane y Orcutt.
2. Luego, se corre la siguiente regresión de los errores: ? = × ? + ? ; obteniendo el

1. Primero se estima el modelo original y se recogen los errores.
estimado de ×.
4. Con las variables transformadas, se estima: ? × ? ? − × ? ) + ? y se

3. Se transforman las variables realizando la primera cuasidiferencia del modelo.
5. Se repiten los pasos 2 al 4 hasta que el estimado de × converja a un valor.

recogen los errores.
6. Finalmente, se utiliza este valor estimado al cual convergió × para transformar el

modelo.
Problema 4.31
Se tiene una base de series de tiempo que contiene las variables Y, X1 y X2. Se le pide
que corra una regresión entre las mismas, donde Y es la variable dependiente y analice
los residuos de dicha regresión. En particular se quiere determinar si dichos residuos
presentan autocorrelación o no. Analice e intérprete de manera particular el estadístico de
Durbin-Watson, el correlograma de los residuos así como el estadístico de Ljung-Box.
Dependent Variable: Y
Method: LeastSquares
Date: 04/02/13 Time: 16:08
Sample: 1 100
Includedobservations: 100
Variable Coefficient Std. Error t-Statistic Prob.
X1 0.983077 0.142248 6.910984 0.0000
X2 0.288391 0.148700 1.939414 0.0553
-
R-squared 0.353531 Mean dependentvar 0.023485
Adjusted R-squared 0.346935 S.D. dependentvar 1.625539
S.E. of regression 1.313638 Akaikeinfocriterion 3.403275
Sum squaredresid 169.1131 Schwarzcriterion 3.455378
Log likelihood -168.1637 Hannan-Quinncriter. 3.424362
Durbin-Watson stat 0.753684

Solución
Es necesario analizar el comportamiento de los residuos. Para ello, se puede ver los
siguientes estadísticos
• Durbin Watson: É = 2(1 − ×). En este caso, el É se encuentra “cercano a 0”,

por lo cual podría afirmar que hay autocorrelación de primer orden.
• Estadístico de Ljung-Box y Correlograma.
nota que, en el primer rezago existe un estadístico Ö alto. Esto indica que los residuos
Analizando el correlograma (ver que el partialcorrelation o correlación parcial –PAC-) se
el PAC que el valor de × sería 0.620. Si se observa la probabilidad de aceptar el

tienen un componente de autocorrelación de primer orden. Más aún se puede ver viendo
estadístico Ö, también se concluye la existencia de autocorrelación de primer orden.
Problema 4.32
Un investigador está modelando la variable Y en función de una constante y una variable

explicativa X1 en una serie de tiempo. Los resultados de la ecuación se muestran a
continuación:
Method: Least Squares
Sample: 1 1000
Included observations: 1000
C 3.171182 0.185139 17.12862 0.0000
X1 0.802400 0.015583 51.49123 0.0000
R-squared 0.726526 Mean dependent var 11.25118
Adjusted R-squared 0.726252 S.D. dependent var 5.938133
S.E. of regression 3.106884 Akaike info criterion 5.107116
Sum squared resid 9633.425 Schwarz criterion 5.116931
Log likelihood -2551.558 F-statistic 2651.346
Durbin-Watson stat 1.913092 Prob(F-statistic) 0.000000
Se corrieron una serie de pruebas porque se sabe que un modelo de serie de

tiempo puede tener varios problemas.
12
-4
-8
-12
250 500 750 1000
Recursive Residuals ± 2 S.E.

F-statistic 665.3110 Probability 0.000000
Obs*R-squared 571.9115 Probability 0.000000
Test Equation:
Dependent Variable: RESID
Date: 06/11/11 Time: 15:04
Presample missing value lagged residuals set to zero.
Coefficie
Variable nt Std. Error t-Statistic Prob.
-
C 0.046787 0.121288 -0.385753 0.6998
X1 0.004669 0.010210 0.457280 0.6476
RESID(-1) 0.010282 0.020758 0.495304 0.6205
RESID(-2) 0.755877 0.020756 36.41760 0.0000
R-squared 0.571912 Mean dependent var 8.56E-16
Adjusted R-squared 0.570622 S.D. dependent var 3.105329
S.E. of regression 2.034827 Akaike info criterion 4.262690
Sum squared resid 4123.958 Schwarz criterion 4.282321

-
Log likelihood 2127.345 F-statistic 443.5406
Durbin-Watson stat 1.900573 Prob(F-statistic) 0.000000
a) Indicar qué tipos de problemas podría presentar una estimación de serie de

tiempo (problemas más comunes en series de tiempo).
Solución
El problema más común existente en series de tiempo es autocorrelación dado

que es muy común que los shocks en un periodo todavía tengan repercusión en
los siguientes. Asimismo, otro problema común podría ser el de quiebre
estructural, justamente por la presencia de shocks sistemáticos que cambien el
modelo poblacional.
b) ¿Qué problemas se encuentran en las pruebas mostradas anteriormente?
Solución
El problema que se encuentra es claramente de autocorrelación. Ahora, para

determinar si es de primer orden, se puede ver el Durbin-Watson presentado.
Se ve que es muy cercano a dos (1.9); por lo que, se concluye que no hay
autocorrelación de primer orden. Ahora, viendo el correlograma, se sospecha
que existe autocorrelación de segundo orden. Estas sospechas se ven
corroboradas al realizar el test de Breusch-Godfrey y se rechaza la hipótesis
nula de que no hay autocorrelación de hasta orden 2.
Luego de corregir el modelo anterior, corrió la siguiente prueba:

c) ¿Se corrigió el problema? ¿Qué puede haber hecho el investigador para
corregirlo?
Solución
Por los resultados mostrados, parece ser que sí se ha corregido el problema.

Dado que el correlograma ya no presenta ningún barra que sobrepase el
intervalo crítico. Lo que pudo haber hecho para corregirlo es haber tomado la
segunda cuasi-diferencia del modelo; previamente estimando el valor de rho
vía Cochrane-Orcutt (dado que no se conoce su verdadero valor).
Problema 4.33
El estimador MCGF es el mejor estimador lineal insesgado en caso de que haya

autocorrelación.
Solución
Verdadero. Dado que MCGF transforma el modelo tal que la matriz de varianzas y
covarianzas del modelo transformado sea escalar, lo que hace que posea la mínima
varianza al compararlo con cualquier otro estimador lineal insesgado aplicado sobre el
modelo transformado. Por tanto, MCGF es MELI.
Problema 4.34
En la práctica, la corrección del problema de autocorrelación no requiere de la estimación

de la matriz de varianzas-covarianzas del error (Ω). De hecho, y en lugar de utilizar el
estimador de mínimos cuadrados generalizados, para el trabajo empírico se recomienda
utilizar el estimador de mínimos cuadrados ordinarios sobre la primera diferencia del
modelo. Esto último responde al hecho de que el estimador de mínimos cuadrados
ordinarios retiene la propiedad de consistencia.
Solución
errores, se debe realizar la primera cuasi-diferencia del modelo; es decir, restarle × por el
No necesariamente. Para corregir la autocorrelación, asumiendo un AR(1) para los
primer rezago. Si se conoce el ×, entonces la corrección es simple. Si no se conoce, se

debe estimar (lo cual equivale a estimar Ω); para lo cual aplica el método iterativo de
MCGF. El comente sería cierto sólo si el × obtenido (ya sea conocido o calculado por
Cochrane y Orcutt. Una vez calculado, se realiza la primera cuasi-diferencia. Esto es
MCGF) es igual a 1.
Problema 4.35
Dos investigadores están discutiendo los resultados de una estimación que acaban de
hacer con series de tiempo. El primero de ellos dice que como el Durbin Watson es
cercano a 2, entonces pueden estar tranquilos porque su ecuación no tiene problemas de
autocorrelación; sin embargo el segundo investigador no está convencido y cree que
deben hacer más pruebas. ¿Qué deberían hacer?
Solución
Ambas no deberían estar completamente seguras dado que el Durbin Watson sólo mide
autocorrelación de primer orden en el error; es decir, que el error sea AR(1). Para ver
autocorrelacion de mayor orden, deben realizar pruebas adicionales como la de Breusch-
Godfrey o ver el correlograma de Box-Pierce.
Problema 4.36
Un investigador halla la relación existente entre una variable dependiente (Y) y un

conjunto de regresores (X1 y X2). Para esto, se plantea la regresión:
Dada la evidencia mostrada en la regresión anterior, ¿se puede afirmar que el estimador
es eficiente? Ante esto, se plantea aplicar el procedimiento iterativo de Cochrane-Orcutt y
transformar las variables involucradas en su modelo utilizando el resultado de este
procedimiento.
Se decide llamar “..._STAR” a las variables transformadas y se obtiene:

Sin embargo, surgen dos cuestionamientos a estimación por parte de un investigador
independiente:
• “No creo que los estimados obtenidos en esta segunda regresión correspondan a
los que interesa estimar en primera instancia dado que estás trabajando con
transformaciones de las variables originales. Además, no veo qué ventaja hay en
utilizar las dos pendientes estimadas en esta segunda regresión en lugar de las
obtenidas en el primer modelo.”
• “En lugar de usar este segundo modelo, me parece que sería mejor usar el
siguiente.”
a) Responder la primera observación. Para reforzar el argumento, se debe mostrar
analíticamente si el investigador independiente está o no en lo cierto respecto a la
primera parte de su primer su comentario.
Solución
En primer lugar, los ’s obtenidas sí son los mismos:
= +
Multiplicando el modelo por la matriz ¶:
¶ ¶ +¶
∗ ∗
+$
Se puede apreciar que el no ha cambiado al transformar las variables; por lo que

se siguen conservando los efectos que se desea estimar. Con respecto a su
segunda observación, lo que se gana transformando el modelo es que ahora el
estimador obtenido (por MCG) es eficiente; mientras que el de nuestra primera
estimación no lo era.
b) Muestra, analíticamente, si es que existe alguna correspondencia entre el segundo

modelo de nuestro investigador y el que le sugiere su compañero. ¿Qué implica la
utilización del primero?
Solución
Investigador independiente
? ž‚ + ž ? +ž ? +ž ,? + žs ,? + žu ,? + $?
Investigador:
? × ? ‚ 1 − ×) + \ ? −× ,? ]+ \ ? −× ,? ]+ ?
? ‚ 1 − ×) + × ? + ? − × ,? + ? − × ,? + ?
Las relaciones entre ambos modelos son:
‚ 1 − ×) = ž‚ ; × ž ; ž ; žs ; ž ×; žu ×
c) Construir y analizar los resultados asociados a una prueba de hipótesis que

permita saber si es o no cierto que conviene utilizar el modelo sugerido por el
compañero y descartar el propuesto por nuestro investigador. Parte de los
insumos que se necesitan para esta prueba son los siguientes (los demás están
dados en las regresiones del enunciado):
0 Ø̂ Ø̂ 1 0 0
• W Z
0 Ø̂s 0 0 Ø̂ 1
129.7305 −159.1379
•[ 35(Ø̂)]• L = b f
−159.1379 6725.706
Ìu%, 5.99
Donde Ø̂ se refiere al vector de coeficientes estimados del modelo propuesto por el

compañero: Ø̂ Ø̂‚ … Ø̂u. Sobre la base de los resultados ¿se debería descartar el
segundo modelo planteado por el investigador?
Solución
Las hipótesis relevantes en este caso son: ž × 0 y žu − × = 0. Como son

pruebas no lineales, se debe utilizar la prueba de Wald.
Sin embargo, antes se reemplaza para dejarlo en función de los alfas (del modelo
Reemplazando, se obtiene: ž + ž ž 0 y žu + ž žs 0.
del compañero) dado que la inferencia se realiza sobre el mismo modelo.
El estadístico de Wald es:
= [Õ( )]′ • 35 L
Õ ~ (Ä)
Ya se cuenta con la matriz de varianzas y covarianzas; por lo que falta R(D). Esta
matriz contiene a las hipótesis no lineales. En este caso, es de la forma:
ž +ž ž
Õ(ž) = `ž + ž ž a
u s
Para obtener esta matriz, simplemente se reemplaza los valores estimados del
modelo del compañero; de acuerdo con los parámetros que se han colocado en la
parte b). La matriz C mostrada arriba es simplemente la derivada de R( ) con
respecto a B; que sirve para hallar la matriz de varianzas y covarianzas.
Armando la prueba de Wald y reemplazando los valores estimados, se obtiene que

el estadístico es:
0.00001446 < 5.99
Se ve que es menor al crítico; por lo que se aceptan las hipótesis nulas; es decir,
se acepta la hipótesis de que ambos modelos son equivalentes. De manera
adicional se podrían realizar las demás hipótesis, utilizando simples pruebas T
para verificar si son iguales.
Problema 4.37
Un investigador se encuentra con el siguiente modelo:
? ? + ?
? × ? + ?
? = ž ? + }?
}? ∼ - 0; &!
Donde |ž| < 1 y |×| < 1 .
a. El investigador, intrigado por los problemas que podría presentar el modelo
4.5; × 0.4; ž 0.5 y &! = 1.

anterior, decidió generar una base de datos en Eviews y correr las siguientes
regresiones, usando los siguientes valores:
Regresión 1:
Sample: 1 1000
Included observations: 1000
X 4.496773 0.050037 90.06913 0.0000
-
Regresión 2:
Dependent Variable: Y_STAR
Sample (adjusted): 2 1000
Includedobservations: 999 afteradjustments

X_STAR 4.515391 0.033934 133.9476 0.0000
-
Regresión 3:
Dependent Variable: Y_STAR_1
Sample (adjusted): 2 1000
Includedobservations: 999 afteradjustments
X_STAR_1 4.532040 0.024608 184.9794 0.0000
-
Sum squaredresid 1093.249 Schwarz criterion 2.934945
Log likelihood -1462.552 Hannan-Quinn criter. 2.931900

Donde
jY = −× ? ?
=
? × ?
= ? − (× + ž
jY
_ ?
= ? ×+ž
jY
jY _ ?
A partir de lo anterior, ¿alguno de los modelos anteriores corrige el problema?

¿Por qué? De no ser el caso, indique cuál debería ser la transformación
apropiada al modelo.
Solución
Ninguna de las tres especificaciones es la correcta. La verdadera

transformación del modelo vendría dada por:
jY _ = ? − (× + ž ? + ×ž ?
jY _ = ? ×+ž ? + ×ž ?
Si primero se corrige para ?:
? ž ? × ? ž ? + }?
Luego, corrigiendo de nuevo para el modelo de interés; se obtiene:
? ×+ž ? + ×ž ? ? − (× + ž ? + ×ž ? ) + }?
Las dos primeras especificaciones no corrigen bien; basta ver el Durbin

Watson. La tercera sí corrige bien la autocorrelación de primer orden (DW
cercano a 2); no obstante, no toma en cuenta en absoluto que existe
autocorrelación de segundo orden; por lo que esta transformación no produce
los resultados más eficientes.
rezagada; es decir, ? = ? ¿Existiría algún problema adicional con respecto

b. Considere ahora que su variable explicativa es la variable dependiente
al caso anterior? Explique claramente por qué se daría esta complicación.
Solución
Dado que ahora el modelo original también es autorregresivo, el estimado será

inconsistente ya que en este caso habrá correlación contemporánea entre la
explicativa y el error. Tanto la dependiente rezagada (que ahora es la
explicativa) como el error dependen de sus valores pasados; lo cual implica
que exista una correlación entre ambos.
5. Endogeneidad
Problema 5.1
Considere el estimador de variables instrumentales (VI): βnkl « L X] X

\X «LY
a) Demuestra que si la matriz de instrumentos contiene tantos “instrumentos nuevos”

como el número de regresores estocásticos, el estimador puede expresarse de la
forma:
(gÚ »′ ) »′
Solución
Sea n = ¶Â , es decir, la variación de inducida por los instrumentos » (al tener

tantos “instrumentos nuevos” como numero de regresores estocásticos) y ¶Â =
»(» L ») »′ la demostración es directa.
(gÚ \ nL ] nL
(gÚ L
¶Â ) L
¶Â
(gÚ = ( L »(» L ») »′ ) L
»(» L ») »′
(gÚ » L ) » L »( L ») ( L »)(» L ») »′
(gÚ »′ ) »′
b) Demuestra que: ‘46’ ( . Se deberá ser explícito en cuanto a las Leyes de

Grandes Números y teoremas utilizados. Explica qué significa y por qué es
importante este resultado.
Solución
(gÚ »′ ) »′
(gÚ »′ ) »L( +
(gÚ + »′ ) »L
‘46’ (gÚ ‘46’ + »L ) »L ]

Por el Teorema de Slutsky9 es posible expresar el límite en probabilidad de una
función como la función de los límites en probabilidad.
‘46’ (gÚ ‘46’ + ‘46’ » L ) » L
1 1 L
‘46’ (gÚ + ‘46’ W » L Z »
> >
muestrales tienden a expectativas conforme n crece. Así, el segundo término de

El Teorema de Khinchine10 sostiene que en una muestra aleatoria, promedio
la derecha puede ser re-expresado:
‘46’ (gÚ + (» L ) (» L )
contemporánea con el término de error, entonces (» L ) = 0 y el segundo termino

Y dado que por definición la matriz de instrumentos carece de correlación
consistencia de (gÚ .
de la derecha tiende en probabilidad a cero. Con ello, se demuestra la
‘46’ (gÚ
Problema 5.2
Considera los siguientes modelos:
ù3D646:3: ;: < + ¼ L Ø +
Õ;>:6’;>è7 5;>:‘57’ + L Ø + $
i.
Á7rq343567 ;: <‘57’ + ® L Ø + X
ii.
iii.
En el primero, se busca encontrar el efecto de la educación formal sobre la habilidad

cognitiva. En el segundo, el objetivo es evaluar si el rendimiento promedio del salón de
clase al que pertenece el estudiante tiene algún efecto sobre su rendimiento (conocido
como peer-effect). En el tercero, el objetivo es determinar si existen externalidades a la
educación (y se propone regresionar el logaritmo del ingreso laboral sobre los años de
educación promedio en la localidad donde reside el individuo).
a) Discute los potenciales problemas de endogeneidad que podrían impedir la

obtención de un estimado consistente de β en estas regresiones. Nota que, de
ser el caso, tu respuesta pasa por discutir los posibles controles incluidos en la
regresión.
9
El teorema de Slutsky señala que el límite probabilístico de un producto puede ser expresado
10 Ley Débil de Grandes Números.
Solución
i) En esta ecuación existe básicamente problemas de endogeneidad por

causalidad bidireccional y por heterogeneidad no observada (al margen
de la inconsistencia que resulta de la probable presencia de error de
medida en la proxy de habilidad). En primer lugar, si bien alguien con mas
educación puede haber desarrollado sus habilidades, es probable que la
persona haya podido lograr concluir dichos años de educación realmente
porque tenia (inicialmente) un nivel de habilidades mayor. El problema se
reduce al segundo tema que es la heterogeneidad no observada. Si bien
la habilidad medida en cierto momento depende de la habilidad innata
(latente), los años de educación también dependen de esta habilidad
latente: por ello, la endogeneidad.
ii) En esta ecuación el regresor “rendimiento promedio del aula” es un

regresor estocástico ya que es probable que existan factores no
observables que afecten el rendimiento del niño analizado (y, por tanto,
estén en el término de error de la ecuación) que también influyan en el
rendimiento de los compañeros de clase (correlación con X).
Características del docente, de la infraestructura y cambios en el aula
(donde se desenvuelven todos los niños del aula) podrían ser algunos de
estos factores.
iii) De manera similar a las anteriores, se trata de un problema de

heterogeneidad no observada. Es probable que existan características
comunes al área donde reside el individuo analizado que influyen en su
salario, pero, también, a los años de educación que pudiera alcanzar
cualquier persona que resida también ahí. Un ejemplo es el nivel socio
económico. Es probable que una persona que vive en un distrito con un
nivel socio económico promedio alto, tenga un salario alto por ello mismo
y, también, sea un motivo para que las personas en dicha zona obtengan
grados educativos altos.
b) Considera ahora los siguientes instrumentos propuestos, respectivamente,

para cada uno de los tres regresores de interés.
• Importancia dada por los padres a la educación del individuo durante la

secundaria.
• Número de hermanos promedio que tienen los alumnos del salón.
• Nivel de escolaridad en la misma localidad hace dos décadas.
Evalúa cada uno de estos instrumentos.
Un instrumento idóneo debe satisfacer las restricciones de exclusion y

relevancia. Es decir, no debe estar correlacionado con el error, pero si con el
regresor a ser instrumentalizado; influir en la variable dependiente solo a través
de su impacto en la variable instrumentalizada.
Solución
i) Este instrumento cumple con la restricción d relevancia en tanto es

razonable que una mayor importancia por parte de los padres hacia la
educación del individuo durante la secundaria conllevará a que el niño sea
capaz de cursar una mayor cantidad de años de educación. Respecto a la
condición de exclusión, esta se satisface siempre que se tenga una proxy
adecuada de esta importancia. No habría problemas por ejemplo de NSE,
porque el NSE afecta la habilidad del niño básicamente a través de la
importancia que le den los padres al niño. Una posibilidad sería el hecho de
que tu habilidad innata (inobservable) estuviera condicionando el interés
que tus padres tengan (que se preocupen más porque parecías ser menos
hábil). Pero en caso este interés sea exógeno al niño, si se cumpliría la
restricción de exclusión.
ii) Este es un buen instrumento. El número de hermanos promedio de los

alumnos del salón (en principio) podría influir en el rendimiento del alumno
en cuestión solo a través del impacto que tuviera en el rendimiento de los
demás alumnos del salón.
iii) Este podría satisfacer la restricción de exclusión (no correlacion con el

error) pero probablemente no la de relevancia; por temas de migración y
desarrollo de las ciudades es posible (aunque puede ser defendible,
depende del caso) que el nivel de escolaridad de hace dos décadas no
tenga relación con el nivel de escolaridad actual, ergo, menos en el ingreso
actual de un individuo de dicha zona.
Problema 5.3
Considere un modelo donde se pretende explicar el rendimiento escolar a partir del

rendimiento promedio del aula al que pertenece el estudiante, y otras variables de control.
Suponga que este rendimiento promedio se construye sin incluir la nota correspondiente
al alumno en cuestión.
a. Plantee la expresión matemática para este modelo, indique la forma que tiene el
estimador MCO, halle su límite en probabilidad, e indique por qué es que éste
podría diferir del parámetro.
Solución
Õ ,@ = ž‚ + ž Õ‘57’@ + ž » ,@ + ,@
ž − ž̂ L ) L
‘46’ ž ž̂ [( L )] [ L
]
En este caso ‘46’ ž ž̂ ≠ 0 ya que [ L ] l 0; es decir, se rompe el supuesto
de ausencia de correlación contemporánea entre los regresores y el error. Es
sencillo pensar en factores no observables que influyen tanto en el rendimiento de
un alumno y del rendimiento promedio de sus compañeros de aula. Aun cuando la
nota del propio alumno no esté incluida en dicho promedio, cualquier variable que
capture características del entorno (del aula), de los docentes a cargo del aula, etc.
influyen tanto en el alumno en cuestión como en sus compañeros de aula. Ello se
traduce en correlación contemporánea entre el regresor y el término de error de la
ecuación.
b. Suponga ahora que se desea instrumentalizar la variable “rendimiento promedio”.

Explica el rol que debe cumplir el instrumento en el contexto específico de la
pregunta. Proponer un instrumento.
Solución
Un instrumento que permita estimar consistentemente el efecto del rendimiento

promedio en el rendimiento de un alumno (el impacto del peer effect) debería
cumplir con que solo impacta en el rendimiento del niño a través del impacto que
tiene en el rendimiento de sus compañeros. Es decir, que impacte en el
rendimiento de los compañeros y que no impacte, de manera directa, al
rendimiento del alumno en cuestión.
Candidatos a instrumento podrían ser características promedio de los hogares de

los compañeros. Por ejemplo, el orden de nacimiento promedio de los
compañeros, un índice de recursos educativos promedio en los hogares de los
compañeros, etc. Estos, si bien influyen directamente en el rendimiento promedio
de los compañeros de aula, no deberían tener impacto directo en el rendimiento de
algún niño que no sea quien conforma el hogar.
c. Otro investigador pretende agregar un regresor que identifique si es que el niño

cuenta con un hermano que le ayude con las tareas. ¿Cabe sospechar
endogeneidad en este regresor? ¿Por qué? ¿Qué instrumento propondrías?
Solución
El utilizar dicha variable como regresor adicional implica endogeneidad ya que

conlleva el problema de causalidad bidireccional. Por un lado, es posible que el
que el niño tenga un hermano que le ayude genere una mejora en su rendimiento.
Por el otro, es posible que el hermano lo ayude justamente porque no está
desempeñándose de manera satisfactoria en la escuela (además del hecho de que
los rendimientos del alumno y del hermano están afectados por características
inobservables en común).
Un instrumento para el regresor propuesto podría ser el número de horas

académicas que recibe (en la escuela) el hermano del alumno.
Problema 5.4
El gobierno ha aprobado la implementación de un programa de ayuda social en la Sierra.

Este programa, denominado Canasta, consiste en entregar transferencias a las madres
pobres de Tatooine para mejorar la nutrición de sus hijos.
Para acceder a este programa, el único requisito es que algún miembro de la familia se
presente físicamente en alguna agencia del Gobierno, haga la solicitud de participar en el
programa y demuestre su condición de pobreza. Sabe además que el sistema para
determinar si un individuo es pobre no presenta fallas; es decir, no hay gente que se
pueda hacer pasar como pobre para recibir el programa si no lo es realmente.
Después de algunos años de mantener este programa, el Gobierno comenzó a

cuestionarse acerca de su efectividad, por lo que decidió llevar a cabo una evaluación de
la estatura de los niños por edad. Así, se corrió una regresión de la variable š3_><š2
impacto. Como el objetivo del programa es la nutrición, se eligió como medida de impacto
(variable que mide la diferencia entre la altura de un niño de x años y la altura que debería
tener a esa edad, en desviaciones estándar) sobre una dummy (D) que toma el valor de 1
si el individuo recibió el programa y 0 de otro modo; y otros controles relevantes. A
continuación se presentan los resultados de esta regresión.
Regresión MCO de op_qros sobre dummy de tratamiento y controles
Source SS df MS Number of obs = 4000

F( 6, 3993) = 39.49
Model 68.9063178 6 11.4843863 Prob > F = 0.0000
Residual 1161.23317 3993 .290817222 R-squared = 0.0560
Total 1230.13949 3999 .307611775 Root MSE = .53927
ha_nchs Coef. Std. Err. t P>|t| [95% Conf. Interval]
D .2489481 .0171935 14.48 0.000 .2152392 .282657

personas -.0093891 .004544 -2.07 0.039 -.018298 -.0004802
orden_n -.0632222 .0263134 -2.40 0.016 -.1148111 -.0116333
ocupado_jefe -.0364222 .0223229 -1.63 0.103 -.0801875 .0073431
educa_jefe .005974 .002325 2.57 0.010 .0014157 .0105322
ingresos_hogar_jefe .0001628 .000101 1.61 0.107 -.0000353 .0003609
_cons -.0840199 .0452452 -1.86 0.063 -.1727257 .004686
a. ¿Considera que el coeficiente asociado a la variable D es un estimador

consistente del efecto del programa Canasta? ¿Por qué? Mencione claramente
los problemas que presenta esta regresión y que podrían afectar a la
consistencia del estimador.
Para medir el impacto del programa, se decidió hacer una regresión en 2

etapas, utilizando dos instrumentos: número de oficinas operadoras del
programa en el municipio de residencia y la distancia desde el hogar de la
familia hasta la oficina administradora más cercana. Además, los encargados
de la evaluación decidieron hacer un test de Hausman para evaluar si el
procedimiento realizado era el correcto. A continuación se presentan sus
resultados:
Regresión en dos etapas

First-stage regressions
Number of obs = 4000

F( 7, 3992) = 27.95
Prob > F = 0.0000
R-squared = 0.0467
Root MSE = 0.4885
D Coef. Std. Err. t P>|t| [95% Conf. Interval]
personas -.0213117 .0041031 -5.19 0.000 -.029356 -.0132673

orden_n .0972524 .0238059 4.09 0.000 .0505796 .1439253
ocupado_jefe .0753753 .0201885 3.73 0.000 .0357946 .1149561
educa_jefe -.0057376 .0021042 -2.73 0.006 -.0098631 -.0016121
ingresos_hogar_jefe .0003076 .0000914 3.37 0.001 .0001284 .0004868
distancia -.0000487 6.92e-06 -7.05 0.000 -.0000623 -.0000352
of_op .0332178 .0037605 8.83 0.000 .0258451 .0405905
_cons .4527444 .0438179 10.33 0.000 .3668368 .538652
Test de Hausman
Instrumental variables (2SLS) regression Number of obs = 4000
Wald chi2(6) = 32.03
Prob > chi2 = 0.0000
R-squared = 0.0548
Root MSE = .53914
ha_nchs Coef. Std. Err. z P>|z| [95% Conf. Interval]
D .2102978 .0967891 2.17 0.030 .0205946 .400001

personas -.0102136 .0049767 -2.05 0.040 -.0199678 -.0004595
orden_n -.0597519 .0276622 -2.16 0.031 -.1139689 -.0055349
ocupado_jefe -.0333079 .0236003 -1.41 0.158 -.0795636 .0129479
educa_jefe .0057464 .0023911 2.40 0.016 .00106 .0104329
ingresos_hogar_jefe .0001744 .000105 1.66 0.097 -.0000313 .0003801
_cons -.0667076 .0621803 -1.07 0.283 -.1885789 .0551636
Coefficients
(b) (B) (b-B) sqrt(diag(V_b-V_B))
iv mco Difference S.E.
D .2102978 .2489481 -.0386503 .0952498

personas -.0102136 -.0093891 -.0008245 .0020295
orden_n -.0597519 -.0632222 .0034703 .0085326
ocupado_jefe -.0333079 -.0364222 .0031143 .0076592
educa_jefe .0057464 .005974 -.0002275 .0005584
ingresos_h~e .0001744 .0001628 .0000116 .0000285
b = consistent under Ho and Ha; obtained from ivregress

B = inconsistent under Ha, efficient under Ho; obtained from regress
Test: Ho: difference in coefficients not systematic
chi2(5) = (b-B)'[(V_b-V_B)^(-1)](b-B)
= 0.16
Prob>chi2 = 0.9994
(V_b-V_B is not positive definite)
Solución
Asumiendo que la especificación del modelo es correcta, el principal problema

de endogeneidad es que la muestra no es aleatoria. En efecto, para participar
en el programa es necesario que las personas vayan a registrarse; es decir hay
un costo de participación. Por tanto, sólo participaran aquellas familias cuyo
beneficio supere este costo. El problema es que puede ocurrir que este grupo
de familias sea sistemáticamente distinto; por ejemplo, puede ocurrir que las
madres que vayan a registrarse tengan mayor motivación. Esta característica
no solo afecta la participación en el programa; sino también la crianza del niño,
y, por tanto, su estado nutricional (talla y peso). Es decir, hay endogeneidad. Al
problema de que la muestra no sea aleatoria se le denomina sesgo de
selección.
b. Discuta la validez de los instrumentos propuestos por el investigador, y a partir

de la información presentada, determine si el coeficiente de “D” en la regresión
en dos etapas es un estimador consistente del efecto del programa Canasta
Espacial.
Solución
Es factible pensar que ambos sean buenos instrumentos. En primer lugar, la

distancia así como el número de oficinas administrativas parecen cumplir con la
propiedad de relevancia. Tomando en cuenta cómo es el costo de participación,
a medida que sea menor la distancia y haya más oficinas; es más probable que
la familia participe en el programa. Asimismo, también parece cumplir la
exogeneidad ya que es poco probable que estas variables estén
correlacionadas con características no observables de la madre. Además,
ambos instrumentos no afectan directamente la talla por edad; sólo lo haría a
través de la participación en el programa.
Problema 5.5
Antes de construir el estimador de variables instrumentales, resulta conveniente aplicar la

prueba de Haussman. Ésta ayudará a determinar si es que existe o no correlación
contemporánea entre los regresores y el error del modelo.
Solución
El test de Haussman permite evaluar la presencia de correlación contemporánea entre los

regresores y el modelo, dado un conjunto de instrumentos propuesto ex-ante. Es decir, si
Haussman rechazara que el DÚg sea consistente y D)*+ no lo sea. La prueba indicaría
la matriz de instrumentos propuesta sigue sin ser exógena (por ejemplo), el test de
que ambos son igual de inconsistentes (lo cual podría confundirse con que no existe
problema de endogeneidad, es decir, con que no existe correlación contemporánea entre
los regresores y el error del modelo).
Problema 5.6
De aceptarse la hipótesis nula del test de Haussman, puede concluirse que tanto el
estimador de mínimos cuadrados ordinarios como el de variables instrumentales son
igualmente consistentes. Por lo mismo, esto será evidencia a favor del hecho de que se
ha elegido un buen conjunto de instrumentos.
Solución
Falso. El test de Haussman es una prueba de Wald que contrasta si dos estimadores son
asintóticamente equivalentes. Intenta comparar las propiedades del estimador MCO y del
estimador VI (generalizado) bajo homocedasticidad.
ù‚ : + , ~ 66: 0, & ¹F ) <7> ( L )=0
ù: + , ~ 66: 0, & ¹F ) <7> (» L ) = 0
Bajo ù‚ tanto D)*+ como bkl son consistentes. Sin embargo, D)*+ es más eficiente (seria
bajo la ù , bkl preserva la consistencia mientras que bt0u se torna inconsistente. No

el MELI); por lo tanto, de aceptarse la hipótesis nula, debería ser el elegido. En contraste,
obstante, la prueba de Haussman parte del supuesto de que los instrumentos utilizados
previamente son buenos; es decir, son tanto relevantes (alta correlación con la variable
endógena) como exógenos (correlación de cero con el error).
Al evaluar la diferencia asintótica entre ambos estimadores, es posible que ambos sean
igual de inconsistentes lo cual podría sugerir (erróneamente) que se estarían utilizando
un conjunto inadecuado de instrumentos (ya que VI no representa una ganancia respecto
a MCO).
Problema 5.7
Un alumno le dice que a otro que bajo ningún motivo el (jv será igual al ( , el estimador
MCO ecuación por ecuación. El otro alumno, preocupado por tal afirmación contesta
rápidamente que estos dos estimadores serán iguales solo cuando los regresores sean
iguales. Comente y demuestre de ser el caso si alguno de ellos tiene razón.
Solución
La solución de este ejercicio pasa por contar como dos los casos en los cuales ambos
estimadores son iguales.
Caso 1: perturbaciones no correlacionadas
Cuando las ecuaciones aparentemente relacionadas en verdad no lo están entonces el

estimador MCO es el MELI. Las correlaciones entre las ecuaciones eran lo que
justamente permitía mejorar la eficiencia en la estimación de una ecuación utilizando
información de otra de las ecuaciones. Si la relación entre las ecuaciones es cero, es
decir, si la correlación es de cero, entonces no se podrían mejorar los resultados
utilizando los datos de un solo grupo.
Caso 2: mismos regresores
Cuando los regresores son los mismos en todas las ecuaciones, entonces aplicar MCO a
cada ecuación es equivalente a aplicar SUR al sistema.
Problema 5.8
En un sistema de ecuaciones simultáneas, si el tamaño de muestra es bastante grande,

no es necesario aplicar otros métodos de estimación debido a que el estimador MCO –si
bien no es eficiente-si es consistente.
Solución
Lo que hacen las ecuaciones simultáneas es obtener mayor eficiencia en la estimación de

un conjunto de observaciones, justamente para aprovechar la estructura de la matriz de
varianzas y covarianzas. Cuando se estima el sistema por MCO se debe entender que
éste no es el MELI debido a la presencia de heterocedasticidad, sin embargo es aún
consistente bajo determinados supuestos. Debido a que ante muestras grandes se dará
prioridad la insesgadez y no a la eficiencia, se preferirá el estimador MCO (además que
este requiere supuestos menos fuertes para la consistencia).
Problema 5.9
A medida que la correlación de los errores de las ecuaciones crece, la ganancia en

eficiencia del estimador SUR disminuye respecto al estimador MCO.
Solución
Falso. A medida que la correlación entre los errores crece, la ganancia en eficiencia es
mayor para el estimador SUR, debido a que aprovecha justamente esa correlación
usando las estructurar que existen entre las unidades de observación en el tiempo. Dicho
de otro modo, a mayor correlación entre los errores, el problema de ineficiencia de MCO
crece; por lo que al utilizar el estimador SUR, la ganancia en eficiencia es cada vez
mayor.
Problema 5.10
Se tiene el siguiente sistema:
0
` a=” •” •+` a
0
Más aún, suponga que y son ortogonales: ′ = 0.
a) Para un par ecuaciones 2 y 5 diferentes, muestre que:
&#…
D…,jv = D…,)*+ + … …)
L L
&…… … #
Solución
Se sabe que el estimador SUR:
Djv L
? ) L
?
′ 0 &S &S 0
=” •” &S • ” 0 •
L
0 ′ &S
?
&S L
&S L
=” •
&S L
&S L
Como los son ortogonales
&S L
0
=” •
0 &S L
L
0 &S &S
” • ”&S
&S • ` a
L
0 L
?
&S L
&S L
&S L
+ &S L
=” •` a = ” •
&S L
&S L
&S L
+ &S L
& L ) 0 &S L
+ &S L
Djv ³ ´” •
0 & ( L ) &S L
+ &S L
L ) L
+ & &S L ) L
³ ´
& &S L ) L
+ L ) L
L ) L
& &S L ) L
³ ´+³ ´
L ) L
& &S L ) L
&S#…
D…jv D…,)*+ + … …)
L L
&S…… … #
b) Encuentre D…,jv )
Solución
&S#…
D…jv = D…,)*+ + … …)
L L
&S…… … #
&S#…
Djv D…,)*+ + … …) …( # # +
L L
&S…… #
&S#…
Djv D…,)*+ + … …) … #( …′ # = 0)
L L
&S……
&S#… &#…
•7’7
&S…… &##
&#…
Djv D…,)*+ − ( … …)
L L
&## … #
&#…
(Djv ) = (D…,)*+ ) − W Z ( … …)
L
… &## … ( … … )
L L
&##
&#…
(Djv ) = &…… ( … …)
L
− ( … …)
L
&##
(Djv ) = (&…… − ×)( … …)

L
son vectores, es decir la regresión 2 contiene un
regresor Å = Å = 1. Encuentre la eficiencia relativa de D…,jv respecto a
c) Suponga que y
D…,)*+ . La eficiencia relativa se define como el ratio de varianzas.
Solución
(Djv ) (&…… − ×) ∑ …)
=
(D)*+ ) &…… (∑ … )
(Djv ) (&…… − ×)
=
(D)*+ ) &……
6. Bibliografía
Castro, J.F. y Roddy Rivas-Llosa; 2005. Econometría Aplicada. Biblioteca Universitaria,

Centro de Investigación de la Universidad del Pacífico.
Greene, W.; 1999. Análisis Econométrico. Pearson Educación, tercera edición.
Kennedy, P.; 1993. A Guide to Econometrics. The MIT Press, tercera edición.
Stock, J. y M. Watson.; 2006. Introduction to Econometrics. Addison-Wesley, segunda

edición.
Wooldridge, J.; 2006. Introductory Econometrics. A modern approach, Edit. Thomson,

segunda edición.

Informe Final Libro Econometría I

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Informe Final Libro Econometría I

Uploaded by

Copyright:

Available Formats

Libro de Ejercicios de

Versión Preliminar (no citar)

Los libros de texto disponibles dedicados, en la actualidad, al desarrollo del contenido

Queremos reafirmar, por si no haya quedado lo suficientemente claro, que el presente

El documento de ejercicios se ha organizado en nueve capítulos; cada uno de los cuales

Probar que para cualquier variable aleatoria , se cumple que:

Como la varianza de es positiva e igual a:

Así, la condición que se solicita verificar en el enunciado sí se cumple.

De acuerdo con el criterio de los Mínimos Cuadrados Ordinarios, el modelo = +

Incierto, efectivamente no es posible de estimar por MCO ya que el modelo no es lineal en

El teorema de Gauss-Markov señala que es estimador MCO es MELI sobre la base de

El teorema de Gauss-Markov consiste en el cumplimiento de supuestos específicos. Estos

Siempre es preferible el estimador de menor varianza. Comente.

En un modelo econométrico, lo ideal es que los datos observados no varíen ya que de

Falso. Debido que se busca explicar la variabilidad en la dependiente mediante la

Siempre se puede usar el estimador MCO gracias a la existencia y unicidad de la

Falso, la existencia y unicidad de la proyección ortogonal garantizan que la estimación por

Falso. El hecho de que ()*+ ∼ - ,& ′ cuando / → ∞, implica que se cumplen

• son estocásticas y no presentan correlación contemporánea con el término de

• Independencia en media del término de error con las [ | ] = 0 , lo que

a) Discuta la consistencia de los estimadores MCO.

En el término de error de esta ecuación de salarios se encuentran factores no

b) Cambiaría su respuesta si el comportamiento de las personas fuese totalmente

En este segundo caso, claramente los factores no observables de la ecuación de salarios

Considere el modelo de regresión:

= + para 6 = 1,2, … , >

Para obtener el estimador D para el parámetro poblacional , se minimiza la suma de

Por lo tanto, la condición de primer orden es

Tras simples manipulaciones,

Se obtiene el valor esperado y la varianza del estimador MCO de , D:

Y utilizando el resultado anterior de insesgamiento, se obtiene:

Dado que es determinístico,

Dado que los errores son homocedásticos entre los individuos,

Primero, se halla la media del promedio muestral:

Segundo, se halla la varianza del promedio muestral1:

Para simplificar esta expresión, sin pérdida de generalidad, es útil calcular:

Se halla el sesgo para ambos estimadores:

1 Una forma alternativa de hallar la varianza muestral es la siguiente: 35 S =

Por lo tanto, los dos estimadores son insesgados.

Se halla la varianza para $̂ :

1 & & &

Ahora, se halla la varianza de $V:

Para comparar (1) y (2), se prueba que

Restando −4/ / a ambos lados:

b. En un etapa posterior pretende estimar $ y propone los siguientes estimadores:

Por lo que es insesgado.

1 & & 1 & &

Por tanto, el sesgo de este estimador es

S + S 1 & & 1 & &

Por tanto, el sesgo de este estimador es

Se concluye que el de menor sesgo es el estimador mn ya que es insesgado.

Un investigador A sabe que la verdadera relación entre las variables y es la siguiente:

A partir de estos datos genera valores de usando el modelo verdadero.

a. Generar los valores de y calcular las dos estimaciones.

La generación de los datos es directa:

Para calcular las dos estimaciones se construye la tabla 1.1:

Tabla 1.1. Estimaciones

1 3.464 -2.5 -4.6 11.38 6.25

2 5.06 -1.5 -3.0 4.43 2.25

3 5.5 -0.5 -2.5 1.26 0.25

4 8.84 0.5 0.8 0.41 0.25

5 12.022 1.5 4.0 6.01 2.25

6 13.2 2.5 5.2 12.96 6.25

Con esta información, los estimadores serían los siguientes: