You are on page 1of 20

UNIVERSIDAD NACIONAL DE INGENIERIA

EXAMEN FINAL - ECONOMETRIA II

Docente: Rafael Caparó.


Sección: L.
Fecha: 15 de diciembre 2016.

1. Preguntas
P1.
Los turistas llegan en auto a una ciudad de playa de acuerdo a un pro-
ceso de Poisson de intensidad λ y permanecen un tiempo Z con distribución
P (Z ≤ t) = G(t).El tiempo de permanencia de cada auto es independiente
del proceso de llegadas y de los otros tiempos de permanencia. Si se conside-
ran solo los autos que llegan a partir de un instante fijo t = 0,llamamos X(t)
al número de autos de turistas que se encuentran en la ciudad en el instante t.

a) Halle la distribución de X(t), t ≥ 0.


b) Si µ(t) = E(X(t)), halle limt→∞ µ(t).
c) Halle el valor de µ(t) si Z tiene distribución exponencial de parámetro.

Solución:
a) Un auto que llega en el instante s está en la ciudad en el instante t > s
con probabilidad
P (Z > t − s) = 1 − G(t − s)
Dado que N (t) = n los tiempos de llegada τ1 , τ2 , ..., τn de los n autos a la
ciudad tienen distribución uniforme en [0, t] y son independientes. Para el
cálculo que queremos hacer el orden de las llegadas no es importante. Por lo
tanto la probabilidad de que uno cualquiera de los n autos que llegaron en
[0; t] todavı́a esté en la ciudad es
Z t
1 t
Z
1
p(t) = (1 − G(t − s)) ds = (1 − G(s))ds
0 t t 0
Como los tiempos de permanencia son independientes entre si y del proceso,
 
n
P (X(t) = i | N (t) = n) = (p(t))i (1 − p(t))n−i , i = 0, 1, ..., n.
i

1
Usando la ley de la probabilidad total
X∞
P (X(t) = i) = P (X(t) = i | N (t) = n)P (N (t) = n) (1)
n=i
∞ 
(λt)n −λt

X n
= (p(t))i (1 − p(t))n−i e (2)
i n!
n=i

−λt
X n!
=e (λtp(t))i (λt(1 − p(t)))n−i (3)
n=i
i!(n − i)!n!

(λtp(t))i λt X 1
= e (λt(1 − p(t)))n−i (4)
i! n=i
(n − i)!

(λtp(t))i λt X 1
= e (λt(1 − p(t)))n (5)
i! n=0
n!
(λtp(t))i λt λt(1−p(t))
= e e (6)
i!
(λtp(t))i λtp(t)
= e (7)
i!
de modo que X(t) tiene distribución de poisson con parámetro λtp(t).

b) Sea µ(t) = E(X(t)) = λtp(t).Ademas:


Z t
1 t
Z
1
p(t) = (1 − G(t − s)) ds = (1 − G(s))ds
0 t t 0
cuando t → ∞
Z ∞
(1 − G(t − s))ds → E(Z)
0
y µ(t) → λE(Z)

c) Si Z ∼ Exp(α) entonces:

1 t
Z Z t
1
p(t) = (1 − G(s))ds = e−αs ds = (1 − e−αt )
t 0 0 αt

y
λ
µ(t) = (1 − eαt )
α
Observamos que cuando:
λ
t → ∞, µ(t) →
α
2
P2.
Suponga que la agencia de protección ambiental (APA) es quien establece
los estándares para Garantizar la calidad de las emisiones de aire por parte
de las empresas. El lı́mite máximo Permitido de cobre en las emisiones es
de 10 partı́culas por millón y usted trabaja en una empresa Donde el valor
medio en sus emisiones es de cuatro partı́culas por millón.

a) Si se define X como el número de partı́culas por millón en una muestra


¿Cuál es la desviación estándar de X en su empresa?.
b) Si el número medio de partı́culas por millón en su empresa es
efectivamente de cuatro por millón ¿Tendrı́a usted temor de que la agencia
lo multe por contaminar el aire?
Solución:
a) Usamos una distribución de Poisson con parámetro:

λ=4

La varianza de una distribución de Poisson es λ,por lo tanto su desviación


estandar esta definida por λ0,5 = 2 partı́culas por millón.

b) La probabilidad que la empresa supere las 10 partı́culas por millón es:

P (x > 10)

Esta probabilidad es igual a:

1 − P (x ≤ 10)

= 1 − [P (x = 0) + P (x = 1) + P (x = 2) + ... + P (x = 9) + P (x = 10)]
Fórmula de poisson:

e−λt (−λt)k e−λ (−λ)k


P = (x = k) = =
k! k!
Por lo tanto
e−4 40 e−4 41 e−4 42 e−4 49 e−4 410
1−[ + + + ... + + ]
0! 1! 2! 9! 10!
1−[0,0183+0,0733+0,1465+0,1954+0,1954+0,1563+0,1042+0,0595+0,0298+0,0132+0,0053]

3
Por lo tanto:
1 − [0,9972] = 0,0028
La probabilidad, pues, de ser multado es muy baja,

o.oo28

2. Preguntas para marcar


1

1. Se usa la Binomial Negativa; como una generalización de la distribución


de Poisson; debido a que:

a) La propiedad de equidispersión es violada comunmente, dado que


es más común la infra-dispersión.
b) La propiedad de equidispersión es violada comunmente, dado que
es más común la sobredispersión.
c) La propiedad de infradispersión es violada comunmente, dado que
es m’as com’un la equidispersión.
d) NA

2. La Binomial Negativa es una generalización de:

a) La distribución normal.
b) La distribución exponencial.
c) La distribución Chi-Cuadrado.
d ) La distribución de Poisson.

3. La heterogeneidad no observada podrı́a ser generada por :

a) Introducir aleatoriedad adicional a la variable aleatoria.


b) Introducir aleatoriedad adicional a la variable endógena.
c) Introducir aleatoriedad adicional al valor esperado de la variable
endógena.
d) NA
1
Se debe haber asistido a todas las clases para responder la pregunta.

4
Respuestas
1. b
2. d
3. a

P3.
Sesgo de selección, un reconocimiento al premio nobel ganado por Heck-
man : Heckman ganó el premio nobel por criticar a los modelos que no
consideraban el sesgo de selección, siguiendo lo expuesto en clase se le pide
los siguiente:

P3.a(2ptos) Demostrar cómo se obtiene el sesgo de selección de


Heckman.
El sesgo de selección muestral surge cuando las muestras a disposición de
los investigadores no son .aleatorias”, es decir no representan adecuadamente
la población que se desea estudiar. Dentro de los sesgos de selección existen
diferentes modalidades que pueden depender de los criterios del analista, de
la decisión de los agentes económicos, etc. En base esto podemos decir que
el propio analista, al decidir el diseño muestral, puede realizar una mala se-
lección de los grupos que se comparan, o bien, lo que se puede dar es un
problema de autoselección, cuando los individuos deciden autoseleccionar-
se para pertenecer a un determinado grupo lo que conducirı́a a conclusiones
erróneas (”sesgadas”) sobre el efecto de las variables endógenas. En este caso,
al estar ”sobrerrepresentada.alguna variable exógena en la muestra, se tiende
a subestimar el efecto de esta variable.

El procedimiento sugerido por Heckman para trarar con este tipo de pro-
blemas es conocido como el método de dos etapas.
Heckman parte de dos ecuaciones , una ecuacion de interés que correspon-
de a la ecuación del investigador y la ecuacion de seleccion o participa-
cion(regresion auxiliar).

La observación de la variable dependiente y1i es función del valor de otra


regresión: la ecuación de selección que relaciona la variable latente y2i con
algunas caracterı́sticas observadas zi .

5
y2i = zi δ + ν2i (8)

y1i = xi β + u1i , si y2i > 0 (9)

Además , se asume la exixtencia de una distribucion normal bivariada de


los errores en la ecuaciones ( 1) y (2)

u1 ∼ N (0, σ12 ) (10)

u2 ∼ N (0, 1) (11)

corr(u1 , u2 ) = ρσ1 (12)

De esta forma la ecuación de selección se convierte en un modelo probit

De esta maner ausando el supuesto de normalidad y las propiedades de


la normal bivariada truncada podemos calcular el sesgo de selección:

E(y1 /y2 ) = xβ + E(u1 /u2 > −zδ) (13)

−zδ
= xβ + ρσ1 λ[ ]
1
φ(−zδ)
= xβ + ρσ1
1 − Φ(−zδ)
φ(zδ)
= xβ + ρσ1
Φ(zδ)
asi la magnitud del sesgo dependera de la correlacion entre los errores(ρ
), la varianza del error y la severidad del truncamiento( la razon inversa de
Mills)

P3.b(2ptos) Describa la solución planteada por Heckman para su-


perar el problema del sesgo. Desarrolle los componentes del modelo
planteado por Heckman para superar este problema.
La ecuación para y1i es una ecuación de regresión común. Sin embargo,
bajo ciertas condiciones no observamos la variable dependiente de esta ecua-
ción. Denotaremos si observamos o no esta variable mediante una variable
dummy D2i .

6
Ahora, para explicar la solución de Heckamn, primero , estimamos el modelo
de Heckman:

E(Y1 /Y2 > 0) = Xβ + ρσθ(Zδ)/φ(Zδ)


El objetivo es estimar β en la ecuación: y1i = xi β + u1i , si Y2 > 0 por MCO
incluyendo en dicha ecuación la medida θ(Zδ) φ(Zδ).
Con este fin Heckman (1979) sugiere realizar los siguientes pasos:

1. Estimar δ consistentemente usando un probit para la probabilidad de


observar los datos en función de z.

2. Calcular su valor ajustado para la función ı́ndice o variable latente Yc


2i
= Z1 δ y calcular la razón inversa de Mills λi como función de Y2i
c b c

3. Incluı́r λbi la regresión de Y1 sobre Xi para aproximar λ(Zi δ). El coefi-


ciente de λbi será una medida de ρσ1 y de esta forma una estimación de ρ y
de σ1 puede ser obtenida a partir de allı́.

Los valores resultantes (estimadores) de /beta ,ρ y σ1 son consistentes


pero asintóticamente ineficientes bajo el supuesto de normalidad.

P3.c(1pto) Comente la solución planteada en base a la técnica de


Máxima Verosimilitud
Lo primero que se procede a realizar es la especificación del modelo.
En este caso al considerar e sesgo de selección, cada grupo va a tener una
función de verosimilitud.
i) Aquellas donde y1 es observada para lo cual sabemos que se cumple que
y1 > 0. Para estas observaciones la función de verosimilitud es la probabili-
dad del evento y1 y también ocurra que y2 > 0.

P (y1i , y2i > 0/x, z) = f (y1i )P (y2i > 0/y1i , x, z)

= f (ν1i )P (ν2i > −zi .δ/ν1i , x, z)


 Z ∞
1 y1i − xi β
= φ f (ν2i /ν1i )dν2i
σ1 σ1 −zi σ

7
" #
∞ν2i − σρ1 (y1i − xi β)
 Z
1 y1i − x1 β
= φ p dν2i
σ1 σ1 −zi σ 1 − ρ2
" !#
zi σ + σρ1 (y1i − xi β)

1 y1i − x1 β
= φ 1−Φ p
σ1 σ1 1 − ρ2
" !#
zi σ + σρ1 (y1i − xi β)

1 y1i − x1 β
= φ Φ p
σ1 σ1 1 − ρ2
Aquellas donde yi no es observada para lo cual sabemos que se cumple
que y2 < 0 del manera, no tenemos información independiente para y1 .

P(y2 ≤ 0)=P(ν2i ≤ −zi .δ)

=φ(−zi ).δ

=1-φ(−zi ).δ

De esta manera considerando la función de verosimilitud para todos los


elementos de la muestra obtendrı́amos la siguiente expresión:

∞ ∞ ρ
X X y1i−x1 .β zi .δ + (y
σ1 1i
−x
logL(β, δ, σ1, datos) = log(1−φ(zi δ))+ [−log(σ1 )+log(φ). +log(φ). √
n n
σ 1

Estos estimadores serán consistentes y asintóticamente eficientes bajo el


supuesto de normalidad y homocedasticidad de los términos de error no cen-
surados.

Aunque unos de los problemas que tiene la estimación por ML es que


la función no es estrictamente cóncava y en consecuencia no necesariamente
existe una única solución.

P4.
Modelando los beneficios de un conjunto de empresas con Datos de Panel
Estático y Dinámico: El siguiente ejercicio ha sido tomado de Novales(2002).
Con el objeto de preveer el margen de beneficios de un conjunto de empre-
sas productoras de un mismo bien, un investigador ha propuesto el siguiente

8
modelo:

yit = β1 yit−1 + β2 yit−2 + it (14)

it = µit + αi ; n = 1...N yt = 1...T


E[µit ] = E[αi ] = 0, ∀i, t;
E[µit αj ] = 0, ∀i, t, j
E [µit µjs ] = σµ2 , sii = jyt = s
E [µit µjs ] = 0, enotrocaso
E [αi αj ] = σα2 , sii = j
E [αi αj ] = 0, sii 6= j

Valor de la producción de la empresa i en el momento t Donde yit es el mar-


gen de la empresa i en el momento t , definido como:
Vit − Wit
yit = (15)
Vit
Vit :Valor de la producción de la empresa i en el momento t
Wit :Costos variables de la empresa i en el momento t

a) Demostrar porque MCO no seria una técnica de estimación adecuada en


este caso. ¿En qué caso el estimador intragrupos seria adecuado ?

yit = β1 yit−1 + β2 yit−2 + it (16)

yit = β1 yit−1 + β2 yit−2 + αi + µit (17)

Si se utiliza MCO para estimar los β en el modelo dinámico anterior nos


arrojara β etas inconsitentes debido a la correlación entre αi y yit−1 . Si
los β son mayores
  que cero el sesgo asintótico no tiende a cero:
β > 0 , E β 6= β
b

9
El estimador intragrupos consiste en utilizar MCO con las varibales de
(11) transformadas en desviaciones con respecto a sus promedios indi-
viduales, es decir, cálculados a tráves del tiempo. A diferencia del caso
estático, en el caso dinámico este estimador es inconsistente debido a la
correlación entre las variables transformadas: yeit−1 = 1 ∗ yit−1 − y it−1 y
eit−1 = 1 ∗ µit−1 − µit−1 . Bajo determinados supuestos , el sesgo asintótico
µ
es positivo para β > 0 y aumenta con σα2 ; es de orden 1/T, por lo que
disminuye al aumentar la dimensión temporal del panel, pero, habitual-
mente , T es muy pequeño en paneles microeconómicos, por lo que el
sesgo del estimador intragrupos es importante. Por lo anterior el estima-
dor intragrupos es mas adecuado para paneles macroeconómicos con T
grandes.
Explicado de manera similar, al igual que en otros modelos econométricos
la utilización del estimador MCO directamente es inconsistente, debido a
la autocorrelación entre αi y yit−1 y también αi y yit−2 , pudiendo demos-
trar que su sesgo asintótico no tiende a cero y es negativo para valores
βi > 0.

¿En qué casos el estimador intragrupos serı́a adecuado? El estimador in-


tragrupos consiste en utilizar MCO con las variables de modelo (Ecu. 8)
transformadas en desviaciones con respecto a sus promedios individuales,
calculados a traves del tiempo, este estimador es incosistente debido a la
correlación entre las variables transformadas.
eit = 1 ∗ µit−1 − µit−1 .
yeit−1 = yit−1 − y it−1 y µ
Donde hay correlación entre yeit−1 y µ
eit

b) ¿Qué ventajas e inconvenientes se muestran al usar la técnica de las pri-


meras diferencias, al modelo planteado?

yit = β1 yit−1 + β2 yit−2 + αi + µit (18)

yit−1 = β1 yit−2 + β2 yit−3 + αi + µit−1 (19)

Una ventaja es que desaparece αi ya que al restar (12) y (13) tenemos:

∆yit = β1 ∆yit−1 + β2 ∆yit−2 + ∆µit (20)

10
Pero nos encontramos con que ahora ∆yit−1 y ∆µit−1 estan correlaciona-
dos. También observamos que como el sesgo en muestras finitas de este
estimador(primeras diferencias) no depende del tamaño muestral y, por
consiguiente, no tiende a cero; de hecho, puede probarse que al tender T a
infinito, se tiene plı́m(βb − β) = −(1 + β)/2, que es negativo cuando β > 0,
lo que implica que se subestima la estructura dinámica del modelo de la
ecuación (8)

El estimador MCO en primeras diferencias es asimismo inconsistente. El


modelo se convierte en:
∆yit = β1 ∆yit−1 + β2 ∆yit−2 + ∆µit
Del que ha desaparecido el efecto individual αi , sin embargo ahora ∆yit−1
y ∆µit estan correlacionados, puesto que yit−1 y µit−1 lo estan. Lo mismo
ocurre para yit−2 y µit−1 .
Por lo tanto, el sesgo en muestras finitas este estimador no depende del
tamaño muestral, por lo que el sesgo tiende no a cero

c) Proponga un estimador consistente y eficiente de β1 y β2 en el caso de


T=4 años.

Cuando el tamaño de T es muy pequeño, el estimador adecuado entre el


estimador intragrupos y el estimador em primeras diferencias resulta ser
el estimador en primeras diferencias , cuando el valor de T es igual a 2 es
indiferente el uso de ambos estimadores en el caso de que T tome valores
mayores a 4 como en este caso resulta mucho más conveniente usar el
estimador intragrupos.

d) Cambiara su respuesta anterior en el caso de T=5?


No, pues para muestras que constan de cuatro o mas observaciones tem-
porales se utiliza el estimador anterior como T > 4 no es necesario.

11
Laboratorio (12 ptos.)
Aqui expondremos sólo una parte de lo ya presentado en el trabajo de
Laboratorio incluı́do en el exámen Final

Aplicacion a Lima Metropolitana

Procedimiento

Paso 1: Para construir los modelos descargamos la informacion secun-


daria de fuentes estadı́sticas del INEI y Ministerio del Interior. Ana-
lizamos los datos estadı́sticos de cada uno de los 49 distritos de Lima
Metropolitana y observamos dónde hay mayor incidencia de algunas va-
riables de criminalidad como ”Delitos denunciados”. Observamos que
los distritos con mayores concentraciones de delitos en los últimos 2
años comprenden a: San Juan de Lurigancho, Callao (cercado), Co-
mas, Ate, La Victoria, VMT y San Martin de Porres.

Figura 1: mapa del delito de Lima Metropolitana en 2014 y 2015

12
Paso 2: Se construye la matriz de vecindad o de pesos, cuyas filas y
columnas representan las observaciones y cuyas celdas representan la
distancia entre regiones, definidas del siguiente modo:

• La distancia de una región consigo misma es 0.


• La distancia de una región con una vecina directa es 1.
• La distancia de una región con una no limı́trofe es 0.

Figura 2: parte de la matriz de pesos espaciales estandarizada.

Aplicando el paquete spmat es que podemos hacer un esbozo de la


distribucion de la matriz de pesos espaciales (llevado a binario)

Figura 3: Distribución de matriz de pesos espaciales en binario.

Paso 3: Luego se analiza si hay o no presencia de autocorrelación


espacial, para tal motivo se utiliza el estadı́stico I de Moran utilizando
el comando spatgsa
Dado que haremos un análisis de Corte Transversal es que tomamos
como referencia el año 2015:
Dónde:
DELITO 2015: Delitos por distrito en 2015 (variable atributo)

13
Regresores plausibles:
POBLA 2015: Población por distrito en 2015.
PV 2015: Precio del metro cuadrado de vivienda por distrito en 2015.
POL 2015: Número de efectivos policiales por distrito en 2015.
DELITO 2015

Figura 4: I de Moran para Delitos por distrito en 2015.

14
POBLA 2015

Figura 5: I de Moran para Población por distrito en 2015.

15
PV 2015

Figura 6: I de Moran para Precio del metro cuadrado de vivienda por distrito
en 2015.

16
POL 2015

Figura 7: I de Moran para Número de efectivos policiales por distrito en 2015.

17
Resultados
Como se menciona anteriormente, un objetivo de esta investigación es
corroborar la autocorrelación espacial. Para tal motivo hemos utilizado un
modelo de datos de corte transversal, la información corresponde a cada uno
de los 49 distritos de Lima Metropolitana incluyendo a la provincia constitu-
cional del Callao, según datos oficiales del Instituto Nacional de Estadı́stica
(INEI).

Interpretación del Estadı́stico I de Moran


Dado el carácter geográfico de las variables dependientes utilizadas en es-
te trabajo, puede existir un cierto grado de correlación tanto con el valor
de la misma variable dependiente como con la dependiente de los otros dis-
tritos. Ası́, la tasa de delincuencia de una unidad geográfica puede estar
correlacionada con la tasa de delincuencia la unidad geográfica vecina, con
las condiciones sociales de los vecinos o con factores generadores de violencia
en los vecinos.
variables I de Moran
DELITO 2015 0.024
POBLA 2015 0.054
PV 2015 0.103
POL 2015 - 0.021

Cuadro 1: Estadı́sticos I de Moran de las variables en estudio.

La prueba estadı́stica I de Moran muestra, con base en los valores z, que


las variables DELITO 2015, POBLA 2015 y PV 2015 poseen autocorrela-
ción positiva, y la variable POL 2015 presenta una autocorrelación negativa.

Tras el análisis de las variables en estudio, podemos afirmar que exis-


te un esquema de dependencia espacial, rechazándose la hipótesis de una
distribución espacial aleatoria dado que los 3 regresores elegidos influyen es-
pacialmente en la variable atributo.

Estimación de parámetros
En esta sección se busca establecer las determinantes de la variable atributo
con base en el uso de variables regresoras.

Se inicia la estimación del modelo incluyendo el retardo espacial:


DELIT Oi = ρW ∗ DELIT Oi + β1 ∗ P OBLA + β2 ∗ P V + β3 ∗ P OL + u
Donde: u ∼ N (0, σ 2 )

18
A continuación se realiza el modelo espacial en los errores:
DELIT Oi = α + β1 ∗ P OBLA + β2 ∗ P V + β3 ∗ P OL + u
Donde: u ∼ ρW u + e; e ∼ N (0, σ 2 )

Donde se obtuvo :

Modelo espacial en errores

Modelo espacial en 1 retardo

19
Conclusiones

Figura 8: mapa del delito de Lima 2015 con diversas etiquetas generadas en
el spmap

A nivel distrital, la revisión de mapas nos revela el grado de centralidad


principal que tiene la delictividad, concentrandose en los alrededores de
la denominada Lima Moderna, donde se ubican los principales ”bolso-
nes”de criminalidad.
A nivel distrital, los distritos como San Juan de Lurigancho, Callao
(cercado), Comas, Ate, La Victoria, VMT y San Martin de Porres,
generan una alta persistencia en el tiempo y un patrón de difusión
contagioso en el espacio.
Dada la autocorrelación positiva, podemos predecir apoyados del mapa,
que distritos como Rı́mac y Santa Anita al estar rodeados de regiones
de alta delictividad, estarán decayendo en el tiempo a convertirse como
ellas, elevando sus ı́ndices de criminalidad, con lo que las polı́ticas en
seguridad ciudadana deben apunta a la prevención de ello.
Las estadı́sticas de seguridad ciudadana presentan un sesgo de auto-
selección muestral que distorsiona la verdadera magnitud de la delin-
cuencia e inseguridad en el paı́s, dado que no todos los delitos son
denunciados en la comisaria del sector.

20