You are on page 1of 38

UNIVERSIDAD NACIONAL DEL ALTIPLANO

ESCUELA DE POSTGRADO
METODOS CUANTITATIVOS

Modelos de Eleccin Discreta

2017
Modelos de eleccin discreta
La variable dependiente es una v.a. que toma un nmero finito de valores. Se
modeliza la eleccin dentro de un conjunto discreto de alternativas. Ejemplos:

1. Participacin en el mercado de trabajo


Busca trabajo
No busca trabajo
2. Eleccin medio de transporte
Coche
Autobs
Tren
3. Disponibilidad de automvil
0 No dispone de automvil
1 automvil
2 automviles
3 o ms automviles
QM 2
TIPOLOGA DE MODELOS DE
ELECCION DISCRETA

Respuesta binaria
(0, 1)

Datos no ordenados
Modelo
Respuesta mltiple
(1, 2, , J) Datos ordenados

QM 3
MODELOS BINARIOS
Slo dos alternativas (1 y 0)

pi Pi i P ( y 1 / X ) i F(Xi ) i
'

1. Modelo Lineal de Probabilidad: F es la funcin acumulada del modelo


Uniforme en el intervalo <0,1>

F ( X i' ) X i' 0 1 X 1 ... k X k


2. Modelo Logit: F es la funcin acumulada del modelo Logstico
eX
'
i
1
F ( X i' )
1 eX 1 e X
' '
i i

3. Modelo Probit: F es la funcin acumulada del modelo Normal N(0,1)


X ' t2



F ( X i' ) ( X i' ) e t
2
2


QM 4
Modelo Lineal de Probabilidad
pi Pi i P ( y 1 / X ) i F ( X i' ) i X i' i
Coeficientes reflejan la variacin en la probabilidad ante un cambio unitario en X.

F(X)

X
Inconvenientes 0 1
Probabilidad no est acotada entre 0 y 1
Las perturbaciones son heteroscedsticas
Impacto de un aumento unitario de xj en la probabilidad es constante

QM 5
Modelo Lineal de probabilidad (MLP)
Estimacin
a) Con datos individuales yi P(yi) i

0 1-Pi -Pi
yi Pi i X i' i
1 Pi 1-Pi

E ( i ) Pi (1 Pi ) (1 Pi ) Pi 0

V ( i ) Pi2 (1 Pi ) (1 Pi ) 2 Pi Pi (1 Pi )
X i' (1 X i' )
Las perturbaciones son heteocedsticas, por lo que aplicamos MCP

QM 6
Procedimiento

1. Por MCO estimamos en el modelo yi X i' i

2. Obtenemos Pi X i' y wi 1
P ( 1 P )
i i

se elimina datos con Pi 0 o Pi 1

3. Por MCP obtenemos MCP


utilizando las ponderaciones wi

yi w i 0 w i 1 X 1 wi ... k X k wi i w i

QM 7
Modelo Lineal de probabilidad (MLP)
Estimacin
b) Con datos agrupados
Grupo X1 Xx Xk
muestra N1 N2 Nk
Y=1 p1 p2 pk

i pi Pi
pi Pi i X i' i E(i)= 0

V(i)= V(pi)=Pi (1-Pi)/Ni

E(pi)=Pi V(pi)=Pi (1-Pi)/Ni Las perturbaciones son heteocedsticas, por


lo que aplicamos MCP

QM 8
Procedimiento

1. Por MCO estimamos en el modelo pi X i' i

N
2. Obtenemos Pi X i' y wi i
P (1 P )
i i

3. Por MCP obtenemos MCP


utilizando las ponderaciones wi

pi wi 0 wi 1 X 1 w i ... k X k wi i w i

QM 9
Modelo Logit
F(X)
pi Pi i F ( X i' ) i 1

e Xi
'

F ( X i' ) X i'
1 e
X
a) Estimacin con datos agrupados 0
Para estimar transformamos el modelo obteniendo la funcin inversa con
aproximacin de Serie de Taylor de primer orden.
F 1 ( Pi )
F ( pi ) F ( Pi )
1 1
i
Pi

Si F ( X i' ) Pi, entonces F 1 ( Pi ) X i'


e x '
1e x '
1 Pi
F ( Pi ) ln 1 P ln x '
i ln
e x '
X '
1 e x '
1e
QM 10
F ( Pi ) ln 1 iP
1 P F 1 ( Pi ) 1

i Pi Pi (1 Pi )

F 1 ( Pi )
Remplazando en F ( pi ) F ( Pi )
1 1
i
P
i

pi Pi i F ( X i' ) i
pi i
ln X i'
obtenemos 1 pi Pi (1 Pi ) E(i)= 0 V(i)= Pi (1-Pi)/Ni

logit i* E(i*)=0

Procedimiento V ( * ) 1
N i Pi ( 1 Pi )
i
1. Por MCO estimamos en el modelo

log it X i' i*
QM 11
2. Calculamos
X MCO
'
i
i
y obtenemos P e X i'

'
y wi N i Pi ( 1 Pi )
1 e X i

Nota: Los Pi Tambin podran obtenerse a partir de un MLP

3. Por MCP obtenemos MCP


utilizando las ponderaciones wi

log iti wi 0 wi 1 X 1wi ... k X k wi * i wi

Luego con MCP

X i'
X MCP
' i
y obtenemos P e
Calculamos i '
1 e X i

QM 12
Estimacin de Mxima Verosimilitud
Estimacin para datos individuales pi Pi i Pi F ( X i' )

Para cada yi en la muestra se tiene que

P ( yi 1 | X ' ) F ( X i' ) P( yi 0 | X ' ) 1 F ( X i' )

L (1 F ( X i' ) ) F ( X i' )
yi 0 y i 1
La funcin de
F ( X ) 1 F ( X )
verosimilitud n
' yi ' 1 y i
i i
i 1

n n
ln L yi ln F ( X i' ) (1 yi ) ln[1 F ( X i' )]
i 1 i 1

QM 13
n n
ln L yi ln F ( X i' ) (1 yi ) ln[1 F ( X i' )]
i 1 i 1

Para maximizar lnL las condiciones de primer orden son:

ln L
y i f ( X i' )
Xi ( 1 y i ) ( f ( X i' )
Xi 0
1 F ( X i' )
'
F ( X i )

Factorizando tenemos

ln L y F ( X )

'

f (X )Xi
'
i i
0
F ( X )1 F ( X )
' ' i
i i

Estas ecuaciones llevan a ecuaciones no lineales en los i por lo que para la


maximizacin de lnL se requiere la aplicacin de un algoritmo de optimizacin
como Newton Raphson o Gauss Newton.

QM 14
Modelo Logit
b) Estimacin con datos individuales
e Xi
'
eZ F ( z ) ez
F ( X i' ) f (z) F ( Z )[1 F ( z )]
1 e Xi
'
1 eZ z (1 e )
z 2

Remplazando en el gradiente obtenemos


ln L yi F ( X i' )

f (Xi ' )Xi
F ( X i' )[1 F ( X i' )]
[ yi F ( X i' )] X i 0

Luego
2 ln L

f ( X i ) X i X i F ( X i )[1 F ( X i )] X i X i

Con lo cual se puede aplicar los algoritmos de optimizacin.

QM 15
Modelo Probit
X '
pi Pi i ( X ) i
t2
'


i F ( X ) ( X )
'
i
'
i
e t
2
2

(X)
1
( X )
( X )

X
0
X
a) Estimacin para datos individuales
Aplicando el algoritmo de Scoring

n n1 [ I ( n1 )]1 ln L( n1 )

I ( )
[ yi ( X i' )] [ ( X i' )]2
ln L ( X 'i ) X i
( X i' )[1 ( X i' )]
X i X i'
( X i' )[1 ( X i' )]

QM 16
b) Estimacin con datos agrupados
F 1
( Pi )
pi Pi i F ( X ) i
'
F ( pi ) F ( Pi )
1 1
i
Pi
i

Teorema: Si F es continua y diferenciable F 1 ( Pi ) 1 1



Pi F ' ( F 1 ( Pi )) f ( X i' )

Pi ( X i' ) 1 ( Pi ) X i' f ( X i' ) ( X i' )

E(i)= 0 V(i)= Pi (1-Pi)/Ni


Entonces i E(i*)=0
1 ( pi ) X i'
( X i' )
probit Zpi
i*
V ( * ) Pi (1 Pi )
N i [ ( X i' )]2
i
( X ) Las perturbaciones
pi heteocedsticas, por lo que
aplicamos MCP
Z
0 Z pi
QM 17
Por MCP estimamos en el modelo Z pi X i' i*
Procedimiento

1. A partir de la informacin muestral calculamos pi y obtenemos

Z pi 1 ( pi ) la cuantila pi de la normal estndar

2. Por MCO estimamos en el modelo Z pi X i' i*

3. Calculamos X i' MCO y obtenemos Pi ( X i' MCO )

( X ' MCO ) la ordenada en la N(0,1)


( X )
( X )
wi
Ni
y ( X ' )
Pi (1 Pi ) 0 X '

QM 18
4. Por MCP obtenemos MCP utilizando las ponderaciones wi

Z pi wi 0 wi 1 X 1 wi ... k X k wi * i w i

Luego con MCP

calculamos

X i' MCP y obtenemos Pi ( X i' MCP )

QM 19
Interpretacin en los modelos Logit y Probit
Modelo Logit Modelo Probit
X '
e Xi
'
t2



pi Pi i F ( X ) i
'
i X i'
i pi Pi i ( X ) i
'
i
e
2
2
t i
1 e

En estos modelos los coeficientes no indican el cambio en la probabilidad P i dado un cambio


unitario en las variables, salvo el signo, que si es + indica que la variable favorece la ocurrencia del
evento y si es indica que la variable es una barrera para la ocurrencia del evento.

Pi
f ( X i' ) k
xik
Modelo Logit Modelo Probit

Pi Pi
F ( X i' )[1 F ( X i' )] k Pi (1 Pi ) k ( X i' ) k
xik xik

P
i
xij


f ( X i' ) j Mide la importancia relativa de los efectos

j
que las variables xj y xk tienen sobre la

Pi '

xik f ( X i ) k probabilidad de escoger y =1
k

QM 20
Pi Nos indica la utilidad de decidir por el
El riesgo o utilidad: Odds evento (Y=1) frente al hecho contrario
1 Pi

P
Se utiliza para compara dos situaciones
i
1 P OR >1 la utilidad de i es mayor que la de j
Odds Ratio OR
P
i
j OR <1 la utilidad de j es mayor que la de i
1 P
j
OR =1 la utilidad de i es igual que la de j

Contraste de hiptesis: En general se aplica la prueba de la razn de verosimilitud

Anlisis de la significancia del modelo H 0 : 2 ... k 0

LR 2[ln L( MR) L( MSR)] (2K 1)

Bondad de ajuste
1) El porcentaje de predicciones correctas, respecto de las observaciones

ln L( MSR)
2) R 2 McFaden 1
ln L( MR)

QM 21
Modelo Logit p X i' B
i
1 p e Si el cambio de j a i es
Odds
Pi
e X 'B OR
p
i
X 'j B
e k
unitario solo en la
1 Pi j
variable Xk
1 p
j
e

Modelo Probabilidad de viaje de vacaciones


Caso 3: Familia sin hijos y P (viaje 3) 0.3343 Odds
Pi

0.3343
0.5022
Renta = 7 1 Pi 0.6657

Caso 1: Familia sin hijos y P (viaje1) 0.6309 Odds


Pi

0.6309
1.7093
Renta = 8 1 Pi 0.3691

P Una familia con 10,000 u.m. mas de renta


i
1 P 1.7093 anual tiene 240% mas utilidad en ir de viaje
OR
P
i
3.4 e1.225 de vacaciones que una familia con menor
j
1 P
0.5022 renta.
j

Una familia con hijos tiene


90,3% menos utilidad en ir de
Para la variable Hijos OR e 2.338 0.0965 viaje de vacaciones que una
familia sin hijos
QM 22
=F ( + + + ) +
ss s s1 s2 s3
z z z1 z2 z3
> |z| : =0 : 1 =0 : 2 =0 : 3 =0
2 : = 0 1 = 0 2 = 0 3 = 0
Pseudo
Lineal MCO
Logit MV
F
Probit MV
Clog-log MV

16/09/2017 Edson Apaza Mamani 23


Modelo de respuesta mltiple
ordenada
Cuando las decisiones de los individuos pueden ordenarse, por ejemplo,
consideremos la decisin por la compra de una vivienda segn el tamao de la
misma

1. Menos de 70 m2
2. Entre 70 y 90 m2
3. Ms de 90 m2
A estas alternativas se las asocia con un valor entero para la variable dependiente
Yi, as por ejemplo:

0 si el tamao es menor de 70 m2
Yi = 1 si el tamao es entre 70 y 90 m2
2 si el tamao es mayor de 90 m2

QM 24
El enfoque terico se fundamenta en la teora de la utilidad del agente econmico.
Se supone que el agente econmico es racional y que elige la alternativa u opcin que
le va a redituar mayor utilidad

Sea Ui0, Ui1, , Uim,, UiM-1 las utilidades de las M alternativas para el isimo individuo y
sea Yi* una variable latente que depende linealmente de las variables X

Yi* X i' i
El individuo elige una determinada alternativa si la utilidad que sta le proporciona es
mayor que la utilidad que le proporciona el resto de alternativas, es decir:

0 si U i 0 U im m 0 Yi* c1 Las cantidades cj se



1 si U i 1 U im m 1 c1 Yi* c2 denominan los
Yi
....................... umbrales o barreras
M 1 si U
iM 1 U im m M 1 Yi c M 1
*

QM 25
Las perturbaciones i se asume que estn idnticamente distribuidas

Y i*
c1 c2 cM-1
De esta manera

P(Yi 0 / X i , , c ) P(Yi* c1 ) P( X i' i c1 ) P( i c1 X i' ) F (c1 X i' )

P(Yi 1 / X i , , c) P(c1 Yi* c2 ) P(c1 X i' i c2 X i' ) F (c2 X i' ) F (c1 X i' )

P(Yi 2 / X i , , c) P(c2 Yi* c3 ) P(c2 X i' i c3 X i' ) F (c3 X i' ) F (c2 X i' )
.
P(Yi M 1 / X i , , c ) P(Yi* c M 1 ) P( X i' i c M 1 ) 1 F (c M 1 X i' )

Los coeficientes y los umbrales son estimados conjuntamente por el mtodo de


mxima verosimilitud

QM 26
Interpretacin del modelo ordenado
La interpretacin de los parmetros se puede efectuar a travs de las derivadas
parciales

P (Yi 0) El cambio en la probabilidad de elegir Yi=0 ante un cambio en la v.


f (c1 X i' ) k Xk es en direccin opuesta al signo de k
X k

P (Yi 1) Los efectos en las probabilidad de elegir


f (c2 X i' ) k f (c1 X i' ) k
X k cualquier punto intermedio depende del
P (Yi 2)
resultado de la derivada para la
f (c3 X i' ) k f (c2 X i' ) k combinacin de las variables X
X k

P (Yi M 1) El cambio en la probabilidad de elegir Yi=M-1 ante un cambio en


f (c M 1 X i' ) k la v. Xk es en la misma direccin al signo de k
X k

QM 27
El riesgo o utilidad:

La utilidad de que se elija una opcin frente al resto de alternativas se mide a travs
de la probabilidad asignada a esta y las probabilidades asignadas al resto de
alternativas, es decir, calculando el Odds o riesgo.
Pi
1 Pi

El Odds tambin se utiliza para compara dos situaciones

OR > 1 la utilidad de la situacin i es mas ventajosa que la de


P la situacin j
i
1 P
Odds Ratio OR
P
i OR < 1 la utilidad de la situacin j mas ventajosa que la de la
j situacin i
1 P
j
OR =1 la utilidad de la situacin i es igual que la de j

QM 28
LOGIT MULTINOMIAL
Caractersticas:
- Se modelizan tantas ecuaciones como alternativas tiene Y.
- Para cada variable se estiman tantos parmetros como alternativas de Y
menos una.
- Es necesario identificar una categora de referencia.
Expresin general del modelo:
1
Pr ob(Yi 0) J 1
para j 0
1 e
kj' X ki

j 1

kj' X ki
e
Pr ob(Yi j ) J 1
para j 1, 2, ..., ( J 1)
1 e
kj' X ki

j 1
QM 29
LOGIT MULTINOMIAL
Ejemplo:
Para el caso de 3 alternativas de Y (la primera es la que se toma como
referencia) y 2 variables explicativas
1
Pr ob(Yi 1)
1 e 2 12 X1i 22 X 2 i e3 13 X1i 23 X 2 i
e 2 12 X1i 22 X 2 i
Pr ob(Yi 2)
1 e 2 12 X1i 22 X 2 i e3 13 X1i 23 X 2 i

e3 13 X1i 23 X 2 i
Pr ob(Yi 3) 2 12 X 1i 22 X 2 i 3 13 X 1i 23 X 2 i
1 e e

QM 30
Modelos de Variable limitada
1. Modelo de variable censurada: Aquel en el que los valores de la
variable endgena inferiores o superiores a un determinado valor
no se conocen, es decir, estn sometidos a una barrera o lmite (en
general los lmites pueden ser inferiores, superiores o ambos),
pero si se tiene informacin de los regresores.

( X )

Y i*
a yi

Sea Y* N(,2) Y=a si Y*a Y= Y* si Y*>a


E (Y ) P (Y a ) E (Y / Y a ) P ( y a ) E ( y / Y a )

V (Y ) 2 (1 )[(1 ) ( )2 ]

QM 31
Modelos de Variable limitada
2. Modelo de variable truncada: Tan solo se recoge informacin del
regresando cuando su valores se encuentran dentro de
determinado rango y no se dispone tampoco la informacin de los
regresores fuera del rango del regresando.

a P ( yi a ) ( i )
i
( X )

( i ) 1 ( i ) ( yi )
yi f ( yi / yi a )
a 1 ( i )

( i )
E ( yi / yi a ) ( i )
1 ( i )

V ( yi / yi a ) 2 1 [ ( i )[ ( i ) i ]]
2 [1 ( i )] La varianza de la variable truncada es menor que
la de la variable sin truncar
QM 32
Modelo Tobit Truncado
La informacin del regresando toma valores distintos de cero a partir de una
determinada barrera o truncamiento; adems, se dispone de toda la informacin de
las variables exgenas o regresores para la muestra en el rango observado.

El regresando tiene distribucin normal truncada (dado el supuesto de que la


perturbacin aleatoria sigue una distribucin normal)

(Yi / Yi a ) X i' i X i' ( i ) i*


( i )
E (Yi / X i ;Yi a ) X i' X i' ( i ) donde i
a X i'
1 ( i )

V ( yi ) 2 1 [ ( i )[ ( i ) i ]] 2 [1 ( i )]

El modelo es no lineal y los parmetros se estiman por el mtodo de mxima


verosimilitud.
QM 33
Interpretacin de los coeficientes
( i )
E (Yi / X i ;Yi a ) X i' X i' ( i )
1 ( i )

V ( yi ) 2 1 [ ( i )[ ( i ) i ]] 2 [1 ( i )]

( i )
1 ( )
E (Yi / X i ;Yi a ) ( i )
k k i
k [1 ( i )]
X ki X ki X ki

[1 ( i )] Factor de correccin en el punto i

Como el factor de correccin es inferior a la unidad, el efecto marginal de la variable Xki


es siempre menor que el coeficiente de regresin k asociado a la variable k.

QM 34
Modelo Tobit Censurado
El regresando Yi presenta dos opciones
Donde Yi* es una variable latente
0 si Yi 0
*
Yi * Yi* X i' i i es N(0,2)
Yi si Yi* 0

El modelo Tobit censurado se concibe en dos partes

Primera parte: Con un modelo probit se asigna la probabilidad de que Yi* =0 frente
a la probabilidad de que Yi* sea >0. En este proceso se define una variable binaria
(0,1)
P(Yi* 0 / X i ) ( X i' ) Pi
Yi* ( X i' ) i Pi i
P(Yi* 0 / X i ) 1 ( X i' ) 1 Pi

QM 35
Segunda parte: Se estima un modelo condicional para Yi a partir de la estimacin
del modelo truncado para los valores de la variable Yi* tal que Yi* sea >0.


'
'
Xi
X i' ( )
E (Yi / X i ) Xi

( Xi )
'

Interpretacin de los coeficientes


E (Yi / X i ;Yi a ) X i'
k
X ki

QM 36
Dependent Variable: GASTO
Method: ML - Censored Normal (TOBIT) (Quadratic hill climbing)

Date: 05/05/08 Time: 12:37


Sample: 1 753
Included observations: 753
Left censoring (value) at zero
Convergence achieved after 7 iterations
Covariance matrix computed using second derivatives

Coefficient Std. Error z-Statistic Prob.

C 3329.564 1337.157 2.490032 0.0128


RENTA 0.140274 0.030107 4.659123 0.0000
HIJOS -576.0051 147.2966 -3.910513 0.0001
EDAD -94.42303 26.11467 -3.615709 0.0003

Error Distribution

SCALE:C(5) 4474.698 198.3984 22.55410 0.0000

R-squared 0.065990 Mean dependent var 1849.734


Adjusted R-squared 0.060996 S.D. dependent var 2419.887
S.E. of regression 2344.924 Akaike info criterion 9.510336
Sum squared resid 4.11E+09 Schwarz criterion 9.541040
Log likelihood -3575.641 Hannan-Quinn criter. 9.522165
Avg. log likelihood -4.748528

Left censored obs 417 Right censored obs 0


Uncensored obs 336 Total obs 753

QM 37
Dependent Variable: Y
Method: ML - Censored Normal (TOBIT) (Quadratic hill climbing)

Date: 05/05/08 Time: 11:54


Sample: 1 754
Included observations: 754
Truncated sample
Left censoring (value) series: 1.8718
Convergence achieved after 6 iterations
Covariance matrix computed using second derivatives

Coefficient Std. Error z-Statistic Prob.

C 0.635914 0.149677 4.248579 0.0000


X2 0.023480 0.006795 3.455720 0.0005
X3 -0.000176 0.000136 -1.291259 0.1966
X4 0.111640 0.008752 12.75612 0.0000
X5 0.034301 0.046506 0.737572 0.4608
X6 -0.053356 0.039326 -1.356741 0.1749

Error Distribution

SCALE:C(7) 0.429388 0.017024 25.22279 0.0000

R-squared 0.253623 Mean dependent var 2.511457


Adjusted R-squared 0.247628 S.D. dependent var 0.411314
S.E. of regression 0.356771 Akaike info criterion 0.586921
Sum squared resid 95.08238 Schwarz criterion 0.629863
Log likelihood -214.2693 Hannan-Quinn criter. 0.603463
Avg. log likelihood -0.284177

Left censored obs 0 Right censored obs 0


Uncensored obs 754 Total obs QM 754 38

You might also like