You are on page 1of 14

Datos de Conteo Regresión de Poisson Extensiones

TEMA 5. Modelos para Datos de Conteo

Profesor: Pedro Albarrán Pérez

Universidad de Alicante. Curso 2010/2011.


Datos de Conteo Regresión de Poisson Extensiones

Contenido

1 Datos de Conteo

2 Regresión de Poisson

3 Extensiones
Datos de Conteo Regresión de Poisson Extensiones

Datos de Conteo

Variable de interés: Y ∈ {0, 1, 2, . . . }


En general:
pocos valores distintos,
abundancia de ceros.
Ejemplos en muchas áreas: economía, nanzas, demografía, etc.
números de clientes de una empresa o establecimiento en un periodo
de tiempo
número de turistas en Alicante en el año 2008
número de empresas que quiebran en una región y un periodo de
tiempo
números de hijos que ha tenido una mujer a lo largo de su vida
número de veces que ha sido arrestada una persona (en un año u
otro periodo de tiempo)
número de patentes solicitados por una empresa en un año
Objetivo: analizar Y como función de variables explicativas
E (Y |X1 , X2 , . . . , Xk )
Datos de Conteo Regresión de Poisson Extensiones

Modelo de Regresión Lineal

E (Y |X1 , X2 , . . . , Xk ) = β0 + β1 X1 + · · · + βk Xk

Ventaja del enfoque de regresión por MCO: no depende de


supuestos distribucionales
Ignora el carácter discreto de Y
Ignora que Y sólo toma valores positivos
tomar logaritmos: ln Y
PERO se pierden los valores con cero

Modelo exponencial (NO lineal en los parámetros)


E (Y |X1 , X2 , . . . , Xk ) = exp (β0 + β1 X1 + · · · + βk Xk )

garantiza predicciones positivas


no incorpora la naturaleza discreta de Y
Datos de Conteo Regresión de Poisson Extensiones

Distribución de Poisson

Distribución (univariante) habitual para procesos de conteo:


Y ∼ Po (µ)
e −µ µy
Pr (Y = y ) = , y = 0, 1, 2, . . .
y!

donde µ > 0 es el parámetro de intensidad

Además, se sabe que

E (Y ) = µ
Var (Y ) = µ

esta propiedad se conoce como equidispersión de la distribución de


Poisson
Datos de Conteo Regresión de Poisson Extensiones

Regresión de Poisson

Por tanto, la distribución de Poisson condicional en las variables


explicativas X :
e −µ(x ) µ (x )y
Pr (Y = y |X ) = , y = 0, 1, 2, . . .
y!

donde

E (Y |X1 , . . . , Xk ) = µ (x ) = µ (X1 , . . . , Xk )
= exp (β0 + β1 X1 + · · · + βk Xk )

esta formulación se conoce como Modelo de Regresión de Poisson


modelo NO lineal
estimación por máxima verosimilitud
Datos de Conteo Regresión de Poisson Extensiones

Regresión de Poisson (cont.)

Notad que:
Var (Y |X ) = µ (X1 , . . . , Xk )
modelo heterocedástico por denición
con propiedad de equidispersión

Alternativas
Uso de errores estándar robustos:
se explota el supuesto de distribución de Poisson sólo para la
estimación por Máxima Verosimilitud
errores estándar calculados de forma general, no restringido a la
propiedad de equidispersión de la Poisson

Uso de otras distribuciones: modelos más generales de la varianza


(como MCG)
Datos de Conteo Regresión de Poisson Extensiones

Distribución Binomial Negativa

Binomial Negativa: generalización de la distribución de Poisson

E (Y ) = µ

1 Tipo 1:
Var (Y ) = (1 + α) µ

2 Tipo 2 (cuadrática):
Var (Y ) = (1 + αµ) µ

Se reducen al caso de Poisson cuando α → 0


Se puede contrastar la propiedad de equidispersión H0 : α = 0
si α > 0, se dice que existe sobre-dispersión
si α < 0, se dice los datos muestra infra-dispersión
Datos de Conteo Regresión de Poisson Extensiones

Binomial Negativa (cont.)

Estimación por Máxima Verosimilitud


Desventajas: se modeliza explícitamente la forma de la varianza
condicional
si la modelización es correcta, este enfoque es eciente
si la modelización es incorrecta, este enfoque es inconsistente

Comparado con regresión de Poisson (cuasi-máxima verosimilitud)


con errores estándar robustos
siempre consistente para la esperanza condicional
menos eciente (no explota, totalmente, la heterocedasticidad)
Datos de Conteo Regresión de Poisson Extensiones

Efectos Marginales

Dado el modelo exponencial para la esperanza condicional,


δE (Y |X )
= βk exp (β0 + β1 X1 + · · · + βk Xk )
δXk

el efecto marginal depende de los valores de las variables explicativas


evaluado en la media de las X o en valores relevantes
efecto marginal promedio (estimado)
bky
resulta ser β
los coecientes se interpretan como semi-elasticidades:
δE (Y |X ) 1
βk =
δXk E (Y |X )
Datos de Conteo Regresión de Poisson Extensiones

Bondad de Ajuste de Modelo

La verosimilitud alcanzada por la estimación de un modelo (Poisson


o Binomial Negativa) se pueden utilizar como medidas de ajustes
también para realizar contrastes (de ratio de verosimilitudes)

Las verosimilitudes de la estimación de Poisson y las de la Binomial


Negativa NO son comparables directamente ni se pueden utilizar
conjuntamente

Pseudo-R 2 de McFadden
 
LN βb
e2 = 1 −
R
LN (y )

Otra medida de ajuste: cuadrado de la correlación entre los valores


observados y los predichos
h  i2
corr Yi , Ybi
Datos de Conteo Regresión de Poisson Extensiones

Probabilidades Predichas

Se puede utilizar el modelo estimado para predecir los valores de la


variable dependiente
 
Ybi = exp β b 1 X1 + · · · + β
b0 + β b k Xk

los valores predichos NO son valores enteros

Puede resultar más útil estimar la probabilidades


1 de que Y tome exactamente uno de los valores (enteros) posibles

2 de que Y sea mayor (o menor) que un valor determinado

Las probabilidades estimadas dependen de


la forma funcional concreta de la distribución
para Poisson, Pr (Yi |X ) = e
−µ(x ) µ(x )y
y!
b de µ (x )
los parámetros estimados β
Datos de Conteo Regresión de Poisson Extensiones

Probabilidades Predichas (cont.)

Las probabilidades predichas dependen de los valores de las X


existen las mismas opciones habituales para su cálculo
pe (y ) = Pr
c (Y = y |X = x ∗ )

pee (y ) = Pr
c (Y = y |X = x )
N
1 Xc
p (y ) = Pr (Y = y |X = xi )
N i =1
Notad que las probabilidades predichas son estimadas: se debería un
intervalo de conanza para ellas (a partir de su error estándar)

Grandes discrepancias entre las probabilidades predichas y las


probabilidades observadas pueden indicar un mal ajuste del modelo
Datos de Conteo Regresión de Poisson Extensiones

Extensiones

Binomial Negativa Generalizada: especicación más exible de la


varianza
parámetro de sobre-dispersión α depende de otras variables
explicativas (no constante)
E (Y |X ) = µ (x )
Var (Y |X , W ) = [1 + α (w ) µ (x )] µ (x )
se modeliza ln α (w ), para garantizar que α (w ) > 0 (caso de
sobre-dispersión)

Modelos en dos partes:


modelo probit/logit para determinar los ceros (frente a valores
positivos)
modelo de Poisson o Binomial negativa truncado en cero para los
valores positivos
Mixturas Discretas
Modelos Aumentados (o Inados) en ceros

You might also like