20y21marzo11 Palacios Bayesiano01 PDF

Introducci on a la estadstica bayesiana, aplicaciones y
metodos
Parte 1
Ana Paula Palacios y Peter Diko
Universidad Carlos III de Madrid
21 de Marzo de 2011
Instituto de Economa y Finanzas
Facultad de Ciencias Economicas
U.N.C.
(Univ. Carlos III de Madrid) Estadstica bayesiana 21-03-11 1 / 40
Programa
1
Introduccion al pensamiento bayesiano
2
Inferencia bayesiana
3
Ventajas del enfoque bayesiano
Pensamiento bayesiano
Programa
1
2
3
Inferencia estadstica
Procedimiento estadstico:
Formular la pregunta de investigacion
Recolectar datos
Construir un modelo probabilstico
Estimar el modelo
Resumir los resultados y concluir
Objetivo
Contestar nuestras preguntas de investigacion y sacar conlusiones a partir
de los datos observados.
Recolectar datos
Estimar el modelo
Objetivo
Recolectar datos
Estimar el modelo
Objetivo
Recolectar datos
Estimar el modelo
Objetivo
Recolectar datos
Estimar el modelo
Objetivo
Recolectar datos
Estimar el modelo
Objetivo
Enfoques:
Clasico: parametros jos
Bayesiano: parametros variables
Objetivo del curso
Brindar una detallada introduccion a la estadstica bayesiana
comparandola con el enfoque clasico y focalizandonos en las etapas de
modelizacion, estimacion e interpretacion de los resultados.
Enfoques:
Clasico: parametros jos
Bayesiano: parametros variables
Objetivo del curso
Brindar una detallada introduccion a la estadstica bayesiana
comparandola con el enfoque clasico y focalizandonos en las etapas de
modelizacion, estimacion e interpretacion de los resultados.
Ejemplo
Tras una noche de esta, una mujer sospecha que puede estar
embarazada. Para estar segura de su estado compra un test del cual se
conoce que tiene una ecacia del 90% en detectar embarazos. La mujer se
realiza el test y obtiene un resultado positivo. Pregunta: Cual es la
probabilidad de que dicha mujer este embarazada?
P(emb|+) =
P(emb y +)
P(+)
=
P(+|emb)P(emb)
P(+|emb)P(emb) + P(+|no emb)P(no emb)
Ejemplo
Tras una noche de esta, una mujer sospecha que puede estar
embarazada. Para estar segura de su estado compra un test del cual se
conoce que tiene una ecacia del 90% en detectar embarazos. La mujer se
realiza el test y obtiene un resultado positivo. Pregunta: Cual es la
probabilidad de que dicha mujer este embarazada?
P(emb|+) =
P(emb y +)
P(+)
=
P(+|emb)P(emb)
Ejemplo
Adicionalmente supongamos que el test da falsos positivos el 50% de las
veces y que, sin ninguna informacion adicional, la probabilidad de
concepcion luego de mantener una relacion sexual es del 15%.
P(emb|+) =
P(+|emb)P(emb)
=
0.90 0.15
0.90 0.15 + 0.50 0.85
= 0.241
Ejemplo
Adicionalmente supongamos que el test da falsos positivos el 50% de las
veces y que, sin ninguna informacion adicional, la probabilidad de
concepcion luego de mantener una relacion sexual es del 15%.
P(emb|+) =
P(+|emb)P(emb)
=
0.90 0.15
0.90 0.15 + 0.50 0.85
= 0.241
Ejemplo
Supongamos que la mujer para conrmar su estado se realiza un nuevo
test de embarazo y obtiene nuevamente un resultado positivo. Con esta
informacon adicional como cambian nuestras conclusiones? Cual es la
probabilidad de que la mujer este embarazada?
P(emb|+) =
P(+|emb)P(emb)
=
0.90 0.241
0.90 0.241 + 0.50 0.759
= 0.364
Si sucesivamente repetimos el test obteniendo resultados positivos, la
probabilidad de embarazo sera: test 3 = 0.507, test 4 =0.649, test 5 =
0.769, test 6 = 0.857, test 7 = 0.915, test 8 = 0.951, test 9 = 0.972, test
10 = 0.984.
Ejemplo
P(emb|+) =
P(+|emb)P(emb)
=
0.90 0.241
0.90 0.241 + 0.50 0.759
= 0.364
10 = 0.984.
Ejemplo
P(emb|+) =
P(+|emb)P(emb)
=
0.90 0.241
0.90 0.241 + 0.50 0.759
= 0.364
10 = 0.984.
Enfoque bayesiano
Probabilidad a priori: 0.15
Observacion de datos: resultado positivo en el test
Probabilidad a posteriori: 0.241
Actualizacion de las probabilidades al disponer de nueva informacion:
0.364
Teorema de Bayes para distribuciones
Los parametros del modelo son variables.
Probabilidad como incertidumbre.
Teorema de Bayes aplicado a distribuciones:
f (|datos) =
f (datos|)f ()
f (datos)
=
f (datos|)f ()
_
f (datos|)f ()d
Proporcionalidad:
f (|datos) f (datos|)f ()
Posteriori Verosimilitud Priori
f (|datos) =
f (datos|)f ()
f (datos)
=
f (datos|)f ()
_
f (datos|)f ()d
Proporcionalidad:
f (|datos) =
f (datos|)f ()
f (datos)
=
f (datos|)f ()
_
f (datos|)f ()d
Proporcionalidad:
Evoluci on del pensamiento estadstico
Programa
1
2
3
Un ejemplo electoral
Son las elecciones presidenciales de EEUU del a no 2004 con George W.
Bush y John F. Kerry como sus principales candidatos. Una consultora
realiza una encuesta en el estado de Ohio y obtiene que 556 personas de
los consultados elige a J. Kerry y 511 a G. Bush.
Quien ganara las elecciones?
Ejemplo electoral
Denimos a la variable X como intencion de voto.
Tenemos 556 + 511 = 1067 observaciones de X.
encuestado respuesta X
1 Kerry 1
2 Bush 0
3 Bush 0
.
.
.
.
.
.
.
.
.
1067 Kerry 1
X Bernoulli (p)
X =
_
1 p
0 1 p
datos = (x
1
, x
2
, . . . , x
1067
) = x
funcion de verosimilitud
f (x|p) =
1067
i =1
f (x
i
|p) = p
556
(1 p)
511
= L(p; x)
Maxima verosimilitud
Funcion de verosimilitud: L(p; x) = p
556
(1 p)
511
Estimador maximo verosmil: EMV =
556
1067
= 0.521
Error estandar:
_
0.5210.479
1067
= 0.015
Intervalo de conanza: IC
95%
= [0.492; 0.550]
Contraste de hipotesis: H
0
: p < 0.5
t =
(0.521 0.5)
0.015
= 1.4
Estimacion bayesiana
1
Establecer un modelo probabilstico completo: una distribucion de
probabilidad conjunta para todas las cantidades del problema,
observables y no obervables.
Funcion de verosimilitud: f (x|p)
Distribucion a priori: f (p)
2
Condicionar a los datos: obtener la distribucion a posteriori, es decir,
la distribucion condicionada de los parametros del modelo, dados los
datos.
Teorema de Bayes: f (p|x) f (x|p)f (p)
3
Resumir la distribucion a posteriori y evaluar el ajuste del modelo.
1
2
datos.
3
1
2
datos.
3
Distribuci on a priori
Como construimos la distribucion a priori?
1
Distribucion a priori informativa
-Estudios empricos previos
-Conocimiento del investigador:
Por intervalos
Estimacion de momentos y supuesto de simetra
Reparametrizacion de distribuciones. Ej.: beta(m , (1 m) )
2
Distribucion a priori no-informativa
Impropias: U(, ) o U(0, )
Jereys prior: p() |I ()|
0.5
Distribuciones poco informativas: N(, 10000),
2
G(0.001, 0.001)
Distribuci on a priori
Como construimos la distribucion a priori?
1
Distribucion a priori informativa
-Estudios empricos previos
-Conocimiento del investigador:
Por intervalos
Estimacion de momentos y supuesto de simetra
Reparametrizacion de distribuciones. Ej.: beta(m , (1 m) )
2
Distribucion a priori no-informativa
Impropias: U(, ) o U(0, )
Jereys prior: p() |I ()|
0.5
Distribuciones poco informativas: N(, 10000),
2
G(0.001, 0.001)
Distribuci on beta como a priori
Funcion de densidad 0 p 1; , > 0
f (p) =
( +)
()()
p
1
(1 p)
1
p
1
(1 p)
1
Estadsticos
E(p) =

+
moda(p) =
1
+ 2
var (p) =

( +)
2
( + + 1)
Distribuci on beta como a priori
Distribuci on beta como a posteriori
A posteriori: f (p|x) f (x|p)f (p)
funcion de verosimilitud: f (x|p) = p
n
1
(1 p)
n
2
distribucion a priori: f (p) =
(+)
()()
p
1
(1 p)
1
distribucion a posteriori:
f (p|x) p
n
1
(1 p)
n
2
p
1
(1 p)
1
= p
n
1
+1
(1 p)
n
2
+1
f (p|x) beta(n
1
+, n
2
+)
Distribuciones Bernoulli y beta son conjugadas - la distribucion a
posteriori es de la misma familia parametrica que a priori.
Distribuci on beta como a posteriori
A posteriori: f (p|x) f (x|p)f (p)
funcion de verosimilitud: f (x|p) = p
n
1
(1 p)
n
2
distribucion a priori: f (p) =
(+)
()()
p
1
(1 p)
1
distribucion a posteriori:
f (p|x) p
n
1
(1 p)
n
2
p
1
(1 p)
1
= p
n
1
+1
(1 p)
n
2
+1
f (p|x) beta(n
1
+, n
2
+)
Distribuciones Bernoulli y beta son conjugadas - la distribucion a
posteriori es de la misma familia parametrica que a priori.
Ejemplo electoral
Encuestas en 2004 de CNN/USAToday/Gallup:
fecha n % Kerry n
K
% Bush n
B
17-20 Oct 706 49% 346 48% 339
25-28 Sep 664 47% 312 49% 325
4-7 Sep 661 43% 284 52% 344
TOTAL 2031 942 1008
f (p) p
9421
(1 p)
10081
f (p|x) p
556
(1 p)
511
p
9421
(1 p)
10081
= p
14981
(1 p)
15191
f (p|x) beta(1498, 1519)
Ejemplo electoral
Encuestas en 2004 de CNN/USAToday/Gallup:
fecha n % Kerry n
K
% Bush n
B
17-20 Oct 706 49% 346 48% 339
25-28 Sep 664 47% 312 49% 325
4-7 Sep 661 43% 284 52% 344
TOTAL 2031 942 1008
f (p) p
9421
(1 p)
10081
f (p|x) p
556
(1 p)
511
p
9421
(1 p)
10081
= p
14981
(1 p)
15191
f (p|x) beta(1498, 1519)
Desplazamiento de la distribucion a priori
Distribuci on a posteriori
Como se obtiene la distribucion a posteriori?
Analticamente
Distribuciones conjugadas
Metodos numericos
Markov Chain Monte Carlo
(MCMC):
Gibbs Sampling
Metropolis-Hastings
Verosimilitud A priori conjugada
Bernoulli Beta
Binomial Beta
Multinomial Dirichlet
Binomial Negativa Beta
Poisson Gamma
Exponencial Gamma
Gamma(
2
) Gamma
Normal Normal
Normal
2
Gamma Inversa
Pareto Gamma
Pareto Pareto
Estimacion puntual
Problema de decision seleccion de criterio.
Elegimos

como estimador de tal que minimice la funcion de perdida
L(,

)
Sin embargo, es desconocido, tan solo tenemos su distribucion a
posteriori f (|x).
Minimizaremos la perdida esperada a posteriori
min
E[L(,

)|x] = min
L(,

)f (|x)d
El estimador bayesiano sera el argumento
= arg min
E[L(,

)|x]
Estimacion puntual
Problema de decision seleccion de criterio.
Elegimos

como estimador de tal que minimice la funcion de perdida
L(,

)
Sin embargo, es desconocido, tan solo tenemos su distribucion a
posteriori f (|x).
Minimizaremos la perdida esperada a posteriori
min
E[L(,

)|x] = min
L(,

)f (|x)d
El estimador bayesiano sera el argumento
= arg min
E[L(,

)|x]
Ejemplos de la funcion de perdida
Perdida cuadratica
L(,

) = (
)
2
el estimador bayesiano es la media a posteriori
E(|x) =
_

f (|x)d.
Perdida de error absoluto
L(,

) = |
|
el estimador bayesiano es la mediana a posteriori
:
_

f (|x)d = 0.5.
Perdida cuadratica
L(,

) = (
)
2
E(|x) =
_

f (|x)d.
L(,

) = |
|
:
_

f (|x)d = 0.5.
Perdida cuadratica
L(,

) = (
)
2
E(|x) =
_

f (|x)d.
L(,

) = |
|
:
_

f (|x)d = 0.5.
Perdida cuadratica
L(,

) = (
)
2
E(|x) =
_

f (|x)d.
L(,

) = |
|
:
_

f (|x)d = 0.5.
Error absoluto asimetrico
L
r ,s
(,

) =
_
s (
) si >

r (
) si

el estimador bayesiano es el cuantil

s
r +s
a posteriori
:
_

f (|x)d =
s
r + s
.
Error absoluto asimetrico
L
r ,s
(,

) =
_
s (
) si >

r (
) si

el estimador bayesiano es el cuantil

s
r +s
a posteriori
:
_

f (|x)d =
s
r + s
.
Estimador MAP
Una alternativa a la funcion de perdida es el estimador del maximo a
posteriori (MAP)
= arg max
f (|x) = arg max
f (x|)f ()
que corresponde a la moda a posteriori de f (|x).
El estimador MAP es una generalizacion del estimador clasico de maxima
verosimilitud.
Si suponemos la distribucion a priori no informativa f () 1, el estimador
MAP coincide con el estimador de maxima verosimilitud clasico.
= arg max
f (x|)
Estimador MAP
Una alternativa a la funcion de perdida es el estimador del maximo a
posteriori (MAP)
= arg max
f (|x) = arg max
f (x|)f ()
que corresponde a la moda a posteriori de f (|x).
El estimador MAP es una generalizacion del estimador clasico de maxima
verosimilitud.
Si suponemos la distribucion a priori no informativa f () 1, el estimador
MAP coincide con el estimador de maxima verosimilitud clasico.
= arg max
f (x|)
Estimacion por intervalos
Intervalo de credibilidad
_
q
L
f (|x)d = /2
_
q
U
f (|x)d = 1 /2
Pr (q
L
< < q
U
|x) = 1
Estimacion por intervalos
Intervalo HPD (highest posterior density):
Sea R una region de contenido 1 , es decir Pr ( R) = 1 .
R se llama region de maxima densidad a posteriori si para cualquier
1
R y
2
/ R se cumple f (
1
|x) f (
2
|x).
Ejemplo electoral
f (p|x) beta(1498, 1519)
Media=0.497
Moda=0.496
Mediana=0.497
Pr {p [0.479, 0.514]} = 95%
Clave: Cual es la probabilidad de ganar las elecciones?
Pr (p > 0.5) = 0.351
Ejemplo electoral
f (p|x) beta(1498, 1519)
Media=0.497
Moda=0.496
Mediana=0.497
Pr {p [0.479, 0.514]} = 95%
Clave: Cual es la probabilidad de ganar las elecciones?
Pr (p > 0.5) = 0.351
Modelo normal-normal con
2
conocido
La distribucion normal es una de las mas utilizadas.
funcion de verosimilitud f (x|,
2
) N(,
2
)
f (x|)
n
i =1
1
2
2
exp
_
(x
i
)
2
2
2
_
a priori - N(m,
2
)
f () =
1
2
2
exp
_
( m)
2
2
2
_
a posteriori
f (|x)
1
2
exp
_
( m)
2
2
2

n
i =1
(x
i
)
2
2
2
_
Modelo normal-normal con
2
conocido
El exponente
( m)
2
2
2

n
i =1
(x
i
)
2
2
2
se puede transformar en
2
2
2
m+n
2
x
n
2
+
2
2
n
2
+
2
y completando los cuadrados obtenemos la distribuci on a posteriori para el
parametro
f (|x) N
_
2
m +
2
n x
n
2
+
2
,

2
2
n
2
+
2
_
Modelo normal generalizado
funcion de verosimilitud f (x|,
2
) N(,
2
)
f (x|,
2
)
n
i =1
1
2
2
exp
_
(x
i
)
2
2
2
_
ahora los dos parametros ,
2
son desconocidos.
Distribucion a priori f (,
2
) = f () f (
2
) asumiendo independencia.
Introducimos distribuciones a priori no informativas
f () 1
f (log(
2
)) 1 f (
2
)
1
2
estas distribuciones son el caso lmite de N(m,
2
),
2
IG(a, b)
f (
2
) (
2
)
(a+1)
e
b/(
2
)
La densidad a posteriori
f (,
2
|x)
1
(
2
)
n/2+1
exp
_
(x
i
)
2
2
2
_
se puede expresar en forma
f (,
2
|x) = f (|
2
, x)f (
2
|x).
Suponiendo
2
jo
f (|
2
, x) exp
_
n
2
2n x
2
2
_
exp
_
( x)
2
2
2
/n
_
La densidad a posteriori se puede factorizar como
f (,
2
|x)
1
exp
_
( x)
2
2
2
/n
_
1
(
2
)
(n+1)/2
exp
_
x
2
i
n x
2
2
2
_
.
de d onde podemos identicar
f (
2
|x) IG(
n 1
2
,
(n 1)var (x)
2
)
El muestreo de la distribucion conjunta se puede realizar en dos pasos:
1
generar
2
de la distribucion f (
2
|x)
2
generar correspondiente de la distribucion f (|
2
, x)
Distribuci on predictiva a posteriori
Para la prediccion se emplea la distribucion predictiva a posteriori
f (y|x) =
_
f (y|) f (|x)d
Es el valor esperado del modelo especicado, ponderando los posibles
valores del parametro por su densidad a posteriori.
La distribucion predictiva a posteriori es la alternativa correcta al plug-in
f (y|x) = f (y|
)
Comparaci on de modelos
DIC: Este indicador eval ua tanto el ajuste del modelo como la complejidad
del mismo. Eval ua el poder explicativo del modelo. Menores valores del
DIC indican mejor ajuste del modelo.
DIC =

D + p
D
= 2
D D(
)
siendo D el estadstico de desvo
D() = 2 log f (x|)
PPLC: Este indicador tambien penaliza por complejidad del modelo.
Eval ua el poder predictivo del modelo.
PPLP =
k
k + 1
n
i =1
(
i
x
i
)
2
+
n
i =1
2
i
siendo
i
= E(x
rep
i
|x) y
2
i
= Var (x
rep
i
|x) y k es el peso que le damos al
primer termino del indicador.
Comparaci on de modelos
DIC: Este indicador eval ua tanto el ajuste del modelo como la complejidad
del mismo. Eval ua el poder explicativo del modelo. Menores valores del
DIC indican mejor ajuste del modelo.
DIC =

D + p
D
= 2
D D(
)
siendo D el estadstico de desvo
D() = 2 log f (x|)
PPLC: Este indicador tambien penaliza por complejidad del modelo.
Eval ua el poder predictivo del modelo.
PPLP =
k
k + 1
n
i =1
(
i
x
i
)
2
+
n
i =1
2
i
siendo
i
= E(x
rep
i
|x) y
2
i
= Var (x
rep
i
|x) y k es el peso que le damos al
primer termino del indicador.
Programa
1
2
3
Diferencias entre clasicos y bayesianos
Figure: Frecuentistas Figure: Bayesianos
Diferencias entre clasicos y bayesianos
Frecuentistas Bayesianos
Parametro jo Parametro variable
Datos variables (repeticion) Datos jos (observados)
Probabilidad como frecuencia lmite Probabilidad como incertidumbre
No incluye informacion previa Inclusion de informacion previa
Intervalos de conanza Intervalos de credibilidad
Contraste de hipotesis Distribucion a posteriori del
parametro
Provee una completa caracterizacion del parametro a traves de una
funcion de distribucion.
Provee un modo sistematico y explcito de incorporar conocimientos
previos.
Formaliza el proceso de aprendizaje a partir de los datos al actualizar
los resultados probabilsticos a medida que se conoce nueva
informacion.
Mejora la precision de la estimacion al incluir informacion extra y
acumular conocimiento.
Mejora la estimacion en casos de datos espaciados y datos faltantes a
traves de borrowing strength.
No asume innitas muestras ni normalidad.
Interpretacion mas directa que los intervalos de conanza, contrastes
de hipotesis y p-valor.
previos.
informacion.
previos.
informacion.
previos.
informacion.
previos.
informacion.
previos.
informacion.
previos.
informacion.

20y21marzo11 Palacios Bayesiano01 PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

20y21marzo11 Palacios Bayesiano01 PDF

Uploaded by

Copyright:

Available Formats

Introducci on a la estadstica bayesiana, aplicaciones y

el estimador bayesiano es el cuantil

el estimador bayesiano es el cuantil

f (|x) = arg max

f (|x) = arg max

You might also like