Professional Documents
Culture Documents
Bayesiana con R
Medellı́n
2013
La incertidumbre está en todas partes
y tú no puedes escapar de ella.
Dennis Lindley
i
ii
Prefacio
iii
Se asume que el lector tiene familiaridad con los métodos estadı́sticos
a un nivel operativo, al menos. conocimiento de inferencia a un nivel de
un texto básico de estadı́stica matemática del estilo de [12] o [17] ayuda
bastante.
iv
Índice general
1. Introducción 3
1.1. Ejemplos tı́picos . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Probabilidad personal o subjetiva . . . . . . . . . . . . . . . . 5
3. Teorema de Bayes 13
3.1. Consistencia Posterior . . . . . . . . . . . . . . . . . . . . . . 17
3.2. Usos de la Función de Verosimilitud en Análisis Bayesiano . . 17
4. Distribuciones Conjugadas 21
4.1. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . 23
4.1.1. Elicitación de los Parámetros de la Beta para Propor-
ciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2. Distribución Binomial Negativa . . . . . . . . . . . . . . . . . 31
4.3. Distribución Geométrica . . . . . . . . . . . . . . . . . . . . . 31
4.4. Distribución Multinomial . . . . . . . . . . . . . . . . . . . . 32
4.5. Distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . 33
4.6. Distribución Exponencial . . . . . . . . . . . . . . . . . . . . 41
4.6.1. Caso Especial: Se observa solo el primer estadı́stico de
orden . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.6.2. Caso Especial: Se observa solo el n-ésimo estadı́stico
de orden . . . . . . . . . . . . . . . . . . . . . . . . . . 42
v
4.6.3. Caso Especial: Se observan algunos datos censurados
en el punto x0 . . . . . . . . . . . . . . . . . . . . . . 43
4.6.4. Caso Especial: Se observan todos los datos censurados
en el punto x0 . . . . . . . . . . . . . . . . . . . . . . 43
4.7. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . 44
4.7.1. Precisión Conocida . . . . . . . . . . . . . . . . . . . . 44
4.7.2. Precisión Desconocida . . . . . . . . . . . . . . . . . . 45
4.7.3. Media y Precisión Desconocidas . . . . . . . . . . . . . 46
4.8. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . 49
4.9. Conjugadas en Tramos . . . . . . . . . . . . . . . . . . . . . . 50
5. Análisis de Sensibilidad 51
5.1. Sensibilidad a la Apriori . . . . . . . . . . . . . . . . . . . . . 52
5.1.1. Distancias entre Aposterioris . . . . . . . . . . . . . . 52
5.1.2. Análisis de fronteras extremas (exterme bounds analy-
sis) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2. Sensibilidad a los Datos . . . . . . . . . . . . . . . . . . . . . 52
7. Marginalización 67
8. Inferencia Bayesiana 71
8.1. Estimación Puntual . . . . . . . . . . . . . . . . . . . . . . . 71
8.2. Regiones de Credibilidad . . . . . . . . . . . . . . . . . . . . . 79
8.2.1. Región de la Densidad Posterior Más Alta (RDPMA) 79
8.2.2. Intervalos Aproximados . . . . . . . . . . . . . . . . . 83
8.3. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . 84
8.3.1. Comparación de Modelos . . . . . . . . . . . . . . . . 93
8.4. Cálculo del Factor de Bayes vı́a MCMC . . . . . . . . . . . . 97
8.4.1. Método de Carlin y Chib . . . . . . . . . . . . . . . . 97
8.4.2. Método de Dellaportas, Foster y Ntzoufras . . . . . . 98
8.5. Otras aproximaciones al factor de Bayes . . . . . . . . . . . . 98
8.6. La aproximación BIC . . . . . . . . . . . . . . . . . . . . . . . 99
vi
9. Estadı́stica Bayesiana vı́a Simulación 103
9.1. MCMC: Monte Carlo por Cadenas de Markov . . . . . . . . . 104
9.1.1. Muestreador de Gibbs . . . . . . . . . . . . . . . . . . 110
9.1.2. Muestreador Griddy Gibbs . . . . . . . . . . . . . . . 123
9.1.3. Algoritmo Metropolis-Hastings . . . . . . . . . . . . . 124
9.1.4. El Algoritmo Metropolis . . . . . . . . . . . . . . . . . 125
9.1.5. Problemas con el Muestreador de Gibbs . . . . . . . . 126
9.1.6. Ventajas y Desventajas Dos Esquemas de Muestreo . 126
vii
13.Modelo Lineal Generalizado 183
13.1. Modelo Logı́stico . . . . . . . . . . . . . . . . . . . . . . . . . 184
13.1.1. Selección de la Distribución Apriori . . . . . . . . . . 185
13.2. Regresión Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 188
13.3. Estimación del coeficiente de correlación . . . . . . . . . . . . 190
13.3.1. Distribución No Informativa de Laplace . . . . . . . . 191
13.3.2. Distribución Apriori Informativa . . . . . . . . . . . . 191
13.3.3. Uso del Modelo Completo . . . . . . . . . . . . . . . . 192
1
2
Capı́tulo 1
Introducción
3
• estudios previos
• información subjetiva de expertos (la cuantificación de esta in-
formación es lo que llamamos elicitación).
4
encuesta, aunque es posible utilizar procedimientos como el de la respues-
ta aleatorizada, el hecho de enfrentar un encuestador puede llevar a dar
respuestas socialmente aceptables.
ξ P (θ |z n0 ) ξ0 (θ) [L (θ |z n0 )]a0
5
donde 0 < a0 < 1 es llamado un parámetro de precisión que que valora
la calidad de la información muestral previa. Como puede ser difı́cil
especificar un valor preciso para a0 , se puede considerar una apriori
sobre este parámetro, digamos ξ (a0 |γ0 ) y por lo tanto el resultado
final será
Z
ξ P (θ |z n0 , a0 ) ξ (a0 |γ0 ) d a0
6
Capı́tulo 2
Probabilidad Subjetiva “Apriori”
7
hacer las creencias relativas explı́citas [8]. Hay condiciones naturales a ser
impuestas sobre las apuestas:
La apuesta debe ser reversible y que ninguna apuesta pueda ser ela-
borada tal que uno pierda o gane con certeza. Esta condición obliga
al sujeto a asignar las apuestas consistentemente con sus creencias.
8
Loterı́a A Ud. gana $100 con probabilidad 21 .
Ud. gana $0 con probabilidad 12 .
Se asume
Loterı́a B Ud. gana $100 si llueve mañana.
Ud. gana $0 si no llueve mañana.
9
indiferente entre X y Y , entonces ud. será indiferente entre las
dos loterı́as sin importar la escogencia de P (E).
10
robado en menos de un año (asumamos que su carro cuesta esta cantidad).
Cuál es la máxima cantidad de dinero que ud. estarı́a dispuesto a pagar por
este contrato? Si ud. está dispuesto a pagar cien mil pesos, entonces su pro-
babilidad subjetiva es 100,000/1,000,000 = 0,1. Este argumento es simular
al caso de las apuestas y la idea detrás es la maximización de la utilidad
del individuo. [14] discuten la relación entre elicitación de probabilidades y
utilidades y otras alternativas.
(
Conjugadas
Distribuciones Apriori =
No conjugadas
11
2.2. Distribuciones Apriori No Informativas
En muchas ocasiones sabemos nada o muy poco acerca del parámetro
de interés o no queremos involucrar en nuestro estudio información previa,
sino más bien dejar que sean los datos los que “hablen por ellos mismos”.
En este caso la distribución debe reflejar nuestro total desconocimento de
los valores posibles del parámetro. Esta es un área de trabajo que ha crecido
enormemente.
12
Capı́tulo 3
Teorema de Bayes
Prueba: (Ejercicio)
f (x|θ) ξ(θ)
ξ (θ|x) = R
Θ f (x|θ) ξ(θ) dθ
13
ξ(θ): Distribución apriori de θ.
π ∼ U (π0 , π1 )
Esto es,
1
ξ (π|π0 , π1 ) = 0 ≤ π0 < π < π 1 ≤ 1
π1 − π0
14
La distribución posterior de π dado x es
Γ(n+2) (y+1)−1 (1 − π)(n−y+1)−1
Γ(y+1)Γ(n−y+1) π
ξ (π|x, π0 , π1 ) = R π1 Γ(n+2) (y+1)−1 (1 − π)(n−y+1)−1 dπ
π0 Γ(y+1)Γ(n−y+1) π
P
donde y = ni=1 xi . Notemos que el denominador de la función es la P (π0 < W < π1 |y + 1, n − y + 1),
donde W ∼ Beta(y + 1, n − y + 1), y esto se calcula fácilmente en programas
como el R.
Es fácil hallar la media y la varianza aposteriori. Ellas son
1
ξ(π) = para π ∈ (0,35, 0,70)
0,70 − 0,35
= 0 en otro caso.
15
lo que produce (0.0963, 0.703).
La aproximación bayesiana nos da una distribución posterior
Γ(12) 4
Γ(5)Γ(5) π (1 − π)6
ξ (π|n = 10, y = 4, π0 = 0,35, π1 = 0,70) =
K(0,70; 5, 7) − K(0,35; 5, 7)
16
donde µ > 0 y ν > 0.
La distribución posterior será
µ −n Tn
ξ(θ |Datos ) ∝ θ−(ν+1) exp − θ exp −
θ θ
T n + µ
∝ θ−(ν+n+1) exp −
θ
17
forma básica, produciendo L(θ), y concentrar la elicitación subjetiva
a ξ(θ).
4. Objevitivismo: Aunque la “objetividad” no se puede garantizar en
ningún estudio, el presentar L(θ) ayuda a darle esta impresión a mu-
chos investigadores.
5. Combinación de Verosimilitudes: Si se obtiene información sobre θ de
diferentes fuentes independientes, y vienen con sus respectivas verosi-
militudes, digamos Li (θ), podemos resumir toda esta información co-
Q
mo i Li (θ). Esta es la base del meta-análisis. De hecho, no se pueden
multiplicar aposterioris de esta forma.
6. Aprioris Impropias: Se reducen los peligros de utlizar aprioris impro-
pias.
18
en el cual existe la variable ficticia θ tal que Z1 , Z2 , . . . son independientes
condicionales en θ (esto es, condicionalmente independientes).
19
20
Capı́tulo 4
Distribuciones Conjugadas
1. Tratabilidad analı́tica:
21
“Una apriori conjugada natural tiene la propiedad adicional de tener
la misma forma funcional de la verosimilitud. Esta propiedad significa que
la información apriori puede ser interpretada de la misma manera que la
información en la función de verosimilitud. En otras palabras, la apriori
puede ser interpretada como si surgiera de un conjunto de datos ficticios
obtenidos del mismo proceso que generó los datos reales”. [16], pág. 18)
Las distribuciones conjugadas juegan un papel importante en los méto-
dos bayesianos, ya que su uso puede simplificar el procedimiento de integra-
ción requerido para la marginalización. Ya que al pertenecer la apriori y la
aposteriori a la misma familia, el proceso de actualización de parámetros se
simplifica [21], lo cual es una gran ventaja para los sistemas inteligentes.
La conjugación nos limita a la selección de una clase de aprioris limi-
tada y la información apriori solo puede utilizarse para la selección de los
hiperparámetros. Si la clase es lo suficientemente grande esto puede no ser
un gran problema. [22] afirma que la automatización de la selección apriori
es una ventaja y una desventaja, ya que por un lado se facilita el proceso de
actualización, en especial cuando esto se hace en un proceso dinámico, pero
en muchas ocasiones limita el proceso de representación de la distribución
apriori y hace referencia a un experimento planteado por Diaconis y Ylvisa-
ker sobre el experimento de dejar caer una moneda que se tiene parada sobre
su borde en forma perpendicular a una superficie horizontal, ellos dicen que
la experiencia muestra que la disribución es bimodal con modas en 1/3 y
2/3.
Si x1 , · · · , xn son v.a.’s i.i.d. de un proceso definido por f (x |θ ), don-
de θ puede ser un escalar o un vector de parámteros desconocidos de in-
terés. Asumimos que existe un familia conjugada para este proceso, donde
ξ (θ |φ ), cuyos miembros están indezados por el hiperparámetro φ. Ya que
existe la familia conjugada, por lo tanto es posible factorizar la versoimilitud
L (θ |x1 , · · · , xn ) de la siguiente manera:
yi = h (xi )
22
Si el proceso es continuo, tenemos entonces
d
L (θ |y ) = f h−1 (y) |θ h−1 (y) ,
dy
Por lo tanto
23
Sean X1 , · · · , Xn variables aleatorias independientes Bernoulli(π). La ve-
rosimilitud es P P
L(θ) ∝ π i Xi (1 − π)n− i Xi
El parámetro π es univariable, y restringido al intervalo [0, 1]. La distribución
conjugada será
α
E(π) =
α+β
α−1
M oda =
α+β−2
αβ E(π)(1 − E(π))
V ariancia = 2
=
(α + β) (α + β + 1) α+β+1
P
la cual es una distribución beta con hiperparámetros α + i Xi y β + n −
P
i Xi . Por lo tanto, la precisión posterior se incrementa por el tamaño
muestral n.
24
Distribuciones Beta(a,a)
5
4
Beta(1,1)
Beta(0.8,0.8)
Beta(0.5,0.5)
3
Beta(0.3,0.3)
Densidad
2
1
0
Figura 4.1: Distribución beta para las cuales los parámetros son iguales.
25
Distribuciones Beta(1,b)
5
4
Beta(1,1)
Beta(1,10)
Beta(1,20)
3
Beta(1,50)
Densidad
2
1
0 0.0 0.2 0.4 0.6 0.8 1.0
Figura 4.2: Distribución beta para las cuales el α permanece fijo y β varı́a.
α+1
r+ =
α+β+1
3. Resuelva simultáneamente
r (1 − r+ )
α =
r+ − r
(1 − r) (1 − r+ )
β =
r+ − r
α
r− =
α+β+1
y compruebe si los valores elicitados concuerdan.
26
Método para elicitar los parámetro de una Beta en el caso de
muestreo Bernoulli: Propuesta de [?]
Este método funciona ası́:
1. Especifique un valor para n, el número de ensayos hipotéticos a ser
considerados en la elicitación, se ha recomendado usar n = 20 por los
autores del método.
f (m − 1) (n − m)(m + α)
dl = =
f (m) (m + 1)(n − m + β − 1)
y
f (m + 1) (n − m + β)
du = =
f (m) (n − m + 1)(m + α − 1)
α1 − 1
γ=
α1 + β 1 − 2
que corresponde a la moda de una distribución Beta(α1 , β1 ). Ahora
calcule el intervalo de probabilidad más corto que contenga al menos
27
el 50 % de la probabilidad, y presente los puntos que lo constituyen,
sus probabilidades, y la suma de las probabilidades. Al sujeto se le
pregunta si este intervalo es muy largo, en cuyo caso h = −1, si es
adecuado, en cuyo caso h = 0, o si es demasiado corto, en cuyo caso
h = 1. Entonces los nuevos valores de α y β son definidos como
αi+1 = 1 + 2h (αi − 1)
βi+1 = 1 + 2h (βi − 1)
8. Los autores sugieren que este procedimiento puede ser repetido con
diferentes valores de n, y que las estimadas resultantes pueden ser
mezcladas de alguna manera.
La distribución beta-binomial
Asuma la función de probabilidad de los datos una binomial(n, π). La
distribución apriori sobre π una Beta(α, β). Recordemos que la media y la
varianza de la beta son
α
E(π) =
α+β
αβ
V ar(π) =
(α + β)2 (α + β + 1)
Γ(M )
ξ(π) = π M µ−1 (1 − π)M (1−µ)−1
Γ(µM )Γ(M (1 − µ))
28
E(π) = µ
µ(1 − µ)
V ar(π) =
M +1
Sabemos que la distribución posterior es una beta(x−M µ, n−x+M (1−
µ)). O sea
Γ(M ) Γ(n)
ξ (π|x) = π x+M µ−1 (1 − π)n−x+M (1−µ)−1
Γ(µM )Γ(M (1 − µ)) Γ(x)Γ(n − x)
A partir de esta distribución podemos hallar la distribución marginal de
x. Esta se halla reconociendo que en el teorema de Bayes la constante de
normalización corresponde a una realización de esta distribución.
Z 1
m(x) = ξ(π|x) dπ
0
Γ(M ) Γ(n)
=
Γ(µM )Γ(M (1 − µ)) Γ(x)Γ(n − x)
Γ(x + M µ)Γ(n − x + M (1 − µ))
×
Γ(n + µM )
Para hallar la media y la varianza de esta distribución se puede proceder
de una manera indirecta
X X
E = E E π = E(π) = µ
n n
X X X
V ar = E V ar π + V ar E π
n n n
π(1 − π)
= E + V ar(π)
n
µ(1 − µ) (n − 1) µ(1 − µ)
= +
n n (M + 1)
µ(1 − µ) n−1
= 1+
n M −1
Modificación de Gavasakar
[11] propone la siguiente modificación al procedimiento PM.
1. Piense en n0 ensayos Bernoulli independientes. Especifique su moda
m0 , o sea el número de éxitos más probable, en su opinión.
29
2. Para i = 1, 2, · · · , I, suponga que se efectuaron ki ensayos Bernoulli
y que el número de éxitos observados fue si . Ahora piense en ni ensayos
adicionales. Especifique su moda mi .
3. Encuentre los valores de a y b que minimizan
I
X 2
(ni + 1)(a + si ) 1
mi − −
i=1
a + b + ki 2
donde k0 = s0 = 0
30
Gordy propone la hipergeométrica confluente compuesta definida por
P (X = k) = (1 − π)π k k = 0, 1, 2, · · ·
√
Su media es π/(1 − π) y su varianza π/(1 − π)2 . El sesgo es (1 + π)/ π.
31
4.4. Distribución Multinomial
La distribución multinomial juega un papel fundamental en el trabajo
aplicado, siendo la generalización multivariable de la distribución binomial.
La media de Xi es
αi
E(Xi ) =
α0
P
donde α0 = ki=1 α1 .
La varianza de Xi es
αi (α0 − αi )
var(Xi ) =
α02 (α0 + 1)
32
Figura 4.3: Distribución posterior marginal para cada una de las proporcio-
nes del tipo de sangre.
Tipo de Sangre
O A AB B
Frecuencia 474 246 11 59
θx exp(−θ)
f (x) = x = 0, 1, 2, 3, · · ·
x!
33
Figura 4.4: Distribución conjunta entre un par de los parámetros considerado
en el problema de los tipos de sangre.
34
Ejemplo 4.2 Caso de accidentalidad. En la presentación de la alcaldı́a
de Medellı́n llamada “Georreferenciación de la accidentalidad en los princi-
pales tramos y avenidas de Medellı́n. Año 2008” se dice que el número de
accidentes de tránsito en la ciudad con muertos fue de 315 para ese año. Si
asumimos que el número de accidentes con muertes sigue una distribución
Poisson con parámetro θ y si asumimos una Gamma apriori poco informa-
tiva, digamos α0 = 0,001 y β0 = 0,001, la aposteriori será Gamma con
α1 = 315,001 y β1 = 1,001. La media aposteriori será 314.6863, la cual es
bastante parecida al valor obtenido en la muestra de tamaño 1 que tenemos.
Probabilidad 0 1 2 3 4 5 6 ó más.
λx exp(−λ)/x! π0 π1 π2 π3 π4 π5 π6+
Le decimos al experto que nos responda algo como esto: Si ud. obser-
vara 1000 partidos de fútbol, en cuántos esperarı́a que local no hiciera
goles? un gol? dos goles? tres? cuatro? cinco? seis ó más goles? Esto
nos da una tabla como la siguiente:
Goles 0 1 2 3 4 5 6 ó más.
Nro. de juegos n0 n1 n2 n3 n4 n5 n6+
35
X
ni = 1000
i
Goles 0 1 2 3 4 5 6 ó más.
Nro. de juegos 170 250 300 180 60 35 5
error<-NA
acumulado<-NA
media.sin<-NA
media.corr<-NA
medias<-seq(0.5,4,length=20)
for(i in medias){
proba<-dpois(0:20,i)
acumu<-1-sum(proba[1:6])
media<-sum((0:5)*proba[1:6])+6.0*(1-sum(proba[1:6]))
media.sin<-c(media.sin,media)
error<-c(error,i-media)
acumulado<-c(acumulado,acumu)
}
36
Error que se comete con el truncamiento
en la estimación de la media
0.20
0.15
0.10
Error
0.05
0.00
acumulado<-acumulado[-1]
error<-error[-1]
media.sin<-media.sin[-1]
> summary(modelo<-lm(error~acumulado+acumulado2))
Call:
lm(formula = error ~ acumulado + acumulado2)
Residuals:
Min 1Q Median 3Q Max
37
Figura 4.6: Consideramos el porcentaje de observaciones hasta el punto
de truncamiento. Podemos aproximar esta relación mediante una función
cuadrática. Con datos reales la corrección la obtenemos calculando el por-
centanje de observaciones bajo el punto de truncamiento.
38
-0.0010180 -0.0006270 0.0001269 0.0006803 0.0008440
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.0007817 0.0002460 -3.178 0.0055 **
acumulado 0.4164908 0.0082370 50.563 <2e-16 ***
acumulado2 2.3313949 0.0427119 54.584 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
calcula.lambda<-function(proba){
acumu<-1-sum(proba[1:6])
media<-sum((0:5)*proba[1:6])+6.0*(1-sum(proba[1:6]))
media.cor<-media-0.0007817+ 0.4164908*acumu
+ 2.3313949*acumu^2
return(media.cor)
}
# Generación de la multinomial
temp<-scan()
170 250 300 180 60 35 5
res.multi<-rmultinom(2000,1000,temp)/1000
lambdas<-apply(res.multi,2,calcula.lambda)
hist(lambdas,freq=F,xlab=expression(lambda),
main=’Distribución Apriori’,ylab=’Frecuencia’)
summary(lambdas)
39
require(MASS)
fitdistr(lambdas,’gamma’)
shape rate
1897.79902 1032.99342
( 60.05904) ( 32.69511)
α = 1897,79902
β = 1032,99342
xx<-seq(1.5,2.2,length=100)
yy<-dgamma(xx, 1897.79902,rate=1032.99342)
points(xx,yy,type=’l’,col=’red’)
40
4.6. Distribución Exponencial
La distribución exponencial tiene función de densidad de probabilidad
dada por
La prueba es directa:
41
4.6.1. Caso Especial: Se observa solo el primer estadı́stico de
orden
Si solo tenemos el valor del primer estadı́stico de orden, o sea el menor
valor de la muestra de tamaño n, nuestra verosimilitud será proporcional a
la densidad del primer estadı́stico de orden. Si X( 1) denota el mı́nimo valor
de la muestra de una distribución abasolutamente continua, su función de
distribución está dada por
h in
F1 x(1) = 1 − 1 − F x(1)
En el caso exponencial
f1 x(1) = nλ exp −nλx(1)
ξ λ x(1) , n ∝ λ exp −nλx(1) λα−1 exp (−βλ)
∝ λ(α+1)−1 exp −λ β + nx(1)
42
En el caso exponencial
n−1
fn x(n) = nλ exp −λx(n) 1 − exp −λx(n)
n−1
ξ λ x(n) , n ∝ λ exp −λx(n) 1 − exp −λx(n) λα−1 exp (−βλ)
n−1
∝ λ(α+1)−1 exp −λ β + x(n) 1 − exp −λx(n)
n1
!
X
L (λ |Datos ) ∝ λ n1
exp −λ xi (P (X > x0 |λ ))n0
i=1
n1
!
X
n1
∝ λ exp −λ xi exp (−n0 λx0 )
i=1
n1
!!
X
n1
∝ λ exp −λ n0 x0 + xi
i=1
La aposteriori será
n1
!!
X
ξ (λ |Datos ) ∝ λα−1 exp −λ β + n0 x0 + xi
i=1
Pn 1
Esta corresponde a una Gamma (α, β + n0 x0 + i=1 xi ).
43
L (λ |Datos ) ∝ (P (X > x0 |λ ))n = exp (−nλx0 )
La aposteriori será
Su función de densidad es
!
1 1 (x − µ)2
f (x) = √ exp −
2πσ 2 σ2
Distribución Posterior:
(µ|X = x) ∼ N (µ1 , τ1 )
44
donde
τ0 µ0 + nrx̄
µ1 =
τ0 + nr
τ1 = τ0 + nr es la precisión
y x̄ es la media muestral.
Prueba: La prueba es elemental.
2
Asumimos una gamma de la forma
β α α−1 −βx
f (x) = x e
Γ(α)
45
4.7.3. Media y Precisión Desconocidas
Este caso, a pesar de lo simple que puede parecer, muestra la complejidad
a la que puede llegar a enfrentar el estadı́stico ante la presencia de varios
parámetros.
(µ|X = x) ∼ N (µ1 , τ1 )
donde
τ0 µ0 + nx̄
µ1 =
τ0 + n
τ1 = (τ0 + n)r
y x̄ es la media muestral.
2. la distribución marginal de R es Gamma(α1 , β1 ) donde
n
α1 = α0 +
2
n
1X 2 τ n (x̄ − µ0 )2
β1 = β0 + (xi − x̄) +
2 i=1 2(τ + n)
Prueba:
Recuerde que
f (x, y)
f (x|y) = ⇒ f (x, y) = f (x|y) f (y)
f (y)
46
Si X1 , · · · , Xn es una muestra aleatoria de una distribución normal con
un valor desconocido de la media µ y un valor desconocido de la precisión τ
(τ > 0) la verosimilitud será:
n
Y
τ τ 1/2
L ( µ, τ | Datos) = √ exp − (xi − µ)2
i=1 2π 2
n
!
τX
∝ τ n/2
exp − (xi − µ)2
2 i=1
Ahora
n
X n
X
(xi − µ)2 = (xi − x̄ + x̄ − µ)2
i=1 i=1
n
X
= (xi − x̄)2 + n (x̄ − µ)2
i=1
= (n − 1)S 2 + n (x̄ − µ)2
τ
L ( µ, τ | Datos) ∝ τ exp − (n − 1)S 2 + n (x̄ − µ)2
n/2
2
n/2 τ 2 nτ 2
∝ τ exp − (n − 1)S exp − (x̄ − µ)
2 2
La apriori es
ξ (µ, τ ) = ξ ( µ| τ ) ξ (τ )
τ0 τ
∝ greenτ 1/2 exp − (µ − µ0 )2 blueτ α0 −1 exp (−β0 τ )
2
La aposteriori será
τ nτ
ξ (µ, τ ) ∝ τ exp − (n − 1)S 2 exp −
n/2
(x̄ − µ)2
2 2
1/2 τ0 τ 2
×τ exp − (µ − µ0 ) τ α0 −1 exp (−β0 τ )
2
i
n/2+1/2 τh 2 2
∝ τ exp − n (x̄ − µ) + τ0 (µ − µ0 )
2
!!
(n − 1)S 2
×τ α0 −1 exp −τ + β0
2
47
hAhora i
n (x̄ − µ)2 + τ0 (µ − µ0 )2 = n (µ − x̄)2 + τ0 (µ − µ0 )2
= nµ2 − 2nµx̄ + nx̄2 + τ0 − 2τ0 µµ0 + τ0 µ20
2 2 2
h − 2µ (nx̄ + τ0 µi0 ) + nx̄ + τ0 µ0
= (n + τ0 ) µ
2 (nx̄+τ0 µ0 ) 2 2
= (n + τ0 ) µ − 2µ (n+τ0 ) + nx̄ + τ0 µ0
h i
(nx̄+τ0 µ0 )2 (nx̄+τ0 µ0 )2
= (n + τ0 ) µ2 − 2µ (nx̄+τ 0 µ0 )
(n+τ0 ) + (n+τ0 ) 2 − (n+τ0 ) + nx̄2 + τ0 µ20
(nx̄+τ0 µ0 ) 2 (nx̄+τ0 µ0 ) 2
= (n + τ0 ) µ − (n+τ0 ) − (n+τ0 ) + nx̄2 + τ0 µ20
Ahora
(nx̄ + τ0 µ0 )2
− + nx̄2 + τ0 µ20
(n + τ0 )
− (nx̄ + τ0 µ0 )2 + nx̄2 + τ0 µ20
=
(n + τ0 )
−n x̄ − 2nx̄τ0 µ0 − τ02 µ20 + nx̄2 + τ0 µ20
2 2
=
(n + τ0 )
(n + τ0 ) τ0 − τ02 µ20 + n (n + τ0 ) − n2 x̄2 − 2nx̄τ0 µ0
=
(n + τ0 )
2 2
nτ0 µ0 + nτ0 x̄ − 2nx̄τ0 µ0
=
(n + τ0 )
nτ0 µ0 + x̄2 − 2x̄µ0
2
=
(n + τ0 )
nτ0 (µ0 − x̄)2
=
(n + τ0 )
Entonces
48
ξ(µ, τ ) ∝
(nx̄+τ0 µ0 ) 2
exp − τ (n+τ
2
0)
µ− (n+τ0 )
h i
nτ0 (µ0 −x̄)2
× exp − τ2 (n+τ0 )
n/2+1/2 α −1 (n−1)S 2
× τ τ 0 exp −τ 2 + β0
(nx̄+τ0 µ0 ) 2
∝ τ 1/2 exp − τ (n+τ
2
0)
µ− (n+τ0 )
(n−1)S 2 nτ0 (µ0 −x̄)2
× τ α0 +n/2−1 exp −τ 2 + β0 + 2(n+τ0 )
β α α−1
f (x|α, β) = x exp (−βx) x > 0, α > 0
Γ(α)
donde
n
X
s = xi
i=1
Yn
p = xi
i=1
Miller (1980) usa una clase conjugada muy general definida por la con-
junta
0
β ν α−1 0 α−1
ξ(α, β) ∝ (p ) exp −s0 β
[Γ(α)]n0
49
0
donde α > 0, β > 0, n0 > 0, ν 0 > 0, s0 > 0 y p0 > 0, tal que n0 (p0 )1/n /s0 < 1.
La distribución posterior es proporcional a
00
β ν α−1 00 α−1
ξ(α, β|x) ∝ n 00 p exp −s00 β
[Γ(α)]
donde ν 00 = ν 0 + n, p00 = p0 p, s00 = s0 + s y n00 = n0 + n.
La distribución condicional de β dado α es una Gamma (ν 00 , s00 ), y la
distibución marginal posterior de α es proporcional a
ν 00 α
Γ (ν 00 α) r00
[Γ(α)]00 n00
donde
√ 0 0 0
r00 ν 00
p00 (p0 )1/(ν +n) (r/n)n/(ν +n) sn/(ν +n)
= =
n00 s00 s0 + s
50
Capı́tulo 5
Análisis de Sensibilidad
51
combinación con las aprioris. En resumen, debido a la influencia
conjunta de la información apriori y los datos en el análisis, un
análisis convincente investiga la sensibilidad de la aposteriori a
las aprioiris y los datos.
Z 1/p
Lp (f, g) = |f − g|p
Z p 1/p
1/p 1/p
Hp (f, g) = f −g
52
Belsley, Kuh y Welch (1980). Ellos propuesieron una metodologı́a basada en
estadı́sticos construı́dos teniendo como base la eliminación de observaciones
o el cambio de la posición de una observación. Weiss (1996) propone varias
alternativas para realizar este tipo de análisis basados en el concepto de
influencia, el cual ha sido ampliamente usado en la estadı́stica tradicional.
Se utiliza el concepto de perturbación como la función de influencia, deno-
tada por h∗ (θ), sobre el modelo. Las pertubaciones estándar en el análisis
bayesiano son:
Perturbación de apriori
q(θ)
h∗2 (θ) ∝
ξ(θ)
f (yi + δ |θ, xi )
h∗3i (θ, δ) ∝
f (yi |θ, xi )
53
54
Capı́tulo 6
Distribuciones Apriori No
Informativas
55
Z
ξ(θ) dθ = ∞
Θ
Notas:
y la distribución posterior es
!
σ2
θ|y ∼ N ȳ,
n
56
Yang y Berger (1998) presentan varias razones por las cuales es impor-
tante considerar las distribuciones no informativas. Tenemos entre ellas
ξ(θ) ∝ 1 para θ ∈ Θ
57
medida infinita al espacio. Más generalmente, si ξ(θ) es cualquier función no
negativa definida en el espacio parametral Θ, tal que ξ(θ) >R 0, entonces ξ(θ)
es llamada una “cuasi densidad apriori.” Aquı́, la integral ξ(θ)dθ puede o
no converger.
Definición 6.1 Una cuasi densidad apriori ξ(θ) es llamada “admisible”
con respecto a una densidad f (x |θ ) definida para x ∈ X, si
Z
h(x) = f (x |θ ) ξ(θ)dθ < ∞
Θ
para casi todo x ∈ X.
Para cada cuasi densidad apriori ξ(θ) que sea admisible con respecto a
f (x |θ ), existe una densidad definida en Θ como sigue:
f (x |θ ) ξ(θ)
ξ ∗ (θ |x ) = .
h(x)
Si ξ(θ) es una densidad apriori propia, entonces, por el teorema
R
de Bayes,
ξ ∗ es una densidad posterior para dado x. Si, sin embargo, Θ ξ(θ)dθ = ∞,
entonces ξ(θ) es simplemente una sustitución formal en el teorema de Bayes.
Estrictamente hablando, el teorema no aplica más pero ξ ∗ es una densidad
de probabilidad propia en Θ, y ası́, un bayesiano entusiasta puede proceder
con su análisis usual tomando a ξ ∗ como su distribución posterior. Wallace
llama a ξ ∗ una densidad posterior débil.”
58
Definición 6.3 La distribución apriori de Jeffreys se define como
ξ(θ) ∝ |I(θ)|1/2
p(y|π) = π y (1 − π)1−y
Entonces tenemos
ξ(π) ∝ I(π)1/2
1/2
1
=
π(1 − π)
= π −1/2 (1 − π)−1/2
= π 1/2−1 (1 − π)1/2−1
59
Ası́ π ∼ Beta 12 , 21 . Por lo que vemos en este caso la distribución apriori
de Jeffreys es propia.
1 1
f (x|µ, σ) = √ exp − 2 (x − µ)2
2πσ 2σ
1 1
log (f (x|µ, σ)) = − log(2π) − log(σ) − 2 (x − µ)2
2 2σ
∂ log (f (x|µ, σ)) 1
= (x − µ)
∂µ σ2
2
∂ log (f (x|µ, σ)) 1
= − 2
∂µ2 σ
∂ log (f (x|µ, σ)) 1 1
= − + 3 (x − µ)2
∂σ σ σ
2
∂ log (f (x|µ, σ)) 1 3
= − (x − µ)2
∂σ 2 σ2 σ4
∂ 2 log (f (x|µ, σ)) 2
= − 3 (x − µ)
∂µ∂σ σ
60
1 2 1/2
= ×
σ2 σ2
1
∝
σ2
Esta distribución apriori de Jeffreys es impropia.
(I(θ))1/2 dθ = (I(ψ))1/2 dψ
La apriori de Jeffreys preserva la escala en parametrizaciones.
dψ(µ) −1
(I(ψ(µ)))1/2 = (I(µ))1/2
dµ
= 1 × e−µ
= e−µ
Ası́ la distribución apriori de Jeffreys para ψ(µ) = eµ es
61
Ejemplo 6.5 Apriori de Jeffreys para una binomial y una binomial
negativa. Según el principio de verosimilitud no existe diferencias entre la
información proporcionada por los dos esquemas de muestreo. Sin embargo
si se escoge una distribución no informativa de Jeffreys para el caso binomial,
ésta es
sujeto a la restricción
k
X
θi p (θi ) = C
i=1
62
y que
k
X
p (θi ) = 1
i=1
63
Apriori no informativa uniforme de Laplace
π(λ) ∝ 1
Apriori de Jeffreys
π(λ) ∝ λ−1/2
64
Media Varianza Perc. 0.05 Mediana perc. 0.95
1 1.6534 0.0094 1.4973 1.6515 1.8160
2 1.6165 0.0046 1.5067 1.6155 1.7295
3 1.5966 0.0030 1.5072 1.5960 1.6881
4 1.5838 0.0022 1.5066 1.5833 1.6626
5 1.5377 0.0017 1.4704 1.5373 1.6062
6 1.5264 0.0014 1.4656 1.5261 1.5881
7 1.5190 0.0012 1.4624 1.5188 1.5765
8 1.5091 0.0011 1.4560 1.5089 1.5631
9 1.5082 0.0010 1.4578 1.5080 1.5593
10 1.5011 0.0009 1.4533 1.5010 1.5497
11 1.4895 0.0008 1.4439 1.4894 1.5358
12 1.4930 0.0007 1.4491 1.4928 1.5374
13 1.4877 0.0007 1.4455 1.4875 1.5304
14 1.4944 0.0006 1.4535 1.4942 1.5357
15 1.4986 0.0006 1.4590 1.4985 1.5387
16 1.4925 0.0005 1.4541 1.4923 1.5312
17 1.4967 0.0005 1.4594 1.4966 1.5344
18 1.4919 0.0005 1.4557 1.4918 1.5286
19 1.4895 0.0005 1.4542 1.4894 1.5252
20 1.4996 0.0004 1.4650 1.4995 1.5344
65
1.8
1.7
Gol Promedio
1.6
1.5
1.4
1.3
5 10 15 20
Torneo
66
Capı́tulo 7
Marginalización
Ahora,
( n
)
n τX
ξ (µ, τ |x) ∝ τ 2
−1
exp − (xi − µ)2 .
2 i=1
67
No es difı́cil llegar a
Z (
n )
∞ n
−1 τX 2 nτ 2
ξ (µ |x) ∝ τ 2 exp − (xi − x̄) exp − (x̄ − µ) dτ.
0 2 i=1 2
Sea
n
1 X
s2 = (xi − x̄)2
n − 1 i=1
Entonces
Z
∞ n
−1 τ 2 2
ξ (µ |x) ∝ τ 2 exp − (n − 1)s + n(µ − x̄) dτ
0 2
−n/2
∝ (n − 1)s2 + n(µ − x̄)2
−(n−1+1)/2
n
∝ 1+ (µ − x̄)2
(n − 1)s2
Ası́
!
s2
µ|x ∼ t n − 1, x̄,
n
Por lo tanto
µ − x̄
√ ∼ t(n−1)
s/ n
Z
τ
∞ n
−1
ξ (τ |x) ∝ τ exp − (n − 1)s2 + n(µ − x̄)2
2 dµ
−∞ 2
n−1
−1 τ 2
∝ τ 2 exp − (n − 1)s
2
Ası́
68
!
n − 1 (n − 1)s2
τ |x ∼ Gamma ,
2 2
(n − 1)s2 τ ∼ ξn−1
2
ξ P (θ |x ) ∝ ξ (θ, ν̂(θ) |x )
69
70
Capı́tulo 8
Inferencia Bayesiana
71
Definición 8.2 Sea D un espacio arbitrario de decisiones. Una función no
negativa L que mapea de Ω × D a R es llamada una función de pérdida.
L(d, θ) = (d − θ)2
Z
E [L(d, θ)] = L(a, θ) ξ (θ|x) dθ
Z
= (a − b + b − θ)2 ξ (θ|x) dθ
Z
2
= (a − b) + (b − θ)2 ξ (θ|x) dθ
Z
≥ (b − θ)2 ξ (θ|x) dθ
,
L(d, θ) = |d − θ|
72
∗
d −d si θ ≥ d,
|θ − d| − |θ − d∗ | = d + d∗ − 2θ si d∗ < θ < d,
d − d∗ si θ ≤ d∗ .
+(d − d∗ )P (θ ≤ d∗ )
= (d − d∗ ) [P (θ ≤ d∗ ) − P (θ > d∗ )] ≥ 0
Esta última desigualdad sigue del hecho que d∗ es la mediana de la distribu-
ción de θ. La primera desigualdad en este conjunto de ecuaciones será una
igualdad si, y solo si, P (d∗ < θ < d) = 0. La desigualdad final será una
igualdad si, y solo sı́,
1
P (θ ≤ d∗ ) = P (θ > d∗ ) = .
2
Estas condiciones implican que d es también una mediana. Por lo tanto,
E(|θ − d|) ≥ E(|θ − d∗ |), y la igualdad se cumple si, y solo si, d es también
mediana.
Una prueba similar puede hacerse si d < d∗ .
L(d, θ) = (1 − p) |d − θ| si d < θ
= p |d − θ| si d ≥ δ
L(d, θ) = 0 si d = θ
= 1 si d 6= θ
73
Función de Pérdida Escalonada:
L(d, θ) = 0 si |d − θ| ≤ δ
= 1 si |d − θ| > δ
Z
E [L(d, θ)] = I (|d − θ| > δ) ξ (θ|x) dθ
Θ
Z
= I (1 − (|d − θ| ≤ δ)) ξ (θ|x) dθ
Θ
Z d+δ
= 1− ξ (θ|x) dθ
d−δ
≈ 1 − 2δξ (d|x)
74
Teorema 8.1 Propiedad de Invarianza Sea θ̂ = θ̂1 , θ̂2 , · · · , θ̂k , el esti-
mador MAP en la aposteriori ξ (θ |Datos ). Si g (θ) = (g1 (θ) , g2 (θ) , · · · , gr (θ)),
para 1 ≤ r ≤ k, es una transformación del espacio parametral Θ, entonces
un estimador MAP en la densidad inducida aposteriori es g(θ̂).
Prueba:
Sea θ̂ = θ̂1 , θ̂2 , · · · , θ̂k el MAP. Es suficiente mostrar que
ξ ∗ g(θ̂) |x1 , · · · , xn ≤ ξ ∗ (g(θ) |x1 , · · · , xn )
Una estimación que puede ser utilizada en una o más dimensiones, espe-
cialmente cuando la función de pérdida no ha sido definida explı́citamente,
es el valor del parámetro en el cual se maximiza la disribución posterior.
Para cualquier observación de x, sea ψ(·|x) que denota la distribución pos-
terior de W en el espacio parametral Ω. Sea ŵ(x) el valor de w que satisface
la relación
75
Verosimilitud:
!
n
Y 1 (yi − θ)2
2
f y|θ, σ = √ exp −
i=1 2πσ 2 2σ 2
n
!
X (yi − θ)2
∝ exp −
i=1
2σ 2
donde
1
µ + σn2 ȳ
σo2 o τo µo + nrȳ
µn = 1 =
σo2
+ σn2 τo + nr
y
1 1 n
2
= 2+ 2
σn σo σ
Bajo las tres funciones de pérdida el estimador bayesiano para la media
será
θ̂ = µn .
76
bajo la función de pérdida cuadrática es
P
1 + ni=1 yi
λ̂ =
n+1
calcula.estimadores.poisson<-function(alfa0,beta0,x,n=lenght(x))
{
alfa1<-alfa0+sum(x)
beta1<-beta0+n
estimador.fpc<-alfa1/beta1
estimador.fpa<-qgamma(0.5,alfa1,beta1)
estimador.fpe<-(alfa1-1)/beta1
list(estimador.fpc=estimador.fpc,
estimador.fpa=estimador.fpa,
estimador.fpe=estimador.fpe)
}
La utilización será
> calcula.estimadores.poisson(1,1,16,n=4)
$estimador.fpc
[1] 3.4
$estimador.fpa
[1] 3.333571
$estimador.fpe
[1] 3.2
77
Densidades en el Problema Poisson
0.7
0.6
Gamma(1,1)
Gamma(17,5)
0.5
Posterior
Apriori
0.4
Densidad
Verosimilitud
0.3
Verosimilitud
0.2
0.1
0.0 0 2 4 6 8 10
P
xi
ξ1 (λ|T orneoI − 2008) ∝ λ exp (−nλ)ξ0 (λ)
∝ λ(61×0+63×1+27×2+9×3+2×4) exp (−162λ)
∝ λ(152) exp (−162λ)
78
O sea, ξ1 es una Gamma(153, 162)
Considerando los datos del segundo torneo la aposteriori es una Gamma(153+
125, 162 + 162), o sea una Gamma(278, 324).
La media aposteriori es
278
= 0,8580247
324
La moda aposteriori es
277
= 0,8549383
324
79
para θ > 0, −∞ < α < ∞ y β ≥ 0. Note que esta distribución apriori corres-
ponde al kernel de una distribución gamma cuando α ≥ 0. La distribución
aposteriori es por lo tanto
( n
)!
X
n+α−1
ξ (θ|x1 , · · · xn ) ∝ θ exp −θ β + xi
i=1
Ejemplo 8.5 Tiempo hasta el primer gol. Del primer torneo de fútbol
del 2005 consideramos los tiempos hasta que se marcó el primer gol (en
partidos en los cuales se marcó al menos un gol). Si asumimos que el tiempo
hasta el primer gol se distribuye exponencial y que la apriori es una no
informativa de Jeffreys, entonces la aposteriori será
n
!
X
gamma n, xi
i=1
> tiempo<-scan()
1: 9 80 22 46 9 73 91 62 59 6 46
12: 27 19 77 9 29 60 75 75 16 21
22: 40 24 66 83 55 27 50 81 33 43
32: 67
33:
> s.x<-sum(tiempo)
> s.x
[1] 1480
> n<-length(tiempo)
80
> n
[1] 32
> qgamma(c(0.025,0.975),n,rate=s.x)
[1] 0.01478917 0.02973110
> 1/qgamma(c(0.025,0.975),n,rate=s.x)
[1] 67.61703 33.63482
n+1
Estimador de Mı́nima Varianza Insesgado n máx {Xi }
81
intervalo.poisson <-function(a,b){
x1<-1:499/10000
x2<-0.950+x1
dif<-abs(dgamma(qgamma(x1,a,rate=b),a,rate=b)
-dgamma(qgamma(x2,a,rate=b),a,rate=b))
x3<-qgamma(x1[which.min(dif)],a,rate=b)
x4<-qgamma(x2[which.min(dif)],a,rate=b)
list(x3=x3,x4=x4)
}
$x4
[1] 5.045115
Mientras que el intervalo tradicional hallado con ambas colas iguales a
α/2 es
$x3
[1] 1.980625
$x4
[1] 5.1966
Selección de valores de α y β
Se seleccionaron valores de α y β tales que la media de la distribución
apriori sea pequeña
La distribución Gamma es muy sesgada a la derecha (la mayor parte
de la densidad se halla a la derecha de la media)
Se seleccionó una media igual a uno, razón para hacer α = β, lo que
controlamos es la varianza, que es la que nos da una medida del grado
de incertidumbre y entre más pequeño sea α mayor será la varianza.
En el año 1996, en el tramo La Pintada-Primavera (Tramo 2509), se
registraron 152 accidentes, y no hubo muertes. Si estamos interesados en es-
timar la tasa de muertes por accidentes tenemos la siguiente tabla aplicando
la metodologı́a anterior
82
Método Intervalo
Bayesiano (0,0.0126)
Cota Máxima (0,0.0197)
Factor de Correción (0,0.385)
1. θ̂ es único,
Definición 8.7 Aposteriori con forma estándar. Decimos que una den-
sidad posterior tiene la forma estándar si
1. θM oda es único,
83
Si asumimos una apriori de Laplace, los intervalos de probabilidad apos-
teriori pueden ser calculados aproximadamente mediante esta metodologı́a.
Si la distribución poblacional es N (µ, 1) y la apriori ξ (µ) ∝ k, entonces
un intervalo aproximado con probablidad 0.954 es
1 1
x̄ − 2 √ ; x̄ + 2 √
n n
1
H0 : π = (El sujeto no tiene poderes)
2
1
H1 : π 6= (El sujeto tiene poderes)
2
El valor − p = PH0 X − n2 ≥ x − n2 ≈ 0,0003 nos lleva a concluir que
hay una fuerte evidencia contra H0 .
Si pensamos bayesianamente necesitamos una distribución apriori, pero
ahora definida sobre las hipótesis en juego:
84
1
P r (H0 ) = P r (H1 ) =
2
con ξ(π) = 1 (0 < π < 1)
La probabilidad posterior de la hipótesis
85
donde ξ(θ|Hi , Io ), son las densidades apriori de θ, condicionadas en cada
hipótesis. La información muestral es utilizada entonces para calcular de los
odds apriori:
ξ(Ho |Io )
ξ(H1 |Io )
los odds posteriores en favor de Ho :
Si queremos probar
H0 : θ ∈ Θ0 versus H1 : θ ∈ Θ1
f (x|θ0 )
B01 (x) = (Prueba simple vs. simple)
f (x|θ1 )
f (x|θ0 )
B01 (x) = R (Prueba simple vs. compuesta)
Θ1 f (x|θ)ξ1 (θ)dθ
R
f (x|θ0 )ξ0 (θ)dθ
B01 (x) = RΘ0 (Prueba compuesta vs. compuesta)
Θ1 f (x|θ)ξ1 (θ)dθ
86
1 < B Hipótesis Nula se sostiene
10−1/2 < B < 1 Evidencia contra H0 , pero
apenas para mencionar.
10−1 < B < 10−1/2 Evidencia sustancial contra H0 ,
10−3/2 < B < 10−1 Evidencia fuerte contra H0 ,
10−2 < B < 10−3/2 Evidencia muy fuerte contra H0 ,
B < 10−2 Evidencia decisiva contra H0 ,
87
McGee (1971) presenta el factor de Bayes relacionándolo con la medida
del sonido conocida como decibeles. Él utiliza el logaritmo en base 10 para
esto. Ası́, para comparar la evidencia a favor dada por los datos hacia H0 ,
se determinarı́a ası́:
10 log10 PP r(H 0 |x)
r(H0 |x) = 10 log10 P r(H0 )
P r(H1 ) + 10 log10 (B01 )
ev (H0 |Datos ) = ev (H0 ) + 10 log10 (B01 )
(Evidencia posterior) = (Evidencia apriori) + (Evidencia en datos)
88
6
1
2 1
B01 (x) = R 1 = .
1/2 θ5 (1 − θ)2dθ 2,86
Esto sugiere que esta persona parece tener algún poder discriminatorio, pero
no mucho.
θyi e−θ
p (yi |θ) =
yi !
H1 : λ ≤ 1
H2 : λ > 1
89
Datos observados: Campeonato 2002 I primeras 4 fechas Goles marcados
por el local el primer tiempo 0,1,0,2,1,0,2,1,1, 1,0,1,0,1,0,1,1,0, 0,0,3,0,0,0,0,1,0,
0,2,0,1,0,1,0,1,0.
P
Por suficiencia y = ni=1 xi ∼ P oisson(nλ). Suponga que apriori ξ(H1 ) =
0,4 y ξ(H2 ) = 0,6.
Bajo H1 la apriori sobre Θ1 la escogemos Beta(α0 , β0 ) y bajo H2 asu-
mimos una normal truncada con parámetros µ0 y σ02 . El factor de Bayes
es
R
p(y|H1 ) p(y|H1 , λ)ξ(λ|H1 ) dλ
=R
p(y|H2 ) p(y|H2 , λ)ξ(λ|H2 ) dλ
Ahora
Z
λy exp(−nλ)
p(y|Hi ) = ξ(λ|Hi ) dλ = Eξi [P (Y = y|λ)]
Θi y!
Para H1
Z 1 λy exp(−nλ) Γ (α0 + β0 ) α0 −1
p(y|H1 ) = λ (1 − λ)β0 −1 dλ
0 y! Γ (α0 ) Γ (β0 )
2. Calcule pi = P (y|nλi ), i = 1, 2, · · · , M
3. Calcule
M
1 X
pi
M i=1
Para H2
Z
∞ λy exp(−nλ) 1 1
p(y|H2 ) = √ exp − 2 (λ − µ0 )2 dλ
1 y! 2πσ0 2σ0
90
1. Calcule p∗ como P (X > 1) donde X ∼ (µ0 , σ02 )
4. Calcule pi = P (y|nλi ), i = 1, 2, · · · , M
5. Calcule
M
1 X
pi
M i=1
x<-c(0,1,0,2,1,0,2,1,1,
1,0,1,0,1,0,1,1,0,
0,0,3,0,0,0,0,1,0,
0,2,0,1,0,1,0,1,0)
a0<-1
b0<-1
91
> # Cálculo del BF vı́a simulación
> # Valor de numerador
> lambdas<-matrix(rbeta(1000000,a0,b0),ncol=1)
> prob.pois<-function(lambda,x) exp(sum(dpois(x,lambda,log=T)))
> numerador<-mean(apply(lambdas,1,prob.pois,x))
>
> # Cálculo del denominador
> p.1<-pnorm(1,mean=u0,sd=sqrt(s20))
> p.s<-runif(1000000,p.1,1)
> lambdas<-matrix(qnorm(p.s,mean=u0,sd=sqrt(s20)),ncol=1)
> denominador<-mean(apply(lambdas,1,prob.pois,x))
>
> BF<-numerador/denominador
> BF
[1] 222.3040
> numerador
[1] 3.72909e-17
> denominador
[1] 1.677473e-19
> razon.apriori<-0.4/0.6
> razon.apriori
[1] 0.6666667
> 0.6666667* 120.0339
[1] 80.0226
92
Exitos Fracasos Total
Muestra 1 2 13 15
Muestra 2 14 1 15
pi mi (y)
P r (Mi |y) = Ps
j=1 pj mj (y)
donde
Z
mi (y) = fi (y|θ i )ξ(θ i ) dθ i , para i = 1, · · · , s,
Θi
es la distribución marginal de los datos bajo el modelo Mi ( De Santis y
Spezzaferri, 1999). La razón de las probabilidades posteriores nos permiten
hacer una comparación entre modelos. Para los modelos Mj y Mk se tiene:
P r (Mj |y) pj
= Bjk (y),
P r (Mk |y) pk
donde
mj (y)
Bjk (y) =
mk (y)
es el factor de Bayes para el modelo Mj contra el modelo Mk a partir de los
datos y.
93
Z
m (y) = L (θ |y ) ξ (θ) dθ
di es la dimensión de θ i ,
M0 : f (x|θ0 ) = θ0 (1 − θ0 )x , x = 0, 1, · · ·
M1 : f (x|θ1 ) = e−θ1 θ1x /x!, x = 0, 1, · · ·
e−nθ1 θnx̄
f (x|M1 ) = Qn 1
i=1 xi !
94
ahora, el factor de Bayes es la razón de las dos últimas ecuaciones. Supon-
gamos, θ0 = 1/3 y θ1 = 2, o sea que las dos distribuciones tienen la misma
media. Si n = 2 y x1 = x2 = 0 entonces B01 (x) = 6,1, sin embargo, si n = 2
y x1 = x2 = 2 entonces B01 (x) = 0,3
Asumamos que tenemos datos x que surge de uno de los siguientes mo-
delos (hipótesis):
M1 : X tiene densidad f1 (x |θ 1 )
M2 : X tiene densidad f2 (x |θ 2 )
.. ..
. .
Mq : X tiene densidad fq (x |θ q )
Le asignamos probabilidades apriori a cada modelo ξ (Mi ). Bajo el mo-
delo Mi :
Densidad apriori de θ i : ξi (θ i )
Densidad marginal de X:
Z
mi (x) = fi (x | θ i ) ξi (θ i ) dθ i
mj (x)
Bji =
mi (x)
La probabilidad posterior de Mi :
−1
X ξ (Mj ) q
ξ (Mi ) mi (x)
ξ (Mi |x ) = Pq = Bji
j=1 ξ (Mj ) mj (x) j=1
ξ (Mi )
95
En el caso particular ξ (Mj ) = 1/q, entonces
mi (x) 1
ξ (Mi |x ) = m̄i (x) = Pq = Pq
m
j=1 j (x) j=1 Bji
1. MN : g es N (0, 1)
2. MU : g es U nif orme(0, 1)
1 x−µ
3. ML : g es Exponencial a la izquierda σe , para x ≤ µ
1 −(x−µ)
4. MR : g es Exponencial a la derecha σe , para x ≥ µ
Uniforme:
1
m (x |MU ) = (n−1)
n(n − 1) x(n) − x(1)
Exponencial izquierda:
(n − 2)!
m (x |ML ) = (n−1)
nn x(n) − x̄
Exponencial derecha:
(n − 2)!
m (x |MR ) = (n−1)
nn x̄ − x(1)
96
8.4. Cálculo del Factor de Bayes vı́a MCMC
Hemos visto el cáculo del factor de Bayes mediante el uso de técnicas
de simulación. Esto es fácil de realizar cuando la distribución que genera
datos es discreta. Un problema que no es tan fácil de resolver es cuando
la distribución muestral es continua, ya que si aplicamos directamente la
metodologı́a usada, obtendrı́amos el valor esperado de la densidad, no la
probabilidad requerida. Han y Carlin (2001) realizan un recuento de los
métodos propuestos para el cáculo del factor de Bayes en el caso más general.
f (y |θ j , M = j )
y la apriori
ξ (θ j |M = j )
Bajo estas condiciones tenemos que y es independiente de θ j 0 6=j . El mues-
Q
treador opera sobre el espacio producto M × j∈M Θj . Se requieren distri-
buciones apriori propias. Se asume independencia apriori entre los θ j dado
M.
Z
p (y |M = j ) = f (y |θ, M = j ) ξ (θ |M = j ) dθ
Z
= f (y |θ j , M = j ) ξ (θj |M = j ) dθ j
El muestreador de Gibbs es definido sobre esl espcio producto por las dis-
tribuciones condicionales completas
(
f (y |θ j , M = j ) ξ (θj |M = j ) si M = j
ξ θ j θ j 0 6=j , M, y ∝
ξ (θj |M 6= j ) si M 6= j
y
Y
ξ (M = j |θ, y ) ∝ f (y |θ j , M = j ) ξ θ j 0 |M = j π
j
j 0 ∈M
97
Bajo las condiciones de regularidad corrientes este muestreador de Gibbs
produce muestras de la distribución posterior conjunta correcta. La distri-
bución posterior del modelo j puede estimarse como
1 XG
ξˆ (M = j |y ) = I M (g) = j ,
G g=1
ξˆ (M = j |y ) /ξˆ (M = j 0 |y )
B̂jj 0 =
ξ (M = j) /ξ (M = j 0 )
98
8.6. La aproximación BIC
Esta sección está basada en Raftery (1994). La cantidad básica que sub-
yace en el factor Bayes es la verosimilitud integrada para el modelo, dada
por
Z
p(D|M1 ) = p(D|θ 1 , M1 )ξ(θ 1 |M1 ) dθ 1
99
rápidamente cuando
R
se aleja de θ̂, ası́ que los únicos valores de θ que con-
tribuyen a p(D) = p(D|θ)ξ(θ) dθ son los que están cercanos a θ̂. Se sigue
por lo tanto que
Z Z
T
p(D) = exp (g(θ)) dθ ≈ exp g(θ̄) exp θ − θ̄ g 00 (θ̄) θ − θ̄ dθ
100
apriori contiene la misma cantidad de información que una solo observación.
Esto parece razonable en una situación en la cual haya poca información
apriori. Entonces
d 1
log ξ(θ̂) = − log (2π) + log (|I|)
2 2
y sustituyendo en (*) se llega a
d
log (p(D)) = log p(D|θ̂) − log(n) + O(n−1/2 )
2
Ası́ para la distribución apriori particular seleccionada, el error en la
aproximación es O(n−1/2 ) en vez de O(n−1/2 )
Esta aproximación puede usarse para aproximar el factor de Bayes
p (D|M2 )
B12 = .
p (D|M1 )
101
102
Capı́tulo 9
Estadı́stica Bayesiana vı́a
Simulación
103
9.1. MCMC: Monte Carlo por Cadenas de Mar-
kov
Brooks (1998) realiza una revisión de la metodologı́a MCMC. Las carac-
terı́sticas de ξ son obtenidas encontrando promedios ergódicos
R
1 X
Φ̂ = h (θ r )
R r=1
irreducible,
y positiva recurrente.
La forma en que construimos nuestras cadenas garantiza la existencia
de la distribución estacionaria. Sin embargo en la práctica esta convergencia
puede ser penosamente lenta y el mayor problema es saber si se ha logrado
una convergencia razonable (esto se conoce como un “burn-in”). Por lo tanto
las muestras obtenidas hasta el punto de “burn-in” son descartadas.
Un asunto relacionado con la convergencia es la tasa de mezclado. Infor-
malmente, el mezclado es la tasa con la cual la cadena de Markov se mueve
a través del soporte de la distribución estacionaria. Ası́, si una cadena tiene
un mezclado lento, puede quedarse en cierta porción del espacio de estados
por un perı́odo de tiempo muy largo, y a menos que la longitud de la cadena
sea ajustada acordemente, las inferencias serán afectadas sin ninguna duda.
Lombardi (2007) señala “Uno de los problemas más serios con los algorit-
mos MCMC es el paradigma ‘usted solo ve donde usted ha estado’, que es
104
el hecho que la cadena parece haber convergido pero ha fallado de explorar
completamente el espacio muestral. En lugar de una cadena larga, varias
cadenas paralelas empezando desde puntos ampliamente dispersos pueden
resolver este problema.”
El segundo asunto está relacionado con el hecho que los valores observa-
dos, siendo un camino muestral de una cadena de Markov, no son indepen-
dientes entre sı́. Asumiendo que se ha logrado la convergencia, los valores
observados formarán una muestra dependiente de la distribución posterior.
Esto puede ser molesto para uno pero no es necesariamente malo en MCMC.
En la mayorı́a de los problemas, la estimación tı́pica se obtiene por un pro-
medio sobre las muestras. Aunque las muestras no sean independientes, el
teorema ergódico asegura que estos promedios muestrales convergen a las
verdaderas esperanzas. Ası́ que la aproximación corriente al problema de
dependencia es ignorarla. Pero si uno, por alguna razón, necesita una mues-
tra independiente, puede resolver el problema corriendo varias cadenas de
Markov con puntos de comienzo independientes y utilizar el último punto
de cada cadena. Se sabe de la teorı́a general de los MCMC que la caminata
aleatoria del muestreador Metropolis no puede obtener convergencia unifor-
me. Para demostrar que el muestreador obtiene convergencia geométrica,
uno debe ser capaz de probar que la distribución objetivo tiene colas que
decaen exponencialmente (Lombardi,2007).
Una de las dificultades que surgen en el trabajo bayesiano aparecen cuan-
do tratamos de manipular la distribución aposteriori que usualmente aparece
de la siguiente forma
que no es una densidad de probabilidad en sı́ misma, sino que debe ajustarse
por un factor que se calcula como
Z
L (θ|Datos) ξ (θ) dθ
Θ
105
estimar valores esperados de funciones bajo esta distribución, por ejem-
plo, Z
Φ = E [h (θ)] = h (θ) dF (θ)
R
i si los vectores {θ r }r=1 corresponden a una muestra de F (θ),
Es clarohque
entonces E Φ̂ = Φ. También, a medida queR se incrementa la varianza de
Φ̂ disminuye ya que es σ 2 /R, donde σ 2 es la varianza de h(θ).
De lo anterior se desprende una propiedad importante del método Monte
Carlo: la exactitud de la estimación Monte Carlo no depende de la dimen-
sionalidad del espacio muestreado. La varianza de Φ̂ es siempre σ 2 /R. En
teorı́a, si tenemos una muestra aún pequeña de observaciones independien-
tes podemos obtener una estimación buena de Φ. El problema está en que
obtener muestras independientes de F puede no ser una tarea fácil.
Asumamos que la densidad de la cual deseamos obtener muestras es la
correspondiente a la distribución aposteriori de un parámetro de un experi-
mento exponencial, digamos λ para el cual la única información apriori que
disponı́amos era que λ ∼ U (0, 5). Se obtuvieron cinco muestras con resul-
tados x1 = 1, x2 = 1, x3 = 4, x4 = 2, x5 = 3. Por lo tanto la distrribución
posterior será
106
0.00012
0.00012
0.00008
0.00008
λ5e(−11λ)
λ5e(−11λ)
0.00004
0.00004
0.00000
0.00000
0 1 2 3 4 5 0 1 2 3 4 5
λ λ
y
p∗
pi =
Z
y nuestreamos de la distribución de probabilidad {pi }. Cuál es el costo de
este procedimiento? Para poder calcular Z se requiere visitar cada punto en
la discretización. En nuestro caso la dimensión del espacio era uno, pero si
el espacio tuviera dimensión 100, el número de puntos a visitar serı́a 50100 .
Un número inmenso de visitas.
Como apriori supongamos que una normal truncada con parámetros µ = 0,5
y σ 2 = 0,22 .
Se saca una muestra al azar de 10 estudiantes y se les evalúa. De éstos solo
dos tienen gastritis.
107
0.04
Apriori
Verosimilitud
Aposteriori
0.03
Densidad
0.02
0.01
0.00
res.aposteriori<-res$aposteriori/sum(res$aposteriori)
108
points(pis, res.aposteriori, type =’l’, lty=3)
legend(0.7,0.04,c(’Apriori’,’Verosimilitud’,’Aposteriori’),lty=1:3)
resu<-sample(pis,10000,prob=res.aposteriori,replace=T)
hist(resu,main=’Distribución Simulada’,xlab=expression(pi))
> mean(resu)
[1] 0.3171478
> median(resu)
[1] 0.3131069
> quantile(resu, probs=c(0.025, 0.975))
2.5% 97.5%
0.1111089 0.5555044
> require(hdrcde)
> hdr(resu)
$hdr
[,1] [,2]
99% 0.05800344 0.6060039
95% 0.10100899 0.5371268
50% 0.22220778 0.3912115
$mode
109
Figura 9.3: Regiones de más alta densidad en el caso de la gastritis.
[1] 0.317054
$falpha
1% 5% 50%
0.1858224 0.6524188 2.6730446
110
a ln p en cada abcisa para un conjunto dado de abcisas. Una cobija se cons-
truye entre dos abcisas adyacentes a partir de las tangentes en cada final
del intervalo. Secantes son dibujadas a través de del ln p(θ) en las abcisas
adyacentes. La cobija es una función exponencial a tramos, de la cual el
muestreo es más fácil.
Para obtener una muestra de la distribución conjunta p(X1 , · · · , Xd ) el
Muestreador Gibbs itera sobre este ciclo:
(i+1) (i),···,Xd(i)
Muestree X1
de p X1 X2
(i+1) (i+1) (i) (i)
Muestree X2 de p X2 X1 , X3 · · · , Xd
..
.
(i+1) (i+1) (i+1)
Muestree Xd de p Xd X1 , · · · , Xd−1
λx1 λy2
P (x, y) = exp (− (λ1 + λ2 + λ3 ))
x! y!
mı́n(x,y) ! ! 2
X x y λ3
k!
k k λ1 λ2
k=0
E(X) = λ1 + λ3
E(Y ) = λ2 + λ3
cov(X, Y ) = λ3
logVero.biPoisson<-function(l,X){
l1<-exp(l[1]);l2<-exp(l[2]);l3<-exp(l[3])
111
sumita<-function(k,xx,yy,l1,l2,l3)
choose(xx,k)*choose(yy,k)*factorial(k)*(l3/(l1*l2))^k
log.densi.un.punto<-function(x,l1,l2,l3){
min.x<-min(x)
xx<-x[1]
yy<-x[2]
if(min.x==0)suma<-1
else{
suma<-sum(sapply(0:min.x,sumita,xx,yy,l1,l2,l3))
#suma<-0
# for(k in 0:min.x)
suma<-suma+choose(xx,k)*choose(yy,k)*
factorial(k)*(l3/(l1*l2))^k
}#fin else
#print(suma)
log.densi<--l3+dpois(xx,l1,log=T)+dpois(yy,l2,log=T)
+log(suma)
return(log.densi)
} # fin log.densi.en.un.punto
res<-sum(apply(X,1,log.densi.un.punto,l1,l2,l3))
res
}
X<-matrix(temp,ncol=2,byrow=T)
> mean(X[,1])
112
[1] 1.536
> mean(X[,2])
[1] 1.024
> cov(X[,1],X[,2])
[1] 0.2128387
> table(X[,1],X[,2])
0 1 2 3 4
0 7 5 3 0 0
1 19 20 15 2 1
2 13 14 7 1 0
3 3 3 3 1 0
4 1 2 3 0 0
5 0 0 0 1 0
6 0 0 0 1 0
require(gibbs.met)
mc<-gibbs_met(log_f=logVero.biPoisson,no_var=3,
ini_value=c(1,1,0.2),iters=20000,iters_met=2,
stepsizes_met=c(0.2,0.2,0.1), X = X)
plot(exp(mc[,1]),type=’l’)
title(main=expression(lambda[1]))
plot(exp(mc[,2]),type=’l’)
title(main=expression(lambda[2]))
plot(exp(mc[,3]),type=’l’)
title(main=expression(lambda[3]))
media.x<-exp(mc[-c(1:10000),1])+exp(mc[-c(1:10000),3])
plot(density(media.x,from=0),
main=’Distribución Marginal de media de X’)
media.y<-exp(mc[-c(1:10000),2])+exp(mc[-c(1:10000),3])
plot(density(media.y,from=0),
main=’Distribución Marginal de media de Y’)
plot(density(media.x-media.y,from=0),
main=’Distribución Diferencia de Medias’)
> quantile(media.x,probs=c(0.025,0.05,1:9/10,0.95,0.975))
2.5% 5% 10% 20% 30% 40% 50%
1.321991 1.357945 1.395152 1.439441 1.474755 1.505350 1.533398
60% 70% 80% 90% 95% 97.5%
1.560306 1.592450 1.627962 1.678656 1.722641 1.764274
113
> quantile(media.y,probs=c(0.025,0.05,1:9/10,0.95,0.975))
2.5% 5% 10% 20% 30% 40% 50%
0.8537324 0.8786668 0.9082815 0.9444425 0.9712392 0.9964568 1.0190101
60% 70% 80% 90% 95% 97.5%
1.0435563 1.0678384 1.0994392 1.1417339 1.1763212 1.2085153
>
> quantile(media.x-media.y,probs=c(0.025,0.05,1:9/10,0.95,0.975))
2.5% 5% 10% 20% 30% 40% 50%
0.2522179 0.2938671 0.3421668 0.3998820 0.4433507 0.4784749 0.5131608
60% 70% 80% 90% 95% 97.5%
0.5454741 0.5808513 0.6229172 0.6864442 0.7346851 0.7766134
require(MASS)
f1 <- kde2d(media.x, media.y, n = 50)
image(f1)
title(xlab=expression(mu[X]))
title(ylab=expression(mu[Y]))
contour(f1)
114
Figura 9.4: Valores tomados por la cadena para el parámetro λ1 . Uno de los
problemas difı́ciles es determinar cuántos elementos de la cadena se deben
eliminar a su comienzo (burn-in).
115
Figura 9.5: Valores tomados por la cadena para el parámetro λ2 . Podemos
pensar que empieza a mostrar alguna estabilidad después del punto 15000?
116
Ejemplo 9.3 La distribución Gamma generalizada. Upadhyay et al.
(2000) presentan el caso de la distribución gamma generalizada, la cual es
reconocida como un modelo flexible para problemas de confiabilidad pero
con el cual es difı́cil de trabajar desde el punto de vista clásico. La f.d.p. de
esta distribución es
117
Figura 9.7: Distribución conjunta entre µX y µY .
118
Figura 9.9: Distribución conjunta entre µX y µY .
β !
β x(βκ−1) x
f (x |θ, β, κ ) = exp −
Γ(κ) θβκ θ
para x > 0, θ > 0, β > 0 y κ > 0.
El parámetro θ es el parámetro de escala, mientras β y κ determinan la
forma de la distribución. Esta familia incluye modelos tales como la gamma
de dos parámetros, la Weibull y la exponencial. La lognormal surge cuando
se hace tender κ a infinito.
Ya que esta distribución es de uso en cofiabilidad, se manejan conceptos
como el MTF (tiempo medio hasta que falle) y es
1
Γ κ+ β
MTF = θ
Γ(κ)
Si x1 , · · · , xn es una muestra aleatoria de este modelo (o sea tiempos de
falla) y si asumimos aprioris independientes para θ, β y κ
1
ξ1 (θ) ∝
θ
119
ξ2 (β) ∝ Gamma (a1 , b1 )
ξ3 (κ) ∝ Gamma (a2 , b2 )
n !
1 X xi β
ξ (θ |β, κ, Datos ) ∝ exp −
θ(nβκ+1) i=1
θ
n n " #!
β (n+a1 −1) Y βκ β X xi β
ξ (β |θ, κ, Datos ) ∝ x exp − +
θ(nβκ) i=1 i b1 i=1 θ
n
1 κ(a2 −1) Y βκ κ
ξ (κ |θ, β, Datos ) ∝ x exp −
(Γ(κ))n θ(nβκ) i=1 i b1
para t > 0.
Esta distribución surge en el contexto de confiablidad. Suponga que se
tienen m aparatos conectados en serie y no sabemos cuál es el elemento
que falla cuando el artı́culo falla. Por ejemplo las luces de navidad vienen en
grupos de m bombillitos y se daña cuando uno de ellos falla, pero usualmente
es molesto determinar cuál falló.
Si se prueban r aparatos iguales e independientes con distribución de
vida poli-Weibull y se registran t1 , · · · , tn tiempos de falla y t∗1 , · · · , t∗r−n
tiempos de funcionamiento de las unidades que no habı́an fallado aún. La
verosimilitud es
( m )
Y β −1
n X m
β j ti j X S (βk )
L (θ, β) = β
exp − βk
θj j
i=1 j=1 k=1 θk
donde
n
X X
S (βk ) = tβi k + r − n (t∗l )βk
i=1 l=1
120
Si la distribución apriori se construye de la siguiente forma
m
Y
ξ1 (θ |β ) = ξ1j (θj |βj )
j=1
a
βj bj j −(1+βj aj ) bj
ξ1j (θj |βj ) = θj exp − βj
Γ (aj ) θ j
m
Y
ξ (β) = ξ2j (βj ) I (βj > cj )
j=1
121
la posterior conjunta será por lo tanto
n
!! n
X Y
ξ (α, λ |Datos ) ∝ α n+d−1 n+b−1
λ exp −λ a + xi exp (−cα) (1 − exp (−λxi ))α−1
i=1 i=1
n
Y
ξ (α |λ, Datos ) ∝ αn+d−1 exp (−cα) (1 − exp (−λxi ))α
i=1
n
!! n
X Y
ξ (λ |α, Datos ) ∝ λ n+b−1
exp −λ a + xi exp (−cα) (1 − exp (−λxi ))α−1
i=1 i=1
y la función de confiabilidad
( β )−κ
t−µ
R(t) = 1+
λ
122
Upadhyay et al. (2004) utilizan como apriori la siguiente distribución
donde
β (a+1) κβ
ξ1 (κ |β ) = (a+1)
κa exp −
Γ(a + 1)b b
1 β
ξ2 (β) = β (d−1) exp −
Γ(d)cd c
1
ξ3 (λ) ∝
λ
ξ4 (µ) ∼ U nif orme (0, x1 )
n
( β )−(κ+1)
Y β xi − µ
(n+a+d) −nβ
ξ (β |κ, λ, µ, Datos ) ∝ β λ (xi − µ) 1+
i=1
λ
κ 1
× exp −β +
b c
n
( β )−κ
Y xi − µ κβ
(n+a)
ξ (κ |β, λ, µ, Datos ) ∝ κ 1+ exp −
i=1
λ b
n
( β )−(κ+1)
Y xi − µ
(nβ+1)
ξ (λ |β, κ, µ, Datos ) ∝ λ 1+
i=1
λ
n
( β )−(κ+1)
Y β−1 xi − µ
ξ (µ |β, κ, λ, Datos ) ∝ (xi − µ) 1+
i=1
λ
123
1. Evalúe p(Xi |Xj , j 6= i) en Xi = x1 , x2 , · · · , xn para obtener w1 , w2 , · · · , wn .
3. Calcule
ξ (θ ∗ ) q (θ|θ ∗ )
α (θ, θ ∗ ) = mı́n 1,
ξ (θ) q (θ ∗ |θ)
124
Note que la densidad objetivo ξ solo entra en al proceso a través del
∗
ξ (θ )
cociente ξ θ y por lo tanto no hay necesidad de conocer la constante de
( )
normalización para implementar el algoritmo.
Casos especiales:
q (θ|θ ∗ ) = q (θ ∗ |θ) ,
125
1. El Muestreador de Gibbs: Este muestreador genera muestras iterativa-
mente de cada distribución posterior condicional completa.
2. El Algoritmo Metropolis
Genere un vector de candidatos nuevo β10 , β20 , σ 20 de una distribución
conocida y fácil de usar
q β1 , β2 , σ 2 |β10 , β20 , σ 20
126
El muestreador de Gibbs con ARS para la generación de distribuciones
condicionales tiene la ventaja de ser más automático y no requiere ajustes
extras. Tiene la ventaja adicional de poder trabajar con valores truncados o
censurados. Tiene la desventaja de generar una sola variable cada vez y por
lo tanto en modelos grandes la velocidad computacional puede ser lenta. Un
segundo problema es que la correlación serial puede ser alta.
Raftery y Lewis (1991) sugieren que el método funciona bien para la
mayorı́a de los problemas con menos de 5000 iteraciones, aunque hay im-
portantes excepciones, como se mencionó en la parte anterior.
127
128
Capı́tulo 10
Diagnósticos de los Muestreadores
MCMC
129
medio µ = E(θ|y), o sea
P θ̄ − µ ≤ d = 1 −
10.1.1. Diagnósticos
Existen muchos diagnósticos útiles para analizar los resultados de una
cadena y ya que niniguno de ellos puede garantizar que funcione, Sinha-
ray(2004) recomienda que se utilicen varias de la múltiples técnicas disponi-
130
bles. También es necesario garantizar la convergencia de todos los prámetros
involucrados. Entre los diagnósticos tenemos:
Prueba de Geweke
Es una prueba de igualdad de medias utilizando el Z−score. Si |Z − score| >
2 se considera que los niveles son diferentes. Gewwke recomendó usar el 5 %
131
para el primer suconjunto y 10 % para el segundo subconjunto. Geweke tam-
bién implicaba que el procedimiento servı́a para determinar cuántas observa-
ciones iniciales se descartaban. Obviamente estas dos submuestras deben ser
lo suficientemente grande para garantizar la aplicación del teorema central
del lı́mite.
Un problema con esta técnica es que esencialmente univariable y además
solo es útil para una sola cadena MCMC. Otro problema está en que depende
en parte de la experiencia del usuario.
132
varianzas dentro y entre las cadenas y es similar al análisis de varianza clási-
co. Hay dos formas de estimar la varianza de una distribución estacionaria:
la media de la varianza empı́rica dentro de cada cadena, W , y la varianza
empı́rica de todas las cadenas combinadas, que puede expresarse como
σ̂ 2 = (n − 1)B/n + W/n
donde B es la varianza empı́rica entre las cadenas.
Si las cadenas han convergido, entonces ambas estimadas son insesgadas.
De otra manera el primer método subestima la varianza, ya que las cadenas
individuales no han tenido tiempo de llegar a la distribución estacionaria
y el segundo método sobreestima la varianza, ya que los valores iniciales
fueron seleccionados sobredispersos.
El diagnóstico de convergencia está basado en el supuesto que la dis-
tribución objetivo es normal. Un intervalo bayesiano de credibilidad puede
construirse usando una distribución t con media
µ̂ = Media muestral de todas las cadenas combinadas
y varianza
V̂ = σ̂ 2 + B/(mn)
donde m es el número de cadenas, y los grados de libertad son estimado por
el método de los momentos
V̂
d=2
V ar(V̂ )
El uso de la distribución t tiene en cuenta el hecho que la media y la
varianza de la distribución posterior son estimados.
El diagnóstico de convergencia es
q
R= (d + 3)V̂ /((d + 1)W )
Valores sustancialmente arriba de 1 indican falta de convergencia.
Una de las crı́ticas que se le hace al proceso es que 10 cadenas que generen
1000 puntos cada una no produce un mejor resultado que una sola cadena
que corra y produzaca 10000 puntos, ya que uno ewsperarı́a que esta última
cadena al final estuviera más cercana a la distribución estacionaria que las
10 cadenas iniciales. Si computacionalmente no es costoso y se tienen los
resultados de las cadenas múltiples luego del quemado, se puede implementar
un proceso de mezclado de las cadenas de tal forma que se genere una
supercadena.
133
10.2. Diagnósticos en CODA
La librerı́a del R CODA posee varios diagnósticos útiles para analizar
los resultados de una cadena.
x− − − + + +
0 , x0 , · · · , x0 , x0 , x0 , · · · , x0
ξ(λ) ∝ K
134
# Muestreador de Metropolis
# Como muestreadora usaremos una gamma.
# Valor inicial
L0<-1
res<-L0
for(i in 1:100000){
# genera punto candidato
Lc<-rgamma(1,L0,scale=1)
cociente<-4*log(1-exp(-8/Lc))-16*8/Lc-dgamma(Lc,L0,scale=1,log=T)-
(4*log(1-exp(-8/L0))-16*8/L0-dgamma(L0,Lc,scale=1,log=T))
cociente<-exp(cociente)
if(cociente>1){
L0<-Lc
res<-c(res,Lc)
}
else{
if(runif(1)<cociente){
L0<-Lc
res<-c(res,Lc)
}
}
}
>
135
> res<-res[-(1:1000)]
> plot(res,type=’l’)
> hist(res)
>
> summary(res)
Min. 1st Qu. Median Mean 3rd Qu. Max.
12.76 37.49 57.53 80.13 90.26 3631.00
>
> quantile(res,probs=c(0.01,0.05,0.10,0.20,0.25,3:7/10,0.75,0.8,0.95,0.99))
1% 5% 10% 20% 25% 30% 40% 50%
16.66239 23.19815 27.36604 34.08504 37.49353 41.20592 48.08089 57.53452
60% 70% 75% 80% 95% 99%
67.94006 82.50258 90.25736 100.30699 196.28691 401.89871
>
> acf(res,type=’cor’)
136
Prueba KPSS1
library(tseries)
> kpss.test(res)
data: res
KPSS Level = 0.1472, Truncation lag parameter = 12, p-value = 0.1
Warning message:
In kpss.test(res) : p-value greater than printed p-value
> resi<-acf(res,type=’cor’)
> resi
0 1 2 3 4 5 6 7 8 9 10
1.000 0.676 0.426 0.307 0.174 0.108 0.065 0.016 -0.010 -0.025 -0.019
11 12 13 14 15 16 17 18 19 20 21
-0.004 -0.011 -0.019 -0.018 -0.018 -0.013 0.000 0.001 0.003 -0.006 -0.011
22 23 24 25 26 27 28 29 30 31 32
-0.005 0.001 0.000 -0.003 -0.006 -0.006 -0.009 -0.008 -0.005 -0.005 0.003
1
D. Kwiatkowski, P. C. B. Phillips, P. Schmidt, and Y. Shin (1992): Testing the Null
Hypothesis of Stationarity against the Alternative of a Unit Root. Journal of Econometrics
54, 159178.
137
33 34
0.002 -0.003
> s2<-var(res)
> s2*(1+0.676)*4/(1*(1-0.676))
[1] 284061.6
> s2*(1+0.676)*4/(2^2*(1-0.676))
[1] 71015.4
> s2*(1+0.676)*4/(3^2*(1-0.676))
[1] 31562.4
> s2*(1+0.676)*4/(4^2*(1-0.676))
[1] 17753.85
> s2*(1+0.676)*4/(5^2*(1-0.676))
[1] 11362.46
> s2*(1+0.676)*4/(10^2*(1-0.676))
[1] 2840.616
require(MCMCpack)
res.bay<-MCMCregress(Precio~A~
no)
summary(res.bay)
plot(res.bay)
> require(MCMCpack)
Loading required package: MCMCpack
Loading required package: coda
Loading required package: lattice
Loading required package: MASS
##
## Markov Chain Monte Carlo Package (MCMCpack)
## Copyright (C) 2003-2008 Andrew D. Martin, Kevin M. Quinn, and Jong Hee Park
##
## Support provided by the U.S. National Science Foundation
## (Grants SES-0350646 and SES-0350613)
##
> res.bay<-MCMCregress(Precio~A~
no)
> summary(res.bay)
Iterations = 1001:11000
Thinning interval = 1
Number of chains = 1
Sample size per chain = 10000
138
(Intercept) -82.6888 9.35477 0.0935477 0.0939296
A~
no 0.9752 0.09075 0.0009075 0.0009139
sigma2 2.1353 0.76615 0.0076615 0.0099141
> res.bay[1:15,]
(Intercept) A~
no sigma2
[1,] -100.75066 1.1479148 1.862622
[2,] -84.14091 0.9853853 1.790405
[3,] -93.42793 1.0783263 2.214343
[4,] -87.98343 1.0297587 1.857563
[5,] -60.41204 0.7586823 3.487881
[6,] -88.45529 1.0324655 2.841447
[7,] -70.67004 0.8607582 1.724942
[8,] -78.15466 0.9292954 1.773086
[9,] -83.50116 0.9834269 1.864375
[10,] -97.87236 1.1166745 2.987112
[11,] -87.44617 1.0212019 1.897684
[12,] -70.76430 0.8667845 3.726868
[13,] -89.75502 1.0418003 2.435048
[14,] -81.57685 0.9694492 2.832919
139
[15,] -89.03969 1.0361920 2.303039
>
> cor(res.bay)
(Intercept) A~
no sigma2
(Intercept) 1.000000000 -0.999437116 0.008256327
A~
no -0.999437116 1.000000000 -0.009172142
sigma2 0.008256327 -0.009172142 1.000000000
>
> raftery.diag(res.bay)
>
> library(mcgibbsit)
> #datos.mcmc<-read.mcmc(1,res.bay)
> mcgibbsit(res.bay, q=0.025, r=0.005, s=0.95,
converge.eps=0.001,correct.cor=TRUE)
Multi-Chain Gibbsit
-------------------
Number of Chains = 1
Per-Chain Length = 10000
Total Length = 10000
140
Burn-in Estimation Total Lower bound Auto-Corr. Between-Chain
(M) (N) (M+N) (Nmin) factor (I) Corr. factor (R)
NOTE: The values for M, N, and Total are combined numbers of iterations
based on using 1 chains.
10.3. Algoritmo E − M
Esta es una técnica para obtener los estimadores de máxima verosimili-
tud, desarrollada originalmente en el contextod edatos faltantes. Defina
Z
Q θ(t) , θ = ln (p (θ|Yobs , Yperd )) f Yper |Yobs , θ(t) dYperd
donde
141
10.3.1. Ejemplo: Distribución Birnbaum-Saunders
La función de distribución acumulada de la distribución de dos paráme-
tros de Birnbaum-Saunders de la variable aleatoria T puede escribirse como
( 1/2 )!
1/2
1 t β
FT (t; α, β) = Φ − t > 0, α, β > 0.
α β t
Este modelo fue propuesto por Birnbaum y Saunders (1969) para mo-
delar la falla de un aparato que oscila por fatiga debido a la iniciación
y crecimiento de una de una ruptura o falla dominante.
1
E(T ) = β 1 + α2
2
5
V ar(T ) = αβ 1 + α2
4
16α2 11α2 + 6
β1 (T ) = 3
(5α2 + 4)
6α2 93α2 + 41
β2 (T ) = 3+ 2
(5α2 + 4)
x<-c(10.5,7.2,8.4,7.2)
a0<-1; a1<-1; b0<-1; b1<-1
142
# funcion de Birnhaum-Saunders
veros<-function(X,a,b){
X<-c(10.5,10.8,7)
n<-length(X);Xb<-X/b;bX<-b/X
res<-(-n*log(a*b)+sum(log(sqrt(Xb)+(bX)^(3/2)))
-(1/(2*a*a)*sum(Xb+bX-2)))
res<-exp(res)
res
}
apriori<-function(a,b,a0,b0,a1,b1) dgamma(a,a0,b0)
*dgamma(b,a1,b1)
h<-function(a,b,a0,b0,a1,b1) dgamma(a,a0,b0)
*dgamma(b,a1,b1)
aposte<-function(a,b,X,a0,b0,a1,b1) veros(X,a,b)
*apriori(a,b,a0,b0,a1,b1)
#Generar candidatos
muestreadora<-function(a0,b0,a1,b1){
a.e<-rgamma(1,a0,b0)
b.e<-rgamma(1,a1,b1)
res<-c(a.e,b.e)
res
}
# Programa Principal
teta.v<-c(1,1);res<-teta.v
for(i in 1:50000){
a.v<-teta.v[1]
b.v<-teta.v[2]
teta.n<-muestreadora(a.v,b.v,a.v,b.v)
#print(teta.n)
a.n<-teta.n[1]
b.n<-teta.n[2]
r<-aposte(a.n,b.n,X,a0,b0,a1,b1)*h(a.v,b.v,a.n,b.n,a.n,b.n)
/(aposte(a.v,b.v,X,a0,b0,a1,b1)*h(a.n,b.n,a.v,b.v,a.v,b.v))
#print(r)
if(r>1){
res<-rbind(res,teta.n)
teta.v<-teta.n
}
143
else{
if(runif(1)<r){
res<-rbind(res,teta.n)
teta.v<-teta.n
}}}
alfa<-res[,1])
beta<-res[,2])
library(hdrcde)
hdr.den(alfa, prob = c(50, 95, 99),xlab=’alfa’)
> colMeans(res)
[1] 2.219080 1.175091
> dim(res)
[1] 1325 2
> colMeans(res[-(1:500),])
[1] 2.202812 1.176349
> cov(res[-(1:500),])
[,1] [,2]
[1,] 0.41217844 -0.01287802
[2,] -0.01287802 0.24297240
>
Ejemplo 10.1 Prueba para una Poisson. Suponga que deseamos verificar
si la hipótesis que el número promedio de goles del equipo local en el cam-
144
peonato colombiano es 1.0 ó menos es más plausible que si el promedio es
mayor que 1.0. Asumamos que el número de goles metidos por el local en el
primer tiempo se distribuye Poisson(λ). Las hipótesis serán:
H1 : λ ≤ 1
H2 : λ > 1
Ahora
Z
λy exp(−nλ)
p(y|Hi ) = ξ(λ|Hi ) dλ = Eξi [P (Y = y|λ)]
Θi y!
Para H1
Z 1 λy exp(−nλ) Γ (α0 + β0 ) α0 −1
p(y|H1 ) = λ (1 − λ)β0 −1 dλ
0 y! Γ (α0 ) Γ (β0 )
145
Para H2
Z
∞ λy exp(−nλ) 1 1
p(y|H2 ) = √ exp − 2 (λ − µ0 )2 dλ
1 y! 2πσ0 2σ 0
4. Calcule pi = P (y|nλi ), i = 1, 2, · · · , M
5. Calcule
M
1 X
pi
M i=1
x<-c(0,1,0,2,1,0,2,1,1,
1,0,1,0,1,0,1,1,0,
0,0,3,0,0,0,0,1,0,
0,2,0,1,0,1,0,1,0)
a0<-1
b0<-1
u0<-1.5
146
s20<-1
# Cálculo del BF
# Valor de numerador
lambdas<-matrix(rbeta(1000,a0,b0),ncol=1)
prob.pois<-function(lambda,x) ppois(sum(x),length(x)*lambda)
numerador<-mean(apply(lambdas,1,prob.pois,x))
p.1<-pnorm(1,mean=u0,sd=sqrt(s20))
p.s<-runif(1000,p.1,1)
lambdas<-matrix(qnorm(p.s,mean=u0,sd=sqrt(s20)),ncol=1)
denominador<-mean(apply(lambdas,1,prob.pois,x))
BF<-numerador/denominador
> BF
[1] 2355.499
> numerador
[1] 0.6305515
> denominador
[1] 0.0002676934
> razon.apriori<-0.4/0.6
> razon.apriori
[1] 0.6666667
> BF*razon.apriori
[1] 1302.348
>
147
quilamente este juego de parqués, o sea si los dados son buenos o están
cargados.
Si el par de dados fueran perfectos, entonces el modelo teórico serı́a el
que aparece en la siguiente tabla:
Resultado 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
Probabilidad 36 36 36 36 36 36 36 36 36 36 36
ri no tenemos información que nos haga dudar sobre la calidad de los dados y
escogemos
ξ(H0 ) = 0,9
ξ(H1 ) = 0,1
ξ(Ho |Io )
ξ(H1 |Io )
los odds posteriores en favor de Ho :
148
> # Resultados muestrales
> x<-c(4 , 8 , 10 , 11 , 22 , 14 , 22 , 18 , 10 , 5 , 6)
> prob.teor<-c(1,2,3,4,5,6,5,4,3,2,1)/36
> numerador<-dmultinom(x,prob=prob.teor)
> numerador
[1] 3.668687e-11
>
> library(MCMCpack)
> temp<- rdirichlet(1000,c(1,1,1,1,1,1,1,1,1,1,1))
> densid.multi<-function(proba,x)dmultinom(x,prob=proba)
>
> denominador<-mean(apply(temp,1,densid.multi,x))
> denominador
[1] 1.280907e-17
>
> numerador/denominador
[1] 2864133
Ejemplo:
Sean y1 , · · · , yn |θ variables independientes y distribuidas Poisson con
parámtero θ. Ası́,
θyi e−θ
p (yi |θ) =
yi !
para θ > 0, yi = 0, 1, 2, · · ·. Sea H0 : θ = θ0 y H1 : θ = θ1 dos hipótesis
simples, con ξ (H0 |I0 ) = ξ (H1 |I0 ). El Factor Bayes es
P yi
θ0 i
exp (θ1 − θ0 )
θ1
y por lo tanto, ya que la distribución apriori asigna igual probabilidad a las
hipótesis, la regla de decisión será aceptar H0 si el Factor de Bayes es mayor
que 1.
149
Comparación de dos proporciones
Un problema común en estadı́stica es el de verificar que dos propor-
ciones son iguales (H0 : π1 = π2 ) contra la alternativa H1 : π1 6= π2 .
150
Capı́tulo 11
Inferencia Predictiva
p(z, x)
p (z|x) =
p(x)
R
ΘR p(z, x, θ) dθ
=
p(x, θ) θ
R Θ
ΘR p(z, x|θ)ξ(θ) dθ
=
p(x|θ)ξ(θ) θ
R Θ
Θ p(z|θ)p(x|θ)ξ(θ)
R
dθ
=
Θ p(x|θ)ξ(θ) θ
Z ( )
p(x|θ)ξ(θ)
= p(z|θ) R dθ
Θ Θ p(x|θ)ξ(θ) θ
Z
= p(z|θ)ξ (θ|x) dθ
151
Ası́
Z
p (z|x) = p(z|θ)ξ (θ|x) dθ
= Eθ|x [p(z|θ)]
Ahora
p(z|π) = π z (1 − π)1−z , z = 0, 1,
y
P P
xi +α−1
ξ(π|x) ∝ π (1 − π)n− xi +β−1
P P
Ahora, si denotamos por α∗ = xi + α y β ∗ = n − xi + β tenemos
que
Z 1
Γ(n + α + β) z+α∗ −1 ∗
p(z|x) = ∗ )Γ(β ∗ )
π (1 − π)β +1−z−1 dπ
0 Γ(α
Γ(n + α + β) Γ(z + α∗ )Γ(1 − z + β ∗ )
=
Γ(α∗ )Γ(β ∗ ) Γ(n + α + β + 1)
Ası́
Γ(n + α + β)Γ(1 + β ∗ )
P (z = 0|x) =
Γ(β ∗ )Γ(n + α + β + 1)
β∗
=
n+α+β
β∗
=
α∗ + β ∗
152
y
α∗
P (z = 1|x) =
α∗ + β ∗
Vale la pena notar que
P (z = 1|x) = E(π|x),
la media posterior.
θz e−θ
p(z|x) =
z!
Ası́
Z ∗
∞ θz e−θ (β ∗ )α −β ∗ θ
p(z|x) = e dθ
0 z! Γ (α∗ )
∗ Z
(β ∗ )α ∞ ∗ ∗
= ∗
θz+α −1 e−(β +1)θ dθ
z!Γ (α ) 0
∗
(β ∗ )α Γ (z + α∗ )
=
z!Γ (α∗ ) (β ∗ + 1)(z+α∗ )
! α∗ z
z + α∗ − 1 β∗ 1
=
z β∗ + 1 ∗
β +1
153
la misma densidad. Estamos interesados en la probabilidad predictiva que
Z > z para algún nivel dado z. Cuando θ es conocido, esto está dado por
φ = φ(z|θ) = e−θz .
Si asumimos que la distribución apriori de θ es ξ(θ) ∝ θa−1 e−bθ , una
apriori Gamma con parámetros (a, b). La distribución aposteriori de θ es
también una Gamma con parámetros (a + n, b + Sn ), donde Sn = x1 + · · · +
xn , y la esperanza posterior de φ se calcula como
a+n
b + Sn
φ̂ =
b + Sn + z
Cuando a = b = 0 se tiene una distribución apriori Jeffreys y la esperanza
se reduce a
n
Sn
φ̂ =
Sn + z
Z
p (z|x) = p(z|θ)ξ (θ|x) dθ
= Eθ|x [p(z|θ)]
154
11.2.1. Algoritmo
(Paso 1) Genere una muestra de tamaño M , luego de haber quemado
nB muestras de ξ (θ |Datos ), puede usar un thin (botar valores inter-
medio si es necesario para controlar la autocorrelación). Esta muestra
la denotamos por comodidad como
θ1 , θ2 , · · · , θM
z1 , z2 , · · · zK
155
La distribución predictiva de z dado los Datos es
Pn
Z xi
3 λz exp(−λ) λ i=1 exp(−nλ)
p(z |Datos ) = Qn dλ
0 z! i=1 xi !
Z 3 Pn
1
p(z |Datos ) = Qn exp(−λ(n + 1))λz+ i=1
xi
dλ
z! i=1 xi ! 0
Pn
1 Γ (z +x + 1)
p(z |Datos ) = Qn Pn i
i=1
z! i=1 xi ! (n + 1)z+ i=1 xi +1
Z 3 Pn
(n + 1)z+ i=1 xi +1 Pn
× Pn exp(−λ(n + 1))λz+ i=1 xi dλ
0 Γ (z + i=1 xi + 1)
Datos<-c(0,0,2,1,2,0,0,2,2,1,1,1,3,4,4,3)
p.pred<-function(z,x){
n<-length(x)
S.x<-sum(x)
P.x<-prod(factorial(x))
a<-z+S.x+1
b<-n+1
res<-gamma(a)/(factorial(z)*b^a*P.x)*pgamma(3,a,rate=b)
return(res)
}
temp<-p.pred(0:20,Datos)
prob.poste<-temp/sum(temp)
plot(0:20,prob.poste,type=’h’)
prob.poste
156
Ejemplo 11.6 Distribución continua.
Suponga X ∼ Gamma(α, β)
Distribución apriori
ξ(α, β) ∝ 1
Distribución posterior
n
!α−1 n
!
β nα Y X
ξ (α, β |Datos ) ∝ xi exp −β xi
(Γ(α))n i=1 i=1
tiempos<-c(1.2,0.5,1.6,2.0,2.1,2.0)
prod.tiempos<-prod(tiempos)
sum.tiempos<-sum(tiempos)
n<-length(tiempos)
u<-mean(tiempos)
v<-var(tiempos)
a<-u^2/v
b<-u/v
> a
157
[1] 6.347701
> b
[1] 4.051724
>
veros<-function(a,b,datos){
res<-1
for(i in 1:length(datos)) res<-res*dgamma(datos[i],a,rate=b)
return(res)
}
a1<-seq(0.01,16.0,length=50)
b1<-seq(0.01,10.0,length=50)
dist.a.con<-function(a,b,produ,n) exp(n*a*log(b)
-n*lgamma(a)+a*log(produ))
# Proceso de muestreo
a.viejo<-a
b.viejo<-b
result<-c(a,b)
resulta<-matrix(NA,ncol=2,nrow=10000)
for(i in 1:nrow(resulta)){
pesos<-dist.a.con(a1,b.viejo,prod.tiempos,n)
a.nuevo<- sample(a1,1,prob=pesos)
b.nuevo<-rgamma(1,n*a.nuevo+1,sum.tiempos)
resulta[i,]<-c(a.nuevo,b.nuevo)
b.viejo<-b.nuevo
}
points(resulta,col=’grey’)
par(mfrow=c(2,1))
plot(resulta[,1],type=’l’,ylab=expression(alpha))
plot(resulta[,2],type=’l’,ylab=expression(beta))
par(mfrow=c(1,1))
# Función que genera muestra de la predictiva
genera.muestra.predictiva<-function(a)rgamma(1,a[1],rate=a[2])
158
z<-apply(resulta,1,genera.muestra.predictiva)
plot(density(z,from=0),main=’Distribución Predictiva’)
159
[] []
160
que ha estado sujeta a muchas propuestas metodológica y controversias pero
no se puede negar su utilidad. Alqallaf y Gustafson (2001) presentan una
propuesta para la utilización de métodos de validación cruzada en estadı́sti-
ca bayesiana. Argumentan ellos que se puede construir una medida que es
comparable al concepto de valor P propuesto por Gelman, Meng y Stern.
Uno de los principales problemas que tiene la utilización de validación cru-
zada en estadı́stica bayesiana es el costo computacional involucrado en este
proceso, pues la complejidad que tiene el problema original necesitarı́a ser
multiplicada por el número de subproblemas generados por la técnica.
161
162
Capı́tulo 12
Modelos Lineales
Control
Predicción
163
2. Análisis Exploratorio o inicial de los datos
3. Desarrollo de uno o más modelos de regresión tentativos
4. Hay uno o más modelos adecuados en los datos? Sı́.
5. Identifique el modelo más adecuado
6. Haga todas las inferencias necesarias basado en el modelo seleccionado
7. Revise los modelos y/o desarrolle otros diferentes
8. Presentacion de resultados e interpretación.
E [Y |X = x] = µY |X=x = β0 + β1 x
donde β0 y β1 se conocen como los parámetros del modelo. Estos valores
usualmente son desconocidos y el problema es estimarlos a partir de una
muestra de individuos de la población.
Sea (Y1 , X1 ), (Y2 , X2 ), · · · , (Yn , Xn ) una muestra aleatoria extraı́da de la
población de referencia. Observe como cada individuo proporciona infor-
mación simultáneamente sobre X y sobre Y . El individuo i-ésimo puede
representarse en términos del modelos ası́:
Y i = β 0 + β 1 Xi + ei
Supuestos:
1. ei ∼ N ormal 0, σ 2 , varianza constante (homoscedasticidad)
2. Cov (ei , ej ) = 0 para todo i 6= j
Notación:
yi = Yi − Ȳ
xi = Xi − X̄
Las minúsculas denotan desviaciones de la media.
164
12.1.4. Modelo de Regresión Lineal Múltiple
Y = β 0 + β 1 X1 + β 2 X2 + . . . + β k Xk + ei
donde
e: Error aleatorio
1. E (e; ) = 0
2. V ar (e; ) = σe2
Y ∼ N β 0 + β 1 X1 + · · · + β k Xk , σ 2
E [Y |X1 , X2 , · · · , Xk ] = β0 + β1 X1 + · · · + βk Xk
La muestra aleatoria consta de n puntos. El i-ésimo punto se denota como
Condicion
Cov (Yi , Yj ) = 0 para todo i 6= j
Yi = β0 + β1 Xi1 + β2 Xi2 + · · · + βk Xik + ei para i = 1, 2, · · · , n
el modelo aplicado al i-ésimo punto
Para las n observaciones tenemos
165
12.1.5. Notación Matricial
La notación matricial simplifica todo el trabajo
yi | xi ∼ N xi β, σ 2 ó y | X ∼ N Xβ, σ 2 I
−n/2
1
L β, σ | y2
= 2πσ exp − 2 (y − Xβ)0 (y − Xβ)
2
2σ
−n/2
2 1 0
= 2πσ exp − 2 y − Xβ̂ y − Xβ̂
2σ
1 0
× exp − 2 β − β̂ X0 X β − β̂
2σ
0 −1
y − Xβ̂ X β − β̂ = y 0 I − X X0 X X0 X β − β̂
= y0 (X − X) β − β̂ = 0.
0
Por lo tanto se concluye que S = y − Xβ̂ y − Xβ̂ , X0 X y β̂ son es-
tadı́sticos suficientes para β y σ 2 .
−(n−k−2)/2−1
1 0
L β, σ 2 | y ∝ σ2 exp − y − X β̂ y − X β̂
2σ 2
−k/2
1 0
× σ2 exp − β − β̂ X 0
X β − β̂
2σ 2
166
β | σ 2 ∼ N β0 , σ 2 M−1
0
σ 2 ∼ IG2 (S0 , v0 )
tenemos
−(n−k−2)/2−1
S 1 0
ξ β, σ 2 | y ∝ σ2 exp exp −
− β − β̂ X 0
X β − β̂
2σ 2 2σ 2
−v0 /2−1
S0 −k/2 1
× σ2 exp − 2 σ2 exp − 2 (β − β0 )0 M0 (β − β0 )
2σ 2σ
−(v0 +n)/2−1
S1
= σ2 exp − 2
2σ
−k/2
1
× σ2 exp − 2 (β − β1 )0 M1 (β − β1 )
2σ
donde
M1 = M0 +X0 X
β1 = M−1
1 M0 β0 + X0 Xβ̂
S1 = S0 + S + Sβ
0 h −1 i−1
Sβ = β0 − β̂ M−1 0
0 + XX β0 − β̂
β | y, σ 2 ∼ N β1 , σ 2 M−1
1
σ 2 | y ∼ IG2 (S1 , v1 )
167
donde v1 = v0 + n.
La distribución marginal posterior para β es una t multivariable1 . Si
integramos para eliminar σ 2 de la distribución conjunta posterior obtenemos
el kernel de la marginal posterior como
h i−(v1+k)/2
ξ (β | y) ∝ S1 + (β − β1 )0 M1 (β − β1 )
β | y ∼ tk (β1 , S1 , M1 , v1 )
!
βa
β =
βb
!
Maa Mab
M−1 =
Mba Mbb
β a | σ 2 ∼ N ba , σ 2 Maa
−1 −1
β a | β b , σ 2 ∼ N ba + Mab Mbb β b − bb , σ 2 Maa − Mab Mbb Mba .
168
β a ∼ tka ba , S, (Maa )−1 , v
−1 !
−1 −1
a b a ab bb b b aa ab bb ba
β |β ∼ t ka b + M M β −b , S, M −M M M ,v .
g-apriori de Zellner
La aproximación g-apriori de Zellner no requiere especifificar el cono-
cimiento previo de acerca de los parámetros del modelo. La aproximación
g-apriori asume que las covarianzaqs apriori para β son iguales a las obte-
nidas mediante los datos muestrales. O sea, la matriz de porecisión apriori
está dada por
g 0
XX
σ2
La media aposteriori será
β̂ + gβ (0)
β (1) =
1+g
169
12.2.2. Inferencias
Intervalos de Probabilidad
Regiones de alta probabilidad para conjuntos de parámetros se encuen-
tran directamente de la distribución marginal posterior. Para un solo paráme-
tro tenemos
−1
βi | y ∼ t βi1 , S1 , Mii1 , v1
βi − βi1
q
M1ii S1 /v1
tiene una distribución t estándar y una región de más alta probabilidad 1−α
está dada por
q q
βi1 − tα/2,v1 M1ii S1 /v1 , βi1 + tα/2,v1 M1ii S1 /v1
y por lo tanto
170
−1
(δ − Rβ 1 + r)0 RM−1
1 R (δ − Rβ 1 + r) /q
∼ F(q,v1 )
S1 /v1
para δ = Rβ 1 − r. La hipótesis δ = 0 está contenida en la región de más
alta probabilidad si
−1
(Rβ 1 − r)0 RM−1
1 R (Rβ 1 − r) /q
< F(q,v1 )
S1 /v1
Para el cálculo de las pruebas bayesianas y los factores de Bayes suponga-
mos deseamos probar H1 : Rβ = r y H2 : Rβ 6= r. H1 implica excatamente
q restricciones sobre los paámetros que pueden ser sustituidos en el modelo,
lo cual produce
y ∗ = X∗ β ∗ +
171
Si asumimos que el modelo P recio = β0 + β1 Año nos puede representar
de una manera adecuada la relación entre el Precio de Oferta del vehı́culo y
el Año del mismo. Además asumimos que una observación particular tiene
una diferencia con el modelo teórico que se distribuye normal con media
cero y varianza σ 2 . La pendiente β0 nos indica la diferencia promedio en el
precio de dos carros Sprint de años consecutivos. Podemos entonces utilizar
un programa estadı́stico que ajuste el modelo ( aún hasta calculadoras de
bolsillo ajustan este tipo de modelos). Los resultados son
Año Precio
(en millones)
88 7.8
90 8.8
95 11.8
95 12.3
94 12.0
95 8.8
172
muy alto. Dadas esta nuevas condiciones para nuestro problema, o sea in-
formación previa disponible y cuantificada en términos de distribuciones,
procedemos a mezclarla, utilizando el Teorema de Bayes, para obtener nues-
tra distribución actualizada o aposteriori. Esta última produce los resultados
siguientes
“Es vano hacer con más lo que se puede hacer con menos”
173
Z
P (D|Mi ) = ξ (θi |M ) L(θi ) dθi
≈ xi θ̂i |M L(θ̂i ) δθi
δθi
≈ L(θ̂i )
∆θi
≈ Máxima Verosilitud × Factor de Occam
Los modelos con más parámetros usualmente hacen que los datos pro-
duzcan un mejor ajuste. El Factor de Occam penaliza los modelos por el
“volumen” del espacio parametral desperdiciado.
No existen reglas rı́gidas que se deban seguir en el proceso de modelación,
más bien lo que se presenta a continuación nace de la experiencia:
Comenzar con modelos pequeños y simples que han sido utilizados por
otras personas y para los cuales los análisis han sido realizados.
MCMCregress()
Esta función genera muestras de la distribución posterior del modelo
lineal con errores normales usando el muestreador de Gibbs, usando una
distribución apriori normal multivariable del vector β, y una Gamma inversa
para la varianza condicional.
MCMCregress(formula, data = parent.frame(), burnin = 1000,
mcmc = 10000,thin = 1, verbose = 0, seed = NA,
beta.start = NA, b0 = 0, B0 = 0, c0 = 0.001,
d0 = 0.001,marginal.likelihood = c("none",
"Laplace", "Chib95"), ...)
174
Ejemplo 12.2 Modelación del Precio del Twingo. Para ilustrar el
uso de la función MCMCregress() vamos a modelar el precio de oferta de
carros Renault Twingo considerando el año del vehı́culo. Estos datos apare-
cieron en la sección de Avisos Clasificados del El Colombiano, Marzo 30 del
2008.
datos<-matrix(datos,ncol=2,byrow=T)
Precio<-datos[,2]
A~
no<-datos[,1]
plot(A~
no,Precio)
res.lm<-lm(Precio~A~
no)
175
summary(res.lm)
abline(res.lm)
lines(smooth.spline(A~
no,Precio),col=’red’)
title(main=’Precio de Oferta de Twingos vs. A~no’,
sub=’El Colombiano, Marzo 30 del 2008’)
> summary(res.lm)
Call:
lm(formula = Precio ~ A~
no)
Residuals:
Min 1Q Median 3Q Max
-2.8500 -0.8438 0.2416 0.7916 2.8387
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -82.81515 8.82414 -9.385 9.1e-09 ***
A~
no 0.97642 0.08559 11.409 3.3e-10 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
> require(MCMCpack)
Loading required package: MCMCpack
Loading required package: coda
Loading required package: lattice
Loading required package: MASS
##
## Markov Chain Monte Carlo Package (MCMCpack)
## Copyright (C) 2003-2008 Andrew D. Martin, Kevin M. Quinn, and Jong Hee Park
##
## Support provided by the U.S. National Science Foundation
## (Grants SES-0350646 and SES-0350613)
##
> res.bay<-MCMCregress(Precio~A~
no)
> summary(res.bay)
Iterations = 1001:11000
176
Thinning interval = 1
Number of chains = 1
Sample size per chain = 10000
> res.bay[1:15,]
(Intercept) A~
no sigma2
[1,] -100.75066 1.1479148 1.862622
[2,] -84.14091 0.9853853 1.790405
[3,] -93.42793 1.0783263 2.214343
[4,] -87.98343 1.0297587 1.857563
[5,] -60.41204 0.7586823 3.487881
[6,] -88.45529 1.0324655 2.841447
[7,] -70.67004 0.8607582 1.724942
[8,] -78.15466 0.9292954 1.773086
[9,] -83.50116 0.9834269 1.864375
[10,] -97.87236 1.1166745 2.987112
[11,] -87.44617 1.0212019 1.897684
[12,] -70.76430 0.8667845 3.726868
[13,] -89.75502 1.0418003 2.435048
[14,] -81.57685 0.9694492 2.832919
[15,] -89.03969 1.0361920 2.303039
177
# Oct. 10 2010
datos<-scan()
2003 11
1991 6.2
1991 5.7
1992 7.5
1995 8.3
1996 6.5
1994 8.3
1993 7.6
1993 7.6
datos<-matrix(datos,ncol=2,byrow=T)
a~
no1<-datos[,1]
precio1<-datos[,2]
plot(a~
no1,precio1)
datos<-scan()
1988 6.0
178
1993 6.8
1996 10.0
1996 9.8
1999 10.2
1987 6.0
1993 8.0
1994 7.5
1994 8.8
datos<-matrix(datos,ncol=2,byrow=T)
a~
no2<-datos[,1]
precio2<-datos[,2]
(IPC.acum<-sum(IPC))
(precio2<-precio2*(1+IPC.acum/100))
require(MCMCpack)
res.bay<-MCMCregress(precio2~a~
no2)
summary(res.bay)
Iterations = 1001:11000
Thinning interval = 1
Number of chains = 1
Sample size per chain = 10000
179
sigma2 0.2480 0.4327 0.6184 0.9237 2.3171
> res.bay[1:10,]
(Intercept) a~
no2 sigma2
[1,] -848.2590 0.4297464 0.4481977
[2,] -977.8810 0.4947555 0.2565116
[3,] -859.3918 0.4352304 0.7775673
[4,] -911.6296 0.4616164 0.3732648
[5,] -1184.8577 0.5983969 0.9113289
[6,] -703.8946 0.3573862 2.4943903
[7,] -873.8297 0.4425935 0.2302472
[8,] -852.9071 0.4321825 0.8055657
[9,] -640.3850 0.3255312 0.5367643
[10,] -750.3874 0.3807708 0.5411309
>
> library(MASS)
>
> fitdistr(1/res.bay[,3],’gamma’)
shape rate
3.51567358 1.98056756
(0.04754901) (0.02879434)
> (b0<-c(mean(res.bay[,1]),mean(res.bay[,2])))
[1] -823.2670280 0.4172582
> (B0<-solve(cov(res.bay[,1:2])))
(Intercept) a~
no2
(Intercept) 11.24989 22424.72
a~
no2 22424.72321 44699971.20
> B0[1,2]<-B0[2,1]
> res.bay2<-MCMCregress(precio1~a~no1,b0=b0,B0=B0,
c0=3.51567358,d0=1/1.98056756 )
> summary(res.bay2)
Iterations = 1001:11000
Thinning interval = 1
Number of chains = 1
Sample size per chain = 10000
180
(Intercept) -726.8450 118.92973 1.1892973 1.2510040
a~
no1 0.3686 0.05966 0.0005966 0.0006274
sigma2 0.9444 0.55779 0.0055779 0.0082347
Call:
lm(formula = precio1 ~ a~
no1)
Residuals:
Min 1Q Median 3Q Max
-1.7684 -0.2823 0.3888 0.4032 0.7460
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -704.70446 166.43371 -4.234 0.00387 **
a~
no1 0.35720 0.08346 4.280 0.00366 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
181
Hay dos modelos alternos
yI = XI β + a + I
y(I) = X(I) β + (I)
donde a es un vector
de k componentes de constantes que ajustan
la media
2 2
y I ∼ N 0, σ Ik y es independiente de (I) ∼ N 0, σ In−k .
La idea es usar la densidad predictiva
Z
p yI |y(I) = f (yI |θ) ξ θ|y(I) dθ
donde
n−p
Γ 2
K= k
1 n−p−k
Γ 2 Γ 2 (n − p − k)k/2
y
0
yI − XI β̂(I) (I − HI ) yI − XI β̂(I)
QI =
(n − p − k)s2(I)
182
Capı́tulo 13
Modelo Lineal Generalizado
3. Una función link (enlace, conexión) que relaciona las medias del mo-
delo lineal.
183
El modelo clásico asume que la media E (Yi ) = µ0 (θi ) está relacionada al
intercepto β0 y al vector de parámetros de las covariables β a través de una
función de encadenamiento monótona y diferenciable, y el espacio parame-
tral no es vacı́o.
El modelo lineal generalizado aparece imponiendo una apriori jerárquica
sobre los parámetros (β0 , β). Una selección particularmente conveniente es
usar aprioris normales con aprioris conjugadas para los hiperparámetros
(Ishwaran, 1997)
N
Y
L(β) = πini yi (1 − πi )ni (1−yi )
i=1
donde
exp xTi β
πi =
1 + exp xTi β
184
Si ξ(β) es la densidad apriori para β, entonces la densidad posterior para
β es proporcional a
ξ (β|y) ∝ ξ(β)L(β)
k
Y
ξ (π1 , · · · , πk ) ∝ πiwi mi −1 (1 − πi )wi (1−mi )−1
i=1
1
El conjunto de datos está completamente separado si existe un vector θ ∈ Rp tal que
xTi θ > 0 si yi = 1
xTi θ < 0 si yi = 0
para i = 1, · · · , n.El conjunto de datos está cuasicompletamente separado si existe un
vector θ ∈ Rp {0 tal que
xTi θ ≥ 0 si yi = 1
xTi θ ≤ 0 si yi = 0
para i = 1, · · · , n y si existe j ∈ 1, · · · , n tal que xTj θ = 0. Un conjunto de datos se
dice que se traslapa si no está completamente separado ni cuasicompletamente separado.
El estimador de máxima verosimilitud de θ existe si y solo si el conjunto de datos se
traslapa. Los autores miden el traslapado. Ellos definen nnotraslapado el menor número de
observaciones que necesitan removerse para que los estimadores de máxima verosimilitud
no existan. Observe que nnotraslapado ≤ ncompleto
185
Para el linkeo logı́stico, esta apriori sobre {πi } es equivalente a una apriori
sobre β que es de la misma forma que la verosimilitud con “observaciones
apriori” {(mi , wi , xi )}. Esta es llamada una apriori de datos aumentados
(ADA). Es fácil actualizar la densidad aposteriori de β utilizando esta forma
de distribución apriori. La densidad posterior es proporcional a
N
Y k
Y
ξ (β|y) ∝ πini yi (1 − πi )ni (1−yi ) πiwi mi −1 (1 − πi )wi (1−mi )−1
i=1 i=1
model
{
for( i in 1 : N ){
r[i] ~ dbin(p[i],n[i])
logit(p[i]) <- alpha.star + beta * (x[i] - mean(x[]))
rhat[i] <- n[i] * p[i]
}
list( x = c(10.83,11.08,11.33,11.58,11.83,12.08,
12.33,12.58,12.83,13.08,13.33,13.58,13.83,14.08,
14.33,14.58,14.83,15.08,15.33,15.58),
n = c(120,90,88,105,111,100, 93,100,108,99,106,
105,117,98,97,120, 102,122,111,94),
186
r = c(2,2,5,10,17,16, 29,39,51,47,67,
81,88,79,90,113, 95,117,107,92), N =20)
list(alpha.star=0, beta=0)
Procedimiento Clásico en R
> summary(glm(cbind(exitos,n-exitos)~edad,family=’binomial’))
Call:
glm(formula = cbind(exitos, n - exitos) ~ edad, family = "binomial")
Deviance Residuals:
Min 1Q Median 3Q Max
-1.2267 -0.8613 -0.3124 0.7507 1.2841
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -20.46917 0.83475 -24.52 <2e-16 ***
edad 1.57545 0.06379 24.70 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1278.571 on 19 degrees of freedom
Residual deviance: 14.893 on 18 degrees of freedom
AIC: 100.35
187
13.2. Regresión Poisson
La distribución Poisson juega un papel de fundamental importancia en
el trabajo aplicado para modelar problemas de conteo en muchas áreas. Los
problemas de regresión donde la variable dependiente es un conteo ocurre con
bastante frecuencia. Ejemplos tenemos el número de muertos por una cierta
enfermedad extraña puede explicarse por un número grande de factores,
por ejemplo, clima, salubridad, educación, etc. El número de defectos que
aparece en cierto rollo de tela depende de la longitud del rollo, época de
elaboración. Es común asumir una respuesta poissoniana, que perteneciendo
a la familia exponencial puede resolverse con la metodologı́a que estamos
desarrollando.
Yi ∼ P oisson(λi )
e−λi λyi i
f (yi ; λi ) =
yi !
= exp (yi log λi − λi − log(yi !))
= exp (yi θi − λi − log(yi !))
donde
θi = log(λi )
el cual es el parámetro natural.
E[yi ] = λi
var[yi ] = λi
∂λi
= exp(ηi ) = λi
∂ηi
188
se reduce a
n
X
(yi − λi )xij = 0
i=1
ya que
2
∂λi 1
wi = = λi
∂ηi var(yi )
−1
la matriz de covarianza estimada de β̂ es X 0 Ŵ X c es la
donde W
matriz diagonal con elementos de λ̂ en la diagonal principal.
defectos<-c(0,0,0,1,0,2,0,0,1,0,
0,2,1,0,0,0,0,1,1,0)
area<-c(
1,1,1,1,1,2,0.5,0.5,1,0.5,
1.5,1.5,2,0.5,1,1,1,1.5,2,1.5)
require(MCMCpack)
res<-MCMCpoisson(defectos~area)
summary(res)
Iterations = 1001:11000
Thinning interval = 1
189
Number of chains = 1
Sample size per chain = 10000
190
y el estimador UMVU (insegado y uniformemente de varianza mı́nima) de
ρ es
Γ n−2 Z
2
1 t−1/2 (1 − t)(n−5)/2
ρ̂ = R p dt
Γ 21 Γ n−3 0 1 − t(1 − R2 )
2
La f.d.p. de R es
(n−1)/2 (n−4)/2 Z
(n − 2) 1 − ρ2 ∞
fR (r) = 1 − r2 (cosh w − ρ r)−(n−1) dw
π 0
(n−1)/2 Z ∞
ξ (ρ |Datos ) ∝ ξ(ρ) 1 − ρ 2
(cosh w − ρ r)−(n−1) dw
0
191
Definición 13.1 Distribución de McCullagh. Sea X una variable alea-
toria definida en el intervalo (−1, 1) cuya p.d.f es de la siguiente forma:
1
(1 − x2 )v− 2
fx (x; θ, υ) =
(1 − 2θx + θ2 )υ B(υ + 21 , 21 )
Dicha densidad está relacionada con la densidad de la variable X 0 :
1
0 (1 − x02 )υ− 2 (1 − θ2 )
fx0 (x ; θ, υ) =
(1 − 2θx0 + θ2 )υ+1 B(υ + 21 , 12 )
con −1 < x0 < 1.
Ambas variables aleatorias se relacionan de la siguiente manera:
(X − θ)(θ2 − 1)
X0 − θ =
1 − 2θX + θ2
para todo −1 < θ < 1 y υ > − 21 en ambas densidades.
Por lo tanto la apriori para ρ serı́a
1
(1 − ρ2 )v− 2
ξ(ρ) ∝
(1 − 2θρ + θ2 )υ
y la aposteriori quedarı́a como
1
(1 − ρ2 )v− 2 (n−1)/2 Z ∞
ξ (ρ |r ) ∝ 1−ρ 2
(cosh w − ρ r)−(n−1) dw
(1 − 2θρ + θ2 )υ 0
192
Bibliografı́a
[7] De Santis, F. (2006) Power Priors and Their Use in Clinical Trials. The
American Statistician, Vol. 60, No. 2, pp. 122-129
193
[9] Draper, D., Hodges, J. S., Mallows, C. L. y Pregibon, D. (1993) Exchan-
geability and Data Analysis. Journal of the Royal Statistical Society.
Series A, Vol. 156, No. 1, pp. 9-37
[17] Mood , A.M, Graybill, F.A. y Boes, D.C. (1974). Introduction to the
Theory of Statistics. Third Edition. McGraw-Hill Kogasakua, Ltd: Tok-
yo.
194
[23] Winkler, R. L. (1972) An Introduction to Bayesian Inference and De-
cision. Holt, Rinehart and Winston,Inc.: New York
195
Índice alfabético
196
Laplace, 57
log-verosimilitud marginalizada, 94
loterı́as, 7
MCMC, 104
metanálisis, 5
Metropolis, 125
Metropolis-Hastings, 124
modelos encajados, 95
muestreador de Gibbs, 110, 126
probabilidad, 7
probabilidad personal, 5
probabilidad subjetiva, 5, 7
prueba de hipótesis, 84, 144
Raiffa, 21
región de credibilidad, 79
región de la densidad más alta, 79
regresión, 125, 163
Robert, 22
Schlaifer, 21
simulación, 103
verosimilitud, 17
Winkler, 56
Yang, 57
197