Professional Documents
Culture Documents
Joaquim Neto
joaquim.neto@ufjf.edu.br
www.ufjf.br/joaquim_neto
Versao 3.0
Sumario
1 Informacoes gerais
Contato
Referencias Bibliograficas
2 Revisao de probabilidade
Terminologia e notacao
Normal multivariada
3 Relacoes importantes
4 Introducao a Inferencia Bayesiana
Inferencia parametrica e funcao de verossimilhanca
Priori
Distribuicao conjunta
Posteriori
Conjugacao
5 Simulacoes
6 OpenBUGS
Bugs, WinBugs e OpenBugs
7 Exemplos
Regressao linear
Regressao nao linear
Ponto de mudanca
Informacoes gerais
Contato
E-mail
joaquim.neto@ufjf.edu.br
Site pessoal
http://www.ufjf.br/joaquim_neto
Referencias Bibliograficas
Barry, R. James
(1981)
Probabilidade: um curso em cvel intermediario.
Rio de Janeiro: Instituto de Matematica Pura e Aplicada (Projeto Euclides).
Bussab, Wilton de O. & Morettin, Pedro A.
(2005)
Estatstica Basica, 5a ed. edn.
Sao Paulo: Saraiva.
Carlin, B. P. & Gelfand, A. E.
(1991)
An interative monte carlo method for nonconjugate bayesian analysis.
Statistics and Computing, 1, 11928.
Degroot, M. H. & Schervish, M. J.
(2001)
Probability and Statistics, 3rd Edition, 3 edn.
Addison Wesley.
Meyer, P. L.
(2000)
Probabilidade: Aplicacoes a Estatstica, 2 ed. edn.
LTC.
Joaquim Neto (UFJF) ICE - UFJF Versao 3.0 4 / 51
Revisao de probabilidade
Revisao de probabilidade
Terminologia e notacao
Como sabemos, os termos densidadee funcao de probabilidadesao usados para funcoes que
descrevem probabilisticamente variareis contnuas e discretas, respectivamente. Aqui, usaremos
frequentemente o termo densidade, assumindo que as variaveis sao contnuas. No entanto, os
comentarios e resultados podem ser estendidos a variaveis discretas substituindo o termo
densidadepor funcao de probabilidadee integrais por somatorios.
Resumo
X variavel aleatoria
p(x) densidade de X
X = (X1 , X2 , ..., Xn ) vetor aleatorio
p(x) = p(x1 , x2 , ..., xn ) densidade de X
(X, Y) vetor aleatorio
p(x, y) densidade conjunta de (X, Y)
p(x) densidade marginal
p(y) densidade marginal
Y | X distribuicao condicional de Y dado X
X | Y distribuicao condicional de X dado Y
p(x | y) densidade condicional de X dado Y
p(y | x) densidade condicional de Y dado X
Normal multivariada
Exemplo 1: (normal multivariada) Seja uma matriz n n positiva definida. Dizemos que um
vetor aleatorio X = (X1 , ..., Xn )T tem distribuicao normal multivariada (de dimensao n) com
vetor de medias = (1 , ..., n )T e matriz de covariancias , se sua densidade for
n 1
p (x | , ) = (2) 2 (det ()) 2 exp 0.5 (x )T 1 (x ) ,
o
et
o
et
_n
20 40 60 80
1e03
_n
m
8e04 1e03
im
ui
8e04
u
x2
6e04
aq
aq 6e04 100
4e04
/jo
4e04 80
jo
2e04
0e+00
r/
60
r
2e04
.b
.b
0 40
fjf
fjf
0e+00 20
0
.u
.u
0 20 40 60 40 20
w
w
w
60
w
x1 0
w
w
Grafico de contorno
Superfcie
Figura: Densidade T
de uma normal
bivariada com vetor de medias = [30, 50] e matriz de
150 70
covariancias = .
70 150
o
et
| = .
_n
m
ui
aq
/jo
| = .
. br
fjf
.u
w
w
Relacoes importantes
Probabilidade condicional
p (x, y)
p (y | x) = .
p (x)
o
et
_n
m
ui
aq
jo
r/
.b
fjf
.u
w
w
o
et
_n
m
ui
aq
/jo
. br
fjf
.u
w
w
w
Teorema de Bayes
p (y | x) p (x)
p (x | y) = R .
p (y | x) p (x) dx
o
et
_n
m
ui
aq
jo
r/
.b
fjf
.u
w
w
Funcao de verossimilhanca
Para um vetor de observacoes x, a funcao de verossimilhancas e definida por
l() = p(x | )
o
et
_n
m
ui
aq
X
jo
r/
.b
fjf
.u
w
w
w
Exemplo 2: Seja X uma v.a com distribuicao Bin(20, ). Neste caso, a funcao de probabilidade
de X e dada por
20
x (1 )20x , para x = 1, 2, ..., 20
p (x|) = x .
0, caso contrario
Exemplo 2: Seja X uma v.a com distribuicao Bin(20, ). Neste caso, a funcao de probabilidade
de X e dada por
20
x (1 )20x , para x = 1, 2, ..., 20
p (x|) = x .
0, caso contrario
a) b)
0.20
0.20
o
o
et
et
_n
_n
5|)
m
m
p(x| )
ui
0.10
ui
0.10
aq
aq
p(x =
/jo
jo
r/
br
.b
.
fjf
fjf
0.00
0.00
.u
.u
w
0 5 10 15 20
w
w
w
w
x
w
Exemplo 3: Seja x = (x1 , x2 , ..., xn ) uma amostra aleatoria de uma distribuicao normal com
media e variancia 3. Determine a funcao de verossimilhanca.
Solucao:
Exemplo 3: Seja x = (x1 , x2 , ..., xn ) uma amostra aleatoria de uma distribuicao normal com
media e variancia 3. Determine a funcao de verossimilhanca.
Solucao: Temos que
n n
xi2 2 xi + n2
P P
0.5n i=1 i=1
= 232
0.5
exp .
32
Priori
Seguindo o paradigma Bayesiano, informacoes previas sobre o vetor sao representadas
matematicamente usando uma distribuicao de probabilidade, chamada de distribuicao a priori
(ou simplesmente priori), que estabelece (pondera) quais valores de sao mais provaveis,
segundo informacoes disponveis antes de conhecer as observacoes. Uma distribuicao a priori
deve entao representar a informacao do pesquisador sobre antes de conhecer as observacoes.
Neste contexto, e natural que diferentes pesquisadores possam ter diferentes graus de incerteza
sobre , (especificando distribuicoes distintas).
o
0.008
et
_n
m
p ( )
ui
0.004
aq
jo
r/
.b
0.000
fjf
.u
w
OBS: A priori nao e uma distribuicao para , uma vez que este e fixo, mas sim uma distribuicao
que representa a incerteza do pesquisador diante do valor desconhecido . No entanto, num
abuso de linguagem e notacao, e comum dizermos priori para e usarmos p() para a
densidade de , por exemplo.
Joaquim Neto (UFJF) ICE - UFJF Versao 3.0 19 / 51
Introducao a Inferencia Bayesiana Priori
Exemplo 4: Dois fsicos desejam determinar uma constante fsica. Um dos fsicos tem mais
experiencia nesta area e especifica sua priori como N(900, 202 ). O outro fsico tem pouca
experiencia e especifica uma priori N(800; 802 ), que e muito mais incerta. A figura abaixo exibe
as densidades destas prioris.
0.020
o
et
N(900, 202)
_n
N(800, 802)
im
0.010
p ( )
u
aq
/jo
. br
fjf
w0.000
.u
w
Distribuicao conjunta
Ao definir uma distribuicao a priori p() e uma funcao de verossimilhancas l() = p(x | ),
temos que
p (x, ) = p (x|) p ()
| {z } | {z }
verossimilhanca priori
Priori
o
et
_n
m
ui
aq
jo
r/
.b
fjf
.u
w
w
Verossimilhana
Posteriori
Posteriori
A distribuicao de dado um conjunto de observacoes em x = (x1 , ..., xn ) e chamada
de distribuicao a posteriori (ou simplesmente posteriori) de . Pelo teorema de Bayes,
temos que a densidade da posteriori e dada por
p (x | ) p ()
p ( | x) = R
p (x | ) p () d
Priori
o
et
_n
m
ui
aq
jo
r/
.b
fjf
.u
w
w
Verossimilhana
Conjugacao
Para os modelos estatsticos mais populares, existem famlias de distribuicoes com uma
caracterstica muito especial.
Famlia conjugada
Suponhamos que uma distribuicao a priori pertence a uma determinada famlia de dis-
tribuicoes. Se, para um determinado modelo e paramero, a posteriori pertencer a mesma
famlia, dizemos que esta e uma famlia conjugada de distribuicoes a priori para o
parametro.
Resultado 1 (binomial - beta): Seja x1 , ..., xn uma amostra aleatoria da Bin(m, ), com m
conhecido. Supondo uma priori Be(a, b) temos que
n n
!
X X
( | x1 , ..., xn ) Be a+ Yi , nm + b xi .
i=1 i=1
0.20
1.5
o
et
et
_n
_n
1.0
m
m
p(x| )
ui
0.10
ui
p ( )
aq
aq
0.5
/jo
jo
r/
br
.b
.
fjf
fjf
0.00
0.0
.u
.u
w
0 5 10 15 20
w
w
w
w
x
w
OBS: Lembre-se que a distribuicao uniforme e um caso particular da beta (basta fazer a = 1 e
b = 1). Assim, pelo resultado acima, um modelo binomial combinado com uma priori uniforme
produz uma posteriori beta.
o
0.12
o
et
et
Priori Be(2,200)
60
_n
_n
Posteriori Be(10,392)
m
w 0.00 0.04 0.08
m
p(x, )
ui
ui
40
aq
aq
jo
jo
20
r/
r/
.b
.b
fjf
fjf
.u
.u
w
0 5 10 15 20 25 30 0.00 0.04 0.08
w
w
x
w
w
Funcao de probabilidade de uma Bin(100, 0.1). Priori e posteriori para os dados do exemplo 5.
Resultado 2 (Poisson - gamma): Seja x1 , ..., xn uma amostra aleatoria da Poi(). Supondo
uma priori Ga(a, b) temos que
n
!
X
( | x1 , ..., xn ) Ga a+ xi , b + n .
i=1
Exemplo 6: Suponha que o numero de chamadas recebidas por uma central telefonica no
perodo de uma hora segue uma distribuicao de Poisson com parametro (media de
ocorrencias). Suponhamos ainda que o perodo de 9 as 10 horas da manha foi monitorado por 3
dias e o numero de chamadas recebidas foi 50, 55 e 60. Assuma uma distribuicao a priori
Ga(20, 0.5) para e determine sua distribuicao a posteriori.
Solucao:
Exemplo 6: Suponha que o numero de chamadas recebidas por uma central telefonica no
perodo de uma hora segue uma distribuicao de Poisson com parametro (media de
ocorrencias). Suponhamos ainda que o perodo de 9 as 10 horas da manha foi monitorado por 3
dias e o numero de chamadas recebidas foi 50, 55 e 60. Assuma uma distribuicao a priori
Ga(20, 0.5) para e determine sua distribuicao a posteriori.
Solucao: Seja x = (50, 55, 60). Pelo resultado anterior, temos que
0.20
o
et
et
0.08
_n
_n
Priori Ga(20,0.5)
m
Posteriori Ga(185,3.5)
m
ui
0.10
ui
p(x)
aq
aq
0.04
jo
jo
r/
r/
.b
.b
0.00
fjf
fjf
0.00
.u
.u
w
0 10 30 50 70
w
w
0 5 10 15
w
w
w
x
Priori e posteriori do exemplo 6.
Funcao de probabilidade de uma Poiss(4).
Resultado 3 (normal - normal): Seja x1 , ..., xn uma amostra aleatoria da N(, 2 ), com 2
conhecido. Supondo que N(m, v 2 ) entao | x1 , ..., xn tem distribuicao normal com
2 m + nv 2 Y
E (|x1 , ..., xn ) =
2 + nv 2
n
P
xi
2 v 2 i=1
Var (|x1 , ..., xn ) = , onde x = .
2 + nv 2 n
Resultado 4 (normal - gamma): Seja x1 , ..., xn uma amostra aleatoria da N(, 1 ), com
conhecido. Supondo uma priori Ga(a, b) entao
n
(xi )2
P
n i=1
( | x1 , ..., xn ) Ga
2 + a, b +
.
2
A seguir, veremos como um (grande) conjunto de valores simulados pode ser usado para
recuperar caractersticas de uma distribuicao de probabilidades.
Simulacoes
Usando metodos para simular valores que seguem uma determinada distribuicao de
probabilidade, podemos estimar informacoes/caractersticas desta distribuicao. Naturalmente,
quanto maior a quantidade de valores simulados, melhores sao as estimativas.
Por exemplo, podemos usar o histograma para estimar a densidade. Na figura abaixo, foram
10000 valores simulados de uma Ga(2, 1) foram usados nesta estimacao.
o
et
_n
m
ui
aq
jo
r/
.b
fjf
.u
w
w
w
o
et
_n
m
ui
aq
jo
r/
.b
fjf
.u
w
w
w
OpenBUGS
Breve historia
O projeto comecou em 1989 com uma versao para UNIX chamada BUGS (Bayesian
inference Using Gibbs Sampling ).
Programa para analise Bayesiana de modelos estatsticos complexos usando Cadeias de
Markov Monte Carlo (Markov Chain Monte Carlo, MCMC ).
Duas versoes do BUGS: WinBUGS e OpenBUGS.
WinBUGS versao estavel para Windows que ficara disponvel, mas nao sera
desenvolvida.
OpenBUGS roda nos sistemas operacionais: Windows, Unix/Linux e Macintosh
(usando o Wine).
OpenBUGS futuro do projeto BUGS.
OpenBUGS versao livre e aberta.
e to
_n
u im
aq
/jo
r
.b
fjf
.u
w
w
w
Princpio chave
Exemplos
Regressao linear
Yi = i + ei
e
i = Xi + ,
onde ei N(0, 2 ).
o
et
_n
mi
a qu
jo
/
br
jf.
f
.u
w
w
w
Yi i + ei
e
i = xi ,
onde ei N(0, 2 ).
a) Construa um grafico de dispersao com as idades no eixo das abscissas e os tamanhos no eixo
das ordenadas.
b) Construa uma tabela as medias a posteriori e intervalos de 95% de credibilidade a posteriori
para os parametros , , e 2 .
c) Construa um grafico com as idades no eixo das abscissas e medias a posteriori dos
parametros 1 , ..., 27 no eixo das ordenadas. Neste mesmo grafico, exiba os intervalos de
credibilidade destes parametros.
d) Seja y28 o tamanho de um dugongue com 26 anos (x28 = 26). Qual e a media a posteriori e o
intervalo de 95% de credibilidade a posteriori de y28 ? Em outras palavras, faca a previsao de y28 .
e) Estime o tamanho medio dos dugongues com 26 anos de idade (28 ) e informe o intervalo de
95% de credibilidade desta estimativa.
f) Estime a idade (x29 ) de um dugongue com 2.1 metros de comprimento (y29 = 2.1).
Ponto de mudanca
Exemplo 10: Sejam X1 , X2 , ..., Xn uma sequencia de variaveis aleatorias com distribuicao de
Poisson e xi uma observacao de Xi , i {1, ..., n}. Suponhamos ainda que existe uma suspeita
de mudanca de ponto, ou seja, suspeita-se que, para algum m {1, ..., m 1}, a sequencia
X1 , ..., Xm1 tem media 1 e a sequencia Xm , ..., Yn tem media 2 . A tabela abaixo apresenta
as n = 112 observacoes x1 , ..., x112 .
4 5 4 1 0 4 3 4 0 6 3 3 4 0
2 6 3 3 5 4 5 3 1 4 4 1 5 5
3 4 2 5 2 2 3 4 2 1 3 2 2 1
1 1 1 3 0 0 1 0 1 1 0 0 3 1
0 3 2 2 0 1 1 1 0 1 0 1 0 0
0 2 1 0 0 0 1 1 0 2 3 3 1 1
2 1 1 1 1 2 4 2 0 0 0 1 4 0
0 0 1 0 0 0 0 0 1 0 0 1 0 1
Fim!