Bayes Examples

ECONOMETRIE BAYESIENNE
STEPHANE ADJEMIAN
1. Introduction
Dans cette note je dveloppe deux exemples destimation baysienne. Nous avons
e
e
dj` rencontr le premier exemple en cours, mais je navais pas donn les dtails des
ea
e
e
e
calculs ` lpoque. Il sagit destimer lesprance dune variable alatoire. Le second
a e
e
e
exemple est lui plus original par rapport au contenu du cours : il illustre lapproche
baysienne des mod`les VAR.
e
e
2. Estimation de lesperance
Le processus gnrateur des donnes est dni par :
e e
e
e
(1a)
yt = + t
2
t N 0,
(1b)
iid
2
a
o` t = 1, . . . , T . On suppose que la variance est connue, nous cherchons ` estimer
u
lesprance du processus {yt }.
e
Notre croyance a priori sur est caractrise par une loi normale centre en 0
e e
e
2
et de variance . La densit a priori est donc :
e
1
1
22 (0 )2
2
p0 () = (2 ) 2 e
(2)
La densit postrieure de est proportionnelle au produit de la vraisemblance et

e
e
de la densit a priori, nous devons donc commencer par crire la vraisemblance.
e
e
2.1. Vraisemblance. La vraisemblance est la densit jointe de lchantillon sae
e
2
chant les param`tres, et . Dapr`s le processus gnrateur des donnes (1) nous
e
e
e e
e
2
savons que yt est normalement distribu desprance et de variance . Comme
e
e
par hypoth`se yt est indpendant de ys pour tout s = t, la densit de lchantillon
e
e
e
e
YT = (y1 , . . . , yT ) est le produit des densits margianales :
e
T
2
2
p(YT |, ) = (2 ) 2 e
(3)
1
22
PT
t=1 (yt )
Notons que :
T
(yt )2 =
t=1
([yt ] [ ])2
t=1
T
(yt )2 +
=
t=1
( )2
t=1
(yt )( )
t=1
= s2 + T ( )2
yt T ( )
t=1
= s2 + T ( )2
1

STEPHANE ADJEMIAN
o` = T 1, s2 = (T 1)1 (yt )2 est un estimateur de la variance de {yt } et

u
T
= T 1 t=1 yt est lestimateur du maximum de vraisemblance de . Finalement,
nous pouvons crire la vraisemblance sous une forme quivalente :
e
e
T
2
2
p(YT |, ) = (2 ) 2 e
(4)
1
22 (s2 +T (b)2 )
2.2. Densit postrieure. On obtient la densit postrieure, ` une constante dine

e
e
e
a
tgration pr`s, en multipliant (2) par (4) :
e
e
1
2
1
1
22 (s2 +T (b)2 ) 22 (0 )
2
2
p(|YT ) (2 ) 2 (2 ) 2 e
En liminant les termes qui ne dpendent pas de , il vient :

e
e
p(|YT ) e
2
1
T
22 (b)2 22 (0 )
ou de faon quivalente :
c e
p(|YT ) exp
1
T
( )2 + 2 ( 0 )2
2
1
2
Nous allons maintenant rcrire cette quation de faon ` ne faire appara quune
ee
e
c a
tre
forme quadratique en . En dveloppant les carrs, et en notant A() le terme entre
e
e
(grandes) parenth`ses sous lexponentielle, il vient :
e
A() =
1
T
2 + 2 2 + 2 2 + 2 20
0
2
T
1
+ 2
2
T
1
+ 2
2
1
T
+ 2
2
1
T
+ 2 0
2
2 2
2
T
2

T
2
T
2

T
2
+
+
1
2
0
1
2
0
1
2
T 2
1
+ 2 2
2
1
2
T 2
1
+ 2 2
2
1
T 2
+ 2 2
2
T
2

T
2
1
2
0
1
2
En notant que les deux derniers termes ne dpendent pas de , il vient :

e
A()
1
T
+ 2
2
T
2

T
2
1
2
0
1
2
et nalement :
(5)
1
p(|YT ) exp
2
T
1
+ 2
2
T
2

T
2
+
+
1
2
0
1
2
On reconna ` une constante dintgration pr`s, la densit dune loi normale. Ainsi,
t, a
e
e
e
la distribution postrieure de est gaussienne desprance :
e
e
E [] =
T
2

T
2
et de variance :
V [] =
T
2
+
+
1
+
1
2
0
1
2
1
2
2
On voit que si le prior est non informatif, au sens o` la variance a priori, , tend
u
vers linni, alors la variance a posteriori est la variance de lestimateur du maxi2
mum de vraisemblance de , /T . D`s lors que lon apporte de linformation, la
e
variance postrieure est plus faible que la variance de lestimateur du MV. Lintrt
e
ee
pratique de lapproche baysienne est illustr par ce rsultat. Dans un environnee
e
e
ment o` nous disposons de peu de donnes, lchantillon est faiblement informatif,
u
e
e
la prise en compte de nos croyances a priori permet daccro la prcision de lestre
e
timation. En spciant un prior, avec une variance nie plus ou moins importante,
e
nous augmentons le degr de libert.
e
e
Lesprance postrieure est une combinaison linaire convexe de lesprance a priori
e
e
e
e
et de lestimateur du maximum de vraisemblance (ici la moyenne empirique). Le
mlange est dni par la variance a priori et la variance de lestimateur du MV.
e
e
Si linformation a priori est plus importante que linformation empirique (provenant de lchantillon) alors lesprance postrieure sera plus proche de lesprance
e
e
e
e
a priori que de lestimateur du MV. En raisonnant ` la limite :
a
(i) Lorsque 0 tend vers 0, cest-`-dire lorsque linformation a priori tend vers
a
linni, lesprance postrieure tend vers lesprance a priori. On note que
e
e
e
dans ce cas la variance postrieure tend vers zro. On peut interpr`ter ce
e
e
e
cas limite comme une calibration du mod`le.
e
(ii) Lorsque T tend vers linni, cest-`-dire lorsque linformation empirique
a
tend vers linni, lesprance postrieure tend vers lestimateur du MV.
e
e
Dans le mme temps la variance postrieure se rapproche de celle de lestie
e
mateur du MV et tend nalement vers zro. Plus gnralement nous poure
e e
rions montrer que la densit postrieure hrite des proprits de lestimateur
e
e
e
ee
du maximum de vraisemblance1).
La distribution postrieure est gaussienne tout comme la distribution a priori :
e
nous avons choisi un prior conjugu.
e
2.3. Estimation ponctuelle. Dans la section prcdante nous avons montr que
e e
e
la distribution postrieure de est gaussienne. Pour communiquer les rsultats sous
e
e
une forme plus synthtique on peut vouloir choisir un point dans la distribution a
e
posteriori, cest-`-dire proposer une estimation ponctuelle. Nous avons vu en cours
a
que cela sapparente ` un probl`me de choix en univers incertain. Il est alors naturel
a
e
de se donner une fonction de perte, L(a, ), qui spcie la perte occasionne par le
e
e
choix a alors que la vraie valeur est , et de minimiser lesprance postrieure de la
e
e
perte :
= arg min
a
L(a, )p(|YT )d
R
Si la fonction de perte est quadratique, L(a, ) = (a)2 alors on montre facilement

que lestimation ponctuelle, , est lesprance postrieure de donne plus haut.
e
e
e
On obtient la mme estimation ponctuelle avec la fonction de perte (a, ) = |a |,
e
car dans le cas dune distribution gaussienne il y a identit entre la mdiane et
e
e
lesprance.
e
3. Estimation dun VAR
Dans cette section, nous considrons un autre exemple o` les rsultats peuvent
e
u
e
tre obtenus ` la main . Le mod`le VAR gaussien se prte, comme tout mod`le
e
a
e
e
e
linaire gaussien, ` cet exercice et a lavantage dtre un outil couramment utilis
e
a
e
e
1Nous avons vu en cours que, sous des conditions tr`s gnrales, la distribution postrieure est
e e e
e
normalement distribue lorsque la dimension de lchantillon tend vers linni (mme proprit
e
e
e
e e
que lestimateur du MV qui est asymptotiquement gaussien).

STEPHANE ADJEMIAN
en macro-conomie
e
Nous considrons un mod`le VAR(p) pour caractriser le vecteur 1 m de vae
e
e
riables endog`nes yt observes :
e
e
p
yt =
yti Ai + t
i=1
o` {Ai } est une squence de matrice m m et t est un bruit blanc gaussien, de

u
e
dimension 1 m desprance nulle et de variance V [t ] = . Nous pourrions come
plter le mod`le avec des variables exog`nes, une constante par exemple, mais nous
e
e
e
allons ` lessentiel en omettant cette possibilit.
a
e
On note YT {yt }T
e a
t=p+1 les donnes ` notre disposition et on note zt la concae
tnation horizontale des vecteurs lignes yt1 , yt2 , ..., ytp . En concatnant verticae
lement les vecteurs lignes yt , zt et t , pour t = 1, . . . , T , on obtient la reprsentation
e
matricielle suivante du mod`le VAR(p) :
e
Y = ZA + E
o` Y et E sont des matrices T m, Z est une matrice T (mp) et A = A1 , A2 , . . . , Ap
u
la matrice k m (avec k = mp) regroupant les coecients auto-rgressifs. La vraie
semblance associe ` ce mod`le linaire gaussien est donne par :
e a
e
e
e
L(A, ; YT ) =(2)
mT
2
||
T
2
e 2 tr{(Y ZA)
(Y ZA) }
Lestimateur du maximum de vraisemblance (MCO) est dni par :

e
A = (Z Z)1 Z Y
et
= T 1 (Y Z A) (Y Z A)
Nous verrons plus loin quil est protable de rcrire la vraisemblance en faisant
ee
appara lestimateur des MCO :
tre
L(A, ; YT ) = (2)
k
2
||
mT
2
e 2 tr{
T k
2
||
b
b
(AA) Z Z(AA)}
e 2 tr{
1
b
b
(Y Z A) (Y Z A)}
a
` des constantes dintgration pr`s on reconna les fonctions de densit de probae
e
t
e
bilit dune gaussienne matricielle et dune inverse Wishart (voir lannexe A). On
e
peut donc rcrire la vraisemblance sous la forme suivante :
ee
L(A, ; YT ) =(2)
mT
2
(2)
km
2
|Z Z|
m
2
fM Nk,m (A; A, (Z Z)1 , )
m
2
m(m1)
4
m
i=1
|S|
+1i
2
fiWm (; S, )
avec = T k m 1 les degrs de libert et S = T . Cette criture nous apprend
e
e
e
e
que la vraisemblance du VAR(p) est proportionnelle au produit de la densit dune
gaussienne matricielle et dune inverse Wishart :

(6)
L(A, ; YT ) fM Nk,m (A; A, (Z Z)1 , )

fiWm (; S, )
Cette proprit va nous aider ` poser une forme de la densit a priori telle que nous
ee
a
e
puissions obtenir une expression analytique de la densit postrieure.
e
e
3.0.1. A priori non informatif. Dans cette section nous allons nous supposons que
nos croyances sont non informatives en adoptant un a priori ` la Jerey :
a
(7)
p0 (A, ) = ||
m+1
2
On note que dans le cas scalaire, m = 1, on retrouve le prior suggr par Jerey
ee
(1/ 2 ) dcrit en cours. La densit a posteriori satisfait donc :
e
e
p (A, |YT ) (2)
mT
2
(2)
km
2
|Z Z|
m
2
fM Nk,m (A; A, (Z Z)1 , )

2
m
2
m(m1)
4
|S| 2
i=1
+1i
2
m+1
2
fiWm (; S, ) ||
La densit jointe postrieure est donc proportionnelle au produit dune gaussienne

e
e
multivarie et dune inverse Wishart :
e
(8)
p(A, ; YT ) fM Nk,m (A; A, (Z Z)1 , )

fiWm (; S, )
avec = T k. Ainsi, la densit postrieure peut scrire sous la forme suivante :
e
e
e
(9)
A|, YT M Nk,m A, , (Z Z)1

|YT iWm S,
Il nest pas surprenant de constater que la distribution postrieure de A (conditione

nelle ` la matrice de variance covariance) est centre sur lestimateur du maximum
a
e
de vraisemblance, puisque notre a priori est non informatif. Nous pourrions montrer, en intgrant par rapport ` , que la distribution postrieure de A est une
e
a
e
version matricielle de la loi de Student. La priori de Jerey naecte que le degr
e
de libert de la distribution postrieure de A. Dans cet exemple, nous pouvons cae
e
ractriser la distribution postrieure ` la main . Notons nanmoins que mme si
e
e
a
e
e
nous connaissons lexpression analytique de la distribution de A et , la construction des densits prdictives ncessite une approche par simulations, puisque les
e
e
e
prvisions sont des fonctions non linaires des matrices auto-rgressives (dont nous
e
e
e
connaissons la loi postrieure). Lintrt pratique de lapproche baysienne pourrait
e
ee
e
para peu vident dans ce cas, dans la mesure o` la moyenne postrieure nest
tre
e
u
e
pas dirente de lestimateur du maximum de vraisemblance.
e
3.0.2. Un exemple da priori informatif. Nous considrons maintenant un prior plus
e
informatif qui va introduire un coin entre lesprance postrieure et lestimateur du
e
e
maximum de vraisemblance ; dans un mod`le linaire gaussien, lesprance poste
e
e
e
rieure est un mlange convexe de lestimateur du maximum de vraisemblance et de
e
lesprance a priori. An daller ` lessentiel, nous adoptons une densit a priori
e
a
e
dgnre pour la matrice de variance-covariance des erreurs, en supposant que la
e e ee

STEPHANE ADJEMIAN
matrice est connue (on posera = ). Enn nous spcions le prior sur A de la
e
faon suivante :
c
(10)
p0 (vec A) N (a0 , 0 )
o` 0 est une matrice symtrique dnie positive de dimension mp mp. En multiu

e
e
pliant la vraisemblance par (10), on tablit facilement que la distribution postrieure
e
e
de vec A est gaussienne centre en a1 et de variance 1 :
e
1 = 1 + 1 Z Z
0
(11a)
a1 = 1 1 a0 + 1 Z Z vecA
0
(11b)
Dmonstration. La densit postrieure est proportionnelle au produit de la densit

e
e
e
e
a priori et de la vraisemblance. Le noyau postrieur est donn par :
e
e
i
1h
b
b
K(A|YT ) = exp (vecA a0 ) 1 (vecA a0 ) + tr 1 (A A) Z Z(A A)
0
2
(2)
km
2
|0 | 2 (2)
mT
2
|| 2 e 2 tr
b
S
e
Notons a = vec A, a = vec A et B(a) le terme entre crochets sous la premi`re
exponentielle. En utilisant les proprits des oprateurs vec, tr et du produit de
ee
e
kronecker nous avons :
B(a) = (a a0 ) 1 (a a0 ) + (a a) 1 Z Z (a a)
0
En dveloppant, il vient :
e
B(a) =a 1 a + a0 1 a0 2a 1 a0
0
0
0
+ a 1 Z Z a + a 1 Z Z a 2a 1 Z Z a
de faon quivalente il vient :
c e
B(a) = a 1 + 1 Z Z a 2a 1 a0 + 1 Z Z a
0
0
+ a0 1 a0 + a 1 Z Z a
0
En factorisant on trouve :
B(a) = (a a1 ) 1 (a a1 ) a1 1 a1 + a0 1 a0 + a 1 Z Z a
0
1
1
Finalement, en substituant dans lexpression du noyau, on peut rcrire celui-ci sous
ee
la forme suivante :
1
K(A|YT ) = exp (a a1 ) 1 (a a1 )
1
2
1
exp a0 1 a0 + a 1 Z Z a a1 1 a1
0
1
2
(2)
km
2
|0 | 2 (2)
mT
2
|| 2 e 2 tr
b
S
le premier terme correspond bien ` lexpression (` une constante dintgration pr`s)

a
a
e
e
dune densit gaussienne pour a. En intgrant le noyau par rapport ` a on obtient
e
e
a
une expression analytique de la densit marginale :
e
p(YT ) =
K(A|YT )dA
= (2)
km
2
exp
(2)
|1 | 2
1
a 1 a0 + a 1 Z Z a a1 1 a1
1
2 0 0
km
2
|0 | 2 (2)
mT
2
|| 2 e 2 tr
b
S
La distribution postrieure de A est donc gaussienne N (a1 , 1 ). Linterprtation

e
e
de la distribution postrieure est directe. Linverse de la variance postrieure (que
e
e
lon peut interprter comme une quantication de linformation a posteriori) est
e
gal ` la somme de linverse de la variance a priori (linformation a priori) et de
e
a
linverse de la variance de lestimateur du maximum de vraisemblance de A (linformation apporte par les donnes). Ceteris paribus, quand linformation a priori est
e
e
importante, la matrice de variance-covariance 0 est petite, la variance a posteriori
est faible. Lesprance postrieure est un mlange de lesprance a priori, a0 , et de
e
e
e
e
lestimateur du maximum de vraisemblance, vec A. Les pondrations respectives
e
sont dnies par le contenu informatif des croyances a priori et de lchantillon.
e
e
Lorsque linformation a priori tend vers linni, ie 0 0, lesprance postrieure
e
e
tend vers lesprance a priori. Lorsque linformation amene par les donnes tend
e
e
e
vers linni, ie 1 Z Z 0, lesprance a posteriori tend vers lestimateur
e
du maximum de vraisemblance. On peut donc interprter le paradigme baysien
e
e
comme un pont entre la calibration et lestimation par maximum de vraisemblance.
En notant que Z Z est gnralement, si le mod`le est stationnaire2, un O(T ), lese e
e
prance postrieure tend vers lestimateur du maximum de vraisemblance lorsque
e
e
T tend vers linni.
`
Annexe A. Densites pour le modele BVAR
A.1. Distribution normale matricielle.
Dnition 1. La matrice p q alatoire X est distribue conformment ` une loi
e
e
e
e
a
normale matricielle
X M Np,q (M, Q, P)
o` M est une matrice p q, Q et P sont respectivement des matrices p p et q q
u
symtriques et dnies positives, si et seulement si vec(X) est distribu comme une
e
e
e
v.a. normale multivarie
e
vec(X) Npq (vec(M), Q P)
Ainsi, la fonction de densit associe ` X est donne par :
e
e a
e
fM Np,q (X; M, P, Q) =(2)
pq
2
e 2 tr{Q
1
|Q| 2 |P| 2
1
(XM) P1 (XM)}
A.2. Distributions de Wishart. La loi de Wishart est une version multivarie

e
de la loi du 2 . Soit {Xi } une suite de variables alatoires gaussiennes indpene
e
i=1
dantes et identiquement distribues N (0, Q), avec Q une matrice symtrique dnie
e
e
e
positive q q. Par dnition Y = i=1 Xi Xi est distribu selon une loi de Wishart.
e
e
Les dnitions suivantes caractrisent cette loi et la densit de linverse dune v.a.
e
e
e
de Wishart.
Dnition 2. La matrice alatoire, de dimension q q, symtrique et semi dnie
e
e
e
e
positive Y est distribue selon une loi de Wishart, Y Wq (Q, ), si et seulement
e
si sa densit est donne par
e
e
f (Y ; Q, ) =
|Q| 2 |Y |
2
q
2
q(q1)
4
q1
2
q
i=1
+1i
2
1
1
e 2 tr{Y Q }
pour Q une matrice symtrique semie dnie positive, et q le degr de libert.

e
e
e
e
2La prsence dune racine unitaire ne ferait quaccro
e
tre lordre de divergence, ce qui ne change
pas qualitativement la conclusion.

STEPHANE ADJEMIAN
Dnition 3. Une matrice alatoire, de dimension q q, X est distribue selon

e
e
e
une loi inverse Wishart,
X iWq (Q, )
1
1
si et seulement si X Wq (Q , ).
Ainsi la fonction de densit associe ` X est dnie par :
e
e a
e
fiWq (X; Q, ) =
|Q| 2 |X|
2
q
2
q(q1)
4
+q+1
2
q
i=1
e 2 tr{X
1
+1i
2
Q}
`
`
Annexe B. Rappels dalgebre pour le modele BVAR
B.1. Loprateur vec. Soit X une matrice m n forme en concatnant horizone
e
e
talement les vecteurs colonnes x1 , x2 , ..., xn de dimensions m 1 :
X = (x1 |x2 | . . . |xn )
Loprateur vec transforme une matrice en vecteur en concatnant verticalement
e
e
les vecteurs colonnes formant cette matrice. Nous avons donc :
vec X = (x1 , x2 , . . . , xn )
B.2. Loprateur tr. Soit X une matrice carre m m :
e
e
x1,1 x1,2 . . . . . . . . . x1,m

x2,1 x2,2
x2,m
.
.
.
.
.
.
X= .
.
.
.
.
.
.
.
.
.
.
.
xm,1 . . . . . . . . . . . . xm,m
La trace dune matrice carre est la somme des scalaires sur sa diagonale. Ainsi,
e
nous avons :
m
tr X =
xi,i
i=1
B.2.1. proprit. Si A est un scalaire alors tr A = A.

ee
B.2.2. proprit. Si A, B et C sont trois matrices de dimension m p, p q et
ee
q m alors tr ABC = tr CAB
B.3. Le produit de Kronecker. Soient A et B de matrices m p et n q
a1,1 a1,2 . . . a1,p

b1,1 b1,2 . . . b1,q
.
. , B = .
.
.
.
A= .
.
.
.
.
.
am,1 . . . . . . am,p
bn,1 . . . . . . bn,q
Le produit de kronecker de A par B est dni par :
e
a1,1 B a1,2 B . . .
.
AB =A= .
.
am,1 B
...
...
a1,p B
.
.
.
am,p B
A B est une matrice mn pq.

B.3.1. Proprit. Si A et B sont deux matrices carres de plein rang, et donc inee
e
versibles, alors (A B)1 = A1 B 1
B.3.2. Proprit. vec (ABC) = (C A)vec B.
ee
B.3.3. Proprit. Soient A, B, C et D, des matrices respectivement m n, m p,

ee
p q et n q. On a alors tr (A BCD ) = vec(A) (D B) vec (C).
B.3.4. Remarque. Pour appliquer la derni`re proprit, il est utile de noter que
e
ee
tr A BCD = tr D A BC = tr CD A B = tr BCD A et que tr A BCD =
tr (A BCD ) et donc que tr A BCD = tr DC B A = tr ADC B = tr B ADC =
tr C B AD.

Bayes Examples

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bayes Examples

Uploaded by

Copyright:

Available Formats

ECONOMETRIE BAYESIENNE

La densit postrieure de est proportionnelle au produit de la vraisemblance et

o` = T 1, s2 = (T 1)1 (yt )2 est un estimateur de la variance de {yt } et

2.2. Densit postrieure. On obtient la densit postrieure, ` une constante dine

En liminant les termes qui ne dpendent pas de , il vient :

En notant que les deux derniers termes ne dpendent pas de , il vient :

Si la fonction de perte est quadratique, L(a, ) = (a)2 alors on montre facilement

o` {Ai } est une squence de matrice m m et t est un bruit blanc gaussien, de

Lestimateur du maximum de vraisemblance (MCO) est dni par :

fM Nk,m (A; A, (Z Z)1 , )

gaussienne matricielle et dune inverse Wishart :

L(A, ; YT ) fM Nk,m (A; A, (Z Z)1 , )

fM Nk,m (A; A, (Z Z)1 , )

La densit jointe postrieure est donc proportionnelle au produit dune gaussienne

p(A, ; YT ) fM Nk,m (A; A, (Z Z)1 , )

avec = T k. Ainsi, la densit postrieure peut scrire sous la forme suivante :

A|, YT M Nk,m A, , (Z Z)1

Il nest pas surprenant de constater que la distribution postrieure de A (conditione

o` 0 est une matrice symtrique dnie positive de dimension mp mp. En multiu

Dmonstration. La densit postrieure est proportionnelle au produit de la densit

le premier terme correspond bien ` lexpression (` une constante dintgration pr`s)

La distribution postrieure de A est donc gaussienne N (a1 , 1 ). Linterprtation

A.2. Distributions de Wishart. La loi de Wishart est une version multivarie

pour Q une matrice symtrique semie dnie positive, et q le degr de libert.

Dnition 3. Une matrice alatoire, de dimension q q, X est distribue selon

x1,1 x1,2 . . . . . . . . . x1,m

B.2.1. proprit. Si A est un scalaire alors tr A = A.

a1,1 a1,2 . . . a1,p

A B est une matrice mn pq.

B.3.3. Proprit. Soient A, B, C et D, des matrices respectivement m n, m p,

You might also like