Professional Documents
Culture Documents
Prface. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
La thorie des jeux est une discipline qui tudie la prise de dcision
interactive : plusieurs personnes, ou joueurs, doivent prendre des d-
cisions, choisir des actions, qui vont induire un rsultat, les intrts
des joueurs tant potentiellement divergents.
Si les mathmaticiens ont toujours montr un fort intrt pour les
jeux de hasard ou de stratgie, les premiers travaux thoriques sur les
jeux de stratgie apparaissent au dbut du xxe sicle avec Zermelo
(1912), Borel (1921), Von Neumann (1928). La thorie des jeux nat
rellement comme discipline sous limpulsion du mathmaticien John
Von Neumann et de lconomiste Oskar Morgenstern, qui crivent en
1944 un livre fondateur : Games and Economic Behavior. Les travaux
de John Nash (1950), en donnant une notion de solution pour les jeux
somme non nulle, confortent cette fondation. Depuis, la thorie des
jeux a connu un dveloppement mathmatique important et de nom-
breuses applications dans diverses disciplines : biologie, informatique,
conomie. Le succs est particulirement remarquable en conomie et
plusieurs thoriciens des jeux ont reu le prix Nobel dconomie : John
C. Harsanyi, John F. Nash et Reinhardt Selten en 1994, Robert J. Au-
mann et Thomas C. Schelling en 2005. La thorie des jeux comporte
aujourdhui plusieurs branches : jeux coopratifs, jeux stratgiques,
jeux information incomplte, jeux dynamiques, jeux diffrentiels.
Nous prsentons ici les fondements mathmatiques de la thorie des
jeux stratgiques et dveloppons un des thmes principaux : les jeux
rpts.
2 INTRODUCTION
par
Tristan Tomala
1. Prliminaires
On appelle jeu sous forme normale ou jeu sous forme stratgique
la donne dun ensemble N de joueurs, dune famille densembles de
stratgies (ou dactions) (Ai )iN et dune famille de fonctions de paie-
ments (g i )iN avec g i : jN Aj R. Lensemble des joueurs sera
Q
(ei )iN = (ei , ei ) cette dernire notation tant utilise lorsque lon
veut sparer le joueur i des autres.
Dfinition 1.1
Une stratgie ai Ai du joueur i est domine si
bi Ai , ai Ai , g i (ai , ai ) 6 g i (bi , ai ).
Une stratgie ai Ai du joueur i est faiblement domine si
(
ai Ai , g i (ai , ai ) 6 g i (bi , ai ) et
b i Ai ,
ai Ai , g i (ai , ai ) < g i (bi , ai ).
Une stratgie ai Ai du joueur i est strictement domine si
bi Ai , ai Ai , g i (ai , ai ) < g i (bi , ai ).
Une stratgie ai Ai du joueur i est dominante si
bi Ai , ai Ai , g i (ai , ai ) > g i (bi , ai ).
Une stratgie ai Ai du joueur i est faiblement dominante si
(
ai Ai , g i (ai , ai ) > g i (bi , ai ) et
b i Ai ,
ai Ai , g i (ai , ai ) > g i (bi , ai ).
Une stratgie ai Ai du joueur i est strictement dominante si
bi Ai , ai Ai , g i (ai , ai ) > g i (bi , ai ).
jeu dans lequel les fonctions de paiement sont dfinies par restriction.
Pour tout entier k > 1 et tout i N , on pose
On a v(g) 6 v(g) et
v(g) = sup{d | 1 garantit d} = inf{d | 2 dfend d},
v(g) = sup{d | 1 dfend d} = inf{d | 2 garantit d}.
Dfinition 2.3
On dit que le jeu (S, T, g) a une valeur lorsque v(g) = v(g) et on
note v(g) cette valeur.
Soit > 0, on dit que s S est une stratgie -optimale (ou
simplement optimale si = 0) du joueur 1 si la stratgie s garantit
v(g) :
t T, g(s, t) > v(g) .
On dit que t T est une stratgie -optimale du joueur 2 si la
stratgie t garantit v(g) + :
t T, g(s, t) 6 v(g) + .
Un couple (s, t) est un point selle si :
(s, t), g(s, t) 6 g(s, t) 6 g(s, t).
Sil existe un point selle, alors le jeu a une valeur, les joueurs
ont des stratgies optimales et on a :
v(g) = max min g(s, t) = min max g(s, t).
sS tT tT sS
De plus si on note Oi
lensemble des stratgies optimales du joueur
i = 1, 2 et S lensemble des points selles, on a S = O1 O2 .
JEUX SOUS FORME NORMALE 11
Ceci revient :
s co S0 , t T0 , g(s, t) < c
t co T0 , s S0 , g(s, t) > c.
Supposons de plus que (S0 , T0 ) soit minimal (pour linclusion) parmi
les paires densembles non-vides vrifiant ces conditions. Posons
alors pour tout s S0 , Ts = {t T | g(s, t) 6 c}, cet ensemble est
T
convexe ferm. Les conditions ci-dessus impliquent sS0 Ts =
T
et comme on a pris (S0 , T0 ) minimal, sS0 ,s6=s0 Ts 6= pour tout
S
s0 S0 . Le lemme 2.6 implique que sS0 Ts 6= T et donc il existe
t T tel que s S0 , g(s, t ) > c. Enfin, par convexit de len-
semble {s S | g(s, t ) > mins0 S0 g(s0 , t )}, on a g(s, t ) > c pour
JEUX SOUS FORME NORMALE 13
s S, t T, g(s, t) < c
t T, s S, g(s, t) > c
s S, t T0 , g(s, t) < c
t co T0 , s S, g(s, t) > c
s co S0 , t T0 , g(s, t) < c
t co T0 , s S0 , g(s, t) > c
Proposition 2.8
(1) Pour toutes applications f, g E :
Do v(f +g)v(f
)
6 g(s , t), et comme ceci est vrai pour toute stra-
tgie optimale du joueur 2 pour f , on obtient
v(f + g) v(f )
6 inf g(s , t).
tO2 (f )
JEUX SOUS FORME NORMALE 15
Comme g(, t) est scs, inf tO2 (f ) g(, t) lest aussi. Dou, pour tout
point daccumulation s de (s )0 , lim0+ inf tO2 (f ) g(s , t) 6
inf tO2 (f ) g(s, t), et s O1 (f ). Donc,
v(f + g) v(f )
lim0+ 6 sup inf g(s, t)
2
sO1 (f ) tO (f )
Dfinition 3.2
Pour chaque joueur i et profil daction de ses adversaires ai , on
dit que ai est meilleure rponse contre ai si :
b i Ai , g i (bi , ai ) 6 g i (ai , ai ).
On appelle correspondance de meilleure rponse du joueur i, lap-
plication MRi de Ai dans les parties de Ai , qui ai associe len-
semble des meilleures rponses du joueur i.
16 T. TOMALA
On a :
n o
a2
2 2 si a2 6 ,
MR1 (a2 ) =
{0} sinon.
Les jeux finis jous en stratgies mixtes sont les premiers jeux pour
lesquels ont t dmontrs des rsultats dexistence, Von Neumann
(1928) pour les jeux somme nulle et Nash (1950) pour les jeux
somme non-nulle.
Thorme 4.4. Tout jeu compact G = (N, (Ai )iN , (g i )iN ) admet
un quilibre de Nash en stratgies mixtes.
Revenons aux jeux finis pour donner une caractrisation des qui-
libres de Nash en stratgies mixtes.
Thorme 4.5. Soit G = (N, (Ai )iN , (g i )iN ) un jeu fini. Un pro-
fil de stratgies mixtes = ( i )iN est un quilibre de Nash en stra-
tgies mixtes de G si et seulement si :
Autrement dit, toutes les stratgies pures joues avec une probabi-
lit non-nulle sont des meilleures rponses au profil de stratgies des
autres joueurs, et en particulier elles donnent le mme paiement. Ce
rsultat peut permettre un calcul assez simple des quilibres de Nash.
22 T. TOMALA
Un arbre est un graphe connexe tel que pour toute paire dhistoires
h, h0 , il existe un unique chemin de h h0 .
Partant dun arbre, on dfinit un jeu en spcifiant quel joueur joue
en chaque nud, ce joueur choisit alors une branche issue de ce nud.
Posons A(h) = {h0 : h h0 } lensemble des successeurs de h. On dit
que h est une histoire terminale si A(h) = et on pose HT lensemble
des histoires terminales.
h0 1s 2s s1 s2 (1000, 999)
par
Tristan Tomala
1. Modle gnral
Dans un jeu rpt, les joueurs interagissent chaque date t N .
Chaque tape gnre un paiement et le paiement global dun joueur
est fonction de la suite de ses paiements dtapes. Nous allons tout
dabord dcrire prcisment ce modle, prciser les notions de strat-
gies ainsi que les notions de solutions (valeur, quilibres). On rappelle
que pour une famille densembles (E i )iN , on note E = iN E i .
Q
Dfinition 1.1
On appelle jeu rpt T fois, et on note T , le jeu rpt dont
le droulement est dcrit ci-dessus et qui sarrte la date T . Le
paiement final du joueur i est : T1 Tt=1 g i,kt (at ).
P
Dfinition 1.2
Une stratgie pure du joueur i est une famille dapplications si =
(sit )t>1 , avec sit : Hti Ai . On note S i lensemble de ces stratgies.
Une stratgie mixte du joueur i est une distribution de probabilit
borlienne sur S i .
Une stratgie de comportement du joueur i est une famille dap-
plications i = (ti )t>1 , avec ti : Hti (Ai ). On note i lensemble
de ces stratgies.
Une stratgie gnrale du joueur i est une distribution de proba-
bilit borlienne sur i .
unique sur H , la tribu produit tant engendre par les cylindres (par
un thorme dextension de Kolmogorov).
Soit maintenant un profil de stratgies gnrales = (i )iN
i ). On pose, pour tout ensemble mesurable B de H ,
Q
iN (
P (B) = P (B)i di ( i ).
R
Thorme 1.4
(1) Toute stratgie de comportement du joueur i est quivalente
une stratgie mixte du joueur i dans le sens suivant : pour toute
stratgie de comportement i , il existe une stratgie mixte i , telle que
pour toute stratgie gnrale i des autres joueurs, on ait Pi ,i =
Pi ,i .
(2) Toute stratgie mixte du joueur i est quivalente une stratgie
de comportement du joueur i.
(3) Les stratgies mixtes, de comportement, et gnrales, du
joueur i sont quivalentes.
On a alors clairement, Pi ,i = Pi ,i .
(2) Rciproquement, soit i une stratgie mixte du joueur i.
Pour toute histoire hit du joueur i, posons S i (hit ) lensemble
des stratgies pures du joueur i compatibles avec hit : si hit =
(ui0 , ai1 , ui1 , . . . , ait1 , uit1 ), S i (hit ) est lensemble des stratgies pures
telles que pour tout r < t 1, sir (ui0 , ai1 , ui1 , . . . , air1 , uir1 ) = air . On
dfinit la probabilit de jouer ai aprs hit , comme la probabilit de
lensemble des stratgies pures qui jouent ai aprs hit , conditionnelle-
ment au fait que la stratgie soit compatible avec hit . Prcisment, on
pose ti (hit )[ai ] = i ( si | sit (hit ) = ai )/i (S i (hit )), si i (S i (hit )) > 0,
2. quilibres
La problmatique principale de la thorie des jeux rpts est dtu-
dier lexistence, voire la caractrisation, des solutions dans les jeux
dhorizon long. Deux approches sont possibles : considrer les solu-
tions de jeux horizon fix et tudier leur limite quand lhorizon tend
vers linfini, ou formuler un concept de solution directement sur le jeu
dhorizon infini.
Thorme 2.3. Pour tout entier T et tout ]0, 1], les jeux T et
admettent des quilibres de Nash en stratgies de comportement.
En particulier, dans le cas de jeu somme nulle, T et ont chacun
une valeur et les deux joueurs ont des stratgies optimales.
Notation
(1) On notera ET lensemble des paiements dquilibres du jeu T :
lensemble des x RN pour lesquels il existe un quilibre de Nash
34 T. TOMALA
Pour les jeux somme non nulle nous donnons une dfinition ana-
logue :
Cest un cas trs simple de jeu rpt dans lequel lensemble dtats
est rduit un singleton et les signaux des joueurs sont parfaits, cest-
-dire quils rvlent parfaitement les actions joues.
Commenons par un lemme immdiat.
Il sensuit :
vi = min max g i
(ai , i )
i j i i
Q
j6=i (A ) a A
Thorme 3.4. E = E.
Comme vi 6 xi ,
le paiement du joueur i est major par xi + et ce
pour toute dviation.
P F
P 1, 1, 0 1, 1, 0
F 1, 1, 0 1, 1, 1
Il sagit dun jeu somme nulle entre les joueurs 1 et 2 (cest Mat-
ching Pennies) dont la valeur est 0 et chaque joueur (1 ou 2) a une
unique stratgie optimale : le jeu un unique quilibre de Nash
dans lequel chaque joueur joue laction mixte ( 12 , 12 ). Dans le jeu
(ou dans T ), lunique quilibre consiste jouer ( 12 , 12 ) chaque
tape, indpendamment du pass. Le seul paiement dquilibre de
(resp. de T ) est donc (0, 0, 14 ) alors que (0, 0, 12 ) est dans E. Comme
dans le jeu finiment rpt, il faut introduire une condition pour ga-
rantir E 0 E.
Dmonstration
(1) Supposons que lensemble des x de E tels que xi > v i pour
tout i est non vide et prenons > 0. Il existe un entier n tel que
pour tout y E, on peut trouver dans la boule de centre y et de
rayon un xn vrifiant xni > v i + 2 pour tout i et tel que xn est
une combinaison convexe des g(a) avec des coefficients rationnels de
la forme na /n.
Construisons alors une suite n-priodique de profils dactions telle
que chaque profil a A apparat na fois dans une priode et no-
tons (at )t cette suite. Ainsi, xn = n1 nt=1 g(at ). Soit le profil de
P
Bibliographie
Abreu (D.), Pearce (D.) & Stacchetti (E.)
[1990] Toward a theory of discounted repeated games with imperfect
monitoring, Econometrica, 58 (1990), p. 10411063.
Aumann (R.J.)
[1964] Mixed and behaviour strategies in infinite extensive games, dans
Dresher, Shapley & Tucker, d., Advances in Game Theory, An-
nals of Mathematics Studies, vol. 52, Princeton University Press,
1964, p. 627650.
Aumann (R.J.) & Maschler (M.)
[1995] Repeated games with incomplete information, M.I.T. Press, 1995.
Aumann (R.J.) & Shapley (L.S.)
[1994] Long-term competitionA game theoretic analysis, dans Me-
giddo (N.), d., Essays on game theory, New-York : Springer-
Verlag, 1994, p. 115.
Benoit (J-P.) & Krishna (V.)
[1985] Finitely repeated games, Econometrica, 53 (1985), p. 905922.
[1987] Nash equilibria of finitely repeated games, International Journal
of Game Theory, 16 (1987), p. 197204.
Blackwell (D.)
[1956] An analog of the minmax theorem for vector payoffs, Pacific
Journal of Mathematics, 65 (1956), p. 18.
Borel (.)
[1921] La thorie du jeu et les quations intgrales noyau symtrique
gauche, C. R. Acad. Sci. Paris, 173 (1921), p. 13041308.
Forges (F.), Mertens (J.-F.) & Neyman (A.)
[1986] A counterexample to the Folk theorem with discounting, Eco-
nomic Letters, 20 (1986), p. 7.
Forges (F.), Renault (J.), Sorin (S.) & Vieille (N.)
[2006] Thorie des jeux : le prix Nobel pour les travaux de R.J. Au-
mann, MATAPLI, Bulletin de liaison de la SMAI, 79 (2006),
p. 4770.
Fudenberg (D.) & Maskin (E.)
[1986] The folk theorem in repeated games with discounting or with
incomplete information, Econometrica, 54 (1986), p. 533554.
Fudenberg (D.) & Levine (D.K.)
[1994] Efficiency and observability with long-run and short-run players,
Journal of Economic Theory, 62 (1994), p. 103135.
Fudenberg (D.), Levine (D.K.) & Maskin (E.)
[1994] The folk theorem with imperfect public information, Econome-
trica, 62 (1994), p. 9971039.
Glicksberg (I.)
[1952] A further generalization of the Kakutani fixed point theorem,
46 T. TOMALA
Nash (J.)
[1950] Equilibrium points in n-person games, Proceedings of the Natio-
nal Academy of Sciences, 36 (1950), p. 4849.
Osborne (M.J.) & Rubinstein (A.)
[1994] A course in Game Theory, M.I.T. Press, 1994.
Renault (J.) & Tomala (T.)
[1998] Repeated proximity games, International Journal of Game
Theory, 27 (1998), p. 539559.
[2004] Communication equilibrium payoffs of repeated games with im-
perfect monitoring, Games and Economic Behavior, 49 (2004),
p. 313344.
Rubinstein (A.)
[1977] Equilibrium in supergames, Research Memorandum, vol. 25,
Center for Research in Mathematical Economics and Game
Theory, 1977.
Shapley (L.S.)
[1953] Stochastic games, Proceedings of the National Academy of
Sciences of the U.S.A., 39 (1953), p. 10951100.
Sion (M.)
[1958] On General Minimax Theorems, Pacific Journal of Mathema-
tics, 8 (1958), p. 171176.
Sorin (S.)
[1986] On Repeated Games with Complete Information, Mathematics
of Operations Research, 11 (1986), p. 147160.
[1992] Repeated Games with Complete Information, dans Au-
mann (R.J.) & Hart (S.), d., Handbook of Game Theory, vol. I,
Elsevier Science Publishers, 1992, p. 71107.
[2002] A First Course on Zero-Sum Repeated Games, Mathmatiques
et Applications, Springer, 2002.
Van Damme (E.)
[1987] Stability and Perfection of Nash Equilibria, Springer, 1987.
Von Neumann (J.)
[1928] Zur Theorie der Gesellschaftsspiele, Mathematische Annalen,
100 (1928), p. 295320.
Von Neumann (J.) & Morgenstern (O.)
[1944] Games and Economic Behavior, Princeton University Press,
1944.
Zermelo (E.)
[1912] ber eine Anwendung der Mengenlehrer auf die Theorie
des Schachspiels, dans Proceedings of the Fifth International
Congress of Mathematicians (Cambridge), vol. II, 1912, p. 501.
JEUX RPTS INFORMATION INCOMPLTE
par
Jrme Renault
0 0 1 0
Exemple 1.2. Ga = b
et G = .
0 1 0 0
Cet exemple est trivial. Afin de maximiser son paiement, le joueur 1
na qu jouer, chaque tape, laction H(aut) si ltat est a et laction
B(as) si ltat est b. Ainsi vT (p) = 0 = v (p) = 0.
10 00
Exemple 1.3. Ga = et Gb = .
00 01
Une stratgie nave du joueur 1 jouerait ltape 1 laction H
si ltat est a, et laction B si ltat est b. Une telle stratgie est
dite compltement rvlatrice, ou CR, car elle permet au joueur 2 de
dduire ltat slectionn aprs avoir observ les actions du joueur 1.
Cette stratgie est optimale ici dans le jeu une tape, et v1 (p) = 1/2.
Mais elle est trs mauvaise quand le jeu est rpt, et ne garantit
rien de plus que 0 dans (p). linverse, le joueur 1 peut toujours
ne pas tenir compte de son information, et jouer une stratgie non
rvlatrice, ou NR, i.e. jouer indpendamment de ltat. Il considre
alors la matrice moyenne
1 a 1 b 1/2 0
G + G = ,
2 2 0 1/2
et peut y jouer chaque tape une stratgie optimale, qui est ici
unique et vaut 12 H + 12 B. Ainsi a-t-on : vT (p) > 1/4 pour tout T .
Nous verrons plus tard que cette faon de jouer est ici optimale pour
le joueur 1 dans (p).
a 40 2 b 0 4 2
Exemple 1.4. G = et G = .
4 0 2 04 2
Jouer une stratgie CR ne garantit que 0 pour le joueur 1, car le
joueur 2 pourra finalement jouer laction M (du milieu) si ltat est a,
et laction G(auche) si ltat est b. Mais jouer NR revient se placer
dans le jeu
1 a 1 b 220
G + G = ,
2 2 220
et donc ne garantit que 0. Nous prouverons plus tard quil est ici
optimal pour le joueur 1 de jouer la stratgie prsente maintenant.
Le joueur 1 choisit alatoirement, une fois pour toutes, un lment s
dans {H, B} de la faon suivante : si k = a, alors s = H avec pro-
babilit 3/4, et donc s = B avec probabilit 1/4 ; et si k = b, alors
JEUX RPTS INFORMATION INCOMPLTE 53
T
T
.p
1T
6 T
p
. T
- . p2 T (K)
T
p3 . T
T
1 6
JJ
J
u(p)
J
JJ
JJ
J -
0 1 1 3
4 2 4 1 p
Reprenons la stratgie partiellement rvlatrice du joueur 1 prsente
prcdemment. Avec probabilit 1/2, la posteriori vaudra 34 a + 14 b, et
le joueur 1 jouera H qui est optimale dans
3 a 1 b 31 1
G + G = .
4 4 3 1 1
De mme avec probabilit 1/2 la posteriori vaudra 14 a + 34 b et le
joueur 1 jouera une stratgie optimale dans 41 Ga + 34 Gb . Cette stratgie
garantit donc :
1 1
u(3/4) + u(1/4) = cav u(1/2).
2 2
56 J. RENAULT
Dfinition 1.8. Pour p dans (K), on pose v (p) = inf T >1 vT (p).
Proprit 1.11. Par rapport Pp,, , la suite (pt ())t>0 est une
(Ht )t>0 - martingale valeurs dans (K).
Supposons que (, ) soit jou dans le jeu rpt (p). Afin dal-
lger les notations, on note dans les calculs suivants P = Pp,, , on
note E lesprance par rapport P, et pt (ht ) pour pt (, ht ). Toutes
les normes indiques sont des normes 1. Lingalit suivante est juste
due au fait que (pt )t est une martingale valeurs dans (K) et des-
prance p.
Lemme 1.12
T 1 p
pk (1 pk )
P
1 X kK
T > 1, E(kpt+1 pt k) 6 .
T T
t=0
Donc
1
TX
(pt+1 pt ) = E (pkT )2 (pk )2 6 pk (1 pk ).
k k 2
E
t=0
Comme par Cauchy-Schwartz
v
1
TX 1
u 1 TX
u
1 k k
k k 2
E pt+1 pt 6 t E (pt+1 pt )
T T
t=0 t=0
pour chaque k, on a le rsultat voulu.
Pour ht dans Ht , on note k (ht ) = t+1 (k, ht ) (I) laction
mixte joue par le joueur 1 aprs ht si ltat est k, et (ht ) la loi de
laction de date t + 1 joue par le joueur 1 aprs ht :
X
(ht ) = pkt (, ht ) k (ht ) (I).
kK
(ht ) peut se voir comme la stratgie moyenne aprs ht , et servira
dapproximation non rvlatrice ( k (ht ))k . Le lemme suivant ex-
prime le lien entre, dune part, la variation de la martingale (pt ())t>0 ,
i.e. linformation rvle par le joueur 1, et dautre part, la dpen-
dance par rapport ltat de laction joue par le joueur 1 en date
t + 1, i.e. linformation employe par le joueur 1.
Lemme 1.13. t > 0, ht Ht ,
E (kpt+1 pt k |ht ) = E
k (ht ) (ht )
|ht .
e
JEUX RPTS INFORMATION INCOMPLTE 59
kK
X
6 pkt (ht )Gk ((ht ), t+1 (ht ))
kK X
+M pkt (ht )k k (ht ) (ht )k
kK
X
6 u(pt (ht )) + M pkt (ht )k k (ht ) (ht )k,
kK
vT +1 (p)
1 X
= max min G(p, x, y) + T x(p)(i)vT (b
p(x, i)) ,
T + 1 x(I)K y(J)
iI
remarquer plus tard que cela ne changerait en fait rien aux rsultats,
qui ncessitent juste de supposer que les joueurs observent au moins
le vecteur de paiement). Lapprochabilit vise rpondre aux ques-
tions du genre : dans quels ensembles le joueur 1 (par exemple) peut-il
amener le paiement moyen de long terme ?
Dans toute cette section sur lapprochabilit, on considre norme et
distance euclidiennes. La prsentation sest inspire de Sorin (2002).
Notons F = {(Gk (i, j))kK | i I, j J} lensemble fini des paie-
ments dtapes possibles, et M une constante telle que kuk 6 M pour
tout u de F . Une stratgie du joueur 1 est un lment = (t )t>1 , o
t est une application de F t1 dans (I) pour tout t. De mme pour
le joueur 2 en remplaant (I) par (J). On note respectivement
et T les espaces de stratgies des joueurs 1 et 2. Un profil de strat-
gies (, ) dans T induit naturellement une unique probabilit
sur (I J F ) note P, . On note gt la variable alatoire, va-
leurs dans F , du paiement dtape t, et g t = 1t tt0 =1 gt0 conv(F ).
P
Gy = {G(x, y) | x (I)}.
donc :
t 2 2 1 2
(2) E d2t+1 |ht 6 dt + 4M 2 .
t+1 t+1
En prenant lesprance, on obtient, que g t
/ C ou pas :
t 2 1 2
t > 1, E d2t+1 6 E(dt 2 ) + 4M 2 .
t+1 t+1
JEUX RPTS INFORMATION INCOMPLTE 65
Par le thorme du minmax, il existe x dans (I) tel que, pour tout
y (J),
hz 0 z, G(x, y)i > hz 0 z, z 0 i,
soit
hz 0 z, z 0 G(x, y)i 6 0.
(iv) signifie que tout demi-espace contenant C est approchable par
le joueur 1. (iii) (iv) est donc clair. (iv) (i) est similaire
(ii) (i).
Les thormes prcdents 2.3 et 2.4 sont, des diffrences mineures
de formulation prs, dues Blackwell (1956). Indiquons que X. Spinat
(2002) a montr rcemment le rsultat suivant :
Thorme 2.5. Un ensemble est approchable par le joueur 1 si et
seulement si il contient un B-ensemble pour le joueur 1.
Cela implique notamment quajouter la condition
dt 0 P, p.s.
t
dans la dfinition dapprochabilit ne change pas la notion.
u(p, q) est la valeur du jeu matriciel k,l pk q l Gk,l , appel jeu non
P
Par rapport Pp,q, , (pt ())t>0 et (qt ( ))t>0 sont des martingales. Rap-
pelons que lon a pour tout T , comme dans la preuve du lemme 1.12.
1
TX
p,q 2 k 2
E, (pt+1 () pt ()) = Ep,q
k k 2 k k
, (pT ()) (p ) 6 p (1 p ).
k
t=0
Par linarit de lesprance par rapport , le sup peut tre pris sur
les stratgies du joueur 2 qui sont la fois pures et indpendantes
de ltat l L.
Par le thorme 1.15, ce jeu a une valeur qui vaut vexII u(pN (, hN ), q),
et les joueurs y ont des stratgies optimales. partir de la date N +1,
la stratgie joue une stratgie optimale dans ce jeu manque din-
formation dun seul ct.
Toutes les probabilits et esprances qui suivent sont prises par
rapport Pp,q
, . On a pour toute date T > N :
X X
2 2 2
E pkT () pkN () =E pkT () pkN ()
k k
1
X TX
k
2 k
2
=E pt+1 () pt ()
k t=N
1
X TX
k k
2
=E pt+1 () pt ()
k t=N
6 par dfinition de .
Lingalit de Cauchy-Schwartz,
sX
p 2
E (kpT () pN ()k1 ) 6 |K| E(pkT () pkN ())
k
donne alors :
p
(4) E (kpT () pN ()k1 ) 6 |K|
k nvolue plus
et lerreur commise en supposant que linformation sur e
aprs ltape N est faible.
JEUX RPTS INFORMATION INCOMPLTE 73
E Gk,l (eit+1 ,e
jt+1 ) | ht
ee
X
= pkt (, ht )qtl (, ht )Gk,l (t+1 (k, ht ), t+1 (l, ht ))
k,l
X
6 pkt (, ht )qtl (, ht )Gk,l ((ht ), t+1 (l, ht ))
k,l
XX
+ pkt (, ht )qtl (, ht )M kt+1 (k, ht ) (ht )k
k l
X
= pkt (, ht )qtl (, ht )Gk,l ((ht ), t+1 (l, ht ))
k,l
+ M E (kpt+1 () pt ()k|ht )
Alors :
E Gk,l (eit+1 , e
jt+1 )|ht 6 t+1 (, )(ht ) + M kpN (, hN ) pt (, ht )k
ee
+ M E (kpt+1 () pt ()k|ht )
M X1
N +T
6 vexII u(pN (, hN ), q) + + E (kpN (, hN ) pt ()k|hN )
T
t=N
M X1
N +T
+ E (kpt+1 () pt ()k|hN ) ,
T
t=N
M X1
N +T
6 vexII u(pN (, hN ), q) + + E (kpN (, hN ) pt ()k|hN )
T
t=N
M X
q
+ pkN (1 pkN ),
T k
dquilibre de (p).
et de mme on pose
X
B(q)() = (i, j)B(q)(i, j).
(i,j)IJ
daprs (ii), et
X X
( , ) = pk ks B k (s ) = .
kK sS
sil y a un plan joint dont r fait partie des a posteriori. Ceci amne
considrer la correspondance(1) suivante.
/
: (K) / RK
r / {(Ak ())kK | (I J), B(r)() > vex v(r)}
(1)
Rappelons quune correspondance F dun ensemble X dans un ensemble Y est
une application de X dans lensemble des parties de Y . Le graphe de la corres-
pondance F est alors dfinie comme {(x, y) X Y | y F (x)}.
82 J. RENAULT
(2)
Pour toute application continue de la sphre unit de Rn+1 dans Rn il existe
deux points diamtralement opposs ayant la mme image.
JEUX RPTS INFORMATION INCOMPLTE 83
j j0
i .
i0
(Zn )n>1 tant une martingale borne, elle converge presque sre-
ment vers une limite Z .
v3
`
w2
v2 ` ` ` w3
w1 ` ` ` v4
w4
v1 `
5. Extensions, divers
Concernant la modlisation, les fondements des jeux information
incomplte sont tudis par Harsanyi (1967) et par Mertens et Zamir
dans (1985). Par ailleurs, les rsultats prsents prcdemment ne
constituent que la base des jeux rpts information incomplte,
et il existe de nombreuses extensions et variantes. La prsentation
suivante est srement imparfaite et ne prtend pas lexhaustivit. On
naborde notamment pas ici les liens entre jeux rpts information
incomplte et phnomnes de rputation, merging de probabilits,
lapprentissage, le cheap-talk,...
5.3. Somme non nulle. Dans le cadre de la partie 4.2 des jeux
manque dinformation dun seul ct et somme non nulle, on peut
tudier le nombre dtapes de communication ncessaires la rali-
sation dquilibres, li la convergence des bimartingales (Aumann
et Maschler 1995, Aumann et Hart 1986, Forges 1984, Forges 1990).
Indiquons que F. Forges (1988) a aussi donn une caractrisation des
paiements dquilibres, pour une notion plus gnrale dquilibre ap-
pele quilibre en communication.
Par ailleurs, on peut tudier le sous cas o chaque joueur connat ses
propres paiements. Lorsquil y a manque dinformation dun seul ct,
cela correspond supposer que la matrice des paiements du joueur 2
est indpendante de k. On montre (Shalev, 1994) que tout paiement
dquilibre sobtient alors comme paiement dquilibre compltement
rvlateur. Ce rsultat peut se gnraliser au cas de manque dinfor-
mation des deux cts et somme non nulle (voir larticle non publi
de Koren, 1992), et il peut ne pas exister dquilibre mme quand les
deux joueurs connaissent leurs paiements.
Un autre modle traite du cas dinformation dit symtrique. Les
deux joueurs ont alors une information incomplte, mais identique,
sur ltat de la nature. Ils reoivent aprs chaque tape le mme si-
gnal, dpendant notamment de cet tat. A. Neyman et S. Sorin (1998)
ont montr lexistence de paiements dquilibres dans le cas de deux
joueurs (pour la somme nulle, voir Forges, 1982).
Trs peu dtudes ont concern le cas dau moins 3 joueurs. On
trouve un rsultat partiel (pour deux tats de la nature) dexistence
dquilibre de type plan joint dans Renault (2001a). Enfin, pour des
modles de jeux rpts n joueurs information incomplte et avec
signaux, on trouve des rsultats dexistence dquilibres particuliers
(compltement rvlateurs) chez Renault et Tomala, 2004b (voir aussi
Renault, 2001b), o la transmission stratgique dinformation est tu-
die indpendamment des paiements.
92 J. RENAULT
Bibliographie
Aumann (R.J.) & Hart (S.)
[1986] Bi-convexity and bi-martingales, Israel Journal of Mathematics,
54 (1986), p. 159180.
Aumann (R.J.) & Maschler (M.)
[1995] Repeated games with incomplete information, M.I.T. Press,
1995 ; avec la collaboration de R. Stearns (contient une rdi-
tion de travaux de 1966,67,68).
Blackwell (D.)
[1956] An analog of the minmax theorem for vector payoffs, Pacific
Journal of Mathematics, 65 (1956), p. 18.
de Meyer (B.)
[1996a] Repeated games and partial differential equations, Mathematics
of Operations Research, 21 (1996), p. 209236.
[1996b] Repeated games, duality and the central limit theorem, Mathe-
matics of Operations Research, 21 (1996), p. 237251.
[1998] The maximal variation of a bounded martingale and the central
limit theorem, Annales de lInstitut Henri Poincar, Probabilits
et statistiques, 34 (1998), p. 4959.
de Meyer (B.) & Moussa Saley (H.)
[2003] On the strategic origin of Brownian motion in finance, Interna-
tional Journal of Game Theory, 31 (2003), p. 285319.
de Meyer (B.) & Rosenberg (D.)
[1999] Cavu and the dual game, Mathematics of Operations Re-
search, 24 (1999), p. 619626.
Forges (F.)
[1982] Infinitely repeated games of incomplete information : symme-
tric case with random signals, International Journal of Game
Theory, 11 (1982), p. 203213.
[1984] A note on Nash equilibria in repeated games with incomplete
information, International Journal of Game Theory, 13 (1984),
p. 179187.
[1988] Communication equilibria in repeated games with incomplete
information, Mathematics of Operations Research, 13 (1988),
p. 191231.
[1990] Equilibria with communication in a job market example, Quar-
terly Journal of Economics, 105 (1990), p. 375398.
[1992] Repeated Games of Incomplete Information : Non-zero sum,
dans Aumann (R.J.) & Hart (S.), d., Handbook of Game
Theory, I, Elsevier Science Publishers, 1992, p. 155177.
Harsanyi (J.)
[1967-68] Games with incomplete information played by Bayesian
JEUX RPTS INFORMATION INCOMPLTE 93
[1985]
Formulation of Bayesian analysis for games with incomplete in-
formation, International Journal of Game Theory, 14 (1985),
p. 129.
Neyman (A.) & Sorin (S.)
[1998] Equilibria in Repeated Games with Incomplete Information :
The General Symmetric Case, International Journal of Game
Theory, 27 (1998), p. 201210.
Renault (J.)
[2000] 2-player repeated games with lack of information on one side
and state independent signalling, Mathematics of Operations Re-
search, 4 (2000), p. 552572.
[2001a] 3-player repeated games with lack of information on one side,
International Journal of Game Theory, 30 (2001), p. 221246.
[2001b] Learning sets in state dependent signalling game forms : a cha-
racterization, Mathematics of Operations Research, 26 (2001),
p. 832850.
[2006] The value of Markov chain games with lack of information on
one side, Mathematics of Operations Research, 31 (2006), p. 490
512.
Renault (J.) & Tomala (T.)
[2004] Learning the state of nature in repeated games with incom-
plete information and signals, Games and Economic Behavior,
47 (2004), p. 124156.
Rosenberg (D.)
[1998] Duality and Markovian strategies, International Journal of
Game Theory, 27 (1998), p. 577597.
Rosenberg (D.) & Sorin (S.)
[2001] An operator approach to zero- sum repeated games, Israel Jour-
nal of Mathematics, 121 (2001), p. 221246.
Shalev (J.)
[1994] Nonzero-Sum Two-Person Repeated Games with Incomplete In-
formation and Known-Own Payoffs, Games and Economic Be-
havior, 7 (1994), p. 246259.
Simon (R.S.)
[2002] Separation of joint plan equilibrium payoffs from the min-max
functions, Games and Economic Behavior, 1 (2002), p. 79102.
Simon (R.S.), Spie (S.) & Toruczyk (H.)
[1995] The existence of equilibria in certain games, separation for fa-
milies of convex functions and a theorem of Borsuk-Ulam type,
Israel Journal of Mathematics, 92 (1995), p. 121.
[2002] Equilibrium existence and topology in some repeated games with
incomplete information, Transactions of the AMS, 354 (2002),
p. 50055026.
JEUX RPTS INFORMATION INCOMPLTE 95
Sorin (S.)
[1983] Some results on the existence of Nash equilibria for non- zero
sum games with incomplete information, International Journal
of Game Theory, 12 (1983), p. 193205.
[1984] On a pair of simultaneous functional equations, Journal of Ma-
thematical Analysis and Applications, 98 (1984), p. 296303.
Sorin (S.) & Zamir (S.)
[1985] A 2-person game with lack of information on 1 and 1/2 sides,
Mathematics of Operations Research, 10 (1985), p. 1723.
Sorin (S.)
[2002] A first course on zero-sum repeated games, Mathmatiques et
Applications, Springer, 2002.
Spinat (X.)
[2002] A necessary and sufficient condition for approchability, Mathe-
matics of Operations Research, 27 (2002), p. 3144.
Vieille (N.)
[1992] Weak approachability, Mathematics of Operations Research, 17
(1992), p. 781791.
Zamir (S.)
[1971] On the relation between finitely and infinitely repeated games
with incomplete information, International Journal of Game
Theory, 1 (1971), p. 179198.
[1973] On repeated games with general information function, Interna-
tional Journal of Game Theory, 21 (1973), p. 215229.
[1992] Repeated Games of Incomplete Information : zero-sum, dans
Aumann (R.J.) & Hart (S.), d., Handbook of Game Theory, I,
Elsevier Science Publishers, 1992, p. 109154.
par
Rida Laraki
1. Introduction
Les jeux stochastiques modlisent linteraction entre des dcideurs
pouvant influencer leur environnement. Ces jeux ont dabord t in-
troduits et tudis par Loyd Shapley (1953). Depuis, la littrature na
cess de crotre.
98 R. LARAKI
Dans un jeu stochastique, les joueurs font face des buts poten-
tiellement diffrents. Ils doivent assurer un bon paiement aujourdhui
tout en maintenant une esprance de paiement leve pour demain.
Les jeux stochastiques utilisent des outils mathmatiques trs va-
ris. Nous allons prsenter ici quelques rsultats classiques, principa-
lement pour les jeux somme nulle. Plus prcisment, les sections 2
4 prsentent le modle. Les sections (5, 6 puis 12) sont ddies aux
jeux n joueurs et somme non nulle. Les sections 7 11 sont ddies
aux jeux somme nulle.
Ce texte sest inspir principalement du cours sur les jeux rpts
somme nulle de Sorin (2002), du cours NATO sur les jeux sto-
chastiques et leurs applications dit par Neyman et Sorin (2003), du
polycopi de cours de DEA non publi sur les jeux stochastiques
par Solan (2006) et, enfin, dun article sur ltude asymptotique des
jeux absorbants somme nulle par Laraki (2006).
2. Droulement
Nous considrons un espace dtats (ou denvironnements) fini.
Nous avons un ensemble fini de joueurs not N = {1, . . . , |N |}. Dans
chaque tat le joueur i aura un ensemble dactions (par tape) Ai ()
considr lui aussi fini (et non vide). A() = i Ai () est donc len-
semble de tous les profils dactions admissibles en une tape donne
ltat . Nous notons lensemble des couples (tat, profil dactions)
par :
A = {(, a) | a A()} .
Donnons nous aussi une famille de probabilits de transition q : A
() o (X) est lensemble des probabilits sur X, et un tat initial
1 . Enfin, soit g i : A R la fonction de paiement dtape du
joueur i.
Le jeu se droule comme suit :
tape 1 : ltat initial est not 1 . De manire simultane et in-
dpendante, chaque joueur choisit une action dans son ensemble dac-
tions admissibles en 1 . Si le profil a1 = (ai1 )iN A() a t choisi,
chaque joueur i reoit pour ltape 1 le paiement g1i = g i (1 , a1 ). Un
tat 2 est alors tir selon la distribution de probabilit q(1 , a1 ).
JEUX STOCHASTIQUES 99
ht = (1 , a1 , . . . , t1, at1 , t ),
3. Stratgies
Cest essentiellement la mme dfinition que dans le texte sur les
jeux rpts (ce volume). Ici nous ladaptons notre contexte. Pour
tout entier (ou tape) t, lensemble de toutes les histoires possibles
jusqu la date t est not :
Ht = (A)t1 .
Un lment de Ht sera not ht et la dernire composante est note t .
H1 est identifi avec lespace dtat . La premire histoire nest autre
que 1 . Lensemble de toutes les histoires de longueur finie est not
[
H= Ht .
t>1
t =
bbt = (ht ) = (b
hbt ).
Une stratgie stationnaire pour le joueur i sera note xi et un
profil sera not par x = (x1 , . . . , x|N | ). Lensemble des stratgies
stationnaires du joueur i sera not X i , qui peut tre identifi
JEUX STOCHASTIQUES 101
Ai () . Ainsi, le nombre
Q
de stratgies stationnaires pures
du joueur i est Ai () (o |F | dsigne le cardinal de len-
Q
semble F ).
Une stratgie est dite markovienne si elle dpend seulement de
ltat en cours et du nombre dtapes coules. Mathmatiquement,
une stratgie de comportement est markovienne si, pour chaque couple
dhistoires de mme longueur ht = (1 , a1 , . . . , t1, at1 , t ) et b
ht =
(b
1 , b
a1 , . . . , at1 ,
bt1, b bt ),
t =
bt = (ht ) = (b
ht ).
Chaque profil de stratgies et chaque tat initial 1 dfinissent
une unique distribution de probabilit sur H (voir le texte sur les
jeux rpts (ce volume)). Cette probabilit sera note P1 , et les-
prance mathmatique associe sera not E1 , .
4. Objectifs
Ce sont essentiellement les mmes dfinitions que celles du le texte
sur les jeux rpts (ce volume). Ici, nous les adaptons notre contexte
et les reprenons pour prserver une certaine indpendance entre les
textes de ce volume.
montant pour cette valuation, il en est de mme pour les trois autres
valuations.
5. quilibre markovien
Thorme 5.1. Tout jeu stochastique fini T N joueurs admet
un quilibre en stratgies markoviennes.
6. quilibre stationnaire
Shapley (1953), linventeur du modle des jeux stochastiques, a
montr lexistence de la valeur et des stratgies optimales station-
naires pour les jeux escompts deux joueurs et somme nulle. Nous
montrons ici le rsultat de Fink (1964) et Takahashi (1964) qui gn-
ralisent Shapley aux jeux n joueurs.
On commence par proposer une mthodologie gnrale pour calcu-
ler explicitement le paiement -escompt gi (, x) pour un profil de
stratgies stationnaires x = (xi )iN .
naire de ||-quations :
gi (, x)
g i (, a)
X Y
i i
= x (a ) .
+ (1 ) 0 q(, a)( 0 )gi ( 0 , x)
P
aA() iN
6 (1 )k.
Do k = 0.
alors
WXi, (x, f )
g i (, y i , xi ())
= arg max ,
+(1 ) 0 q(, y i , xi ())( 0 )f i ( 0 )
P
y i (Ai ())
et
WFi, (x, f ) = g i (, x ()) + (1 )
X
q(, x)( 0 )f i ( 0 ).
0
g i ( , i (h ), xi ( ))
t t t
i i i
E1 ,i ,xi +(1 ) P
q(t , (ht ), x (t ))(t+1 )g (t+1 , x) |ht
t+1
6 gi (t , x).
7. Oprateur de Shapley
partir de maintenant et sauf mention explicite, nous nous foca-
liserons sur les jeux deux joueurs et somme nulle.
Puisque ltat du jeu est connu des deux joueurs, chaque joueur
peut crire le principe de programmation dynamique pour calculer
sa stratgie optimale. En fait, v et vT peuvent tre calculs laide
dun mme oprateur appel loprateur de Shapley. Celui-ci tend
le principe de programmation dynamique de Bellman. Ce principe
a t publi par Shapley avant et indpendamment de Bellman. De
plus Shapley traite le cas de deux joueurs alors que Bellman considre
seulement celui dun seul joueur.
Loprateur de Shapley nest autre que loprateur valeur pour un
jeu statique, similaire celui introduit dans la preuve du thorme
5.1. Pour chaque tat possible 1 et chaque fonction f : R borne
par M , on introduit le jeu statique suivant deux joueurs et somme
nulle :
lensemble de stratgies pures du joueur 1 est A1 (1 ) ;
lensemble de stratgies pures du joueur 2 est A2 (1 ) ;
110 R. LARAKI
8. Jeux absorbants
Dans cette section nous tudions une classe de jeu, introduite for-
mellement par Kohlberg (1974) et qui va nous servir pour illustrer
certains des rsultats exposs et expliquer une partie des difficults
qui peuvent tre rencontres dans les jeux stochastiques.
Un tat est dit absorbant si, une fois atteint, les joueurs ne
peuvent jamais en sortir. Mathmatiquement, cela veut dire que pour
tout profil a A(), on a q (, a) () = 1. Un jeu est absorbant sil
admet seulement un unique tat non absorbant.
Une fois quun tat absorbant est atteint, le jeu est rduit un jeu
rpt information parfaite (dj analys dans le premier texte de
ce volume). Nous savons alors que, partant dun tel tat, un quilibre
existe. Si nous nous intressons lanalyse des quilibres, on peut
supposer, sans perte de gnralit, quune fois quun tat absorbant
est atteint, la suite des paiements est constante et gale un paie-
ment dquilibre (que nous avons pralablement slectionn dans le
jeu rpt).
En rsum, on va supposer dans toute la suite et sans perte de
gnralit, qu tout tat absorbant dans un jeu stochastique est as-
soci un paiement absorbant (un paiement dtape que les joueurs
reoivent toutes les tapes suivantes du jeu). Nous supposerons que
ltat initial 1 dun jeu absorbant est ltat non absorbant (sinon le
jeu serait trivial et sans enjeu). Ds que lon quitte cet tat, le jeu
est essentiellement termin (il ny a plus de difficult mathmatique
lie laspect stochastique). Il nest donc plus ncessaire de spcifier
ltat de dpart dans un jeu absorbant.
Ainsi, un jeu absorbant somme nulle peut tre dcrit dune ma-
nire compacte comme suit. Il y a deux joueurs, 1 et 2. Le jeu est
donn par deux ensembles finis dactions, A1 pour le joueur 1 et A2
pour le joueur 2. Nous avons par ailleurs besoin de deux fonctions de
paiements ge : A1 A2 R et g : A1 A2 R. Enfin, nous avons
112 R. LARAKI
(i) avec probabilitp a1t , a2t le jeu est absorb et le joueur 1 reoit
C A
C 0 1
A 1 0
do
x + y 2xy
g (x, y) = .
1 xy(1 )
JEUX STOCHASTIQUES 113
On vrifie alors que les joueurs nont pas de stratgies optimales pures.
Si x ]0, 1[ (resp. y ]0, 1[) est la stratgie optimale du joueur 1
(resp. du joueur 2) alors, en utilisant le fait que chaque joueur est
indiffrent entre ces deux actions (les deux ont la mme esprance de
paiement) nous trouvons que :
v = x (1 )v + (1 x ) = x = y .
tion a1 .
e(x, a2 ) = 1 2 g (a1 , a2 ) est le paie-
P
g
a1 A1 xa1 (1 p (a , a ))e
ment non absorbant dtape si le joueur 1 joue x et le joueur 2
joue j ;
2 1 2 1 1
P
g (z, a ) =
a1 A1 za1 p (a , a )g (a , a ) est lextension li-
1
naire de ge(, a2 ) RA ;
2
P + 1 2 est la probabilit dabsorp-
p (z, a ) =
a1 A1 za1 p a , a
1
tion tendue linairement RA + ;
e(x, a2 ) = 1 p (x, a2 ) est la probabilit de continuation.
p
donc que pour tout a1 tel que xa1 > 0, nous avons p (a1 , a2 ) = 0.
1
Soit alors z(n ) = (xa1 (n )/n )a1 A1 RA + . Lquation (4) devient,
aprs la division par n ,
ge(x(n ), a2 ) + g (z(n ), a2 )
v (n ) 6
pe(x(n ), a2 ) + p (z(n ), a2 )
, r n , a2 .
g (x, a2 )
si p (x, a2 ) > 0 alors w 6 .
p (x, a2 )
ge(x, a2 ) + g (z(N () ), a2 )
si p (x, a2 ) = 0 alors w 6 + .
pe(x, a2 ) + p (z(N () ), a2 )
En consquence, w 6 v.
tape 2 : nous montrons que w > v. Lide est de construire une
stratgie du joueur 1 dans le jeu n -escompt qui lui garantit approxi-
mativement v.
Rappelons que n converge vers 0, et que w = lim vn .
1
Soit (z, x) RA 1
+ (A ) -optimal pour le joueur 1 dans lexpres-
sion de v. Supposons que n soit assez petit. Soit
A1 (x) := {a1 A1 | xa1 = 0}
et dfinissons x(n ) (A1 ) comme suit :
si A1 (x) = alors x(n ) = x.
si a1 A1 (x) alors xa1 (n ) = za1 n . P
a1 A1 (x) za1
si a1
/ A1 (x) et A1 (x) 6= alors xa1 (n ) = xa1 n .
|A1 (x)|
Ainsi, nous avons v(n ) > r(n ), o r(n ) est lunique rel dans
[M, M ] qui satisfait,
n ge(x(n ), a2 )
9. Approche semi-algbrique
Ici, nous montrons lexistence de lim0 v pour tout jeu stochas-
tique somme nulle en utilisant une approche semi-algbrique, initie
par Bewley et Kohlberg (1976 a et b). Cela permet de montrer en par-
ticulier que v est variation borne. Cette proprit impliquera que
limT vT existe et est gale lim0 v . Ici on suit Sorin (2002).
Un ensemble dans Rm est semi-algbrique sil peut scrire comme
union finie densembles Ak de la forme :
Ak = {x Rm | pk (x) > 0} ou Ak = {x Rm | pk (x) = 0}.
o pk est un polynme de Rm .
En utilisant le fait que v est lunique point fixe de (, ), on en
dduit le rsultat suivant.
Proposition 9.1. Lensemble des (, v , x ) tel que parcourt ]0, 1],
v est la valeur du jeu -escompt, xi est une stratgie optimale sta-
tionnaire du joueur i est semi-algbrique.
Ce rsultat peut facilement tre tendu aux jeux somme non nulle
en remplaant valeur par paiement dquilibre et stratgie optimale
par profil dquilibre de Nash (pour plus de dtails sur lapproche
semi-algbrique, consulter le chapitre 6 par Neyman dans Neyman et
Sorin 2003).
En utilisant llimination de Tarski-Seidenberg (Benedetti et Risler
1990, thorme 2.21, p. 54) on en dduit quil existe une slection
semi-algbrique par rapport ]0, 1[. Ceci implique lexistence
118 R. LARAKI
Dans le cadre des jeux avec plus de deux joueurs ou somme non
nulle, on peut montrer lexistence dune slection de stratgies et de
paiements dquilibre ayant un dveloppement en srie de Puiseux.
La fonction f o f F et ]0, 1[ sera dite variation
borne si pour toute suite {n }nN dans ]0, 1[ dcroissante vers 0, nous
avons :
X
n+1 fn < .
f
n=1
Ceci est une consquence directe dun rsultat gnral (voir le cha-
pitre 26 par Neyman dans Neyman et Sorin 2003).
Soit un oprateur dun espace de Banach Z dans lui-mme
quon supposera non dilatant, i.e. pour tout z et z 0 dans Z,
k(z) (z 0 )k 6 kz z 0 k. Il est facile de voir alors que, pour
tout z et z 0 dans Z,
1 z 1 z 0
6 (1 )
z z 0
.
de sorte que w 1
w admet un point fixe qui est ncessaire-
ment unique (par contraction de Picard). Soit w ce point fixe.
Dfinissons la suite {wT }T =0,1,... dans Z par rcurrence comme
1
suit : w0 = 0 et wT +1 = T +1 (T wT ), celle-ci pouvant scrire aussi
T (0)
wT = T .
t
wt w
6 t+1
t+1
t
6 kwt wt k +
wt wt+1
,
t+1
soit
(t + 1)
wt+1 wt+1
6 t kwt wt k + t
wt wt+1
.
En sommant on trouve
T
X
(T + 1) wT +1 wT +1 6 kw1 w1 k +
t
wt wt+1
.
t=1
PT
Puisque la somme t=1
wt wt+1
est borne, nous obtenons que
1 PT
t=1 t wt wt+1 0, do le rsultat.
T +1
120 R. LARAKI
10. Big-Match
Avant dtudier lapproche uniforme dans les jeux somme nulle
en gnral, nous tudions le Big-Match. Cest le premier exemple r-
solu explicitement dans le cadre uniforme par Blackwell et Ferguson
(1968). Cest le jeu suivant :
0 1
0 1 0
1 0 1
kT = 2lT T 1.
T
X
1 1 K K +1
E1 ,a2 g (t , at ) > .
K T 2(K + 1) 2T
t=1
Ceci impliquerait que la mme proprit est vraie pour toute stra-
tgie pure du joueur 2 et donc aussi pour toute stratgie mixte du
joueur 2. Nous dduirons alors que le joueur 1 peut garantir unifor-
K
mment 2(K+1) pour tout .
Fixons donc une suite dactions a2 = a21 , . . . , a2t , . . . pour le
Soit t la premire tape o le jeu est absorb (le joueur 1 joue 1).
Dfinissons la variable alatoire XT comme suit :
1/2 si t > T
XT = 1 si t 6 T, a2t = 1
a2t = 0
0 si t 6 T,
K
E1 ,a2 (XT ) > .
K 2(K + 1)
Pour T = 1 :
Si a21 = 1, alors
1 1 1
E1 ,a2 (XT ) = 1 +
K
(K + 1)2 2 (K + 1)2
1
>
2
K
> .
2(K + 1)
JEUX STOCHASTIQUES 123
Si a21 = 0, alors
1 1
E1 ,a2 (XT ) = 1
K
(K + 1)2 2
K(K + 2)
=
2(K + 1)2
K
> .
2(K + 1)
Si a21 = 1, alors
1 1
E1 ,a2 (Xt0 +1 ) = 1 2 EK1
1 ,a2 (Xt0 ) +
K
(K + 1) (K + 1)2
1 K 1 1
> 1 2 +
(K + 1) 2K (K + 1)2
K
= .
2 (K + 1)
Si a21 = 0, alors
1
E1 ,a2 (Xt0 +1 ) = 1 E1 ,a2 (Xt0 )
K
(K + 1)2 K+1
1 K +1
> 1 2
(K + 1) 2(K + 2)
K
= .
2(K + 1)
g 1 (, x1 (), y2 ())
X
+ (1 ) q(, x1 () , y2 ())( 0 )v ( 0 ) > v ().
0
Proprit 2
lim D y y D(y) = lim D (y) D y + y = +.
y0 6M y0 6M
Dmonstration. Nous avons :
Z y
(s) 1 1
lim D y y D(y) = lim ds + p .
y0 6M y0 y
y s y 6M y y
6M
Proprit 3. |dt+1 dt | 6 6M .
Dmonstration. Cela dcoule de sa dfinition puisque g 1 (t , at ),
|vt (t+1 )| et sont borns par M .
t
Proprit 4. |t+1 t | 6 6M .
do
t g 1 (t , at ) vt (t )
E1 ,1 ,2 > 0.
+ (1 t ) vt+1 (t+1 ) vt (t ) |Ht
Donc
t g 1 (t , at ) vt (t )
+ (1 ) v
t t+1 (t+1 ) vt (t )
E1 ,1 ,2 + vt+1 (t+1 ) vt+1 (t+1 ) > 0.
+ (t ) (t )
+ (t+1 ) (t+1 ) |Ht
Nous en dduisons donc que
E1 ,1 ,2 [C3 C2 C1 + Zt+1 Zt |Ht ] > 0.
Nous allons maintenant borner les termes C1 , C2 et C3 .
Proprit 6. C1 > t (dt+1 dt ) t .
Dmonstration. Considrons le cas t+1 < t (lautre cas se traite
de la mme faon). Dans ce cas on observe gomtriquement, en uti-
lisant la dfinition de et la proprit 1, que
(t ) (t+1 ) > t (dt+1 dt ) (t+1 t ) (dt+1 dt ) ,
puis nous utilisons les proprits 3 et 4.
Proprit 7. |C2 | 6 t .
Dmonstration. Nous avons :
|C2 | = vt+1 (t+1 ) vt (t+1 )
Z t+1
6 (y)dy .
t
La proprit 4 implique alors que pour tout y entre t et t+1 nous
avons,
t 1
> ,
y 2
JEUX STOCHASTIQUES 129
do
t+1
Z
(y)
|C2 | 6 dy 2t
t y
1 1
= t (dt dt+1 ) + p .
6M t t+1
R
On observe par ailleurs que lintgrale tt+1 (y)
y dy est positive si et
seulement si t < t+1 . Ceci est vrai si et seulement si 1 > 1 .
t t+1
Nous dduisons donc que |C2 | 6 6M |dt dt+1 | t . Il nous suffit donc
dappliquer la proprit 3.
Proprit 8. C3 6 t (dt+1 dt ) 4t .
do lingalit souhaite.
ce qui montre que tous les exemples de lapproche infinie ont une
valeur qui concide avec la valeur uniforme.
1
3G + 32 D chaque tape et le joueur 1 en jouant comme dans le
1
Big-Match escompt 1+ H + 1+ B).
Soit w le paiement dquilibre le plus favorable au joueur 2 dans
E . Nous allons prouver que w 6 23 (et donc est gal 23 ).
Soit 1 , 2 un quilibre dans tel que g2 1 , 2 = w. Soit w1
w1 6 w et w2 6 w.
w = 2p + (1 p)(1 )w1
= 0p + (1 p)( + (1 )w2 )
w 6 2p + (1 p)(1 )w
w 6 (1 p)( + (1 )w).
G D
7 5
H 12 12
7 5
B 12 12
13. Extensions
La construction dune stratgie maxmin uniforme en cas dobser-
vation imparfaite des actions a t faite dune manire indpendante
par Coulomb (2003) et Rosenberg, Solan et Vieille (2003).
134 R. LARAKI
Bibliographie
Blackwell (D.)
[1962] Discrete dynamic programming, Annals of Mathematical Statis-
tics, 33 (1962), p. 719726.
Blackwell (D.) & Ferguson (T.)
[1968] The Big Match, Annals of Mathematical Statistics, 33 (1968),
p. 882886.
Benedetti (R.) & Risler (J.-J.)
[1990] Real algebraic and semi-algebraic sets, Paris : Hermann, 1990.
136 R. LARAKI