You are on page 1of 144

TABLE DES MATIRES

Prface. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii

Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

T. Tomala Jeux sous forme normale . . . . . . . . . . . . . . . . . . . . . . . 5


1. Prliminaires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2. Jeux somme nulle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3. Jeux somme non nulle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4. Jeux finis et stratgies mixtes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5. Jeux information parfaite. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

T. Tomala Jeux rpts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27


1. Modle gnral. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2. quilibres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3. Jeux rpts information complte et observation parfaite 35
Bibliographie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

J. Renault Jeux rpts information incomplte . . . . . . . . . 49


1. Le modle standard manque dinformation dun seul ct 50
2. Jeux paiements vectoriels et approchabilit. . . . . . . . . . . . . . 61
3. Manque dinformation des deux cts. . . . . . . . . . . . . . . . . . . . . . 68
4. Somme non nulle et manque dinformation dun seul ct . . 76
5. Extensions, divers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Bibliographie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
ii TABLE DES MATIRES

R. Laraki Jeux stochastiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97


1. Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
2. Droulement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
3. Stratgies. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4. Objectifs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5. quilibre markovien. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6. quilibre stationnaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7. Oprateur de Shapley. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
8. Jeux absorbants. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
9. Approche semi-algbrique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
10. Big-Match. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
11. Valeur uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
12. Paris Match. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
13. Extensions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
Bibliographie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
PRFACE

La thorie mathmatique des jeux est ne dans la premire moiti


du xxe sicle, pour formaliser et rsoudre des problmes de nature
conomique ou stratgique.
Aprs une prsentation des fondements de la thorie, les exposs
de ce volume en dveloppent un des aspects : les jeux rpts.
Ces journes doivent beaucoup aux conseils de Sylvain Sorin, que
nous remercions.
Nous tenons aussi remercier la direction de lcole polytechnique,
et tout particulirement la Direction des tudes, pour laide matrielle
importante quelle a apporte la prparation des journes X-UPS.
Nous remercions les ditions de lcole polytechnique qui ont bien
voulu accueillir la srie Journes mathmatiques X-UPS au sein de
leurs collections.
Nous remercions enfin les secrtaires du Centre de mathmatiques,
notamment Claudine Harmide et Michle Lavallette, pour leur contri-
bution lorganisation de ces journes.

Nicole Berline, Alain Plagne et Claude Sabbah


INTRODUCTION

La thorie des jeux est une discipline qui tudie la prise de dcision
interactive : plusieurs personnes, ou joueurs, doivent prendre des d-
cisions, choisir des actions, qui vont induire un rsultat, les intrts
des joueurs tant potentiellement divergents.
Si les mathmaticiens ont toujours montr un fort intrt pour les
jeux de hasard ou de stratgie, les premiers travaux thoriques sur les
jeux de stratgie apparaissent au dbut du xxe sicle avec Zermelo
(1912), Borel (1921), Von Neumann (1928). La thorie des jeux nat
rellement comme discipline sous limpulsion du mathmaticien John
Von Neumann et de lconomiste Oskar Morgenstern, qui crivent en
1944 un livre fondateur : Games and Economic Behavior. Les travaux
de John Nash (1950), en donnant une notion de solution pour les jeux
somme non nulle, confortent cette fondation. Depuis, la thorie des
jeux a connu un dveloppement mathmatique important et de nom-
breuses applications dans diverses disciplines : biologie, informatique,
conomie. Le succs est particulirement remarquable en conomie et
plusieurs thoriciens des jeux ont reu le prix Nobel dconomie : John
C. Harsanyi, John F. Nash et Reinhardt Selten en 1994, Robert J. Au-
mann et Thomas C. Schelling en 2005. La thorie des jeux comporte
aujourdhui plusieurs branches : jeux coopratifs, jeux stratgiques,
jeux information incomplte, jeux dynamiques, jeux diffrentiels.
Nous prsentons ici les fondements mathmatiques de la thorie des
jeux stratgiques et dveloppons un des thmes principaux : les jeux
rpts.
2 INTRODUCTION

Il y a deux faons de dcrire un jeu, la premire tant de donner la


rgle du jeu, cest--dire dcrire prcisment son droulement, com-
ment les joueurs interviennent, quelles sont les issues du jeu et les
gains ou paiements des joueurs une fois le jeu termin. Cest
la faon la plus courante de dcrire un jeu, et on parle alors de jeu
sous forme extensive. On peut alors dfinir la notion de stratgie : une
stratgie est un plan daction qui prvoit ce que doit faire le joueur
dans chaque ventualit quil va rencontrer. On peut voir une stratgie
comme un programme informatique, une liste dinstructions donnes
un ordinateur, lui permettant de jouer le jeu. Lorsque chaque joueur
choisit une telle stratgie, le droulement du jeu est fix et on peut, au
moins thoriquement, calculer lissue du jeu et les paiements. La se-
conde faon de dcrire un jeu consiste donner, pour chaque joueur,
lensemble de ses stratgies, ainsi que les applications qui associent
aux vecteurs ou profils de stratgies, les paiements des joueurs.
On parle alors de jeu sous forme stratgique. Suivant la complexit du
jeu, donner la forme stratgique peut tre beaucoup plus difficile que
donner la forme extensive : dans le jeu Pierre, Feuille, Ciseaux, o les
choix sont simultans, chaque joueur a trois stratgies et les fonctions
de paiement sont faciles crire. Pour le jeu dchecs, dcrire la rgle
du jeu est assez simple, alors que donner lensemble des stratgies est
humainement impossible.
Lavantage de la forme stratgique est de permettre une formali-
sation mathmatique claire et compacte : un jeu n joueurs est une
application dun produit cartsien de n facteurs dans Rn . Grce
des techniques danalyse relle et convexe, on obtient des thormes
dexistence relativement gnraux. On peut obtenir des rsultats plus
prcis de structure voire de caractrisation des solutions dans les jeux
rpts, qui sont des jeux dynamiques ayant des proprits de station-
narit dans le temps.
Nous nous sommes inspirs de plusieurs sources : louvrage Re-
peated Games de Jean-Franois Mertens, Sylvain Sorin et Schmuel
Zamir (1994) , le Handbook of Game theory, A First Course on
Zero-Sum Repeated Games de Sylvain Sorin (2002). Citons aussi
quelques manuels classiques de thorie des jeux : A course in game
theory , Osborne et Rubinstein (1994), Stability and Perfection
INTRODUCTION 3

of Nash Equilibria , Van Damme (1987), Game Theory , Myer-


son (1991). Un article rcent dans MATAPLI (Janvier 2006) prsente
brivement certains travaux importants de R.J. Aumann.
Dans le premier texte, Tristan Tomala prsente les jeux sous forme
stratgique et leur analyse mathmatique. Dans le second, il dcrit le
modle de jeu rpt et en tudie une classe assez simple : les jeux
rpts information complte et observation parfaite. Dans le troi-
sime texte, Jrme Renault prsente les principaux rsultats concer-
nant les jeux rpts information incomplte. Dans le quatrime,
Rida Laraki traite des jeux stochastiques.
Nous remercions chaleureusement Sylvain Sorin pour son aide la
prparation des journes X-UPS 2006.

Rida Laraki, Jrme Renault et Tristan Tomala


JEUX SOUS FORME NORMALE

par

Tristan Tomala

Table des matires


1. Prliminaires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2. Jeux somme nulle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3. Jeux somme non nulle. . . . . . . . . . . . . . . . . . . . . . . . . . 15
4. Jeux finis et stratgies mixtes. . . . . . . . . . . . . . . . . . . . 19
5. Jeux information parfaite. . . . . . . . . . . . . . . . . . . . . . . 22

1. Prliminaires
On appelle jeu sous forme normale ou jeu sous forme stratgique
la donne dun ensemble N de joueurs, dune famille densembles de
stratgies (ou dactions) (Ai )iN et dune famille de fonctions de paie-
ments (g i )iN avec g i : jN Aj R. Lensemble des joueurs sera
Q

toujours suppos fini et non-vide. Les ensembles dactions seront tou-


jours supposs non vides et on parlera de jeu fini lorsque Ai est fini
pour tout i.
Un jeu sous forme normale reprsente une interaction entre joueurs
rationnels : chaque joueur i N choisit une action ai Ai , les choix
tant simultans, et si a = (ai )iN est le profil dactions choisi, le
joueur i reoit le paiement g i (a). Tous les joueurs connaissent le jeu
et le but du joueur i est dobtenir un paiement le plus grand possible.
6 T. TOMALA

Un jeu un joueur est donc simplement un problme de maximisa-


tion. Ds quil y a au moins deux joueurs, le joueur i ne contrle que
partiellement son paiement et la notion de bonne stratgie nest pas
claire. Les exemples usuels suivants permettent de sen convaincre.
Les matrices ci-dessous reprsentent des jeux deux joueurs dans les-
quels le joueur 1 choisit la ligne, le joueur 2 la colonne et lentre de
la matrice est le couple de paiements (g 1 , g 2 ).
Le Dilemme du Prisonnier. Deux criminels sont arrts et inter-
rogs dans des pices spares. Ils ont le choix entre dnoncer leur
complice (D) o se taire et donc cooprer avec leur complice (C). Un
criminel dnonc par son complice se verra infliger une lourde peine
et une peine lgre dans le cas contraire. De plus le fait de dnoncer
lautre permet dobtenir une remise de peine, que lon soit soi-mme
dnonc ou pas. Chaque joueur classe les issues du jeu par prfrence
dcroissante selon lordre suivant : (ne pas tre dnonc et dnoncer),
(ne pas tre dnonc et ne pas dnoncer), (tre dnonc et dnoncer),
(tre dnonc et ne pas dnoncer). Attribuant des paiements num-
riques ces alternatives, nous formalisons cette situation par le jeu
suivant :
C D
C 3, 3 0, 4
D 4, 0 1, 1
Un jeu de coordination. Deux amis veulent se rencontrer au lieu
(A) ou au lieu (B). Leurs paiements sont gaux et valent 1 sils se
rencontrent effectivement et 0 sinon. Ceci se reprsente par le jeu :
A B
A 1, 1 0, 0
B 0, 0 1, 1
Le jeu Matching Pennies . Chaque joueur possde une pice
de monnaie et choisit secrtement de la mettre sur Pile (P ) ou sur
Face (F ). Le joueur 1 gagne si son choix est le mme que celui du
joueur 2 et, dans ce cas, le joueur 2 perd. Dans le cas contraire cest 2
qui gagne et 1 qui perd. Ceci se reprsente par le jeu :
P F
P 1, 1 1, 1
F 1, 1 1, 1
JEUX SOUS FORME NORMALE 7

Commenons par donner quelques notions simples de bonne stra-


tgie. Nous adopterons les notations suivantes. Pour tout joueur i,
i dsigne lensemble des autres joueurs N r {i}. Si (E i )iN est
une famille densembles indexe par N , nous notons E = iN E i ,
Q

E i = j6=i E i . Un lment e de E pourra se noter e = (e1 , . . . , en ) =


Q

(ei )iN = (ei , ei ) cette dernire notation tant utilise lorsque lon
veut sparer le joueur i des autres.

Dfinition 1.1
Une stratgie ai Ai du joueur i est domine si
bi Ai , ai Ai , g i (ai , ai ) 6 g i (bi , ai ).
Une stratgie ai Ai du joueur i est faiblement domine si
(
ai Ai , g i (ai , ai ) 6 g i (bi , ai ) et
b i Ai ,
ai Ai , g i (ai , ai ) < g i (bi , ai ).
Une stratgie ai Ai du joueur i est strictement domine si
bi Ai , ai Ai , g i (ai , ai ) < g i (bi , ai ).
Une stratgie ai Ai du joueur i est dominante si
bi Ai , ai Ai , g i (ai , ai ) > g i (bi , ai ).
Une stratgie ai Ai du joueur i est faiblement dominante si
(
ai Ai , g i (ai , ai ) > g i (bi , ai ) et
b i Ai ,
ai Ai , g i (ai , ai ) > g i (bi , ai ).
Une stratgie ai Ai du joueur i est strictement dominante si
bi Ai , ai Ai , g i (ai , ai ) > g i (bi , ai ).

Un joueur rationnel ne jouera jamais de stratgie strictement do-


mine, jouera coup sur une stratgie strictement dominante si elle
existe (et alors elle est unique) et ne perd rien jouer une stratgie
dominante. On peut remarquer que dans le jeu du Dilemme du Pri-
sonnier, la stratgie D est strictement dominante pour chaque joueur,
lissue rationnelle du jeu est donc (D, D).
Lorsque tous les joueurs sont rationnels et savent que leurs ad-
versaires le sont, chacun peut supprimer ses propres stratgies stric-
tement domines et sattendre ce que les autres fassent de mme.
8 T. TOMALA

De nouvelles stratgies strictement domines peuvent alors apparatre


dans le jeu rduit. On est donc conduit itrer cette opration.

Procdure dlimination itre des stratgies strictement


domines (EISSD). Pour tout jeu G = (N, (Ai )iN , (g i )iN )
et tout joueur i, on note SDi (G) lensemble des stratgies du
joueur i strictement domines dans G. Partons dun jeu G0 =
(N, (Ai0 )iN , (g i )iN ).
Pour tout i N , on pose

Ai1 = Ai0 r SDi (G0 ) et G1 = (N, (Ai1 )iN , (g i )iN ),

jeu dans lequel les fonctions de paiement sont dfinies par restriction.
Pour tout entier k > 1 et tout i N , on pose

Aik = Aik1 r SDi (Gk1 ) et Gk = (N, (Aik )iN , (g i )iN ).

Pour tout i N on pose enfin


\
Ai = Aik et G = (N, (Ai )iN , (g i )iN ).
k

On dit que G0 est rsoluble par EISSD si pour tout joueur i, la


restriction de g i iN Ai est une application constante.
Q

Le jeu de concurrence de Cournot. Deux entreprises produisent le


mme bien et choisissent la quantit produire. Le prix de vente est
une fonction dcroissante de la somme des quantits, le bnfice de
chaque entreprise scrit comme la diffrence entre ses recettes et le
cot total de production.
Prenons des paramtres , , > 0 avec > et dfinissons le
jeu suivant : G = (A1 , A2 , g 1 , g 2 ) dans lequel A1 = A2 = R+ et pour
chaque joueur i et paire de stratgies (a1 , a2 ) :

g i (a1 , a2 ) = ai ( (a1 + a2 ))+ ai

n estorsoluble par EISSD et on montre que, pour i = 1, 2,


Ce jeu
Ai = 3 .
Deviner le demi-moyenne. Un autre exemple est le jeu n joueurs
dans lequel chacun choisit un rel entre 0 et 100, le but tant dtre
JEUX SOUS FORME NORMALE 9

le plus proche possible de la demi-moyenne :


n
i
i 1 X
j

g (a) = a a
2n
j=1

Ce jeu est rsoluble par EISSD et on a, pour tout i N , Ai = {0}.


Comme le montrent les jeux de coordination et Matching Pennies
ci- dessus, bon nombre de jeux ne sont pas rsolubles par cette simple
mthode. Les deux parties suivantes donnent des notions de solutions
pour lesquels on dispose de thormes dexistence relativement gn-
raux. Nous commenons par traiter les jeux somme nulle.

2. Jeux somme nulle


Un jeu somme nulle est un jeu deux joueurs G = (A1 , A2 , g 1 , g 2 )
tel que pour tous (a1 , a2 ) A, g 1 (a1 , a2 ) + g 2 (a1 , a2 ) = 0. Pour cette
partie posons, A1 = S, A2 = T , g 1 = g. Ainsi, un jeu somme nulle
est dtermin par une application g : S T R. Dans la suite, par
souci de simplicit, nous supposerons g borne.

2.1. Notions de solutions


Dfinition 2.1
Le joueur 1 garantit le paiement d R si :
s S, t T, g(s, t) > d.
Le joueur 1 dfend le paiement d R si :
t T, s S, g(s, t) > d.
Le joueur 2 garantit le paiement d R si :
t T, s S, g(s, t) 6 d.
Le joueur 2 dfend le paiement d R si :
s S, t T, g(s, t) 6 d.

Les proprits suivantes sont immdiates :

Proposition 2.2. Posons


v(g) = sup inf g(s, t) et v(g) = inf sup g(s, t).
sS tT tT sS
10 T. TOMALA

On a v(g) 6 v(g) et
v(g) = sup{d | 1 garantit d} = inf{d | 2 dfend d},
v(g) = sup{d | 1 dfend d} = inf{d | 2 garantit d}.

On voit donc que, prs, le joueur 1 peut faire en sorte que le


paiement soit au moins v(g) alors que le joueur 2 peut assurer que le
paiement ne soit pas plus que v(g). Lorsque ces deux quantits sont
gales et que les deux joueurs sont rationnels, on peut penser que
lissue du jeu sera trs proche de leur valeur commune. Ceci conduit
aux dfinitions suivantes :

Dfinition 2.3
On dit que le jeu (S, T, g) a une valeur lorsque v(g) = v(g) et on
note v(g) cette valeur.
Soit > 0, on dit que s S est une stratgie -optimale (ou
simplement optimale si = 0) du joueur 1 si la stratgie s garantit
v(g) :
t T, g(s, t) > v(g) .
On dit que t T est une stratgie -optimale du joueur 2 si la
stratgie t garantit v(g) + :
t T, g(s, t) 6 v(g) + .
Un couple (s, t) est un point selle si :
(s, t), g(s, t) 6 g(s, t) 6 g(s, t).

On a les proprits suivantes :

Proposition 2.4. Il existe une stratgie optimale pour le


joueur 1 (resp. le joueur 2) si et seulement si
v(g) = max inf g(s, t) (resp. v(g) = min sup g(s, t)).
sS tT tT sS

Sil existe un point selle, alors le jeu a une valeur, les joueurs
ont des stratgies optimales et on a :
v(g) = max min g(s, t) = min max g(s, t).
sS tT tT sS

De plus si on note Oi
lensemble des stratgies optimales du joueur
i = 1, 2 et S lensemble des points selles, on a S = O1 O2 .
JEUX SOUS FORME NORMALE 11

2.2. Un thorme dexistence. Le thorme principal dexis-


tence de valeur dans les jeux somme nulle est d Sion (1958) et
gnralise le clbre thorme du minimax de Von Neumann (1928)
(voir le paragraphe 4 ci-dessous).
tant donn une fonction f : X R o X est un espace topo-
logique, on dit que f est semi-continue suprieurement (scs) si pour
tout rel c, lensemble {x | f (x) > c} est ferm. On dit que f est semi-
continue infrieurement (sci) si f est scs. On vrifie facilement que
linfimum dune famille de fonctions scs est scs et que si f est scs pour
toute suite (xn )n qui converge vers x, limn f (xn ) 6 f (x).
Lorsque X est un sous-ensemble convexe dun espace vecto-
riel, on dit que f est quasi-concave si pour tout rel c, lensemble
{x | f (x) > c} est convexe. On dit que f est quasi-convexe si f est
quasi-concave.
Thorme 2.5. Soit G = (S, T, g) un jeu somme nulle. On sup-
pose :
(i) S et T sont des sous-ensembles convexes non-vides despaces
vectoriels topologiques, lun dentre eux tant compact ;
(ii) pour tout (s0 , t0 ) S T et tout rel c, les ensembles
{s S | g(s, t0 ) > c}, {t T | g(s0 , t) 6 c} sont convexes et ferms.
Alors :
(a) v(g) = v(g) ;
(b) si S (resp. T ) est compact, le joueur 1 (resp. 2) a une stratgie
optimale ;
(c) lensemble des stratgies -optimales ( > 0) pour le joueur 1
(resp. 2) est convexe ferm.
Loutil principal de la dmonstration est le thorme de sparations
des convexes. On utilise le lemme suivant :
Lemme 2.6. Soit (Fi )ni=1 une famille de sous-ensembles convexes
compacts non-vides dun espace vectoriel topologique localement
convexe spar (evtlcs), telle que ni=1 Fi est convexe et pour tout j,
S
T Tn
i6=j Fi 6= . On a alors : i=1 Fi 6= .

Dmonstration. Par rcurrence sur n, le cas n = 1 tant clair,


supposons le rsultat vrai pour n 1 et faux pour n. Prenons une
famille (Fi )ni=1 vrifiant les hypothses du lemme, posons F = i<n Fi
T
12 T. TOMALA

et supposons F Fn = . En utilisant le thorme de Hahn-Banach,


il existe un hyperplan ferm H qui spare F et Fn et comme les
ensembles sont compacts on peut obtenir une sparation stricte : F
H = et Fn H = .
Nous pouvons appliquer lhypothse de rcurrence la famille
(Fi H)i<n car i<n (Fi H) = ( ni=1 Fi ) H est convexe. Comme
S S
T
i<n (Fi H) = F H = , T
daprs lhypothse de rcurrence, il
existe un indice j < n tel que i<n,i6=j (Fi H) = . Mais lensemble
T
G = i<n,i6=j Fi contient F et G Fn 6= par hypothse, donc G
doit rencontrer H do la contradiction.
Nous pouvons alors dmontrer le thorme de Sion pour des poly-
topes.
Lemme 2.7. Supposons que les hypothses du thorme 2.5 sont
satisfaites et quil existe deux ensembles finis S0 et T0 tels que S soit
gal lenveloppe convexe co S0 de S0 et T soit gal co T0 . Alors :
sup inf g(s, t) > inf sup g(s, t)
sS tT0 tT sS0

Dmonstration. Remarquons que S et T peuvent sidentifier des


convexes compacts de dimension finie et donc tre munis de lunique
topologie devtlcs correspondante. Celle-ci tant ncessairement plus
fine que la topologie de dpart, les hypothses du thorme restent
satisfaites. Supposons par labsurde quil existe un rel c tel que :
sup inf g(s, t) < c < inf sup g(s, t)
sS tT0 tT sS0

Ceci revient :
s co S0 , t T0 , g(s, t) < c
t co T0 , s S0 , g(s, t) > c.
Supposons de plus que (S0 , T0 ) soit minimal (pour linclusion) parmi
les paires densembles non-vides vrifiant ces conditions. Posons
alors pour tout s S0 , Ts = {t T | g(s, t) 6 c}, cet ensemble est
T
convexe ferm. Les conditions ci-dessus impliquent sS0 Ts =
T
et comme on a pris (S0 , T0 ) minimal, sS0 ,s6=s0 Ts 6= pour tout
S
s0 S0 . Le lemme 2.6 implique que sS0 Ts 6= T et donc il existe
t T tel que s S0 , g(s, t ) > c. Enfin, par convexit de len-
semble {s S | g(s, t ) > mins0 S0 g(s0 , t )}, on a g(s, t ) > c pour
JEUX SOUS FORME NORMALE 13

tout s S. changeant les rles des deux joueurs nous obtenons


lexistence de s telle que g(s , t) < c pour tout t T et donc
g(s , t ) < c < g(s , t ), do la contradiction.

Dmonstration du thorme 2.5. Supposons par labsurde que lon


ait :
sup inf g(s, t) < inf sup g(s, t)
sS tT0 tT sS0

On peut alors trouver c R tels que :

s S, t T, g(s, t) < c
t T, s S, g(s, t) > c

Supposons S compact, les ensembles St = {s S | g(s, t) < c}


forment un recouvrement ouvert de S. Soit (St )tT0 un sous-
recouvrement fini, on a :

s S, t T0 , g(s, t) < c
t co T0 , s S, g(s, t) > c

Remplaant T par co T0 (qui est compact), nous pouvons changer


les rles de S et T et obtenir un ensemble fini S0 S tel que :

s co S0 , t T0 , g(s, t) < c
t co T0 , s S0 , g(s, t) > c

et on conclut grce au lemme 2.7.


Les points (b) et (c) du thorme 2.5 sobtiennent directement par
la semi-continuit suprieure et la quasi-concavit de s 7 g(s, t) (et
les conditions duales pour t 7 g(s, t)).

2.3. Continuit et drivabilit de la valeur. Fixons deux


espaces compacts S et T . Soit E lespace vectoriel des applications
g : S T R bornes. On pose kgk = sup(s,t)ST |g(s, t)|, pour
g E.

Proposition 2.8
(1) Pour toutes applications f, g E :

|v(g) v(f )| 6 kg f k et |v(g) v(f )| 6 kg f k .


14 T. TOMALA

(2) Soit (f ) une suite gnralise de E telle que kf f k 0


avec f E telle que pour tout t, lapplication partielle f (, t) est scs.
Soit (s ) une suite gnralise de S telle que s est une stratgie
-optimale du joueur 1 pour f avec > 0, 0. Alors, tout
point daccumulation de (s ) est une stratgie optimale du joueur 1
pour f .
Dmonstration
(1) Il est immdiat que pour toutes constantes a > 0 et b R, si
lon pose af + b lapplication (s, t) 7 af (s, t) + b, on a : v(af + b) =
av(f ) + b. De plus si pour tout (s, t), f (s, t) 6 g(s, t), alors v(f ) 6
v(g). Comme f (s, t) 6 g(s, t) + kg f k, on a v(f ) 6 v(g) + kg f k,
do le rsultat.
(2) Supposons que pour tout t T , f (s , t) > v(f ) .
Daprs le point prcdent v(f ) v(f ) et donc pour tout t T ,
limf (s , t) > v(f ). Comme f converge uniformment vers f ,
limf (s , t) = limf (s , t). Soit s un point daccumulation de (s ) ,
puisque f (, t) est scs, f (s, t) > limf (s , t) > v(f ).
En utilisant ce rsultat, nous obtenons une formule pour la drive
directionnelle de la fonction valeur (Mills, 1956). Soient f, g dans E,
toutes deux scs en s et sci en t. On suppose que pour tout > 0,
v(f + g) existe. Soit S(f ) = O1 (f ) O2 (f ) lensemble des points
selles de f , on pose vf (g) = v(g|S(f ) ) (lorsque cette valeur existe).
Proposition 2.9. Avec ces hypothses, vf (g) existe et on a :
v(f + g) v(f )
lim = vf (g)
0+
Dmonstration. Soit t une stratgie optimale du joueur 2 pour f
(t O2 (f )), et s une stratgie optimale du joueur 1 pour f + g. Il
vient :
v(f + g) 6 f (s , t) + g(s , t)
6 v(f ) + g(s , t)

Do v(f +g)v(f

)
6 g(s , t), et comme ceci est vrai pour toute stra-
tgie optimale du joueur 2 pour f , on obtient
v(f + g) v(f )
6 inf g(s , t).
tO2 (f )
JEUX SOUS FORME NORMALE 15

Comme g(, t) est scs, inf tO2 (f ) g(, t) lest aussi. Dou, pour tout
point daccumulation s de (s )0 , lim0+ inf tO2 (f ) g(s , t) 6
inf tO2 (f ) g(s, t), et s O1 (f ). Donc,
v(f + g) v(f )
lim0+ 6 sup inf g(s, t)
2
sO1 (f ) tO (f )

On obtient lgalit en changeant les rles des deux joueurs.

3. Jeux somme non nulle


La notion centrale de solution pour les jeux sous forme normale est
lquilibre de Nash (1950), qui gnralise la notion de point selle. Soit
G = (N, (Ai )iN , (g i )iN ) un jeu.

3.1. quilibres de Nash


Dfinition 3.1. Un quilibre de Nash du jeu G est un profil de
stratgies a = (ai )iN tel que :
i N, bi Ai , g i (bi , ai ) 6 g i (a)

Cette dfinition peut se reformuler de diffrentes faons. Par


exemple, tant donn un profil de stratgies a, on dit que le joueur i
a une dviation profitable par rapport a, sil existe bi telle que
g i (bi , ai ) > g i (a). Un quilibre de Nash est un profil de stratgies
pour lequel il nexiste pas de dviation profitable. Cest donc un point
tel que, si tous les joueurs savent quon va jouer a, alors chacun a
effectivement intrt le jouer. On peut remarquer que pour les jeux
somme nulle, quilibres de Nash et points selles concident.
Une autre reformulation va suggrer une mthode de calcul et de
dmonstration dexistence.

Dfinition 3.2
Pour chaque joueur i et profil daction de ses adversaires ai , on
dit que ai est meilleure rponse contre ai si :
b i Ai , g i (bi , ai ) 6 g i (ai , ai ).
On appelle correspondance de meilleure rponse du joueur i, lap-
plication MRi de Ai dans les parties de Ai , qui ai associe len-
semble des meilleures rponses du joueur i.
16 T. TOMALA

On appelle correspondance de meilleure rponse du jeu G, lap-


plication MR : A 2A dfinie par MR(a) = iN MRi (ai ).
Q

On voit alors que a est un quilibre de Nash de G si et seulement


si a MR(a). On dit que a est un point fixe de la correspondance de
meilleure rponse. La procdure de calcul des quilibres est donc la
suivante : tracer le graphe de la correspondance de meilleure rponse
de chaque joueur, et chercher lintersection des graphes.
Calcul des quilibres de Nash dans le jeu de Cournot. On prend
G = (A1 , A2 , g 1 , g 2 ) avec A1 = A2 = R+ et

g i (a1 , a2 ) = ai ( (a1 + a2 ))+ ai (, , > 0, > ).

On a :
n o
a2
2 2 si a2 6 ,
MR1 (a2 ) =
{0} sinon.

La correspondance de meilleure rponse du joueur 2 est identique.


On voit alors facilement que (a1 MR1 (a2 ) et a2 MR2 (a1 )) si et
seulement si, a1 = a2 =
3 .
Lien avec llimination itre des stratgies strictement domines
Il dcoule des dfinitions quune stratgie strictement domine nest
jamais meilleure rponse et donc nest jamais utilise dans un quilibre
de Nash. Il sensuit que lensemble des quilibres de Nash est inchang
lors de llimination des stratgies strictement domines. Pour trouver
les quilibres dun jeu on peut donc effectuer lEISSD au pralable.

3.2. Un thorme dexistence. La dernire reformulation sug-


gre galement une mthode de preuve dexistence dquilibre : tant
donn une correspondance de A dans A, cest--dire une application F
de A dans ses parties, on cherche un point fixe, cest--dire un point a
tel que a F (a). Lorsque F est univoque : il existe une application
f : A A telle que, pour tout a, F (a) = {f (a)}, ceci revient trou-
ver un point fixe de lapplication f . Les deux thormes de point fixes
les plus utiliss sont le thorme de Brouwer et ses gnralisations par
Kakutani (1941) et Glicksberg (1952).
JEUX SOUS FORME NORMALE 17

Thorme 3.3 (Thorme de Brouwer). Soit C un convexe compact


non-vide de Rk et f : C C continue, alors f admet un point fixe :
il existe c C tel que c = f (c).

Le thorme de Brouwer a t gnralis aux correspondances par


Kakutani (1941) dans les espaces vectoriels de dimension finie et par
Glicksberg (1952) dans les espaces vectoriels topologiques.

Thorme 3.4 (Kakutani-Glicksberg). Soit C un convexe compact


non-vide dun evtlcs et F une correspondance de C dans C telle que
(i) pour tout c C, F (c) est un convexe compact non-vide,
(ii) le graphe de F , savoir {(c, d) C C | c F (d)}, est ferm.
Alors, il existe c C tel que c F (c).

On peut aussi formuler ce thorme de la faon suivante : Soit X


un sous-ensemble ferm de C C tel que pour tout c C, la section
de X au-dessus de c (i.e. {d C | (c, d) X}) est un convexe compact
non-vide. Alors, X coupe la diagonale de C C.
Donnons une dmonstration de ce rsultat en dimension finie.
Dmonstration. On suppose que C est un convexe compact non-
vide de Rk . Pour tout entier n, il existe une famille finie de points
(xni )i de C telle que C i B(xni , 1/n), ou B(xni , 1/n) dsigne la
S

boule ouverte de centre xni et de rayon 1/n. Notons B c (xni , 1/n) le


complmentaire dans Rk de cette boule et fixons, pour chaque xni un
lment yin F (xni ). Pour tout x dans C on pose :
X d(x, B c (xn , 1/n))
f n (x) = P i
yn
c (xn , 1/n)) i
j d(x, B j
i
Pour tout x dans C, il existe i tel que x B(xni , 1/n), do
c n n est donc bien dfinie
P
j d(x, B (xj , 1/n)) > 0. Lapplication f
n
et continue sur C, et f (x) C par convexit. Daprs le tho-
rme de Brouwer, il existe xn C tel que xn = f n (xn ). Comme
d(x, B c (xni , 1/n)) > 0 si et seulement si d(x, xni ) < 1/n, on a :
X d(xn , B c (xni , 1/n))
xn = P yn
n , B c (xn , 1/n)) i
n n j d(x j
i | d(x ,xi )<1/n

Appliquons maintenant le thorme de Carathodory : toute combi-


naison convexe des (yin )i peut scrire comme combinaison dau plus
18 T. TOMALA

k + 1 points parmi cette famille. Cela fournit la conclusion suivante,


pour tout n, il existe :
xn , xn1 , . . . , xnk+1 lments de C, tels que d(xn , xni ) < 1/n ( i) ;
y1n , . . . , yk+1
n avec yin F (xni ) ;
1 , . . . , k+1 , ni > 0, i ni = 1 ;
n n
P

xn = k+1 n n
P
i=1 i yi .

Par compacit, quitte extraire une sous-suite, supposons que


xn x, xni xi , yin yi , ni i . Alors, x = xi pour tout i,
yi F (x) car le graphe de F est ferm et x = k+1
P
i=1 i yi appartient
F (x) qui est convexe.

On dduit de ce rsultat un thorme dexistence dquilibres


(Glicksberg, 1952, gnralisant Nash, 1950).

Thorme 3.5 (Thorme de Glicksberg-Nash)


Soit G = (N, (Ai )iN , (g i )iN ) un jeu tel que : pour tout i N , Ai
est un convexe compact non-vide dans un evtlcs, g i : A R est conti-
nue et pour tout ai Ai , lapplication partielle ai 7 g i (ai , ai ) est
quasi-concave.
Alors, lensemble des quilibres de Nash de G est un ferm non-
vide.

Dmonstration. On vrifie simplement que le thorme 3.4 sap-


plique. Les hypothses de compacit, de continuit et quasi-concavit
des fonctions de paiements assurent que MRi (ai ) est convexe ferm
non-vide ( i, ai ), MR(a) est donc bien convexe compact non-vide
( a). Le graphe de la correspondance MR scrit :

(a, b) A A | i N, ci Ai , g i (ai , bi ) > g i (ci , bi )




Les fonctions de paiement tant continues,

(a, b) A A | g i (ai , bi ) > g i (ci , bi )




est ferm ( i N , ci Ai ). Le graphe de la correspondance MR


est donc une intersection de ferms. Lensemble des quilibres de Nash
est donc non vide et il est clairement ferm.
JEUX SOUS FORME NORMALE 19

4. Jeux finis et stratgies mixtes


On dit quun jeu G = (N, (Ai )iN , (g i )iN ) est fini lorsque les en-
sembles de stratgies sont tous des ensembles finis. Le jeu matching
pennies (ci-dessus) nadmet pas de point selle ni de valeur. Toute-
fois, le but du joueur 1 tant de deviner laction du joueur 2, et le
but du joueur 2 tant de len empcher, la meilleure stratgie du
joueur 2 est de choisir son action alatoirement et de faon quipro-
bable pour tre le plus difficilement prdictible. On est donc naturel-
lement conduit largir le modle et autoriser les joueurs choisir
leur action au hasard et avec les probabilits de leur choix, on parle
de stratgies mixtes. Outre linterprtation directe selon laquelle les
joueurs utilisent un dispositif alatoire pour choisir leur action, une
stratgie mixte dun joueur peut se voir comme la croyance quont
ses adversaires sur son action : le joueur lui, sait parfaitement quelle
action il va jouer, les probabilits sont lexpression de lincertitude des
adversaires. On peut galement donner une interprtation statistique
en voyant les joueurs non pas comme des agents individuels mais
comme des populations dindividus. La probabilit dune stratgie
sinterprte alors comme la proportion dindividus jouant cette stra-
tgie. Cette interprtation est particulirement fructueuse en biologie
volutionnaire o une stratgie reprsente un caractre gntique, et
une stratgie mixte, la distribution statistique des gnes dans la po-
pulation.
Soit E un ensemble fini. On note (E) lensemble des distributions
de probabilits sur E, que lon identifiera avec des vecteurs de RE
coordonnes positives de somme 1.
(E) = p RE | e E, p(e) > 0, eE p(e) = 1
 P

Cet ensemble est lenveloppe convexe de la base canonique de RE ,


cest donc un convexe compact. Lensemble E sinjecte naturellement
dans (E) en identifiant e E la masse de Dirac e (E) qui
vrifie e (e0 ) = 1 si e0 = e et 0 sinon.

Dfinition 4.1. Soit G = (N, (Ai )iN , (g i )iN ) un jeu fini.


On appelle stratgie mixte du joueur i, une probabilit i
(Ai ) et stratgie pure une action ai Ai . Lensemble des strat-
gies mixtes du joueur i est (Ai ).
20 T. TOMALA

tant donn un profil de stratgies mixtes = ( i )iN


i
Q
iN (A ), on appelle paiement espr du joueur i la quantit :
X Q
g i () = i i
 i
iN (a ) g (a)
aA

Ceci dfinit une extension de lapplication g i de i


Q
iN A
i i
Q
iN (A ) que lon note encore g : on appelle cette application
extension multilinaire ou extension mixte de g i .
On appelle extension mixte du jeu G le jeu (N, ((Ai ))iN , (g i )iN ).
Un quilibre de Nash de lextension mixte de G sappellera qui-
libre de G en stratgies mixtes.

Les jeux finis jous en stratgies mixtes sont les premiers jeux pour
lesquels ont t dmontrs des rsultats dexistence, Von Neumann
(1928) pour les jeux somme nulle et Nash (1950) pour les jeux
somme non-nulle.

Thorme 4.2 (Thorme du MinMax, Von Neumann1928)


Tout jeu fini (A1 , A2 , g) admet un point selle en stratgies mixtes.
En particulier le jeu admet une valeur v et les deux joueurs ont des
stratgies optimales. De plus,
v= max min g( 1 , a2 ) = min max g(a1 , 2 )
1 (A1 ) a2 A2 2 (A2 ) a1 A1

Dmonstration. Lexistence de valeur et de stratgies optimales


pour les deux joueurs dcoule directement du thorme de Sion. Les
ensembles de stratgies mixtes sont convexes et compacts et les ex-
tensions mixtes des fonctions de paiement sont multi-linaires, donc
continues et possdent les proprits requises de quasi-concavit.
De plus, si lon fixe une stratgie mixte 1 du joueur 1, g( 1 , 2 ) est
une application linaire sur le polytope (A2 ). Elle atteint donc son
minimum en un point extrme, cest--dire en une stratgie pure.

Thorme 4.3 (Thorme de Nash, 1950). Tout jeu fini G =


(N, (Ai )iN , (g i )iN ) admet un quilibre de Nash en stratgies mixtes.

Dmonstration. De la mme faon, les ensembles de stratgies


mixtes sont convexes et compacts et les extensions mixtes des fonc-
tions de paiement sont multi-linaires, donc continues et possdent
les proprits requises de quasi-concavit.
JEUX SOUS FORME NORMALE 21

Extension : ensembles infinis de stratgies. La notion de stratgie


mixte peut stendre des espaces mesurables dactions, en posant
des conditions de mesurabilit et intgrabilit sur les fonctions de
paiements. Un cadre simple traiter est le cas des espaces mtriques
compacts. Si E est un espace mtrique compact, on le munit de la
tribu borlienne et on pose (E) lensemble des mesures probabilits
borliennes sur E. Muni de la topologie faible- (la plus petite topo-
R
logie rendant continues les applications 7 E f d avec f : E R
continue), (E) est mtrisable et compact.
On dit quun jeu G = (N, (Ai )iN , (g i )iN ) est compact si chaque
A est mtrique compact et chaque g i est continue. Lextension mixte
i

de g i est dfinie sur iN (Ai ) par :


Q
Z
g ( , . . . , ) = g i d 1 d n
i 1 n

On dfinit ainsi, comme dans le cas fini, lextension mixte du jeu G.


On obtient alors un rsultat dexistence en stratgies mixtes.

Thorme 4.4. Tout jeu compact G = (N, (Ai )iN , (g i )iN ) admet
un quilibre de Nash en stratgies mixtes.

Dmonstration. Comme dans le cas fini, les espaces de stratgies


mixtes sont des convexes compacts, les fonctions de paiements sont
continues et multi-linaires, laspect quasi-concave est donc garanti.

Revenons aux jeux finis pour donner une caractrisation des qui-
libres de Nash en stratgies mixtes.

Thorme 4.5. Soit G = (N, (Ai )iN , (g i )iN ) un jeu fini. Un pro-
fil de stratgies mixtes = ( i )iN est un quilibre de Nash en stra-
tgies mixtes de G si et seulement si :

i N, ai Ai , ( i (ai ) > 0 ai MRi ( i ))

Autrement dit, toutes les stratgies pures joues avec une probabi-
lit non-nulle sont des meilleures rponses au profil de stratgies des
autres joueurs, et en particulier elles donnent le mme paiement. Ce
rsultat peut permettre un calcul assez simple des quilibres de Nash.
22 T. TOMALA

Dans le jeu de coordination :


A B
A 1, 1 0, 0
B 0, 0 1, 1
les profils (A, A) et (B, B) sont deux quilibres de Nash en stratgies
pures. Pour dterminer les quilibres en stratgies mixtes, remarquons
dabord quil ny a pas dquilibre dans lequel un joueur joue une stra-
tgie pure et lautre joue une stratgie strictement mixte : les deux
actions sont joues avec probabilit strictement positive. En effet, ds
quun joueur joue une stratgie pure, lautre a une unique meilleure
rponse qui est pure. On cherche donc les quilibres dans lesquels les
deux joueurs jouent une stratgie strictement mixte. Chaque joueur
doit alors avoir le mme paiement espr en jouant A ou B. Les qua-
tions dgalisations des paiement donnent que chaque joueur joue la
stratgie mixte ( 12 , 12 ). Ce jeu a donc exactement trois quilibres.
Dmonstration. Soit = ( i )iN un quilibre de G en stratgies
mixtes et i un joueur. Par multi-linarit :
X
g i ( i , i ) = i (ai ) g i (ai , i )
ai Ai

Comme est un quilibre, pour toute action ai ,


g i (ai , i ) 6 g i ( i , i ) = max g i ( i , i )
i (Ai )

Do, g i (ai , i ) = g i ( i , i ) ds que i (ai ) > 0. Rciproquement,


si pour tout i N et tout ai tel que i (ai ) > 0, on a g i (ai , i ) =
max i (Ai ) g i ( i , i ), alors
X
g i ( i , i ) = i (ai )g i (ai , i ) = max g i ( i , i )
i (Ai )
ai Ai
et donc est un quilibre.

5. Jeux information parfaite


Nous dcrivons ici une classe de jeux contenant les jeux de plateaux
traditionnels (checs, dames, jeu de Go) : ce sont les jeux informa-
tion parfaite dans lesquels les joueurs jouent squentiellement (et non
pas simultanment) en ayant pleinement connaissance de ltat de la
JEUX SOUS FORME NORMALE 23

partie au moment de jouer. Ces interactions sont modlises par des


arbres de dcision.

Dfinition 5.1. On appelle arbre un ensemble de nuds ou dhis-


toires H muni de :
une racine ou histoire initiale h0 H,
une relation binaire sur H, h h0 (h est le prdcesseur de h0 )
telle que :
(i) tout h H r {h0 } a un unique prdcesseur (h) et il
existe un entier k > 1 tel que k (h) = h0 ,
(ii) h0 na pas de prdcesseur.

Un arbre est un graphe connexe tel que pour toute paire dhistoires
h, h0 , il existe un unique chemin de h h0 .
Partant dun arbre, on dfinit un jeu en spcifiant quel joueur joue
en chaque nud, ce joueur choisit alors une branche issue de ce nud.
Posons A(h) = {h0 : h h0 } lensemble des successeurs de h. On dit
que h est une histoire terminale si A(h) = et on pose HT lensemble
des histoires terminales.

Dfinition 5.2. Un jeu information parfaite est donn par


un ensemble de joueurs N , un arbre (H, h0 , ), une application
: H r HT N et pour chaque joueur i N , une application
ui : HT R.

Le droulement du jeu est le suivant. Le jeu commence en h0 . Au


nud h H r HT , le joueur (h) choisit un successeur h0 de h dans
lensemble A(h), le jeu passe au nud h0 . Au nud h HT , le jeu
est termin et chaque joueur i reoit le paiement ui (h).
Une stratgie du joueur i dans un tel jeu est le choix dune ac-
tion pour chaque nud qui lui est attribu (le joueur i crit un
programme qui prvoit quoi jouer dans chaque cas possible). Len-
semble des stratgies du joueur i est donc : S i = {h: (h)=i} A(h).
Q

Un profil de stratgies s = (si )iN induit une unique suite de nuds


(h0 , h1 , . . . , ht , . . . ) : si i = (ht ) alors, ht+1 = si (ht ). Si il existe un
rang t tel que ht HT , la suite sarrte et on pose hT (s) le nud
terminal ainsi atteint. Lorsque larbre a un nombre fini de nuds, on
atteint toujours un nud terminal.
24 T. TOMALA

Dfinition 5.3. Soit (N, (H, h0 , ), , (ui )iN ) un jeu information


parfaite fini (N et H sont des ensembles finis), le jeu sous forme
stratgique associ est le jeu G = (N, (S i )iN , (g i )iN ) o g i (s) =
ui (hT (s)).
On a alors le thorme suivant prouv par Zermelo (1912) pour le
jeu dchecs et bas sur lalgorithme de Kuhn.
Thorme 5.4. Tout jeu information parfaite fini admet un qui-
libre de Nash en stratgies pures. En particulier, si le jeu est somme
nulle, le jeu a une valeur et les deux joueurs ont des stratgies opti-
males.
Dmonstration. On procde par rcurrence sur le nombre de
nuds de larbre. Si larbre a un seul nud, lassertion est vidente.
Supposons quelle soit vraie pour tout jeu information parfaite dont
larbre a strictement moins que K nuds, et soit un jeu information
parfaite dont larbre a K nuds. Pour chaque successeur h de la
racine h0 on considre le sous-arbre issu de h. Ceci dfinit un sous-jeu
information parfaite qui a strictement moins que K nuds et donc,
par hypothse de rcurrence possde un quilibre en stratgies pures.
Fixons pour chaque h A(h0 ), un quilibre sh du sous-jeu issu de h.
Soit alors i = (h0 ). On a un quilibre de Nash du jeu en dfinissant s
tel que : au nud h0 , i choisit h pour lequel g i (sh ) est maximal, et
en tout autre nud, on suit les stratgies sh si h a t choisit par i
en h0 .
Cette dmonstration dcrit galement un algorithme de rsolution :
on rsout le jeu aux nuds prcdant les nuds terminaux, et on
remonte vers la racine (procdure de backward induction ou rcurrence
amont).
Ce thorme montre en particulier que le jeu dchecs est parfai-
tement rsoluble : soit les Blancs ont une stratgie gagnante, soit les
Noirs ont une stratgie gagnante, soit les deux peuvent forcer la partie
nulle. Seule la capacit de calcul empche de dcider dans quel cas on
se trouve.
Exemple : Le jeu du Mille-Pattes de Rosenthal
Dans ce jeu, les deux joueurs choisissent alternativement soit dar-
rter le jeu, auquel cas les paiements sont distribus, soit de passer
JEUX SOUS FORME NORMALE 25

la main lautre joueur. Les paiements sont de plus en plus levs


mesure que le temps passe.

h0 1s 2s s1 s2 (1000, 999)

(2, 2) (1, 10) (100, 9) (99, 1000)

La rsolution de ce jeu par lalgorithme de Kuhn donne le paiement


dquilibre (2, 2).
Exemple : Le Jeu de Gale. Soit un chiquier de taille n m, n
et m tant deux entiers finis suprieurs 1. Deux joueurs (1 et 2)
choisissent alternativement une case sur lchiquier. Lorsquune case
(i, j) est choisie, toutes les cases (i0 , j 0 ) situes au Nord-Est, cest--
dire telles que i0 > i et j 0 > j, sont limines de lchiquier.
Le joueur 1 commence le jeu et est dclar perdant le joueur
contraint de choisir la case (1, 1).
Alors :
(1) Le joueur 1 a une stratgie gagnante.
(2) On construit facilement une stratgie gagnante pour le joueur 1
dans le cas n n, et dans le cas m 2.
(3) On nen connat toujours pas dans le cas (n, m) gnral.
Dmonstration de (1). On sait que lun des deux joueurs a une
stratgie gagnante. Supposons que ce soit le joueur 2 et remarquons
que, quel que soit le premier coup du joueur 1, la case (n, m) est
efface. Soit alors (i0 , j0 ) le coup gagnant du joueur 2 qui suit le coup
(n, m) du joueur 1. Ce coup gagnant du joueur 2 aurait pu tre jou
ds le dpart par le joueur 1 do la contradiction.

T. Tomala, Ceremade, Universit Paris Dauphine, Place du


Marchal de Lattre de Tassigny, 75775 Paris cedex 16
E-mail : tomala@ceremade.dauphine.fr
Url : http://www.ceremade.dauphine.fr/~tomala/
JEUX RPTS

par

Tristan Tomala

Table des matires


1. Modle gnral. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2. quilibres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3. Jeux rpts information complte et observation
parfaite. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Bibliographie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

1. Modle gnral
Dans un jeu rpt, les joueurs interagissent chaque date t N .
Chaque tape gnre un paiement et le paiement global dun joueur
est fonction de la suite de ses paiements dtapes. Nous allons tout
dabord dcrire prcisment ce modle, prciser les notions de strat-
gies ainsi que les notions de solutions (valeur, quilibres). On rappelle
que pour une famille densembles (E i )iN , on note E = iN E i .
Q

1.1. Description du jeu. Un jeu rpt est dcrit par les


donnes suivantes :
Un ensemble de joueurs N ;
Un ensemble dtats K ;
Pour chaque joueur i N , un ensemble dactions Ai et un en-
semble de signaux U i ;
Une probabilit initiale p sur K U ;
28 T. TOMALA

Une probabilit de transition Q : K A K U ;


Pour chaque joueur i N , et chaque tat k K, une fonction
de paiement g i,k : A R.
Tous les ensembles ci-dessus sont finis et non vides.
Le droulement du jeu est le suivant :
Avant le dbut du jeu, la nature tire un tat initial et des signaux
(k1 , (ui0 )iN ) K U selon la probabilit p. Chaque joueur i observe
le signal ui0 .
A chaque date t > 1, chaque joueur i N choisit une action
ait Ai . Si ltat est kt K, la nature tire un tat et des signaux
(kt+1 , (uit )iN ) K U selon Q(|kt , at ). Le joueur i observe alors uit
et on passe dans ltat kt+1 .
La suite des paiements du joueur i est alors : (g i,kt (at ))t>1 .

Dfinition 1.1
On appelle jeu rpt T fois, et on note T , le jeu rpt dont
le droulement est dcrit ci-dessus et qui sarrte la date T . Le
paiement final du joueur i est : T1 Tt=1 g i,kt (at ).
P

On appelle jeu escompt au taux ]0, 1], et on note , le jeu


rpt une infinit de fois dont le droulement est dcrit ci-dessus. Le
paiement final du joueur i est : t>1 (1 )t1 g i,kt (at ).
P

On appelle jeu infiniment rpt, et on note , le jeu rpt


une infinit de fois dans lequel le paiement final du joueur i est :
limT T1 Tt=1 g i,kt (at ) si cette limite existe.
P

Ce modle rend compte de plusieurs aspects. Le jeu jou en date t


est paramtr par ltat k et ltat volue en fonctions des actions
choisies (selon la probabilit de transition). Les joueurs feront donc
face un dilemme : jouer pour maximiser le paiement courant, ou pour
induire des tats favorables. Les signaux permettent de modliser les
imperfections et les asymtries dinformation quont les joueurs sur
ltat et les actions passes de leurs adversaires. On distingue trois
grandes classes de jeux rpts :
(1) Les jeux rpts information complte appels aussi super-
jeux dans lesquels lensemble des tats K est un singleton. Dans ce
cas, le jeu rpt est la rptition du jeu G = (N, (Ai )iN , (g i )iN ).
On dit que le jeu rpt est observation parfaite si le signal de chaque
JEUX RPTS 29

joueur rvle le profil dactions : si a est le profil daction jou, a est


annonc chaque chaque joueur. Cest ce cas que nous tudierons
dans la suite de ce texte.
(2) Les jeux rpts information incomplte. Dans ce modle les
transitions sont telles que ltat reste constant gal ltat initial.
Cela revient dire quon a une famille paramtre de jeux (Gk )kK ,
le paramtre du jeu k est tir selon une probabilit initiale et le jeu Gk
est rpt. Les joueurs ont des information partielles et asymtriques
sur sa valeur, donnes par les signaux initiaux u0 . Ce cas sera tudi
dans le texte de Jrme Renault (ce volume). On supposera toujours,
comme dans le cas prcdent, que les actions sont parfaitement ob-
serves.
(3) Les jeux stochastiques. On suppose dans ce cas que les signaux
rvlent parfaitement les actions et les tats. Le jeu est alors donn
par une famille paramtre de jeux (Gk )kK , un tat initial k1 K et
une probabilit de transition qui dtermine ltat suivant en fonction
de ltat courant et des actions joues.

1.2. Stratgies. On appelle histoire du jeu en date t, la


suite des tats, profils dactions et profils de signaux surve-
nus avant la date t, cest--dire une suite de la forme ht =
(u0 , k1 , a1 , u1 , k2 . . . , at1 , ut1 , kt ). Lensemble des histoires du
jeu en date t est Ht = U K (A U K)t1 (par convention, nous
supposerons quun ensemble la puissance 0 est un singleton). On

appelle partie du jeu une suite dans H = U K (A U K)N .
On appelle histoire du joueur i en date t une suite finie de la
forme hit = (ui0 , ai1 , ui1 , . . . , ait1 , uit1 ). Lensemble de telles histoires
est Hti = U i (Ai U i )t1 .
Dans la suite nous allons travailler avec des ensembles produits.
Donnons quelques dfinitions gnrales. Soit (En , dn )n une famille
dnombrable despaces mtriques compacts. La topologie produit sur
Q
E = n En est celle engendre par les projections E En , e =
(em )m 7 en (topologie de la convergence simple). Pour cette topolo-
gie, E est compact (thorme de Tychonoff) et mtrisable (e.g. avec
la distance n 2n max {dn , 1}). La tribu produit sur E est la tribu
P

engendre (galement) par les projections. Elle concide avec la tribu


borlienne associe la topologie produit. Dans la suite, les produits
30 T. TOMALA

de mtriques compacts seront munis de cette topologie et de cette


tribu.
Dfinissons les notions suivantes de stratgies.

Dfinition 1.2
Une stratgie pure du joueur i est une famille dapplications si =
(sit )t>1 , avec sit : Hti Ai . On note S i lensemble de ces stratgies.
Une stratgie mixte du joueur i est une distribution de probabilit
borlienne sur S i .
Une stratgie de comportement du joueur i est une famille dap-
plications i = (ti )t>1 , avec ti : Hti (Ai ). On note i lensemble
de ces stratgies.
Une stratgie gnrale du joueur i est une distribution de proba-
bilit borlienne sur i .

Les ensembles de stratgies pures et de stratgies de comportement


sont des produits dnombrables de mtriques compacts. Les ensembles
de stratgies mixtes et de stratgies gnrales sont donc galement
des mtriques compacts (on prendra toujours la topologie faible-*
sur lensemble des probabilits borliennes sur un mtrique compact).
Grce linjection naturelle de E dans (E), on peut considrer que
S i est un sous-ensemble de (S i ) et de i , et que (S i ) et i sont des
sous-ensembles de (i ). Les stratgies gnrales contiennent donc
toutes les autres notions.

Lemme 1.3. Un profil de stratgies gnrales = (i )iN


i
Q
iN ( ) induit une unique mesure de probabilit P sur H
(muni de la tribu produit).

Dmonstration. Commenons par montrer que tout profil de


stratgies de comportement = ( i )iN i
Q
iN induit une
unique mesure de probabilit P sur H . Pour chaque histoire
ht = (u0 , k1 , a1 , u1 , k2 . . . , at1 , ut1 , kt ), on pose :
Q i i i 
P (ht ) = p(u0 , k1 ) i (h1 )[a1 ] Q(u1 , k2 |k1 , a1 )
Q i i i

i (ht1 )[at1 ] Q(ut1 , kt |kt1 , at1 ).

Ceci dfinit la probabilit P sur les cylindres C(ht ) (lensemble des


parties du jeu qui commencent par ht ), et celle-ci stend de manire
JEUX RPTS 31

unique sur H , la tribu produit tant engendre par les cylindres (par
un thorme dextension de Kolmogorov).
Soit maintenant un profil de stratgies gnrales = (i )iN
i ). On pose, pour tout ensemble mesurable B de H ,
Q
iN (
P (B) = P (B)i di ( i ).
R

Le rsultat suivant, d Kuhn (1953) pour le cas fini et gnralis


par Aumann (1964), dit que pour analyser les jeux rpts, il suffit
de considrer les stratgies de comportement.

Thorme 1.4
(1) Toute stratgie de comportement du joueur i est quivalente
une stratgie mixte du joueur i dans le sens suivant : pour toute
stratgie de comportement i , il existe une stratgie mixte i , telle que
pour toute stratgie gnrale i des autres joueurs, on ait Pi ,i =
Pi ,i .
(2) Toute stratgie mixte du joueur i est quivalente une stratgie
de comportement du joueur i.
(3) Les stratgies mixtes, de comportement, et gnrales, du
joueur i sont quivalentes.

Lors de constructions explicites de stratgies, il est souvent plus


facile de dfinir une stratgie de comportement quune stratgie mixte.
Dans le premier cas, on doit spcifier les lois de probabilits utilises
par le joueur pour choisir ses actions au moment de jouer, alors que
dans le second cas, il faut dfinir une mesure de probabilit sur S i ,
produit dnombrable densembles finis. On verra galement que dans
certains cas, on est amen choisir une stratgie de comportement au
hasard, cest--dire construire une stratgie gnrale. Le thorme
de Kuhn, nous donne donc la souplesse de passer dune reprsentation
lautre suivant les besoins.
Dmonstration
(1) Soit i une stratgie de comportement du joueur i. Pour toute
stratgie pure si , posons si (t) lensemble des stratgies pures du
joueur i qui concident avec si jusqua la date t. Pour dfinir i , il
suffit de dfinir i (si (t)), ( si , t), la tribu produit sur S i tant
engendre par les cylindres si (t). On le dfinit alors comme la pro-
babilit que le joueur i, tirant ses actions avec i , joue ce quaurait
32 T. TOMALA

jou si jusqua la date t :


Y Y
i (si (t)) = ri (hir )[sir (hir )]
hit Hti r<t

On a alors clairement, Pi ,i = Pi ,i .
(2) Rciproquement, soit i une stratgie mixte du joueur i.
Pour toute histoire hit du joueur i, posons S i (hit ) lensemble
des stratgies pures du joueur i compatibles avec hit : si hit =
(ui0 , ai1 , ui1 , . . . , ait1 , uit1 ), S i (hit ) est lensemble des stratgies pures
telles que pour tout r < t 1, sir (ui0 , ai1 , ui1 , . . . , air1 , uir1 ) = air . On
dfinit la probabilit de jouer ai aprs hit , comme la probabilit de
lensemble des stratgies pures qui jouent ai aprs hit , conditionnelle-
ment au fait que la stratgie soit compatible avec hit . Prcisment, on
pose ti (hit )[ai ] = i ( si | sit (hit ) = ai )/i (S i (hit )), si i (S i (hit )) > 0,


et on dfinit cette quantit arbitrairement si i (S i (hit )) = 0. Encore


une fois, Pi ,i = Pi ,i .
(3) Une stratgie gnrale i peut donc se voir comme une distri-
bution de probabilit sur les stratgies mixtes quon peut rduire
une stratgie mixte i en prenant lesprance : si E S i est un en-
semble mesurable, on pose i (E) = (E)di (). En termes gom-
R

triques, on peut voir une probabilit sur (S i ) comme une combinai-


son convexe de stratgies mixtes et lidentifier son barycentre.

2. quilibres
La problmatique principale de la thorie des jeux rpts est dtu-
dier lexistence, voire la caractrisation, des solutions dans les jeux
dhorizon long. Deux approches sont possibles : considrer les solu-
tions de jeux horizon fix et tudier leur limite quand lhorizon tend
vers linfini, ou formuler un concept de solution directement sur le jeu
dhorizon infini.

2.1. quilibres : lapproche compacte


Dfinition 2.1
La forme stratgique du jeu rpt T fois T est donne par :
(N, (S i )iN , Ti )
PT
avec Ti (s) = EPs [ T1 t=1 g
i,kt (a )].
t
JEUX RPTS 33

La forme stratgique du jeu est donne par :


(N, (S i )iN , i )
avec i (s) = EPs [ t>1 (1 )t1 g i,kt (at )].
P

Remarque 2.2. Grce au thorme de Kuhn, nous pouvons dfinir


les extension mixtes de ces jeux en utilisant les stratgies de compor-
tement.
Lextension mixte de T peut sidentifier au jeu sous forme stra-
tgique :
(N, (i )iN , Ti )
avec Ti () = EP [ T1 Tt=1 g i,kt (at )].
P

Lextension mixte de peut sidentifier au jeu sous forme stra-


tgique :
(N, (i )iN , i )
avec i () = EP [ t>1 (1 )t1 g i,kt (at )].
P

On peut alors appliquer les thormes dexistence.

Thorme 2.3. Pour tout entier T et tout ]0, 1], les jeux T et
admettent des quilibres de Nash en stratgies de comportement.
En particulier, dans le cas de jeu somme nulle, T et ont chacun
une valeur et les deux joueurs ont des stratgies optimales.

Dmonstration. Les ensembles des stratgies pures sont compacts


pour la topologie produit. De plus, les fonctions de paiements Ti et
i sont continues pour la topologie produit : on vrifie aisment que
si une suite de stratgies (sq )q converge simplement vers s alors les
paiements associs convergent : cest vident pour Ti , et pour i ,
comme les paiements dtapes sont uniformment borns, on peut
majorer la queue de la srie par uniformment par rapport aux
stratgies. Daprs le thorme 4.4 du premier texte de ce volume,
il existe un quilibre en stratgies mixtes, et grce au thorme de
Kuhn, cest un quilibre en stratgies de comportement.

Notation
(1) On notera ET lensemble des paiements dquilibres du jeu T :
lensemble des x RN pour lesquels il existe un quilibre de Nash
34 T. TOMALA

de T tel que Ti () = xi , i. Dans le cas des jeux somme nulle, on


notera vT la valeur de T .
(2) On notera E lensemble des paiements dquilibres du jeu
et dans le cas des jeux somme nulle, on notera v la valeur de .

Lapproche compacte consiste en ltude de la limite de ET (ou vT )


quand T tends vers linfini et de E (ou v ) quand tend vers 0.

2.2. quilibres : lapproche uniforme. On veut ici se placer


directement dans le cas limite dhorizon infini : considrons le jeu
dans lequel le paiement final du joueur i induit par des stratgies de
comportement = ( i )iN est limT Ti () si cette limite existe.
Pour pallier labsence ventuelle de limite, on peut considrer la
limite suprieure ou la limite infrieure (de ces suites bornes). On
peut galement avoir un critre de paiement linaire en utilisant une
limite de Banach, cest--dire une forme linaire L sur ` telle que
pour toute suite relle borne x = (xn )n , limn xn 6 L(x) 6 limn xn .
Une telle forme linaire existe par application du thorme de Hahn-
Banach lapplication sous-linaire lim. Les limites de Banach sont
les lments du dual topologique de ` qui sannulent sur lespace des
suites qui tendent vers 0, et valent 1 pour la suite constante gale 1.
Toutefois, les applications 7 limT Ti (), 7 limT Ti (), 7
L((Ti ())T ) ne sont pas continues pour la topologie produit : changer
le paiement en un nombre fini dtapes ne change pas la limite de
Csaro.
On adopte donc lapproche uniforme qui dfinit les solutions de
comme des solutions approches de jeux finiment rpts arbitraire-
ment longs. Nous donnons dabord les dfinitions dans le cas de la
somme nulle.

Dfinition 2.4. Soit un jeu infiniment rpt somme nulle,


notons g = g 1 = g 2 .
Le joueur 1 garantit uniformment le paiement d R si :
> 0, 1 1 , T0 , 2 2 , T > T0 , T ( 1 , 2 ) > d .
Le joueur 2 dfend uniformment le paiement d R si :
> 0, 1 1 , 2 2 , T0 , T > T0 , T ( 1 , 2 ) 6 d + .
JEUX RPTS 35

Le maxmin uniforme v de , sil existe, est tel que le joueur 1


garantit uniformment v et le joueur 2 dfend uniformment v. On
dfinit le minmax uniforme v en changeant les rles des joueurs.
Le jeu a une valeur v si v = v = v.
Lorsque le jeu a une valeur, une stratgie 1 du joueur 1 sera
dite optimale si elle vrifie :
> 0, T0 , 2 2 , T > T0 , T ( 1 , 2 ) > v .
On dfinit similairement les stratgies optimales du joueur 2.

Pour les jeux somme non nulle nous donnons une dfinition ana-
logue :

Dfinition 2.5. Soit un jeu infiniment rpt. Un profil de stra-


tgies de comportement = ( i )iN est un quilibre uniforme de
i ()
si, pour tout i N , la suite (Ti ())T converge vers une limite
quand T tend vers +, et de plus,
> 0, T0 , T > T0 , i N, i i , Ti ( i , i ) 6 Ti () + .

Un quilibre uniforme est donc un -quilibre dans tout jeu finiment


rpt suffisamment long. Nous noterons E lensemble des paiements
dquilibres uniformes de .

2.3. Principales questions. Les questions auxquelles nous al-


lons nous intresser par la suite sont, pour la somme nulle et lap-
proche compacte : limT vT , lim v existent-elles, sont-elles gales,
peut-on calculer ces limites ? Pour lapproche uniforme, le minmax
et le maxmin uniformes existent-ils, existe-t-il une valeur, peut-on la
calculer, quels sont les liens avec limT vT et lim v ? Les mmes ques-
tions se posent en somme non nulle pour les paiements dquilibres.
La partie suivante traite du cas le plus simple de jeu rpt : les
jeux rpts information complte et observation parfaite.

3. Jeux rpts information complte


et observation parfaite
Soit G = (N, (Ai )iN , (g i )iN ) un jeu fini. Considrons le jeu rpt
dans lequel le jeu G est jou chaque tape t N et si at A est
le profil dactions jou en date t, at est observ par tous les joueurs.
36 T. TOMALA

Cest un cas trs simple de jeu rpt dans lequel lensemble dtats
est rduit un singleton et les signaux des joueurs sont parfaits, cest-
-dire quils rvlent parfaitement les actions joues.
Commenons par un lemme immdiat.

Lemme 3.1. Soit = (i )iN iN (Ai ) un quilibre de Nash


Q

du jeu G. Le profil de stratgies de comportement tel que pour tout i,


pour tout hit , i (hit ) = i est un quilibre de Nash de T , de (pour
tout T et tout ) et un quilibre uniforme de .

Il sensuit :

Corollaire 3.2. Si le jeu G est somme nulle de valeur v alors,


pour tout T et tout , vT = v = v. De plus, la valeur de existe
et vaut v.

Dans le cas des jeux rpts information complte, la rptition


dun jeu somme nulle ne change pas la valeur. Examinons mainte-
nant le cas de la somme quelconque.

Notations. Posons g : A R lapplication vecteur de paie-


ment , g(a) = (g i (a))iN . On appelle ensemble ralisable lenveloppe
convexe co g(A) des vecteurs g(a), a A.
Pour chaque joueur i, posons

vi = min max g i
(ai , i )
i j i i
Q
j6=i (A ) a A

et IR = x Rn | i N, xi > v i . La quantit v i sappelle niveau




de rationalit individuelle ou niveau minmax du joueur i : v i est le


plus petit paiement que le joueur i peut obtenir dans le jeu G en
jouant une meilleure rponse contre un profil de stratgies mixtes de
ses adversaires. Cest aussi le plus petit paiement que les joueurs i
peuvent garantir sils jouent dans le but de minimiser le paiement du
joueur i.
Posons enfin E = co g(A) IR. Remarquons que si le jeu G est
somme nulle de valeur v, E se rduit au singleton {(v, v)}.

Lemme 3.3. Les ensembles de paiements dquilibres ET , E et E


sont inclus dans E (pour tous T , ).
JEUX RPTS 37

Dmonstration. Pour tout profil de stratgies , le vecteur de paie-


ment appartient chaque tape au convexe compact co g(A). En pre-
nant la moyenne (arithmtique ou escompte) puis lesprance, le vec-
teur de paiement du jeu rpt est galement dans co g(A).
Pour linclusion dans IR, soit un quilibre de T (resp. de ,
resp. un quilibre uniforme) et soit i un joueur. Dfinissons une strat-
gie i du joueur i qui chaque tape t et aprs chaque histoire ht joue
une action qui maximise sur Ai la quantit g i (ai , ( j (ht ))j6=i ). Daprs
la dfinition de v i , g i ( i (ht ), ( j (ht ))j6=i ) > v i , pour tout t et pour
toute histoire hT . Il sensuit Ti ( i , i ) > v i et i ( i , i ) > v i , pour
tous T et . Comme est un quilibre de T , Ti () > Ti ( i , i ) >
v i . La conclusion est identique pour et pour les quilibres uniformes
on conclut en remarquant que limT Ti () > limT Ti ( i , i ) > v i .

3.1. Le jeu . Le rsultat principal dit que linclusion inverse


est vraie : les paiements dquilibres sont les paiements ralisables
et individuellement rationnels. Ce rsultat sappelle communment
le Folk Thorme car tait informellement connu de bon nombre de
chercheurs ds les annes 60 mais est rest plusieurs annes non publi.
Les premires version publies sont dues Aumann et Shapley (1976)
(r-dit en 1994) et Rubinstein (1977).
Ce rsultat se formule pour le jeu .

Thorme 3.4. E = E.

Dmonstration. Considrons un paiement x dans E. Comme x est


ralisable, il existe une partie h = (a1 , . . . , at , . . . ) telle que pour tout
joueur i, T1 Tt=1 g i (at ) xi . Nous appellerons h le plan principal
P
T
de la stratgie, et jouer selon h pour un joueur i en date t signifie jouer
la i-me composante de at . Pour chaque couple de joueurs distincts
(i, j), fixons i,j dans (Aj ) de faon ce que (i,j )j6=i ralise le min
dans lexpression de v i . Fixons maintenant un joueur i dans N , et
dfinissons une stratgie i . i commence en date 1 par jouer selon le
plan principal, et continue de jouer selon h tant que tous les autres
joueurs le font. Si une certaine date t > 1, pour la premire fois un
joueur j ne joue pas selon le plan principal, alors i joue toutes les
dates ultrieures la probabilit j,i (si pour la premire fois la mme
38 T. TOMALA

date plusieurs joueurs sortent du plan principal, on punit celui de ces


joueurs qui est le plus petit).
Si tous les joueurs adoptent ces stratgies, la suite (at )tN sera
joue et le paiement moyen limite ralis est bien x. Supposons que
le joueur i emploie une stratgie i qui sort du plan principal pour la
premire fois en date t, alors que les autres jouent i . Le joueur i
recevra au plus v i toutes les dates suivantes. Son paiement moyen
en date T sera donc major par :
T 1
1 X i
T ( g (at ) + M ) si t > T ;



t=1
t1
t1X i 1 T t i
g (as ) + M + v si t < T,



T T T
s=1

o M = maxi,a g i (a) . Soit > 0, choisissons T0 assez grand tel que
pour tout T > T0 :
t 1 t1
1 1 X i 
M6 et > = g (as ) 6 xi + .
T 2 T 2M t1 2
s=1

Comme vi 6 xi ,
le paiement du joueur i est major par xi + et ce
pour toute dviation.

Le Dilemme du Prisonnier Rpt. Reprenons le jeu du Dilemme


du Prisonnier :
C D
C 3, 3 0, 4
D 4, 0 1, 1
Dans ce cas, lensemble E est le suivant :
6
4 `P
B P @PPP`
B @@ @ B
B E@
@@@ B
1 BB`@
PP@@B
@
PPB ` -
PB
0 1 4
Bien que laction C soit strictement domine pour chaque joueur,
on construit un quilibre uniforme de paiement (3, 3) : jouer C si
lautre a toujours fait de mme dans le pass, sinon jouer D.
JEUX RPTS 39

3.2. Le jeu T . Nous allons maintenant voir si lapproche uni-


forme et lapproche compacte donnent les mmes rsultats : la li-
mite de ET est-elle gale E ? La convergence densemble est au
sens de la distance de Hausdorff. tant donns deux compacts A,
B de Rn , on pose d(A, B) = max {maxaA d(a, B), maxbB d(b, A)}.
Comme ET E, ET E revient :
> 0, T0 , T > T0 , x E, y ET : kx yk 6
On a la proprit :

Proposition 3.5. Pour tous entiers T et T 0 , on a


T ET + T 0 ET 0 (T + T 0 )ET +T 0 .

Ici, A + B dsigne lensemble des a + b, avec a A, b B. Ce


rsultat sobtient simplement en remarquant que jouer un quilibre
de ET puis un quilibre de ET 0 est un quilibre de ET +T 0 . (ET )T se
comporte comme une suite croissante densembles : si elle converge
cest forcment vers T ET .
Considrons le dilemme du prisonnier encore une fois. Il est clair
que pour tout quilibre de Nash du jeu T , les joueurs doivent jouer D
la dernire tape, quelle que soit lhistoire passe : on ne peut en
effet pas les menacer de reprsailles. Le jeu est donc quivalent un
jeu de longueur T 1, les actions dtapes T tant fixes. Mais alors
les joueurs ne peuvent pas non plus se menacer mutuellement en tape
T 1, puisquil joueront D ensuite quoiquil arrive. Ils joueront donc D
galement en T 1. Par rcurrence on obtient : ET = {(3, 3)} pour
tout T . Plus gnralement, posons v = (v i )iN le vecteur des niveaux
de rationalit individuelle ou point de menace, on a le rsultat du
Sorin (1986) :

Proposition 3.6. Si E1 = {v} alors ET = {v} pour tout T .

La convergence de ET vers E ncessite donc une condition sur


les paiements du jeu. Dans un quilibre dun jeu finiment rpt, un
quilibre de Nash du jeu statique doit tre jou la dernire tape.
Pour que les menaces soient dissuasives, il faut que les paiements de
punitions, i.e. les niveaux de rationalit individuels, soient strictement
infrieurs un paiement dquilibre de Nash de G : cest prcisment
40 T. TOMALA

la condition qui manque pour le Dilemme du Prisonnier. On a alors


le thorme (Benoit et Krishna, 1987) :

Thorme 3.7. Supposons que pour tout joueur i, il existe e(i) E1


tel que ei (i) > v i . Alors ET T + E.

Dmonstration. Soit > 0 et x E. Prenons une histoire h =


(a1 , . . . , aL ) telle que y = L1 L
P
t=1 g(at ) est distance infrieure
de x. Soit la suite dactions consistant jouer K fois de suite lhis-
toire h, pour un certain entier K.
La stratgie consiste jouer cette suite puis jouer R fois les qui-
libres de G correspondant aux paiements (e(1), . . . , e(N )), si aucune
dviation napparat au cours des LK premires tapes (on note N
le nombre de joueurs). Si un joueur i dvie une de ces tapes, il
est puni au niveau v i jusqua la fin du jeu. Ceci dfinit un profil de
stratgies pour le jeu rpt T = LK +RN fois. Vrifions que cest un
quilibre dont le paiement est proche de x pour K et R bien choisis.
Supposons que le joueur i dvie. Une dviation dans les RN der-
nires tapes nest pas profitable. Sil dvie pendant les LK premires
tapes, son paiement total augmente dau plus 2M (on a encore pos
M = maxi,a g i (a) ), alors que le fait dtre puni la fin lui fait
perdre R(ei (i) v i ). Comme ei (i) v i > 0, pour R assez grand,
R(ei (i) v i ) > 2M pour tout i.
Le paiement moyen si tous les joueurs utilisent ces stratgies est
LK R X
y+ g(e(i)),
LK + RN LK + RN
i

dont la distance y est infrieure


2M N R

L K
et peut tre rendue infrieure en choisissant K grand devant R.
Enfin, si le nombre de rptitions T nest pas de la forme LK +RN ,
il existe K tel que LK + RN < T < L(K + 1) + RN . On prend alors
la stratgie dfinie ci-dessus pour K et on la complte en jouant un
quilibre de G (par exemple celui de paiement e(1)) aux dernires
tapes du jeu.
JEUX RPTS 41

3.3. Le jeu . A la diffrence du jeu finiment rpt, le jeu


escompt na pas de fin, il est donc possible, nimporte quelle tape
de menacer les joueurs de reprsailles. Toutefois, considrons le jeu
trois joueurs suivant (Forges, Mertens et Neyman, 1986), dans lequel
le joueur 3 na quune action.

P F
P 1, 1, 0 1, 1, 0
F 1, 1, 0 1, 1, 1

Il sagit dun jeu somme nulle entre les joueurs 1 et 2 (cest Mat-
ching Pennies) dont la valeur est 0 et chaque joueur (1 ou 2) a une
unique stratgie optimale : le jeu un unique quilibre de Nash
dans lequel chaque joueur joue laction mixte ( 12 , 12 ). Dans le jeu
(ou dans T ), lunique quilibre consiste jouer ( 12 , 12 ) chaque
tape, indpendamment du pass. Le seul paiement dquilibre de
(resp. de T ) est donc (0, 0, 14 ) alors que (0, 0, 12 ) est dans E. Comme
dans le jeu finiment rpt, il faut introduire une condition pour ga-
rantir E 0 E.

Thorme 3.8 (Sorin, 1986). Si le jeu est deux joueurs ou quil


existe x E tel que xi > v i pour tout i, alors E 0 E.

Dmonstration
(1) Supposons que lensemble des x de E tels que xi > v i pour
tout i est non vide et prenons > 0. Il existe un entier n tel que
pour tout y E, on peut trouver dans la boule de centre y et de
rayon un xn vrifiant xni > v i + 2 pour tout i et tel que xn est
une combinaison convexe des g(a) avec des coefficients rationnels de
la forme na /n.
Construisons alors une suite n-priodique de profils dactions telle
que chaque profil a A apparat na fois dans une priode et no-
tons (at )t cette suite. Ainsi, xn = n1 nt=1 g(at ). Soit le profil de
P

stratgies de comportement qui consiste jouer at en date t si cette


consigne a t respecte par tous les joueurs dans le pass, et punir
pour toujours le joueur i (au niveau v i ) si celui-ci dvie. Montrons
maintenant que pour suffisamment proche de 0, est un quilibre
qui induit un paiement proche de y.
42 T. TOMALA

Comme la suite dactions est priodique, pour 0 < < 1,


n
X (1 )t1
() = g(at )
1 (1 )n
t=1
Pour tout t,
(1 )t1 1
lim n
= ,
0 1 (1 ) n
n
donc lim0 () = x , de plus la convergence est uniforme par
rapport au point xn considr. Il existe donc 0 tel que pour tout
< 0 , on ait k () yk 6 2, 0 tant uniforme par rapport au
choix de y dans E.
Supposons maintenant que le joueur i dvie. Grce la priodicit,
supposons sans perte de gnralit quil joue pour la premire fois une
action ai diffrente de ai en date T ,
T au cours de la premire priode
i
1 6 T 6 n. Posons encore une fois M = maxi,a g (a) et majorons

le paiement du joueur i aux T premires tapes par M . Le paiement
global est alors major par :
 
(1 (1 )T )M + (1 )T v i < (1 (1 )T )M + (1 )T xin
2
Pour avoir un quilibre on veut donc
 
(1 (1 )T )M + (1 )T xin 6 xin
2
or pour cela il suffit davoir (1 (1 )T )2M 6 (1 )T /2 ce
qui est vrai pour suffisamment petit, uniformment par rapport au
point xn . On a donc bien la convergence de E vers E.
(2) Supposons que le jeu soit deux joueurs. Si le cas prcdent ne
sapplique pas alors soit, E = {v} mais alors v est le paiement dun
quilibre du jeu G et il suffit de rpter cet quilibre : E = E. Soit,
pour tout x dans E, x1 = v 1 et il existe x dans E tel que x2 > v 2
(ou la condition symtrique en changeant les deux joueurs). Ceci
implique que v 1 est le paiement maximal du joueur 1. On construit
donc un quilibre comme dans le cas prcdent mais sans tenir compte
des dviations de ce joueur (qui ny a jamais intrt).

3.4. quilibres sous-jeux parfaits. Certains quilibres


construits dans les paragraphes prcdents sont critiquables en
tant que solutions rationnelles car reposant sur des menaces non
crdibles : tant donn quun joueur a dvi, rien nassure que ses
JEUX RPTS 43

adversaires auront intrt le punir. On introduit alors la notion


dquilibre sous-jeu parfait. Un profil de stratgies est un quilibre
sous-jeu parfait si pour toute histoire h, induit un quilibre dans
le jeu rpt qui reste jouer aprs h. On note E 0 lensemble
des paiements dquilibres sous-jeu parfaits de (de mme ET0
et E0 ). Cette notion avait dj t considre par Aumann-Shapley
et Rubinstein et on a :
0 =E
Thorme 3.9. E = E.

La dmonstration est simple, il suffit dadapter la construction du


Folk thorme : si un joueur dvie en date t, il est puni jusqu la
date t2 , aprs quoi les joueurs oublient la dviation et se remettent
jouer la suite prvue. La longueur de la punition est suffisante pour
faire perdre tout intrt dvier, les t2 t tapes de punitions tant
prpondrantes devant les t premires tapes. De plus un joueur nh-
sitera pas appliquer la punition puisquun nombre fini de dates ne
compte pas sur son paiement limite.
Pour les jeux finiment rpts et les jeux escompts, il faut ajouter
encore des conditions.

Thorme 3.10 (Benoit et Krishna, 1985, Gossner, 1995)


Supposons que pour tout i, il existe e(i), f (i) E1 tels que ei (i) >
f (i). Alors ET0 T + E.
i

Thorme 3.11 (Fudenberg et Maskin, 1986). Si E est dintrieur


non vide alors, E0 0 E.

Lintuition est la mme pour ces deux rsultats. On construit une


suite dactions qui donne le bon paiement et que les joueurs doivent
suivre. En cas de dviation, on punit pendant un nombre fini dtapes
et la phase de punition est suivie dune phase de rcompense : si le
joueur j a correctement puni le joueur i, il reoit la rcompense, sinon
il est puni son tour. Dans le cas des jeux finiment rpts, comme
on doit finir le jeu par des quilibres statiques, on rcompense i en lui
donnant le paiement ei (i) (et f i (i) sil na pas appliqu les punitions).
Dans le cas des jeux escompts, lhypothse dintrieur non vide assure
que, si le vecteur de paiement atteindre est lintrieur de E, il
est possible dinduire des paiements escompts futurs dans nimporte
44 T. TOMALA

quelle direction, et donc daugmenter ou de diminuer le paiement de


nimporte quel joueur.

3.5. Extensions : jeux avec signaux. Nous navons trait ici


que du cas dobservation parfaite. Cette hypothse est cruciale pour le
Folk thorme et la construction dquilibre correspondante. Dans le
modle gnral avec des signaux quelconques, les phnomnes suivants
(notamment) apparaissent :
(1) Il peut y avoir des dviations indtectables : un joueur peut
choisir une autre action que celle prescrite sans modifier les signaux
des autres joueurs. Un profil dactions a pour lequel un joueur i peut
dvier profitablement jouer bi tel que g i (bi , ai ) > g i (a) sans
changer les signaux des autres joueurs, ne peut pas tre jou dans un
quilibre du jeu rpt.
(2) Lorsquune dviation est dtecte, plusieurs joueurs peuvent
tre suspects : les signaux peuvent tre compatibles avec des dvia-
tions de diffrents joueurs. On ne peut donc pas toujours construire
des quilibres en punissant un joueur son niveau minmax.
(3) La finesse des signaux pouvant diffrer dun joueur lautre,
certains joueurs peuvent dtecter une dviation et pas dautres. Les
joueurs les mieux informs peuvent essayer de communiquer leurs in-
formations aux autres, cette communication devant se faire au travers
des signaux et devant tre robuste aux dviations unilatrales.
Les deux branches principales de cette littrature suivent la di-
chotomie que nous avons introduite : approche uniforme vs approche
compacte. Dans lapproche uniforme les premires caractrisations de
paiements dquilibres dans les jeux avec signaux sont dues E. Leh-
rer (1989, 1992). Des avances rcentes sont dues Renault et Tomala
(1998, 2004a) et Gossner et Tomala (2006a, 2006b).
Pour lapproche compacte, la majorit des articles tudient le jeux
escompts et les quilibres sous-jeux parfaits. Les articles de rfrence
sont Abreu, Pearce et Stachetti (1990), Fudenberg et Levine (1994)
et Fudenberg, Levine et Maskin (1994).
La recherche est actuellement trs active dans ces deux branches.
JEUX RPTS 45

Bibliographie
Abreu (D.), Pearce (D.) & Stacchetti (E.)
[1990] Toward a theory of discounted repeated games with imperfect
monitoring, Econometrica, 58 (1990), p. 10411063.
Aumann (R.J.)
[1964] Mixed and behaviour strategies in infinite extensive games, dans
Dresher, Shapley & Tucker, d., Advances in Game Theory, An-
nals of Mathematics Studies, vol. 52, Princeton University Press,
1964, p. 627650.
Aumann (R.J.) & Maschler (M.)
[1995] Repeated games with incomplete information, M.I.T. Press, 1995.
Aumann (R.J.) & Shapley (L.S.)
[1994] Long-term competitionA game theoretic analysis, dans Me-
giddo (N.), d., Essays on game theory, New-York : Springer-
Verlag, 1994, p. 115.
Benoit (J-P.) & Krishna (V.)
[1985] Finitely repeated games, Econometrica, 53 (1985), p. 905922.
[1987] Nash equilibria of finitely repeated games, International Journal
of Game Theory, 16 (1987), p. 197204.
Blackwell (D.)
[1956] An analog of the minmax theorem for vector payoffs, Pacific
Journal of Mathematics, 65 (1956), p. 18.
Borel (.)
[1921] La thorie du jeu et les quations intgrales noyau symtrique
gauche, C. R. Acad. Sci. Paris, 173 (1921), p. 13041308.
Forges (F.), Mertens (J.-F.) & Neyman (A.)
[1986] A counterexample to the Folk theorem with discounting, Eco-
nomic Letters, 20 (1986), p. 7.
Forges (F.), Renault (J.), Sorin (S.) & Vieille (N.)
[2006] Thorie des jeux : le prix Nobel pour les travaux de R.J. Au-
mann, MATAPLI, Bulletin de liaison de la SMAI, 79 (2006),
p. 4770.
Fudenberg (D.) & Maskin (E.)
[1986] The folk theorem in repeated games with discounting or with
incomplete information, Econometrica, 54 (1986), p. 533554.
Fudenberg (D.) & Levine (D.K.)
[1994] Efficiency and observability with long-run and short-run players,
Journal of Economic Theory, 62 (1994), p. 103135.
Fudenberg (D.), Levine (D.K.) & Maskin (E.)
[1994] The folk theorem with imperfect public information, Econome-
trica, 62 (1994), p. 9971039.
Glicksberg (I.)
[1952] A further generalization of the Kakutani fixed point theorem,
46 T. TOMALA

with applications to Nash equilibrium points, Proceedings of the


American Mathematical Society, 3 (1952), p. 170174.
Gossner (O.)
[1995] The folk theorem for finitely repeated games with mixed stra-
tegies, International Journal of Game Theory, 24 (1995), p. 95
107.
Gossner (O.) & Tomala (T.)
[2006] Empirical distributions of beliefs under imperfect monitoring,
Mathematics of Operations Research, (2006).
[ paratre] Secret correlation in repeated games with signals, Mathema-
tics of Operations Research, ( paratre).
Kakutani (S.)
[1941] A generalization of Brouwers fixed point theorem, Duke Mathe-
matical Journal, 8 (1941), p. 416427.
Kohlberg (E.)
[1975] Optimal strategies in repeated games with incomplete informa-
tion, International Journal of Game Theory, 4 (1975), p. 724.
Kuhn (H.W.)
[1953] Extensive games and the problem of information, dans Kuhn
& Tucker, d., Contributions to the Theory of Games, vol. II,
Annals of Mathematical Studies, vol. 28, Princeton University
Press, 1953, p. 193216.
Lehrer (E.)
[1989] Nash equilibria of n player repeated games with semi-standard
information, International Journal of Game Theory, 19 (1989),
p. 191217.
[1992] Correlated Equilibria in two-Player Repeated Games with non-
Observable Actions, Mathematics of Operations Research, 17
(1992), p. 175199.
Mertens (J.-F.)
[1986] Repeated Games, dans Proceedings of the International
Congress of Mathematicians (Berkeley), Providence, RI : Ame-
rican Mathematical Society, 1986, p. 15281577.
Myerson (R.)
[1991] Game Theory, Harvard University Press, 1991.
Mertens (J.-F.), Sorin (S.) & Zamir (S)
[1994] Repeated games, 1994, p. 94209422 ; CORE discussion paper.
Mills (H.D.)
[1956] Marginal value of matrix games and linear programs, dans Kuhn
& Tucker, d., Linear Inequalities and Related Systems, Annals
of Mathematical Studies, vol. 38, Princeton University Press,
1956, p. 183193.
JEUX RPTS 47

Nash (J.)
[1950] Equilibrium points in n-person games, Proceedings of the Natio-
nal Academy of Sciences, 36 (1950), p. 4849.
Osborne (M.J.) & Rubinstein (A.)
[1994] A course in Game Theory, M.I.T. Press, 1994.
Renault (J.) & Tomala (T.)
[1998] Repeated proximity games, International Journal of Game
Theory, 27 (1998), p. 539559.
[2004] Communication equilibrium payoffs of repeated games with im-
perfect monitoring, Games and Economic Behavior, 49 (2004),
p. 313344.
Rubinstein (A.)
[1977] Equilibrium in supergames, Research Memorandum, vol. 25,
Center for Research in Mathematical Economics and Game
Theory, 1977.
Shapley (L.S.)
[1953] Stochastic games, Proceedings of the National Academy of
Sciences of the U.S.A., 39 (1953), p. 10951100.
Sion (M.)
[1958] On General Minimax Theorems, Pacific Journal of Mathema-
tics, 8 (1958), p. 171176.
Sorin (S.)
[1986] On Repeated Games with Complete Information, Mathematics
of Operations Research, 11 (1986), p. 147160.
[1992] Repeated Games with Complete Information, dans Au-
mann (R.J.) & Hart (S.), d., Handbook of Game Theory, vol. I,
Elsevier Science Publishers, 1992, p. 71107.
[2002] A First Course on Zero-Sum Repeated Games, Mathmatiques
et Applications, Springer, 2002.
Van Damme (E.)
[1987] Stability and Perfection of Nash Equilibria, Springer, 1987.
Von Neumann (J.)
[1928] Zur Theorie der Gesellschaftsspiele, Mathematische Annalen,
100 (1928), p. 295320.
Von Neumann (J.) & Morgenstern (O.)
[1944] Games and Economic Behavior, Princeton University Press,
1944.
Zermelo (E.)
[1912] ber eine Anwendung der Mengenlehrer auf die Theorie
des Schachspiels, dans Proceedings of the Fifth International
Congress of Mathematicians (Cambridge), vol. II, 1912, p. 501.
JEUX RPTS INFORMATION INCOMPLTE

par

Jrme Renault

Table des matires


1. Le modle standard manque dinformation dun
seul ct. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2. Jeux paiements vectoriels et approchabilit . . . . . 61
3. Manque dinformation des deux cts . . . . . . . . . . . . 68
4. Somme non nulle et manque dinformation dun
seul ct. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5. Extensions, divers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Bibliographie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

Dans un jeu rpt information incomplte, les joueurs jouent


chaque tape le mme jeu de base, mais celui-ci est imparfaitement
connu. On expose ici dabord le cas le plus simple appel modle stan-
dard manque dinformation dun seul ct. Ensuite on prsentera
quelques variantes et extensions importantes.
Si S est un ensemble fini, on note |S| son cardinal et (S) len-
semble des probabilits sur S, identifi
p = (ps )sS RS | s S ps > 0 et
 P
sS ps = 1 .

Merci Dinah Rosenberg pour ses remarques.


50 J. RENAULT

Pour p = (ps )sS et q = (qs )sS dans RS , kp qk dsigne, sauf


S
P
prcision contraire, sS |ps qs |. Pour C R , on note int(C)
lintrieur de C, C la frontire de C et conv(C) lenveloppe convexe
de C. Si G = (G(i, j))(i,j)IJ est une matrice de paiement de format
I J, si x (I) et y (J), G(x, y) dsigne le paiement espr
X
xi yj G(i, j).
iI
jJ

1. Le modle standard manque dinformation


dun seul ct
Ce modle a t introduit et tudi par Aumann et Maschler dans
les annes 1966-68, aux cours de travaux rdits en 1995. On se place
dans le cadre des jeux deux joueurs et somme nulle, et on fait lhy-
pothse que lun des deux joueurs a toute linformation. Le manque
dinformation est donc du ct dun seul joueur. Formellement, on a
une famille (Gk )kK de jeux matriciels de mme taille I J, et une
probabilit p sur K. Le jeu (p) est jou ainsi :
initialement, un tat de la nature k est tir, une fois pour toutes,
selon p. Le joueur 1 apprend k, pas le joueur 2.
chaque tape t = 1, 2, . . . , simultanment le joueur 1 choisit
une action it dans I et le joueur 2 choisit une action jt dans J. Le
paiement dtape du joueur 1 est alors Gk (it , jt ), celui du joueur 2 est
Gk (it , jt ), mais tout ce que les joueurs apprennent avant de passer
ltape t + 1 est le couple (it , jt ).
Le joueur 1 est aussi appel joueur inform, alors que le joueur 2
est dit non inform. Remarquons que le joueur 1, connaissant k, est
capable de dduire son paiement dtape t ; ce nest pas le cas du
joueur 2 qui nobserve pas son paiement mais uniquement le couple
(it , jt ). Lensemble I est appel lensemble dactions du joueur 1, len-
semble J celui du joueur 2, et lensemble K celui des tats de la
nature. Ces trois ensembles seront supposs finis et non vides dans
tout ce qui suit.
Une stratgie du joueur 1 est un lment = (t )t>1 , avec t :
K (I J)t1 (I) pour tout t (par convention, (I J)0 est
un singleton). Une stratgie du joueur 2 est un lment (t )t>1 , avec
JEUX RPTS INFORMATION INCOMPLTE 51

t : (I J)t1 (J) pour tout t. On note respectivement et T


les ensembles de stratgies des joueurs 1 et 2. Un couple de stratgies
(, ) induit, avec p, une probabilit sur lensemble des parties K
(I J) muni de la tribu produit, et pour tout entier strictement
positif T on dfinit le paiement moyen jusqu ltape T par :
 XT  X
p 1 k e e
T (, ) = Ep,, G (it , jt ) = pk Tk (, ).
e
T
t=1 kK

(les tilde indiquent des variables alatoires, et par ailleurs on assi-


mile k et la mesure de Dirac sur k). Le jeu rpt T fois est le jeu sous
forme stratgique (, T , Tp ). Par des arguments standards (thorme
2.3 du texte de T. Tomala sur les jeux rpts dans ce volume) il a
une valeur note vT (p) et les deux joueurs y ont des stratgies opti-
males. En ce qui concerne la valeur du jeu infiniment rpt (p),
rappelons la dfinition suivante :

Dfinition 1.1. Soit v un rel.


Le joueur 1 garantit v dans (p) si :
> 0, , T0 , T > T0 , T , Tp (, ) > v .
Le joueur 2 garantit v dans (p) si :
> 0, T , T0 , T > T0 , , Tp (, ) 6 v + .
v est la valeur du jeu (p) si les deux joueurs y garantissent v.

La valeur du jeu, quand elle existe, est ncessairement unique. Quand


le jeu (p) a une valeur v, une stratgie du joueur 1 est dite
optimale si :
> 0, T0 , T > T0 , T , Tp (, ) > v ,
et similairement, une stratgie du joueur 2 est dite optimale si :
> 0, T0 , T > T0 , , Tp (, ) 6 v + .

1.1. Exemples lmentaires : stratgies compltement rv-


latrices, non rvlatrices et partiellement rvlatrices. Les
exemples suivants sont classiques (voir Aumann et Maschler 1995,
Zamir 1992). chaque fois, il y a deux tats : K = {a, b}, et p =
(1/2, 1/2).
52 J. RENAULT

   
0 0 1 0
Exemple 1.2. Ga = b
et G = .
0 1 0 0
Cet exemple est trivial. Afin de maximiser son paiement, le joueur 1
na qu jouer, chaque tape, laction H(aut) si ltat est a et laction
B(as) si ltat est b. Ainsi vT (p) = 0 = v (p) = 0.
   
10 00
Exemple 1.3. Ga = et Gb = .
00 01
Une stratgie nave du joueur 1 jouerait ltape 1 laction H
si ltat est a, et laction B si ltat est b. Une telle stratgie est
dite compltement rvlatrice, ou CR, car elle permet au joueur 2 de
dduire ltat slectionn aprs avoir observ les actions du joueur 1.
Cette stratgie est optimale ici dans le jeu une tape, et v1 (p) = 1/2.
Mais elle est trs mauvaise quand le jeu est rpt, et ne garantit
rien de plus que 0 dans (p). linverse, le joueur 1 peut toujours
ne pas tenir compte de son information, et jouer une stratgie non
rvlatrice, ou NR, i.e. jouer indpendamment de ltat. Il considre
alors la matrice moyenne
 
1 a 1 b 1/2 0
G + G = ,
2 2 0 1/2
et peut y jouer chaque tape une stratgie optimale, qui est ici
unique et vaut 12 H + 12 B. Ainsi a-t-on : vT (p) > 1/4 pour tout T .
Nous verrons plus tard que cette faon de jouer est ici optimale pour
le joueur 1 dans (p).
   
a 40 2 b 0 4 2
Exemple 1.4. G = et G = .
4 0 2 04 2
Jouer une stratgie CR ne garantit que 0 pour le joueur 1, car le
joueur 2 pourra finalement jouer laction M (du milieu) si ltat est a,
et laction G(auche) si ltat est b. Mais jouer NR revient se placer
dans le jeu
 
1 a 1 b 220
G + G = ,
2 2 220
et donc ne garantit que 0. Nous prouverons plus tard quil est ici
optimal pour le joueur 1 de jouer la stratgie prsente maintenant.
Le joueur 1 choisit alatoirement, une fois pour toutes, un lment s
dans {H, B} de la faon suivante : si k = a, alors s = H avec pro-
babilit 3/4, et donc s = B avec probabilit 1/4 ; et si k = b, alors
JEUX RPTS INFORMATION INCOMPLTE 53

s = H avec probabilit 1/4, et s = B avec probabilit 3/4. Ensuite le


joueur 1 joue laction s chaque tape, indpendamment des coups
du joueur 2.
Les probabilits conditionnelles vrifient : P (k = a|s = H) = 3/4,
et P (k = a|s = B) = 1/4. Donc la fin de ltape 1, le joueur 2 ayant
observ le premier coup du joueur 1 aura appris quelque chose sur
ltat de la nature : sa croyance sera passe de 21 a + 21 b 34 a + 41 b ou
41 a + 34 b. Mais il ne connat toujours pas ltat avec probabilit 1 :
on parle de rvlation partielle dinformation.

1.2. Utilisation de linformation : clatement et concavifica-


tion
p = (pk )kK est la probabilit initiale, ou la priori du joueur 2
sur ltat de la nature. Le joueur 1 choisit sa premire action (ou plus
gnralement un message ou signal s au sein dun ensemble fini S), en
fonction de ltat de la nature k slectionn. Notons x = (xk )kK
(S)K la probabilit de transition utilise : si ltat est k, le joueur 1
choisit le signal s avec probabilit xk (s).
La probabilit totale que s arrive est note : s = kK pk xk (s),
P

et si s > 0, la probabilit kconditionnelle


 sur K (ou a posteriori)
p xk (s)
sachant s vaut : pb(x, s) = s . Il est clair que :
kK
X
(1) s pb(x, s) = p.
sS

Les a posteriori contiennent donc la priori p dans leur enveloppe


convexe. Le lemme suivant est fondamental et exprime une sorte de
rciproque : on dit que le joueur 1 peut amener nimporte quels a pos-
teriori contenant la probabilit initiale dans leur enveloppe convexe.
P
Lemme 1.5 (clatement). Supposons que p = p , avec S
P sS s s
fini, pour tout s de S s > 0, ps (K), et sS s = 1. Alors il
existe une probabilit de transition x (S)K telle que :
X
s S, s = pk xk (s) et pb(x, s) = ps .
kK

Dmonstration. On pose xk (s) = s pks /pk si pk > 0.


54 J. RENAULT

T
 T
.p
 1T
 6 T
 p
 . T
- . p2 T (K)
T

 p3 . T
 T

Soit f une application semi-continue suprieurement de (K) dans


R. La plus petite fonction concave de (K) dans R partout plus
grande que f , note cav f , est continue et, pour tout p dans (K),
P
cav f (p) = max sS s f (ps ) | S fini, s S s > 0,
P P
ps (K), sS s = 1, sS s ps = p .
Nous allons voir que le lemme 1.5 a une consquence importante du
point de vue de ce qui peut tre garanti par le joueur 1. Le rsultat
suivant est valable dans nimporte quel jeu finiment ou infiniment
rpt (en fait dans tout jeu somme nulle o le joueur 1 a toute
linformation). On dit que le joueur 1 garantit f si pour chaque valeur
de p, le joueur 1 garantit f (p) dans le jeu de probabilit initiale p.

Lemme 1.6. Si le joueur 1 garantit f , alors le joueur 1 garantit


cav f .

Dmonstration. Fixons p, et considrons lgalit cav f (p) =


P
sS s f (ps ), avec les notations prcdentes. Le joueur 1 observe
ltat k, puis choisit s dans S selon xk (s), o x = (xk )kK est
donn par le splitting (lemme 1.5). Puis il joue de faon garantir
f (ps ) dans le jeu de probabilit initiale ps . Par le thorme de Kuhn
sur lquivalence entre les stratgies gnrales et les stratgies de
comportement (voir le thorme 1.4 du texte de T. Tomala sur les
jeux rpts dans ce volume), la stratgie du joueur 1 ainsi dfinie
peut se voir comme une stratgie dans . Ainsi le joueur 1 garantit-il
P
sS s f (ps ) dans le jeu de probabilit initiale p.

Remarquons que le fait que le joueur 2 observe ou non, apprenne ou


pas, llment s na aucune influence sur la preuve ci-dessus. Dans un
JEUX RPTS INFORMATION INCOMPLTE 55

jeu somme nulle o le joueur 1 (maximisateur) a toute linformation,


le lemme 1.6 donne : si le jeu a une valeur v(p) pour toute probabilit
initiale p, alors v est ncessairement concave. On peut voir cela comme
le fait que la valeur de linformation est positive dans un jeu somme
nulle.

1.3. Le joueur 1 garantit cav u. Notons, pour toute probabi-


lit p dans (K), u(p) la valeur du jeu matriciel G(p) = kK pk Gk .
P

Le joueur 1 peut garantir u(p) dans (p) en jouant chaque tape


une stratgie optimale dans G(p), indpendamment de ltat et des
coups passs. u est la valeur du jeu rpt o le joueur 1 joue ind-
pendamment de ltat, et G(p) sappelle le jeu non rvlateur p.
Clairement le joueur 1 garantit u, donc on a, dans un jeu T tapes
ou dans le jeu infiniment rpt :
Corollaire 1.7. Le joueur 1 garantit cav u.
Revenons sur les exemples prcdents. Dans lexemple 1.2, on a
u(p) = p(1 p) pour tout p (en faisant labus de notation : p pro-
babilit de ltat a). u est convexe, et cav u(p) = 0 pour tout p. Dans
lexemple 1.3, on a u(p) = p(1 p) pour tout p, donc u est concave
et u = cav u. Concernant lexemple 1.4, on a reprsent u, en plein,
et cav u, en pointills, sur la figure suivante.

1 6

JJ

J
u(p)
J


JJ
JJ
J -
0 1 1 3
4 2 4 1 p
Reprenons la stratgie partiellement rvlatrice du joueur 1 prsente
prcdemment. Avec probabilit 1/2, la posteriori vaudra 34 a + 14 b, et
le joueur 1 jouera H qui est optimale dans
 
3 a 1 b 31 1
G + G = .
4 4 3 1 1
De mme avec probabilit 1/2 la posteriori vaudra 14 a + 34 b et le
joueur 1 jouera une stratgie optimale dans 41 Ga + 34 Gb . Cette stratgie
garantit donc :
1 1
u(3/4) + u(1/4) = cav u(1/2).
2 2
56 J. RENAULT

1.4. Le joueur 2 garantit limT vT . T tant fix, le jeu finiment


rpt T tapes T (p) a une valeur vT (p) et les deux joueurs y
ont des stratgies optimales. vT est concave daprs le lemme 1.6, et
lipschitzienne de constante
M = max{|Gk (i, j)| | k K, i I, j J}
indpendante de T .

Dfinition 1.8. Pour p dans (K), on pose v (p) = inf T >1 vT (p).

v est concave et M -Lipschitz.

Lemme 1.9. La suite de fonctions (vT )T converge uniformment


sur (K) vers v , et le joueur 2 garantit v dans le jeu infiniment
rpt.

Dmonstration. Le joueur 2 peut se comporter ainsi dans le jeu


(p) : jouer une stratgie optimale de T (p), puis tout oublier, et
recommencer jouer une stratgie optimale de T (p), puis tout ou-
blier, et recommencer etc. Ainsi le joueur 2 garantit vT (p) dans (p).
Donc le joueur 2 garantit v (p). Daprs la dfinition 1.1, cela implique
que : lim supT vT (p) 6 v (p). Ce qui entrane que vT converge sim-
plement vers v . La convergence est uniforme car toutes ces fonctions
sont lipschitziennes de mme constante.

Indiquons galement que lon a pour tous T , T 0 > 1, et p dans


(K) :
(T + T 0 ) vT +T 0 (p) 6 T vT (p) + T 0 vT 0 (p).
En effet, le joueur 2 peut jouer une stratgie optimale dans T (p),
puis tout oublier et jouer une stratgie optimale dans T 0 (p).

1.5. Martingale des a posteriori . La dfinition suivante est


essentielle.

Dfinition 1.10. Soit (, ) dans T un profil de stratgies dans


(p). Pour t dans N et ht = (i1 , j1 , . . . , it , jt ) (I J)t , on dfinit
la posteriori du joueur 2 aprs ht comme :
pt (, , ht ) = (pkt (, , ht ))kK (K),
avec pkt (, , ht ) = Pp,, (e
k = k|ht ) pour tout k.
JEUX RPTS INFORMATION INCOMPLTE 57

pt (, , ht ) est la croyance du joueur 2 sur ltat de la nature


la fin de ltape t si ht a t prcdemment jou et que le joueur 1
utilise . On a facilement que pt (, , ht ) ne dpend ni de , ni de
laction joue par le joueur 2 en date t, pourvu que Pp,, (ht ) > 0.
On note donc aussi pt (, ht ) pour pt (, , ht ), ds quil existe telle
que Pp,, (ht ) > 0 (et on peut dfinir arbitrairement pt (, , ht ) et
pt (, ht ) dans (K) sinon). Notons Ht = (I J)t et Ht la tribu sur
K (I J) engendre par la projection sur Ht donnant les actions
joues aux t premires tapes. pt () est vue comme une application
mesurable de (K (I J) , Ht ) dans (K), donc est une variable
alatoire valeurs dans (K). p0 () est la probabilit initiale p. La
proprit suivante est cruciale.

Proprit 1.11. Par rapport Pp,, , la suite (pt ())t>0 est une
(Ht )t>0 - martingale valeurs dans (K).

Cette proprit est trs gnrale et concerne lapprentissage bay-


sien dun paramtre inconnu : lesprance de ce que je saurai de-
main est ce que je sais aujourdhui. On peut facilement en donner une
dmonstration analytique de faon analogue lobtention de lqua-
tion (1).
Fixons maintenant une stratgie du joueur 1. Lide des calculs
suivants est la suivante. La martingale (pt ())t>0 tant borne, elle
converge p.s. et on a une borne uniforme sur sa variation L1 (voir
le lemme 1.12). Cela implique quau bout dun moment, la martin-
gale sera essentiellement constante, et donc qu partir dune certaine
tape le joueur 1 jouera approximativement de faon non rvlatrice,
et ne pourra pas garantir beaucoup plus que u(q), o q est un a
posteriori limite . Les a posteriori tant lis la probabilit initiale,
le joueur 1 ne pourra pas garantir plus, sur le long terme, que
P
max sS s u(ps ) | S fini, s S s > 0,
P P
ps (K), sS s = 1, sS s ps = p ,

autrement dit que cav u(p). Passons maintenant la preuve formelle.


tant fixe, on dfinit la stratgie = (t )t>1 du joueur 2 de la
faon suivante : jouer chaque tape une stratgie optimale dans le
jeu matriciel G(pt ), o pt est la posteriori courant.
58 J. RENAULT

Supposons que (, ) soit jou dans le jeu rpt (p). Afin dal-
lger les notations, on note dans les calculs suivants P = Pp,, , on
note E lesprance par rapport P, et pt (ht ) pour pt (, ht ). Toutes
les normes indiques sont des normes 1. Lingalit suivante est juste
due au fait que (pt )t est une martingale valeurs dans (K) et des-
prance p.
Lemme 1.12
T 1 p
pk (1 pk )
P
1 X kK
T > 1, E(kpt+1 pt k) 6 .
T T
t=0

Dmonstration. On a pour tous k dans K et t > 0 :


 
E (pkt+1 pkt )2 = E E (pkt+1 pkt )2 |Ht = E (pkt+1 )2 E (pkt )2 .
  

Donc
1
 TX 
(pt+1 pt ) = E (pkT )2 (pk )2 6 pk (1 pk ).
k k 2

E
t=0
Comme par Cauchy-Schwartz
v
1
 TX 1
u 1  TX
 u 
1 k k

k k 2
E pt+1 pt 6 t E (pt+1 pt )
T T
t=0 t=0
pour chaque k, on a le rsultat voulu.
Pour ht dans Ht , on note k (ht ) = t+1 (k, ht ) (I) laction
mixte joue par le joueur 1 aprs ht si ltat est k, et (ht ) la loi de
laction de date t + 1 joue par le joueur 1 aprs ht :
X
(ht ) = pkt (, ht ) k (ht ) (I).
kK
(ht ) peut se voir comme la stratgie moyenne aprs ht , et servira
dapproximation non rvlatrice ( k (ht ))k . Le lemme suivant ex-
prime le lien entre, dune part, la variation de la martingale (pt ())t>0 ,
i.e. linformation rvle par le joueur 1, et dautre part, la dpen-
dance par rapport ltat de laction joue par le joueur 1 en date
t + 1, i.e. linformation employe par le joueur 1.
Lemme 1.13. t > 0, ht Ht ,
 
E (kpt+1 pt k |ht ) = E k (ht ) (ht ) |ht .
e
JEUX RPTS INFORMATION INCOMPLTE 59

Dmonstration. Fixons t > 0 et ht dans Ht tel que Pp,, (ht ) > 0.


Pour (it+1 , jt+1 ) dans I J, on a :

pkt+1 (ht , it+1 , jt+1 ) = P(e


k = k|ht , it+1 )
k = k|ht )P(it+1 |k, ht )
P(e
=
P(it+1 |ht )
pkt (ht ) k (ht )(it+1 )
= .
(ht )(it+1 )
Donc :
X X
E(kpt+1 pt k|ht ) = (ht )(it+1 ) |pkt+1 (ht , it+1 ) pkt (ht )|
it+1 I kK
X X
= |pkt (ht ) k (ht )(it+1 ) (ht )(it+1 )pkt (ht )|
it+1 I kK
X
= pkt (ht )k k (ht ) (ht )k
kK

= E k k (ht ) (ht )k|ht .


e 

On peut maintenant majorer les paiements. Pour t > 0 et ht


dans Ht :
  X
E Gk (eit+1 , e
jt+1 )|ht = pkt (ht )Gk ( k (ht ), t+1 (ht ))
e

kK
X
6 pkt (ht )Gk ((ht ), t+1 (ht ))
kK X
+M pkt (ht )k k (ht ) (ht )k
kK
X
6 u(pt (ht )) + M pkt (ht )k k (ht ) (ht )k,
kK

o u(pt (ht )) vient de la dfinition de . Par le lemme 1.13, on obtient :


 
E Gk (eit+1 , ejt+1 )|ht 6 u(pt (ht )) + M E (kpt+1 pt k|ht ) .
e

En appliquant lingalit de Jensen, il vient :


 
E Gk (eit+1 , e
jt+1 ) 6 cav u(p) + M E (kpt+1 pt k) .
e
60 J. RENAULT

On applique maintenant le lemme 1.12, et on obtient :


 TX 1 
p 1 k e
T (, ) = E G (it+1 , jt+1 )
e
e
T
t=0
M X
q
6 cav u(p) + pk (1 pk ).
T kK
Il reste considrer le cas dune stratgie optimale dans T (p)
et on a prouv le rsultat suivant.

Proposition 1.14. Pour p dans (K) et T > 1,


M0 Xq
vT (p) 6 cav u(p) + , avec M 0 = M pk (1 pk ).
T kK

1.6. Valeur de (p). Daprs le corollaire 1.7, pour tout T le


joueur 1 garantit cav u(p) dans T (p), donc on a vT (p) > cav u(p),
et donc v > cav u. En passant la limite en T dans la proposition
1.14, on trouve v 6 cav u, donc v = cav u. Avec le corollaire 1.7 et
le lemme 1.9, on obtient :

Thorme 1.15 (Aumann et Maschler). Le jeu (p) a une valeur


qui vaut cav u(p).

1.7. Formule de rcurrence. On montre facilement la formule


de rcurrence suivante, o maxx(I)K et miny(J) commutent par
le thorme de Sion.

vT +1 (p)
 
1 X
= max min G(p, x, y) + T x(p)(i)vT (b
p(x, i)) ,
T + 1 x(I)K y(J)
iI

o, avec des notations similaires au paragraphe 1.2 :


x = (xk (i))iI,kK , avec xk la probabilit utilise par le joueur 1
ltape 1 si ltat est k,
y = (y(j))jJ est la probabilit utilise par le joueur 2 ltape 1,
G(p, x, y) = k pk Gk (xk , y) est le paiement espr dtape 1,
P
k k
P
x(p)(i) = kK p x (i) est la probabilit que i soit joue en
date 1,
pb(x, i) est la probabilit conditionnelle sur K sachant i.
JEUX RPTS INFORMATION INCOMPLTE 61

La proprit suivante sinterprte facilement : plus on joue longtemps,


moins linformation initiale nest importante.

Lemme 1.16. (vT (p))T est dcroissante.

Dmonstration. Montrons vT +1 6 vT par rcurrence sur T .


 
1 X
v2 (p) = max min G(p, x, y) + T x(p)(i)v1 (b
p(x, i))
2 x(I)K y(J)
iI

Comme v1 est concave,


1
v2 (p) 6 max min (G(p, x, y) + v1 (p)) = v1 (p).
2 x(I)K y(J)
Soit T > 2 tel que : p, vT (p) 6 vT 1 (p). Alors,

(T + 1)vT +1 (p) = max min G(p, x, y)
x(I)K y(J)
X X 
+ (T 1) x(p)(i)vT (b
p(x, i)) + x(p)(i)vT (b
p(x, i)
iI iI

6 max min G(p, x, y)
x(I)K y(J)
X 
+ (T 1) x(p)(i)vT 1 (b
p(x, i)) + vT (p)
iI
= T vT (p) + vT (p)
= (T + 1)vT (p).

2. Jeux paiements vectoriels et approchabilit


Le modle suivant a t introduit par D. Blackwell (1956). Il est
intressant en tant que tel, mais permettra aussi dexpliciter, en 2.4,
la construction dune stratgie optimale pour le joueur non inform
dans le jeu (p) de la section prcdente. On a ici aussi une fa-
mille de matrices (Gk )kK de mme taille I J. chaque tape t, le
joueur 1 choisit it I, simultanment le joueur 2 choisit jt J, et le
paiement dtape t est alors le vecteur G(it , jt ) =(Gk (it , jt ))kK
dans RK . Prcisons quil ny a pas de vrai tat k ici, ni de probabilit
a priori sur K, et les deux joueurs ont un rle symtrique. On suppose
quaprs chaque tape chaque joueur observe le vecteur de paiement.
Les actions des joueurs ne sont en principe pas observes (on pourra
62 J. RENAULT

remarquer plus tard que cela ne changerait en fait rien aux rsultats,
qui ncessitent juste de supposer que les joueurs observent au moins
le vecteur de paiement). Lapprochabilit vise rpondre aux ques-
tions du genre : dans quels ensembles le joueur 1 (par exemple) peut-il
amener le paiement moyen de long terme ?
Dans toute cette section sur lapprochabilit, on considre norme et
distance euclidiennes. La prsentation sest inspire de Sorin (2002).
Notons F = {(Gk (i, j))kK | i I, j J} lensemble fini des paie-
ments dtapes possibles, et M une constante telle que kuk 6 M pour
tout u de F . Une stratgie du joueur 1 est un lment = (t )t>1 , o
t est une application de F t1 dans (I) pour tout t. De mme pour
le joueur 2 en remplaant (I) par (J). On note respectivement
et T les espaces de stratgies des joueurs 1 et 2. Un profil de strat-
gies (, ) dans T induit naturellement une unique probabilit
sur (I J F ) note P, . On note gt la variable alatoire, va-
leurs dans F , du paiement dtape t, et g t = 1t tt0 =1 gt0 conv(F ).
P

Soit C RK un ensemble cible , que lon supposera toujours sans


perte de gnralit ferm. On note dt = d(g t , C) la v.a. de la distance
euclidienne de g t C.
Dfinition 2.1
C est approchable par le joueur 1 si :
> 0, , T, T , t > T, E, (dt ) 6 .
C est approchable par le joueur 2 si :
> 0, T , T, , t > T, E, (dt ) 6 .
C est vitable (on dit aussi repoussable) par le joueur 1,
resp. joueur 2, sil existe > 0 tel que {z RK , d(z, C) > } soit
approchable par le joueur 1, resp. joueur 2.
C est approchable par le joueur 1 si pour tout > 0, le joueur 1
peut sassurer quau bout dun certain temps on aura E(dt ) 6 , donc
on sera en esprance proche de C prs. Un ensemble ne peut tre
la fois approchable par le joueur 1 et vitable par le joueur 2. Par
exemple si K est un singleton, on est en dimension 1 et le thorme
du minmax implique que pour tout rel t, lensemble [t, +[ est soit
approchable par le joueur 1, soit vitable par le joueur 2 (selon la
position de t par rapport maxx(I) miny(J) G(x, y)).
JEUX RPTS INFORMATION INCOMPLTE 63

2.1. Conditions suffisantes et ncessaires dapprochabilit


Pour x dans (I), on note
P
xG = {G(x, y) | y (J)} = conv{ iI xi G(i, j) | j J}.

xG est lensemble des paiements vectoriels esprs possibles quand le


joueur 1 joue laction mixte x. De mme, pour y dans (J) on note

Gy = {G(x, y) | x (I)}.

Dans la dfinition suivante, la lettre B fait rfrence Blackwell.

Dfinition 2.2. C est un B-ensemble pour le joueur 1 si pour tout


/ C, il existe z 0 C et x (I) satisfaisant les deux conditions
z
suivantes :
(i) kz 0 zk = d(z, C),
(ii) Lhyperplan affine passant par z 0 et orthogonal [z, z 0 ] spare
z de xG.

.z 
A 
z 0
A


C
@
@
@
@
A @

A xG  
A 
A

Par exemple, si x est dans (I), lensemble convexe xG est appro-


chable par le joueur 1. tant donn un B-ensemble C pour le joueur 1,
on dfinit une stratgie adapte C de la faon suivante. Pour tout t
de N, en date t+1 le joueur 1 considre le paiement moyen courant g t .
Si g t C (ou si t = 0), joue arbitrairement en date t + 1. Si g t
/C
(et t > 1), joue en date t + 1 une action mixte x (I) vrifiant
la dfinition prcdente pour z = g t .
64 J. RENAULT

Thorme 2.3. Soit C un B-ensemble pour le joueur 1. Une stra-


tgie adapte C vrifie :
2M
T , t > 1 E, (dt ) 6 et dt 0 P, p.s.
t t

En dimension 1 et pour C = {0}, ce thorme implique en parti-


culier quune suite de rels (xt )t borne, telle que le produit
 X T 
1
xT +1 xT
T
t=1
soit ngatif pour tout T , converge en moyenne de Csaro vers 0.
Dmonstration. Supposons que le joueur 1 joue adapte C,
alors que le joueur 2 joue une stratgie quelconque . Soit t > 1, et
supposons que g t / C. On note z 0 C et x (I) qui satisfont (i)
et (ii) de la dfinition 2.2 pour z = g t . On a :
2
d2t+1 = d(g t+1 , C)2 6 kg t+1 z 0 k
1 X t+1 2
= gl z 0

t+1
l=1
1 t 2
= (gt+1 z 0 ) + (g t z 0 )

t+1 t+1
 1 2  t 2
= kgt+1 z 0 k2 + dt 2
t+1 t+1
2t
+ hgt+1 z 0 , g t z 0 i.
(t + 1)2
Par hypothse, lesprance, sachant les t premiers coups ht (I J)t ,
du produit scalaire ci-dessus est ngatif, donc
  t 2 2  1 2
E d2t+1 |ht 6 E kgt+1 z 0 k2 |ht .

dt +
t+1 t+1
Or  
E kgt+1 z 0 k2 |ht 6 E kgt+1 g t k2 |ht 6 (2M )2 ,


donc :
  t 2 2  1 2
(2) E d2t+1 |ht 6 dt + 4M 2 .
t+1 t+1
En prenant lesprance, on obtient, que g t
/ C ou pas :
 t 2  1 2
t > 1, E d2t+1 6 E(dt 2 ) + 4M 2 .

t+1 t+1
JEUX RPTS INFORMATION INCOMPLTE 65

Donc on a par rcurrence, pour tout t > 1, E(d2t ) 6 4M 2 /t, puis


2M
E(dt ) 6 .
t
Posons maintenant, comme dans Sorin (2002),
X 4M 2
et = d2t + .
0
t02
t >t
Lingalit (2) donne :
E(et+1 |ht ) 6 et ,
donc (et ) est une surmartingale positive dont lesprance tend vers
zro. Donc et t 0 P, p.s., et enfin dt t 0 P, p.s.
Le thorme 2.3 implique que tout B-ensemble pour le joueur 1 est
approchable par le joueur 1. La rciproque est vraie dans le cas des
ensembles convexes.
Thorme 2.4. Soit C un convexe ferm de RK .
(i) C est un B-ensemble pour le joueur 1,
(ii) y (J), Gy C 6= ,
(iii) C est approchable par le joueur 1,
X
(iv) q RK , max min q k Gk (x, y) > inf hq, ci.
x(I) y(J) cC
kK

Dmonstration. (i) (iii) vient du thorme prcdent.


Montrons (iii) (ii). Supposons quil existe y (J) tel que
Gy C = . Comme Gy est approchable par le joueur 2, alors C est
vitable par le joueur 2 et donc pas approchable par le joueur 1.
Montrons (ii) (i). Supposons que Gy C 6= pour tout
y (J). Soient z / C et z 0 sa projection sur C. Considrons le jeu
matriciel o les paiements de G sont projets dans la direction z 0 z,
i.e. le jeu matriciel kK (z 0k z k )Gk . Par hypothse, on a :
P

y (J), x (I), G(x, y) C,


donc :
hz 0 z, G(x, y)i > min{hz 0 z, ci, hz 0 z, z 0 i}.
cC
Donc
min max hz 0 z, G(x, y)i > hz 0 z, z 0 i.
y(J) x(I)
66 J. RENAULT

Par le thorme du minmax, il existe x dans (I) tel que, pour tout
y (J),
hz 0 z, G(x, y)i > hz 0 z, z 0 i,
soit
hz 0 z, z 0 G(x, y)i 6 0.
(iv) signifie que tout demi-espace contenant C est approchable par
le joueur 1. (iii) (iv) est donc clair. (iv) (i) est similaire
(ii) (i).
Les thormes prcdents 2.3 et 2.4 sont, des diffrences mineures
de formulation prs, dues Blackwell (1956). Indiquons que X. Spinat
(2002) a montr rcemment le rsultat suivant :
Thorme 2.5. Un ensemble est approchable par le joueur 1 si et
seulement si il contient un B-ensemble pour le joueur 1.
Cela implique notamment quajouter la condition
dt 0 P, p.s.
t
dans la dfinition dapprochabilit ne change pas la notion.

2.2. Approchabilit par le joueur 1 versus vitabilit par le


joueur 2. Le rsultat suivant est un corollaire du thorme 2.4,
voir (ii).
Corollaire 2.6. Tout sous-ensemble convexe de RK est soit appro-
chable par le joueur 1, soit vitable par le joueur 2.
Remarque 2.7. Cas de la dimension 1. On montre que si K est un
singleton, alors tout ensemble est soit approchable par le joueur 1,
soit vitable par le joueur 2.
Exemple 2.8 (Existence dun ensemble ni approchable par le joueur 1,
ni vitable par le joueur 2 en dimension 2 (voir Sorin, 2002))
Posons
 
(0, 0) (0, 0)
G= ,
(1, 0) (1, 1)
C = {(1/2, v) | 0 6 v 6 1/4} {(1, v), 1/4 6 v 6 1}.
Considrons la stratgie suivante du joueur 1 dans un jeu 2T
tapes : joue B(as) pendant les T premires tapes, puis de deux
JEUX RPTS INFORMATION INCOMPLTE 67

choses lune : si la deuxime coordonne des paiements est en moyenne


pendant les T premires tapes suprieure (resp. strictement inf-
rieure) 1/2, joue B (resp. Haut) les T tapes suivantes. Quelque
que soit la stratgie du joueur 2, on aura g 2T C. Donc C nest pas
vitable par le joueur 2.
On peut montrer que C nest pas non plus approchable par le
joueur 1 en considrant des stratgies du joueur 2 qui joue D(roite)
pendant longtemps, induisant un paiement sur la premire diagonale,
puis G(auche) toujours.

2.3. Approchabilit faible. On peut affaiblir la notion dap-


prochabilit en abandonnant luniformit de la stratgie par rapport
au temps.
Dfinition 2.9
C est faiblement approchable par le joueur 1 si :
> 0, T, t > T, , T , E, (dt ) 6 .
C est faiblement approchable par le joueur 2 si :
> 0, T, t > T, T , , E, (dt ) 6 .
C est faiblement vitable par le joueur 1, resp. joueur 2, sil existe
> 0 tel que {z RK | d(z, C) > } soit faiblement approchable par
le joueur 1, resp. joueur 2.
Lensemble C de lexemple 2.8 est faiblement approchable par le
joueur 1. N. Vieille (1992) a prouv le rsultat suivant via lintroduc-
tion de certains jeux diffrentiels.
Thorme 2.10. Tout sous-ensemble de RK est faiblement appro-
chable par le joueur 1 ou faiblement repoussable par le joueur 2.

2.4. Retour au modle standard manque dinformation


dun seul ct : stratgie optimale explicite pour le joueur
non inform. Revenons ici au formalisme de la section 1. On
a une famille de matrices (Gk )kK , et une probabilit initiale p sur
(K). Daprs le thorme 1.15, le jeu (p) a une valeur qui vaut
cav u(p). En considrant un hyperplan tangent cav u au point p, on
peut trouver un vecteur ` RK tel que
h`, pi = cav u(p) et q (K), h`, qi > cav u(q) > u(q).
68 J. RENAULT

Considrons maintenant lorthant C = {z RK | k K, z k 6 `k }.


Soit q = (q k )k dans RK .
Sil existe k tel que q k > 0, on a :
X
inf hq, ci = 6 max min q k Gk (x, y).
cC y(J) x(I)
kK

Supposons maintenant que qk 6 0 pour tout k, avec q 6= 0. Posons


0
P 0k
q = q et s = k q .
X X q 0k
inf hq, ci = q k `k = s `k = sh`, q 0 /si
cC s
kK kK
0
6 s u(q /s)
X q 0k
6 s max min Gk (x, y)
x(I) y(J) s
kK
X
= max min q k Gk (x, y)
y(J) x(I)
kK

Donc lanalogue, pour le joueur 2, de la condition (iv) du thorme


2.4 est vrifie. C est un B-ensemble pour le joueur 2, et est donc
approchable par le joueur 2. Une stratgie adapte C pour le
joueur 2 vrifie, par le thorme 2.3 : , k K,
 X T    X T 
1 k e e k 1 k e e 2M
E, G (it , jt ) ` 6 E, d G (it , jt ), C 6 ,
T T T
t=1 t=1
o M est ici un majorant de la norme euclidienne des vecteurs
(Gk (i, j))kK , avec i I et j J. Donc
X 1 X T 
p k k e e
T (, ) = p E, (G (it , jt ))
T
kK t=1
2M 2M
6 hp, `i + = cav u(p) + .
T T
La stratgie dapprochabilit est donc optimale pour le joueur 2
dans (p).

3. Manque dinformation des deux cts


On ne suppose plus ici quun des deux joueurs a toute linformation.
On se donne un ensemble produit K L et une famille (Gk,l )(k,l)KL
JEUX RPTS INFORMATION INCOMPLTE 69

de matrices de mme taille I J, ainsi que des probabilits initiales p


sur K et q sur L. K, L, I et J sont supposs finis non vides. Le jeu
(p, q) est le suivant :
un tat de la nature (k, l) est tir selon la probabilit produit
p q, puis k est annonc uniquement au joueur 1 et l est annonc
uniquement au joueur 2.
les joueurs rptent ensuite le jeu matriciel Gk,l , et observent
aprs chaque tape les actions joues dans I J.
k (resp. l) reprsente donc linformation initiale du joueur 1
(resp. du joueur 2). On sest plac pour simplifier dans le cas din-
formations initiales indpendantes, voir la remarque 3.6 en fin de
section pour plus de gnralit. Le modle de manque dinformation
des deux cts fut galement introduit par Aumann et Maschler dans
les annes soixante (rdition en 1995). On peut consulter avec profit
Zamir, 1992, et Sorin, 2002.
Une stratgie du joueur 1 est un lment = (t )t>1 , avec t :
K (I J)t1 (I) pour tout t. Une stratgie du joueur 2 est
un lment = (t )t>1 , avec t : L (I J)t1 (J) pour
tout t. On note respectivement et T les ensembles de stratgies
des joueurs 1 et 2. (p, q, , ) induit une probabilit sur lensemble
des parties K L (I J) muni de la tribu produit, et pour tout
entier strictement positif T on pose :
 X T 
1
Tp,q (, ) = Ep,q G k,e
l e e
(i , j ) .
e
, t t
T
t=1

L encore les tilde indiquent des variables alatoires. Tp,q est la


fonction de paiement du jeu finiment rpt T tapes. Il a une valeur
note vT (p, q). On note aussi :
X
(3) u(p, q) = max min pk q l Gk,l (x, y).
x(I) y(J)
k,l

u(p, q) est la valeur du jeu matriciel k,l pk q l Gk,l , appel jeu non
P

rvlateur (p, q) , au sens o aucun des joueurs nutilise son infor-


mation.
Pour une application continue f : (K)(L) R, on note cavI f
la concavification de f par rapport la premire variable : pour tout
(p, q) dans (K)(L), cavI f (p, q) est la valeur en p de la plus petite
70 J. RENAULT

fonction concave de (K) dans R qui soit suprieure f (., q). De


mme, on note vexII f la convexification de f par rapport la seconde
variable. On montre que cavI f et vexII f sont continues, et on peut
former les composes cavI vexII f et vexII cavI f . Ce sont des fonctions
concaves par rapport la premire variable, convexes par rapport
la seconde, et on a toujours cavI vexII f (p, q) 6 vexII cavI f (p, q).
tant donns (, ) dans T , on dfinit pour toute histoire
ht = (i1 , j1 , . . . , it , jt ) (I J)t les a posteriori :
 
pt (, , ht ) = (pkt (, , ht ))kK = Pp,q , (k
e = k|h t ) .
  kK
qt (, , ht ) = (qtl (, , ht ))lL = Pp,q , (l = l|ht )
e .
lL
On procde comme dans le modle standard manque dinforma-
tion dun seul ct (voir la partie 1.5) : pt (, , ht ) = pt (, ht ) et
qt (, , ht ) = qt (, ht ). Par indpendance, on a pour tout (k, l) :
 
Pp,q k l
, (k, l) = (k, l)|ht = pt (, ht )qt (, ht ).
e e

Par rapport Pp,q, , (pt ())t>0 et (qt ( ))t>0 sont des martingales. Rap-
pelons que lon a pour tout T , comme dans la preuve du lemme 1.12.
1
 TX 
p,q 2 k 2
E, (pt+1 () pt ()) = Ep,q
k k 2 k k
, (pT ()) (p ) 6 p (1 p ).
k

t=0

Dfinition 3.1. Le contenu informationnel dune stratgie du


joueur 1 est :
XX 
p,q k k
2
I() = sup E, pt+1 () pt () .
T kK t=0

Par linarit de lesprance par rapport , le sup peut tre pris sur
les stratgies du joueur 2 qui sont la fois pures et indpendantes
de ltat l L.

3.1. Maxmin et Minmax de (p, q). Rappelons par dfini-


tion que le joueur 1 garantit le rel v si :
> 0, , T, t > T, , tp,q (, ) > v .
On dit que le joueur 2 dfend v si :
> 0, , T, , t > T, tp,q (, ) 6 v + .
JEUX RPTS INFORMATION INCOMPLTE 71

Si la fois le joueur 1 garantit v et le joueur 2 dfend v, on dit


que v est le maxmin du jeu rpt (p, q). En particulier cest le
plus grand rel qui peut tre garanti par le joueur 1. On dfinit de
mme le minmax du jeu rpt : sil existe, cest lunique rel qui peut
tre la fois garanti par le joueur 2 et dfendu par le joueur 1. Le
jeu (p, q) a une valeur si et seulement si il existe un rel qui peut
tre garanti par les deux joueurs. Cest quivalent lexistence et
lgalit du maxmin et du minmax. On a ici :

Thorme 3.2 (Aumann Maschler Stearns). Dans le jeu rpt


(p, q), le maxmin existe et vaut cavI vexII u(p, q), le minmax existe
et vaut vexII cavI u(p, q).

Dmonstration. On se place dans le jeu rpt (p, q).


(1) Tout dabord, le joueur 2 peut jouer sans tenir compte de son
information. On se trouve alors dans un jeu manque dinformation
dun seul ct comme dans la section 1. Le joueur 2 garantit donc
cav vq (p), o pour tout p0 dans (K),
X k X 
vq (p0 ) = max min p0 q l Gk,l (x, y) = u(p0 , q).
x(I) y(J)
kK lL

Donc le joueur 2 garantit cavI u(p, q).


Le joueur 2 peut utiliser son information, et en utilisant le lemme
1.6 avec le joueur 2 comme joueur inform (qui minimise les paie-
ments, donc en changeant cav en vex car cav(f ) = vex(f )), on
obtient que le joueur 2 garantit ici vexII cavI u(p, q). Symtriquement,
le joueur 1 garantit cavI vexII u(p, q).
(2) Pour conclure, il suffit de montrer que le joueur 2 dfend
cavI vexII u(p, q). Fixons une stratgie du joueur 1, et soit (0, 1).
Soit une stratgie du joueur 2 qui soit indpendante de l, et soit
une date N tel que
 X NX 1 
p,q k k
2
E, pt+1 () pt () > I() .
kK t=0

On dfinit la stratgie du joueur 2 de la faon suivante. Pendant


les N premires tapes, joue selon , de faon extraire quasiment
toute linformation contenue dans . Supposons que hN (I J)N
soit joue lors des N premiers coups. Le joueur 2 calcule alors la
72 J. RENAULT

posteriori pN (, hN ) (K), et joue une stratgie optimale dans le


jeu rpt manque dinformation dun seul ct o :
Le joueur 2 est inform de l L, initialement tir selon q.
Le joueur 1 est non inform, et si l L est ltat slectionn,
le jeu matriciel jou chaque tape est kK pkN (, hN )Gk,l .
P

Par le thorme 1.15, ce jeu a une valeur qui vaut vexII u(pN (, hN ), q),
et les joueurs y ont des stratgies optimales. partir de la date N +1,
la stratgie joue une stratgie optimale dans ce jeu manque din-
formation dun seul ct.
Toutes les probabilits et esprances qui suivent sont prises par
rapport Pp,q
, . On a pour toute date T > N :

X  X 
2 2 2
E pkT () pkN () =E pkT () pkN ()
k k
1
 X TX 
k
2 k
2
=E pt+1 () pt ()
k t=N
1
 X TX 
k k
2
=E pt+1 () pt ()
k t=N
6 par dfinition de .

Lingalit de Cauchy-Schwartz,

sX
p 2
E (kpT () pN ()k1 ) 6 |K| E(pkT () pkN ())
k

donne alors :

p
(4) E (kpT () pN ()k1 ) 6 |K|

k nvolue plus
et lerreur commise en supposant que linformation sur e
aprs ltape N est faible.
JEUX RPTS INFORMATION INCOMPLTE 73

Calculons maintenant les paiements. Soit t > N , et ht (I J)t .

E Gk,l (eit+1 ,e

jt+1 ) | ht
ee

X
= pkt (, ht )qtl (, ht )Gk,l (t+1 (k, ht ), t+1 (l, ht ))
k,l
X
6 pkt (, ht )qtl (, ht )Gk,l ((ht ), t+1 (l, ht ))
k,l
XX
+ pkt (, ht )qtl (, ht )M kt+1 (k, ht ) (ht )k
k l
X
= pkt (, ht )qtl (, ht )Gk,l ((ht ), t+1 (l, ht ))
k,l
+ M E (kpt+1 () pt ()k|ht )

o comme dans le cas de manque dinformation dun seul ct, on


pose (ht ) = kK pkt (, ht )t+1 (k, ht ), la constante M majore tous
P

les paiements en valeur absolue et on peut appliquer le lemme 1.13. On


introduit maintenant pN = pN (, hN ), o hN (I J)N correspond
aux premires tapes de ht . Notons
XX
t+1 (, )(ht ) = pkN (, hN )qtl (, ht )Gk,l ((ht ), t+1 (l, ht )) .
k l

Alors :
 
E Gk,l (eit+1 , e
jt+1 )|ht 6 t+1 (, )(ht ) + M kpN (, hN ) pt (, ht )k
ee

+ M E (kpt+1 () pt ()k|ht )

Or joue indpendamment de l pendant les N premires tapes. Donc


qN (, hN ) = q, et par le thorme 1.15 on peut trouver T0 tel que pour
tout T > T0 :
 N +T 1 
1 X
E t+1 (, )(ht )|hN 6 vexII u(pN (, hN ), q) + .
T
t=N

(on pourrait mme avoir



1 X1
N +T 
E t+1 (, )(ht )|hN 6 vexII u(pN (, hN ), q)
T
t=N
74 J. RENAULT

pour tout T en reprenant les preuves de la sous-section 1.3). Nous


obtenons ici :
 N +T 1 
1 X k,e
l e
G (it+1 , jt+1 )|hN
e
E e
T
t=N

M X1
N +T
6 vexII u(pN (, hN ), q) + + E (kpN (, hN ) pt ()k|hN )
T
t=N

M X1
N +T
+ E (kpt+1 () pt ()k|hN ) ,
T
t=N

M X1
N +T
6 vexII u(pN (, hN ), q) + + E (kpN (, hN ) pt ()k|hN )
T
t=N
M X
q
+ pkN (1 pkN ),
T k

par le lemme 1.12. Comme

vexII u(pN (, hN ), q) 6 cavI vexII u(pN (, hN ), q),

lingalit de Jensen ainsi que lingalit prcdente (4) donnent fina-


lement :

1 X1
N +T 
Gk,l (eit+1 , e
jt+1 )
ee
E
T
t=N
p M |K|
6 cavI vexII u(p, q) + + M |K| + ,
T
et donc pour T assez grand,
 XT 
p
1 k,e
l e e
G (it , jt ) 6 cavI vexII u(p, q) + (2 + M ) |K| .
e
E
T
t=1

On a toujours cavI vexII u(p, q) 6 vexII cavI u(p, q), et un corollaire


immdiat du thorme 3.2 est que le jeu (p, q) a une valeur si et
seulement si cavI vexII u(p, q) vexII cavI u(p, q). Ce nest pas toujours
le cas, et il y a des contre-exemples lexistence de la valeur (les
premiers tant ds Aumann et Maschler).
JEUX RPTS INFORMATION INCOMPLTE 75

Exemple 3.3. Prenons K = {a, a0 }, et L = {b, b0 }, avec p et q


uniformes.
   
a,b 0 00 0 a,b0 1 1 1 1
G = G =
1 1 1 1 0 0 0 0
   
a0 ,b 1 1 1 1 a0 ,b0 0 0 0 0
G = G =
0 0 0 0 1 1 1 1
Mertens et Zamir (1971) ont montr quici
1
cavI vexII u(p, q) = < 0 = vexII cavI u(p, q).
4
3.2. Les jeux compacts. vT et v sont des applications M -
Lipschitz, concaves par rapport la premire variable et convexes
par rapport la seconde. Rappelons que u est la valeur du jeu non
rvlateur. Le rsultat suivant, que nous nous contentons dnoncer,
est d Mertens et Zamir (1971). On se place dans lensemble C des
applications continues de (K) (L) dans R.
Thorme 3.4. (vT )T et (v ) convergent uniformment vers
lunique solution f du systme suivant :
(
f = vexII max{u, f }
f = cavI min{u, f }
Ltude du systme ci-dessus peut se faire sans rfrence aux jeux
rpts (voir Mertens et Zamir 1977, Sorin 1984, Laraki 2001a, Laraki
2001b).
Remarque 3.5. Structure des fonctions non rvlatrices u. Au sein
de C, on considre le sous-ensemble U constitu des valeurs dune
famille de matrices, au sens de lquation (3). Il est possible de montrer
que U est un sous-espace vectoriel de C, contient les fonctions affines,
est stable par produit, par passage au sup et linf, et est dense dans C
pour la topologie de la convergence uniforme.
Remarque 3.6. Le modle de manque dinformation des deux cts
se gnralise au cas o les informations initiales des joueurs ne sont
plus indpendantes. Notons le nouvel ensemble dtats R (au lieu de
K L prcdemment). Ltat r dans R est tir selon une probabilit
connue p = (pr )rR , puis chaque joueur observe un signal dterministe
dpendant de r. Cela revient considrer, pour chaque joueur i, une
76 J. RENAULT

partition Ri de R et supposer que le joueur i observe de faon prive


llment de sa partition qui contient ltat slectionn.
la premire tape, le joueur 1 va jouer une action x = (xr )rR
mesurable par rapport R1 , i.e. telle que (r xr ) soit constante
sur chaque lment de R1 . Aprs lobservation du premier coup du
joueur 1 dans I, on peut calculer la probabilit conditionnelle sur R.
Celle-ci appartiendra lensemble suivant :

I (p) = (r pr )rR | r r > 0,



P r r r 1

r p = 1 et ( )r est R -mesurable .

I (p) contient p, est convexe compact dans (R), et on dit quune


application f de (R) dans R est I-concave si pour tout p dans (R)
sa restriction I (p) est concave. Pour g : (R) R majore, on d-
finit cavI g comme la plus petite fonction I-concave suprieure g. On
dfinit de faon analogue lensemble II (p), la notion de II- convexit
et la II-convexifie vexII g. Ces dfinitions gnralisent celles du cas
dinformations initiales indpendantes, et les rsultats des thormes
3.2 et 3.4 stendent parfaitement (voir Mertens et Zamir, 1971).

4. Somme non nulle et manque dinformation dun seul ct


Ici, deux joueurs vont rpter indfiniment un mme jeu bimatriciel
tir au dpart selon une probabilit connue, seul le joueur 1 prenant
connaissance de la ralisation du tirage. Formellement, on se donne
deux familles (Ak )kK et (B k )kK de matrices de mme taille I J,
et une probabilit p sur K. K, I, J, sont des ensembles finis non vides.
On suppose que chaque joueur a au moins deux actions, |I| > 2 et
|J| > 2, et on suppose pk > 0 pour tout k de K. Le jeu (p) se
droule ainsi :
initialement, un tat de la nature k est tir, une fois pour toutes,
selon p. Le joueur 1 apprend k, pas le joueur 2.
chaque tape t = 1, 2, . . . , simultanment le joueur 1 choisit une
action it I et le joueur 2 choisit une action jt dans J. Le paiement
dtape du joueur 1 est alors Ak (it , jt ), celui du joueur 2 est B k (it , jt ),
et tout ce que les joueurs apprennent avant de passer ltape t + 1
est le couple (it , jt ).
JEUX RPTS INFORMATION INCOMPLTE 77

Lorsque B k = Ak pour tout k, le jeu est somme nulle et on est dans


le cadre de la section 1. Les ensembles de stratgies des joueurs sont
dfinis comme dans cette section, et une paire de stratgies (, ) dans
T induit une probabilit sur lensemble des parties K (I J)
muni de la tribu produit. Les paiements moyens esprs sont nots :
 XT  X
p 1 k e e
T (, ) = Ep,, A (it , jt ) = pk Tk (, ),
e
T
t=1 kK
 T  X
1
Tp (, ) = Ep,,
X
k e e
B (it , jt ) = pk Tk (, ).
e
T
t=1 kK
Il est pratique dutiliser ici la dfinition suivante.

Dfinition 4.1. ( , ) est un quilibre du jeu rpt information


incomplte (p) si :
(i) pour tout k K, (Tk ( , ))T et (Tp ( , ))T convergent
vers des limites respectivement notes k ( , ) et p ( , ),
(ii)
> 0, T0 , T > T0 , k K, , Tk (, ) 6 Tk ( , )+
et
> 0, T0 , T > T0 , T , Tp ( , ) 6 Tp ( , ) + .
(k ( , ))kK , ( p ( , )) RK R est alors appel paiement


dquilibre de (p).

Comme p int((K)), la premire ligne de (ii) quivaut :


> 0, T0 , T > T0 , , Tp (, ) 6 Tp ( , ) + .
Remarquons que cette dfinition dquilibre est tout de mme lg-
rement plus forte que la dfinition usuelle dquilibre uniforme (voir
le texte de T. Tomala sur les jeux rpts dans ce volume) : il est
ici pratique dimposer la convergence de (Tk ( , ))T pour chaque
valeur de k, et non pas seulement la convergence de (Tp ( , ))T . En
quelque sorte, le joueur 1 est vu comme |K| diffrents types possibles
ayant chacun une fonction de paiement spcifique, et on veut que le
paiement de chaque type converge. Si lon est dans le cas de la somme
nulle (Ak = B k pour tout k), lexistence dun tel quilibre implique
lexistence de la valeur et de stratgies optimales pour chaque joueur.
78 J. RENAULT

La question de lexistence dquilibre a t pose par Aumann,


Maschler et Stearns dans les annes soixante. Sorin (1983) a prouv
lexistence pour deux tats de la nature, et le cas gnral a t rsolu
en 1995 par Simon, Spie et Toruczyk (voir les thormes suivants
4.6 et 4.7). Hart (1985) a donn une caractrisation des paiements
dquilibres, qui na toutefois pas entran de preuve dexistence. On
peut consulter Forges (1992) pour un survey.
On note, pour toute probabilit q dans (K),
X
A(q) = q k Ak , u(q) = max min A(q)(x, y),
x(I) y(J)
k
X
B(q) = qk B k , v(q) = max min B(q)(x, y).
y(J) x(I)
k
Si = ((i, j))(i,j)IJ (I J),
X
A(q)() = (i, j)A(q)(i, j)
(i,j)IJ

et de mme on pose
X
B(q)() = (i, j)B(q)(i, j).
(i,j)IJ

4.1. Existence dun quilibre. Exactement comme dans le


cas de la somme nulle, une paire de stratgies (, ) induit une suite
da posteriori (pt ())t>0 qui est une Pp,, - martingale valeurs dans
(K). Du point de vue de lexistence dun quilibre, on va se res-
treindre aux cas o cette martingale bouge au plus une fois.
Dfinition 4.2. Un plan joint dans (p) est un triplet (S, , ),
o :
S est un ensemble ( de messages ) fini non vide,
= (k )kK ( stratgie de signalling ) avec pour tout k, k
(S) et pour tout s, s = kK pk ks > 0,
P

= (s )sS ( contrat ) avec pour tout s, s (I J).


Lide, due Aumann, Maschler et Stearns, est la suivante. Le
joueur 1 observe k, puis choisit s S selon k et annonce s au
joueur 2. Ensuite les joueurs jouent des actions pures correspondant
aux frquences s (i, j), pour i dans I et j dans J. tant donn un
plan joint (S, , ), on dfinit :
JEUX RPTS INFORMATION INCOMPLTE 79

s S, ps = (pks )kK (K), avec pks = pk ks /s pour tout k.


ps est la posteriori sur K sachant s.
= (k )kK RK , avec pour tout k, k = maxsS Ak (s ).
s S, s = B(ps )(s ) et
X X X
= pk ks B k (s ) = s s .
kK sS sS

Dfinition 4.3. Un plan joint (S, , ) est un *plan joint si :


(i) s S, s > vex v(ps ).
(ii) k K, s S tel que pks > 0, Ak (s ) = k ( incitation du
joueur 1 choisir s selon k ).
(iii) q (K), h, qi > u(q).

tant donn un *plan joint, on dfinit un couple de stratgies


( , )
adapt au plan joint. Pour tout message s de S, fixons tout
dabord une suite (ist , jts )t>1 dlments de I J telle que pour tout
couple (i, j), la suite des frquences empiriques converge vers la pro-
babilit correspondante :
1
{t | 1 6 t 6 T, (ist , jts ) = (it , jt )} s (i, j).

T T

On se donne galement un entier ` et une application injective f :


S I ` correspondant un code entre les joueurs pour annoncer un
lment de S.
On dfinit de la faon suivante. Le joueur 1 observe ltat k
slectionn, puis choisit s selon la probabilit k , et annonce s au
joueur 2 en jouant f (s) pendant les ` premiers coups. Enfin, joue
ist chaque date t > ` tant que le joueur 2 joue jts . Si une date t > `
le joueur 2 ne joue pas jts alors le joueur 1 se met jouer une stratgie
de punition du joueur 2 dans le jeu de probabilit initiale ps , i.e. le
joueur 1 joue une stratgie optimale dans le jeu somme nulle de
probabilit initiale ps o les paiements du joueur 1 sont (B k )kK .
On dfinit maintenant . Le joueur 2 joue arbitrairement au dbut
puis la fin de ltape ` il dduit le message s des coups du joueur 1.
Il joue ensuite chaque date t > ` laction jts tant que le joueur 1
joue ist . Si une date t > `, le joueur 1 ne joue pas ist , ou si les `
premiers coups du joueur 1 ne correspondent aucun message, alors
80 J. RENAULT

le joueur 2 se met jouer une stratgie de punition telle que :


> 0, T0 , T > T0 , , k K, Tk (, ) 6 k + .
Une telle stratgie existe en raison de (iii) : cest une stratgie
dapprochabilit par le joueur 2 de lorthant
{x RK | k K, xk 6 k }
(voir section 2, 2.4).

Lemme 4.4 (Sorin, 1983). Un couple de stratgies ( , ) adapt


un *plan joint est un quilibre de (p).

Dmonstration. Pour tout k,


X X
k ( , ) = ks Ak (s ) = ks k k ,
sS sS

daprs (ii), et
X X
( , ) = pk ks B k (s ) = .
kK sS

Supposons que le joueur 2 joue . Lexistence de fait quau-


cune dviation dtectable du joueur 1 nest profitable, et donc que si
ltat est k, le joueur 1 ne pourra gagner plus que maxs0 S Ak (s0 ).
Or ceci vaut k = k ( , ). La preuve peut tre uniforme en et
on obtient :
> 0, T0 , T > T0 , k K, , Tk (, ) 6 k ( , )+.
Supposons enfin que le joueur 1 joue . La condition (i) implique
que le joueur 2 qui joue gagne, si le message vaut s, au moins
vex v(ps ). Comme vex v(ps ) (= cav(v(ps ))) est la valeur, pour le
joueur 2 de paiements (B k )k , du jeu somme nulle de probabilit
initiale ps , le joueur 2 craint la punition du joueur 1, et
> 0, T0 , T > T0 , T , Tp ( , ) 6
X
s s + = + .
sS

Afin de prouver lexistence dquilibres dans (p), on se retrouve


chercher des *plans joints. Lide est tout dabord de considrer,
pour chaque probabilit r sur K, lensemble des vecteurs possibles
JEUX RPTS INFORMATION INCOMPLTE 81

sil y a un plan joint dont r fait partie des a posteriori. Ceci amne
considrer la correspondance(1) suivante.
/
: (K) / RK
r  / {(Ak ())kK | (I J), B(r)() > vex v(r)}

Il est facile de voir que a un graphe compact et des valeurs convexes


non vides, et vrifie :

r (K), q (K), (r), h, qi > u(q).

Supposons maintenant que lon trouve un ensemble fini (ps )sS


dlments de (K), ainsi que des vecteurs de RK et s pour tout
s tels que :
p conv{ps | s S},
q (K), h, qi > u(q),
s S, s (ps ),
s S, k K, ks 6 k avec galit si pks > 0.
Alors il est facile de construire un *plan joint. On se retrouve donc
essayer de dmontrer le rsultat suivant :

Proposition 4.5. Soient p int((K)), u : (K) R une appli-


cation continue, et : (K) RK une correspondance de graphe
compact valeurs convexes non vides tels que :

r (K), q (K), (r), h, qi > u(q).

Alors il existe un ensemble fini S, une famille (ps )sS dlments de


(K), ainsi que des vecteurs de RK et s pour tout s de S tels
que :
p conv{ps | s S},
q (K), h, qi > u(q),
s S, s (ps ),
s S, k K, ks 6 k avec galit si pks > 0.

(1)
Rappelons quune correspondance F dun ensemble X dans un ensemble Y est
une application de X dans lensemble des parties de Y . Le graphe de la corres-
pondance F est alors dfinie comme {(x, y) X Y | y F (x)}.
82 J. RENAULT

La preuve de ce rsultat repose sur un thorme de point fixe de


type Borsuk-Ulam(2) dmontr par Simon, Spie et Toruczyk (1995)
via des outils de topologie algbrique (on peut voir Renault, 2000,
ou Simon 2002 pour le passage la proposition 4.5). Une version
simplifie de ce rsultat de type point fixe est donne maintenant :
Thorme 4.6 (Simon, Spiez et Torunczyk, 1995). Soient C un
compact dun espace euclidien de dimension n, x int(C), et Y une
union finie de sous-espaces affines de dimension n 1 dun espace
euclidien. Soit F une correspondance de C dans Y de graphe compact
valeurs convexes non vides. Alors il existe L C et y Y tels
que :
l L, y F (l) et x conv(L).
Remarquons que pour n = 1 (qui correspond deux tats pos-
sibles), limage par F de la composante connexe de C contenant x est
ncessairement un singleton, donc le rsultat est clair. Tous comptes
faits, on aboutit donc :
Thorme 4.7 (Simon, Spiez et Torunczyk, 1995). Il existe un
*plan joint. Donc il existe un quilibre dans le jeu rpt (p).

4.2. Caractrisation des paiements dquilibre. On pr-


sente ici la caractrisation des paiements dquilibre due S. Hart
(1985). Notons dans cette partie p0 int((K)) la probabilit ini-
tiale. Soit un quilibre ( , ) de (p0 ) de paiement (a, ) RK R.
On a daprs la dfinition 4.1 :
k K, > 0, T0 , T > T0 , , Tk (, ) 6 ak + .
Donc lorthant {x RK | k K, xk 6 ak } est approchable par le
joueur 2, et on montre avec le thorme 2.4 (voir aussi la partie 2.4) :
(5) q (K), ha, qi > u(q)
La proprit (5) sappelle la condition de rationalit individuelle du
joueur 1, et ne dpend pas de la probabilit initiale dans int((K)).
En ce qui concerne le joueur 2, on a :
> 0, T0 , T > T0 , T , Tp0 ( , ) 6 + ,

(2)
Pour toute application continue de la sphre unit de Rn+1 dans Rn il existe
deux points diamtralement opposs ayant la mme image.
JEUX RPTS INFORMATION INCOMPLTE 83

donc par le thorme 1.15 :


(6) > vex v(p0 ).
La proprit (6) sappelle la condition de rationalit individuelle du
joueur 2 : lquilibre, ce joueur doit avoir au moins la valeur du jeu
o les paiements du joueur 1 sont opposs aux siens.
Supposons un instant que soit une stratgie non rvlatrice du
joueur 1, au sens o le joueur 1 joue indpendamment de ltat k
slectionn. Supposons galement que les joueurs jouent des actions
dont les frquences empiriques convergent vers les probabilits dune
distribution = (i,j )(i,j)IJ (I J). On aura alors :
X X X
k K, ak i,j Ak (i, j) et = pk0 i,j B k (i, j),
i,j k i,j

et si les conditions de rationalit individuelle sont vrifies, alors au-


cune dviation dtectable dun joueur nest profitable. Ceci amne
dfinir lensemble suivant, o M est une constante fixe gale
max{|Ak (i, j)|, |B k (i, j)|, (i, j) I J}, et o RM = [M, M ].

Dfinition 4.8. Soit G lensemble des triplets (a, , p) RK


M RM
(K) tels que :
(1) q (K), ha, qi > u(q),
(2) > vex v(p),
(3) il existe (I J) tel que = k pk i,j i,j B k (i, j) et
P P

pour tout k K, ak > i,j i,j Ak (i, j) avec galit si pk > 0.


P

On est amen considrer toutes les probabilits initiales possibles


p (K) car la variable dtat importante du modle est, l encore,
la martingale des a posteriori du joueur 2 sur ltat de la nature.
Pour p int((K)), {(a, ) | (a, , p) G} est lensemble des paie-
ments dquilibre non rvlateurs de (p). La dfinition suivante est
essentielle.

Dfinition 4.9. On dfinit lensemble G comme lensemble des l-


ments g = (a, , p) RK M RM (K) tels quil existe un espace
probabilis (, A, Q), une suite croissante (Fn )n>1 de sous-tribus fi-
nies de A, une suite de v.a. (gn )n>1 (an , n , pn )n>1 dfinies sur (, A)
valeurs dans RKM RM (K) satisfaisant :
(i) g1 = (a, , p) p.s.,
84 J. RENAULT

(ii) (gn )n>1 est une (Fn )n>1 martingale,


(iii) n > 1, an+1 = an p.s. ou pn+1 = pn p.s., et
(iv) (gn )n converge p.s. vers une v.a. g valeurs dans G.
Oublions dans un premier temps la composante du paiement du
joueur 2. Un processus (gn )n vrifiant (ii) et (iii) sappelle une bi-
martingale, cest une martingale telle qu chaque tape, il existe
une des deux composantes qui nvolue p.s. pas. G peut donc se
voir comme lensemble des points de dpart des bi-martingales qui
convergent dans G. Limportance ici de lensemble G vient du rsul-
tat suivant.
Thorme 4.10 (Hart, 1985). Soit (a, ) RK R.
(a, ) est un paiement dquilibre de (p0 ) (a, , p0 ) G .
Donnons maintenant dans les deux paragraphes suivants, non pas
une dmonstration, mais une ide approximative de la preuve du tho-
rme 4.10.
Commenons par limplication . Fixons un quilibre ( , ) de
(p). La suite des a posteriori (pt ())t>0 est une Pp,, - martin-
gale. Modifions lgrement la structure temporelle de telle sorte qu
chaque tape le joueur 1 joue dabord, puis que le joueur 2 joue sans
avoir pris connaissance du coup du joueur 1. chaque demi-tape o
le joueur 2 joue, la posteriori reste constant. chaque demi-tape o
le joueur 1 joue, lesprance du paiement futur du joueur 1 (qui reste
dfinir proprement, laide notamment dune limite de Banach) reste
constante. Do, de faon heuristique, lapparition de la bimartingale.
Enfin, par convergence des martingales bornes, au bout dun moment
tout sera fix et on jouera alors approximativement un quilibre non
rvlateur pour un a posteriori limite, donc on convergera vers des
lments de G.
Passons maintenant limplication . Soit (a, ) tel que
(a, , p0 ) G , et supposons pour simplifier que la bi-martingale
associe (an , n , pn ) converge en un nombre fix N dtapes :
n > N, (an , n , pn ) = (aN , N , pN ) G.
On peut construire un quilibre ( , ) de (p0 ) de paiement (a, )
de la faon suivante. chaque fois, (an , n ) sera un paiement dqui-
libre du jeu de probabilit initiale pn . Aprs une certaine tape, le
JEUX RPTS INFORMATION INCOMPLTE 85

joueur 1 jouera de faon indpendante de ltat de la nature, la pos-


teriori du joueur 2 sera pN , et on jouera jusqu la fin des temps un
quilibre non rvlateur de (pN ) de paiement (aN , N ). Comment
arriver jusque l ? Souvenons-nous que, de par la dfinition mme des
paiements dans le jeu infiniment rpt, le poids dun nombre fini
dtapes est nul. Les joueurs peuvent donc passer un grand nombre
dtapes communiquer, sans que cela ninflue sur les paiements.
Soit un indice n < N tel que an+1 = an . Pour passer de (an , n , pn )
(an , n+1 , pn+1 ), le joueur 1 peut utiliser le lemme 1.5 de split-
ting afin de signaller une partie de linformation au joueur 2. Soit
maintenant un indice n < N tel que pn+1 = pn . On souhaite passer
de (an , n , pn ) (an+1 , n+1 , pn ). Le joueur 1 va jouer indpendam-
ment de ltat, et les deux joueurs vont agir de faon convexifier
leurs paiements futurs. Ceci peut se faire au moyen de procdures
appeles loteries conjointement contrles, et introduites ds les an-
nes soixante (Aumann Maschler, 1995). Lide est la suivante. Ima-
ginons que les deux joueurs doivent dcider avec probabilits gales
de jouer lquilibre E1 de paiement (a1 , 1 ) ou de jouer lquilibre
E2 de paiement (a2 , 2 ). Les joueurs ne sont pas ncessairement in-
diffrents entre les deux quilibres, il est possible par exemple que le
joueur 1 prfre E1 alors que le joueur 2 prfre E2. On peut procder
ainsi. Notons i et i0 , respectivement j et j 0 , deux actions diffrentes
du joueur 1, resp. joueur 2. Simultanment et indpendamment, le
joueur 1 va jouer i ou i0 probabilits gales, et le joueur 2 va jouer
j ou j 0 probabilits gales.

j j0
 
i .
i0

Puis les joueurs dcident conjointement de jouer E1 si on est sur


la diagonale, i.e. si (i, j) ou (i0 , j 0 ) est jou, et de jouer E2 sinon.
Cette procdure est robuste aux dviations unilatrales : aucun des
joueurs ne peut dvier de faon empcher que E1 et E2 soient choisis
avec probabilits gales. Plus gnralement, les loteries conjointement
contrles permettent de slectionner une alternative au sein dun
ensemble fini selon une probabilit voulue (penser aux expansions
binaires), et ceci de faon robuste aux dviations de la part dun seul
86 J. RENAULT

joueur. S. Hart a montr quen combinant des tapes de signalling


et des loteries conjointement contrles, il tait possible de construire
un quilibre de (p0 ) de paiement (a, ).

4.3. Biconvexit et bimartingales. Lanalyse prcdente in-


cite dfinir et tudier certaines proprits gnrales dites de bicon-
vexit. La rfrence ici est larticle de Aumann et Hart (1986).
Soient X et Y des convexes compacts despaces euclidiens, et
(, F, P) un espace probabilis sans atome.

Dfinition 4.11. Un sous-ensemble B de X Y est biconvexe si


pour tous x de X et y de Y , les sections Bx. = {y 0 Y | (x, y 0 ) B}
et B.y = {x0 X | (x0 , y) B} sont convexes. Pour B biconvexe, une
application f : B R est dite biconvexe si pour tout (x, y) X Y ,
f (., y) et f (x, .) sont convexes.

On a, comme pour le cas classique de convexit, que si f est bicon-


vexe, alors pour tout rel , lensemble {(x, y) B | f (x, y) 6 } est
un ensemble biconvexe.

Dfinition 4.12. Une suite Zn = (Xn , Yn )n>1 de v.a. valeurs dans


X Y est une bimartingale si :
(1) il existe une suite croissante (Fn )n>1 de sous-tribus finies de F
telle que (Zn )n soit une (Fn )n>1 -martingale.
(2) n > 1, Xn = Xn+1 p.s. ou Yn = Yn+1 p.s.
(3) Z1 est p.s. constante.

(Zn )n>1 tant une martingale borne, elle converge presque sre-
ment vers une limite Z .

Dfinition 4.13. Soit A un sous-ensemble mesurable de X Y . On


note A lensemble des z X Y pour lesquels il existe une bi-
martingale (Zn )n>1 avec Z1 = z p.s. et convergeant vers Z avec
Z A p.s.

On peut montrer que tout espace probabilis (, F, P) sans atome,


ou encore tout produit de convexes compacts X Y contenant A,
induisent le mme ensemble A . On peut aussi remplacer la condition
(2) par :
n > 1, (Xn = Xn+1 ou Yn = Yn+1 ) p.s.
JEUX RPTS INFORMATION INCOMPLTE 87

Remarquons que, sans cette condition (2) de bi-martingale, len-


semble A serait seulement lenveloppe convexe de A, et on a toujours
A A conv(A). Ces inclusions peuvent tre strictes. Par exemple,
si X = Y = [0, 1] et A = {(0, 0), (1, 0), (0, 1)}, on montre que
A = {(x, y) [0, 1] [0, 1] | x = 0 ou y = 0}.
A est toujours biconvexe, et contient donc biconv(A), le plus petit
ensemble biconvexe qui contient A. Linclusion biconv(A) A peut
galement tre stricte, comme le montre lexemple suivant :

Exemple 4.14. On pose


X = Y = [0, 1],
v1 = (1/3, 0), v2 = (0, 2/3), v3 = (2/3, 1), v4 = (1, 1/3),
w1 = (1/3, 1/3), w2 = (1/3, 2/3), w3 = (2/3, 2/3), w4 = (2/3, 1/3),
A = {v1 , v2 , v3 , v4 }.

v3
`

w2
v2 ` ` ` w3

w1 ` ` ` v4
w4

v1 `

A est biconvexe, donc A = biconv(A). Soit maintenant le processus


markovien (Zn )n>1 suivant : Z1 = w1 . Si Zn A, alors Zn+1 = Zn .
Si Zn = wi pour un i, alors Zn+1 = wi+1(mod 4) avec probabilit 1/2,
et Zn+1 = vi avec probabilit 1/2. (Zn )n est une bimartingale qui
converge p.s. vers un point de A, donc w1 A \ biconv(A).

Donnons maintenant une caractrisation gomtrique de lensemble


A . On suppose ici A ferm. Pour chaque sous-ensemble biconvexe B
de X Y qui contient A, on note nsc(B) lensemble des points de B
qui ne peuvent tre spars de A par une fonction biconvexe borne
88 J. RENAULT

continue sur A. Plus prcisment,



nsc(B) = z B | f : B R borne biconvexe continue sur A,
f (z) 6 sup{f (z 0 ), z 0 A} .

Thorme 4.15 (Aumann et Hart, 1986). A est le plus grand en-


semble biconvexe B contenant A tel que nsc(B) = B.

Revenons au contexte des jeux et aux notations de la partie 4.2.


Pour tre prcis, il faut tenir compte de la composante paiement du
joueur 2, donc modifier trs lgrement les dfinitions. G est ferm
dans RK K
M RM (K). Pour B RM RM (K), B est bicon-
vexe si pour tous a dans RK M et pour tout p dans (K), les sections
{(, p0 ), (a, , p0 ) B} et {(a0 , ), (a0 , , p) B} sont convexes. Une
fonction relle f dfinie sur un ensemble biconvexe B est dite bicon-
vexe si pour tous a et p, f (a, ., .) et f (., ., p) sont convexes.

Thorme 4.16 (Aumann et Hart, 1986). G est le plus grand en-


semble biconvexe B contenant G tel que : z B, f : B R
biconvexe borne continue sur A, f (z) 6 sup{f (z 0 ), z 0 G}.

5. Extensions, divers
Concernant la modlisation, les fondements des jeux information
incomplte sont tudis par Harsanyi (1967) et par Mertens et Zamir
dans (1985). Par ailleurs, les rsultats prsents prcdemment ne
constituent que la base des jeux rpts information incomplte,
et il existe de nombreuses extensions et variantes. La prsentation
suivante est srement imparfaite et ne prtend pas lexhaustivit. On
naborde notamment pas ici les liens entre jeux rpts information
incomplte et phnomnes de rputation, merging de probabilits,
lapprentissage, le cheap-talk,...

5.1. Signaux. Les modles dfinis dans ce texte se gnralisent


au cas dobservation imparfaite. On se donne des ensembles (finis)
de signaux U et V , et une application ` : K I J (U V ).
Aprs chaque tape t, si ltat est k et que (it , jt ) a t jou, on
tire (ut , vt ) selon `(k, it , jt ). Le joueur 1, resp. joueur 2, apprend alors
uniquement ut , resp. vt , avant de passer ltape t + 1. Quand ` ne
dpend pas de ltat k on dit que les signaux sont indpendants de
JEUX RPTS INFORMATION INCOMPLTE 89

ltat. Le cas o U = V = I J et `(k, i, j) est la mesure de Dirac


sur ((i, j), (i, j)) pour tous k, i, j, correspond aux modles prcdents
dits dobservation parfaite.
Aumann et Maschler ont gnralis le thorme 1.15 au cadre
gnral de signaux. Pour une action x (I), une action j dans J
et un tat k, notons xQkj la marginale sur V de la distribution
P
iI xi `(k, i, j) des signaux reus par le joueur 2. On dfinit
lensemble des stratgies non rvlatrices du joueur 1 comme :

NR(p) = {x = (xk )kK (I)K |


0 0 0
k K, k 0 K tels que pk pk > 0, j J, xk Qkj = xk Qkj }.
Si la probabilit initiale est p et que le joueur 1 joue selon une stratgie
dans NR(p), la posteriori du joueur 2 restera presque srement gal
la priori p. La valeur du jeu NR p devient ici :
X
u(p) = max min pk Gk (xk , y)
xNR(p) y(J)
kK
X
= min max pk Gk (xk , y),
y(J) xNR(p)
kK
avec la convention u(p) = si NR(p) = . Avec ces notations,
on a le mme nonc que le thorme 1.15 : la valeur du jeu rpt
de probabilit initiale p existe et vaut cav u(p). Kohlberg (1975) et
Mertens, Sorin et Zamir (1994) (partie B, chapitre V, 3.d.) ont gn-
ralis dans ce cadre la construction dune stratgie optimale explicite
de type approchabilit pour le joueur 2.
En ce qui concerne les jeux somme nulle et manque dinformation
des deux cts, Mertens (1972) et Mertens et Zamir (1971 et 1977),
ont gnralis ltude de la partie 3 au cas de signaux indpendants de
ltat. Dans les jeux manque dinformation dun seul ct et somme
non nulle, lexistence dquilibre a t gnralise pour des signaux
indpendants de ltat dans Renault, 2000 (voir aussi Simon, Spie et
Toruczyk 2002).

5.2. Deux joueurs somme nulle. Indiquons tout dabord quil


est crucial, pour la validit du thorme 1.15, que le joueur 1 connaisse
la priori p du joueur 2 sur ltat de la nature (voir Sorin et Zamir
1985, pour un jeu rpt manque dinformation dun ct et demi
sans valeur).
90 J. RENAULT

Dans lexemple 1.3, Mayberry (1967) a tudi la valeur v du jeu


escompt et a montr que pour 2/3 < < 1, v a une drive dis-
continue en tout point rationnel p (voir aussi Zamir, 1992 ou Sorin,
2002).
Dans le cas gnral, de nombreux travaux tudient les liens entre
les valeurs des jeux finiment rpts, ou escompts, et obtiennent no-
tamment des proprits sur la convergence de (vT )T ou de (v ) : par
exemple Zamir, 1971, Zamir 1973, Mertens et Zamir 1976, de Meyer
1996a, 1996b, Laraki 2001a. On trouve de nombreuses gnralisa-
tions des thormes principaux. Laraki (2001b) tudie des jeux dits
de splitting . B. de Meyer a introduit la notion de jeu dual
(voir de Meyer 1996b, de Meyer 1998, Rosenberg 1998, de Meyer et
Rosenberg 1999, Laraki 2002).
Donnons juste une ide de ce jeu dual dans le cadre du modle
standard de la section 1. Soit z un paramtre dans RK . Dans le jeu
dual T (z), le joueur 1 commence par choisir secrtement ltat k.
Puis chaque tape t 6 T , les joueurs choisissent classiquement des
actions it et jt qui sont annonces avant de passer ltape suivante.
Le paiement du joueur 1 est finalement T1 Tt=1 Gk (it , jt ) z k . Ce
P

joueur peut donc maintenant choisir ltat k, mais doit le payer au


prix z k . On montre que T (z) a une valeur wT (z). wT est convexe, et
lie la valeur du jeu primal T (p) par les formules de conjugaison :

wT (z) = max (vT (p) hp, zi),


p(K)
vT (p) = inf (wT (z) + hp, zi).
zRK

Certains travaux privilgient une approche fonctionnelle via ltude


doprateurs (Rosenberg et Sorin 2001, voir aussi Sorin, 2002). Cette
approche sapplique la fois aux jeux rpts information incom-
plte et aux jeux stochastiques.
Laraki (2004) tudie loprateur de convexification et sintresse
la prservation de la continuit et du caractre Lipschitz.
Par ailleurs, il est possible de gnraliser le modle standard de la
partie 1 et de prouver lexistence de la valeur dans le cas o ltat
nest plus tir alatoirement une fois pour toutes au dpart, mais vo-
lue selon une chane de Markov observe uniquement par le joueur 1
(Renault, 2006).
JEUX RPTS INFORMATION INCOMPLTE 91

Enfin, de Meyer et Moussa Saley (2003) se sont intresss lori-


gine des mouvements browniens dans les modles financiers. Ils ont
introduit un modle de jeu de march bas sur un jeu rpt manque
dinformation dun seul ct, et prouvent lapparition endogne dun
mouvement brownien.

5.3. Somme non nulle. Dans le cadre de la partie 4.2 des jeux
manque dinformation dun seul ct et somme non nulle, on peut
tudier le nombre dtapes de communication ncessaires la rali-
sation dquilibres, li la convergence des bimartingales (Aumann
et Maschler 1995, Aumann et Hart 1986, Forges 1984, Forges 1990).
Indiquons que F. Forges (1988) a aussi donn une caractrisation des
paiements dquilibres, pour une notion plus gnrale dquilibre ap-
pele quilibre en communication.
Par ailleurs, on peut tudier le sous cas o chaque joueur connat ses
propres paiements. Lorsquil y a manque dinformation dun seul ct,
cela correspond supposer que la matrice des paiements du joueur 2
est indpendante de k. On montre (Shalev, 1994) que tout paiement
dquilibre sobtient alors comme paiement dquilibre compltement
rvlateur. Ce rsultat peut se gnraliser au cas de manque dinfor-
mation des deux cts et somme non nulle (voir larticle non publi
de Koren, 1992), et il peut ne pas exister dquilibre mme quand les
deux joueurs connaissent leurs paiements.
Un autre modle traite du cas dinformation dit symtrique. Les
deux joueurs ont alors une information incomplte, mais identique,
sur ltat de la nature. Ils reoivent aprs chaque tape le mme si-
gnal, dpendant notamment de cet tat. A. Neyman et S. Sorin (1998)
ont montr lexistence de paiements dquilibres dans le cas de deux
joueurs (pour la somme nulle, voir Forges, 1982).
Trs peu dtudes ont concern le cas dau moins 3 joueurs. On
trouve un rsultat partiel (pour deux tats de la nature) dexistence
dquilibre de type plan joint dans Renault (2001a). Enfin, pour des
modles de jeux rpts n joueurs information incomplte et avec
signaux, on trouve des rsultats dexistence dquilibres particuliers
(compltement rvlateurs) chez Renault et Tomala, 2004b (voir aussi
Renault, 2001b), o la transmission stratgique dinformation est tu-
die indpendamment des paiements.
92 J. RENAULT

Bibliographie
Aumann (R.J.) & Hart (S.)
[1986] Bi-convexity and bi-martingales, Israel Journal of Mathematics,
54 (1986), p. 159180.
Aumann (R.J.) & Maschler (M.)
[1995] Repeated games with incomplete information, M.I.T. Press,
1995 ; avec la collaboration de R. Stearns (contient une rdi-
tion de travaux de 1966,67,68).
Blackwell (D.)
[1956] An analog of the minmax theorem for vector payoffs, Pacific
Journal of Mathematics, 65 (1956), p. 18.
de Meyer (B.)
[1996a] Repeated games and partial differential equations, Mathematics
of Operations Research, 21 (1996), p. 209236.
[1996b] Repeated games, duality and the central limit theorem, Mathe-
matics of Operations Research, 21 (1996), p. 237251.
[1998] The maximal variation of a bounded martingale and the central
limit theorem, Annales de lInstitut Henri Poincar, Probabilits
et statistiques, 34 (1998), p. 4959.
de Meyer (B.) & Moussa Saley (H.)
[2003] On the strategic origin of Brownian motion in finance, Interna-
tional Journal of Game Theory, 31 (2003), p. 285319.
de Meyer (B.) & Rosenberg (D.)
[1999] Cavu and the dual game, Mathematics of Operations Re-
search, 24 (1999), p. 619626.
Forges (F.)
[1982] Infinitely repeated games of incomplete information : symme-
tric case with random signals, International Journal of Game
Theory, 11 (1982), p. 203213.
[1984] A note on Nash equilibria in repeated games with incomplete
information, International Journal of Game Theory, 13 (1984),
p. 179187.
[1988] Communication equilibria in repeated games with incomplete
information, Mathematics of Operations Research, 13 (1988),
p. 191231.
[1990] Equilibria with communication in a job market example, Quar-
terly Journal of Economics, 105 (1990), p. 375398.
[1992] Repeated Games of Incomplete Information : Non-zero sum,
dans Aumann (R.J.) & Hart (S.), d., Handbook of Game
Theory, I, Elsevier Science Publishers, 1992, p. 155177.
Harsanyi (J.)
[1967-68] Games with incomplete information played by Bayesian
JEUX RPTS INFORMATION INCOMPLTE 93

players, parts I-III, Management Science, 8 (1967-68), p. 159


182, 320334, 486502.
Hart (S.)
[1985] Nonzero-sum two-person repeated games with incomplete infor-
mation, Mathematics of Operations Research, 10 (1985), p. 117
153.
Kohlberg (E.)
[1975] Optimal strategies in repeated games with incomplete informa-
tion, International Journal of Game Theory, 4 (1975), p. 724.
Koren (G.)
[avril 1992] Two-person repeated games where players know their own
payoffs, avril 1992 ; document de travail bas sur une master
thesis lUniversit de Tel-Aviv, 50 pages, http://www.ma.
huji.ac.il/hart/papers/koren.pdf.
Laraki (R.)
[2001a] Variational inequalities, system of functional equations and in-
complete information repeated games, SIAM Journal on control
and optimization, 40 (2001), p. 516524.
[2001b] The splitting game and applications, International Journal of
Game Theory, 30 (2001), p. 359376.
[2002] Repeated games with lack of information on one side : the dual
differential approach, Mathematics of Operations Research, 27
(2002), p. 419440.
[2004] On the regularity of the convexification operator on a compact
set, Journal of Convex Analysis, 11 (2004), p. 209234.
Mayberry (J.-P.)
[1967] Discounted repeated games with incomplete information, dans
Report of the U.S. Arms control and disarmament agency, vol.
ST116, chapter V, Princeton : Mathematica, 1967, p. 435461.
Mertens (J.-F.)
[1972] The value of two-person zero-sum repeated games : the extensive
case, International Journal of Game Theory, 1 (1972), p. 217
227.
Mertens (J.-F.), Sorin (S.) & Zamir (S.)
[1994] Repeated games, dans CORE discussion paper, 1994, p. 9420
9422.
Mertens (J.-F.) & Zamir (S.)
[1971] The value of two-person zero-sum repeated games with lack of in-
formation on both sides, International Journal of Game Theory,
1 (1971), p. 3964.
[1976] The normal distribution and repeated games, International
Journal of Game Theory, 5 (1976), p. 187197.
[1977] A duality theorem on a pair of simultaneous functional equa-
tions, Journal of Mathematical Analysis and Applications, 60
(1977), p. 550558.
94 J. RENAULT

[1985]
Formulation of Bayesian analysis for games with incomplete in-
formation, International Journal of Game Theory, 14 (1985),
p. 129.
Neyman (A.) & Sorin (S.)
[1998] Equilibria in Repeated Games with Incomplete Information :
The General Symmetric Case, International Journal of Game
Theory, 27 (1998), p. 201210.
Renault (J.)
[2000] 2-player repeated games with lack of information on one side
and state independent signalling, Mathematics of Operations Re-
search, 4 (2000), p. 552572.
[2001a] 3-player repeated games with lack of information on one side,
International Journal of Game Theory, 30 (2001), p. 221246.
[2001b] Learning sets in state dependent signalling game forms : a cha-
racterization, Mathematics of Operations Research, 26 (2001),
p. 832850.
[2006] The value of Markov chain games with lack of information on
one side, Mathematics of Operations Research, 31 (2006), p. 490
512.
Renault (J.) & Tomala (T.)
[2004] Learning the state of nature in repeated games with incom-
plete information and signals, Games and Economic Behavior,
47 (2004), p. 124156.
Rosenberg (D.)
[1998] Duality and Markovian strategies, International Journal of
Game Theory, 27 (1998), p. 577597.
Rosenberg (D.) & Sorin (S.)
[2001] An operator approach to zero- sum repeated games, Israel Jour-
nal of Mathematics, 121 (2001), p. 221246.
Shalev (J.)
[1994] Nonzero-Sum Two-Person Repeated Games with Incomplete In-
formation and Known-Own Payoffs, Games and Economic Be-
havior, 7 (1994), p. 246259.
Simon (R.S.)
[2002] Separation of joint plan equilibrium payoffs from the min-max
functions, Games and Economic Behavior, 1 (2002), p. 79102.
Simon (R.S.), Spie (S.) & Toruczyk (H.)
[1995] The existence of equilibria in certain games, separation for fa-
milies of convex functions and a theorem of Borsuk-Ulam type,
Israel Journal of Mathematics, 92 (1995), p. 121.
[2002] Equilibrium existence and topology in some repeated games with
incomplete information, Transactions of the AMS, 354 (2002),
p. 50055026.
JEUX RPTS INFORMATION INCOMPLTE 95

Sorin (S.)
[1983] Some results on the existence of Nash equilibria for non- zero
sum games with incomplete information, International Journal
of Game Theory, 12 (1983), p. 193205.
[1984] On a pair of simultaneous functional equations, Journal of Ma-
thematical Analysis and Applications, 98 (1984), p. 296303.
Sorin (S.) & Zamir (S.)
[1985] A 2-person game with lack of information on 1 and 1/2 sides,
Mathematics of Operations Research, 10 (1985), p. 1723.
Sorin (S.)
[2002] A first course on zero-sum repeated games, Mathmatiques et
Applications, Springer, 2002.
Spinat (X.)
[2002] A necessary and sufficient condition for approchability, Mathe-
matics of Operations Research, 27 (2002), p. 3144.
Vieille (N.)
[1992] Weak approachability, Mathematics of Operations Research, 17
(1992), p. 781791.
Zamir (S.)
[1971] On the relation between finitely and infinitely repeated games
with incomplete information, International Journal of Game
Theory, 1 (1971), p. 179198.
[1973] On repeated games with general information function, Interna-
tional Journal of Game Theory, 21 (1973), p. 215229.
[1992] Repeated Games of Incomplete Information : zero-sum, dans
Aumann (R.J.) & Hart (S.), d., Handbook of Game Theory, I,
Elsevier Science Publishers, 1992, p. 109154.

J. Renault, Ceremade, Universit Paris Dauphine, Place du


Marchal de Lattre de Tassigny, 75775 Paris cedex 16
E-mail : renault@ceremade.dauphine.fr
Url : http://www.ceremade.dauphine.fr/~renault/
JEUX STOCHASTIQUES

par

Rida Laraki

Table des matires


1. Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
2. Droulement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
3. Stratgies. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4. Objectifs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5. quilibre markovien. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6. quilibre stationnaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7. Oprateur de Shapley. . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
8. Jeux absorbants. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
9. Approche semi-algbrique. . . . . . . . . . . . . . . . . . . . . . . . 117
10. Big-Match. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
11. Valeur uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
12. Paris Match. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
13. Extensions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
Bibliographie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

1. Introduction
Les jeux stochastiques modlisent linteraction entre des dcideurs
pouvant influencer leur environnement. Ces jeux ont dabord t in-
troduits et tudis par Loyd Shapley (1953). Depuis, la littrature na
cess de crotre.
98 R. LARAKI

Dans un jeu stochastique, les joueurs font face des buts poten-
tiellement diffrents. Ils doivent assurer un bon paiement aujourdhui
tout en maintenant une esprance de paiement leve pour demain.
Les jeux stochastiques utilisent des outils mathmatiques trs va-
ris. Nous allons prsenter ici quelques rsultats classiques, principa-
lement pour les jeux somme nulle. Plus prcisment, les sections 2
4 prsentent le modle. Les sections (5, 6 puis 12) sont ddies aux
jeux n joueurs et somme non nulle. Les sections 7 11 sont ddies
aux jeux somme nulle.
Ce texte sest inspir principalement du cours sur les jeux rpts
somme nulle de Sorin (2002), du cours NATO sur les jeux sto-
chastiques et leurs applications dit par Neyman et Sorin (2003), du
polycopi de cours de DEA non publi sur les jeux stochastiques
par Solan (2006) et, enfin, dun article sur ltude asymptotique des
jeux absorbants somme nulle par Laraki (2006).

2. Droulement
Nous considrons un espace dtats (ou denvironnements) fini.
Nous avons un ensemble fini de joueurs not N = {1, . . . , |N |}. Dans
chaque tat le joueur i aura un ensemble dactions (par tape) Ai ()
considr lui aussi fini (et non vide). A() = i Ai () est donc len-
semble de tous les profils dactions admissibles en une tape donne
ltat . Nous notons lensemble des couples (tat, profil dactions)
par :
A = {(, a) | a A()} .
Donnons nous aussi une famille de probabilits de transition q : A
() o (X) est lensemble des probabilits sur X, et un tat initial
1 . Enfin, soit g i : A R la fonction de paiement dtape du
joueur i.
Le jeu se droule comme suit :
tape 1 : ltat initial est not 1 . De manire simultane et in-
dpendante, chaque joueur choisit une action dans son ensemble dac-
tions admissibles en 1 . Si le profil a1 = (ai1 )iN A() a t choisi,
chaque joueur i reoit pour ltape 1 le paiement g1i = g i (1 , a1 ). Un
tat 2 est alors tir selon la distribution de probabilit q(1 , a1 ).
JEUX STOCHASTIQUES 99

Ensuite, le couple (tat, profil dactions) (a1 , 2 ) est annonc publi-


quement tous les joueurs.
Le droulement est maintenant dfini par induction.
tape t > 2 : connaissant lhistoire passe ht ,

ht = (1 , a1 , . . . , t1, at1 , t ),

simultanment, chaque joueur choisit de faon indpendante aux


autres une action dans son ensemble dactions admissibles en t . Si
le profil at = (ait )iN est choisi, chaque joueur i reoit pour ltape t
le paiement gti = g i (t , at ). Un tat t+1 est alors tir selon la distri-
bution de probabilit q(t , at ). Enfin, le couple (profil dactions,tat)
(at , t+1 ) est annonc publiquement tous les joueurs.
titre dexemple, la pche est une industrie importante au
Royaume-Uni et en Islande. Les deux pays partagent le mme ter-
ritoire dans lAtlantique. Chaque anne ils doivent fixer des quotas
pour leurs pcheurs respectifs. La dcision des quotas est dtermine
chaque anne par rapport au nombre moyen z de kg de poisson par
km2 . Celui-ci est mesur chaque anne la fin de septembre. Les p-
cheurs pchent gnralement lintgralit de leurs quotas. Le taux de
croissance des poissons est suppos tre de 2% (1 exp(cz)) o c est
une constante fixe. Le gain pour le Royaume-Uni est mesur par le
nombre x de kg de poissons pchs par ses pcheurs par km2 . Le gain
pour lIslande est mesur par le nombre y de kg de poissons pchs
par ses pcheurs par km2 . En supposant que le Royaume-Uni a un
pouvoir de ngociation par rapport lIslande gal [0, 1], cette
description peut scrire comme un jeu stochastique (avec un espace
dtat et des ensembles dactions compacts mais qui peuvent tous
tre discrtiss). La variable dtat serait alors = z. Quand ltat
est z, le Royaume-Uni peut choisir x dans lintervalle A1 (z) = [0, z]
et lIslande peut choisir y dans lintervalle A1 (z) = [0, (1 )z]. Si
ltat actuel est zt et que xt et yt ont t slectionns ltat demain
sera,

zt+1 = (zt xt yt ) + (zt xt yt ) 2% (1 exp(c(zt xt yt )) .

La loi de transition est donc dterministe. Enfin la fonction de paie-


ment du Royaume-Uni est g 1 (, x, y) = x et celle de lIslande est
g 2 (, x, y) = y.
100 R. LARAKI

3. Stratgies
Cest essentiellement la mme dfinition que dans le texte sur les
jeux rpts (ce volume). Ici nous ladaptons notre contexte. Pour
tout entier (ou tape) t, lensemble de toutes les histoires possibles
jusqu la date t est not :
Ht = (A)t1 .
Un lment de Ht sera not ht et la dernire composante est note t .
H1 est identifi avec lespace dtat . La premire histoire nest autre
que 1 . Lensemble de toutes les histoires de longueur finie est not
[
H= Ht .
t>1

Enfin, lespace de toutes les histoires dune longueur infinie (appel


lensemble des parties) est not :

H = (A)N .
Pour chaque date t, Ht dfinit une partition (une algbre ou un cy-
lindre) de H : chaque histoire de longueur finie ht Ht est as-
socie lensemble des histoires infinies qui concident avec ht jusqu
ltape t. Nous notons cette algbre par Ht et notons par H la -
algbre gnre par tous les cylindres.
Une stratgie de comportement i pour le joueur i est une fonction
qui associe chaque histoire de longueur finie une action mixte dans
(Ai ). Lensemble des stratgies de comportement du joueur i est
not i .
Une stratgie de comportement est pure si pour chaque histoire
finie ht , i (ht ) est pure (est une masse de dirac).
Une stratgie mixte est une distribution de probabilit sur les stra-
tgies pures.
Une stratgie de comportement est dite stationnaire si, pour chaque
couple dhistoires de longueur finie ht = (1 , a1 , . . . , t1, at1 , t ) et
hbt = (b
b 1 , b
a1 , . . . , abt1 ,
bbt1, b bbt ),

t =
bbt = (ht ) = (b
hbt ).
Une stratgie stationnaire pour le joueur i sera note xi et un
profil sera not par x = (x1 , . . . , x|N | ). Lensemble des stratgies
stationnaires du joueur i sera not X i , qui peut tre identifi
JEUX STOCHASTIQUES 101

Ai () . Ainsi, le nombre
Q 
de stratgies stationnaires pures
du joueur i est Ai () (o |F | dsigne le cardinal de len-
Q

semble F ).
Une stratgie est dite markovienne si elle dpend seulement de
ltat en cours et du nombre dtapes coules. Mathmatiquement,
une stratgie de comportement est markovienne si, pour chaque couple
dhistoires de mme longueur ht = (1 , a1 , . . . , t1, at1 , t ) et b
ht =
(b
1 , b
a1 , . . . , at1 ,
bt1, b bt ),
t =
bt = (ht ) = (b
ht ).
Chaque profil de stratgies et chaque tat initial 1 dfinissent
une unique distribution de probabilit sur H (voir le texte sur les
jeux rpts (ce volume)). Cette probabilit sera note P1 , et les-
prance mathmatique associe sera not E1 , .

4. Objectifs
Ce sont essentiellement les mmes dfinitions que celles du le texte
sur les jeux rpts (ce volume). Ici, nous les adaptons notre contexte
et les reprenons pour prserver une certaine indpendance entre les
textes de ce volume.

4.1. Approche compacte. Dans cette approche on cherche une


modlisation qui permet lapplication directe des thormes stan-
dards dexistence de lquilibre. On suppose donc que chaque joueur i
cherche maximiser une fonction de paiement total. Une telle fonc-
tion i associe chaque suite de paiements dtapes g i (t , at ) t=1,...
une valeur dans lintervalle [M, M ] que lon peut interprter comme
le paiement moyen par tape, o
i
M= max g (, a) .
(i,,a)IA

Rappelons que H est toujours munie de la topologie naturelle in-


duite par les cylindres. On supposera dans lapproche compacte que
pour chaque profil destratgies pures des autres joueurs i , la fonc-
tion i 7 i i , i o i parcourt lensemble des stratgies pures
du joueur i, est continue pour la topologie naturelle induite par les
cylindres.
102 R. LARAKI

Lensemble de stratgies pures tant clairement compact pour la


topologie naturelle, il est possible dappliquer un thorme standard
et den dduire lexistence dun quilibre en stratgies mixtes. Le tho-
rme de Kuhn (voir le texte sur les jeux rpts (ce volume)), nous
permet ensuite de dduire lexistence dun quilibre en stratgies de
comportement.
Pour prouver lexistence dun quilibre ayant des proprits plus
spcifiques (stationnaire ou markovien) il nous faut plus de structure
dans les paiements. Les deux types de jeux qui vont suivre nous int-
ressent tout particulirement du fait de leur rcursivit et de lintrt
quils suscitent dans les applications.
Le jeu rpt fini T dure T tapes. Dans un tel jeu, on sup-
pose que le paiement (moyen) du joueur i pour une partie h =
(1 , a1 , . . . , t , at , . . . ) H est
T
X 1 i
gTi (h ) = g (t , at ) .
T
t=1
Dans le jeu escompt , avec ]0, 1], on suppose que le paiement
du joueur i est

X
gi (h ) = (1 )t1 g i (t , at ).
t=1
Il est facile de voir que ces deux jeux appartiennent la famille
des jeux compacts et donc admettent des quilibres en stratgies de
comportement. Deux questions restent rsoudre : trouver des qui-
libres particuliers (stationnaires ou markoviens) mais aussi tudier le
comportement asymptotique quand les joueurs sont de plus en plus
patients (T ou 0).
Dans le cadre des jeux deux joueurs et somme nulle, on notera
dans la suite vT (1 ) (resp. v (1 )) la valeur du jeu fini T fois (resp. du
jeu -escompt).

4.2. Approche uniforme. Nous allons montrer dans le section


Big-Match que lunique stratgie optimale peut dpendre explicite-
ment de la dure T du jeu (respectivement du taux descompte ). On
montrera aussi que la stratgie limite, quand T (resp. 0)
peut converger vers une mauvaise stratgie. Ceci justifie lapproche
uniforme, dans laquelle on cherche des stratgies uniformment
JEUX STOCHASTIQUES 103

bonnes : cest--dire presque optimales pour tout jeu fini de dure T


assez grande (resp. tout jeu escompt avec un taux descompte
assez petit).
Dans un jeu somme nulle, on dit que la valeur uniforme v(1 )
existe si pour tout > 0 il existe un profil de stratgies de comporte-
ment (, ) 1 2 et il existe T () tels que pour tout T > T (),
XT 
1 1
(1) E1 ,,e g (t , at ) > v(1 ) e 2 ,
T
t=1
XT 
1 2
(2) E1 ,e, g (t , at ) 6 v(1 ) + e 1 .
T
t=1

Lquation (1) (resp. lquation (2)) sera interprte : le joueur 1


(resp. 2) peut garantir uniformment v(1 ).
La somme dAbel pour une suite borne de rels {zt }tN peut
scrire comme une combinaison convexe infinie des sommes de C-
saro :

X
X T
1 X 
(1 )t1 zt = T 2 (1 )T 1 zt .
T
t=1 T =1 t=1
avec

X
T 2 (1 )T 1 = 1.
T =1

Ainsi, si la moyenne de Csaro (limT T1 Tt=1 zt ) existe, alors la


P

moyenne dAbel (lim0 t1 z ) existe aussi.


P
t=1 (1 ) t
Ceci implique en particulier que si la valeur uniforme existe, alors
pour tout > 0, il existe un profil de stratgies de comportement
(, ) 1 2 et il existe () tels que pour tout 0 < 6 () et
tout (e , e) 1 2 ,
 X 
t1 1
E1 ,,e (1 ) g (t , at ) > v (1 ) ,
t=1
 X 
t1 2
E1 ,e, (1 ) g (t , at ) 6 v (1 ) + .
t=1
Donc si la valeur uniforme existe, alors nous avons :
v = lim v = lim vT .
0 T
104 R. LARAKI

Pour la dfinition dun quilibre uniforme en somme non nulle,


consulter le texte sur les jeux rpts (ce volume). Cependant, mme
dans les jeux somme nulle, un quilibre uniforme nexiste pas tou-
jours par exemple dans le Big Match plus bas do le recours
la valeur dans le cas somme nulle et des paiements uniformes (les
limites de paiements d-quilibres uniformes).
La dfinition exacte de lensemble des paiements dquilibres uni-
formes E0 est similaire celle de la valeur uniforme (voir Mertens,
Sorin et Zamir, p. 403) : on dfinit E comme lensemble des paie-
ments v = (v 1 , v 2 , . . . ) tels quon trouve un profil de stratgies et une
date T qui vrifient : dans tout jeu fini au moins T tapes, dune
part le paiement du joueur i est au moins v i et dautre part en
dviant, aucun des joueurs i ne peut gagner plus que v i + . Puis E0
est lintersection des E pour > 0.
Dans la suite nous allons prsenter plusieurs techniques proposes
dans la littrature pour montrer lexistence et/ou la caractrisation
de lim0 v , ainsi que lgalit entre lim0 v et limT vT . En-
fin, nous dvelopperons la preuve difficile concernant lexistence de
la valeur uniforme (valable seulement dans notre cadre o tous les
ensembles sont finis et o les joueurs se rappellent de tout le pass,
observent les tats et les actions passes).

4.3. Approche infinie. Cette approche consiste dfinir pour


chaque joueur i, une fonction mesurable et borne par M , dfinie di-
rectement sur lensemble des parties H . Les exemples de lapproche
compacte y sont inclus mais nous avons aussi les exemples suivants :
lim inf T Tt=1 T1 g i (t , at ) ;
P

lim supT Tt=1 T1 g i (t , at ) ;


P
P
lim inf 0 t=1 (1 )t g i (t , at ) ;
lim sup0 t i
P
t=1 (1 ) g (t , at ).
Daprs la relation prcdente entre les sommes dAbel et de Csaro
nous dduisons que
T
1X X
lim inf zt 6 lim inf (1 )t1 zt .
T T 0
t=1 t=1
PT
limT inf T1 t=1 zt est donc lvaluation la plus pessimiste de la
suite des paiements dtapes des quatre : si un joueur garantit un
JEUX STOCHASTIQUES 105

montant pour cette valuation, il en est de mme pour les trois autres
valuations.

5. quilibre markovien
Thorme 5.1. Tout jeu stochastique fini T N joueurs admet
un quilibre en stratgies markoviennes.

Dmonstration. Nous montrons ce rsultat par rcurrence sur la


longueur du jeu T . Pour cela nous utilisons un argument de program-
mation dynamique.
Sans perte de gnralit, nous supposerons que les joueurs maxi-
misent la somme des paiements dtapes (au lieu de la somme divise
par la longueur du jeu T ).
Pour T = 1 cest trivial.
Supposons que le rsultat est vrai pour un jeu qui dure T tapes.
Soit le jeu de longueur T + 1 et dtat initial 1 . Quand les joueurs
ont jou une fois, on arrive un tat 2 et il reste jouer T tapes. En
utilisant lhypothse de rcurrence, nous slectionnons pour chaque
tat futur possible 2 un quilibre markovien dans le jeu qui dure
T tapes. Chaque joueur dcide alors de jouer, partir de ltape 2,
lquilibre markovien du jeu fini qui dure T tapes.
Soit f i (2 ) le paiement global dun tel quilibre (en sommant les
paiements dtapes partir de ltape 2). Ainsi, ltape 1, on peut
considrer que les joueurs font face au jeu statique suivant :
Lensemble des joueurs est N ;
Lensemble dactions du joueur i est Ai (1 ) ;
La fonction de paiement du joueur i est :
X
ri (1 , a) = g i (1 , a) + q(1 , a)(2 )f i (2 ).
2

Ce jeu fini admet un quilibre en stratgies mixtes par application


du thorme de Nash. Supposons alors que dans le jeu fini de T + 1
tapes, les joueurs commencent par jouer un quilibre du jeu statique
puis jouent lquilibre markovien slectionn dans le jeu fini qui dure
T tapes. Ceci dfinit un quilibre markovien du jeu fini en T + 1
tapes.
106 R. LARAKI

6. quilibre stationnaire
Shapley (1953), linventeur du modle des jeux stochastiques, a
montr lexistence de la valeur et des stratgies optimales station-
naires pour les jeux escompts deux joueurs et somme nulle. Nous
montrons ici le rsultat de Fink (1964) et Takahashi (1964) qui gn-
ralisent Shapley aux jeux n joueurs.
On commence par proposer une mthodologie gnrale pour calcu-
ler explicitement le paiement -escompt gi (, x) pour un profil de
stratgies stationnaires x = (xi )iN .

Proposition 6.1. gi (, x) est lunique solution au systme li-




naire de ||-quations :

gi (, x)
 g i (, a)
X Y 
i i
= x (a ) .
+ (1 ) 0 q(, a)( 0 )gi ( 0 , x)
P
aA() iN

Dmonstration. Puisque les joueurs jouent des stratgies station-


naires, lesprance
de paiement dpend seulement de ltat courant.
i
Donc g (, x) satisfait ncessairement ce systme dquations.
Pour montrer que cest lunique solution, nous utilisons un principe
de maximum. Supposons quil y ait deux solutions, {()} et
{()} , au systme. Soit
0 arg max () (),

et supposons sans perte de gnralit que


(0 ) (0 ) = k > 0.
Alors,
k = (0 ) (0 )
X Y  X 
xi (ai ) (1 ) q(0 , a)( 0 ) ( 0 ) ( 0 )

=
aA(0 ) iN 0

6 (1 )k.
Do k = 0.

Nous en dduisons les proprits suivantes.


JEUX STOCHASTIQUES 107

Proposition 6.2. Pour tout joueur i et tout tat initial , la fonc-


tion (, x) 7 gi (, x) est continue et une fraction rationnelle en .
Dmonstration. Puisque le systme est linaire en , la solution est
ncessairement une fraction rationnelle en . La continuit dcoule du
fait que le systme linaire admet une unique solution.
Nous allons maintenant utiliser la continuit pour montrer que le
jeu admet une stationnarit qui permet lexistence dun quilibre
stationnaire. Pour cela, on dfinit une famille de jeux auxiliaires sta-
tiques similaire celle de la section prcdente. Pour chaque |N |-uplet
de fonctions f 1 , . . . , f |N | de R bornes par M et chaque 1 ,
on considre un jeu en un coup G1 (f 1 , . . . , f |N | ) dfini comme suit :
lensemble des joueurs est N ;
lensemble dactions du joueur i est Ai () ;
la fonction de paiement du joueur i est :
X
ri (1 , a) = g i (1 , a) + (1 ) q(1 , a)(2 )f i (2 ).
2

Thorme 6.3 (Fink (1964), Takahashi (1964)). Tout jeu stochas-


tique escompt N joueurs admet un quilibre en stratgies station-
naires.
Dmonstration
tape 1 : nous appliquons le thorme de Kakutani. Considrons
lensemble
Ai () [M, M ]|N ||| .
Y Y 
XF :=
iN
Cest un convexe compact dun espace euclidien de dimension finie.
Un lment de XF sera not
 iN  iN 
(x, f ) = xi () , f i () .

xi () doit tre interprte comme la stratgie joue par le joueur i si


ltat aujourdhui est et f i () comme tant le paiement de conti-
nuation du joueur i si le nouvel tat est .
Nous allons dfinir une correspondance W : XF XF comme
suit. Si les coordonnes de W sont notes
 iN
W = WXi, , WFi, ,

108 R. LARAKI

alors

WXi, (x, f )
g i (, y i , xi ())
 
= arg max ,
+(1 ) 0 q(, y i , xi ())( 0 )f i ( 0 )
P
y i (Ai ())

et
WFi, (x, f ) = g i (, x ()) + (1 )
X
q(, x)( 0 )f i ( 0 ).
0

o la notation (y i , xi ) veut dire que le joueur i utilise la stratgie


stationnaire y i et les autres joueurs le profil xi . La motivation est
la suivante. Considrons le jeu en un coup G (f 1 , . . . , f |N | ). Alors,
WFi, (x, f ) est le paiement espr du joueur i si les joueurs utilisent
le profil de stratgies stationnaires x et WXi, (x, f ) est lensemble de
toutes les meilleures rponses possibles du joueur i face xi .
Il est facile de vrifier que cette correspondance satisfait aux hypo-
thses du thorme de Kakutani (pour la semi-continuit suprieure,
on utilise la proprit de continuit dans la proposition 6.2). Nous
concluons alors lexistence dun point fixe que nous notons (x, f ).
tape 2 : nous montrons que gi (, x) = f i ().
Ceci rsulte de la proposition 6.1. En effet, puisque (x, f ) est un
point fixe de W , nous avons que pour tout i et tout :
X
f i () = g i (, x()) + (1 ) q(, x ())( 0 )f i ( 0 ).
0

tape 3 : nous prouvons que pour toute stratgie i du joueur i,


gi (, i , xi ) 6 gi (, x).
Par dfinition de F , nous avons que pour tout , xi () est
une meilleure rponse du joueur i contre xi () dans le jeu
G (f 1 , . . . , f |N | ). Do, pour tout et tout y i () Ai () ,
X
g i (,y i , xi ()) + (1 ) q(, y i , xi ())( 0 )f i ( 0 )
0
X
6 g i (, x()) + (1 ) q(, x ())( 0 )f i ( 0 )
0
i
= f ()
= gi (, x).
JEUX STOCHASTIQUES 109

Soit ht = (1 , a1 , . . . , t1 , at1 , t ) une histoire partielle de dure t


et soit i une stratgie quelconque du joueur i (qui peut dpendre de
toute lhistoire du jeu). La dernire ingalit permet alors de dduire
que :

 g i ( , i (h ), xi ( )) 
t t t
i i i
E1 ,i ,xi +(1 ) P
q(t , (ht ), x (t ))(t+1 )g (t+1 , x) |ht
t+1

6 gi (t , x).

Ceci implique, aprs une sommation, que


 X 
i i i t1 i
g (1 , , x ) = E1 ,i ,xi (1 ) g (t , at )
t=1
6 gi (1 , x).

Nous avons donc bien un quilibre de Nash stationnaire.

7. Oprateur de Shapley
partir de maintenant et sauf mention explicite, nous nous foca-
liserons sur les jeux deux joueurs et somme nulle.
Puisque ltat du jeu est connu des deux joueurs, chaque joueur
peut crire le principe de programmation dynamique pour calculer
sa stratgie optimale. En fait, v et vT peuvent tre calculs laide
dun mme oprateur appel loprateur de Shapley. Celui-ci tend
le principe de programmation dynamique de Bellman. Ce principe
a t publi par Shapley avant et indpendamment de Bellman. De
plus Shapley traite le cas de deux joueurs alors que Bellman considre
seulement celui dun seul joueur.
Loprateur de Shapley nest autre que loprateur valeur pour un
jeu statique, similaire celui introduit dans la preuve du thorme
5.1. Pour chaque tat possible 1 et chaque fonction f : R borne
par M , on introduit le jeu statique suivant deux joueurs et somme
nulle :
lensemble de stratgies pures du joueur 1 est A1 (1 ) ;
lensemble de stratgies pures du joueur 2 est A2 (1 ) ;
110 R. LARAKI

la fonction de paiement du joueur 1 est :


X
r1 (a, 1 ) = g 1 (a, 1 ) + q(1 , a)(2 )f (2 ).
2

Ce jeu admet une valeur en stratgies mixtes, not (f ) (1 ). Lop-


rateur de Shapley est dfini sur lespace F des fonctions f : R
qui sont bornes par M .
Pour tout ]0, 1[ nous dfinissons loprateur comme suit :
1 
(, f ) = f .

(, f ) (1 ) correspond la valeur en stratgies mixtes du jeu sta-
tique ayant comme paiement :
X
g 1 (a, 1 ) + (1 ) q(1 , a)(2 )f (2 ).
2

Lanalyse de la section prcdente montre le rsultat suivant.

Thorme 7.1. v est lunique lment de F qui vrifie


v = (, v ) .
La suite {vT }T N est lunique suite dans F solution de :
 1 
vT +1 = , vT ;
T +1
v0 = 0.

Il est facile de voir que loprateur (, ) est contractant et donc


admet un unique point fixe. Nous navons donc pas besoin dutiliser
le thorme de point fixe de Kakutani pour lexistence de v ou de
vT mais seulement du thorme du minmax pour montrer que est
bien dfini, et de largument de contraction de Picard.
Remarquons que dans et T , les joueurs ont une stratgie opti-
male markovienne et nont donc besoin dobserver que ltat courant
pour bien jouer. Nous allons voir que, pour bien jouer uniformment,
il est ncessaire que les joueurs observent leurs paiements. Sans cette
observabilit, la valeur uniforme nexisterait pas. Ceci montre une dif-
frence fondamentale et intuitive entre lapproche compacte et lap-
proche uniforme : pour bien jouer uniformment, un joueur joue dune
manire labore.
JEUX STOCHASTIQUES 111

Nous nous intressons ltude de v et vT quand les joueurs sont


de plus en plus patients ( 0 et T ) et la caractrisation
de leur limite si possible. Nous allons commencer par un cas (plus)
simple : celui des jeux absorbants.

8. Jeux absorbants
Dans cette section nous tudions une classe de jeu, introduite for-
mellement par Kohlberg (1974) et qui va nous servir pour illustrer
certains des rsultats exposs et expliquer une partie des difficults
qui peuvent tre rencontres dans les jeux stochastiques.
Un tat est dit absorbant si, une fois atteint, les joueurs ne
peuvent jamais en sortir. Mathmatiquement, cela veut dire que pour
tout profil a A(), on a q (, a) () = 1. Un jeu est absorbant sil
admet seulement un unique tat non absorbant.
Une fois quun tat absorbant est atteint, le jeu est rduit un jeu
rpt information parfaite (dj analys dans le premier texte de
ce volume). Nous savons alors que, partant dun tel tat, un quilibre
existe. Si nous nous intressons lanalyse des quilibres, on peut
supposer, sans perte de gnralit, quune fois quun tat absorbant
est atteint, la suite des paiements est constante et gale un paie-
ment dquilibre (que nous avons pralablement slectionn dans le
jeu rpt).
En rsum, on va supposer dans toute la suite et sans perte de
gnralit, qu tout tat absorbant dans un jeu stochastique est as-
soci un paiement absorbant (un paiement dtape que les joueurs
reoivent toutes les tapes suivantes du jeu). Nous supposerons que
ltat initial 1 dun jeu absorbant est ltat non absorbant (sinon le
jeu serait trivial et sans enjeu). Ds que lon quitte cet tat, le jeu
est essentiellement termin (il ny a plus de difficult mathmatique
lie laspect stochastique). Il nest donc plus ncessaire de spcifier
ltat de dpart dans un jeu absorbant.
Ainsi, un jeu absorbant somme nulle peut tre dcrit dune ma-
nire compacte comme suit. Il y a deux joueurs, 1 et 2. Le jeu est
donn par deux ensembles finis dactions, A1 pour le joueur 1 et A2
pour le joueur 2. Nous avons par ailleurs besoin de deux fonctions de
paiements ge : A1 A2 R et g : A1 A2 R. Enfin, nous avons
112 R. LARAKI

besoin dune famille de probabilits de transition p : A1 A2 [0, 1].


Le jeu est jou comme suit. ltape t = 1, 2, . . . , le joueur 1 choisit
une action a1t A1 et simultanment le joueur 2 une action a2t A2 ,
puis

(i) avec probabilitp a1t , a2t le jeu est absorb et le joueur 1 reoit


le paiement g a1t , a2t chacune des tapes restantes.


(ii) avec probabilit 1 p a1t , a2t = pe a1t , a2t le jeu nest pas


absorb et le paiement de ltape t du joueur 1 est ge a1t , a2t .


Exemple dun jeu darrt. Soit le jeu absorbant suivant deux
joueurs et somme nulle.

C A
C 0 1
A 1 0

Dans ce jeu, il y a deux paiements absorbants : 1 et 0 (ils sont marqus


par ). Le paiement absorbant 1 est atteint si un des profils dactions
(A,C) ou (C,A) est jou (et dans ce cas le joueur gagne 1 par tape,
et ce jusqu la fin des temps, et le joueur 2 gagne loppos, soit 1).
Le paiement absorbant 0 est atteint si (A,A) est jou. Le jeu reste
dans ltat non absorbant si et seulement si les joueurs jouent (C,C)
(cest la seule case de la matrice sans ).
Dans un jeu darrt gnral chaque joueur a deux options : A (ar-
rter) ou C (continuer). Ds quun joueur choisit A, le jeu est absorb
(sarrte) et tant que le jeu continue les joueurs reoivent un paiement
de 0 par tape.
Considrons le profil suivant de stratgies stationnaires dans
lexemple du jeu darrt : le joueur 1 joue (xH, (1 x)B) et le
joueur 2 joue (yG, (1 y)D). Calculons maintenant le paiement du
joueur 1 g (x, y) dans le jeu escompt :

g (x, y) = xy ( 0 + (1 ) g (x, y)) + ((1 x)y + (1 y)x) ,

do
x + y 2xy
g (x, y) = .
1 xy(1 )
JEUX STOCHASTIQUES 113

Dans cet exemple, la valeur v [0, 1] satisfait :



C A
v = valeur C (1 )v 1
A 1 0
= max min [xy(1 )v + x(1 y) + y(1 x)]
x[0,1] y[0,1]
= min max [xy(1 )v + x(1 y) + y(1 x)] .
y[0,1] x[0,1]

On vrifie alors que les joueurs nont pas de stratgies optimales pures.
Si x ]0, 1[ (resp. y ]0, 1[) est la stratgie optimale du joueur 1
(resp. du joueur 2) alors, en utilisant le fait que chaque joueur est
indiffrent entre ces deux actions (les deux ont la mme esprance de
paiement) nous trouvons que :

v = x (1 )v + (1 x ) = x = y .

Donc il existe des stratgies optimales uniques, elles sont stationnaires


et lon a :

1
v = x = y = .
1
Remarquons que v nest pas une fraction rationnelle de . Ceci est
une diffrence fondamentale avec les jeux un seul joueur (program-
mation dynamique). Dans le cas dun joueur, il existe toujours une
stratgie optimale qui est stationnaire et pure pour tout . Ceci im-
plique en particulier que v est une fraction rationnelle de (car cest
un maximum sur un ensemble fini de fonctions rationnelles en ) mais
aussi quil existe un 0 > 0 et une mme stratgie pure qui est opti-
male pour tout < 0 (une stratgie uniformment bonne, Blackwell
(1962)). Enfin, si le jeu darrt se jouait en temps continu (escompt
ou non), le joueur 1 pourrait arrter seul le jeu avec probabilit 1 et
garantir ainsi un paiement proche de 1 : il lui suffit de tirer un instant
uniformment entre le dbut du jeu et un temps trs proche du dbut
et darrter le jeu cet instant. Ceci montre une diffrence fonda-
mentale entre le comportement optimal en temps discret et celui en
temps continu. En effet, en temps discret, le joueur 1 ne peut garantir
darrter le jeu seul.
114 R. LARAKI

Dans cet exemple, lim v existe et est gale 1. Dans la section


suivante nous allons montrer, par lutilisation dune approche semi-
algbrique, que la valeur asymptotique existe pour tout jeu stochas-
tique somme nulle. Dans le cas des jeux absorbants, la convergence
peut tre dmontre plus simplement, en utilisant une approche va-
riationnelle (Laraki 2006). La mthode sinspire de lutilisation des
solutions de viscosit pour montrer lexistence et la caractrisation de
la valeur dans les jeux diffrentiels somme nulle et dcoule dune
mthodologie plus gnrale (voir Laraki 2001, 2002). Cette approche
dans les jeux absorbants permet une caractrisation explicite de lim v
comme la valeur dun jeu.
Nous avons besoin des notations suivantes spcifiques cette sec-
tion :
1
RA+ = {z = (za1 )a1 A1 | za1 R+ } est lorthant positif associ
lensemble fini dactions du joueur 1 A1 (quon peut identifier
lensemble des mesures positives sur A1 ).
1
Pour z RA 1 2
+ , x (A ) et a A ,
2

xa1 est la probabilit avec laquelle le joueur 1 joue lac-

tion a1 .
e(x, a2 ) = 1 2 g (a1 , a2 ) est le paie-
P
g
a1 A1 xa1 (1 p (a , a ))e
ment non absorbant dtape si le joueur 1 joue x et le joueur 2
joue j ;
2 1 2 1 1
P
g (z, a ) =
a1 A1 za1 p (a , a )g (a , a ) est lextension li-
1
naire de ge(, a2 ) RA ;
2
P + 1 2 est la probabilit dabsorp-

p (z, a ) =
a1 A1 za1 p a , a
1
tion tendue linairement RA + ;
e(x, a2 ) = 1 p (x, a2 ) est la probabilit de continuation.
p

Loprateur de Shapley implique que v existe et est lunique rel


dans [M, +M ] qui satisfait
g (x, a2 ) + (1 ) pe(x, a2 )v + g (x, a2 ) .
 
(3) v = max min e
x(A1 ) a2 A2

Proposition 8.1. v converge vers v quand tend vers zro, o v


est donn par la formule suivante :
g (x,a2 )
!
1
p (x,a2 ) {p (x,a2 )>0}
v = sup sup min e(x,a2 )+g (z,a2 )
g .
1 x(A1 ) a2 A2 + 1 (x,a2 )=0}
zRA
+
2
pe(x,a )+p (z,a ) 2 {p
JEUX STOCHASTIQUES 115

Dmonstration. Soit w un point daccumulation de v quand


tend vers zro : w = limn vn o n 0.
tape 1 : nous allons montrer que w 6 v. Lide est de considrer
une stratgie stationnaire optimale x (n ) pour le joueur 1 puis daller
la limite dans loprateur de Shapley. Ce procd est bien connu dans
la thorie du contrle optimal.
De (3), nous dduisons quil existe x (n ) (A2 ) tel que,
n ge(x(n ), a2 ) + (1 n ) pe(x(n ), a2 )vn
 
vn = min .
a2 A2 +g (x(n ), a2 )
Do, pour tout a2 A2 ,
n ge(x(n ), a2 ) + g (x(n ), a2 )
(4) vn 6 .
n pe(x(n ), a2 ) + p (x(n ), a2 )
Par compacit de (A1 ), et en considrant si ncessaire une sous-suite
de {n }, on peut supposer sans perte de gnralit que x (n ) x
(A1 ).
Si p (x, a2 ) > 0, alors en faisant tendre n vers zro, on trouve
que :
g (x, a2 )
w = lim v (n ) 6 .
p (x, a2 )
Supposons maintenant que p (x, a2 ) = a1 A1 xa1 p (a1 , a2 ) = 0, et
P

donc que pour tout a1 tel que xa1 > 0, nous avons p (a1 , a2 ) = 0.
1
Soit alors z(n ) = (xa1 (n )/n )a1 A1 RA + . Lquation (4) devient,
aprs la division par n ,
ge(x(n ), a2 ) + g (z(n ), a2 )
v (n ) 6
pe(x(n ), a2 ) + p (z(n ), a2 )
, r n , a2 .


Puisque A2 est fini, en considrant si ncessaire une sous-suite de


{n }, on peut supposer que r n , a2 converge pour tout a2 . Puisque
pe(x, a2 ) = limn pe(x(n ), a2 ) = 1 et ge(x, a2 ) = limn ge(x(n ), a2 ),
on en dduit que
ge(x, a2 ) + g (z(n ), a2 )
w 6 lim .
n pe(x, a2 ) + p (z(n ), a2 )
Soit > 0. Puisque A2 est fini, on en dduit lexistence dun entier
N () tel que, pour tout a2 A2 ,
116 R. LARAKI

g (x, a2 )
si p (x, a2 ) > 0 alors w 6 .
p (x, a2 )
ge(x, a2 ) + g (z(N () ), a2 )
si p (x, a2 ) = 0 alors w 6 + .
pe(x, a2 ) + p (z(N () ), a2 )
En consquence, w 6 v.
tape 2 : nous montrons que w > v. Lide est de construire une
stratgie du joueur 1 dans le jeu n -escompt qui lui garantit approxi-
mativement v.
Rappelons que n converge vers 0, et que w = lim vn .
1
Soit (z, x) RA 1
+ (A ) -optimal pour le joueur 1 dans lexpres-
sion de v. Supposons que n soit assez petit. Soit
A1 (x) := {a1 A1 | xa1 = 0}
et dfinissons x(n ) (A1 ) comme suit :
si A1 (x) = alors x(n ) = x.
si a1 A1 (x) alors xa1 (n ) = za1 n . P
a1 A1 (x) za1
si a1
/ A1 (x) et A1 (x) 6= alors xa1 (n ) = xa1 n .
|A1 (x)|
Ainsi, nous avons v(n ) > r(n ), o r(n ) est lunique rel dans
[M, M ] qui satisfait,
n ge(x(n ), a2 )
 

r(n ) = min + (1 n ) pe(x(n ), a2 ) r (n ) .



(5)
a2 A2
+ g (x(n ), a2 )
En effet, r(n ) est ce que le joueur 1 sassure de gagner dans le jeu
n -escompt sil joue la stratgie stationnaire x(n ). Soit a2n A2
une stratgie optimale stationnaire pure pour le joueur 2 contre x(n )
dans le jeu n -escompt (un lment du arg min dans (5)). Puisque la
suite (a2n )n>1 appartient un ensemble fini A2 , il y a un nombre fini
de sous-suites de {n } pour lesquelles a2n est constant pour n grand.
Pour chacune de ces sous-suites, (que lon continuera appeler n )
on peut supposer que r(n ) converge vers un certain r. En reprenant
exactement le calcul de ltape 1, nous en dduisons que w > v
pour tout > 0.

Remarquez quon aurait pu obtenir une autre formule en consid-


rant dans la preuve une stratgie optimale du joueur 2 (au lieu du
joueur 1).
JEUX STOCHASTIQUES 117

Coulomb (2001), obtient une formule explicite pour le maxmin uni-


forme des jeux absorbants avec signaux. Si lon suppose lobservation
parfaite des actions et en utilisant le fait que dans ce cas le maxmin
uniforme concide avec la valeur uniforme et donc avec lim v , nous
aboutissons une autre formule pour lim v .
Cette analyse variationnelle et la formule qui en rsulte peuvent
tre tendues aux cas o les ensembles dactions sont compacts et les
fonctions ge, g et p continues. Ceci ne peut tre fait dans le cadre de
Coulomb (2001) qui utilise une approche semi-algbrique. Cependant,
Coulomb tudie le cas uniforme qui ncessite des outils plus complexes
et des stratgies plus labores...

9. Approche semi-algbrique
Ici, nous montrons lexistence de lim0 v pour tout jeu stochas-
tique somme nulle en utilisant une approche semi-algbrique, initie
par Bewley et Kohlberg (1976 a et b). Cela permet de montrer en par-
ticulier que v est variation borne. Cette proprit impliquera que
limT vT existe et est gale lim0 v . Ici on suit Sorin (2002).
Un ensemble dans Rm est semi-algbrique sil peut scrire comme
union finie densembles Ak de la forme :
Ak = {x Rm | pk (x) > 0} ou Ak = {x Rm | pk (x) = 0}.
o pk est un polynme de Rm .
En utilisant le fait que v est lunique point fixe de (, ), on en
dduit le rsultat suivant.
Proposition 9.1. Lensemble des (, v , x ) tel que parcourt ]0, 1],
v est la valeur du jeu -escompt, xi est une stratgie optimale sta-
tionnaire du joueur i est semi-algbrique.
Ce rsultat peut facilement tre tendu aux jeux somme non nulle
en remplaant valeur par paiement dquilibre et stratgie optimale
par profil dquilibre de Nash (pour plus de dtails sur lapproche
semi-algbrique, consulter le chapitre 6 par Neyman dans Neyman et
Sorin 2003).
En utilisant llimination de Tarski-Seidenberg (Benedetti et Risler
1990, thorme 2.21, p. 54) on en dduit quil existe une slection
semi-algbrique par rapport ]0, 1[. Ceci implique lexistence
118 R. LARAKI

dun dveloppement en srie de Puiseux au voisinage de 0 pour chaque


lment z {x , y , v }.

Thorme 9.2 (Bewley and Kohlberg 1976). tant donn un


jeu stochastique (o tout est fini) somme nulle, pour chaque
z {x , y , v }, il existe 0 > 0, k N , rn : R, n = 0, . . . ,
tels que :

X n
z () = rn () k .
n=0
pour tout ]0, 0 [ et tout .

Dmonstration. On applique le rsultat de Forster 1981, thorme


8.14, p. 58, au cas o les paiements sont uniformment borns.

Ainsi dans lexemple du jeu darrt nous avons :



1
v = x = y =
1
 
= 1 1 + + 2 + .


Dans le cadre des jeux avec plus de deux joueurs ou somme non
nulle, on peut montrer lexistence dune slection de stratgies et de
paiements dquilibre ayant un dveloppement en srie de Puiseux.
La fonction f o f F et ]0, 1[ sera dite variation
borne si pour toute suite {n }nN dans ]0, 1[ dcroissante vers 0, nous
avons :
X

n+1 fn < .
f
n=1

Corollaire 9.3. v est une fonction variation borne au voisinage


de 0 et admet une limite quand 0.

Dmonstration. La convergence est une consquence du dvelop-


pement de Puiseux. La variation borne est une consquence du fait
que pour tout (0, 0 ) nous avons :

dv (1k)/k
d 6 C .

Corollaire 9.4. limT vT existe et est gale lim0 v .


JEUX STOCHASTIQUES 119

Ceci est une consquence directe dun rsultat gnral (voir le cha-
pitre 26 par Neyman dans Neyman et Sorin 2003).
Soit un oprateur dun espace de Banach Z dans lui-mme
quon supposera non dilatant, i.e. pour tout z et z 0 dans Z,
k(z) (z 0 )k 6 kz z 0 k. Il est facile de voir alors que, pour
tout z et z 0 dans Z,
   
1 z 1 z 0 6 (1 ) z z 0 .

de sorte que w 1

w admet un point fixe qui est ncessaire-
ment unique (par contraction de Picard). Soit w ce point fixe.
Dfinissons la suite {wT }T =0,1,... dans Z par rcurrence comme
1
suit : w0 = 0 et wT +1 = T +1 (T wT ), celle-ci pouvant scrire aussi
T (0)
wT = T .

Thorme 9.5 (Neyman 2003). Si w est variation borne alors


lim0 w = limT wT .
Pour montrer le dernier corollaire il suffit de prendre = et
Z = F.
Dmonstration. Remarquons que si w est variation borne, elle
converge ncessairement vers un certain w. Supposons que t = 1/t.
Dans ce cas,

1 1 
wt+1 w =
t + 1 (twt ) t + 1 twt+1

t+1

t wt w

6 t+1
t+1
t 
6 kwt wt k + wt wt+1 ,
t+1
soit

(t + 1) wt+1 wt+1 6 t kwt wt k + t wt wt+1 .
En sommant on trouve
T
X

(T + 1) wT +1 wT +1 6 kw1 w1 k +
t wt wt+1 .
t=1
PT
Puisque la somme t=1 wt wt+1 est borne, nous obtenons que
1 PT

t=1 t wt wt+1 0, do le rsultat.

T +1
120 R. LARAKI

10. Big-Match
Avant dtudier lapproche uniforme dans les jeux somme nulle
en gnral, nous tudions le Big-Match. Cest le premier exemple r-
solu explicitement dans le cadre uniforme par Blackwell et Ferguson
(1968). Cest le jeu suivant :

0 1
0 1 0
1 0 1

Lhistoire quils ont utilise pour le prsenter est la suivante :


Chaque jour le joueur 2 choisit un nombre 0 ou 1, et le joueur 1
essaye de prdire le choix du joueur 2, gagnant un point chaque fois
quil a raison. Cela continue tant que le joueur 1 prdit 0. Si un jour
il prdit 1, tous les choix futurs pour les deux joueurs sont contraints
tre les mmes que le choix de ce jour : si le joueur 1 avait raison
ce jour l, il gagne 1 point chaque jour suivant ; sil sest tromp ce
jour l, il gagne 0 tous les jours suivants.
Seul le joueur 1 peut arrter le jeu et ceci arrive ds quil choisit
loption 1. La formule du thorme 7.1 implique que :

0 1
1
vT +1 = valeur 0 1+TvT TvT .
T +1
1 0 1

Par rcurrence, on montre que vT = 1/2. La stratgie ( 21 0, 12 1) du


joueur 2 lui garantit une esprance de gain de 1/2 par tape et
donc 1/2 uniformment. Lunique stratgie optimale du joueur 1 est
1
markovienne et consiste de jouer 1 avec probabilit xm = m+1 , sil
reste m tapes jouer (en particulier il nexiste pas de stratgie
stationnaire optimale pour le joueur 1). On calcule facilement que
v = 1/2 et que lunique stratgie optimale du joueur 1 est videm-

ment stationnaire. Elle consiste jouer 1 avec probabilit x = 1+ .
la limite quand 0, le joueur 1 joue 0 avec probabilit 1
chaque tape. Cette stratgie est mauvaise car elle ne permet das-
surer que zro par tape (face cette stratgie, le joueur 2 pourrait
jouer loption 1 chaque tape).
JEUX STOCHASTIQUES 121

Nous allons montrer que le joueur 1 peut garantir uniformment


tout paiement strictement moins que 1/2 (ce qui implique que la va-
leur uniforme de ce jeu existe et est gale 1/2). Cependant, il as-
sez facile de montrer quil na pas de stratgie uniforme qui garantit
exactement 1/2. Pour le montrer il suffit de remarquer que le joueur 1
doit assurer tout le temps un paiement de continuation de 1/2 ce qui
loblige continuer le jeu avec probabilit 1 chaque tape (en jouant
tout le temps loption 0). Cette stratgie ne lui garantit quun paie-
ment de 0. Le Big-Match nadmet donc pas dquilibre uniforme mais
seulement un paiement dquilibre uniforme.
Lide de la construction est la suivante : tant que le jeu nest pas
absorb, si le joueur 1 a obtenu dans le pass un bon paiement (plus
de 1 que de 0), il joue avec une probabilit relativement grande la
stratgie 0, sinon il augmente sa probabilit de jouer 1.

Thorme 10.1 (Blackwell et Ferguson 1968). Pour tout entier


K > 0 le joueur 1 a une stratgie qui garantit uniformment le
paiement K/2(K + 1).

Dmonstration. Fixons un entier K > 0. Pour tout nombre


dtapes T , dfinissons trois entiers :
0T le nombre dtapes avant T o le joueur 2 joue 0 ;
1T le nombre dtapes avant T o le joueur 2 joue 1 ;
kT = 0T 1T .
On remarque que 0T + 1T = T 1, ce qui implique :

kT = 2lT T 1.

Si le joueur 2 a souvent jou 0, kT est grand (en particulier positif).


Dans ce cas, le joueur 1 augmentera sa probabilit de jouer 0. Dans
le cas contraire, kT est petit (en particulier ngatif) et le joueur 1
augmentera sa probabilit de jouer 1.
Nous dfinissons la stratgie du joueur 1, K , comme suit :
ltape T , si le jeu na pas t absorb, jouer 1 avec probabilit
1/(kT + K + 1)2 . On note que si kT = K alors le jeu est absorb
avec probabilit 1. En particulier, tout choix suivant des joueurs naf-
fecte plus les paiements. Nous allons montrer que pour toute suite
122 R. LARAKI

dactions a2 = a21 , . . . , a2t , . . . du joueur 2, nous avons :




T
X 
1 1 K K +1
E1 ,a2 g (t , at ) > .
K T 2(K + 1) 2T
t=1

Ceci impliquerait que la mme proprit est vraie pour toute stra-
tgie pure du joueur 2 et donc aussi pour toute stratgie mixte du
joueur 2. Nous dduirons alors que le joueur 1 peut garantir unifor-
K
mment 2(K+1) pour tout .
Fixons donc une suite dactions a2 = a21 , . . . , a2t , . . . pour le


joueur 2. Remarquons alors que :


1 concide avec 1
si a21 = 1, alors K K1 partir de ltape 2,
2
si a1 = 0, alors K1 concide avec 1
K+1 partir de ltape 2.

Soit t la premire tape o le jeu est absorb (le joueur 1 joue 1).
Dfinissons la variable alatoire XT comme suit :

1/2 si t > T


XT = 1 si t 6 T, a2t = 1

a2t = 0

0 si t 6 T,

Si le jeu sest arrt avant ou ltape T , XT reprsente le paiement


dabsorption du joueur 1. Sinon, XT vaut 1/2 (lobjectif approximatif
du joueur 1). Nous allons montrer par rcurrence sur T que

K
E1 ,a2 (XT ) > .
K 2(K + 1)

Pour T = 1 :
Si a21 = 1, alors
 
1 1 1
E1 ,a2 (XT ) = 1 +
K
(K + 1)2 2 (K + 1)2
1
>
2
K
> .
2(K + 1)
JEUX STOCHASTIQUES 123

Si a21 = 0, alors

 
1 1
E1 ,a2 (XT ) = 1
K
(K + 1)2 2
K(K + 2)
=
2(K + 1)2
K
> .
2(K + 1)

Supposons maintenant que la dernire ingalit est satisfaite pour


T = t0 et montrons quelle est vraie pour T = t0 + 1.

Si a21 = 1, alors

 
1 1
E1 ,a2 (Xt0 +1 ) = 1 2 EK1
1 ,a2 (Xt0 ) +
K
(K + 1) (K + 1)2
 
1 K 1 1
> 1 2 +
(K + 1) 2K (K + 1)2
K
= .
2 (K + 1)

Si a21 = 0, alors

 
1
E1 ,a2 (Xt0 +1 ) = 1 E1 ,a2 (Xt0 )
K
(K + 1)2 K+1
 
1 K +1
> 1 2
(K + 1) 2(K + 2)
K
= .
2(K + 1)

Soit t := min{t , T } : cest ltape courante si le jeu na pas encore


t absorb, sinon cest ltape dabsorption. Rappelons que si kT =
K, alors le jeu est absorb avec probabilit 1. Donc kT > K do
124 R. LARAKI

0T > (T K 1)/2, ce qui implique que :


XT   0 + (T t ) 1 2 
1 1 t at =1
E1 ,a2 g (t , at ) = E1 ,a2
K T K T
t=1

 t K1 + (T t ) 1 2 
2 at =1
> E1 ,a2
K T
 t + (T t ) 1 2 
2 at =1 K +1
= E1 ,a2
K T 2T
X T 
1 K +1
= E1 ,a2 Xt
T K 2T
t=1
K K +1
> .
2(K + 1) 2T
La stratgie utilise dans la preuve ncessite lobservation par les
joueurs des paiements et de ltat. Sans lobservation des paiements,
la valeur uniforme du Big-Match nexiste pas (Coulomb (1992)). Ce-
pendant, dans le cas dun joueur qui nobserve rien (ni tat, ni paie-
ments), il peut tre dmontr quune stratgie uniforme existe tou-
jours (Rosenberg, Solan et Vieille (2002)) mais elle nest pas aussi
simple (stationnaire) que la stratgie uniforme de Blackwell (1962) en
observation parfaite de ltat.

11. Valeur uniforme


Ici nous tendons le rsultat prcdent, savoir lexistence de la
valeur uniforme, tout jeu stochastique somme nulle.

Thorme 11.1 (Mertens et Neyman (1981)). Tout jeu stochastique


deux joueurs et somme nulle admet une valeur uniforme.

Dmonstration. Comme cela a dj t montr prcdem-


ment, si la valeur uniforme existe, elle est ncessairement gale
lim0 v (1 ) := v (1 ). Nous allons montrer que pour tout > 0,
le joueur 1 peut sassurer uniformment v (1 ) . Par symtrie, le
joueur 2 peut aussi garantir uniformment v (1 ) + , do le rsultat.
Par la section sur loprateur de Shapley, nous avons que pour tout
taux descompte , il existe une stratgie optimale stationnaire x1
JEUX STOCHASTIQUES 125

pour le joueur 1 (lejoueur qui maximise). Donc pour tout et


tout y2 A2 () nous avons

g 1 (, x1 (), y2 ())
X
+ (1 ) q(, x1 () , y2 ())( 0 )v ( 0 ) > v ().
0

Nous allons construire explicitement une stratgie uniforme -


optimale pour le joueur 1 comme suit. chaque tape t, le joueur 1
va jouer la stratgie x1t (t ), o t est une fonction du paiement reu
dans le pass et t est ltat courant. Si le paiement moyen pass
est bon, le joueur 1 va augmenter le poids des opportunits futures
(t+1 < t ). Dans le cas contraire, il doit essayer dassurer un bon
paiement aujourdhui (t+1 > t ).
En effet, le taux descompte (comme le taux dintrt) mesure lim-
portance du paiement de court terme relativement au paiement de
long terme. Dans ltude de la valeur uniforme, le taux descompte
peut tre arbitrairement petit de telle sorte que les opportunits fu-
tures ont un poids trs lev relativement aux opportunits prsentes.
Cela dit, si le joueur a tout le temps des paiements faibles, il ne va ja-
mais pouvoir utiliser les opportunits futures. Le mcanisme dadap-
tation du taux descompte dynamiquement en fonction des perfor-
mances passes permet au joueur de faire proprement son arbitrage
entre le paiement aujourdhui et le paiement demain.
0
Daprs le corollaire 9.3, il existe 0 tel que pour tout 0 < < 6
0 , il existe une fonction positive et intgrable sur [0, 0 ] telle que
0

Z
max v () v0 () = (s)ds.

Soit ]0, M [ fix. On dfinit une fonction D : [0, 0 ] R comme


suit :
12M 0 (s)
Z
1
D(y) = ds +
y s y
Nous allons commencer par montrer quelques proprits sur D
avant de prouver le thorme.
R 0
Proprit 1. D est dcroissante et intgrable ( 0 D(y)dy < +).
126 R. LARAKI

Dmonstration. La dcroissance est vidente. Le second terme, 1y


est clairement intgrable. Pour le deuxime terme, on intervertit les
intgrales ce qui permet dobtenir :
Z 0 Z 0 Z 0 Z 0
(s) (s)
dsdy = dsdy
y=0 s=y s s=0 y=s s
Z 0
= (s)ds 6 2M.
s=0

Proprit 2
   
lim D y y D(y) = lim D (y) D y + y = +.
y0 6M y0 6M
Dmonstration. Nous avons :
Z y
  (s) 1 1
lim D y y D(y) = lim ds + p .
y0 6M y0 y
y s y 6M y y
6M

Le premier terme est positif et le second tend vers +. Lautre limite


se dmontre de la mme faon.

Nous dfinissons maintenant une deuxime fonction sur [0, 0 ]


comme suit :
Z + Z
1
() = D (y)dy = D(y)dy D()
D() 0

Lgalit plus haut se dduit gomtriquement.


Dfinissons aussi pour tout entier t la variable alatoire Zt comme
suit :
Zt = vt (t ) (t ).
Puisque D est intgrable, quand t 0 la quantit (t ) approche 0
et donc Zt approche v0 (t ). Notre but est de construire une stratgie
du joueur 1 telle que Zt soit une sous-martingale. Puisque la stratgie
du joueur 1 va tre de jouer la stratgie optimale du jeu t -escompt,
il nous faut dabord construire les variables alatoires t . Nous allons
les construire inductivement.
Nous choisissons 1 assez petit pour que
(i) (1 ) < ;


(ii) y > D(1 ), D y 6M y D(y) > 6M ;

(iii) y > D(1 ), D (y) D(y + 6M y) > 6M .
JEUX STOCHASTIQUES 127

Ceci est possible grce aux proprits 1 et 2. Nous dfinissons


t+1 = D1 (dt+1 ) o la suite {dt } est dfinie comme suit :
d1 = D(1 )
dt+1 = max D(1 ), dt + g 1 (t , at ) vt (t+1 ) + 4 .


Puisque dt > D(1 ) pour t > 1, nous concluons que t 6 1 .


Nous allons commencer par tudier quelques proprits utiles des
deux suites.

Proprit 3. |dt+1 dt | 6 6M .

Dmonstration. Cela dcoule de sa dfinition puisque g 1 (t , at ) ,
|vt (t+1 )| et sont borns par M .
t
Proprit 4. |t+1 t | 6 6M .

Dmonstration. tudions le cas t+1 6 t (lautre cas se montre de


la mme faon). Donc dt 6 dt+1 ce qui implique daprs la proprit 3
que dt+1 6 dt + 6M .
t
Supposons maintenant que t+1 < t 6M . En utilisant (ii) nous
aurons alors que
t
dt+1 dt > D(t ) D(t ) > 6M,
6M
ce qui est une contradiction.

Nous dfinissons maintenant la stratgie du joueur 1 comme suit :


ltape t, connaissant ltat actuel t et observant le paiement de
ltape prcdente, le joueur actualise le taux descompte t puis
ltape t il joue la stratgie optimale x1t (t ) dans le jeu t escompt.
Appelons cette stratgie 1 .
On dfinit
C1 = (t ) (t+1 );
C2 = vt+1 (t+1 ) vt (t+1 );
C3 = t g 1 (t , at ) vt (t+1 ) .


Rappelons que Zt := vt (t ) (t ) et que


Z
() = D(y)dy D().
0
128 R. LARAKI

Proprit 5. Pour tout t, nous avons :


E1 ,1 ,2 [Zt+1 Zt |Ht ] > E1 ,1 ,2 [C1 + C2 C3 |Ht ] .
Dmonstration. Nous avons, par dfinition de 1
E1 ,1 ,2 t g 1 (t , at ) + (1 t )vt+1 (t+1 ) |Ht > vt (t ),
 

do
t g 1 (t , at ) vt (t )
  
E1 ,1 ,2  > 0.
+ (1 t ) vt+1 (t+1 ) vt (t ) |Ht
Donc

t g 1 (t , at ) vt (t )

+ (1 ) v 
t t+1 (t+1 ) vt (t )
E1 ,1 ,2 + vt+1 (t+1 ) vt+1 (t+1 ) > 0.

+ (t ) (t )


+ (t+1 ) (t+1 ) |Ht
Nous en dduisons donc que
E1 ,1 ,2 [C3 C2 C1 + Zt+1 Zt |Ht ] > 0.
Nous allons maintenant borner les termes C1 , C2 et C3 .
Proprit 6. C1 > t (dt+1 dt ) t .
Dmonstration. Considrons le cas t+1 < t (lautre cas se traite
de la mme faon). Dans ce cas on observe gomtriquement, en uti-
lisant la dfinition de et la proprit 1, que
(t ) (t+1 ) > t (dt+1 dt ) (t+1 t ) (dt+1 dt ) ,
puis nous utilisons les proprits 3 et 4.
Proprit 7. |C2 | 6 t .
Dmonstration. Nous avons :

|C2 | = vt+1 (t+1 ) vt (t+1 )
Z t+1

6 (y)dy .
t
La proprit 4 implique alors que pour tout y entre t et t+1 nous
avons,
t 1
> ,
y 2
JEUX STOCHASTIQUES 129

do
t+1
Z
(y)
|C2 | 6 dy 2t
t y

1 1
= t (dt dt+1 ) + p .

6M t t+1
R
On observe par ailleurs que lintgrale tt+1 (y)
y dy est positive si et
seulement si t < t+1 . Ceci est vrai si et seulement si 1 > 1 .
t t+1

Nous dduisons donc que |C2 | 6 6M |dt dt+1 | t . Il nous suffit donc
dappliquer la proprit 3.

Proprit 8. C3 6 t (dt+1 dt ) 4t .

Dmonstration. Par dfinition de dt+1 nous avons

dt+1 dt > g 1 (, at ) vt (t+1 ) + 4,

do lingalit souhaite.

Nous en dduisons maintenant la proprit souhaite.

Proprit 9. Zt est une sous-martingale qui satisfait


" T #
X
E1 ,1 ,2 [Zt ] > 2E1 ,1 ,2 t + Z1
t=1
> Z1 .

Dmonstration. En utilisant les proprits 5 8 nous obtenons que

E1 ,1 ,2 [Zt+1 Zt |Ht ] > 2t .

Puis en sommant nous en dduisons lingalit recherche.

Nous finissons maintenant la preuve du thorme. Pour cela nous


allons montrer que pour toute stratgie 2 du joueur 2 nous avons
T
!
X 1 1
E1 ,1 ,2 g (t , at ) > v0 (1 ) 7,
T
t=1

pour tout T > T0 que nous choisirons plus tard.


130 R. LARAKI

En remplaant Zt par sa valeur vt (t ) (t ) dans la proprit 9


(la dernire ingalit) nous obtenons que
E1 ,1 ,2 [vt (t )] > v1 (1 ) + (t ) (1 )
> v1 (1 ) (1 )
> v1 (1 ) ,
o la dernire ingalit utilise (i). Nous en dduisons donc que lesp-
rance du paiement t -escompt en t est leve.
Par (i) et par dfinition de Zt nous obtenons que |Zt | 6 2M . Ainsi,
utilisant la proprit 9, nous en dduisons que
+
X 
M
E1 ,1 ,2 t 6 ,

t=1
do
+
X 
M
E1 ,1 ,2 1{t =1 } 6 .

t=1
Par dfinition de dt+1 et en utilisant la proprit 3 nous obtenons :
dt+1 dt 6 g 1 (t , at ) vt (t+1 ) + 4 + 6M 1{t+1 =1 } ,
en sommant nous obtenons :
 X T   X T 
1 1 1
E1 ,1 ,2 g (t , at ) > E1 ,1 ,2 vt (t+1 )
T T
t=1 t=1
 
1
+ E1 ,1 ,2 dT +1 d1 4
T
X+ 
6M
E 1 2 1{t =1 }
T 1 , ,
t=1
d1 6M 2
> v1 (1 )
4 ,
T T
car dT +1 > 0. Il nous suffit maintenant pour conclure de choisir T >
T0 avec
d1 6M 2
 
T0 = max , .
2
Remarque. Nous avons prouv par la mme occasion que
 T 
1X 1
E1 ,1 ,2 lim inf g (t , at ) > v1 (1 ) 7.
T
t=1
JEUX STOCHASTIQUES 131

ce qui montre que tous les exemples de lapproche infinie ont une
valeur qui concide avec la valeur uniforme.

12. Paris Match


Ce jeu a t introduit et tudi explicitement par Sorin (1986) et
il appartient la famille du Big-Match. Lexemple est clbre car il
montre que dans les jeux stochastiques somme non nulle, il ny a
aucun lien entre lapproche asymptotique (lensemble des paiements
dquilibres de Nash quand le taux descompte tend vers zro) et
lapproche uniforme (lensemble des paiements dquilibres de Nash
uniformes). Ceci montre aussi la diffrence fondamentale entre les
jeux rpts sans alas (section 3 du le texte sur les jeux rpts (ce
volume)) et les jeux stochastiques. Lexemple de Sorin (1986) est le
suivant :
G D
H (1,0) (0,1)
B (0,2) (1,0)
Ainsi, en gardant seulement les paiements du joueur 1, nous retrou-
vons le Big-Match tudi par Blackwell et Ferguson (1968).
Soit E lensemble des paiements dquilibres de Nash du Paris-
Match -escompt, ET lensemble des paiements dquilibres de Nash
du Paris-Match rpt T fois et enfin E0 lensemble des paiements
dquilibres uniformes.
Thorme 12.1 (Sorin (1986)). E et ET sont disjoints de E0 . Plus
prcisment, pour tout et T nous avons :
(a) E = {( 12 , 32 )} ;
(b) ET = {( 12 , 32 )} ;
(c) E0 = {( 21 , 1) + (1 )( 23 , 23 ); [0, 1]}.
Dmonstration. Nous donnons seulement lide de la preuve en
suivant Thuijsman au chapitre 12 dans Neyman et Sorin (2003). Pour
une preuve complte veuillez consulter Sorin (1986).
tape 1. Nous prouvons (a), (b) se prouve de la mme manire.
Remarquons que tout paiement dquilibre doit donner au moins 12
au joueur 1 et doit donner au moins 23 au joueur 2. En effet, chaque
joueur peut garantir au moins son montant (le joueur 2 en jouant
132 R. LARAKI

1
3G + 32 D chaque tape et le joueur 1 en jouant comme dans le
1
Big-Match escompt 1+ H + 1+ B).
Soit w le paiement dquilibre le plus favorable au joueur 2 dans
E . Nous allons prouver que w 6 23 (et donc est gal  23 ).
Soit 1 , 2 un quilibre dans tel que g2 1 , 2 = w. Soit w1


(resp. w2 ) le paiement de continuation sous 1 , 2 si ltape 1 la


paire (H, G) a t joue (resp. (H, D) a t joue).
Remarquez que w1 et w2 doivent aussi correspondre des paiements
dquilibres dans pour le joueur 2 (car sinon le joueur 2 pourrait
dvier). Donc on a :

w1 6 w et w2 6 w.

Soit maintenant p la probabilit avec laquelle le joueur 1 joue B


la premire tape sous 1 et soit q la probabilit avec laquelle le
2 1 2

joueur 2 joue D sous . On vrifie facilement que si , est un
quilibre alors p et q sont dans ]0, 1[. Nous en dduisons alors que le
joueur 2 est indiffrent entre ces deux actions la premire tape,
do

w = 2p + (1 p)(1 )w1
= 0p + (1 p)( + (1 )w2 )

La ligne 2 (resp. 3) correspond lesprance de gain si G est joue


(resp. si D est joue). Puisque w1 6 w et w2 6 w nous obtenons :

w 6 2p + (1 p)(1 )w
w 6 (1 p)( + (1 )w).

La deuxime ingalit devient

2 w > (1 p)(2 (1 )w),

et en utilisant la premire ingalit nous trouvons

(2 w) (1 p)( + (1 )w) > (1 p)(2 (1 )w)w

qui est quivalente w 6 23 .


Un calcul similaire montre que le paiement maximal possible pour
le joueur 1 nexcde pas 12 .
JEUX STOCHASTIQUES 133

tape 2. Pour prouver que E0 {( 12 , 1) + (1 )( 23 , 23 ) |


[0, 1]} Sorin (1986) donne largument suivant :
Lide de la preuve est trs simple : si la probabilit dobtenir un
paiement absorbant sur le chemin dquilibre est moins que 1, alors
aprs un certain temps le joueur 1 joue essentiellement laction H ;
les paiements de continuations correspondants partir de cette tape
ne sont pas individuellement rationnels, do la contradiction.
Le lecteur est pri de consulter Sorin (1986) pour la traduction
mathmatique de cet argument.
tape 3. Nous prouvons que {( 21 , 1)+(1)( 23 , 23 ) | [0, 1]}
E0 .
Largument se comprend facilement laide
 dun exemple. Prenons
7 10
par exemple le couple de paiements 12 , 12 et expliquons la mthode
de Sorin pour construire un -quilibre uniforme. Considrons le jeu
auxiliaire somme nulle suivant :

G D
7 5
H 12 12
7 5
B 12 12

Soit 1 une stratgie uniformment -optimale pour le joueur 1


dans le jeu auxiliaire, similaire celle de Blackwell et Ferguson 1968.
5 7
Soit x2 la stratgie stationnaire du joueur 2 qui joue 12 G + 12 D
1 2
chaque tape. Sous ( , x ) le jeu est absorb avec probabilit 1 et
induit donc un vecteur de paiements dans le vrai jeu exactement gal
7 10
12 , 12 . Donc, 1 est une meilleure rponse du joueur 1 dans le
Paris-Match face x2 car sans absorption (en jouant H) le joueur 1
5
gagne seulement 12 . En utilisant la dfinition de la stratgie du joueur
1, il est possible de montrer que x2 est uniformment -optimale face
1 dans le Paris Match (voir Sorin (1986)).

13. Extensions
La construction dune stratgie maxmin uniforme en cas dobser-
vation imparfaite des actions a t faite dune manire indpendante
par Coulomb (2003) et Rosenberg, Solan et Vieille (2003).
134 R. LARAKI

Vieille (2000 a,b) a gnralis remarquablement le rsultat de Mer-


tens et Neyman (1982) aux jeux deux joueurs et somme non
nulle en prouvant lexistence dun paiement dquilibre uniforme. Sa
preuve, en deux tapes, consiste rduire dabord le problme dexis-
tence la classe des jeux rcursifs (jeux dans lesquels les joueurs ont
une fonction de paiement nulle dans tous les tats non absorbants).
Les jeux darrts prsentent la particularit dtre la fois rcursifs
et absorbants do leur intrt.
Exception faite de quelques cas particuliers, comme les jeux ab-
sorbants trois joueurs rsolus positivement par Solan (1999) qui
prouve lexistence dun paiement dquilibre uniforme, le problme
pour les jeux plus de deux joueurs reste entirement ouvert. Solan
et Vieille (2003) ont exhib un jeu darrt quatre joueurs qui prouve
que pour montrer lexistence dun paiement dquilibre uniforme, il
faut ncessairement inventer une nouvelle classe de stratgies, diff-
rentes de celles utilises habituellement (comme celle dans la preuve
de Mertens-Neyman 1981).
Plusieurs personnes conjecturent la non-existence dun paiement
dquilibre uniforme pour tout jeu stochastique n joueurs. Pour
prouver cela, il y a deux possibilits : trouver un contre exemple ou
prouver que lexistence induit un paradoxe mathmatique. La non-
existence a t prouve en temps continu. Laraki, Solan et Vieille
(2004) ont exhib un jeu darrt simple trois joueurs qui nadmet
pas dquilibre approch, que a soit au sens faible (escompt) ou fort
(uniforme). Le mme exemple en temps discret admet un quilibre
stationnaire pour le jeu escompt (par Fink (1964)) et un paiement
dquilibre uniforme (par Solan (1999)).
La classe la plus simple tudier est certainement celle des jeux
darrts. Dans un jeu darrt, chaque joueur a le choix entre A (ar-
rter) ou C (continuer). Tant que le jeu nest pas arrt, le gain
dtape est zro pour chaque joueur. La premire fois quun ou plu-
sieurs joueurs choisissent laction A le jeu est absorb. Le paiement
dabsorption de chaque joueur dpend de la coalition des joueurs S
qui ont arrt le jour de labsorption. part une sous classe rsolue
positivement par Solan et Vieille (2001), le problme de lexistence
dun paiement dquilibre uniforme reste entirement ouvert (peut
tre pourriez vous le rsoudre ?).
JEUX STOCHASTIQUES 135

Lexistence de la valeur dans les jeux escompts a t gnralise


des espaces dtats et dactions plus gnraux par Maitra et Partha-
sarathy (1970) et dautres auteurs jusquau rsultat trs gnral de
Nowak (1985).
Une faon trs naturelle dtudier v et vT consiste tudier les pro-
prits mathmatiques de loprateur de Shapley et de sa drive pour
en dduire la convergence et une caractrisation de la limite. Cette
approche a t utilise pour la premire fois par Kohlberg (1974) dans
le cadre restreint des jeux absorbants et a t dfinie et tudie dune
manire gnrale pour les jeux stochastiques somme nulle par Ro-
senberg et Sorin (2001). Elle a t applique par les deux auteurs pour
tudier les jeux absorbants avec des espaces dactions compacts mais
aussi pour ltude des jeux rpts information incomplte des deux
cts (cf. texte sur les jeux rpts (ce volume)). La mme approche
permet Rosenberg (2000) de montrer lexistence et la caractrisa-
tion variationnelle de la valeur asymptotique des jeux absorbants et
information incomplte dun ct.
Nous invitons les lecteurs intresss par dautres rsultats ou exten-
sions consulter le livre sur les jeux stochastiques dits par Neyman
et Sorin (2003), le livre de Sorin (2002) ou encore louvrage de rf-
rence sur les jeux rpts par Mertens Sorin et Zamir (1994). Pour
une tude dtaille de lapproche infinie (avec des fonctions de paie-
ments mesurables dfinies sur lensemble des parties comme les liminf
et limsup des sommes de Csaro mais aussi dautres objectifs comme
atteindre ou viter un sous ensemble mesurable de H ) vous pouvez
consulter louvrage de rfrence de Maitra et Sudderth (1996).

Bibliographie
Blackwell (D.)
[1962] Discrete dynamic programming, Annals of Mathematical Statis-
tics, 33 (1962), p. 719726.
Blackwell (D.) & Ferguson (T.)
[1968] The Big Match, Annals of Mathematical Statistics, 33 (1968),
p. 882886.
Benedetti (R.) & Risler (J.-J.)
[1990] Real algebraic and semi-algebraic sets, Paris : Hermann, 1990.
136 R. LARAKI

Bewley (T.) & Kohlberg (E.)


[1976a] The asymptotic theory of stochastic games, Mathematics of Ope-
ration Research, 1 (1976), p. 197208.
[1976b] The asymptotic solution of a recursion equation occuring in sto-
chastic games, Mathematics of Operation Research, 1 (1976),
p. 321336.
Coulomb (J.M.)
[1992] Repeated games with absorbing states and no signals, Interna-
tional Journal of Game Theory, 21 (1992), p. 161174.
[2001] Repeated games with absorbing states and signaling structure,
Mathematics of Operation Research, 26 (2001), p. 286303.
[2003] Stochastic games without perfect monitoring, International
Journal of Game Theory, 32 (2003), p. 72396.
Fink (A.M.)
[1964] Equilibrium in a stochastic n-person game, J. Sci. Hiroshima
Univ., 28 (1964), p. 8993.
Foster (O.)
[1981] Lectures on Riemann surfaces, Springer, 1981.
Kohlberg (E.)
[1974] Repeated games with absorbing states, Annals of Statistics, 2
(1974), p. 724738.
Laraki (R.)
[2001] Variational inequalities, system of functional equations, and in-
complete information repeated games, SIAM Journal of Control
and Optimization, 40(2) (2001), p. 516524.
[2002] Repeated games with lack information on one side : the dual
differential approach, Mathematics of Operation Research, 27(2)
(2002), p. 419440.
Laraki (R.), Solan (E.) & Vieille (N.)
[2005] Continuous-time games of timing, Journal of Economic Theory,
120 (2005), p. 206238.
Laraki (R.)
[2006] A variational approach in zero-sum absorbing games, 2006 ; pre-
print.
Maitra (A.) & Parthasarathy (T.)
[1970] On stochastic games, Journal of Optimization Theory and Ap-
plications, 5 (1970), p. 289300.
Maitra (A.) & Sudderth (W.)
[1996] Discrete gambling and stochastic games, Springer, 1996.
Mertens (J.-F.) & Neyman (A.)
[1981] Stochastic games, International Journal of Game Theory, 10
(1981), p. 5366.
Mertens (J.-F.), Sorin (S.) & Zamir (S.)
[1994] Repeated games, CORE D.P., 1994, p. 94202122.
JEUX STOCHASTIQUES 137

Neyman (A.) & Sorin (S.)


[2003] Stochastic games and applications, NATO Science Series, Kluwer
Academic Publishers, 2003.
Nowak (A.S.)
[1985] Universally measurable strategies in zero-sum stochastic games,
Annals of Probability, 13 (1985), p. 269287.
Rosenberg (D.)
[2000] Zero-sum absorbing games with incomplete information on one
side : asymptotic analysis, SIAM Journal of Control and Opti-
mization, 39 (2000), p. 208225.
Rosenberg (D.) & Sorin (S.)
[2001] An operator approach to zero-sum repeated games, Isral Jour-
nal of Mathematics, 121 (2001), p. 221246.
Rosenberg (D.), Solan (E.) & Vieille. (N.)
[2002a] Blackwell Optimality in Markov Decision Processes with Partial
Observation, Annals of Statistics, 30 (2002), p. 11781193.
[2002b] The MaxMin value of stochastic games with imperfect monito-
ring, International Journal of Game Theory, 32 (2002), p. 133
150.
Solan (E.)
[1999] Three-Player absorbing games, Mathematics of Operation Re-
search, 24 (1999), p. 669698.
Solan (E.) & Vieille (N.)
[2001] Quitting games, Mathematics of Operation Research, 26 (2001),
p. 265285.
[2003] Quitting games an example, International Journal of Game
Theory, 31 (2003), p. 365381.
Solan (E.)
[2006] Stochastic games, 2006 ; a non-published master course.
Sorin (S.)
[1986] Asymptotic properties of a non zero-sum stochastic game, In-
ternational Journal of Game Theory, 15 (1986), p. 101107.
[2002] A First course on zero-sum repeated games, Springer-Verlag,
2002.
Shapley (L.S.)
[1953] Stochastic games, Proceedings of the National Academy of
Sciences of the U. S. A., 39 (1953), p. 10951100.
Takahashi (M.)
[1964] Equilibrium points of stochastic non-cooperative n-person game,
J. Sci. Hiroshima Univ., 28 (1964), p. 9599.
Vieille (N.)
[2000a] Two-player stochastic games I : a reduction, Isral Journal of
Mathematics, 119 (2000), p. 5591.
138 R. LARAKI

[2000b] Two-player stochastic games II : the case of recursive games,


Isral Journal of Mathematics, 119 (2000), p. 93126.

R. Laraki, CNRS, Laboratoire dconomtrie, cole polytechnique, 1 rue Des-


cartes, 75005 Paris E-mail : Rida.Laraki@shs.polytechnique.fr
Url : http://ceco.polytechnique.fr/home/laraki/FR

You might also like