You are on page 1of 3

Corrige du TD de thorie de la dcision et thorie des jeux du 14/11/06 e e e Exercice 10 (Dcision dynamique en horizon inni). e 1.

Contrairement aux autres exercices dj` traits, larbre de jeu est ici inni. Les noeuds ea e de cet arbre sont des suites nies detats et dactions. Quand on xe un tat de dpart k, la e e racine de larbre est la suite k. Le noeud (k1 , a1 , k2 , . . . , kn ) a pour ls lensemble des parties nies (k1 , a1 , k2 , . . . , kn , an , kn+1 ) telles que kn+1 = T (kn , an ). Une stratgie est une application s : (K A) (K A) qui associe ` toute suite e a nie dtats et dactions (k1 , a1 , k2 , . . . , kn ) un couple (an , kn+1 ) = s(k1 , a1 , . . . , kn ) tel que e kn+1 = T (kn , an ). De mani`re quivalente, on peut se contenter de spcier quelle action est choisie, et on e e e consid`rera quune stratgie est une application s : (K A) A. e e Etant donn une stratgie s et un tat initial k, il existe un unique chemin inni p(k, s) = e e e k1 a1 k2 dans larbre de jeu tel que k1 = k et n, an = s(k1 , a1 , . . . , kn ). Lutilit de la stratgie s quand letat initial est k est : e e Uk (s) = f (p(k, s)) avec f (k1 a1 ) =
n 1

n1 g(kn , an ).

On en dduit legalit : e e (1) Uk (s) = g(k, s(k)) + UT (k,s(k)) (s[k]), s(k, s(k), T (k, s(k)), a1 , . . . , kn ) si k1 = T (k, s(k) s(k1 , a1 , . . . , kn ) sinon. ou s[k] est la stratgie obtenue par dcalage de s en posant e e s[k](k1 , a1 , . . . , kn ) = .

2. Montrons que F est -contractante. Comme < 1, le thor`me de point xe de Picard e e assurera lexistence dun unique point xe. Prcisment, montrons que pour tous x, y, e e F (x) F (y)

xy

Fixons la composante k. Soit ax,k llment de A atteignant largmax dans la dnition de ee e F (x)k . On a F (x)k F (y)k g(k, ax,k ) + xT (k,ax,k ) g(k, ax,k ) + yT (k,ax,k ) = xT (k,ax,k ) yT (k,ax,k ) Par symtrie, notre assertion est donc prouve. e e 3. Une stratgie optimale, note sopt , consiste ` jouer ` chaque tour largument maximum dans e e a a la dnition de F (v)k . Formellement, soit k1 , a1 , , kn une partie nie alors sopt (k1 , a1 , , kn ) = e an o` u an = argmax g(kn , a) + vT (kn ,a) .
aA

xy

Montrons que lutilit de cette stratgie en partant de ltat k est bien vk . e e e Remarquons tout dabord que cette stratgie a la proprit remarquable dtre positione ee e nelle : quelque soit le chemin k1 a1 kn dj` parcouru dans larbre, le coup conseill par sopt ea e

ne dpend que de kn . On peut donc la reprsenter de mani`re quivalente comme un objet e e e e ni sopt : K A. Considrons lquation (1) applique ` s = sopt . Comme sopt est positionnelle, on en dduit e e e a e que pour tout tat k, les stratgies s[k] et s sont identiques. On en dduit que pour tout k, e e e a = sopt (k) et l = T (k, a), Uk (sopt ) = g(k, a) + Ul (sopt ) . Dautre part, par dnition de sopt , on a galement : e e vk = g(k, a) + vl . Ainsi, U (sopt ) et v sont tout deux points xes de loprateur G : RK RK dni par : e e G(x)k = g(k, sopt (k)) + xT (k,sopt (k)) . Or loprateur G est, comme F , lui aussi -contractant. On en dduit donc par unicit du e e e point xe que U (sopt ) = v. 4. Montrons que W est un point xe de loprateur F . e W (k) = sup Uk (s)
s

par def de W par (1)

= sup g(k, s(k)) + .UT (k,s(k)) (s[k])


s

=
a a

sup
a,s t.q. s(k)=a

g(k, a) + .UT (k,a) (s[k]) sup


s t.q. s(k)=a s

= sup(g(k, a) + .

UT (k,a) (s[k]))

= sup(g(k, a) + . sup UT (k,a) (s)) = F (W )k Lavant-derni`re galit provient du fait que pour toute action a, lensemble {s[k] | s(k) = a} e e e est en fait lensemble de toute les stratgies. e Par unicit du point xe de loprateur contractant F , on en dduit que v = W = U (sopt ). e e e Par dnition de W , on a pour tout tat k, e e Uk (sopt ) = sup Uk (s).
s

En dautre termes, la stratgie sopt est optimale, quelque soit ltat initial. On a ainsi montr e e e lexistence dune stratgie ` la fois optimale et positionnelle. e a 5. (non indispensable) Lensemble des stratgies peut tre muni dune structure despace mtrique : la distance e e e entre une stratgie s et une stratgie t est 2l , en notant l la longueur de la plus petite suite e e k1 a1 kl detats et dactions telle que s(k1 a1 kl ) = t(k1 a1 kl ). On vrie que muni de cette mtrique, lensemble des stratgies est un espace compact. e e e Avec cette mtrique, lapplication (k, s) Uk (s) qui associe ` une stratgie s et un tat k e a e e la valeur Uk (s) est continue.

Comme une fonction continue ` valeur relle atteint son maximum sur un compact, on en a e dduit lexistence dune stratgie optimale. Cest un rsultat moins fort que celui de la quese e e tion 4, o` lon a dj` prouv lexistence dune stratgie optimale, qui est de plus positionnelle. u ea e e 6. La solution est plus amusante si on consid`re quun joueur Joyeux qui se repose gagne 6. e Pour calculer les valeurs du jeu, il sut dapr`s la question 4 de calculer les valeurs ase socies ` chaque stratgie positionnelle, et de slectionner la meilleure. Il y a quatre stratgies e a e e e positionnelles possibles. On obtient le tableau suivant, qui indique le paiement recu en fonction de ltat initial et e de la stratgie positionnelle choisis. e J R, D R J R, D T (1 )UJ (s) 1 1 (1 )UD (s) 2 J T, D R J T, D T 10 10 8 1+ 10 1+ 2

Par exemple, pour la stratgie J T, D R, quand on part de letat J alors la suite des e valeurs vues est 10, 0, 10, 0, . . . donc le paiement recu est : 10 . UJ (s) = 10 + 0 + 2 10 + 3 0 + . . . = (1 )2 Une petite tude de la fonction maxs (1 )UJ (s), o` le max est pris sur les quatre stratgies e u e positionelles, permet disoler les trois comportements suivants. 1 Si est compris entre 0 et 4 alors le joueur joue ` court terme : les premiers instants du a jeu ont beaucoup de poid dans le paiement total. Le joueur choisit de toujours travailler, et est dprim en permanence. e e a e Si est compris entre 2 et 1 alors le joueur joue ` tr`s long terme : les premiers instants 3 de la partie ont peu dimportance. Le joueur choisit de toujours se reposer et est toujours joyeux. 2 1 e Si est compris entre 4 et 3 alors on est dans un cas intermdiaire : quand le joueur est joyeux, il est plus attir par le gain de 10 quil peut obtenir en travaillant que par le e gain de 6 quil obtient en se reposant. Inversement, quand le joueur est dprim, il accepte e e dencaisser un paiement de 0, car ce faible revenu sera compens au tour suivant. Finalement, e son comportement optimal consiste a alterner une phase de travail et une phase de repos... `

You might also like