You are on page 1of 82

Une introduction à la théorie formelle de la décision

École normale supérieure


Département d’Études Cognitives
Année universitaire 2005-2006

Raphaël Giraud 1 2

24 avril 2006

1. Université de Franche-Comté, raphael.giraud@univ-fcomte.fr


2.
2
TABLE DES MATIÈRES 3

Table des matières

0.1 Objet de la théorie de la décision . . . . . . . . . . . . . . . . . . . . . . . . 5


0.2 Objectifs de la TD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
0.2.1 La finalité normative . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
0.2.2 La finalité descriptive . . . . . . . . . . . . . . . . . . . . . . . . . . 6
0.2.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
0.3 Méthode de la TD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

I Fondements 9

1 Préférence et choix rationnel 13


1.1 Rappels mathématiques sur les relations binaires . . . . . . . . . . . . . . . 13
1.1.1 Propriétés des relations binaires . . . . . . . . . . . . . . . . . . . . . 13
1.1.2 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Fonctions de choix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.1 La théorie abstraite des préférences révélées . . . . . . . . . . . . . . 15
1.2.2 Rationalisation par une relation binaire . . . . . . . . . . . . . . . . 16
1.2.3 Rationalisation par un préordre total . . . . . . . . . . . . . . . . . . 17
1.2.4 Rationalisation par un préordre partiel . . . . . . . . . . . . . . . . . 18
1.2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2 Préférence et utilité 21
2.1 Déduction de l’utilité ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.1 Problématisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2 L’utilité ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.3 Le problème de l’existence d’une fonction d’utilité . . . . . . . . . . 22
2.2 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 Préordre partiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2 Ordre d’intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

II Décision dans l’incertain 29

1 La théorie classique 33
1.1 La théorie classique de la décision dans le risque . . . . . . . . . . . . . . . . 34
1.1.1 Le cadre structurel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.1.2 Caractérisation axiomatique de l’espérance d’utilité dans le risque . . 35
1.2 Espérance d’utilité dans l’incertain: le modèle de Savage . . . . . . . . . . . 39
1.2.1 Le théorème de Savage . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 TABLE DES MATIÈRES

1.2.2 Schéma de la preuve . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2 Limites de la théorie classique 45


2.1 Limites normatives de l’espérance d’utilité . . . . . . . . . . . . . . . . . . . 45
2.1.1 L’attitude par rapport au risque:
Où tout joueur doit participer au jeu de Saint-Pétersbourg . . . . . . 45
2.1.2 La confiance dans les probabilités . . . . . . . . . . . . . . . . . . . . 47
2.2 Limites descriptives de la théorie classique . . . . . . . . . . . . . . . . . . . 48
2.2.1 Le traitement linéaire des probabilités et le paradoxe d’Allais . . . . 48
2.2.2 La sophistication en probabilité et le paradoxe d’Ellsberg . . . . . . 50
2.2.3 La transitivité et le renversement de préférence . . . . . . . . . . . . 51
2.2.4 L’existence d’une relation de préférence et les effets de contexte . . . 52
2.2.5 Autres problèmes fondamenteaux . . . . . . . . . . . . . . . . . . . . 55

3 Les théories alternatives aux théories classiques 59


3.1 Les réponses au paradoxe d’Ellsberg . . . . . . . . . . . . . . . . . . . . . . 59
3.1.1 Analyse du paradoxe d’Ellsberg . . . . . . . . . . . . . . . . . . . . . 59
3.1.2 Les probabilités non-additives et le modèle d’espérance d’utilité à la
Choquet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.1.3 L’attitude par rapport à l’ambiguïté: le modèle multi-prior . . . . . . 67
3.1.4 Lien entre le modèle CEU et le modèle MEU . . . . . . . . . . . . . 72
3.2 Les réponses au paradoxe d’Allais . . . . . . . . . . . . . . . . . . . . . . . . 73
3.2.1 Analyse du paradoxe d’Allais . . . . . . . . . . . . . . . . . . . . . . 73
3.2.2 Le modèle RDEU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
0.1. OBJET DE LA THÉORIE DE LA DÉCISION 5

Introduction

0.1 Objet de la théorie de la décision


Il est possible, au moins subjectivement, de distinguer, parmi les choses, celles qui
dépendent de nous et celles qui n’en dépendent pas 1 . Or, la dépendance des choses par
rapport à nous signifie qu’il nous appartient, à nous autres hommes, en tant qu’individus
ou en tant que collectivité, de sélectionner un certain cours des choses. La théorie de la
décision (TD) (individuelle) se donne pour tâche de proposer une analyse formelle de la
prise de décision, c’est-à-dire de la réaction de l’individu à une situation dans laquelle la
détermination du cours des choses dépend de son intervention, ce que nous appellerons une
situation de décision. Il s’agit en fait de savoir ce qu’est une décision (c’est l’activité de
modélisation) et comment prendre une décision (c’est l’activité d’analyse du modèle), c’est-
à-dire comment déduire des éléments constitutifs de la situation de décision une décision.

0.2 Objectifs de la TD
Cette activité de modélisation est traditionnellement comprise comme ayant deux types
de finalité:
– une finalité normative (ou encore prescriptive)
– une finalité positive (ou encore descriptive,explicative ou prédictive)

0.2.1 La finalité normative


Il s’agit ici de répondre d’une façon normative à la question «comment prendre une
décision?», autrement dit il s’agit de savoir comment prendre une «bonne» décision. Ceci
implique pour commencer de définir ce qu’on entend par une bonne décision. En TD,
la notion de bonne décision n’est pas définie par rapport à une norme morale, mais par
rapport à ce qu’on pourrait appeler une norme formelle. En effet, en TD, la notion de
bonne décision se confond en général avec la notion de décision rationnelle. La tâche de
la théorie de la décision devient alors de proposer une certaine définition de la rationalité
et de caractériser la ou les procédures de décision compatibles avec cette définition de
la rationalité. Un modèle est donc normatif en ce sens qu’il établit une norme pour le
comportement, le comportement «rationnel» et qu’il permet de juger de la rationalité d’un
comportement en interrogeant sa conformité à la définition de la rationalité; il est prescriptif
en ce sens qu’il permet de formuler des recommandations en vue de la prise d’une «bonne»
décision. La validité d’une théorie se mesure alors au caractère acceptable, intuitivement
ou logiquement justifié de la définition de la rationalité proposée.
1. Cette distinction est à l’origine une distinction essentiellement stoïcienne (voir (Epictète, 1962, Livre
I)), mais le sens que nous lui donnons ici n’est pas celui que lui donnaient les Stoïciens, puisque pour eux,
les choses qui dépendent de nous, et qui seules doivent préoccuper le sage, sont les représentations.
6 TABLE DES MATIÈRES

Ainsi, lorsqu’elle se propose de définir la rationalité, la TD se rattache à une longue


tradition philosophique 2 , et c’est ce qui fait tout l’intérêt de son étude indépendamment
des applications pratiques qu’elle peut avoir. Ces dernières sont a priori fort nombreuses,
car les modèles économiques sont tous basés sur une certaine théorie de la décision.

0.2.2 La finalité descriptive


Il s’agit de proposer un modèle de comportement permettant de décrire et d’expliquer
les comportements réellement observés. La pertinence de cette explication se mesure dans
ce cas à la capacité du modèle à rendre compte des données disponibles sur le comportement
de décision des individus et à prédire certains comportements. On est ici plutôt dans le
paradigme des sciences de la nature, et les procédés de vérification comme les critères
de scientificité habituellement requis devraient idéalement s’appliquer. Par cette finalité,
la TD se rattache plutôt à la psychologie mathématique et aux sciences cognitives. Cet
aspect de la TD est relativement récent (début des années 1980); jusqu’alors, la finalité
normative prédominait.

0.2.3 Discussion
Les deux finalités classiques de la théorie de la décision entretiennent des rapports
complexes, car elles sont à la fois antagonistes dans la pratique et pourtant perméables
l’une à l’autre. L’idéal pour un théoricien de la décision serait de fournir une théorie
qui serait à la fois descriptivement correcte et normativement satisfaisante. D’ailleurs la
plupart des premières théories se pensaient naïvement conformes à cet idéal. Mais un
axiome que l’on pensait descriptivement valide peut être requalifié en axiome normatif en
cas de remise en question trop violente. Le normatif serait ainsi le refuge du descriptif
invalidé. Il semble d’ailleurs que pratiquement aucun axiome, aucune théorie ne puisse
prétendre expliquer tous les comportements, de sorte que la plupart des «bonnes» théories
résultent d’un compromis entre les deux finalités.
Ceci dit, il ne faut pas pour autant penser que la dimension normative des modèles n’est
que la marque de l’échec du modèle à représenter fidèlement la réalité. Tout d’abord, la
recherche de normes rationnelles est intéressante en soi. De plus, si l’on a de bonnes raisons
de penser que la définition proposée de la rationalité est correcte, on est en droit d’affirmer
que les modèles et les comportements qui s’en écartent relèvent de l’irrationnel. L’expérience
peut néanmoins apporter des correctifs à cette définition comme nous le verrons. Pour
que ceci soit possible, cependant, il faut que les violations observées des principes de la
rationalité ne puissent être expliqués par des «erreurs» ou qu’elles soient explicables par un
comportement purement aléatoire et fantaisiste. Il faut au contraire observer des régularités
dans les comportements. C’est l’observation de telles régularités qui a conduit à la mise au
point de modèles descriptifs intéressants dont le statut normatif peut être repensé.
Ainsi, le fait de définir une notion de rationalité et de la confronter aux faits permet
d’approfondir notre compréhension de celle-ci et d’apercevoir des aspects de la rationalité
que nous n’avions pas perçus. Le fait de constater des régularités dans le comportement
des agents invite à soupçonner que ce comportement est fondé sur des raisons. L’idée de
définir la rationalité par la possibilité de donner les raisons du choix semble l’approche
privilégiée par les psychologues. Néanmoins, lorsque l’on définit la rationalité de cette
façon, le problème demeure de définir ce qui compte comme une raison acceptable. Ceci
est un problème philosophique non négligeable.
2. Notamment Aristote, au livre VI de l’Éthique à Nicomaque.
0.3. MÉTHODE DE LA TD 7

0.3 Méthode de la TD
D’un point de vue opératoire, la TD a pour objectif de montrer comment l’agent intègre
(dans l’approche descriptive) ou devrait intégrer (dans l’approche normative) les différentes
informations dont il dispose au moment de prendre sa décision.
La méthode principale de la théorie de la décision est ce qu’on appellera la méthode
axiomatique. Il s’agit, une fois définis les objets primitifs de la théorie, d’énoncer formelle-
ment les propriétés que ces objets vérifient, et de voir ce qu’impliquent ces propriétés. Elle
se donne pour tâche d’exhiber les postulats (les axiomes) sur le comportement de choix ou
de décision d’un être humain qui caractérisent tel ou tel critère de décision.
Le statut de l’axiome en théorie de la décision est ambigu 3 . Dans son usage concret,
l’axiome est considéré comme énonçant une propriété essentielle de l’objet considéré, ainsi
que le font les axiomes de la théorie des groupes ou ceux de la topologie. La méthode axio-
matique est ainsi l’héritière du style mathématique introduit par la révolution formaliste en
mathématiques, notamment sous sa forme bourbakiste. D’un autre côté, on requiert sou-
vent des axiomes qu’ils soient intuitifs, au sens où ils énonceraient une propriété naturelle
ou évidente des objets sur lesquels ils portent.
On peut évoquer plusieurs raisons à la prédominance de cette méthode en TD. Tout
d’abord, c’est sans doute celle qui présente la plus grande rigueur mathématique, du point
de vue formaliste déjà évoqué. Ensuite, elle est adéquate simultanément aux deux finalités
de la TD: elle permet de définir de façon précise et décomposée la notion de rationalité
employée et elle permet l’existence de propositions testables concernant le comportement
des individus.
Le point de vue épistémologique le plus répandu en théorie de la décision (et en mi-
croéconomie plus généralement) est un comportementalisme absolu: les seules données aux-
quelles on a le droit de faire référence sont les observations portant sur le comportement de
l’agent. Les justifications d’un tel point de vue reposent essentiellement sur la fascination
pour le modèle scientifique des sciences de la nature et sur l’obsession de la testabilité
(c’est-à-dire la conformité à l’idéal scientifique popperien). Ce point de vue est cependant
contestable à plusieurs égards 4 . Tout d’abord, il ne permet pas de fonder proprement la
théorie, comme nous le verrons. Ensuite, il exclut de l’analyse certains phénomènes ou
aspects qui peuvent avoir un intérêt. Enfin, il est sans doute philosophiquement dépassé.
En général, les ingrédients primitifs d’une théorie axiomatique de la décision sont:
– Une représentation mathématique du monde en tant qu’il est offert à la décision
de l’agent, sous la forme d’un ensemble non-vide X, qui est l’ensemble des objets de
choix. Malgré son apparence bénigne, ce choix de modélisation est philosophiquement
chargé. Il suppose en effet qu’il y a bien isomorphisme entre le monde tel qu’il s’offre
au décideur et la représentation que celui-ci s’en fait. Or, on peut imaginer que plu-
sieurs représentations du monde soient possibles, et qu’à ces diverses représentations
ne corresponde pas nécessairement la même décision.
– Une représentation mathématique de l’agent: le plus souvent, une relation binaire
représentant ses préférences, parfois une représentation de ses croyances, et parfois
une représentation de son comportement de choix par une fonction de choix (nous
reviendrons sur ces termes).
Concrètement, et en abusant un peu des notations, si on suppose que l’on dispose d’une
description D de la situation de décision et si on représente l’agent par un certain objet
R, la démarche classique en TD est de considérer certains postulats P1 ,...,Pn sur R et de
3. Voir sur cette question Mongin (2003).
4. Voir Sen (1993)
8 TABLE DES MATIÈRES

démontrer un théorème du style: R vérifie P1 ,...,Pn si et seulement s’il existe une certaine
fonction f telle que R = f (D). La fonction f montre comment l’agent utilise l’information
contenue dans D pour prendre sa décision.
9

Première partie

Fondements
11

Comme nous l’avons mentionné en introduction, un modèle usuel en TD consiste en une


modélisation de l’ensemble des cours possibles des choses et une modélisation de l’agent
ayant à prendre une décision. Dans la mesure où les difficultés potentiellement soulevées
par le premier aspect de la modélisation commencent à peine à faire l’objet d’une étude
systématique, nous nous concentrerons essentiellement sur le deuxième aspect de la modé-
lisation.
Le concept central à ce sujet est le concept de préférence. De quoi s’agit-il? L’individu
dont on étudie le comportement de décision est supposé être doté de goûts, de désirs, de
valeurs, de pulsions, bref d’un ensemble de motivations pour sa volonté qui le poussent à
prendre une décision dans un sens ou dans un autre. Cet ensemble hétéroclite de moti-
vations est rassemblé dans le concept de préférence. Prendre une décision consiste ainsi à
sélectionner un cours des choses conforme à ses préférences. Les préférences forment l’éta-
lon (pour l’instant dénué de contenu normatif) par rapport auquel est évalué la pertinence
d’une décision. On suppose donc que le concept de préférences englobe tout ce qui compte
pour l’agent. Si les préférences telles qu’on les a décrites n’expliquent pas le comporte-
ment, on peut en général considérer qu’on a oublié quelque chose d’essentiel concernant les
motivations de l’agent, donc que le concept de préférence utilisé est mal défini 5 . Ainsi, le
paradigme classique en théorie de la décision adopte la position humienne 6 selon laquelle
«la raison est l’esclave des passions», en ce sens que la raison (c’est-à-dire les principes
de décision rationnels tels que décrits dans la théorie) sont mis au service des «passions»
telles qu’exprimées dans les préférences — le mot «passions» étant cependant ici quelque
peu restrictif par rapport à ce qu’englobe le concept de préférence —; la raison ne porte
pas de jugement sur les préférences qui sont considérées comme données. On parle parfois
pour qualifier cette situation de rationalité instrumentale.
D’un point de vue plus opératoire, le concept de préférence est mis en “uvre sous les
espèce d’une «relation de préférence»: les individus sont supposés capables, à partir des
motivations dont nous avons parlé, d’effectuer — plus ou moins parfaitement — un clas-
sement parmi les cours possibles des choses reflétant ces motivations. Mathématiquement,
une relation de préférence est donc une «relation binaire», objet sur lequel nous reviendrons
plus précisément.
Ce concept de préférence, bien que central dans la pratique en théorie de la décision,
a paru insatisfaisant à certains en raisons de son caractère inobservable, qui cadrait mal
avec l’ambition scientifique de l’économie. Certains économistes, en particulier Samuelson
(Samuelson (1938)), se sont efforcés de débarrasser l’économie de tout vestige de psycholo-
gisme 7 afin de la fonder uniquement sur des données observables issues du comportement
de choix des agents. Ainsi est née la théorie des préférences révélées ou du choix rationnel
(le mot choix a un sens spécialisé en théorie de la décision et désigne tout comportement
modélisé par une fonction de choix, c’est-à-dire une fonction associant à un certain en-
semble d’options un sous-ensemble de celui-ci; nous reviendrons sur cette notion dans la
suite.)
5. De nombreux économistes contestent cette façon de faire, au nom du principe de testabilité évoqué
en introduction, dans la mesure où si l’on redéfinit sans cesse le concept de préférence, il semble que l’on ne
puisse plus réfuter aucun modèle. Il est certain qu’il vaut mieux expliquer le plus de comportements possible
à partir du plus petit nombre d’hypothèses possible. Cependant, s’il s’avère que l’on doit procéder à une
augmentation du nombre d’hypothèses, quel critère externe dira que l’on a «trop» élargi? Le problème est
finalement de savoir si dans ce domaine le principe popperien de la réfutabilité doit être considérér comme
le seul étalon de la validité d’une théorie, dans la mesure où une théorie qui explique un comportement
sans pour autant être tautologique ne peut être dite fausse. Elle peut peut-être en revanche être dite moins
«scientifique». Ce problème est assez complexe et quelque peu tabou en économie.
6. Voir (Hume, 1978, p.415).
7. Voir Sen (1973) sur cette ambition.
12

La notion de préférence représentait elle-même un gain conceptuel par rapport à la


notion d’utilité, au sens de théoriciens comme Bentham ou Condillac traditionnellement
associée aux débuts de l’économie. En effet, la notion ancienne d’utilité semble restreindre
indûment les motivations de l’individu aux plaisirs et aux peines, alors que le concept de
préférence est plus large. Elle supposait en outre la calculabilité des plaisirs et des peines, ce
que l’on appelle la cardinalité de l’utilité. Nous verrons par la suite que l’acception technique
actuelle du mot «utilité» n’a plus rien à voir avec une quelconque notion psychologique
et n’est plus qu’une représentation commode des préférences. Ainsi, vu à gros traits, le
cheminement conceptuel de la théorie de la décision depuis le XVIIIe siècle jusqu’au milieu
des années 1950 peut être vu comme un travail d’abstraction de la notion d’utilité et
de sortie du psychologisme. Nous verrons cependant que les choses se sont compliquées
depuis. Dans cette partie, nous décrirons la construction intellectuelle à laquelle à abouti
ce cheminement, en montrant les liens mathématiques et conceptuels entre les différentes
notions évoquées.
13

Chapitre 1

Préférence et choix rationnel

Dans ce chapitre nous nous intéresserons aux liens unissant le concept de préférence au
comportement de choix. Nous commencerons par rappeler ce qu’est une relation binaire,
avant d’introduire la notion de fonction de choix.

1.1 Rappels mathématiques sur les relations binaires


Soit X,Y deux ensembles. Une relation R de X vers Y est une partie du produit
cartésien X × Y . On notera xRy si (x,y) ∈ R. Une relation binaire sur X est une relation
de X vers X (donc une partie de X × X.)
Une fonction f de X dans Y est une relation telle que pour tout (x,y,z) ∈ X × Y 2 ,xf y
et xf z implique y = z. xf y est alors noté y = f (x).
Une application est une fonction telle que pour tout x ∈ X il existe y ∈ Y tel que
y = f (x).

1.1.1 Propriétés des relations binaires


Dans la suite, un x non quantifié signifiera «pour tout x ∈ X». Une relation binaire R
est
– réflexive ssi xRx
– irréfléxive ssi ¬xRx
– symétrique ssi xRy implique yRx
– asymétrique ssi xRy implique ¬yRx
– antisymétrique ssi xRy et yRx impliquent x = y
– transitive ssi xRy et yRz impliquent xRz
– négativement transitive ssi ¬xRy et ¬yRz impliquent ¬xRz
– totale ssi xRy ou yRx
– acyclique ssi x1 Rx2 ...xn−1 Rxn implique x1 6= xn .

Définition 1.1 (Relation d’équivalence). Une relation binaire R est une relation d’équi-
valence ssi R est réflexive, symétrique et transitive. On note [x] = {y ∈ X | xRy} la classe
d’équivalence de x et X/R l’ensemble des classes d’équivalence ou ensemble quotient.
Exemple 1.1.
– La relation d’égalité = est une relation d’équivalence,
– Si X = Z, la relation x = y + 2k,k ∈ Z est une relation d’équivalence sur X.
14 CHAPITRE 1. PRÉFÉRENCE ET CHOIX RATIONNEL

Définition 1.2 (Partition). Une famille (Xi )i∈I de parties de X est une partition ssi :
(i) ∪i∈I Xi = X
(ii) ∀i,j ∈ I, i = j ou Xi ∩ Xj = ∅.

Proposition 1.1
Soit R une relation binaire. Si R est une relation d’équivalence, alors ([x])x∈X est une parti-
tion de X. Réciproquement, si (Xi )i∈I est une partition, il existe une relation d’équivalence
telle que pour tout i ∈ I, il existe x ∈ X, Xi = [x].

Démonstration.

À faire en exercice.

Définition 1.3 (Relations de préordre, d’ordre, d’ordre strict). Une relation binaire R est
une relation de préordre (partiel) ssi R est réflexive et transitive. Un ordre est un préordre
antisymétrique. Un ordre strict est une relation asymétrique et transitive.
Exemple 1.2.
– La relation ≥ sur R est un ordre.
– La relation (x,y)R(x0 ,y 0 ) ⇔ xy ≥ x0 y 0 est un préordre sur R2 (le vérifier.).

Proposition 1.2
Soit % un préordre total sur un ensemble X. Soit  la relation définie par

x  y ⇔ (x % y et ¬(y % x))

et ∼ la relation définie par


x ∼ y ⇔ (x % y et y % x).

Alors:
1. %= ∪ ∼;
2. Seuls les trois cas suivants sont possibles: x  y, y  x, x ∼ y;
3. x % y = ¬(y  x);
4.  est asymétrique, transitive et négativement transitive;
5. ∼ est une relation d’équivalence.

Démonstration.

1. x % y ⇔ (x % y et (y % x ou ¬(y % x))), d’où le résultat par distributivité de la


conjonction par rapport à la disjonction.
2. Évident par le point précédent.
3. Évident par le point précédent.
4.  est asymétrique par définition. Transitivité: soient x,y,z tq x  y  z. Alors, x % z
par transitivité de %. A-t-on z % x? Dans ce cas, par transitivité de %, z % y, ce qui
est absurde. Donc x  z. Négativement transitive: évident car % est transitive et par
le point précédent.
5. Évident.
1.2. FONCTIONS DE CHOIX 15

1.1.2 Exercices
1. Soit R une relation réflexive sur X. Soit T (R) la relation définie par

xT (R)y ⇔ ∃x1 ,...,xn ,xRx1 R...Rxn Ry.

(a)Montrer que R ⊆ T (R).


(b)Montrer que T (R) est un préordre.
(c)Montrer que si R0 est un préordre tel que R ⊆ R0 , alors T (R) ⊆ R0 .
(d)Montrer que si R1 et R2 sont deux relation binaires réflexives telles que R1 ⊆ R2 ,
alors T (R1 ) ⊆ T (R2 ).
2. Soit X = Rn
(a) La relation (x1 ,...,xn ) ≥n (y1 ,...,yn ) ⇔ ∀i,xi ≥ yi est-elle un ordre? Est-elle
totale?
(b) Même question pour (x1 ,...,xn ) ≥0n (y1 ,...,yn ) ⇔ ∃i,xi ≥ yi
3. Soit X = X1 × ... × Xn . La relation (x1 ,...,xn )R(y1 ,...,yn ) ⇔ ∃i,xi = yi est-elle une
relation d’équivalence?

1.2 Fonctions de choix


La théorie de la décision part en général d’une relation binaire de préférences % dont on
suppose que c’est un préordre total. Cependant, la position épistémologique comportemen-
taliste adoptée le plus souvent interdit de considérer cette relation comme une véritable
primitive, car elle n’est pas une donnée observable. Seuls les choix sont observables en
principe (et encore, pas tous). C’est donc la notion de choix qui est primitive pour un
comportementaliste. La question qui se pose est alors: de quels comportements de choix
peut-on dire qu’ils sont le résultat de la mise en “uvre des préférences, et que peut-on dire
de ces préférences?

1.2.1 La théorie abstraite des préférences révélées


Définition 1.4. Soit X un ensemble non-vide. Soit Σ une famille de parties non-vides de
X. C’est l’ensemble des situations de choix. On appelle fonction de choix une application
C : Σ → 2X \ {∅} telle que C(S) ⊆ S pour tout S ∈ Σ.
Une fonction de choix représente l’ensemble des éléments acceptables pour un décideur
dans une situation de choix S donnée.
Définition 1.5. Soit C une fonction de choix sur Σ. C est rationalisable s’il existe une
relation binaire R telle que

∀S ∈ Σ,C(S) = C(S,R) = {x ∈ S | ∀y ∈ S,xRy}.

Définition 1.6. Soit C une fonction de choix. On appelle relation de préférence révélée
par C la relation RC définie par:

xRC y ⇔ ∃S ∈ Σ,x,y ∈ S,x ∈ C(S).

Une fonction de choix est dite normale si C(S) = C(S,RC ) pour tout S ∈ Σ.

Proposition 1.3
Soit C une fonction de choix sur Σ. On suppose que Σ contient les singletons et est fermée
par réunion finie. Alors C est rationalisable si et seulement si C est normale et R = RC .
16 CHAPITRE 1. PRÉFÉRENCE ET CHOIX RATIONNEL

Démonstration.

Il est clair que si C est normale, C est rationalisable.


Supposons C rationalisable. Soit x ∈ C(S). On a, pour tout y ∈ S, xRy. Donc, x ∈
C({x,y}): xRC y pour tout y ∈ S, donc C(S) ⊆ C(S,RC ). Si x ∈ C(S,RC ), pour tout y ∈ S,
il existe Sy ∈ Σ telle que x ∈ C(Sy ) et y ∈ Sy . Autrement dit, pour tout z ∈ Sy ,xRz, donc
en particulier, xRy, donc x ∈ C(S): C(S,RC ) ⊆ C(S).
Unicité: C(S,R) = C(S,RC ) implique xRy ⇔ xRC y en appliquant à {x,y}.

On se pose les questions suivantes: A quelles conditions une fonction de choix est-elle
normale? A quelles conditions R est-elle un préordre? un préordre total?

1.2.2 Rationalisation par une relation binaire


On suppose dorénavant pour simplifier l’analyse que Σ = 2X \ ∅. Justifier cette hypo-
thèse par Sen (1973).
Propriété α de Sen ∀S,S 0 ∈ Σ,x ∈ X,S ⊆ S 0 et x ∈ S ∩ C(S 0 ) ⇒ x ∈ C(S).

Proposition 1.4
Toute fonction de choix normale sur Σ vérifie α.

Démonstration.

Supposons S ⊆ S 0 et x ∈ S ∩ C(S 0 ). Alors, xRC y pour tout y ∈ S 0 , et comme S ⊆ S 0 ,


xRC y pour tout y ∈ S, donc x ∈ C(S).

Commentaire sur cet axiome. Paraphrase avec les champions pakistanais. De nombreux
auteurs, et Sen lui-même 1 , ont mis en cause la pertinence tant normative que descriptive de
cet axiome 2 . D’après Sen (Sen (1993)), le contexte dans lequel on est amené à prendre une
décision n’est pas toujours neutre du point de vue informationnel. La présence de certaines
alternatives dans le menu des alternatives peut être porteuse d’informations; c’est cette
idée que recouvre la notion de valeur épistémique du menu. Afin de l’illustrer nous allons
tout d’abord évoquer l’exemple proposé par Sen:
Exemple 1.3. Supposons qu’une personne que vous connaissez assez peu vous propose:
– de venir chez elle boire le thé (alternative y),
– de venir chez elle prendre de la cocaïne (alternative z).
Appelons x l’alternative consistant à refuser de venir chez la personne en question. Consi-
dérons les deux menus d’alternatives suivants: Y := {x,y} et Z := {x,y,z}. On peut penser
qu’une personne tentée de choisir y dans le menu Y sera plutôt tentée par x dans le menu
Z. Il est en tout cas assez clair que la présence de l’alternative z dans le menu apporte de
l’information sur les m“urs de l’individu qui fait la proposition, ce qui peut influencer la
décision.
Autre exemple: la politesse. Développer.
Propriété γ de Sen Soit (Si )i∈I une famille de situations. Alors, pour tout x ∈ X,

x ∈ ∩i∈I C(Si )) ⇒ x ∈ C(∪i∈I Si ).


1. Sen (1993).
2. Pour l’articulation entre choix ne vérifiant pas α et préférences dépendant du contexte, on pourra
consulter Diaye (2001).
1.2. FONCTIONS DE CHOIX 17

Cet axiome est un axiome d’indépendance du chemin qui permet de décomposer un


problème de choix en problèmes plus simples.

Théorème 1.1 (Sen (1971))


Les propositions suivantes sont équivalentes:
(i) C est normale;
(ii) C vérifie α et γ.

Démonstration.

(i) implique (ii): Supposons que C soit normale. Alors, elle vérifie α d’après la proposition
1.4. Soit (Si )i∈I une famille de situations telle que x ∈ ∩i∈I C(Si ). Alors, xRC y pour tout
y ∈ ∪i∈I Si , donc x ∈ C(∪i∈I Si ).
(ii) implique (i): Il est clair que C(S) ⊆ C(S,RC ). Montrons la réciproque. Soit x ∈
C(S,RC ). Alors, pour tout y ∈ S, il existe Sy ∈ Σ tel que x ∈ C(Sy ). Par l’axiome γ,
x ∈ C(∪y∈S Sy ), et par α, comme S ⊆ ∪y∈S Sy , x ∈ C(S).

On a ainsi donné une réponse à la première question.

1.2.3 Rationalisation par un préordre total


La relation trouvée dans ce qui précède est toujours réflexive, et elle est totale lorsque
C(S) 6= ∅ pour tout S ∈ Σ. On peut se demander si on peut renforcer les axiomes afin
d’obtenir des propriétés plus riches pour RC .
On considère tout d’abord l’axiome suivant:
Axiome faible des préférences révélées (Axiome de Houthakker) ∀S,S 0 ∈
Σ,∀x,y ∈ S ∩ S 0 ,x ∈ C(S)ety ∈ C(S 0 ) ⇒ x ∈ C(S 0 ).
Cet axiome est un axiome de cohérence. En effet, il signifie que si x est révélé préféré à
y et si y est choisi dans une situation où x est accessible, x est également choisi. Autrement
dit, xRC y implique non(yPC x) où PC est la partie asymétrique de RC . Cet axiome garantit
donc que la relation de préférence révélée n’est pas contradictoire.
Propriété β de Sen ∀S,S 0 ∈ Σ, x,y ∈ S,S ⊆ S 0 et x,y ∈ C(S) implique (y ∈ C(S 0 ) ⇒
x ∈ C(S 0 ).)
On peut paraphraser cette propriété par «Si un champion du Pakistan est champion
du monde, alors tous les champions du Pakistan le sont aussi. Elle signifie que la procédure
de complexification du choix par enrichissement de l’ensemble des alternatives conserve la
structure de l’ensemble des éléments choisis: si l’un des éléments choisis au départ est à
nouveau choisi, tous les autres le sont aussi. (Mongin, 2003, p.13) indique que l’axiome α
implique que la procédure de complexification du choix n’est pas créatrice de nouveaux
élements choisis, et que l’axiome β n’est pas destructrice, ce qui n’est pas tout à fait exact.
Elle peut ne rien conserver des anciens «champions» mais si elle en conserve un, elle les
conserve tous.

Théorème 1.2 (Sen (1971))


Alors les propositions suivantes sont équivalentes:
(i) C vérifie l’axiome de Houthakker;
(ii) C vérifie α et β;
(iii) C est normale et RC est un préordre total.

Démonstration.
18 CHAPITRE 1. PRÉFÉRENCE ET CHOIX RATIONNEL

(i)⇒ (iii)
RC est réflexive: x ∈ C({x}).
RC est totale: {x,y} ∈ Σ, donc, soit C({x,y}) = {x}, soit C({x,y}) = {y}, soit
C({x,y}) = {x,y}.
RC est transitive: Soit x,y,z tels que xRC yRC z. Comme {x,y,z} ∈ Σ, il suffit de
montrer que x ∈ C({x,y,z}), car alors on aura xRC z. Supposons que ce ne soit pas le cas.
Si y ∈ C({x,y,z}), alors par l’AFPR, comme xRC y, x ∈ C({x,y,z}). Si z ∈ C({x,y,z}),
alors, comme yRC z, y ∈ C({x,y,z}).
Montrons que pour tout S ∈ Σ,C(S) = C(S,RC ). Soit x ∈ C(S). Alors, pour tout y ∈ S,
xRC y. Donc C(S) ⊆ C(S,RC ). Soit x ∈ C(S,RC ). Alors, pour tout y ∈ S,∃Sy ,x ∈ C(Sy ).
Mais C(S) 6= ∅, donc, soit x ∈ C(S), soit il existe y ∈ C(S),x 6= y. Mais par l’AFPR,
x ∈ C(S). Donc C(S,RC ) ⊆ C(S). Conclusion: C(S) = C(S,RC ).
(iii) ⇒ (ii)
β: supposons x,y ∈ S ∩ S 0 ,S ⊆ S 0 et x,y ∈ C(S) et y ∈ C(S 0 ). Alors, pour tout
z ∈ S 0 ,yRC z et xRC y car y ∈ S, donc xRC z, donc x ∈ C(S 0 ).
α: voir proposition 1.4.
(ii) ⇒ (i)
Supposons que x,y ∈ S ∩ S 0 , x ∈ C(S) et y ∈ C(S 0 ). Alors, nécessairement, par α,
x ∈ C({x,y}) et y ∈ C({x,y}). D’où, comme y ∈ C(S 0 ), par β, x ∈ C(S 0 ).

On a ainsi répondu à la troisième question.

1.2.4 Rationalisation par un préordre partiel


Il faut ici modifier légèrement la définition de rationalisable:
Définition 1.7. Soit C une fonction de choix. C est faiblement rationalisable s’il existe
une relation binaire telle que pour tout
S ∈ Σ,C(S) = M (S,R) = {x ∈ S | ∀y ∈ S,¬yP x},
où P est définie par xP y si et seulement si xRy et non yRx.

Proposition 1.5
Si C est rationalisable, elle est faiblement rationalisable.
Démonstration.
Il suffit de remarquer que pour tout x,y ∈ X, xRy implique non yP x.

Proposition 1.6
Supposons Σ = 2X \ ∅. Alors les propositions suivantes sont équivalentes (i) C est faible-
ment rationalisable.
(ii) C vérifie α et γ.
Démonstration.
(i) implique (ii): Supposons que C soit normale. α: Soit S ∈ Σ et x ∈ C(S) et supposons
qu’il existe S 0 ⊆ S telle que x ∈ / C(S 0 ). Alors, il existe y ∈ S 0 tel que yP x. Donc, comme y ∈
S, x 6∈ C(S): contradiction. Soit (Si )i∈I une famille de situations telle que x ∈ ∩i∈I C(Si ).
Alors, non yP x pour tout y ∈ si , donc pour tout y ∈ ∪i∈I Si , donc x ∈ C(∪i∈I Si ).
(ii) implique (i): Si C vérifie α et γ, elle est rationalisable, donc faiblement rationalisable.
1.2. FONCTIONS DE CHOIX 19

On va maintenant répondre à la deuxième question. Dans la suite, on suppose que Σ


contient les singletons et est fermé par réunion finie.
Axiome 1.1 (Non Infériorité Révélée (RNI)
∀S ∈ Σ,∀x,y ∈ S,(∀x ∈ C(S),∃T ∈ Σ,y ∈ C(T ) et x ∈ T ) ⇒ y ∈ C(S).

Théorème 1.3 (Eliaz and Ok (2003))


Les propositions suivantes sont équivalentes.
(i) C est faiblement rationalisable par un préordre R;
(ii) C vérifie α et RN I.

Démonstration.

(ii) implique (i)


Soit
P(C) = {(x,y) ∈ X 2 | x 6= y et C({x,y}) = {x,y}}

et soit
I (C) = {(x,y) ∈ P(C) | ∃S ∈ Σ,x,y ∈ S,|C(S) ∪ {x,y}| = 1}.

Soit R la relation définie par xRy ⇔ x ∈ C({x,y}) et (x,y) 6∈ I (C). Il est clair que
xP y ⇔ (x ∈ C({x,y}) et x 6= y).
Montrons que C(S) = M (S,R). Soit x ∈ C(S). Supposons qu’il existe y ∈ S tel que
yP x. Alors, y ∈ C({x,y}), ce qui est impossible par l’axiome α. Donc C(S) ⊆ M (S,R)
Soit maintenant x ∈ M (S,R). Supposons que x 6∈ C(S). Alors, par l’axiome RNI, il existe
z ∈ C(S), tel que pour tout T ∈ Σ tel que z ∈ T,x 6∈ C(T ). En particulier, {z} = C({x,z}).
Donc, zP x, donc x 6∈ C(S). Donc M (S,R) ⊆ C(S).
R est évidemment réflexive. Montrons qu’elle est transitive. Donnons tout d’abord un
lemme:
Lemme 1.1. Soit C une fonction de choix vérifiant α et RNI. Alors s’il existe S ∈ Σ,x ∈ S
tels que {x} = C(S), alors, pour tout T ∈ Σ telle que x ∈ T ⊆ S, {x} = C(T ).

Démonstration.

Sous les conditions du lemme, il est clair par α que x ∈ C(T ). Soit y ∈ T,y 6= x. Alors,
comme y 6∈ C(S), par RNI, pour tout T 0 ∈ σ tel que y ∈ T 0 , y 6∈ C(T 0 ). D’où en particulier
y 6∈ C(T ).

Soient x,y,z tels que xRyRz.


– cas 1: xP yP z.
Alors, {x} = C({x,y}) et {y} = C({y,z}). Si y ∈ C({x,y,z}), alors y ∈ C({x,y})
par α, ce qui est absurde. Donc y 6∈ C({x,y,z}). De même, y 6∈ C({x,y,z}), donc
C({x,y,z}) = {x}, donc, par le lemme, C({x,z}) = {x}: xP z.
– cas 2:xP yIz (où I est définie par xRy et yRx). Alors, comme précédemment, y 6∈
C({x,y,z}). Comme (y,z) 6∈ I (C), |C({x,y,z}) ∩ {y,z}| ∈ {0,2}. Mais, si z ∈
C({x,y,z}), alors ce cardinale est strictement positif, donc égale à 2, donc y ∈
C({x,y,z}), ce qui est impossible. Donc C({x,y,z}) = {x} et, par le lemme, C({x,z}) =
{x}: xP z.
– cas 3: xIyP z: analogue au cas 2.
20 CHAPITRE 1. PRÉFÉRENCE ET CHOIX RATIONNEL

– cas 4: xIyIz. Comme (x,y) 6∈ I (C) et (y,z) 6∈ I (C), C({x,y,z}) = {x,y,z}. Donc,
par α,x ∈ C({x,z}). Il faut montrer que (x,z) 6∈ I (C). Soit S ∈ Σ telle que x,z ∈ S et
supposons x ∈ C(S). Alors, comme yIx, on a x ∈ M (S ∪ {y},R) = C(S ∪ {y}), donc,
comme (x,y) 6∈ I (C), y ∈ C(S ∪ {y}). Mais, (y,z) 6∈ I (C), donc z ∈ C(S ∪ {y}),
donc, par α, z ∈ C(S). Donc |C(S) ∩ {x,z}| ∈ {0,2}.

On a ainsi répondu à la troisième question.

1.2.5 Exercices
1. Soit X un ensemble fini et R une relation binaire. Montrer que C(.,R) est une fonction
de choix (i.e. C(S,R) 6= ∅ pour tout S) si et seulement si R est acyclique.
2. Soit X un ensemble et C : 2X → X \ ∅ une fonction de choix à valeur dans X (c’est-
à-dire ne sélectionnant qu’un seul élément). Montrer que C = C(.,R) si et seulement
si C vérifie α.
21

Chapitre 2

Préférence et utilité

2.1 Déduction de l’utilité ordinale


2.1.1 Problématisation
En économie et, plus généralement, dans toutes les pensées hédonistes ou eudémoniques,
l’action est motivée par la recherche du plus grand bonheur possible. Ceci se traduit dans
les modèles économiques par la maximisation d’une fonction appelée fonction d’utilité. Les
origines de ce concept peuvent être trouvées dans la philosophie utilitariste de Bentham,
pour qui l’action choisie résulte d’un calcul des plaisirs et des peines. Or, procéder à ce
calcul en vue de parvenir au maximum d’utilité suppose trois choses:
1. que l’on soit capable d’attribuer aux objets de choix une valeur numérique représen-
tant leur degré d’utilité;
2. que l’on puisse parler d’un «plus grand bonheur» ou d’une «utilité maximale», au-
trement dit qu’il y ait une certaine forme de classement entre les objets;
3. qu’il y ait un lien entre les deux propriétés précédentes, c’est-à-dire que la plus grande
valeur numérique d’utilité corresponde justement à la l’utilité maximale, donc que
les valeurs numériques représentent le classement.
La dernière propriété, qui n’est qu’une conséquence de l’idée selon laquelle la valeur
numérique de l’utilité représente fidèlement l’utilité intrinsèque subjectivement perçue de
l’objet, est ce que le traitement moderne de l’utilité réserve à celle-ci comme définition, le
concept central étant plutôt celui de relation de préférence, c’est-à-dire de classement entre
les objets. L’utilité est ainsi privée de toute coloration psychologique (on a ainsi un temps
appelé cette notion l’ophélimité). Dans le passage de la conception qui prévalait jusqu’au
début du XXè siècle, où l’on calculait sur les utilités comme si les valeurs numériques
représentaient fidèlement un degré d’utilité, à la théorie moderne, on est ainsi passé de ce
que l’on appelle l’utilité cardinale à l’utilité ordinale. C’est ce dernier concept qui va nous
intéresser dorénavant.

2.1.2 L’utilité ordinale


Définition 2.1 (Fonction d’utilité). Soit X un ensemble muni d’une relation binaire %.
On dit qu’une fonction u : X → R est une fonction d’utilité pour % ou représente % si:

x % y ⇔ u(x) ≥ u(y) (2.1)

Si u est une fonction d’utilité et si ϕ : u(X) → R est strictement croissante, alors


ϕ ◦ u est également une fonction d’utilité. C’est cette propriété, qui implique que la valeur
22 CHAPITRE 2. PRÉFÉRENCE ET UTILITÉ

précise de u(x) n’a aucune sens par elle-même mais seulement relativement à la valeur de
u(y), qui fait que l’on parle d’utilité ordinale.
Comme on le vérifiera aisément, l’existence d’une fonction d’utilité représentant %
implique que cette relation soit transitive et totale, c’est-à-dire que ce soit un préordre
total. Ces deux hypothèses, qui sont très souvent faites en théorie de la décision, sont aussi
de plus en plus souvent discutées et critiquées, notamment par les psychologues 1 .
Arguments en faveur de la transitivité. Le premier est un argument de principe: la
transitivité représente la cohérence de l’individu avec lui-même. Le deuxième argument
montre qu’un individu non transitif est susceptible de se faire extorquer tout son argent par
un agent mal intentionné. En effet, s’il existe un cycle intransitif x1  x2  . . .  xn  x1
dans ses préférences, supposons qu’il possède x1 . On peut alors échanger x1 contre xn pour
un montant ε, puis xn contre xn−1 à nouveau contre ε, et ainsi de suite jusqu’à ce qu’il ait
à nouveau x1 et qu’il ait perdu nε. On peut alors recommencer jusqu’à ce que l’agent soit
totalement ruiné. C’est l’argument de la pompe à monnaie

2.1.3 Le problème de l’existence d’une fonction d’utilité


Cette question n’est mathématiquement pas triviale: il existe des préordres qui ne sont
pas représentables par une fonction d’utilité, comme le montre l’exemple classique suivant:
Exemple 2.1. Soit % l’ordre lexicographique sur R2 défini par

(x,y) % (x0 ,y 0 ) ⇔ x > x0 ou (x = x0 et y, ≥ y 0 ).

On va montrer qu’il n’est pas représentable par une fonction d’utilité. Supposons que ce
soit le cas. Soit x ∈ R. Alors (x,2)  (x,1), donc u(x,2) > u(x,1) et, d’après la densité de
Q dans R, il existe r ∈ Q tel que u(x,2) ≥ r ≥ u(x,1). D’après l’axiome du choix, on peut
définir ainsi une fonction r : R → Q. Si x > x0 , alors r(x) > r(x0 ); r est donc injective et
on a donc construit une injection de R dans Q, ce qui est impossible.
Le reste de cette section est consacré à l’élucidation de cette question. Soit donc X un
ensemble quelconque. Posons tout d’abord les définitions suivantes:
Définition 2.2. Un ensemble Z ⊆ X est dit %-dense dans X si pour tout x,y ∈ X tels
que x  y, il existe z ∈ Z tel que x % z % y.
Définition 2.3. Un ensemble X muni d’un préordre % est dit %-séparable s’il existe une
partie dénombrable de X %-dense.
Définition 2.4. Soit un ensemble X muni d’un préordre %. Soient x,y ∈ X. Si x  y et
si
(x,y) = {z ∈ X | x  z  y} = ∅,
on dit que (x,y) est un trou et que x et y sont ses extrémités.

Proposition 2.1
Soit (X, %) un ensemble totalement ordonné. Soit G l’ensemble des extrémités de trous de
(X, %). Si (X, %) est %-séparable, alors G est au plus dénombrable.

Démonstration.

Montrons que G est au plus dénombrable. En effet, soit (x,y) un trou. Soit A un ensemble
dénombrable %-dense. Alors, par densité de A, il existe ak ∈ A tel que x = ak ou y = ak .
En outre, comme % est total, à tout an ∈ A, on peut associer au plus deux trous. En effet,
1. Voir Mongin (1983).
2.1. DÉDUCTION DE L’UTILITÉ ORDINALE 23

si (x,y),(y,z) sont des trous tels que ak = y et s’il existe un trou (a,b) tel que ak = a ou
ak = b, comme le préordre est total on a nécessairement a  b  x  y ou y  z  a  b,
d’où ak  ak dans les deux cas, ce qui est impossible. Donc G est dénombrable.

Théorème 2.1 (Debreu (1954))


Soit X un ensemble et % une relation binaire sur X. Les propositions suivantes sont
équivalentes:
(i) Il existe une fonction d’utilité représentant % au sens de 2.1;
(ii) % est un préordre total et (X, %) est %-séparable.

Démonstration.

(i) implique (ii): il est clair que % est un préordre total. Si X est dénombrable, il est
clair que (X, %) est %-séparable. Supposons donc que X n’est pas dénombrable. Alors,
pour tout couple (r,r0 ) de rationnels tels que r < r0 , on pose:

Ar,r0 = {x ∈ X | r < u(x) < r0 }.

Si Ar,r0 6= ∅, on choisit un élément ar,r0 ∈ Ar,r0 (sachant qu’il y a forcément un Ar,r0 qui
est non vide). L’ensemble A = {ar,r0 | (r,r0 ) ∈ Q2 ,r < r0 ,Ar,r0 6= ∅} est dénombrable. Soit
G l’ensemble des extrémités de trous de (X, %). Alors, si (x,y) est un trou, l’intervalle
[u(y),u(x)] contient un rationnel rxy , et si (x0 ,y 0 ) est un autre trou tel que rxy = rx0 y0 ,
alors nécessairement, [u(y),u(x)] = [u(y 0 ),u(x0 )], car autrement (x,y) ou (x0 ,y 0 ) n’est pas
un trou. Donc, on a une injection de G dans Q et Z = A ∪ G est dénombrable. Montrons
qu’il est %-dense. Soient x,y ∈ X tels que x  y. Si (x,y) est un trou, x,y ∈ G ⊂ Z, donc
il existe z ∈ Z tel que x ∼ z  y. Si (x,y) n’est pas un trou, alors il existe z ∈ X tel que
x  z  y, donc tel que u(x) > u(z) > u(y). Donc on peut trouver deux rationnels r,r0 tels
que u(x) > r0 > u(z) > r > u(y). Par conséquent, Ar,r0 6= ∅. Il existe donc a ∈ A ⊂ Z tel
que u(x) > r0 > u(a) > r > u(y), c’est-à-dire x  a  y.
(ii) implique (i): On procède en deux temps.
1. Cas où % est un ordre.
Soit A %-dense dans X. On énumère A = {a0 ,a1 ,a2 ,...}. Notons G l’ensemble des
extrémités de trous de (X, %) et posons maintenant Z = A ∪ G. Cet ensemble est
dénombrable, et on l’énumère: Z = {z0 ,z1 ,z2 ,...}. Posons

N (x) = {n ∈ N | zn ≺ x}.

Soit alors la fonction définie par:


X 1
u(x) = .
2n
n∈N (x)

Si x % y, alors N (y) ⊆ N (x), donc u(x) ≥ u(y). Réciproquement, si y  x, on a


deux cas possibles. Si (y,x) est un trou, alors, x ∈ G ⊂ Z. On choisit alors k tel que
zk = x, et on y  zk et ¬[x  zk ]. Donc, k ∈ N (y) \ N (x), donc u(y) > u(x). Si
(y,x) n’est pas un trou, alors il existe z ∈ X tel que tel que y  z  x. De plus, par
densité de A, il existe a ∈ A tel que y  z % a % x. Comme A ⊂ Z, on peut choisir
n tel que zn = a. On alors n ∈ N (y) \ N (x), donc u(y) > u(x).
24 CHAPITRE 2. PRÉFÉRENCE ET UTILITÉ

2. Cas général
Pour passer du cas de l’ordre à celui du préordre, soit (X, %) un espace préordonné %-
séparable. Considérons alors l’ensemble quotient X/ ∼ muni de la relation  définie
par [x]∼  [y]∼ ⇔ x % y. Cette relation est bien définie, et il est évident que (X/ ∼
, ) est -séparable (considérer A/ ∼, où A est %-dense dans X). Soit alors u une
fonction d’utilité représentant . Il suffit de poser pour tout x ∈ X,U (x) = u([x]∼ )
pour avoir une fonction d’utilité pour %.

2.2 Compléments
On a vu précédemment que les deux postulats de totalité et de transitivité pouvaient
poser des problèmes conceptuels. Nous proposons donc en complément quelques théorèmes
de représentation pour des relations de préférence ne vérifiant pas l’une ou l’autre de ces
propriétés.

2.2.1 Préordre partiel


Le premier résultat important sur les ordres partiels est le théorème suivant:

Théorème 2.2 (Szpilrajn (1930))


Soit  un ordre partiel strict sur X. Alors il existe un ordre total strict 0 qui prolonge :
∀x,y ∈ X,x  y ⇒ x 0 y.

Ce théorème, qui a de nombreuses généralisations et applications, se démontre par le


lemme de Zorn.
Lorsque % est un préordre partiel, il n’existe pas de fonction d’utilité au sens précédent.
La notion de représentation que l’on va chercher est différente.
Définition 2.5. Un préordre % est représentable par un ensemble de fonctions d’utilité V
si:
∀x,y ∈ X,x % y ⇔ ∀v ∈ V ,v(x) ≥ v(y). (2.2)
On va voir qu’une telle représentation s’obtient à des conditions proches de celles de la
représentabilité d’un préordre total. Néanmoins, il ne s’agira plus d’une condition nécessaire
et suffisante. Afin de le montrer, on donnera deux lemmes essentiels.
Lemme 2.1. Soit (X, ) un espace préordonné séparable et à trous dénombrables. Alors
il existe u : X → R telle que x  y ⇒ u(x) > u(y) et x ∼ y ⇒ u(x) = u(y).

Démonstration.

Nous montrons le résultat pour un ordre, le cas du préordre s’en déduit en quotientant. Soit
A un ensemble dénombrable dense dans X et soit G l’ensemble des extrémités de trous.
Alors Z := A ∪ G est dénombrable et on peut l’énumérer: {z1 ,z2 ,...}. Pour x ∈ X, posons
N (x) = {n ∈ N∗ | x % zn } et X
u(x) = 2−n .
n∈N (x)

Si x  y, N (y) ⊆ N (x). Deux cas peuvent se présenter. Si (x,y) n’est pas un trou, il existe
zn ∈ A tel que x  zn  y. Donc n ∈ N (x) \ N (y), et u(x) > u(y). Si (x,y) est un trou,
alors il existe zn ∈ G tel que zn = x. Donc n ∈ N (x) \ N (y), et u(x) > u(y).
2.2. COMPLÉMENTS 25

Théorème 2.3
Soit un préordre % séparable et à trous dénombrables sur un ensemble X. Alors il existe
un ensemble V de fonctions de X dans R tel que:

x % y ⇔ ∀v ∈ V ,v(x) ≥ v(y).

Démonstration.

On se place dans le cas d’un ordre, le cas d’un préordre s’en déduisant facilement. On veut
montrer que l’ensemble V = {v ∈ RX | x,y ∈ X,x  y ⇒ v(x) > v(y)} convient. Il faut
montrer la contraposée, à savoir que si x et y sont incomparables, il existe vxy et vyx dans
V telles que vxy (x) > vxy (y) et vyx (y) > vyx (x). Soient donc x,y ∈ X tels que x k y. On va
définir deux extensions de %, %xy et %yx de la façon suivante (nous donnons la définition
de %xy , celle de %yx est analogue): on pose

z xy z 0 ⇔ z  z 0 ou (z % x et y % z 0 ),

et z %xy z 0 si et seulement si z xy z 0 ou z 0 = z. D’après Szpilrajn (1930), xy est un


préordre strict qui étend  de sorte que x xy y. Donc, %xy est un ordre qui étend % de
sorte que x xy y. De la même façon, y yx x.
Montrons que %xy est séparable et à trous dénombrables (la démonstration est analogue
pour %yx ). Soient z,z 0 ∈ X tels que z xy z 0 . On alors z  z 0 ou (z % x et y % z 0 ). D’après
l’hypothèse, % est séparable, donc il existe T ⊆ X dénombrable tel que, pour tout a,a0 ∈
X,a  a0 ⇒ ∃t ∈ T,a % t % a0 . Donc, si z  z 0 ,∃t ∈ T,z % t % z 0 , donc z %xy t %xy z 0 . Si,
au contraire, z % x et y % z 0 , alors, puisque x xy y, on a z %xy x xy y %xy z 0 . Donc,
l’ensemble Txy = T ∪ {x,y} est %xy -dense dans X, et il est dénombrable puisque que T
l’est. Donc %xy est séparable.
Montrons que les trous de %xy sont dénombrables. Soit (z,z 0 ) un trou de %xy . Si z  z 0 ,
c’est un trou de %. Sinon, z % x et y % z 0 , donc z %xy x xy y %xy z 0 . Pour que (z,z 0 ) soit
un trou, il faut donc que z = x et z 0 = y. Donc le nombre de trous de %xy est celui de %
augmenté au plus de (x,y).
On peut alors appliquer le lemme 2.1 pour trouver une fonction vxy ∈ RX telle que
z xy z 0 ⇒ vxy (z) > vxy (z 0 ). Donc vxy ∈ V, et vxy (x) > vxy (y). De la même manière, on
peut construire une fonction vyx ∈ V telle que vyx (y) > vyx (x). Ceci achève de montrer
que V convient.

La séparabilité est donc une condition suffisante. Elle n’est pas a priori une condition
nécessaire (contre-exemple à trouver!). En fait, il y a de bonnes raisons de penser que tout
préordre est représentable de cette façon, mais c’est encore à creuser.

2.2.2 Ordre d’intervalle


Comme nous l’avons remarqué dans l’introduction, supposer la transitivité des préfé-
rences ne va pas sans débat. Encore faut-il s’entendre sur la définition de préférence qu’on
emploie. S’il s’agit de préférence stricte, il semble bien que la non-transitivité de la pré-
férence soit normativement difficile à défendre, bien qu’elle puisse en pratique apparaître
d’une façon naturelle. Le débat est loin d’être clos sur ce point. S’il s’agit de la préférence
large, les choses sont différentes. En particulier, la non-transitivité de l’indifférence est une
propriété qui ne suscite pas de rejet fondé sur des considérations normatives et qui trouve
un fondement pratique très simple à mettre en évidence. Ce fondement pratique rattache la
théorie de la préférence à la psychophysique. Cette discipline a mis en évidence le fait que
26 CHAPITRE 2. PRÉFÉRENCE ET UTILITÉ

la perception humaine des sons, des couleurs, des masses n’était pas transitive, en ce sens
qu’elle fonctionne par seuil: on peut avoir le sentiment qu’une suite de poids ne différant
que d’un gramme sont identiques, et pourtant trouver le premier de la série strictement
plus léger que le dernier. L’adaptation de cette idée à la théorie des préférences a été faite
par Luce dans un article célèbre Luce (1956). Il donne notamment l’exemple d’une tasse
de café sucré. Que l’on préfère une tasse contenant un moreceau de sucre à une tasse en
contenant cinq est assez évident. Mais si on passe de l’une à l’autre en rajoutant 1/100
de morceau de sucre à chaque fois, il y a fort à parier que l’on ne se rendra pas compte
de la différence avant qu’un certain seuil ait été franchi. Afin d’étudier ce phénomène et
ses conséquences, Luce a introduit la notion de semi-ordre. Nous allons étudier ici une
généralisation de ce concept, la notion d’ordre d’intervalle.
Définition 2.6. Soit  une relation binaire asymétrique sur X.  est un ordre d’intervalle
si elle vérifie la condition suivante:

∀x,y,x0 ,y 0 ∈ X,x  y et x0  y 0 ⇒ x  y 0 ou x0  y.

On note x % y pour ¬(y  x) et x ∼ y pour (x % y et y % x).

Proposition 2.2
Soit  un ordre d’intervalle. Alors:
(i)  est transitive;
(ii) % est pseudo-transitive: ∀x,y,x0 ,y 0 ,x % y  x0 % y 0 ⇒ x % y 0 .

Démonstration.

(i) x  y et y  z implique x  z ou y  y.  étant asymétrique, seule la première relation


est possible.
(ii) On a quatre cas.
1er cas: x  y et x0  y 0 . Alors, soit x0  y, ce qui est impossible par hypothèse, soit x  y 0 .
Donc x  y 0 .
2e cas: x ∼ y et x0  y 0 . Alors, comme  est transitive, x ∼ y  y 0 . Supposons alors y 0  x.
Comme  est transitive, ceci implique x ∼ y  x, ce qui est contradictoire car x ∼ y
implique x % y, donc x % y 0 .
3e cas: x  y et x0 ∼ y 0 . Raisonnement similaire.
4e cas: x ∼ y et x0 ∼ y 0 . Supposons y 0  x. Alors on y  x0 ∼ y 0  x. Donc, en vertu de ce
qu’on a montré au premier cas on y  x. Donc on a x ∼ y  x: impossible.

On note, d’après cette proposition, que % (et donc ∼) n’est pas nécessairement transi-
tive. On s’en convaincra en considérant la relation  sur R définie par x  y si seulement
si x > y + 1. De ce fait, la notion d’ordre d’intervalle est adaptée à la modélisation du
phénomène évoqué. Par ailleurs, comme on le voit également sur cet exemple,  n’est pas
total (1 et 0,5 ne sont pas comparables par ); en revanche, % l’est par construction. De
plus, il est possible la notion d’ordre d’intervalle (ou plutôt de préordre d’intervalle) en
partant d’une relation réflexive % que l’on suppose totale, pseudo-transitive et telle que 
soit transitive.
2.2. COMPLÉMENTS 27

Quelle est la bonne notion de représentation pour des ordres d’intervalle? Le théorème
suivant donne la réponse à cette question.

Théorème 2.4
Soit X un ensemble dénombrable et  une relation binaire asymétrique sur X. Alors les
propositions suivantes sont équivalentes:
(i)  est un ordre d’intervalle;
(ii) il existe deux applications u,v : X → R telles que v ≥ u et pour tout x,y ∈ X:
x  y ⇔ u(x) > v(y) (2.3)
(iii) il existe deux applications u : X → R et ρ : X → R∗+ telles que pour tout x,y ∈ X:
x  y ⇔ u(x) > u(y) + ρ(y). (2.4)
Démonstration.
On montre facilement que (iii) implique (ii) implique (i). Reste à montrer (i) implique (iii).
X étant dénombrable, il peut être énuméré. Soit {x1 ,x2 ,...} une énumération de X. Pour
tout x = xk ∈ X, on pose:
S(x) = {n ∈ N∗ | x  xn },
T (x) = {n ∈ N∗ | ∃m ∈ N∗ ,x % xm  xn }.
On définit alors: X
u(x) = 2−n si S(x) 6= ∅
n∈S(x)

= 0 sinon
X
v(x) = 2−n si T (x) 6= ∅
n∈T (x)

= 0 sinon
ρ(x) = 2−k−1 + v(x) − u(x).
Comme S(x) ⊆ T (x),v(x) ≥ u(x) et donc ρ(x) > 0. Soit y = xj ∈ X. Si x  y, alors
T (y) ⊆ S(x): si n ∈ T (y), alors il existe m ∈ N∗ tel que y % xm  xn . Comme x  y, ceci
implique x  xn ou xm  ym d’après la définition de l’ordre d’intervalle, mais xm  ym
est impossible, donc x  xn : n ∈ S(x). Comme j ∈ S(x) \ T (y), on a
u(x) ≥ v(y) + 2−j > u(y) + ρ(y).
D’autre part, si y % x, alors S(x) ⊆ T (y), donc
u(y) + ρ(y) ≥ v(y) ≥ u(x).

Le cas non dénombrable peut également être traité, mais avec des conditions plus
complexes. On peut montrer, bien que ce ne soit pas fait dans cet article, que le cas étudié
par Luce (1956) correspond au cas où ρ est constante. On a alors ce qu’on a appelle une
représentation à seuil, ce qui est bien ce que l’on recherche.

2.2.3 Exercices
1. Montrer que si X est dénombrable, % est représentable par une fonction d’utilité si
et seulement si % est un préordre total.
28 CHAPITRE 2. PRÉFÉRENCE ET UTILITÉ
29

Deuxième partie

Décision dans l’incertain


31

Nous avons jusqu’à maintenant étudié la théorie abstraite de la décision, dans laquelle
la nature des objets de choix n’est pas spécifiée. Les chapitres qui suivent auront pour but
d’introduire une application essentielle de cette théorie, dans laquelle les objets de choix
dont on parle, sont des décisions dont les conséquences sont contingentes à la réalisation
d’un certain événement, c’est-à-dire au fait que le monde soit dans tel ou tel état. Nous
parlerons de décision dans l’incertain. La plupart des décisions de la vie courante sont en
fait des décisions de ce type. Peut-être même peut-on dire que toute décision est en fait
incertaine, dans la mesure où, parce que toute décision est prise dans une certaine durée,
des événements peuvent intervenir qui peuvent modifier les conséquences de nos décisions.
Cependant, ces événements sont dans une large mesure imprévisibles. Ils constituent à
proprement parler une surprise par rapport à la décision qui est prise. On introduit dans
ce chapitre une première restriction qui est de considérer des décisions pour lesquelles la
liste des états du monde dont les conséquences dépendent est parfaitement connue 2 .
On formalise en général une décision contingente de la façon suivante. On a besoin de
savoir deux choses: la liste des contingences et la liste des conséquences associées à ces
contingences conditionnellement à la décision prise. Soit S l’ensemble des états de la na-
ture, c’est-à-dire la liste des contingences auxquelles les décisions sont soumises [discussion
philosophique sur cette notion? Construire par exemple à partir des fonctions de vérité
et discuter la notion d’état du monde pertinent: omelette de Savage]. Soit E un ensemble
de parties de S stable par complémentation et réunion dénombrable. On dit que E est la
tribu des événements et (S,E ) est un espace mesurable 3 . On note de plus (C,C ) l’espace
mesurable des conséquences de la décision (qu’on suppose également connues, ce qui est
aussi une hypothèse relativement forte).
Définition 0.7 (Décision). On appelle décision ou acte une application f mesurable 4 de
S dans C. On note A l’ensemble des décisions.
Le but de la théorie de la décision dans l’incertain est de proposer un critère permettant
de classer les décisions afin d’en sélectionner une. Dans la mesure où une décision fait inter-
venir, d’une part, des événements et, d’autre part, des conséquences, l’idée est de proposer
un critère qui soit construit à partir d’une évaluation, d’une part, de la vraisemblance des
événements et, d’autre part, de l’utilité des conséquences.
A ce stade, on peut déjà introduire une première distinction essentielle, due à Frank
Knight Knight (1921). Le décideur peut disposer d’une certaine information quant à la
vraisemblance des événements. Deux cas polaires peuvent se présenter: dans le premier
cas, le décideur ne possède aucune information sur la vraisemblance des événements; dans
le second cas polaire, il connaît exactement la probabilité d’occurrence des événements. Le
premier cas est appelé incertain total ; le second est appelé risque. Les modèles traitant de
la décision dans l’incertain ne sont pas les mêmes selon la nature de l’incertitude. Nous
étudierons ces différents modèles en partant de la théorie classique puis nous donnerons
quelques exemples de violation expérimentale du modèle classique afin d’introduire les
nouveaux modèles de décision dans l’incertain, probabilisé ou non.

2. La théorie des décisions dans lesquelles cette liste est imparfaitement connue, ou théorie des contin-
gences non anticipées, est un des sujets de recherche actuels en théorie de la décision
3. Le lecteur ignorant en théorie de la mesure pourra considérer que S est un ensemble fini et que E est
l’ensemble des parties de S. Pour plus de précisions, consulter???.
4. C’est-à-dire telle que pour tout B ∈ C ,f −1 (B) ∈ E .
32
33

Chapitre 1

La théorie classique

Introduction
On peut faire remonter la théorie classique de la décision au pari de Pascal. C’est
lui [à vérifier dans Pradier] qui introduit pour la première fois l’espérance de gain comme
critère de décision permettant de décider en présence d’incertitude. Ce critère est le suivant:
supposons que l’on propose un jeu dans lequel on gagne une somme x avec probabilité p et
où l’on perd y avec probabilité 1 − p (on suppose pour l’instant une connaissance intuitive
de la notion de probabilité.). Alors l’espérance de gain de ce jeu est px − (1 − p)y. Plus
généralement, l’espérance de gain est associée à un jeu g dans lequel on gagne un gain
xi ∈ R avec une probabilité pi , i ∈ {1,...,n} est
n
X
EG(g) = pi xi .
i=1

On doit remarquer à propos de ce critère qu’il suppose que l’on puisse mener à bien cette
opération, c’est-à-dire que les gains sont réels (par exemples, des gains monétaires). Il ne
peut en général s’appliquer à des gains abstraits.
Le critère de l’espérance de gain a été mis en cause au XVIIIème siècle par le paradoxe
de Saint Petersbourg, qui a suscité de nombreuses discussions entre les plus grands mathé-
maticiens du temps, en particulier les frères Bernouilli et D’Alembert. Le paradoxe et le
suivant. Considérons un jeu gSP dans lequel on tire successivement une pièce de monnaie.
Si face sort au nème coup, on gagne 2n euros, et rien sinon. L’espérance de gain de ce jeu
est
+∞
X 1 n
EG(gSP ) = 2 = +∞.
2n
n=1

Par conséquent, n’importe qui devrait être prêt à parier toute sa fortune pour jouer à ce
jeu. Or, personne ne prendrait ce risque. Par conséquent, pour évaluer ce jeu, Daniel [à
vérifier] Bernouilli proposa d’introduire la valeur subjective de la monnaie, qui vérifierait
la propriété, dont la pertinence intuitive semblait évidente, que plus on est riche, moins la
valeur d’un euro supplémentaire est importante (cette propriété est appelée en économie le
principe de l’utilité marginale décroissante). La fonction ln vérifie cette propriété puisqu’elle
est concave. On aboutit alors à l’espérance d’utilité de gSP :
+∞
X 1
EU (gSP ) = ln 2n < +∞.
2n
n=1
34 CHAPITRE 1. LA THÉORIE CLASSIQUE

Ainsi, la valeur du jeu pour un individu est finie, ce qui résout le paradoxe.
Nous entendons par théorie classique de la décision dans l’incertain l’étude axiomatique
du critère de l’espérance d’utilité.

1.1 La théorie classique de la décision dans le risque


1.1.1 Le cadre structurel
On suppose que le décideur possède une information probabiliste sur la vraisemblance
des événements. Autrement dit, on suppose que (S,E ) est muni d’une mesure de probabilité
P 1 . On rappelle que, dans la mesure où f ∈ A est mesurable, on peut considérer sa loi,
c’est-à-dire la mesure de probabilité qu’elle engendre sur C , notée Pf et définie, pour tout
événement B ∈ C , par:
Pf (B) = P(f −1 (B)).
On suppose en outre que l’on peut représenter les préférences du décideur par une relation
binaire %. Ces deux objets sont supposés vérifier la propriété suivante:
Principe fondamental de la décision risquée Pour tout f,g ∈ A ,

Pf = Pg ⇒ f ∼ g.

Ce principe permet de considérer que seules importent les distributions de probabilité


sur C 2 . Une telle distribution est appelée en théorie de la décision une loterie. L’étude des
préférences portant sur des loteries est connue sous le nom d’approche à la von Neumann-
Morgenstern (voir Von Neumann and Morgenstern (1947).).
En vertu du principe précédent, on considère donc l’ensemble ∆(C) de toutes les dis-
tributions de probabilité sur C , que l’onP peut voir, lorsque C est fini, comme l’ensemble
des fonctions p : C → [0,1] telles que c∈C p(c) = 1. On identifiera souvent c ∈ C avec
l’indicatrice de {c}, notée δc qui vaut 1 en c et 0 ailleurs. Etant donnés p,q ∈ ∆(C) et
α ∈ [0,1], on peut toujours considérer la fonction αp + (1 − α)q définie par

(αp + (1 − α)q)(c) = αp(c) + (1 − α)q(c)

qui appartient à ∆(C). L’interprétation de cette fonction est cependant assez délicate. En
effet, elle est en général interprétée comme une loterie composée, c’est-à-dire une loterie
donnant p avec probabilité α et q avec probabilité 1 − α. Pour que cette interprétation
soit valable, cependant, il faut supposer l’axiome de réduction des loteries composées, qui
stipule que cette loterie composée, qui appartient à ∆(∆(C)) est bien équivalente, pour le
décideur, à l’élément de ∆(C) que nous avons construit (en supposant que le décideur a
des préférences sur ∆(∆(C))). Or, cet axiome est loin d’être trivialement vérifié (voir Segal
(1990) pour une discussion.)
1. c’est-à-dire d’une application P : E → R telle que:
(i) P(S) = 1;
(ii) pour toute suite d’événements {An }n∈N deux à deux disjoints,
X
P(∪n∈N An ) = P(An ).
n∈N

La deuxième propriété est appelée σ-additivité. Dans la suite, nous serons amenés à considérer des proba-
bilités qui sont seulement additives, c’est-à-dire telles P(A ∪ B) = P(A) + P(B) pour tous A,B ∈ E disjoints.
On parle parfois de charge de probabilité.
2. Pour être sûr qu’à toute mesure de probabilité correspond une décision dans A , il suffit que P soit
non-atomique.
1.1. LA THÉORIE CLASSIQUE DE LA DÉCISION DANS LE RISQUE 35

1.1.2 Caractérisation axiomatique de l’espérance d’utilité dans le risque


Le but de cette section est de proposer une caractérisation de l’espérance d’utilité dans
le risque en termes d’axiomes sur les préférences. L’idée de cette caractérisation est due,
pour l’essentiel, à Von Neumann and Morgenstern (1947). Le problème est de montrer à
quelles conditions sur les préférences la fonctionnelle
X
EU (p) = p(c)u(c)
c∈C

représente celles-ci sur ∆(C).

Cas où C est fini


Cette caractérisation est fondée sur trois axiomes essentiellement:
Axiome 1.1 (Préordre) % est un préordre total.
Axiome 1.2 (Continuité) Pour toutes p,q,r ∈ ∆(C) telles que p  q  r,
a) version faible: il existe α,β ∈]0,1[ tels que

αp + (1 − α)r  q  βp + (1 − β)r;

b) version forte: il existe α ∈]0,1[ tel que

αp + (1 − α)r ∼ q.

Interprétation: pas de goût pour le jeu, et il existe toujours une petite probabilité de
mourir que l’on est prêt à accepter pour mener à bien une action risquée.
Remarque 1.1. Lorsque les axiomes de Préordre et d’Indépendance sont vérifiés, les ver-
sions faible et forte de l’axiome de continuité sont équivalentes. On les distingue dans le but
de proposer l’axiomatisation minimale de l’espérance d’utilité, mais en réalité, d’un point
de vue interprétatif, la version forte est plus parlante.
Axiome 1.3 (Indépendance) Pour toutes p,q,r ∈ ∆(C), pour tout α ∈ [0,1],

p % q ⇔ αp + (1 − α)r % αq + (1 − α)r.

Interprétation: ce qui se passe en-dehors de la partie commune à deux loteries n’a


pas d’importance. Cet axiome impose une certaine forme d’editing. Cet axiome paraît
normativement acceptable, mais il pose des problèmes, car il ignore les «recouvrements»
entre p et r ou q et r qui peuvent influencer le classement. Nous reviendrons là-dessus dans
les chapitres ultérieurs.
On a alors le théorème de représentation suivant:

Théorème 1.1
Les assertions suivantes sont équivalentes:
(i) % vérifie les axiomes de Préordre, Continuité et Indépendance,
(ii) il existe une fonction u : C → R telle que:

p % q ⇔ EU (p) ≥ EU (q).

Remarque 1.2. Compte tenu de la remarque précédente, on n’a pas distingué dans l’énoncé
du théorème la version forte et la version faible. On montrera au cours de la démonstration
l’équivalence annoncée entre ces deux versions.
36 CHAPITRE 1. LA THÉORIE CLASSIQUE

Démonstration.

La démonstration de la nécessité des axiomes pour la représentation est simple à montrer


et laissée au lecteur comme exercice. On montrera ici seulement leur suffisance.
La démonstration étant évidente pour le cas où p ∼ q pour toutes p,q ∈ ∆(C), on
supposera dans la suite qu’il existe p,q telles que p  q.
Lemme 1.1. Pour toutes p,q ∈ ∆(C) telles que p  q et pour tous 0 ≤ a,b ≤ 1,

b > a ⇔ bp + (1 − b)q  ap + (1 − a)q.

Démonstration.

Supposons a < b. Supposons a = 0 Alors, puisque p  q, par l’axiome d’Indépendance


r = bp + (1 − b)q  bq + (1 − b)q = q = ap + (1 − a)q. Maintenant, si a > 0, alors b > 0 et
a
b < 1. De plus, comme on vient de le voir, r  q, donc

r = (1 − ab )r + ab r  (1 − ab )q + ab r
= (1 − ab )q + ab (bp + (1 − b)q)
= ap + (1 − a)q.

Réciproquement, si bp + (1 − b)q  ap + (1 − a)q, supposons a ≥ b. Si a = b, bp + (1 − b)q ∼


ap + (1 − a)q par réflexivité, et si a > b, ceci est impossible d’après ce qui précède.

On va maintenant montrer l’équivalence entre la version forte et la version faible de la


continuité. Soient p,q,r ∈ ∆(C) tels que p  q  r. Soit

α∗ = inf{α ∈]0,1[| αp + (1 − α)r % q}.

Soit α > α∗ . Alors, par construction de α∗ comme l’inf, il existe α0 ∈ [α∗ ,α[ tel que
α0 p + (1 − α0 )r % q. Alors, par le lemme précédent, α > α0 implique αp + (1 − α)r 
α0 p + (1 − α0 )r % q. Donc, pour tout α > α∗ , on a:

αp + (1 − α)r  q.

De même, on a, pour tout α < α∗ ,

αp + (1 − α)r ≺ q.

Supposons maintenant que α∗ p + (1 − α∗ )r  q. En appliquant la version faible de la


continuité, comme α∗ p + (1 − α∗ )r  q  r, il existe β ∈]0,1[ tel que β(α∗ p + (1 − α∗ )r) +
(1 − β)r  q, i.e. βα∗ p + (1 − βα∗ )r  q. Or, βα∗ < α∗, donc ceci contredit ce qu’on a
établi plus haut. De même, on ne peut avoir α∗ p + (1 − α∗ )r ≺ q. Donc, par l’axiome de
Préordre total, on a α∗ p + (1 − α∗ )r ∼ q.
Lemme 1.2. Il existe deux conséquences c∗ ,c∗ ∈ C telles que pour tout p ∈ ∆(C),

c∗ % p % c∗ .

Démonstration.
1.1. LA THÉORIE CLASSIQUE DE LA DÉCISION DANS LE RISQUE 37

On rappelle que, pour p ∈ ∆(C), le support de p, noté supp(p) est l’ensemble

{c ∈ C | p(c) 6= 0}.

La preuve du lemme procède par récurrence sur le cardinal du support de p.


Supposons tout d’abord |supp(p)| = 1. Alors, il existe c ∈ C telle que p = δc . Mais,
puisque % est un préordre total et que C est un ensemble fini, il existe c∗ ,c∗ ∈ C telles que
δ c∗ % δ c % δ c∗ .
Supposons maintenant que, si |supp(p)| = n − 1, n > 1, c∗ % p % c∗ et montrons
qu’alors ceci est vérifié pour p telle que |supp(p)| = n. Soit c0 ∈ supp(p) et soit q ∈ ∆(C)
définie par (
0 si c = c0
q(c) = p(c)
1−p(c0 ) sinon.
On a p = p(c0 )δc0 + (1 − p(c0 ))q. De plus, |supp(q)| = n − 1, donc on peut appliquer
l’hypothèse de récurrence. On a donc c∗ % q % c∗ . En appliquant l’axiome d’indépendance,
ceci nous donne
r = p(c0 )δc0 + (1 − p(c0 ))δc∗ % p.
Puisque c∗ % c0 , on a, d’après l’axiome d’indépendance, c∗ % r % p. On raisonne de même
pour montrer que p % c∗ .

On va maintenant construire une fonction V représentant %. Soit p ∈ ∆(C). Si p ∼ c∗ ,


on pose V (p) = 1. Si p ∼ c∗ , on pose V (p) = 0. Si c∗  p  c∗ on sait, par l’axiome de
Continuité, qu’il existe a∗ ∈]0,1[ tel que p ∼ a∗ c∗ + (1 − a∗ )c∗ . Le lemme 1.1 assure l’unicité
de a∗ . Posons maintenant V (p) = a∗ . Le lemme 1.1 P garantit que V représente %.
Il nous faut maintenant montrer que V (p) = c∈C u(c)p(c).
Lemme 1.3. Pour tout p, q, p0 , q 0 ∈ ∆(C), pour tout α ∈ [0,1],

p ∼ q et p0 ∼ q 0 ⇒ αp + (1 − α)p0 ∼ αq + (1 − α)q 0 .

Démonstration.

p ∼ q implique, par l’axiome d’indépendance, αp + (1 − α)p0 ∼ αq + (1 − α)p0 ; p0 ∼ q 0


implique, par l’axiome d’indépendance, (1 − α)p0 + αq ∼ (1 − α)q 0 + αq. D’où le résultat
par transitivité.

De ceci, on va déduire que V est affine, c’est-à-dire vérifie la propriété suivante:

∀,p,q ∈ ∆(C),∀α ∈ [0,1],V (αp + (1 − α)q) = αV (p) + (1 − α)V (q).

En effet, on sait que, par définition de V ,

p ∼ V (p)c∗ + (1 − V (p))c∗ .

et
q ∼ V (q)c∗ + (1 − V (q))c∗ .
Par application du lemme précédent, ceci implique:

αp + (1 − α)q ∼ (αV (p) + (1 − α)V (q))c∗ + (1 − (αV (p) + (1 − α)V (q)))c∗ ,

d’où le résultat, par définition de V .


38 CHAPITRE 1. LA THÉORIE CLASSIQUE

Montrons maintenant par récurrence que ceci implique la propriété suivante:


n
X Xn n
X
∀n > 1,∀p1 , . . . ,pn ∈ ∆(C),∀α1 , . . . ,αn ∈ [0,1], αi = 1 ⇒ V ( αi pi ) = αi V (pi ).
i=1 i=1 i=1

Pour n = 2, c’est déjà fait. Supposons que c’est vrai au rang n − 1. Alors,
n n
X X αi
αi pi = α1 p1 + (1 − α1 ) pi .
1 − α1
i=1 i=1

Il suffit alors d’appliquer l’hypothèse de récurrence.


Posons maintenant: u(c) = V (δc ) pour tout c ∈ C. Soit maintenant p ∈ ∆(C). Notons
que si Supp(p) = {c1 , . . . ,cn }, on a
n
X
p= p(ci )δci .
i=1

Il suffit donc d’appliquer le résultat précédent pour achever de démontrer le théorème.

Cas des mesures à support fini dans le cas où C est infini


On va généraliser le théorème précédent au cas où C est infini et où on se restreint
à l’ensemble ∆0 (C) des mesures de probabilité à support fini. Ceci revient à s’intéresser
uniquement aux décisions ayant un nombre fini de conséquences. Pour mener à bien cette
généralisation, il est pratique de considérer tout d’abord dans un cadre encore plus général,
celui des espaces mixables, notion introduite par Herstein and Milnor (1953).
Définition 1.1. On appelle espace mixable un couple (M ,m) où M est un ensemble et
m une application de M 2 × [0,1] dans M vérifiant les axiomes suivants:
(M1) Pour tout x ∈ M ,α ∈ [0,1], m(x,x,α) = x;
(M2) Pour tous x,y ∈ M ,α ∈ [0,1], m(x,y,α) = m(y,x,1 − α);
(M3) Pour tous x,y ∈ M ,α,β ∈ [0,1], m(m(x,y,α),y,β) = m(x,y,αβ).
Le concept d’espace mixable généralise la notion de partie convexe d’un espace vectoriel
(voir sur ce point Mongin (2001)). L’élément m(x,y,α) est souvent noté αx + (1 − α)y ou
xαy. Il s’agit du α-mixage de x et de y.
Corrélativement à cette notion, on introduit la notion de fonction affine:
Définition 1.2. Soit (M ,m) un espace mixable et f : M → R. f est dite affine ou parfois
linéaire si, pour tous x,y ∈ M , α ∈ [0,1],

f (m(x,y,α)) = αf (x) + (1 − α)f (y).

Soit % une relation binaire définie sur M . Considérons les axiomes suivants, analogues
dans le cadre des espaces mixables des axiomes déjà examinés:
Axiome 1.4 (Préordre) % est un préordre total.
Axiome 1.5 (Continuité) Pour tous x,y,z ∈ M telles que x  y  z,
a) version faible: il existe α,β ∈]0,1[ tels que

m(x,z,α)  y  m(x,z,β);
1.2. ESPÉRANCE D’UTILITÉ DANS L’INCERTAIN: LE MODÈLE DE SAVAGE 39

b) version forte: il existe α ∈]0,1[ tel que

m(x,z,α) ∼ y.

Axiome 1.6 (Indépendance) Pour tous x,y,z ∈ M , pour tout α ∈ [0,1],

x % y ⇔ m(x,z,α) % m(y,z,α).

On a alors le théorème suivant:

Théorème 1.2
Les assertions suivantes sont équivalentes:
(i) % vérifie les axiomes de Préordre, Continuité et Indépendance,
(ii) il existe une fonction affine u : M → R qui représente %.

Démonstration.

À faire.

Une fois que l’on dispose de ce théorème il est aisé de généraliser le théorème concernant
l’espérance d’utilité au cas où C est infini et où on se restreint à ∆0 (C). En revanche, les
généralisations ultérieures requièrent un axiome de dominance, mais ceci sort du cadre
simple adopté ici.

1.2 Espérance d’utilité dans l’incertain: le modèle de Savage


L’hypothèse que l’agent dispose d’une information probabiliste sur les événements est
très forte, dans la mesure où il est rare que ce soit le cas, d’une part, et dans la mesure,
d’autre part, où on ne sait pas trop d’où cette information vient; elle tombe du ciel. Il
serait donc intéressant de rendre cet aspect du problème endogène. C’est ce que propose le
modèle de Savage (Savage (1954)). Le cadre du modèle est celui que nous avons considéré
jusqu’ici, sauf bien entendu que l’on n’a plus de mesure de probabilité sur E . Où celle-ci
peut donc bien être trouvée? L’idée qui prédominait avant Savage était que l’information
sur les probabilités se trouvait dans la fréquence d’occurrence des événements, et que la
«vraie» probabilité s’en déduisait par passage à la limite. C’est ce type d’intuition qui est
explicitée dans les grands théorèmes de convergence type loi des grands nombres. Mais ce
type de raisonnement pose un problème pratique lorsque l’on parle d’événements qui ne
sont pas facilement observables ou qui par nature ne se produisent qu’une seule fois. Or,
pour Savage, il n’y a pas de probabilité objective dans la nature, ou tout au moins ce n’est
pas de celle-ci qu’il s’agit dans la prise de décision. La probabilité d’un événement reflète la
croyance d’un individu donné dans la réalisation de cet événement, et cette croyance dépend
de l’information dont dispose l’individu mais aussi de sa façon de traiter cette information.
Ainsi, le dispositif que Savage va adopter pour révéler les probabilités «subjectives» (ou
«personnelles» comme il dit) consiste à demander à l’individu les paris qu’il serait prêt à
faire sur un événement donné. Ce sont donc ses préférences sur les paris qui permettront
de dériver la probabilité. Cette idée se trouve également chez Ramsey et De Finetti, mais
c’est Savage qui l’a menée à son terme dans toutes ses conséquences.
40 CHAPITRE 1. LA THÉORIE CLASSIQUE

1.2.1 Le théorème de Savage


On considère une relation de préférence % sur les actes. Les axiomes de Savage sont les
suivants.
Axiome 1.7 (P1) % est un préordre total.
Soient f,g ∈ A et soit A ∈ E . On définit la A-greffe de f avec g comme étant l’acte,
noté f Ag, défini par:
(
f (s) si s ∈ A;
f Ag(s) =
g(s) si s ∈ Ac .

Axiome 1.8 (P2: principe de la chose sûre) Pour tous f,f 0 ,g,h ∈ A , A ∈ E ,

f Ag % f 0 Ag ⇔ f Ah % f 0 Ah.

Cet axiome est l’axiome le plus célèbre et le plus discuté de la théorie. On le considère
en général comme normativement acceptable mais descriptivement faux.
Cet axiome permet de définir la préférence de f à g conditionnelle à A, notée f %A g:

f %A g ⇔ ∃h ∈ A ,f Ah % gAh.

Cette relation de préférence est utilisée dans la démonstration du théorème.


On dit qu’un événement B est nul si:

∀f,g ∈ A ,f ∼A g.

Ceci signifie que les contingences contenues dans A ne sont pas pertinentes pour la déci-
sion, puisqu’elles ne permettent pas de prendre une décision. On note E ∗ l’ensemble des
événements non-nuls.
Étant donnée c ∈ C, on peut considérer l’acte constant fc prenant la valeur c. La re-
lation de préférence % induit alors une relation sur C définie par c % c0 si et seulement si
fc % fc0 . Cette relation ne définit véritablement une préférence intrinsèque sur les consé-
quences (c’est-à-dire indépendante du contexte d’incertitude qui prévaut) que si l’on pose
l’indépendance de cette relation par rapport aux contingences susceptibles de se produire,
c’est-à-dire par rapport à l’information du décideur sur les contingences. Ceci conduit donc
à poser l’axiome suivant:
Axiome 1.9 (P3: indépendance par rapport à l’état de la nature) Pour toutes c,c0 ∈ C,
pour tout A ∈ E ∗ ,
fc %A fc0 ⇔ c % c0 .

C’est cet axiome qui va permettre d’obtenir une fonction d’utilité indépendante de
l’état de la nature. Cet axiome est parfois discuté (parler de la mort de la femme.)
Comme nous l’avons dit, l’approche de Savage pour déduire des préférences de l’agent
sa mesure de probabilité subjective est de s’intéresser aux paris que l’agent est prêt à faire.
Formellement, un pari sur l’événement A ∈ E est un acte de la forme fc Afc0 , avec c  c0 ,
c’est-à-dire un acte tel que l’on «gagne» si l’événement A se réalise et l’on «perd» dans le
cas contraire. On notera cAc0 un tel pari. D’après Savage, un individu estime plus probable
un événement A qu’un événement B s’il préfère parier sur A que parier sur B. Le problème
de cette définition est que la notion de pari comporte un élément d’arbitraire dans le choix
1.2. ESPÉRANCE D’UTILITÉ DANS L’INCERTAIN: LE MODÈLE DE SAVAGE 41

des conséquences c et c0 . Pour que cette relation «est plus probable que» soit bien définie,
il faut donc qu’elle ne dépende pas de ce choix. Ceci nécessite un axiome:
Axiome 1.10 (P4:cohérence de la vraisemblance) Pour tous c,c0 ,c1 ,c01 ∈ C, tels que c  c0
et c1  c01 , pour tous A,B ∈ E ,

cAc0 % cBc0 ⇔ c1 Ac01 % c1 Bc01 .

On peut ainsi définir une relation binaire «est plus probable que», notée D, sur E par:

A D B ⇔ ∃c,c0 ∈ C,c  c0 et cAc0 % cBc0 .

Pour que cette relation soit utilisable, il faut que l’on puisse comparer des événements,
donc qu’il existe c,c0 ∈ C telles que c  c0 . C’est l’objet de l’axiome suivant:
Axiome 1.11 (P5: non-trivialité) Il existe c,c0 ∈ C telles que c  c0 .
L’axiome suivant est technique, et nous ne nous étendrons pas dessus:
Axiome 1.12 (P6) Pour tout f,g ∈ A tels que f  g, pour tout c ∈ C, il existe une
partition de S telle que remplacer f (s) (ou g(s)) par c pour tout s dans une cellule de la
partition ne change pas l’ordre de la préférence.
Le dernier axiome est un axiome de dominance, du même ordre que celui que nous
n’avons pas énoncé pour le risque:
Axiome 1.13 (P7:dominance) Pour tout A ∈ E , pour tous f,g ∈ A ,

(∀s ∈ A,f %A (-A )g(s)) ⇒ f %A (-A )g.

Avant d’énoncer le théorème, on rappelle la définition suivante: une charge de probabi-


lité P est dite sans atome si pour tout A ∈ E ,ρ ∈ [0,1], il existe B ∈ E tel que B ⊆ A et
P (B) = ρP (A). On a le théorème suivant:

Théorème 1.3 (Savage (1954))


Les assertions suivantes sont équivalentes:
(i) % vérifie P1-P7;
(ii) il existe une fonction d’utilité u : C → R et une charge de probabilité P sans atome
telles que 3 : pour tous f,g ∈ A ,
Z Z
f %g⇔ u ◦ f dP ≥ u ◦ g dP.
S S

1.2.2 Schéma de la preuve


La notion de probabilité qualitative
Dans le même esprit qui conduit à représenter des jugements de préférence par une
relation binaire sur les décisions, on peut représenter les jugements du type «l’événement
A est plus probable que l’événements B» par une relation binaire sur les événements.
R
3. L’intégrale S
u ◦ f dP signifie, dans le cas où S est fini,
X
u(f (s))P ({s}).
s∈S
42 CHAPITRE 1. LA THÉORIE CLASSIQUE

Pour qu’il soit légitime de prétendre qu’elle représente des jugements de probabilité, il faut
ajouter des axiomes sur cette relation.
Définition 1.3 (Probabilité qualitative). Soit D une relation binaire sur une algèbre E .
D est une relation de probabilité qualitative (p.q.) si elle vérifie les axiomes suivants:
(QP1) D est un préordre total;
(QP2) Pour tout A ∈ E , A D ∅;
(QP3) S . ∅;
(QP4) Pour tout A,B,C ∈ E tels que A ∩ C = B ∩ C = ∅:

A D B ⇔ A ∪ C D B ∪ C.

Exemple fondamental. Soit P une charge de probabilité sur (S,E ). Soit la relation DP
définie sur E par:
A DP B ⇔ P (A) ≥ P (B).
La relation DP est une p.q.
La question qui se pose est évidemment celle de la réciproque: étant une p.q. D, existe-
t-il une charge de probabilité P telle que D=DP . La réponse, comme dans le cas de la
représentation d’une relation de préférence par une fonction d’utilité, n’est pas triviale.
On peut montrer que les axiomes ne sont pas suffisants (Kraft, Pratt, and A. (1959)). Il
existe un certain nombre de théorèmes, mais nous nous contenterons de ce que que Savage
a démontré, qui est le suivant:

Théorème 1.4
Soit D une p.q. qui vérifie l’axiome suivant:
(QP5) Si A . B, il existe une partition finie (Ci )i∈I de S telle que, pour tout i ∈ I,
A . B ∪ Ci .
Alors, il existe une probabilité sans atome P telle que D=DP .

Les probabilités révélées par les paris


Savage définit la relation D sur E par:

A D B ⇔ ∃c,c0 ∈ C,c  c0 ,cAc0 % cBc0 .

Cette relation est bien définie en vertu de (P4) et elle définit bien une p.q. en vertu de
(P1) et (P2) et (P5). En outre, Savage montre que l’axiome (P6) implique que (QP5) est
vérifié. Donc il existe une probabilité P sans atome qui représente D.

L’utilité
Soit A0 l’ensemble des actes prenant un nombre fini de valeurs. On peut associer à
chaque f ∈ A0 sa probabilité induite Pf (c) = P (f −1 ({c})). Savage montre deux choses:
– Si Pf = Pg , alors f ∼ g.
– Pour toute loterie p sur C , il existe f ∈ A ,Pf = p.
On peut alors travailler sur l’ensemble ∆0 (C) muni de la relation de préférence

p % q ⇔ f % g,

où Pf = p et Pg = q, f,g ∈ A0 . Savage montre alors que cette relation de préférence vérifie


les axiomes de vNM, donc qu’il existe une fonction linéaire V telle que pour tout f,g ∈ A0 ,

f % g ⇔ V (Pf ) ≥ VPg ,
1.2. ESPÉRANCE D’UTILITÉ DANS L’INCERTAIN: LE MODÈLE DE SAVAGE 43

autrement dit, en posant u(c) = V (δc ), on a


X X
f %g⇔ P ({f −1 (c)})u(c) ≥ P ({g −1 (c)})u(c).
c∈C c∈C

Savage montre alors que l’on peut étendre ce résultat à tous les actes, et ceci achève la
preuve.
44 CHAPITRE 1. LA THÉORIE CLASSIQUE
45

Chapitre 2

Limites de la théorie classique

2.1 Limites normatives de l’espérance d’utilité


2.1.1 L’attitude par rapport au risque:
Où tout joueur doit participer au jeu de Saint-Pétersbourg
Dans la théorie classique de la décision dans l’incertain, la différence entre risque et
incertain est, du point de la décision individuelle 1 , annulée: la vraisemblance de l’occurrence
des événements est mesurée par une probabilité. De ce fait, la façon dont un agent réagit à
l’incertitude à laquelle il est confronté, notamment la façon dont il se prémunit des risques
ou dont il en recherche le frisson peut être étudiée dans le cas d’un risque objectif caractérisé
par une distribution de probabilité. L’étude de l’aversion pour le risque se fait dans un cadre
où l’ensemble des conséquences est un intervalle de R. Les conséquences s’interprètent dans
ce cadre comme des montants monétaires. C’est le cadre le plus adapté pour les applications
à la finance et à l’assurance pour lesquelles ces notions ont été développées.
Nous considérons ici comme notre cadre de référence l’ensemble V0 des variables aléa-
toires réelles à support fini définies sur l’espace probabilisé (S,E ,P ) des états de la nature,
c’est-à-dire l’ensemble des fonctions X : S → R telles que {s ∈ S | X(s) 6= 0} est fini et,
pour tout x ∈ X(S), P (X = x) ∈ E , où (X = x) := X −1 ({x}). On rappelle quelques
définitions. Étant donnée une variable aléatoire X ∈ V0 , on peut définir sa loi PX comme
une fonction X(S) → R définie par
PX (x) = P (X = x)
et son espérance par: X
E(X) = PX (x)x.
x∈X(S)
En outre, considérons deux variables aléatoires X et Z prenant les valeurs x1 , . . . ,xn et
z1 , . . . ,zm respectivement. On peut définir, étant donné zj ∈ Z(S), la loi conditionnelle de
X sachant Z = zj :
P ((X = xi ) ∩ (Z = zj ))
PX (xi | Z = zj ) = .
PX (xi )
On associer à cette loi conditionnelle sachant Z = zj une espérance conditionnelle sachant
Z = zj : X
E(X | Z = zj ) = PX (x | Z = zj )x.
x∈X(S)

1. Lorsqu’il y a plusieurs agents, l’existence d’une probabilité objective les forcent à adopter la même
croyance sur les événements, alors que si les probabilités sont subjectives, elles peuvent a priori différer
46 CHAPITRE 2. LIMITES DE LA THÉORIE CLASSIQUE

Cette espérance conditionnelle sachant Z = zj permet de définir une nouvelle variable


aléatoire, l’espérance conditionnelle de X sachant Z, notée E(X | Z), définie par:
X
E(X | Z)(s) = PX (x | Z = Z(s))x.
x∈X(S)

L’espérance conditionnelle de X sachant Z donne la valeur moyenne de X étant donnée


une information sur la valeur de Z.
Les notions introduites ci-dessus permettent de définir une notion d’accroissement du
risque entre deux décisions, c’est-à-dire de donner un sens à l’idée selon laquelle la décision
associée à une variable aléatoire X est plus risquée qu’une décision associée à une variable
aléatoire Y .

Définition 2.1. Soient X et Y deux variables aléatoires de même espérance. On dit que
Y est un étalement à moyenne constante de X (en anglais «mean-preserving spread»), et
on note Y %M P S X, s’il existe θ ∈ V0 telle que:
(i) E(θ | X) = 0 P − p.p.;
(ii) Y = X + θ

Cette définition 2 est intuitive: elle montre que Y est un EMC de X si l’on passe de X
à Y en ajoutant un "bruit", donc en complexifiant la décision, puisqu’il faut alors prendre
en compte l’effet de ce bruit. C’est la notion classique d’accroissement du risque utilisée
en économie, et elle a été introduite en économie par Rotschild and Stiglitz (1970, 1971).
Elle n’est cependant pas exemptes de critiques, car dans la mesure où aucune conditions
sur θ n’est imposée, θ peut constituer une couverture contre les mauvais résultats de X,
de sorte que Y soit en un sens moins risquée que X. Nous introduirons dans des chapitres
ultérieurs des modifications de cette notion prenant en compte cette critique.
Cette notion permet de définir une notion d’aversion pour le risque.

Définition 2.2. Soit un décideur caractérisé par une relation de préférence % sur V0 . On
dit que le décideur a de l’aversion forte pour le risque si, pour toutes X,Y ∈ V0 de même
espérance, on a:
Y %M P S X ⇒ X % Y.

Ainsi, un décideur a de l’aversion pour le risque s’il préfère toujours la loterie la moins
risquée.
Une notion plus faible et plus intuitive d’aversion pour le risque peut être définie. Il est
clair qu’une loterie certaine est moins risquée qu’une loterie incertaine de même espérance.
C’est même le cas le plus simple d’accroissement de risque. En outre, cette notion est
cohérente avec celle que l’on a donnée précédemment, puisque étant donné X ∈ V0 , on a
X %M P S E(X) (il suffit de prendre θ = X − E(X)). On définit l’aversion faible pour le
risque à partir de cette notion.

Définition 2.3. Soit un décideur caractérisé par une relation de préférence % sur V0 . On
dit que le décideur a de l’aversion faible pour le risque si, pour toute X ∈ V0 , on a:

E(X) % X.

2. Il existe en fait une définition plus générale dans le cas où X et Y n’ont pas la même espérance. Voir
(Cohen and Tallon, 2000, p.638).
2.1. LIMITES NORMATIVES DE L’ESPÉRANCE D’UTILITÉ 47

La proposition suivante est immédiate:

Proposition 2.1
Soit un décideur caractérisé par une relation de préférence % sur V0 . Si le décideur a de
l’aversion forte pour le risque, il a aussi de l’aversion faible.

Dans le cas où les préférences de l’agent peuvent être représentées par une espérance
d’utilité, on a la réciproque et une caractérisation de l’aversion pour le risque.

Théorème 2.1
Soit un décideur caractérisé par une relation de préférence % sur V0 re présentable par une
espérance d’utilité et soit u sa fonction d’utilité vNM. Alors le propositions suivantes sont
équivalentes:
(i) Le décideur a de l’aversion forte pour le risque;
(ii) Le décideur a de l’aversion faible pour le risque;
(iii) u est concave.

Démonstration.

L’équivalence entre (ii) et (iii) provient de l’inégalité de Jensen (cf. par exemple (Williams,
1991, p.61)) et de la définition de la concavité. (i) ⇒ (ii) est évident et (ii) ⇒ (i) est
prouvée dans Rotschild and Stiglitz (1970).

Ce théorème est riche de conséquences.


Tout d’abord, il montre que toutes les notions d’aversion pour le risque sont confondues
dans le cadre de l’espérance d’utilité (on peut montrer que d’autres notions encore sont
également confondues dans ce cas). De ce fait, l’espérance d’utilité est un cadre très rigide
et peu expressif, il ne permet pas de faire droit à des des comportements très différenciés
face au risque.
Ensuite, la caractérisation de l’aversion pour le risque par la concavité de la fonction
d’utilité est à la fois une propriété intéressante sur le plan pratique, qui a été et est tou-
jours abondamment utilisée, et en même temps une propriété insatisfaisante sur le plan
conceptuel. En effet, la fonction d’utilité devrait refléter uniquement l’attitude par rap-
port aux conséquences monétaires, c’est-à-dire les préférences dans le certain. Or, dans
la mesure où il n’y pas pas d’autre paramètre représentant les préférences, elle incorpore
également l’attitude par rapport au risque. Ceci signifie qu’un décideur ne peut à la fois
aimer le risque (u convexe) et avoir de l’utilité marginale pour la monnaie décroissante (u
concave), à moins d’avoir une utilité linéaire. Autrement dit, un individu qui aime le risque
est nécessairement victime du paradoxe de Saint Petersbourg. Ainsi, contrairement à ce
qui a été avancé par bien des auteurs, le caractère normativement convaincant du critère
d’espérance d’utilité n’est pas aussi évident qu’il n’a pu sembler.

2.1.2 La confiance dans les probabilités


La probabilité subjective étant une estimation par le décideur de la vraisemblance des
événements, il est assez naturel d’associer à cette estimation le degré de confiance de l’agent
dans son estimation. Considérons, par exemple, le jet d’une pièce de monnaie. Il est assez
naturel de considérer que les deux faces d’une même pièce ont une même probabilité de
sortir. Cependant, l’attribution de la probabilité 1/2 à chaque face est créditée d’une forte
48 CHAPITRE 2. LIMITES DE LA THÉORIE CLASSIQUE

confiance si celui qui jette la pièce est le possesseur de la pièce, alors qu’elle n’est pas
créditée de la même confiance si c’est la pièce appartient à quelqu’un d’autre, toutes choses
égales par ailleurs. On dispose de plus d’information concernant la pièce dans le premier
cas que dans le second. Comme suggéré par Schmeidler (1989), on pourrait dans le second
cas attribuer la même probabilité à chaque face, mais pas forcément 1/2. Le complément à
1 mesure ainsi la confiance de l’agent dans son estimation. Le modèle d’espérance d’utilité,
dans la mesure où il est fondé sur des probabilités additives, rend impossible cette mani-
pulation (ceci est vrai, plus généralement, de tout modèle dans lequel les croyances sont
exprimées par des probabilités).
Ainsi, comme dans le cas de la modélisation de l’attitude face au risque, le modèle de
l’espérance d’utilité apparaît très rigide et relativement peu expressif. Il ne peut faire droit
à des différences de comportement qui ne sont pas, pourtant la marque d’une quelconque
irrationalité. On peut même dire qu’avoir le même comportement dans deux situations
différant par leur information est irrationnel, puisque cela conduit à ignorer la différence
d’information. Ainsi, de ce point de vue le modèle de l’espérance d’utilité est irrationnel.
Pour une discussion plus générale sur la notion de confiance dans les probabilités, on
pourra consulter (Moureau and Rivaud-Danset, 2004, chapitre 1).

2.2 Limites descriptives de la théorie classique


La règle de décision décrite par la théorie classique peut se résumer par la procédure
suivante: s’il existe des probabilités objectivement données, calculer la valeur d’une loterie
en prenant l’espérance de l’utilité, ce qu’on appelle parfois le «traitement linéaire des
probabilités»; sinon, attribuer une probabilité aux événements, ce qu’on appelle parfois la
«sophistication en probabilité», et se ramener au problème précédent. On va voir que, d’un
point de vue descriptif, cette théorie a été remise en cause selon deux axes: la remise en
cause du traitement linéaire des probabilités et la remise en cause de la sophistication en
probabilité. En outre, le modèle de l’espérance d’utilité suppose l’existence d’un préordre
total représentant les choix. Or, cette hypothèse elle-même a été remise en cause.
Nous allons examiner les violations de l’espérance d’utilité par ordre croissant de gravité,
c’est-à-dire en commençant par celles qui ne remettent en cause qu’un aspect très spécifique
du modèle pour finir avec celle qui jettent un doute sur les fondements même de la théorie
de la décision.

2.2.1 Le traitement linéaire des probabilités et le paradoxe d’Allais


En 1953, lors d’un colloque scientifique auquel assiste Savage, Maurice Allais, aujour-
d’hui prix Nobel d’économie, propose à l’assistance, et à Savage en particulier, de répondre
au problème de décision présenté dans le tableau 3.3 (voir aussi Allais (1953)), où l’on
donne les probabilités que chaque loterie donne aux résultats 5 millions, 1 million et 0.

5M 1M 0
L1 0 1 0
L2 0,10 0,89 0,01
L0 1 0 0,11 0,89
L0 2 0,10 0 0,90

Tab. 2.1 – Le paradoxe d’Allais


2.2. LIMITES DESCRIPTIVES DE LA THÉORIE CLASSIQUE 49

Si vous essayez de donner vos préférences entre les loteries L1 et L2 d’abord, entre les
loteries L0 1 et L0 2 ensuite, il y a de fortes chances que vos réponse soient les suivantes:

L1  L2

et
L0 2  L0 1.
C’est en tout cas ce que la plupart des gens, notamment Savage lui-même, répondent. Or,
ces préférences remettent en cause l’espérance d’utilité. En effet, soit P la loterie donnant
donnant 5M avec probabilité 10/11 et 0 avec la probabilité 1/11. On a alors:

L1 = 0,11L1 + 0,89L1
L2 = 0,11P + 0,89L1
L0 1 = 0,11L1 + 0,89δ0
L0 2 = 0,11P + 0,89δ0 .

Pour n’importe quelle application affine V (au sens du théorème sur les espaces mixables)
représentant les préférences, on aura donc

L1  L2 ⇔ L1  P

et
L0 2  L0 1 ⇔ P  L1.
Il y a là une contradiction manifeste; les préférences ne peuvent donc pas être représentables
par une application affine.
Comme l’a noté Mongin (1988), il n’est pas possible, à partir de cet exemple, de savoir
lequel des trois axiomes — préordre total, continuité et indépendance — est effectivement
violé par les sujets effectuant de tels choix. Kahneman and Tversky (1979) ont construit
un exemple dans lequel il est plus clair que c’est l’axiome d’indépendance qui est violé. Les
loteries sont présentées dans le tableau 3.2

4000 3000 0
A 0 1 0
B 0,8 0 0,2
C 0 0,25 0,75
D 0,2 0 0,8

Tab. 2.2 – Le paradoxe d’Allais, version modifiée

Essayez encore une fois d’exprimer vos préférences successivement entre A et B puis
entre C et D.
La majorité des sujets choisissent A  B et D  C. Or, il est facile de voir que:

C = 0,25A + 0,75δ0

et
D = 0,25B + 0,75δ0 .
Les choix observés sont donc en contradiction manifeste avec l’axiome d’indépendance.
Une des raisons souvent avancées pour expliquer ces choix est ce que l’on appelle l’effet
de certitude. Dans les deux expériences rapportées ci-dessus, une des loteries était une
50 CHAPITRE 2. LIMITES DE LA THÉORIE CLASSIQUE

loterie certaine. Or, la certitude semble être très attirante pour les individus, ce qui les
détermine à choisir la loterie certaine contre une loterie incertaine ayant pourtant une
espérance de gain supérieure 3 .

2.2.2 La sophistication en probabilité et le paradoxe d’Ellsberg


La section précédente a montré que, même lorsque les probabilités étaient expressément
données, les individus ne se comportaient pas conformément au modèle de l’espérance
d’utilité. Autrement dit, ce dernier n’est pas valable pour décrire les comportements dans
le contexte du risque.
Nous avons vu que, grâce au modèle de Savage, toute situation d’incertitude se ramenait
au cas du risque, de sorte que la distinction de Knight entre risque et incertitude n’était
plus pertinente. Cependant, ce résultat n’est obtenu qu’au prix de la vérification de cer-
tains axiomes par le comportement de l’individu. Ellsberg Ellsberg (1961) a imaginé deux
situations dans lesquelles ces axiomes ne sont pas satisfaits en général et dans lesquelles,
de ce fait, la distinction entre risque et incertain reprend tout son intérêt. Il propose de
plus une analyse des comportements contraires aux axiomes de Savage qui montrent qu’ils
ne sont pas, a priori irrationnels ou déraisonnables.
Ellsberg a proposé deux expériences de pensée, qu’il a par ailleurs mis en pratique de
façon informelle auprès d’un certain nombre de personnes, dont des grands noms de la
théorie de la décision, Savage compris (lequel, comme dans le cas du paradoxe d’Allais,
c’est à nouveau retrouvé en contradiction avec sa théorie, le pauvre homme!).
La première expérience de pensée est la suivante: considérons deux urnes contenant
100 boules noires ou blanches. La proportion de chaque couleur dans l’urne 1 est inconnue;
l’urne 2 contient 50 noires et 50 blanches. Si E est un certain événement, on notera fE le
pari sur l’événement E, c’est-à-dire l’acte qui donne x si E se réalise et y sinon, avec x  y.
On note par ailleurs, N1, N2, B1, B2 les événements "la boule tirée de l’urne I est noire",
etc. Il s’agit de comparer les paris sur les différences événements. La plupart des individus
font les choix suivants: fN 1 ∼ fB1 , fN 2 ∼ fB2 , fN 2  fN 1 et fB2  fB1 . Rappelons que,
d’après Savage, la vraisemblance comparée de deux événements, E et F est définie par:

E D F ⇔ fE % fF .

On a donc, d’après les choix des individus, N 2 . B2 et N 1 . B1. Or, N 1 et B1 sont


complémentaires, de même que N 2 et B2. Il y a donc là une contradiction si l’on suppose
que les croyances sont représentées par une probabilité.
Dans la deuxième expérience de pensée, on considère une seule urne. L’urne contient 90
boules, dont 30 rouges et 60 boules noires ou jaunes. On demande d’abord aux individus de
choisir entre parier sur "rouge" ( fR ) et parier sur "noir" (fN ). Le choix le plus couramment
observé est fR  fN . Ensuite, on demande aux individus de choisir entre parier sur "rouge
ou jaune" et parier sur "noir ou jaune". Le choix le plus couramment observé est fR∪J ≺
fN ∪J . On a donc R.N et N ∪J .R∪J. Ce choix viole l’axiome d’additivité des probabilités
qualitatives présenté au chapitre précédent. Il viole également le principe de la chose sûre.
Il est clairement incompatible avec l’existence d’une mesure additive de la vraisemblance
des événements.
Ellsberg interprète ces résultats en introduisant la notion d’ambiguïté. Il y a ambiguïté
lorsque l’information dont dispose le décideur n’est pas suffisante pour qu’il soit capable
d’attribuer une unique distribution de probabilité à l’ensemble des événements. C’est par
3. Concernant cet effet, on pourra consulter Jaffray (1988) et Cohen (1992).
2.2. LIMITES DESCRIPTIVES DE LA THÉORIE CLASSIQUE 51

exemple le cas dans la seconde expérience, pour laquelle l’ensemble des distributions de
probabilité compatible avec l’information disponible est l’ensemble
1 2 2
{P | P (R) = ,P (N ) = λ,P (J) = − λ,0 ≤ λ ≤ }.
3 3 3
Dans une telle situation, il n’y a pas nécessairement de raisons de privilégier l’un des
éléments de cet ensemble. Ellsberg introduit explicitement la notion de degré de confiance
dans une estimation. Supposons, dit-il, que l’on parvienne à agréger l’information en une
distribution unique de probabilité, ou que, d’une manière ou d’une autre une distribution
soit particulièrement saillante (dans le cas précédent, ce serait la distribution uniforme). On
sait qu’on peut néanmoins se tromper en faisant entièrement confiance à cette distribution.
Si l’on est prudent, on voudra également minimiser ses pertes. Pour ce faire, il faudrait
choisir la décision qui entraîne en moyenne les pertes les moins importantes dans le pire des
scénarios. Supposons donc que l’information disponible permette d’aboutir à un ensemble
de distributions P et à une distribution particulière P ∗ . Si on note γ ∈ [0,1] le paramètre
mesurant la confiance du décideur dans son estimation P ∗ , le critère proposé par Ellsberg
est le suivant:
f % g ⇔ U∗ (f ) ≥ U∗ (g)
avec
U∗ (f ) = γEP ∗ (u ◦ f ) + (1 − γ) min EP (u ◦ f ).
P ∈P
Le choix de la loi uniforme pour P∗
et de γ = 1/4 permet de retrouver le résultat observé.
Ce critère a été axiomatisé notamment par Gajdos, Tallon, and Vergnaud (2004).

2.2.3 La transitivité et le renversement de préférence


Nous avons étudié jusqu’ici des paradoxes remettant en cause la forme fonctionnelle
de la représentation des préférences dans l’incertain, pas l’existence même d’une telle re-
présentation. Nous allons voir maintenant des faits expérimentaux, issus de la psychologie
expérimentale, notamment du programme de recherche dit “heuristics and biases” 4 , qui
ont été interprétés comme portant un coup beaucoup plus sérieux à la théorie de la déci-
sion. La plupart de ces phénomènes posent cependant un problème d’interprétation (voir
(Giraud, 2004, Introduction)).
La transitivité des préférences a notamment été remise en cause par ce qu’on appelle
dans la littérature de psychologie et d’économie expérimentales le phénomène du renver-
sement de préférence (voir Lichstentein et Slovic Lichtenstein and Slovic (1971, 1973),
Grether et Plott Grether and Plott (1979, 1982), Pommerehne, Schneider et Zweifel Pom-
merehne, Schneider, and Zweifel (1982)) est quelque chose de bien précis, et il y a d’ailleurs
quelque arbitraire à réserver ce terme à ce phénomène, puisque tous les phénomènes que
nous évoquons dans cette partie sont des renversements de préférence. Il s’agit du phéno-
mène suivant: lorsque l’on présente à des sujets une loterie P , où la probabilité de gain est
élevée mais la valeur de ce que l’on gagne faible, et une loterie D, où la probabilité de gain
est faible mais le gain élevé, et qu’on leur demande de choisir entre les deux, il préfèrent en
général P à D. Cependant, lorsqu’on leur demande le prix auquel il souhaiteraient vendre
ces tickets de loteries, on s’aperçoit qu’ils donnent un prix plus élevé à la loterie D qu’à la
loterie P 5 .
4. Sur ce programme de recherche, voir Kahneman, Slovic et Tversky Kahneman, Slovic, and Tversky
(1982) et Kahneman et Tversky Kahneman and Tversky (2000). Voir plus généralement Camerer Camerer
(1995) et Rabin Rabin (1998).
5. Remarquons cependant que la plupart des sujets qui disent préférer D ne changent pas de préférence
lorsqu’ils donnent leur évaluation.
52 CHAPITRE 2. LIMITES DE LA THÉORIE CLASSIQUE

L’interprétation de ce phénomène, c’est-à-dire de sa source, en rapport avec les hypo-


thèses (HN1) et (HN2), a suscité une controverse vers la fin des années 1980 et le début des
années 1990. Selon les termes de cette controverse, trois sources possibles ont été identifiées
(Tversky, Slovic et Kahneman Tversky, Slovic, and Kahneman (1990)):
a) PR serait la conséquence de la procédure utilisée pour faire révéler aux agents l’équi-
valent monétaire des loteries, à savoir la procédure Becker, De Groot, Marchack
Becker, DeGroot, and Marschak (1964) (BDM), dont les propriétés d’optimalité sup-
posent que soit vérifié l’axiome d’indépendance, que les sujets expérimentaux ne res-
pectent pas en général (Karni et Safra Karni and Safra (1987), Segal Segal (1988));
b) PR aurait pour origine l’absence de transitivité des préférences;
c) PR aurait pour origine l’absence d’invariance procédurale.
La première cause a été écartée assez facilement, notamment à partir de l’argument selon
lequel les premières mises en évidence de PR n’utilisaient pas la procédure BDM (cf.
Camerer (Camerer, 1995, p.657)). Faire la part des deux autres causes pose en revanche
un véritable problème. Reprenons la présentation de Tversky, Slovic et Kahneman Tversky
et al. (1990): soient %, ∼ et  les relations de préférence, d’indifférence et de préférence
stricte, et soient, pour toute loterie monétaire L, CL l’équivalent monétaire de L„c’est-à-dire
la loterie certaine dont la valeur est le prix de vente minimal de L„et CE(L) l’équivalent
certain de L„c’est-à-dire la loterie certaine telle que L ∼ CE(L). On suppose ici que,
pour des montants monétaires X,Y , X > Y implique X  Y . L’hypothèse d’invariance
procédurale signifie que la préférence exprimée par l’agent ne dépend pas de la procédure
choisie (détermination d’un prix de vente ou expression d’une préférence directe). Cette
hypothèse implique en particulier que CL = CE(L). Si cette hypothèse est vérifiée, alors PR
implique une intransitivité: en effet, soient P et D les loteries respectivement à probabilité
élevée de gain faible et à probabilité faible de gain élevé; on a P  D et CD > CP , d’après
PR, donc, avec l’hypothèse d’invariance procédurale, ceci donne:

P  D ∼ CD  CP ∼ P,

séquence manifestement intransitive. Maintenant, si l’hypothèse d’invariance n’est pas vé-


rifiée, c’est-à-dire si on a, par exemple, CD  D (surévaluation de D) ou P  CP (sous-
évaluation de P ), on n’a plus d’intransitivité automatique, car on peut avoir, par exemple:

P  CD  CP  D.

L’analyse expérimentale ne permet pas véritablement de trancher entre les deux possibilités:
d’un côté les études de Loomes, Starmer et Sugden Loomes, Starmer, and Sugden (1989,
1991) penchent du côté de l’hypothèse d’intransitivité, alors que celle de Tversky, Slovic et
Kahneman Tversky et al. (1990), mise au point expressément pour tester ce point, tend à
souligner massivement le rôle de l’absence d’invariance procédurale 6 .

2.2.4 L’existence d’une relation de préférence et les effets de contexte


Soit un ensemble X d’objets de choix. Dans cette sous-section on entendra par contexte
une partie non vide de X. Soit Y = 2X \∅ l’ensemble des parties non-vides de X. Supposons
que l’on puisse représenter les préférences d’un individu sur X par une famille {%Y | Y ∈ Y }
de relations de préférence où chaque %Y est définie sur Y . On dira que les préférences
de l’individu dépendent du contexte s’il existe x,y ∈ X et deux contextes Y,Y 0 tels que
x,y ∈ Y ∩ Y 0 ,x Y y et y %Y 0 x. Il est clair que s’il existe une relation binaire % définie sur
6. (Giraud, 2004, Introduction et Partie I, chapitre 1) revient en détail sur cette controverse.
2.2. LIMITES DESCRIPTIVES DE LA THÉORIE CLASSIQUE 53

X telle que %Y soit, pour tout Y , la restriction de % à Y , alors il n’y a pas de dépendance
par rapport au contexte, et %X =%. Par conséquent, la dépendance par rapport au contexte
est incompatible avec l’existence d’une relation de préférence globale qui détermine les
choix locaux. On sait (voir premier chapitre) que l’existence d’un telle relation implique
en particulier que le comportement de choix de l’individu vérifie la condition suivante, où
C : 2X \ ∅ → 2X \ ∅ est la fonction de choix de l’individu:
Propriété α de Sen ∀Y,Y 0 ∈ Y ,

Y ⊆ Y 0 ⇒ [∀x ∈ X,x ∈ C(Y 0 ) ∩ Y ⇒ x ∈ C(Y )].

Cet axiome est en effet nécessaire pour qu’il existe un préordre total R sur X qui
rationalise C, c’est-à-dire tel que pour toute partie Y ∈ Y ,

C(Y ) = {x ∈ Y | ∀y ∈ Y,xRy}.

Or, de nombreux auteurs, et Sen lui-même 7 , ont mis en cause la pertinence tant normative
que descriptive de cet axiome 8 . Nous rapportons ici quelques expériences, tant réelles que
de pensée, qui tendent à confirmer ce scepticisme. Nous les classons par la source présumée
du comportement décrit.

La valeur épistémique du menu


D’après Sen (Sen Sen (1993)), le contexte dans lequel on est amené à prendre une
décision n’est pas toujours neutre du point de vue informationnel. La présence de certaines
alternatives dans le menu des alternatives peut être porteuse d’informations; c’est cette
idée que recouvre la notion de valeur épistémique du menu. Afin de l’illustrer nous allons
tout d’abord évoquer l’exemple proposé par Sen:
Exemple 2.1. Supposons qu’une personne que vous connaissez assez peu vous propose:
– de venir chez elle boire le thé (alternative y),
– de venir chez elle prendre de la cocaïne (alternative z).
Appelons x l’alternative consistant à refuser de venir chez la personne en question. Consi-
dérons les deux menus d’alternatives suivants: Y := {x,y} et Z := {x,y,z}. On peut penser
qu’une personne tentée de choisir y dans le menu Y sera plutôt tentée par x dans le menu
Z. Il est en tout cas assez clair que la présence de l’alternative z dans le menu apporte de
l’information sur les m“urs de l’individu qui fait la proposition, ce qui peut influencer la
décision.
Exemple 2.2 (d’après Simonson et Tversky Tversky and Simonson (2000, 1992)). Si-
monson et Tversky, dans Tversky and Simonson (2000) et Tversky and Simonson (1992),
rapportent un certain nombre d’expériences qui tendent à prouver que les préférences dé-
pendent du contexte. On propose, par exemple, aux sujets de choisir parmi des pneus, qui
diffèrent par l’“espérance de vie” et le prix. Les sujets sont divisés en deux groupes. Au
premier groupe de sujets, on propose tout d’abord d’exprimer une préférence entre les types
de pneus x0 et y 0 , puis entre x et y, tels que décrits dans le tableau 2.3.
Aux sujets du deuxième groupe, on propose comme première tâche d’exprimer une pré-
férence entre les types de pneus x00 , y 00 , x, y tels que décrits dans le tableau 2.4.

7. Sen Sen (1993).


8. Pour l’articulation entre choix ne vérifiant pas α et préférences dépendant du contexte, on pourra
consulter Diaye Diaye (2001).
54 CHAPITRE 2. LIMITES DE LA THÉORIE CLASSIQUE

type de pneu espérance de vie (miles) prix ($)


x0 55000 85
y0 75000 91
x 40000 60
y 50000 75

Tab. 2.3 – Traitement n◦ 1.


type de pneu espérance de vie (miles) prix ($)
x00 30000 25
y 00 35000 49
x 40000 60
y 50000 75

Tab. 2.4 – Traitement n◦ 2.

On peut interpréter l’expérience et ses résultats de la façon suivante: tout se passe


comme si les sujets étaient confrontés aux problèmes de décision suivants:
– Y 0 = {x,y,x0 ,y 0 }. Lors de l’expérience, on constate que les sujets préfèrent y 0 à x0
et x à y. L’interprétation donnée par Tversky et Simonson de ce résultat est que la
comparaison de x0 et y 0 montre qu’un écart de prix de $6 permet d’obtenir un gain
d’espérance de vie de 20000 miles. Or, y coûte $15 de plus que x et ne vit que 10000
miles de plus. Il n’est donc pas intéressant de choisir y. La relation de préférence %Y 0
associée à ce problème de décision est donc telle que y 0 Y 0 x0 et x Y 0 y.
– Y 00 = {x,y,x00 ,y 00 }. Ici, les résultats montrent que les sujets préfèrent x00 à y 00 et y à
x. Le raisonnement est le même: la comparaison de x00 et y 00 montre qu’un écart de
prix de $24 permet d’obtenir un gain d’expérance de vie de 5000 miles. C’est moins
que ce que permet l’achat de y par rapport à celui de x, puisque dans ce cas, $15
de plus donnent une espérance de vie supplémentaire de 10000 miles. La relation de
préférence %Y 00 associée à ce problème est donc telle que x00 Y 00 y 00 et y Y 00 x.
Dans cet exemple, le fait que le menu (le contexte) apporte une information n’apparaît
peut-être pas clairement, mais il semble qu’il soit possible d’analyser ainsi la situation, à
condition de ne pas considérer l’information comme objective mais en un sens statistique:
la présence des alternatives x0 et y 0 dans un cas, x00 et y 00 dans l’autre permet en effet
d’“estimer” la valeur d’un dollar de plus en termes de qualité du pneu, et de prendre une
décision à partir de cette valeur. Cette valeur peut être erronée, mais elle constitue tout
de même un élément sur lequel le décideur peut s’appuyer.

L’aversion pour les extrêmes


Il s’agit ici de l’idée selon laquelle le fait de préférer une alternative par rapport à une
autre dépend non seulement de ses caractéristiques intrinsèques mais aussi de sa position
dans l’espace des caractéristiques. En particulier, l’individu peut avoir de l’aversion pour
les options extrêmes et préférer des options médianes. C’est ce qu’illustre l’exemple suivant:
Exemple 2.3 (Tversky et Simonson Tversky and Simonson (2000)). On a proposé à des
sujets de choisir entre des cameras 35mm de différentes qualités et de différents prix. On a
proposé à un groupe le choix entre une Minolta X-370 au prix de 170$, et une Minolta 3000i
au prix de 240$. A un second groupe de sujets, on a proposé, outre ces deux modèles, une
Minolta 7000i à 470$ (tableau 2.5). Ces trois modèles correspondent à un degré croissant
de qualité. On a observé que le premier groupe se répartissait de façon égale entre les deux
2.2. LIMITES DESCRIPTIVES DE LA THÉORIE CLASSIQUE 55

Type de caméra Minolta X-370 Minolta 3000i Minolta 7000i


Prix 170$ 240$ 470$
Premier groupe 50% 50% ND
Second groupe 21,5% 57% 21,5%

Tab. 2.5 – L’aversion pour les extrêmes.

options, alors que dans le deuxième groupe, 57% des sujets choisissaient la Minolta 3000i,
c’est-à-dire l’option médiane, alors que les deux autres options se partageaient équitablement
le reste du marché. Donc l’introduction d’une troisième option plus élevée a entraîné une
réduction de la part de marché de l’option basse, mais le maintien de la part de marché de
l’option moyenne. On a donc ici un effet d’aversion pour les extrêmes.
On trouvera d’autres exemples de ce type de phénomène dans Shafir, Simonson et
Tversky Tversky, Simonson, and Shafir (2000).

Effet des normes


La dépendance par rapport au contexte peut apparaître lorsque le contexte modifie
la nature de l’action choisie au regard de certaines normes. Sen donne l’exemple suivant:
supposons que vous soyez invité à un dîner et qu’à un moment du dîner il ne reste plus
qu’une pomme dans la coupe à fruits. La politesse commande de ne pas prendre cette
pomme. Si au contraire il y a deux pommes, vous pouvez en prendre une sans paraître
malpoli. Ainsi, la présence d’une option additionnelle peut augmenter le caractère désirable
d’une option. Prenons un deuxième exemple, toujours tiré de Sen Sen (1993): supposons
qu’à un thé on vous offre une part de gâteau et qu’on vous propose des parts de tailles
différentes. La politesse commande de ne pas prendre la plus grosse, mais l’appétit suggère
d’en prendre une assez grosse malgré tout. De ce fait, l’objectif peut être de choisir la part
classée deuxième par ordre de taille décroissant 9 . Dans ce cas, si x,y et z sont des parts de
gâteau de taille croissante, on choisira x dans le menu {x,y} et y dans le menu {x,y,z}.

2.2.5 Autres problèmes fondamenteaux


Effets de cadrage
L’effet de cadrage (framing effect) mis en évidence par Kahneman et Tversky Tversky
and Kahneman (1981), est le nom qu’a pris dans la littérature l’effet sur les décisions de
l’agent de la façon dont il se représente ou se présente à lui l’ensemble de choix (ou les
éléments de celui-ci). L’exemple classique est le suivant (Kahneman et Tversky Tversky
and Kahneman (1981)). On raconte à des sujets l’histoire suivante:
Supposez que les Etats-Unis se préparent au déclenchement d’une maladie asiatique
rare, dont on s’attend à ce qu’elle tue 600 personnes. On dispose de deux programmes
pour lutter contre cette maladie.
On propose alors aux sujets soit les programmes A et B:
Si le programme A est adopté, 200 personnes seront sauvées.
Si le programme B est adopté, 600 personnes seront sauvées avec probabilité 1/3 et
aucune avec probabilité 2/3.
soit les programmes C et D:
Si le programme C est adopté, 400 personnes mourront.

9. Ce mécanisme de choix a été étudié par Baigent et Gaertner Baigent and Gaertner (1996).
56 CHAPITRE 2. LIMITES DE LA THÉORIE CLASSIQUE

Si le programme D est adopté, personne ne mourra avec probabilité 1/3 et 600 per-
sonnes mourront avec probabilité 2/3.
On propose d’abord aux sujets de choisir entre A et B: 72% choisissent A. Puis on leur
demande de choisir entre C et D: 78% choisissent D. Pourtant, les traitements A et C
d’une part, B et D d’autre part ne différent que par la description de leurs conséquences.
On se serait donc attendu au choix de C. Ainsi, les préférences semblent dépendre de
la description des objets. Plus précisément, on remarque (avec un abus de notation) que
A = E(B) et C = E(D), où E désigne l’espérance mathématique. Donc A  B révèle de
l’aversion pour le risque, alors que D  C révèle du goût pour le risque. Les préférences
sont donc modifiées en profondeur.
Il ne s’agit là que d’un exemple, le plus célèbre, parmi une multitude d’autres (voir
Kühberger KŸhberger (1998) et Levin, Schneider et Gaeth Levin, Schneider, and Gaeth
(1998) pour une revue de littérature très détaillée). Levin, Schneider et Gaeth Levin et al.
(1998) proposent en particulier de distinguer trois types d’effets de cadrage: le cadrage d’un
choix risqué (du type “maladie asiatique”), le cadrage d’attribut (lorsqu’un attribut d’un
objet est présenté de façons différentes) et le cadrage de but (lorsque le but d’une action
est présenté de façons différentes). Ainsi, Levin et Gaeth Levin and Gaeth (1988) ont mené
à bien une expérience sur le cadrage d’attribut, dans laquelle un morceau de viande était
identifié comme à 75% maigre ou comme contenant 25% de matières grasses. Les sujets ont
eu tendance à évaluer plus favorablement au goût le morceau de viande présenté comme
maigre que celui présenté comme gras. Ce type d’expérience peut être reformulé dans le
cadre de la théorie de la décision en disant que l’évaluation est équivalente à l’expression
d’une préférence entre l’objet à évaluer et un statu quo implicite. Il peut donc être inclus
dans notre étude des renversements de préférence.

Réduction des loteries composées


En théorie de la décision dans le risque, on considère la plupart du temps des loteries
simples, c’est-à-dire des distributions de probabilité à support fini sur un ensemble de
conséquences C. Mais on peut également considérer des loteries composées, c’est-à-dire des
distributions de probabilité sur l’ensemble des loteries simples. Toute loterie simple P peut
être identifiée à une loterie composée: celle qui donne P avec probabilité 1. Réciproquement,
à toute loterie composée L, on peut associer une loterie simple RL , dite réduction de
la loterie composée, qui est la distribution de probabilité sur C obtenue en combinant
les distributions de probabilité des loteries simples appartenant au support de la loterie
composée. Considérons par exemple deux loteries simples P et Q, et la loterie composée L
donnant P avec une probabilité p et Q avec une probabilité 1 − p. La loterie simple associée
est la loterie RL telle que pour tout A ∈ A,RL (A) = pP (A) + (1 − p)Q(A).
Soit une relation de préférence % sur l’ensemble L des loteries composées. L’axiome
de Réduction des Loteries Composées (ARLC), nécessaire pour obtenir une représentation
des préférences en termes d’espérance d’utilité (cf Segal Segal (1990)), stipule que pour
toute loterie composée L ∈ L, le décideur est indifférent entre RL et L. De nombreuses
études ont montré qu’en général les décisions des agents ne respectaient pas cet axiome
(voir Segal Segal (1990) pour des références plus complètes). En particulier, considérons
l’exemple suivant, tiré de Kahneman et Tversky Kahneman and Tversky (1979) et cité par
Segal Segal (1990): On propose trois problèmes de décision à des sujets:
Problème 1 : Choix entre les loteries
(
0 avec probabilité 0,2
X1 = 3000 avec probabilité 1 et Y1 = .
4000 avec probabilité 0,8
2.2. LIMITES DESCRIPTIVES DE LA THÉORIE CLASSIQUE 57

Problème 2 : Choix entre les loteries


( (
0 avec probabilité 0,75 0 avec probabilité 0,8
X2 = et Y2 = .
3000 avec probabilité 0,25 4000 avec probabilité 0,2

Problème 3 : Choix entre les loteries


( (
0 avec probabilité 0,75 0 avec probabilité 0,75
A= et B = .
X1 avec probabilité 0,25 Y1 avec probabilité 0,25

On a X2 = RA et Y2 = RB . En majorité, le comportement des sujets est le suivant:


X1  Y1 , Y2  X2 et A  B. Ceci viole ARLC, puisque, si une loterie composée est
équivalente (au sens des préférences) à sa réduction, on devrait avoir B  A. On peut
analyser le choix observé comme une conséquence de deux principes qui ici apparaissent
contradictoires avec ARLC: l’effet de certitude et l’axiome d’indépendance 10 . Le premier
principe explique que X1 soit préféré à Y1 alors que Y2 est préféré à X2 ; le second explique
que l’on déduise de la préférence de X1 à Y1 une préférence pour A par rapport à B.
Ici encore, les préférences dépendent de la façon dont on pose le problème, car c’est bien
la différence entre la formulation en loterie simple ou en loterie composée qui entraîne
l’application d’un principe différent.

10. ou tout au moins une version faible de celui-ci, l’indépendance par rapport au mixage avec la consé-
quence neutre.
58 CHAPITRE 2. LIMITES DE LA THÉORIE CLASSIQUE
59

Chapitre 3

Les théories alternatives aux théories


classiques

Introduction
Les paradoxes mis en évidence semblent montrer qu’il y a certains aspects du processus
de décision suivi par les individus que la théorie classique ne saisit pas. Trois questions se
posent concernant ces points aveugles de la théorie:
1. Quels sont-ils?
2. Comment peut-on les caractériser? Autrement dit, comment peut-on les intégrer dans
une théorie?
3. Quel est leur statut? Autrement dit, comment faut-il les juger du point de vue norma-
tif? Traduisent-ils une irrationalité foncière des individus ou bien sont-ils compatibles
avec une autre définition de la rationalité?
Ces trois questions vont nous servir de guide dans la présentation des théories alterna-
tives à l’espérance d’utilité que nous allons présenter. Nous allons procéder en regardant
successivement les réponses apportées à ces trois questions chacun des paradoxes qui ont
été évoqués plus haut.

3.1 Les réponses au paradoxe d’Ellsberg


3.1.1 Analyse du paradoxe d’Ellsberg
Les fondements mathématiques du paradoxe d’Ellsberg
Reprenons la deuxième expérience d’Ellsberg. Nous avons dit que cette expérience
révélait qu’il était impossible que les croyances de l’individu soient représentées par une
probabilité. Nous avons regardé cela du point de vue des probabilités qualitative. Mais
cela peut se voir également du point de vue des probabilités quantitatives. Supposons
un instant que les croyances, telles qu’elles sont révélées par les préférences sur les paris,
soient représentables par une probabilité P . Rappelons que les choix observés sont fR  fN
et fR∪J ≺ fN ∪J . Ces préférences correspondent aux croyances P (R) > P (N ) et P (R ∪
J) < P (N ∪ J). Mais, dans la mesure où les événements R, N et J sont deux à deux
indépendants, et puisque les probabilités sont additives, la dernière implication implique
P (R) + P (J) < P (N ) + P (J), c’est-à-dire P (R) < P (N ), d’où une contradiction. On voit
donc que la contradiction vient uniquement du caractère additif de la représentation des
croyances. Afin de construire un modèle qui ne soit pas remis en cause par l’expérience
60 CHAPITRE 3. LES THÉORIES ALTERNATIVES AUX THÉORIES CLASSIQUES

d’Ellsberg, il faut et il suffit que dans ce modèle les croyances soient représentées par une
mesure non-additive. Une des directions vers lesquelles vont porter les efforts des théoriciens
va donc être de construire une telle théorie de la décision.

Les fondements psychologiques du paradoxe d’Ellsberg


Si l’on observe précisément les comportements qui constituent le paradoxe d’Ellsberg,
on constate deux choses. Tout d’abord, comme nous l’avons dit plus haut, l’information qui
est donnée aux agents au moment de commencer l’expérience est compatible avec plusieurs
distributions de probabilité. En théorie de la décision, on dira qu’elle est ambiguë. Il peut
donc être naturel de faire l’hypothèse que les agents perçoivent cette ambiguïté, et donc
de chercher à construire une théorie dans laquelle les croyances des agents reflètent cette
ambiguïté, en ce sens qu’elles sont constituées à partir d’une multiplicité de distributions de
probabilité. On peut dire également que les agents envisagent une multiplicité de scénarios
compatibles avec l’information dont ils disposent.
Mais il y a plus. Non seulement les croyances des agents sont constituées d’une multi-
plicité de scénarios, mais leur comportement vis-à-vis de l’ambiguïté qu’ils perçoivent n’est
pas aléatoire. Il suit une direction précise: dans chacun des cas, le décideur a exprimé une
préférence pour le pari le moins ambigu relativement au pari le plus ambigu. On dit souvent
qu’il exprime de l’aversion à l’ambiguïté ou parfois de l’aversion à l’imprécision, les deux
termes renvoyant à des modèles un peu différents. Une autre direction de recherche des
théoriciens de la décision est de proposer une théorie de la décision qui rendent compte de
ce phénomène psychologique, dont l’identification correspond à la réponse à la première
des questions méthodologiques que nous avons posées, dans le cas du paradoxe d’Ellsberg.
Nous allons étudier successivement les formes que prennent ces différentes théories.
Nous en présenterons d’abord les grandes caractéristiques, avant d’en présenter de façon
plus détaillée les fondements axiomatiques.

3.1.2 Les probabilités non-additives et le modèle d’espérance d’utilité à


la Choquet
Définitions
Dans cette section, nous allons présenter les grandes lignes du modèle correspondant à
la première ligne de recherche proposée par les théoriciens de la décision pour répondre au
paradoxe d’Ellsberg. Comme nous l’avons dit, cette première ligne de recherche consiste
à élaborer une théorie dans laquelle les croyances sont représentées par une mesure non-
additive. Définissons plus précisément l’objet mathématique dont il s’agit.
Définition 3.1. Soit (S,E ) un ensemble mesurable. Une capacité définie sur E est une
fonction ν : A → R telle que:
(i) ν(S) = 1 et ν(∅) = 0 (on dit que ν est normalisée);
(ii) pour tous A,B ∈ E , A ⊆ B ⇒ ν(A) ≤ ν(B) (on dit que ν est monotone).
Une probabilité est clairement une capacité, c’est une capacité additive. Mais il existe
d’autres fonctions qui sont des capacités et qui ne sont pas des probabilités. On parle
parfois pour les capacités de probabilités non-additives.
Exemple 3.1. Soit P un ensemble de mesures de probabilité définies sur (S,E ). On pose
alors:
ν(A) = inf P (A).
P ∈P

On définit ainsi une capacité appelée probabilité inférieure.


3.1. LES RÉPONSES AU PARADOXE D’ELLSBERG 61

Exemple 3.2. Soit P une mesure de probabilité sur (S,E ) et f : [0,1] → [0,1] croissante
telle que f (0) = 0 et f (1) = 1. Alors la fonction

ν :E → [0,1]
A 7→ f (P (A))

est une capacité appelée probabilité déformée. f s’appelle alors une déformation de proba-
bilité.
La notion de capacité conserve une propriété minimale des probabilités, à savoir leur
monotonie.
On va donc s’intéresser ici à un modèle de décision dans lequel les croyances sont
représentables par une capacité. Dans le cas où la capacité est additive, on sait agréger
l’attitude du décideur par rapport aux conséquences, représentée par la fonction d’utilité,
et sa confiance dans les événements, parce qu’on dispose d’une fonction d’agrégation, une
intégrale. Ainsi, si on considère une fonction ϕ : S → R telle qu’il existe une partition
(Ai )i=1,...,n de S fini et mesurable (c’est-à-dire telle que Ai ∈ E pour tout i) et une famille
(xi )i=1,...,n de nombre réels tels que ϕ(Ai ) = {xi } et x1 < x2 < ... < xn , l’intégrale de ϕ
par rapport à une mesure de probabilité P est :
Z n
X
ϕ dP = xi P (Ai ).
S i=1

Lorsque ϕ = u ◦ f , où f est un acte et u la fonction d’utilité, on retrouve l’espérance


de l’utilité. On voudrait disposer d’un outil analogue pour les capacités. Une façon na-
turelle de procéder serait de calquer la formule de l’intégrale pour les mesures additives.
Malheureusement, une telle façon de procéder conduirait à une intégrale R qui ne serait
R pas
monotone, c’est-à-dire telle que si ϕ(s) ≥ ψ(s) pour tout s ∈ S, alors S ϕ dν ≥ S ψ dν,
comme le montre le contre-exemple suivant.
Exemple 3.3. Soit S = {1,2,3} et ν telle que ν({2}) = ν({3}) = 0, ν({1,2}) = ν({1,3}) =
ν({1}) = 14 , ν({2,3}) = 12 1
. Soient ϕ(s) = 1 pour tout s et ψ telle que ψ(1) = 2 et
ψ(2) = ψ(3) = 3. Si on calcule l’intégrale de ϕ, quelle que soit la méthode on trouve 1. Si
on calcule l’intégrale de ψ par une généralisation «directe» de l’intégrale usuelle, on trouve:
3
2ν({1}) + 3ν({2,3}) = 4 < 1.

Pour contourner ce problème, on définitR alors l’intégrale de Choquet de la fonction ϕ


par rapport à une capacité ν, notée encore S ϕ dν, par la formule suivante:
Z n
X
ϕ dν = xi [ν(∪nj=i Aj ) − ν(∪nj=i+1 Aj )].
S i=1
R
Dans notre exemple, on a S ψ dν = 2(1 − ν({2,3})) + 3ν({2,3}) = 2 + ν({2,3}) > 1.
Dans ce cas précis, on a contourné le problème. On verra un peu plus qu’il s’agit d’un
résultat général.
Dans cette expression, on voit que l’on pondère la valeur xi par la différence entre la
vraisemblance de l’événement «avoir au moins xi » et celle de l’événement «avoir strictement
plus que xi », ce qui correspond, intuitivement, à la vraisemblance de l’événement «avoir
exactement xi ». D’ailleurs, lorsque ν est additive, on retrouve ν(Ai ). La différence entre
cette formule et la formule usuelle de l’intégrale est que l’intégrale de Choquet tient compte
62 CHAPITRE 3. LES THÉORIES ALTERNATIVES AUX THÉORIES CLASSIQUES

du rang qu’occupe une valeur de la fonction relativement aux autres valeurs. Ceci apparaît
plus nettement dans une expression équivalente de la formule:
Z Xn
ϕ dν = x1 + (xi − xi−1 )ν(∪nj=i Aj ).
S i=2
Cette expression montre la démarche pour calculer l’intégrale. On commence par la
valeur la plus faible, le minimum garanti en quelque sorte, et on ajoute petit à petit les
incréments potentiels, en les pondérant par leur vraisemblance. Le fait que l’expression
dépend du rang apparaît nettement dans le calcul de l’intégrale de fonctions ne prenant
que deux valeurs: si ϕ(s) vaut x si s ∈ A et y si s ∈
/ A, avec x 6= y, alors
Z
ϕ dν = ν(A)x + (1 − ν(A))y
S
si x > y et Z
ϕ dν = (1 − ν(Ac ))x + ν(Ac )y
S
si y > x, et ces deux quantités sont différentes car on n’a pas, en général ν(Ac ) = 1 − ν(A).

La notion de comonotonie et la caractérisation de l’intégrale de Choquet


Une des propriétés caractéristiques de l’intégrale usuelle et sa linéarité, c’est-à-dire en
particulier son additivité:
Z Z Z
ϕ + ψ dP = ϕ dP + ψ dP.
S S S
Cette propriété n’est pas conservée en général par l’intégrale de Choquet. Elle possède en
revanche une propriété plus faible, celle d’additivité comonotone. Afin de l’introduire, il
nous faut tout d’abord donner la définition suivante:
Définition 3.2. Soient f,g : S → C, où C est totalement préordonné par une relation %C .
f et g sont comonotones, noté f  g si, pour tous s,s0 ∈ S, f (s) C f (s0 ) ⇒ g(s) %C g(s0 ).
Dans le cas où C ⊆ R, cette condition est équivalente à (f (s) − f (s0 ))(g(s) − g(s0 )) ≥ 0.
Intuitivement, la notion de comonotonie désigne le fait que deux fonctions varient dans
le même sens. Ainsi, deux fonctions croissantes sont comonotones. On fera attention au fait
que la relation de comonotonie est réflexive et symétrique, mais pas transitive. Les fonctions
constantes sont en effet comonotones à toutes fonctions, de sorte que si f est une fonction
croissante, g une fonction constante et h une fonction décroissante, f est comonotone à g,
g est comonotone à h mais f n’est pas comonotone à h.
La propriété d’additivité comonotone est simplement la restriction de l’additivité aux
couples de fonctions comonotones. Soit B(S,E ) l’ensemble des fonctions mesurables bornées
de (S,E ) dans R. On a alors:
Z Z Z
∀ϕ,ψ ∈ B(S,E ),ϕ  ψ ⇒ ϕ + ψ dν = ϕ dν + ψ dν.
S S S
Cette propriété, jointe à la monotonie, est caractéristique de l’intégrale de Choquet,
comme le montre le théorème suivant, où, pour A ∈ E , 1A désigne la fonction caractéris-
tique de A, c’est-à-dire la fonction telle que 1A (s) = 1 si s ∈ A, 1A (s) = 0 sinon:

Théorème 3.1 (Schmeidler (1986))


Soit I : B(S,E ) → R. Les propositions suivantes sont équivalentes:
(i) I vérifie les propriétés suivantes:
(a) (Normalisation) I(1S ) = 1.
3.1. LES RÉPONSES AU PARADOXE D’ELLSBERG 63

(b) (Monotonie) ∀s ∈ S, ϕ(s) ≥ ψ(s) ⇒ I(ϕ) ≥ I(ψ).


(c) (Additivité comonotone) ∀ϕ,ψ ∈ B(S,E ),

ϕ  ψ ⇒ I(ϕ + ψ) = I(ϕ) + I(ψ).

(ii) Il existe une unique capacité ν telle que, pour tout ϕ ∈ B(S,E ),
Z
I(ϕ) = ϕ dν
S

De plus, la capacité ν trouvée ci-dessus est telle que, pour tout A ∈ E , ν(A) = I(1A ).

Ce théorème montre que la notion d’intégrale de Choquet est bien une bonne géné-
ralisation de l’intégrale usuelle, qui est une forme linéaire monotone sur B(S,E ). Notons,
comme dernière remarque générale sur l’intégrale de Choquet, qu’en général on a:
Z Z
ϕ dν 6= − −ϕ dν.
S S

La théorie qui va remplacer l’espérance d’utilité dans ce contexte s’appelle la théorie de


l’espérance d’utilité à la Choquet (que l’on appellera modèle CEU dorénavant). Il s’agira
donc de chercher à quelles conditions on a:
Z Z
f %g⇔ u ◦ f dν ≥ u ◦ g dν
S S

pour une certaine fonction d’utilité u et une certaine capacité ν.


Il est clair que, si les préférences vérifient un tel modèle, on aura résolu le paradoxe
d’Ellsberg, non pas au sens où on aura un modèle qui le prédit, mais au sens où on aura
un modèle qui n’est pas contredit par ce paradoxe.

Axiomatisation
Un préalable: le modèle d’ Anscombe and Aumann (1963) La plupart des nou-
veaux modèles ont été axiomatisés dans un cadre plus simple mathématiquement que le
cadre de Savage: le cadre d’Anscombe and Aumann (1963). Ce cadre, bien qu’il soit d’un
usage plus simple d’un point de vue mathématique, pose des problèmes conceptuels, comme
nous allons le voir. Décrivons tout d’abord ce modèle. D’un point de vue mathématique,
ce modèle peut-être vu comme un cas particulier du cadre de Savage, puisqu’il consiste
à prendre un ensemble C ayant une structure particulière. Nous résumons ce choix dans
l’hypothèse suivante:
+
Hypothèse 3.1 (AA) Il Pexiste un ensemble Y tel que C = ∆0 (Y ) = {p : Y → R |
|{y ∈ Y | p(y) > 0}| < ∞, y∈Y p(y) = 1}.
Autrement dit, C est l’ensemble des loteries sur un ensemble de conséquences Y .
Conceptuellement, on peut considérer que l’on a affaire au contraire à un modèle plus
général que le modèle de Savage, puisque la notion de conséquence est étendue à la notion
de conséquence aléatoire. Ceci ne va pas sans poser des problèmes du point de vue de
la pureté du modèle. En effet, si le modèle se donne pour but de fonder l’existence de
probabilités subjectives, il suppose cependant l’existence de probabilités objectives, dont
l’origine n’est pas spécifiée. De plus, l’interprétation des axiomes écrits dans le contexte
formel de ce modèle n’est pas aussi intuititve qu’il y paraît au premier abord, et il faudra
64 CHAPITRE 3. LES THÉORIES ALTERNATIVES AUX THÉORIES CLASSIQUES

se méfier des analogies souvent trompeuses avec les axiomes tels qu’ils s’écrivent dans le
cadre de Savage.
Etant donnée l’hypothèse (AA), l’ensemble des conséquences C a maintenant une struc-
ture d’espace mixable. On considère comme ensemble de base l’ensemble A0 des actes
f : S → C ayant un nombre fini de valeurs 1 . On peut munir l’ensemble A0 des actes
d’une structure d’espace mixable: soient f,g ∈ A0 , λ ∈ [0,1]. On pose (λf + (1 − λ)g)(s) =
λf (s) + (1 − λ)g(s) pour tout s ∈ S.
On suppose de plus donnée une relation de préférence sur A0 .
Une fois que l’on a posé ce cadre formel, le modèle d’Anscombe et Aumann (auquel
on se référera dorénavant comme au modèle AA) consiste à imposer un système d’axiomes
sur la relation de préférence qui conduise à une représentation des préférences en termes
d’espérance d’utilité subjective. Les axiomes du modèle sont les suivants:
Axiome 3.1 (AA1, préordre total) La relation de préférence % est un préordre total sur
A0 .

Axiome 3.2 (AA2, continuité) Pour tous f ,g,h de A0 , avec f  g  h,il existe α,
β ∈]0, 1[ tels que
αf + (1 − α)h  g  βf + (1 − β)h.

Axiome 3.3 (AA3, indépendance) Pour tous f ,g,h de A0 , pour tout α ∈ ]0,1]

f % g ⇐⇒ αf + (1 − α)h % αg + (1 − α)h.

Axiome 3.4 (AA4, monotonie) Pour tous f,g de A0 , [f (s) % g(s),pour tout s ∈ S] ⇒
f %g

Axiome 3.5 (AA5, non trivialité) Il existe au moins une paire d’actes f,g telle que f  g

Le théorème d’AA est alors le suivant:

Théorème 3.2 (Anscombe and Aumann (1963))


Les propositions suivantes sont équivalentes:
(i) % vérifie les axiomes AA1-AA5;
(ii) Il existe une fonction U : C → R non constante et affine et une mesure de probabilité
P sur E telles que: Z Z
f %g⇔ U ◦ f dP ≥ U ◦ g dP.
S S

De plus, P est unique et U est définie à une transformation affine strictement croissante
près.

Remarque 3.1. Rappelons que U affine signifie que U (λc + (1 − λ)c0 ) = λU (c) + (1 −
λ)U (c0 ). De ce fait, pris comme théorème portant sur les actes à valeurs dans C, ce théorème
est moins général que celui de Savage, puisque la fonction d’utilité possède une forme assez
contraignante. En revanche, si on considère que les véritables conséquences sur lesquelles

1. On rappelle que les actes sont des fonctions mesurables. Donc si f ∈ A0 , il existe une partition
i=1 de E et une suite (ci )i=1 , ci ∈ C telle que f (Ai ) = {ci }.
mesurable finie (Ai )n n
3.1. LES RÉPONSES AU PARADOXE D’ELLSBERG 65

porte ce théorème sont les éléments de Y , on peut réécrire la forme fonctionnelle obtenue
de la façon suivante (en supposant S fini):
Z XX
U ◦ f dP = P (f −1 (s))f (s)(y)u(y),
S s∈S y∈Y

avec u(y) = U (δy ). On voit alors qu’il s’agit dans cas d’un théorème plus général que celui
de Savage, puisque qu’on obtient le cas de Savage pour les f telles que pour tout s ∈ S,
f (s) = δys pour un certain ys ∈ Y .
Remarque 3.2. Dans tout ce qui précède, à l’exception de la remarque précédente, on
aurait pu remplacer ∆0 (Y ) par n’importe quel espace mixable, et le théorème resterait vrai.

L’axiomatisation de Schmeidler (1989) L’intégrale qui intervient dans le théorème


d’Anscombe et Aumann est une intégrale usuelle, qui est est additive. La contrepartie axio-
matique de cette additivité est l’axiome d’indépendance (AA3). Nous cherchons à obtenir
un théorème analogue où les croyances seraient représentées par une capacité et où l’inté-
grale par rapport à cette capacité serait une intégrale de Choquet. Or cette intégrale est
additive pour les fonctions comonotones. Une idée naturelle est donc de remplacer l’axiome
d’indépendance par un axiome d’indépendance comonotone:
Axiome 3.6 (ComI, indépendance comonotone) Pour tous f ,g,h de A0 , deux à deux
comonotones, pour tout α ∈ ]0,1]

f % g ⇐⇒ αf + (1 − α)h % αg + (1 − α)h.

Quel est le statut de ce nouvel axiome?


On peut d’abord se demander quelle est l’idée intuitive derrière cet axiome, afin d’en
évaluer la portée normative. Si deux actes f et g sont comonotones, ils varient dans le même
sens. Cela signifie qu’ils ont leurs bonnes conséquences et leurs mauvaises conséquences
dans les mêmes états. De ce fait, le fait de «mixer» les deux ne permet pas de couvrir
le risque inhérent à l’un des actes. Ainsi, le niveau de risque n’est pas diminué, et ce ce
qui justifie que l’on suppose que l’ordre ne change pas. Au contraire, lorsque les actes ne
sont pas comonotones, le mixage modifie la structure même de l’incertitude à laquelle les
actes correspondent, et dès lors, il n’est plus si évident que l’on doive conserver l’ordre. Cet
axiome semble donc introduire une notion de rationalité plus restreinte, moins exigeante,
que l’axiome d’indépendance usuel, et qui de ce fait peut être dite plus «raisonnable».
L’axiome d’indépendance usuelle postulait un principe de rationalité très simple: il est
possible d’ignorer la partie commune de deux actions alternatives entre lesquelles ont doit
décider. Cet axiome s’étant révélé descriptivement incorrect, il est apparu que les agents
ne suivaient pas cette règle de décision. En fait, les choses sont sans doute plus complexes,
et nous y reviendrons, mais pour le moment on fera comme si on pouvait se contenter de
ce constat. Dans ces conditions, l’axiome d’indépendance apparaît comme répondant au
paradoxe d’Ellsberg. Pour s’en convaincre, il faut tout d’abord réinterpréter ce paradoxe
dans le cadre d’Anscombe-Aumann. En effet, nous avons vu pourquoi il violait le principe
de la chose sûre, mais il faut voir pourquoi il viole également l’axiome d’indépendance.
Pour ce faire, nous allons suivre la démarche de Chateauneuf, Cohen, Jaffray (référence à
compléter). Celle-ci consiste à considérer comme un état de la nature non plus la couleur
de la boule tirée, mais la composition de l’urne. Ainsi, S = {s0 ,s1 ,...,sk ,...,s60 } , où un état
sk correspond à une composition déterminée de l’urne : ”30 boules rouges, k boules noires
et 60 − k boules jaunes”.
66 CHAPITRE 3. LES THÉORIES ALTERNATIVES AUX THÉORIES CLASSIQUES

Le pari associé à l’acte fE , où E est l’événement considéré, dans le cadre de Savage,


est maintenant caractérisée par l’application gE associant à chaque état de la nature sk de
S la loterie correspondante donnée dans le tableau 3.1.

acte conséquence sur sk (k=1,..,60)

gR (≈ fR ) (0, 60 30
90 ; 100, 90 )

gN (≈ fN ) (0, 90−k k
90 ; 100, 90 )

k
gR∪J (≈ fR∪J ) (0, 90 ; 100, 90−k
90 )

gN ∪J (≈ fN ∪J ) (0, 30 60
90 ; 100, 90 )

δ0 (0, 90
90 )

h (0, 30+k 60−k


90 ; 100, 90 )

1
2 gR + 12 h = 21 gR∪J + 12 δ0 (0, 90+k 90−k
180 ; 100, 180 )

1
2 gN + 12 h = 21 gN ∪J + 12 δ0 120
(0, 180 60
; 100, 180 )

Tab. 3.1 – Le paradoxe d’Ellsberg dans le cadre AA

Les 4 premières lignes du tableau indiquent ce que deviennent les actes fR , fN , fR∪J ,
gN ∪J dans ce nouveau cadre.
On peut noter que, dans ce cadre, les actes gR ,gN ∪J , δ0 sont des actes constants, donc
l’unique conséquence est une loterie.
L’axiome AA3 et les égalités de mixages d’actes des deux dernières lignes du tableau
impliquent que :

gR  gN ⇐⇒ 12 gR + 21 h  12 gN + 12 h
⇐⇒ 12 gR∪J + 12 δ0  12 gN ∪J + 21 δ0 ⇐⇒ gR∪J  gN ∪J

Les choix fR et fN ∪J dans l’expérience constituent donc une violation de AA3. Il est
donc légitime d’affaiblir cet axiome comme le fait Schmeidler (1989).
Comme on peut s’y attendre, cet affaiblissement de l’axiome d’indépendance conduit
à une représentation des préférences compatible avec le paradoxe d’Ellsberg, c’est-à-dire
conduisant à des probabilité non-additives. On a en effet le théorème suivant:
3.1. LES RÉPONSES AU PARADOXE D’ELLSBERG 67

Théorème 3.3 (Schmeidler (1989))


Les propositions suivantes sont équivalentes:
(i) % vérifie les axiomes AA1, AA2, ComI, AA4 et AA5;
(ii) Il existe une fonction U : C → R non constante et affine et une capacité ν sur E
telles que: Z Z
f %g⇔ U ◦ f dν ≥ U ◦ g dν.
S S

De plus, ν est unique et U est définie à une transformation affine strictement croissante
près.

3.1.3 L’attitude par rapport à l’ambiguïté: le modèle multi-prior


Comme nous l’avons remarqué plus haut, les fondements psychologiques du paradoxe
d’Ellsberg peuvent être résumés par deux facteurs: la perception par l’agent de l’ambiguïté
de l’information, d’une part, et son aversion pour celle-ci, d’autre part. Comme nous l’avons
déjà signalé à plusieurs reprises, le fait que l’agent perçoive de l’ambiguïté dans le problème
se traduit par le fait qu’il estime que l’information dont il dispose est compatible avec
l’existence d’une multiplicité de distributions de probabilité. On peut donc considérer que
les croyances de l’individu peuvent être représentées par un ensemble P de mesures de
probabilité. L’aversion pour l’ambiguïté, quant à elle, est une notion qui traduit le fait que
l’agent préfère toujours les actes non-ambigus aux actes ambigus. Ceci signifie que pour lui
l’ambiguïté, qui potentiellement peut donner lieu à la fois à des distributions de probabilité
favorables et à des distributions défavorables, est systématiquement perçue comme devant
plus vraisemblablement conduire à une distribution défavorable. Ceci peut être interprété
comme la marque d’un pessimisme fondamental de l’agent. Une façon de traduire cette
idée mathématiquement est dire que, pour l’agent, c’est toujours la distribution la plus
défavorable qui a le plus de chances d’être la vraie, et qu’il faut donc se garantir contre ce
mauvais résultat en choisissant l’action qui, dans le pire des cas, donne le meilleur résultat.
Ceci conduit à la forme fonctionnelle suivante pour la fonction d’utilité représentant les
préférences sur les actes: Z
V (f ) = min u ◦ f dP.
P ∈P S
Ce modèle, appelé couramment dans la littérature modèle multi-prior, a été axiomatisé
pour la première fois par Gilboa and Schmeidler (1989), dans le cadre AA. Les axiomes
qu’ils donnent fournissent d’un seul coup l’existence de P et la forme fonctionnelle ci-
dessus. Cependant, il est possible d’adopter une démarche en deux temps, qui consiste à
axiomatiser tout d’abord l’existence de P, ce qui conduit à une forme fonctionnelle plus
générale, et d’introduire seulement ensuite un axiome spécifique d’aversion à l’ambiguïté
qui donne automatiquement la forme ci-dessus. Cette démarche est celle de Ghirardato,
Maccheroni, and Marinacci (2004), que nous allons exposer dans ce qui suit.

La perception de l’ambiguïté
Le modèle de Ghirardato et al. (2004) reprend les axiomes AA1, AA2, AA4 et AA5 et
modifie uniquement l’axiome d’indépendance, de la façon suivante:
Axiome 3.7 (CI, indépendance par rapport à la certitude ou c-indépendance) Pour tous
f ,g de A0 , pour tout x ∈ C, pour tout α ∈ ]0,1]

f % g ⇐⇒ αf + (1 − α)x % αg + (1 − α)x.
68 CHAPITRE 3. LES THÉORIES ALTERNATIVES AUX THÉORIES CLASSIQUES

On peut dire que cet axiome constitue un axiome d’indépendance très faible. Cependant,
ses conséquences sont encore assez fortes.
Le premier résultat que l’on peut en tirer est une séparation de l’attitude par rapport
aux conséquences et des croyances. Afin de l’introduire, donnons quelques définitions. Si
K est un intervalle de R, soit B0 (E ,K) l’ensemble des fonctions ϕ : S → K mesurables
et prenant un nombre fini de valeurs. Une fonctionnelle I : B0 (E ,K) est dite c-linéaire si
pour tout x ∈ K, pour tout λ ≥ 0 et tout ϕ ∈ B0 (E ),
I(λϕ + x) = λI(ϕ) + x.
Proposition 3.1
Les propositions suivantes sont équivalentes:
(i) % vérifie AA1, AA2, CI, AA4 et AA5;
(ii) Il existe une fonction affine U : C → R et fonctionnelle c-linéaire et monotone 2
I : B0 (E ,U (C)) → R telle que, pour tout f,g ∈ A0 :
f % g ⇔ I(u ◦ f ) ≥ I(u ◦ g).
Tout le problème est maintenant d’étudier I. On va montrer en fait que la forme
fonctionnelle de I fait intervenir un ensemble de probabilités qui peut être interprété comme
l’ambiguïté perçue par le décideur. Afin de bien le comprendre, on va introduire une relation
qui permet de mesurer l’étendue de l’ambiguïté perçue par le décideur.
Soit %∗ la relation définie sur A0 par:
f %∗ g ⇔ ∀h ∈ A0 , ∀λ ∈]0,1], λf + (1 − λ)h % λg + (1 − λ)h.
Lorsque f %∗ g on dira que f est préféré sans ambiguïté à g. Cette terminologie se
justifie par le fait que, si f %∗ g, alors quelque soit la façon dont on tente de couvrir
l’ambiguïté inhérente à f et g, l’ordre est maintenu, ce qui signifie que l’ambiguïté ne joue
aucun rôle dans la préférence de f à g.
Cette relation possède les propriétés suivantes:

Proposition 3.2 1. Si % vérifie AA1, alors %∗ est un préordre.


2. ∀f,g ∈ A0 ,f %∗ g ⇒ f % g.
3. %∗ vérifie AA3 (l’indépendance).
4. Si %∗∗ est une relation vérifiant les trois propriétés précédentes, alors ∀f,g ∈ A0 ,f %∗∗
g ⇒ f %∗ g.
5. Si % vérifie CI et AA4, alors ∀f,g ∈ A0 ,(∀s ∈ S, f (s) %∗ g(s)) ⇒ f %∗ g (%∗ vérifie
AA4).
6. Si % vérifie CI et AA4, alors pour tout x,y ∈ C, x % y ⇔ x %∗ y.

De ces propriétés, on déduit le corollaire suivant:


Corollaire 3.1. Les propositions suivantes sont équivalentes:
(i) % vérifie AA1, AA2, CI, AA4 et AA5;
(ii) Il existe une fonction affine non-constante U : C → R et un ensemble P convexe et
compact 3 de probabilités sur E tel que
Z Z

f % g ⇔ ∀P ∈ P, u ◦ f dP ≥ u ◦ g dP.

2. Pour les matheux: une fonctionnelle c-linéaire et monotone est 1-lipschitzienne.


3. Note pour les matheux: la topologie pertinente pour utiliser ce terme est la topologie faible? sur
l’ensemble ba(E ) des mesures simplement additive et bornées sur E . Dans cette topologie, une suite (mn )n∈N
converge vers m si et seulement si mn (A) converge vers m(A) pour tout A ∈ E .
3.1. LES RÉPONSES AU PARADOXE D’ELLSBERG 69

L’ensemble P que ce résultat permet de trouver peut-être considéré comme mesurant


l’ambiguïté perçue par le décideur. La validité de cette assertion ne peut cependant pas
être établie formellement de façon simple. Nous renvoyons à Ghirardato et al. (2004) pour
plus de détails sur ce point. On peut cependant s’en convaincre en remarquant tout d’abord
que l’existence d’une probabilité représentant les croyances est étroitement liée à l’axiome
d’indépendance. De ce fait, lorsque les préférences vérifient cet axiome, on a %∗ =% et l’en-
semble P se réduit à un singleton, dont l’unique élément P représente donc les croyances
de l’individu. Ceci suggère que P représente bien les croyances même quand les préférences
ne vérifient pas l’indépendance. Plus généralement, si on admet, dans le cadre du paradoxe
d’Ellsberg, que c’est l’ambiguïté qui conduit l’individu à ne pas respecter l’axiome d’indé-
pendance, alors il est clair qu’observer les cas où cet axiome est vérifié devrait permettre
de déterminer l’ambiguïté perçue par le décideur. On peut par ailleurs montrer que plus
cet axiome est vérifié souvent, moins l’ambiguïté perçue par le décideur est importante:

Proposition 3.3
Soient %1 et %2 les relations de préférence de deux décideurs, et soient %∗1 et %∗2 leurs
relations de préférence sans ambiguïté, P1 ,P2 les ensembles de probabilités associés. Alors,
on a l’équivalence suivante:
(i) f %∗1 g ⇒ f %∗2 g
(ii) P2 ⊆ P1

Les éléments de P peuvent s’interpréter comme les scénarios alternatifs possibles envi-
sagés par le décideur. C’est cette interprétation qu’il faut garder en tête pour comprendre
le sens de ce qui va suivre.

L’attitude par rapport à l’ambiguïté proprement dite


Comment l’agent intègre-t-il ses croyances afin de prendre sa décision? Le théorème de
représentation qui suit va nous montrer ceci d’une façon qui fait intervenir, pour chaque
acte f un coefficient d’aversion noté a(f ). Nous verrons par la suite ce qui justifie une telle
interprétation, mais présentons tout d’abord le théorème:

Théorème 3.4 (Ghirardato et al. (2004))


Si % vérifie AA1, AA2, CI, AA4, AA5, il existe une fonction a : A0 → [0,1] telle que la
fonction Z Z
f 7→ a(f ) min u ◦ f dP + (1 − a(f )) max u ◦ f dP
P ∈P P ∈P

représente %.
De plus, a est uniquement déterminée sur l’ensemble
Z Z

A0 := {f ∈ A0 | ∃P,Q ∈ P, u ◦ f dP 6= u ◦ f dQ}

et possède la propriété suivante:


Z Z Z Z
(∀P,Q ∈ P, u ◦ f dP ≥ u ◦ f dQ ⇔ u ◦ g dP ≥ u ◦ g dQ) ⇒ a(f ) = a(g).

Quelques mots d’interprétation sur ce théorème. Tout d’abord, il montre que les axiomes
donnent aux préférences une forme qui ressemble à celle d’un critère classique en théorie de
la décision, souvent appelée le critère pessimisme-optimisme d’Arrow-Hurwicz (Arrow and
Hurwicz (1972)). Ce critère, qui a été inventé pour définir un critère de décision dans le
70 CHAPITRE 3. LES THÉORIES ALTERNATIVES AUX THÉORIES CLASSIQUES

cas où le décideur n’a aucune information sur les événements, fait intervenir une moyenne
pondérée, pondérée par un coefficient α, de la pire et et de la meilleure des situations, le
coefficient de pondération étant souvent appelé le coefficient de pessimisme. La raison de
ce nom est que, plus α est grand, plus la pire situation est prise en considération, donc plus
l’évaluation est pessimiste en ce sens qu’elle présente un biais en faveur d’une vision noire
des choses. Ici, comme nous l’avons dit il sera interprété comme un coefficient d’aversion
à l’ambiguïté, mais c’est fondamentalement la même idée. Ce coefficient est constant chez
Arrow et Hurwicz, alors qu’ici il dépend de l’acte qui est évalué 4 Le théorème affirme
cependant que a n’est pas complètement arbitraire. Il donne en effet des conditions pour
que le coefficient de pessimisme soit le même pour deux actes f et g. Ceci est le cas si
les scénarios défavorables du point de vue de f sont défavorables également du point de
vue de g et s’il en est de même pour les scénarios favorables. Il y a là une idée voisine
de la comonotonie. Donnons un exemple de cette situation. Commençons par un exemple
abstrait: supposons que l’urne d’Ellsberg contienne des boules de 4 couleurs: rouge, noires,
bleues, jaunes. On dispose des informations suivantes: l’urne contient 120 boules, 30 boules
sont rouges et le nombre de boules bleues est toujours égal au nombre de boules jaunes.
L’ensemble P compatibles avec ces information est :

1 k 3 k
P = {P | P (A) = ,P (B) = P (J) = ,P (N ) = − ,k ∈ {0,...,45}}
4 120 4 60

et il est clair que les actes fB et fJ ordonnent les scénarios de la même façon, ce qui
n’est pas le cas de fR et fN . On aurait donc ici a(fB ) = a(fJ ). Donnons un exemple
plus concret. Considérons un investisseur qui se pose la question d’investir dans des pays
émergents. Il ignore la probabilité d’une crise financière dans ces pays, mais il est clair que
deux investissements dans des pays semblables ordonnent les scénarios de la même façon:
si j’investis à Singapour (acte S) ou en Thaïlande (acte T ), les scénarios dans lesquels
la probabilité d’une crise financière à Singapour est forte sont les mêmes que ceux pour
lesquels la probabilité d’une crise financière en Thaïlande est forte. Donc les scénarios pour
lesquels S est une bonne décision sont les mêmes que les scénarios pour lesquels T est une
bonne décision. On aura donc a(S) = a(T ).
Revenons maintenant à l’interprétation de a comme coefficient d’aversion à l’ambiguïté.
Afin de fonder cette interprétation, nous allons donner une définition comportementale
(c’est-à-dire en termes de la relation %) du fait qu’un agent présente plus d’aversion à
l’ambiguïté qu’un autre (voir Ghirardato and Marinacci (2002)). Une définition naturelle
de l’aversion comparée à l’ambiguïté serait la suivante: un agent 1 a plus daversion à
l’ambiguïté qu’un agent 2 si, toutes les fois que 1 préfère un acte ambigu à un acte non
ambigu, 2 préfère également cet acte ambigu à cet acte non-ambigu. Le problème d’une telle
définition est qu’il n’y a pas de définition de l’ambiguïté d’un acte qui fasse l’unanimité.
L’ambiguïté d’un acte dépend en fait de l’ambiguïté perçue dans l’environnement. Ce dont
on peut être sûr, en revanche, c’est que les actes constants ne sont jamais ambigus. Une
façon de définir l’ambiguïté est donc de restreindre le principe mentionné ci-dessus à des
actes constants, ce qui donne la définition ci-dessus:
Définition 3.3. Soient %1 et %2 les relations de préférence de deux agents. Alors l’agent 1
présente plus d’aversion à l’ambiguïté que l’agent 2 si, pour tout f ∈ A0 , pour tout x ∈ C:

f %1 x ⇒ f %2 x.

4. Il est possible de renforcer les axiomes pour obtenir que la fonction a soit constante (voir Ghirardato
et al. (2004)).
3.1. LES RÉPONSES AU PARADOXE D’ELLSBERG 71

On a alors la proposition suivante:

Proposition 3.4
Soient %1 et %2 vérifiant les axiomes du théorème telles que P1 = P2 et telles qu’il existe
a > 0 et b tels que u1 = au2 + b. Alors 1 présente plus d’aversion à l’ambiguïté que 2 si et
seulement si, pour tout f ∈ A0∗ , a1 (f ) ≥ a2 (f ).

Cette proposition permet d’asseoir l’interprétation de a comme d’une fonction mesurant


l’aversion à l’ambiguïté: lorsque l’on fixe le niveau de l’ambiguïté perçue, un décideur a plus
d’aversion à l’ambiguïté qu’un autre si le coefficient a du premier est toujours supérieur à
celui du second.

Un cas extrême d’aversion à l’ambiguïté: le modèle Multi-prior


Comme nous avons déjà eu l’occasion de le dire, le modèle Multi-prior (MEU) corres-
pondant à une decision prise sur la base de la maximisation de l’espérance d’utilité dans
le pire des cas: Z
min u ◦ f dP.
P ∈P
Ceci correspond au cas particulier a(f ) = 1 pour tout f du modèle précédent. En vertu
de la caractérisation de l’aversion comparée à l’ambiguïté, ceci montre qu’un décideur se
comportant selon ce modèle est plus adversaire de l’ambiguïté que tous les autres individus
se comportant selon le modèle Ghirardato et al. (2004) et percevant la même ambiguïté.
Par ailleurs, on peut dire que ce modèle présente de l’aversion absolue pour l’ambiguïté,
à condition de définir proprement cette notion. Une façon simple de le faire est de dire
qu’un agent a de l’aversion absolue pour l’ambiguïté s’il a plus d’aversion pour l’ambiguïté
qu’un agent neutre à l’ambiguïté. Il faut cepen dant s’entendre sur l’identité de cet agent
neutre à l’ambiguïté. On conviendra qu’un agent qui se comporte en accord avec le modèle
d’espérance d’utilité subjective (SEU) est neutre par rapport à l’ambiguïté. On pose alors
la définition suivante.
Définition 3.4. Soit % la relation de préférence d’un agent se conformant au modèle de
Ghirardato et al. (2004). % présente de l’aversion absolue s’il existe un agent SEU tel que
% ait plus d’aversion à l’ambiguïté que cet agent.
On a alors la proposition suivante:

Proposition 3.5
Un agent se comportant selon le modèle MEU présente de l’aversion pour l’ambiguïté.
Démonstration.
Soit P l’ensemble des croyances de l’agent MEU et u sa fonction d’utilité. Soit P ∈ P et
%P un agent SEU dont les croyances sont représentées par P et l’utilité estR u. Montrons
que % a Rplus d’aversion à l’ambiguïté que %P . Si x P f , on a u(x) > u ◦ f dP >
minP ∈P u ◦ f dP , donc x  f .

Nous n’avons pas pour l’instant donné les axiomes qui caractérisent le modèle MEU.
Ce modèle étant un cas particulier du modèle de Ghirardato et al. (2004), on s’attend à
ce que l’axiomatique de ce modèle contienne tous les axiomes de ce modèle plus d’autres
axiomes. En fait, il n’y a qu’un seul axiome supplémentaire:
Axiome 3.8 (Aversion à l’ambiguïté (AvAmb)) Pour tout f,g ∈ A , pour tout α ∈ [0,1],
f ∼ g ⇒ αf + (1 − α)g % f ∼ g.
72 CHAPITRE 3. LES THÉORIES ALTERNATIVES AUX THÉORIES CLASSIQUES

Si f,g sont indifférents, le mixage de ces deux actes ne peut pas être plus ambigü que
f et g car, au pire, f et g sont comonotones et ça ne change rien, et au mieux ils ne le
sont pas et alors on peut avoir une certaine couverture de l’incertitude. Donc, s’il y a de
l’aversion pour l’ambiguïté, l’agent va préférer le mixage moins ambigu à l’acte initial.
Cet axiome permet d’aboutir au théorème suivant:

Théorème 3.5
% vérifie AA1, AA2, CI, AA4, AA5 et AvAmb si et seulement s’il existe un ensemble P ∗
convexe compact de mesures de probabilité simplement additives tel que:
Z Z
f % g ⇔ min u ◦ f dP ≥ min u ◦ g dP.
P ∈P P ∈P

3.1.4 Lien entre le modèle CEU et le modèle MEU


Si l’on remplace, dans l’axiome d’aversion à l’ambiguïté, la préférence par une indiffé-
rence, on retombe sur le modèle SEU. Si on garde la préférence et mais qu’on exige que f
et g soient comonotones, on retrouve le modèle de Schmeidler. Ainsi, le modèle CEU de
Schmeidler est plus général que le modèle MEU. Il est donc intéressant de se demander
à quel cas particulier du modèle de Schmeidler correspond le modèle MEU. La réponse à
cette question est simple. Tout d’abord, si P est un ensemble de mesures de probabilité,
et si l’on considère une capacité νP définie par

νP (A) = min P (A),


P ∈P

alors on peut montrer que, pour f ∈ A :


Z Z
u ◦ f dνP 6 min u ◦ f dP.
P ∈P

Ceci constitue une réponse partielle à la question. Il serait alors intéressant de caracté-
riser plus précisément les capacités qui pour lesquelles l’inégalité est une égalité, et de
caractériser comportementalement les préférences qui correspondent à une telle capacité.
Introduisons tout d’abord la notion suivante:
Définition 3.5. Soit ν une capacité sur un ensemble mesurable (S,E ). Alors, ν est convexe
(ou encore supermodulaire) si:

∀A,B ∈ E , ν(A ∪ B) ≥ ν(A) + ν(B) − ν(A ∩ B).

Afin de comprendre ce que signifie cette définition, écrivons-là de la façon suivante:

ν(A ∪ B) − ν(A) ≥ ν(B) − ν(A ∩ B).

Cette façon d’écrire la propriété fait comprendre pourquoi on parle de convexité: une des
caractérisations de la convexité d’une fonction f : R → R est que le taux d’accroissement
f (x) − f (a)
x−a
est fonction croissante de x (sur l’intervalle de définition de f privé de a). On aurait ici
quelque chose d’analogue avec la fonction ν(E) − ν(E ∩ A) fonction croissante (au sens de
l’inclusion) de E (mais analogie à prendre avec des pincettes).
Prenons les choses de façon plus intuitive en faisant un bref détour par la théorie des
jeux coopératifs. Soit I = {1, . . . ,n} un ensemble de joueurs. Un sous-ensemble J de I est
3.2. LES RÉPONSES AU PARADOXE D’ALLAIS 73

appelé une coalition. On suppose qu’à toute coalition on peut associer la valeur du jeu
pour cette coalition (c’est-à-dire ce que les joueurs assemblés dans cette coalition peuvent
obtenir ensemble). Soit ν la fonction qui définit cette valeur. Si ν est convexe, alors pour
tout i ∈ I, pour tout J ⊆ I, i ∈/ J, on a:
ν(J ∪ {i}) − ν(J) ≥ ν(i).
Autrement dit, la valeur supplémentaire créée par i en s’associant à la coalition J est
supérieure à celle qu’il crée en restant isolé. Il a donc tout intérêt à rejoindre cette coalition.
Revenons aux capacités convexes en théorie de la décision. On définit le noyau ou le
coeur (core en anglais) d’une capacité ν en général comment l’ensemble des probabilités
additives qui sont supérieures à ν pour tout événement:
core(ν) = {P additive | P (A) ≥ ν(A),∀A ∈ E }.
On a alors le résultat suivant:

Proposition 3.6
Soit ν une capacité convexe. Alors core(ν) 6= ∅, ν(A) = minP ∈core(ν) P (A) et
Z Z
u ◦ f dν = min u ◦ f dP.
P ∈core(ν)

La réciproque n’est pas vraie en général: toute probabilité inférieure n’est pas une
capacité convexe et tout capacité dont l’intégrale de Choquet est le minimum des intégrales
usuelles par rapport au cœur n’est pas nécessairement convexe 5 .
L’axiome qui caractérise la convexité de la capacité est une autre version de l’aversion
à l’incertain et de la convexité des préférences, due à Schmeidler (1989):
Axiome 3.9 (Aversion forte pour l’incertain ) Pour tous f,g ∈ A0 , pour tout α ∈ [0,1],
f % g ⇒ αf + (1 − α)g % f .
? a introduit un autre axiome caractérisant la convexité des préférences plus intuitif
que l’axiome précédent, l’axiome d’indépendance pessimiste:
Axiome 3.10 (Indépendance pessimiste) Pour tous f,g,h ∈ A0 tels que g et h soient
comonotones, pour tout α ∈ [0,1], on a:
f % g ⇔ αf + (1 − α)h % αg + (1 − α)h.
Il faut bien voir que cet axiome est plus fort que l’axiome d’indépendance comonotone.
Son interprétation est la suivante: si g et h sont comonotones, elle ne peuvent être utilisées
à des fins de couverture l’une par rapport à l’autre. En revanche f et h n’étant pas a priori
comonotones, elles peuvent l’être. Donc le mixage de g et h n’est pas plus ambigü que g et
le mixage de f et h ne peut être que mmoins ambigü que f , donc le second est préféré au
premier.

3.2 Les réponses au paradoxe d’Allais


3.2.1 Analyse du paradoxe d’Allais
Rappel de la version KT du paradoxe
Les loteries sont présentées dans le tableau 3.2.
5. Pour les matheux: c’est le cas si S est un espace polonais (i.e. métrisable, séparable et complet) muni
de sa tribu borélienne.
74 CHAPITRE 3. LES THÉORIES ALTERNATIVES AUX THÉORIES CLASSIQUES

4000 3000 0
A 0 1 0
B 0,8 0 0,2
C 0 0,25 0,75
D 0,2 0 0,8

Tab. 3.2 – Le paradoxe d’Allais, version modifiée

La majorité des sujets choisissent A  B et D  C. Or, il est facile de voir que:

C = 0,25A + 0,75δ0

et
D = 0,25B + 0,75δ0 .
Les choix observés sont donc en contradiction manifeste avec l’axiome d’indépendance.
Plus précisément, on a les espérances d’utilité suivantes:

EU (A) = u(3000),

EU (B) = 0,8 × u(4000),


EU (C) = 0,25 × u(3000),
EU (D) = 0,2 × u(4000).
Ainsi,
A  B ⇔ u(3000) > 0,8u(4000)
et
0,2
D  C ⇔ u(3000) < u(4000) = 0,8u(4000),
0,25
ce qui est une contradiction manifeste.

Analyse mathématique du problème


0,2
Il est clair que le paradoxe vient du fait que 0,25 = 0,8. Or, on n’est confronté à ce
problème que du fait que l’on a admis un traitement linéaire des probabilités. Supposons
que les probabilités ne soient pas traitées linéairement. Autrement dit, supposons qu’elles
soient déformées de manière non-linéaire par une fonction w : [0,1] → [0,1] strictement
croissante telle que w(0) = 0 et w(1) = 1. On aurait alors

A  B ⇔ u(3000) > w(0,8)u(4000)

et
w(0,2)
D  C ⇔ u(3000) < u(4000).
w(0,25)
w(0,2)
Or, il n’est pas difficile de trouver une fonction telle que w(0,25) > w(0,8). Il suffit de
considérer w telle que w(0,2) = 0,3, w(0,25) = 0,4 et w(0,8) = 0,7. On remarque qu’une
telle fonction surestime les petites probabilités et sous-estime les grandes. Une telle pro-
priété est un trait caractéristique du comportement observé expérimentalement, mais nous
y reviendrons.
3.2. LES RÉPONSES AU PARADOXE D’ALLAIS 75

Analyse psychologique: l’effet de certitude.


Supposons un instant que u(x) = x. Alors EU (A) = 3000, EU (B) = 3200, EU (C) =
750 et EU (D) = 800. Par conséquent, le seul choix qui soit véritablement en contradiction
avec l’espérance d’utilité c’est A  B. C’est donc essentiellement celui-là qu’il faut expli-
quer. Le principe psychologique qui est invoqué pour l’expliquer est ce que l’on appelle
l’effet de certitude: la certitude de gain a un effet attractif très fort, qui tend à dominer
toute autre considération. Il semble qu’il y ait une forme de discontinuité des préférences
au point de certitude. Cet effet de certitude a pour conséquence un renversement de l’ordre
habituel des priorités.

3.2.2 Le modèle RDEU


Présentation du modèle RDEU: la rationalité des croyances par rapport à l’in-
formation probabiliste
Rappelons que le paradoxe d’Allais se situe dans le cadre du risque, donc on suppose
qu’une probabilité P est donnée sur l’ensemble S des états de la nature. On supposera que E
est une σ-algèbre, que P est σ-additive et sans atomes. On considère comme précédemment
l’ensemble A0 des actes prenant un nombre fini de valeurs mais cette fois l’ensemble C des
conséquences est quelconque.
On aimerait étudier un décideur qui se comporterait d’une façon rationnelle par rapport
à l’information objective dont il dispose. On va donc imposer cette rationalité sous la forme
de l’axiome suivant:
Axiome 3.11 (Cohérence des croyances subjectives et de l’information objective) Pour
tous A,B ∈ E , P (A) ≥ P (B) ⇒ ∀x,y ∈ C tels que x % y,xAy % xBy.
Cet axiome impose la rationalité de l’utilisation par l’agent de l’information objective
dont il dispose pour la formation de ses croyances: si objectivement B n’est pas plus
probable que A, alors l’agent ne peut pas préférer parier sur B plutôt que sur A. Cependant,
la compatibilité n’est pas totale: si A est strictement plus probable B, il est cependant
possible que le décideur soit indifférent entre parier sur A et parier sur B. Ceci peut provenir
du fait que l’agent est incapable de percevoir la différence entre les deux probabilités: sa
perception des probabilités est bien monotone par rapport aux probabilités, mais elle n’est
pas parfaitement discriminante.
On a la proposition suivante:

Proposition 3.7
Soit un décideur dont les préférences % sur A0 sont de type CEU avec une capacité ν et
une fonction d’utilité u non constante. Alors les propositions suivantes sont équivalentes:
(i) % vérifie l’axiome 3.11;
(ii) Il existe une fonction w : [0,1] → [0,1] croissante et continue telle que w(0) = 0,
w(1) = 1 et ν = w ◦ P .

Un décideur agit conformément au modèle RDEU (?) s’il existe une fonction u : C → R
et une fonction w : [0,1] → [0,1] strictement croissante et telle que w(0) = 0 et w(1) = 1
telles que Z Z
f %g⇔ u ◦ f dw ◦ P ≥ u ◦ g dw ◦ P.

L’intégrale dont il s’agit est l’intégrale de Choquet par rapport à la capacité w ◦ P. Ainsi,
il apparaît que le modèle RDEU est un cas particulier du modèle CEU dans le cas où il
76 CHAPITRE 3. LES THÉORIES ALTERNATIVES AUX THÉORIES CLASSIQUES

existe une probabilité objective. Un décideur donc les préférences sont du type RDEU dans
le risque est un décideur qui n’est pas capable de bien discriminer les écarts de probabilité
mais qui, dans la mesure où ses facultés cognitives le lui permettent, utilise rationnellement
l’information dont il dispose.
La fonction w est appelée fonction de transformation des probabilités. Comme on va
le voir, cette fonction ne déforme pas les probabilités élémentaires mais les probabilités
cumulées. En effet, on peut bien entendu exprimer la fonctionnelle RDEU directement sur
les loteries. On se place directement sur l’ensemble des loteries à support fini sur C, ∆0 (C),
induit par P et l’ensemble des actes 6 , et on associe à la relation de préférence % sur A
une relation de préférence % sur ∆0 (C) comme nous l’avons fait dans le chapitre sur la
décision dans le risque. Le modèle RDEU s’exprime alors ainsi: si p = (p1 ,x1 ,...,pn ,xn ) est
une loterie telle que x1 - x2 - . . . - xn , on a:
n
X Xn
RDEU (p) = u(x1 ) + (u(xi ) − u(xi−1 ))w( pj ) (3.1)
i=2 j=i

Comme dans le cas de l’intégrale de Choquet (ce qui est normal puisque c’en est une),
on considère d’abord le gain minimum assuré, et on ajoute ensuite l’incrément de gain,
multiplié par la croyance que l’on a qu’au moins cet incrément se réalise, et on fait la somme.
La fonction w s’applique donc aux probabilités cumulées, c’est-à-dire à la probabilité d’avoir
au moins un certain résultat. Ceci est différent de ce que nous avons présenté dans l’analyse
du paradoxe d’Allais version KT, où nous avons appliqué la transformation des probabilités
directement sur la probabilité élémentaire. La raison pour laquelle on ne procède pas de
cette manière dans le modèle RDEU est la même que celle qui a conduit à la définition
de l’intégrale de Choquet par simple imitation de l’intégrale de Lebesgue: la volonté de
respecter une propriété de dominance. La propriété de dominance que l’on utilise est ici
la propriété de dominance stochastique au premier ordre, définie sur les actes de la façon
suivante:
Définition 3.6. Soient f,g deux actes. f domine g au premier ordre étant donné la pro-
babilité P , noté f %P −F SD si, pour tout x ∈ C,

P (f  x) ≥ P (g  x).
La fonctionnelle RDEU vérifie l’axiome suivant:
Axiome 3.12 Pour tout f,g ∈ A0 , f %P −F SD g ⇒ f % g.
Cet axiome est plus fort que l’axiome 3.11, car il l’implique.

Axiomatisation du modèle RDEU


Comme on l’a vu, on peut axiomatiser le modèle RDEU à partir d’une axiomatisation
du modèle CEU auquel on ajoute l’axiome 3.11. Cependant, il est également possible de
l’axiomatiser directement dans le cadre des loteries. Nous n’allons pas présenter l’axioma-
tique dans son intégralité, mais uniquement son axiome central, dont nous montrerons qu’il
est violé par la version originelle du paradoxe d’Allais.
Axiome 3.13 Principe de la chose sûre comonotone dans le risque
Soient p = (p1 ,x1 , . . . ,pn ,xn ) et q = (p1 ,y1 , . . . ,pn ,yn ) telles que x1 - x2 - . . . - xn
et y1 - y2 - . . . - yn et supposons qu’il existe 1 ≤ k ≤ n tel que xk = yk . Soit p0 et q 0
6. Pour que l’on puisse retrouver toutes les distributions à support fini sur C, il suffit que la probabilité
soit σ-additive et sans atomes, ce que nous avons supposé ici.
3.2. LES RÉPONSES AU PARADOXE D’ALLAIS 77

obtenues à partir de p et q en remplaçant xk par x0k sans que l’ordre ne change. Alors p % q
si et seulement si p0 % q 0 .
Le modèle RDEU implique que cet axiome soit vérifié. Revenons à la version d’origine du
paradoxe d’Allais. Les loteries du paradoxe d’Allais sont celles présentées dans le tableau
3.3. On peut les reformuler d’une façon qui fait apparaître leur rapport avec l’axiome
précédent (tableau 3.4).

5M 1M 0
L1 0 1 0
L2 0,10 0,89 0,01
L0 1 0 0,11 0,89
L0 2 0,10 0 0,90

Tab. 3.3 – Le paradoxe d’Allais

0,01 0,89 0,1


L1 1M 1M 1M
L2 0 1M 5M
L0 1 1M 0 1M
L0 2 0 0 5M

Tab. 3.4 – Le paradoxe d’Allais et l’axiome de la chose sûre comonotone

Il apparaît que l’on passe de L1 et L2 à L0 1 et L0 2 en modifiant la seconde colonne de la


même manière pour les deux loteries. Cependant cette modification ne viole pas l’axiome
de la chose sûre comonotone car elle entraîne un bouleversement de l’ordre.
La seconde version du paradoxe d’Allais peut également s’expliquer à l’aide du modèle
RDEU, comme on l’a vu.

Aversion pour le risque dans le modèle RDEU: une introduction rapide


Rappels sur les définitions d’aversion forte et faible pour le risque.

Proposition 3.8
Dans le modèle RDEU, aversion forte équivalente à f convexe et u concave.

Proposition 3.9
Dans le modèle RDEU, il est possible d’avoir de l’aversion faible sans aversion forte. Plus
généralement, l’aversion faible pour le risque n’implique pas la concavité de u si f est
suffisamment convexe.

Ainsi, dans le modèle RDEU, on parvient à séparer l’attitude par rapport à la richesse
et l’attitude par rapport au risque, la première relevant de u et la seconde de v.

L’effet de certitude: une version discontinue du modèle RDEU


L’effet de certitude suppose une surpondération de la certitude. Une façon de modéliser
cela est de prendre une fonction w discontinue: w(p) = p pour tout p 6= 1 et w(1) > 1.
78 CHAPITRE 3. LES THÉORIES ALTERNATIVES AUX THÉORIES CLASSIQUES
BIBLIOGRAPHIE 79

Bibliographie

Maurice Allais. Le comportement de l’homme rationnel devant le risque: critique des


postulats de l’école américaine. Econometrica, 21:503–546, 1953.
F.J. Anscombe and R.J. Aumann. A definition of subjective probability. Annals of Ma-
thematical Statistics, 34:199–205, 1963.
Kenneth Arrow and Leonard Hurwicz. An optimality criterion for decision-making under
ignorance. In C. F. Carter and J.L. Ford, editors, Uncertainty and Expectations in
Economics. Basil Blackwell & Mott Ltd., Oxford, England, 1972.
Nick Baigent and Wulf Gaertner. Never choose the uniquely largest: A characterization.
Economic Theory, 8:239–249, 1996.
Gary M. Becker, M.H. DeGroot, and Jacob Marschak. Measuring utility by a single-
response sequential method. Behavioral Science, 9:226–232, 1964.
C. Camerer. Individual decision making. In J. Kagel and A. Roth, editors, Handbook of
Experimental Economics, pages 587–703. Princeton, Princeton University Press, 1995.
Michèle Cohen and Jean-Marc Tallon. Décision dans le risque et l’incertain: L’apport des
modèles non additifs. Revue d’économie politique, 110 (5):631–681, 2000.
Michèle Cohen. Security level, potential level, expected utility: a three-criteria decision
model under risk. Theory and Decision, 33:101–134, 1992.
Gérard Debreu. Representation of a preference ordering by a numerical function. In
R. Thrall, C. Coombs, and R. Davis, editors, Decision Processes, pages 159–165. Wiley,
New York, 1954.
Marc-Arthur Diaye. Sur la définition du choix rationnel dans le cas de préférences dépen-
dant du contexte. Revue économique, 52(1):17–33, 2001.
K. Eliaz and Efe Ok. Indifference or indecisiveness? choice-theoretic foundations of incom-
plete preferences. mimeo, 2003.
D. Ellsberg. Risk, ambiguity, and the savage axioms. Quartely Journal of Economics, 75:
643–669, 1961.
Epictète. Entretiens. In Pierre-Maxime Schuhl and Emile Bréhier (traduction), editors,
Les Sto•ciens, volume 2 of Tel. Gallimard, Paris, 1962.
Thibault Gajdos, Jean-Marc Tallon, and Jean-Christophe Vergnaud. Decision making with
imprecise probabilistic information. Journal of Mathematical Economics, 40(6):647–681,
9 2004.
Paolo Ghirardato and Massimo Marinacci. Ambiguity made precise: A comparative foun-
dation. Journal of Economic Theory, 102(2):251–289, February 2002.
Paolo Ghirardato, Fabio Maccheroni, and Massimo Marinacci. Differentiating ambiguity
and ambiguity attitude. Journal of Economic Theory, 118(2):133–173, 2004.
I. Gilboa and D. Schmeidler. Maxmin expected utility with a non-unique prior. Journal
of Mathematical Economics, 18:141–153, 1989.
80 BIBLIOGRAPHIE

Raphael Giraud. Une théorie de la décision pour les préférences imparfaites. PhD thesis,
Université Paris I, 2004.
David M. Grether and Charles R. Plott. Economic theory of choice and the preference
reversal phenomenon. The American Economic Review, 69(4):623–638, 1979.
David M. Grether and Charles R. Plott. Economic theory of choice and the preference
reversal phenomenon: A reply. The American Economic Review, 72(4):575, 1982.
Israel Nathan Herstein and John Milnor. An axiomatic approach to measurable utility.
Econometrica, 21, 1953.
David Hume. A Treatise of Human Nature. Clarendon Press, Oxford, 1978.
Jean-Yves Jaffray. Choice under risk and the security factor: An axiomatic model. Theory
and Decision, 24:169–200, 1988.
D. Kahneman and A. Tversky. Prospect theory: an analysis of decision under risk. Econo-
metrica, 47:263–291, 1979.
Daniel Kahneman and Amos Tversky. Choices, Values and Frames. Cambridge University
Press, Cambridge, 2000.
Daniel Kahneman, P. Slovic, and Amos Tversky. Judgment under Uncertainty: heuristic
and biases. Cambridge University Press, Cambridge, 1982.
Edi Karni and Zvi Safra. ’preference reversal’ and the observability of preferences by
experimental methods. Econometrica, 55:675–685, 1987.
A. KŸhberger. The influence of framing on risky decisions: A meta-analysis. Organizational
Behavior and Human Decision Processes, 75(1):23–55, 1998.
Frank H. Knight. Risk, Uncertainty and Profit. Houghton Mifflin Company, Boston, New
York, 1921.
C.H. Kraft, J.W. Pratt, and Seidenberg A. Intuitive probability on finite sets. Annals of
Mathematical Statistics, 30:408–419, 1959.
D. Kreps. Notes on the Theory of Choice. Westview Press,?, 1988.
I.P. Levin and G.J. Gaeth. Framing of attribute information before and after consuming
the product. Journal of Consumer Research, 15:374–378, 1988.
I.P. Levin, S.L. Schneider, and G.J. Gaeth. All frames are not created equal: A typology
and critical analysis of framing effects. Organizational Behavior and Human Decision
Processes, 76(1):149–188, 1998.
Sarah Lichtenstein and Paul Slovic. Reversals of preference between bids and choices in
gambling decisions. Journal of Experimental Psychology, 89:46–55, 1971.
Sarah Lichtenstein and Paul Slovic. Response-induced reversals of preference in gambling:
An extended replication in las vegas decisions. Journal of Experimental Psychology, 101:
16–20, 1973.
Graham Loomes, Chris Starmer, and Robert Sugden. Preference reversal: Information-
processing effect or rational non-transitive choice? Economic Journal, 99:140–151, 1989.
Graham Loomes, Chris Starmer, and Robert Sugden. Preference reversal: Information-
processing effect or rational non-transitive choice? Econometrica, 59(2):425–439, 1991.
D. Luce. Semi-order and a theory of utility discrimination. Econometrica, 24:178–191,
1956.
Philippe Mongin. A note on mixture sets in decision theory. Decision in Economics and
Finance, 24:59–69, 2001.
Philippe Mongin. L’axiomatisation et les théories économiques. Revue Economique, 54:1:
99–138, 2003.
BIBLIOGRAPHIE 81

Philippe Mongin. Problèmes de duhem dans la théorie de l’utilité espérée. Fundamenta


Scientiae, 9:299–327, 1988.
Philippe Mongin. L’optimisation est-elle un critère de rationalité individuelle. In Louis-
André Gérard-Varet and Jean-Claude Passeron, editors, Calculer et raisonner. Les usages
du principe de rationalité dans les sciences sociales. Éditions de la Maison des Sciences
de l’Homme, Paris, 1983.
Nathalie Moureau and Dorothée Rivaud-Danset. L’incertitude dans les théories écono-
miques. Repères. La Découverte, Paris, 2004.
W.W. Pommerehne, F. Schneider, and P. Zweifel. Economic theory of choice and the
preference reversal phenomenon: A reexamination. The American Economic Review, 72
(3):569–574, 1982.
Matthew Rabin. Psychology and economics. Journal of Economic Literature, XXXVI(6):
11–46, 1998.
M. Rotschild and J. Stiglitz. Increasing risk i: a definition. Journal of Economic Theory,
2:225–243, 1970.
M. Rotschild and J. Stiglitz. Increasing risk ii: its economic consequences. Journal of
Economic Theory, 3:66–84, 1971.
Paul A. Samuelson. A note on the pure theory of economic behaviour. Economica, 5:61–71,
1938.
Leonard J. Savage. The Foundations of Statistics. Wiley, New York, 1954.
D. Schmeidler. Integral representation without additivity. Proceedings of the American
Mathematical Society, 97(2):255–261, 1986.
David Schmeidler. Subjective probability and expected utility without additivity. Econo-
metrica, 57:571– 587, 1989.
Uzi Segal. Does the preference reversal phenomenon necessarily contradict the indepen-
dance axiom? American Economic Review, 78:233–236, 1988.
Uzi Segal. Two-stage lotteries without the reduction axiom. Econometrica, 58(2):349–377,
1990.
Amartya Sen. Choice functions and revealed preference. Review of Economic Studies, 38:
307–317, 1971.
Amartya Sen. Behaviour and the concept of preference. Economica, New Series, 40:241–
259, 1973.
Amartya Sen. Internal consistency of choice. Econometrica, 61(3):495–521, 1993.
Szpilrajn. Sur l’extension de l’ordre partiel. Fundamenta Mathematicae, 16:386–389, 1930.
Amos Tversky and Daniel Kahneman. The framing of decision and the psychology of
choice. Science, 211(1):453–458, 1981.
Amos Tversky and Itamar Simonson. Context-dependent preferences. In Kahneman Daniel
and Tversky Amos, editors, Choice, Values and Frames, chapter 29. Cambridge Univer-
sity Press, Cambridge, 2000.
Amos Tversky and Itamar Simonson. Choice in context: Tradeoff contrast and extremenes
aversion. Journal of Marketing Research, 29:281–295, 1992.
Amos Tversky, Paul Slovic, and Daniel Kahneman. The causes of preference reversal. The
American Economic Review, 80(1):204–217, 1990.
Amos Tversky, Itamar Simonson, and E. Shafir. Reason-based choice. In Kahneman
Daniel and Tversky Amos, editors, Choice, Values and Frames, chapter 34. Cambridge
University Press, Cambridge, 2000.
82 BIBLIOGRAPHIE

John Von Neumann and Oscar Morgenstern. Theory of Games and Economic Behaviour.
Princeton University Press, Princeton, 1947.
David Williams. Probability with Martingales. Cambridge University Press, Cambridge,
1991.