Professional Documents
Culture Documents
la mthode
statistique
Manuel et exercices corrigs
Bernard Goldfarb
Catherine Pardoux
6e dition
P001-002R-9782100549412.indd 1
24/11/10 11:59
P001-002R-9782100549412.indd 2
24/11/10 11:59
IX
I.
Dfinitions 1
A. Population, individu, chantillon
B. Variables 2
II.
Reprsentations graphiques
A. Distributions statistiqueset reprsentations graphiques
B. Le diagramme branche et feuille
3
4
10
III.
13
13
14
23
26
29
33
33
34
36
Bilan 37
Testez-vous
39
Exercices
41
2. Indices statistiques
I.
47
Indices lmentaires
A. Dfinition 47
B. Proprits 48
47
III
II.
III.
Indices synthtiques
A. Indices synthtiques de Laspeyres et Paasche :
premires formules
B. Formules dveloppes
C. Comparaison des indices de Laspeyres et de Paasche
D. Indice de Fisher
E. Proprits des indices de Fisher, Laspeyres et Paasche
F. Utilisation de ces trois indices
50
51
52
54
55
56
Indices-chanes 56
A. Raccord dindices
B. Les indices-chanes
C. Indices publis par lINSEE
56
57
58
58
59
60
Bilan 61
Testez-vous
62
Exercices
63
67
I.
67
67
69
69
71
II.
72
III.
IV
49
73
74
76
81
82
86
87
89
90
Bilan 92
Testez-vous
94
Exercices
97
103
I.
103
103
104
104
104
II.
105
III.
Analyse de la tendance
A. Ajustement de la tendance par une fonction analytique
B. Dfinition dune moyenne mobile
C. Dtermination de la tendance par la mthode
des moyennes mobiles
D. Inconvnients de la mthode des moyennes mobiles
108
108
109
110
112
113
113
114
115
V.
115
116
118
120
120
125
Testez-vous
Exercices
127
128
131
133
133
136
II.
III.
142
151
151
151
154
155
156
162
163
164
166
Testez-vous
172
Exercices
176
179
I.
181
181
183
II.
184
185
191
193
III.
La loi de Poisson
A. Dfinitions et proprits
B. Abord statistique
C. Abord probabiliste
198
199
203
203
Exercices
VI
144
149
207
211
I.
211
211
214
II.
219
219
240
240
247
252
III.
226
233
235
239
V.
256
256
260
265
268
Bilan 271
Testez-vous
273
Exercices
276
283
289
Annexes 335
I.
335
335
335
336
337
339
VII
II.
339
339
340
340
341
341
342
III.
343
343
343
344
344
346
363
Lexique franais/anglais
367
Index
371
VIII
Avant-propos
Tout le monde sait et dit que celui qui observe sans ide, observe en vain.
lments de philosophie, Alain (1868 1951)
AVANT-PROPOS
IX
1. D istributions
statistiques
un caractre
I.
Dfinitions
B. Variables
Chaque individu dune population peut tre dcrit selon une ou plusieurs
variables qui peuvent tre des caractristiques qualitatives ou prendre des
valeurs numriques.
Une variable est dite qualitative si ses diffrentes ralisations (modalits)
ne sont pas numriques. Ainsi : le sexe, la situation matrimoniale, la catgorie
socioprofessionnelle sont des variables qualitatives. On peut toujours rendre
numrique une telle variable en associant un nombre chaque modalit ; on
dit alors que les modalits sont codes. Bien entendu, les valeurs numriques
nont dans ce cas aucune signification particulire, et effectuer des oprations
algbriques sur ces valeurs numriques na pas de sens.
Une variable est dite quantitative lorsquelle est intrinsquement numrique : effectuer des oprations algbriques (addition, multiplication) sur une
telle variable a alors un sens. Une variable quantitative peut tre une variable
statistique discrte ou continue.
Les variables statistiques discrtes sont des variables qui ne peuvent prendre que des valeurs isoles, discrtes. Le nombre denfants dune famille, le
nombre de ptales dune fleur, le nombre de buts marqus lors dune rencontre de football sont des variables quantitatives discrtes. Le plus frquemment, les valeurs possibles sont des nombres entiers.
Les variables statistiques continues peuvent prendre toutes les valeurs
numriques possibles dun ensemble inclus dans : le revenu, la taille, le
taux de natalit sont des variables continues.
Prune
Pomme de table
24 %
Pche et nectarine
10 %
10 %
Autres fruits
10 %
12 %
Noix
8,8
10 %
%
5%
5% 6%
8%
Olives
Poire de table
Abricot
Pomme cidre
Cerise
Extrait de Agreste, GraphAgri 2006,
Ministre de lAgriculture et de la Pche.
A. Distributions statistiques
et reprsentations graphiques
Effectif
n1
.
.
.
ni
.
.
.
nk
k
ni = n
Modalit
x1
.
.
.
xi
.
.
.
xk
Frquence
f1 = n1/n
.
.
.
fi = ni/n
.
.
.
fk = nk/n
k
i=1
= 1
i=1
Allemagne Espagne
Mnages de :
1 personne
2 personnes
3 personnes
4 personnes
5 personnes et plus
Ensemble (en milliers)
Finlande
France
Grce
Irlande
Italie
Pays-Bas Portugal
34,4
32,3
16,0
12,6
4,7
12,7
24,5
21,8
24,0
17,0
37,4
31,0
14,4
11,9
5,3
29,2
31,8
16,8
14,2
8,0
20,7
28,9
19,8
21,7
8,9
22,8
23,1
15,6
17,1
21,4
22,7
23,1
15,6
17,1
21,4
30,6
34,0
13,4
15,9
6,2
13,7
26,4
24,7
22,8
12,4
34 413
12 112
2 222
23 126
3 756
1 146
1 146
6 425
3 275
Nombre de
personnes
f (%)
29,2
31,8
16,8
14,2
5 ou plus
8,0
30 %
100 %
20 %
10 %
5 ou +
Figure 1.2 Diagramme en btons Nombre de personnes par mnage en France en 1995
On verra par la suite quune difficult du travail avec des sries classes
est le choix des limites pour les classes extrmes, indispensable aussi pour le
trac de lhistogramme.
la ie classe, correspond un rectangle dont la base est lintervalle [ xi 1, x i [
et dont la surface est proportionnelle la frquence fi (ou leffectif ni). Si
les classes ont toutes la mme amplitude, les hauteurs des rectangles sont
proportionnelles aux frquences. Dans le cas o les classes sont damplitudes
ingales, la hauteur du rectangle correspondant la ie classe damplitude ai
sera hi = fi /ai. La surface du rectangle reprsentant la ie classe sera ainsi gale
fi
Pour une srie dobservations relatives une variable statistique X discrte ou continue classe, la donne des modalits et de leurs frquences est
appele distribution statistique de la variable X.
Tableau 1.2 Chmeurs BIT selon le sexe et lanciennet de chmage en septembre 2006
Distribution en milliers
Anciennet dinscription
Hommes
Femmes
Hommes
Femmes
180,3
181,0
16,5
16,8
203,9
204,9
18,6
19,0
169,3
163,1
15,5
15,1
202,1
191,1
18,5
17,7
197,3
199,3
18,0
18,5
74,5
75,4
6,8
7,0
67,1
62,9
6,1
5,8
1 094,5
1 077,7
100,1
100,1
341,5
334,5
Ensemble
Anciennet moyenne en jours
Dunod. La photocopie non autorise est un dlit.
Distribution en pourcentage
fi
ai
Mois
01 3
24
12
36
60
pour i = 1, 2, , k
ji
Pour une variable statistique discrte, cette fonction est une fonction en
escalier, prsentant en chacune des valeurs possibles xi, un saut gal la frquence correspondante fi (cf. figure 1.4).
Dans le cas dune variable statistique continue, la fonction cumulative
nest connue que pour les valeurs de X gales aux extrmits des classes.
Lhypothse dquirpartition ( II.A.2) implique que la fonction
F est
linaire entre ces valeurs ( cf. figure 1.5). Cette fonction est donc continue et
linaire par morceaux. Ici encore, il est ncessaire de choisir des limites pour
les classes extrmes.
t
F(t) (%)
<1
[1 ; 2[
[2 ; 3[
[3 ; 4[
[4 ; 5[
5
0
29,2
61,0
77,8
92,0
100
100 %
5 et +
Figure 1.4 Graphe des frquences cumules de la distribution reprsente la figure 1.2
F(t) (%)
16,8
35,8
50,9
12
68,7
24
87,2
36
60
94,2
100
Fi
100
13 6
12
24
36
60
Mois
10
Allemagne
Autriche
Belgique
Danemark
Espagne
Finlande
France
Grce
Irlande
Italie
Luxembourg
Pays-Bas
Portugal
Royaume-Uni
Sude
1990
1995
2000
39,9
40,1
38
39
40,7
38,4
39,6
40,2
40,4
38,6
39,9
39
41,9
43,7
40,7
39,7
39,3
38,4
39
40,7
38,6
39,9
40,3
40,2
38,4
39,5
39,5
41,2
43,9
40
40,1
40,1
38,5
39,3
40,6
39,3
38,9
40,9
39,9
38,6
39,8
39
40,3
43,6
40
Le nombre de pays tant impair et gal 15, il y a deux valeurs de profondeur 1, 2, 3, 4, 5, 6, 7 et une seule valeur de profondeur 8 (cf. tableau 1.4).
Tableau 1.4 Pays ordonns selon la dure hebdomadaire du travail des salaris
temps complet en 2000
Rang
croissant
Rang
dcroissant
Profondeur
Dure (heures)
Pays
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
1
2
3
4
5
6
7
8
7
6
5
4
3
2
1
38,5
38,6
38,9
39,0
39,3
39,3
39,8
39,9
40,0
40,1
40,1
40,3
40,6
40,9
43,6
Belgique
Italie
France
Pays-Bas
Danemark
Finlande
Luxembourg
Irlande
Sude
Allemagne
Autriche
Portugal
Espagne
Grce
Royaume-Uni
11
1995
Frequency Stem & Leaf
2000
Frequency Stem & Leaf
3,00
5,00
5,00
1,00
1,00
3,00
6,00
4,00
1,00
1,00
0,00
3,00
3,00
2,00
4,00
2,00
1,00
38 . 046
39 . 00699
40 . 12477
41 . 9
Extrmes (>=43,7)
38 . 446
39 . 035579
40 . 0237
41 . 2
Extrmes (>=43,9)
38 .
38 . 569
39 . 033
39 . 89
40 . 0113
40 . 69
Extrmes (>=43,6)
Figure 1.6 Branche et feuille (logiciel SPSS) pour les sries du tableau 1.3
12
Frequency
3,00
6,00
4,00
1,00
1,00
38 . 446
39 . 035579
40 . 0237
41. 2
Extremes (> = 43,9)
A. Conditions de Yule
Le statisticien britannique Yule 1 a nonc un certain nombre de proprits
souhaites pour les indicateurs des sries statistiques ; ceux-ci doivent tre
dune part, des rsums maniables et dautre part, les plus exhaustifs possibles relativement linformation contenue dans les donnes.
1. G. Udny Yule et M. G. Kendall, An Introduction to the Theory of Statistics, Charles Griffin
& Co, 14 e dition, 1950.
13
Dans son schma, une caractristique statistique doit tre une valeur-type :
1. dfinie de faon objective et donc indpendante de lobservateur ;
2. dpendante de toutes les observations ;
3. de signification concrte pour tre comprise par des non-spcialistes ;
4. simple calculer ;
5. peu sensible aux fluctuations dchantillonnage ;
6. se prtant aisment aux oprateurs mathmatiques classiques.
En ralit, on ne dispose pas de caractristiques rpondant simultanment
ces six conditions. Le choix dun indicateur sera lobjet dun compromis
guid par la spcificit de ltude en cours.
1) La moyenne arithmtique
On appelle moyenne arithmtique la somme de toutes les donnes statistiques
divise par le nombre de ces donnes. La moyenne arithmtique conserve la
somme totale des valeurs observes : si on modifie les valeurs de deux observations dune srie statistique tout en conservant leur somme, la moyenne de
la srie sera inchange.
Soit la srie statistique de donnes brutes : x1 , , x i , , x n , sa moyenne
arithmtique a pour expression :
n
1
x = --- x i
ni = 1
Bien entendu, si une valeur
xi de X est observe ni fois, comme
xi + xi + + xi = ni xi , la formule prcdente devient :
ni fois
k
1
x = --- n i x i =
ni = 1
fx
i i
i=1
1. Ch. Antoine, Les moyennes au quotidien , dans Les Moyennes, Que Sais-je, PUF, n 3383,
1998, p. 107.
14
n
o k dsigne le nombre de valeurs distinctes de X et fi = ----i
n
Lorsquon a une variable statistique continue, on ne connat pas les valeurs
exactes prises par la variable, mais seulement le nombre dobservations
lintrieur de chaque classe. Pour calculer la moyenne arithmtique dune
telle variable, on ramne chaque observation au centre de sa classe, ceci en
raison de lhypothse dquirpartition lintrieur des classes, et cel revient
considrer la moyenne des individus de la ie classe gale (xi1+ x i)/2.
Dans le cas des classes extrmes non limites, le choix des limites de ces
classes influe videmment sur la valeur de la moyenne arithmtique. Ces
limites devront tre choisies en fonction des connaissances sur les donnes
et en noubliant pas lhypothse de base : lhomognit lintrieur des
classes. Pour une classe extrme dans laquelle on sait quil ny a pas quirpartition, les observations tant vraisemblablement en majorit regroupes
sur une partie de la classe, il conviendra de choisir la borne extrme :
moins faible que la borne relle (suppose) sil sagit de la premire
classe ;
plus faible que la borne relle (suppose) sil sagit de la dernire classe.
Cest ce qui a t fait pour la srie prsente au tableau 1.2 et la figure 1.3,
lanciennet moyenne du chmage a t considre gale 48 mois pour ceux
dont lanciennet tait au moins gale 36 mois et la borne suprieure de la
dernire classe a t de ce fait fixe 60 mois (lhypothse dquirpartition
amne considrer que la moyenne des observations dune classe est gale au
centre de la classe).
Proprits
f ( x x)
i
= 0
i=1
15
nx sobtient en additionnant
1
x = --- ( n 1 x 1 + n 2 x 2 )
n
Ce rsultat se gnralise une partition en k sous-populations (k 2) :
k
1
x = --- n i x i
ni = 1
Exemple
2) Dautres moyennes
a) La moyenne gomtrique
Cest la moyenne applicable des mesures de grandeurs dont la croissance
est gomtrique ou exponentielle.
La moyenne gomtrique conserve le produit des x i : si on modifie les
valeurs de deux observations tout en conservant leur produit, la moyenne
gomtrique sera inchange.
La moyenne gomtrique G de la srie de valeurs x1 , , x i , , x n supposes toutes positives (strictement), est dfinie ainsi :
n
G=
i=1
1
ln ( G ) = --- ln ( x i )
ni = 1
i=1
ni
xi =
xi
fi
ln ( G ) =
i=1
f ln ( x )
i
i=1
Exemple
16
i=1
Exemple
On achte des dollars une premire fois pour 100 au cours de 1,23 le
dollar, une seconde fois pour 100 au cours de 0,97 le dollar.
Le cours mo yen du dollar pour lensemble de ces deux oprations est
gal :
200
-------------------------- 1,085
100- + --------100--------1,23 0,97
La moyenne arithmtique (= 1,1) ne reprsente pas le cours mo yen du
dollar.
Comparaison des 3 moyennes tudies
On montre que si les xi sont tous positifs :
min xi H G x max xi
lin
lin
Lgalit de deux de ces moyennes entre elles entrane leur galit dans
leur ensemble, et dans ce cas, toutes les valeurs xi sont gales.
3) Le mode
Pour obtenir une mesure de la tendance centrale non influence par les
valeurs extrmes de la distribution, on peut prendre la valeur ou la classe
de valeurs du caractre pour laquelle le diagramme en btons respectivement lhistogramme prsente son maximum : cest le mode respectivement
lintervalle modal de la distribution ; dans le cas o le diagramme en btons
ou lhistogramme prsente aussi un maximum local, il y a deux modes
respectivement deux classes modales.
17
1er mode
2e mode
18
0,5 Fi 1
Me = x i 1 + ( x i x i 1 ) ---------------------fi
19
Fi
0,5
Fi-1
xi-1
fi
0,5- Fi-1
Me
xi
Distribution
symtrique
{ Mo = Me = x }
Distribution tale
vers la gauche
Distribution tale
vers la droite
Mo Me x
x Me Mo
20
b) Les quantiles
Les quantiles sont des indicateurs de position .
Le quantile dordre (0 1), not x , est tel quune proportion
des individus ait une valeur du caractre X infrieure ou gale x
Le quantile x0,5 est gal la mdiane.
On utilise couramment les quantiles dordre 1/4, 1/2 et 3/4. Ils sont ainsi
nots et nomms :
Q1 = premier quartile = x 0,25
Q2 = deuxime quartile = mdiane = x 0,5
Q3 = troisime quartile = x 0,75
Les quartiles se dterminent, comme la mdiane, laide de la profondeur
(variable discrte), ou laide des frquences cumules (variable continue).
Dans le cas dune variable statistique discrte, le premier quartile Q1 et le troisime quartile Q3 sont des lments de mme profondeur gale (m + 1)/2 o
m dsigne la partie entire de la profondeur de la mdiane. On peut aussi
considrer Q1 comme la mdiane des m premires valeurs de la srie et Q3
comme la mdiane des m dernires valeurs. Ainsi par exemple, pour une srie
de 39 observations, la mdiane a une profondeur gale 20, et les quartiles
Q1 et Q3 sont de profondeur 10,5 ; pour une srie de 50 observations, la
mdiane a une profondeur de 25,5 et la partie entire de cette profondeur
tant 25, les quartiles Q1 et Q3 sont de profondeur 13.
La pratique de la dtermination des quartiles ne respecte pas toujours la
dfinition prcdente due Tukey. Ainsi les calculatrices de poche (TI,
Casio,) dterminent le 1 er quartile (resp. le 3 e quartile) comme la mdiane
des valeurs de profondeur infrieure (resp. suprieure) la profondeur de la
mdiane. Le rsultat diffre de celui calcul avec la dfinition de Tukey dans
le cas dun nombre impair dobservations. Le logiciel SPSS dtermine deux
types de quartiles : Valeurs charnires selon la dfinition de Tukey, et
Moyenne pondre laide dune formule dinterpolation linaire
[Dodge, 1993]. La dtermination des premier et troisime quartiles nest pas
standardise.
Pour la distribution de la dure hebdomadaire du travail dans les 15 pays
de lUnion europenne en 2000 ( cf. tableau 1.4), les premier et troisime
quartiles sont les valeurs de profondeur 4,5 :
et
Q3 = 40,2 h
Q1 = 39,15 h
Dans le cas dune variable statistique
continue, on a F(Q1) = 0,25 et
F(Q3) = 0,75 et on calcule les quartiles par interpolation linaire, en raison
de lhypothse dquirpartition. Pour la distribution de lanciennet du chmage des femmes ( cf. figure 1.5) :
21
25 16,8
Q 1 = 1 + 2 ---------------------- 1,9 mois
19
75 68,7
Q 3 = 12 + 12 ---------------------- 16,1 mois
18,5
On peut dfinir partir des quartiles Q1 et Q3 le paramtre de tendance
centrale (Q1 + Q3)/2, gal la mdiane dans le cas dune distribution symtrique, ainsi que lintervalle interquartile [Q1, Q3] qui contient 50 % des observations.
Plus gnralement, deux quantiles dordres complmentaires x et x1-
dfinissent un intervalle dont le milieu peut tre considr comme un paramtre de tendance centrale.
De la mme faon, on dfinit les dciles D1, D2, , D9 qui sont les quantiles xi/10 (i = 1 9), les vingtiles, quantiles xi/20 ( i = 1 19), les centiles, etc.
Les classes dune variable statistique continue sont souvent dfinies
laide des dciles. Dans ce cas, on a 10 classes contenant chacune 10 % de
leffectif total ( cf. tableau 1.5 et figure 1.11).
Tableau 1.5 Distribution des salaires annuels nets de tous prlvements
pour les salaris temps complet du secteur priv et semi-public
Dciles*
(en euros courants)
Ensemble
Hommes
Femmes
2000
2006
2000
2006
2000
2006
Mdiane
D6
D7
D8
D9
10 790
12 220
13 520
14 910
16 500
18 410
20 890
24 780
32 810
12 718
14 219
15 545
16 977
18 631
20 685
23 430
27 826
36 941
11 230
12 760
14 140
15 580
17 270
19 330
22 170
26 660
35 020
13 181
14 776
16 209
17 729
19 466
21 657
24 734
29 787
40 305
10 190
11 420
12 500
13 710
15 130
16 810
18 850
21 620
26 950
12 075
13 431
14 531
15 715
17 141
18 924
21 300
24 590
30 962
D9 /D1
2,9
3,2
3,1
2,6
2,6
Salaire moyen
20 400
23 292
21 890
24 912
17 510
20 232
D1
D2
D3
D4
En 2006, 10 % des salaris temps complet du secteur priv et semi-public gagnent un salaire annuel
net infrieur 12 718 euros, 20 % infrieur 14 219 euros
Source : INSEE.
22
hi =
10
D i Di 1
h2
h1
D1 D2 D3 D4 D5 D6 D7 D8
D9
lin
2) Ltendue interquartile
De par la dfinition des quartiles, lintervalle interquartile [ Q1, Q3] contient
50 % des observations. Sa longueur, note EIQ (tendue InterQuartile), est
un indicateur de dispersion :
EIQ = Q3 Q1
Le calcul de ltendue interquartile a lavantage par rapport celui de
ltendue dcarter les valeurs extrmes, souvent sans signification.
Plus gnralement, les longueurs des fourchettes dfinies par les dciles
extrmes, les centiles extrmes constituent des indicateurs de dispersion
contenant respectivement 80 % et 98 % des observations.
23
1
x i Me
e Me = --ni = 1
ou e Me =
x i Me
i=1
1
x i x ou e x =
e x = --ni = 1
xi x
i=1
4) Lcart-type
Lcart-type sX dune variable statistique X est la mesure de dispersion la plus
couramment utilise.
Algbriquement, il se dfinit comme la racine carre de la variance, et la variance
est la moyenne arithmtique des carrs des carts la moyenne arithmtique :
n
1
var ( X ) = --- ( x i x ) 2 ou var ( X ) =
ni = 1
f ( x x)
i
sX =
var ( X )
i=1
24
1
1
var ( X ) = --- ( x i x ) 2 = --- x i2 ( x ) 2
ni = 1
ni = 1
ou var ( X ) =
f (x
i
i1
x )2=
f x
2
i i
( x )2
i=1
Dans le cas dune variable statistique continue, on ramne la valeur de chaque individu au milieu de sa classe daffectation. L encore, le choix des bornes
des classes extrmes non limites doit tre fait avec prcaution.
Mais, alors que pour le calcul de la moyenne, lerreur lie ce choix tait
faible dans le cas de distributions approximativement symtriques autour de
la moyenne, il nen est pas de mme pour le calcul de la variance o les
erreurs sajoutent et ne peuvent pas se compenser.
Lcart-type est exprim dans la mme unit que les observations, alors
que la variance sexprime dans le carr de cette unit.
On dmontre que lcart-type, donnant plus de poids aux observations
extrmes que lcart absolu moyen la moyenne, lui est toujours suprieur :
sX ex
Proprits
1
var ( X ) --- ( x i C ) 2 pour tout C
ni = 1
Dunod. La photocopie non autorise est un dlit.
3. Lorsque deux variables X et Y sont en correspondance par le changement dorigine x0 et le changement dchelle a, les cart-types se correspondent par le seul changement dchelle a pris en valeur absolue :
Y = aX + x 0 s Y = a s X
4. Soit une population de taille n compose de deux sous-populations
1 de taille n1 et 2 de taille n2. Soit X, une variable statistique observe
sur la population , on peut exprimer sa variance var( X) en fonction de
x , ,x,1 x 2 var(X1) et var( X2) :
2
1
var ( X ) = --- n 1 var ( X 1 ) + n 2 var ( X 2 ) + n 1 ( x 1 x ) 2 + n 2 ( x 2 x )
n
25
Il faut bien remarquer que la variance de X sur est la somme pondre des variances de X sur 1 et 2 augmente de la somme pondre des
carrs des diffrences entre la moyenne de X sur et les moyennes sur
1 et 2. Ce rsultat se gnralise une partition en k sous-populations
(k 2).
5. Les distributions statistiques symtriques telles quenviron :
2/3 de la distribution se situent moins dun cart-type de x ;
95 % de la distribution se situent moins de deux carts-types de x
sont dites normales (chapitre 7, II).
Le triplet ( n, x, s X ) est un rsum exhaustif des distributions de ce type.
Dans de nombreux cas, la normalit tant approximative, ( n, x, s X ) est alors
un rsum (quasi-exhaustif) qui prsente un intrt primordial.
Dautres mesures de la dispersion peuvent tre envisages. On peut calculer un cart mdian, gal la mdiane de la srie des valeurs absolues des
carts une valeur centrale choisie. On peut aussi calculer la
diffrence
moyenne gale la moyenne arithmtique des valeurs absolues des diffrences entre les observations prises deux deux. Cest cet indicateur de dispersion qui est utilis pour le calcul de lindice de concentration de Gini ( III.E)
et qui, ne mesurant pas la dispersion par rapport la moyenne, est adapt aux
distributions non symtriques.
26
1
r = --- ( x 1 x ) r
ni = 1
ou
r =
f ( x x)
i
i=1
Remarque
Le moment centr 1 est nul, et le moment centr 2 nest autre que la
variance et ne peut tre nul, comme tous les moments centrs dordre
pair, que si toutes les observations ont la mme valeur.
2) Lasymtrie
Pour une distribution symtrique, la moyenne arithmtique est gale la
mdiane et ( x + x 1 )/2 pour compris entre 0 et 0,5. Dautre part, les
moments centrs dordre impair sont nuls pour une distribution symtrique,
ngatifs pour une distribution unimodale tale gauche, positifs pour une
distribution unimodale tale droite. Ces proprits sont utilises pour diagnostiquer et mesurer lasymtrie.
27
1 > 0
1 = 0
1 < 0
Les coefficients calculs par les logiciels statistiques sont soit celui de
Fisher, soit des variantes de mme linterprtation. Par exemple, le logiciel
SPSS donne un coefficient dasymtrie lgrement modifi :
n
------------------------------------- 1
(n 1) (n 2)
pour
n3
3) Laplatissement
Les coefficients daplatissement mesurent laplatissement dune distribution
ou limportance des queues dune distribution. Le coefficient daplatissement de Fisher, not 2 , est ainsi dfini :
2 0
pour
2 = -----42 3
2
28
Ce coefficient est nul pour une distribution normale (chapitre 7), positif
ou ngatif selon que la distribution est plus ou moins aplatie que la distribution normale de mme moyenne et de mme cart-type.
Les coefficients calculs par les logiciels sont celui de Fisher ou des
variantes de mme interprtation.
Ces coefficients dasymtrie et daplatissement sont invariants par changement dorigine et dchelle, mais ils sont sensibles aux fluctuations
dchantillonnage puisquils font intervenir des moments dordre lev.
29
30
Moins de 5 ha
MidiPyrnes
PACA
f
Proportion
SAU
PACA
15,5
0,8
44,9
2,6
15,5
0,8
44,9
5 moins de 10 ha
9,0
1,4
12,5
3,1
24,6
2,2
57,4
5,7
10 moins de 20 ha
13,2
4,2
14,8
7,6
37,7
6,4
72,2
13,2
20 moins de 35 ha
15,7
9,2
9,3
8,6
53,4
15,7
81,5
21,9
35 moins de 50 ha
12,2
11,1
5,1
7,4
65,6
26,8
86,6
29,3
50 moins de 100 ha
23,1
35,1
7,2
17,6
88,7
61,9
93,8
46,9
9,6
27,5
3,7
18,1
98,2
89,4
97,5
65,0
99,5
96,0
98,9
76,5
1,3
6,6
1,4
11,5
300 ha ou plus
0,5
4,0
1,1
23,5
100,5
100,5
100,5
100,5
2,6
100
B
80
1I
2 G
Dunod. La photocopie non autorise est un dlit.
60
40
0
20
PACA
Midi-Pyrnes
0
0
20
40
60
80
100
31
100
90
80
70
60
50
40
30
20
10
0
Patrimoine financier
Revenu disponible
10
20
30
40
50
60
70
80
90
100
Lecture : plus la courbe sloigne de la diagonale, plus la distribution de la variable considre est concentre. La moiti des
mnages les moins riches possde 27 % de la masse des revenus disponibles tandis que la moiti des mnages les moins
bien dots possde environ 4 % de la masse totale de patrimoine financier. Les 10 % les mieux dots en patrimoine
financier en possdent environ 63 %.
Champ : mnages dont la personne de rfrence nest pas tudiante et dont le revenu dclar est positif ou nul.
Sources : enqute Revenus fiscaux 2003, Insee-DGI pour le revenu disponible et enqute Patrimoine 2004, Insee, montants
de patrimoine financier recals sur les donnes de la Comptabilit nationale.
xi x j
i = 1j = i+1
I G = -------------------------------------n(n 1) x
les xi (i = 1, , n) dsignant ici les valeurs prises (supposes toutes distinctes)
par la variable sur chacun des n individus de la population tudie.
1. Le statisticien italien Corrado Gini a propos cette mesure de la concentration en 1912 et a
montr deux annes plus tard que son indice tait gal au double de laire comprise entre la
droite dquirpartition et la courbe propose par Max Otto Lorenz en 1905.
32
ltendue interquartile, et sur sa forme par la comparaison des trois indicateurs de tendance centrale.
En analyse exploratoire des donnes, ces cinq valeurs sont prsents avec
leur profondeur dans un tableau. Pour la distribution de la dure hebdomadaire du travail en 2000 ( cf. tableau 1.4) :
n = 15
Dure hebdomadaire
Me = 39,9 h
4,5
1
Q1 = 39,15
min xi = 38,5
1in
Q3 = 40,2
max xi = 43,6
1in
33
n = 15
Dure
hebdomadaire
Dispersion
Position
1
--- ( Q 1 + Q 3 ) = 39,615
2
39,9 h
4,5
39,15
40,2
EIQ = 1,05
38,5
43,6
tendue = 5,1
1
--2
1in
34
38
39
40
41
42
43
tendue
*
Minimum
Q1 1,5 EIQ
xb
Q1
Me Q3
xh
Q3 + 1,5 EIQ
Maximum
Ce type de diagramme permet aussi de comparer facilement plusieurs distributions en terme de mdiane, quartiles et valeurs loignes ou extrmes.
On peut reprsenter en parallle les botes de distribution de la dure hebdomadaire du travail des salaris temps complet de lUnion europenne en
1990,1995 et 2000, et comparer les trois distributions ( cf. figure 1.17).
45
* R-Uni
44
* R-Uni
R-Uni
43
42
41
40
39
38
37
N=
15
1990
15
1995
15
2000
35
40 000
Ensemble
Hommes
Femmes
30 000
20 000
10 000
36
Maximum
Minimum
1.
2.
3.
4.
V. Bilan
Avant toute tude formelle, il est ncessaire de procder une valuation
descriptive des donnes. Cette approche descriptive prsente deux difficults,
lune lie aux calculs, lautre la diversit des indicateurs. Si les calculatrices
de poche ont permis depuis longtemps dj de rendre aiss les calculs de
moyenne et cart-type, il a fallu attendre la gnralisation des moyens de calcul
37
38
5. Une tude des notes obtenues par deux classes dune cole un test commun
a fourni les rsultats suivants :
Classe
Classe 1
Classe 2
Effectif
Moyenne
cart-type
Mdiane
20
12
4
12
30
10
6
12
39
a) ( 0,005 ) 2 ( 0, 02 )
1
b) --- ( 2 0,005 + 0,02 )
3
13
c) ( 1,005 ) 2 1,02
40
1968
12 063
5 302
6 760
2 723
2 052
1 063
481
441
1975
13 176
5 836
7 340
3 110
2 374
1 088
427
342
1982
14 119
6 508
7 610
3 303
2 734
1 081
310
183
1990
15 391
7 900
7 491
3 281
2 756
1 063
259
132
1999
16 097
8 679
7 418
3 317
2 772
1 008
230
91
14 569
14 826
14 294
13 748
13 308
41
Niveau Qualit
1
2
3
4
5
6
7
8
9
10
Total
0
118
1 268
717
260
110
58
26
0
0
Trs bon
Trs bon
Bon
Bon
Moyen
Mdiocre
Mdiocre
Mauvais
Mauvais
Trs mauvais
0
8
206
99
36
13
2
2
0
0
0
15
190
97
33
13
14
3
0
0
0
9
183
111
45
8
7
2
0
0
0
15
138
109
47
30
16
10
0
0
0
23
186
96
39
19
2
1
0
0
0
23
188
99
34
11
6
4
0
0
0
25
177
106
26
16
11
4
0
0
Total
366
365
365
365
366
365
365
2 557
Source : AIRPARIF.
Exercice 1.3
On a relev pendant 50 quinzaines successives les niveaux de ventes, exprims en
milliers dunits de produit, de deux prsentations notes G (Gel) et P (Poudre) dun
mme produit. Les rsultats sont les suivants :
Prsentation G
Prsentation P
Niveau de
vente
<5
[5-10[
[10-12[
[12-20]
Niveau de
vente
< 10
[10-12[
[12-16[
[16-20]
Nombre de
quinzaines
20
15
10
Nombre de
quinzaines
10
25
10
1. Calculez les moyennes, carts-types et mdianes des niveaux de ventes pour chacune des deux prsentations.
Quelle est la condition ncessaire sur la moyenne et la mdiane dune distribution
pour que celle-ci soit symtrique ?
2. Sur lensemble des points de vente pour toute la priode de ltude, on disposait
de 30 % du produit en gel, et de 70 % du produit en poudre.
Quel a t le niveau de ventes moyen pour lensemble des deux prsentations du
produit ?
3. Les niveaux de ventes tant maintenant exprims en centaines dunits de produit,
donnez les nouvelles valeurs des moyennes, carts-types et mdianes calcules
la 1 re question.
42
Exercice 1.4
Afin dtudier les disparits de salaires entre hommes et femmes, une enqute a t
ralise auprs du personnel ouvrier dun secteur industriel. Les rsultats concernant
les salaires annuels nets en euros sont rsums dans les deux tableaux suivants :
Tableau 1. Hommes
Effectif
180
Tableau 2. Femmes
Salaire annuel
(en milliers d)
Nombre douvrires
12 750
[10 ; 12[
[12 ; 14[
[14 ; 16[
[16 ; 20]
82
34
12
n4
Mdiane
14 800
Total
3e quartile
17 660
9e dcile
20 220
Salaire moyen
15 400
cart-type
3 620
1er dcile
10 950
1er quartile
43
CAHT
(millions
d)
Effectif
Socit
CAHT
(millions
d)
Effectif
TotalFinaElf
105 318
122 025
Aventis
22 941
91 729
Carrefour
69 486
382 821
Groupe Casino
(Rallye)
21 984
106 736
Vivendi Universal
57 360
321 000
Bouygues
20 473
126 560
PSA Peugeot
Citron
51 663
192 500
Airbus (EADS)
20 427
2 000
France Telecom
43 026
206 184
SNCF
20 129
220 747
Suez
42 359
188 050
Vonci
17 172
129 499
EDF
40 716
161 738
La poste
17 028
313 854
Les Mousquetaires
37 200
112 000
Publicis Groupe
16 667
20 592
Renault
36 351
140 417
Michelin
15 775
127 467
Saint-Gobain
30 390
173 329
Havas
14 950
20 373
Pinault-PrintempsLa Redoute
27 799
115 935
Usinor (Arcelor)
14 523
59 516
Groupe Auchan
26 200
136 000
Groupe Danone
14 470
100 560
Alcatel Alsthom
25 353
99 314
Gaz de France
14 357
36 451
Galec (Leclerc)
25 000
75 000
LOral (Gespartal)
13 740
49 150
Alstom
23 453
118 995
Lafarge
13 698
82 892
44
4. Quel est lintrt de chacune de ces deux reprsentations graphiques comparativement un histogramme ?
5. Reprendre la question 3 pour ltude de leffectif.
Exercice 1.8
Le tableau suivant donne le revenu annuel moyen des mnages, en euros, pour les
dix intervalles dfinis par les dciles, et la part de chaque intervalle dans le revenu
total.
Valeur des dciles
(euros)
Intervalle
Revenu moyen
dans lintervalle
% de la masse totale
des revenus
dans lintervalle
D1 = 7 304
< D1
13 845
12
D2 = 11 091
[D1 ; D2[
19 318
13
D3 = 14 099
[D2 ; D3[
12 601
15
D4 = 17 219
[D3 ; D4[
15 640
16
D5 = 20 631
[D4 ; D5[
18 863
17
D6 = 24 653
[D5 ; D6[
22 579
19
D7 = 29 361
[D6 ; D7[
26 904
11
D8 = 35 757
[D7 ; D8[
32 324
13
D9 = 46 642
[D8 ; D9[
40 548
16
D9
69 930
28
45
8.1. Tracez la courbe joignant, dans lordre, les points ( Fi , Ri). Comment sappelle
cette courbe ?
8.2. Rappelez linterprtation graphique de lindice de concentration de Gini ?
8.3. Quelles sont les valeurs minimum et maximum de cet indice ?
8.4. quelles situations correspondent-elles ?
Daprs examen de juin 2004, GEA 1re anne Paris-Dauphine.
Exercice 1.9
Le tableau suivant donne le nombre (en milliers) et la superficie agricole utilise
(SAU, en milliers dha) des exploitations agricoles en France mtropolitaine par classes de grandeur pour les annes 1979, 1988, 2000 et 2005.
1979
Moins de 5 ha
5 moins de 20 ha
20 moins de 50 ha
50 moins de 100 ha
100 moins de
200 ha
200 ha ou plus
Ensemble
1988
2000
2005
Nombre
SAU
Nombre
SAU
Nombre
SAU
Nombre
SAU
357
410
347
114
29
6
677
4 778
10 962
7 683
3 798
1 598
278
279
288
128
37
7
519
3 238
9 348
8 709
4 864
1 918
193
132
138
122
64
15
362
1 464
4 666
8 662
8 655
4 047
132
104
109
113
70
17
262
1 163
3 714
8 083
9 486
4 762
1 263
29 496
1 017
28 596
664
27 856
545
27 470
Source : INSEE.
46
2. I ndices statistiques
P
I.
Indices lmentaires
A. Dfinition
On appelle indice lmentaire de la grandeur simple x la date (ou priode)
t, dite date courante , par rapport la date 0, dite
date de rfrence , le
rapport :
x
I t 0 ( x ) = ----t
x0
INDICES STATISTIQUES
47
Exemple
B. Proprits
1) Circularit (ou transitivit ou transfrabilit)
I t 0 ( x ) = I t t ( x ) I t 0 ( x )
Cette formule permet de changer de base en passant de la date de rfrence 0 la date de rfrence t :
I t 0( x)
I t t ( x ) = ---------------I t 0 ( x )
Lutilisateur a en effet souvent besoin de mesurer lvolution dune grandeur entre deux dates diffrentes de la date de rfrence.
De cette proprit, rsulte la proprit denchanement :
I t 0( x) = I t t 1( x) I 1 0( x)
2) Rversibilit
1
I 0 t ( x ) = --------------I t 0( x)
Cette proprit est intressante dans le cas de comparaison gographique,
car le choix du lieu de rfrence est arbitraire.
48
3) Multiplication
Si une grandeur simple z est le produit de deux grandeurs x et y, lindice
lmentaire de la grandeur produit est gal au produit des indices des grandeurs facteurs :
quel que soit t : zt = xt yt It/0(z) = It/0(x) It/0(y)
Cas particulier fondamental :
Valeur = Prix Quantit
ou encore :
INDICES STATISTIQUES
49
Soient deux dates 0 et t, la situation chaque date est caractrise par les quantits
disponibles de n biens physiques htrognes q 0i (i = 1, 2, , n) respectivement
q ti non sommables, le prix de chaque unit tant p 0i respectivement p ti
Seules les valeurs des divers biens sont sommables . On peut dfinir un
indice lmentaire de valeur
qui retrace lvolution de la valeur sous
linfluence simultane des variations de prix et de quantit :
Vt 0
p ti q ti
vt
i
= ---- = -----------------v0
p 0i q 0i
p q
i
0
i
t
i
L t 0 ( q ) = -----------------p 0i q 0i
p q
i i
t t
V t 0 = Lt 0 ( q ) t 0 ( p )
i
t 0 ( p ) = ----------------p 0i q ti
p q p q
i i
t 0
i i
t t
i
i
- ----------------V t 0 = L t 0 ( p ) t 0 ( q ) = -----------------i i
p0 q0
p ti q 0i
50
L(p) et L(q) sont les indices de Laspeyres des prix et des quantits, (p)
et (q) sont les indices de Paasche des prix et des quantits 1.
Essayons dexprimer littrairement la diffrence entre lindice de Laspeyres et lindice de Paasche. Pour un indice des prix par exemple :
indice de Laspeyres : on fige le panier2 dans sa composition de la
priode de base et on compare la valeur quil aurait la priode courante
avec sa valeur relle la priode de base ;
indice de Paasche : on fige le panier dans sa composition de la priode
courante, on calcule rtrospectivement ce quaurait t sa valeur la
priode de base et on la compare avec sa valeur actuelle.
B. Formules dveloppes
1) Indice de Laspeyres
i i
0 pt
i
L t 0 ( p ) = ------------------=
q 0i p 0i
q 0i p 0i . p ti
------------------ -----i
q 0i p 0i p 0
q 0i p 0i
q 0i p 0i
La pondration k 0i = ------------------ = ---------- sinterprte dans un indice des prix
v0
q 0i p 0i
p q
i
0
i
t
I
- =
L t 0 ( q ) = -----------------p 0i q 0i
p 0i q 0i . q ti
------------------ -----i
p 0i q 0i q 0
INDICES STATISTIQUES
51
Ces formules dveloppes apparemment plus compliques que les premires, sont plus pratiques appliquer ; cest sous cette dernire forme que
les instituts de statistique calculent les indices de Laspeyres, les plus frquemment utiliss. Ils dterminent dabord les coefficients de pondration,
structure des valeurs de la priode de base, et les appliquent aux indices
lmentaires de prix ou de quantits relevs mois aprs mois.
2) Indice de Paasche
q p
i
t
i
t
q p
i
t
i
t
i
i
t 0 ( p ) = ----------------- = ---------------------------p 0i
i i
q ti p 0i
q t p t . -----i
pt
i
i
1
------------------- =
t 0 ( p )
q ti p ti p 0i
---------------- -----i
q ti p it p t
q
i
i i
0 pt
(cf. premi-
res formules) est un peu plus fort quil ne devrait ltre, car, conformment
la loi de loffre et de la demande, les consommateurs ont tendance acheter
52
i i
0 pt .
Ainsi, l indice de
Exemple
Janvier 2010
Quantit
Quantit
Journal A
2,5
8 000
6 500
Journal B
4 000
4,5
5 000
Journal C
2 000
1 500
51 000
V 2010 2006 100 = ---------------- 100 110,9
46 000
ii) Cette variation fait intervenir un effet-quantit et un effet-prix quon
peut valuer en calculant les indices des prix et des quantits de
Laspeyres et de Paasche :
L2010/2006(p) = 117,4 2010/2006(p) = 116,6
INDICES STATISTIQUES
53
i
i
2010 p 2006
= 43 750
Effet volume
4,9 %
Effet prix
16,6 %
i
i
q 2006
p 2006
i
i
2010 p 2010
= 51 000
Effet prix
17,4 %
Effet volume
5,5 %
Quantits constantes
i
i
2006 p 2010
= 54 000
D. Indice de Fisher
Cet indice a t construit la suite de la recherche dun indice idal.
Dfinition
Ft 0( p) =
Lt 0 ( p ) t 0 ( p )
54
t 0 L0 t = 1
Laspeyres
Paasche
Fisher
Rversibilit
non
non
oui
1
mais : L 0 t = ----------t 0
1
mais : 0 t = ---------Lt 0
Transitivit
non
non
non
Agrgation
oui
oui
non
Emploi
couramment utilis
peu utilis
quasiment
inusit
1. Le nouvel indice des prix la consommation, anne de base 1998 , Bulletin Mensuel de
la Statistique, n 2-1999, INSEE.
INDICES STATISTIQUES
55
III. Indices-chanes
A. Raccord dindices
Les indices ont une dure de vie limite en raison de lvolution des structures
conomiques. Lorsquon veut dcrire lvolution dune grandeur complexe
1. Dflater : annuler la hausse due leffet de linflation.
La dflation du revenu nominal par lindice des prix la consommation permet de raisonner
en revenus constants en vitant lillusion montaire, et de comparer les niveaux de vie des
priodes diffrentes sans tenir compte dune augmentation du revenu ne compensant que la
hausse des prix.
56
B. Les indices-chanes
Pour valuer lvolution dune grandeur complexe sur une longue priode,
lemploi de la formule de Laspeyres prsente un inconvnient, car la pondration vieillit. Les prfrences des consommateurs comme les procds
auxquels recourent les producteurs se modifient : les articles choisis pour
reprsenter lvolution de certaines catgories de biens cessent dtre bien
adapts cet objectif et les pondrations de la priode de base et de la priode
courante deviennent trop diffrentes pour que la comparaison reste valable.
On a donc propos de calculer des indices dont la base changerait chaque priode.
Mais, comment comparer alors la situation entre deux dates o ont t calculs deux ou plusieurs indices ayant des bases diffrentes ? On adopte une solution
parfaitement empirique : le raccordement entre ces indices intermdiaires.
Les indices-chanes rsultent de la gnralisation de lopration de raccord de deux indices. Ce sont des indices dfinis partir du produit des indices ayant pour base lanne prcdente. Lindice-chane de Laspeyres est un
produit dindices de Laspeyres, mais nest pas un indice de Laspeyres :
t
CL t 0 =
ii1
CL t 0 = L t t 1 CL t 1 0
i=1
alors que :
Lt 0
------------- Lt t 1
Lt 1 0
INDICES STATISTIQUES
57
58
A. chelle logarithmique
Le papier semi-logarithmique comporte un axe des abscisses chelle arithmtique et un axe des ordonnes chelle logarithmique. Sur laxe des abscisses, on peut choisir lorigine et une unit de longueur quelconque. Mais
pour laxe des ordonnes, on utilise une chelle logarithmique ; la place des
nombres est fixe par leur logarithme dcimal (cf. figure 2.2) :
Nombre
10
log
0,301
0,477
0,602
0,699
0,778
0,845
0,903
0,954
chelle
arithmtique
1
chelle
logarithmique
10
9
8
7
x 10
x 100
100
90
80
70
1000
900
800
700
0,8
60
600
0,7
50
500
0,6
40
400
0,5
30
300
20
200
10
100
0,9
0,4
0,3
0,2
0,1
0
Sur une chelle logarithmique, la distance sparant deux multiples successifs de dix est toujours la mme puisque :
log 10 k log 10 k 1 = log 10
INDICES STATISTIQUES
59
log xt
10
8
7
6
5
4
3
2
1
0
1
2
3
4
Ordonne arithmtique
1
2
3
4
Ordonne logarithmique
60
V. Bilan
Un indice nest ni parfait, ni rigoureux, ni parfaitement reprsentatif ; en fait,
il existe autant dindices que le statisticien veut en construire, et chacun a la
signification qui rsulte de son calcul mme. Parmi tous ces indices, lconomiste choisira celui qui lui parat le mieux correspondre lusage quil
veut en faire.
Pour construire un indice synthtique, on est amen faire quatre choix :
deux choix dordre conomique :
choix des grandeurs entrant dans la composition de lindice,
choix de la priode de rfrence ;
INDICES STATISTIQUES
61
3,2
2,9
3,8
2,1
1,2
a) le taux de croissance sur les cinq annes est la somme des cinq taux de croissance
b) le taux annuel moyen de croissance sur la priode 1997 2002 est gal la
moyenne arithmtique des taux annuels moyens de croissance
c) le taux annuel moyen de croissance sur la priode 1997 2002 se calcule laide
dune moyenne gomtrique
d) pour la priode 1999 2001, le taux de croissance du PIB en volume a t de 9 %
62
A
B
C
800
500
600
Quantits achetes
Quantits achetes
Prix par tonne
en tonnes
en tonnes
en euros 2004
en 2000
en 2004
10
4
5
900
700
600
6
4
8
1. Calculez les indices lmentaires rendant compte de lvolution des prix de chacune des matires premires entre 2000 et 2004.
2. Calculez la moyenne arithmtique des indices lmentaires prcdents pondre
par la part des dpenses engages par lentreprise pour chacune de ces matires
premires en 2000. De quel indice sagit-il ?
3. Effectuez le mme calcul pour rendre compte de lvolution des quantits entre
2000 et 2004.
4. Calculez lindice mesurant lvolution globale des dpenses de matires premires
entre 2000 et 2004.
5. Dterminez, en utilisant les rsultats des questions prcdentes, les taux de variation (exprims en pourcentage) des prix, des quantits et de la dpense totale.
Comment sexplique lvolution de la dpense totale ?
Exercice 2.2
Entre 1980 et 2000, les quantits de sel extraites dune mine ont t multiplies par
1,5 entre 1980 et 1985, sont passes de lindice 130 en 1985 lindice 168 en 1992
avant daugmenter de 6 % par an entre 1992 et 2000.
1. Quel est le taux annuel moyen de variation des quantits de sel extraites entre
1980 et 2000 ?
2. Au cours de la mme priode, le taux de variation annuel moyen du prix du sel a
t de 5 %. Quelle est la valeur de lindice du chiffre daffaire en 2000, base
1980 ?
INDICES STATISTIQUES
63
Exercice 2.3
Ce tableau donne les indices trimestriels des salaires horaires de base de lensemble
des ouvriers (secteurs non agricoles), base 100 au 4e trimestre 2008. La srie est rtropole depuis le 4 e trimestre 1998 (Source : INSEE) :
1999
2000
2001
2002
2003
31 mars
72,3
76,1
79,4
82,5
84,8
30 juin
72,8
76,8
80
83
85,3
30 septembre
73,7
77,6
80,8
83,7
86,1
31 dcembre
74,4
78,1
81,3
84,1
86,4
2004
2005
2006
2007
2008
2009
31 mars
87,1
89,7
92,5
95,2
97,9
100,8
30 juin
87,6
90,2
93,1
95,8
99
101,2
30 septembre
88,6
91,4
94
96,6
99,7
101,7
31 dcembre
88,9
91,8
94,3
97
100
Sachant que cet indice vaut 71,9 au 31 dcembre 1998, calculez le taux trimestriel
moyen de croissance entre le 31 dcembre 1998 et le 30 septembre 2009, et le taux
annuel moyen de croissance entre le 31 dcembre 1998 et le 31 dcembre 2008.
Exercice 2.4
Le tableau suivant est un extrait du tableau Production et valeur ajoute de lagriculture :
2008
2008/2007 en %
En Mds
deuros
Volume
Prix
Valeur
38,2
3,6
0,3
Crales
10,7
19,2
21,3
6,2
Olagineux, protagineux
2,4
4,8
3,2
Betteraves industrielles
0,8
7,2
3,4
10,3
0,3
2,9
13,5
10,3
7,4
3,1
6,3
3,0
Vins
9,4
3,7
2,1
7,4
1,2
9,7
8,4
Produits vgtaux
64
Considrons la consommation mdicale totale en France (en milliards deuros courants) de 1970 2000 ( Source : Tableaux de l'conomie franaise , INSEE).
Anne
CM
(milliards
d'euros)
Anne
CM
(milliards
d'euros)
7,516
1981
35,399
1991
87,430
1972
8,568
1982
41,146
1992
93,482
1973
9,833
1983
46,848
1993
98,665
1974
11,586
1984
52,000
1994
101,866
1975
14,452
1985
57,046
1995
106,257
1976
16,815
1986
61,711
1996
109,245
1977
18,812
1987
64,776
1997
111,059
1978
22,547
1988
70,447
1998
112,731
1979
26,084
1989
76,377
1999
117,093
1980
30,215
1990
81,911
2000
123,545
Anne
CM
(milliards
d'euros)
1970
6,494
1971
1970
sachant que lindice des prix I82/70 est gal 318,7, calculez la variation de
lindice en volume entre 1970 et 1982, et en dduire le taux annuel moyen de
variation de cet indice entre 1970 et 1982 ;
INDICES STATISTIQUES
65
1. http://www.insee.fr/fr/indicateur/achatfranc.htm
66
3. Distributions
statistiques
deux caractres
orsque les observations portent simultanment sur deux caractres, et lorsquelles sont trop nombreuses pour quon les cite une
tableau double
une, on les prsente sous la forme dun
entre. On dfinit alors la distribution conjointe, les distributions marginales et les distributions conditionnelles. Ltude de la distribution de
deux variables se pousuit par celle de leur liaison.
Ltude de la liaison entre les variables observes, appele communment ltude des corrlations, dpend de leur nature. On envisagera les
trois cas suivants : deux variables quantitatives, une variable quantitative
. Lorsque le
et une variable qualitative, deux variables qualitatives
domaine de variation dune variable quantitative a t dcoup en classes et que les observations sont prsentes dans un tableau double
entre, alors cette variable peut tre traite comme une variable qualitative et dans ce cas, on a plusieurs mthodes pour ltude de la liaison.
I.
A. Distribution conjointe
Dsignons par X et Y les deux variables qui peuvent tre qualitatives ou quantitatives, et qui peuvent ne pas tre de mme nature. Les
k modalits de X
sont dsignes par x1 , , x i , , x k ; les l modalits de Y sont dsignes par
y1, , y j , , y l . La ie modalit dune variable dsigne le centre de la ie classe
dans le cas dune variable quantitative continue.
67
y1
yj
yl
Total
x1
.
.
.
xi
.
.
.
xk
n 11
.
.
.
n i1
.
.
.
n k1
.
.
.
.
.
.
n1 j
.
.
.
n ij
.
.
.
n kj
.
.
.
.
.
.
n 1l
.
.
.
n il
.
.
.
n kl
n 1
.
.
.
n i
.
.
.
n k
Total
n 1
n j
n l
Modalit de X
Tableau 3.2 Exemple de tableau de contingence : distribution des notes de 100 tudiants
une preuve dun concours selon leur filire dorigine
Classe de notes Y
[0 ; 6[
3
[6 ; 10[
8
[10 ; 14[
12
[14 ; 20]
17
Total
Filire A
Filire B
Filire C
Filire D
26
12
1
10
6
9
4
8
4
3
5
3
1
1
6
1
37
25
16
22
Total
49
27
15
100
Filire dorigine X
ni =
ij
j=1
n j =
ij
i=1
68
On a videmment :
ni =
i=1
= n
j=1
B. Distributions marginales
Les k couples (xi , ni) forment la distribution marginale de la variable X.
Les l couples (yj , n j) forment la distribution marginale de la variable Y.
Les distributions marginales peuvent aussi tre donnes sous forme de frquences :
n j
ni
et
f j = -----fi = ------
n
n
Disposant dune distribution conjointe, on peut dduire les distributions
marginales qui permettent dtudier sparment chaque variable en reprsentant graphiquement sa distribution et sil sagit dune variable quantitative, en
calculant ses caractristiques de tendance centrale, de dispersion, de forme
C. Distributions conditionnelles
y1
yj
yl
Total
Effectif
ni1
nij
nil
ni
avec :
j/i
= 1
j=1
Y/X = xi
y1
yj
yl
Total
Frquence
f1/i
fj/i
fl/i
69
yi =
s i2 =
et
f j/i y j
j=1
j/i
( ( y j yi )
j=1
Les k modalits de X induisant une partition des observations en k sousgroupes, la moyenne y peut sexprimer comme somme pondre des
k
moyennes y i (chapitre 1) :
k
y =
f y
i
i=1
n
fi/j = -----ijn j
avec :
i/j
= 1
i=1
X/Y = yj
x1
xi
xk
Total
Frquence
f1/j
fi/j
fk/j
xj =
fi/j x i
s 2j =
et
i/j
( xi x j )
i=1
i=1
x =
xj
j=1
Lorsquon dispose dobservations portant simultanment sur deux variables, il est frquent de les prsenter dans un tableau donnant lensemble des
distributions conditionnelles de Y, et on a alors un tableau dont toutes les
70
sommes en ligne sont gales 100 % ; ce tableau est appel tableau des profils en ligne (cf. tableau 3.3).
Tableau 3.3 Tableau des profils en ligne correspondant au tableau de contingence 3.2
Classe de notes Y
[0 ; 6[
3
[6 ; 10[
8
[10 ; 14[
12
[14 ; 20]
17
Total
Filire A
Filire B
Filire C
Filire D
70,3
48,0
6,3
45,5
16,2
36,0
25,0
36,4
10,8
12,0
31,2
13,6
2,7
4,0
37,5
4,5
100
100
100
100
Distribution marginale de Y
49,0
27,0
15,0
9,0
100
Filire dorigine X
yj
yl
.
.
.
.
.
.
f1/j
.
.
.
f i/j
.
.
.
f k/j
.
.
.
.
.
.
f1/l
.
.
.
f i/l
.
.
.
f k/l
f1
.
.
.
fi
.
.
.
xk
f1/1
.
.
.
f i/1
.
.
.
f k/1
Total
Modalit de X
x1
.
.
.
xi
Distribution
marginale
de X
y1
.
.
.
fk
71
Mi
yi
xi
72
a, b, c ax + by + c = a x + by + c
( x i x ) ( y i y ) = 1--n
i=1
x y x y
i i
i=1
cov(X,Y) =
ij
( x i x ) ( yj y ) =
ij
xi yi x y
i=1j=1
i=1j=1
Proprits de la covariance
1. cov(X,Y) = cov(Y, X)
2. cov(X, X) = var(X)
3. var(X + Y) = var(X) + var(Y) + 2 cov(X, Y)
4. a, b, c, x 0, y0 : cov(aX + x0, bY + y0) = ab cov(X,Y)
var(aX + bY + c) = a2 var(X) + b2 var(Y) + 2ab cov(X,Y)
5. cov ( X , Y ) var ( X ) var ( Y )
Les proprits 1 et 2 sont videntes. Montrons la proprit 3 dans le cas
de donnes individuelles, la dmonstration pour des donnes groupes dans
un tableau de contingence se faisant de la mme faon en utilisant les formules pondres par les frquences :
n
n
2
2
1
( xi + yi x + y )
( x i + y i x + y ) = 1--var ( X + Y ) = --n i=1
n
i=1
n
n
n
2
2
1
( y i y ) + 2 ( x i x ) ( y i y )
= --- ( x i x ) +
n i = 1
i=1
i=1
73
+ r ( X , Y ) si a et b de mme signe
=
r ( X , Y ) si a et b de signe oppos
""
MH
i
i=1
74
M2
y
Mi
yi
y = ax + b
H1
H2
axi + b
Hi
M1
xi
Les distances sont comptes paralllement lun des axes des coordonnes ; nous avons choisi ici laxe des ordonnes ( cf. figure 3.2).
Il sagit de dterminer la droite dquation { y = ax + b } telle que :
F ( a, b ) =
i=1
y ( ax + b ) 2 soit minimum
i
i
( y ax ) b
i
( y ax )
i=1
( y i ax i ) 2 2b
i=1
i=1
n
( y ax ) + nb
i
2b ( y i ax i ) + b 2
i=1
Quand a est fix, le dernier membre constitue une fonction de b qui atteint
F
son minimum pour b = b tel que ------- ( a, b ) = 0 , soit :
b
n
F
------- ( a, b ) = 2 ( y i ax i ) nb = 0
b
i = 1
1
b = --n
( y ax )
i
= y ax
i=1
75
( y y ) a ( x x )
i
i=1
( y i y ) 2 2a
i=1
( yi y ) ( xi x ) + a2
i=1
(x x )
i
i=1
Ainsi le couple
fonction F
( X, Y )
a = cov
-----------------------var ( X )
( a , b ) avec b = y a x ralise le minimum de la
76
M i H i 2 = F ( a, b ) =
( y y )
i
i=1
i=1
( cov ( X , Y ) )2
( cov ( X , Y ) )2
2
( y i y i ) = n ------------------------------- 2 ------------------------------- + var ( Y )
var ( X )
var ( X )
i=1
n
( cov ( X , Y ) )2
= n var ( Y ) -------------------------------
var ( X )
( cov ( X , Y ) )2
r 2 = -------------------------------------var ( X ) var ( Y )
et comme :
on a :
n
( y i y i ) = n var ( Y ) ( 1 r 2 )
i=1
( y i y i ) =
i=1
( y y ) (1 r )
2
i=1
ce qui implique :
1 r2 0
r +1
La quantit
( y y )
i
et
i=1
La quantit
(y y )
i
tot)
i=1
de Y, il sensuit :
( y y )
i
SC rs
i=1
1 r 2 = ------------------------------ = ----------n
SC tot
2
( yi y )
i=1
la quantit { 1 r 2 } est gale la proportion de variation de Y non explique par la droite des moindres carrs (cf. figures 3.3 et 3.4) .
77
yi
y
xi
Figure 3.3
i=1
( y i y ) = SC tot
yi
yi
xi
Figure 3.4
i=1
2
( y i y i ) = SC rs
est nulle :
( y i a x i b ) = 0
( y y )
i=1
= 0
i=1
ce qui implique aussi que les moyennes des y i et des y i sont gales : y = y
et ceci est d au fait que la droite des moindres carrs passe par le point
moyen ( x , y ) du nuage des n points.
La dcomposition de la variation totale de Y permet une autre interprtation de r2 :
n
( yi y ) =
i=1
i=1
i=1
78
( y y + y y )
( y i y i ) 2 +
( y i y ) + 2
i=1
( y y ) ( y y )
i
i=1
y i y i = y i y ( y i y ) = y i y a ( x i x )
et
( y y ) ( y y )
i
= a
i=1
terme :
y y a ( x x ) ( x x )
i
i=1
n
n
( xi x )2
= a ( y i y ) ( x i x ) a
i = 1
i=1
( y y ) ( y y )
i
i=1
( X , Y -)
a = cov
----------------------var ( X )
puisque
n
La quantit
= n a cov ( X , Y ) a var ( X ) = 0
( y y )
i
i=1
( yi y ) =
i=1
( y i y ) +
( y y )
i
SC tot = SC expl + SC rs
i=1
i=1
( y y )
SC expl
i=1
r 2 = ------------------------------ = -------------n
SC tot
2
( yi y )
Dunod. La photocopie non autorise est un dlit.
i=1
y i = y i = a x i + b
79
n = 5, x = 0, y = 2 et
x y
i i
= 0 r ( X , Y ) = 0 et Y = X 2
i=1
X et Y indpendantes
r(X, Y) = 0
y y = ------------------------ ( x x )
var ( Y )
cov ( X , Y )
Mais, dans certains cas, comme celui o la variable X dsigne le temps,
seule la droite a un sens.
Le coefficient r tant symtrique par rapport X et Y, la Somme des
Carrs Rsiduelle associe la droite est gale :
n
i=1
M i Gi
( x x )
i
= n var ( X ) ( 1 r 2 )
i=1
y
yi
Mi
Gi
xi
xi
80
1 var ( Y )
var ( Y )
------------------------ = --- ---------------r var ( X )
cov ( X , Y )
et
r = 1
y
G
'
G
y
'
y
x
r = -1
y
'
x
0 < r < +1
-1 < r < 0
G
x
r=0
y
y
'
y
y
'
r = +1
Figure 3.6 Positions respectives des droites des moindres carrs selon les valeurs de r
81
II
III
IV
10,0
8,0
13,0
9,0
11,0
14,0
6,0
4,0
12,0
7,0
5,0
8,04
6,95
7,58
8,81
8,33
9,96
7,24
4,26
10,84
4,82
5,68
10,0
8,0
13,0
9,0
11,0
14,0
6,0
4,0
12,0
7,0
5,0
9,14
8,14
8,74
8,77
9,26
8,10
6,13
3,10
9,13
7,26
4,74
10,0
8,0
13,0
9,0
11,0
14,0
6,0
4,0
12,0
7,0
5,0
7,46
6,77
12,74
7,11
7,81
8,84
6,08
5,39
8,15
6,42
5,73
8,0
8,0
8,0
8,0
8,0
8,0
8,0
8,0
19,0
8,0
8,0
6,58
5,76
7,71
8,84
8,47
7,04
5,25
12,50
5,56
7,91
6,89
II
III
IV
10
10
10
10
10
20
10
20
10
20
10
20
82
Tableau 3.5 Donnes extraites du journal Que Choisir ?, n 422 bis, 2005
Eau minrale
Fluorures
Sodium
Arcens
Arvie
Badoit
Beckerich
Chteauneuf
Eau de Perrier
Faustine
La Salvetat
Perrier
Puits St-Georges
Pyrnes
Quzac
San Pellegrino
St-Diry
St-Jean
St-Pierre
St-Yorre
Vernet
Vernire
Vichy-Clestins
Wattwiller
1,3
0,9
1
0,6
3
0,05
2
0,25
0,05
0,5
0,05
2,1
0,6
0,3
1,1
1,7
9
1,3
0,05
5
1,6
439
650
150
34
651
11,5
230
7
11,5
434
31
255
35
385
228
383
1 708
120
154
1 172
3
Moyenne
1,55
338
cart-type
2,03
417
puisque
s
r ----Y- 185
sX
et
y 185x 51
83
Sodium
2 100
1 800
1 500
1 200
900
600
300
0
0
10
Fluorures
Figure 3.8 Nuage des 21 eaux minrales gazeuses et droite des moindres carrs
10
2 000
St-Yorre
St-Yorre
8
1 500
Vichy-Clestins
Vichy-Clestins
1 000
500
2
0
Fluorures
Sodium
84
a = 129
b = 96
et
Le coefficient r est pass de 0,9 0,5, et il faut aussi remarquer que les
coefficients de la droite des moindres carrs sont passs respectivement de
185 129 et de 51 96.87
Quel crdit apporter un ajustement pour lequel deux points ont une telle
influence ? On est donc oblig dabandonner lide dune relation linaire
entre les deux composants minraux.
Cet exemple nous montre que le calcul du coefficient de corrlation
linaire doit toujours tre complt par un examen graphique.
Lanalyse exploratoire des donnes propose dautres mthodes et dautres
coefficients pour lajustement linaire. Voici un exemple de coefficient propos pour la mesure de la qualit de lajustement et pouvant tre considr
comme un quivalent du carr du coefficient de corrlation linaire qui,
rappelons-le, peut tre ainsi dfini :
n
( y y )
i
i=1
r 2 = 1 -----------------------------n
(y y )
i=1
85
86
Modalit de X
ni
yi
Filire A
Filire B
Filire C
Filire D
37
25
16
22
5,16
6,44
12,31
6,68
j=1
n ij ( y ij yi )
496,91
368,25
293,44
340,78
k
fi yi
La moyenne y i tant la moyenne de Y pour X = xi , on a y =
(I.C), et pour notre exemple, y = 6,96
i=1
On dfinit la Somme des Carrs Intraclasse , la Somme des Carrs Interclasse et la Somme des Carrs Totale :
SC intra =
ij ( x ij
yi ) 2
SC inter =
i=1j=1
n (y y )
i
i=1
SC tot =
ij ( y ij
y )2
i=1j=1
87
= 0
Y /X
X et Y indpendantes
Y2 / X = 0,28
y1
y2
yi
n11
0
n31
0
n22
0
y1
y2
y1
Y = yi
pour i = 1, 2, 3 }
Y2 / X = 1
et ce rsultat ne dpend pas des valeurs de y1, y2, n11, n22 et n31. Quelles que
soient ces valeurs, la variable Y est lie fonctionnellement la variable X.
Supposons maintenant que X soit une variable quantitative rapporte
3 valeurs ainsi dfinies :
x1 = 1 x2 = 4 x3 = 6
et que les effectifs soient les suivants ( cf. tableau 3.8) :
n11 = 20 n22 = 50 n31 = 30
88
y1
y2
yi
1
4
6
20
0
30
0
50
0
y1
y2
y1
xj
La variable X tant quantitative, on peut aussi calculer le rapport de corrlation de X en y. Les moyennes conditionnelles de X tant gales, la somme
des carrs interclasse est nulle et le rapport de corrlation Y2 / X est nul.
Il y a donc absence de corrlation entre la variable X et toute fonction de
Y. Cet exemple montre quon peut avoir la fois Y li fonctionnellement X
et absence de corrlation entre X et toute fonction de Y.
On remarquera que le rapport de corrlation Y2 / X de cet exemple est nul
quelles que soient les valeurs n11, n22, n31 et x1, x2, x3 telles que les moyennes
x 1 et x 2 soient gales, cest--dire si :
n 11 x 1 + n 31 x 3
------------------------------ = x2
n 11 + n 31
Si la variable X est une variable quantitative k modalits, on peut reprsenter graphiquement les moyennes conditionnelles y i en fonction des modalits de la variable X. On obtient k points quon peut joindre, dans lordre,
par des segments de droite. On appelle la ligne brise obtenue courbe de
rgression de Y en x (cf. figure 3.10).
yk
yi
y1
x1
xi
xk
89
90
i, j
( n ij n ij* ) 2
( fij fij* ) 2
----------------------=
n
-----------------------n ij*
fij*
i, j
avec :
n*
fij = fi f j = -----ij
n
concident, et
Le 2 est nul lorsque les effectifs thoriques et observs
plus les effectifs thoriques et observs diffrent, plus sa valeur est leve.
Une autre mesure de la dpendance est le
coefficient dassociation 2
2
i, j
( fij fij* ) 2
-----------------------fij*
91
y1
y2
ni
x1
20
(10)
0
(10)
20
x2
0
(25)
50
(25)
50
x3
30
(15)
0
(15)
30
nj
50
50
100
n ij n ij*
)
(----------------------n
i, j
*
ij
= 100
et
2
2 = ----- =
n
fij fij*
(
)
-----------------------f
i, j
*
ij
= 1
V. Bilan
La mesure de lassociation de deux variables dpend de leur nature. Lorsque
les observations de deux variables quantitatives sont suffisamment nombreuses pour tre prsentes dans un tableau de contingence, on peut traiter lune
delles comme une variable qualitative ou mme les deux variables comme
des variables qualitatives. Leur association peut se mesurer par le coefficient
de corrlation linaire , les rapports de corrlation et le khi-deux.
Pour les donnes du tableau 3.8, les deux variables X et Y ne sont pas
indpendantes, mais :
elles sont linairement indpendantes puisque r = 0
il y a absence de corrlation entre X et toute fonction de Y puisque
X2 /Y = 0
la variable Y est lie fonctionnellement la variable X puisque Y2 / X = 1
Lanalyse conjointe de deux variables est un problme trs dlicat ; il faut
bien examiner les donnes avant de conclure lindpendance, et en cas de
liaison, il convient de ne pas conclure htivement une relation de cause
effet sans stre pench sur sa signification concrte.
92
X qualitative, Y qualitative :
tableau de contingence
X et Y quantitatives classes :
tableau de contingence
X et Y quantitatives :
n couples (xi , yi), ou tableau de contingence
ni ( yi y ) 2
Calcul du khi-deux : 2 =
i, j
n ij
*
( n n )2
ij
ij
------------------------*
( fij fij ) 2
= n -------------------------fij*
i, j
i=1
SC inter
Calcul du rapport de corrlation de Y en x : Y2 / X = ------------------------------------- = --------------SC tot
SC tot
On noubliera pas les diffrents modes dtudes de la liaison de deux variables selon leur nature
93
X, Y) de
94
y1
y2
y3
75
40
100
50
25
60
50
100
100
100
100
20
20
10
40
10
10
10
95
9. Parmi un groupe de 100 malades qui se plaignent de ne pas bien dormir, certains ont pris un somnifre sous forme de cachet, dautres ont pris un cachet
de sucre ; tous pensaient prendre un somnifre. Aprs la nuit, on leur a
demand si le cachet avait t efficace. Le tableau suivant donne la rpartition des rponses (on suppose que tous les malades ont dit la vrit) :
Ont bien dormi
Somnifre
26
Sucre
48
20
Femmes
Non-salaris
13,4
7,3
Salaris
86,6
92,7
2,8
1,7
6,0
76,1
1,4
0,9
10,8
79,6
100,0
100,0
13 670
12 243
Intrimaires
Apprentis
Contrats dure dtermine
Contrats dure indtermine
96
< 10
[10 ; 20[
4,4
7,2
2,4
1,6
8,2
7,2
[20 ; 30[
[30 ; 40[
40
4,0
13,6
2,4
2,6
14,4
11,6
4,4
4,4
6,0
5,6
Exercice 3.2
Dans une entreprise, on tudie la rpartition de 100 salaries femmes ( cf. tableau 1)
et 140 salaris hommes ( cf. tableau 2) selon le salaire mensuel brut X exprim en
euros et lanciennet Y exprime en annes.
Tableau 1 Salaries femmes
Y
[0 ; 4[
[4 ; 8[
[8 ; 12[
[12 ; 20[
[1 200 ; 1 800[
12
10
10
[1 800 ; 2 200[
14
[2 200 ; 3 000[
[3 000 ; 4 200]
[20 ; 28]
97
[0 ; 4[
[4 ; 8[
[1 200 ; 1 800[
10
[1 800 ; 2 200[
[2 200 ; 3 000[
[3 000 ; 4 200]
[8 ; 12[
[12 ; 20[
[20 ; 28]
18
16
12
12
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
PIB
2,6
1,0
1,4
0,9
2,2
2,1
1,1
2,2
3,5
3,3
Consommation
2,5
0,6
1,0
0,4
1,4
1,7
1,6
0,4
3,9
3,5
Anne
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
PIB
3,9
1,9
1,0
1,1
2,5
1,9
2,2
2,3
0,4
2,2
Consommation
3,6
2,6
2,4
2,0
2,5
2,6
2,4
2,5
1,0
0,8
1. Calculez les sries des indices, base 1989, du PIB et de la Consommation prive.
98
2. Peut-on considrer qu'il y a approximativement une liaison linaire entre les indices de volume du PIB et de la Consommation prive ? Calculez lquation de la
droite des moindres carrs expliquant lindice de la Consommation prive en fonction de lindice du PIB.
Reprsentez le nuage des 21 points avec la droite des moindres carrs.
Quelle est la part de variation de l'indice de la consommation prive explique par la
relation linaire ?
3. Calculez le coefficient de corrlation linaire entre les variations du PIB et de la
Consommation prive. Calculez lquation de la droite des moindres carrs expliquant la variation de la Consommation prive en fonction de la variation du PIB.
Reprsentez le nuage des 20 points avec la droite des moindres carrs.
4. Vous semble-t-il plus intressant d'analyser la liaison entre les variations du PIB
et celles de la Consommation prive qu'entre les indices du PIB et de la Consommation prive ? Si oui, pourquoi ?
Exercice 3.4
Une entreprise a effectu un sondage auprs de sa clientle pour connatre son apprciation sur le service livraison. Les rsultats ont t les suivants :
Pas du
tout
satisfait
Plutt
pas
satisfait
Plutt
satisfait
Trs
satisfait
10
50
245
195
40
90
205
165
Exercice 3.5
Lobservation des quantits offertes sur un march de raisin de table et des prix de
vente a donn les rsultats suivants :
Quantit X la vente (tonnes)
100
120
84
78
87
80
110
95
1,60
1,40
1,95
2,10
1,75
2,25
1,50
1,80
99
Infrieur
au 1er dcile
< 3 700
Type socio-conomique
Communes agricoles
22
Du 1er dcile
au 3e quartile
[3 700 ; 9 933[
Du 3e quartile au
9e dcile
[9 933 ; 13 900[
Au moins gal
au 9e dcile
13 900
13
18
Communes et quartiers ouvriers
41
70
41
11
Communes et quartiers
des classes moyennes tertiaires
28
Communes et quartiers
techniques trs qualifis
Quartiers hupps
31
71
34
8
65
100
100
19
100
9
30
100
15
100
7
28
20
65
100
34
13
25
44
37
32
12
100
17
51
100
10
22
11
12
4
12
39
6
Ensemble
Ensemble
100
100
10
100
uc : unit de consommation.
Lecture : 30 % des habitants des quartiers hupps appartiennent au 10e dcile de niveau de vie (cest--dire parmi les
10 % des mnages les plus aiss). Et 28 % des mnages du 10e dcile habitent dans des quartiers hupps.
Champ : mnages hors tudiants.
Source : Enqute Logement 1996, INSEE.
100
[5 , 7[
[7 , 9[
[9 , 11[
[5 , 7[
[7 , 9[
12
12
[9 , 11[
10
18
15
21
10
[13 , 15[
11
12
13
[15 , 17[
10
[11 , 13[
[17 , 19]
Reprenons les donnes relatives aux 21 eaux minrales gazeuses (cf. tableau 3.5). On
recode la variable X (fluorures) en trois classes et la variable Y (sodium) en quatre
classes, de la faon suivante :
C1X
[0 ; 1[
C1Y
[0 ; 100[
C2X
[1 ; 2[
C2Y
[100 ; 300[
C3X
[2 ; 9]
C3Y
[300 ; 500[
C4Y
[500 ; 2 000]
1. crire un tableau qui a pour premire colonne les eaux minrales, pour deuxime
colonne la variable XC (variable X recode) gale au numro de classe dans le
recodage de X, et pour troisime colonne la variable YC (variable Y recode) gale
au numro de classe dans le recodage de Y.
101
1
2
3
4
5
6
7
8
9
10
11
12
117
178
149
189
145
173
170
223
223
281
285
339
400
Nombre de contrats
350
300
250
200
150
100
50
0
10 11 12 t
Reprsentation graphique
Tous les rsultats de cet exercice seront donns avec une prcision de deux dcimales.
1. Calculez le taux trimestriel moyen de croissance du nombre de contrats souscrits.
2. On ajuste cette srie par le modle linaire : Y = a t + b.
2.1. Calculez les coefficients de ce modle par la mthode des moindres carrs.
2.2. Quelle est la part de variation de Y non explique par le modle ?
3. On ajuste maintenant cette srie par le modle quadratique : Y = at2 + b.
3.1. Calculez les coefficients de ce modle par la mthode des moindres carrs.
3.2. Quelle est la part de variation de Y non explique par ce nouveau modle ?
4. Quel modle choisissez-vous ? (justifiez votre rponse)
Daprs examen de juin 2006, DUGEAD 1re anne Paris-Dauphine.
102
4. Sries chronologiques
et prvision
103
B. Le mouvement saisonnier
Le facteur saisonnier, not st , se rpte intervalles de temps gaux avec une
forme peu prs constante. Il peut tre d au rythme des saisons ou des
facteurs humains. Sa priode est de 12 pour des sries mensuelles, de 4 pour
des sries trimestrielles
Si p dsigne la priode du mouvement saisonnier : st = st + p = st + 2p =
Le facteur saisonnier est donc totalement dtermin par
p coefficients
saisonniers :
s1 , , sj , , sp
C. Les irrgularits
Cette composante, appele aussi mouvement rsiduel et note et , re groupe
tout ce qui na pas t pris en compte par la tendance et le f acteur saisonnier.
Elle est la rsultante de uctuations irrgulires et imprvisibles dues des
facteurs perturbateurs non permanents ; ces uctuations sont supposes de
faible amplitude et de moyenne nulle sur un petit nombre dobserv ations
conscutives.
D. Les perturbations
Les perturbations sont des uctuations ponctuelles de forte amplitude. Elles
sont dues, par e xemple, une grv e, des conditions mtorologiques
exceptionnelles pour lagriculture, un krach nancier Il con vient de les
liminer avant tout traitement de la srie . Les mthodes pour le f aire sont
simples ; pour faire comme si ces vnements na vaient pas eu lieu, les
instruments pri vilgis sont linterpolation et la rgle de tr
ois. La
reprsentation de la srie chronologique des Voyageurs RATP de 1995
2002 ( cf. gure 4.1) montre une baisse importante du nombre de v oyageurs
en dcembre 1995 due une longue grv e. Avant destimer les composantes
de cette chronique, il est ncessaire de corriger la v
aleur 0,19 milliard de
voyageurs-km de ce mois de dcembre en la remplaant, par e xemple par la
104
moyenne des mois de dcembre 1994 et 1996 (resp. 1,06 et 0,95 milliards de
voyageurs-km), soit 1 milliard de voyageurs-km.
On traite gnralement des sries deux composantes : tendance et mouvement rsiduel, ou trois composantes : tendance, mouvement saisonnier
et mouvement rsiduel. Les observations dune chronique possdant une
composante saisonnire peuvent tre disposes dans un tableau selon les
deux dimensions du temps, annuelle et mensuelle (ou trimestrielle), comme
pour les tableaux 4.1, 4.2 et 4.4. Cette prsentation, introduite par C. BuysBallot en 1847, est appele table de Buys-Ballot .
puisque log ( 1 + e t ) e t
Nous nenvisagerons de mthodes de dcomposition que pour les modles
additif et multiplicatif.
Pour le mouvement saisonnier de priode p, on fait lhypothse dune
compensation exacte sur une priode entre les variations saisonnires positives et les variations saisonnires ngatives, sinon, le partage entre le facteur
saisonnier et la tendance serait indtermin :
p
= 0
j=1
105
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
Moyenne
mensuelle
Janvier
Fvrier
Mars
Avril
Mai
Juin
Juillet
Aot
Septembre
Octobre
Novembre
Dcembre
1,04
0,93
1,06
0,89
0,98
1,01
0,79
0,65
0,87
0,98
0,83
0,19
0,91
0,95
0,94
0,93
0,92
0,94
0,85
0,62
0,92
1,07
0,96
0,95
0,98
0,89
1,02
0,96
0,94
0,97
0,86
0,65
0,93
1,08
0,99
1,00
1,01
0,91
1,07
0,98
0,94
1,01
0,88
0,67
1,00
1,10
1,04
1,08
1,05
0,98
1,13
1,01
0,99
0,99
0,90
0,71
1,02
1,14
1,05
1,07
1,09
0,99
1,17
1,00
1,12
1,03
0,99
0,76
1,04
1,20
1,14
1,14
1,14
1,00
1,19
1,02
1,10
1,12
0,99
0,79
1,05
1,21
1,14
1,09
1,18
1,09
1,23
1,11
1,12
1,16
1,08
0,80
1,12
1,28
1,16
1,18
1,22
1,06
1,24
1,08
1,01
1,04
1,01
0,76
1,14
1,27
1,16
1,23
1,21
1,12
1,31
1,15
1,18
1,26
1,07
0,84
1,2
1,31
1,24
1,28
1,08
0,99
1,14
1,01
1,03
1,05
0,94
0,73
1,03
1,16
1,07
1,02
Moyenne
annuelle
0,85
0,91
0,94
0,97
1,00
1,06
1,07
1,13
1,10
1,18
1,02
Mois
Source : www.insee.fr
1999
2000
2001
2002
2003
2004
Moyenne
mensuelle
68,4
67,2
77,9
83,3
85,0
85,8
90,4
81,1
86,5
92,9
90,9
98,5
75,9
79,1
99,7
88,5
103,8
98,6
95,0
108,1
113,9
105,3
119,7
112,6
87,0
82,5
98,7
89,6
100,7
102,6
101,4
107,7
105,9
111,0
122,8
107,8
87,8
89,1
99,9
103,0
100,0
103,6
110,8
107,6
112,4
119,8
126,9
122,5
90,3
90,1
102,7
108,9
103,1
116,4
125,2
117,6
121,7
125,8
127,8
134,8
96,0
93,9
117,5
118,2
108,1
133,6
130,9
125,0
130,3
118,4
141,5
142,3
79,2
79,3
94,8
93,4
95,3
101,0
104,1
101,4
107,1
106,0
114,3
112,8
84,0
88,2
99,0
1995
1996
Janvier
Fvrier
Mars
Avril
Mai
Juin
Juillet
Aot
Septembre
Octobre
Novembre
Dcembre
62,2
64,7
81,3
72,4
85,3
84,5
89,0
82,5
89,1
85,1
91,9
88,5
Moyenne
annuelle
81,4
Mois
1997
1998
94,7
98,8
Source : www.insee.fr
106
Pour choisir le modle de composition , on peut relier par une courbe (ou
plutt par une ligne brise) les maxima distants dune priode p et faire de
mme avec les minima.
Si ces deux courbes sont peu prs parallles, alors le facteur saisonnier
a des amplitudes peu prs constantes, cest--dire quil affecte la tendance indpendamment de son niveau, et le schma additif est adapt.
107
108
faisant par la mthode des moindres carrs (mthode qui minimise les carts
quadratiques entre modle et observ ations). Citons quelques-uns de ces
modles :
modle linaire : y(t) = a + b t
modle quadratique : y(t) = a + b t + c t 2
modle exponentiel : y(t) = exp (a + b t), ce type de modle convient
des quantits voluant taux constant puisque y(t + 1) = exp(b) y(t)
( y (t + 1) = c y(t) o c est constant)
modle logarithmique : y(t) = a + b ln (t)
modle S (courbe sigmode ) : y(t) = exp(a + b/t), ce type dajustement convient la description du cycle de vie de certains produits.
Ces mthodes analytiques sont simples, mais reposent sur lhypothse
dune tendance voluant selon une fonction analytique dtermine, hypothse
quon ne peut pas frquemment faire, mme la suite dune transformation
de variable.
En labsence de rfrence un modle prcis pour la tendance, on prfrera utiliser une mthode non-paramtrique qui filtre la tendance en liminant
le facteur saisonnier tout en rduisant les irrgularits. Dans la suite, nous
appellerons filtre une sorte de bote noire rgularisant une chronique X en
la transformant en une chronique Y qui est une approximation de la composante tendancielle de la chronique X :
filtre
Nous tudierons deux des principaux filtres linaires qui sont la moyenne
mobile et le lissage exponentiel simple. Un filtre linaire est une application
linaire de lensemble des chroniques dans lui-mme transformant la chronique X en une nouvelle chronique Y de la faon suivante :
yt =
k t+k
avec
K
et
kK
= 1
kK
Le choix du filtre linaire appropri certains objectifs se fait par lintermdiaire du choix de ses coefficients k
109
1
Premier cas, p impair, p = 2m + l : M p ( t ) = --x t+k
p k = m
+m
Pondrations
tm
1
-----2p
xt m + 1
xt
xt + m 1
xt + m
1
--p
1
--p
1
--p
1
-----2p
+m
1
1 x t + p + k = ------------xt + k = yt
y t + p = -------------2m+1 k = m
2 m +1 k = m
110
X est gale la longueur de la moyenne mobile ( p' = p), les moyennes mobiles forment alors une suite de termes constants gaux la moyenne des termes de la srie X sur une priode.
La moyenne mobile centre de longueur
p rend constantes les sries
priodiques de priode p.
Deux chroniques ont la mme suite de moyennes mobiles centres de
longueur p si leur diffrence est une srie priodique de priode p dont la
somme des termes sur une priode est nulle.
Exemple
111
Figure 4.4 Reprsentation dune chronique et de ses moyennes mobiles centres de longueur 4
112
A. Modle additif
Le modle est le suivant : xt = ft + st + et
On approxime la tendance ft par la moyenne mobile centre yt .
Soient n le nombre dannes et p la priode du facteur saisonnier :
T = np observations
np p = p (n 1) moyennes mobiles si
p est pair ( cf. tableau 4.5).
Les coefficients saisonniers tant priodiques de priode p, on dispose
pour chacun des p coefficients saisonniers de ( n 1) valeurs qui sont ( n 1)
diffrences {xt yt}. On rsume ces ( n 1) valeurs par leur moyenne arithmtique, ou leur mdiane, ou leur moyenne arithmtique aprs limination
de la valeur la plus faible et de la valeur la plus leve (le logiciel SPSS
utilise ce dernier rsum).
Si la somme des coefficients saisonniers nest pas nulle sur une priode,
on corrige les coefficients saisonniers obtenus de faon avoir une somme
nulle :
st
s t* = s t s
1
avec s = --p
t=1
113
B. Modle multiplicatif
Le modle est le suivant : xt = ft (l + st) (l + et)
Comme prcdemment, on approxime la tendance
ft par la moyenne
mobile centre yt .
Les coefficients saisonniers tant priodiques de priode p, on dispose
pour chacun des p coefficients saisonniers de (n 1) valeurs qui sont ( n 1)
quotients {xt / yt}. On rsume ces ( n 1) valeurs par leur moyenne arithmtique, ou leur mdiane, ou leur moyenne arithmtique aprs limination de la
valeur la plus faible et de la valeur la plus leve (le logiciel SPSS utilise ce
dernier rsum).
Si la somme des (1 + st) nest pas gale p sur une priode, on fait une
correction proportionnelle :
1 + st
1+s
1 + s t* = -------------t
1+s
avec
1
s = --- s t
pt = 1
114
C. Autres approches
On peut chercher amliorer lv aluation de la tendance en repassant un
ltre mo yenne mobile sur la srie
CVS. On choisit gnralement une
longueur assez faible pour cette nouvelle suite de moyennes mobiles : 5 ou 7
dans le cas dune srie de priode 12, et 3 dans le cas dune srie de priode
4. Avec cette nouv elle valuation de la tendance, on dtermine de nouv eaux
coefcients saisonniers et une nouv elle srie CVS. Cette mthode itrati ve
pourrait videmment tre poursuivie, mais le g ain devient peu prs nul audel de deux tapes.
On peut aussi remplacer la moyenne mobile centre par la mdiane mobile
centre qui est un filtre non linaire : au lieu de synthtiser une suite de valeurs
de la srie par une moyenne pondre, on les rsume par leur mdiane (particulirement aise dterminer la main avec p = 3). Les mdianes mobiles,
dveloppes par Tukey, sont robustes puisqutant fondes sur lutilisation
de statistiques dordre, elles liminent les valeurs singulires (chapitre 1,
III.B.4). Elles constituent des lisseurs aux proprits complmentaires des
moyennes mobiles. Certaines mthodes de dsaisonnalisation reposent sur
une association de ces deux types de lisseurs.
Disposant des coefficients saisonniers, on peut ajuster la srie CVS par
une fonction, faire une prvision pour la tendance en extrapolant cette fonction dajustement ou en utilisant une mthode de lissage exponentiel sur la
srie CVS ( VI). Mais, il ne faut pas oublier que ce mode de prvision ne
peut tre envisag que sur du court terme puisquil suppose une volution
future non perturbe par des changements sur lenvironnement.
115
1er trimestre
2e trimestre
3e trimestre
4e trimestre
Moyenne
annuelle
2005
2006
2007
2008
3,6
3,6
3,7
3,6
7,0
6,7
6,4
5,7
7,6
7,4
7,1
7,1
3,7
3,9
4,1
3,7
5,5
5,4
5,3
5
Moyenne
trimestrielle
3,7
6,5
7,6
3,9
5,3
Figure 4.5 Chronique du tableau 4.4 et suite des moyennes mobiles de longueur 4
Une saisonnalit de priode 4 (nombre de trimestres dans lanne) apparat sur la reprsentation graphique ( cf. figure 4.5), ce qui explique que la
suite des moyennes mobiles de longueur 4 filtre la tendance.
Pour une dcomposition de cette chronique, nous allons envisager successivement le modle additif et le modle multiplicatif.
A. Schma additif
Pour obtenir la srie CVS et la srie des rsidus, les calculs ont t raliss
laide du tableur Excel selon les tapes indiques (cf. tableau 4.5). Dans cet
exemple, la synthse des coef cients saisonniers a t ralise par la
moyenne.
116
117
B. Schma multiplicatif
Comme pour le modle additif, les calculs ont t raliss laide du tableur
Excel (cf. tableau 4.6). La synthse des coef cients saisonniers a aussi t
ralise par la mo yenne. Les diffrences entre certains rsultats donns dans
le tableau 4.6 avec ceux obtenus par calcul direct, sont e xpliquer par le fait
que Excel utilise pour les calculs un grand nombre de dcimales.
Tableau 4.6 Dcomposition de la chronique du tableau 4.4
selon le schma multiplicatif
118
119
Modle multiplicatif
Modle additif
t =1, , T
120
que le recours la moyenne arithmtique des observations conduirait sousvaluer les valeurs futures. Il convient de donner aux observations les plus
rcentes un poids prpondrant.
La prvision x T ( h ) faite par la mthode de lissage exponentiel simple la
date T pour lhorizon h, cest--dire pour la date T + h, est la suivante :
x T ( h ) =
T 1
(1 ) x
i
T i
avec
0<<1
i=0
T 1
1 ( 1 )T
( 1 ) i = ----------------------------- = 1 ( 1 ) T 1
i=0
121
(1 ) ( x
i
T 1
a )2
(3)
i=0
est la suivante :
T 1
(1 ) x
i
T i
i=0
- x T
a = ----------------------------------------1 ( 1 )T
La prvision sinterprte alors comme la constante qui sajuste le mieux
la srie au voisinage de T, lexpression au voisinage traduisant le
fait que dans la minimisation, linfluence des observations dcrot lorsquon
sloigne de la date T.
Cette dernire interprtation montre clairement que le lissage exponentiel
simple ne sapplique que si la chronique peut tre approche par une droite horizontale au voisinage de T, ce qui implique une tendance localement constante.
122
1
( x t + 1 x t ) 2
EQM = -----------T 1t = 1
1
EAM = -----------x t + 1 x t
T 1t = 1
1
EM = -----------( x t + 1 x t )
T 1t = 1
La minimisation de ces critres peut tre faite sur toute la srie des
erreurs de prvision ou sur un pourcentage donn de ses derniers termes
(dans ce cas, on prend souvent le dernier tiers de la srie, tableau 4.7). Certains logiciels proposent actuellement les mthodes de lissage avec une
constante dtermine par la minimisation dun critre. Le logiciel SPSS
calcule la constante optimale en minimisant lErreur Quadratique Moyenne
de prvision.
Figure 4.8 Chronique du tableau 4.6 et srie obtenue par LES avec = 0,4
123
Tableau 4.7 Prsentation des calculs du LES avec les critres calculs
sur le dernier tiers de la srie
= 0,5
= 0,4
t
xt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
130
121
120
127
122
129
124
120
139
136
135
134
136
133
138
133
LES
et
ABS (et)
(et)2
LES
et
ABS (et)
(et)2
130,00
126,40
123,84
125,10
123,86
125,92
125,15
123,09
129,45
132,07
133,24
133,55
134,53
133,92
135,55
134,53
9,00
6,40
3,16
3,10
5,14
1,92
5,15
15,91
6,55
2,93
0,76
2,45
1,53
4,08
2,55
9,00
6,40
3,16
3,10
5,14
1,92
5,15
15,91
6,55
2,93
0,76
2,45
1,53
4,08
2,55
81,00
40,96
9,99
9,63
26,39
3,68
26,53
253,12
42,85
8,57
0,57
6,02
2,33
16,67
6,50
130,00
125,50
122,75
124,88
123,44
126,22
125,11
122,55
130,78
133,39
134,19
134,10
135,05
134,02
136,01
134,51
9,00
5,50
4,25
2,88
5,56
2,22
5,11
16,45
5,22
1,61
0,19
1,90
2,05
3,98
3,01
9,00
5,50
4,25
2,88
5,56
2,22
5,11
16,45
5,22
1,61
0,19
1,90
2,05
3,98
3,01
81,00
30,25
18,06
8,27
30,94
4,92
26,11
270,45
27,28
2,60
0,04
3,62
4,20
15,81
9,07
EM =
0,64
EAM =
2,27
EQM =
6,42
EM =
0,12
EAM =
2,23
EQM =
6,55
124
EM
4,548
2,931
1,545
0,643
0,125
0,148
0,280
0,339
0,369
EQM
EAM
25,311
14,068
8,151
6,421
6,547
7,361
8,436
9,670
11,095
4,548
3,101
2,495
2,274
2,227
2,449
2,648
2,833
3,012
i
( 1 ) x T i a 1 ( T ) + a 2 ( T ) ( i )
i=0
T 1
( 1 )i xT i
a 1 ( T ) = 2S 1 ( T ) S 2 ( T )
S1 ( T ) =
i=0
avec
T 1
a 2 ( T ) = ----------
- S 1 ( T ) S 2 ( T )
( 1 )i S1( T i )
S2( T ) =
1
i=0
S2( 2 ) = S1( 2 )
125
a 1 ( T ) = a 1 ( T 1 ) + a 2 ( T 1 ) + ( 1 ( 1 ) 2 ) x T x T 1 ( 1 )
= x T ( 1 ) 2 x T x T 1 ( 1 )
a 2 ( T ) = a 2 ( T 1 ) + 2 x T x T 1 ( 1 )
a 1 ( 2 ) = x 2
Linitialisation de ces formules peut tre :
a 2 ( 2 ) = x 2 x 1
126
127
14
57
8 10
Janvier
Fvrier
Mars
Avril
Mai
Juin
Juillet
Aot
Septembre
Octobre
Novembre
Dcembre
164
136
151
152
132
115
123
93
155
155
172
177
22
29
35
28
54
65
59
83
25
31
8
9
0
4
0
0
0
0
4
10
0
0
0
0
186
169
186
180
186
180
186
186
180
186
180
186
1725
448
18
2191
xt
3
1
51
10
11
12
15
15
128
Exercice 4.3
Le tableau suivant donne la srie chronologique bimestrielle du transport des voyageurs sur le rseau Air France International (en milliards de passagers-km) de 2002
2005.
Janv.-Fv
Mars-Avril
Mai-Juin
Juil.-Aot
Sept.-Oct.
Nov.-Dc.
13,3
13,8
14,4
15,4
15,1
14,2
16,0
16, 8
14,8
14,1
16,2
17,4
16,3
17,0
18,5
19,9
14,8
15,2
16,2
17,9
14,2
14,8
15,3
17,4
2002
2003
2004
2005
Source : www.insee.fr
Exercice 4.4
1. Voici pour ses trois premiers mois douverture, le nombre de places xt vendues
par semaine par le cinma PARADISO (t dsignant le numro de la semaine varie
de 1 12) :
t
10
11
12
xt
3 428
3 295
3 376
3 195
3 573
3 334
3 434
3 300
3 703
3 411
3 545
3 327
129
Exercice 4.5
La demande dun certain article a t releve au cours de 15 mois conscutifs :
Mois
10
11
12
13
14
15
Demande
37
41
39
40
42
39
41
39
42
41
40
42
43
40
42
2002
2003
2004
2005
1er trimestre
2e trimestre
3e trimestre
4e trimestre
194,2
198,3
100,9
198,7
105,3
103,8
110,7
109,8
103,5
115,7
106,6
110,8
127,5
125,5
126,3
129,4
Source : www.insee.fr
130
5. M odle probabiliste
et variable alatoire
Il ne faut donc pas se demander si nous percevons vraiment un monde, il faut se dire au
contraire : le monde est cela que nous percevons.
Phnomnologie de la perception, Maurice Merleau-Ponty (1908-1961)
131
132
I.
Le calcul des probabilits est bas, comme nous lavons dj vu, sur la notion
dexprience alatoire. On associe une telle exprience lensemble de
tous les rsultats possibles, appel ensemble fondamental, quon dsigne
communment par . Chaque rsultat possible est une partie de .
Lensemble fondamental associ une preuve non dterministe peut
contenir un nombre fini dlments (de la forme { 1, 2, , n}) ou bien
tre de type infini dnombrable 1 ou enfin tre de type infini non dnombrable. On assimile, comme dans la thorie classique des ensembles, un vnement, donc une partie de , la proprit qui le caractrise au sein de
lensemble fondamental, cest--dire la ralisation de cette proprit. On
dsigne par le rsultat qui sera observ lissue de lexprience alatoire,
et on crit G (avec G ()) lorsque la situation dcrite par G est
le rsultat de la ralisation de lpreuve E. La non-ralisation de lvnement G est note G (o G dsigne lensemble complmentaire 2 de G
dans ).
La notation et le vocabulaire ensembliste sont tout fait adapts la description des situations alatoires, et lvnement dont on a la certitude de la
ralisation est dsign par (vnement certain), tandis que lvnement
dont on sait quil ne se produira pas est dsign par (vnement impossible). La runion ensembliste G H correspond la ralisation dau moins
un des vnements G et H. Lintersection ensembliste G H correspond
la ralisation des deux vnements G et H. Lincompatibilit de G et H se
traduit par G H = . Enfin, la diffrence ensembliste G H correspond
la ralisation de G et la non-ralisation de H, ou encore lintersection
G H.
La reprsentation ensembliste justifie la caractrisation des issues dune
preuve alatoire au sein dune structure mathmatique sur laquelle on pourra
dfinir une probabilit. Cette structure est celle dune algbre de Boole (cas
fini), ou dune -algbre (cas infini).
A. Notion de probabilit
Soit lensemble fondamental associ une preuve alatoire et
lensemble des parties de .
()
1. Cest--dire pouvant tre mis en bijection avec tout ou partie de lensemble des entiers naturels.
2. Le complmentaire de lensemble G est not indiffremment G ou Gc.
133
On dit que () est une algbre de Boole si les deux conditions
suivantes sont vrifies :
G
C2 : G et H G H
C1 : G
C2 : Gi
pour i
UG
i
La notion de -algbre tend la correspondance entre la logique vnementielle et la thorie des ensembles au cas dpreuves alatoires dont
lensemble fondamental est infini.
On notera que si E est un vnement quelconque de , = {, , E, }E
est une -algbre.
134
P
G =
i i
P(G )
i
On dit alors que le triplet (, , P) est un espace probabilis. Il est construit sur une preuve alatoire dont on se donne lensemble fondamental ,
tous les vnements simples ou complexes tant dcrits par , sur laquelle
on se donne lchelle des chances P.1
De cette dfinition, ou axiomatique de Kolmogorov, on dduit les proprits suivantes :
1. Si G
, alors P( G )
En effet, on a : G =G
1= P(G)
et G G = , ce qui donne :
P() = 1 = P (G G ) = P(G) + P( G )
2. La probabilit de lvnement impossible est nulle : P() = 0
Il suffit dappliquer la proprit prcdente en posant G =
1. On dit encore une mesure de probabilit pour bien faire rfrence aux qualits mtrologiques
de cette application. On dsignera indiffremment par la suite la probabilit par Pr ou par P.
135
3. Si G
Puisque H = G ( G H) et que G ( G H) = , on a :
P(H) = P(G) + P( G H), et P( G H) 0 implique P(H) P(G)
Il est important de noter que lingalit entre les probabilits est au sens large.
4. Si G et H sont deux lments quelconques de :
P(G H) = P(G) + P(H) P(G H)
En effet, on a : G H = G ( G H) avec G ( G H) =
donc P(G H) = P(G) + P( G H)
De mme H = (G H) ( G H) avec ( G H) ( G H) =
donc P(H) = P(G H) + P( G H)
En combinant les deux rsultats, on obtient :
P(G H) = P(G) + P(H) P(G H)
Ce dernier rsultat est connu sous le nom de thorme des probabilits
totales.
B. Probabilits conditionnelles
Nous avons voqu en introduction de ce chapitre le lien particulier entre
linformation disponible, le contrle des facteurs dterminants dun phnomne
et limportance de sa partie alatoire, donc de sa probabilit de ralisation.
Nous allons retrouver ceci au travers de la notion de probabilit conditionnelle.
Soit une preuve alatoire donne, munie de son ensemble fondamental ,
de la -algbre des vnements, et de la probabilit P associe chacun de ces
derniers, en dautres termes, nous supposons donn un espace probabilis
(, , P). La connaissance dune information complmentaire sur le droulement de lpreuve quivaut la modification des probabilits dfinies sur les
lments de . En effet, cette information acquise nest autre quune condition
dsormais suppose ralise quel que soit le rsultat de lexprience alatoire.
Prenons-en un exemple. Nous avons vu que la probabilit de raliser la
figure 421 lors du jet de 3 ds tait de 1/36. Supposons maintenant que le
premier d soit lanc avant les deux autres, et quil fasse apparatre le chiffre
2. Lensemble fondamental associ au jet des 2 ds restant contient 36 vnements lmentaires, mais parmi ceux-ci, seuls les couples (4 ;1) et (1 ; 4) permettent de complter la configuration 421 . On en dduit donc que si on sait que
le premier d a affich la valeur 2, la probabilit de raliser un 421 est de 1/18.
On remarque dans cet exemple que lensemble fondamental a t modifi, et
donc aussi la -algbre des vnements, ainsi que la mesure de probabilit P.
136
Soit (, , P) un espace probabilis et soit C un vnement particulier, appel condition, de probabilit non nulle. Pour tout vnement
A , on appelle probabilit conditionnelle de A sachant C , note
P ( A C ), la quantit :
P( A C )
P ( A C ) = -----------------------P(C )
Cette dfinition est bien videmment drive de lapproche frquentiste des
probabilits puisquen raisonnant avec la rgle de Laplace, on pourrait dire que
les cas favorables sont ceux o les vnements A et C sont tous deux raliss,
alors que les cas possibles sont ceux pour lesquels de toutes faons lvnement
C est observ. Il faut noter quune probabilit conditionnelle na de sens que si
la condition est ralisable (de probabilit non nulle). La notion de probabilit
conditionnelle, ou encore de conditionnement des probabilits, revient modifier lensemble fondamental puisque lvnement C se trouve tre rapport une probabilit gale un. Ainsi, sur la figure 5.1, par conditionnement
la probabilit de A devient ramene la seule part de A incluse dans C.
A
C
A associe P ( A C ) est
Proprit
Si A1, A2, , An sont n vnements quelconques dune -algbre
dun espace probabilis ( , , P), on peut crire :
P ( A1 A2 An ) =
P ( A1 ) P ( A2 A1 ) P ( An A1 A2 An 1 )
137
Il sagit dune relation symtrique. On parle galement dvnements stochastiquement indpendants. Dans la suite de ce livre, on crira toutefois
simplement vnements indpendants.
On voit alors que si A et B sont deux vnements indpendants, on a :
P( A B) = P( A)
P(B A) = P(B)
et chacune de ces galits montre que :
A et B indpendants P ( A B ) = P ( A ) P ( B )
Dautre part, il est important de ne pas confondre les notions dindpendance et dincompatibilit. Dans le premier cas, si les deux vnements A et
B sont de probabilit non nulles, alors la probabilit P ( A B ) est aussi non
nulle. Dans le second cas, mme si A et B sont de probabilit non nulles,
lintersection ( A B ) est de probabilit nulle. Il sensuit que deux vnements la fois indpendants et incompatibles sont tels quau moins lun
deux est un vnement impossible (cest--dire de probabilit nulle).
Notons encore que si A et B sont deux vnements indpendants, alors :
P( A B) = P( A B) = P( A)
P( B A) = P( B A) = P( B)
138
A k = (on dit
k=1
que les Ak forment un systme complet dvnements). Pour tout vneP ( B Ai ) P ( Ai )
ment B, on a alors : P ( A i B ) = ------------------------------------------------ pour i = 1, 2, , n
ble dvnements deux deux incompatibles vrifiant
P( B A ) P( A )
k
k=1
U (B A )
k =1
1. Le rvrend Thomas Bayes (1701-1761) est lauteur de An Essay Towards Solving a Problem in the Doctrine of Chances qui ne fut publi quen 1763, aprs sa mort.
139
k=1
P ( B Ak ) =
P( B A ) P( A )
k
k=1
Exemple
140
On en dduit :
P ( Ai B )
P ( B A1 ) P ( A1 )
0,5
P ( A 1 B ) = ------------------------ = --------------------------------------- = 0,9
------------------- = 0,414
P( B)
P( B)
0,435
et
P ( A 3 B ) = 0,172
141
X()
tout vnement lmentaire , lapplication X associe une valeur numrique X() ; cest pourquoi on prcise parfois en parlant de variable alatoire
relle2 nomme aussi ala ou ala numrique .
On observe que la terminologie utilise peut paratre abusive, car X est
une application, donc une fonction de dans . Les variables alatoires
seront notes par des lettres majuscules telles que X, Y, Z, pour les distinguer des valeurs quelles sont susceptibles de prendre (ou ralisations), gnralement notes en minuscules.
1. Jacques et Pierre jouent avec une pice. Pierre paie Jacques 1 si pile sort ds le premier
jet, 2 si pile sort seulement au 2e jet, 4 sil ne sort quau 3e jet et ainsi de suite en doublant
la somme paye par Pierre Jacques chaque jet supplmentaire o pile nest pas sorti. On
cherche savoir quelle somme Jacques devrait accepter de payer Pierre pour jouer ce jeu
si lon veut quil soit quilibr, cest--dire que leurs espoirs de gain soient gaux ; le paradoxe
de cette situation provient du fait quon peut montrer que le prix alors payer par Jacques
devrait tre infini. Ce paradoxe a longuement t tudi par Daniel et Nicolas Bernoulli, puis
par Buffon, Laplace, Poisson entre autres ; il a contribu dgager la notion dutilit.
2. Il faut distinguer une variable alatoire laquelle est associe une loi, appele aussi
distribution , de probabilit (thorique) dune variable statistique quantitative laquelle est
associe une distribution statistique (observe), chapitre 1, II.A.
142
Exemple
Remarque
Pour une variable alatoire continue X, il faut complter la dfinition
en ajoutant que limage rciproque de tout intervalle ]
, x] doit
appartenir la -algbre :
x X1(],x]) = ( ( X ) ( ) x )
La probabilit tant dfinie sur la famille des parties de
formant
une -algbre, cette condition permet de dterminer la probabilit de
tout intervalle de .
Notons que cette condition est gnrale puisquelle est ralise pour
les variables alatoires discrtes ; pour ces variables alatoires, limage
rciproque de tout intervalle de est une partie de laquelle est
associe une probabilit.
143
3.
x+
pour i = 1
pour i = 2, , k
144
Valeur de X
x1
xi
xk
Probabilit
p1
pi
pk
i=1
pi = 1
Exemple 1
10
11
12
Probabilit
1
-----36
1
-----18
1
-----12
1
--9
5
-----36
1
--6
5
-----36
1
--9
1
-----12
1
-----18
1
-----36
i
F( x) =
pj
j = 1
si x i x < x i + 1
pour 1( i k 1 )
si x x k
Exemple 2
Valeur de X
Probabilit
1
--2
1---22
1---23
1--2i
On verra au chapitre 6 (
paramtre 0,5
1
---- = 1
i
2
i=1
145
F(x)
1
35/36
33/36
30/36
26/36
21/36
15/36
10/36
6/36
3/36
1/36
0
10 11 12
P
1/6
1/12
10
11
12
1. Cest--dire que la fonction Fx peut ne pas tre drivable sur un ensemble dnombrable de
points de
146
Toute fonction vrifiant ces cinq proprits peut tre considre comme
la fonction de rpartition dune variable alatoire absolument continue.
La drive de FX , note fX , est appele densit de probabilit de la variable alatoire X.
Une fonction f, dfinie sur tout , peut tre considre comme la densit
de probabilit dune variable alatoire absolument continue si elle possde
les trois proprits suivantes :1
1. f ( x ) 0 x
2. f continue presque partout 1
3.
f ( x ) dx
= 1
La fonction de densit est une reprsentation trs utile de la loi de probabilit dune variable alatoire continue. On peut dfinir la loi de probabilit
dune variable alatoire continue, soit par sa fonction de rpartition, soit par
sa fonction de densit, et on a la relation fondamentale suivante :
x
F( x) =
f ( t ) dt
f ( x ) dx
a
f(x)
147
la fonction F tant continue : F ( x + b ) F ( x ) 0
si b 0
F ( x ) F ( x a ) 0
si a 0
do : P ( X = x ) = 0
la probabilit quune v.a. continue X prenne une valeur donne x est
nulle, on dit que la loi de X est diffuse (ou continue).
Par consquent, pour une variable alatoire continue :
F(x) = P(X x) = P(X < x)
a, b
, a < b :
f ( x ) dx
a
Exemple
Soit la fonction f dnie par :
0
1
f ( x ) = ---------2 x
0
pour x 0
pour 0 < x 1
pour x > 1
148
12
1
f ( x ) dx = --- x 1 2 dx = x
2
1
0
= 1
F(x) =
0 dt = 0
pour 0 < x 1
F(x) =
1
0 dt + --------- dt =
2 t
1 - dt + 0 dt = 1
0 dt + -------2 t
0
0
On vrie aisment que cette fonction F possde les proprits de la
fonction de rpartition dune v.a. continue1.
On peut calculer la probabilit de tout interv alle ou runion dintervalles,
par exemple :
P(0,16 < X < 0,25) = F(0,25) F(0,16) = 0,5 0,4 = 0,1
pour x >1
F(x) =
note Y = (X) est une variable alatoire dont on peut dterminer la fonction de rpartition et donc la loi de probabilit partir de celle de X.
1) Changement de variable Y = aX + b
149
pour a < 0 :
yb
F Y ( y ) = P ( Y y ) = P X -----------
a
yb
1 F X -----------
si X est une v.a. continue
=
y a
Exemple
pour
pour
y0
y>0
f Y ( y) = 1
--y- f X ( lny )
pour
pour
y0
y>0
quelconque
Le principe consiste toujours identifier la fonction de rpartition FY en
recherchant lantcdent pour X de lvnement { Y y = (x)}.
Par exemple, pour Y = X2 :
0 si y < 0
FY(y) =
P( y X + y) = F X ( y) F X ( y)
150
si y 0
F ( x , y ) = P ( X x ) ( Y y )
x
y
ij
=1
j = 1i = 1
151
yj
yl
Loi marginale
de X
x1
.
.
.
xi
.
.
.
xk
p11
.
.
.
pi1
.
.
.
pk1
.
.
.
.
.
.
p1j
.
.
.
pij
.
.
.
pkj
.
.
.
.
.
.
p1l
.
.
.
pil
.
.
.
pkl
p1
.
.
.
pi
.
.
.
pk
Loi marginale
de Y
p1
pj
p1
Valeur de X
On notera lanalogie du tableau 5.1 avec le tableau dune distribution conjointe en statistique descriptive (chapitre 3, I.A).
On a :
p i =
ij
= P ( X = xi )
j=1
k
p j =
ij
= P ( X = xi )
i=1
y1
yj
yl
P(Y = y j X = x i )
p1/i
pj/i
pl/i
j=1
p j/i = 1
152
En cas dindpendance, les lois conditionnelles sont gales la loi marginale correspondante :
p
pj i = -----ij- = p j
pi
et
pij
pi j = ------ = pi
p j
La loi de probabilit dun couple alatoire (X,Y) permet de calculer les lois
marginales des deux variables X et Y. En revanche, la connaissance de ces
lois ne permet pas de dterminer la loi conjointe, sauf si les variables X et Y
sont indpendantes.
Mentionnons lanalogie existant entre les notions de lois de probabilit
marginales et conditionnelles dfinies pour un couple alatoire et celles de
distributions marginales et conditionnelles rencontres en statistique descriptive (chapitre 3).
Toutes les notions dveloppes pour les couples de variables alatoires discrtes finies peuvent tre gnralises des variables alatoires discrtes infinies.
La loi de probabilit dun couple alatoire discret peut aussi tre dfinie
par sa fonction de rpartition.
Pour {xi x < xi+1} et { yj y < yj+1}:
F ( x , y) = P(( X x) (Y y)) =
mn
n=1 m=1
153
F ( x , y) =
f ( u , v ) d u dv
2 du type [ a ; b] [c ; d]
f ( u , v ) d u dv
f ( x , y ) dx dv
P ( X, Y ) =
g( x) =
f ( x , y ) dy
et
h( y) =
f ( x , y ) dx
Exemple
154
pour tout
pour tout
( x , y) [0 ; 1] [0 ; 1]
( x , y) [0 ; 1] [0 ; 1]
0,8 0,3
0,1
1 dx dy = 0,21
1 1u
1 du dv = 0,5
1
Indpendance
Les variables alatoires X et Y sont indpendantes si et seulement si
2
(x , y) :
f(x , y) = g(x) h(y)
Plus gnralement, un n-uplet de variables alatoires ( X1 , X2 , , Xn) de
densit de probabilit f est un n-uplet de variables alatoires indpendantes si
et seulement si la densit f du n-uplet est le produit des n densits marginales fi :
f ( x1 , x2 , , xn ) = f1 ( x1 ) f2 ( x2 ) fn ( xn )
155
Il est naturel, comme on la fait en statistique descriptive, de dfinir et dtudier des indicateurs (ou caractristiques) des variables alatoires. La motivation
est la mme : la loi de probabilit constitue une grande quantit dinformations,
et est souvent trop riche pour tre apprhende dans sa globabilit. Il est donc
utile den rsumer certains aspects (les mmes que ceux envisags en statistique descriptive) par des valeurs numriques convenablement choisies.
Des indicateurs relatifs aux trois aspects principaux des lois de probabilit
sont dfinis, savoir :
la tendance centrale ;
la dispersion ;
la forme (asymtrie et aplatissement).
Les outils mathmatiques qui interviennent dans la dfinition de ces indicateurs varient dun type de loi lautre. Les lois discrtes finies utilisent les
mmes outils que ceux ncessaires la dfinition des indicateurs des variables statistiques. Pour les lois discrtes infinies, quelques connaissances sur
les sries numriques (et parfois sur les sries entires) sont utiles. Pour les
lois absolument continues, des notions sur lintgration sont utilises. Cependant, la signification de ces indicateurs ne dpend pas du type de loi de probabilit considre, ni des techniques mathmatiques utilises.
A. Mode
Le mode dune variable alatoire est la valeur pour laquelle le diagramme en
btons ou la courbe de densit prsente son maximum. On appelle mode relatif une valeur correspondant un maximum local du diagramme en btons
ou de la courbe de densit, mais en gnral, le mode est unique. Le mode est
un indicateur de tendance centrale.
B. Esprance mathmatique
Lesprance mathmatique dune variable alatoire
X est aussi appele
moyenne ou valeur moyenne de X. Elle est gnralement note m.
1) Cas discret
Soit X une variable alatoire discrte finie :
156
Valeur de X
x1
.....
xi
.....
xk
Probabilit
p1
.....
pi
.....
pk
x p
i
i=1
Exemple
Une loterie comporte 1 000 billets et un seul lot de 10 000 . Si tous les
billets ont t v endus et si le tirage se f ait au hasard , lesprance
mathmatique de la valeur V dun billet sera :
999
1
E ( V ) = 10 000 ------------ + 0 ------------- = 10
1 000
1 000
Mais, en f ait, aucun billet ne rapporte 10 : chacun rapporte 0 ou
10 000 . Cependant, si on achte un billet chaque tirage de cette
loterie (en supposant quelle ait lieu rgulirement dans les mmes
conditions), la moyenne des gains sera voisine de 10 au bout dun
grand nombre de tirages ; ce rsultat qui f ait limportance du concept
desprance mathmatique se rfre la loi des grands nombres ( V).
La moyenne dune variable alatoire X a ainsi la signification dun indicateur de tendance centrale de X.
Dans le cas dune variable alatoire X discrte infinie : E ( X ) =
x p
i
i=1
1. La srie
i=1
i=1
xi pi =
i=1
x i p i est
convergente.
157
y p
j
j/i
j=1
E { X Y = yi } =
De mme :
x p
i
i/ j
i=1
2) Cas continu
La variable alatoire X tant continue de densit
mathmatique E(X) de X :
E(X ) =
f, on appelle esprance
f ( x ) dx
Cette dfinition suppose lintgrale du second membre absolument convergente1, sinon et mme si elle est simplement convergente, on dira que
la v.a. X na pas desprance mathmatique.
Remarque
Lesprance mathmatique dune variable certaine X, cest--dire une
v.a. ne prenant quune seule valeur, note b, avec la probabilit 1, est
gale cette valeur : E(b) = b. Notons quune telle variable ne mrite
pas exactement le nom de variable alatoire puisquelle peut tre identifie la constante b.
On appelle variable alatoire centre
lesprance mathmatique est nulle.
1. Lintgrale
convergente.
158
x f ( x ) dx est
2. Soit une fonction dfinie sur valeurs dans , alors si X est une v.a.,
(X) est une v.a. ( II.C) dont on peut calculer lesprance sans avoir dterminer sa loi.
Cas discret
E (( X )) =
( x ) p
i
2p
Cas continu
E (( X )) =
( x ) f ( x ) dx
f ( x ) dx
E(X )
i
= nm
i=1
1
si on dsigne par X leur moyenne : X = --- X i , on obtient : E ( X ) = m
ni = 1
x y p
i i
ij
i, j
159
Cas continu
Soit (X, Y) un couple de v.a. continues, on a, si lintgrale du second membre est absolument convergente :
E(X Y ) =
xy
f ( x, y ) d x d y
R2
pij = pi p j ou
Si X et Y sont indpendantes, de la proprit {
f(x,y) = g(x) h(y)}, on dduit E(X Y) = E(X) E(Y), mais la rciproque nest
pas vraie :
X et Y indpendantes
C. Variance
La variance dune variable alatoire X est lesprance mathmatique du carr
de la v.a. centre associe X (si elle existe) :
var ( X ) = E ( X m ) 2
La variance est un nombre positif ou nul ; sa racine carre, note , est
appele cart-type1 :
=
var ( X )
Lcart-type dune v.a. X, exprim dans les mmes units que la variable
X, a la signification dun indicateur de dispersion autour de la moyenne
m de X. Illustrons cette ide par un exemple. Soient les variables alatoires
X et Y :
Valeur de X
E(X) = 4
Valeur de Y
30
Probabilit
1
--2
1
--4
1
--4
X =
Probabilit
1
--3
1
--2
1
--6
E(Y) = 4
Y =
148
Ces deux variables alatoires ont mme esprance. Cette grandeur typique ne permet pas de les distinguer. Cet exemple montre bien que lcarttype dune variable alatoire est un indicateur de dispersion autour de sa
moyenne.
1. Les calculs de la moyenne et de lcart-type des v.a. discrtes finies peuvent se faire avec
des calculatrices possdant les fonctions statistiques, les frquences tant remplaces par les
probabilits.
160
Proprits de la variance
E ( X b ) 2 = var ( X ) + E ( X ) b
var ( X + Y ) = E ( ( X + Y E ( X + Y ) ) 2 )
= E ( X E ( X ) + (Y E ( Y ) ) 2
= E ( ( X E ( X ) )2 ) + E ( ( Y E ( Y ) )2 )
+ 2E (( X E ( X ))(Y E (Y )))
= var ( X ) + var ( Y ) + 2 E ( X E ( X ) ) ( Y E ( Y ) )
pour deux variables indpendantes, le dernier terme est nul
var(X + Y) = var(X) + var(Y)
1re consquence
X et Y indpendantes var(X Y) = var(X) + var( Y) = var(X) + var(Y)
2de consquence
Soient n variables alatoires X1 , X2 , ,Xn mutuellement indpendantes
et de mme variance 2, la variance de leur somme est gale n2 :
n
n
var ( X i ) = n 2
var X i =
i = 1
i=1
1
Si on dsigne par X leur moyenne : X = --- X i , on obtient :
ni = 1
2
var ( X ) =
----n
161
Une variable alatoire rduite est une variable alatoire dont lcart-type
est gal 1. Si X a une moyenne m et un cart-type , on peut lui associer
une variable alatoire Y centre rduite :
Xm
Y = ------------
cov(X, Y) = 0
Proprits de la covariance
1. cov(X,Y) = cov(Y, X)
2. cov(X, X) = var(X)
3. a, b, c et d :
cov ( aX + b, cY + d ) = ac cov ( X , Y )
var ( aX + bY + c ) = a 2 var ( X ) + b 2 var ( Y ) + 2ab cov ( X , Y )
4. cov ( X , Y ) var ( X ) var ( Y ) , cette ingalit est une consquence
de lingalit de Schwarz.
On appelle coefficient de corrlation linaire entre X et Y le rapport :
( X , Y )---------------------- = cov
X Y
Des proprits de la covariance, on dduit que le coefficient de corrlation
linaire est invariant par changement dorigine et dchelle et quil est compris entre 1 et + 1. On peut montrer quil est gal + 1 si et seulement si X
et Y sont lies par une relation linaire. Dautre part, si X et Y sont indpendantes, leur coefficient de corrlation linaire est nul, mais la rciproque nest
pas vraie. On retrouve lanalogie de ce coefficient avec le coefficient de
corrlation linaire r dfini entre deux variables statistiques au chapitre 3, II.A.
162
2) Moment factoriel
On appelle moment factoriel [k] dordre k (k entier positif) dune variable
alatoire X lesprance mathmatique de X ( X 1 )..... ( X k + 1 ) si elle
existe :
[ k ] = E X ( X 1 )..... ( X k + 1 )
[2]
[3]
[4]
= m2 m1
= m 3 3m 2 + 2m 1
= m 4 6m 3 + 11m 2 6m 1
= m1
m1 = [1]
m2 = [2] + [1]
m3 = [3] + 3 [2] + [1]
m 4 = [ 4 ] + 6 [ 3 ] + 7 [ 2 ] 11 [ 1 ]
163
u p
i
0u1
pour
i=0
ui pi
i=0
= 1
i=0
2. gX(0) = 0 et gX(1) = 1
3. Si le moment factoriel dordre k de X existe, on montre que pour u
compris entre 0 et 1:
g X( k ) ( u ) =
[ i ( i 1 )..... ( i k + 1 )u
i k]
pi
g X( k ) ( 1 ) = [ k ]
i=k
F. Indicateurs de forme
Ces indicateurs donnent des informations sur la forme de la loi de X, et en
particulier, ils la comparent la loi normale (chapitre 7, II.B). Ils sont directement inspirs des coefficients dasymtrie (en anglais skewness) et daplatissement ( kurtosis) dfinis en statistique descriptive.
Fisher a dfini les coefficients dasymtrie et daplatissement dune variable alatoire X, dont les premiers moments existent, par :
3
coefficient dasymtrie 1 = ------- 23/2
164
moyenne m, mais la rciproque nest pas vraie : 1 peut tre nul sans que la
loi de X soit symtrique. Si la distribution de X est unimodale tale vers la
droite, 1 est positif. Dans le cas contraire, 1 est ngatif.
Le coefficient daplatissement 2 est nul pour une variable distribue selon
une loi normale, mais l encore, la rciproque nest pas vraie. Selon que la
loi de X est plus ou moins aplatie que la loi normale, 2 sera positif ou ngatif.
Plus que laplatissement, ce coefficient mesure limportance des queues
dune distribution.
Ces coefficients 1 et 2 sont invariants par changement dorigine et
dchelle.
G. Quantiles
Comme pour les variables statistiques, on dfinit pour les variables alatoires
les quantiles, encore appels fractiles, qui sont indicateurs de position partir
desquels on peut dfinir des indicateurs de tendance centrale et de dispersion.
On appelle quantile dordre (0 1) dune variable alatoire X de fonction de rpartition F toute valeur x telle que : F(x) = ( P(X x) = )
Notons que si F est continue et strictement croissante, le quantile x, pour
donn, existe et est unique. Si F nest pas continue et strictement croissante, il peut ne pas exister ou il peut y avoir plusieurs solutions possibles.
La mdiane Me dune v.a. X est le quantile dordre 1/2 : Me = x0,5
Le premier quartile , not Q1, est le quantile dordre 1/4. Le troisime
quartile, not Q3, est le quantile dordre 3/4. La mdiane est le second quartile. On dfinit aussi les dciles : le ime dcile Di est le quantile dordre i /10
(1 i 9).
Comme en statistique descriptive, on peut dfinir plusieurs indicateurs
partir des quantiles :
des indicateurs de tendance centrale comme par exemple, la mdiane
Me ou encore le milieu de lintervalle interquartile :
1
--- ( Q 1 + Q 3 )
2
des indicateurs de dispersion comme, par exemple, ltendue interquartile (Q3 Q1) ou lesprance mathmatique des carts absolus la mdiane :
E X Me ( = min E X b )
b
165
nuit de F
L
On crit alors X n X , et on parle aussi de convergence faible.
Cette notion de convergence est particulirement simple en pratique. En
effet, pour des variables alatoires { Xn } et X discrtes, elle revient :
lim P ( X n = x ) = P ( X = x )
et dans tous les autres cas, elle met en uvre les critres classiques de convergence des fonctions.
Pour le cas des variables alatoires discrtes, cette notion de convergence
est utilise par exemple pour lapproximation dune loi binomiale par une loi
de Poisson ( laide de la formule de Stirling), ce que nous voyons au chapitre 6, III.E. On notera cependant quil est possible par la convergence en
loi, qui ne fait intervenir que les fonctions de rpartition, de rechercher (et/
ou de poser) la convergence de v.a. discrtes vers une v.a. continue.
Dautre part, si on suppose la convergence en loi des v.a. { Xn } vers X, on
peut approcher Fn par F, et si leurs densits existent on peut approximer fn
par f, ce qui est pratiqu dans les chapitres suivants.
166
(z )
f ( z ) dz > ( z ) 2 f ( z ) dz
2 k 2 2 f ( z ) dz = k 2 2 f ( z ) dz = k 2 2 P ( Z > k )
2
On voit par consquent que si la suite des moyennes E(Zn) converge vers
0, et si la suite des variances var( Zn) converge aussi vers 0, alors on a :
lim P ( Z n > ) = 0
ce qui montre que la suite de v.a. { Zn} converge en probabilit vers la v.a.
certaine 0.
167
Il suffit alors de prendre {Zn = Xn a} pour voir que si la suite des moyennes E(Xn) converge vers a et la suite des variances var( Xn) converge vers 0,
alors la suite des v.a. { Xn} converge en probabilit vers a.
Une suite de v.a. dont la suite des moyennes converge vers une limite a
et dont la suite des variances converge vers 0, converge en probabilit vers a.
On notera cependant que ce dernier rsultat nest pas quivalent la dfinition, et que lon peut parler de convergence en probabilit sans supposer
lexistence des moments dordre 1 et 2.
On peut montrer que la convergence en probabilit implique la convergence en loi, mais que la rciproque nest pas exacte.
Le troisime mode de convergence que nous prsenterons, la convergence
en moyenne quadratique, est trs utilis dans les problmes destimation statistique.
Soit Xn une suite de v.a. relles de moyennes et de variances finies. On
dit que la suite Xn converge en moyenne quadratique vers X si
lim E ( X n X ) 2 = 0
lim E X n X p = 0
168
Convergence
en moyenne dordre p
Convergence
en moyenne dordre q < p
Convergence
presque sre
Convergence
en probabilit
Convergence en loi
169
1
lim ---
mi = m
n n
i=1
et
1
lim ----- i2 = 0
n n2
i=1
P
1--Xi m
n i=1
alors on a :
Soit alors une preuve alatoire lissue de laquelle un rsultat R peut se produire avec la probabilit p. On rpte cette preuve indpendamment n fois, et
lon dsigne par Fn la variable alatoire gale la proportion dpreuves ayant
donn le rsultat R. Ces variables sont appeles frquences empiriques.
On applique directement la loi des grands nombres pour montrer la convergence en probabilit des frquences empiriques vers la probabilit p. Cest
le thorme de De Moivre-Laplace.
partir de ce rsultat, toute lapproche frquentiste des probabilits ( supra,
I) sest dveloppe sur lvaluation de la probabilit dun vnement par la
limite de la frquence relative dapparition de cet vnement lorsquon rpte
indfiniment lpreuve alatoire lors de laquelle il peut se raliser.
On peut aussi dmontrer un rsultat plus gnral.
Loi forte des grands nombres
Soient Xi (i = 1, 2, , n) n variables alatoires relles indpendantes
desprances mi et dcarts-types i tous finis, telles que :
n
1
lim ---
mi = m
n n
i=1
alors on a :
et
lim
2
-----2i- <
i
i=1
n
p.s
1--
Xi m
n i=1
170
Cas discret
et
iI
pi = 1
i I*
p i avec I * = ( i I x i [a ; b] )
mk =
Moment dordre k :
mk = E(Xk)
k
xi pi
xi pi
iI
iI
E(X ) =
si
si
iI
iI
x i k p i < +
x i p i < +
P ( X b ) P ( X a ) = FX ( b ) FX ( a )
P(X ]a ; b ] ) =
P(X [a ; b]) =
a, b , a < b :
Cas continu
mk =
k f ( x ) dx
xf ( x )dx
E(X ) =
si
si
= F X (b) F X (a) =
k f ( x ) dx
< +
x f ( x )dx < +
f ( x ) dx
P(X = x) = 0
a, b , a < b :
P(X [a ; b]) = P(X [a ; b[) = P(X ]a ; b]) = P(X ]a ; b[)
x
1. f ( x ) 0
f
presque
continue
partout
2.
3. f ( x ) dx = 1
On noubliera pas :
Esprance
mathmatique
Loi ou
distribution de
probabilit dune
variable
alatoire relle
171
172
173
0,10
0,20
0,10
0,15
0,30
0,15
a) X et Y sont indpendantes
b) P(Y = 2 X = 1) = 1/4
c) (X,Y) = +1
d) E(Y) = 1
13. Soient deux variables alatoires X et Y lies par la relation X 2Y = 1 :
a) E(X) = 2E(Y) + 1
b) var(X) = 2var(Y)
c) (X,Y) = + 1
d) X et Y sont indpendantes
14. Soient deux variables alatoires X et Y telles que var(X) = 144, var(Y) = 81 et
var(X + Y) = 25
a) cov(X,Y) = -100
b) (X,Y) = 0
c) var(X Y) = 425
d) X et Y sont lies par une relation linaire
15. Soit un couple de v.a. (X,Y) pour lequel on dispose des lois conditionnelles de
X pour chaque valeur possible de Y et de la loi marginale en Y :
Y
0,2
0,5
0,8
0,5
et de la loi marginale de Y :
Valeur de Y
Probabilit
0,5
0,3
0,2
174
0,15
0,20
0,15
0,10
0,25
0,15
175
176
Exercice 5.6
La demande journalire X dun bien fabriqu par une entreprise est une v.a. qui suit
la loi suivante : P(X = 0) = 1/6 P(X = 1) = 1/6 P(X = 2) = 1/2 P(X = 3) = 1/6.
On suppose que le profit, fonction de la demande et du cot, vrifie la relation
:
(X) = p.X C, p tant le prix unitaire du bien fix 600 , C tant le cot suppos
indpendant de la demande et gal 800 .
1. Calculez lesprance et lcart-type du profit. Quelle est la signification de lesprance du profit ?
2. Dterminez la fonction de rpartition du profit et tracez son graphe.
Exercice 5.7
Une compagnie dassurances admet pour lanne venir et pour un certain type de
contrat, que 60 % des assurs nauront pas de sinistre. Par ailleurs on suppose que le
cot moyen de rglement des accidents est de 500 avec une probabilit de 0,25, de
1 500 avec une probabilit de 0,1, de 2 500 avec une probabilit de 0,05. Un
assur dclare au plus un sinistre de ce type dans lanne.
1. Pour esprer un bnfice moyen de 50 par assur, quel doit tre le montant de
la cotisation ?
2. Quelle est la probabilit pour que le cot de rglement total de deux assurs pris
au hasard nexcde pas le montant encaiss de leurs cotisations (au tarif dtermin
au 1) ?
Exercice 5.8
Dans une banque, un systme de guichet automatique a t mis en place et permet de
faire des oprations bancaires courantes : extrait de compte, remise de chque, retrait.
Le nombre de clients utilisant le guichet automatique dans un intervalle de temps de
5 minutes est une v.a. X telle que :
P(X = 0) = 0,3, P(X = 1) = 0,3 et P(X = 2) = 0,4
1. Calculez E(X) et var(X).
2. On suppose que les nombres de clients utilisant le guichet automatique sur deux
priodes de 5 minutes ne se chevauchant pas sont indpendants. Soit
Y la v.a.
gale au nombre de clients utilisateurs sur une priode dune heure. La v.a. Y peut
scrire :
Y =
12
i=1
Xi
177
3.1. Donnez dans un tableau double entre lensemble des probabilits conditionnelles de Z sachant X.
3.2. Quelle est la loi de Z ? Calculez E(Z) et var(Z).
Exercice 5.9
Une usine de pellicules de photo dispose de trois machines A, B et C qui fabriquent
respectivement 20 %, 50 % et 30 % de la production totale. Les proportions de pellicules dfectueuses fabriques par les machines A, B ou C sont respectivement gales
6 %, 5 % et 3 %.
On tire au hasard une pellicule dans la production, calculez :
la probabilit que cette pellicule soit dfectueuse ;
la probabilit quelle provienne de la machine A sachant quelle est dfectueuse ;
la probabilit quelle provienne de la machine A sachant quelle est non dfectueuse.
Exercice 5.10
Un couple ( X, Y) de variables alatoires suit la loi jointe donne dans le tableau
suivant :
Y
1/4
1/8
1/5
1/10
178
6. L es principaux
modles statistiques
discrets
Notion de modle
Par modle on entend une reprsentation simplifie dun processus,
dun systme.
Dans les domaines des sciences conomiques et de gestion, on cherche
disposer de modles pour analyser, prvoir et dcider. La nature mme
des facteurs intervenant en gestion et en conomie explique le caractre
alatoire, cest--dire non dterministe, donc non contrlable totalement du modle quon cherche dfinir pour reprsenter le systme
tudi.
Dans la plupart des cas, on dispose dun ensemble fragmentaire de donnes partir desquelles on cherche une reprsentation globale. Cest l
une des dmarches classiques en statistique, dduire des informations
fournies par un chantillon une ou plusieurs caractristiques concernant
la population do lon extrait lchantillon ; il sagit l de linfrence statistique.
La construction dun modle est destine donc analyser, prvoir ou
dcider partir dun support rigoureux et fiable ; sa recherche est ainsi
un travail formel. Pour laborder il est ncessaire de dfinir avec prcaution tous les lments dont on dispose :
la population pour laquelle le modle est destin ;
lindividu, ou unit lmentaire de la population ;
le caractre tudi sur chacun des individus, et qui dfinit le phnomne tudi ;
la nature de ce caractre (qualitatif, quantitatif, discret ou continu).
partir de l, on peut associer par une dmarche analogue celle vue
en statistique descriptive une variable alatoire chaque individu de
la population. Cest cette variable alatoire et sa distribution de probabilit qui vont constituer les lments du modle ; on dit que cette variable alatoire est la variable gnrique de la population (on dit aussi
179
variable parente) puisque tout individu tant quon ne connat pas ses
caractristiques individuelles peut tre reprsent par une variable
alatoire de mme loi quelle. Il sera alors possible dtudier un ensemble dindividus extrait de la population gnrale comme un ensemble de
variables alatoires ayant toutes comme loi, la loi de la variable gnrique de la population. Lorsque ces variables sont indpendantes entre
elles, on dit quelles forment un chantillon de la variable parente ; cette
condition dindpendance est quivalente un tirage avec remise des
individus formant lchantillon au sein de la population.
Modles empiriques (ou exprimentaux)
Ce sont des modles qui sont construits sur lobservation dune srie statistique. Leur validit dpend tout particulirement de la taille de la
srie statistique des observations. On recherche ici les caractristiques
essentielles de la srie observe (moyenne, mdiane, mode, quartiles,
symtrie ou non). Parmi les reprsentations en lois de probabilit connues, on en cherche une qui soit cohrente avec les donnes observes,
du point de vue de ces caractristiques. On procde par analogie.
Modles thoriques (ou analytiques)
On tudie le phnomne en essayant de le dcomposer en composantes
lmentaires directement reprsentes et de faon naturelle par une loi
de probabilit (telle que la loi de Bernoulli ou la loi uniforme).
Le schma binomial comme le schma hypergomtrique ( infra II.B et
II.C), ou encore la loi gomtrique ( II.D) sont des exemples de cette
approche.
Classification des modles
On doit distinguer les modles discrets pour lesquels les diverses occurences sont ponctuelles et parfaitement bien isoles (spares) les unes
des autres, des modles continus pour lesquels les occurences sont beaucoup trop nombreuses pour pouvoir tre isoles ponctuellement et ne
peuvent tre tudies que par classes de valeurs. lintrieur des modles discrets, on distingue encore les modles discrets finis (cest--dire
dont le domaine des valeurs est de cardinal fini) des modles discrets
infinis dnombrables.
Il existe dautres classifications mais qui concernent des modles qui ne
sont pas abords dans ce cours du fait de leur plus grande complexit et
de leur utilisation moins frquente.
De trs nombreux modles (discrets ou continus) ont t construits pour
correspondre des situations pratiques dtermines. N ous prsentons
dans ce chapitre et dans le suivant ceux qui sont le plus frquemment
utiliss, mais bien entendu il ne faudra pas croire que tout phnomne
puisse tre rapport aux quelques modles dcrits ici.
180
I.
A. Le schma de Bernoulli
Toute preuve alatoire nayant que deux rsultats possibles peut tre considre comme une situation dalternative : si lun des deux rsultats ne se ralise pas, cest que lautre le sera obligatoirement. En dautres termes, dans
une telle situation, les deux rsultats possibles sont complmentaires lun de
lautre, la somme de leurs probabilits tant gale 1.
Il sagit l dune situation extrmement frquente puisque ds quon cherche
mettre en vidence la prsence dun caractre particulier pour les individus
dune population, tout individu de cette population peut tre dcrit selon une
telle alternative : ou bien il prsente ce caractre ou bien il ne le prsente pas.
Ainsi par exemple lorsquon cherche valuer limpact dune campagne
publicitaire sur les achats dun nouveau produit, on peut associer chaque
individu sond (parmi ceux ayant acquis ce produit aprs la campagne publicitaire) trois variables alatoires :
la premire met en vidence si lindividu possdait dj auparavant ce produit ;
la seconde met en vidence si lindividu a t touch par la campagne
publicitaire ;
la troisime dcrit si lacquisition du produit a t induite par la campagne publicitaire.
Il sagit l dune possibilit de formalisation (et bien entendu ce nest pas
la seule !), mais chacune de ces trois variables correspond bien une situation dalternative. Ltude des effets ventuels de cette campagne publicitaire
met en uvre les outils appropris de lanalyse statistique.
Dans ces situations de dualit, lune des deux issues est celle que privilgie ltude, elle correspond la positivit dun index, la prsence du caractre pour chaque individu de la population faisant lobjet de ltude, par
opposition son absence. Les alas quon peut dfinir dans ces cas tant des
alas qualitatifs, il faut trouver le codage le plus appropri. Cest cet aspect
de prsence/absence qui limpose, et on code par 0 et 1 les deux issues possibles, celle quon cherche mettre en vidence tant code 1.
On dfinit ainsi une variable alatoire qui ne peut prendre que
deux valeurs, savoir 0 et 1. Elle porte alors le nom de variable alatoire de
Bernoulli1, et possde alors une loi de probabilit trs simple pour laquelle p
1. Jacques Bernoulli (1654-1705), scientifique suisse a beaucoup contribu au dveloppement
du calcul des probabilits (loi des grands nombres) et aux statistiques.
181
Probabilit
q=1p
Fonction de rpartition
1
1p
1p
182
( X = i ) = 1
P( X = i) = P
i =1
i=1
1 =
P( X = i) =
i=1
p = k p
i=1
Probabilit
1/ k
1/ k
1/ k
1
1 k(k + 1)
1
+1
i --- = --- i = --- -------------------- = k----------k
k
k
2
2
i=1
i=1
183
1
1
1 k ( k + 1 ) ( 2k + 1 )
k + 1 ) ( 2k + 1 )
i 2 --- = --- i 2 = --- ---------------------------------------- = (-----------------------------------k
k
k
6
6
i=1
i=1
do lexpression de la variance :
2
( k + 1 ) ( 2k + 1 ) ( k + 1 ) 2
k2 1
var ( X ) = E ( X 2 ) [ E ( X ) ] = ------------------------------------- ------------------- = ------------4
12
6
En ce qui concerne ces rsultats, on notera quils sont obtenus pour une
loi uniforme discrte dont les valeurs sont les entiers compris entre 1 et k (au
sens large). Par consquent, ils peuvent sappliquer toute situation alatoire
k issues quiprobables ds que celles-ci peuvent tre codes par les nombres 1, 2, ,k. Si on doit adopter un autre codage, les valeurs de lesprance
et de la variance (comme de tout autre moment) seront modifies puisquelles
dpendent des valeurs possibles de la variable alatoire.
On peut encore donner la fonction gnratrice des moments de cette variable alatoire uniforme discrte. On a :
gX (u) = E (uX ) =
u --ki
i=1
ce qui permet dobtenir les moments successifs, mais aussi de retrouver les
rsultats prcdents. On constate aussi par ailleurs que les moments factoriels
dordre strictement suprieur k sont nuls : [n](X) ds que n > k
On ajoutera simplement pour terminer que le diagramme en btons de
cette loi est form de btons de mme hauteur, et que le graphe de la fonction
cumulative est form de marches descalier galement espaces (lespace
entre deux dentre elles tant de 1/ k) et de mme largeur (lunit).
184
A. Le schma binomial
Dfinition
Une variable alatoire est dite suivre une loi binomiale de paramtres
n et p, note (n ; p), si elle peut tre considre comme la somme de n
variables alatoires de Bernoulli, indpendantes et de mme paramtre p.
Soit par exemple, une population dans laquelle une proportion p dindividus
prsente un caractre donn. On se pose la question de savoir si un chantillon1 de n individus choisis au hasard dans la population a de grandes chances de contenir k individus ayant le caractre.
Chaque individu de la population (et donc de lchantillon) est prsent
dans ce problme par une alternative : il possde le caractre tudi ou non.
Il est parfaitement justifi de lui associer une variable de Bernoulli prenant
la valeur 1 sil a le caractre tudi, et la valeur 0 sinon. Cette variable ainsi
dfinie pour chaque individu est la variable gnrique de la population (ou
encore la variable parente). Si on la note X, on a P(X = 1) = p, et donc aussi
P(X = 0) = 1 p = q. Les n individus (1, 2, n) de lchantillon seront ainsi
reprsents par n variables de Bernoulli X1, X2, , Xn ayant toutes la mme
loi de probabilit, celle de X, une loi de Bernoulli de paramtre p. On peut
supposer toutes ces variables indpendantes pour la simplicit du problme,
ce qui correspond par exemple un tirage des n individus avec remise, ou
bien un taux de sondage n / N infrieur 10 %, N tant la taille de la population (ce point important sera revu au II.C avec la loi hypergomtrique).
1. Ce terme dchantillon se rfre la fois au sens usuel, et galement une collection de
variables alatoire indpendantes et de mme distribution.
185
186
n k
n
( 1 p ) n np ( 1 p ) n 1 p 2 ( 1 p ) n 2 p ( 1
2
k
p ) n k pn
Les caractristiques dune loi binomiale (n ; p) sont trs faciles calculer si on utilise la dcomposition en somme de variables de Bernoulli indpendantes. En effet :
E(Y ) = E( X1 + X2 + + Xn)
= E( X1) + E( X2) + + E( Xn)
= n E(X )
et par consquent :
E ( Y ) = np
Pour le calcul de la variance, la proprit dadditivit, toujours vraie pour
lesprance, suppose que les variables de Bernoulli Xi sont indpendantes, et
cette hypothse est fondamentale pour la validit du rsultat :
var ( Y ) = var ( X 1 + X 2 + + X n )
= var ( X 1 ) + var ( X 2 ) + + var ( X n )
= n var ( X ) = np ( 1 p )
On obtient le rsultat :
var ( Y ) = npq
On pourra comparer ce dernier rsultat avec celui du II.B obtenu pour
une loi hypergomtrique, cas dune somme de variables alatoires de Bernoulli non indpendantes.
La proprit suivante est intressante en pratique.
Proprit 1
Si Y suit une loi (n ; p), alors n Y suit une loi (n ; 1 p)
187
En effet, nous avons vu que Y reprsente le nombre de fois, sur n individus, o on a observ lun des termes de lalternative, celui de probabilit p.
Il sensuit que ( n Y) est le nombre des autres rsultats, ceux correspondant
une probabilit lmentaire (1 p). Or, il serait tout fait possible de recoder les deux termes de lalternative, en dfinissant une nouvelle variable de
Bernoulli prenant la valeur 1 avec la probabilit (1 p) et la valeur 0 avec la
probabilit p. La somme de ces n nouvelles variables alatoires reprsente de
nombre dpreuves (parmi les n ralises) qui donnent le rsultat de probabilit (1 p), cest--dire la variable alatoire ( n Y) que nous tudions.
Cest une somme de variables alatoires de Bernoulli, indpendantes et de
mme paramtre (1 p). Do le rsultat annonc.
La construction du schma binomial par les variables de Bernoulli justifie
dautre part la notation (1 ; p) adopte parfois pour dsigner un ala de
Bernoulli de paramtre p.
Une variante de la loi binomiale est la loi dite binomiale en proportion .
On a vu quune loi binomiale caractrise le nombre de rsultats cods 1 dans
une succession dpreuves de Bernoulli (dont le nombre est fix lavance)
indpendantes. Dans un certain nombre de circonstances, on sintresse plutt la proportion des rsultats cods 1. Or si Y est le nombre des rsultats
cods 1 dans une suite de n preuves de Bernoulli indpendantes, Y/n est la
frquence relative ou proportion.
Lorsque Y prend une valeur quelconque k comprise entre 0 et n, Y/n prend
la valeur k/n et rciproquement. Les deux vnements quivalents { Y = k} et
{Y/n = k/n} ont ainsi la mme probabilit. La loi de Y/n est dfinie par ses
valeurs et les probabilits correspondantes :
Valeur de Y/n
Probabilit
1/n
2/n
n
( 1 p ) n np ( 1 p ) n 1 p 2 ( 1 p ) n 2
2
k/n
n
n
p k ( 1 p ) n k p
k
188
Diagramme
en btons
Fonction
de rpartition
n pk + 1( 1 p )n k 1
n!
----------------------------------------------- p
k
+
1
P( X = k + 1)
( k + 1 )! ( n k 1 )!
-------------------------------- = ------------------------------------------------------------ = --------------------------------------------------P( X = k )
n!
n
pk ( 1 p )n k
------------------------ ( 1 p )
k
k! ( n k )!
(n k) p
= ---------------------------------(k + 1)(1 p)
Cette formule permet de calculer successivement les probabilits individuelles, en partant de P(X = 0) = (1 p)n
Exemple
Aprs une lection deux candidats A et B, cest A qui lemporte avec
un score de 52 %. On suppose que le nombre dlecteurs qui se sont
exprims est lev.
On cherche dterminer la probabilit quun sondage prlectoral
portant sur 50 lecteurs ait donn une majorit de suffrages pour
B
(cest--dire un rsultat loppos de la ralit des intentions de vote de
la population).
189
190
B. Le schma hypergomtrique
Dans le schma binomial, on rpte une preuve de Bernoulli n fois, mais de
telle faon que les preuves soient indpendantes.
Cette condition peut paratre peu raliste. En pratique lorsquon tire un
chantillon de taille n dans une population de taille N(n < N), le bon sens veut
quon ne prenne pas 2 fois le mme individu, ce qui quivaut tirer lchantillon sans remise (on parle encore de tirage exhaustif). Les variables alatoires de Bernoulli associes aux diffrents lments de lchantillon, et
indicatrices de la prsence ou de labsence dun caractre donn, sont, du fait
du tirage sans remise, mutuellement dpendantes.
La variable alatoire Y gale au nombre dindividus de lchantillon possdant le caractre considr est dans ce cas somme de n v.a. de Bernoulli
dpendantes, et de mme paramtre.
Notons p, la proportion dindividus dans la population (dont on dsigne
la taille par N) possdant le caractre tudi, et tudions la loi de cette variable alatoire Y dabord en ce qui concerne les valeurs possibles, puis pour ce
qui est des probabilits associes.
Le nombre dindividus de la population possdant le caractre tudi est
gal Np, et le nombre de ceux qui ne le possde pas est gal Nq. Le nombre
maximum dindividus de lchantillon possdant le caractre tudi ne peut
tre suprieur ni la taille de lchantillon, ni Np. Par consquent, la valeur
maximum de Y est gale min( n, Np). Le nombre minimum dindividus de
lchantillon possdant le caractre tudi est, bien entendu, au moins gal 0,
mais aussi au moins gal ( n Nq). En effet, si le nombre dindividus ne
possdant pas le caractre tudi, soit Nq, est plus petit que la taille n de
lchantillon, on aura au moins (n Nq) individus qui possderont le caractre
tudi dans lchantillon. Il sensuit que le nombre minimum dindividus de
lchantillon possdant le caractre tudi est gal max(0, n Nq).
La variable alatoire Y peut prendre toutes les valeurs entires comprises
entre :
max(0, n Nq) et min(n, Np)
Pour le calcul de P(Y = k), k tant lune des valeurs possibles entre
max (0, n Nq) et min(n, Np), on peut utiliser la mthode combinatoire classique et calculer le rapport du nombre des occurences favorables au nombre
des occurences possibles.
Les occurences possibles sont reprsentes par le nombre dchantillons
de taille n quon peut extraire sans remise dune population de taille N, cest-dire . N
n
191
192
P(Xi = 0) = 1 p = q
On suppose que les preuves sont rptes indpendamment les unes des
autres. On dsigne par Y le nombre total dpreuves ralises jusqu
lobtention du premier rsultat lmentaire de probabilit p. Il est clair
que Y peut prendre toute valeur entire au moins gale 1 (cest--dire strictement positive), et que ces valeurs peuvent tre aussi grandes que lon veut.
Nous rencontrons ici pour la premire fois une variable alatoire dont le nombre de valeurs possibles est infini.
Cette dfinition doit tre bien comprise, car dans certains cas on sintresse au nombre Z dpreuves prcdant la premire ralisation du rsultat de
probabilit p, et on a bien sr : Z = Y 1
Pour ce qui concerne la variable alatoire Y, si le rsultat cod 1 se produit
pour la 1re fois la ke preuve, cela signifie que les (k 1) premires preuves
ont produit le rsultat complmentaire cod 0 de probabilit q. En raison de
lindpendance des preuves on a :
P( Y = k ) = q q q p = qk 1 p
P(Xi = 1) = p
(k 1) fois
193
P(Y n) =
n1
qk 1 p = p
k=0
k=1
1 qn
= p -------------- = 1 q n
1q
On calcule aussi :
E(Y) =
k qk 1 p = p
k=1
k qk 1 = p
k=1
-(q )
----dq
k
k=1
d k
d
----q
(
)
q k
E(Y ) = p
= p ------
dq
dq k = 1
k=1
d
q
1
1
= p ------ ------------ = p -------------------2 = --dq 1 q
(1 q)
p
On calcule de mme le moment dordre 2 :
E(Y 2) =
qk 1
k=1
k=1
= p
k 2 qk 1 p = p .
k ( k 1 ) + k q
k1
= p
k=1
k(k 1)q
k 2q
+p
k=1
kq
k1
k=1
Le second terme de lexpression obtenue nest autre que E(Y). Pour le premier terme, on remarque que :
k ( k 1 )q k 2 q = p q
k ( k 1 )q
k2
k=1
k=1
= pq
k(k
1 )q k 2
k=2
= pq
d2
-(q )
------dq
k=2
car encore une fois la double drivation sous le signe somme est licite en
raison de la convergence absolue de la srie.
On obtient :
d 2-
q k
k ( k 1 )q k 2 q = p q ------
2
dq k = 2
k=1
2q
d 2 q2
2
= p q --------2 ------------ = p q -------------------3 = -----2
dq 1 q
(1 q)
p
194
et par consquent :
2q 1
q+ p+q
q+1
2q + p
- = --------------------- = ----------E ( Y 2 ) = -----2- + --- = --------------2
2
p
p
p2
p
p
On dduit la variance dune variable alatoire de loi gomtrique :
q+1 1
q
var ( Y ) = ----------- -----2 = -----2
p2
p
p
Dans ltude de la modlisation des situations concrtes de ce type, on
doit faire trs attention de prciser si on sintresse au nombre total
Y
dpreuves alternatives ralises jusqu lobtention du premier rsultat lmentaire de probabilit p (cas tudi), ou si on sintresse au nombre
Z
dpreuves lmentaires de probabilit (1 p) ralises jusqu lobtention
du premier rsultat de probabilit p.
Comme nous lavons dj mentionn Z = Y 1. Les valeurs possibles de
Z sont toutes les valeurs entires positives ou nulle, alors que les valeurs possibles de Y sont toutes les valeurs entires strictement positives. La relation
entre Y et Z implique quon peut calculer les probabilits associes Z partir de celles de Y :
P( Z = k ) = P( Y = k + 1 ) = qk p
P( Z n ) = P( Y n + 1 ) = 1 qn + 1
Lesprance mathmatique de Z est gale celle de Y diminue dune
unit :
1p
q
E ( Z ) = E ( Y 1 ) = E ( Y ) 1 = --1- 1 = ------------ = --p
p
p
alors que les variances de Y et Z sont gales :
q
var ( Z ) = var ( Y 1 ) = var ( Y ) = -----2
p
En rsum
195
Exemple
196
probabilit quune pice prise au hasard soit dfectueuse est gale 0,05
(chapitre 5). On peut supposer les tirages indpendants en raison de la
grande taille de la population (ici la production).
Le schma binomial est ici adapt puisquon recherche la probabilit
dun nombre donn de dfectueux sur un chantillon de taille fixe.
Pour cette loi (20 ; 0,05), on a P(X = 0) = (0,95)20 = 0,3585
Si dautre part, on cherche calculer la probabilit que le premier dfectueux ne soit pas lune des 20 premires pices, on gardera la modlisation des units statistiques par les alas de Bernoulli de paramtre 0,05
toujours supposs indpendants pour les mmes raisons. Mais le nombre de pices tudies ntant plus donn, ce nombre devient lala dont
on a besoin de dterminer la loi de probabilit.
Soit Y le nombre de pices observes jusqu lobtention de la premire
pice dfectueuse. La variable alatoire Y est une variable alatoire distribue selon une loi gomtrique de paramtre 0,05 ; par consquent :
P ( Y 21 ) =
0,95
k1
0,05 = 0,05
k 21
k 21
0,95
20
P ( Y 21 ) = 0,05 0,95
0,95
k1
= 0,05
0,95
j 20
j0
20
20
1
= 0,05 0,95 ------------------- = 0,95 = 0,3585
1 0,95
Remarque
Les lois binomiale, hypergomtrique, gomtrique et de Pascal sont
donc toutes construites sur la base de la rptition dpreuves deux
197
issues (ou preuves de Bernoulli). lexception de la loi hypergomtrique, elles se placent toutes dans un contexte dpreuves indpendantes dont la caractristique p (probabilit de lissue de lalternative
quon cherche observer) est constante au cours du temps.
Ceci correspond une notion trs dveloppe dans la modlisation des
phnomnes dpendant du temps, savoir la stationnarit. Cette proprit nest pas systmatiquement rencontre, et il faut apporter la plus
grande attention lanalyse de cette hypothse dans toutes les situations quon cherche reprsenter.
Beaucoup de cas ne correspondent pas en effet une succession stationnaire dpreuves de Bernoulli indpendantes. Nous avons vu que lindpendance stricto sensu pouvait quelquefois servir de reprsentation
approche des tirages exhaustifs (pour un taux de sondage suffisamment faible), mais on devra soigneusement analyser le contexte pour
reconnatre sil est celui dune parfaite stationnarit (cest--dire de
constance dans le temps du paramtre p des preuves de Bernoulli successives), sil est celui dune stationnarit approximative, ou si cette condition ne peut tre suppose (auquel cas les outils mettre en uvre sont
plus complexes et dbordent du propos de cet ouvrage).
Le tableau suivant rsume de faon synthtique les principaux modles construits partir de litration du schma de Bernoulli.
Loi
Nombre
ditrations
Valeur
minimale
Valeur
maximale
Type
de tirage
Esprance
Variance
Bernoulli
fix
sans
p(1 p)
Binomiale
fix
indpendant
np
np(1 p)
Hypergomtrique
fix
max(0, n Nq)
min(n, Np)
exhaustif
np
Nn
np ( 1 p ) ------------N1
Gomtrique
alatoire
sans
indpendant
1
--p
1 p
-----------p2
Pascal
alatoire
sans
indpendant
K
---p
K (1 p)
---------------------p2
198
A. Dfinitions et proprits
Dfinition
Une variable alatoire X ayant pour valeur possible tout nombre entier
positif ou nul, et telle que :
mk
P ( X = k ) = e m -----k!
pour tout k 0 entier, est dite distribue selon une loi de Poisson1 de paramtre m, m tant un nombre rel strictement positif.
On remarque tout de suite quune telle variable alatoire prsente une diffrence essentielle avec les variables de Bernoulli ou binomiales, car elle est
discrte, mais non finie (cest--dire ici que les valeurs possibles ne sont pas
limites suprieurement). Nous avons dj rencontr cette situation avec la
loi gomtrique et la loi de Pascal.
Il sagit bien dune distribution de probabilit car, il est facile de le constater que :
toutes les probabilits sont positives ;
la somme des probabilits est gale 1, compte tenu de lexpression de
la srie exponentielle :
mk
mk
e m ------ = e m
P( X = k ) =
------ = e m . e m = e 0 = 1
k!
k!
k0
k0
k0
k P( X = k ) = k e
k0
k0
mk
-----k!
mk
mk
k ------ = e m
k -----= e m
k!
k!
k0
k1
m mk 1
-------------------( k 1 )!
k1
= m e m
mk 1
-----------------( k 1 )!
k1
199
mj
-----j!-
= m e m e m = m
j0
P( X = k ) =
k0
= e m
k0
k0
mk
e m -----k!
mk
k 2 ----- ------ = e m
k!
k!
k1
mk
car le l er terme de la srie tant nul, on peut commencer cette somme pour
k=1
On obtient ensuite :
E ( X 2 ) = e m
mk
k 2 ------ = e m
k!
k1
mk
( k ( k 1 ) + k ) -----k!
k1
= e m
mk
-+
k
{ k ( k 1 ) } ----k!
k1
k1
mk
------
k!
mk
mk
k ( k 1 ) ------ + m
k ( k 1 ) ------ + m = e m
k!
k!
k2
k1
= e m
soit :
m2 mk 2
----------------------- + m
( k 2 )!
k2
E ( X 2 ) = m 2 e m
mk 2
+m
-----------------( k 2 )!
k2
var ( X ) = E ( X 2 ) E ( X ) = m 2 + m m 2 = m
200
k
k m m
------
u e
k!
k0
= e m
( um ) k
------------k!
= e m e um = e m ( 1 u )
k0
= k
U ({ X
= 0
i=k
P({ X
= i } { X 2 = k i } )
= i} { X2 = k i})
i=0
i=k
P({ X
i=0
donc :
P(Y = k ) =
i=k
P( X 1 = i) P( X 2 = k i) =
i=0
mi
m 2k i
e m1 -----1- e m2 ---------------i!
(
k
i
)!
i=0
i=k
soit :
P(Y = k ) = e
( m1 + m2 )
i=k
i=0
( m + m ) i = k
m 1i m 2k i
e 1 2
k!
---------------------- = ----------------------------------------- m 1i m 2k i
k! i = 0 i! ( k i )!
i! ( k i )!
201
( m1 + m2 )
( m1 + m2 ) k
------------------------k!
Remarque
Ce rsultat peut stendre une somme finie de variables alatoires
indpendantes distribues toutes selon des lois de Poisson .
Il existe une forme rciproque de cette proprit.
Proprit 2
202
B. Abord statistique
Daprs les proprits qui viennent dtre montres, on remarque quil est
justifi denvisager une loi de Poisson comme un modle reprsentatif de
donnes statistiques discrtes pour lesquelles la variable ne prend que
des valeurs entires, positives ou nulle, et pour lesquelles :
la moyenne et la variance sont sensiblement gales ;
fk
- de 2 frquences conscutives sont inversement
les rapports ---------fk 1
proportionnels k
Il est frquent que cette dernire condition ne soit vrifie que pour les
faibles valeurs de k. Dans la pratique, on accorde moins dimportance aux
entorses cette proprit pour les queues de distribution.
Enfin, on prendra garde de bien noter quil ne sagit l que dune indication. Il
est indispensable de justifier le choix dun modle par un jugement dadquation.
C. Abord probabiliste
Il sagit maintenant de poser la loi de Poisson comme modle dune preuve
alatoire avec laide dune analyse raisonne de cette preuve. Un rsultat est
ncessaire cette dmarche.
Proprit 4
203
deux np, mais les variances respectivement gales npq pour la loi binomiale et np pour la loi de Poisson sont proches puisque q 1. La valeur de
lapproximation apparat bien lie la faible valeur de p
Bien videmment, par symtrie, et en particulier en tenant compte de la
proprit 2 vue au II.A, pour une variable X suivant une loi (n ; p) o
n > 50 et p > 0,9, cette approximation sera applique la variable ( n X) qui
suit une loi (n ; 1 p)
Lorsquun vnement a une faible probabilit ( p < 0,1) dapparition lors
dune preuve lmentaire, et si on rpte cette preuve un grand nombre de
fois (n > 50), le nombre total de ralisations de lvnement considr suit
peu prs une loi de Poisson de paramtre np. Les graphiques de la figure 6.3a
et 6.3b montrent la comparaison entre les diagrammes en btons de plusieurs
lois binomiales et des lois de Poisson qui sont proposes comme approximation. On retrouve en examinant ces graphiques que plus p est petit, meilleure
est la qualit de lapproximation.
Pour cette raison, la loi de Poisson a t appele la loi des petites probabilits, ou loi des faibles occurences, ou loi des phnomnes rares .
0,18
0,18
(60 ; 0,1)
0,16
0,16
0,14
0,14
0,12
0,12
(6)
0,10
(60 ; 0,15)
(9)
0,10
0,08
0,08
0,06
0,06
0,04
0,04
0,02
0,02
0,00
0,00
0,10
0,09
0,08
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0,00
0,10
0,09
0,08
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0,00
(100 ; 0,4)
(40)
(100 ; 0,25)
204
(25)
0,25
0,6
0,5
0,4
(60 ; 0,05)
0,20
(60 ; 0,01)
0,15
0,3
(3)
0,10
0,2
(0,6)
0,05
0,1
0,00
0,0
0,14
(100 ; 0,1)
0,12
0,10
0,08
0,06
0,04
0,02
0,00
(10)
0,20
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
(100 ; 0,05)
(5)
205
Les tables de la loi de Poisson ( cf. annexe IV) donnent les valeurs de la
fonction de rpartition pour les valeurs du paramtre :
entre 0 et 1 par pas de 0,1
entre 1 et 10 par pas de 0,5
entre 10 et 25 par pas de 1
Comme pour la loi binomiale, lusage des tables est limit certaines
valeurs du paramtre. On peut utiliser quelques pas de programme pour tous
les calculs (annexe II).
Toutefois, lorsque m dpasse 25, on utilise lapproximation par la loi de
Gauss et la correction de continuit (chapitre 7).
La loi de Poisson de paramtre m est une loi caractrise par lgalit
de sa moyenne et de sa variance, et dont les probabilits pk croissent tant
que k < m, puis dcroissent. Elle peut tre envisage comme une approximation de la loi binomiale, donc comme la loi approche de la somme
dun grand nombre (n > 50) dalas de Bernoulli indpendants reprsentant une alternative dont lune des issues est de probabilit trs faible
(p < 0,1). Elle est ainsi directement postule comme modle reprsentatif du nombre doccurences au cours du temps pour un vnement
particulirement peu probable, mais dont la probabilit de survenue est
stable.
On ajoutera encore quil sagit dun modle particulirement utilis en
pratique dans la gestion des files dattente notamment, et qui est lorigine
de dveloppements trs importants dans lanalyse des sries dvnements
(processus poissoniens).
On noubliera pas :
1. Que la loi de Bernoulli reprsente toute situation dalternative dans
laquelle une issue est code 0 et lautre code 1
2. Que la loi binomiale correspond la somme dun nombre fix de
variables alatoires de Bernoulli de mme paramtre et indpendantes
(donc un tirage avec remise)
3. Que la loi hypergomtrique correspond la somme dun nombre
fix de variables alatoires de Bernoulli de mme paramtre, mais dans
un tirage sans remise
4. Que la loi gomtrique correspond la somme de variables alatoires de Bernoulli de mme paramtre et indpendantes, mais en nombre
alatoire
5. Que la moyenne et la variance dune variable alatoire de Poisson
sont gales
206
La socit Alpha a vendu deux machines de pesage la socit Beta qui est une
socit de prestations de services. La Socit Beta loue ces machines la journe. Le
prix de location lui laisse, par jour et par machine, une marge brute de 20 . Chaque
machine est immobilise 1 jour sur 10 au hasard, pour rglage et contrle.
1. Donnez, en la justifiant, la loi de la variable alatoire Y gale au nombre de machines disponibles un jour quelconque.
2. Par ailleurs, on admet que le nombre dentreprises dsirant louer une machine
pour une journe est une variable alatoire Z ainsi dfinie :
Valeurs de Z
Probabilit
0,1
0,2
0,4
0,3
207
208
209
Exercice 6.9
Le nombre de vhicules se prsentant au page A de lautoroute du Soleil pendant
un certain intervalle de temps T est suppos suivre une loi de Poisson de paramtre 3,
et le nombre de vhicules se prsentant au page B de la mme autoroute pendant le
mme intervalle de temps est suppos suivre une loi de Poisson de paramtre 2.
1. Dterminez la loi du nombre de vhicules se prsentant lun ou lautre des deux
pages pendant un laps de temps T en prcisant lhypothse ncessaire.
2. Calculez la probabilit que 8 vhicules se prsentent lun ou lautre des deux
pages pendant un intervalle de temps T.
3. Sachant que 8 vhicules se sont prsents lun ou lautre des deux pages, quelle
est la probabilit quil y en ait eu 5 au page A (toujours pendant un mme laps
de temps T) ?
Daprs examen de juin 2006, DUGEAD 1re anne Paris-Dauphine
Exercice 6.10
Les donnes suivantes, bases sur les annales de dix corps de larme prussienne sur
une priode de vingt ans la fin du XIXe sicle, rendent compte du nombre de cavaliers tus par une ruade de cheval au cours dune anne.
Nombre de dcs xk
100
11
12
5 ou +
109
65
22
210
7. Les principaux
modles statistiques
continus
I.
Dfinition
si
si
x [a, b]
x [a, b]
1 =
f ( x ) dx = k dx
R
= k(b a)
1
k = ----------ba
211
Lintervalle sur lequel la densit nest pas nulle est ncessairement fini.
Cette contrainte apparat tout fait naturelle si on interprte la probabilit
comme une masse.
Dautre part,
x
FX ( x ) =
f ( t ) dt
f ( t ) dt =
1
x a0 dt + ------------ dt = ----------ba
ba
et enfin si
x
f ( t ) dt
x b, F X ( x ) =
1
a
0 dt + ------------ dt + 0 dt = b----------- = 1
ba
ba
(i)
(ii)
1
1/ (b-a)
a
Figure 7.1 Densit (i) et fonction de rpartition (ii) de la loi uniforme continue
xf ( x ) dx =
x
1 2 a2
b+a
------------ dx = ------------ b---------------- = ----------ba
ba 2
2
et plus gnralement :
b
k
1
bk + 1 ak + 1
1
E ( X ) = ------------ x k dx = ------------ ---------------------------ba
k+1
ba
212
et par consquent :
1
E ( X 2 ) = --- ( b 2 + ab + a 2 )
3
b a )2
2 ( X ) = E ( X 2 ) ( E ( X ) ) 2 = (-----------------12
On note que la loi uniforme continue est symtrique, et que par consquent,
sa mdiane et sa moyenne sont confondues au milieu de lintervalle [
a, b ].
Comme pour la loi uniforme discrte, ce rsultat est naturel compte tenu de
lquiprobabilit. Le calcul du coefficient dasymtrie 1 de Fisher retrouve
cette proprit puisque 1 = 0. On notera que cette distribution na pas de
mode au sens strict.
Les fractiles de la loi uniforme continue sont trs aisment calculables,
comme pour toute distribution continue dont la fonction de rpartition
sexprime analytiquement, et ici le calcul est particulirement simple. En
effet le fractile x dordre est dfini par FX (x) = . Il correspond :
x a
------------- = , soit x = a + ( b a )
ba
On retrouve la valeur de la mdiane, gale la moyenne, soit :
1
b+a
x 0,5 = a + --- ( b a ) = ----------2
2
Il faut remarquer que pour cette loi, la probabilit de voir une ralisation
appartenir un intervalle donn ne dpend que de la longueur de cet intervalle, et quelle ne dpend pas de la position de cet intervalle. Deux intervalles de mme longueur auront la mme probabilit, condition quils soient
tous deux inclus dans [ a, b ], domaine de dfinition de X.
Compte tenu de la symtrie de cette loi, on peut aussi adopter la dfinition
suivante.
Une variable alatoire X est uniforme continue sur [ a h, a + h] si sa
densit est dfinie par :
1
-----f ( x ) = 2h
0
si x [a h, a + h]
si x [a h, a + h]
Lquivalence des deux dfinitions est laisse au lecteur. Cest, historiquement, cette seconde dfinition qui est lorigine dune grande utilisation de la loi
uniforme continue dans le domaine de la prise en compte des erreurs darrondi 1.
1. On a ainsi pu tudier que la rpartition des erreurs darrondi suit une loi uniforme continue
dans de nombreux cas.
213
Cette distribution uniforme recouvre trs naturellement la notion dquiprobabilit dans le contexte de rpartitions continues, et elle a t probablement
utilise comme telle avant le XVIIIe sicle, date des premiers crits la concernant.
La loi uniforme continue est, en raison de son lien avec lquiprobabilit,
lorigine de multiples modlisations (en sociologie, conomie, gestion de flux,
gestion de stocks, biologie, physique). On doit galement mentionner son intrt pour la simulation 1 des modles, quel que soit le domaine dapplication. Le
rsultat fondamental sur lequel reposent ces simulations est le suivant.
Thorme
Soit X une variable alatoire continue dont la fonction de rpartition
F(x) est suppose bijective. Alors la variable alatoire Y = F(X) suit une loi
uniforme continue sur [0 ; 1].
En effet, la fonction F tant bijective et monotone, elle admet une rciproque quon note F1. Si on crit la fonction de rpartition de Y, on obtient :
P(Y < y) = P(F(X) < y) = P(X < F1(y)) = F[F1(y)] = y
ce qui prouve le rsultat annonc.
Partant donc dune ralisation y de variable alatoire distribue selon une
loi uniforme sur [0 ; 1], on peut reconstruire une ralisation x de variable alatoire X de fonction de rpartition F donne en calculant x = F1(y). Connaissant
des ralisations de loi uniforme discrte, il est possible dobtenir des ralisations pour une loi quelconque partir du moment o on connat sa fonction
de rpartition (analytiquement ou avec ses valeurs point par point).
Cette mthode extrmement simple dans son principe (et base sur un rsultat lmentaire) permet une trs grande quantit dapplications, que ce soit
entre autres pour la simulation de modles rels (flux, stocks) ou pour ltude
de phnomnes alatoires dont la distribution nest pas connue a priori .
B. La loi exponentielle
Dans ce paragraphe, on prsente la loi exponentielle sous son aspect le
plus simple, sans tenir compte de la famille de lois dans laquelle elle se place.
Afin de ne pas donner un contexte trop abstrait et mathmatique, on ne parlera pas des lois gamma et des proprits qui en dcoulent pour la loi exponentielle. Toutefois, en conclusion de ce paragraphe, on mentionnera les
relations de ce modle exponentiel avec des modles correspondant des
schmas prcis didentification. Le but de cette prsentation tant essentiellement de comprendre la nature des phnomnes alatoires pour lesquels on
envisage une reprsentation de type loi exponentielle ou drive de ce type.
1. Une prsentation simple de la simulation, avec des exemples, est donne lannexe III.
214
Dfinition
1,6
1,2
=1
0,8
0,4
0
=2
=1
=2
Les situations usuelles correspondent au choix de = 0, ce que nous garderons pour la suite, en prenant pour densit la fonction :
1
--- e x/
f ( x) =
0
si x 0
si x < 0
si x < 0
si x 0
k
1
E ( X ) = --- x k e x/ dx
215
k
1
E ( X ) = --- ( t ) k e t dt = k t k e t dt
Ik =
t k e t dt = [ t k e t ] 0 + k t k 1 e t dt = k I k 1
0
1. On notera que cette intgrale Ik nest autre que la valeur de la fonction eulrienne classique
gamma pour lentier ( k + 1), soit (k + 1).
2. Le terme valeur ici ne doit pas prter confusion et concerne en toute rigueur un intervalle infiniment petit entourant une valeur ponctuelle ; ce terme est utilis ici pour ne pas
alourdir inutilement la prsentation.
216
x > 0 , x 0 > 0
On peut montrer que cette condition implique que X suit une loi de type
exponentiel.
Ces modles de dure de vie sont particulirement utiliss en conomie
du travail et dans ltude de lamortissement des investissements, mais aussi
bien entendu en fiabilit des matriels et en mdecine.
Parmi les autres domaines dapplication de la loi exponentielle, on citera
la dmographie et les files dattente.
Les deux proprits suivantes (donnes sans justification ni dmonstration)
peuvent tre utiles pour lidentification dune distribution exponentielle :
1. Si X1 et X2 sont deux variables indpendantes absolument continues telles que V = min(X1, X2) et W = (X1 X2) soient indpendantes, alors X1 et X2
sont des variables alatoires exponentielles de mme paramtre , mais pouvant avoir des carts-type 1 et 2 diffrents.
2. Si X1 et X2 sont deux variables de mme distribution absolument cont inue,
X1
et si T = -----------------suit une loi uniforme continue sur [0 ; 1], indpendante
X1 + X2
de ( X1 + X2), alors X1 et X2 sont distribues selon une loi exponentielle de
mmes paramtres = 0 et .
Lcriture trs simple de la fonction de rpartition :
0
F( x) =
1 e x/
si x < 0
si x 0
rend tous les calculs trs simples avec une petite calculatrice.
Ainsi pour la loi exponentielle de paramtre = 2, on peut calculer la
valeur du premier dcile D1 tel que F(D1) = 0,1, do exp( D1/2) = 0,9 et
D1 = 0,21072
De mme, la valeur du premier quartile Q1 est telle que F(Q1) = 0,25, do :
exp( Q1/2) = 0,75 ou encore Q1 = 2ln(0,75) = 0,57536
De mme encore, la valeur de la mdiane Q2 est telle que F(Q2) = 0,5, do :
Q2 = 2ln(0,5) = 1,386
217
0,8
0,6
0,4
0,2
f(x)
0
0 D1
Q1
Q2
X
j
j=1
dans laquelle les Xj (j = 1, 2, , n) sont indpendantes, toutes de loi exponentielle standard, et o les j sont tous distincts.
218
Une variable alatoire suit une loi normale centre rduite si elle peut
prendre toute valeur relle et si sa densit de probabilit est donne par :
1
f ( x ) = ----------exp ( x 2 /2 )
2
Cette fonction de densit est une fonction paire, et son graphique admet
laxe des ordonnes comme axe de symtrie. Il y a un maximum pour x = 0
qui correspond au mode de cette distribution. Compte tenu de deux points
dinflexion, le graphique est simple tracer et prsente lallure caractristique connue sous le nom de courbe en cloche (cf. figure 7.4).
-4
-3
-2
-1
exp ( t /2 )dt
2
219
t exp ( t /2 ) dt
2
= 0
1
= ---------- [ t exp ( t 2 /2 ) ] +
exp ( t 2 /2 ) dt
+
2
puisque le second membre nest autre que lintgrale de la densit sur
lensemble des rels.
Ce rsultat justifie le nom de variable rduite.
Cette distribution de probabilit possde une moyenne gale 0. Le graphique tant symtrique par rapport laxe des ordonnes (parit de la densit), on a une surface totale (gale 1) comprise entre la courbe et laxe des
abscisses, partage en deux parties gales par laxe vertical (soit 0,5 gauche
et 0,5 droite). La mdiane de cette distribution est aussi gale 0. Enfin, le
sommet de la cloche est au point x = 0
Proprit 1
Pour la loi normale centre rduite , la valeur 0 reprsente la fois la
moyenne, la mdiane et le mode.
220
xb
P U < -----------
a
FX ( x ) = P ( X < x ) = P ( aU + b < x ) =
x b
1 P U < ----------a
xb
---------- 1
a
exp ( t 2 /2 ) dt
---------
2
FX ( x ) =
xb
----------
1
a
exp ( t 2 /2 ) dt
1 ---------
si
a>0
si
a<0
si
a>0
si
a<0
221
E(Y) = am + b et var( Y) = a22 (lcart-type de Y valant a ), Y est distribue selon une loi normale (am + b ; a ).
Xm
En particulier, on peut construire la variable -------------- de moyenne nulle et
Xm
dcart-type gal 1 ; on dit alors que -------------- est la variable normale centre
rduite dduite de X. Cest elle qui permet de faire aisment tous les calculs
relatifs X ( II.C).
Rciproquement, toute v.a. X distribue selon une loi de Gauss (m ; )
peut scrire X = U + m o U est une variable alatoire distribue selon une
loi de Gauss centre rduite.
Ltude de la densit
( x m )2
1
-
fX ( x ) = --------------exp ------------------2 2
2
222
variance=0,25
variance=4
variance=1
223
soit,
Xm
Xm
P ( X m > k ) = P -------------- < k + P -------------- > k
Xm
La variable -------------- tant centre rduite, sa fonction de rpartition est
= 1 FU ( k ) + 1 FU ( k ) = 2 ( 1 FU ( k ) )
Nous verrons au II.C la pratique de la lecture des tables. Nous admettrons pour le moment les diffrentes valeurs de FU(k) suivantes :
k
0,5
1,5
2,5
FU(k)
0,6915
0,8413
0,9332
0,9772
0,9938
0,9987
224
0,5
1,5
2,5
P ( X m > k )
0,6170
0,3174
0,1336
0,0456
0,0124
0,0026
225
i=1
2
i
i=1
(m ; )
Xm
U = ------------
(0 ; 1)
226
Exemple
Par exemple si U suit une loi (0 ; 1), on lit directement lintersection
de la ligne correspondant 0,3 et de la colonne correspondant 0,08 :
P(U < 0,38) = 0,6480
et de mme lintersection de la ligne portant 1,9 et de la colonne
portant 0,06 :
P(U < 1,96) = 0,9750
Pour une loi normale quelconque X, la procdure est presque identique. Il
faut simplement se ramener une loi normale centre rduite U, selon
Xm
U = ------------
X m a m
si {X < a}, alors { X m < a m} et U = -------------- < -------------
a m
mais aussi rciproquement si U < ------------- , alors { X < a}
a m
Les vnements { X < a} et U < ------------- tant identiques, ils ont la mme
probabilit. On sest ramen une lecture de table de loi normale centre rduite.
227
Exemples
P(X < 6,24) = P ------------- < ------------------- = P(U < 1,62) = FU (1,62) = 0,9474
2
2
X + 4 suit une loi (0 ; 1)
Si X suit une loi ( 4 ; 5), U = -----------5
X + 4 1,65 + 4
P(X < 1,65) = P ------------- < ------------------- = P(U < 1,13) = FU (1,13) = 0,8708
5
5
On remarque que la table nest donne que pour des valeurs de u (le seuil)
comprises entre 0 et 3,49. Les extensions sont trs simples :
pour une valeur u < 0, on utilise la symtrie de la loi normale centre
rduite (cf. figure 7.7) :
FU ( u) = P(U < u) = P(U > + u) = 1 Pr(U < + u) = 1 FU (+ u)
Par exemple, pour une variable X distribue selon une loi (4 ; 2) calculons P(X < 2) :
X4
P ( X < 2 ) = P ------------- < 1 = F U ( 1 ) = 1 FU ( 1 ) = 0,1587
2
228
3
3
P( X < 2) P( X < 0)
= -------------------------------------------------- = -------------------------------------------------------1 P ( X < 2 )
21
1 F U ----------------
3
2FU ( 0,33 ) 1
FU ( 0,33 ) FU ( 0,33 )
- 0,31
= ----------------------------------------------------- = ---------------------------------FU ( 1 )
1 FU ( 1 )
On remarquera ce stade que pour les probabilits dintervalles, il est
indiffrent de considrer des intervalles ferms, ouverts ou mixtes puisque la
probabilit dun point pour une v.a. continue est nulle (comme on la vu au
chapitre 5, II.B).
229
Pr (U<u)
Pr (U>u)=1Pr (U<u)
Un calcul trs frquent est celui de P ( U < u ) , avec u > 0. Nous sommes
dans le cas dintervalles symtriques par rapport la moyenne ( cf. figure 7.7),
ce qui revient chercher :
P( u < U < + u) = P(U < + u) P(U < u), or P(U < u) = 1 P(U < u)
On a le rsultat : P ( U < u ) = 2P ( U < u ) 1 = 2FU ( u ) 1
Par complmentarit, on obtient galement :
P ( U > u ) = 1 P ( U < u ) = 2 [ 1 FU ( u ) ]
Par exemple :
230
2,28 % (= 4,56 % / 2)
15,87 % (= 31,74 % / 2)
Dans ce domaine gaussien, la valeur 1,96 est retenir, car elle correspond
95 % des observations, ou par complmentarit,
231
232
Enfin, nous mentionnons lexistence (et lutilisation) de la table dite de lcartrduit. Elle permet de lire les quantits P ( U > u ) , autrement dit les probabilits
pour quune gaussienne scarte de sa moyenne de plus de u fois son cart-type.
Cette table prsente un intrt limit, car elle ncessite quelques calculs
complmentaires ds lors que lintervalle auquel on sintresse nest pas
symtrique autour de la moyenne. De plus on sait que
P ( U < u ) = 2 ( 1 FU ( u ) )
et ces probabilits sont en fait immdiates obtenir partir de la table de la
fonction de rpartition sans justifier de table supplmentaire.
233
Le nuage des points saligne sur la premire bissectrice lorsque la distribution thorique propose est une bonne reprsentation des observations. On
doit remarquer que lapprciation de lalignement des points le long de la
bissectrice peut tre considre comme subjective. Toutes les dviations par
rapport lalignement (extrmits prsentant une courbure, points loigns) peuvent tre repres et analyses. En cas dalignement, le type de
modle est alors retenu, et il reste apprcier ses paramtres par une ventuelle translation et/ou inclinaison par rapport la premire bissectrice :
un alignement sur une parallle la premire bissectrice fera voquer
une erreur sur le choix de la caractristique de position (moyenne) de
la distribution thorique ;
un alignement sur une droite passant par lorigine mais incline par rapport la premire bissectrice voquera une erreur sur la caractristique de
dispersion (cart-type) ;
un alignement sur une droite ne passant pas par lorigine et incline par
rapport la premire bissectrice voquera une erreur sur le choix des
caractristiques de position et de dispersion.
Prenons comme illustration lexemple suivant. Un magasin dsire adapter
ses produits sa clientle, et pour cela, tudie le nombre de clients selon lge,
partir dun chantillon de 100 clients. On a obtenu la rpartition suivante :
ge
< 20
[20-25[
[25-30[
[30-35[
[35-40[
[40-45[
[45-50[
50
Nombre
de clients
10
13
17
22
11
12
Peut-on accepter une hypothse de normalit pour lge des clients avec
une moyenne 35 et un cart-type 10,5 ?
On calcule pour la borne suprieure de chaque classe le quantile thorique
dune loi normale centre rduite correspondant la frquence cumule observe,
et on dduit le quantile thorique correspondant la loi normale (35 ; 10,5).
Quantile observ xi
20
25
30
35
40
45
50
Frquence cumule Fi
0,08
0,18
0,31
0,48
0,70
0,81
0,93
0,5244
0,8779
1,4758
40,51
44,22
50,50
25,39
29,79
34,47
Appelons u*i et x*i , les quantiles thoriques (0 ; 1) et (35 ; 10,5) correspondant au ie quantile observ xi
partir du quantile u*i tel que FU ( u*i ) = Fi , on calcule le quantile x*i :
x*i = 10,5 u*i + 35
*
Puisque les points ( x i , xi) sont peu prs aligns le long de la premire
bissectrice ( cf. figure 7.9), lajustement par la loi normale (35 ; 10,5) est
retenu.
234
235
dautre part, des rsultats (dits asymptotiques) qui seront abords ultrieurement donnent de nombreuses v.a. particulires des lois sensiblement gaussiennes
ds lors que leur application est fonde sur de trs grandes sries dobservations.
Trs concrtement, on peut tre conduit poser une hypothse de normalit dans trois grandes situations.
i) Lorsquon a construit un schma binomial o n > 50 et p compris entre
0,4 et 0,6 , on approxime (pour les calculs) par une loi normale (np ; npq).
La condition npq > 18 est quelquefois utilise dans un souci de simplicit.
ii) Lorsquon a un modle de Poisson dont le paramtre m est suprieur
25, on approxime (pour les calculs) par une loi normale (m ; m ).
Dans ces deux cas, la justification rigoureuse de lapproximation ncessite la
connaissance de certaines formules danalyse mathmatique, telles que la formule de Stirling. Nous les admettrons sans dmonstration. Quelques illustrations
de ces approximations et de leurs limites sont donnes aux figures 7.10a et 7.10b.
iii) La somme de n variables alatoires indpendantes, suivant la mme loi,
de moyennes m et dcarts-types suit approximativement une loi normale dont
la moyenne est la somme des moyennes, et lcart-type est la racine carre de la
somme des variances, et ce ds que n est assez grand, soit en pratique n > 30
Lapproximation de la loi binomiale par la loi normale en est un cas particulier de cette dernire situation puisquune v.a. binomiale est la somme de
v.a. de Bernoulli.
Ce rsultat joue un rle essentiel dans toute la statistique classique. Sa
dmonstration est en dehors du cadre de ce livre.
Thorme central-limite (ou de la limite centrale, ou encore de la limite centre)
i=1
236
0,09
(100 ; 0,4)
0,08
0,07
0,07
0,06
0,06
0,05
0,05
(40)
0,04
0,03
0,02
0,02
0,01
0,01
0,00
0,00
(100 ; 0,25)
(25)
(40 ; 4,9)
0,04
0,03
0,10
0,09
0,08
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0,00
(100 ; 0,4)
0,10
0,09
0,08
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0,00
(100 ; 0,25)
(25 ; 4,33)
Figure 7.10a Approximations correctes par la loi de Gauss, incorrectes par la loi de Poisson
Notons encore quun domaine dapplication particulier de la loi normale par cette dernire approche est ltude de la variable alatoire
X1 + X2 + + Xn
X n = ------------------------------------------n
qui, lorsque les variables Xi sont toutes de mme loi et indpendantes
porte le nom de moyenne empirique.
1,
237
0,14
(100 ; 0,1)
0,14
0,12
0,12
0,10
0,10
(10)
0,08
0,08
0,06
0,06
0,04
0,04
0,02
0,02
0,00
0,00
0,20
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
(100 ; 0,05)
(5)
(100 ; 0,1)
0,20
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
(10 ; 3)
(100 ; 0,05)
(5 ; 2,18)
Figure 7.10b Approximations incorrectes par la loi de Gauss, correctes par la loi de Poisson
238
F. Correction de continuit
Une difficult se pose lors de lapproximation dune loi discrte (binomiale
ou Poisson par exemple) par la loi normale qui est continue. En effet, les
probabilits sont concentres en des points pour la loi discrte, alors que la
loi normale affecte la probabilit 0 tout point. Si on a une loi (100 ; 0,4),
comment calculer P(X = 50) partir de la loi normale ?
Lapproximation normale est ici totalement justifie (cest mme un des
meilleurs cas !). Cette probabilit P(X = 50) a une valeur exacte, difficile
calculer (dpassement de capacit), gale 0,0103 ; la loi binomiale, la loi
continue, lui affecte une valeur nulle !
On pallie cette difficult par une correction dite de continuit , de la
faon suivante.
239
Si X est une variable discrte quon approche par une loi normale
et on pose :
k + 0,5 m
k 0,5 m
P ( X = k ) = P ( k 0,5 < X < k + 0,5 ) FU -------------------------- FU --------------------------
loi
i=1
(m ; -----)
n
et caractrise la moyenne des Xi . Cette moyenne empirique permet de justifier plus encore lutilisation de la loi de Gauss.
Dans le mme contexte de gaussiennes indpendantes et de mme loi, la
v.a. Q dfinie par
n
(X
m )2
i=1
Q = -----------------------------2
240
( x m)
( xi m )2
n s n2
n ----------------------------i=1
i=1
----
---------------------------=
=
----------n
2
2
2
dans laquelle on reconnat la variance s n2 de la srie des ralisations. Au facn
teur multiplicatif prs -----2 , la variable Q va dcrire les ralisations de la
(X
m )2
X i m
- =
Q = ----------------------------- ---------------
2
i = 1
i=1
Si X est une v.a. distribue selon une loi (m ; ), alors la loi de la
Xm 2
v.a. -------------- est dite loi du khi-deux 1 degr de libert , note 2 ( 1 )
Proprit
si x 0
0
1. Par le mathmaticien, probabiliste et dmographe franais I. J. Bienaym (1796-1878) entre
1838 et 1852.
241
+ x
----------e
2
t 2 /2 dt
x
+ x
1 t 2 /2
----------e
=
dt
2
----------e
2
t 2 /2 dt
fX ( x ) g Y ( z x )dx =
Y ( y)
fX ( z y )dy
Cette expression qui lie les densits fX (x) et gY (y) des v.a. X et Y est appele
produit de convolution de fX et gY
Appliquons ce rsultat la somme des v.a. X et Y indpendantes et suivant
chacune une loi 2 ( 1 ) :
1 x/2 1/2
----------e x
fX ( x ) = 2
242
si
x>0
si
x0
1 y/2 1/2
----------e y
si y > 0
gY ( y ) = 2
si y 0
0
Ces rsultats permettent dobtenir la densit de la somme Z de deux v.a.
distribues selon des lois :
z
1
h Z ( z ) = ------ x 1/2 e x/2 ( z x ) 1/2 e ( z x )/2 dx
2
1/2
1
= ------e z/2 x ( z x ) dx
1/2
1
= ------e z/2 t ( 1 t ) dt
1
--- e z/2
hZ ( z ) = 2
0
si
z>0
si
z0
si
x>0
si
x0
x > 0 par ( x ) =
et ! ( n ) = ( n 1 )
t
0
x 1 e t dt
1
avec --- =
2
x , ( x ) = ( x 1 ) ( x 1 )
243
1,2
1 ddl
1,0
0,8
0,6
0,4
2 ddl
4 ddl
0,2
8 ddl
0
0
12
244
15
2
0,95
( 10 ) = 18,307
2
0,01
( 8 ) = 1,64
2
0,99
( 6 ) = 16,812
2
0,5
( 30 ) = 29,336
2
0,95
( 40 ) = 55,76
2
0,01
( 40 ) = 22,16
2
0,99
( 30 ) = 50,892
245
0,20
0,18
0,16
0,14
0,12
0,10
4 ddl
8 ddl
0,08
0,06
0,04
0,02
0
0
10 11 12 13 14 15
1/3
2 - 225
P ( 2 ( 25 ) < 14 ) F 14
1 + -------------------- = FU ( 1,770 )
25
2
225
1/3
2 - 225
P ( 2 ( 25 ) < 39 ) FU 39
------ 1 + ---------------- = FU ( 1,789 )
25
2
225
246
B. La loi de Student
Dfinition
2 -----------2
1
t
2
f Tv ( t ) = ------- ------------------------- 1 + --
---
2
Il sagit donc dune densit symtrique par rapport laxe des ordonnes.
On en dduit que T est une v.a. centre :
E(T ) = 0
Le calcul de la variance, ici gale E ( T v2 ), donne pour > 2 :
var ( T ) = ----------2
Lorsque = 1 ou = 2, la loi de Student nadmet pas de variance finie.
La loi de Student 1 ddl est assez particulire. En effet, elle correspond au
quotient de deux gaussiennes centres rduites indpendantes puisque le dnominateur est la racine carre dune loi 2 ( 1 ), cest--dire la racine du carr dune
gaussienne centre rduite. Cette loi T1 porte aussi le nom de loi de Cauchy.
1
1
Sa densit scrit : --- -------------2 . Elle est reprsente sur la figure 7.14, en
1+t
comparaison avec la loi de Gauss centre rduite, par rapport laquelle elle
prsente des queues de distributions trs paisses.
1. Student tait le pseudonyme choisi par le statisticien William Sealy Gosset (1876-1937). Il
fut lun des premiers statisticiens du monde de lentreprise, consacrant sa carrire lindustrie
agro-alimentaire (brasseries) au sein de laquelle il a toujours t reconnu la fois comme
industriel et comme scientifique. Trs associ aussi au monde universitaire, il a largement
contribu au dveloppement scientifique de cette priode.
247
Cauchy
(0 ; 1)
3,5
2,5
1,5
0,5
0,5
1,5
2,5
3,5
Cauchy
(0 ; 1,2533)
3,5
2,5
1,5
0,5
248
0,5
1,5
2,5
3,5
Gauss
Figure 7.16 Convergence de la loi de Student vers la loi de Gauss centre rduite
Sur cette figure, on constatera aussi la relation existant entre les fractiles
t() et u de mme ordre a respectivement pour la loi de Student Tk et pour
la loi (0 ; 1) :
t ( ) < u < 0
t ( ) > u > 0
si
si
< 0,5
> 0,5
De mme, on remarquera que la symtrie de la loi de Student lie les fractiles t() et t1() par la relation : t1() = t()
Le coefficient dasymtrie 1 est bien entendu nul puisque la densit tant
une fonction paire, tous les moments impairs sont nuls. Le calcul du coefficient daplatissement 2 est long, et nous admettrons le rsultat :
6
2 = ------------ valable si > 4
4
Lensemble de ces deux rsultats montre bien laffinit de la loi de Student avec la loi de Laplace-Gauss, mais aussi la limite de cette similitude. En
effet, on retrouve la symtrie de la loi et lallure en cloche de la densit,
mais cest laplatissement aux extrmits qui fait la diffrence (et nous
lavons explicit pour la loi de Cauchy). Cependant, la valeur du coefficient
249
Exemples
le fractile dordre 0,9 dune loi de Student 5 ddl est gal 1,476
le fractile dordre 0,3 dune loi de Student 10 ddl est gal 0,542
le fractile dordre 0,975 dune loi de Student 15 ddl est gal 2,131
le fractile dordre 0,975 dune loi de Student 30 ddl est gal 2,042
le fractile dordre 0,025 dune loi de Student 100 ddl est gal 1,984
Dans les deux derniers cas, les fractiles correspondant de la loi de Gauss
centre rduite sont gaux 1,96 et 1,96. On retrouve bien que lapproximation de la loi de Student par la loi de Gauss est dautant plus valable lorsque le nombre de ddl est lev (en particulier sil dpasse 40).
Comme pour la loi de Gauss et la loi du khi-deux, on dispose de formules
approches, pour la fonction de rpartition ainsi que pour les fractiles, utilises notamment pour les calculs rpts sur ordinateur.
Pour les fractiles, on utilisera lapproximation dite de Fisher et Cornish :
1
1
4
2
t ( ) u + ----- u ( u 2 + 1 ) + -----------u
( 5u + 16u + 3 )
2
96
4
1
6
4
2
+ --------------u
( 3u + 19u + 17u 15 )
384 3
qui donne de bons rsultats mme pour de faibles ddl. Ds que
pourra utiliser la formule beaucoup plus simple :
u
t ( ) u + ------ ( 1 + u 2 )
4
> 30, on
250
n
n
1
Q = --- ( X i m ) 2 -----2 = -----2 V 2
ni = 1
1
V 2 = --- ( X i m ) 2
ni = 1
1
S n2 1 = ------------ X i Xn
n 1i = 1
X X
n
i
( n 1 ) S n2 1
i=1
Q = -------------------------------- = --------------------------------2
2
Pour cette v.a. Q , on peut crire :
X X
n
i
i=1
Q = -------------------------------- =
2
X i Xn
----------------- =
i = 1
n
i=1
2
i
X i Xn
Y = ---------------
Ces v.a. Yi sont gaussiennes, mais ne sont pas indpendantes puisque lune
dentre elles sexprime en fonction des autres :
n
i=1
X X =
n
i
i=1
cest--dire Q , est distribue selon une loi 2 ( n ) . On montre quelle est en fait
distribue selon une loi 2 ( n 1 ) , et quelle est indpendante de Xn
251
Xn m
- n
Tn 1 = ----------------------------- = --------------Sn 1
Q
-----------n1
Daprs la dfinition donne en tte de ce paragraphe, Tn1 suit une loi de
Student ( n 1) ddl. Cest la v.a. qui est utilise en lieu et place de
Xn m
- n lorsquon cherche tudier la moyenne dune rpartition
U = --------------
gaussienne dont la variance nest pas connue au dpart.
Toutefois, nous avons vu que lorsque le nombre de ddl augmente, la loi
de Student peut tre approxime par la loi de Gauss (sur la figure 7.16, on
voit que pour 25 ddl, les deux densits sont dj voisines). On retiendra que
le modle de la loi de Student sapplique ltude de la moyenne dune
loi de Gauss dont la variance nest pas connue, lorsquon ne dispose que
dun petit chantillon.
C. La loi de Fisher-Snedecor
Dfinition
Si X et Y sont deux v.a. indpendantes distribues selon des lois de khideux respectivement 1 et 2 ddl, la v.a. :
X
1 2 X
252
2 X c
1
= 1 P F ( 2 , 1 ) < ---
c
Si cette probabilit est gale , alors c nest autre que le fractile f(1, 2).
Par consquent, 1/c correspond au fractile f1-(2, 1). On obtient ainsi la relation trs utile, notamment dans la lecture des tables :
1
f 1 ( 2 , 1 ) = -----------------------f ( 1 , 2 )
On peut montrer, par un calcul dintgrales assez long, que la densit de
la loi de Fisher-Snedecor F(1, 2) est donne par la formule :
(v 2) 1
11 /2 22 /2 ( ( 1 + 2 ) 2 )
x 1
------------------------------------------------------------ ------------------------------------------gF ( x )
( 1 /2 ) ( 2 /2 )
( 2 + 1 x ) ( 1 + 2 ) 2
si
x>0
si
x<0
1
x 1/2 ( 2 + 1 x ) ( 2 + 1 ) 2 = -----------------------------------------x ( 2 + 1 x ) 2 + 1
admet laxe des ordonnes comme asymptote.
Lorsque 1 = 2, la densit dcrot rgulirement.
En dehors de ces cas, comme on le voit sur la figure 7.17, la densit de la
loi de Fisher-Snedecor prsente un maximum aprs une croissance dautant
plus rapide que les degrs de libert du numrateur sont peu levs, puis une
dcroissance lente. Cest une densit trs dissymtrique.
1. Ltude de cette loi en tant que rapport de deux lois de khi-deux rapportes leurs degrs
de libert est due au statisticien anglais Ronald Aymler Fisher (1890-1962), tandis que les
dveloppements numriques, et notamment ltablissement des tables ont t raliss par le
statisticien amricain George Waddel Snedecor (1881-1974).
253
1,2
(10; 4)
(10; 10)
0,8
(10; 50)
0,4
0
0
0,5
1,5
2,5
3,5
4,5
soit encore :
1 = P f 1 ( 1, 2 ) < T ( 2 ) < + f 1 ( 1, 2 )
= 2P T ( 2 ) < + f 1 ( 1, 2 ) 1
Si X est une v.a. distribue selon une loi de Fisher 1 et 2 ddl, alors
X est le carr dune v.a distribue selon une loi de Student 2 ddl.
254
2 2
nest dfinie que pour 2 > 2
2 22 ( 1 + 2 2 )
ii) var F ( 1, 2 ) = --------------------------------------------- , la variance de cette loi nest
1 ( 2 2 ) 2 ( 2 4 )
dfinie que pour 2 > 4
On notera une relation, trs utile au niveau des calculs, entre la loi de FisherSnedecor dont les degrs de libert sont pairs et la loi binomiale (du type de
celle qui est mentionne au III.A entre la loi de Poisson et la loi du khi-deux).
Proprit 2
p
n r 1
255
On caractrise la complexit dune structure par le nombre de ses paramtres indpendants qui la dfinissent (nombre de degrs de libert).
Nous avons vu quune v.a. du khi-deux n degrs de libert est la somme
de n v.a., carrs de v.a. gaussiennes centres rduites indpendantes, et nous
avons voqu que la non-indpendance des v.a. dont on additionne les carrs
diminue les degrs de libert de la loi du khi-deux correspondante. On peut
ainsi regarder lensemble des v.a. gaussiennes de dpart comme engendrant
linairement un ensemble (espace) dont la dimension est alors le nombre de ces
v.a. linairement indpendantes. Chaque relation linaire qui relie certaines de
ces variables alatoires diminue dune unit la dimension de lensemble considr, cest--dire lensemble sur lequel les lments statistiques sont dfinis.
(m ; )
Z = U + m avec U
(0 ; 1)
1
ln ( X x 0 ) = U + m U = --- ( ln ( X x 0 ) m )
P( X x) =
256
----------e
2
x 2 /2 dx
ln ( x x 0 ) m
pour A = --------------------------------
x
x0 )
(
2
2
1 ln ( x x 0 ) 2
1
-
= --------------------------------- exp --- ----------------------
2 ( x x 0 )
2
La loi log-normale dpend de 3 paramtres, m, et x0 . Les deux premiers sont les moments de la loi normale associe, tandis que le dernier
est une caractristique de position puisque cest la valeur minimale de cet
ala.
On peut montrer que lesprance mathmatique et la variance de X sont
donnes par :
1
E ( X ) = x 0 + exp m + --- 2
2
var ( X ) = e 2m e 2 ( e 2 1 )
Dterminons maintenant la mdiane Me :
ln ( Me x 0 ) m
=0
F ( Me ) = 0,5 A = --------------------------------------
Me = x 0 + e m
P ( X x ) = P ln ( X x 0 ) ln ( x x 0 ) = P U + m ln ( x x 0 )
ln ( x x 0 ) m
- =
= P U -----------------------------------
ln ( x x 0 ) m
- x = x 0 + e m + u
u = -----------------------------------
Le mode Mo de la distribution log-normale, correspondant au maximum
de la densit, est :
Mo = x 0 + exp ( m 2 )
Puisque 2 > 0 , on a exp ( 2 ) < 1 et exp ( 2 2 ) > 1 , ce qui implique
que le mode Mo, la mdiane Me et lesprance mathmatique E(X) vrifient :
Mo < Me < E(X)
La figure 7.18 donne lallure de la densit pour quelques valeurs de m et
de , avec x 0 = 0
257
4
m=0
= 0,1
3,5
3
2,5
m = 0,5
= 0,1
2
1,5
m=1
= 0,1
m = 0,5
= 0,2
m=0
= 0,2
m=1
= 0,2
1
0,5
0
0,5
1,5
2,5
3,5
1,2
1
0,8
0,4
= 0,2
= 0,3
0,6
= 0,8
= 0,5
0,2
0,5
1,5
258
2,5
3,5
(0, 1, ) en fonction de
Exemple
Figure 7.20 Distribution des salaires Ensemble en 2000 ajuste par une loi log-normale
259
B. La loi de Pareto
Dfinition
On dit que la v.a. continue X est distribue selon une loi de Pareto de
paramtres et x0 > 0 si sa densit est donne par :
x 0 + 1
---- ---f X ( x ) = x0 x
si
x x0
si
x < x0
On notera dabord que cette fonction fX(x) ne dfinit une densit que si > 0
5
=5
2,5
=2
=1
0
0
x0
x 0 + 1
---
---dt = ---- x 0 + 1
x 0 t
x 0
On crira donc :
x
1 ----0
f X( x) =
x
260
x0
x 0
dt - = 1 ----------- x
t + 1
si
x x0
si
x < x0
x, tel que
1,0
=5
0,8
=2
=1
0,6
0,4
0,2
0
0
Pareto1 a introduit sa loi pour dcrire des units conomiques par des caractres de taille (revenu, chiffre daffaires, budget dinvestissement). Pour de
telles grandeurs, on postule le plus souvent que le nombre dindividus dont le
C
caractre tudi dpasse un seuil x est donn par N x = ----- o C et sont des
x
constantes. Lapplication de la loi de Pareto aux distributions de revenus est
une des plus usuelles, le paramtre tant en gnral voisin de 2
Le calcul des moments est simple. On a dabord :
E(X ) =
x0
+1
x
x ---- ----0
dx = x 0
x 0 x
dx
----x
x0
x
= -----------01
mais ce rsultat nest valable (convergence de lintgrale) que si > 1 Remarquons quune v.a. distribue selon la loi de Pareto ne prend que des valeurs
positives ( x0 > 0), ce qui implique que son esprance mathmatique est positive. Un rsultat correspondant < 1, soit ( 1) < 0, serait absurde.
Plus gnralement, on a :
E(Xk) =
x0
+1
x
x k ---- ----0
dx = x 0
x 0 x
x0
x 0k
dx ---------------=
----------k
x + 1 k
1. La loi tudie dans ce paragraphe porte le nom de lconomiste italo-suisse Wilfrid Pareto
(1848-1923). Cest lui quon doit lhypothse, quil a suppose universelle , de la dcroissance en x de la proportion des individus dont le revenu dpasse la valeur x.
261
x
Lcriture de la fonction de rpartition pour x x0, F ( x ) = 1 ----0 permet
x
de voir que :
ln ( 1 F ( x ) ) = ln ( x 0 ) ln ( x )
Les points de coordonnes { ln ( x ) ; ln ( 1 F ( x ) ) } sont donc situs sur une
droite de pente , coupant laxe vertical en un point dordonne ln(x0)
Rciproquement, si les points de coordonnes
{ ln ( x ) ; ln ( 1 F ( x ) ) }
pour une distribution de fonction cumulative F sont situs sur une mme
droite de pente , cette distribution correspond une loi de Pareto puisque
si ln ( 1 F ( x ) ) = ln ( x ) + K , on a :
1 F ( x ) = x e K = ( A x )
avec A = e K
Cette reprsentation graphique fournit une mthode trs simple (et efficace) pour apprcier si une distribution observe, soit (xi , i = 1, 2, , n) peut
tre reprsente par un modle de Pareto, en traant le nuage des points de
coordonnes ,{ ln ( x i ) ; ln ( 1 F ( x i ) ) } o F(xi) est la valeur de la fonction
cumulative en xi (chapitre 1). Lutilisation dchelles logarithmiques sur les
deux axes est trs apprciable. Elle est trs courante sur les logiciels.
On peut ainsi valider lhypothse de reprsentation par une loi de Pareto,
mais aussi identifier les paramtres puisque la constante est la valeur abso-
262
lue de la pente de la droite (elle peut tre calcule par la mthode des moindres carrs, chapitre 3).
Il faut remarquer que dans cette reprsentation graphique, on trouve en
ordonne les valeurs (sur une chelle logarithmique) de { 1 F ( x ) } , cest-dire de la proportion rsiduelle au-del de la valeur x. Ceci nous reporte
lintroduction de cette loi par Pareto, et lutilisation trs frquente des
chelles logarithmiques dans ltude des variables de type taille.
Exemple
263
y = - 1,646x + 16,014
r2 = 0,9793
ln(xi)
ln(1 Fi)
Figure 7.23 Srie des valeurs des 25 premiers chiffres daffaires franais
ajuste par une loi de Pareto
Quantile observe
Un diagramme quantile-quantile obtenu partir de la loi de Pareto associe ces paramtres montre lui aussi que le modle nest pas inadapt, mais
que lajustement nest pas parfait en raison la premire valeur particulirement leve.
Quantile thorique
Figure 7.24 Diagramme Quantile-Quantile (unit : milliards deuros)
Loi de Pareto de paramtres = 1,646 et x0 = 16 774
264
C. La loi de Weibull
Dfinition
--- ----------e b
f ( x) = b b
si
x>a
si
xa
X a suit
Si X suit une loi de Weibull de paramtres a, b et c, alors Y = -----------b
une loi de Weibull de paramtres 0, 1 et c. En effet :
Xa
P ( Y < y ) = P ------------- < y = P ( X < a + by ) =
b
a + by
x a
c x a c 1 ------------- ----------e b dx
b b
c a + by a c 1 ----------------------b
= cy ( c 1 ) e y c et
f ( y ) = b --- ------------------------ e
b
b
f ( y ) = 0 si ( y < 0 )
On appelle loi de Weibull standard de paramtre c, note W(c), la loi de
Xa
Y = ------------- lorsque X suit une loi de Weibull de paramtres a, b et c. On
b
265
remarque que pour c = 1, la loi de Weibull standard correspond la loi exponentielle. La figure 7.25 reprsente les densits de la loi de Weibull standard
pour les valeurs c = 1, 2, 3 et 5. On voit que cette densit est asymtrique, et
prsente un maximum si c > 1 pour :
c 1 1/c
x = -----------
c
2,0
W(5)
1,5
W(1)
1,0
W(3)
W(2)
0,5
0
F(x) = ct c 1 e t c dt
0
soit en posant u =
tc
: F( x) =
xc
u du
= [ e u ] 0x = 1 e x c si x > 0
et naturellement F(x) = 0 si x 0
Dans le cas gnral, posant X = a + bY, o Y suit une loi de Weibull standard, on a :
x a
----------
xa
P ( X < x ) = P ( a + bY < x ) = P Y < ----------- = 1 e b
et P(X < x) = 0 si x a
Ceci nous montre que la mdiane est le point w0,5 tel que :
w 0,5 = b ( ln 2 ) 1 c + a
266
si x > a
cx c e x c dx =
1/c e t dt
1
= 1 + ---
cx c + 1 e x c dx =
2/c e t dt
2
= 1 + ---
c
c
c
var ( X ) =
b2
2
1
1 + --- 1 + ---
c
c
1,6
W(3)
W(3,6)
(0,9; 0,278)
1,2
0,8
0,4
0
0
267
Il sensuit ( cf. figure 7.26) que pour des valeurs de c proches de 3,6, la
distribution standard de Weibull et la loi de Gauss ont des formes assez proches. On notera que pour cette valeur c = 3,6, la moyenne de la loi standard
de Weibull est gale 0,9011 et son cart-type 0,278
Il est intressant de noter que pour une loi de Weibull standard de paramtre c, lexpression de la fonction de rpartition permet dcrire :
ln ( 1 F W ( y ) ) = y c
ln { ln ( 1 F W ( y ) ) } = c ln ( y )
soit encore :
ce qui montre quon peut, comme pour la loi de Pareto, mais avec une chelle
log-log sur laxe vertical, valuer graphiquement si une distribution
observe peut tre reprsente par une loi de Weibull standard.
Lintrt particulier de la loi de Weibull rside dans la proprit suivante.
Proprit
Si Y suit une loi de Weibull standard W(c), alors Yc suit une loi exponentielle de paramtre 1
c
z 1/c
ct
c 1 e t c dt
et la densit, nulle pour z < 0, sobtenant par drivation pour z > 0, est bien
gale ez
La loi de Weibull 1 doit ainsi senvisager comme une gnralisation du
modle exponentiel, tout particulirement dans les contextes o ltude porte
sur le temps coul jusqu la ralisation dun certain vnement.
D. La loi logistique
Dfinition
Une v.a. X continue suit une loi logistique si sa fonction densit est donne par :
x -
exp ----------
f ( x ) = ---------------------------------------------------2 avec > 0
x
1 + exp ----------
1. Nomme ainsi en raison des travaux du statisticien sudois Waloddi Weibull qui en a montr
lintrt (entre 1939 et 1954) pour une trs large gamme dapplications, industrielles notamment.
268
Un calcul trs simple montre alors que la fonction de rpartition est donne par :
x 1
F ( x ) = 1 + exp ----------
X , on obtient la forme rduite de la distribution
Si on pose Y = ------------
ey logistique, dfinie par la densit ---------------------, et pour laquelle la fonction de
( 1 + ey )2
1
- . La densit de Y est symtrique puisque :
rpartition est --------------1 + ey
1 y
1 y
y
e
e
e y ( e y ) 2- = -------------------ey e
---------------------=
------------------------------=
------------------------------------=
-------------------2
( 1 + ey )2
( 1 + e y )2
(e y + 1) y 2 ( e y + 1 ) 2
1 + 1 ey
e
et
3
= ------- 0,5513
On observe alors ( cf. figure 7.27) que les deux densits sont assez proches. En raison de la symtrie, le coefficient dasymtrie 1 est nul, et la
comparaison entre le coefficient daplatissement 2, gal 0 pour la loi de
Gauss centre rduite et 1,2 pour la loi logistique, traduit bien la limite de
leur ressemblance.
1
1. Le calcul passe par le dveloppement en srie de ----------------- et lutilisation des fonctions eul1
+
ey
riennes.
269
0,6
Logistique (0; 1)
Normale (0; 1)
Logistique (0; 0,5513)
Figure 7.27 Densits compares de lois logistiques et de la loi normale centre rduite
270
V. Bilan
Les modles prsents dans ce chapitre et dans le prcdent sont ceux qui
sont le plus souvent utiliss dans ltude de situations alatoires concrtes. On
noubliera pas cependant que dautres modles prsentent un intrt certain
pour la modlisation. Ils ne peuvent tre prsents ici, mais on se doit de citer :
la loi binomiale ngative ;
la loi log-normale, la loi de Wald, les lois gamma et bta ;
les lois de khi-deux, de Student et de Fisher-Snedecor dcentres.
Dautre part, nous navons envisag que les lois de variables
alatoires
n
valeurs relles. Les distributions de v.a. valeurs dans nont pas t abordes. Leur utilisation est cependant frquente.
Lensemble de ce chapitre montre lintrt particulier de la loi de Gauss.
Approximation de lois discrtes ou de lois continues, mais aussi loi approche
des moyennes dchantillonnage, la distribution gaussienne est au centre de
ldifice statistique ds quon cherche modliser des situations alatoires.
Ses proprits (symtrie, stabilit aprs transformation linaire) et son utilisation particulirement simple pour les calculs expliquent le recours trs
frquent cette loi. Cependant, on ne doit pas se laisser abuser, et nous avons
vu que plusieurs problmes spcifiques conduisent dautres lois, soit par
construction (cas des lois du khi-deux, de Student, de Fisher-Snedecor), soit
par ajustement (lois de Pareto, exponentielle, logistique, de Weibull).
Le sens de lhypothse de normalit merge de cette position centrale de la
loi de Gauss, comme aussi de son apparence. La loi de Gauss est celle qui
simpose lorsque le phnomne quon tudie ne prsente pas de dterminant
prdominant. En ce sens, la distribution normale correspond une rpartition
sans caractristique ou individualisation particulire. Elle serait donc presque le
modle utiliser si aucun autre ne simposait. Dailleurs, cest historiquement
ainsi quelle a merg pour reprsenter de faon universelle les phnomnes
au sens de la moyenne1 (cest--dire observs comme moyennes arithmtiques).
On se gardera bien de vouloir tout prix poser une hypothse de normalit
dans une attitude descriptive. Rservant la loi de Gauss pour des phnomnes
agrgeant rellement de multiples causes indpendantes les unes des autres
sans cause prdominante, on recherchera toujours le modle (moins passepartout, mais donc plus savoureux et surtout plus riche) dcrivant vraiment au mieux les observations. La controverse entre univers gaussien et univers partien en est une illustration.
1. Dabord par Laplace la fin du 18e sicle, puis par Gauss en 1809, et enfin par Galton en 1889.
271
On noubliera pas :
1. Pour la loi de Gauss
La symtrie par rapport la moyenne.
La pratique des calculs par centrage et rduction
Xm
- ( 0 ;1 )
X ( m ; ) U = ------------
Son intrt comme modle approch (limite centrale, lois binomiale
et de Poisson).
Une somme de gaussiennes indpendantes est une gaussienne.
2. Pour les lois drives de la loi de Gauss
X 1 , X 2 , , X v gaussiennes centres rduites
1
i=1
X 2i 2 ( 1 )
Z 2=
j=1
Y 2j 2 ( 2 )
U (0 ; 1)
U et Z1 indpendantes
U
T = ---------- est une v.a. symtrique,
1
Z
-----1centre :
1
Z
Z 1 / 1
F ( 1, 2 ) = ------------- = ----2- -----11 Z 2
Z 2 / 2
( 1 = 1 ) F ( 1 , 2 ) = T 22
272
273
8. Pour une population distribue selon une loi (0 ; 1), le pourcentage dindividus qui sont caractriss par une valeur comprise entre 1,96 et + 1,96 est gal :
a) 75%
b) 90%
c) 95%
d) 99%
9. Si X suit une loi de Gauss (2 ; 5) :
a) P ( X = 2 ) = FU ( 0 ) = 1/3 2
b) P(X < 1) = P(X > + 3) = 0,4207
c) P( 3 < X < + 3) = 0,4206
d) P(1 < X < 3) = 0,1586
10. Si X suit une loi de Gauss (m ; ) :
a) P(X > m) = 0,5
b) sa moyenne est gale sa mdiane
c) Fx(m + x) = Fx(m x)
d) le graphe de la densit est symtrique par rapport la droite dquation x = 0
11. Si X est une variable alatoire (1 ; 1) et Y une variable alatoire
(1000 ; 0,01) et si X et Y sont indpendantes :
a) E(X + Y) = 11
b) var(X + Y) = 10,9
c) Y suit approximativement une loi de Poisson de paramtre 10
d) le coefficient de corrlation linaire entre X et Y est gal + 1
12. Si une population est reprsente par une variable alatoire X de loi (m ; ) :
a) 25% des individus scartent de la moyenne de plus dun cart-type
b) 50 % des individus sont au-dessus de la moyenne
c) peu prs 5 % des individus scartent de la moyenne de plus de 2 fois lcart-type
d) Fx(m + x) = 1 Fx(m x)
13. Si X est une variable alatoire (1 ; 1) et Y une variable alatoire
(100 ; 0,5) et si X et Y sont indpendantes :
a) E(X + Y) = 51
b) X suit approximativement une loi de Poisson de paramtre 50
c) X + Y suit approximativement une loi de Gauss
d) Z = 2X + 3 suit une loi de Gauss
14. Soit X une variable alatoire ( 3 ; 1) :
a) X est une variable alatoire rduite
b) X + 3 est une variable alatoire centre rduite
c) P(X + 3 > 0) = P(X + 3 < 0)
d) E(X2) = 1
274
18. Si la demande quotidienne dun produit dans un magasin suit une loi binomiale (40 ; 0,05), alors si on suppose les demandes quotidiennes indpendantes
entre elles, la demande de ce mme produit pour 25 jours de fonctionnement de
ce magasin suit :
a) peu prs une loi de Poisson (50)
b) peu prs une loi normale (50 ; 6,9)
c) une loi binomiale (40 ; 0,2)
d) une loi de Poisson (0,2)
275
276
Exercice 7.5
Un vigneron commercialise des vins de qualit diffrentes quil rpartit en deux
classes : la classe des vins courants dits du terroir , la classe des vins de qualit,
appels grand cru , et vendus 6 la bouteille. Malgr le soin apport lembouteillage, il subsiste des erreurs dtiquetage, et on admet quun acheteur de vin
grand cru aura une probabilit p = 0,12 davoir en fait une bouteille de vin ordinaire.
1. Un restaurateur achte 200 bouteilles grand cru au vigneron. Soit Y la v.a.
gale au nombre de bouteilles de vin courant parmi les 200 bouteilles achetes.
Dterminez la loi de probabilit de la v.a. Y, ainsi que son esprance et sa variance.
Donnez, en la justifiant, une approximation de la loi de Y.
2. Calculez : P(Y > 20) et P(Y < 30 Y > 20).
3. Au fur et mesure de la consommation des 200 bouteilles, le restaurateur a pu dtecter chacune des bouteilles de type courant. Il dcide alors de ne payer que les bouteilles de qualit effectivement livres et de refuser tout paiement pour les
bouteilles de vin ordinaire.
Calculez, dans cette hypothse, la probabilit dun bnfice nanmoins positif pour
le vigneron sachant que chaque bouteille de vin courant lui revient 1,5
et que
chaque bouteille de vin de qualit lui revient 3,5 .
Exercice 7.6
Lors la naissance de jumeaux, on note la probabilit quil sagisse de vrais jumeaux
et on fait les deux hypothses suivantes :
i) deux vrais jumeaux sont toujours de mme sexe, et la probabilit quils soient des
garons est gale 1/2 ;
ii) deux faux jumeaux ont des sexes indpendants et chacun des deux enfants est un
garon avec une probabilit gale 1/2.
Soit A, B et C les vnements suivants relatifs la naissance de deux jumeaux :
A = { 2 garons }
B = { 2 filles }
C = { 1 garon et une fille }
1. Calculez en fonction de les probabilits des vnements A, B et C.
2. Soit Y la variable alatoire gale au nombre de fois o on a eu un garon et une
fille sur 1 000 naissances de jumeaux.
Donnez en fonction de , et en la justifiant, la loi de probabilit de la variable
alatoire Y.
Donnez lesprance et la variance de Y en fonction de .
3. On suppose = 0,35 ; par quelle loi peut-on approximer la loi de Y ? (justifiez
votre rponse).
Dterminez les probabilits des vnements { Y > 300} et {310 Y 350 Y > 300}.
277
Exercice 7.7
Aprs avoir fait remplir un long questionnaire portant sur laudience de la presse
magazine 200 individus, un institut de sondage a tabli la distribution suivante pour
la dure dinterview (en minutes) concernant ces 200 individus :
Dure
(min)
< 25
Effectif
18
[25 ; 30[ [30 ; 35[ [35 ; 40[ [40 ; 45[ [45 ; 50[
32
36
40
30
24
50
20
278
Exercice 7.9
Un appareil lectronique est soumis des impulsions spares par des intervalles de
temps variables, indpendants les uns des autres. On suppose que la dure Y (exprime en secondes) sparant deux impulsions successives est une v.a. dfinie ainsi :
Y = 2 + X
o est un paramtre strictement positif et X une v.a. exponentielle de paramtre 1.
1. Dterminez en fonction de :
E(Y) et var(Y) ;
la fonction de rpartition de la variable alatoire Y.
2. On suppose dans cette question le paramtre gal 5.
2.1. Calculez P(Y < 2) et P(2 Y 5).
2.2. Afin dtudier si la loi thorique retenue pour Y reprsente bien le phnomne
tudi, on a mesur de faon indpendante 10 dures sparant 11 impulsions
successives et on a obtenu les rsultats suivants en secondes :
2,3 3,5 3,9 4,7 5,1 6,8 7,9 9,6 13,1 15,5
Tracez le diagramme quantile-quantile pour juger la qualit de lajustement
de cette distribution observe par la loi retenue. Conclusion.
Exercice 7.10
Afin de mieux connatre sa clientle, le grant du cinma Paradiso fait procder un
sondage. Il obtient pour un chantillon alatoire de taille 100 la rpartition par ge
suivante :
ge
< 15 ans [15 ; 20[ [20 ; 25[ [25 ; 30[ [30 ; 35[ [35 ; 40[ [40 ; 50[
Effectif
13
22
28
15
10
50 ans
1. Calculez la moyenne et lcart-type de cette distribution ; on supposera lge minimum gal 10 ans et lge maximum gal 70 ans.
2. Calculez la mdiane de cette distribution.
3. On suppose que la distribution de lge des clients du cinma Paradiso suit une loi
normale de paramtres m = 28 ans et = 9,5 ans.
3.1. Quel est le pourcentage thorique des clients qui ont entre 18 et 35 ans ?
Calculez le pourcentage observ, partir de lchantillon de taille 100, pour
la mme classe dge.
3.2. Calculez lge thorique A tel que 75 % des clients ait un ge suprieur A.
Calculez, partir de lchantillon, lge A tel que 75 % des individus de
lchantillon ait un ge suprieur A. Comment sappelle cette valeur A ?
4. Tracez le diagramme quantile-quantile pour juger la qualit de lajustement de la
distribution observe par une loi normale de paramtres m = 28 ans et = 9,5 ans.
Lhypothse prcdente vous semble-t-elle justifie ?
Exercice 7.11
On considre que la dure du temps dattente T (mesur en minutes) du bus que doit
prendre Valrie pour se rendre lUniversit, est distribue selon une loi exponen-
279
si
T admet la densit de
t0
sinon
TotalFinaElf
Suez
PSA Peugeot Citron
Sanofi-Synthlabo
Aventis
LOral
Carrefour
Saint Gobain
Renault
Gaz de France
7 658 = x10
2 087 = x9
1 691 = x8
1 585 = x7
1 505 = x6
1 291 = x5
1 266 = x4
1 134 = x3
953 = x2
891 = x1
Soit Fi la proportion dentreprises dont les rsultats nets X sont infrieurs xi.
1. Peut-on considrer les 10 points de coordonnes {{ln( xi), ln(l Fi)}, i = 1 10}
approximativement aligns ? (On calculera le coefficient de corrlation linaire et
les coefficients de la droite des moindres des carrs).
Reprsentez graphiquement le nuage de ces 10
moindres carrs.
280
Exercice 7.14
Une socit de fabrication de boissons dcide de lancer une nouvelle boisson faible
teneur en sucre. Les tudes effectues montrent que la teneur X dune bouteille dun
litre de cette boisson suit une loi normale de moyenne 70 g et dcart-type 25 g.
1. Calculez la probabilit que la teneur en sucre dune bouteille dun litre diffre de
la teneur moyenne dau plus 10 g.
2. On choisit au hasard 25 bouteilles. Soient X1, X2, ... , X25 les variables alatoires
associes. On les suppose indpendantes et identiquement distribues X.
1
Que reprsente la variable alatoire X = ----25
25
i=1
Teneur xi
Fi
40
50
60
70
80
90
100
0,11
0,23
0,40
0,60
0,77
0,89
10,96
281
Exercice 7.15
On donne la srie statistique ordonne des niveaux de vente d'une revue hebdomadaire dans 100 points de distribution pour une semaine donne :
32
40
53
54
59
65
66
72
75
80
84
85
89
93
95
95
95
101
104
105
105
105
105
106
107
107
108
110
111
111
112
113
113
114
114
115
116
119
119
122
122
122
123
124
124
124
124
126
127
127
127
127
127
129
129
130
130
130
130
130
131
132
132
135
135
138
138
140
141
141
142
143
143
143
144
146
147
150
152
152
153
156
156
158
158
158
158
158
159
160
160
162
166
166
168
170
176
192
195
196
282
Rponses aux
questionnaires
Testez-vous
Chapitre 1
1. Bonnes rponses : b) et c)
Trois quartiles sparent lintervalle de variation [min( X), max( X)] en quatre intervalles
contenant chacun le quart de leffectif, donc 75 % des observations sont suprieures au
1er quartile.
2. Bonnes rponses : a), b) et d)
La bote de distribution contient 50 % des observations et la mdiane, gale la moyenne,
est le milieu de lintervalle interquartile.
3. Bonnes rponses : c) et d)
On ne peut utiliser dans ce cas que des caractristiques indpendantes des units.
4. Bonnes rponses : a) et b)
La mdiane de la srie des carts absolus la moyenne est une mesure de la dispersion ;
les quartiles Q1 et Q3 sont des indicateurs de position, mais non de tendance centrale.
5. Bonnes rponses : c) et d)
Pour calculer la note moyenne et lcart-type des deux classes runies, il faut utiliser des
formules avec des pondrations ( III.B.1 pour la proprit 4 de la moyenne et III.C.4
pour la proprit 4 de la variance).
Lcart absolu moyen la mdiane est le plus petit cart absolu moyen ( III.C.3), dautre
part, lcart-type est toujours suprieur lcart absolu moyen la moyenne arithmtique
( III.C.4), donc, lcart absolu moyen des notes la mdiane est au plus gal 4 pour
la classe 1.
6. Bonnes rponses : a) et d)
7. Bonne rponse : c)
Se rfrer la moyenne gomtrique ( III.B.2).
283
8. Bonnes rponses : b) et c)
9. Bonnes rponses : a) et c)
Chapitre 2
1. Bonne rponse : b)
Lindice des prix actuellement calcul par lINSEE est un indice-chane de Laspeyres.
2. Bonne rponse : c)
Un indice de Paasche est souvent un indice des quantits, mais il peut aussi tre un indice
des prix ( II.A).
Lindice de Paasche est souvent infrieur lindice de Laspeyres, mais les pondrations
de ces deux indices ntant pas les mmes, il est possible que cette proprit ne soit pas
vrifie ( II.C).
3. Bonnes rponses : a), b) et c)
Un indice des dpenses ou du cot de la vie sert mesurer lvolution du niveau des
dpenses de consommation entre deux priodes distinctes.
Sagissant des sommes dbourser par un mnage compte tenu des prix, mais aussi des
quantits achetes, cest un indice de valeur qui est donc rversible et transitif.
4. Bonnes rponses : a), b) et d)
Le taux annuel moyen de variation peut tre dtermin graphiquement en utilisant une
reprsentation graphique avec une ordonne logarithmique ( IV.A).
5. Bonnes rponses : c) et d)
Le taux de croissance pour priode 1999-2001 est gal :
1,029 1,038 1,021 1 9 %
Chapitre 3
1. Bonnes rponses : a) et d)
2. Bonnes rponses : a), b) et c)
On a deux variables lies par une relation linaire inverse, leur coefficient de corrlation
linaire est gal 1 et les pentes des deux droites des moindres sont ngatives.
284
3. Bonnes rponses : a) et b)
Le nuage de points est form de 2 points, et par 2 points, on peut faire passer une droite,
la reprsentation graphique nous montre que la droite est de pente positive,
on a donc
r=+1
4. Bonne rponse : c)
Cette question a pour objectif de sensibiliser lattention qui doit tre ncessairement
porte la signification des variables ( II.E).
5. Bonnes rponses : b), c) et d)
On a un tableau de profils en colonne.
6. Bonnes rponses : a), b) et d)
La moyenne x est une moyenne pondre des moyennes conditionnelles ( I.C) ; en ce qui
concerne les moyennes conditionnelles, elles sobtiennent partir du tableau de con tingence, ou partir du tableau des profils en lignes pour les moyennes conditionnelles de
Y X fix et du tableau des profils en colonnes pour les moyennes conditionnelles de X
Y fix.
7. Bonnes rponses : a), b) et d)
Si a = 20 et b = 5, il y a indpendance puisque les profils en colonnes sont identiques
(r = 0).
Si a = 0 et b = 0, alors on a seulement deux observations diffrentes sur deux variables
et dans ce cas, r = 1 puisque le nuage de points est rduit deux points (ici r = 1).
Si a = 0 et b = 10, il ny a ni indpendance, ni liaison linaire, donc r 1 et r 0 (en
fait r = 0,5).
Si a = 10 et b = 10, il y a indpendance puisque les profils en lignes sont identiques.
8. Bonne rponse : d)
Lorsquon connat les marges, il suffit de connatre ( k 1) ( l 1) effectifs du tableau
de contingencedu fait des liaisons entre les effectifs marginaux et les effectifs du tableau ;
le nombre ( k 1) ( l 1) est appele nombre de degrs de libert .
285
Chapitre 4
1. Bonnes rponses : a), c) et d)
Il y a ( T p + 1) moyennes mobiles centres de longueur impaire p et ( T p ) moyennes
mobiles centres de longueur paire p.
2. Bonne rponse : b) et d)
Si le facteur saisonnier est proportionnel la tendance, on choisit le modle multiplicatif,
et dans ce cas, la courbe joignant les maxima est peu prs parallle celle qui joint les
minima sur un graphique ordonne logarithmique ( II).
Des maxima distants de 5 dates peuvent indiquer une composante saisonnire de priode
5, mais cette seule information nest pas suffisante pour choisir le modle adapt.
3. Bonnes rponses : a) et b)
La moyenne mobile centre de longueur
p rend constante les sries priodiques de
priode p et de priode sous-multiple de p.
La moyenne mobile centre de longueur 2 p liminent la composante saisonnire de
priode p puisque la somme des coefficients saisonniers sur une priode est nulle.
La somme de p termes successifs divise par p donne une valuation de la tendance pour
la date correspondant celle du terme du milieu des p termes.
On peut calculer (T p) moyennes mobiles centres de longueur p si p est pair, et (T p + 1)
moyennes mobiles centres de longueur p si p est impair, on a donc toujours au moins ( T p)
moyennes mobiles centres.
4. Bonnes rponses : c) et d)
Le lissage exponentiel simple ne peut senvisager que pour une chronique sans saisonnalit et sans volution tendancielle ; la prvision tient dautant plus compte des valeurs
rcentes de la srie que la constante de lissage est leve.
Chapitre 5
1. Bonnes rponses : a) et d)
2. Bonnes rponses : a) et b)
3. Bonne rponse : c)
4. Bonnes rponses : b) et d)
Car P(AB) = P(A) + P(B) P(AB) et A et B tant indpendants, P(AB) = P(A) P(B)
286
5. Bonnes rponses : c) et d)
Soit A lvnement le livre est touch par au moins un des chasseurs , alors
P(A) = 1 P ( A )
6. Bonnes rponses : c) et d)
7. Bonnes rponses : a), b) et d)
8. Bonnes rponses : b) et c)
9. Bonnes rponses : a) et d)
Seule la loi de probabilit dune variable alatoire continue est dfinie par une fonction
de densit.
10. Bonnes rponses : b) et c)
11. Bonne rponse : a)
La rponse d) est vraie si a est positif.
12. Bonnes rponses : a), b) et d)
13. Bonnes rponses : a) et c)
14. Bonnes rponses : a) et c)
15. Bonnes rponses : a), b) et c)
Puisque P { ( X = x i ) ( Y = y i ) } = P ( X = x i Y = y i ) P ( Y = y i )
on peut calculer la loi jointe ;
P( X = 1) = P( X = 1 Y = 1) P(Y = 1) + P( X = 1 Y = 2) P(Y = 2)
+ P ( X = 1 Y = 3 ) P ( Y = 3 ) = 0,2
Chapitres 6 et 7
1. Bonnes rponses : a), c) et d)
2. Bonnes rponses : a) et b)
3. Bonnes rponses : a), b) et d)
287
4. Bonnes rponses : a) et b)
5. Bonnes rponses : a) et b)
6. Bonnes rponses : b), c) et d)
La loi (60 ; 0,05) peut tre approche par une loi (3)
P(X 3) = 1 P(X 2) = 0,5768
si n = 4 et p = 0,01 : P(X = 0) = (0,99) 4 0,96
si n = 50 et p = 0,08 : P(3 < X 10) = P(X 10) P(X 3) = 0,573
7. Bonne rponse : a)
8. Bonne rponse : c)
9. Bonnes rponses : b), c) et d)
P(X = 2) = 0, car pour une variable alatoire continue, la probabilit dun point est nulle.
10. Bonnes rponses : a) et b)
11. Bonnes rponses : a), b) et c)
Les v.a. X et Y tant indpendantes, leur coeficient de corrlation linaire est nul.
12. Bonnes rponses : b), c), et d)
13. Bonnes rponses : a), c) et d)
On peut approcher la loi de Y par une loi de Gauss, X et Y tant indpendantes, la v.a.
(X + Y) suit approximativement une loi de Gauss puisque la somme de deux variables
alatoires gaussiennes indpendantes est gaussienne .
14. Bonnes rponses : a), b) et c)
E(X2) = var(X) + (E(X))2 = 10
15. Bonne rponse : a)
Pour une v.a. exponentielle, lesprance est gale lcart-type et ses valeurs possibles
sont suprieures , donc 0.
16. Bonne rponse : b)
Une somme de variables alatoires binomiales indpendantes suit une loi binomiale si
tous les paramtres pi sont gaux.
17. Bonnes rponses : a), b), c) et d)
18. Bonnes rponses : a) et b)
La demande du produit pour 25 jours de fonctionnement suit une loi (1 000 ; 0,05), et on
est dans les conditions dapproximation par la loi normale et aussi par la loi de Poisson.
288
Corrigs
des exercices*
Chapitre 1
Exercice 1.1
1968
6 760
40,3
30,4
15,7
7,1
6,5
100
14 569
2,16
1,88
1975
7 340
42,4
32,3
14,8
5,8
4,7
100
14 826
2,02
1,58
1982
7 610
43,4
35,9
14,2
4,1
2,4
100
14 294
1,88
1,14
1990
7 491
43,8
36,8
14,2
3,5
1,8
100
13 748
1,84
1,01
1999
7 418
44,7
37,4
13,6
3,1
1,2
100
13 308
1,79
0,89
289
Exercice 1.2
290
3.
Anne
2000
2001
2002
2003
2004
2005
2006
2000-2006
Niveau moyen
3,6
3,7
3,7
4,1
3,6
3,6
3,7
3,7
1. x G = 9,75
sG = 3,945
x P = 11,1
sP = 3,727
25 10
MeP = 10 + 2 ------------------ = 11,2
25
Pour une distribution symtrique, la moyenne est gale la mdiane.
MeG = 10
Me = 14 800
sH = 3 620
3.
11 82 + 13 34 + 15 12 + 18 n4 = 12 (128 + n4)
1 524
1 536
n4 = 2 N = 130
4. sF 1 509
sF / x F 0,125
180 x H + 130 x F
- 13 974
5. x = --------------------------------------------310
291
Exercice 1.5
1.
B1 :
10
10
10
x 6,5 %
Exercice 1.7
1. Population : les 30 premiers groupes franais de lindustrie et des services selon leur
CAHT en 2001.
Unit statistique : un groupe parmi les 30 premiers groupes franais de lindustrie et
des services selon leur CAHT en 2001.
Caractres tudis : deux caractres quantitatifs, le CAHT en millions d et leffectif.
2. CA : n = 30
x = 30 000 millions d
Effectif :
n = 30
y 134 448
3.1.
292
sX = 19 729 millions d
sY 87 248
5.1. La srie tant ordonne selon le CA, il faut maintenant lordonner selon leffectif
n = 30
P(Me) = 15,5 Me = 120 510
P(Q) = 8 Q1 = 82 892 et Q3 = 173 329
5.2. et 5.3. Graphiques SPSS
La bote de distribution met en vidence trois valeurs loignes
: Carrefour,
Vivendi Universal et La Poste.
Frequency Stem & Leaf
5,00
0 . 02234
5,00
0 . 57899
11,00
1 . 00111222234
4,00
1 . 6789
2,00
2 . 02
3,00 Extremes (> = 313854)
Stem width :
100 000
Each leaf :
1 case(s)
293
Exercice 1.8
10
x 25 255
i
i=1
3. Les moyennes ntant pas gales aux centres des classes, lhypothse dquirpartition nest pas justifie.
4. Indicateurs de tendance centrale : x 25 255 , Me = D5 = 20 631, (D9 + D1)/2 = 26 973
Indicateur de dispersion : D9 D1 = 39 338
Indicateur de dispersion relative : ( D9 D1)D5 1,9
5. Distribution asymtrique tale vers les valeurs leves, car la mdiane est infrieure
la moyenne (et on a aussi Me < ( D9 + D1)/2). Les distributions de revenus (ou de
salaires) sont toujours asymtriques et tales vers les valeurs leves.
6. Indicateur de disparit des revenus : D9/D1 = 6,4
les 10 % les mieux lotis peroivent plus de 6 fois plus que les 10 % les moins bien
lotis.
7. 16 % des revenus sont perus par les 4 diximes des mnages aux revenus les plus
faibles.
8. Courbe de concentration ou courbe de Lorenz
Fi (%)
10
20
30
40
50
60
70
80
90
100
Ri (%)
12
15
10
16
23
32
43
56
72
100
100
90
80
70
60
50
40
30
20
10
0
0
294
10
20
30
40
50
60
70
80
90 100
Lindice de Gini mesure ici la concentration des revenus des mnages. Il est gal au
double de laire comprise entre la courbe de concentration et la bissectrice.
Cet indice est compris entre 0 et 1.
La valeur minimum 0 correspond au cas o la courbe est confondue avec la bissectrice et au cas de lquirpartition : tous les individus ont une part gale du revenu.
La courbe sloigne de la bissectrice lorsque lingalit saccrot.
A contrario, si un seul mnage dtient la totalit du revenu, tous les autres ayant un
revenu nul, lindice de Gini vaut 1. Dans cette situation, la courbe est confondue avec
les cts du carr : axe des abscisses et segment vertical reliant le point {100 ; 0} au
point {100 ; 100}.
Exercice 1.9
1+ c=
26
26
( 1 + c1 ) ( 1 + c2 )
12
( 1 + c3 )
545
------------- 0,96819 c 3,2 %
1 263
3.
1979
1988
2000
2005
SAU moyenne
23
28
142
50
88
90
106
112
Le nombre des exploitations agricoles diminue, la taille moyenne des SAU augmente,
ainsi que la taille moyenne des exploitations de 50 ha ou plus.
4. Le centre de la dernire classe tant par hypothse la SAU moyenne des exploitations
de 200 ha ou plus est gale en 2005 280 (= 4 762/17). On value ainsi la SAU maximum approximativement 360 ha.
295
[0, 5[
[5, 20[
[20, 50[
[50, 100[
[100, 200[
[200, 360[
fi
24,2
19,1
20,0
20,7
12,8
3,1
fi /ai
4,844
1,272
0,667
0,415
0,128
0,019
fi /ai
296
pi (%)
24,2
43,3
63,3
84,0
96,9
100
qi (%)
1,0
5,2
18,7
48,1
82,7
100
Chapitre 2
Exercice 2.1
1. IA
(p) = 112,5
04/00
2. La moyenne arithmtique des indices lmentaires pondre par la part des dpenses
engages par lentreprise pour chacune des matires premires en 2000, est lindice
de Laspeyres des prix en 2004, base 2000.
Dpense 2000 = 8 000 + 2 000 + 3 000 = 13 000
8 000
2 000
3 000
L04/00(p) = ---------------- 112,5 + ---------------- 140 + ---------------- 100 113,8
13 000
13 000
13 000
3. IA
(1 + c)
20
9
20
168
= 1,5 --------- ( 1 + 0,06 ) = 3,275 = ( 1,061 )
130
c = 6,1 %
I2000/1980(CA) = 117,4
Exercice 2.3
Soit c1 le taux trimestriel moyen de croissance entre le 31 dcembre 1998 et le 30 septembre 2009 :
(1 + c1)43 = 1,4145 (1,0081)43 taux trimestriel moyen de croissance = 0,81 %
Soit c2 le taux annuel moyen de croissance entre le 31 dcembre 1998 et le 30 septembre
2008 :
(1 + c2)10 = 1,3908 = (1,0335) 10 taux annuel moyen de croissance = 3,35 %
Exercice 2.4
297
Anne
Anne
1970
100
1971
115,7
1981
545,1
1991
1 346,2
1972
131,9
1982
633,6
1992
1 439,4
1973
151,4
1983
721,4
1993
1 519,2
1974
178,4
1984
800,7
1994
1 568,5
1975
222,5
1985
878,4
1995
1 636,2
1976
258,9
1986
950,2
1996
1 682,2
1977
289,7
1987
997,4
1997
1 710,1
1978
347,2
1988
1 084,7
1998
1 735,8
1979
401,6
1989
1 176,1
1999
1 803,0
1980
465,3
1990
1 261,3
2000
1 902,4
298
3. et 4.
Indice de la consommation mdicale totale
base 100 en 1970
1970
1980
1990
1970
2000
1980
1990
2000
Pendant la priode 1970-1982, les points sont quasi aligns, le taux annuel de croissance
c de l'indice est donc quasi constant et gal la pente de la droite joignant les deux points
extrmes (cf. figure 1) :
(1 + c)
12
= 6,336
c =
12
6,336 1
c = 16,6 %
Entre 1982 et 2000, lvolution nest plus exponentielle, mais quasi-linaire avec une
augmentation annuelle moyenne de lindice gale la pente de la droite joignant les deux
points extrmes (cf. figure 2) :
a = ( ( CM 2000 CM 1982 ) CM 1970 ) 100 18 = ( 1902,4 633,6 ) 18 70,5 %
Lindice de la consommation mdicale est pass dune volution exponentielle avec
un taux annuel moyen de croissance de 16,6 % une volution quasi-linaire avec une
augmentation annuelle moyenne gale 70,5 %.
5. Tenir compte de la variation des prix permet de passer dun
indice de valeur un
indice de volume et d'valuer le taux annuel moyen de croissance du volume de la
consommation entre 1970 et 1982 en s'affranchissant de l'illusion montaire :
c =
12
1,988 1 = 5,9 %
Entre 1982 et 2000, lvolution nest plus exponentielle, mais linaire et on peut calculer laugmentation annuelle moyenne de lindice de volume :
a' =
1 CM 2000 CM1982
100 CM1970
18 5,584
I82 / 70
1 Indice CM 00 / 70 Indice CM 82 / 70
I82 / 70
18
5,584
1 1902, 4 633, 6
18 5, 584 3,187
(340, 7 198,8 ) 18 7, 9 %
299
6. En dflatant, on est pass, sur la priode 1970-1982, dun taux annuel moyen de croissance de 16,6 % pour lindice de valeur un taux annuel moyen de croissance de
5,9 % pour lindice de volume, et sur la priode 1982-2000, dune augmentation
annuelle moyenne de 70,5 % pour lindice de valeur une augmentation annuelle
moyenne de 7,9 % pour lindice de volume.
Chapitre 3
Exercice 3.1
< 10
[10 ; 20[
[20 ; 30[
[30 ; 40[
40
fj
14 %
17 %
20 %
33 %
16 %
< 10
[10 ; 20[
[20 ; 30[
[30 ; 40[
40
0
41,4
35,0
14,3
9,3
11,6
---------- 100
28
9,8
------- 100
28
4,0
------- 100
28
2,6
------- 100
28
y /X 6 = 14 564 km
sY/X 6 = 9 211 km
Exercice 3.2
1. Population : les 100 salaries femmes et les 140 salaris homme dune entreprise.
Unit statistique : un homme ou une femme parmi les 240 salaris.
Caractres tudis : le salaire mensuel en euros, variable statistique continue,
Caractres tudis : lanciennet exprime en annes, variable statistique continue.
2. Parmi les 50 femmes ayant moins de 8 ans danciennet, 44 gagnent moins de 2200 :
44 100 / 50 = 88 %
300
3. Femmes : x 1 = 2 000
Hommes : x 2 = 2 508
s1 548
s2 697,50
n1 x1 + n2 x2
- 2 296
Ensemble : x = -----------------------------------n1 + n2
sY 6,7
5. Graphe des frquences cumules : ligne brise qui joint les points ( yi , Fi)
yi
12
20
28
Fi (%)
20
50
70
90
100
6.
Y X 1 800
[0 ; 4[
[4 ; 8[
[8 ; 12[
[12 ; 20[
[20 ; 28[
Frquence
(%)
13,3
(8/60)
33,3
(20/60)
16,7
(10/60)
20
(12/60)
16,7
(10/60)
s
6,7
7. a = r ----Y- = 0,45 --------- 0,0055
s1
548
301
Exercice 3.3
1. Indice PIB en 1991 = Indice 1990 (1 + variation 1991/100) = 102,6 (1 + 1/100) = 103,6
r = 0,992 1
2. et 3.
a = 1,09
Calcul du coefficient de corrlation linaire et des coefficients de la droite des moindres carrs avec Excel :
r = COEFFICIENT.CORRELATION(D2:D22;E2:E22)
a = INDEX(DROITEREG(E2:E22;D2:D22);1)
b = INDEX(DROITEREG(E2:E22;D2:D22);2)
La part de variation de Y explique par la relation linaire est gale r2, soit 98 %.
X = variation en volume du PIB
Y = variation en volume de la consommation prive
r2(X,Y) 0,563 = (0,75) 2
302
Pour obtenir et tracer avec Excel la droite des moindres carrs qui ajuste le nuage de
points :
Onglet Graphique , Ajouter une courbe de tendance , type Linaire , option
Afficher lquation sur le graphique , et Afficher le coefficient de dtermination
(R2) sur le graphique
4. Les variables indice de volume du PIB et indice de volume de la consommation prive
sont lies linairement au temps :
r2 (indice PIB, temps) 0,974
2
r (indice Consommation, temps) 0,964
La liaison linaire entre ces deux indices est due leur liaison linaire avec une mme
3e variable qui est le temps.
Ltude des variations relatives permet dliminer la tendance. On dit alors quon a
stationnaris les sries.
Exercice 3.4
1. 810 / 1 000 = 81 %
2. 440 / 810 = 54,3 %
3.
Pas du tout
satisfait
Plutt pas
satisfait
Plutt
satisfait
Trs
satisfait
Total
10
50
245
195
500
2 ans danciennet
40
90
205
165
500
10
49
39
100
2 ans danciennet
18
41
33
100
303
4.
Pas du tout ou plutt satisfait
60
440
2 ans danciennet
130
370
500 810
5. n 12 = ---------------------- = 405
1 000
Exercice 3.5
1. r = 0,928
(utilisation dune calculatrice)
a = 0,018
b = 3,513
2. y = 0,018 x + 3,513
Les deux droites des moindres carrs ont des pentes de mme signe.
3. Recette globale = 1 000 x y 18 x2 + 3 513 x
R
------ = 18 2x + 3 513
x
R
------ = 0 pour xc = 96,3 tonnes
x
La recette globale est une fonction croissante de x entre [0 , xc] et dcroissante pour
x > xc
la valeur critique que les producteurs ont intrt ne pas dpasser est la valeur :
xc = 96,3 tonnes
Exercice 3.6
1. Population : les n mnages (hors tudiants) interrogs pour lenqute logement 1996
de lINSEE.
Unit statistique : un mnage parmi les n mnages interrogs.
Caractres : niveau de vie en F/uc/mois (quantitatif continu), type socio-conomique
(qualitatif).
2. Profils en ligne et profils en colonne, ou distributions conditionnelles selon le niveau
de vie et selon le type socio-conomique.
Profils en colonne
Niveau de vie
(en F/uc/mois)
Infrieur
du 1er dcile
du 3e quartile
au 1er dcile au 3e quartile
au 9e dcile
< 3 700
[3 700 ; 9 933[ [9 933 ; 13 900[
Type socio-conomique
Communes agricoles
Communes
et quartiers ouvriers
Communes et quartiers des
classes moyennes tertiaires
Communes et quartiers
techniques trs qualifis
Quartiers hupps
Ensemble
304
Au moins
gal au
9e dcile
13 900
Ensemble
22
41
13
41
7
31
5
22
12
37
28
34
39
32
34
11
13
12
28
100
100
100
100
100
Profils en ligne
Niveau de vie
(en F/uc/mois)
Type socio-conomique
Au moins
Infrieur
du 1er dcile
du 3e quartile
gal
Ensemble
au 1er dcile au 3e quartile
au 9e dcile
au 9e dcile
< 3 700
[3 700 ; 9 933[ [9 933 ; 13 900[
13 900
Communes agricoles
Communes et quartiers
ouvriers
Communes et quartiers des
classes moyennes tertiaires
Communes et quartiers
techniques trs qualifis
Quartiers hupps
18
11
70
71
8
12
4
6
100
100
65
17
100
51
25
19
100
44
20
30
100
Ensemble
10
65
15
10
100
Niveau de vie
(F/uc/mois)
< 3 700
Frquence (%)
5,56
22,19
13 900
Total
25,19
100
305
Exercice 3.7
1.
n i
ni
yi
12
28
39
54
41
22
4
7,17
9,00
10,00
11,37
12,58
14,36
16,50
nj
xj
j=1
[5 ; 7[
[7 ; 9[
[9 ; 11[
[11 ; 13[
[13 ; 15[
[15 ; 17[
[17 ; 19]
10
32
59
46
36
14
3
6,80
9,30
10,80
12,26
13,90
15,14
17,33
y
Scintra
Scinter
SCtot
27,67
60,00
120,00
206,60
161,95
69,10
11,00
n j
i=1
[5 ; 7[
[7 ; 9[
[9 ; 11[
[11 ; 13[
[13 ; 15[
[15 ; 17[
[17 ; 19]
( y ij y i )
( x ji x j )
17,60
108,90
312,95
156,87
127,55
29,70
2,67
= 11,2
= 656,32
= 782,6
= 1438,92
782,6
2X/Y = --------------------- = 0,5843
1 438,92
2
x
Scintra
Scinter
SCtot
= 11,65
= 756,24
= 921,24
= 1677,48
921,24
2
X/Y
= --------------------- = 0,549
1 677,48
2. La courbe de rgression de Y en x est une ligne brise qui joint les points ( xi, ),y i
tant le centre de la ie classe de X.
306
xi
3. Les variables X et Y tant quantitatives, on peut mesurer leur liaison laide du coefficient de corrlation linaire : r2 = 0,542 = (0,736) 2
2
On retrouve : 0 r2 min(X/Y
; 2X/Y ) max(2X/YX; 2X/Y ) 1
Exercice 3.8
1.
Eau minrale
XC
YC
Arcens
Arvie
Badoit
Beckerich
Chteauneuf
Eau de Perrier
Faustine
La Salvetat
Perrier
Puits St-Georges
Pyrnes
Quzac
San Pellegrino
St-Diry
St-Jean
St-Pierre
St-Yorre
Vernet
Vernire
Vichy-Clestins
Wattwiller
2
1
2
1
3
1
3
1
1
1
1
3
1
1
2
2
3
2
1
3
2
3
4
2
1
4
1
2
1
1
3
1
2
1
3
2
3
4
2
2
4
1
2. Distribution conjointe
YC
1
1
2
3
6
1
0
1
3
2
2
2
0
1
0
3
10
6
5
Total
21
XC
307
60
10
20
10
100
16,7
50
33,3
100
10
40
10
60
100
Profil
moyen
33,3
28,6
19,1
19
100
XC
3. Les profils en ligne ntant pas identiques, les deux variables ne sont pas indpendantes.
4. Distribution conditionnelle de XC sachant {Y > 300 mg/l} :
XC
Effectif
C1X
C2X
C3X
Exercice 3.9
308
t2
111
114
119
116
125
136
149
164
181
100
121
144
117
178
149
189
145
173
170
223
223
281
285
339
b = 135,45
3.1. = 1,3
3.2. r = 0,94
Part de variation de Y non explique par le modle = 1 r2 = 1 0,88 = 12 %
4. Le modle quadratique est prfrable au modle linaire puisque le coefficient de corrlation linaire est plus lev pour ce modle. On peut aussi dire que la part de variation de Y non explique est plus faible avec ce modle.
Chapitre 4
Exercice 4.1
1 et 2.
4
La moyenne mobile lisse la srie chronologique, et permet dvaluer la tendance.
Exercice 4.2
1.
309
1. Le schma additif est adapt puisque les lignes brises qui joignent dune part, les
maxima (distants de 6 dates), et dautre part, les minima (distants de 6 dates) sont
peu prs parallles.
2. 6. La priode du mouvement saisonnier tant gale 6, on value la tendance par la
suite des moyennes mobiles de longueur 6.
310
xt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
13,3
15,1
14,8
16,3
14,8
14,2
13,8
14,2
14,1
17,0
15,2
14,8
14,4
16,0
16,2
18,5
16,2
15,3
15,4
16,8
17,4
19,9
17,9
17,4
25
26
27
17,2
18,5
18,6
M6 (t) xt M6 (t)
14,8
14,7
14,6
14,6
14,7
14,8
14,9
15,1
15,4
15,7
15,9
16,0
16,2
16,3
16,5
16,7
17,0
17,3
1,6
0,0
0,5
0,8
-0,5
0,7
2,1
0,1
0,6
1,3
0,1
0,1
2,3
0,1
1,2
1,3
0,2
0,1
st
s*t
CVS
2,0
0,0
0,8
1,2
0,2
0,2
2,0
0,0
0,8
1,2
0,2
0,2
2,0
0,0
0,8
1,2
0,2
0,2
1,1
0,2
0,1
2,0
0,1
0,7
1,1
0,2
0,1
2,0
0,1
0,7
1,1
0,2
0,1
2,0
0,1
0,7
1,1
0,2
0,1
2,0
0,1
0,7
14,4
15,3
14,9
14,3
14,7
14,9
14,9
14,4
14,2
14,9
15,2
15,5
15,5
16,1
16,3
16,4
16,1
16,0
16,5
16,9
17,5
17,9
17,8
18,1
Tendance Prvision
1,1
0,2
0,1
Erreur
de prvision
14,0
14,1
14,3
14,5
14,6
14,8
14,9
15,1
15,3
15,4
15,6
15,7
15,9
16,1
16,2
16,4
16,5
16,7
16,9
17,0
17,2
17,3
17,5
17,7
17,8
18,0
18,1
16,7
17,8
18,0
0,5
0,7
0,6
22
Prvision
20
18
16
M 6 (t )
14
12
Jv-Fv 2002
Jv-Fv 2003
Jv-Fv 2004
Jv-Fv 2005
Jv-Fv 2006
y t = 0,16 t + 13,82
x 25 = y 25 1,1 = 16,7
x 26 = y 26 0,2 = 17,8
x 27 = y 27 0,1 = 18
Les erreurs de prvision tant toujours positives, lerreur absolue moyenne est
gale lerreur moyenne de prvision : = (0,5 + 0,7 + 0,6)/3 = 0,6
Pour tracer avec Excel la droite des moindres carrs qui ajuste la srie CVS : onglet
Graphique , Ajouter une courbe de tendance , type Linaire . On peut utiliser
ensuite longlet Options pour Afficher l'quation sur le graphique et pour
Afficher le coefficient de dtermination (R 2) sur le graphique .
Exercice 4.4
2. 6.
311
Exercice 4.5
1.
312
1. Cette chronique a une composante saisonnire de priode 4 et une tendance approximativement constante sur la priode 2002-2005. Les deux schmas de composition
peuvent tre envisags. Nous choisissons le schma additif.
2. Pour une chronique avec une composante saisonnire de priode 4, la moyenne
mobile de longueur 4 limine la saisonnalit et permet dvaluer la tendance.
140
130
M4 (t)
120
110
100
90
80
1er trimestre 2003
313
3. 5.
LES ( = 0,3) Prvision Erreur
xt
M4 (t)
xt M4 (t)
st
CVS
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
94,2
105,3
103,5
127,5
98,3
103,8
115,7
125,5
100,9
110,7
106,6
126,3
98,7
109,8
110,8
129,4
108,12
108,44
109,78
111,06
111,14
112,34
112,07
111,03
110,30
108,78
107,71
107,46
4,65
19,03
11,48
7,30
4,56
13,16
11,17
0,30
3,70
17,52
13,48
2,20
12,04
3,26
1,26
16,57
12,04
3,26
1,26
16,57
12,04
3,26
1,26
16,57
12,04
3,26
1,26
16,57
106,3
108,5
104,7
110,9
110,3
107,0
117,0
108,9
112,9
114,0
107,9
109,7
110,8
113,0
112,1
112,8
17
18
100,8
110,8
106,3
107,0
106,3
107,7
108,5
108,0
110,7
110,2
111,0
111,9
110,7
110,4
110,5
111,3
111,5
111,5
111,5
199,9
108,6
0,9
2,2
La srie CVS pouvant tre considre sans tendance, on peut utiliser le lissage exponentiel simple.
Aprs avoir resaisonnalis les prvisions obtenues avec le LES, on obtient les prvisions de lindice trimestriel pour les deux premiers trimestres 2006 quon peut comparer aux observations.
On obtient :
Erreur moyenne de prvision = Erreur absolue moyenne de prvision = 1,55
140
130
CVS
120
110
100
LES
90
Prvision
80
1
314
10
11
12
13
14
15
16
17
18
Chapitre 5
Exercice 5.1
a) 75/120 = 0,625
b) 50/120 0,417
c) 45/120 = 0,375
d) 100/120 0,833
Exercice 5.2
P( A B )
1 P(
=A B)
P( A =
B)
b) P( A B )
P(A) = P( A B )) 0,371
1 P(
=A B)
1 (P(A)
=
+ P(B) P( A B )) 0,05
2. a) 0,052 = 0,0025
b) 0,351 0,05 0,018
Exercice 5.4
315
5
nombre de cas favorables 3
10
P(trois filles et deux garons) = ------------------------------------------------------------- = -------- = ------ = 0,3125
5
nombre de cas possibles
32
2
2. Toutes les familles ne sont plus quiprobables. On a une probabilit gale
(0,48)3 (0,52) 2 davoir une famille de 5 enfants avec 3 filles et 2 garons, et toutes
les familles tant incompatibles, on a :
Exercice 5.6
1. E(X) = 5/3 = 1,667 X = 0,943 (utiliser les fonctions statistiques dune calculatrice)
E((X)) = 600 E(X) 800 = 200 (X) = 600 X = 565,68
Signification de lesprance du profit : sur un trs grand nombre de jours, la moyenne
du profit sera voisine de 200 .
2. Loi de probabilit du profit :
valeur de X
valeur de
800
200
400
1 000
Probabilit
1/6
1/6
1/2
1/6
1/6
[ 200, 400[
[400, 1 000[
1 000
2/6
5/6
F(z)
1
0,8
0,6
0,4
0,2
0
1 000 800 600 400 200
z
0
200
400
600
800
Exercice 5.7
316
1. E(X) = 1,1
var(X) = 0,69
12
Xi
E(Y ) =
2. Y =
i=1
12
E ( X i ) = 12 1,1 = 13,2
i=1
12
var ( Y ) =
i=1
P(Y = 0) = P
12
i=1
{ X i = 0 } =
12
P( X i = 0)
= 0,3
12
= 5,3 10
i=1
3.1.
3
1
0,1
0,12
0
0,6
2 0,6 0,1
0
0,3
2 0,3 0,1 + 0,62
0
0
2 0,6 0,3
0
0
0,32
0,01
3.2.
0,12
0,42
0,36
0
1
2
Z
X
0,09
Exercice 5.9
Appelons D lvnement :
{une pellicule tire au hasard dans la production est dfectueuse}
P(D) = P({D et machine A} {D et machine B} {D et machine C})
317
1.
Y
Loi de Y
0
1
1/4
1/5
a
b
1/8
1/10
15/40 + a
12/40 + b
Loi de X
18/40
a+b
9/40
27/40 + a + b
13
a + b = -----40
18 15
------ ------ + a = 1-- 4
40 40
10 15 13
a = ------ ------ = -----18 40 72
13
b = ------ a
90
2.
X
15
------ + a = 40
------ = 5--40
72
9
12
4
40
------ + b = ------ = --40
9
90
Loi de Y
0
1
1/4
1/5
1/5
1/8
1/8
1/10
23/40
17/40
Loi de X
18/40
13/40
9/40
17
18
9
u
1
E(X) = -----E(Y) = ------ u + -----E(X Y) = --- + -----40
40
40
5
10
Si = 0, alors cov( X, Y) = 0 :
u
1
17
18
9
E(X Y) = --- + ------ = E(X) E(Y) = ------ ------ u + ----5 10
40 40
40
318
17 18
17 9
2u ---------------- u = ------------- 1
160
160
u = 0,5
Exercice 5.11
1.
Y
Loi de X
0
1
p
1/3 p
1/2 p
1/6 + p
1/2
1/2
Loi de Y
1/3
2/3
E(Y2) = 8/3
var(X) = 1/4
var(Y) = 8/9
2p 1 3
p1
(X, Y) = ---------------------- = 6--------------1 2 2
2
--- ---------2
3
Chapitre 6
Dunod. La photocopie non autorise est un dlit.
Exercice 6.1
Y=
10
i=1
X i (10 ; 0,1)
319
3.
Y
10
10
10
10
10
0,0001
0,0015
0,3599
0,6385
10 000
i=1
P(Y 3) = 0,8571
n > 50
et
p < 0,1
(2)
(lecture de table)
Exercice 6.3
p = 0,9
Probabilit
0,01
0,18
0,81
2.1.
Z
Y
Valeurs de N
320
0
1
2
0
0
0
0
1
1
0
1
2
0
1
2
2.2.
Valeurs de N
Probabilit
0,109
0,324
0,567
P(N = 2) = P({Y = 2 Z = 2} {Y = 2 Z = 3} )
= P({Y = 2 Z = 2} ) + P({Y = 2 Z = 3 )
= P(Y = 2) ( P(Z = 2) + P(Z = 3)) = 0,81 0,7 = 0,567
P'(N = 1) = 0,18 (0,2 + 0,4 + 0,3) + 0,81 0,2 = 0,324
P'(N = 0) = 1 0,324 0,567 = 0, 109
E(N) = 1,458 Marge brute moyenne = 29,16
3. Y dsigne maintenant le nombre de machines tombant en panne au cours de la 1re anne.
1 si ie machine en panne au cours de la 1 re anne p = 0,05
Xi =
0 sinon
(i = 1, , 60)
60
i=1
X i (60 ; 0,05)
n > 50
et
p < 0,1
(3)
Exercice 6.4
1. chaque essai, on peut associer une v.a. de Bernoulli de paramtre 0,95. Le nombre
dessais Y ncessaires pour se connecter 5 fois suit une loi de Pascal de paramtres
K = 5 et p = 0,95. Appliquons les rsultats du cours :
5
K ( 1 p -) = 0,277
E(Y) = K
var(Y) = ---------------------------- = --------- = 5,26
2
p
0,95
p
2. Pour avoir {Y = 5}, il faut stre connect les 5 fois avec succs :
P(Y = 5) = (0,95)5 0,774
La v.a. Y peut prendre toutes les valeurs entires au moins gales 5 :
P(Y > 6) = 1 P(Y = 5) P(Y = 6) = 1 0,774 5 (0,95) 5 0,05 = 0,0325
Exercice 6.5
321
xk
= e
P (Yt = k Xt = x) P(Xt = x)
) x ( 1 ) k x k e (---------= e
k
x!
xk
xk
x
k x k ()
x! ---------------------- (1 )
----------k! ( x k )!
x!
xk
x
e
1 k
1 - 1---------- - k
----------------------
( ) = --------- ------------
k!
k! ( x k )!
k
e - ----------1 - k
-------
( )
k!
x0
k
1
----------------- ( )
( x k )!
xk
x
k
( ( 1 ) )
(----------------- ) = e -------------------------------- e
x!
k!
( 1 ) ( ( 1 ) ) k
--------------------------------
k!
= e
Yt ((1 ) )
30
i=1
2. Le magasin est ouvert 7 h 30 par jour, donc 450 min par jour.
Z = nombre dunits vendues par jour =
450
i=1
Z (450 ; 0,01)
3.
n > 50
et
p < 0,1
X i (450 ; 0,01)
E(Z) = 4,5
(4,5)
Exercice 6.7
322
1.
1 si i e autobus en panne
Xi =
0 sinon
q = 0,9975
p = 0,0025
Y est somme de 1 000 v.a. de Bernoulli de mme paramtre p = 0,0025 quon suppose indpendantes.
Y =
1 000
(1 000 ; 0,0025)
E (Y) = 2,5
i=1
2. Y =
1 000
i=1
365
i=1
1. X1 (3) X2 (2)
X1 et X2 indpendantes Y = X1 + X2 (5)
2. P (Y = 8) = 0,0653
P ( { X 1 = 5 } { x2 = 3 } )
3. P ( X 1 = 5 Y = 8 ) = --------------------------------------------------------------P (Y = 8)
P ({ X1 = 5} { X2 = 3})
0,1008 0,1804
= ------------------------------------------------------------- = ------------------------------------ = 0,2785
P (Y = 8)
0,0653
Exercice 6.10
1. x = 0,61
2. Variable discrte :
les valeurs possibles sont les nombres entiers positifs ou nuls ;
la moyenne est peu diffrente de la variance.
323
On a une variable discrte valeurs positives ou nulles avec une moyenne quasi-gale
la variance. On peut envisager une loi de Poisson (0,61). La comparaison des
diagrammes en btons des distributions observe et thorique montre une excellente
adquation.
Nombre de dcs xk
5 u
Total
o +
109
65
22
200
Probabilit (0,61)
0,5434
0,3314
0,1011
0,0206
0,0031
0,0004
108,7
66,3
20,2
4,1
0,6
0,1
200
Nombre thorique
n*
120
Observ
100
Thorique
80
60
40
20
0
1
5 ou +
Chapitre 7
Exercice 7.1
1. X (45 ; 4)
P(X < 39) = FU((39 45)/4) = FU ( 1,5) = 1 FU (1,5) = 1 0,9332 = 0,0668
P(X 48) = 1 P(X < 48) = 1 FU (0,75) = 1 0,7734 = 0,2266
P(39 < X < 48) = P(X 48) P(X 39) = 0,7734 0,0668 = 0,7066
2. P( X m ) = P(m X m + ) = FU (1) FU( 1) = 2 FU (1) 1 = 0,6826
(en fait, rsultat de cours : II.C)
3. Puisque m = 45 et = 4, on a : {41 X 49} {m X m + }
P(41 X 49 X 39) = P({41 X 49} {X 39})/P(X 39)
= P(41 X 49)/P(X 39)
= 0,6826 / 0,9332 = 0,7315
324
Exercice 7.2
i=1
Y=
60
i=1
X i (60 ; 0,05)
(3)
325
Xm a
P ----------------- < --- = 0,9
a
FU --- = 0,95
a
2FU --- 1 = 0,9
a
--- = 1,645
[m a ; m + a] = [58,87 ; 141,13]
a = 41,125
Exercice 7.5
Le nombre Y de bouteilles de vin courant parmi les 200 bouteilles achetes est gal
la somme des 200 variables de Bernoulli Xi : Y =
200
i=1
Xi
Les 200 bouteilles tant supposes tires au hasard dans lensemble des bouteilles
grand cru avec un taux de sondage infrieur 10 %, la v.a. Y suit une loi binomiale
B(200 ; 0,12).
E(Y) = np = 24
Puisque npq = 21,12 > 18, la loi de Y peut tre approche par la loi normale (24 ; 4,6).
2. Comme on approxime une loi discrte par la loi normale, on fait la correction de
continuit :
P(Y > 20) = 1 P(Y 20) = 1 FU {(20 + 0,5 24)/4,6} = 1 FU ( 0,76) = 0,7764
P ( 20 < Y < 30 )
( Y < 30 ) P ( Y 20 )
P(Y < 30 Y > 20) = ------------------------------------- = P
-------------------------------------------------------P ( Y > 20 )
0,7764
FU ( 1,2 ) FU ( 0,76 )
0,2236
P(Y<30 Y>20) = --------------------------------------------------- = 0,8849
--------------------------------------- = 0,8517
0,7764
0,7764
3. Les bouteilles de type courant, en nombre Y, occasionnent une perte unitaire de 1,5 .
Les bouteilles rellement grand cru , en nombre (200 Y), crent un bnfice unitaire de 2,50 (= 6 3,5). Donc, au total :
Bnfice = 2,5 (200 Y) 1,5Y = 500 4Y P(Bnfice > 0) = P(Y < 125) 1
Exercice 7.6
326
2. la ie naissance, on associe :
1 si ie naissance avec 1 G et 1 F
Xi =
0 sinon
p = (1 )/2
Y=
1 000
i=1
E(Y) = 500 (1 )
3. Si = 0,35 :
var(Y) = 250 (1 2)
npq >18
(325 ; 14,8)
300 325
P(Y > 300) = 1 P(Y 300) 1 FU ------------------------ = FU (1,69) 0,9545
14,8
P(310 Y 350) = P(Y 350) P(Y < 310)
= FU (1,69) FU ( 1,01) = 0,9545 (1 0,8438) = 0,7983
P(310 Y 350 Y > 300) = P({310 Y 350} {Y > 300})/P(Y > 300)
= 0,7983/0,9545 0,836
Exercice 7.7
1. Pour une variable statistique continue, on calcule une valeur approche de la mdiane
100 86
par interpolation linaire : Me [35 ; 40[ Me = 35 + 5 --------------------- = 36,75
40
2.
7
CORRIGS DES EXERCICES
327
La loi normale (37 ; 10) est adapte puisque le nuage des points (x *i , xi) est approximativement align le long de la premire bissectrice.
3.1.
i=1
X i (n m, n )
n (2,3263/0,8) = 8,46
0,8 n 2,3263
n9
Exercice 7.8
Y=
10
i=1
X i (10 ; 0,7)
100
i=1
X i (100 ; 0,7)
Z = 10 Y (10 ; 0,3)
P(Y < 4) = P(Z > 6) = 1 0,9894 = 0,0106
npq = 21 > 18
(70 ;
21 )
80 0,5 70
P(Y 80) = 1 P(Y < 80) = 1 FU ------------------------------- = 1 FU (2,07) = 1 0,9808 = 0,192
21
40 0,5 70
P(Y < 40) = FU ------------------------------- = FU ( 6,65) 0
21
Exercice 7.9
1 e (y 2)/
si y 2
si y < 2
328
1. x = 28,1
sX = 9,375
50 39
2. Me = 25 + 5 ------------------ = 26,96
28
35 28
18 28
3.1. P(18 < X < 35) = FU ------------------ FU ------------------
9,5
9,5
= FU (0,74) FU ( 1,05) = 0,7704 1 + 0,8531 = 62,35 %
partir de lchantillon : 2 0,13/5 + 0,22 + 0,28 + 0,15 = 70,2 %
3.2. P(X > A) = 0,75
P(X A) = 0,25
A 28
--------------- = u25 % = 0,675
9,5
329
4.
0
si t < 0
t
1. FT(t) =
f ( u )du = 1 u 5
u 5 t
t5
du = [ e
] = 1e
--5- e
0
0
t
si t 0
Xi =
sinon
i=1
X i (n ; 0,8)
q 0,2
Y=
330
p 0,8
var(Y) = 0,16 n
4.1.
Y
Z=Y+n
n+k
2n
Probabilit
0,2n
n 0,8n 0,2n k
k
0,8n
Exercice 7.12
1.
Calcul du coefficient de corrlation linaire et des coefficients de la droite des moindres carrs avec Excel :
r = Coefficient corrlation (C2:C11;E2:E1)
= Index(Droitereg(E2:E11; C2:C11);1)
b = Index(Droitereg(E2:E11; C2:C11);2)
r = 0,94 r tant voisin de 1, on peut considrer les 10 points approximativement aligns : ln(1 Fi) 1,128 ln( xi) + 7,518
Pour tracer avec Excel la droite des moindres carrs : onglet Graphique , Ajouter
une courbe de tendance , type Linaire . On peut utiliser ensuite longlet Options
pour Afficher lquation sur le graphique et pour Afficher le coefficient de dtermination (R 2) sur le graphique .
2. La fonction de rpartition dune loi de Pareto est fonction de 2 paramtres et x0 :
x
FX(x) = 1 ----0-
x
x
1 FX(x) = ----0-
x
Les points {ln(xi) ; ln(l Fi)} tant quasi-aligns (r = 0,94), lajustement de la distribution par une loi de Pareto est justifi, et on peut valuer ses paramtres :
= 1,128 ln(x0) 6,667 x0 = e6,667 786
331
Exercice 7.13
2
1. y t = 1,3 t + 135,5
t2
1
4
9
16
25
36
49
64
81
100
121
144
Nombre de contrats
souscrits
117
178
149
189
145
173
170
223
223
281
285
339
y t
et
136,8
140,7
147,2
156,3
168,0
182,3
199,3
218,8
240,9
265,7
293,0
323,0
19,8
37,3
1,8
32,7
23,0
9,3
29,3
4,2
17,9
15,3
8,0
16,0
Rsidus
croissants
29,3
23,0
19,8
17,9
9,3
8,0
1,8
4,2
15,3
16,0
32,7
37,3
2.
Les points tant peu loigns de la bissectrice, on ne rejette pas lajustement par la loi
normale (0 ; 22).
Exercice 7.14
332
25
(1 750 ; 125)
i=1
E ( X 25 ) = E ( X )
var ( X 25 ) = var ( X ) 25 = 25
X 25 (70 ; 5)
Me = 127
Q1 = 107
Me = 127
EIQ = 38
x 1 125
- = 0,1 x 1 125 = 30 1,2816 x 1 = 86,552
P ( X < x 1 ) = 0,1 F U ------------------ 30
333
FU(ui)
0,1
0,2
0,3
0,4
0,5
ui
1,2816
0,8416
0,5244
0,2533
xi = 30ui + 125
86,6
99,8
109,3
117,4
125,0
FU(ui)
0,6
0,7
0,8
0,9
ui
2,2533
0,5244
0,8416
1,2816
xi = 30ui + 125
192,6
140,7
150,2
163,4
3.
Valeur
< x1
[x1 ; x2[
[x2 ; x3[
[x3 ; x4[
[x4 ; x5[
Effectif
12
10
10
10
Valeur
[x5 ; x6[
[x6 ; x7[
[x7 ; x8[
[x8 ; x9[
x9
Effectif
16
10
14
4.
On a construit un diagramme Probabilit-Probabilit qui permet de comparer les probabilits cumules thoriques aux frquences cumules.
Les points sont quasi aligns sur la bissectrice, les pourcentages cumuls thoriques et
observs sont trs proches, lajustement de la distribution observe par la loi normale
(125 ; 30) est retenu.
334
Annexes
I. Formulaire lmentaire de combinatoire
II. Principaux modles de probabilits :
mthodes de calculs
IV. Tables
I.
ANNEXES
335
Nk
En effet, pour le premier individu on a N choix possibles. Chacun de ces
choix est associ nimporte lequel des N choix possibles pour le second. On
continue ainsi jusquau choix du dernier ( N possibilits galement).
Cest par exemple le cas, pour le nombre de rsultats possibles pour une
suite de N preuves identiques ayant chacune les mmes k rsultats lmentaires possibles.
C. Permutations
Soit un ensemble de N lments, on appelle permutation sur une suite
de N lments de . Ceci revient dire que lon a dispos N objets de
dans un ordre dtermin. Il faut remarquer que dans cette dfinition gnrale,
les objets peuvent ne pas tre distincts. Pour cette raison, on introduit la
notion de permutation sans rptition, dans laquelle les lments de sont
distincts. Cette dernire dfinition revient donc dire quune permutation
(sans rptition) de est un rangement particulier de ses lments.
Pour un ensemble N lments il existe N (N 1) ( N 2) 2 1
permutations sans rptitions distinctes. Ce rsultat est simple montrer par
rcurrence. La valeur ainsi obtenue est appele factorielle N, et elle est note
N!
Plus gnralement, si N1, N2, Nk sont les nombres de rsultats distincts
qui peuvent tre obtenus sur k preuves successives, alors le nombre de rsultats distincts possibles lissue de la srie des k preuves est donn par :
N1 N2 Nk
On peut montrer aisment quil existe NN permutations avec rptitions
de N lments.
Dans ce qui suit on ne parlera que de permutation sans rptition.
336
ANNEXES
337
rsultats possibles lissue du tirage (soit 4 ! = 24 fois moins que si les prix
sont diffrents).
Mentionnons quelques formules trs utilises relatives ce nombre de
combinaisons :
N = 1
0
N = N
1
N = N
k
N k
ainsi que :
N = N 1 + N 1
k
k k 1
dont lapplication trs connue est le triangle de Pascal qui est un tableau
triangulaire dont chaque ligne correspond une valeur de
N et chaque
colonne une valeur de k (k = 0, 1, 2, ... , N). Sa construction se dduit de la
formule ci-dessus. Ainsi pour les 8 premires lignes :
1
1
1
1
1
1
1
1
2
3
4
5
6
7
1
=1
=2
=3
=4
=5
=6
+1
+13=
+16=
+ 1 10 =
+ 1 15 =
+ 1 21 =
1
1 +2
3+3
6+4
10 + 5
15 + 6
4=
10 =
20 =
35 =
1
1+3
1
4+6
5= 1+4
1
10 + 10 15 = 5 + 10 6 = 1 + 5
20 + 15 35 = 15 + 20 21 = 6 + 15
1
7=1+6
k a
Nk
k=1
Nk
k=1
obtenu en prenant a = 1 et b = 1.
Enfin, on citera une formule de rcurrence permettant de calculer les nombres de combinaisons par quelques pas de programme :
Nk+1 N
N = ---------------------
k 1
k
k
On retrouve son application lannexe II.
338
F. Coefficients multinomiaux
Le nombre total de diffrents partages dun ensemble N lments en k sousensembles disjoints, contenant respectivements n1, n2, , nk lments est
donn par le coefficient multinomial :
N!
--------------------------------------------n1 ! n2 ! nk !
Cest une gnralisation du nombre de combinaisons, N , o lon par k
tageait lensemble N lments en deux sous-ensembles, lun de k lments et lautre des ( N k) lments restants.
A. Loi binomiale
Dunod. La photocopie non autorise est un dlit.
ANNEXES
339
B. Loi de Poisson
Ici encore, la formule des probabilits individuelles permet dcrire une formule de calcul itratif (formule dj prsente et utilise au chapitre 6, III).
Si Y suit une loi (m), on a la formule :
m
P ( Y = k + 1 ) = ----------------- P ( Y = k )
(k + 1)
qui permet de programmer le calcul des probabilits individuelles, partant de
P(Y = 0) = e m. La programmation du calcul des probabilits cumules se
fait comme pour celles de la loi binomiale, en additionnant la nouvelle probabilit individuelle la somme de ltape prcdente, aprs avoir dbut la
somme par P(Y = 0).
a)
a 2 = 0,1201676
1
z = ------------------------------1 + 0,33267u
Lerreur commise est au plus gale 0,00001.
340
a 3 = 0,9372980
b)
1
F U ( u ) 1 --- ( 1 + 0,196854u + 0,115194u 2 + 0,000344u 3 + 0,019527u 4 ) 4
2
Lerreur commise est au plus gale 0,00025.
D. Loi du khi-deux
On utilise la formule, vue au chapitre 7, III.A, de Wilson-Hilferty :
13
x
2 9n
P ( 2 ( n ) < x ) F U --- 1 + ------ ------
n
9n 2
E. Loi de Student
On a vu au chapitre 7, III.B, que la loi de Student 2 ddl possde une fonction
de rpartition simple permettant des calculs exacts. Dans le cas gnral, on
utilise deux formules dapproximation ; lune pour la fonction de rpartition,
lautre pour les fractiles. La premire formule est due Fisher et scrit, pour
t > 0 (pour t < 0, on utilise la symtrie) :
t2
1
1
1 e ---2- 1--- ( 2 + 1 ) 1--- ----P ( T v < t ) = F U ( t ) ---------t t
+ - t ( 3 t 6 7 t 4 5 t 2 3 ) ----2
v
4
v 96
2
1
1
+ --------- t ( t 10 11t 8 + 14t 6 + 6t 4 3t 2 15 ) ----3
384
v
Lerreur commise est au plus gale 0,000005. Cest donc une excellente
approximation.
Dans le cas particulier de la loi de Student 1 ddl, on peut utiliser la formule suivante qui donne un rsultat entach dune erreur au plus gale
0,001, mais qui ne ncessite pas de calcul de fonction de rpartition de la loi
normale.
ANNEXES
341
3 5 7
2 1
1
1
1 1 1
P ( 0 < T 1 < t ) --- + --- --- ( t 1 ) 2 --- ( t 1 ) + ------ ( t 1 ) 3 ------ ( t 1 ) 5
4
40
2
12
4
si 0,5 t 1
F. Loi de Fisher-Snedecor
Pour cette loi, on peut utiliser la formule suivante, due G.W. Cochran, et
qui donne les fractiles dune loi F(1, 2) en fonction des fractiles de la loi
normale centre rduite :
12
2
1
f ( v 1 , v 2 ) d 1 + --- ( u 2 1 ) +u c 1 c---- ( u 2 + 3 )
3
6
o et
1 1 1
d = --- --- ---2 v 2 v 1
1 1 1
c = --- ---+ ---2 v 1 v 2
342
III.
Introduction la simulation
des lois de probabilit
Les activits conomiques sont tributaires de contraintes et dinfluences complexes, sources de variation importantes sur la ou les grandeurs tudies.
Dans certains cas, on peut obtenir une solution analytique au fonctionnement
dun systme complexe, mais le plus souvent il est ncessaire de recourir
ltude de scnarii sous la forme dune analyse de sensibilit, ou mieux
encore la simulation lorsque la partie alatoire peut tre dcrite par des distributions de probabilits. Ainsi, dans une modlisation de flux, la prise en
compte des interactions de toutes sortes gnre des modles mathmatiques
dlicats, de mme que pour ltablissement de valeurs ( pricing), les calculs
sont bass sur des modles alatoires dont la rsolution complte nest pas
toujours ncessaire et/ou possible.
Toutes les mthodes scientifiques de gestion ont bnfici de lexplosion
des ressources de calcul des ordinateurs, qui ont donn loccasion dune large
diffusion des mthodes dites
intensives comme la simulation. Les
tableurs actuels sont tous munis dun gnrateur de nombres
pseudoalatoires de qualit suffisante pour la plupart des besoins courants. Avec
la mise disposition dune bibliothque de fonctions (mathmatiques, statistiques, logiques, etc.), les mthodes de simulation sont devenues un ensemble
doutils daide la dcision trs largement accessible et rpandu. Quelques
bibliothques de programmes (comme le logiciel R) organises autour dun
langage trs simple compltent les instruments de base.
B.
Simuler est une faon dimiter. Simuler le comportement dun systme complexe consiste en reconstituer fictivement des ralisations. On parle de
simulation alatoire lorsque celles-ci sont obtenues laide de ralisations
fictives de variables alatoires de distributions connues.
Pour toute simulation, on part de ralisations artificielles de la distribution uniforme continue sur lintervalle
]0 ; 1[ qui sont fabriques
(simules) au travers de la fonction ALEA(). Lappel de cette fonction dans
K cellules dune feuille de tableur permet dobtenir { x i , i = 1,,K } , K ralisations indpendantes de la distribution uniforme continue sur ]0 ; 1[
ANNEXES
343
Pour obtenir des valeurs simules de la distribution de Bernoulli de paramtre p on utilise la fonction logique :
SI ALEA() < p
en affectant la valeur 1 comme rsultat lorsque la condition est ralise, et la
valeur 0 sinon.
En effet, la probabilit davoir un rsultat de loi uniforme continue sur
]0 ; 1[ infrieur p est gale p (chapitre 7, I.A).
C.
344
si x <
si x
2 ln x 1 cos ( 2x 2 )
u2 =
2 ln x 1 sin ( 2x 2 )
ANNEXES
345
issues dune loi uniforme continue sur ]0 ; 1[, on obtient deux valeurs indpen2
2
dantes u1 et u2 dune loi de Gauss centre rduite telles que u 1 + u 2 = 2 ln x 1
La fonction ALEA() gnre donc une valeur dune distribution du khideux 2 degrs de libert en calculant 2ln(ALEA())
Le lecteur peut trouver ensuite comment simuler facilement des valeurs
dune loi de khi-deux nombre pair de degrs de libert.
E.
346
Colonnes C et D, E et F, G et H, I et J, K et L, M et N, O et P, Q et R, S
et T, U et V, W et X remplies de manire similaire aux colonnes A et B.
Les colonnes B, D, F, H, J, L, N, P, R, T, V et X contiennent chacune une
suite de 25 valeurs (0 ou 1) ralisations de naissances simules, et modlisent
chacune une classe de CP de 25 enfants dont on obtient le nombre de filles
en faisant la somme de la colonne.
Ce nombre de filles est en thorie la somme de 25 alas de Bernoulli
indpendants de mme paramtre 0,48 ; il est distribu selon une loi binomiale (25 ; 0,48)
La moyenne thorique (25 0,48 =12) et la variance thorique (25 0,48
0,52 = 6,24) sont compares la moyenne et la variance des valeurs simules (lignes 30 et 31 du tableau1).
Il est aussi possible de simuler presque instantanment un jeu de pile ou
face rpt 5 000, 10 000 ou mme 100 000 fois pour une pice pipe ou pour
une pice non pipe, et dobserver la convergence des frquences de pile vers
la probabilit thorique impose dans la simulation, ce qui illustre la loi des
grands nombres.
ANNEXES
347
Ce modle de file dattente est not M/M/1 (chaque M caractrisant la distribution exponentielle memoryless), des dlais inter-arrives puis des temps
de service).
Tableau 2 Simulation dune file dattente de type M/M/1 pour 30 arrives
348
ANNEXES
349
Pour la dernire valeur, on ne calcule pas LOI.NORMALE.STANDARD.INVERSE(1) qui nest pas dfini, mais on choisit une valeur arbitraire proche de 1, comme 0,995 ou 0,999
350
IV. Tables
lexception de la table des fractiles de la loi du khi-deux, les tables suivantes sont extraites de l Aide-mmoire statistique (CISIACERESTA, 1999).
ANNEXES
351
( nk)
352
ANNEXES
353
354
ANNEXES
355
Cette table donne les valeurs absolues des fractiles, up de la loi normale
rduite tels que :
F (up) =
up
u2
1 ----2----------e
du = P
2
Pour P < 0,5 (colonne de gauche et ligne suprieure) les fractiles up sont
ngatifs.
Pour P > 0,5 (colonne de droite et ligne infrieure) les fractiles up sont
positifs.
356
ANNEXES
357
Cette table donne pour u 6 0, la valeur P = F(u) de la fonction de rpartition de la loi normale rduite telle que :
u
x2
1 ----P = F ( u ) = ----------e 2 dx
2
358
Cette table donne les valeurs des fractiles tP(v) de la loi de Student pour
P 0,60
Pour les valeurs P 0,40, on a tP(v) = t 1 P (v)
ANNEXES
359
360
Bibliographie
Ouvrages de base
ESCOFIER B., PAGES J., Initiation aux traitements statistiques, Mthodes, mthodologie, Presses universitaires de Rennes, 1997.
GIARD V., Statistique applique la gestion , 8 e d., conomica, 2003.
GRAIS B., Statistique descriptive , coll. co sup , 3 e d., Dunod, 2004.
GRAIS B., Mthodes statistiques , coll. co sup , 4 e d., Dunod, 2006.
MORINEAU A., C HATELIN Y.-M. et al. , Lanalyse statistique des donnes :
apprendre, comprendre et raliser avec Excel , Ellipses, 2005.
Ouvrages gnraux
DODGE Y., Statistique, Dictionnaire encyclopdique , Springer
DROESBEKE J.-J., T ASSI P., Histoire de la statistique , Que
Verlag, 2004.
sais-je n 2527,
Ouvrages dapprofondissement
ANTOINE Ch., Les Moyennes, coll. Que sais-je ? , n 3383, PUF, 1998.
DODGE Y., MELFI G., Premiers pas en simulation , Springer Verlag, 2008.
SAPORTA G., Probabilits, analyse des donnes et statistique, 2e d., ditions Technip,
2006.
TENENHAUS M., Statistique, mthodes pour dcrire, expliquer et prvoir , 2e d.,
Dunod, 2007.
Sites Internet
Cours de statistique en ligne : www.agro-montpellier.fr/cnam-fr/statnet/
Module et mthodes de traitement : www.modulad.fr, onglet ExcelEnse
Logiciels
Excel 2007 , Microsoft.
PASW Statistics (2010), nouveau nom de SPSS version 18 pour Windows,
Mac OS ; SPSS, Chicago, Illinois, 2004.
JMP (2009) version 8pour Mac OS, pour Windows ou pour Linux, produit par
SAS, SAS Institute Inc., Cary, NC, USA, 2004.
R version 2.11.1 (2010). Logiciel libre multi plates-formes (CNU General Public
Licence), The R Foundation, www.r-project.org
BIBLIOGRAPHIE
361
Lexique anglais/franais
A
Arithmetic mean Moyenne
arithmtique
B
Bernoulli trial preuve de Bernoulli
Binomial distribution Loi binomiale
Box plot Bote de distribution, bote
moustache, bote pattes
Box-and-whisker plot Bote de
distribution, bote moustaches,
bote pattes
C
Categorical variable Variable
qualitative, variable nominale
Centered random variable Variable
alatoire centre
Central limit theorem Thorme
central-limite
Coefficient of kurtosis Coefficient
daplatissement
Coefficient of skewness Coefficient
dasymtrie
Coefficient of variation Coefficient
de variation
Composite index number Indice
synthtique
Conditional frequency Frquence
conditionnelle
Correlation coefficient Coefficient de
corrlation
LEXIQUE ANGLAIS/FRANAIS
363
Forecasting Prvision
Frequency Effectif
Frequency distribution Distribution
observe
Frequency table Tableau de
frquence
G
Gaussian distribution Loi de Gauss
Geometric distribution Loi
gomtrique
Geometric mean Moyenne
gomtrique
H
Harmonic mean Moyenne
harmonique
Histogram Histogramme
I
Independence Indpendance
Index number Indice lmentaire
Individual Individu
Interquartile range Intervalle
interquartile
364
N
Normal distribution Loi normale
O
Observation Observation
Outlier Valeur loigne, valeur
extrme
Sample chantillon
Sample space Ensemble fondamental
Sampling without replacement Tirage
exhaustif
Scatter plot Graphique de dispersion
Seasonal component Composante
saisonnire
Seasonally adjusted data Donnes
corriges des variations saisonnires
Skewness Asymtrie
Standard deviation cart-type
Standard normal distribution Loi
normale centre rduite
Standardized normal distribution Loi
normale centre rduite
Standardized random variable
Variable alatoire centre-rduite
Statistical unit Unit statistique
Stem and leaf diagram Diagramme
branche et feuille
Q
Quantile Quantile, fractile
Quantile-Quantile plot Diagramme
Quantile-Quantile
Quartile Quartile
Quantitative variable Variable
quantitative
R
Random component Composante
alatoire
Random experiment Exprience
alatoire
Random variable Variable alatoire
Range tendue
Regression curve Courbe de
rgression
Relative frequency Frquence
Response category Modalit
LEXIQUE ANGLAIS/FRANAIS
365
Lexique franais/anglais
A
Asymtrie Skewness
B
Bote de distribution Box plot, boxand-whisker plot
Bote moustaches Box plot, boxand-whisker plot
Bote pattes Box plot, box-andwhisker plot
C
Centile Percentile
Chronique Time series
Coefficient daplatissement
Coefficient of kurtosis
Coefficient dasymtrie Coefficient
of skewness
Coefficient de corrlation
Correlation coefficient
Coefficient de variation Coefficient
of variation
Composante saisonnire Seasonal
component
Composante alatoire Random
component
Convergence en loi Convergence in
distribution
Convergence en moyenne quadratique
Convergence in second-order
mean
Convergence en probabilit
Convergence in probability
LEXIQUE FRANAIS/ANGLAIS
367
F
Fonction cumulative Cumulative
function
Fonction de densit de probabilit
Probability density function
Fonction de rpartition Cumulative
distribution function
Fractile Quantile
Frquence Relative frequency
Frquence conditionnelle
Conditional frequency
G
Graphique de dispersion Scatter plot
H
Histogramme Histogram
I
Indpendance Independence
Indicateur dasymtrie Measure of
skewness
Indicateur de dispersion Measure of
variability
368
Mdiane Median
Mdiane mobile Moving median
Modalit Modality, response
category
Mode Mode
Moyenne Mean
Moyenne arithmtique Arithmetic
mean
Moyenne gomtrique Geometric
mean
LEXIQUE FRANAIS/ANGLAIS
369
Index
A
Algbre de Boole 134
Analyse 270
Approximation 203, 236, 239
Arrangement avec rptition 335
Arrangement sans rptition 336
Asymtrie 27
B
Bayes 139
Binme de Newton 338
Bote moustaches 33
Bote de dispersion 33
Bote de distribution 33, 34
Bote--pattes 33
Box-plot 33
C
Chronique 103
Chronologique 103
Circularit 48
Coefficient daplatissement 28, 164
Coefficient dassociation 91
Coefficient dasymtrie 28, 164
Coefficient de corrlation linaire 74,
162
Coefficient de variation 29
Coefficient multinomial 339
Coefficient saisonnier 113, 114
Combinaison sans rptition 337
Concentration 30
Condition de Yule 13
Convergence 166
en loi 166
en moyenne quadratique 168
en probabilit 167
faible 166
Couple de variables alatoires 151
Courbe cumulative 9
Courbe de concentration 30
Courbe de Lorenz 30
Courbe de rgression 89
Covariance 73, 162
D
Dcile 22
Dflater 56
Degr de libert 255
Densit de probabilit 147
Diagramme branche et feuille 12
Diagramme en camembert 3
Diagramme en btons 5
Diagramme quantile-quantile 233
Dispersion relative 29
Distribution conditionnelle 69
Distribution conjointe 67, 152
Distribution marginale 69
Distribution statistique 7
Droite des moindres carrs 75
E
cart absolu moyen 24
cart-type 24, 160
cart-type conditionnel 70
INDEX
371
chantillon 1, 185
chelle logarithmique 59
Effectif 4
Effectif cumul 8
Ensemble fondamental 133
quiprobabilit 134
Erreur absolue moyenne de prvision
123
Erreur quadratique moyenne de
prvision 123
Espace probabilis 135
Esprance conditionnelle 158
Esprance mathmatique 156
tendue 23
tendue interquartile 23
vnement 133
vnement certain 133
vnement impossible 133
vnement indpendant 138
Exprience alatoire 132
Exprience dterministe 132
Indpendance statistique 71
Indicateur de dispersion 23, 165
Indicateur de forme 165
Indicateur de tendance centrale 14,
156, 165
Indice de concentration 32
Indice de Fisher 54
Indice de Gini 32
Indice de Laspeyres 51
Indice de Paasche 52
Indice des prix 58
Indice lmentaire 47
Indice synthtique 49
Indice-chane 57
Individu 1
Ingalit de Bienaym-Tchbychev
167
Interquartile relatif 29
Intervalle modal 18
Irrgularit 104
F
Facteur dexhaustivit 192
Fonction cumulative 9
Fonction de rpartition 9, 144, 151, 154
Fonction de variable alatoire 149
Fonction gnratrice des moments 163
Formule 341
Formule de Hastings 340
Formule de Wilson-Hilferty 245
Fractile 165
Frquence 4
Frquence conditionnelle 69
Frquence cumule 8
H
Histogramme 6
I
Incompatibilit 133
Indpendance 153
372
K
Kolmogorov 135
L
Lissage exponentiel double 125
Logit 270
Loi binomiale 185
Loi binomiale en proportion 188
Loi conditionnelle 152
Loi dErlang 218
Loi de Bernoulli 182
Loi de Cauchy 247
Loi de Fisher-Snedecor 252
Loi de Pareto 260
Loi de Pascal 193
Loi de Poisson 199
Loi de probabilit dune variable
alatoire continue 146
Loi de probabilit dune variable
alatoire discrte 144
P
Paradoxe de Bertrand 141
Paradoxe de St Petersbourg 141
Permutation 336
Perturbation 104
Population 1
Probabilit 135
Probabilit a posteriori 140
Probabilit a priori 140
Probabilit conditionnelle 136, 152
Probit 270
Profil en colonne 71
Profil en ligne 71
Profondeur 10
M
Mdiane 19, 165
Mdiane mobile 115
Mesure 91
khi-deux 91
Mesure de probabilit 135
Mthode de lissage exponentiel 120
Modalit 2
Mode 17, 156
Modle 179
Modle continu 180
Modle discret 180
Modle empirique 180
Modle thorique 180
Moment 163
Moment centr 27, 163
Moment factoriel 163
Mouvement saisonnier 104
Moyenne 156
Moyenne arithmtique 14
Moyenne conditionnelle 70
Moyenne empirique 237
Moyenne gomtrique 16
Moyenne harmonique 17
Moyenne mobile 109
INDEX
373
U
Unit statistique 2
374
W
Wilson-Hilferty 341