Annexe B

Annexe B
Résultats de la Théorie des Probabilités
B.1 Introduction
Les lecteurs de cet ouvrage devraient déja être relativement familiers avec la
théorie des probabilités et la statistique. Cette annexe a été élaborée pour
aider ceux qui souhaitent rafraı̂chir leur mémoire et pour réunir les résultats
pour faciliter les références. Il ne s’agit en aucun cas d’un substitut à des
manuels de second cycle tels que ceux Casella et Berger (1990) ou Spanos
(1986). La Section B.2 rappelle les concepts de base des variables aléatoires
et des distributions de probabilité. La Section B.3 traite des moments des
variables aléatoires et de certains résultats connexes. Enfin la Section B.4 fait
le point sur certaines des distributions de probabilité les plus communément
utilisées en économétrie.
B.2 Variables Aléatoires et Lois de Probabilité

Le concept de variable aléatoire sous-tend la majeure partie de la théorie
des probabilités et de sa discipline affiliée de la statistique. Une définition
complètement formelle d’une variable aléatoire nécessite le concept d’espace
probabilisable, sur lequel peut se définir une sigma-algèbre, qui sert à son
tour de support à la définition d’une mesure de probabilité. Nous ne pouvons
pas dans cet ouvrage détailler tous ces concepts, et les lecteurs intéressés sont
orientés vers Billingsley (1979) pour un traitement approprié.
L’essentiel de nos propos, très simplifié, s’expose comme suit. La première
composante nécessaire est un ensemble d’éléments que nous appellerions com-
munément les “états du monde” dans la théorie économique traditionnelle.
Cet ensemble plus formellement appelé espace des événements ou espace des
réalisations, peut être très simple. Par exemple, si nous traitions le lancé
d’une pièce de monnaie, il serait composé de deux éléments, pile ou face.
Dans d’autres circonstances, il peut être très compliqué afin de pouvoir gérer
tous les détails d’un processus stochastique à indice soit discret, comme les
suites de variables aléatoires rencontrées dans la théorie asymptotique exposée
dans cet ouvrage, soit continu. Un exemple de cette dernière possibilité est
celui du processus de Wiener mentionné dans le Chapitre 20. Dans tous les
cas, l’espace des réalisations doit posséder une structure suffisamment riche
793
794 Résultats de la Théorie des Probabilités
pour que chaque réalisation possible soit représentée par un point de l’espace;
des réalisations différentes doivent correspondre à des points différents.
Bien que chaque réalisation possible doive être représentée dans l’espace
des réalisations, il n’est pas toujours possible d’attribuer une probabilité à
toutes ces réalisations. Même si c’était le cas, la probabilité associée pourrait
ne pas être particulièrement riche en information. Par exemple, si nous con-
sidérons une seule variable aléatoire pouvant prendre n’importe quelle valeur
sur la droite réelle, la probabilité qu’elle prenne un nombre réel particulier
est traditionnellement nulle. Des probabilités positives seraient dans ce cas
associées uniquement à des intervalles de longueur positive. Une structure est
par conséquent nécessaire pour déterminer précisément quels sont les sous-
ensembles de l’espace des réalisations — les événements composites dans la
terminologie probabiliste standard — auxquels nous allons attribuer des pro-
babilités. Cette structure est la sigma-algèbre dans la théorie formelle.
La dernière composante essentielle est la mesure de probabilité: la
manière dont les probabilités sont effectivement attribuées à des événements,
composites ou simples. La seule chose à conserver à l’esprit ici est que les
mesures de probabilité doivent respecter les lois de probabilité dictées par
notre intuition. Ces lois sont remarquablement simples: la probabilité de
l’événement nul (rien ne se réalise) est nulle, la probabilité de l’espace en-
tier des réalisations (une réalisation quelconque se produit) est égale à un,
et la probabilité qu’un ensemble quelconque d’événements disjoints, ou qui
s’excluent mutuellement, se réalise est égale à la somme des probabilités de
chacun des événements disjoints pris séparément.
Nous pouvons à présent livrer une définition non formelle de ce que
nous entendons par variable aléatoire, ou v.a. en abrégé. Le cas le plus
simple est celui d’une variable aléatoire scalaire, qui ne prend qu’une seule
valeur réelle. Une telle variable aléatoire sera une application de l’espace
des réalisations dans la droite réelle, c’est-à-dire l’attribution d’un nombre
réel à chaque réalisation possible. Un instant de réflexion nous montrera que
c’est précisément ce que nous entendons par variable aléatoire: une grandeur
dont la valeur prise dépend de l’état du monde. En général, une application
quelconque de l’espace des réalisations dans la droite réelle n’est pas à pro-
prement parler une variable aléatoire, parce que nous insistons sur le fait qu’il
devrait être possible de définir une distribution de probabilité pour chaque
variable aléatoire. Le sens de ceci, plus spécifiquement, est que, si x est une
v.a. quelconque, nous devrions être capables d’attribuer des probabilités à
des événements tels que (x ≤ X) pour tout réel X. Notons Ω l’espace des
réalisations; c’est une notation très répandue dans la théorie des probabilités.
Alors l’événement (x ≤ X) peut être explicité sous la forme du sous-ensemble
suivant de Ω:
(ω ∈ Ω | x(ω) ≤ X). (B.01)
Le fait que x soit une application de Ω dans la droite donne son sens a (B.01).
B.2 Variables Aléatoires et Lois de Probabilité 795
Pour que x soit une variable aléatoire bien définie, il doit être possible
d’attribuer une probabilité à chacun des ensembles (B.01). Cela nous conduit
à la fonction de densité cumulée, ou c.d.f., ou fonction de distribution ou
encore fonction de répartition de la variable aléatoire x, que l’on note souvent
F (x) et qui est définie sur la droite réelle. Du fait que la valeur d’une c.d.f.
est une probabilité, une c.d.f. doit prendre ses valeurs dans l’intervalle [0, 1].
Une c.d.f. type est définie par une équation de la forme
¡ ¢
Fx (X) = Pr ω ∈ Ω | x(ω) ≤ X .
Habituellement, il est pratique d’omettre la référence à ω et Ω en écrivant

simplement Pr(x ≤ X). Par construction, une c.d.f. tend vers zéro lorsque
son argument tend vers −∞, et vers un lorsque son argument tend vers +∞.
De plus, ce doit être une fonction faiblement croissante en son argument.
Cette propriété est vraie parce que, si X1 < X2 , alors l’événement (x ≤ X1 )
est compris dans l’événement (x ≤ X2 ) et ne peut donc avoir une probabilité
supérieure à celle de (x ≤ X2 ). Montrer ce résultat en détail à l’aide de la
règle sur la somme des probabilités d’ensembles d’événements disjoints est un
bon exercice.
Les variables aléatoires peuvent prendre des valeurs sous forme de vec-
teurs, de matrices, ou bien d’autres formes encore. Une variable aléatoire qui
prend des valeurs sous la forme d’un vecteur est appelée variable aléatoire
vectorielle. Les propriétés probabilistes d’une v.a. vectorielle x peuvent être
représentées par une généralisation de la c.d.f. appelée c.d.f. jointe. Si x ∈ Rn ,
alors sa c.d.f. est une fonction de n arguments, comme suit:
¡ ¢
Fx (X1 , . . . , Xn ) = Pr (x1 ≤ X1 ) ∩ · · · ∩ (xn ≤ Xn ) .
Ici xi désigne la i ième composante de x, et le symbole ∩ désigne l’intersection

d’ensembles: l’événement en question est l’ensemble de tous les ω ∈ Ω tel
que x1 ≤ X1 et x2 ≤ X2 , et ainsi de suite. Une c.d.f. jointe possède des
propriétés similaires à la c.d.f. d’une variable aléatoire scalaire. Elle tend vers
zéro quand n’importe lequel de ses arguments tend vers −∞, et vers un lorsque
tous ses arguments tendent vers +∞. A partir d’une c.d.f. jointe, nous pou-
vons dériver la distribution marginale de n’importe quelle composante de x.
Cela correspond simplement à la probabilité d’une composante considérée
comme une variable aléatoire scalaire. Cette distribution marginale est bien
sûr représentée par une c.d.f. ordinaire, qui pour la composante xi est obtenue
en initialisant à +∞ toutes les composantes de la c.d.f. jointe autres que xi :
Fxi (Xi ) = Fx (+∞, . . . , Xi , . . . , +∞).
Ceci est alors la probabilité que xi ≤ Xi et que toutes les composantes de

x autres que xi prennent n’importe quelle valeur. La distribution marginale
de tout sous-ensemble de composantes x est représentée de manière analogue
par une c.d.f. jointe provenant des c.d.f. d’origine en initialisant à +∞ toutes
les composantes non sélectionnées .
Les distributions de probabilité jointe permettent d’introduire la no-
tion importante d’indépendance statistique. Soit x une variable aléatoire
vectorielle de dimension n, et supposons qu’elle est partitionnée comme
.
x = [x1 ... x2 ], avec x1 ∈ Rn1, x2 ∈ Rn2, et n1 + n2 = n. Alors x1 et x2 sont
dits statistiquement indépendants, ou souvent plus simplement indépendants,
si la c.d.f. jointe du vecteur x est le produit des c.d.f. de x1 et x2 . Dans une
notation simplifiée, cela signifie que
¡ ¢ ¡ ¢ ¡ ¢
Fx X1 , X2 = Fx X1 , ∞2 Fx ∞1 , X2 ,
où ∞1 et ∞2 désignent les vecteurs dont les composantes sont égales à +∞.
Le concept de fonction de densité de probabilité, ou p.d.f., est très
étroitement relié à celui de c.d.f. Bien qu’une fonction de distribution existe
pour toute variable aléatoire bien définie, une p.d.f. n’existe que si la c.d.f. est
différentiable. Pour une v.a. scalaire, la fonction de densité, souvent notée f,
est simplement la dérivée de la c.d.f.:
fx (X) ≡ Fx0 (X).
La densité jointe d’un ensemble de v.a., ou de manière équivalente une v.a.

vectorielle, s’obtient en dérivant la c.d.f. jointe par rapport à tous ses argu-
ments:
∂ n Fx (X1 , . . . , Xn )
fx (X1 , . . . , Xn ) = .
∂X1 · · · ∂Xn
Le fait qu’une c.d.f. varie de 0 à 1 implique que la fonction de densité soit
normalisée pour que son intégrale soit égale à un. En effet,
Z ∞ Z ∞
fx (X) dX = Fx0 (X) dX
−∞ −∞ (B.02)
£ ¤X=+∞
= Fx (X) X=−∞ = 1 − 0 = 1.
De la même manière nous montrons que l’intégrale multiple d’une fonction de

densité jointe par rapport à ses arguments lorsqu’ils varient de −∞ à +∞ est
égale à un. Un résultat encore plus utile est que l’intégrale d’une p.d.f. jointe
par rapport à certains arguments seulement fournit la densité marginale des
variables par rapport auxquelles on n’a pas “intégré”. Celle-ci est appelée
densité marginale. Si deux groupes de v.a. sont indépendants, alors il est aisé
de voir que l’indépendance en terme des c.d.f. implique que la densité jointe
des deux groupes est le produit des densités marginales de ces deux groupes.
Une autre propriété cruciale d’une fonction de densité est qu’elle est non
négative. Cela provient directement de sa définition de dérivée d’une fonc-
tion faiblement croissante. Mais c’est également le pendant d’une propriété
B.3 Moments des Variables Aléatoires 797
très utile d’une densité, qui nous permet de l’utiliser pour calculer les proba-
bilités d’événements associés à une variable aléatoire donnée. Supposons que
x soit une v.a. scalaire. Alors pour tout intervalle [a, b] de la droite réelle,
nous pourrions souhaiter calculer la probabilité que x ∈ [a, b]. Cela provient
directement de la définition d’une c.d.f. que, si a < b,
¡ ¢
Pr x ∈ [a, b] = Fx (b) − Fx (a).
Par un argument similaire à celui conduisant à (B.02), cette probabilité est

Z b
fx (X) dX. (B.03)
a
Puisque (B.03) doit être vraie pour des valeurs quelconques de a et b, il est
clair que fx doit être une fonction non négative.
B.3 Moments des Variables Aléatoires

L’une des propriétés les plus importantes que peut posséder une variable
aléatoire est une espérance. La définition de l’espérance d’une v.a. scalaire
suffira; pour des v.a. vectorielles ou matricielles, les espérances sont définies
élément par élément. Ainsi, si x est une matrice aléatoire scalaire, son
espérance est définie comme la valeur de l’intégrale
Z ∞
X dFx (X), (B.04)
−∞
si elle existe. Le type d’intégrale dans (B.04) est appelé intégrale de Stieltjes,
en raison de la présence de la fonction d’intégration Fx . Les lecteurs pour qui
le concept d’une intégrale de Stieltjes est nouveau peuvent souhaiter consulter
un article standard sur l’analyse réelle, tel que celui de Burrill et Knudsen
(1969) ou celui de Mukherjea et Pothoven (1984), pour les détails. Nous ne
les fournirons pas ici, parce qu’ils ne sont pas très importants pour l’analyse
que nous livrons. La principale caractéristique d’une intégrale de Stieltjes, en
ce qui nous concerne, est que si la fonction d’intégration est dérivable, il est
possible d’exprimer l’intégrale de Stieltjes comme une intégrale ordinaire en
terme de sa dérivée. Pour (B.04), nous obtenons l’expression suivante pour
l’espérance de x: Z ∞
Xfx (X) dX, (B.05)
−∞
où fx est la densité de x. Pour simplifier notre discussion ultérieure, nous ne

traiterons que des c.d.f. dérivables.
Toutes les variables aléatoires ne possèdent pas une espérance. L’intégrale
d’une fonction de densité doit toujours exister et être égale à 1. Mais, puisque
X va de −∞ à ∞, l’intégrale (B.05) peut diverger vers une des limites

d’intégration, ou les deux, si la densité fx ne tend pas vers zéro suffisamment
rapidement. Par un léger abus de terminologie, l’espérance d’une variable
aléatoire est parfois appelée sa moyenne. A proprement parler, une moyenne
est une propriété d’un échantillon de réalisations de v.a., plutôt que d’une
distribution de probabilité. Dans les rares circonstances où la confusion est
possible, l’espérance peut être appelée moyenne de la population pour la dis-
tinguer de la moyenne d’échantillon.
On fait souvent référence à l’espérance d’une variable aléatoire en tant
que son moment d’ordre un. Les moments dits d’ordre supérieur s’ils exis-
tent, sont les espérances des puissances de la v.a. Ainsi le moment d’ordre
deux d’une variable aléatoire x est l’espérance de x2, le moment d’ordre trois
l’espérance de x3, et ainsi de suite. Les moments non entiers sont définis
de manière analogue, mais nous ne les utiliserons pas dans cet ouvrage. En
général, le moment d’ordre k de la v.a. x est
Z ∞
mk ≡ X k fx (X) dX.
−∞
Observons que la valeur de tout moment ne dépend que de la distribution

de probabilité de la v.a. en cause. Pour cette raison, on parle souvent des
moments de la distribution plutôt que de ceux d’une variable aléatoire parti-
culière. Notons également que si une distribution possède un moment d’ordre
k, elle possède également tous les moments d’ordre inférieur à k.
La définition précédente concerne les moments non centrés d’une dis-
tribution. Il est probablement plus ordinaire de travailler avec les moments
centrés, définis comme les moments ordinaires de la différence entre la vari-
able aléatoire et son espérance. Ainsi, si E(x) représente l’espérance de x, le
moment centré d’ordre k de la distribution de x est
¡ ¢k
m̄k ≡ E x − E(x) .
Le moment centré le plus important est de loin le moment d’ordre deux. C’est
la variance de la v.a. La notation usuelle pour une variance est σ 2, et cette
notation souligne le fait qu’une variance ne peut pas être négative. La racine
carrée, σ, est appelée écart standard de la distribution. Les estimations des
écarts standards sont souvent appelées écarts types, en particulier lorsque la
variable aléatoire en cause est un paramètre estimé.
Il est souvent important de pouvoir définir les moments de v.a. vecto-
rielles. Pour le moment d’ordre un, c’est trivial: le moment d’ordre un d’une
variable aléatoire vectorielle x de dimension n est simplement le vecteur ordi-
naire x̄ de dimension n dont l’élément type est x̄i ≡ E(xi ). Pour les moments
d’ordres deux et supérieurs, cela se complique. Pour les moments centrés
d’ordre deux, il est nécessaire de définir une matrice de dimension n × n,
parfois appelée matrice de variance, parfois matrice de covariance, et parfois
matrice de variance-covariance. La terminologie n’est pas standard, et nous

préférons l’expression du milieu. La matrice de covariance de x sera notée
V (x) et définie par
¡ ¢
V (x) ≡ E (x − x̄)(x − x̄)> .
Les éléments diagonaux de V (x) sont les variances des éléments de x.

L’élément non diagonal Vij est appelé covariance de xi et xj . Les moments
d’ordre supérieur de v.a. vectorielles peuvent être définis de manière ana-
logue. Ils font appel à des objets possédant plus de deux indices et ne sont
pas utilisés dans cet ouvrage.
Si nous calculons l’espérance du produit de deux variables aléatoires
indépendantes, le résultat correspond simplement au produit des espérances
des variables aléatoires prises séparément. Cela provient du fait que la densité
jointe de deux v.a. indépendantes est le produit des deux densités marginales.
De plus, la covariance de deux variables aléatoires indépendantes est nulle.
Une question embarrassante standard en théorie des probabilités consiste à
savoir si deux v.a. de covariance nulle sont nécessairement indépendantes: la
réponse est “non”. Cependant, une covariance nulle est une condition suf-
fisante pour que l’espérance du produit de deux variables aléatoires soit égale
au produit des espérances séparées.
Il est souvent nécessaire de calculer la variance d’une combinaison linéaire
de variables aléatoires. Supposons que ces v.a. soient les éléments de la v.a.
vectorielle x, et que la combinaison linéaire d’intérêt s’écrive a>x pour un
vecteur non aléatoire quelconque a. Il est facile de montrer que la variance de
cette combinaison linéaire est a>V (x)a. De manière similaire, si l’on construit
un vecteur de combinaisons linéaires des éléments de x, en construisant par
exemple A>x pour une matrice non aléatoire quelconque A adéquate, alors
V (A>x) = A>V (x)A. (B.06)
Si une variable aléatoire possède une variance, sa valeur peut être utilisée
pour calculer une borne pour la masse de probabilité contenue dans la queue
de distribution. Nous entendons par queue d’une distribution de probabilité
un événement de la forme (x > X) ou (x < X), où X est substantiellement à
la droite du centre de la distribution dans le premier cas et substantiellement
à gauche dans le second. Le premier cas définit la queue de droite de la dis-
tribution et le second la queue de gauche. Le terme ambigu “centre” est ici
employé du fait que la définition même de queue est imprécise. Nous pourrions
entendre par centre l’espérance, la médiane, le mode ou toute autre mesure
de tendance centrale. L’imprécision provient sûrement du fait que les v.a.
n’ont pas toutes une espérance. Pour une v.a. ne possédant pas d’espérance,
différentes mesures de tendance centrale peuvent être appropriées. Parfois,
c’est la probabilité qu’une variable aléatoire appartienne à une queue de dis-
tribution qui nous intéresse, parfois c’est la probabilité qu’elle appartienne à
la queue de droite, et parfois qu’elle appartienne à la queue de gauche. Les

queues de gauche sont d’un intérêt très limité lorsque la v.a. ne prend que
des valeurs positives.
La borne sur la masse de probabilité dans les queues à laquelle nous avons
fait allusion est connue sous le nom d’inégalité de Chebyshev. Nous pouvons
la dériver comme suit. Supposons que le moment non centré d’ordre deux
de la v.a. x soit V. Si x est elle-même une variable aléatoire centrée alors
E(x) = 0 et V est sa variance. L’inégalité de Chebyshev établit que, pour
tout nombre positif α,
¡ ¢ V
Pr |x| > α ≤ 2 . (B.07)
α
Pour le comprendre, notons que la définition de V est
Z ∞
2
V = E(x ) = X 2 fx (X) dX.
−∞
Cette intégrale peut se décomposer en une somme de trois intégrales:

Z α Z ∞ Z −α
2 2
V = X fx (X) dX + X fx (X) dX + X 2 fx (X) dX. (B.08)
−α α −∞
Considérons les deux derniers termes du membre de droite. Le facteur X 2

dans l’intégrande est toujours supérieur à α2 sur le domaine d’intégration de
ces termes. Ainsi ces termes sont au moins supérieurs à
µZ ∞ Z −α ¶
2
¡ ¢
α fx (X) dX + fx (X) dX = α2 Pr |x| > α ,
α −∞
grâce à (B.03). Puisque tous les termes de (B.08) sont non négatifs, nous
concluons que ¡ ¢
V ≥ α2 Pr |x| > α .
La réorganisation de cette inégalité conduit à (B.07). De là découle une forme
plus familière de l’inégalité de Chebyshev, qui établit que, pour une variable
aléatoire x d’espérance µ et de variance σ 2,
µ¯ ¯ ¶
¯x − µ¯ 1
Pr ¯ ¯ > α ≤ 2.
σ α
Le calcul de l’espérance d’une variable aléatoire est une opération linéaire.

Si x et y sont deux v.a. et a et b deux réels non aléatoires, alors E(ax +
by) = aE(x) + bE(y). Cela provient directement de la définition (B.05) d’une
espérance. En général, cependant, si g est¡ une¢fonction
¡ scalaire
¢ d’une variable
aléatoire scalaire x, nous n’avons pas E g(x) = g E(x) . Cette conclusion
serait vraie uniquement si g était une fonction affine, ce qui signifie que g(x) =
ax + b pour deux réels a et b.
...
y ............
..
... y = g(b) + g 0 (b)(a − b)...
..
.... ...... ..................
.... .
.............................
. y = g(x)
..
.. ..
.. ..
... ..
..
.................
.... ....
......
.... .
. .
.......
... ... .
..... ..
...
... ...
.
........ ...
....... .
.... ........... .
... ...
............. ...
.... ... .
...
... .
..............
. .
..
...
... ....
.... ..
... .. ..
..
. .. ..
.... ..
.. ..... ...... ..
..
.... .
...
. ..
..
. ..
. ..
... .. ...
... .. ... ..
.... ..... ..
.... ...
. ..
. .. ..
....................................................................................................................................................................................................................
.. ..
O .. . .
.. b x
Figure B.1 Une fonction concave type
Par ailleurs, si la fonction

¡ ¢ g est¡concave
¢ ou convexe, nous pouvons montrer
que l’inégalité entre E g(x) et g E(x) a un signe particulier. Ce résultat
est connu sous le nom d’inégalité de Jensen. Pour être concrets et parce que
c’est un cas qui survient dans la théorie du maximum de vraisemblance du
Chapitre 8, supposons que g soit une fonction concave comme la fonction
logarithmique. Alors l’inégalité assure que
¡ ¢ ¡ ¢
E g(x) ≤ g E(x) .
Pour le comprendre, supposons que g soit dérivable, bien que le résultat ne
nécessite pas cette hypothèse. Alors une manière d’exprimer la concavité de
g est l’inégalité
g(a) ≤ g(b) + g 0 (b)(a − b), pour tous réels a, b. (B.09)
Cette inégalité est illustrée sur la Figure B.1, qui devrait donner l’intuition
de l’inégalité de Jensen autant que (B.09) elle-même. Notons x̄ l’espérance
E(x). Alors
Z ∞
¡ ¢
E g(x) = g(X)fx (X) dX
−∞
Z ∞
¡ ¢
≤ g(x̄) + g 0 (x̄)(X − x̄) fx (X) dX,
−∞
où l’inégalité provient de (B.09). La seconde ligne est ici égale à

µZ ∞ Z ∞ ¶
0
g(x̄) + g (x̄) Xfx (X) dX − x̄ fx (X) dX
−∞ −∞
¡ ¢ ¡ ¢
= g E(x) + g 0 (x̄)(x̄ − x̄) = g E(x) .
Ceci démontre alors l’inégalité de Jensen pour le cas dérivable.
Si n’importe quelle fonction d’une variable aléatoire x est évaluée en x, le

résultat est une autre variable aléatoire. Ceci vaut aussi bien pour la fonction
de densité fx que pour toute autre fonction. En économétrie, on est rarement
intéressé par une seule fonction de densité mais davantage par une famille
paramétrique de fonctions de densité. Dans le cas simple où il n’existe qu’un
seul paramètre, une telle famille peut s’écrire f (x, θ), où θ est le paramètre.
Le logarithme de cette fonction est la fonction de logvraisemblance associée
à la famille paramétrique. Une propriété importante d’une telle fonction de
logvraisemblance est que, sous des conditions de régularité appropriées, la
dérivée de log f (x, θ) est une variable aléatoire telle que, si sa moyenne est
calculée avec la densité correspondant à la même valeur de θ que celle utilisée
pour évaluer la dérivée, cette moyenne est nulle si elle existe. Il est utile
d’esquisser une démonstration de ce résultat, qui peut s’exprimer comme
µ ¶
∂ log f
Eθ = 0, (B.10)
∂θ
où l’indice θ de l’opérateur d’espérance indique que celle-ci est calculée avec
f (·, θ).
La démonstration de (B.10) utilise un résultat standard sur la dérivation
des intégrales. Ce résultat établit que la dérivée d’une intégrale de la forme
Z b(θ)
g(y, θ) dy
a(θ)
par rapport au paramètre θ peut s’exprimer en terme des dérivées des fonc-
tions a, b, et g par rapport à θ, à condition qu’elles existent, et est égale à
Z b(θ)
¡ ¢ ¡ ¢ ∂g(y, θ)
−a (θ)g a(θ), θ + b0 (θ)g b(θ), θ +
0
dy,
a(θ) ∂θ
à nouveau à condition que l’intégrale du dernier terme existe. Pour ce résultat

standard, consulter n’importe quel manuel sur l’analyse réelle, tels que Burrill
et Knudsen (1969) ou Mukherjea et Pothoven (1984).
Pour démontrer (B.10), nous tirons profit du fait que la fonction de den-
sité f est normalisée pour que son intégrale soit égale à un pour toutes les
valeurs du paramètre θ. Supposons que le support de la fonction de densité
soit l’intervalle [a(θ), b(θ)] pour tout θ. Cela signifie que la densité est nulle
en dehors de cet intervalle ou que la probabilité qu’une v.a. distribuée avec
la densité f (·, θ) prenne une valeur en dehors de cet intervalle est nulle. Alors
la condition de normalisation est
Z b(θ)
f (y, θ) dy = 1.
a(θ)
B.4 Quelques Distributions de Probabilité Usuelles 803
Puisque cette condition est valable pour toutes les valeurs admissibles de θ,
nous pouvons la dériver par rapport à θ et obtenir
Z b(θ)
0
¡ ¢ 0
¡ ¢ ∂f (y, θ)
−a (θ)f a(θ) + b (θ)f b(θ) + dy = 0. (B.11)
a(θ) ∂θ
Le dernier terme, l’intégrale, peut s’exprimer comme
Z b(θ) µ ¶
∂ log f (y, θ) ∂ log f
f (y, θ) dy = Eθ .
a(θ) ∂θ ∂θ
Nous voyons que, hormis les conditions de régularité sur la dérivabilité et

l’existence de l’espérance de ∂ log f /∂θ, le résultat (B.10) requiert que les deux
premiers termes dans (B.11) s’annulent pour une raison ou pour une autre.
Une condition évidente menant à ce résultat est que les bornes du support
de la fonction de densité soient indépendantes du paramètre θ. Par exemple,
si l’espace d’intégration est la droite réelle, nous aurons automatiquement le
résultat voulu. Une condition différente est que la densité s’annule aux bornes
du support, et cela arrive en fait fréquemment dans la pratique. Des difficultés
peuvent malgré tout survenir si le support dépend de θ et si la densité n’est
pas nulle sur ses bornes.
Le raisonnement utilisé pour établir (B.10) peut être employé aussi bien
pour établir l’égalité de la matrice d’information de la théorie du maximum
de vraisemblance; voir le Chapitre 8.
B.4 Quelques Distributions de Probabilité Usuelles

La distribution de probabilité la plus importante est sans conteste la distribu-
tion normale centrée réduite. Cette distribution apparaı̂t très souvent dans la
théorie économétrique, et les définitions d’un grand nombre d’autres distribu-
tions communément employées utilisent directement la distribution normale
centrée réduite. La distribution normale possède la densité dont le tracé est
la plus ou moins célèbre courbe en cloche des ouvrages d’initiation à la statis-
tique, et elle représente parfois la distribution des notes d’examen; voir la
Figure B.2.
La densité de la distribution normale centrée réduite est définie sur la
droite réelle comme suit:
¡ ¢
φ(x) = (2π)−1/2 exp − 21 x2 . (B.12)
Contrairement à cette p.d.f., qui s’exprime uniquement en terme de fonctions
standards, la c.d.f. de la distribution normale centrée réduite doit être définie
explicitement comme l’intégrale
Z x
Φ(x) = φ(y) dy.
−∞
0.4 ...........
..... ..........
...... ...
. ...
.
.... ...
...
.. ...
... ...
.
..
0.3 .. ...
... ...
..
. ...
.
.. ...
.
.. ...
.
.. ...
.
.. ...
.. ...
0.2 .
..
. ...
.. ...
.
. ...
..
. ...
.
.. ...
...
. ...
.
. ...
0.1 .
... ...
...
.
.. ....
..
. ....
..
..
. .....
.
.
.......
. ......
......
...
... ..........
..
..
..
..
..
..
.. ......................
.
..................................................
..
..
..
..
..
.. .................................................
0.0
−4 −3 −2 −1 0 1 2 3 4
Figure B.2 La densité de la loi normale centrée réduite
Remarquons que φ et Φ sont les notations traditionnelles des p.d.f. et c.d.f. de

la distribution normale centrée réduite. Bien que Φ ne puisse pas s’exprimer
avec des fonctions standards, il est facile de l’évaluer numériquement.1 Il est
aisé de vérifier que φ satisfait toutes les exigences pour une densité de pro-
babilité: partout positive, intégrale égale à l’unité. Par conséquent, puisque
Φ est définie en terme d’une densité adéquate, elle doit satisfaire les exigences
pour une c.d.f.
Du fait de la symétrie de la densité (B.12) par rapport à zéro, l’espérance
de la densité normale est nulle, tout comme le sont les moments d’ordre impair
de la distribution. Les moments d’ordre pair ne sont pas difficiles à calculer.
La variance peut se calculer à l’aide d’une intégration par parties. Puisque
la dérivée de φ(x) est −xφ(x), l’intégrale indéfinie de xφ(x) est −φ(x). Par
conséquent,
Z ∞ Z ∞
2
¡ ¢
x φ(x) dx = x xφ(x) dx
−∞ −∞
Z ∞
£ ¤x=∞
= − xφ(x) x=−∞ + φ(x) dx = 1, (B.13)
−∞
et nous voyons que la variance d’une loi normale centrée réduite est égale à
un. Cette propriété justifie l’usage du terme “réduite” dans ce contexte. Les
moments d’ordre pair supérieur de la densité de la normale centrée réduite
sont quasiment aussi faciles à calculer. Le résultat, obtenu par un calcul de
1
Notons que, dans chacune des définitions précédentes, nous avons par souci de
simplicité abandonné l’usage des variables en majuscules. Il ne devrait sub-
sister aucun risque de confusion entre des variables ordinaires et des variables
aléatoires dans ce qui suit.
récurrence d’une intégration par parties comparable à celle dans (B.13), est
que
m2k = (2k − 1)(2k − 3) · · · (3)(1).
Ainsi le moment d’ordre 4 est (3)(1) = 3, le moment d’ordre 6 est (5)(3)(1) =
15, et ainsi de suite.
Toute v.a. normalement distribuée d’espérance non nulle et de variance
non unitaire peut se définir par une translation et une normalisation d’une
variable normale centrée réduite. La famille des distributions ainsi définie
doit posséder deux paramètres que l’on peut noter µ, l’espérance, et σ 2, la
variance. Si y est distribuée normalement avec une espérance µ et une variance
σ 2, nous disons qu’elle a une distribution normale univariée. Nous écrivons
y ∼ N (µ, σ 2 ). La densité de y est
³y − µ´ µ ¶
1 −1/2 1 (y − µ)2
−
σφ = (2π) −
σ exp − 2σ 2 . (B.14)
σ
Nous pouvons dériver ce résultat de (B.12) à l’aide d’un résultat sur les trans-
formation des variables aléatoires que nous démontrerons dans un instant. Si
y ∼ N (µ, σ 2 ), alors nous montrons que la v.a. x ≡ (y − µ)/σ possède une
espérance nulle et une variance unitaire. De fait, x ∼ N (0, 1), ce qui cor-
respond à la manière traditionnelle d’écrire la distribution normale centrée
réduite.
Une extension importante de la distribution normale univariée est la dis-
tribution normale multivariée. La densité jointe de n variables indépendantes
N (0, 1) est simplement le produit de n densités univariées N (0, 1). Ainsi, si x
est un vecteur de dimension n d’élément type xi ∼ N (0, 1), la densité jointe
est
n
Y ¡ ¢ ¡ ¢
fx (x) = (2π)−1/2 exp − 21 x2i = (2π)−n/2 exp − 12 x>x . (B.15)
i=1
Nous notons symboliquement cette densité N (0, I). Le premier argument

est un vecteur composé de n zéros, chacun étant dans ce cas l’espérance de
l’élément correspondant de x. Le second argument est une matrice identité
de dimension n × n, qui est dans ce cas la matrice de covariance de x. C’est
l’exemple le plus simple d’une densité normale multivariée.
Un vecteur aléatoire qui suit n’importe quelle distribution normale mul-
tivariée peut se dériver à partir de x ∼ N (0, I). Considérons par exemple
un vecteur y de n variables aléatoires issues de combinaisons linéaires des
éléments de x. Ceci implique y ≡ A>x pour une matrice non singulière non
aléatoire A de dimension n × n quelconque. Il est clair que E(y) = 0 et que
V (y) = A>A; voir (B.06). La distribution du vecteur y de dimension n est,
par définition, la distribution N (0, A>A). Ainsi nous voyons que, comme pour
la distribution N (0, I), l’argument matriciel est la matrice de covariance des
éléments de y. Puisque toute matrice de covariance V peut s’écrire comme

A>A pour une matrice A appropriée, nous pouvons caractériser la densité
N (0, V ) pour une matrice V définie positive quelconque en explicitant la
densité jointe de y.
La forme la plus générale de la distribution normale multivariée s’obtient
à partir du vecteur aléatoire y ∼ N (0, V ) de dimension n en lui associant
un vecteur µ de dimension n. Puisque E(y + µ) = µ, l’espérance du vecteur
aléatoire ainsi construit est µ. Ainsi nous notons symboliquement N (µ, V )
la distribution normale multivariée générale, avec un vecteur d’espérances µ
et une matrice de covariance V.
Avant de dériver la densité jointe de la distribution N (µ, V ), il faut
résoudre un problème plus général. Supposons connue la distribution de la
variable aléatoire x, où x est pour l’instant scalaire. Quelle est alors la distri-
bution d’une autre v.a. y qui est une fonction déterministe de x? Pour faire
simple, supposons que y = g(x) pour une fonction quelconque g monotone
croissante. En terme de la c.d.f., le calcul est immédiat:
¡ ¢ ¡ ¢ ¡ ¢
Pr(y < Y ) = Pr g(x) < Y = Pr x < g −1 (Y ) = Fx g −1 (Y ) .
Notons que g −1 existe du fait de l’hypothèse de monotonie de g. Ainsi la c.d.f.

de y est ¡ ¢
Fy (Y ) = Fx g −1 (Y ) . (B.16)
Nous pouvons alors déterminer la densité de y en dérivant (B.16):
¡ −1 ¢
¡ ¢ dg −1
(Y ) f x g (Y )
fy (Y ) = fx g −1 (Y ) = 0 ¡ −1 ¢. (B.17)
dy g g (Y )
Ainsi la densité de y est simplement égale à la densité de x divisée par la

dérivée première de g(·), les deux étant évaluées en g −1 (Y ). Les lecteurs peu-
vent être intéressés par la dérivation de la densité normale univariée générale
(B.14) à partir de la densité normale centrée réduite (B.12) en appliquant ce
résultat.
Il existe un moyen mnémotechnique simple pour lier les deux formes du
résultat (B.17). Il rappelle simplement que
fy (Y ) dy = fx (X) dx.
Le moyen mnémotechnique est relayé à une expression mathématique explicite

en divisant soit par dy soit par dx et en posant X = g −1 (Y ) ou Y = g(X).
La première possibilité conduit à l’expression centrale de (B.17), alors que la
seconde conduit à ¡ ¢
fy g(X) g 0 (X) = fx (X),
qui est l’équivalent de l’expression la plus à droite de (B.17).
Si g était une fonction monotone décroissante plutôt que croissante,

(B.17) resterait vraie si la dérivée g 0, négative, était remplacée par sa valeur
absolue |g 0 | (le montrer constitue un bon exercice). Si g n’était pas mono-
tone, il faudrait alors découper son domaine de définition en sous-espaces où
elle serait monotone, et (B.17) s’appliquerait à chacun de ces sous-espaces,
au moins localement. L’élément clé est qu’une valeur Y peut à présent corre-
spondre à plusieurs valeurs X, et dans ce cas la densité de y en Y est la somme
des contributions calculées en utilisant (B.17) pour chacune des valeurs de X.
Pour dériver la densité de la distribution normale multivariée, il nous faut
trouver une version multivariée de (B.17). Supposons qu’une v.a. vectorielle
y de dimension n soit donnée en terme d’une autre v.a. vectorielle x de
dimension n par l’application déterministe y = g(x), que nous supposons
bijective. Un argument plus fin que celui utilisé dans le cas scalaire montre
que ¡ ¢¯ ¯
fy (Y ) = fx g −1 (Y ) ¯det J (Y )¯, (B.18)
où J (Y ), la matrice Jacobienne de la transformation de y en x, est la matrice
de dimension n×n des dérivées de g −1 (Y ) par rapport aux éléments de Y. La
notation |det(·)| désigne la valeur absolue du déterminant. La valeur absolue
du déterminant apparaı̂t dans (B.18) essentiellement pour la même raison que
le cas univarié nécessite la valeur absolue de g 0 quand g 0 est négative.
Il est souvent commode lors du calcul de déterminant dans (B.18)
d’utiliser le fait que la matrice Jacobienne de la transformation de y en x
est l’inverse de la matrice Jacobienne de la transformation de x en y, ainsi
que la propriété que le déterminant de l’inverse d’une matrice est l’inverse du
déterminant de la matrice. Ainsi, si J ∗ désigne la matrice Jacobienne g(X),
une manière alternative d’écrire (B.18) est
¡ ¢¯ ¯−1
fy (Y ) = fx g −1 (Y ) ¯det J ∗ (Y )¯ .
Les lecteurs motivés sont encouragés à travailler en détail la dérivation de

(B.18). Celle-ci n’est pas difficile en principe, du moins pour le cas 2 × 2. Les
lecteurs férus de théorie de l’intégration comprendront intuitivement (B.18)
en notant que le déterminant est le ratio des volumes infinitésimaux dans les
espaces de x et de y, respectivement; voir l’Annexe A.
Nous pouvons à présent revenir au problème de la détermination de la
densité normale multivariée. Supposons que x ∼ N (0, I) et y = A>x + µ.
Ceci implique que y ∼ N (µ, V ), où V ≡ A>A. La matrice Jacobienne de la
transformation de y en x est dans ce cas (A> )−1. Puisque la densité de x est
(B.15), le résultat (B.18) implique que la densité de y soit
³ ´
1
(2π)−n/2 |det A|−1 exp − − (y − µ)>A−1 (A> )−1 (y − µ)
2
³ ´
1
= (2π)−n/2 |V |−1/2 exp − − (y − µ)>V −1 (y − µ) , (B.19)
2
où |V | est le déterminant de V, toujours positif. La seconde ligne exploite

le fait que la matrice de covariance V est égale à A>A. (B.19) est le moyen
traditionnel d’écrire la densité normale multivariée pour le cas général où
y ∼ N (µ, V ).
De nombreuses distributions bien connues peuvent se définir en terme
de la distribution normale centrée réduite. La plus étrange de celles-ci est
sans doute la distribution de Cauchy. Par définition, c’est la distribution du
rapport de deux variables aléatoires normales centrées réduites indépendantes.
Soient x et y deux telles v.a. La densité jointe de x et y est, d’après (B.15),
³ ¡ ¢´
1 2
(2π)−1 exp −− x + y2 .
2
Pour dériver la densité de Cauchy, nous devons effectuer un changement de

variables vers des coordonnées polaires r et θ qui correspondent à x et y. La
relation entre ces coordonnées polaires et les coordonnées cartésiennes est
x = r cos θ ; y = r sin θ ;
r = (x2 + y 2 )1/2 ; θ = tan−1 (y/x).
Le déterminant de la matrice Jacobienne de la transformation de (r, θ) en

(x, y) est r sin2 θ + r cos2 θ = r. Par conséquent, la densité jointe de r et θ est
2
(2π)−1 re−r /2
. (B.20)
Celle-ci ne dépend aucunement de θ, ce qui implique que la densité de θ

doit être uniforme sur un intervalle quelconque. A l’évidence, puisque θ est
un angle exprimé en radians, cet intervalle doit être [0, 2π]. Nous pouvons
montrer ce résultat plus formellement en intégrant (B.20) par rapport à r sur
l’intervalle allant de 0 à ∞. Le résultat, qui est la densité de θ, est simplement
(2π)−1. Ceci est en fait la densité d’une variable aléatoire uniformément
distribuée sur l’intervalle [0, 2π].
La variable aléatoire de Cauchy z ≡ y/x est reliée à θ par la relation
z = tan θ. La matrice Jacobienne (scalaire ici), de la transformation de z en θ
est par conséquent l’inverse de la dérivée de tan θ par rapport à θ. Cette
dérivée est sec2 θ. Avant d’expliciter la densité de z, il faut remarquer que,
lorsque θ varie de 0 à 2π, chaque valeur de z est générée exactement deux
fois, puisque tan(π + θ) = tan θ. Ainsi nous concluons que la la densité de la
distribution de Cauchy est
1 1 1
2(2π)−1 2
= 2 = .
sec θ π(1 + tan θ) π(1 + z 2 )
Il est clair que si nous essayons d’évaluer l’espérance d’une v.a. de Cauchy,
nous serons confrontés à l’intégrale
Z ∞
z dz
2
,
−∞ π(1 + z )
qui diverge pour les deux bornes d’intégration. Ainsi la distribution de Cauchy
ne possède aucun moment.
La distribution chi-deux est d’une importance encore plus grande pour les
économètres que la distribution de Cauchy. La distribution dépend de deux
paramètres, un entier positif, appelé nombre de degrés de liberté, et un réel
positif, appelé paramètre de non centralité, ou NCP. L’écriture symbolique
d’une variable aléatoire du chi-deux à n degrés de liberté et de NCP Λ est
χ2 (n, Λ). Lorsque le NCP est nul, comme c’est souvent le cas, la variable suit
la distribution du chi-deux centrée. Celle-ci est souvent notée χ2 (n) plutôt
que χ2 (n, 0).
La distribution du chi-deux centrée est définie au moyen d’un vecteur x
de dimension n distribué suivant la N (0, I). Alors la variable aléatoire y
définie comme x>x possède une distribution du χ2 (n). Il est clair que y est la
somme au carré de n v.a. normales centrées réduites indépendantes. Il n’est
pas difficile de calculer la densité de χ2 (n) à l’aide de cette remarque, à con-
dition de maı̂triser les coordonnées polaires en dimension n. Heureusement,
nous n’utilisons pas explicitement cette densité, de sorte que nous éviterons
la manipulation. Il est utile de noter que E(y) = n et V (y) = 2n.
Lorsque le NCP est non nul, la v.a. suit la distribution du chi-deux
non centrée. Une variable aléatoire suivant la distribution du χ2 (n, Λ) peut
se construire comme la somme des carrrés de n − 1 v.a. normales centrées
réduites indépendantes, plus le carré d’une autre v.a. indépendante des autres,
distribuée suivant la N (Λ1/2 , 1). Il peut aussi se construire comme la Psomme
n 2
de n v.a. indépendantes xi au carré, où xi ∼ N (µi , 1) et Λ = i=1 µi .
La première définition est à l’évidence un cas particulierP de la seconde. La
n
démonstration que la densité ne dépend que de la somme i=1 µ2i et non pas
des µi individuels dépasse les objectifs de cette annexe.
La distribution du chi-deux non centrée possède la propriété suivante.
Pour tout nombre positif c,
¡ ¢
Pr χ2 (n, Λ) > c
est une fonction croissante de n et de Λ. Ce résultat se démontre aisément.
Ce n’est pas le cas d’un résultat de Das Gupta et Perlman (1974) (la
démonstration utilise des techniques qui dépassent de loin le niveau de cet
ouvrage). Ce résultat est au coeur des arguments traitant de la puissance des
tests basés sur des statistiques ayant asymptotiquement la forme du chi-deux.
Il est comme suit. Pour tout α ∈ [0, 1], supposons que cnα satisfasse la con-
dition Pr(χ2 (n) > cnα ) = α. Ainsi cnα est la valeur critique pour un test
de niveau α utilisant la distribution du chi-deux centré à n degrés de liberté.
Alors, pour chaque NCP Λ,
¡ ¢
Pr χ2 (n, Λ) > cnα
est une fonction croissante de n. Ainsi, pour un NCP donné, la puissance de
test diminuera lorsque le nombre de degrés de liberté augmentera.
De nombreuses statistiques de test sont calculées comme une forme

quadratique composée d’un vecteur de v.a. (asymptotiquement) distribuées
normalement et d’une estimation de l’inverse de leur matrice de covariance.
Ces statistiques de test sont asymptotiquement distribuées suivant un chi-
deux centré. Ce résultat dépend du fait que si un vecteur x de dimension
n est distribué suivant la N (0, V ), la forme quadratique z ≡ x>V −1 x obéit
à la distribution χ2 (n, 0). De fait, par souci d’économie, nous démontrons
le résultat plus général que si x ∼ N (µ, V ), z sera distribuée suivant la
χ2 (n, µ>V −1 µ).
Soit η une matrice symétrique telle que V −1 = ηη, et considérons le
vecteur aléatoire y ≡ ηx. Nous avons construit y de sorte que y>y =
x>V −1 x = z. Le vecteur y est manifestement normal multivarié, d’espérance
ηµ et de matrice de covariance ηV η = I. Par la seconde définition de
la distribution du chi-deux non centrée, z doit être distribuée suivant la
χ2 (n, µ>V −1 µ), comme requis. Le résultat selon lequel z ∼ χ2 (n) pour le
cas particulier µ = 0 découle immédiatement de ce résultat plus général.
Un résultat étroitement relié est le suivant. Supposons que x ∼ N (0, In ).
Alors, si P est une matrice de projection orthogonale de dimension n × n de
rang r < n, la forme quadratique idempotente x>P x est distribuée suivant
la χ2 (r). Pour le comprendre, il est pratique d’exprimer la matrice P sous la
forme Z(Z>Z)−1Z>, pour une matrice Z adéquate quelconque de dimension
r × n telle que S(Z) = S(P ). Alors
¡ ¢−1
x>P x = x>Z Z>Z Z>x.
Evidemment, le vecteur Z>x de dimension r suit la distribution N (0, Z >Z).

Par conséquent, x>P x est une forme quadratique composée d’un vecteur nor-
mal multivarié de dimension r et de l’inverse de sa matrice de covariance.
Le résultat recherché provient immédiatement des résultats des paragraphes
précédents.
La distribution F peut se définir en terme de deux variables aléatoires
indépendantes, chacune obéissant à une distribution du χ2 . Puisqu’aucune,
une seule, ou les deux v.a. peut(peuvent) être non centrée(s), la distribution
F peut être centrée, non centrée, ou doublement non centrée. La distribution
F centrée à n et d degrés de liberté (pour “numérateur” et “dénominateur”)
est la distribution du rapport de deux v.a. du χ2 centrés indépendantes à n
et d degrés de liberté respectivement, chacune étant divisée par le nombre de
ses degrés de liberté. Symboliquement,
χ2 (n)/n
F (n, d) = .
χ2 (d)/d
La distribution F non centrée à n et d degrés de liberté et un NCP Λ est

la distribution du rapport d’un numérateur distribué suivant n−1 χ2 (n, Λ) et
d’un dénominateur qui lui est indépendant distribué suivant d−1 χ2 (d, 0). La
distribution F doublement non centrée à n et d degrés de liberté et des NCP

Λn et Λd est la distribution du rapport d’un numérateur distribué suivant
n−1 χ2 (n, Λn ) et d’un dénominateur qui lui est indépendant distribué sui-
vant d−1 χ2 (d, Λd ). Les densités de ces deux distributions F sont connues
et tabulées — consulter, par exemple, Abramowitz et Stegun (1965) — mais
ne sont pas d’un grand intérêt pour les économètres. Dans la pratique, nous
n’avons besoin que d’un programme de calcul de la c.d.f. et de l’inverse de
la c.d.f. de la distribution F centrée, et de tels programmes sont disponibles
dans la plupart des bons progiciels de statistique.
Enfin, nous abordons la distribution de Student, qui est souvent sim-
plement dénommée distribution t. La distribution de Student à n degrés
de liberté est notée t(n) et définie comme la distribution d’une v.a. nor-
male centrée réduite divisée par une v.a. qui lui est indépendante distribuée
selon la racine carrée de n−1 χ2 (n, 0). Evidemment, le carré d’une vari-
able aléatoire distribuée suivant une t(n) est distribué suivant une F (1, n)
centrée. Etant donnée la définition de la distribution du chi-deux centrée, il
est clair que la loi des grands nombres peut s’appliquer à n−1 χ2 (n, 0) quand
n → ∞. Puisque l’espérance de chaque variable normale centrée réduite au
carré dans la définition est égale à un, la limite de n−1 χ2 (n, 0) doit être 1.
Par conséquent, la distribution t(n) tend vers la distribution normale centrée
réduite lorsque n → ∞.
Pour la plupart des valeurs de n, la distribution t ressemble énormément
à la distribution normale centrée réduite, mais possède des queues de dis-
tribution légèrement plus épaisses. La différence entre la distribution t et la
distribution normale centrée réduite est très faible pour n ≥ 100; par exemple,
la valeur critique à 5% d’un test bilatéral est 1.960 pour N (0, 1) et 1.984 pour
t(100). Cependant cette différence peut s’accroı̂tre pour des valeurs très faibles
de n. La distribution de t(1) est évidemment la même que la distribution de
Cauchy, et elle ne possède par conséquent aucun moment. La distribution t(2)
possède un premier moment nul mais n’a pas de moment d’ordre supérieur.
En général, la distribution t(n) possède des moments jusqu’à l’ordre n − 1.
A l’occasion, la distribution t non centrée survient. Elle est définie
comme
N (µ, 1)
t(n, µ) = ¡ ¢1/2 .
n−1 χ2 (n, 0)
Le NCP est µ, et le carré d’une telle variable aléatoire est distribué suivant
une F non centrée à 1 et n degrés de liberté et un NCP µ2.
Pour davantage de détails sur les propriétés des distributions discutées
dans cette section, les lecteurs peuvent consulter Kendall et Stuart (1977) ou
Johnson et Kotz (1970a, 1970b).
Termes et Concepts
covariance fonction de distribution jointe
degrés de liberté fonction intégrante
distribution de Cauchy fonction de logvraisemblance
distribution F , centrée, non centrée, forme quadratique idempotente
et doublement non centrée inégalité de Chebyshev
espace des événements, ou espace des inégalité de Jensen
réalisations indépendance statistique
espérance intégrale de Stieltjes
densité jointe matrice de covariance
densité marginale mesure de probabilité
distribution de probabilité mesure de tendance centrale
distribution centrée réduite moments d’ordre un, deux, trois, et
distribution de Student, centrée et supérieur
non centrée moments des variables aléatoires,
distribution du chi-deux, centrée et centrés et non centrés
non centrée moyenne, de population et
distribution marginale d’échantillon
distribution normale univariée normalisation (d’une densité)
distribution normale multivariée paramètre de non centralité, ou NCP
écart standard queues de distribution, de droite et de
écart type gauche
espace de probabilité sigma-algèbre
événement composite support d’une densité
fonction affine variable aléatoire
fonction de densité de probabilité, ou variable aléatoire scalaire
p.d.f. variable aléatoire vectorielle
fonction de distribution, ou c.d.f. variance
fonction de répartition

Annexe B

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Annexe B

Uploaded by

Copyright:

Available Formats

Annexe B

Résultats de la Théorie des Probabilités

B.2 Variables Aléatoires et Lois de Probabilité

Habituellement, il est pratique d’omettre la référence à ω et Ω en écrivant

Ici xi désigne la i ième composante de x, et le symbole ∩ désigne l’intersection

Fxi (Xi ) = Fx (+∞, . . . , Xi , . . . , +∞).

Ceci est alors la probabilité que xi ≤ Xi et que toutes les composantes de

fx (X) ≡ Fx0 (X).

La densité jointe d’un ensemble de v.a., ou de manière équivalente une v.a.

De la même manière nous montrons que l’intégrale multiple d’une fonction de

Par un argument similaire à celui conduisant à (B.02), cette probabilité est

B.3 Moments des Variables Aléatoires

où fx est la densité de x. Pour simplifier notre discussion ultérieure, nous ne

X va de −∞ à ∞, l’intégrale (B.05) peut diverger vers une des limites

Observons que la valeur de tout moment ne dépend que de la distribution

matrice de variance-covariance. La terminologie n’est pas standard, et nous

Les éléments diagonaux de V (x) sont les variances des éléments de x.

V (A>x) = A>V (x)A. (B.06)

la queue de droite, et parfois qu’elle appartienne à la queue de gauche. Les

Cette intégrale peut se décomposer en une somme de trois intégrales:

Considérons les deux derniers termes du membre de droite. Le facteur X 2

Le calcul de l’espérance d’une variable aléatoire est une opération linéaire.

Figure B.1 Une fonction concave type

Par ailleurs, si la fonction

où l’inégalité provient de (B.09). La seconde ligne est ici égale à

Si n’importe quelle fonction d’une variable aléatoire x est évaluée en x, le

à nouveau à condition que l’intégrale du dernier terme existe. Pour ce résultat

Nous voyons que, hormis les conditions de régularité sur la dérivabilité et

B.4 Quelques Distributions de Probabilité Usuelles

Figure B.2 La densité de la loi normale centrée réduite

Remarquons que φ et Φ sont les notations traditionnelles des p.d.f. et c.d.f. de

Nous notons symboliquement cette densité N (0, I). Le premier argument

éléments de y. Puisque toute matrice de covariance V peut s’écrire comme

Notons que g −1 existe du fait de l’hypothèse de monotonie de g. Ainsi la c.d.f.

Ainsi la densité de y est simplement égale à la densité de x divisée par la

Le moyen mnémotechnique est relayé à une expression mathématique explicite

Si g était une fonction monotone décroissante plutôt que croissante,

Les lecteurs motivés sont encouragés à travailler en détail la dérivation de

où |V | est le déterminant de V, toujours positif. La seconde ligne exploite

Pour dériver la densité de Cauchy, nous devons effectuer un changement de

Le déterminant de la matrice Jacobienne de la transformation de (r, θ) en

Celle-ci ne dépend aucunement de θ, ce qui implique que la densité de θ

De nombreuses statistiques de test sont calculées comme une forme

Evidemment, le vecteur Z>x de dimension r suit la distribution N (0, Z >Z).

La distribution F non centrée à n et d degrés de liberté et un NCP Λ est

distribution F doublement non centrée à n et d degrés de liberté et des NCP

You might also like