You are on page 1of 20

Annexe B

Résultats de la Théorie des Probabilités

B.1 Introduction
Les lecteurs de cet ouvrage devraient déja être relativement familiers avec la
théorie des probabilités et la statistique. Cette annexe a été élaborée pour
aider ceux qui souhaitent rafraı̂chir leur mémoire et pour réunir les résultats
pour faciliter les références. Il ne s’agit en aucun cas d’un substitut à des
manuels de second cycle tels que ceux Casella et Berger (1990) ou Spanos
(1986). La Section B.2 rappelle les concepts de base des variables aléatoires
et des distributions de probabilité. La Section B.3 traite des moments des
variables aléatoires et de certains résultats connexes. Enfin la Section B.4 fait
le point sur certaines des distributions de probabilité les plus communément
utilisées en économétrie.

B.2 Variables Aléatoires et Lois de Probabilité


Le concept de variable aléatoire sous-tend la majeure partie de la théorie
des probabilités et de sa discipline affiliée de la statistique. Une définition
complètement formelle d’une variable aléatoire nécessite le concept d’espace
probabilisable, sur lequel peut se définir une sigma-algèbre, qui sert à son
tour de support à la définition d’une mesure de probabilité. Nous ne pouvons
pas dans cet ouvrage détailler tous ces concepts, et les lecteurs intéressés sont
orientés vers Billingsley (1979) pour un traitement approprié.
L’essentiel de nos propos, très simplifié, s’expose comme suit. La première
composante nécessaire est un ensemble d’éléments que nous appellerions com-
munément les “états du monde” dans la théorie économique traditionnelle.
Cet ensemble plus formellement appelé espace des événements ou espace des
réalisations, peut être très simple. Par exemple, si nous traitions le lancé
d’une pièce de monnaie, il serait composé de deux éléments, pile ou face.
Dans d’autres circonstances, il peut être très compliqué afin de pouvoir gérer
tous les détails d’un processus stochastique à indice soit discret, comme les
suites de variables aléatoires rencontrées dans la théorie asymptotique exposée
dans cet ouvrage, soit continu. Un exemple de cette dernière possibilité est
celui du processus de Wiener mentionné dans le Chapitre 20. Dans tous les
cas, l’espace des réalisations doit posséder une structure suffisamment riche

793
794 Résultats de la Théorie des Probabilités

pour que chaque réalisation possible soit représentée par un point de l’espace;
des réalisations différentes doivent correspondre à des points différents.
Bien que chaque réalisation possible doive être représentée dans l’espace
des réalisations, il n’est pas toujours possible d’attribuer une probabilité à
toutes ces réalisations. Même si c’était le cas, la probabilité associée pourrait
ne pas être particulièrement riche en information. Par exemple, si nous con-
sidérons une seule variable aléatoire pouvant prendre n’importe quelle valeur
sur la droite réelle, la probabilité qu’elle prenne un nombre réel particulier
est traditionnellement nulle. Des probabilités positives seraient dans ce cas
associées uniquement à des intervalles de longueur positive. Une structure est
par conséquent nécessaire pour déterminer précisément quels sont les sous-
ensembles de l’espace des réalisations — les événements composites dans la
terminologie probabiliste standard — auxquels nous allons attribuer des pro-
babilités. Cette structure est la sigma-algèbre dans la théorie formelle.
La dernière composante essentielle est la mesure de probabilité: la
manière dont les probabilités sont effectivement attribuées à des événements,
composites ou simples. La seule chose à conserver à l’esprit ici est que les
mesures de probabilité doivent respecter les lois de probabilité dictées par
notre intuition. Ces lois sont remarquablement simples: la probabilité de
l’événement nul (rien ne se réalise) est nulle, la probabilité de l’espace en-
tier des réalisations (une réalisation quelconque se produit) est égale à un,
et la probabilité qu’un ensemble quelconque d’événements disjoints, ou qui
s’excluent mutuellement, se réalise est égale à la somme des probabilités de
chacun des événements disjoints pris séparément.
Nous pouvons à présent livrer une définition non formelle de ce que
nous entendons par variable aléatoire, ou v.a. en abrégé. Le cas le plus
simple est celui d’une variable aléatoire scalaire, qui ne prend qu’une seule
valeur réelle. Une telle variable aléatoire sera une application de l’espace
des réalisations dans la droite réelle, c’est-à-dire l’attribution d’un nombre
réel à chaque réalisation possible. Un instant de réflexion nous montrera que
c’est précisément ce que nous entendons par variable aléatoire: une grandeur
dont la valeur prise dépend de l’état du monde. En général, une application
quelconque de l’espace des réalisations dans la droite réelle n’est pas à pro-
prement parler une variable aléatoire, parce que nous insistons sur le fait qu’il
devrait être possible de définir une distribution de probabilité pour chaque
variable aléatoire. Le sens de ceci, plus spécifiquement, est que, si x est une
v.a. quelconque, nous devrions être capables d’attribuer des probabilités à
des événements tels que (x ≤ X) pour tout réel X. Notons Ω l’espace des
réalisations; c’est une notation très répandue dans la théorie des probabilités.
Alors l’événement (x ≤ X) peut être explicité sous la forme du sous-ensemble
suivant de Ω:
(ω ∈ Ω | x(ω) ≤ X). (B.01)

Le fait que x soit une application de Ω dans la droite donne son sens a (B.01).
B.2 Variables Aléatoires et Lois de Probabilité 795

Pour que x soit une variable aléatoire bien définie, il doit être possible
d’attribuer une probabilité à chacun des ensembles (B.01). Cela nous conduit
à la fonction de densité cumulée, ou c.d.f., ou fonction de distribution ou
encore fonction de répartition de la variable aléatoire x, que l’on note souvent
F (x) et qui est définie sur la droite réelle. Du fait que la valeur d’une c.d.f.
est une probabilité, une c.d.f. doit prendre ses valeurs dans l’intervalle [0, 1].
Une c.d.f. type est définie par une équation de la forme
¡ ¢
Fx (X) = Pr ω ∈ Ω | x(ω) ≤ X .

Habituellement, il est pratique d’omettre la référence à ω et Ω en écrivant


simplement Pr(x ≤ X). Par construction, une c.d.f. tend vers zéro lorsque
son argument tend vers −∞, et vers un lorsque son argument tend vers +∞.
De plus, ce doit être une fonction faiblement croissante en son argument.
Cette propriété est vraie parce que, si X1 < X2 , alors l’événement (x ≤ X1 )
est compris dans l’événement (x ≤ X2 ) et ne peut donc avoir une probabilité
supérieure à celle de (x ≤ X2 ). Montrer ce résultat en détail à l’aide de la
règle sur la somme des probabilités d’ensembles d’événements disjoints est un
bon exercice.
Les variables aléatoires peuvent prendre des valeurs sous forme de vec-
teurs, de matrices, ou bien d’autres formes encore. Une variable aléatoire qui
prend des valeurs sous la forme d’un vecteur est appelée variable aléatoire
vectorielle. Les propriétés probabilistes d’une v.a. vectorielle x peuvent être
représentées par une généralisation de la c.d.f. appelée c.d.f. jointe. Si x ∈ Rn ,
alors sa c.d.f. est une fonction de n arguments, comme suit:
¡ ¢
Fx (X1 , . . . , Xn ) = Pr (x1 ≤ X1 ) ∩ · · · ∩ (xn ≤ Xn ) .

Ici xi désigne la i ième composante de x, et le symbole ∩ désigne l’intersection


d’ensembles: l’événement en question est l’ensemble de tous les ω ∈ Ω tel
que x1 ≤ X1 et x2 ≤ X2 , et ainsi de suite. Une c.d.f. jointe possède des
propriétés similaires à la c.d.f. d’une variable aléatoire scalaire. Elle tend vers
zéro quand n’importe lequel de ses arguments tend vers −∞, et vers un lorsque
tous ses arguments tendent vers +∞. A partir d’une c.d.f. jointe, nous pou-
vons dériver la distribution marginale de n’importe quelle composante de x.
Cela correspond simplement à la probabilité d’une composante considérée
comme une variable aléatoire scalaire. Cette distribution marginale est bien
sûr représentée par une c.d.f. ordinaire, qui pour la composante xi est obtenue
en initialisant à +∞ toutes les composantes de la c.d.f. jointe autres que xi :

Fxi (Xi ) = Fx (+∞, . . . , Xi , . . . , +∞).

Ceci est alors la probabilité que xi ≤ Xi et que toutes les composantes de


x autres que xi prennent n’importe quelle valeur. La distribution marginale
de tout sous-ensemble de composantes x est représentée de manière analogue
796 Résultats de la Théorie des Probabilités

par une c.d.f. jointe provenant des c.d.f. d’origine en initialisant à +∞ toutes
les composantes non sélectionnées .
Les distributions de probabilité jointe permettent d’introduire la no-
tion importante d’indépendance statistique. Soit x une variable aléatoire
vectorielle de dimension n, et supposons qu’elle est partitionnée comme
.
x = [x1 ... x2 ], avec x1 ∈ Rn1, x2 ∈ Rn2, et n1 + n2 = n. Alors x1 et x2 sont
dits statistiquement indépendants, ou souvent plus simplement indépendants,
si la c.d.f. jointe du vecteur x est le produit des c.d.f. de x1 et x2 . Dans une
notation simplifiée, cela signifie que
¡ ¢ ¡ ¢ ¡ ¢
Fx X1 , X2 = Fx X1 , ∞2 Fx ∞1 , X2 ,

où ∞1 et ∞2 désignent les vecteurs dont les composantes sont égales à +∞.
Le concept de fonction de densité de probabilité, ou p.d.f., est très
étroitement relié à celui de c.d.f. Bien qu’une fonction de distribution existe
pour toute variable aléatoire bien définie, une p.d.f. n’existe que si la c.d.f. est
différentiable. Pour une v.a. scalaire, la fonction de densité, souvent notée f,
est simplement la dérivée de la c.d.f.:

fx (X) ≡ Fx0 (X).

La densité jointe d’un ensemble de v.a., ou de manière équivalente une v.a.


vectorielle, s’obtient en dérivant la c.d.f. jointe par rapport à tous ses argu-
ments:
∂ n Fx (X1 , . . . , Xn )
fx (X1 , . . . , Xn ) = .
∂X1 · · · ∂Xn
Le fait qu’une c.d.f. varie de 0 à 1 implique que la fonction de densité soit
normalisée pour que son intégrale soit égale à un. En effet,
Z ∞ Z ∞
fx (X) dX = Fx0 (X) dX
−∞ −∞ (B.02)
£ ¤X=+∞
= Fx (X) X=−∞ = 1 − 0 = 1.

De la même manière nous montrons que l’intégrale multiple d’une fonction de


densité jointe par rapport à ses arguments lorsqu’ils varient de −∞ à +∞ est
égale à un. Un résultat encore plus utile est que l’intégrale d’une p.d.f. jointe
par rapport à certains arguments seulement fournit la densité marginale des
variables par rapport auxquelles on n’a pas “intégré”. Celle-ci est appelée
densité marginale. Si deux groupes de v.a. sont indépendants, alors il est aisé
de voir que l’indépendance en terme des c.d.f. implique que la densité jointe
des deux groupes est le produit des densités marginales de ces deux groupes.
Une autre propriété cruciale d’une fonction de densité est qu’elle est non
négative. Cela provient directement de sa définition de dérivée d’une fonc-
tion faiblement croissante. Mais c’est également le pendant d’une propriété
B.3 Moments des Variables Aléatoires 797

très utile d’une densité, qui nous permet de l’utiliser pour calculer les proba-
bilités d’événements associés à une variable aléatoire donnée. Supposons que
x soit une v.a. scalaire. Alors pour tout intervalle [a, b] de la droite réelle,
nous pourrions souhaiter calculer la probabilité que x ∈ [a, b]. Cela provient
directement de la définition d’une c.d.f. que, si a < b,
¡ ¢
Pr x ∈ [a, b] = Fx (b) − Fx (a).

Par un argument similaire à celui conduisant à (B.02), cette probabilité est


Z b
fx (X) dX. (B.03)
a

Puisque (B.03) doit être vraie pour des valeurs quelconques de a et b, il est
clair que fx doit être une fonction non négative.

B.3 Moments des Variables Aléatoires


L’une des propriétés les plus importantes que peut posséder une variable
aléatoire est une espérance. La définition de l’espérance d’une v.a. scalaire
suffira; pour des v.a. vectorielles ou matricielles, les espérances sont définies
élément par élément. Ainsi, si x est une matrice aléatoire scalaire, son
espérance est définie comme la valeur de l’intégrale
Z ∞
X dFx (X), (B.04)
−∞

si elle existe. Le type d’intégrale dans (B.04) est appelé intégrale de Stieltjes,
en raison de la présence de la fonction d’intégration Fx . Les lecteurs pour qui
le concept d’une intégrale de Stieltjes est nouveau peuvent souhaiter consulter
un article standard sur l’analyse réelle, tel que celui de Burrill et Knudsen
(1969) ou celui de Mukherjea et Pothoven (1984), pour les détails. Nous ne
les fournirons pas ici, parce qu’ils ne sont pas très importants pour l’analyse
que nous livrons. La principale caractéristique d’une intégrale de Stieltjes, en
ce qui nous concerne, est que si la fonction d’intégration est dérivable, il est
possible d’exprimer l’intégrale de Stieltjes comme une intégrale ordinaire en
terme de sa dérivée. Pour (B.04), nous obtenons l’expression suivante pour
l’espérance de x: Z ∞
Xfx (X) dX, (B.05)
−∞

où fx est la densité de x. Pour simplifier notre discussion ultérieure, nous ne


traiterons que des c.d.f. dérivables.
Toutes les variables aléatoires ne possèdent pas une espérance. L’intégrale
d’une fonction de densité doit toujours exister et être égale à 1. Mais, puisque
798 Résultats de la Théorie des Probabilités

X va de −∞ à ∞, l’intégrale (B.05) peut diverger vers une des limites


d’intégration, ou les deux, si la densité fx ne tend pas vers zéro suffisamment
rapidement. Par un léger abus de terminologie, l’espérance d’une variable
aléatoire est parfois appelée sa moyenne. A proprement parler, une moyenne
est une propriété d’un échantillon de réalisations de v.a., plutôt que d’une
distribution de probabilité. Dans les rares circonstances où la confusion est
possible, l’espérance peut être appelée moyenne de la population pour la dis-
tinguer de la moyenne d’échantillon.
On fait souvent référence à l’espérance d’une variable aléatoire en tant
que son moment d’ordre un. Les moments dits d’ordre supérieur s’ils exis-
tent, sont les espérances des puissances de la v.a. Ainsi le moment d’ordre
deux d’une variable aléatoire x est l’espérance de x2, le moment d’ordre trois
l’espérance de x3, et ainsi de suite. Les moments non entiers sont définis
de manière analogue, mais nous ne les utiliserons pas dans cet ouvrage. En
général, le moment d’ordre k de la v.a. x est
Z ∞
mk ≡ X k fx (X) dX.
−∞

Observons que la valeur de tout moment ne dépend que de la distribution


de probabilité de la v.a. en cause. Pour cette raison, on parle souvent des
moments de la distribution plutôt que de ceux d’une variable aléatoire parti-
culière. Notons également que si une distribution possède un moment d’ordre
k, elle possède également tous les moments d’ordre inférieur à k.
La définition précédente concerne les moments non centrés d’une dis-
tribution. Il est probablement plus ordinaire de travailler avec les moments
centrés, définis comme les moments ordinaires de la différence entre la vari-
able aléatoire et son espérance. Ainsi, si E(x) représente l’espérance de x, le
moment centré d’ordre k de la distribution de x est
¡ ¢k
m̄k ≡ E x − E(x) .

Le moment centré le plus important est de loin le moment d’ordre deux. C’est
la variance de la v.a. La notation usuelle pour une variance est σ 2, et cette
notation souligne le fait qu’une variance ne peut pas être négative. La racine
carrée, σ, est appelée écart standard de la distribution. Les estimations des
écarts standards sont souvent appelées écarts types, en particulier lorsque la
variable aléatoire en cause est un paramètre estimé.
Il est souvent important de pouvoir définir les moments de v.a. vecto-
rielles. Pour le moment d’ordre un, c’est trivial: le moment d’ordre un d’une
variable aléatoire vectorielle x de dimension n est simplement le vecteur ordi-
naire x̄ de dimension n dont l’élément type est x̄i ≡ E(xi ). Pour les moments
d’ordres deux et supérieurs, cela se complique. Pour les moments centrés
d’ordre deux, il est nécessaire de définir une matrice de dimension n × n,
parfois appelée matrice de variance, parfois matrice de covariance, et parfois
B.3 Moments des Variables Aléatoires 799

matrice de variance-covariance. La terminologie n’est pas standard, et nous


préférons l’expression du milieu. La matrice de covariance de x sera notée
V (x) et définie par
¡ ¢
V (x) ≡ E (x − x̄)(x − x̄)> .

Les éléments diagonaux de V (x) sont les variances des éléments de x.


L’élément non diagonal Vij est appelé covariance de xi et xj . Les moments
d’ordre supérieur de v.a. vectorielles peuvent être définis de manière ana-
logue. Ils font appel à des objets possédant plus de deux indices et ne sont
pas utilisés dans cet ouvrage.
Si nous calculons l’espérance du produit de deux variables aléatoires
indépendantes, le résultat correspond simplement au produit des espérances
des variables aléatoires prises séparément. Cela provient du fait que la densité
jointe de deux v.a. indépendantes est le produit des deux densités marginales.
De plus, la covariance de deux variables aléatoires indépendantes est nulle.
Une question embarrassante standard en théorie des probabilités consiste à
savoir si deux v.a. de covariance nulle sont nécessairement indépendantes: la
réponse est “non”. Cependant, une covariance nulle est une condition suf-
fisante pour que l’espérance du produit de deux variables aléatoires soit égale
au produit des espérances séparées.
Il est souvent nécessaire de calculer la variance d’une combinaison linéaire
de variables aléatoires. Supposons que ces v.a. soient les éléments de la v.a.
vectorielle x, et que la combinaison linéaire d’intérêt s’écrive a>x pour un
vecteur non aléatoire quelconque a. Il est facile de montrer que la variance de
cette combinaison linéaire est a>V (x)a. De manière similaire, si l’on construit
un vecteur de combinaisons linéaires des éléments de x, en construisant par
exemple A>x pour une matrice non aléatoire quelconque A adéquate, alors

V (A>x) = A>V (x)A. (B.06)

Si une variable aléatoire possède une variance, sa valeur peut être utilisée
pour calculer une borne pour la masse de probabilité contenue dans la queue
de distribution. Nous entendons par queue d’une distribution de probabilité
un événement de la forme (x > X) ou (x < X), où X est substantiellement à
la droite du centre de la distribution dans le premier cas et substantiellement
à gauche dans le second. Le premier cas définit la queue de droite de la dis-
tribution et le second la queue de gauche. Le terme ambigu “centre” est ici
employé du fait que la définition même de queue est imprécise. Nous pourrions
entendre par centre l’espérance, la médiane, le mode ou toute autre mesure
de tendance centrale. L’imprécision provient sûrement du fait que les v.a.
n’ont pas toutes une espérance. Pour une v.a. ne possédant pas d’espérance,
différentes mesures de tendance centrale peuvent être appropriées. Parfois,
c’est la probabilité qu’une variable aléatoire appartienne à une queue de dis-
tribution qui nous intéresse, parfois c’est la probabilité qu’elle appartienne à
800 Résultats de la Théorie des Probabilités

la queue de droite, et parfois qu’elle appartienne à la queue de gauche. Les


queues de gauche sont d’un intérêt très limité lorsque la v.a. ne prend que
des valeurs positives.
La borne sur la masse de probabilité dans les queues à laquelle nous avons
fait allusion est connue sous le nom d’inégalité de Chebyshev. Nous pouvons
la dériver comme suit. Supposons que le moment non centré d’ordre deux
de la v.a. x soit V. Si x est elle-même une variable aléatoire centrée alors
E(x) = 0 et V est sa variance. L’inégalité de Chebyshev établit que, pour
tout nombre positif α,
¡ ¢ V
Pr |x| > α ≤ 2 . (B.07)
α
Pour le comprendre, notons que la définition de V est
Z ∞
2
V = E(x ) = X 2 fx (X) dX.
−∞

Cette intégrale peut se décomposer en une somme de trois intégrales:


Z α Z ∞ Z −α
2 2
V = X fx (X) dX + X fx (X) dX + X 2 fx (X) dX. (B.08)
−α α −∞

Considérons les deux derniers termes du membre de droite. Le facteur X 2


dans l’intégrande est toujours supérieur à α2 sur le domaine d’intégration de
ces termes. Ainsi ces termes sont au moins supérieurs à
µZ ∞ Z −α ¶
2
¡ ¢
α fx (X) dX + fx (X) dX = α2 Pr |x| > α ,
α −∞

grâce à (B.03). Puisque tous les termes de (B.08) sont non négatifs, nous
concluons que ¡ ¢
V ≥ α2 Pr |x| > α .
La réorganisation de cette inégalité conduit à (B.07). De là découle une forme
plus familière de l’inégalité de Chebyshev, qui établit que, pour une variable
aléatoire x d’espérance µ et de variance σ 2,
µ¯ ¯ ¶
¯x − µ¯ 1
Pr ¯ ¯ > α ≤ 2.
σ α

Le calcul de l’espérance d’une variable aléatoire est une opération linéaire.


Si x et y sont deux v.a. et a et b deux réels non aléatoires, alors E(ax +
by) = aE(x) + bE(y). Cela provient directement de la définition (B.05) d’une
espérance. En général, cependant, si g est¡ une¢fonction
¡ scalaire
¢ d’une variable
aléatoire scalaire x, nous n’avons pas E g(x) = g E(x) . Cette conclusion
serait vraie uniquement si g était une fonction affine, ce qui signifie que g(x) =
ax + b pour deux réels a et b.
B.3 Moments des Variables Aléatoires 801
...
y ............
..
... y = g(b) + g 0 (b)(a − b)...
..
.... ...... ..................
.... .
.............................
. y = g(x)
..
.. ..
.. ..
... ..
..
.................
.... ....
......
.... .
. .
.......
... ... .
..... ..
...
... ...
.
........ ...
....... .
.... ........... .
... ...
............. ...
.... ... .
...
... .
..............
. .
..
...
... ....
.... ..
... .. ..
..
. .. ..
.... ..
.. ..... ...... ..
..
.... .
...
. ..
..
. ..
. ..
... .. ...
... .. ... ..
.... ..... ..
.... ...
. ..
. .. ..
....................................................................................................................................................................................................................
.. ..
O .. . .
.. b x

Figure B.1 Une fonction concave type

Par ailleurs, si la fonction


¡ ¢ g est¡concave
¢ ou convexe, nous pouvons montrer
que l’inégalité entre E g(x) et g E(x) a un signe particulier. Ce résultat
est connu sous le nom d’inégalité de Jensen. Pour être concrets et parce que
c’est un cas qui survient dans la théorie du maximum de vraisemblance du
Chapitre 8, supposons que g soit une fonction concave comme la fonction
logarithmique. Alors l’inégalité assure que
¡ ¢ ¡ ¢
E g(x) ≤ g E(x) .
Pour le comprendre, supposons que g soit dérivable, bien que le résultat ne
nécessite pas cette hypothèse. Alors une manière d’exprimer la concavité de
g est l’inégalité
g(a) ≤ g(b) + g 0 (b)(a − b), pour tous réels a, b. (B.09)
Cette inégalité est illustrée sur la Figure B.1, qui devrait donner l’intuition
de l’inégalité de Jensen autant que (B.09) elle-même. Notons x̄ l’espérance
E(x). Alors
Z ∞
¡ ¢
E g(x) = g(X)fx (X) dX
−∞
Z ∞
¡ ¢
≤ g(x̄) + g 0 (x̄)(X − x̄) fx (X) dX,
−∞

où l’inégalité provient de (B.09). La seconde ligne est ici égale à


µZ ∞ Z ∞ ¶
0
g(x̄) + g (x̄) Xfx (X) dX − x̄ fx (X) dX
−∞ −∞
¡ ¢ ¡ ¢
= g E(x) + g 0 (x̄)(x̄ − x̄) = g E(x) .
Ceci démontre alors l’inégalité de Jensen pour le cas dérivable.
802 Résultats de la Théorie des Probabilités

Si n’importe quelle fonction d’une variable aléatoire x est évaluée en x, le


résultat est une autre variable aléatoire. Ceci vaut aussi bien pour la fonction
de densité fx que pour toute autre fonction. En économétrie, on est rarement
intéressé par une seule fonction de densité mais davantage par une famille
paramétrique de fonctions de densité. Dans le cas simple où il n’existe qu’un
seul paramètre, une telle famille peut s’écrire f (x, θ), où θ est le paramètre.
Le logarithme de cette fonction est la fonction de logvraisemblance associée
à la famille paramétrique. Une propriété importante d’une telle fonction de
logvraisemblance est que, sous des conditions de régularité appropriées, la
dérivée de log f (x, θ) est une variable aléatoire telle que, si sa moyenne est
calculée avec la densité correspondant à la même valeur de θ que celle utilisée
pour évaluer la dérivée, cette moyenne est nulle si elle existe. Il est utile
d’esquisser une démonstration de ce résultat, qui peut s’exprimer comme
µ ¶
∂ log f
Eθ = 0, (B.10)
∂θ

où l’indice θ de l’opérateur d’espérance indique que celle-ci est calculée avec
f (·, θ).
La démonstration de (B.10) utilise un résultat standard sur la dérivation
des intégrales. Ce résultat établit que la dérivée d’une intégrale de la forme
Z b(θ)
g(y, θ) dy
a(θ)

par rapport au paramètre θ peut s’exprimer en terme des dérivées des fonc-
tions a, b, et g par rapport à θ, à condition qu’elles existent, et est égale à
Z b(θ)
¡ ¢ ¡ ¢ ∂g(y, θ)
−a (θ)g a(θ), θ + b0 (θ)g b(θ), θ +
0
dy,
a(θ) ∂θ

à nouveau à condition que l’intégrale du dernier terme existe. Pour ce résultat


standard, consulter n’importe quel manuel sur l’analyse réelle, tels que Burrill
et Knudsen (1969) ou Mukherjea et Pothoven (1984).
Pour démontrer (B.10), nous tirons profit du fait que la fonction de den-
sité f est normalisée pour que son intégrale soit égale à un pour toutes les
valeurs du paramètre θ. Supposons que le support de la fonction de densité
soit l’intervalle [a(θ), b(θ)] pour tout θ. Cela signifie que la densité est nulle
en dehors de cet intervalle ou que la probabilité qu’une v.a. distribuée avec
la densité f (·, θ) prenne une valeur en dehors de cet intervalle est nulle. Alors
la condition de normalisation est
Z b(θ)
f (y, θ) dy = 1.
a(θ)
B.4 Quelques Distributions de Probabilité Usuelles 803

Puisque cette condition est valable pour toutes les valeurs admissibles de θ,
nous pouvons la dériver par rapport à θ et obtenir
Z b(θ)
0
¡ ¢ 0
¡ ¢ ∂f (y, θ)
−a (θ)f a(θ) + b (θ)f b(θ) + dy = 0. (B.11)
a(θ) ∂θ
Le dernier terme, l’intégrale, peut s’exprimer comme
Z b(θ) µ ¶
∂ log f (y, θ) ∂ log f
f (y, θ) dy = Eθ .
a(θ) ∂θ ∂θ

Nous voyons que, hormis les conditions de régularité sur la dérivabilité et


l’existence de l’espérance de ∂ log f /∂θ, le résultat (B.10) requiert que les deux
premiers termes dans (B.11) s’annulent pour une raison ou pour une autre.
Une condition évidente menant à ce résultat est que les bornes du support
de la fonction de densité soient indépendantes du paramètre θ. Par exemple,
si l’espace d’intégration est la droite réelle, nous aurons automatiquement le
résultat voulu. Une condition différente est que la densité s’annule aux bornes
du support, et cela arrive en fait fréquemment dans la pratique. Des difficultés
peuvent malgré tout survenir si le support dépend de θ et si la densité n’est
pas nulle sur ses bornes.
Le raisonnement utilisé pour établir (B.10) peut être employé aussi bien
pour établir l’égalité de la matrice d’information de la théorie du maximum
de vraisemblance; voir le Chapitre 8.

B.4 Quelques Distributions de Probabilité Usuelles


La distribution de probabilité la plus importante est sans conteste la distribu-
tion normale centrée réduite. Cette distribution apparaı̂t très souvent dans la
théorie économétrique, et les définitions d’un grand nombre d’autres distribu-
tions communément employées utilisent directement la distribution normale
centrée réduite. La distribution normale possède la densité dont le tracé est
la plus ou moins célèbre courbe en cloche des ouvrages d’initiation à la statis-
tique, et elle représente parfois la distribution des notes d’examen; voir la
Figure B.2.
La densité de la distribution normale centrée réduite est définie sur la
droite réelle comme suit:
¡ ¢
φ(x) = (2π)−1/2 exp − 21 x2 . (B.12)
Contrairement à cette p.d.f., qui s’exprime uniquement en terme de fonctions
standards, la c.d.f. de la distribution normale centrée réduite doit être définie
explicitement comme l’intégrale
Z x
Φ(x) = φ(y) dy.
−∞
804 Résultats de la Théorie des Probabilités

0.4 ...........
..... ..........
...... ...
. ...
.
.... ...
...
.. ...
... ...
.
..
0.3 .. ...
... ...
..
. ...
.
.. ...
.
.. ...
.
.. ...
.
.. ...
.. ...
0.2 .
..
. ...
.. ...
.
. ...
..
. ...
.
.. ...
...
. ...
.
. ...
0.1 .
... ...
...
.
.. ....
..
. ....
..
..
. .....
.
.
.......
. ......
......
...
... ..........
..
..
..
..
..
..
.. ......................
.
..................................................
..
..
..
..
..
.. .................................................
0.0
−4 −3 −2 −1 0 1 2 3 4

Figure B.2 La densité de la loi normale centrée réduite

Remarquons que φ et Φ sont les notations traditionnelles des p.d.f. et c.d.f. de


la distribution normale centrée réduite. Bien que Φ ne puisse pas s’exprimer
avec des fonctions standards, il est facile de l’évaluer numériquement.1 Il est
aisé de vérifier que φ satisfait toutes les exigences pour une densité de pro-
babilité: partout positive, intégrale égale à l’unité. Par conséquent, puisque
Φ est définie en terme d’une densité adéquate, elle doit satisfaire les exigences
pour une c.d.f.
Du fait de la symétrie de la densité (B.12) par rapport à zéro, l’espérance
de la densité normale est nulle, tout comme le sont les moments d’ordre impair
de la distribution. Les moments d’ordre pair ne sont pas difficiles à calculer.
La variance peut se calculer à l’aide d’une intégration par parties. Puisque
la dérivée de φ(x) est −xφ(x), l’intégrale indéfinie de xφ(x) est −φ(x). Par
conséquent,
Z ∞ Z ∞
2
¡ ¢
x φ(x) dx = x xφ(x) dx
−∞ −∞
Z ∞
£ ¤x=∞
= − xφ(x) x=−∞ + φ(x) dx = 1, (B.13)
−∞

et nous voyons que la variance d’une loi normale centrée réduite est égale à
un. Cette propriété justifie l’usage du terme “réduite” dans ce contexte. Les
moments d’ordre pair supérieur de la densité de la normale centrée réduite
sont quasiment aussi faciles à calculer. Le résultat, obtenu par un calcul de

1
Notons que, dans chacune des définitions précédentes, nous avons par souci de
simplicité abandonné l’usage des variables en majuscules. Il ne devrait sub-
sister aucun risque de confusion entre des variables ordinaires et des variables
aléatoires dans ce qui suit.
B.4 Quelques Distributions de Probabilité Usuelles 805

récurrence d’une intégration par parties comparable à celle dans (B.13), est
que
m2k = (2k − 1)(2k − 3) · · · (3)(1).
Ainsi le moment d’ordre 4 est (3)(1) = 3, le moment d’ordre 6 est (5)(3)(1) =
15, et ainsi de suite.
Toute v.a. normalement distribuée d’espérance non nulle et de variance
non unitaire peut se définir par une translation et une normalisation d’une
variable normale centrée réduite. La famille des distributions ainsi définie
doit posséder deux paramètres que l’on peut noter µ, l’espérance, et σ 2, la
variance. Si y est distribuée normalement avec une espérance µ et une variance
σ 2, nous disons qu’elle a une distribution normale univariée. Nous écrivons
y ∼ N (µ, σ 2 ). La densité de y est
³y − µ´ µ ¶
1 −1/2 1 (y − µ)2

σφ = (2π) −
σ exp − 2σ 2 . (B.14)
σ

Nous pouvons dériver ce résultat de (B.12) à l’aide d’un résultat sur les trans-
formation des variables aléatoires que nous démontrerons dans un instant. Si
y ∼ N (µ, σ 2 ), alors nous montrons que la v.a. x ≡ (y − µ)/σ possède une
espérance nulle et une variance unitaire. De fait, x ∼ N (0, 1), ce qui cor-
respond à la manière traditionnelle d’écrire la distribution normale centrée
réduite.
Une extension importante de la distribution normale univariée est la dis-
tribution normale multivariée. La densité jointe de n variables indépendantes
N (0, 1) est simplement le produit de n densités univariées N (0, 1). Ainsi, si x
est un vecteur de dimension n d’élément type xi ∼ N (0, 1), la densité jointe
est
n
Y ¡ ¢ ¡ ¢
fx (x) = (2π)−1/2 exp − 21 x2i = (2π)−n/2 exp − 12 x>x . (B.15)
i=1

Nous notons symboliquement cette densité N (0, I). Le premier argument


est un vecteur composé de n zéros, chacun étant dans ce cas l’espérance de
l’élément correspondant de x. Le second argument est une matrice identité
de dimension n × n, qui est dans ce cas la matrice de covariance de x. C’est
l’exemple le plus simple d’une densité normale multivariée.
Un vecteur aléatoire qui suit n’importe quelle distribution normale mul-
tivariée peut se dériver à partir de x ∼ N (0, I). Considérons par exemple
un vecteur y de n variables aléatoires issues de combinaisons linéaires des
éléments de x. Ceci implique y ≡ A>x pour une matrice non singulière non
aléatoire A de dimension n × n quelconque. Il est clair que E(y) = 0 et que
V (y) = A>A; voir (B.06). La distribution du vecteur y de dimension n est,
par définition, la distribution N (0, A>A). Ainsi nous voyons que, comme pour
la distribution N (0, I), l’argument matriciel est la matrice de covariance des
806 Résultats de la Théorie des Probabilités

éléments de y. Puisque toute matrice de covariance V peut s’écrire comme


A>A pour une matrice A appropriée, nous pouvons caractériser la densité
N (0, V ) pour une matrice V définie positive quelconque en explicitant la
densité jointe de y.
La forme la plus générale de la distribution normale multivariée s’obtient
à partir du vecteur aléatoire y ∼ N (0, V ) de dimension n en lui associant
un vecteur µ de dimension n. Puisque E(y + µ) = µ, l’espérance du vecteur
aléatoire ainsi construit est µ. Ainsi nous notons symboliquement N (µ, V )
la distribution normale multivariée générale, avec un vecteur d’espérances µ
et une matrice de covariance V.
Avant de dériver la densité jointe de la distribution N (µ, V ), il faut
résoudre un problème plus général. Supposons connue la distribution de la
variable aléatoire x, où x est pour l’instant scalaire. Quelle est alors la distri-
bution d’une autre v.a. y qui est une fonction déterministe de x? Pour faire
simple, supposons que y = g(x) pour une fonction quelconque g monotone
croissante. En terme de la c.d.f., le calcul est immédiat:
¡ ¢ ¡ ¢ ¡ ¢
Pr(y < Y ) = Pr g(x) < Y = Pr x < g −1 (Y ) = Fx g −1 (Y ) .

Notons que g −1 existe du fait de l’hypothèse de monotonie de g. Ainsi la c.d.f.


de y est ¡ ¢
Fy (Y ) = Fx g −1 (Y ) . (B.16)
Nous pouvons alors déterminer la densité de y en dérivant (B.16):
¡ −1 ¢
¡ ¢ dg −1
(Y ) f x g (Y )
fy (Y ) = fx g −1 (Y ) = 0 ¡ −1 ¢. (B.17)
dy g g (Y )

Ainsi la densité de y est simplement égale à la densité de x divisée par la


dérivée première de g(·), les deux étant évaluées en g −1 (Y ). Les lecteurs peu-
vent être intéressés par la dérivation de la densité normale univariée générale
(B.14) à partir de la densité normale centrée réduite (B.12) en appliquant ce
résultat.
Il existe un moyen mnémotechnique simple pour lier les deux formes du
résultat (B.17). Il rappelle simplement que

fy (Y ) dy = fx (X) dx.

Le moyen mnémotechnique est relayé à une expression mathématique explicite


en divisant soit par dy soit par dx et en posant X = g −1 (Y ) ou Y = g(X).
La première possibilité conduit à l’expression centrale de (B.17), alors que la
seconde conduit à ¡ ¢
fy g(X) g 0 (X) = fx (X),
qui est l’équivalent de l’expression la plus à droite de (B.17).
B.4 Quelques Distributions de Probabilité Usuelles 807

Si g était une fonction monotone décroissante plutôt que croissante,


(B.17) resterait vraie si la dérivée g 0, négative, était remplacée par sa valeur
absolue |g 0 | (le montrer constitue un bon exercice). Si g n’était pas mono-
tone, il faudrait alors découper son domaine de définition en sous-espaces où
elle serait monotone, et (B.17) s’appliquerait à chacun de ces sous-espaces,
au moins localement. L’élément clé est qu’une valeur Y peut à présent corre-
spondre à plusieurs valeurs X, et dans ce cas la densité de y en Y est la somme
des contributions calculées en utilisant (B.17) pour chacune des valeurs de X.
Pour dériver la densité de la distribution normale multivariée, il nous faut
trouver une version multivariée de (B.17). Supposons qu’une v.a. vectorielle
y de dimension n soit donnée en terme d’une autre v.a. vectorielle x de
dimension n par l’application déterministe y = g(x), que nous supposons
bijective. Un argument plus fin que celui utilisé dans le cas scalaire montre
que ¡ ¢¯ ¯
fy (Y ) = fx g −1 (Y ) ¯det J (Y )¯, (B.18)
où J (Y ), la matrice Jacobienne de la transformation de y en x, est la matrice
de dimension n×n des dérivées de g −1 (Y ) par rapport aux éléments de Y. La
notation |det(·)| désigne la valeur absolue du déterminant. La valeur absolue
du déterminant apparaı̂t dans (B.18) essentiellement pour la même raison que
le cas univarié nécessite la valeur absolue de g 0 quand g 0 est négative.
Il est souvent commode lors du calcul de déterminant dans (B.18)
d’utiliser le fait que la matrice Jacobienne de la transformation de y en x
est l’inverse de la matrice Jacobienne de la transformation de x en y, ainsi
que la propriété que le déterminant de l’inverse d’une matrice est l’inverse du
déterminant de la matrice. Ainsi, si J ∗ désigne la matrice Jacobienne g(X),
une manière alternative d’écrire (B.18) est
¡ ¢¯ ¯−1
fy (Y ) = fx g −1 (Y ) ¯det J ∗ (Y )¯ .

Les lecteurs motivés sont encouragés à travailler en détail la dérivation de


(B.18). Celle-ci n’est pas difficile en principe, du moins pour le cas 2 × 2. Les
lecteurs férus de théorie de l’intégration comprendront intuitivement (B.18)
en notant que le déterminant est le ratio des volumes infinitésimaux dans les
espaces de x et de y, respectivement; voir l’Annexe A.
Nous pouvons à présent revenir au problème de la détermination de la
densité normale multivariée. Supposons que x ∼ N (0, I) et y = A>x + µ.
Ceci implique que y ∼ N (µ, V ), où V ≡ A>A. La matrice Jacobienne de la
transformation de y en x est dans ce cas (A> )−1. Puisque la densité de x est
(B.15), le résultat (B.18) implique que la densité de y soit
³ ´
1
(2π)−n/2 |det A|−1 exp − − (y − µ)>A−1 (A> )−1 (y − µ)
2
³ ´
1
= (2π)−n/2 |V |−1/2 exp − − (y − µ)>V −1 (y − µ) , (B.19)
2
808 Résultats de la Théorie des Probabilités

où |V | est le déterminant de V, toujours positif. La seconde ligne exploite


le fait que la matrice de covariance V est égale à A>A. (B.19) est le moyen
traditionnel d’écrire la densité normale multivariée pour le cas général où
y ∼ N (µ, V ).
De nombreuses distributions bien connues peuvent se définir en terme
de la distribution normale centrée réduite. La plus étrange de celles-ci est
sans doute la distribution de Cauchy. Par définition, c’est la distribution du
rapport de deux variables aléatoires normales centrées réduites indépendantes.
Soient x et y deux telles v.a. La densité jointe de x et y est, d’après (B.15),
³ ¡ ¢´
1 2
(2π)−1 exp −− x + y2 .
2

Pour dériver la densité de Cauchy, nous devons effectuer un changement de


variables vers des coordonnées polaires r et θ qui correspondent à x et y. La
relation entre ces coordonnées polaires et les coordonnées cartésiennes est
x = r cos θ ; y = r sin θ ;
r = (x2 + y 2 )1/2 ; θ = tan−1 (y/x).

Le déterminant de la matrice Jacobienne de la transformation de (r, θ) en


(x, y) est r sin2 θ + r cos2 θ = r. Par conséquent, la densité jointe de r et θ est
2
(2π)−1 re−r /2
. (B.20)

Celle-ci ne dépend aucunement de θ, ce qui implique que la densité de θ


doit être uniforme sur un intervalle quelconque. A l’évidence, puisque θ est
un angle exprimé en radians, cet intervalle doit être [0, 2π]. Nous pouvons
montrer ce résultat plus formellement en intégrant (B.20) par rapport à r sur
l’intervalle allant de 0 à ∞. Le résultat, qui est la densité de θ, est simplement
(2π)−1. Ceci est en fait la densité d’une variable aléatoire uniformément
distribuée sur l’intervalle [0, 2π].
La variable aléatoire de Cauchy z ≡ y/x est reliée à θ par la relation
z = tan θ. La matrice Jacobienne (scalaire ici), de la transformation de z en θ
est par conséquent l’inverse de la dérivée de tan θ par rapport à θ. Cette
dérivée est sec2 θ. Avant d’expliciter la densité de z, il faut remarquer que,
lorsque θ varie de 0 à 2π, chaque valeur de z est générée exactement deux
fois, puisque tan(π + θ) = tan θ. Ainsi nous concluons que la la densité de la
distribution de Cauchy est
1 1 1
2(2π)−1 2
= 2 = .
sec θ π(1 + tan θ) π(1 + z 2 )
Il est clair que si nous essayons d’évaluer l’espérance d’une v.a. de Cauchy,
nous serons confrontés à l’intégrale
Z ∞
z dz
2
,
−∞ π(1 + z )
B.4 Quelques Distributions de Probabilité Usuelles 809

qui diverge pour les deux bornes d’intégration. Ainsi la distribution de Cauchy
ne possède aucun moment.
La distribution chi-deux est d’une importance encore plus grande pour les
économètres que la distribution de Cauchy. La distribution dépend de deux
paramètres, un entier positif, appelé nombre de degrés de liberté, et un réel
positif, appelé paramètre de non centralité, ou NCP. L’écriture symbolique
d’une variable aléatoire du chi-deux à n degrés de liberté et de NCP Λ est
χ2 (n, Λ). Lorsque le NCP est nul, comme c’est souvent le cas, la variable suit
la distribution du chi-deux centrée. Celle-ci est souvent notée χ2 (n) plutôt
que χ2 (n, 0).
La distribution du chi-deux centrée est définie au moyen d’un vecteur x
de dimension n distribué suivant la N (0, I). Alors la variable aléatoire y
définie comme x>x possède une distribution du χ2 (n). Il est clair que y est la
somme au carré de n v.a. normales centrées réduites indépendantes. Il n’est
pas difficile de calculer la densité de χ2 (n) à l’aide de cette remarque, à con-
dition de maı̂triser les coordonnées polaires en dimension n. Heureusement,
nous n’utilisons pas explicitement cette densité, de sorte que nous éviterons
la manipulation. Il est utile de noter que E(y) = n et V (y) = 2n.
Lorsque le NCP est non nul, la v.a. suit la distribution du chi-deux
non centrée. Une variable aléatoire suivant la distribution du χ2 (n, Λ) peut
se construire comme la somme des carrrés de n − 1 v.a. normales centrées
réduites indépendantes, plus le carré d’une autre v.a. indépendante des autres,
distribuée suivant la N (Λ1/2 , 1). Il peut aussi se construire comme la Psomme
n 2
de n v.a. indépendantes xi au carré, où xi ∼ N (µi , 1) et Λ = i=1 µi .
La première définition est à l’évidence un cas particulierP de la seconde. La
n
démonstration que la densité ne dépend que de la somme i=1 µ2i et non pas
des µi individuels dépasse les objectifs de cette annexe.
La distribution du chi-deux non centrée possède la propriété suivante.
Pour tout nombre positif c,
¡ ¢
Pr χ2 (n, Λ) > c
est une fonction croissante de n et de Λ. Ce résultat se démontre aisément.
Ce n’est pas le cas d’un résultat de Das Gupta et Perlman (1974) (la
démonstration utilise des techniques qui dépassent de loin le niveau de cet
ouvrage). Ce résultat est au coeur des arguments traitant de la puissance des
tests basés sur des statistiques ayant asymptotiquement la forme du chi-deux.
Il est comme suit. Pour tout α ∈ [0, 1], supposons que cnα satisfasse la con-
dition Pr(χ2 (n) > cnα ) = α. Ainsi cnα est la valeur critique pour un test
de niveau α utilisant la distribution du chi-deux centré à n degrés de liberté.
Alors, pour chaque NCP Λ,
¡ ¢
Pr χ2 (n, Λ) > cnα
est une fonction croissante de n. Ainsi, pour un NCP donné, la puissance de
test diminuera lorsque le nombre de degrés de liberté augmentera.
810 Résultats de la Théorie des Probabilités

De nombreuses statistiques de test sont calculées comme une forme


quadratique composée d’un vecteur de v.a. (asymptotiquement) distribuées
normalement et d’une estimation de l’inverse de leur matrice de covariance.
Ces statistiques de test sont asymptotiquement distribuées suivant un chi-
deux centré. Ce résultat dépend du fait que si un vecteur x de dimension
n est distribué suivant la N (0, V ), la forme quadratique z ≡ x>V −1 x obéit
à la distribution χ2 (n, 0). De fait, par souci d’économie, nous démontrons
le résultat plus général que si x ∼ N (µ, V ), z sera distribuée suivant la
χ2 (n, µ>V −1 µ).
Soit η une matrice symétrique telle que V −1 = ηη, et considérons le
vecteur aléatoire y ≡ ηx. Nous avons construit y de sorte que y>y =
x>V −1 x = z. Le vecteur y est manifestement normal multivarié, d’espérance
ηµ et de matrice de covariance ηV η = I. Par la seconde définition de
la distribution du chi-deux non centrée, z doit être distribuée suivant la
χ2 (n, µ>V −1 µ), comme requis. Le résultat selon lequel z ∼ χ2 (n) pour le
cas particulier µ = 0 découle immédiatement de ce résultat plus général.
Un résultat étroitement relié est le suivant. Supposons que x ∼ N (0, In ).
Alors, si P est une matrice de projection orthogonale de dimension n × n de
rang r < n, la forme quadratique idempotente x>P x est distribuée suivant
la χ2 (r). Pour le comprendre, il est pratique d’exprimer la matrice P sous la
forme Z(Z>Z)−1Z>, pour une matrice Z adéquate quelconque de dimension
r × n telle que S(Z) = S(P ). Alors
¡ ¢−1
x>P x = x>Z Z>Z Z>x.

Evidemment, le vecteur Z>x de dimension r suit la distribution N (0, Z >Z).


Par conséquent, x>P x est une forme quadratique composée d’un vecteur nor-
mal multivarié de dimension r et de l’inverse de sa matrice de covariance.
Le résultat recherché provient immédiatement des résultats des paragraphes
précédents.
La distribution F peut se définir en terme de deux variables aléatoires
indépendantes, chacune obéissant à une distribution du χ2 . Puisqu’aucune,
une seule, ou les deux v.a. peut(peuvent) être non centrée(s), la distribution
F peut être centrée, non centrée, ou doublement non centrée. La distribution
F centrée à n et d degrés de liberté (pour “numérateur” et “dénominateur”)
est la distribution du rapport de deux v.a. du χ2 centrés indépendantes à n
et d degrés de liberté respectivement, chacune étant divisée par le nombre de
ses degrés de liberté. Symboliquement,

χ2 (n)/n
F (n, d) = .
χ2 (d)/d

La distribution F non centrée à n et d degrés de liberté et un NCP Λ est


la distribution du rapport d’un numérateur distribué suivant n−1 χ2 (n, Λ) et
d’un dénominateur qui lui est indépendant distribué suivant d−1 χ2 (d, 0). La
B.4 Quelques Distributions de Probabilité Usuelles 811

distribution F doublement non centrée à n et d degrés de liberté et des NCP


Λn et Λd est la distribution du rapport d’un numérateur distribué suivant
n−1 χ2 (n, Λn ) et d’un dénominateur qui lui est indépendant distribué sui-
vant d−1 χ2 (d, Λd ). Les densités de ces deux distributions F sont connues
et tabulées — consulter, par exemple, Abramowitz et Stegun (1965) — mais
ne sont pas d’un grand intérêt pour les économètres. Dans la pratique, nous
n’avons besoin que d’un programme de calcul de la c.d.f. et de l’inverse de
la c.d.f. de la distribution F centrée, et de tels programmes sont disponibles
dans la plupart des bons progiciels de statistique.
Enfin, nous abordons la distribution de Student, qui est souvent sim-
plement dénommée distribution t. La distribution de Student à n degrés
de liberté est notée t(n) et définie comme la distribution d’une v.a. nor-
male centrée réduite divisée par une v.a. qui lui est indépendante distribuée
selon la racine carrée de n−1 χ2 (n, 0). Evidemment, le carré d’une vari-
able aléatoire distribuée suivant une t(n) est distribué suivant une F (1, n)
centrée. Etant donnée la définition de la distribution du chi-deux centrée, il
est clair que la loi des grands nombres peut s’appliquer à n−1 χ2 (n, 0) quand
n → ∞. Puisque l’espérance de chaque variable normale centrée réduite au
carré dans la définition est égale à un, la limite de n−1 χ2 (n, 0) doit être 1.
Par conséquent, la distribution t(n) tend vers la distribution normale centrée
réduite lorsque n → ∞.
Pour la plupart des valeurs de n, la distribution t ressemble énormément
à la distribution normale centrée réduite, mais possède des queues de dis-
tribution légèrement plus épaisses. La différence entre la distribution t et la
distribution normale centrée réduite est très faible pour n ≥ 100; par exemple,
la valeur critique à 5% d’un test bilatéral est 1.960 pour N (0, 1) et 1.984 pour
t(100). Cependant cette différence peut s’accroı̂tre pour des valeurs très faibles
de n. La distribution de t(1) est évidemment la même que la distribution de
Cauchy, et elle ne possède par conséquent aucun moment. La distribution t(2)
possède un premier moment nul mais n’a pas de moment d’ordre supérieur.
En général, la distribution t(n) possède des moments jusqu’à l’ordre n − 1.
A l’occasion, la distribution t non centrée survient. Elle est définie
comme
N (µ, 1)
t(n, µ) = ¡ ¢1/2 .
n−1 χ2 (n, 0)
Le NCP est µ, et le carré d’une telle variable aléatoire est distribué suivant
une F non centrée à 1 et n degrés de liberté et un NCP µ2.
Pour davantage de détails sur les propriétés des distributions discutées
dans cette section, les lecteurs peuvent consulter Kendall et Stuart (1977) ou
Johnson et Kotz (1970a, 1970b).
812 Résultats de la Théorie des Probabilités

Termes et Concepts
covariance fonction de distribution jointe
degrés de liberté fonction intégrante
distribution de Cauchy fonction de logvraisemblance
distribution F , centrée, non centrée, forme quadratique idempotente
et doublement non centrée inégalité de Chebyshev
espace des événements, ou espace des inégalité de Jensen
réalisations indépendance statistique
espérance intégrale de Stieltjes
densité jointe matrice de covariance
densité marginale mesure de probabilité
distribution de probabilité mesure de tendance centrale
distribution centrée réduite moments d’ordre un, deux, trois, et
distribution de Student, centrée et supérieur
non centrée moments des variables aléatoires,
distribution du chi-deux, centrée et centrés et non centrés
non centrée moyenne, de population et
distribution marginale d’échantillon
distribution normale univariée normalisation (d’une densité)
distribution normale multivariée paramètre de non centralité, ou NCP
écart standard queues de distribution, de droite et de
écart type gauche
espace de probabilité sigma-algèbre
événement composite support d’une densité
fonction affine variable aléatoire
fonction de densité de probabilité, ou variable aléatoire scalaire
p.d.f. variable aléatoire vectorielle
fonction de distribution, ou c.d.f. variance
fonction de répartition

You might also like