Professional Documents
Culture Documents
B.1 Introduction
Les lecteurs de cet ouvrage devraient déja être relativement familiers avec la
théorie des probabilités et la statistique. Cette annexe a été élaborée pour
aider ceux qui souhaitent rafraı̂chir leur mémoire et pour réunir les résultats
pour faciliter les références. Il ne s’agit en aucun cas d’un substitut à des
manuels de second cycle tels que ceux Casella et Berger (1990) ou Spanos
(1986). La Section B.2 rappelle les concepts de base des variables aléatoires
et des distributions de probabilité. La Section B.3 traite des moments des
variables aléatoires et de certains résultats connexes. Enfin la Section B.4 fait
le point sur certaines des distributions de probabilité les plus communément
utilisées en économétrie.
793
794 Résultats de la Théorie des Probabilités
pour que chaque réalisation possible soit représentée par un point de l’espace;
des réalisations différentes doivent correspondre à des points différents.
Bien que chaque réalisation possible doive être représentée dans l’espace
des réalisations, il n’est pas toujours possible d’attribuer une probabilité à
toutes ces réalisations. Même si c’était le cas, la probabilité associée pourrait
ne pas être particulièrement riche en information. Par exemple, si nous con-
sidérons une seule variable aléatoire pouvant prendre n’importe quelle valeur
sur la droite réelle, la probabilité qu’elle prenne un nombre réel particulier
est traditionnellement nulle. Des probabilités positives seraient dans ce cas
associées uniquement à des intervalles de longueur positive. Une structure est
par conséquent nécessaire pour déterminer précisément quels sont les sous-
ensembles de l’espace des réalisations — les événements composites dans la
terminologie probabiliste standard — auxquels nous allons attribuer des pro-
babilités. Cette structure est la sigma-algèbre dans la théorie formelle.
La dernière composante essentielle est la mesure de probabilité: la
manière dont les probabilités sont effectivement attribuées à des événements,
composites ou simples. La seule chose à conserver à l’esprit ici est que les
mesures de probabilité doivent respecter les lois de probabilité dictées par
notre intuition. Ces lois sont remarquablement simples: la probabilité de
l’événement nul (rien ne se réalise) est nulle, la probabilité de l’espace en-
tier des réalisations (une réalisation quelconque se produit) est égale à un,
et la probabilité qu’un ensemble quelconque d’événements disjoints, ou qui
s’excluent mutuellement, se réalise est égale à la somme des probabilités de
chacun des événements disjoints pris séparément.
Nous pouvons à présent livrer une définition non formelle de ce que
nous entendons par variable aléatoire, ou v.a. en abrégé. Le cas le plus
simple est celui d’une variable aléatoire scalaire, qui ne prend qu’une seule
valeur réelle. Une telle variable aléatoire sera une application de l’espace
des réalisations dans la droite réelle, c’est-à-dire l’attribution d’un nombre
réel à chaque réalisation possible. Un instant de réflexion nous montrera que
c’est précisément ce que nous entendons par variable aléatoire: une grandeur
dont la valeur prise dépend de l’état du monde. En général, une application
quelconque de l’espace des réalisations dans la droite réelle n’est pas à pro-
prement parler une variable aléatoire, parce que nous insistons sur le fait qu’il
devrait être possible de définir une distribution de probabilité pour chaque
variable aléatoire. Le sens de ceci, plus spécifiquement, est que, si x est une
v.a. quelconque, nous devrions être capables d’attribuer des probabilités à
des événements tels que (x ≤ X) pour tout réel X. Notons Ω l’espace des
réalisations; c’est une notation très répandue dans la théorie des probabilités.
Alors l’événement (x ≤ X) peut être explicité sous la forme du sous-ensemble
suivant de Ω:
(ω ∈ Ω | x(ω) ≤ X). (B.01)
Le fait que x soit une application de Ω dans la droite donne son sens a (B.01).
B.2 Variables Aléatoires et Lois de Probabilité 795
Pour que x soit une variable aléatoire bien définie, il doit être possible
d’attribuer une probabilité à chacun des ensembles (B.01). Cela nous conduit
à la fonction de densité cumulée, ou c.d.f., ou fonction de distribution ou
encore fonction de répartition de la variable aléatoire x, que l’on note souvent
F (x) et qui est définie sur la droite réelle. Du fait que la valeur d’une c.d.f.
est une probabilité, une c.d.f. doit prendre ses valeurs dans l’intervalle [0, 1].
Une c.d.f. type est définie par une équation de la forme
¡ ¢
Fx (X) = Pr ω ∈ Ω | x(ω) ≤ X .
par une c.d.f. jointe provenant des c.d.f. d’origine en initialisant à +∞ toutes
les composantes non sélectionnées .
Les distributions de probabilité jointe permettent d’introduire la no-
tion importante d’indépendance statistique. Soit x une variable aléatoire
vectorielle de dimension n, et supposons qu’elle est partitionnée comme
.
x = [x1 ... x2 ], avec x1 ∈ Rn1, x2 ∈ Rn2, et n1 + n2 = n. Alors x1 et x2 sont
dits statistiquement indépendants, ou souvent plus simplement indépendants,
si la c.d.f. jointe du vecteur x est le produit des c.d.f. de x1 et x2 . Dans une
notation simplifiée, cela signifie que
¡ ¢ ¡ ¢ ¡ ¢
Fx X1 , X2 = Fx X1 , ∞2 Fx ∞1 , X2 ,
où ∞1 et ∞2 désignent les vecteurs dont les composantes sont égales à +∞.
Le concept de fonction de densité de probabilité, ou p.d.f., est très
étroitement relié à celui de c.d.f. Bien qu’une fonction de distribution existe
pour toute variable aléatoire bien définie, une p.d.f. n’existe que si la c.d.f. est
différentiable. Pour une v.a. scalaire, la fonction de densité, souvent notée f,
est simplement la dérivée de la c.d.f.:
très utile d’une densité, qui nous permet de l’utiliser pour calculer les proba-
bilités d’événements associés à une variable aléatoire donnée. Supposons que
x soit une v.a. scalaire. Alors pour tout intervalle [a, b] de la droite réelle,
nous pourrions souhaiter calculer la probabilité que x ∈ [a, b]. Cela provient
directement de la définition d’une c.d.f. que, si a < b,
¡ ¢
Pr x ∈ [a, b] = Fx (b) − Fx (a).
Puisque (B.03) doit être vraie pour des valeurs quelconques de a et b, il est
clair que fx doit être une fonction non négative.
si elle existe. Le type d’intégrale dans (B.04) est appelé intégrale de Stieltjes,
en raison de la présence de la fonction d’intégration Fx . Les lecteurs pour qui
le concept d’une intégrale de Stieltjes est nouveau peuvent souhaiter consulter
un article standard sur l’analyse réelle, tel que celui de Burrill et Knudsen
(1969) ou celui de Mukherjea et Pothoven (1984), pour les détails. Nous ne
les fournirons pas ici, parce qu’ils ne sont pas très importants pour l’analyse
que nous livrons. La principale caractéristique d’une intégrale de Stieltjes, en
ce qui nous concerne, est que si la fonction d’intégration est dérivable, il est
possible d’exprimer l’intégrale de Stieltjes comme une intégrale ordinaire en
terme de sa dérivée. Pour (B.04), nous obtenons l’expression suivante pour
l’espérance de x: Z ∞
Xfx (X) dX, (B.05)
−∞
Le moment centré le plus important est de loin le moment d’ordre deux. C’est
la variance de la v.a. La notation usuelle pour une variance est σ 2, et cette
notation souligne le fait qu’une variance ne peut pas être négative. La racine
carrée, σ, est appelée écart standard de la distribution. Les estimations des
écarts standards sont souvent appelées écarts types, en particulier lorsque la
variable aléatoire en cause est un paramètre estimé.
Il est souvent important de pouvoir définir les moments de v.a. vecto-
rielles. Pour le moment d’ordre un, c’est trivial: le moment d’ordre un d’une
variable aléatoire vectorielle x de dimension n est simplement le vecteur ordi-
naire x̄ de dimension n dont l’élément type est x̄i ≡ E(xi ). Pour les moments
d’ordres deux et supérieurs, cela se complique. Pour les moments centrés
d’ordre deux, il est nécessaire de définir une matrice de dimension n × n,
parfois appelée matrice de variance, parfois matrice de covariance, et parfois
B.3 Moments des Variables Aléatoires 799
Si une variable aléatoire possède une variance, sa valeur peut être utilisée
pour calculer une borne pour la masse de probabilité contenue dans la queue
de distribution. Nous entendons par queue d’une distribution de probabilité
un événement de la forme (x > X) ou (x < X), où X est substantiellement à
la droite du centre de la distribution dans le premier cas et substantiellement
à gauche dans le second. Le premier cas définit la queue de droite de la dis-
tribution et le second la queue de gauche. Le terme ambigu “centre” est ici
employé du fait que la définition même de queue est imprécise. Nous pourrions
entendre par centre l’espérance, la médiane, le mode ou toute autre mesure
de tendance centrale. L’imprécision provient sûrement du fait que les v.a.
n’ont pas toutes une espérance. Pour une v.a. ne possédant pas d’espérance,
différentes mesures de tendance centrale peuvent être appropriées. Parfois,
c’est la probabilité qu’une variable aléatoire appartienne à une queue de dis-
tribution qui nous intéresse, parfois c’est la probabilité qu’elle appartienne à
800 Résultats de la Théorie des Probabilités
grâce à (B.03). Puisque tous les termes de (B.08) sont non négatifs, nous
concluons que ¡ ¢
V ≥ α2 Pr |x| > α .
La réorganisation de cette inégalité conduit à (B.07). De là découle une forme
plus familière de l’inégalité de Chebyshev, qui établit que, pour une variable
aléatoire x d’espérance µ et de variance σ 2,
µ¯ ¯ ¶
¯x − µ¯ 1
Pr ¯ ¯ > α ≤ 2.
σ α
où l’indice θ de l’opérateur d’espérance indique que celle-ci est calculée avec
f (·, θ).
La démonstration de (B.10) utilise un résultat standard sur la dérivation
des intégrales. Ce résultat établit que la dérivée d’une intégrale de la forme
Z b(θ)
g(y, θ) dy
a(θ)
par rapport au paramètre θ peut s’exprimer en terme des dérivées des fonc-
tions a, b, et g par rapport à θ, à condition qu’elles existent, et est égale à
Z b(θ)
¡ ¢ ¡ ¢ ∂g(y, θ)
−a (θ)g a(θ), θ + b0 (θ)g b(θ), θ +
0
dy,
a(θ) ∂θ
Puisque cette condition est valable pour toutes les valeurs admissibles de θ,
nous pouvons la dériver par rapport à θ et obtenir
Z b(θ)
0
¡ ¢ 0
¡ ¢ ∂f (y, θ)
−a (θ)f a(θ) + b (θ)f b(θ) + dy = 0. (B.11)
a(θ) ∂θ
Le dernier terme, l’intégrale, peut s’exprimer comme
Z b(θ) µ ¶
∂ log f (y, θ) ∂ log f
f (y, θ) dy = Eθ .
a(θ) ∂θ ∂θ
0.4 ...........
..... ..........
...... ...
. ...
.
.... ...
...
.. ...
... ...
.
..
0.3 .. ...
... ...
..
. ...
.
.. ...
.
.. ...
.
.. ...
.
.. ...
.. ...
0.2 .
..
. ...
.. ...
.
. ...
..
. ...
.
.. ...
...
. ...
.
. ...
0.1 .
... ...
...
.
.. ....
..
. ....
..
..
. .....
.
.
.......
. ......
......
...
... ..........
..
..
..
..
..
..
.. ......................
.
..................................................
..
..
..
..
..
.. .................................................
0.0
−4 −3 −2 −1 0 1 2 3 4
et nous voyons que la variance d’une loi normale centrée réduite est égale à
un. Cette propriété justifie l’usage du terme “réduite” dans ce contexte. Les
moments d’ordre pair supérieur de la densité de la normale centrée réduite
sont quasiment aussi faciles à calculer. Le résultat, obtenu par un calcul de
1
Notons que, dans chacune des définitions précédentes, nous avons par souci de
simplicité abandonné l’usage des variables en majuscules. Il ne devrait sub-
sister aucun risque de confusion entre des variables ordinaires et des variables
aléatoires dans ce qui suit.
B.4 Quelques Distributions de Probabilité Usuelles 805
récurrence d’une intégration par parties comparable à celle dans (B.13), est
que
m2k = (2k − 1)(2k − 3) · · · (3)(1).
Ainsi le moment d’ordre 4 est (3)(1) = 3, le moment d’ordre 6 est (5)(3)(1) =
15, et ainsi de suite.
Toute v.a. normalement distribuée d’espérance non nulle et de variance
non unitaire peut se définir par une translation et une normalisation d’une
variable normale centrée réduite. La famille des distributions ainsi définie
doit posséder deux paramètres que l’on peut noter µ, l’espérance, et σ 2, la
variance. Si y est distribuée normalement avec une espérance µ et une variance
σ 2, nous disons qu’elle a une distribution normale univariée. Nous écrivons
y ∼ N (µ, σ 2 ). La densité de y est
³y − µ´ µ ¶
1 −1/2 1 (y − µ)2
−
σφ = (2π) −
σ exp − 2σ 2 . (B.14)
σ
Nous pouvons dériver ce résultat de (B.12) à l’aide d’un résultat sur les trans-
formation des variables aléatoires que nous démontrerons dans un instant. Si
y ∼ N (µ, σ 2 ), alors nous montrons que la v.a. x ≡ (y − µ)/σ possède une
espérance nulle et une variance unitaire. De fait, x ∼ N (0, 1), ce qui cor-
respond à la manière traditionnelle d’écrire la distribution normale centrée
réduite.
Une extension importante de la distribution normale univariée est la dis-
tribution normale multivariée. La densité jointe de n variables indépendantes
N (0, 1) est simplement le produit de n densités univariées N (0, 1). Ainsi, si x
est un vecteur de dimension n d’élément type xi ∼ N (0, 1), la densité jointe
est
n
Y ¡ ¢ ¡ ¢
fx (x) = (2π)−1/2 exp − 21 x2i = (2π)−n/2 exp − 12 x>x . (B.15)
i=1
fy (Y ) dy = fx (X) dx.
qui diverge pour les deux bornes d’intégration. Ainsi la distribution de Cauchy
ne possède aucun moment.
La distribution chi-deux est d’une importance encore plus grande pour les
économètres que la distribution de Cauchy. La distribution dépend de deux
paramètres, un entier positif, appelé nombre de degrés de liberté, et un réel
positif, appelé paramètre de non centralité, ou NCP. L’écriture symbolique
d’une variable aléatoire du chi-deux à n degrés de liberté et de NCP Λ est
χ2 (n, Λ). Lorsque le NCP est nul, comme c’est souvent le cas, la variable suit
la distribution du chi-deux centrée. Celle-ci est souvent notée χ2 (n) plutôt
que χ2 (n, 0).
La distribution du chi-deux centrée est définie au moyen d’un vecteur x
de dimension n distribué suivant la N (0, I). Alors la variable aléatoire y
définie comme x>x possède une distribution du χ2 (n). Il est clair que y est la
somme au carré de n v.a. normales centrées réduites indépendantes. Il n’est
pas difficile de calculer la densité de χ2 (n) à l’aide de cette remarque, à con-
dition de maı̂triser les coordonnées polaires en dimension n. Heureusement,
nous n’utilisons pas explicitement cette densité, de sorte que nous éviterons
la manipulation. Il est utile de noter que E(y) = n et V (y) = 2n.
Lorsque le NCP est non nul, la v.a. suit la distribution du chi-deux
non centrée. Une variable aléatoire suivant la distribution du χ2 (n, Λ) peut
se construire comme la somme des carrrés de n − 1 v.a. normales centrées
réduites indépendantes, plus le carré d’une autre v.a. indépendante des autres,
distribuée suivant la N (Λ1/2 , 1). Il peut aussi se construire comme la Psomme
n 2
de n v.a. indépendantes xi au carré, où xi ∼ N (µi , 1) et Λ = i=1 µi .
La première définition est à l’évidence un cas particulierP de la seconde. La
n
démonstration que la densité ne dépend que de la somme i=1 µ2i et non pas
des µi individuels dépasse les objectifs de cette annexe.
La distribution du chi-deux non centrée possède la propriété suivante.
Pour tout nombre positif c,
¡ ¢
Pr χ2 (n, Λ) > c
est une fonction croissante de n et de Λ. Ce résultat se démontre aisément.
Ce n’est pas le cas d’un résultat de Das Gupta et Perlman (1974) (la
démonstration utilise des techniques qui dépassent de loin le niveau de cet
ouvrage). Ce résultat est au coeur des arguments traitant de la puissance des
tests basés sur des statistiques ayant asymptotiquement la forme du chi-deux.
Il est comme suit. Pour tout α ∈ [0, 1], supposons que cnα satisfasse la con-
dition Pr(χ2 (n) > cnα ) = α. Ainsi cnα est la valeur critique pour un test
de niveau α utilisant la distribution du chi-deux centré à n degrés de liberté.
Alors, pour chaque NCP Λ,
¡ ¢
Pr χ2 (n, Λ) > cnα
est une fonction croissante de n. Ainsi, pour un NCP donné, la puissance de
test diminuera lorsque le nombre de degrés de liberté augmentera.
810 Résultats de la Théorie des Probabilités
χ2 (n)/n
F (n, d) = .
χ2 (d)/d
Termes et Concepts
covariance fonction de distribution jointe
degrés de liberté fonction intégrante
distribution de Cauchy fonction de logvraisemblance
distribution F , centrée, non centrée, forme quadratique idempotente
et doublement non centrée inégalité de Chebyshev
espace des événements, ou espace des inégalité de Jensen
réalisations indépendance statistique
espérance intégrale de Stieltjes
densité jointe matrice de covariance
densité marginale mesure de probabilité
distribution de probabilité mesure de tendance centrale
distribution centrée réduite moments d’ordre un, deux, trois, et
distribution de Student, centrée et supérieur
non centrée moments des variables aléatoires,
distribution du chi-deux, centrée et centrés et non centrés
non centrée moyenne, de population et
distribution marginale d’échantillon
distribution normale univariée normalisation (d’une densité)
distribution normale multivariée paramètre de non centralité, ou NCP
écart standard queues de distribution, de droite et de
écart type gauche
espace de probabilité sigma-algèbre
événement composite support d’une densité
fonction affine variable aléatoire
fonction de densité de probabilité, ou variable aléatoire scalaire
p.d.f. variable aléatoire vectorielle
fonction de distribution, ou c.d.f. variance
fonction de répartition