Professional Documents
Culture Documents
21.1 Introduction
La plupart des méthodes d’estimation et de test d’hypothèse discutées dans
ce livre ont des propriétés statistiques connues seulement asymptotiquement.
Ceci est vrai pour les modèles non linéaires de tous types, pour les modèles
d’équations simultanées linéaires, et même pour le modèle de régression
linéaire univarié dès que nous relâchons l’hypothèse forte de régresseurs fixes
ou l’hypothèse encore plus forte d’aléas normalement et identiquement dis-
tribués. Ainsi, dans la pratique, la théorie exacte en échantillon fini est
rarement valable pour interpréter des estimations ou des statistiques de test.
Malheureusement, à moins que la taille de l’échantillon ne soit effectivement
très grande, il est très difficile de savoir si la théorie asymptotique est suf-
fisamment précise pour nous permettre d’interpréter nos résultats en toute
confiance.
Il existe fondamentalement deux manières de gérer cette situation. La
première est d’affiner les approximations asymptotiques telles celles dérivées
dans ce livre en additionnant des termes d’ordre inférieur par rapport à la taille
de l’échantillon, n, termes qui sont typiquement O(n−1/2 ) ou O(n−1 ). On
fait référence à ces approximations plus raffinées en tant qu’approximations
en échantillon fini ou développements asymptotiques. C’est l’étude des pro-
priétés des estimateurs des modèles d’équations simultanées et des modèles
dynamiques linéaires univariés qui a permis de décrire le plus largement
l’approche des développements asymptotiques. Cette approche peut, dans
certains cas, fournir des éclaircissements utiles sur le comportement des esti-
mateurs et des statistiques de test. Malheureusement, elle implique souvent
des éléments mathématiques soit plus avancés soit plus pénibles que ne le
souhaiteraient la plupart des économètres. Cette méthode ne s’applique par-
fois qu’aux modèles relativement simples, et tend à produire des résultats
compliqués et très difficiles à interpréter, en partie parce qu’ils dépendent
souvent de paramètres inconnus. De plus, ces résultats ne sont eux-mêmes
que de simples approximations; même s’ils sont généralement meilleurs que
les approximations asymptotiques, ils peuvent ne pas être suffisamment
précis. De façon idéale, on voudrait pouvoir utiliser automatiquement les
développements asymptotiques, comme composante des applications de logi-
ciels d’économétrie, afin d’obtenir des intervalles de confiance et des tests
731
732 Les Expériences Monte Carlo
Monte Carlo, c’est une manière d’obtenir des nombres qui possèdent les mêmes
propriétés statistiques que des nombres aléatoires, plutôt que des nombres
véritablement aléatoires. En effet, aucun ordinateur n’est capable de générer
des nombres aléatoires authentiques, du moins pas s’il travaille correctement.
Mais les ordinateurs sont capables de générer des suites de nombres pseudo-
aléatoires, qui sont en fait purement déterministes. Les programmes qui
procèdent ainsi sont appelés générateurs de nombres pseudo-aléatoires ou,
plus communément mais de façon moins précise, simplement générateurs de
nombres aléatoires. Les nombres pseudo-aléatoires générés par un générateur
de nombres aléatoires performant sont, pour nos objectifs des expériences
Monte Carlo, indiscernables des suites de nombres aléatoires authentiques,
c’est-à-dire de véritables suites de tirages indépendants issus de la distribu-
tion U (0, 1).
Il existe de nombreuses manières de générer des nombres pseudo-aléa-
toires. Les plus communes sont des variantes du générateur congruentiel,
zt
ηt = , zt = (λzt−1 + α)(mod m), (21.01)
m
η
.............................
1.0 .......................
..
............
.
..
.....
........
0.8 ....
.. ...
...
η∗ .....
...
0.6 .....
...
.
....
..
....
.
0.4 .
...
.
....
...
.....
.
0.2 ....
..
.......
..... ...... u = F
∗ −1 ∗
(η )
......
..
...
...
...
...
. .....
.
.
...
...
...
...
... .
......
.
0.0 ...............................
.
.
..
u
−3 −2 −1 0 1 2 3
f (u) = θe−θu
F (u) = 1 − e−θu .
sont des variables aléatoires indépendantes issues de N (0, 1). Consulter Ru-
binstein (1981) ou Press, Flannery, Teukolsky, et Vetterling (1986) pour une
démonstration. Le dernier livre discute également d’une version modifiée
de la méthode de Box-Muller qui devrait être plus rapide à calculer. Le
problème majeur avec la technique de Box-Muller est qu’elle repose forte-
ment sur l’indépendance de η1 et η2 . Si le générateur de nombres aléatoires
qui les produit n’est pas bon, ces variables peuvent manifester une certaine
dépendance, et les variables résultantes u1 et u2 peuvent ne pas être normales
ou indépendantes.
Si l’on est capable d’obtenir des variables pseudo-aléatoires à partir de
N (0, 1), il est immédiat d’obtenir des variables pseudo-aléatoires à partir de
N (µ, σ 2 ) ou à partir de la distribution normale multivariée avec n’importe
quel vecteur d’espérances µ et matrice de covariance Ω. Si u désigne un
vecteur de dimension l dont chaque élément est une variable pseudo-aléatoire
issue de N (0, 1), et si ψ est une matrice de dimension l × l (habituellement
triangulaire) telle que ψ>ψ = Ω, il est facile de voir que le vecteur v de
dimension l défini par
v ≡ µ + ψ>u
ν2
h
..................
...... ....
.. ...
..... ...
...
... ...
...
...
... • (ν11 , ν21 )
.
.. • (ν 0 , ν 0 ) ....
... 1 2 ...
...
... ...
...
.. ...
. ...
.... ...
.... ...
....
... ....
.. .....
.. .....
. ......
.. .......
..
. ... ..........
.........................
..
....
...
.. ............................................. ν1
0 .
...
.
α β
Celles-ci doivent être conçues pour apporter autant d’information que possible
sur les problèmes qui nous intéressent.
La première chose à reconnaı̂tre est que les résultats issus des expériences
Monte Carlo sont nécessairement aléatoires. Au minimum, cela signifie que les
résultats doivent être exposés de telle manière que le lecteur apprécie l’étendue
du hasard expérimental. De plus, il est essentiel d’exécuter suffisamment de
répétitions pour que les résultats soient suffisamment précis pour le propos
étudié. Le nombre de répétitions nécessaire peut parfois être réduit de façon
substantielle en utilisant des techniques de réduction de variance dont nous
discuterons dans les deux prochaines sections. Cependant de telles techniques
ne sont pas toujours immédiatement disponibles. Dans cette section, nous
considérons d’autres aspects variés de la conception des expériences Monte
Carlo.
Nous considérons tout d’abord le problème qui consiste à déterminer
combien de répétitions exécuter. Par exemple, supposons que le chercheur
soit intéressé par le calcul du niveau d’une certaine statistique de test (c’est-
à-dire la probabilité de rejet de l’hypothèse nulle quand elle est vraie), di-
sons, au niveau nominal .05. Notons p cette quantité inconnue. Chaque
répétition générera une statistique de test qui excède ou pas la valeur critique
nominale. Celles-ci peuvent être assimilées à des tirages indépendants de la
loi de Bernoulli. Supposons que N répétitions soient exécutées et R rejets
obtenus. Alors l’estimateur évident de p, qui est aussi l’estimateur ML, est
R/N . La variance de l’estimateur est N −1 p(1 − p), et peut être estimée par
R(N − R)/N 3.
Supposons maintenant que l’on veuille que la longueur d’un intervalle de
confiance à 95% sur l’estimation de p soit approximativement .01. En utilisant
l’approximation normale de la binomiale, qui est ici sûrement valable puisque
N sera grand, nous voyons que l’intervalle de confiance doit s’étendre sur
2 × 1.96 = 3.92 écarts types. Par conséquent, nous avons besoin que
µ ¶1/2
p(1 − p)
3.92 = .01. (21.02)
N
En supposant que p soit .05, le niveau nominal du test étudié, nous pouvons
trouver la valeur de N en résolvant (21.02). Le résultat est N ∼ = 7299. Pour
prendre toutes les sécurités (puisque p peut bien excéder .05, impliquant une
forte variance pour R/N ), le chercheur choisirait probablement N = 8000.
Il s’agit d’un nombre plutôt grand de répétitions et il peut être très coûteux
à calculer. Si l’on désire laisser la longueur de l’intervalle de confiance à
95% de p à .02, on pourrait sélectionner un échantillon réduit au quart, ou
approximativement à 2000 répétitions.
Si l’objet d’une expérience est de comparer deux ou plusieurs estimateurs,
ou deux ou plusieurs statistiques de test, un nombre plus petit de répétitions
est nécessaire pour obtenir un niveau donné de précision par rapport à ce qui
21.4 Conception des Expériences Monte Carlo 741
qui sera inférieure à la variance de B̂(θ̂) ou de B̃(θ̃) lorsque Cov(θ̂, θ̃) est po-
sitive et suffisamment grande. Ceci sera très souvent le cas, puisqu’il est très
probable que θ̂j et θ̃j soient fortement positivement corrélés. Ainsi, beaucoup
moins de répétitions sont nécessaires pour estimer (21.03) que pour estimer
B(θ̂) et B(θ̃) à niveau de précision identique. Naturellement, ceci survien-
dra seulement si θ̂j et θ̃j sont obtenues avec le même ensemble de variables
pseudo-aléatoires, mais c’est exactement comme cela que l’expérience Monte
Carlo serait conçue. Nous rencontrerons une idée similaire à celle-ci lorsque
nous discuterons de la méthode des variables antithétiques dans la prochaine
section.
La seconde chose importante à garder à l’esprit quand on conçoit des
expériences Monte Carlo est que les résultats seront souvent très sensibles à
certains aspects de la conception expérimentale mais pratiquement ou totale-
ment insensibles à d’autres aspects. Evidemment, on voudra faire varier les
premiers à travers les expériences tout en fixant les derniers d’une manière
plus ou moins arbitraire. Par exemple, de nombreuses statistiques de test
742 Les Expériences Monte Carlo
y = Xβ + αz + u. (21.05)
z>MX u
t(α̂) = ¡ ¢1/2 ¡ ¢1/2 , (21.06)
u>MX,z u/(n − k) z>MX z
manière dont celles-ci devraient être traitées dans les expériences Monte Carlo
n’est pas vraiment claire. Une approche consiste à générer les Xt d’une cer-
taine manière. Lorsque l’expérience traite des données en coupe transversale,
il est plus pratique de les générer à partir des distributions indépendantes des
lois uniforme, normale ou lognormale, alors que lorsque l’expérience traite des
données chronologiques, il est pratique de les générer à partir de processus
variés simples de série temporelles tels que AR(1), MA(1), et ARMA(1, 1),
à aléas normaux. On peut soit générer un nouvel ensemble de Xt pour
chaque répétition soit générer un seul ensemble de Xt utilisé dans toutes
les répétitions. La dernière méthode est moins coûteuse et se justifie si les
Xt sont supposés fixes dans les échantillons répétés, mais elle peut conduire
à des résultats qui dépendent des caractéristiques particulières de l’ensemble
particulier des Xt généré.
Une autre possibilité consiste à utiliser de véritables données économiques
pour les Xt . Si ces données sont choisies avec soin, cette approche peut
garantir que les Xt sont en fait typiquement celles qui apparaissent dans les
modèles économétriques. Cependant, cela pose le problème de la variation de
la taille d’échantillon. Si l’on utilise soit des données authentiques soit un seul
ensemble de données générées, la matrice n−1X>X variera avec la taille de
l’échantillon n. Ceci peut rendre la distinction des effets des variations de n
des effets des variations de n−1X>X difficile. Une solution à ce problème est
de sélectionner, ou de générer, un seul ensemble de Xt pour un échantillon de
taille m et de répéter ensuite ceux-ci autant de fois que nécessaire pour créer les
Xt pour les échantillons de tailles plus grandes. Ceci nécessite que n = cm,
où c est un entier. Des choix évidents pour m sont 50 et 100; n pourrait
ensuite être un entier quelconque multiple de 50 ou de 100. Naturellement,
le problème avec cette approche est que comme beaucoup de répétitions sont
exécutées, tous les résultats dépendront du choix de l’ensemble initial des Xt .
Dans de nombreux cas, la manière de choisir les Xt ne sera pas d’une
grande importance. Cependant, il existe des cas pour lesquels elle peut avoir
un impact substantiel sur les résultats. Par exemple, MacKinnon et White
(1985) ont utilisé les expériences Monte Carlo pour examiner la performance
en échantillon fini de différents estimateurs des matrices de covariance robustes
à l’hétéroscédasticité (HCCME; consulter la Section 16.3). Ils ont utilisé 50
observations sur de véritables données économiques pour les Xt , répétant
ces 50 observations autant que nécessaire pour chaque taille d’échantillon.
Comme Chesher et Jewitt (1987) l’ont montré plus tard, la performance des
estimateurs dépend crucialement des ht , c’est-à-dire des éléments diagonaux
de la matrice PX ; les performances des tests basés sur toutes la HCCME en
échantillon fini seront d’autant plus faibles que les ht les plus élevés seront
grands. Quand la matrice X est générée comme l’ont fait MacKinnon et
White, avec n = 50c, tous les ht doivent approcher zéro à un taux proportion-
nel à 1/c (et ensuite aussi à 1/n). Ainsi MacKinnon et White étaient assurés
de trouver une amélioration rapide des résultats au fur et à mesure que la
744 Les Expériences Monte Carlo
d’écarts types expérimentaux, ces ratios pourraient être marqués (en utilisant
des symboles tels que ∗, †, ou ∗∗) pour indiquer s’ils diffèrent de l’unité de
manière significative.
Les expérimentateurs présentent souvent simplement des tableaux de
moyennes estimées, de variances, et peut-être de coefficients d’asymétrie et
d’aplatissement pour plusieurs estimateurs ou statistiques de test différents.
Dans le cas des statistiques de test, les probabilités d’aire de queue, c’est-à-
dire les niveaux estimés, sont souvent également présentées. De tels tableaux
ne sont pas toujours très lisibles. Les méthodes graphiques de présentation
peuvent parfois être des alternatives très précieuses, bien qu’elles doivent être
utilisées avec modération en fonction de l’espace disponible. Dans le cas des
statistiques de test en compétition, on pourrait tracer des courbes de niveau-
puissance empiriques (consulter la Section 12.2) de plusieurs statistiques de
test sur les mêmes axes. Ceci montrera clairement si une quelconque statis-
tique de test a substantiellement un pouvoir plus ou moins fort que les autres
pour un niveau donné; Davidson et MacKinnon (1982) fournissent un exem-
ple. Dans le cas d’estimateurs en compétition, on peut simplement dessiner
les fonctions de distribution empiriques de tous les estimateurs sur les mêmes
axes, comme dans les Figures 7.1, 7.2, et 18.1. Les différences qualitatives ma-
jeures entre les estimateurs en compétition devraient alors être très claires.
En outre, étant facile à comprendre, cette approche simplifie le traitement
des estimateurs qui manquent de moments (tels que LIML). Pour ces estima-
teurs, les MSE peuvent bien entendu être extrêmement trompeuses; consulter
Sargan (1982).
l’estimateur pondéré
1
θ̄ = − (θ́ + θ̀) (21.07)
2
a la variance
1¡ ¢
V (θ̄) = − V (θ́) + V (θ̀) + 2Cov(θ́, θ̀) ,
4
θ̈ ≡ wθ́ + (1 − w) θ̀.
yt = βXtα + ut . (21.08)
Pour chaque ensemble d’aléas uj, nous pourrions générer deux réalisations de
y, avec les i ième éléments
Nous pourrions alors estimer le modèle en utilisant chacun de ces deux en-
sembles de données, générer ainsi deux estimations différentes de α, άj et ὰj .
Aprés N doubles répétitions, nous pourrions alors construire l’estimateur
N
1 X¡ ¢
ᾱ = άj + ὰj ,
2N j=1
21.5 Réduction de Variance: Variables Antithétiques 747
1 X³1N ´2
−(άj + ὰj ) − ᾱ . (21.09)
N (N − 1) j=1 2
1¡ j ¢
β̄ ≡ − β́ + β̀ j
2
³ ¡ > ¢−1 > j ¡ > ¢−1 > j´
1
= − β0 + β0 + X X X u − X X X u = β0 .
2
Ainsi, dans une seule double répétition, nous pourrions obtenir une réponse
sans erreur expérimentale. Ceci survient parce que β́ j et β̀ j sont parfaitement
corrélés négativement.
La corrélation négative parfaite des variables ne se produira pas en
général. Quand elle survient, le problème est habituellement tellement sim-
ple qu’il n’est pas nécessaire d’exécuter des expériences Monte Carlo (bien
que parfois une très petite expérience Monte Carlo, qui consiste juste en
une double répétition utilisant des variables antithétiques, puisse nous révéler
qu’un estimateur est sans biais plus facilement que ne le ferait une analyse
théorique). Cependant, une corrélation négative moins parfaite survient sou-
vent, et elle signifie que dans certains cas l’utilisation de variables antithétiques
peut grandement réduire le nombre de répétitions nécessaires pour estimer les
premiers moments d’un estimateur. Hendry et Trivedi (1972) ont utilisé la
technique pour étudier les estimateurs de certains modèles dynamiques, et
Mikhail (1972, 1975) l’a utilisée pour étudier certains estimateurs d’équations
simultanées.
Considérons à nouveau l’exemple (21.08). Nous avons mené une petite
expérience Monte Carlo basée sur cet exemple, avec un échantillon 50 obser-
vations, et un seul ensemble de Xt généré à partir de la distribution uniforme
sur l’intervalle (5, 15) et les paramètres α0 = 0.5, β0 = 1.0, et σ02 = 1.0 (ici σ02
748 Les Expériences Monte Carlo
est la variance des ut , supposés normaux). Les résultats issus de 500 doubles
répétitions sont rapportés dans le Tableau 21.1.
Dans ce cas, les gains provenant de l’usage des variables antithétiques
sont apparemment très importants. L’écart type de ᾱ est 15.7 fois plus petit
que la moyenne des écarts types de ά et ὰ. Ceci signifie que ᾱ, qui est basé
sur 1000 répétitions, est aussi précis que l’estimation naı̈ve Monte Carlo basée
sur approximativement 246,000 répétitions! Les gains sont moins flagrants
dans le cas de β, mais ils sont encore très conséquents. L’écart type de β̄
est 4.8 fois plus petit que la moyenne des écarts types de β́ et β̀, ce qui
signifie qu’il est aussi précis qu’une estimation naı̈ve basée sur environ 23,500
répétitions. Du fait de la précision de ᾱ et β̄, nous pouvons voir que les NLS
produisent des estimations légèrement biaisées dans ce cas: les t de Student
pour les hypothèses nulles que les moyennes des estimations de α et β sont
les véritables valeurs 0.5 et 1.0 sont, respectivement, 5.58 et 16.00.
Bien que des variables antithétiques du type de celles décrites puissent
réellement réduire le nombre de répétitions Monte Carlo nécessaires pour
préciser les estimations des moyennes des estimateurs, il n’existe aucune aide
possible pour estimer de nombreuses autres caractéristiques de leurs distri-
butions. Par exemple, dans le cas OLS discuté au préalable, la matrice de
covariance estimée des β́ j est
N
X
1 ¡ j ¢¡ ¢
− β́ − β0 β́ j − β0 >,
N
j=1
N
X
1
θ̄ ≡ − tj ,
N
j=1
et cet estimateur naı̈f aurait une variance V (θ̄) = N −1 V (t), qui pourrait être
estimée par
XN
1 ¡ ¢2
V̂ (θ̄) = tj − θ̄ .
N (N − 1) j=1
θ̂ = θ̄ − λ̂τ̄ .
Ceci montre clairement que l’estimation OLS θ̂ est égale à θ̈(λ̂). Puisque λ̂
converge vers λ∗ sous des hypothèses plutôt faibles, θ̂ sera asymptotiquement
équivalente à θ̈(λ∗ ).
L’exécution de la régression (21.14) ne fournit pas seulement l’estimation
CV θ̂ mais aussi une estimation de la variance de cette estimation, dont nous
avons besoin pour calibrer la précision des résultats et décider si N est suff-
isamment grand. Cette variance estimée est
¡ ¢−1
σ̂ 2 ι>Mτ ι ,
où σ̂ est l’écart type de la régression (21.14). Ici, le second facteur doit tendre
vers N −1, puisque τ (parce qu’il a une moyenne nulle) n’a pas asymptotique-
ment de pouvoir explicatif sur ι. Par conséquent, N −1 σ̂ 2 serait aussi une
estimation valable de la variance de θ̂. Puisque σ 2 est la variance de la partie
des tj qui ne peut être expliquée par les τj , il est clair que la précision de
l’estimation CV θ̂ sera d’autant meilleure que l’ajustement de la régression
(21.14) sera bon.
Une fois énoncé le problème en termes de la régression (21.14), il de-
vient clair que le lien entre θ et les τj n’est pas forcément étroit. N’importe
quelle variable aléatoire qui peut être calculée avec tj peut être utilisée comme
variable de contrôle pourvu qu’elle soit corrélée à tj (soit positivement, soit
négativement) et ait une moyenne nulle, une variance finie, et une covariance
finie avec tj . Puisque c’est le cas, il peut exister plus d’un choix naturel pour τ
dans de nombreuses situations. Heureusement, la formulation du problème en
régression linéaire rend évidente la manière de traiter des variables de contrôle
multiples. La généralisation appropriée de (21.14) est
t = θι + T λ + résidus, (21.15)
21.6 Réduction de Variance: Variables de Contrôle 753
où T est une matrice de dimension N ×c, dont chaque colonne se compose des
observations sur une des c variables de contrôle. Puisque toutes les colonnes
de T ont une moyenne nulle, l’estimation OLS de θ à partir de cette régression
fournira encore une fois l’estimation que nous cherchons.2 Cette estimation
est ¡ ¢−1
θ̂ = ι>MT ι ι>MT t,
où MT = I − T (T >T )−1 T >. Puisque N −1 ι>MT ι tend vers l’unité quand N
tend vers l’infini, il est facile de voir que la variance de θ̂ est encore une fois
N −1 σ 2 , où σ est le véritable écart type de la régression (21.15). Ainsi, notre
objectif dans le choix des variables de contrôle consiste à rendre l’ajustement
de la régression (21.15) aussi bon que possible.
Supposons que nous soyons intéressés par le niveau p d’un test quel-
conque, qui correspond à la probabilité que le test rejettera l’hypothèse nulle
quand elle est vraie. Nous obtenons N observations Tj sur la statistique de
test et N observations sur une variable de contrôle Cj de distribution connue.
Construisons une variable 0-1 tj de telle sorte que tj = 1 si Tj excède une
certaine valeur critique et que tj = 0 sinon. Alors la moyenne des tj est une
estimation naı̈ve de p. Davidson et MacKinnon (1981b) et Rothery (1982)
ont considéré ce problème en détail et proposé une méthode d’utilisation de
la variable de contrôle pour estimer p basée sur la méthode du maximum
de vraisemblance. Il en ressort que leur estimateur est identique à celui de
l’estimateur OLS de θ issu de la régression (21.14), où τj est une variable
égale à 1 − s quand Cj excède la valeur critique pour un test de niveau s, et
−s sinon. Puisque la probabilité que Cj excédera la valeur critique est s, τj
définie de cette manière a manifestement une moyenne de population nulle.
Cette technique nécessite un choix de s. Comme nous désirons maximiser la
corrélation entre les tj et les τj , il semble logique d’assimiler s au nombre de
rejets réellement observés avec Tj . Quoi qu’il en soit, le choix des valeurs
critiques est forcément arbitraire.
Laisser τj prendre seulement deux valeurs ne peut pas être optimal,
puisque nous perdons une certaine information dans les Cj . On pourrait tout
aussi simplement utiliser n’importe quelle fonction de Cj moins sa moyenne
pour τj , fonction de nous savons fortement corrélée à tj . Vue l’étendue des
possibilités, il semblerait naturel d’utiliser plus d’une d’entre elles. Par ex-
emple, si nous savons que Cj est distribuée suivant la N (0, 1), et sommes
intéressés par un test bilatéral, on pourrait utiliser Cj2 − 1 comme variable
de contrôle. Elle sera d’espérence nulle, puisque l’espérance d’une variable
aléatoire du χ2 (1) est 1, et elle devrait être corrélée à tj . On pourrait tout
2
Il est intéressant d’observer que la régression (21.15) est formellement la même
que la régression (16.63), la version de Tauchen (1985) de la régression de test
OPG. Les deux régressions fournissent une manière d’estimer efficacement la
moyenne de la régressande en tenant compte de la corrélation entre elle et les
autres régresseurs, asymptotiquement orthogonaux au terme constant.
754 Les Expériences Monte Carlo
aussi bien l’utiliser avec une ou plusieurs variables de contrôle binaires du type
décrit précédemment. L’expérience suggère que l’utilisation de plusieurs vari-
ables de contrôle produit généralement une estimation plus précise de θ que
lorsqu’il n’y en a qu’une seule. Dans la pratique, il est facile d’expérimenter
des variables de contrôle diverses en examinant celles qui sont significatives
dans la régression (21.15).
L’emploi des régressions (21.14) et (21.15) a été préconisé pendant un
certain temps dans la littérature de recherche opérationnelle; consulter Laven-
berg et Welch (1981) et Ripley (1987). Ces procédures ont été exposées
et développées dans Davidson et MacKinnon (1993), lesquels ont montré
comment les utiliser pour l’estimation des quantiles aussi bien que pour
l’estimation des moments et des aires de queues, ainsi que la façon de constru-
ire les τ approximativement optimaux dans plusieurs cas d’intérêt. En partic-
ulier, pour l’estimation des niveaux et des puissances de test, une manière fut
proposée pour construire des variables de contrôle plus intelligemment, mais
plus difficilement, qu’avec la manière à deux valeurs discutée précédemment.
3
Notons que, bien que (21.16) ressemble à un modèle de régression, des variables
antithétiques ne sont pas utiles ici. Si l’on génère deux ensembles de données
avec des vecteurs de perturbations u et −u, les estimations de β obtenues sont
identiques.
21.6 Réduction de Variance: Variables de Contrôle 755
β0 n Naı̈ve λ̂ CV Optimale
0.005
................... ............ ... . .............
.. ....... ..... ..................... ... .
.. .... ........ ..... ....
0.004 .. ... .. ............ Estimations naı̈ves
. ................. .
. ...........
..................
...... .....
.... ....
0.003 .......
... ..
.. ........
...
......
...
0.002 Estimations par variable de contrôle . .. .... ..
................... .................. .................
..
.. ..
. .
.............
. ... ....... ......... .... ...
.
.. .
. ...
...
...
....
...
.. .
...
............................................ ... . ..... ...
...
. . .
.......................... .... ... ... .. ...
0.001 ...
.......... ...
.
β0 = 0.9999 .
.
...
..
...
.
. .
..
..
..
...
..
... . . .
0.000 β0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
On pourrait très bien être intéressé par d’autres aspects des estimations
OLS de β en plus de leur moyenne. Une possibilité, par exemple, est leur
erreur quadratique moyenne. Dans ce cas, l’usage de (21.18) comme variable
de contrôle n’est plus naturel, mais il semble plausible d’utiliser
n
X
1 ¡ ¢2 σ04
−
n
ut yt−1 − , (21.19)
t=1
1 − β02
0.1 25 .03739 (.510 × 10−3 ) .03720 (.317 × 10−3 ) .03728 (.272 × 10−3 )
0.1 100 .00959 (.134 × 10−3 ) .00973 (.468 × 10−4 ) .00970 (.390 × 10−4 )
0.1 400 .00252 (.351 × 10−4 ) .00247 (.650 × 10−5 ) .00246 (.524 × 10−5 )
0.5 25 .03161 (.522 × 10−3 ) .03171 (.454 × 10−3 ) .03139 (.384 × 10−3 )
0.5 100 .00777 (.734 × 10−4 ) .00768 (.696 × 10−4 ) .00767 (.542 × 10−4 )
0.5 400 .00193 (.281 × 10−4 ) .00187 (.976 × 10−5 ) .00188 (.756 × 10−5 )
0.9 25 .01725 (.413 × 10−3 ) .01725 (.413 × 10−3 ) .01731 (.377 × 10−3 )
0.9 100 .00277 (.563 × 10−4 ) .00276 (.548 × 10−4 ) .00274 (.439 × 10−4 )
0.9 400 .00054 (.922 × 10−5 ) .00053 (.748 × 10−5 ) .00053 (.534 × 10−5 )
ψ̂i Ψ (n, α0 , γ)
= + εi , εi ∼ N (0, 1), i = 1, . . . , M. (21.22)
σ̂(ψ̂i ) σ̂(ψ̂i )
β̂i − β0 Ψ (n, β0 , γ)
= + εi , εi ∼ N (0, 1), i = 1, . . . , 390,
σ̂(β̂i ) σ̂(β̂i )
où Ψ (n, β0 , γ) est la fonction biais que nous essayons d’estimer. La théorie
asymptotique nous enseigne que Ψ (n, β0 , γ) tend vers zéro quand n → ∞.
Ceci signifie qu’il ne devrait y avoir aucun terme constant et que tous les
régresseurs devraient être divisés par une certaine puissance positive de n.
Malgré tout, ceci laisse encore une grande plage de possibilités. Nous avons
4
Notons que des problèmes étroitement liés, tels que les propriétés des t de Stu-
dent pour ce modèle, ne peuvent pas être traités analytiquement. Nankervis et
Savin (1988) utilisent une gamme extrêmement complète d’expériences Monte
Carlo pour étudier les propriétés des t de Student dans une version légèrement
plus compliquée de (21.16) dans laquelle il faut estimer un terme constant. Cet
article est l’un des meilleurs exemples disponibles des méthodes Monte Carlo
en application.
762 Les Expériences Monte Carlo
Hendry (1984) a estimé une fonction de cette forme en tant que première ap-
proximation mais l’a trouvée très insatisfaisante. Ces résultats sont également
très peu satisfaisants. Bien que le R̄2 soit très élevé, ce qui implique que n−1 β0
explique un très grand pourcentage de la variation totale de β̂ − β0 , l’écart
type estimé de l’équation est bien supérieur à sa valeur théorique de 1, et la
statistique Durbin-Watson est nettement inférieure à 2. Puisque les données
étaient classées par n (toutes les observations pour les n = 16 premières, puis
toutes les observations pour n = 25, et ainsi de suite), la faible valeur de
la statistique DW suggère fortement que la relation entre le biais et la taille
d’échantillon est mal spécifiée.
La prochaine étape évidente était d’additionner à (21.23) les termes as-
sociés à des puissances de β0 divisés par les puissances de n. La littérature sur
les développements asymptotiques, par exemple Phillips (1977), suggère que
l’on devrait utiliser des puissances multiples d’un demi. Ainsi, on pourrait
essayer d’estimer un modèle général de la forme
6 X
X 6
b/2
Ψ (n, β0 , γ) = γab n−a/2 β0 (21.24)
a=1 b=1
5
Ces expériences étaient à exécutées pour la première fois en 1988 et nécessitaient
environ 16 heures sur un ordinateur de type 286. Puisqu’ils auraient pris moins
de dix minutes sur un PC 486, il aurait été possible d’utiliser davantage de
répétitions.
21.7 Les Surfaces de Réponse 763
Biais
0.100
.....................
0.075 .... ...................
....
0.050 ... .... n = 16
... ....... .............................
......................
.......... .....
.
. ..... .
0.025 ....... ... ...
...... ..
..................
................ ................. ......................
.
........
....
...
...
...... .... ...................... .....
0.000 n = 49 ........ ..... ............... ....
..... ..............
...... ................................... ....
−0.025 ........ .... .... ....................
... ................
.........
.....
..... ........
−0.050 .... ....
.......
..... ...
−0.075 ............
−0.100 β0
−1.00 −0.75 −0.50 −0.25 0.00 0.25 0.50 0.75 1.00
que nos estimations de β̂ − β0 étaient très précises, ce qui garantissait une lis-
ibilité immédiate des graphiques illustrant les variations de β̂ − β0 en fonction
de β0 pour des valeurs diverses de n, et celles de β̂ − β0 en fonction de n pour
des valeurs diverses de β0 . C’est une raison pour ne pas utiliser de petites
valeurs de N dans des expériences Monte Carlo destinées à l’estimation des
surfaces de réponse.
La Figure 21.4 illustre les graphes de β̂ − β0 en fonction de β0 pour
n = 16 et n = 49. Il est évident que la relation est fondamentalement linéaire
et symétrique autour de zéro, sauf que pour n = 16 (et évidemment pour
d’autres valeurs plus petites de n) il y a une inversion assez brutale de la
pente pour de grandes valeurs absolues de β0 . Il est aussi évident à partir de
la figure que la relation entre β̂ − β0 et β0 devient moins prononcée quand n
augmente; la relation pour n = 400 (non présentée pour éviter de saturer la
figure) était presque plate.
Le comportement évident dans la Figure 21.4 de la relation entre β̂ − β0
et β0 pour de grandes valeurs absolues de β0 suggère que l’on pourrait vouloir
ajouter des fonctions de β03 dans Ψ (n, β0 , γ). Cependant, il existe d’autres
fonctions de β0 qui pourraient tout aussi bien traduire la pente évidente dans
la figure, notamment β0 /(1 − β02 ) et β0 /(1 − β02 )1/2. En régressant β̂ − β0 sur
β0 et sur un autre régresseur parmi β03 , β0 /(1 − β02 ), et β0 /(1 − β02 )1/2 pour
des valeurs diverses de n, nous avons conclu que β0 /(1 − β02 )1/2 expliquait le
mieux la relation observée entre β̂ − β0 et β0 .
Des graphes similaires et des régressions préliminaires ont suggéré que
n−1 et n−3/2 expliquaient ensemble pratiquement toute la relation entre β̂−β0
et la taille de l’échantillon, mais qu’au contraire n−1/2 et n−2 ne jouaient
764 Les Expériences Monte Carlo
Celle-ci est excessivement plus simple que (21.24). Quand (21.25) fut estimée,
nous avons trouvé que γ̃1 , γ̃4 , et γ̃5 étaient conjointement non significatifs,
bien que γ̃4 était individuellement significatif à un niveau de 5%. Puisqu’il
est difficile de voir pourquoi β̂ devrait être biaisé quand β0 = 0, et puisque
par contraste avec γ̃4 les trois autres paramètres significatifs étaient fortement
significatifs, nous avons décidé sur la base de ces résultats de contraindre γ1 ,
γ4 , et γ5 dans (21.25) à zéro. Nos estimations du modèle résultant étaient
β0
Ψ (n, β0 , γ) = − 1.9223 n−1 β0 − 0.1066 n−1
(0.0173) (0.0149) (1 − β02 )1/2
β0 (21.26)
+ 1.3509 n−3/2
(0.0608) (1 − β02 )1/2
Ces résultats apparaissent être très bons. Les trois paramètres sont très sig-
nificatifs, l’écart type de la régression est légèrement supérieur à 1, mais pas
de manière significative au niveau 5%, et la statistique DW n’est pas signi-
ficativement inférieure à 2. Les tests d’asymétrie et d’aplatissement n’ont pas
décelé ces phénomènes. De plus, quand d’autres fonctions diverses de β0 et
n, telles que n−1 β0 /(1 − β02 ), n−1 β03 , n−3/2 β0 /(1 − β02 ), n−3/2 β03 , n−2 β0 , et
n−2 β0 /(1 − β02 )1/2 , étaient intégrées à Ψ (n, β0 , γ), elles étaient individuelle-
ment et conjointement non significatives, et les trois régresseurs dans (21.26)
sont restés individuellement significatifs. Pour des tailles d’échantillon dans
la gamme examinée, les valeurs prédites par (21.26) sont très proches des
valeurs exactes tabulées par Sawa (1978), bien que l’équation semble prédire
un résultat quelque peu trop biaisé pour de faibles valeurs de n.
Nous concluons que la surface de réponse (21.26) fournit une bonne ap-
proximation, bien que non parfaite, pour la fonction de biais Ψ (n, β0 , γ) sur
l’intervalle n = 16 à n = ∞ et β0 = −0.95 à β0 = 0.95. Cependant, cela
peut ne pas être le cas pour de très petites valeurs de n et pour des valeurs de
|β0 | supérieures à 0.95. Un ensemble d’expériences beaucoup plus coûteux et
selon toute vraisemblance une surface de réponse considérablement plus com-
pliquée seraient nécessaires si nous décidions de traiter de façon adéquate ces
cas. Cette surface de réponse est illustrée comme une fonction de β0 pour des
valeurs variées de n dans la Figure 21.5. Les tendances du biais à diminuer
fortement quand n augmente, et à augmenter avec |β0 | sauf pour une légère
diminution pour de grandes valeurs de |β0 | sont relativement évidentes sur la
figure.
21.7 Les Surfaces de Réponse 765
Biais
0.06 ... . ..
.... .............
......
......
......
......
...... ............................................. n = 25
0.04 ......
......
.................... ......
.......... .....
......... .....
......... .....
.
........ .............................................................................
0.02 ..................... . . ........... . ...... n = 50
........ ...
......................
...................... ........ ..........
...................... ........ .....
..................... .......... .......
............ ..... ...
.......... n = 400
..................................................................... ......
.................................................................................................................................................... ......
0.00 ...
. ........................................................................................... ........................
...
... .. .. . . .........
............. ..................... .......
.... .
... ..
..... .
.. .
....
.....
..................................................................
..... ...... ......... .........................
.....
.....
.....
...... .......... .....................
....
n = 100 ........ . .......... .
..
. ......................
...... ........ .....................
...... ........ .....................
...... ........
−0.02 ..... . . .. ..........
..... .........
..... ..........
..... ..............
...... ......
......
......
......
−0.04 ......
......
......
......
.......
......... ......
.
−0.06 β0
−1.00 −0.75 −0.50 −0.25 0.00 0.25 0.50 0.75 1.00
Dans toutes les estimations rapportées jusqu’ici, nous avons utilisé les
estimations CV de β̂. Il aurait été aussi possible d’utiliser les estimations
naı̈ves de β̂. La surface de réponse estimée quand nous avons procédé de la
sorte était
β0
Ψ (n, β0 , γ) = − 1.9272 n−1 β0 − 0.1306 n−1
(0.0366) (0.0274) (1 − β02 )1/2
β0 (21.27)
+ 1.4983 n−3/2
(0.1141) (1 − β02 )1/2
Ces résultats sont très similaires à ceux utilisés pour les estimations CV mais
sont moins bons à tous les égards. Les écarts types associés aux estimations
paramétriques sont généralement environ deux fois plus grands, et indiquent
qu’en moyenne, l’usage des variables de contrôle revient approximativement
à quadrupler le nombre de répétitions. La valeur légèrement supérieure de
s indique probablement que la surface de réponse s’ajuste légèrement moins
bien pour les petites valeurs de n. L’usage des variables de contrôle améliore
davantage les estimations de β̂ pour des valeurs importantes de n. Ainsi, la
surface de réponse (21.26), qui utilise les estimations CV, pondère les résultats
des expériences avec des valeurs importantes de n plus lourdement que ne le
fait la surface de réponse (21.27) qui utilise des estimations naı̈ves. Ainsi,
766 Les Expériences Monte Carlo
nous nous attendons à ce que (21.27) s’ajuste moins bien que (21.26), comme
c’est le cas, si la surface de réponse est moins performante pour des tailles
d’échantillon plus petites.
Cet exemple concerne l’estimation d’une fonction de biais. L’estimation
des fonctions de MSE, ou des fonctions de niveau ou de puissance pour les
statistiques de test, est conceptuellement similaire, bien que certains détails
soient naturellement différents. Si la variable dépendante est le niveau ou
la puissance d’une statistique de test, que nous pouvons noter p, alors cette
variable dépendante doit varier entre 0 et 1, et la transformation logit
µ ¶
p
Λ(p) = log
1−p
peut être utile. La justification de cette transformation est que Λ(p) peut
varier entre plus et moins l’infini, ce qui facilite la spécification d’une surface
de réponse comme fonction linéaire. Pour l’essentiel, nous estimerions alors
un modèle logit sur des données groupées. (Consulter le Chapitre 15).
Nous croyons que l’exemple précédent est très révélateur. Il illustre
combien peuvent être utiles les surfaces de réponse grâce à leur capacité à
synthétiser une grande quantité de résultats expérimentaux en un ensem-
ble relativement simple d’estimations comme (21.26), que l’on peut alors
représenter graphiquement comme dans la Figure 21.5. Il illustre aussi les
difficultés pratiques de spécification d’une surface de réponse. L’approche de
la surface de réponse ne sera pas opérationnelle si le DGP est caractérisé par
plusieurs paramètres qui affectent les quantités étudiées, parce qu’il sera tout
simplement trop difficile de spécifier la surface de réponse dans un tel cas, du
moins s’il y a une quelconque interaction entre les différents paramètres. Des
méthodes graphiques telles que celles employées peuvent être extrêmement
bénéfiques pour la spécification d’une surface de réponse, mais elles ont leurs
limites, et il semble malheureusement peu probable qu’elles seront efficaces
quand le DGP comporte de nombreux paramètres qui interagissent de façon
compliquée.
6
Un “bootstrap”en anglais est un tirant de botte. L’expression “to pull oneself
up by one’s bootstraps” signifie “se faire tout seul”.
768 Les Expériences Monte Carlo
F (x)
1.0 .............................................................................................................................................
................................................................................
. .
................................
. ....
0.9 .. .......
................ ← Approximation normale
0.8 .......
..........
.....
0.7 ......
.........
0.6 .....
......
.........
...
0.5 ......
........
.....
.
0.4 ...
.........
0.3 ..
...
...
......
... ...
..
0.2 ...
.... ..
.
.... .
...
0.1 ..... ...
...............
.
.............
....
............................................
........................................................................................................................
0.0 x
−4 −3 −2 −1 0 1 2 3 4 5
est réalisé avec remise. Ainsi, chaque échantillon bootstrap contiendra cer-
taines des n observations d’origine plus d’une fois, et d’autres pas du tout,
et ce de manière tout à fait aléatoire. Le tirage d’un échantillon bootstrap
est très facile. Notons yj∗ (i) la j ième observation du i ième échantillon boot-
strap, où i = 1, . . . , B. Pour obtenir yj∗ (i), nous générons tout d’abord un
nombre pseudo-aléatoire à partir de la distribution U (0, 1), l’utilisons pour
générer un entier aléatoire k qui prend les valeurs 1, . . . , n avec équiprobabilité,
et ensuite initialisons yj∗ (i) à yk . En répétant cette opération n fois, nous
∗
obtenons¡ ∗un ¢échantillon bootstrap complet, disons y (i). Nous calculons en-
suite θ y (i) et sauvegardons le résultat. L’opération entière est alors répétée
pour i = 1, . . ¡. , B échantillons
¢ bootstrap, à la fin de laquelle nous obtenons B
∗
statistiques θ y (i) . Ces statistiques sont à leur tour utilisées pour estimer
n’importe quelle caractéristique de la distribution de θ(y) à laquelle on pour-
rait s’intéresser.
Le paragraphe précédent a esquissé l’idée de base du bootstrap, que l’on
doit à Efron (1979). Des références relativement accessibles sont Efron (1982),
Efron et Gong (1983), et Efron et Tibshirani (1986). Des références plus
théoriques sont Bickel et Freedman (1981), Freedman (1981), et Hall (1987).
La littérature est devenue très importante et parfois très technique au cours
des dernières années, et nous n’effectuerons aucune tentative ici pour l’exa-
miner.
Illustrons maintenant l’usage du bootstrap dans un cas simple. Con-
sidérons les données illustrées dans la Figure 21.6. On peut facilement voir
à partir de la figure que ces données sont des tirages d’une distribution com-
portant des queues plus grosses que la normale. Une distribution normale
21.8 Le Bootstrap et les Méthodes Connexes 769
avec les mêmes espérance et variance que les données est illustrée dans la fig-
ure, et il est évident que les valeurs les plus importantes dans chaque queue
de l’échantillon auraient dû survenir avec une probabilité extrêmement faible
avec la distribution normale. Un chercheur pourrait par conséquent s’inquiéter
et se demander si les inférences basées sur des estimations et les intervalles
de confiance issus du cas normal seraient valables dans ce cas. Une manière
de voir si de telles inquiétudes sont fondées est d’appliquer le bootstrap aux
statistiques d’intérêt.
Considérons l’espérance des yt . La moyenne d’échantillon est −0.0701,
avec un écart type de 0.0889. Ainsi, l’intervalle de confiance habituel à
95% basé sur la distribution du t de Student à 99 degrés de liberté est
(−0.2464, 0.1062). Nous avons calculé 10,000 échantillons bootstrap comme
ceux décrits précédemment, et ainsi obtenu 10,000 moyennes estimées, µ∗ (i).
Ce choix de B dépasse celui nécessaire dans la plupart des cas, et garantit une
erreur expérimentale très faible. Il y a plusieurs manières d’obtenir des inter-
valles de confiance bootstrap à partir de la distribution des µ∗ (i); consulter
Efron et Tibshirani (1986) pour une introduction et Tibshirani (1988) pour
des méthodes plus avancées. La première étape consiste à trier les moyennes
bootstrap µ∗ (i) par ordre croissant, µ∗ (1) étant la plus faible et µ∗ (B) la plus
forte. Si la distribution des µ∗ (i) est approximativement symétrique, on peut
alors utiliser ce qui est appelé méthode des centiles. Supposons que nous
voulions un intervalle de confiance à 95%. Alors nous choisissons simplement
1¡ ∗ ¢
− µ (250) + µ∗ (251)
2
1¡ ∗ ¢
− µ (9750) + µ∗ (9751)
2
1¡ ∗ ¢ 1¡ ∗ ¢
− µ (l + .95B) + µ∗ (l + .95B + 1) − − µ (l − 1) + µ∗ (l)
2 2
770 Les Expériences Monte Carlo
par rapport à l’entier positif l < .05B.7 Ainsi, l’objectif consiste à trou-
ver l’intervalle le plus court possible comprenant 95% des µ∗ (i). Quand la
EDF des µ∗ (i) est asymétrique, cette méthode des centiles modifiée tendra à
déplacer l’intervalle de confiance loin de la queue la plus longue de la distribu-
tion, parce qu’en éliminant des observations d’un côté et en les additionnant
de l’autre côté, cela réduira la longueur de l’intervalle de confiance estimé.
Pour les données de la Figure 21.6, la méthode des centiles modifiée fournit
des résultats très similaires à ceux de la méthode des centiles ordinaire et à la
méthode basée sur la théorie normale usuelle: l’intervalle de confiance à 95%
est (−0.2399, 0.1031).
Puis, dans cet exemple, le bootstrap a principalement servi à nous ras-
surer que les méthodes conventionnelles d’inférence concernant la moyenne
des yt sont vraisemblablement très fiables pour cet ensemble de données, en
dépit de l’apparent excès de kurtosis relatif au cas normal. Mais la même
procédure pourrait être employée pour étudier la distribution de n’importe
quelle statistique θ(y) à laquelle nous nous intéresserions, et parmi elles celles
pour lesquelles les méthodes les plus conventionnelles d’inférence sont diffi-
ciles ou impossibles. C’est dans de tels cas que le bootstrap peut être partic-
ulièrement utile.
La méthode du bootstrap qui vient juste d’être décrite peut évidemment
être modifiée de différentes façons. On pourrait, par exemple, lisser quelque
peu la EDF des yt et tirer des échantillons bootstrap à partir de la EDF lissée
à la place de la EDF ordinaire. Si l’on connaissait ou était prêt à supposer la
forme de la distribution des yt , on pourrait utiliser ce qui est souvent appelé
bootstrap paramétrique, dans lequel les données sont utilisées pour estimer la
densité des yt , et les échantillons bootstrap sont alors générés à partir de cette
densité estimée. Le bootstrap paramétrique ressemble ainsi à une expérience
Monte Carlo ordinaire dans laquelle les paramètres du DGP sont estimés à
partir de l’ensemble de données d’intérêt.
Il existe des caractéristiques particulières des méthodes bootstrap ap-
pliquées aux modèles de régression. Supposons que le modèle soit
yt = xt (β) + ut , t = 1, . . . , n, (21.28)
où toutes les variables dont xt (β) dépend sont supposées fixes ou du moins
indépendantes de tous les ut . Si ces derniers sont supposés i.i.d., l’approche
naturelle est d’appliquer le bootstrap aux résidus. Avec cette approche, on
estime tout d’abord le modèle (21.28) par NLS, afin d’obtenir des estima-
tions paramétriques β̂ et des résidus, û1 jusqu’à ûn , et on génère ensuite des
échantillons bootstrap à partir du processus générateur de données
7
Ceci suppose que .95B est un entier, ce qui sera le cas si B est un multiple
entier de 100.
21.8 Le Bootstrap et les Méthodes Connexes 771
où les u∗j (i) sont des échantillons aléatoires avec remise à partir de û1 , . . . , ûn .
Si xt (β) dépend des valeurs passées de yt , cette approche reste valable, mais
dans (21.29) y1 (i), . . . , yj−1 (i) doit être utilisé à la place des vrais yt re-
tardés en calculant xj (β̂). Puisque le modèle (21.28) est non linéaire, le
bootstrap peut être assez coûteux, et la technique est par conséquent utilisée
tout d’abord avec les modèles linéaires.
Cette approche comporte deux autres problèmes. Le premier est que,
comme d’habitude, les résidus ût tendent à sous-estimer les aléas ut . Ceci
peut être traité en utilisant les résidus modifiés
n
X
ût 1 ûs
ũt = −−
n
, (21.30)
(1 − ĥt )1/2 s=1 (1 − ĥs )1/2
où
¡ ¢−1
ĥt ≡ X̂t X̂>X̂ X̂t>
et X̂, comme d’habitude, est la matrice des dérivées de xt (β) par rapport aux
éléments de β, évaluée en β̂. La raison pour laquelle nous voudrions diviser
ût par (1 − ĥt )1/2 est évidente. Comme nous l’avions vu pour la première
fois dans la Section 3.2, dans le cas d’un modèle de régression linéaire à aléas
i.i.d.,
E(u2t ) = (1 − ht )σ 2.
Par conséquent, la division ût par (1 − ht )1/2 fournirait des résidus modifiés
ayant précisément la bonne variance. La division par (1 − ĥt )1/2 est l’analogue
naturel de cette procédure pour le cas non linéaire et se justifie par le résultat
théorique (5.57) de la Section 5.6. Dans (21.30), nous soustrayons ensuite la
moyenne des ût /(1 − ĥt )1/2 , qui ne sera pas nulle en général, afin de garantir
une moyenne nulle aux ũt ; consulter Weber (1984).
Le second problème avec cette approche du bootstrap est que les aléas ut
sont supposés indépendamment et identiquement distribués. Quand cette
hypothèse est douteuse, une seconde approche peut être¡ utilisée.¢ Dans
cette seconde approche, nous rééchantillonnons à partir de yt , xt (β̂) plutôt
qu’à
¡ partir¢ de ût ou de ũt . Un élément type de l’échantillon bootstrap est
yk , xk (β̂) , où k est un tirage aléatoire à partir de 1, . . . , n. Dans le cas
linéaire, chaque élément de l’échantillon bootstrap est (yk , Xk ), où Xk est
la k ième ligne de la matrice des observations des variables indépendantes.
Cette seconde approche est clairement irréalisable si xt (β) dépend des valeurs
retardées de yt , puisqu’il est sans pertinence d’utiliser de véritables yt re-
tardés, et nous n’avons aucune manière de générer des yt retardés à partir
du bootstrap. Cependant, elle a l’avantage d’être valable même en présence
d’hétéroscédasticité. En effet, cette forme du bootstrap produit des résultats
souvent très similaires à ceux provenant de l’usage d’un estimateur de la ma-
trice de covariance robuste à l’hétéroscédasticité.
772 Les Expériences Monte Carlo
21.9 Conclusion
La publication de cet ouvrage correspond avec la commercialisation d’ordina-
teurs encore plus puissants que les grosses unités de calcul construites au
début des années 80 et dont le prix de vente est tellement faible que tous les
bureaux des économètres en seront équipés. Dans ce contexte, les méthodes
Monte Carlo devraient selon toute vraisemblance être beaucoup plus utilisées
que cela n’a été le cas jusqu’à présent. Des lecteurs et des éditeurs refuseront
Termes et Concepts 773
Termes et Concepts
bootstrap méthode des centiles modifiée
bootstrap paramétrique méthodes Monte Carlo
développements asymptotiques module (pour générateur
(approximations en échantillon fini) congruentiel)
échantillon bootstrap multiplicateur (pour générateur
expérience Monte Carlo congruentiel)
fonction de distribution empirique nombres pseudo-aléatoires
(EDF) rééchantillonnage
générateur congruentiel (des nombres répétitions
pseudo-aléatoires) spécificité (problème de)
générateur congruentiel multiplicatif surface de réponse
générateur de nombres aléatoires techniques de réduction de variance
incrément (pour générateur valeur d’origine (pour générateur de
congruentiel) nombres aléatoires)
méthode Box-Muller variables antithétiques
méthode de rejet variables de contrôle
méthode de transformation variables pseudo-aléatoires
méthode des centiles