Professional Documents
Culture Documents
Autocorrélation
10.1 Introduction
Le phénomène d’autocorrélation, pour lequel des résidus successifs appa-
raissent autocorrélés, est très fréquent dans les modèles estimés avec des
données chronologiques. Par suite, les tests d’autocorrélation et l’estimation
des modèles qui la prennent en compte sont des thèmes qui sont étudiés depuis
très longtemps par les économètres, et la littérature est par conséquent vaste.
Par bonheur, les résultats déjà établis au sujet des NLS, GNLS et du ML nous
permettent de manipuler la plupart des problèmes associés à l’autocorrélation
de manière assez directe.
Bien que les aléas puissent ne pas être indépendants dans n’importe quel
genre de modèle, l’absence d’indépendance est la plupart du temps observée
dans des modèles estimés avec des séries temporelles. En particulier, les ob-
servations qui sont proches dans le temps ont souvent des aléas qui apparais-
sent corrélés, alors que c’est rarement le cas de celles qui sont plus éloignées
dans le temps. Nous disons qu’ils apparaissent corrélés parce qu’une mau-
vaise spécification de la fonction de régression peut conduire à une corrélation
des résidus successifs, même si les véritables aléas ne le sont pas. Quoi qu’il
en soit, que l’apparition de l’autocorrélation dans les modèles chronologiques
soit affirmée ou pas, un modèle d’autocorrélation particulièrement simple a
été largement adopté. Dans ce modèle, les aléas ut sont supposés obéir au
processus autorégressif d’ordre un, ou AR(1),
Ce processus aléatoire indique que l’aléa au temps t, ut , est égal à une certaine
fraction ρ de l’aléa au temps t − 1 (avec un signe différent si ρ < 0), plus un
nouvel aléa ou innovation εt qui est homoscédastique et indépendant de toutes
les innovations passées ou futures. Ainsi à chaque période, une partie de l’aléa
correspond à l’aléa de la période précédente, quelque peu diminué et peut-être
de signe différent et une partie correspond à l’innovation εt .
On appelle la condition |ρ| < 1 condition de stationnarité. Elle garantit
que la variance de ut tend vers une valeur limite, σ 2, plutôt que de diverger
327
328 Autocorrélation
ω2
σ 2 ≡ V (ut ) = ω 2 + ρ2 ω 2 + ρ4 ω 2 + ρ6 ω 2 + · · · = . (10.02)
1 − ρ2
¡ ¢ ρ j ω2
E ρ j u2t−j = ρ j E(u2t ) = 2
= ρ j σ 2.
1−ρ
A condition que X soit exogène, β̂ sera sans biais, parce que le fait que les ut
soient autocorrélés n’empêche pas E(X>u) d’être nul. Si X n’est pas exogène,
β̂ sera convergent tant que plim(n−1X>u) est nulle.
Les inférences sur β ne seront cependant pas correctes. En supposant
que X est exogène, nous voyons que
¡ ¢
E(β̂ − β0 )(β̂ − β0 )> = E (X>X)−1X>uu>X(X>X)−1
¡ ¢−1 ¡ ¢−1 (10.07)
= X>X X>Ω0 X X>X ,
¡ ¢ ³ ´−1 ³ ´
1 > 1 >
− −
plim β̂ − β0 = plim n X X plim n X u 6= 0. (10.10)
n→∞ n→∞ n→∞
Parce que X>y est prémultiplié par (X>X)−1, chaque élément de X>u affecte
généralement β̂, à moins que la matrice X>X ne possède des caractéristiques
très spéciales. Ainsi il est évident d’après (10.10) que chaque élément de β
sera estimé de façon non convergente, même s’il n’y a qu’une seule variable
dépendante retardée et, par conséquent, un seul élément de (10.09) non nul.
La discussion précédente montre clairement pourquoi les économètres se
sont tellement préoccupés de l’autocorrélation. Même lorsqu’il n’y a pas de
variable dépendante retardée, ce phénomène rend les estimations par moindres
carrés non efficaces et l’inférence qui se base sur elles peu valable. Lorsqu’il y
a des variables dépendantes retardées, l’autocorrélation rend les estimations
par moindres carrés biaisées et non convergentes. Néanmoins, il est impor-
tant de se souvenir que de nombreux types de mauvaise spécification peuvent
provoquer l’apparition d’autocorrélation. Ainsi la situation que nous venons
d’analyser, dans laquelle le modèle était correctement spécifié à l’exception
de la prise en compte de l’autocorrélation, ne rend probablement compte que
d’une très faible proportion des cas dans lesquels les résidus d’un modèle de
régression donnent l’apparence d’une autocorrélation.
Parce que ut−1 = yt−1 − xt−1 (β), ce modèle peut être récrit comme
¡ ¢
yt = xt (β) + ρ yt−1 − xt−1 (β) + εt , εt ∼ IID(0, ω 2 ), (10.12)
qui est également un modèle de régression non linéaire, mais dont les aléas sont
(par hypothèse) non autocorrélés. Puisque (10.12) est un modèle de régression
332 Autocorrélation
non linéaire dont les aléas ont de bonnes propriétés, il paraı̂t naturel d’en
faire une estimation non linéaire et de pratiquer des inférences en utilisant la
régression de Gauss-Newton. La fonction de régression est simplement
¡ ¢
x0t (β, ρ) = xt (β) + ρ yt−1 − xt−1 (β) , (10.13)
Ainsi, si on définit
disons ρ(j), on peut exécuter une régression linéaire de y ∗ (ρ(j) ) sur X ∗ (ρ(j) )
pour trouver les estimations OLS
³ ¡ ¢ ¡ ¢´−1 ∗>¡ (j) ¢ ∗ ¡ (j) ¢
β (j) = X ∗> ρ(j) X ∗ ρ(j) X ρ y ρ (10.15)
et une somme des carrés associée, SSR(β (j), ρ(j) ). Nous opérons pour des
valeurs de ρ qui appartiennent à une grille de valeurs prédéterminée, c’est-
à-dire toutes les valeurs comprises entre −0.999 et 0.999 par intervalles
d’amplitude 0.1 (c’est-à-dire, −0.999, −0.9, −0.8, . . . , 0.8, 0.9, 0.999). Les
valeurs d’arrêt sont ici ±0.999 plutôt que ±1 de manière à éviter l’infraction
à la condition de stationnarité.
L’une des valeurs ρ(j) de la grille, disons ρ(J), doit produire la plus faible
valeur de SSR(β (j), ρ(j) ).1 Puis, à condition que la grille soit assez précise,
et en supposant que ρ(J) n’est pas une valeur-borne de cette grille, il est
raisonnable de s’attendre à ce que ρ̂ se situe quelque part entre ρ(J−1) et
ρ(J+1). Si ρ(J) est l’une des valeurs-bornes, alors ρ̂ se situe probablement
entre ρ(J) et le point le plus proche de la grille. Dans les deux cas, on peut
ensuite, soit établir une nouvelle grille sur cet intervalle plus court et opérer sur
cette grille, soit débuter avec ρ(J) une autre procédure de recherche, comme
celle de la recherche en alternance décrite plus bas.
1
Dans de rares cas, il peut y avoir deux, ou davantage, ρ(j) qui entraı̂nent des
valeurs minimales de SSR(β (j), ρ(j) ) identiques. Si ces ρ(j) sont des valeurs
assez proches, il n’y a pas de problème réel. Si ce n’est pas le cas, il faudrait
approfondir l’étude de minima multiples en prenant une grille de valeurs plus
fine au voisinage de chacune des ρ(j) .
10.3 Estimation des Modèles à Erreurs AR(1) 335
(j) (j)
Cette SSR est simplement celle de la régression linéaire de ut sur ut−1 pour
les observations allant de 2 à n, et par conséquent la valeur de ρ qui minimise
336 Autocorrélation
y − x́ = X́b + résidus,
où yt−1 est l’élément type de y−1 et Xt−1 est la ligne type de X−1 . La GNR
qui permet de calculer des estimations en une étape sera
¡ ¢ ¡ ¢
y − ρ́y−1 − Xβ́ − ρ́X−1 β́ = X − ρ́X−1 b + rú−1 + résidus, (10.19)
où ú−1 ≡ y−1 −X−1 β́. Cette GNR se calcule directement dès que l’on connaı̂t
ρ́ et β́, les estimations initiales convergentes de ρ et de β. Si X ne contient
pas de variable dépendante retardée, cela est très facile. L’estimation OLS β̃
obtenue en régressant y sur X sera convergente, et une estimation convergente
de ρ peut alors être obtenue en régressant ũt sur ũt−1 pour t = 2 à n. Mais
si par contre X contient au moins une variable dépendante retardée, cette
approche simple n’opérera pas, parce que l’estimation OLS β̃ ne sera pas
convergente. Nous traitons maintenant ce problème.
Le modèle de régression non linéaire (10.18) est un cas particulier du
modèle de régression linéaire
où l’on impose la contrainte γ = −ρβ. Plus tard, dans la Section 10.9, nous
nous servirons de cela pour tester l’adéquation d’une spécification AR(1).
Pour l’instant, comme Durbin (1960), nous l’utiliserons simplement pour
obtenir une estimation convergente de ρ. Il semblerait que l’on puisse obtenir
des estimations convergentes de β et de ρ en estimant (10.20) par OLS. Cela
sera hélas rarement le cas, parce que nombreux seront les coefficients dans
(10.20) qui ne seront pas identifiables. Par exemple, si X contient un terme
constant, l’un des éléments de β sera le coefficient associé à la constante et
l’un des éléments de γ sera le coefficient associé à cette constante retardée; à
l’évidence, ces deux paramètres ne sont pas identifiables séparément.
338 Autocorrélation
où û−1 ≡ y−1 − X−1 β̂. Remarquons que (10.27) et (10.29) ont exactement
les mêmes résidus. Dans (10.29), la régressande est orthogonale à tous les
régresseurs, et par conséquent le vecteur des résidus est tout simplement la
régressande. Les résidus de (10.27) ont une forme algébrique comparable à la
régressande de (10.29) et les deux vecteurs coı̈ncident parce que la valeur de
β que l’on utilise dans (10.27) est précisément β̂.
La matrice de covariance estimée pour β̂ à partir de la GNR (10.29)
correspondra au bloc supérieur gauche de dimension k × k de la matrice
" ∗> ∗ ∗>
#−1
SSR(β̂, ρ̂) X (ρ̂)X (ρ̂) X (ρ̂)û−1
. (10.30)
n−k−2 û> ∗
−1 X (ρ̂) û>
−1 û−1
Cela montre clairement que (10.28) fournira une estimation valable du bloc
supérieur gauche de dimension k × k de l’inverse de (10.30).
A condition que X ne contienne aucune variable dépendante retardée
(ni aucune autre variable pouvant être corrélée à u−1 ), la régression (10.27)
produira une estimation asymptotiquement valable de la matrice de covariance
de β̂. D’autre part, si X contient des variables dépendantes retardées, ou si
elle n’est pas indépendante des aléas retardés u−1 pour une toute autre raison,
l’estimation conditionnelle (10.28) de la matrice de covariance ne sera pas
valable. Avec de nombreux progiciels de régression, la matrice de covariance
des procédures de Cochrane-Orcutt et de Hildreth-Lu qui sera rapportée sera
donc non valable dans de nombreux cas. On peut soit utiliser la GNR (10.29)
par ses propres moyens, soit employer les moindres carrés non linéaires dès le
départ afin que le progiciel de régression le fasse.
Lorsque l’estimation de la matrice de covariance conditionnelle est va-
lable, les écarts types fournis sont toujours trop faibles (asymptotiquement).
En réalité, l’estimation de la matrice de covariance produite par la GNR
(10.29) pour les estimations de β diffère de celle produite par (10.27) d’une ma-
trice définie positive, en ignorant que les degrés de liberté sont différents. Pour
s’en rendre compte, notons que la GNR (10.29) a les mêmes régresseurs que
(10.27), plus un régresseur supplémentaire, û−1 . Si l’on applique le Théorème
FWL à (10.29), nous voyons que l’estimation de la matrice de covariance qui
en découle est identique à celle découlant d’une régression pour laquelle toutes
les variables sont projetées sur le complément orthogonal de û−1 . Les résidus
ne sont pas modifiés par la projection orthogonale et sont donc identiques à
ceux de (10.27), ainsi que nous l’avons vu plus haut. La différence entre les
estimateurs de la matrice de covariance de β̂ à partir de (10.29) et de (10.27)
est donc proportionnelle à
¡ ∗> ¢−1 ¡ ∗> ¢−1
X (ρ̂)Mû−1 X ∗ (ρ̂) − X (ρ̂)X ∗ (ρ̂) , (10.32)
X ∗>(ρ̂)Pû−1 X ∗ (ρ̂),
1 − ρ̂2
. (10.34)
n−1
Pour les mêmes raisons qui nous poussent à imposer la condition |ρ1 | < 1
sur les processus AR(1) de façon à assurer leur stationnarité, nous voudrions
imposer des conditions de stationnarité sur les processus AR(p) plus généraux.
On peut exprimer la condition de stationnarité pour de tels processus de
plusieurs manières différentes; l’une d’elles consiste à dire que toutes les racines
de l’équation polynômiale en z,
A(z, ρ) ≡ 1 − ρ1 z − ρ2 z 2 − · · · − ρp z p = 0 (10.38)
ω 2 (1 − ρ2 )
σ2 = ,
(1 + ρ2 )3 − (1 + ρ2 )ρ21
(1 − ρ1 L − ρ4 L4 + ρ1 ρ4 L5 )ut = εt , εt ∼ IID(0, ω 2 ).
C’est un cas contraint particulier d’un processus AR(5), mais avec seulement
deux paramètres au lieu de cinq. Nous discuterons au cours du Chapitre 19
des différentes façons de modéliser la saisonnalité, et parmi elles les processus
AR saisonniers tels que (10.40) et (10.41).
Il est clair que l’estimation d’un modèle de régression dont les aléas sui-
vent un processus AR(p) n’est pas fondamentalement différente de celle du
même processus où les aléas suivraient un processus AR(1). Ainsi, par exem-
ple, si l’on veut estimer le modèle
d’éliminer les cinq premières observations, et d’utiliser les moindres carrés non
linéaires. Comme dans le cas AR(1), la matrice de covariance de (ρ̂, β̂) peut
alors être estimée à l’aide de la régression de Gauss-Newton. La mise à l’écart
de cinq observations peut nous rendre mal à l’aise, en particulier si la taille de
l’échantillon est faible, mais elle est certainement valable asymptotiquement,
et puisque tous nos résultats sur les moindres carrés sont asymptotiques, il
n’y a pas de raison majeure qui nous empêche de le faire. Nous discuterons
des approches alternatives dans la prochaine section.
De manière similaire, on peut vérifier que pour la matrice η(ρ), qui doit
satisfaire la propriété
η>(ρ)η(ρ) ≡ ∆−1 (ρ),
on peut faire usage de
(1 − ρ2 )1/2 0 0 ··· 0 0
−ρ 1 0 ··· 0 0
0 −ρ 1 · · · 0 0
η(ρ) = . (10.44)
.. .. .. .. ..
. . . . .
0 0 0 · · · −ρ 1
où la matrice ∆−1 (ρ) de dimension n×n est explicitement définie par (10.43).
On peut maximiser la fonction (10.52) de plusieurs façons. En parti-
culier, dans le cas où x(β) = Xβ, Beach et MacKinnon (1978a) ont proposé
un algorithme comparable à la procédure itérative de Cochrane-Orcutt dont
nous avons discuté dans la Section 10.3. Ils ont montré que la maximisation
de `c (y, β, ρ) conditionnellement à β passe par la recherche de la valeur de la
racine centrale d’une certaine équation du troisième degré en ρ. La formule
qui le permet, combinée à la version linéaire de la régression (10.45), autorise
le calcul d’une succession de valeurs β (0), ρ(1), β (1), ρ(2), et ainsi de suite, qui
doivent en fin de compte converger vers le maximum local de (10.52) pour
les mêmes raisons que celles avancées dans le cas de la procédure itérative de
Cochrane-Orcutt.
Le terme 21 log(1 − ρ2 ) qui apparaı̂t à la fois dans (10.51) et dans (10.52)
est un terme jacobien. Cela peut ne pas être clair d’après la manière dont
nous avons dérivé la fonction de logvraisemblance. On peut imaginer que la
première observation est
où X̂ ∗ désigne la matrice de dimension n×k des dérivées partielles par rapport
aux éléments de β du vecteur des fonctions non linéaires x∗ (β, ρ), défini en
(10.46), évaluée en (β̂, ρ̂), et où
2ρ̂2 n−1 2ρ̂ −1
+
(1 − ρ̂)2 1 − ρ̂2 ω̂(1 − ρ̂)2
V̂ (ρ̂, ω̂) =
.
2ρ̂ 2n
ω̂(1 − ρ̂)2 ω̂ 2
3
Notons, cependant, que ε1 n’est pas l’innovation de la première période mais
plutôt une autre variable aléatoire, de distribution identique, qui dépend en
réalité de toutes les innovations jusqu’à la période 1 comprise. En effet, comme
on peut le voir à partir de (10.47), ε1 = (1 − ρ2 )1/2 u1 .
350 Autocorrélation
Il existe une littérature étendue sur ce sujet, dont les articles de Kadiyala
(1968), Rao et Griliches (1969), Maeshiro (1976, 1979), Beach et MacKinnon
(1978a), Chipman (1979), Spitzer (1979), Park et Mitchell (1980), Ansley et
Newbold (1980), Poirier (1981), Magee (1987), et Thornton (1987). Dans de
nombreux cas, conserver la première observation entraı̂ne des estimations plus
efficaces, mais de peu. Cependant, lorsque la taille de l’échantillon est faible et
qu’il y a un ou plusieurs régresseurs de tendance temporelle, il peut être crucial
de retenir la première observation. Dans de telles circonstances, les procédures
d’estimation par ML ou par GLS utilisant la transformation qui met à l’écart
la première observation peuvent être sensiblement moins efficaces que celles
qui manipulent l’échantillon entier, et peut-être même moins efficaces que
les OLS.
10.6 Observations Initiales des Modèles à Aléas AR 351
Cet exemple est bien évidemment un cas limite. Nous utiliserons rare-
ment des échantillons de 10 observations, et rares sont les cas où nous désirons
régresser quelque chose sur une constante et sur une variable de tendance (ou
sur un régresseur qui ressemble à une variable de tendance; lorsque les données
expriment une tendance chronologique très typée, on préférera souvent les
transformer afin d’éliminer la tendance avant l’estimation du modèle). Quoi
qu’il en soit, cet exemple montre clairement que la gestion de la première
observation peut être décisive.
Le résultat de la gestion des observations initiales s’applique autant aux
modèles de régression avec aléas d’ordre supérieur qu’aux modèles à aléas
AR(1). Dans le cas général AR(p), le modèle est (sous l’hypothèse de nor-
malité)
p
X
yt = xt (β) + ut , ut = ρj ut−j + εt , εt ∼ NID(0, ω 2 ),
j=1
où les ρj sont supposés satisfaire la condition de stationnarité qui veut que
les racines de l’équation polynômiale (10.38) se situent à l’extérieur du cer-
cle de rayon 1. Comme dans le contexte AR(1), le moyen le plus simple
de dériver la fonction de logvraisemblance pour ce modèle est de la traiter
comme la somme de deux fonctions de logvraisemblance, l’une valant pour les
p premières observations et l’autre valant pour les observations allant de p + 1
à n conditionnellement aux p premières observations. La seconde fonction est
n−p
`p+1,n (y, β, ρ, ω) = − log(2π) − (n − p) log(ω)
2
n µ p ¶ (10.55)
1 X X ¡ ¢2
− yt − xt (β) − ρj yt−j − xt−j (β) .
2ω 2 t=p+1 j=1
10.7 Processus Moyenne Mobile et ARMA 353
pour lequel l’aléa ut est à proprement parler une moyenne mobile de deux
innovations successives εt et εt−1 . Ainsi εt affecte à la fois ut et ut+1 mais pas
ut+j pour j > 1. Le processus MA(q) plus général peut s’écrire soit comme
soit comme
¡ ¢
ut = 1 + α1 L + · · · + αq Lq εt ≡ B(L, α)εt , εt ∼ IID(0, ω 2 ), (10.58)
. . .
si l’on use de la notation avec l’opérateur retard, et où α ≡ [α1 ... α2 ... · · · ... αq ].
354 Autocorrélation
B(z, α) ≡ 1 + α1 z + α2 z 2 + · · · + αq z q = 0 (10.59)
se situent à l’extérieur du cercle de rayon un. Cette condition sur (10.59) est
formellement identique à celle sur (10.38) qui assure que le processus AR(p)
est stationnaire.
Il est assez direct de calculer la matrice de covariance pour un processus
moyenne mobile. Par exemple, dans le contexte MA(1) la variance de ut est
évidemment
¡ ¢2 ¡ ¢
σ 2 ≡ E εt + α1 εt−1 = ω 2 + α12 ω 2 = 1 + α12 ω 2,
Bien que les processus moyenne mobile ne soient pas aussi largement
utilisés en économétrie que les processus autorégressifs, sans doute parce
que ces derniers sont moins difficiles à estimer, il y a des circonstances
dans lesquelles les processus MA s’imposent naturellement. Considérons le
problème de l’estimation d’une équation qui explique la valeur d’un instru-
ment financier tel que les Bons du Trésor à échéance de 90 jours ou des contrats
en commerce extérieur à terme de 3 mois. Si l’on utilisait des données men-
suelles, alors toute innovation dont l’occurrence est au mois t affecterait la
valeur des instruments qui arrivent à échéance aux mois t, t + 1, et t + 2 mais
n’affecterait pas directement la valeur des instruments qui arrivent à terme
plus tard parce que ces derniers n’ont pas encore été émis. Cela suggère
que l’aléa devrait être modélisé par un processus MA(2); consulter Frankel
(1980) et Hansen et Hodrick (1980). Les aléas moyenne mobile apparaissent
également lorsque les données sont collectées à l’aide d’un sondage où certains
individus identiques sont questionnés à des périodes successives, tel que les
sondages sur la main-d’œuvre salariée aux USA comme au Canada, utilisés
pour estimer les taux de chômage; consulter Hausman et Watson (1985).
Il est généralement beaucoup plus difficile d’estimer des modèles de
régression moyenne mobile que d’estimer des modèles à aléas autorégressifs.
Pour en comprendre la raison, supposons que l’on veuille estimer le modèle
Par rapport à (10.57), nous avons ignoré l’indice de α et changé son signe
par commodité; le changement de signe est bien sûr une pure normalisation.
Faisons l’hypothèse asymptotiquement anodine de la nullité de l’innovation
non observée ε0 (nous discuterons des techniques qui ne font pas usage de
cette hypothèse plus loin). Alors nous voyons que
y1 = x1 (β) + ε1
¡ ¢
y2 = x2 (β) − α y1 − x1 (β) + ε2 (10.62)
¡ ¢ ¡ ¢
y3 = x3 (β) − α y2 − x2 (β) − α2 y1 − x1 (β) + ε3 ,
y0∗ = 0; ∗
yt∗ = yt + αyt−1 , t = 1, . . . , n;
(10.63)
x∗0 = 0; x∗t (β, α) = xt (β) + αx∗t−1 (β, α), t = 1, . . . , n,
qui atteste clairement que nous devons gérer un modèle de régression non
linéaire. Mais la fonction de régression dépend de l’échantillon tout entier
356 Autocorrélation
∗
jusqu’à la période t, puisque yt−1 dépend de toutes les valeurs précédentes
∗
de yt et que xt dépend de xt−i (β) pour tout i ≥ 0. Dans le cas nullement
improbable où α = 1, la dépendance de yt aux valeurs passées ne tend même
pas à diminuer au fur et à mesure que l’on recule dans le temps. Si l’on dispose
d’un programme ingénieux de moindres carrés non linéaires nous permettant
de définir la fonction de régression de façon récursive, comme dans (10.63),
l’estimation de (10.64) n’est pas plus difficile que l’estimation d’autres modèles
de régression non linéaire. Mais si l’on ne dispose pas de tels logiciels, cette
phase d’estimation peut être assez délicate.
En rejetant l’hypothèse de la distribution normale des aléas, le modèle
(10.61) devient
où ω 2∆(α) est la matrice de covariance du vecteur u des aléas, donnée par
l’expression (10.60).4 Comme Box et Jenkins (1976) et d’autres en ont discuté,
le terme Jacobien 12 log |∆(α)| est
1 ¡ ¢ 1 ¡ ¢
− log 1 − α2 − − log 1 − α2n+2 . (10.67)
2 2
Lorsque |α| = 1, les deux termes de (10.67) ne sont pas définis. Dans cette
situation, on peut montrer, grâce à la règle de l’Hôpital, que
³ ¡ ¢ 1 ¡ ¢ ´
1 1
lim − log 1 − α2 − − log 1 − α2n+2 = −− log(n + 1).
|α|→1 2 2 2
4
En réalité, l’expression (10.66) pourrait correspondre à la fonction de logvrai-
semblance concentrée pour un modèle de régression non linéaire dont les aléas
suivent un processus quelconque autorégressif moyenne mobile, ou processus
ARMA, à condition que ∆(α) soit remplacée par la matrice de covariance du
vecteur u impliqué dans le processus ARMA.
10.7 Processus Moyenne Mobile et ARMA 357
Il est important d’être à même de gérer le cas où |α| = 1, puisqu’en pra-
tique on obtient assez souvent des estimations ML avec |α̂| = 1, en particulier
lorsque la taille de l’échantillon est faible; voir, par exemple, Osborn (1976) et
Davidson (1981). La raison est que si l’on concentre la fonction de logvraisem-
blance par rapport à β et à ω afin d’obtenir `c (α), on trouvera que `c (α) a la
même valeur pour α et pour 1/α. Bien évidemment, cela justifie l’imposition
de la condition d’inversibilité selon laquelle |α| ≤ 1. Ainsi, si `c (α) croı̂t quand
α → 1 ou quand α → −1, elle doit avoir un maximum précisément en α = 1
ou α = −1. Cela manifeste un trait caractéristique peu désirable du modèle
(10.65). Lorsque |α̂| = 1, il est impossible de faire des inférences sur α de la
façon habituelle, puisqu’alors α̂ est sur la frontière de l’espace paramétrique.
Puisque α̂ peut être égale à ±1 avec une probabilité finie, l’usage de la dis-
tribution normale pour approximer la distribution avec un échantillon fini est
une procédure quelque peu douteuse. Ainsi, si α̂ est égale à 1 ou même proche
de 1 en valeur absolue, il faudrait prendre beaucoup de précautions en pra-
tiquant des inférences sur α. Bien sûr, lorsque n → ∞, la convergence de α̂
signifie que le nombre de fois où |α̂| = 1 tend vers zéro, sauf si |α0 | = 1.
L’évaluation directe de (10.66) n’est pas aisée; consulter Pesaran (1973),
Osborn (1976), et Balestra (1980), parmi d’autres.5 Nous allons donc ruser et
fournir un moyen alternatif pour y parvenir. Souvenons-nous des équations
(10.62), dans lesquelles nous avons écrit de façon explicite y1 , . . . , yn comme
des fonctions des valeurs retardées de xt (β) et des valeurs retardées de
yt . Nous avons la possibilité de récrire ces équations en tenant compte de
l’observation numéro zéro, comme
0 = −υ + ε0
y1 = x1 (β) − αυ + ε1
¡ ¢ (10.68)
y2 = x2 (β) − α y1 − x1 (β) − α2 υ + ε2
¡ ¢ ¡ ¢
y3 = x3 (β) − α y2 − x2 (β) − α2 y1 − x1 (β) − α3 υ + ε3 ,
5
Une toute autre approche concernant l’estimation des modèles à aléas obéissant
à un processus moyenne mobile fut proposée par Harvey et Phillips (1979) et
par Gardner, Harvey, et Phillips (1980). Elle nécessite un logiciel spécialisé.
358 Autocorrélation
où εt est supposé être IID(0, ω 2 ). Ainsi que nous l’avons vu au cours du
Chapitre 6, tout ensemble de contraintes sur les paramètres d’une fonction
de régression non linéaire peut être testé en exécutant une régression de
Gauss-Newton évaluée avec les estimations convergentes au taux n1/2 sous
l’hypothèse nulle. Ces estimations seraient typiquement des estimations NLS
contraintes, mais pas nécessairement. Ainsi, dans ce cas, on peut tester ρ = 0
en régressant yt − x0t sur les dérivées de la fonction de régression x0t (β, ρ) par
rapport à tous ses paramètres, sachant qu’autant x0t que ses dérivées seront
.
évaluées avec les estimations du vecteur de paramètres [β ... ρ] sous l’hypothèse
nulle. En supposant que (10.74) a été estimée par moindres carrés, ces estima-
.
tions sont simplement [ β̃ ... 0], où β̃ désigne l’estimation par moindres carrés
de β conditionnellement à ρ = 0.6 Puisque les dérivées sont
∂x0t ∂x0t
= Xt (β) − ρXt−1 (β); = yt−1 − xt−1 (β),
∂βi ∂ρ
où ũ désigne le vecteur des résidus des moindres carrés dont l’élément type est
yt −xt (β̃), X̃ désigne la matrice des dérivées de la fonction de régression xt (β)
dont l’élément type est Xti (β̃), et où ũ−1 désigne le vecteur dont l’élément
type est ũt−1 . C’est une régression extrêmement simple à mettre en œuvre,
en particulier lorsque le modèle originel (10.74) est linéaire. Dans ce contexte,
puisque X̃ est tout simplement la matrice des régresseurs, il suffit de régresser
les résidus sur les régresseurs originels et sur les résidus retardés. La statis-
tique de test pourrait être soit n fois le R2 non centré soit le t de Student
ordinaire pour r = 0. La première sera asymptotiquement distribuée selon la
χ2 (1) sous l’hypothèse nulle, la seconde sera N (0, 1). Dans la pratique il est
généralement préférable d’utiliser le t de Student et de le confronter à la distri-
bution de Student aux degrés de liberté convenables; consulter Kiviet (1986).
6
Il existe un résultat concernant l’échantillon à utiliser, t = 1 à n ou t = 2 à n,
pour estimer β̃; nous en discuterons plus loin.
10.8 Test d’Autocorrélation 361
aura dans ce cas exactement la même somme des résidus au carré, et exacte-
ment le même t de Student pour r = 0, que la régression de test d’origine
(10.76). Ainsi, pour des modèles linéaires, le moyen le plus aisé de tester des
aléas AR(1) est simplement d’exécuter à nouveau la régression originelle avec
un régresseur additionnel, égal à 0 pour l’observation 1 et égal à ũt−1 pour les
observations qui suivent. Il faut ensuite utiliser le t de Student habituel pour
ce régresseur supplémentaire, puisqu’à l’évidence l’usage du nR2 à partir de
(10.77) n’est pas valable.
L’extension de ces procédures aux tests des aléas AR de plus haut degré
est immédiate. Supposons que l’hypothèse alternative soit telle que les ut de
(10.74) suivent un processus d’aléas AR(p). Le modèle alternatif peut s’écrire
p
X ¡ ¢
yt = xt (β) + ρj yt−j − xt−j (β) + εt , εt ∼ IID(0, ω 2 ),
j=1
Supposons que l’on veuille tester l’hypothèse nulle contre une spécification
des aléas MA(1) plutôt que AR(1). Le modèle alternatif serait alors le modèle
plutôt compliqué donné par (10.62) ou (10.64). Les dérivées de ce modèle par
rapport à β et α sont également assez compliquées, mais elles se simplifient
considérablement lorsqu’elles sont évaluées sous l’hypothèse nulle α = 0. En
.
réalité, lorsque l’on évalue ces dérivées en [ β̃ ... 0], nous voyons que, pour toutes
les observations, la dérivée par rapport à βi est Xti (β̃) et, pour les observations
allant de 2 à n, la dérivée par rapport à α est yt−1 −xt−1 (β̃).7 Ainsi la GNR qui
permet le test contre la spécification des aléas MA(1) est identique à celle du
test contre la spécification AR(1). Ceci est une conséquence du fait que, sous
l’hypothèse nulle d’absence d’autocorrélation, les modèles de régression avec
des aléas AR(1) et MA(1) sont ce que Godfrey et Wickens (1982) appellent
des alternatives localement équivalentes, c’est-à-dire des modèles qui ont des
dérivées identiques lorsqu’elles sont évaluées sous l’hypothèse nulle. Puisque
les tests basés sur la GNR utilisent uniquement les informations relatives aux
dérivées premières du modèle alternatif, il n’est pas surprenant que, si deux
modèles sont localement équivalents dans ce sens sous une certaine hypothèse
nulle, les GNR qui en résultent soient identiques; voir Godfrey (1981).
Pour voir qu’un processus AR(1) est localement équivalent à un processus
MA(1), souvenons-nous que le premier processus peut être écrit comme
7
Puisque pour l’observation 1 cette dérivée est nulle, notre suggestion d’utiliser
un zéro au lieu de l’aléa non connu ũ0 est tout à fait appropriée ici.
10.8 Test d’Autocorrélation 363
pour tester contre une spécification ARMA(p, q) des aléas, avec p + q retards
de ũ compris dans la régression. Pour plus de détails, voir Godfrey (1978b,
1988).
L’usage d’un outil comparable à la régression de Gauss-Newton pour
tester l’autocorrélation fut initialement suggérée par Durbin (1970) dans un
article qui introduisait ce qui est connu comme le test en h de Durbin.
Cette dernière procédure, que nous ne détaillons pas, est un test asympto-
tique d’aléas AR(1) que l’on peut utiliser lorsque l’hypothèse nulle est un
modèle de régression linéaire qui comprend la variable dépendante retardée
une fois, et éventuellement davantage, dans les régresseurs. Le test en h peut
se calculer avec une simple calculette de poche à partir des résultats sur la
régression d’origine retournés par la plupart des progiciels de régression, bien
que quelquefois il soit impossible de le calculer parce qu’il serait nécessaire de
trouver la racine carrée d’un nombre négatif. Pour des raisons qui nous parais-
sent difficiles à admettre aujourd’hui (mais qui sont sans doute liées à l’état
peu avancé du matériel informatique et des logiciels d’économétrie dans les
années 70), le test en h de Durbin fut largement utilisé depuis, alors que ce que
l’on appelle sa procédure alternative, un test en t basé sur la GNR modifiée
(10.77), était parfaitement ignorée durant un certain temps.7 Il fut finalement
redécouvert et étendu par Breusch (1978) et Godfrey (1978a, 1978b). Tous
ces articles supposaient que les aléas étaient normalement distribués, et ils
présentaient des tests basés sur la GNR comme des tests du multiplicateur
de Lagrange basés sur l’estimation par maximum de vraisemblance. Bien sûr,
cette hypothèse de normalité n’est pas du tout nécessaire.
De même, toute hypothèse relative à la présence, ou à l’absence, de va-
riables dépendantes retardées dans la fonction de régression xt (β) est inutile.
Tout ce que nous demandons, c’est que cette fonction satisfasse les conditions
de régularité du Chapitre 5, de manière à ce que les estimations par moindres
carrés non linéaires soient convergentes et asymptotiquement normales à la
fois sous l’hypothèse nulle et sous l’hypothèse alternative. Comme ce qui
précède l’implique, et comme nous en discuterons plus loin, de nombreux tests
d’autocorrélation nécessitent que xt (β) ne dépende pas de variable dépendante
retardée, et toute la littérature citée dans le paragraphe précédent fut écrite
dans le but spécifique de manipuler le cas dans lequel xt (β) est linéaire et
dépend d’une, ou de plusieurs valeurs retardées de la variable dépendante.
Le problème avec les tests fondés sur la GNR est qu’ils ne sont valables
qu’asymptotiquement. Ceci est vrai que xt (β) soit linéaire ou pas, parce
que ũ−1 n’est qu’une estimation de u−1 . En fait, comme nous l’avons vu
7
Maddala et Rao (1973), Spencer (1975), et Inder (1984), parmi d’autres au-
teurs, ont fourni une preuve grâce aux expériences Monte Carlo du test en h
de Durbin en le comparant au test basé sur la GNR. Cette preuve ne suggère
aucune raison sérieuse de préférer l’un à l’autre. Ainsi l’aspect plus pratique et
la polyvalence plus large du test basé sur la GNR sont sans doute les facteurs
principaux qui jouent en sa faveur.
364 Autocorrélation
a
au cours de la Section 5.6, ũ = M0 u, où M0 ≡ I − X0 (X0>X0 )−1X0> et
X0 ≡ X(β0 ). Cela correspond simplement à l’égalité asymptotique (5.57).
L’égalité asymptotique est remplacée par une égalité exacte si x(β) = Xβ.
Cette relation montre clairement que même si les ut sont indépendants entre
eux, les ũt ne le seront pas et le test peut alors rejeter à tort l’hypothèse
nulle. Le problème s’estompe lorsque la taille de l’échantillon est suffisamment
importante, puisque le vecteur ũ tend vers u lorsque la taille de l’échantillon
tend vers l’infini, à condition bien sûr que le modèle estimé contienne le DGP.
Dans la pratique, cela ne semble pas être un problème délicat même si la
taille de l’échantillon est modeste (disons 50 ou plus), à condition d’employer
la configuration correcte du test. Les résultats de Kiviet (1986) suggèrent
que les tests en F basés sur la GNR fonctionnent généralement assez bien
même si l’échantillon contient une vingtaine d’observations (à condition que
le nombre de régresseurs soit également petit), mais ils suggèrent aussi que
les tests calculés comme le nR2 sont moins fiables et peuvent tendre à rejeter
trop souvent l’hypothèse nulle lorsqu’il y a effectivement une autocorrélation.
Ces résultats ne sont vrais qu’en tant qu’approximations parce que (10.79),
(10.80) et (10.81) traitent la première et la dernière observations différemment.
10.8 Test d’Autocorrélation 365
N’importe quel effet dû à ces observations doit, cependant, disparaı̂tre asymp-
totiquement. Ainsi il est clair qu’avec des échantillons de taille raisonnable,
la statistique d doit varier entre 0 et 4, et qu’une valeur de 2 correspond à une
totale absence d’autocorrélation. Les valeurs de la statistique d inférieures à
2 correspondent à ρ̃ > 0, alors que des valeurs supérieures à 2 correspondent
à ρ̃ < 0.
Il est possible, mais embarrassant d’un point de vue calculatoire, de
calculer la distribution exacte de la statistique d lorsque les ut sont nor-
maux, lorsque le modèle de régression sous-jacent est linéaire, et lorsque X ne
possède que des régresseurs fixes. Cette distribution dépend forcément de X.
Les calculs utilisent le fait que la statistique d peut s’écrire comme
u>MXAMX u
, (10.82)
u>MX u
voir la discussion qui mène à (10.81). La seule différence qui réside entre
(10.83) et la régression de Gauss-Newton (10.76), qui génère un t de Stu-
dent asymptotiquement valable pour le coefficient de ũ−1 , est que (10.83)
ne possède pas de matrice X̃ parmi les régresseurs. Nous avons discuté de
ce détail dans la Section 6.4, où nous avons vu que le t de Student correct,
à partir de (10.76), doit être asymptotiquement supérieur (ou du moins pas
inférieur) à celui généralement incorrect, donné par (10.83).
Si x(β) ne dépend pas de variables dépendantes retardées, xt (β) et par
conséquent Xt (β) doit être non corrélé avec toutes les valeurs retardées de ut .
Par la suite, X̃ n’aura pas de pouvoir explicatif sur ũ−1 , asymptotiquement,
et les t de Student donnés par (10.76) et par (10.83) sont asymptotiquement
identiques. Mais si x(β) dépend de variables dépendantes retardées, Xt (β)
sera corrélé avec certaines valeurs de ut , puisque des valeurs retardées de la
variable dépendante sont sûrement corrélées avec des valeurs retardées des
aléas. Alors le t de Student de (10.83) sera asymptotiquement plus faible que
celui de (10.76), et la statistique d sera par conséquent biaisée vers 2. Cepen-
dant, elle peut quand même porter de l’information. Si sa valeur était telle
qu’elle nous permette de rejeter l’hypothèse nulle d’absence d’autocorrélation
si x(β) ne dépendait pas de variables dépendantes retardées, alors une statis-
tique de test correcte basée sur la GNR nous permettrait certainement de le
faire.
8
Il y a des raisons de croire que lorsque les régresseurs changent légèrement, un
cas de figure qui pourrait être très commun avec des données chronologiques,
dU fournit une meilleure approximation que dL . Voir Hannan et Terrell (1966).
10.8 Test d’Autocorrélation 367
Nous terminons cette section par une brève discussion sur d’autres tests
d’autocorrélation. Kobayashi (1991) proposa un test qui est exact à l’ordre
n−1/2 pour les modèles de régression non linéaire sans variable dépendante
retardée. Il est basé sur l’estimation de ρ sous l’hypothèse alternative, qui
est alors corrigée pour atténuer le biais. Wallis (1972) proposa une statis-
tique analogue à la statistique d pour tester un processus AR(4) simple. Sa
statistique d4 est
Pn 2
t=5 (ũt − ũt−4 )
d4 = Pn 2
, (10.84)
t=1 ũt
H0 : yt = Xt β + ut , ut ∼ IID(0, σ 2 ). (10.85)
Le deuxième modèle est le modèle non linéaire qui résulte de la prise en compte
d’aléas ut de (10.85) suivant le processus AR(1) ut = ρut−1 + εt ,
Le troisième modèle est le modèle linéaire qui résulte de (10.86) après avoir
relâché les contraintes non linéaires:
où β et γ sont tous deux des vecteurs de dimension k. Nous avons déjà vu
H2 , dans la Section 10.3, où il était utilisé pour obtenir une estimation initiale
convergente de ρ.
A condition que tous ces modèles soient estimés sur un échantillon compa-
rable (sans doute des observations allant de 2 à n, puisque H1 et H2 ne peuvent
pas être estimés avec l’observation 1), le modèle initial, H0 , est un cas parti-
culier du modèle qui contient des aléas AR(1), H1 , qui est à son tour un cas
particulier du modèle linéaire non contraint, H2 . Des tests d’autocorrélation,
tels que ceux dont nous avons discuté au cours de la Section 10.8, sont conçus
pour tester H0 contre H1 . Si un tel test rejette l’hypothèse nulle, ce peut être
le cas parce que H1 a en réalité généré les données, mais cela peut aussi être
le cas parce que le modèle est mal spécifié. Le test de H1 contre H2 est un
moyen de voir si le premier est un modèle acceptable. Ceci est un exemple du
test des contraintes du facteur commun.
Il est naturel de se demander pourquoi les contraintes que (10.86) fait
porter sur (10.87) sont appelées contraintes du facteur commun. Avec la
notation avec l’opérateur retard, on peut écrire (10.86) comme
Il est évident que dans (10.88), mais pas dans (10.89), le facteur commun
1 − ρL apparaı̂t dans les deux membres de l’équation. Cela explique le nom
donné aux contraintes.
Bien que notre traitement se focalise sur le cas AR(1), les contraintes du
facteur commun sont implicites dans les modèles de régression linéaire à aléas
autorégressifs à un ordre quelconque. Par exemple, un modèle de régression
linéaire à aléas AR(2) peut s’écrire
¡ ¢
1 − ρ1 L − ρ2 L2 yt = (1 − ρ1 L − ρ2 L2 )Xt β + εt , (10.90)
Dans la plupart des cas, le moyen le plus simple de tester des contraintes
du facteur commun, et probablement aussi le moyen le plus fiable, consiste à
utiliser un test en F asymptotique. Ainsi la statistique qui permet de tester
H1 contre H2 , c’est-à-dire (10.86) contre (10.87), serait
où SSR1 est la somme des résidus au carré de l’estimation par moindres carrés
de H1 , SSR2 est la somme des résidus au carré de l’estimation par moindres
carrés de H2 , et où l ≤ k est le nombre de degrés de liberté pour le test. Les
degrés de liberté du dénominateur sont au nombre de n−k−l−2 parce que H2
est estimé sur n−1 observations, et possède k+1+l paramètres, correspondant
aux k βi , à ρ, et aux l paramètres additionnels. Remarquons que bien que
ce test soit parfaitement valable asymptotiquement, il ne sera pas exact avec
des échantillons finis, sans considération quelconque de la distribution des
εt , parce qu’aussi bien H1 que H2 comprennent des variables dépendantes
retardées dans le membre de droite et également parce que H1 est non linéaire
en ses paramètres.
Nous en venons désormais à un aspect des tests du facteur commun
légèrement compliqué: la détermination du nombre de contraintes, l. Dans
le cas précédent du test de H1 contre H2 , il semble qu’il y ait k contraintes.
Après tout, H1 possède k + 1 paramètres (les k βi et ρ) et H2 semble posséder
2k + 1 paramètres (les k βi , les k γi , et ρ). La différence est (2k + 1) − (k + 1),
c’est-à-dire k. En réalité cependant, le nombre de contraintes sera presque
toujours inférieur à k, parce que, à l’exception de rares cas, le nombre de
paramètres identifiables dans H2 sera inférieur à 2k + 1. Et le meilleur moyen
de voir pourquoi cela sera toujours le cas est de considérer un exemple.
Supposons que la fonction de régression xt (β) du modèle d’origine H0
soit
β0 + β1 zt + β2 t + β3 zt−1 + β4 yt−1 , (10.93)
où zt est la t ième observation d’une variable économique temporelle, et t
est la t ième observation d’une tendance temporelle linéaire. La fonction de
régression pour le modèle non contraint H2 qui correspond à (10.93) est
où
δ0 = β0 + γ0 − γ2 ; δ1 = β2 + γ2 ; δ2 = β3 + γ1 ; et δ3 = ρ + β4 .
Nous voyons que (10.95) possède 7 paramètres que l’on peut estimer: β1 ,
γ3 , γ4 , et de δ0 à δ3 , au lieu des 11 paramètres de (10.94), dont beaucoup
d’entre eux ne sont pas identifiables. La fonction de régression pour le modèle
contraint H1 est
parlé dans la Section 10.3, et la GNR est ensuite utilisée pour aboutir aux esti-
mations en une étape. Ces paramètres en eux-mêmes ne sont pas intéressants.
Tout ce dont nous avons besoin, c’est de la SSR de la GNR, que l’on peut
utiliser à la place de SSR1 dans la formule pour le test en F . Cependant,
comme il n’est en général ni difficile ni trop coûteux d’estimer H1 à l’aide
des ordinateurs et des progiciels modernes, les circonstances pour lesquelles
un avantage conséquent en faveur de la procédure en une étape apparaı̂t sont
probablement rares.
On peut utiliser une procédure comparable à un test des contraintes du
facteur commun lorsque le modèle originel (H0 ) est non linéaire. Dans ce
contexte, le modèle H1 peut s’écrire
qui est en général plus restrictif que l’équation (10.89) (sauf lorsque l = 1).
Ainsi la prise en compte du cas de la régression non linéaire révèle qu’il y a
en réalité deux tests des contraintes du facteur commun différents lorsque le
modèle est linéaire. Le premier test, qui teste (10.88) contre (10.89), est le
test en F (10.92). Il aura l degrés de liberté, où 1 ≤ l ≤ k. Le second, qui
10.10 Variables Instrumentales et Autocorrélation 373
Dans (10.101), les seules variables exogènes ou prédéterminées étaient les vari-
ables regroupées dans Zt . Toutefois, dans (10.102), elles correspondent à yt−1
et aux variables regroupées dans Zt , Zt−1 , et Yt−1 (les mêmes variables peu-
vent apparaı̂tre dans plusieurs de ces éléments; voir la dimension sur les con-
traintes du facteur commun de la section précédente). Toutes ces variables
seraient normalement comprises dans la matrice des instruments W. Puisque
ces variables sont en nombre presque certainement supérieur à k + 1, il ne
serait pas nécessaire normalement d’ajouter des instruments pour garantir
que tous les paramètres seront identifiés.
Pour une discussion plus approfondie sur l’estimation d’une seule équa-
tion linéaire à aléas autocorrélés et avec régresseurs endogènes courants, con-
sulter Sargan (1959, 1961), Amemiya (1966), Fair (1970), Dhrymes, Berner,
et Cummins (1974), Hatanaka (1976), et Bowden et Turkington (1984).
Les tests d’autocorrélation dans les modèles estimés par IV sont immé-
diats si l’on emploie une variante de la régression de Gauss-Newton. Dans la
Section 7.7, nous avons discuté de la GNR (7.37), pour laquelle la régressande
et les régresseurs sont évalués avec les estimations contraintes, et nous avons
montré comment l’utiliser pour calculer des statistiques de test. Les tests
d’autocorrélation sont simplement des applications de cette procédure. Sup-
posons que l’on veuille tester un modèle rendu non linéaire par des aléas
AR(1). Le modèle alternatif est donné par (10.12), pour les observations al-
lant de 2 à n, avec une hypothèse nulle correspondant à ρ = 0. Dans ce cas,
la GNR (7.38) est
Par hypothèse, ut−1,1 + ut−1,2 = 0 et εt1 + εt2 = 0. Mais ces deux contraintes
impliquent que ut1 + ut2 = 0 uniquement si r11 = r22 = ρ. Si c’est le cas, on
peut écrire (10.106) comme
Ainsi, lorsque r11 = r22 = ρ, il est aisé de voir que si la somme des εti est
nulle, celle des uti le sera aussi; imaginons que l’on débute avec u0i = 0 puis
que l’on résolve de manière récursive.
Le résultat de Berndt-Savin, qui se généralise bien sûr à des matrices R
non diagonales et à des processus AR de plus haut degré, signifie qu’il faut
être prudent lors de la spécification des processus temporels pour prendre en
considération les aléas des systèmes d’équations singuliers. Si l’on spécifie ma-
lencontreusement une matrice R qui ne satisfait pas les contraintes de Berndt-
Savin, le système transformé (10.105) ne sera plus singulier, et le résultat est
que l’on obtiendra des estimations des paramètres différentes en mettant à
l’écart des équations différentes. D’autre part, le fait que si R est diago-
nale tous les éléments diagonaux sont identiques nous autorise des simplifica-
tions considérables dans certains cas. Beach et MacKinnon (1979) utilisent ce
Termes et Concepts 377
10.12 Conclusion
Malgré la longueur de ce chapitre, nous n’avons aucunement couvert tout
le domaine de l’autocorrélation. Notre discussion sur les résultats des séries
chronologiques fut délibérément concise: les lecteurs qui ne sont pas à l’aise
avec cette littérature voudront sûrement consulter l’ouvrage de Harvey (1981,
1989), Granger et Newbold (1986), ou un des nombreux ouvrages plus pointus
cités par Granger et Watson (1984). Un certain nombre de thèmes étroitement
rattachés à ceux traités dans ce chapitre sera développé dans les Chapitres 19
et 20.
Dans ce chapitre, nous avons essayé de mettre l’accent sur les tests de
spécification, et principalement sur ceux basés sur la régression de Gauss-
Newton. Un certain nombre d’autres tests de spécification basés sur la GNR,
dont certains peuvent être interprétés comme des alternatives à des tests
d’autocorrélation, dont la plupart sont adaptables à des modèles qui incor-
porent une transformation pour tenir compte de l’autocorrélation, sera ex-
posé dans le Chapitre 11. La manière d’interpréter les résultats des tests
de spécification tels que ceux-ci fera l’objet du Chapitre 12. Tous les tests
d’autocorrélation et des contraintes du facteur commun présentés dans ce
chapitre deviennent plus compréhensibles dans le contexte des résultats qui y
seront établis.
Termes et Concepts
alternative localement équivalente procédure alternative de Durbin
autocorrélation procédure de Cochrane-Orcutt
autocorrélation de résidus procédure de Hildreth-Lu
condition d’inversibilité processus à aléas autorégressifs
condition de stationnarité processus d’aléas moyenne mobile
contraintes du facteur commun processus AR(1), AR(2), AR(4), et
estimation ML complète AR(p)
estimations en une étape processus AR(4) simple
grille de recherche processus ARIMA(p, d, q)
indépendance (des aléas) processus ARMA(p, q)
innovation processus AR saisonnier
méthodes pour séries chronologiques processus MA(1) et MA(q)
opérateur retard
378 Autocorrélation