Professional Documents
Culture Documents
20.1 Introduction
Comme nous l’avons vu dans le chapitre précédent, on ne peut pas s’attendre à
ce que les résultats asymptotiques s’appliquent si une quelconque variable dans
un modèle de régression est générée par un processus non stationnaire. Par
exemple, dans le cas du modèle de régression linéaire y = Xβ+u, les résultats
habituels dépendent de l’hypothèse selon laquelle la matrice n−1X>X tend
vers une matrice finie, définie positive lorsque la taille de l’échantillon n
tend vers l’infini. Lorsque cette hypothèse n’est pas vérifiée, des phénomènes
extrêmement étranges peuvent survenir, comme nous l’avons vu lors de notre
discussion dans la Section 19.2 sur les régressions “erronées” entre des varia-
bles sans aucune relation. Cela constitue un problème pratique sérieux, dans
la mesure où un grand nombre de séries temporelles manifestent une ten-
dance croissante à travers le temps, et semblent par conséquent enfreindre
cette hypothèse.
Les deux moyens qui permettent de conserver l’hypothèse valide lorsque
l’on emploie de telles séries consistent à éliminer la tendance ou à calculer
les différences premières avant de les manipuler. Mais l’élimination de la
tendance et le calcul des différences premières sont en réalité des opérations
radicalement opposées: si la première est appropriée, la seconde ne l’est pas,
et vice versa. Eliminer la tendance d’une série temporelle yt sera pertinent
si elle est stationnaire autour d’une tendance, ce qui implique que l’on peut
écrire le DGP pour yt sous la forme
yt = γ0 + γ1 t + ut , (20.01)
où t est une tendance temporelle et où ut obéit à un processus ARMA sta-
tionnaire. Alternativement, le calcul des différences sera pertinent lorsque le
DGP pour yt peut s’écrire sous la forme
yt = γ1 + yt−1 + ut , (20.02)
700
20.1 Introduction 701
dérive étant γ1 . Quoi qu’il en soit, les aléas seront autocorrélés, en général.
Comme nous le verrons prochainement, le fait que le paramètre γ1 apparaisse
à la fois dans (20.01) et (20.02) ne relève absolument pas du hasard.
Le choix entre l’élimination de la tendance et le calcul des différences se
ramène à un choix entre (20.01) et (20.02). Les principales techniques de choix
entre les deux sont des tests variés de ce que l’on appelle les racines unitaires.
La terminologie provient de la littérature consacrée aux processus de séries
temporelles. Souvenons-nous à partir de la Section 10.7 que pour un proces-
sus AR A(L)ut = εt , où A(L) désigne un polynôme en l’opérateur retard,
la stationnarité du processus dépend des racines de l’équation polynômiale
A(L) = 0. Si toutes les racines sont à l’extérieur du cercle unitaire, le pro-
cessus est stationnaire. Si une quelconque racine est égale ou inférieure à 1
en valeur absolue, le processus est non stationnaire. Une racine égale à 1 en
valeur absolue est appelée racine unitaire. Lorsqu’un processus possède une
racine unitaire, comme c’est le cas pour (20.02), on parle de processus intégré
d’ordre un ou I(1). Pour qu’une série I(1) soit stationnaire, il faut calculer
ses différences premières.
Le moyen évident de choisir entre (20.01) et (20.02) consiste à les emboı̂ter
pour obtenir un modèle beaucoup plus général. Il existe un grand nombre de
façons de procéder. Le modèle qui engloberait à la fois (20.01) et (20.02) de
la façon la plus plausible serait
yt = γ0 + γ1 t + vt ; vt = αvt−1 + ut
¡ ¢
= γ0 + γ1 t + α yt−1 − γ0 − γ1 (t − 1) + ut , (20.03)
yt = β0 + β1 t + αyt−1 + ut , (20.04)
où
β0 ≡ γ0 (1 − α) + γ1 α et β1 ≡ γ1 (1 − α).
Il est aisé de vérifier que les estimations par moindres carrés de α dans (20.03)
et (20.04) seront identiques, tout comme les écarts types estimés de ces esti-
mations si, dans le cas de (20.03), ces derniers sont basés sur la régression de
Gauss-Newton. Le seul inconvénient de la réparamétrisation de (20.04) est
qu’elle passe entièrement sous silence le fait que β1 = 0 lorsque α = 1.
Si l’on retranche yt−1 aux deux membres, l’équation (20.04) devient
où ∆ est l’opérateur des différences premières. Si α < 1, (20.05) est équivalent
au modèle (20.01), alors que si α = 1, il est équivalent à (20.02). Ainsi il
est habituel de tester l’hypothèse nulle α = 1 contre l’hypothèse alternative
unilatérale α < 1. Puisqu’il s’agit de tester l’hypothèse nulle de présence d’une
racine unitaire dans le processus qui génère yt , on appelle communément ces
tests des tests de racine unitaire.
A première vue, il semblerait qu’un test de racine unitaire puisse être
exécuté en observant simplement le t de Student ordinaire pour α − 1 = 0
dans (20.05), mais il n’en est rien. Lorsque α = 1, le processus qui génère yt
est intégré d’ordre un. Cela signifie que yt−1 ne satisfera pas les hypothèses
standards nécessaires à l’analyse asymptotique. En conséquence, comme nous
allons le voir bientôt, le t de Student n’est pas asymptotiquement distribué
suivant une N (0, 1). On utilise en fait cette statistique comme un t de Student
habituel, mais on ne l’associe pas aux valeurs critiques usuelles des distribu-
tions de Student ou normale.
La première moitié de ce chapitre est consacrée aux tests de racines uni-
taires. Dans la prochaine section, nous décrivons un certain nombre de tests
de racines unitaires largement diffusés, tous étant basés sur des régressions
comparables à (20.05), et reposant sur l’hypothèse peu réaliste que les aléas
ut ne sont pas autocorrélés. Dans la Section 20.3, nous discutons ensuite de
quelques aspects de la théorie asymptotique qui s’est développée pour ces tests.
Dans la Section 20.4, nous abandonnons l’hypothèse de non autocorrélation
des aléas et discutons d’autres problèmes qui compliquent l’usage des tests de
racines unitaires.
La seconde moitié du chapitre traite du concept fondamental de co-
intégration entre deux ou plusieurs séries, chacune étant I(1). Ce concept est
introduit dans la Section 20.5. Les tests de cointégration, qui sont étroitement
reliés aux tests de racines unitaires, sont abordés dans la Section 20.6. Le fait
que la variable dépendante dans un modèle de régression soit cointégrée avec
un ou plusieurs régresseurs entraı̂ne un certain nombre de conséquences im-
portantes sur le type de modèle qu’il faudrait élaborer. Dans la Section 20.7,
nous discutons des méthodes équation par équation pour l’estimation à l’aide
de séries I(1), et dans la Section 20.8, nous discutons des méthodes basées sur
des autorégressions vectorielles.
Par analogie avec les trois statistiques τ , nous noterons znc , zc , et zct les
trois versions principales de la statistique z.
La statistique z (20.08) peut paraı̂tre étrange pour deux raisons: elle ne
dépend pas d’une estimation de σ, et le facteur de normalisation est n plutôt
que n1/2. Pour expliquer la présence de ces deux caractéristiques, considérons
le cas simple, à savoir (20.06). Dans ce cas,
P
yt yt−1
α̂ = P 2 ,
yt−1
yt = yt−1 + ut , ut ∼ IID(0, σ 2 ).
1
La notation utilisée pour ces statistiques varie d’un auteur à l’autre. Nous
préférons celle-ci parce qu’elle repose sur un mécanisme mnémotechnique: nc
indique “sans constante,” c “avec constante,” et ct “constante et tendance.”
704 Racines Unitaires et Cointégration
Cela implique que le DGP est en réalité un cas particulier du modèle estimé.
Afin d’éviter une dépendance infinie vis-à-vis du passé, il est nécessaire de
supposer que y−j est égale à une certaine valeur pour un j ≥ 0 quelconque.
Pour rester concrets et simples, nous supposerons que y−1 = 0.
Sous ces hypothèses,
P 2 P P
yt−1 ut yt−1 ut yt−1
α̂ = P 2 + P 2 =1+ P 2 .
yt−1 yt−1 yt−1
En ordonnant les termes autrement, nous avons
P
ut yt−1
α̂ − 1 = P 2 . (20.09)
yt−1
Il est clair qu’à la fois ut et yt−1 doivent être proportionnels à σ. Ainsi le
numérateur et le dénominateur de (20.09) doivent être proportionnels à σ 2.
Ces facteurs de proportionnalité s’éliminant, nous obtenons une distribution
de α̂ − 1 indépendante de σ. Ce résultat repose sur l’hypothèse selon laque-
lle y−1 est nulle. Si y−1 prend une valeur non nulle, ce résultat n’est vrai
qu’asymptotiquement.
La seconde caractéristique étrange de (20.08), à savoir que le facteur de
normalisation est n plutôt que n1/2, est quelque peu plus délicate à expliquer.
Définissons tout d’abord le processus de somme partielle St comme
t
X
St = us ,
s=0
yt = y−1 + St = St .
2
Sans l’hypothèse de nullité de y−1 , la seconde égalité ne serait pas exacte, et
les expressions qui suivent seraient plus compliquées. Cependant, les termes
impliquant y−1 ne seraient pas de la plus haute importance et n’affecteraient
donc pas les résultats finals. Dans les modèles (20.05) et (20.07), aucune hy-
pothèse sur y−1 n’est nécessaire, parce que l’ajout d’un terme constant dans la
régression signifie que les moyennes de toutes les variables ont été éliminées.
20.2 Tests de Racines Unitaires 705
classique, comme
Comme on peut s’y attendre d’après ce qui survient pour (20.05) et (20.07),
β2 = 0 lorsque α = 1 dans ce modèle. Les tests basés sur (20.11), et sur
des équations possédant encore plus de puissances de la tendance, furent
préconisés par Ouliaris, Park, et Phillips (1989). Les deux statistiques de
test pour α = 1 basées sur (20.11) seront notées zctt et τctt , où ctt indique
“avec constante, tendance, et tendance quadratique.” Parce que la tendance
quadratique augmente plus rapidement avec t que ne le font la constante et la
tendance linéaire, les distributions asymptotiques de ces tests sont différentes
de celles des autres tests que nous avons abordés.
chaque sous-intervalle tend vers zéro. Ainsi si [rn] désigne l’entier le plus
grand inférieur à rn, pour r ∈ [0, 1], nous trouvons que
1
[r(n + 1)] = 0 pour 0 ≤ r < ,
n+1
1 2
[r(n + 1)] = 1 pour ≤r< ,
n+1 n+1
Ainsi chaque réel r dans l’intervalle [0, 1] est associé à un et un seul indice
0, 1, . . . , n.
Considérons à présent le processus de somme partielle standardisé
[r(n+1)]
1 1 X
Rn (r) ≡ √ S[r(n+1)] ≡ √ us , r ∈ [0, 1].
σ n σ n s=0
Tableau 20.1 Valeurs Critiques Asymptotiques pour les Tests de Racine Unitaire
1.0 ............................
............ ..
................
........ ...........
..
.. ..
.. .
.
.........
.
....
. ..
.....
.... ....
. .... ..
......
. .
0.8 ... ....
.. ...
... ....
.
.. .
...
c.d.f. de τct ............................................... .
...
...
.
... .
...
.. ...
0.6 ... ....
. .
... .
...
.. ...
... . ...
. .
... ...
.
.. ...
.. ...
... ...
0.4 ..
... ...
...
... .....
. .
... ... .................................... c.d.f. de N (0, 1)
.. ... ....
... .....
... ....
0.2 ... ....
..... .
.......
... .
.. 0.05 .... ....
..... .... .....
.
...... .... ...
.......
..... ........
. .
........
....... ...........
............ ..................
................................................................................................................................................
0.0 ..........
....
..........
....
.
... ...
−5 −4 −3
...
.. −2 ...
..−1 0 1 2
−3.41 −1.645
Sous l’hypothèse alternative de stationnarité, nous savons que ∆yt doit être
O(1). Par ailleurs, le terme de tendance est O(n). Le seul moyen de conserver
l’ordre de ∆yt dans les hypothèses nulle et alternative est que β1 soit nul dans
la première.
Tous les résultats asymptotiques des tests de Dickey-Fuller reposent sur
l’hypothèse de nullité de βk . Cette hypothèse peut être inadaptée lorsqu’il y
a une racine unitaire uniquement lorsque le DGP n’est pas un cas particulier
du modèle que l’on teste. Par exemple, si k = 0 et si le DGP comprend un
terme de dérive γ1 , la constante β0 dans le modèle que l’on teste serait non
nulle. Dans tout cas comparable où βk 6= 0, les résultats asymptotiques sont
considérablement modifiés, comme l’a montré West (1988). En l’occurrence,
dans de telles circonstances, les t de Student pour α = 1 sont véritablement
distribués asymptotiquement suivant une normale centrée réduite.
Malgré la puissance de ce résultat, il n’est pas très utile. Il pose deux
problèmes. En premier lieu, la distribution normale n’offre une bonne approx-
imation aux distributions en échantillon fini des tests de racine unitaire en τ
que si βk est important par rapport à σ. Hylleberg et Mizon (1989) et Kwia-
towski et Schmidt (1990) mettent ce résultat en évidence à l’aide d’expériences
Monte Carlo dans les cas où k = 0 et k = 1, respectivement. Lorsque βk /σ
et n sont dans l’ordre de grandeur que l’on rencontre habituellement dans
les séries économiques chronologiques, ils trouvent que les distributions DF
approximent beaucoup mieux les distributions des statistiques τ que ne le fait
la distribution normale centrée réduite. En second lieu, les tests de racine
unitaire basés sur des régressions où βk 6= 0 manquent chroniquement de
puissance. En vérité, pour k ≥ 1 la puissance de tels tests s’annulle lorsque
n → ∞. Ainsi, asymptotiquement, ils ne rejettent jamais l’hypothèse nulle
lorsqu’elle est inexacte, bien qu’ils puissent la rejeter lorsqu’elle est vraie.
Perron (1988) et Campbell et Perron (1991) discutent de ce résultat.
serait n(α̂ − 1)(1 − ρ̂) plutôt que n(α̂ − 1). Cette statistique de test n’aurait
clairement pas la même distribution asymptotique que z. Bien qu’il soit pos-
sible de calculer des statistiques z 0 à partir de régressions telles que (20.16),
cela est loin d’être facile à réaliser; consulter Dickey, Bell, et Miller (1986).
Ainsi, dans la pratique, les tests en τ 0 sont plus largement répandus alors que
les tests en z 0 ne sont presque jamais employés.
Dans cet exemple simple, nous pouvons gérer l’autocorrélation en ajou-
tant un régresseur, ∆yt−1 , à la régression de test. Il est aisé de voir
que si ut obéit à un processus AR(p), nous devrions associer p régresseurs
supplémentaires à la régression, ∆yt−1 , ∆yt−2 , et ainsi de suite jusqu’à ∆yt−p .
Mais que se passe-t-il si les aléas suivent un processus MA ou ARMA? Dans
ces cas, la composante de moyenne mobile des aléas ne serait modélisée que
par un processus AR d’ordre infini, de sorte qu’il semble falloir ajouter une
infinité de valeurs retardées de ∆yt . Cela est impossible, bien évidemment.
Par chance, nous n’avons pas besoin de recourir à une procédure aussi radi-
cale. Comme l’ont montré Said et Dickey (1984), on peut utiliser à raison les
tests ADF même lorsqu’il y a une composante de moyenne mobile dans les
aléas, à condition de laisser tendre le nombre des retards de ∆yt compris dans
la régression vers l’infini à un taux inférieur à n1/3. Il s’agit simplement de
considérer que les aléas suivent un processus AR(p), et de faire en sorte que
la croissance de p ne soit pas supérieure à n1/3.
Dans la pratique, bien sûr, étant donné que n est fixé et ne tend pas vers
l’infini, la connaissance du taux critique de n1/3 n’aide pas beaucoup au choix
de p. De plus, un économètre ne connaı̂t pas le processus qui a réellement
généré les aléas. Ainsi, la stratégie habituelle consiste à ajouter autant de re-
tards de ∆yt qu’il est nécessaire pour éliminer une quelconque autocorrélation
des aléas. Les expériences Monte Carlo (Schwert, 1989) suggèrent que les tests
ADF réalisent de bonnes performances sous l’hypothèse nulle même lorsque le
processus générateur des aléas comprend une composante de moyenne mobile.
σ̂τ n(ω̂ 2 − σ̂ 2 )
τ∗ = − . (20.19)
ω̂ 2 ω̂ y>MX y
Dès lors que les quantités nécessaires au calcul de z ∗ sont disponibles, il est
aisé de calculer τ ∗ . Cependant, quelques résultats empiriques — voir Phillips
et Perron (1988) et Schwert (1989) — montrent que les statistiques z ∗ tendent
à avoir plus de puissance que les statistiques ADF τ 0 et τ ∗ non paramétriques.
Puisque différents utilisateurs peuvent très bien choisir des valeurs dif-
férentes de p, ou employer des poids wjp différents, ils peuvent obtenir des
valeurs différentes de z ∗ ou τ ∗ pour des données identiques. Ceci est tout
à fait contrariant mais inévitable. Pour compliquer davantage les choses, il
existe d’autres techniques d’estimation de ω 2, en plus de celle que procure
(20.18). Certaines d’entre elles possèdent de bonnes propriétés, mais d’autres
20.4 Autocorrélation et Problèmes Connexes 715
20.5 Cointégration
La théorie économique suggère souvent que certaines paires de variables
économiques doivent être liées par une relation d’équilibre de long terme. Bien
que ces variables puissent s’éloigner de l’équilibre un certain temps, on s’attend
à ce que des forces économiques rétablissent en quelque sorte l’équilibre. On
trouve parmi ces relations celle des taux d’intérêts aux actifs à échéances
différentes, celle des prix de biens de consommation comparables dans des
pays différents (si les taux de change sont stables en longue période), celle du
revenu disponible et de la consommation, celle des dépenses gouvernementales
et des impôts, celle des salaires et des prix, celle de la demande de monnaie
et du niveau des prix, ou encore celle des prix spot et futur d’un bien. Il n’y
a aucune raison de se limiter à des paires de variables, bien sûr, bien que cela
soit plus facile à gérer. Il peut très bien exister des groupes de trois variables,
ou quatre, ou même davantage, que l’on imagine liées par une relation de long
terme.
La plupart des variables mentionnées dans le premier paragraphe sont
I(1), ou du moins donnent l’apparence d’être non stationnaires lorsque cer-
tains tests de racine unitaire (mais pas nécessairement tous) sont utilisés.
Nous savons que des variables I(1) tendent à diverger lorsque n → ∞, parce
que leur variance non conditionnelle est proportionnelle à n. Ainsi il semble
que de telles variables n’obéissent jamais à une quelconque relation d’équilibre
de long terme. Cependant, il est possible que certaines variables soient I(1)
et que, malgré cela, des combinaisons linéaires de ces variables soient I(0). Si
c’est le cas, on parle de variables cointégrées. Si deux ou plusieurs variables
sont cointégrées, elles doivent suivre un sentier d’équilibre de long terme, bien
qu’en court terme elles puissent diverger substantiellement de l’équilibre. Le
concept de cointégration est fondamental à la compréhension des relations
d’équilibre de long terme entre les variables économiques temporelles. C’est
également un concept assez récent. La référence la plus lointaine est Granger
(1981), l’article le plus connu étant Engle et Granger (1987), et deux articles
relativement accessibles sont Hendry (1986) et Stock et Watson (1988a).
Supposons, par souci de simplicité, que nous nous intéressions à deux
variables, yt1 et yt2 , chacune étant I(1). Alors, dans le cas le plus simple,
yt1 et yt2 seraient cointégrées s’il existait un vecteur η ≡ [1 − η2 ]> tel que,
718 Racines Unitaires et Cointégration
[y1 y2 ]η ≡ y1 − η2 y2 = 0. (20.20)
Y η = Xβ, (20.21)
où, comme dans (20.14), X désigne une matrice déterministe qui peut contenir
certains éléments. Si elle est non nulle, la première colonne sera une constante,
la deuxième, si elle existe, sera une tendance linéaire, la troisième, si elle existe,
sera une tendance quadratique, et ainsi de suite. Puisque Y peut contenir plus
de deux variables, (20.21) constitue en fait un moyen très général d’exprimer
la relation de cointégration entre n’importe quel nombre de variables.
Evidemment, on ne peut pas s’attendre à ce qu’une égalité comme (20.20)
ou (20.21) soit strictement satisfaite en n’importe quel instant t du temps.
Nous pouvons donc définir une erreur d’équilibre νt telle que
νt = Yt η − Xt β, (20.22)
y1 = Xβ + Y ∗ η ∗ + ν, (20.24)
et les deux termes sont corrélés à yt2 . Le second problème est que, dans
une régression comme (20.24) nous régressons une variable I(1) sur une
ou plusieurs autres variables I(1). Cela semble être une stratégie peu
recommandée, puisque c’est typiquement une situation où l’on rencontre des
régressions erronées (voir la Section 19.2).
720 Racines Unitaires et Cointégration
yt1 = η2 yt2 + νt ,
où St2 est un processus de somme partielle et où vt2 est une erreur qui serait
i.i.d. si yt2 était une marche aléatoire, mais qui sera en général autocorrélée.
Ainsi le second terme dans (20.27) est
Pn ¡ ¢
t=1 νt vt2 + νt St2
Pn ¡ 2 2
¢. (20.28)
t=1 St2 + 2St2 vt2 + vt2
On peut montrer, par des arguments similaires à ceux invoqués dans la Sec-
tion 20.2, que les deux termes du numérateur sont O(n). Le terme d’ordre
20.5 Cointégration 721
dominant dans le dénominateur est le premier, qui est O(n2 ). Ainsi, le rap-
port (20.28) est O(n)/O(n2 ) = O(n−1 ). Cela nous permet de conclure que η̂2
converge vers la véritable valeur de η2 à un taux proportionnel à n−1.
Ce résultat est crucial, et il se généralise au cas où η est un vecteur à m
composantes; voir Stock (1987). Il existe m manières d’exécuter une régression
comme (20.24), correspondant chacune au yi que l’on place en régressande.
Cela produira m vecteurs cointégrants estimés différents, tous étant super-
convergents. Etant donné que des régressions ne comprenant que des séries
stationnaires produisent toujours des estimations convergentes au taux n−1/2,
il est toujours possible de remplacer η par η̂ dans de telles régressions sans
perturber leurs propriétés asymptotiques. Parce que les différences entre η
et η̂ seront O(n−1 ), nous pouvons les négliger asymptotiquement face aux
erreurs d’estimations de telles régressions.
Malheureusement, la super-convergence de η̂ n’implique pas qu’il possède
toujours de bonnes propriétés en échantillon fini. Une partie du problème
provient du fait que l’expression (20.28) n’a pas une espérance nulle, ce qui
provoquera, en général, un biais de η̂. Ce biais peut être important dans
la pratique; consulter Banerjee, Dolado, Hendry, et Smith (1986) et Stock
(1987). Une source de biais est évidente si l’on examine (20.25). Cette
équation comprend le terme ρ2 (yt−1,1 − λ2 yt−1,2 ), dont nous ne tenons pas
compte en régressant yt1 sur yt2 . Le terme omis ressemble à un terme de
correction d’erreur. Puisqu’il est I(0) et que yt2 est I(1), sa mise à l’écart
n’a que peu d’importance asymptotiquement. Par contre, lorsque ρ2 est im-
portant, il peut y avoir une corrélation importante entre yt−1,1 − λyt−1,2 et
yt1 en échantillon fini. Dans ce cas, cela peut provoquer un biais et une perte
d’efficacité.
Des procédures d’amélioration des estimations de η furent proposées par
de nombreux auteurs, dont Phillips et Hansen (1990) et Saikkonen (1991).
L’approche de ce dernier est particulièrement élégante. Il démontre que
l’on peut obtenir des estimations asymptotiquement efficaces en exécutant
la régression
X p
∗ ∗ ∗
y1 = Xβ + Y η + ∆Y−j γj + e (20.29)
j=−p
∗
par moindres carrés. Ici, ∆Y−j désigne une matrice de dimension n × (m − 1),
dont chaque colonne est un vecteur de différences premières de la colonne cor-
respondante dans Y ∗, retardé de j périodes, et γj désigne un vecteur composé
de (m−1) coefficients. L’équation (20.29) ajoute simplement p avances et p re-
tards des différences premières de Y ∗ à la régression (20.24). Cette technique
élimine les effets néfastes de la dynamique de courte période que les erreurs
d’équilibre ν font subir aux estimations de η. Parce que ces dernières ne sont
pas asymptotiquement normalement distribuées, le concept d’efficacité em-
ployé par Saikkonen n’est pas le concept standard dont nous avons parlé dans
cet ouvrage, et son article est loin d’être élémentaire. Bien sûr, son résultat
722 Racines Unitaires et Cointégration
Tous les problèmes qui enveniment les tests de racine unitaire enveni-
ment également les tests de cointégration sur résidus dont nous avons parlé.
Un problème vient du fait que les valeurs critiques asymptotiques peuvent se
révéler sérieusement trompeuses avec des échantillons finis. Malheuseusement,
les valeurs critiques dépendent des caractéristiques intrinsèques du DGP,
telles que la nature d’une quelconque hétéroscédasticité ou autocorrélation
que l’on pourrait y rencontrer, qui sont en général inconnues dans la pra-
20.7 Modélisations avec des Variables Cointégrées 725
tique. Un autre problème, introduit dans la Section 20.4, est que les tests
de cointégration manquent chroniquement de puissance lorsque l’on emploie
des données désaisonnalisées ou lorsque le processus générateur d’une série
quelconque varie dans le temps. Ainsi le non rejet de l’hypothèse nulle de
non cointégration ne procure qu’un renseignement limité sur le fait que deux
variables sont véritablement non cointégrées.
Bien que les tests basés sur le vecteur de résidus ν̂ soient de loin les
plus répandus, de nombreux autres tests de cointégration furent proposés.
On pourra par exemple consulter Stock et Watson (1988b), Phillips et Ou-
liaris (1990), Johansen (1988, 1991), et Johansen et Juselius (1990, 1992).
L’approche de Johansen sera abordée dans la Section 20.8. Campbell et Per-
ron (1991) font un exposé des nombreux tests, qui sont beaucoup plus difficiles
à calculer que ceux reposant sur les résidus. En plus, chaque statistique de
test semble posséder son propre ensemble de valeurs critiques.
est proche de 1, ce qui doit être le cas avec une taille d’échantillon assez
importante. Ainsi, une valeur relativement faible du R2 de la régression de
cointégration est un signal d’alarme de défaillance de la procédure.
La plus simple des procédures alternatives à la méthode en deux étapes
de Engle-Granger consiste à estimer le modèle
en cause par Engle et Yoo (1987, 1991). Il semblerait que les mérites respectifs
des deux procédures d’estimation dépendent fortement des caractéristiques
précises du DGP.
Les techniques d’estimation abordées dans cette section s’appliquent à
une seule équation, et elles ne sont pas efficaces en général. Bien que la
procédure en deux étapes soit toujours super-convergente pour λ, elle n’est pas
asymptotiquement efficace. A la fin de la Section 20.5, nous avons introduit
la procédure de Saikkonen pour l’estimation efficace du vecteur cointégrant
η. Engle et Yoo (1991) proposèrent une autre approche. Elle implique
une procédure d’estimation en trois étapes qui débute à partir des estima-
tions en deux étapes de Engle-Granger et qui exploite une régression arti-
ficielle pour une étape de Gauss-Newton unique. D’autres auteurs, parmi
lesquels Johansen (1988, 1991) et Phillips (1991a), ont proposé des méthodes
d’estimation systémiques diverses. L’approche de Johansen sera exposée dans
la section suivante.
Un grand nombre de travaux empiriques s’appuient sur des tests de
cointégration et sur l’estimation de modèles avec des variables cointégrées.
Des exemples de ces travaux sont Hall (1986), Baillie et Selover (1987), Camp-
bell (1987), Campbell et Shiller (1987), Corbae et Ouliaris (1988), Granger et
Lee (1989), Kunst et Neusser (1990), Johnson (1990), et King, Plosser, Stock,
et Watson (1991). Une extension intéressante a été proposée au cas des séries
temporelles saisonnières; voir Hylleberg, Engle, Granger, et Yoo (1990).
Π = I − Π1 − · · · − Πp .
ηBB −1 α = ηα.
∗
Si M∆ Y−p désigne Y−p , et si M∆ Y désigne ∆Y ∗ , (20.38) peut s’écrire
¯¡ ¢¡ ¢¯¯
¯
¯ ∆Y ∗ − Y−p
∗
ηα> > ∆Y ∗ − Y−p
∗
ηα> ¯. (20.39)
20.8 Autorégressions Vectorielles et Cointégration 731
Par une astuce comparable à celle développée dans la Section 18.5, nous
pouvons traiter (20.40) comme un seul facteur dans la décomposition du
déterminant d’une matrice plus importante. Considérons
¯ ¯
¯ (∆Y ∗ )>∆Y ∗ (∆Y ∗ )>V ¯
¯ ¯.
¯ V >∆Y ∗ V >V ¯
soit comme ¯ ¯¯ ¯
¯(∆Y ∗ )>∆Y ∗ ¯ ¯V >M ∗ V ¯,
Puisque tout ce qui nous importe est le sous-espace engendré par les r colonnes
de ζ, nous pouvons choisir sans perte de généralité la matrice ζ de telle sorte
que ζ>ζ = Ir . Soit A la matrice définie positive de dimension m × m qui
apparaı̂t au numérateur de (20.42). Il reste à minimiser |ζ>Aζ| par rapport
à ζ sous la contrainte ζ>ζ = I.
Pour mener à bien cette opération, il est plus facile de travailler sur le
problème en termes de valeurs et vecteurs propres associés à A. La résolution
de ce problème nous fournira une matrice orthogonale Z, dont les colonnes
sont les vecteurs propres orthonormés de A, et une matrice diagonale Λ, dont
les éléments diagonaux sont les valeurs propres de A, qui doivent bien entendu
être comprises entre 0 et 1. Alors AZ = ZΛ. Si les colonnes de Z et Λ sont
classées par ordre croissant des valeurs propres λ1 , . . . , λm , les estimations ML
ζ̂ peuvent être assimilées aux r premières colonnes de Z. Géométriquement,
les colonnes de ζ̂ engendrent l’espace engendré par les vecteurs propres de A
qui correspondent aux r valeurs propres les plus petites. L’orthogonalité de
Z signifie que ζ̂ satisfait la contrainte, et le choix des valeurs propres les plus
faibles sert à minimiser le déterminant |ζ>Aζ|.
On peut retrouver l’estimation ML de l’espace des vecteurs cointégrants
S(η) à partir de ζ̂ grâce à la formule η̂ = S −1 ζ̂. La matrice α̂ requise pour
l’obtention des estimations ML des paramètres de la matrice Π peut s’obtenir
par la régression multivariée par OLS de ∆Y ∗ sur Y−p ∗
η̂. Il en découle que les
estimations des matrices Γi , i = 1, . . . , p − 1, peut aussi s’obtenir par OLS.
Bien souvent, nous ne sommes pas particulièrement intéressés par les
paramètres de la VAR (20.35). Notre préoccupation concerne davantage le
test de l’hypothèse de non cointégration contre l’hypothèse alternative de
cointégration d’un ordre quelconque. Si nous devions rejeter l’hypothèse nulle
que r = 0, nous souhaiterions tester l’hypothèse nulle r = 1 contre l’hypothèse
alternative r = 2, et ainsi de suite. Les valeurs propres λi , i = 1, . . . , m,
procurent un moyen très pratique d’y parvenir, en termes d’un test du rapport
de vraisemblance. Il est clair que si nous sélectionnons une valeur quelconque
de r, le déterminant minimisé |ζ>Aζ| est simplement le produit des r valeurs
propres les plus faibles, λ1 · · · λr . Le minimum de (20.40) correspond à ce
produit, multiplié par |(∆Y ∗ )>∆Y ∗ |. Si r = 0, le minimum de (20.40) est
simplement ce dernier déterminant. Les rapports de vraisemblance pour les
différentes valeurs de r sont par conséquent des produits de quelques-unes des
valeurs propres, élevés à la puissance n/2; souvenons-nous de (9.65). Si nous
calculons les logarithmes et multiplions par 2 afin d’obtenir une statistique
LR, nous aboutissons à −n fois le produit des logarithmes des valeurs propres
concernées.
De façon générale, la statistique LR du test de l’hypothèse nulle r = r1 ,
0 ≤ r1 < m, contre l’hypothèse alternative r = r2 , r1 < r2 ≤ m, est
r2
X
LR = −n log λi . (20.43)
i=r1 +1
Termes et Concepts 733
20.9 Conclusion
Nous avons vu dans ce chapitre que la théorie asymptotique pour les va-
riables I(1) est très différente de la théorie asymptotique classique et avec
laquelle nous sommes familiers. Du fait d’une différence aussi importante,
nous n’avons pas tenté de la traiter trop en profondeur. Nous nous sommes
contentés d’exposer quelques résultats fondamentaux de manière intuitive, et
de fournir les références adéquates. La majeure partie des éléments présentés
est relativement récente, à cause de l’effervescence théorique qui caractérise
ce champ de recherches depuis une dizaine d’années, et une partie de ceux-ci
est encore controversée. Les lecteurs peuvent aisément vérifier tout cela en
lisant Phillips (1991b, 1991c) et d’autres articles chez Pesaran (1991).
Termes et Concepts
autorégression vectorielle (VAR) tests de Dickey-Fuller augmentés
cointégration (ADF)
erreurs d’équilibre tests de Engle-Granger (EG)
estimateur super-convergent tests de Engle-Granger augmentés
étendue (d’un ensemble de données) (AEG)
matrice d’impact tests de racine unitaire
méthode de Engle-Granger en deux tests de racine unitaire non
étapes paramétriques
processus de somme partielle tests en τ , τ 0, et τ ∗
processus de somme partielle tests en z et z ∗
standardisé théorèmes de la limite centrale
processus de Wiener standardisé fonctionnels
racine unitaire variables cointégrées
tests de cointégration sur résidus vecteur cointégrant
tests de Dickey-Fuller (DF)