You are on page 1of 34

Chapitre 20

Racines Unitaires et Cointégration

20.1 Introduction
Comme nous l’avons vu dans le chapitre précédent, on ne peut pas s’attendre à
ce que les résultats asymptotiques s’appliquent si une quelconque variable dans
un modèle de régression est générée par un processus non stationnaire. Par
exemple, dans le cas du modèle de régression linéaire y = Xβ+u, les résultats
habituels dépendent de l’hypothèse selon laquelle la matrice n−1X>X tend
vers une matrice finie, définie positive lorsque la taille de l’échantillon n
tend vers l’infini. Lorsque cette hypothèse n’est pas vérifiée, des phénomènes
extrêmement étranges peuvent survenir, comme nous l’avons vu lors de notre
discussion dans la Section 19.2 sur les régressions “erronées” entre des varia-
bles sans aucune relation. Cela constitue un problème pratique sérieux, dans
la mesure où un grand nombre de séries temporelles manifestent une ten-
dance croissante à travers le temps, et semblent par conséquent enfreindre
cette hypothèse.
Les deux moyens qui permettent de conserver l’hypothèse valide lorsque
l’on emploie de telles séries consistent à éliminer la tendance ou à calculer
les différences premières avant de les manipuler. Mais l’élimination de la
tendance et le calcul des différences premières sont en réalité des opérations
radicalement opposées: si la première est appropriée, la seconde ne l’est pas,
et vice versa. Eliminer la tendance d’une série temporelle yt sera pertinent
si elle est stationnaire autour d’une tendance, ce qui implique que l’on peut
écrire le DGP pour yt sous la forme

yt = γ0 + γ1 t + ut , (20.01)

où t est une tendance temporelle et où ut obéit à un processus ARMA sta-
tionnaire. Alternativement, le calcul des différences sera pertinent lorsque le
DGP pour yt peut s’écrire sous la forme

yt = γ1 + yt−1 + ut , (20.02)

où ut suit également un processus ARMA stationnaire. Si les ut étaient non


autocorrélés, (20.02) serait une marche aléatoire avec dérive, le paramètre de

700
20.1 Introduction 701

dérive étant γ1 . Quoi qu’il en soit, les aléas seront autocorrélés, en général.
Comme nous le verrons prochainement, le fait que le paramètre γ1 apparaisse
à la fois dans (20.01) et (20.02) ne relève absolument pas du hasard.
Le choix entre l’élimination de la tendance et le calcul des différences se
ramène à un choix entre (20.01) et (20.02). Les principales techniques de choix
entre les deux sont des tests variés de ce que l’on appelle les racines unitaires.
La terminologie provient de la littérature consacrée aux processus de séries
temporelles. Souvenons-nous à partir de la Section 10.7 que pour un proces-
sus AR A(L)ut = εt , où A(L) désigne un polynôme en l’opérateur retard,
la stationnarité du processus dépend des racines de l’équation polynômiale
A(L) = 0. Si toutes les racines sont à l’extérieur du cercle unitaire, le pro-
cessus est stationnaire. Si une quelconque racine est égale ou inférieure à 1
en valeur absolue, le processus est non stationnaire. Une racine égale à 1 en
valeur absolue est appelée racine unitaire. Lorsqu’un processus possède une
racine unitaire, comme c’est le cas pour (20.02), on parle de processus intégré
d’ordre un ou I(1). Pour qu’une série I(1) soit stationnaire, il faut calculer
ses différences premières.
Le moyen évident de choisir entre (20.01) et (20.02) consiste à les emboı̂ter
pour obtenir un modèle beaucoup plus général. Il existe un grand nombre de
façons de procéder. Le modèle qui engloberait à la fois (20.01) et (20.02) de
la façon la plus plausible serait

yt = γ0 + γ1 t + vt ; vt = αvt−1 + ut
¡ ¢
= γ0 + γ1 t + α yt−1 − γ0 − γ1 (t − 1) + ut , (20.03)

où ut obéirait à un processus stationnaire. Ce modèle fut préconisé par Bhar-


gava (1986). Lorsque |α| < 1, (20.03) est équivalent au modèle stationnaire
autour d’une tendance (20.01); lorsque α = 1, il devient (20.02).
Parce que (20.03) est non linéaire en ses paramètres, il est commode de
le reparamétriser comme suit

yt = β0 + β1 t + αyt−1 + ut , (20.04)

où
β0 ≡ γ0 (1 − α) + γ1 α et β1 ≡ γ1 (1 − α).
Il est aisé de vérifier que les estimations par moindres carrés de α dans (20.03)
et (20.04) seront identiques, tout comme les écarts types estimés de ces esti-
mations si, dans le cas de (20.03), ces derniers sont basés sur la régression de
Gauss-Newton. Le seul inconvénient de la réparamétrisation de (20.04) est
qu’elle passe entièrement sous silence le fait que β1 = 0 lorsque α = 1.
Si l’on retranche yt−1 aux deux membres, l’équation (20.04) devient

∆yt = β0 + β1 t + (α − 1)yt−1 + ut , (20.05)


702 Racines Unitaires et Cointégration

où ∆ est l’opérateur des différences premières. Si α < 1, (20.05) est équivalent
au modèle (20.01), alors que si α = 1, il est équivalent à (20.02). Ainsi il
est habituel de tester l’hypothèse nulle α = 1 contre l’hypothèse alternative
unilatérale α < 1. Puisqu’il s’agit de tester l’hypothèse nulle de présence d’une
racine unitaire dans le processus qui génère yt , on appelle communément ces
tests des tests de racine unitaire.
A première vue, il semblerait qu’un test de racine unitaire puisse être
exécuté en observant simplement le t de Student ordinaire pour α − 1 = 0
dans (20.05), mais il n’en est rien. Lorsque α = 1, le processus qui génère yt
est intégré d’ordre un. Cela signifie que yt−1 ne satisfera pas les hypothèses
standards nécessaires à l’analyse asymptotique. En conséquence, comme nous
allons le voir bientôt, le t de Student n’est pas asymptotiquement distribué
suivant une N (0, 1). On utilise en fait cette statistique comme un t de Student
habituel, mais on ne l’associe pas aux valeurs critiques usuelles des distribu-
tions de Student ou normale.
La première moitié de ce chapitre est consacrée aux tests de racines uni-
taires. Dans la prochaine section, nous décrivons un certain nombre de tests
de racines unitaires largement diffusés, tous étant basés sur des régressions
comparables à (20.05), et reposant sur l’hypothèse peu réaliste que les aléas
ut ne sont pas autocorrélés. Dans la Section 20.3, nous discutons ensuite de
quelques aspects de la théorie asymptotique qui s’est développée pour ces tests.
Dans la Section 20.4, nous abandonnons l’hypothèse de non autocorrélation
des aléas et discutons d’autres problèmes qui compliquent l’usage des tests de
racines unitaires.
La seconde moitié du chapitre traite du concept fondamental de co-
intégration entre deux ou plusieurs séries, chacune étant I(1). Ce concept est
introduit dans la Section 20.5. Les tests de cointégration, qui sont étroitement
reliés aux tests de racines unitaires, sont abordés dans la Section 20.6. Le fait
que la variable dépendante dans un modèle de régression soit cointégrée avec
un ou plusieurs régresseurs entraı̂ne un certain nombre de conséquences im-
portantes sur le type de modèle qu’il faudrait élaborer. Dans la Section 20.7,
nous discutons des méthodes équation par équation pour l’estimation à l’aide
de séries I(1), et dans la Section 20.8, nous discutons des méthodes basées sur
des autorégressions vectorielles.

20.2 Tests de Racines Unitaires


Les tests de racines unitaires les plus simples et les plus largement utilisés
furent développés par Fuller (1976) et Dickey et Fuller (1979). On se réfère
habituellement à ces tests en tant que tests de Dickey-Fuller, ou tests DF. On
trouvera chez Dickey, Bell, et Miller (1986) un exposé particulièrement brillant
de ces tests. Les tests de Dickey-Fuller se basent sur des régressions telles que
(20.05). Trois régressions comparables sont communément employées, (20.05)
20.2 Tests de Racines Unitaires 703

étant la plus compliquée. Les deux autres sont

∆yt = (α − 1)yt−1 + ut et (20.06)


∆yt = β0 + (α − 1)yt−1 + ut . (20.07)

On peut dériver ces deux régressions exactement de la même manière que


(20.05). La première, (20.06), est extrêmement contraignante, tellement con-
traignante qu’il est difficile d’imaginer que l’on puisse l’employer avec des
séries temporelles économiques. Son seul avantage est qu’elle est plus facile à
analyser que les deux autres régressions. La seconde, (20.07), est également
assez contraignante, mais elle serait intéressante si yt ne possédait aucune
tendance. Remarquons que, dans le cas de (20.07), β0 = 0 dès lors que α = 1,
parce que β0 est en fait γ0 (1 − α).
Il existe deux types distincts de tests DF basés sur chacune des trois
régressions (20.05), (20.06), et (20.07). Un type de test est calculé exacte-
ment comme un t de Student ordinaire pour α − 1 = 0 dans n’importe quelle
régression. Puisque ces statistiques ne suivent pas une distribution de Stu-
dent, même asymptotiquement, on les nomme habituellement statistiques τ
plutôt que t. Nous nommerons les statistiques τ basées sur (20.06), (20.07),
et (20.05): τnc , τc , et τct , respectivement.1 Le second type de tests se base
directement sur l’estimation du coefficient α̂ − 1. La statistique de test est

z = n(α̂ − 1). (20.08)

Par analogie avec les trois statistiques τ , nous noterons znc , zc , et zct les
trois versions principales de la statistique z.
La statistique z (20.08) peut paraı̂tre étrange pour deux raisons: elle ne
dépend pas d’une estimation de σ, et le facteur de normalisation est n plutôt
que n1/2. Pour expliquer la présence de ces deux caractéristiques, considérons
le cas simple, à savoir (20.06). Dans ce cas,
P
yt yt−1
α̂ = P 2 ,
yt−1

où la somme s’applique aux observations allant de 1 à n à condition que y0


soit disponible, et de 2 à n dans le cas contraire. Nous supposerons que y0
est disponible, puisque cela simplifie quelques résultats, et nous supposerons
également que les données sont générées par la marche aléatoire

yt = yt−1 + ut , ut ∼ IID(0, σ 2 ).

1
La notation utilisée pour ces statistiques varie d’un auteur à l’autre. Nous
préférons celle-ci parce qu’elle repose sur un mécanisme mnémotechnique: nc
indique “sans constante,” c “avec constante,” et ct “constante et tendance.”
704 Racines Unitaires et Cointégration

Cela implique que le DGP est en réalité un cas particulier du modèle estimé.
Afin d’éviter une dépendance infinie vis-à-vis du passé, il est nécessaire de
supposer que y−j est égale à une certaine valeur pour un j ≥ 0 quelconque.
Pour rester concrets et simples, nous supposerons que y−1 = 0.
Sous ces hypothèses,
P 2 P P
yt−1 ut yt−1 ut yt−1
α̂ = P 2 + P 2 =1+ P 2 .
yt−1 yt−1 yt−1
En ordonnant les termes autrement, nous avons
P
ut yt−1
α̂ − 1 = P 2 . (20.09)
yt−1
Il est clair qu’à la fois ut et yt−1 doivent être proportionnels à σ. Ainsi le
numérateur et le dénominateur de (20.09) doivent être proportionnels à σ 2.
Ces facteurs de proportionnalité s’éliminant, nous obtenons une distribution
de α̂ − 1 indépendante de σ. Ce résultat repose sur l’hypothèse selon laque-
lle y−1 est nulle. Si y−1 prend une valeur non nulle, ce résultat n’est vrai
qu’asymptotiquement.
La seconde caractéristique étrange de (20.08), à savoir que le facteur de
normalisation est n plutôt que n1/2, est quelque peu plus délicate à expliquer.
Définissons tout d’abord le processus de somme partielle St comme
t
X
St = us ,
s=0

ce qui nous permet d’écrire2

yt = y−1 + St = St .

En substituant St−1 à yt−1 dans le membre de droite de (20.09), nous obtenons


P
ut St−1
α̂ − 1 = P . (20.10)
St−1 St−1
On peut écrire le numérateur de cette expression comme
n µX
X t−1 ¶
us ut .
t=1 s=0

2
Sans l’hypothèse de nullité de y−1 , la seconde égalité ne serait pas exacte, et
les expressions qui suivent seraient plus compliquées. Cependant, les termes
impliquant y−1 ne seraient pas de la plus haute importance et n’affecteraient
donc pas les résultats finals. Dans les modèles (20.05) et (20.07), aucune hy-
pothèse sur y−1 n’est nécessaire, parce que l’ajout d’un terme constant dans la
régression signifie que les moyennes de toutes les variables ont été éliminées.
20.2 Tests de Racines Unitaires 705

La somme entre parenthèses possède t termes: u0 ut , u1P ut , u2 ut , et ainsi de


n
suite jusqu’à ut−1 ut . La somme totale comprend donc t=1 t = 21 n(n + 1),
soit O(n2 ) termes. Puisque nous avons supposé que les aléas ne sont pas auto-
corrélés, chacun de ces termes doit avoir une espérance nulle. Sous l’hypothèse
qu’un théorème de la limite centrale s’applique à leur somme, l’ordre de cette
somme sera la racine carrée de n2. Ainsi la somme est O(n).
De façon tout à fait comparable, le dénominateur de (20.10) peut s’écrire
comme
Xn µXt−1 Xt−1 ¶
ur us .
t=1 r=0 s=0

Chaque double somme à l’intérieur des parenthèses possède t2 termes. Parmi


ceux-ci, t sont de la forme u2s , et les t2 − t restants ont une espérance nulle.
Ainsi chaque double somme sera O(t), et donc aussi O(n), et aura une
espérance positive. La sommation de n de ces doubles sommes produit donc
une quantité qui doit être O(n2 ). Ainsi nous voyons que le membre de droite
de (20.10) est O(n)/O(n2 ) = O(n−1 ). Nous concluons par conséquent que le
facteur de normalisation n dans (20.08) est précisément ce qui est nécessaire
pour garantir que la statistique de test z soit O(1) sous l’hypothèse nulle.
L’analyse des régressions (20.07) ou (20.05) est encore plus compliquée
que pour (20.06), mais la conclusion est identique: α̂ − 1 doit être normalisé
par un facteur de n plutôt que par un facteur de n1/2. Cela montre assez
clairement que la théorie asymptotique standard ne s’applique pas aux statis-
tiques τ dont α̂ − 1 est le numérateur. Et la théorie asymptotique standard
ne s’applique certainement pas davantage aux statistiques z elles-mêmes. En
réalité, comme nous le verrons dans la section qui suit, les six statistiques
de test dont nous avons discuté jusqu’à présent ont toutes des distributions
asymptotiques différentes.
Il n’y a aucune raison de baser les tests de racine unitaire uniquement sur
les régressions (20.05), (20.06), ou (20.07). En particulier, il est parfaitement
valable d’ajouter d’autres régresseurs non stochastiques, tels que les variables
muettes saisonnières, dans ces régressions. Il n’est pas pertinent d’ajouter
des variables muettes à (20.06), puisqu’il n’y a pas de terme constant dans
le modèle sur lequel elle se base. Cependant, c’est une stratégie pertinente
pour (20.05) ou (20.07). Parce que les variables muettes saisonnières sont du
même ordre que la constante, leur présence ne modifie pas asymptotiquement
les distributions des statistiques de test.
Il est également envisageable d’ajouter des puissances de la tendance.
Le modèle stationnaire autour d’une tendance (20.01) peut se généraliser en
ajoutant t2 en tant que variable supplémentaire, impliquant donc que yt est
stationnaire autour d’une tendance quadratique. Identiquement, la marche
aléatoire avec dérive (20.02) peut se généraliser en ajoutant une tendance
temporelle linéaire, permettant à la dérive de varier dans le temps. Un modèle
combiné qui emboı̂te les deux modèles peut s’écrire, après la reparamétrisation
706 Racines Unitaires et Cointégration

classique, comme

∆yt = β0 + β1 t + β2 t2 + (α − 1)yt−1 + ut . (20.11)

Comme on peut s’y attendre d’après ce qui survient pour (20.05) et (20.07),
β2 = 0 lorsque α = 1 dans ce modèle. Les tests basés sur (20.11), et sur
des équations possédant encore plus de puissances de la tendance, furent
préconisés par Ouliaris, Park, et Phillips (1989). Les deux statistiques de
test pour α = 1 basées sur (20.11) seront notées zctt et τctt , où ctt indique
“avec constante, tendance, et tendance quadratique.” Parce que la tendance
quadratique augmente plus rapidement avec t que ne le font la constante et la
tendance linéaire, les distributions asymptotiques de ces tests sont différentes
de celles des autres tests que nous avons abordés.

20.3 Théorie Asymptotique et Tests de Racine Unitaire


La théorie asymptotique pour des régressions qui impliquent des variables
I(1), ce qui comprend les régressions sur lesquelles sont basés les tests de
racines unitaires, est très différente de la théorie asymptotique plus clas-
sique que nous avons exploitée jusqu’à présent dans cet ouvrage. Il est
par conséquent impossible dans cette section de faire davantage qu’exposer
quelques résultats importants et d’essayer de donner l’intuition de leur va-
lidité. Les articles de référence sont dans ce domaine ceux de Dickey et Fuller
(1979), Phillips (1987), et Phillips et Perron (1988). Banerjee, Dolado, Gal-
braith, et Hendry (1993) apportent une introduction abordable des résultats
de base.
Les théorèmes de la limite centrale classiques, tellement utiles pour les
estimateurs qui approchent leur véritable valeur à des taux proportionnels à
n−1/2, ne sont plus d’aucune utilité avec les tests de racines unitaires. Au
lieu de cela, il est nécessaire d’employer ce que l’on appelle des théorèmes de
la limite centrale fonctionnels, parce qu’ils impliquent le calcul de la limite
de certaines quantités dans un espace fonctionnel; voir Billingsley (1968) ou
Hall et Heyde (1980). Nous n’essaierons pas de démontrer un quelconque
théorème de la limite centrale fonctionnel, ni même de l’établir formellement.
Cependant, nous tenterons de donner l’intuition de tels théorèmes dans ce
contexte.
L’idée fondamentale qui permet l’utilisation des théorèmes de la limite
centrale fonctionnels est l’idée d’une application d’une suite {0, 1, 2, . . . , n},
qui indice les observations, vers l’espace fermé [0, 1]. Supposons que l’on divise
cet intervalle en n + 1 portions, avec des divisions en 1/(n + 1), 2/(n + 1), et
ainsi de suite. Nous pouvons donc associer l’observation 0 au sous-intervalle
0 ≤ r < 1/(n + 1), l’observation 1 au sous-intervalle 1/(n + 1) ≤ r < 2/(n + 1),
et ainsi de suite. Au fur et à mesure que n augmente et tend vers l’infini,
20.3 Théorie Asymptotique et Tests de Racine Unitaire 707

chaque sous-intervalle tend vers zéro. Ainsi si [rn] désigne l’entier le plus
grand inférieur à rn, pour r ∈ [0, 1], nous trouvons que

1
[r(n + 1)] = 0 pour 0 ≤ r < ,
n+1
1 2
[r(n + 1)] = 1 pour ≤r< ,
n+1 n+1

et ainsi de suite jusqu’à


n
[r(n + 1)] = n pour ≤ r < 1.
n+1

Ainsi chaque réel r dans l’intervalle [0, 1] est associé à un et un seul indice
0, 1, . . . , n.
Considérons à présent le processus de somme partielle standardisé

[r(n+1)]
1 1 X
Rn (r) ≡ √ S[r(n+1)] ≡ √ us , r ∈ [0, 1].
σ n σ n s=0

Il s’agit simplement du processus de somme partielle ordinaire rencontré dans


la section précédente, divisé par l’écart type des ut et par la racine carrée de
la taille de l’échantillon, et indicé par r plutôt que par t. On peut montrer
à l’aide d’un théorème de la limite centrale fonctionnel que, sous des condi-
tions relativement souples sur les ut , Rn (r) converge vers ce que l’on appelle
un processus de Wiener standard et que l’on note W (r). Intuitivement, un
processus de Wiener est comparable à une marche aléatoire continue définie
sur l’intervalle [0, 1]. Malgré sa continuité, il varie de façon erratique à chaque
sous-intervalle, et chaque incrément est indépendant des autres. Une propriété
quelquefois intéressante est que pour un r fixé, W (r) ∼ N (0, r).
Les principaux résultats sur les propriétés asymptotiques des statistiques
de tests de racines unitaires sont que, sous l’hypothèse nulle de racine uni-
taire, elles convergent vers des fonctions variées des processus de Wiener.
Malheureusement, de telles fonctions possèdent des distributions que l’on ne
peut pas en général exprimer de manière commode, et doivent être évaluées
numériquement. Pour donner une idée de l’aspect des résultats théoriques
sur les propriétés asymptotiques des statistiques de test, nous énonçons les
principaux résultats de Phillips (1987) pour les statistiques znc et τnc :
¡ 2
1
¢
2W (1) − 1
znc ⇒ R1 (20.12)
0
W 2 (r)dr
1
¡ 2 ¢
2 W (1) − 1
τnc ⇒³ ´1/2 . (20.13)
R1
2
W (r)dr
0
708 Racines Unitaires et Cointégration

Ici le symbole ⇒ désigne la convergence faible dans un espace fonctionnel, qui


est l’analogue de la convergence en distribution. Des résultats comparables
pour les statistiques de test zc , zct , τc , et τct sont détaillés par Phillips et
Perron (1988).
L’une des caractéristiques majeures de ces résultats est qu’ils ne dépen-
dent pas de l’hypothèse d’homoscédasticité des aléas ut . Les distributions
asymptotiques des statistiques de test dont nous avons discuté sont identiques
que les aléas manifestent une hétéroscédasticité de forme inconnue ou soient
homoscédastiques. Malgré tout, il est essentiel qu’il n’y ait aucune corrélation
entre ut et ut−j pour tout j 6= 0. Ainsi les statistiques de test dont nous avons
parlé ne sont pas valables lorsque les aléas sont autocorrélés. En présence
d’autocorrélation, il faut adapter les statistiques de test pour en tenir compte.
Nous discuterons dans la section suivante de deux moyens de les modifier.
Bien que des résultats comme (20.12) et (20.13) soient d’un intérêt
théorique considérable, ils ne sont pas très utiles dans la pratique, parce que
les distributions des quantités du membre de droite ne sont pas connues ana-
lytiquement. Toutefois, des valeurs critiques pour les huit statistiques de test
examinées ont été tabulées à l’aide de méthodes numériques nombreuses, dont
les simulations Monte Carlo. La référence la plus connue est Fuller (1976), où
quelques valeurs critiques asymptotiques pour τnc , τc , τct , ainsi que celles cor-
respondant aux tests en z, sont tabulées, conjointement aux valeurs critiques
en échantillon fini pour les quelques tailles d’échantillons retenues. Kiviet et
Phillips (1990) montrent que les distributions en échantillon fini des tests en z
peuvent se calculer numériquement, d’une manière très comparable à celle qui
permet le calcul des distributions en échantillon fini de la statistique Durbin-
Watson (Section 10.8), et ils tabulent quelques valeurs critiques à l’aide de
cette méthode. Nabeya et Tanaka (1990) montrent comment on peut calculer
analytiquement les distributions asymptotiques des statistiques z et tabulent
un certain nombre de valeurs critiques pour znc , zc , et zct . MacKinnon (1991)
emploie des méthodes Monte Carlo pour estimer des surfaces de réponse (voir
la Section 21.7) pour quelques tests en τ . Ces méthodes permettent une lec-
ture immédiate des valeurs critiques pour n’importe quelle taille d’échantillon,
aussi bien que pour n = ∞.
Hélas, toutes les valeurs critiques en échantillon fini pour les tests de
racine unitaire dépendent d’au moins une hypothèse irréaliste sur les aléas,
à savoir qu’ils sont NID(0, σ 2 ). Les valeurs critiques asymptotiques, au con-
traire, sont valables dans un contexte beaucoup plus général, puisqu’elles ne
reposent ni sur la normalité ni sur l’homoscédasticité. Ainsi il semble plus
prudent d’employer des valeurs critiques asymptotiques, de les traiter avec
précaution, plutôt que de se fier à des valeurs d’échantillon fini qui peuvent
se révéler tout à fait inadéquates dans la pratique.
Le Tableau 20.1 fournit quelques valeurs asymptotiques, calculées à l’aide
de méthodes comparables à celles employées par MacKinnon (1991), pour
les huit statistiques de test différentes abordées. La plupart des valeurs cri-
20.3 Théorie Asymptotique et Tests de Racine Unitaire 709

Tableau 20.1 Valeurs Critiques Asymptotiques pour les Tests de Racine Unitaire

Statistique de Test 1% 2.5% 5% 10% 97.5%

τnc −2.56 −2.23 −1.94 −1.62 1.62


τc −3.43 −3.12 −2.86 −2.57 0.24
τct −3.96 −3.66 −3.41 −3.13 −0.66
τctt −4.37 −4.08 −3.83 −3.55 −1.21
znc −13.7 −10.4 −8.0 −5.7 1.6
zc −20.6 −16.9 −14.1 −11.2 0.4
zct −29.4 −25.1 −21.7 −18.2 −1.8
zctt −36.6 −31.8 −28.1 −24.2 −4.2

tiques correspondent à celles de la queue de gauche de la distribution, étant


donné que l’hypothèse alternative contre laquelle le test de racine unitaire est
mené est presque toujours que le processus est stationnaire, plutôt qu’explosif.
Ces valeurs diffèrent légèrement de celles publiées par Fuller (1976). Les
différences, que l’on peut attribuer en première approximation à l’aspect
aléatoire de la simulation, ne sont jamais supérieures à deux unités dans le
dernier chiffre pertinent, et ne devraient donc pas avoir de conséquence dans
les applications pratiques.
Il est clair d’après le Tableau 20.1 que le comportement asymptotique
des statistiques de test de racine unitaire est très différent du comportement
de n’importe quelle autre statistique de test rencontrée jusqu’à présent. Sup-
posons que α0 désigne la véritable valeur de α. Dans le cas stationnaire,
lorsque |α0 | < 1, un t de Student pour α = α0 serait asymptotiquement dis-
tribué suivant la N (0, 1) sous l’hypothèse nulle. Ainsi les valeurs critiques à
2.5% et 97.5% pour un tel test seraient ±1.96. On peut comparer ces valeurs
avec les valeurs critiques des tests en τ données par le tableau. Les valeurs
critiques à 2.5% sont toujours inférieures à −1.96 et deviennent de plus en
plus faibles lorsque l’on ajoute des régresseurs à la régression de test. Iden-
tiquement, les valeurs critiques à 97.5% sont toujours inférieures à 1.96 et en
fait négatives pour les statistiques de test τct et τctt .
La Figure 20.1 illustre la fonction de répartition de la statistique τct
pour le cas où n = 1000, qui est pratiquement indiscernable du cas asympto-
tique. Cette courbe trace en fait les points obtenus empiriquement par une
expérience Monte Carlo; compte tenu du nombre de simulations, qui était
de 5 millions, l’erreur expérimentale est négligeable. Par comparaison, nous
avons également reporté la fonction de répartition de la normale centrée et
réduite. Les différences entre les deux sont frappantes, la c.d.f. de τct basée
sur une expérience Monte Carlo étant toujours bien à gauche de celle de la
normale centrée réduite. La principale raison de ce décalage provient du fait
que α̂ est sérieusement biaisée vers 0 lorsque α0 = 1. Ce biais provoque des
conséquences graves sur la puissance de ces tests à rejeter l’hypothèse nulle
710 Racines Unitaires et Cointégration

1.0 ............................
............ ..
................
........ ...........
..
.. ..
.. .
.
.........
.
....
. ..
.....
.... ....
. .... ..
......
. .
0.8 ... ....
.. ...
... ....
.
.. .
...
c.d.f. de τct ............................................... .
...
...
.
... .
...
.. ...
0.6 ... ....
. .
... .
...
.. ...
... . ...
. .
... ...
.
.. ...
.. ...
... ...
0.4 ..
... ...
...
... .....
. .
... ... .................................... c.d.f. de N (0, 1)
.. ... ....
... .....
... ....
0.2 ... ....
..... .
.......
... .
.. 0.05 .... ....
..... .... .....
.
...... .... ...
.......
..... ........
. .
........
....... ...........
............ ..................
................................................................................................................................................
0.0 ..........
....
..........
....
.
... ...
−5 −4 −3
...
.. −2 ...
..−1 0 1 2
−3.41 −1.645

Figure 20.1 Distribution de τct pour n = 1000

de racine unitaire. Par exemple, si l’on effectue un test unilatéral au niveau


de 5%, les valeurs critiques asymptotiques pour zc , zct , et zctt sont, respec-
tivement, −14.1, −21.7, et −28.1. Ainsi, si n = 100, α̂ doit être inférieure à
0.859, 0.783, et 0.719 dans ces trois situations pour que l’hypothèse nulle soit
rejetée. A l’évidence, la puissance des tests de racine unitaire peut être faible
si les données sont en réalité générées par un modèle stationnaire en tendance
dont les aléas sont autocorrélés.
Nous avons noté à plusieurs reprises que, sous l’hypothèse nulle que
α = 1, les paramètres β0 dans la régression (20.07), β1 dans la régression
(20.05), et β2 dans la régression (20.11) doivent être nuls. Notons βk les
paramètres qui doivent être nuls dans une régression de test; ici k = 0 si
seulement une constante est ajoutée, et k est égal au nombre des termes
de tendance ajoutés dans le cas contraire. Le résultat que βk = 0 provient
directement de la manipulation algébrique qui conduit à ces régressions en
tant que versions reparamétrisées de régressions telles que (20.03), puisque
βk = (1 − α)γk . Cependant, il existe une explication beaucoup plus profonde.
La présence d’une racine unitaire accroı̂t l’ordre de yt . Il en va de même
lorsque l’on ajoute une constante, une tendance, et une tendance quadratique.
Si l’on veut préserver l’ordre de yt dans l’hypothèse nulle de racine unitaire
et dans l’hypothèse alternative de stationnarité autour d’une tendance, il est
nécessaire d’ajouter à la régression de test un certain régresseur déterministe
associé à un coefficient nul sous l’hypothèse nulle et non nul sous l’hypothèse
alternative. Par exemple, considérons (20.05), pour laquelle k = 1. Sous
l’hypothèse nulle, cette régression devient
∆yt = β0 + β1 t + ut .
20.4 Autocorrélation et Problèmes Connexes 711

Sous l’hypothèse alternative de stationnarité, nous savons que ∆yt doit être
O(1). Par ailleurs, le terme de tendance est O(n). Le seul moyen de conserver
l’ordre de ∆yt dans les hypothèses nulle et alternative est que β1 soit nul dans
la première.
Tous les résultats asymptotiques des tests de Dickey-Fuller reposent sur
l’hypothèse de nullité de βk . Cette hypothèse peut être inadaptée lorsqu’il y
a une racine unitaire uniquement lorsque le DGP n’est pas un cas particulier
du modèle que l’on teste. Par exemple, si k = 0 et si le DGP comprend un
terme de dérive γ1 , la constante β0 dans le modèle que l’on teste serait non
nulle. Dans tout cas comparable où βk 6= 0, les résultats asymptotiques sont
considérablement modifiés, comme l’a montré West (1988). En l’occurrence,
dans de telles circonstances, les t de Student pour α = 1 sont véritablement
distribués asymptotiquement suivant une normale centrée réduite.
Malgré la puissance de ce résultat, il n’est pas très utile. Il pose deux
problèmes. En premier lieu, la distribution normale n’offre une bonne approx-
imation aux distributions en échantillon fini des tests de racine unitaire en τ
que si βk est important par rapport à σ. Hylleberg et Mizon (1989) et Kwia-
towski et Schmidt (1990) mettent ce résultat en évidence à l’aide d’expériences
Monte Carlo dans les cas où k = 0 et k = 1, respectivement. Lorsque βk /σ
et n sont dans l’ordre de grandeur que l’on rencontre habituellement dans
les séries économiques chronologiques, ils trouvent que les distributions DF
approximent beaucoup mieux les distributions des statistiques τ que ne le fait
la distribution normale centrée réduite. En second lieu, les tests de racine
unitaire basés sur des régressions où βk 6= 0 manquent chroniquement de
puissance. En vérité, pour k ≥ 1 la puissance de tels tests s’annulle lorsque
n → ∞. Ainsi, asymptotiquement, ils ne rejettent jamais l’hypothèse nulle
lorsqu’elle est inexacte, bien qu’ils puissent la rejeter lorsqu’elle est vraie.
Perron (1988) et Campbell et Perron (1991) discutent de ce résultat.

20.4 Autocorrélation et Problèmes Connexes


Tous les tests de racine unitaire rencontrés jusqu’à présent ne sont valables que
sous l’hypothèse de non autocorrélation des aléas des régressions de test. Cette
hypothèse est très souvent peu pertinente, parce que les fonctions de régression
dans les régressions de test ne dépendent d’aucune variable économique. Cela
rend très probable une autocorrélation des aléas. Par conséquent, nous avons
besoin de tests de racine unitaire qui sont valables (asymptotiquement) en
présence d’autocorrélation. Il y a deux manières différentes de calculer de tels
tests. Il se trouve, et cela peut paraı̂tre surprenant, que les nouveaux tests
ont la même distribution asymptotique que certains des tests dont nous avons
déjà discuté.
Les tests de racine unitaire les plus simples valables en présence d’auto-
corrélation de forme inconnue sont des versions modifiées des tests en τ de
712 Racines Unitaires et Cointégration

Dickey-Fuller. On les appelle souvent tests de Dickey-Fuller augmentés, ou


tests ADF. Ils furent proposés initialement par Dickey et Fuller (1979) sous
l’hypothèse que les aléas suivent un processus AR d’ordre inconnu. Un travail
ultérieur de Said et Dickey (1984) et Phillips et Perron (1988) montra qu’ils
sont valables asymptotiquement sous des conditions moins contraignantes.
Considérons les régressions de test (20.05), (20.06), (20.07), ou (20.11). Nous
pouvons écrire n’importe quelle régression sous la forme

∆yt = Xt β + (α − 1)yt−1 + ut , (20.14)

où Xt est composée de l’ensemble des régresseurs non stochastiques corres-


pondant à la régression de test: l’ensemble vide pour (20.06), une constante
pour (20.07), une constante et une tendance linéaire pour (20.05), et ainsi de
suite.
Supposons à présent, par souci de simplicité, que l’aléa ut dans (20.14)
obéisse au processus AR(1) stationnaire ut = ρut−1 + εt . Alors (20.14)
déviendrait

∆yt = Xt β − ρXt−1 β + (ρ + α − 1)yt−1 − αρyt−2 + εt


= Xt β ∗ + (ρ + α − 1 − αρ)yt−1 + αρ(yt−1 − yt−2 ) + εt (20.15)
= Xt β ∗ + (α − 1)(1 − ρ)yt−1 + αρ∆yt−1 + εt . (20.16)

Nous pouvons remplacer Xt β −ρXt−1 β par Xt β ∗ dans (20.15), pour un choix


quelconque de β ∗, parce que chaque colonne de Xt−1 appartient à S(X). Ceci
provient du fait que Xt ne peut comprendre que des variables déterministes
telles que la constante, une tendance linéaire, et d’autres (voir la Section 10.9).
Ainsi chaque composante de β ∗ est une combinaison linéaire des composantes
de β.
L’équation (20.16) est une régression linéaire de ∆yt sur Xt , yt−1 , et
∆yt−1 . C’est simplement la régression originelle (20.14), avec un régresseur
supplémentaire, ∆yt−1 . L’ajout de ce régresseur provoque le remplacement
de l’aléa ut autocorrélé par l’aléa εt non autocorrélé. La version ADF de
la statistique τ , que nous appellerons statistique τ 0 , est simplement le t de
Student ordinaire correspondant au test de nullité du coefficient de yt−1 dans
(20.16). Si l’autocorrélation des aléas de (20.14) était modélisée complètement
par un processus AR(1), la statistique τ 0 aurait exactement la même distri-
bution asymptotique que la statistique DF τ ordinaire, pour une spécification
de Xt identique. Le fait que le coefficient de yt−1 soit (α − 1)(1 − ρ) plutôt
que α − 1 n’est pas un problème en soi. Parce que nous avons supposé que
|ρ| < 1, ce coefficient ne peut être nul que si α = 1. Ainsi un test de nullité
du coefficient de yt−1 est équivalent à un test de α = 1.
Il est évidemment très aisé de calculer les statistiques τ 0 à l’aide de
régressions comme (20.16), mais il est plus difficile de calculer les statistiques
z 0 correspondantes. Si le coefficient de yt−1 était multiplié par n, le résultat
20.4 Autocorrélation et Problèmes Connexes 713

serait n(α̂ − 1)(1 − ρ̂) plutôt que n(α̂ − 1). Cette statistique de test n’aurait
clairement pas la même distribution asymptotique que z. Bien qu’il soit pos-
sible de calculer des statistiques z 0 à partir de régressions telles que (20.16),
cela est loin d’être facile à réaliser; consulter Dickey, Bell, et Miller (1986).
Ainsi, dans la pratique, les tests en τ 0 sont plus largement répandus alors que
les tests en z 0 ne sont presque jamais employés.
Dans cet exemple simple, nous pouvons gérer l’autocorrélation en ajou-
tant un régresseur, ∆yt−1 , à la régression de test. Il est aisé de voir
que si ut obéit à un processus AR(p), nous devrions associer p régresseurs
supplémentaires à la régression, ∆yt−1 , ∆yt−2 , et ainsi de suite jusqu’à ∆yt−p .
Mais que se passe-t-il si les aléas suivent un processus MA ou ARMA? Dans
ces cas, la composante de moyenne mobile des aléas ne serait modélisée que
par un processus AR d’ordre infini, de sorte qu’il semble falloir ajouter une
infinité de valeurs retardées de ∆yt . Cela est impossible, bien évidemment.
Par chance, nous n’avons pas besoin de recourir à une procédure aussi radi-
cale. Comme l’ont montré Said et Dickey (1984), on peut utiliser à raison les
tests ADF même lorsqu’il y a une composante de moyenne mobile dans les
aléas, à condition de laisser tendre le nombre des retards de ∆yt compris dans
la régression vers l’infini à un taux inférieur à n1/3. Il s’agit simplement de
considérer que les aléas suivent un processus AR(p), et de faire en sorte que
la croissance de p ne soit pas supérieure à n1/3.
Dans la pratique, bien sûr, étant donné que n est fixé et ne tend pas vers
l’infini, la connaissance du taux critique de n1/3 n’aide pas beaucoup au choix
de p. De plus, un économètre ne connaı̂t pas le processus qui a réellement
généré les aléas. Ainsi, la stratégie habituelle consiste à ajouter autant de re-
tards de ∆yt qu’il est nécessaire pour éliminer une quelconque autocorrélation
des aléas. Les expériences Monte Carlo (Schwert, 1989) suggèrent que les tests
ADF réalisent de bonnes performances sous l’hypothèse nulle même lorsque le
processus générateur des aléas comprend une composante de moyenne mobile.

Le second moyen d’obtenir des statistiques de test de racine unitaire va-


lables malgré la présence d’une autocorrélation de forme inconnue réside dans
l’emploi des tests de racine unitaire non paramétriques de Phillips (1987) et
Phillips et Perron (1988). Dans cette approche, les statistiques de test sont
basées sur la régression de test d’origine (20.14), mais elles sont modifiées de
telle manière que l’autocorrélation ne perturbe pas leurs distributions asymp-
totiques. Ces tests sont dénommés “non paramétriques” parce qu’aucune
spécification du processus générateur des aléas n’est nécessaire.
La statistique z non paramétrique correspondant à une spécification quel-
conque de la matrice X dans (20.14) peut s’écrire
n2 (ω̂ 2 − σ̂ 2 )
z ∗ = n(α̂ − 1) − . (20.17)
2y>MX y
Cette statistique est simplement la statistique z ordinaire, corrigée d’un terme
qui tend vers zéro asymptotiquement en l’absence d’autocorrélation. Ici, σ̂ 2
714 Racines Unitaires et Cointégration

désigne n’importe quelle estimation convergente de σ 2 et ω̂ 2 n’importe quelle


estimation convergente de
³ ´
1 ¡ 2¢
ω 2 ≡ lim −n
E Sn .
n→∞

Sans autocorrélation, ω 2 = σ 2 du fait que


µX
n X
n ¶
¡ ¢
E Sn2 =E us ut = nσ 2.
s=1 t=1

Avec autocorrélation, cependant, ω 2 différera de σ 2, parce que E(us ut ) 6= 0


pour au moins un t 6= s quelconque.
Le calcul de z ∗ telle qu’elle est définie par (20.17) n’est pas entièrement
immédiat, parce qu’il y a un choix multiple pour ω̂ 2. Le problème de
l’estimation de ω 2 est identique à celui de l’estimation des matrices de cova-
riance en présence d’hétéroscédasticité et d’autocorrélation de formes incon-
nues. Nous avons vu la manière de procéder dans la Section 17.5. Une tech-
nique particulièrement simple fût suggérée par Newey et West (1987a). Grâce
à celle-ci, l’estimation de ω 2 est
Ã
n p µ X
n ¶!
1
X X
ω̂ 2 = −
n
û2t + 2 wjp ût ût−j , (20.18)
t=1 j=1 t=j+1

où wjp = 1−j/(p+1). D’autres fonctions de pondération pourraient convenir,


tant qu’elles maintiennent la positivité de ω̂ 2 . Le paramètre p de troncature
des retards ne doit pas croı̂tre à un taux supérieur à n1/4 afin que ω̂ 2 soit une
estimation convergente de ω 2.
Les statistiques τ non paramétriques sont obtenues par une modification
des statistiques τ ordinaires identique à celle qui transforme z en z ∗ :

σ̂τ n(ω̂ 2 − σ̂ 2 )
τ∗ = − . (20.19)
ω̂ 2 ω̂ y>MX y

Dès lors que les quantités nécessaires au calcul de z ∗ sont disponibles, il est
aisé de calculer τ ∗ . Cependant, quelques résultats empiriques — voir Phillips
et Perron (1988) et Schwert (1989) — montrent que les statistiques z ∗ tendent
à avoir plus de puissance que les statistiques ADF τ 0 et τ ∗ non paramétriques.
Puisque différents utilisateurs peuvent très bien choisir des valeurs dif-
férentes de p, ou employer des poids wjp différents, ils peuvent obtenir des
valeurs différentes de z ∗ ou τ ∗ pour des données identiques. Ceci est tout
à fait contrariant mais inévitable. Pour compliquer davantage les choses, il
existe d’autres techniques d’estimation de ω 2, en plus de celle que procure
(20.18). Certaines d’entre elles possèdent de bonnes propriétés, mais d’autres
20.4 Autocorrélation et Problèmes Connexes 715

possèdent quelques défauts rédhibitoires; voir Andrews (1991a, 1991b) et Ou-


liaris, Park, et Phillips (1989), parmi d’autres auteurs. Les propriétés en
échantillon fini de ces différentes techniques peuvent différer substantielle-
ment. Toutefois, elles semblent être relativement pauvres pour au moins
quelques spécifications du processus générateur des aléas (Schwert, 1989). Par
ailleurs, les distributions asymptotiques des statistiques τ 0 n’approximent pas
toujours de façon satisfaisante leur comportement en échantillon fini, mais
celui-ci n’est jamais aussi mauvais que le comportement des statistiques z ∗
et τ ∗ .
Puisqu’il existe un grand nombre de façons de calculer des statistiques
de test de racine unitaire non paramétriques, aucune ne possédant de bonnes
propriétés en échantillon fini sous l’hypothèse nulle dans tous les cas, il est
potentiellement dangereux de se fier à ces statistiques. Avant de procéder à des
inférences importantes sur la base d’une ou de plusieurs d’entre elles, il serait
judicieux de mener une expérience Monte Carlo (voir le Chapitre 21) pour
évaluer leurs performances avec des données comparables à celles utilisées.
L’autocorrélation n’est pas le seul problème qui entrave le chemin de celui
qui tente de calculer des statistiques de test de racine unitaire. Un problème
extrêmement sérieux est que ces statistiques souffrent d’une incapacité quasi
totale à rejeter l’hypothèse nulle lorsqu’elles sont employées sur des données
désaisonnalisées à l’aide de filtres linéaires ou de méthodes propres aux agences
de statistiques officielles. Dans la Section 19.6, nous discutions de la tendance
des estimations OLS de α dans la régression yt = β0 + αyt−1 + ut à être
biaisées vers 1 lorsque yt est une série désaisonnalisée. Ce biais est présent
dans toutes les régressions de test rencontrées jusqu’ici. Même lorsque α̂ n’est
pas véritablement biaisée vers 1, elle le sera toujours plus que l’estimation
correspondante correspondante employant des séries brutes. Etant donné que
les distributions tabulées des statistiques de test se basent sur le comportement
de α̂ pour ce dernier cas de figure, il est fort probable que des statistiques
de test calculées à l’aide de séries ajustées par saison rejetteront l’hypothèse
nulle beaucoup moins souvent qu’elles ne le devraient, compte tenu des valeurs
critiques du Tableau 20.1. C’est exactement ce que Ghysels et Perron (1992)
trouvent après une série d’expériences Monte Carlo.
Si cela est possible, il faut éviter de manipuler des données ajustées par
saison dans le calcul des tests de racine unitaire. Une possibilité consiste à
employer des données annuelles. Cela peut provoquer un rétrécissement de
l’échantillon, mais les conséquences de cette stratégie sont moins graves que ce
que l’on peut craindre. Shiller et Perron (1985) insistent sur le fait que c’est
davantage l’étendue des données (c’est-à-dire le nombre d’années couvert par
l’échantillon) que le nombre des observations qui détermine la puissance des
tests. La raison en est que si α est en réalité positif, mais inférieur à 1, il
sera plus proche de 1 lorsque les données sont observés plus fréquemment.
Ainsi un test basé sur n observations annuelles peut n’avoir qu’un manque
de puissance léger par rapport à un test basé sur 4n observations brutes, et
716 Racines Unitaires et Cointégration

même avoir un supplément de puissance par rapport à un test basé sur 4n


observations de données ajustées par saison.
Si l’on emploie des données mensuelles ou trimestrielles, il faudrait
qu’elles ne fussent pas ajustées. Malheureusement, comme nous l’avons re-
marqué dans le Chapitre 19, des données brutes pour de nombreuses séries
temporelles sont introuvables pour de nombreux pays. De plus, l’usage de
variables non ajustées par saison rend pratiquement nécessaires l’emploi de
variables muettes saisonnières dans la régression et la prise en compte d’une
autocorrélation à l’ordre quatre ou douze.
Un second problème majeur avec les tests de racine unitaire est qu’ils sont
sensibles à l’hypothèse de stabilité du processus générateur des données sur
l’échantillon entier. Perron (1989) montra que la puissance des tests de racine
unitaire chute brutalement si le niveau ou la tendance d’une série est modifié
de manière exogène à un quelconque moment de la période d’observation. Bien
que la série soit stationnaire sur les deux sous-échantillons, il est pratiquement
impossible de rejeter l’hypothèse nulle qu’elle est I(1) dans de tels cas.
Perron proposa par conséquent des techniques que l’on peut employer
pour tester les racines unitaires conditionnellement à des modifications exo-
gènes en niveau ou en tendance. Ses tests s’effectuent en régressant yt sur
une constante, une tendance linéaire, et une ou deux variables muettes qui
permettent soit à la constante soit à la tendance, soit aux deux, de varier à
partir d’un point particulier du temps. Les résidus de ces régressions sont alors
utilisés dans une régression comme (20.06), et les statistiques z, τ , z ∗, et τ ∗
habituelles sont calculées. Les distributions asymptotiques de ces statistiques
ne sont pas les mêmes que celles de zct et τct , contrairement à ce qu’elles
seraient en l’absence de variables muettes dans les régressions initiales (à cause
du Théorème FWL). Au lieu de cela, elles dépendent des variables muettes
dont on se sert et de l’endroit où s’opère le changement dans l’échantillon.
Des valeurs critiques asymptotiques sont tabulées par Perron (1989).
Un grand nombre de recherches empiriques, suite à l’article de Nelson
et Plosser (1982), semble avoir montré que les racines unitaires caractérisent
un grand nombre de séries macroéconomiques. Perron y opposa l’idée que la
prise en compte de la grande dépression de 1929 (en ce qui concerne les séries
annuelles antérieures à 1973) ou du choc pétrolier (en ce qui concerne les séries
trimestrielles d’après-guerre) modifiait radicalement les résultats et montra
que la plupart des séries macroéconomiques américaines ne possédaient pas
de racine unitaire. Il n’est pas tout à fait évident que cette théorie polémique
résiste à la multiplication des tests.
Il y a eu un développement important des travaux empiriques faisant ap-
pel aux tests de racine unitaire; les exemples majeurs sont Nelson et Plosser
(1982), Mankiw et Shapiro (1985), Campbell et Mankiw (1987), Perron et
Phillips (1987), et DeJong et Whiteman (1991). Du fait des nombreux
problèmes dont nous avons discuté, et parce que des tests différents ten-
dent à produire des résultats différents, il est difficile d’établir des inférences
20.5 Cointégration 717

définitives sur la présence ou l’absence de racines unitaires dans les séries


économiques temporelles. Cela suggère que, lorsque l’on tente d’élaborer des
modèles de régression que l’on estime à l’aide de séries temporelles possédant
éventuellement une racine unitaire, il ne faudrait pas adopter une stratégie
performante uniquement si les données sont soit I(0) soit I(1). Nous revien-
drons sur ce point dans la Section 20.8. Avant d’envisager ce problème, nous
devons aborder le thème fondamental de la cointégration.

20.5 Cointégration
La théorie économique suggère souvent que certaines paires de variables
économiques doivent être liées par une relation d’équilibre de long terme. Bien
que ces variables puissent s’éloigner de l’équilibre un certain temps, on s’attend
à ce que des forces économiques rétablissent en quelque sorte l’équilibre. On
trouve parmi ces relations celle des taux d’intérêts aux actifs à échéances
différentes, celle des prix de biens de consommation comparables dans des
pays différents (si les taux de change sont stables en longue période), celle du
revenu disponible et de la consommation, celle des dépenses gouvernementales
et des impôts, celle des salaires et des prix, celle de la demande de monnaie
et du niveau des prix, ou encore celle des prix spot et futur d’un bien. Il n’y
a aucune raison de se limiter à des paires de variables, bien sûr, bien que cela
soit plus facile à gérer. Il peut très bien exister des groupes de trois variables,
ou quatre, ou même davantage, que l’on imagine liées par une relation de long
terme.
La plupart des variables mentionnées dans le premier paragraphe sont
I(1), ou du moins donnent l’apparence d’être non stationnaires lorsque cer-
tains tests de racine unitaire (mais pas nécessairement tous) sont utilisés.
Nous savons que des variables I(1) tendent à diverger lorsque n → ∞, parce
que leur variance non conditionnelle est proportionnelle à n. Ainsi il semble
que de telles variables n’obéissent jamais à une quelconque relation d’équilibre
de long terme. Cependant, il est possible que certaines variables soient I(1)
et que, malgré cela, des combinaisons linéaires de ces variables soient I(0). Si
c’est le cas, on parle de variables cointégrées. Si deux ou plusieurs variables
sont cointégrées, elles doivent suivre un sentier d’équilibre de long terme, bien
qu’en court terme elles puissent diverger substantiellement de l’équilibre. Le
concept de cointégration est fondamental à la compréhension des relations
d’équilibre de long terme entre les variables économiques temporelles. C’est
également un concept assez récent. La référence la plus lointaine est Granger
(1981), l’article le plus connu étant Engle et Granger (1987), et deux articles
relativement accessibles sont Hendry (1986) et Stock et Watson (1988a).
Supposons, par souci de simplicité, que nous nous intéressions à deux
variables, yt1 et yt2 , chacune étant I(1). Alors, dans le cas le plus simple,
yt1 et yt2 seraient cointégrées s’il existait un vecteur η ≡ [1 − η2 ]> tel que,
718 Racines Unitaires et Cointégration

lorsque les deux variables sont en équilibre,

[y1 y2 ]η ≡ y1 − η2 y2 = 0. (20.20)

Ici y1 et y2 désignent les vecteurs de dimension n dont les éléments types


sont respectivement yt1 et yt2 . Le vecteur de η de dimension 2 est appelé
vecteur cointégrant. A l’évidence, il n’est pas unique, puisque nous pourrions
le multiplier par n’importe quel scalaire non nul sans rien changer aux résultats
de (20.20).
D’un point de vue plus réaliste, on s’attend à ce que yt1 et yt2 varient
aussi bien systématiquement qu’aléatoirement dans le temps. Ainsi, on peut
espérer trouver dans (20.20) une constante, et peut-être un ou plusieurs termes
de tendance. Si nous posons Y = [y1 y2 ], (20.20) peut prendre en compte
cette éventualité sous la forme

Y η = Xβ, (20.21)

où, comme dans (20.14), X désigne une matrice déterministe qui peut contenir
certains éléments. Si elle est non nulle, la première colonne sera une constante,
la deuxième, si elle existe, sera une tendance linéaire, la troisième, si elle existe,
sera une tendance quadratique, et ainsi de suite. Puisque Y peut contenir plus
de deux variables, (20.21) constitue en fait un moyen très général d’exprimer
la relation de cointégration entre n’importe quel nombre de variables.
Evidemment, on ne peut pas s’attendre à ce qu’une égalité comme (20.20)
ou (20.21) soit strictement satisfaite en n’importe quel instant t du temps.
Nous pouvons donc définir une erreur d’équilibre νt telle que

νt = Yt η − Xt β, (20.22)

où Yt et Xt désignent respectivement les lignes t de Y et de X. Dans le cas


particulier de (20.20), cette erreur d’équilibre serait simplement yt1 − η2 yt2 .
Les m variables yt1 à ytm sont dites cointégrées s’il existe un vecteur η tel
que νt dans (20.22) soit I(0).
Cette propriété est, à première vue, tout à fait remarquable. Ainsi, il
peut ne pas être immédiatement évident que l’on puisse générer des variables
I(1) mais cointégrées. Il est sans doute utile de considérer un exemple. Soit
le modèle bivarié suivant:

λ1 yt1 − yt2 = ut1 , (1 − ρ1 L)ut1 = εt1 ,


(20.23)
yt1 − λ2 yt2 = ut2 , (1 − ρ2 L)ut2 = εt2 ,

où yt1 et yt2 sont des variables aléatoires et λ1 et λ2 des paramètres, et


· ¸
εt1
∼ N (0, Ω).
εt2
20.5 Cointégration 719

Lorsqu’à la fois ρ1 et ρ2 sont inférieurs à 1, y1 et y2 seront à l’évidence I(0).


Lorsqu’à la fois ρ1 et ρ2 sont égaux à 1, y1 et y2 seront I(1), et elles ne seront
pas cointégrées. Cependant, si un ρi quelconque était égal à 1, l’autre étant
inférieur à 1, les deux variables seraient I(1), mais elles seraient cointégrées.
Par exemple, supposons que ρ2 < 1 et que ρ1 = 1. Alors, le vecteur cointégrant
serait [1 −λ2 ], et l’erreur d’équilibre serait

ut2 = yt1 − λ2 yt2 = εt2 + ρ2 ut−1,2 .

Tant que ρ2 < 1, cette erreur d’équilibre sera stationnaire et y1 et y2 seront


cointégrées.
Le concept de cointégration porte en lui deux interrogations économétri-
ques évidentes. La première concerne l’estimation du vecteur cointégrant η,
et la seconde concerne le test de deux ou plusieurs variables cointégrées. Ces
questions sont bien sûr étroitement liées; la réponse à la seconde dépend de
celle à la première. Nous verrons la première réponse dans les lignes qui
suivent, et la seconde sera l’objet de la prochaine section.
Le moyen le plus simple d’estimer un vecteur cointégrant consiste à récrire
(20.22) sous la forme d’une régression et à employer des OLS. Cette approche
est associée à Engle et Granger (1987). Ainsi, si le coefficient de y1 était
arbitrairement normalisé à 1, nous pourrions exécuter la régression

y1 = Xβ + Y ∗ η ∗ + ν, (20.24)

où Y ∗ est une matrice de dimension n × (m − 1) dont les colonnes sont y2 ,


y3 , jusqu’à ym , et où le vecteur de paramètres η ∗ est égal à l’opposé des
m − 1 éléments non contraints du vecteur de paramètres η qui apparaı̂t dans
(20.22).
Il y a en apparence deux problèmes majeurs dans l’exécution d’une
régression comme (20.24). Le premier est que si les yit sont cointégrées, elles
sont sûrement déterminées conjointement, ce qui implique qu’il est très peu
probable que les aléas soient indépendants des régresseurs. Dans le cas de
(20.23), avec ρ1 = 1 et ρ2 < 1, par exemple, la relation entre yt1 et yt2 est

yt1 = λ2 yt2 + ρ2 (yt−1,1 − λ2 yt−1,2 ) + εt2 . (20.25)

Ainsi, en régressant yt1 sur yt2 , le terme d’erreur est implicitement

ρ2 (yt−1,1 − λ2 yt−1,2 ) + εt2 , (20.26)

et les deux termes sont corrélés à yt2 . Le second problème est que, dans
une régression comme (20.24) nous régressons une variable I(1) sur une
ou plusieurs autres variables I(1). Cela semble être une stratégie peu
recommandée, puisque c’est typiquement une situation où l’on rencontre des
régressions erronées (voir la Section 19.2).
720 Racines Unitaires et Cointégration

En dépit de ces deux problèmes, les estimations OLS de la régression


(20.24) seront convergentes lorsque les variables yt1 à ytm sont véritablement
cointégrées. En fait, ces estimations seront super-convergentes; au lieu de
converger vers la véritable valeur à un taux proportionnel à n−1/2, elles
convergeront à un taux proportionnel à n−1. Le premier problème n’a pas
d’importance asymptotiquement, puisque yt2 est I(1) et que les deux com-
posantes du terme d’erreur dans (20.26) sont I(0) (la première composante
n’est I(0) que si yt1 et yt2 sont véritablement cointégrées). Par conséquent
les termes qui comprennent des aléas seront asymptotiquement négligeables
relativement aux termes qui comprennent yt2 . Le second problème apparent
ne se pose pas asymptotiquement pour des raisons comparables, à savoir que
la (véritable) relation de cointégration entre les variables yti génère des ter-
mes qui dominent tout terme pouvant provoquer d’ordinaire une régression
erronée. Une autre conséquence de tout ceci est que le R2 de (20.24) tendra
vers 1 lorsque n → ∞.
Pour comprendre la super-convergence des estimations de la régression
(20.24), considérons le cas le plus simple, où m = 2 et X est une matrice
nulle. Dans cette configuration, l’estimation OLS de η2 , le seul élément de
η ∗ , sera Pn
t=1 yt1 yt2
η̂2 = P n 2
.
t=1 yt2

Si les deux séries sont cointégrées, nous avons

yt1 = η2 yt2 + νt ,

où les νt obéissent à un processus stationnaire quelconque. Par conséquent,


Pn
t=1 νt yt2
η̂2 = η2 + P n 2
. (20.27)
t=1 yt2

Puisque yt2 est I(1), nous l’exprimons comme

yt2 = St2 + vt2 ,

où St2 est un processus de somme partielle et où vt2 est une erreur qui serait
i.i.d. si yt2 était une marche aléatoire, mais qui sera en général autocorrélée.
Ainsi le second terme dans (20.27) est
Pn ¡ ¢
t=1 νt vt2 + νt St2
Pn ¡ 2 2
¢. (20.28)
t=1 St2 + 2St2 vt2 + vt2

On peut montrer, par des arguments similaires à ceux invoqués dans la Sec-
tion 20.2, que les deux termes du numérateur sont O(n). Le terme d’ordre
20.5 Cointégration 721

dominant dans le dénominateur est le premier, qui est O(n2 ). Ainsi, le rap-
port (20.28) est O(n)/O(n2 ) = O(n−1 ). Cela nous permet de conclure que η̂2
converge vers la véritable valeur de η2 à un taux proportionnel à n−1.
Ce résultat est crucial, et il se généralise au cas où η est un vecteur à m
composantes; voir Stock (1987). Il existe m manières d’exécuter une régression
comme (20.24), correspondant chacune au yi que l’on place en régressande.
Cela produira m vecteurs cointégrants estimés différents, tous étant super-
convergents. Etant donné que des régressions ne comprenant que des séries
stationnaires produisent toujours des estimations convergentes au taux n−1/2,
il est toujours possible de remplacer η par η̂ dans de telles régressions sans
perturber leurs propriétés asymptotiques. Parce que les différences entre η
et η̂ seront O(n−1 ), nous pouvons les négliger asymptotiquement face aux
erreurs d’estimations de telles régressions.
Malheureusement, la super-convergence de η̂ n’implique pas qu’il possède
toujours de bonnes propriétés en échantillon fini. Une partie du problème
provient du fait que l’expression (20.28) n’a pas une espérance nulle, ce qui
provoquera, en général, un biais de η̂. Ce biais peut être important dans
la pratique; consulter Banerjee, Dolado, Hendry, et Smith (1986) et Stock
(1987). Une source de biais est évidente si l’on examine (20.25). Cette
équation comprend le terme ρ2 (yt−1,1 − λ2 yt−1,2 ), dont nous ne tenons pas
compte en régressant yt1 sur yt2 . Le terme omis ressemble à un terme de
correction d’erreur. Puisqu’il est I(0) et que yt2 est I(1), sa mise à l’écart
n’a que peu d’importance asymptotiquement. Par contre, lorsque ρ2 est im-
portant, il peut y avoir une corrélation importante entre yt−1,1 − λyt−1,2 et
yt1 en échantillon fini. Dans ce cas, cela peut provoquer un biais et une perte
d’efficacité.
Des procédures d’amélioration des estimations de η furent proposées par
de nombreux auteurs, dont Phillips et Hansen (1990) et Saikkonen (1991).
L’approche de ce dernier est particulièrement élégante. Il démontre que
l’on peut obtenir des estimations asymptotiquement efficaces en exécutant
la régression
X p
∗ ∗ ∗
y1 = Xβ + Y η + ∆Y−j γj + e (20.29)
j=−p


par moindres carrés. Ici, ∆Y−j désigne une matrice de dimension n × (m − 1),
dont chaque colonne est un vecteur de différences premières de la colonne cor-
respondante dans Y ∗, retardé de j périodes, et γj désigne un vecteur composé
de (m−1) coefficients. L’équation (20.29) ajoute simplement p avances et p re-
tards des différences premières de Y ∗ à la régression (20.24). Cette technique
élimine les effets néfastes de la dynamique de courte période que les erreurs
d’équilibre ν font subir aux estimations de η. Parce que ces dernières ne sont
pas asymptotiquement normalement distribuées, le concept d’efficacité em-
ployé par Saikkonen n’est pas le concept standard dont nous avons parlé dans
cet ouvrage, et son article est loin d’être élémentaire. Bien sûr, son résultat
722 Racines Unitaires et Cointégration

n’a de valeur qu’asymptotiquement. Si n n’est pas grand face à p(m − 1), il


peut y avoir tellement de régresseurs supplémentaires dans (20.29) que les pro-
priétés en échantillon fini des estimations par moindres carrés de η ∗ peuvent
être très médiocres.

20.6 Tests de Cointégration


Les tests de cointégration les plus familiers, qui sont étroitement reliés aux
tests de racine unitaire, furent proposés par Engle et Granger (1987). L’idée
de base est extrêmement simple. Si les variables yt1 à ytm sont véritablement
cointégrées, la véritable erreur d’équilibre νt doit être I(0). Si elles ne sont
pas cointégrées, cependant, νt doit être I(1). Ainsi il est possible de tester
l’hypothèse nulle de non existence d’une relation de cointégration contre
l’hypothèse alternative de cointégration en exécutant un test de racine unitaire
sur νt .
Si νt était observé, les tests de racine unitaire auraient la même distri-
bution que ceux examinés précédemment. Toutefois, dans la grande majorité
des cas, nous n’observerons pas νt parce qu’au moins un élément de η sera
inconnu. Il est donc nécessaire d’estimer η. Cela peut se faire en principe de
plusieurs manières, la plus simple étant d’appliquer les OLS à la régression
(20.24). Cette procédure fournit un vecteur de résidus, ou d’erreurs d’équilibre
estimées, ν̂. Si les variables yt1 à ytm sont en réalité non cointégrées, la
régression (20.24) est falsifiée, et la série ν̂ possède une racine unitaire. Les
statistiques de test de racine unitaire classiques peuvent se calculer à l’aide
du vecteur de résidus. Pour des raisons évidentes, ces tests sont appelés
tests de cointégration sur résidus. Parce que ν̂ dépend d’un ou de plusieurs
paramètres estimés, qui sont les paramètres d’une régression falsifiée sous
l’hypothèse nulle, les distributions asymptotiques des statistiques de test de
cointégration sur résidus ne sont pas les mêmes que celles des statistiques de
test de racine unitaire ordinaires.
Le modèle (20.23) peut procurer un éclaircissement utile. Puisque c’est
la valeur de ρ2 (ou éventuellement celle de ρ1 ) qui détermine la cointégration
entre les deux séries dans ce modèle, il ne devrait pas être surprenant
d’apprendre que les tests de l’hypothèse nulle de non cointégration devraient
ressembler aux tests de l’hypothèse nulle qu’une série possède une racine uni-
taire. Il ne devrait pas être surprenant non plus d’apprendre que l’hypothèse
nulle est que les deux séries ne sont pas cointégrées, puisque, conditionnelle-
ment à ρ1 = 1, elles seront cointégrées à moins que ρ2 ne soit égal à 1.
On peut adapter des tests de cointégration sur résidus à partir de
n’importe lequel des tests de racine unitaire dont nous avons parlé, à con-
dition toutefois d’employer des valeurs critiques appropriées. La procédure la
plus simple, appelée parfois test de Engle-Granger, ou test EG, implique une
première estimation de la régression de cointégration (20.24) et par la suite
20.6 Tests de Cointégration 723

l’usage d’un test de Dickey-Fuller en τ , basé sur la régression

∆ν̂t = (α − 1) ν̂t−1 + et . (20.30)

Puisque l’autocorrélation est très souvent un problème, on préfèrera employer


un test de Engle-Granger augmenté, ou test AEG, qui est au test EG ce que le
test ADF en τ 0 est au test DF en τ . Ainsi le test AEG est simplement le t de
Student de α−1 dans une régression comme (20.30) mais avec suffisamment de
retards de ∆ν̂t comme régresseurs additionnels pour que toute autocorrélation
soit éliminée. Des tests en z ∗ et en τ ∗ non paramétriques peuvent également
être utilisés, ainsi que l’on suggéré Phillips et Ouliaris (1990). Ceux-ci sont
calculés exactement de la même manière que dans les expressions (20.17) et
(20.19): les résidus de la régression (20.30) sont employés pour évaluer σ̂ 2 et
ω̂ 2 , et la quantité ν̂>ν̂ remplace y>MX y.
Les valeurs critiques de ces tests dépendent du nombre de variables
I(1) présentes dans le membre de droite de la régression de cointégration
(20.24) ainsi que de la nature des régresseurs aléatoires dans cette régression.
Quelques valeurs critiques relativement peu précises furent publiées par En-
gle et Granger (1987), Engle et Yoo (1987), et Phillips et Ouliaris (1990).
Le Tableau 20.2 contient des valeurs critiques asymptotiques assez précises
(la probabilité que l’erreur sur la dernière décimale soit supérieure à 2 est
extrêmement faible) pour les statistiques τc , τct , τctt , zc , zct , et zctt , pour
quelques valeurs de m, obtenues par des méthodes similaires à celle employée
par MacKinnon (1991). Le tableau ne contient pas de valeurs critiques pour les
statistiques τnc ou znc , parce que cela est rarement pertinent dans la pratique.
Souvenons-nous que m est le nombre de variables endogènes; m − 1 est par
conséquent le nombre d’éléments du vecteur cointégrant qu’il s’agit d’estimer.
Si certains éléments sont connus a priori, il faut sélectionner une valeur de m
plus faible. Dans le cas extrême où tous les éléments du vecteur cointégrant
sont connus, il faudrait se reporter aux valeurs critiques du Tableau 20.1.
Parce que les régressions de cointégration contiennent les colonnes de X
parmi les régresseurs, il n’est pas nécessaire d’inclure X dans la régression de
test (20.30). Le Théorème FWL ne s’applique pas ici, parce que l’élimination
de la première observation signifie que le vecteur ν̂−1 ne sera pas véritablement
orthogonal aux colonnes de X. Cependant, ν̂−1 sera orthogonal à X, asymp-
totiquement. Ainsi, asymptotiquement, que X soit incluse ou non dans la
régression n’a pas d’importance.
Les estimations OLS η dépendent du yi qui est régressande. Un change-
ment de régressande modifiera, avec des échantillons finis, le vecteur de
résidus ν̂ et par conséquent les valeurs calculées des statistiques de test de
cointégration basées sur ce vecteur. Cela est plutôt gênant, parce que cela
s’ajoute à la multiplicité des statistiques de test. Ainsi en ce qui concerne les
tests de cointégration, plus encore qu’en ce qui concerne les tests de racine uni-
taire, les occasions de commettre des inférences divergentes sont nombreuses.
724 Racines Unitaires et Cointégration

Tableau 20.2 Valeurs Critiques Asymptotiques pour les Tests de Cointégration

Statistique de Test 1% 2.5% 5% 10% 97.5%


m=2
τc −3.90 −3.59 −3.34 −3.04 −0.30
τct −4.32 −4.03 −3.78 −3.50 −1.03
τctt −4.69 −4.40 −4.15 −3.87 −1.52
zc −28.3 −23.9 −20.6 −17.1 −0.7
zct −35.8 −31.1 −27.3 −23.4 −3.2
zctt −42.6 −37.5 −33.4 −29.1 −5.8
m=3
τc −4.29 −4.00 −3.74 −3.45 −0.85
τct −4.66 −4.37 −4.12 −3.84 −1.39
τctt −4.99 −4.70 −4.45 −4.17 −1.81
zc −35.2 −30.4 −26.7 −22.7 −2.4
zct −42.0 −36.9 −32.8 −28.5 −5.0
zctt −48.5 −43.0 −38.7 −34.0 −7.6
m=4
τc −4.64 −4.35 −4.10 −3.81 −1.30
τct −4.97 −4.68 −4.43 −4.15 −1.73
τctt −5.27 −4.98 −4.73 −4.45 −2.09
zc −41.6 −36.5 −32.4 −28.1 −4.5
zct −48.1 −42.6 −38.2 −33.5 −7.0
zctt −54.3 −48.5 −43.9 −38.9 −9.8
m=5
τc −4.96 −4.66 −4.42 −4.13 −1.68
τct −5.25 −4.96 −4.72 −4.43 −2.04
τctt −5.53 −5.24 −4.99 −4.72 −2.36
zc −47.8 −42.3 −38.0 −33.3 −6.7
zct −54.0 −48.2 −43.5 −38.5 −9.3
zctt −60.0 −53.9 −49.0 −43.7 −12.1
m=6
τc −5.25 −4.96 −4.71 −4.42 −2.01
τct −5.52 −5.23 −4.98 −4.70 −2.32
τctt −5.77 −5.49 −5.24 −4.96 −2.61
zc −53.8 −48.0 −43.4 −38.4 −9.1
zct −59.7 −53.7 −48.8 −43.5 −11.8
zctt −65.5 −59.2 −54.1 −48.6 −14.6

Tous les problèmes qui enveniment les tests de racine unitaire enveni-
ment également les tests de cointégration sur résidus dont nous avons parlé.
Un problème vient du fait que les valeurs critiques asymptotiques peuvent se
révéler sérieusement trompeuses avec des échantillons finis. Malheuseusement,
les valeurs critiques dépendent des caractéristiques intrinsèques du DGP,
telles que la nature d’une quelconque hétéroscédasticité ou autocorrélation
que l’on pourrait y rencontrer, qui sont en général inconnues dans la pra-
20.7 Modélisations avec des Variables Cointégrées 725

tique. Un autre problème, introduit dans la Section 20.4, est que les tests
de cointégration manquent chroniquement de puissance lorsque l’on emploie
des données désaisonnalisées ou lorsque le processus générateur d’une série
quelconque varie dans le temps. Ainsi le non rejet de l’hypothèse nulle de
non cointégration ne procure qu’un renseignement limité sur le fait que deux
variables sont véritablement non cointégrées.
Bien que les tests basés sur le vecteur de résidus ν̂ soient de loin les
plus répandus, de nombreux autres tests de cointégration furent proposés.
On pourra par exemple consulter Stock et Watson (1988b), Phillips et Ou-
liaris (1990), Johansen (1988, 1991), et Johansen et Juselius (1990, 1992).
L’approche de Johansen sera abordée dans la Section 20.8. Campbell et Per-
ron (1991) font un exposé des nombreux tests, qui sont beaucoup plus difficiles
à calculer que ceux reposant sur les résidus. En plus, chaque statistique de
test semble posséder son propre ensemble de valeurs critiques.

20.7 Modélisations avec des Variables Cointégrées


De nombreuses séries économiques sont, ou du moins paraissent être, intégrées
d’ordre 1. A partir des résultats de la Section 19.2 sur les régressions erronées,
et des résultats de ce chapitre, il est clair que régresser une variable I(1)
en niveau sur une ou plusieurs variables I(1) en niveaux n’est généralement
pas la meilleure stratégie à suivre. Au pire, nous “découvririons” une rela-
tion entièrement fausse. Au mieux, nous estimerions de façon convergente les
éléments d’un vecteur cointégrant quelconque, mais nous ne pourrions pas ap-
pliquer la théorie asymptotique standard, et commettrions donc des inférences
inexactes à propos des paramètres que nous aurions estimés. L’étude des
méthodes de spécification et d’estimation des modèles pour des variables I(1)
est un champ de recherche florissant et quelque peu controversé. La plu-
part du matériel théorique, tel que celui de Park et Phillips (1988, 1989)
et Phillips (1991a), est techniquement trop lourd pour être traité dans cet
ouvrage. Dans cette section, nous nous contenterons donc d’exposer des
cas particuliers simples et quelques résultats relativement immédiats. Nous
traiterons de l’estimation des autorégressions vectorielles impliquant des va-
riables cointégrées dans la section qui suit.
L’approche classique pour gérer des variables cointégrées, en particulier
dans la littérature des séries temporelles, a consisté à en calculer les différences
premières autant de fois que nécessaire pour les rendre stationnaires. Cette
approche a le mérite de la simplicité. Une fois toutes les séries transformées et
stationnarisées, nous pouvons spécifier des modèles de régression dynamiques
de manière conventionnelle, et leur appliquer des résultats asymptotiques stan-
dards. Le problème relatif à cette approche est que le calcul des différences
élimine automatiquement l’opportunité d’estimer une quelconque relation en-
tre les niveaux de la variable dépendante et ceux des variables indépendantes.
Au contraire la cointégration implique qu’une telle relation existe, et, comme
726 Racines Unitaires et Cointégration

les exemples du début de la Section 20.5 le suggèrent, sont d’un intérêt


économique majeur. Le calcul des différences sur les données n’est donc pas
une stratégie appropriée.
Une seconde approche consiste à estimer une sorte de modèle à correction
d’erreur, ou ECM. Nous avons vu ce genre de modèle dans la Section 19.4, sous
l’hypothèse que toutes les variables étaient stationnaires. Les modèles à cor-
rection d’erreur restent valables lorsque cette hypothèse n’est plus vérifiée. En
réalité, ils sont particulièrement attrayants lorsque la variable dépendante est
I(1). Cependant, il faut rester prudent lors de l’estimation et de la réalisation
d’inférences avec de tels modèles.
Un modèle ECM univarié simple mais largement adaptable, comparable
à l’équation (19.30), peut s’écrire comme

∆yt = zt α + β(yt−1 − λxt−1 ) + γ∆xt + ut , ut ∼ IID(0, σ 2 ). (20.31)

La variable dépendante est ici yt , et la variable indépendante est véritable-


ment xt . Nous supposons que ces deux variables sont I(1) et cointégrées, ce
qui implique que le terme de correction d’erreur β(yt−1 − λxt−1 ) est I(0). Le
vecteur ligne zt comprend une constante, et toute autre variable indépendante,
à condition qu’elle soit ou bien déterministe ou bien I(0). Si la dynamique
que procure (20.31) n’est pas satisfaisante, il est possible d’adapter le modèle
en lui ajoutant davantage de retards de ∆xt et en augmentant le retard du
terme de correction d’erreur.
Si λ était connu, l’estimation par moindres carrés de (20.31) se ferait sans
difficulté. La régressande et les régresseurs seraient soit déterministes soit
I(0). Ainsi les estimations de α, β, et γ seraient convergentes au taux n−1/2
et asymptotiquement normales, et leur matrice de covariance serait estimée
de manière habituelle. Mais dans de nombreux cas, λ sera inconnu. Il y a
alors plusieurs manières de procéder. La plus simple est la méthode de Engle-
Granger en deux étapes proposée par Engle et Granger (1987). La première
étape consiste à régresser yt sur xt , une constante, et une tendance linéaire si
celle-ci apparaı̂t dans zt . Comme nous l’avons vu, cela produira une estima-
tion super-convergente de λ, disons λ̃. La seconde étape consiste à remplacer
λ par λ̃ dans (20.31) et à estimer par OLS cette équation transformée. En
exploitant la propriété de super-convergence de λ̃, Engle et Granger montrent
que les estimations des autres paramètres sont asymptotiquement identiques
à celles obtenues connaissant λ.
Le mérite majeur de la procédure en deux étapes de Engle-Granger est
incontestablement sa simplicité. Cependant, des simulations Monte Carlo ont
largement montré qu’elle peut ne pas être fiable avec des échantillons finis;
consulter Banerjee, Dolado, Hendry, et Smith (1986) et Banerjee, Dolado,
Galbraith, et Hendry (1993). Le problème est que λ̃ semble être bien souvent
sévèrement biaisé. Ce biais se transmet alors aux autres paramètres estimés.
Le problème s’avère moins grave lorsque le R2 de la régression de cointégration
20.7 Modélisations avec des Variables Cointégrées 727

est proche de 1, ce qui doit être le cas avec une taille d’échantillon assez
importante. Ainsi, une valeur relativement faible du R2 de la régression de
cointégration est un signal d’alarme de défaillance de la procédure.
La plus simple des procédures alternatives à la méthode en deux étapes
de Engle-Granger consiste à estimer le modèle

∆yt = zt α + βyt−1 + δxt−1 + γ∆xt + ut , (20.32)

dans lequel le nouveau paramètre δ est implicitement égal à −βλ. Cette


régression est intrigante, puisque la variable dépendante est I(0) et les
régresseurs sont I(1). On devrait normalement s’attendre à ce que la théorie
de la distribution asymptotique standard ne s’applique pas à certaines estima-
tions ou à toutes. S’il est vrai que la théorie de la distribution asymptotique
pour cette équation est non standard, les problèmes pratiques se révèlent
moins graves que ce que l’on pourrait craindre.
Les résultats fondamentaux pour des régressions telles que (20.32) ont été
démontrés pas Sims, Stock, et Watson (1990). Ils envisagent les distributions
asymptotiques des coefficients individuels dans une régression linéaire impli-
quant des variables I(1). Ils montrèrent que si un paramètre θ est associé à
une variable I(0) de moyenne nulle, la quantité n1/2 (θ̂ − θ0 ) sera asympto-
tiquement distribuée suivant une loi normale, avec l’écart type asymptotique
habituel. Considérons (20.32) une nouvelle fois. Dans cette équation, γ est
associé à une variable I(0). A condition que zt contienne un terme constant,
la condition de moyenne nulle est aisément remplie. De plus, comme (20.31)
le montre clairement, on peut associer β à yt−1 − λxt−1 , qui est I(0) du fait
que x et y sont cointégrées. Si nous normalisons une nouvelle fois la régression
de cointégration de sorte que xt−1 soit associée à un coefficient unitaire, nous
voyons que l’on peut associer δ à une variable qui est I(0). Ainsi la théorie
de la distribution asymptotique standard s’applique à tous les coefficients
économiquement pertinents de (20.32).
Bien que l’on puisse pratiquer des inférences sur les coefficents individuels
dans l’équation (20.32) de manière usuelle, il faut être prudent si l’on tente
d’en faire davantage. Par exemple, un test de nullité jointe de β et de δ, ou
d’égalité à toute autre valeur, n’aurait pas la distribution asymptotique du χ2
habituelle. Dans un ordre d’idée différent, on peut choisir de calculer λ̃ comme
−δ̃/β̃, où β̃ et δ̃ désignent les estimations par moindres carrés. Puisque λ n’est
pas un coefficient associé à une variable I(0) de moyenne nulle, la théorie de
la distribution asymptotique standard ne s’applique plus.
L’estimation directe de (20.31) par moindres carrés non linéaires est
équivalente à l’estimation de l’équation (20.32) par OLS. Les valeurs ajustées
des deux équations seront identiques, ainsi que les estimations des paramètres
qu’elles ont en commun. Les résultats de Banerjee, Dolado, Hendry, et Smith
(1986) suggèrent que ces estimations seront meilleures que celles obtenues par
la méthode en deux étapes de Engle-Granger, mais cette conclusion fut remise
728 Racines Unitaires et Cointégration

en cause par Engle et Yoo (1987, 1991). Il semblerait que les mérites respectifs
des deux procédures d’estimation dépendent fortement des caractéristiques
précises du DGP.
Les techniques d’estimation abordées dans cette section s’appliquent à
une seule équation, et elles ne sont pas efficaces en général. Bien que la
procédure en deux étapes soit toujours super-convergente pour λ, elle n’est pas
asymptotiquement efficace. A la fin de la Section 20.5, nous avons introduit
la procédure de Saikkonen pour l’estimation efficace du vecteur cointégrant
η. Engle et Yoo (1991) proposèrent une autre approche. Elle implique
une procédure d’estimation en trois étapes qui débute à partir des estima-
tions en deux étapes de Engle-Granger et qui exploite une régression arti-
ficielle pour une étape de Gauss-Newton unique. D’autres auteurs, parmi
lesquels Johansen (1988, 1991) et Phillips (1991a), ont proposé des méthodes
d’estimation systémiques diverses. L’approche de Johansen sera exposée dans
la section suivante.
Un grand nombre de travaux empiriques s’appuient sur des tests de
cointégration et sur l’estimation de modèles avec des variables cointégrées.
Des exemples de ces travaux sont Hall (1986), Baillie et Selover (1987), Camp-
bell (1987), Campbell et Shiller (1987), Corbae et Ouliaris (1988), Granger et
Lee (1989), Kunst et Neusser (1990), Johnson (1990), et King, Plosser, Stock,
et Watson (1991). Une extension intéressante a été proposée au cas des séries
temporelles saisonnières; voir Hylleberg, Engle, Granger, et Yoo (1990).

20.8 Autorégressions Vectorielles et Cointégration

L’une des approches les plus intéressantes à l’estimation systémique des


modèles à variables cointégrées a été développée par Johansen (1988, 1991)
et Johansen et Juselius (1990, 1992). Elle se base sur l’estimation d’une
autorégression vectorielle, ou VAR, par la méthode du maximum de vraisem-
blance; voir la Section 19.5 pour davantage de détails sur les VAR. Dans cette
section, nous discuterons brièvement de cette approche.
Considérons la VAR suivante avec un ensemble de variables en niveaux:

Yt = Yt−1 Π1 + · · · + Yt−p Πp + Ut . (20.33)

La notation est ici similaire à celle employée dans la Section 19.5: Yt et Ut


sont des vecteurs lignes de dimension 1 × m, et les matrices de dimension
m × m Π1 à Πp contiennent des coefficients. Par souci de simplicité, il n’y
a pas de terme constant, bien que cette hypothèse soit rarement pertinente
dans la réalité. On peut reparamétriser la VAR (20.33) comme suit:

∆Yt = ∆Yt−1 Γ1 + · · · + ∆Yt−p+1 Γp−1 − Yt−p Π + Ut , (20.34)


20.8 Autorégressions Vectorielles et Cointégration 729

où Γ1 = Π1 − I, Γ2 = Π2 + Γ1 , Γ3 = Π3 + Γ2 , et ainsi de suite. Ainsi la


matrice Π est reliée aux matrices Πi de (20.33) selon la formule

Π = I − Π1 − · · · − Πp .

En empilant les n observations de (20.34), nous obtenons le système complet

∆Y = ∆Y−1 Γ1 + · · · + ∆Y−(p−1) Γp−1 − Y−p Π + U, (20.35)

où la notation ne nécessite aucun éclaircissement. Chaque terme de (20.35)


est une matrice de dimension n × m.
La matrice Π, que l’on appelle souvent matrice d’impact, détermine si
oui ou non, et dans quelle mesure, le système (20.35) est cointégré. Si nous
supposons comme d’habitude que les variables dont nous avons calculé les
différences ∆Y sont stationnaires, alors chaque terme de (20.34) à l’exception
de Yt−p Π est un élément d’un processus stationnaire. Cela implique la sta-
tionnarité de Y Π. A l’évidence, Y Π sera stationnaire si Π est une matrice
composée d’éléments nuls. Ce doit être le cas lorsqu’aucune des séries n’est
cointégrée avec une quelconque autre série. A l’autre extrême, si la matrice
Π est de plein rang, seule la stationnarité de Y implique celle de Y Π, ce qui
signifie que chacune des colonnes de Y est stationnaire. Ces colonnes sont les
différentes séries, yi , i = 1, . . . , m, qui forment le système (20.33).
Entre ces deux positions radicales, si toutes les variables de Y sont non
stationnaires, (20.34) implique la cointégration, et que toute combinaison
linéaire des colonnes de Y Π doit être une série stationnaire. Supposons que
Π soit de rang r, avec 0 < r < m. Si c’est effectivement le cas, nous pouvons
exprimer Π sous la forme
Π = −ηα>, (20.36)
où α et η sont des matrices de dimension m × r, et où le signe négatif a
été introduit par commodité. A partir de (20.36), nous voyons que Y−p Π =
−Y−p ηα>. Les vecteurs cointégrants sont proportionnels aux colonnes de la
matrice η. Ainsi, pour chaque colonne de ηi , Y ηi est une variable aléatoire
stationnaire. Lorsque r = 1, il n’existe qu’un unique vecteur cointégrant, et
il est proportionnel à η1 . Lorsque r = 2, il existe un espace bidimensionnel
de vecteurs cointégrants, engendré par η1 et η2 , et ainsi de suite. Les deux
cas extrêmes sont ceux pour lesquels r = 0, lorsqu’il n’existe aucun vecteur
cointégrant, et r = m, lorsque toute combinaison linéaire des yi est station-
naire, parce que chaque yi est I(0).
L’approche de Johansen (1988, 1991) consiste à estimer la VAR (20.34)
soumise à la contrainte (20.36) pour des valeurs diverses de r, par maximum de
vraisemblance. Cette estimation se base sur l’hypothèse que le vecteur d’aléas
Ut est normal multivarié pour tout t et indépendant des vecteurs d’aléas des
autres observations. Cette hypothèse est moins contraignante qu’elle ne le
paraı̂t, puisqu’un nombre suffisamment grand de retards des différences de Y
730 Racines Unitaires et Cointégration

dans (20.34) doit empêcher l’apparition d’une quelconque autocorrélation dans


les résidus. Comme l’a montré Johansen, il est possible de maximiser la fonc-
tion de vraisemblance de manière analytique conditionnellement à n’importe
quelle valeur de r, par une méthode similaire à celle employée dans la Sec-
tion 18.5 pour obtenir des estimations LIML.
Le système (20.35) soumis à la contrainte (20.36) s’écrit

∆Y = ∆Y−1 Γ1 + · · · + ∆Y−(p−1) Γp−1 + Y−p ηα> + U. (20.37)

Nous savons que les estimations ML des paramètres de ce système sont


obtenues en minimisant le déterminant de la matrice des carrés et des pro-
duits croisés (souvenons-nous de la fonction de logvraisemblance concentrée
(9.65)), c’est-à-dire
¯¡ ¢
¯
¯ ∆Y − ∆Y−1 Γ1 − · · · − ∆Y−(p−1) Γp−1 − Y−p ηα> >
¡ ¢¯¯
∆Y − ∆Y−1 Γ1 − · · · − ∆Y−(p−1) Γp−1 − Y−p ηα> ¯.

On peut apercevoir à partir de cette expression que tous les éléments de


η et α ne peuvent pas être identifiés, puisque la factorisation (20.36) n’est
pas unique pour une matrice Π donnée. En fait, si B est une matrice non
singulière quelconque de dimension r × r,

ηBB −1 α = ηα.

Ainsi la matrice η peut être élaborée en sélectionnant dans l’espace S(Π)


de dimension r n’importe quel ensemble de r vecteurs à m composantes
linéairement indépendants. Une fois la matrice η choisie, α est, de fait,
uniquement déterminé. Cette propriété permet de contourner le problème de
la dépendance non linéaire des fonctions de régression dans (20.37) vis-à-vis
des paramètres.
On peut concentrer le déterminant par rapport aux paramètres des
matrices Γ1 à Γp−1 en les remplaçant par leurs estimations par moindres
carrés. Ainsi, si nous notons M∆ la projection orthogonale sur l’espace
S⊥ (∆Y−1 · · · ∆Y−(p−1) ), le déterminant qu’il s’agit de minimiser peut s’ex-
primer comme une fonction de η et α uniquement, comme suit:
¯¡ ¢ ¡ ¢¯
¯ > > > ¯
¯ ∆Y − Y−p ηα M∆ ∆Y − Y−p ηα ¯. (20.38)


Si M∆ Y−p désigne Y−p , et si M∆ Y désigne ∆Y ∗ , (20.38) peut s’écrire
¯¡ ¢¡ ¢¯¯
¯
¯ ∆Y ∗ − Y−p

ηα> > ∆Y ∗ − Y−p

ηα> ¯. (20.39)
20.8 Autorégressions Vectorielles et Cointégration 731

Il est désormais aisé de concentrer cette expression par rapport à α, car, à



condition de fixer η, les résidus dans (20.39) sont linéaires en α. Si V ≡ Y−p η,
nous obtenons le déterminant
¯ ¯
¯(∆Y ∗ )>MV ∆Y ∗ ¯. (20.40)

Par une astuce comparable à celle développée dans la Section 18.5, nous
pouvons traiter (20.40) comme un seul facteur dans la décomposition du
déterminant d’une matrice plus importante. Considérons
¯ ¯
¯ (∆Y ∗ )>∆Y ∗ (∆Y ∗ )>V ¯
¯ ¯.
¯ V >∆Y ∗ V >V ¯

En exploitant le résultat (A.26) de l’Annexe A, cette matrice peut être fac-


torisée soit comme ¯ > ¯¯ ¯
¯V V ¯ ¯(∆Y ∗ )>MV ∆Y ∗ ¯

soit comme ¯ ¯¯ ¯
¯(∆Y ∗ )>∆Y ∗ ¯ ¯V >M ∗ V ¯,

où M ∗ est la matrice de projection orthogonale associée à S⊥ (∆Y ∗ ). Puisque


|(∆Y ∗ )>∆Y ∗ | ne dépend pas de η, nous voyons que minimiser (20.40) est
équivalent à minimiser le rapport
¯ > ∗ > ∗ ∗ ¯
|V >M ∗ V | ¯η (Y−p ) M Y−p η ¯
= ¯ > ∗ > ∗ ¯ (20.41)
|V >V | ¯η (Y−p ) Y−p η ¯

par rapport à η. Le minimum de (20.40) est alors celui de (20.41) multiplié


par |(∆Y ∗ )>∆Y ∗ |.
La problème du ratio de moindre variance qu’il fallait résoudre dans le
contexte LIML (voir (18.49)) faisait intervenir un rapport de formes quadra-
tiques plutôt qu’un rapport de déterminants tel qu’il apparaı̂t dans (20.41).
Malgré cela, nous pouvons résoudre le problème par la même technique que
(18.49), à savoir en le transformant en un problème de valeurs et de vecteurs
propres. Avant de s’engager dans des détails, remarquons que (20.41) n’est
pas modifié si nous remplaçons η par ηB, pour toute matrice B de dimen-
sion r × r non singulière. C’est précisément ce que nous relevions plus tôt en
parlant de non unicité de (20.36). Nous ne pouvons donc pas espérer obtenir
un unique η, mais au contraire tout un sous-espace de dimension r.
En ce qui concerne la minimisation présente, il est commode de se servir
d’une transformation de η. Soit S n’importe quelle matrice de dimension
m × m telle que S>S = (Y−p ∗ > ∗
) Y−p , et définissons la matrice ζ de dimension
m × r par Sη. Le rapport (20.41) devient
¯ > −1 > ∗ > ∗ ∗ −1 ¯
¯ζ (S ) (Y−p ) M Y−p S ζ ¯
¯ > ¯ . (20.42)
¯ζ ζ ¯
732 Racines Unitaires et Cointégration

Puisque tout ce qui nous importe est le sous-espace engendré par les r colonnes
de ζ, nous pouvons choisir sans perte de généralité la matrice ζ de telle sorte
que ζ>ζ = Ir . Soit A la matrice définie positive de dimension m × m qui
apparaı̂t au numérateur de (20.42). Il reste à minimiser |ζ>Aζ| par rapport
à ζ sous la contrainte ζ>ζ = I.
Pour mener à bien cette opération, il est plus facile de travailler sur le
problème en termes de valeurs et vecteurs propres associés à A. La résolution
de ce problème nous fournira une matrice orthogonale Z, dont les colonnes
sont les vecteurs propres orthonormés de A, et une matrice diagonale Λ, dont
les éléments diagonaux sont les valeurs propres de A, qui doivent bien entendu
être comprises entre 0 et 1. Alors AZ = ZΛ. Si les colonnes de Z et Λ sont
classées par ordre croissant des valeurs propres λ1 , . . . , λm , les estimations ML
ζ̂ peuvent être assimilées aux r premières colonnes de Z. Géométriquement,
les colonnes de ζ̂ engendrent l’espace engendré par les vecteurs propres de A
qui correspondent aux r valeurs propres les plus petites. L’orthogonalité de
Z signifie que ζ̂ satisfait la contrainte, et le choix des valeurs propres les plus
faibles sert à minimiser le déterminant |ζ>Aζ|.
On peut retrouver l’estimation ML de l’espace des vecteurs cointégrants
S(η) à partir de ζ̂ grâce à la formule η̂ = S −1 ζ̂. La matrice α̂ requise pour
l’obtention des estimations ML des paramètres de la matrice Π peut s’obtenir
par la régression multivariée par OLS de ∆Y ∗ sur Y−p ∗
η̂. Il en découle que les
estimations des matrices Γi , i = 1, . . . , p − 1, peut aussi s’obtenir par OLS.
Bien souvent, nous ne sommes pas particulièrement intéressés par les
paramètres de la VAR (20.35). Notre préoccupation concerne davantage le
test de l’hypothèse de non cointégration contre l’hypothèse alternative de
cointégration d’un ordre quelconque. Si nous devions rejeter l’hypothèse nulle
que r = 0, nous souhaiterions tester l’hypothèse nulle r = 1 contre l’hypothèse
alternative r = 2, et ainsi de suite. Les valeurs propres λi , i = 1, . . . , m,
procurent un moyen très pratique d’y parvenir, en termes d’un test du rapport
de vraisemblance. Il est clair que si nous sélectionnons une valeur quelconque
de r, le déterminant minimisé |ζ>Aζ| est simplement le produit des r valeurs
propres les plus faibles, λ1 · · · λr . Le minimum de (20.40) correspond à ce
produit, multiplié par |(∆Y ∗ )>∆Y ∗ |. Si r = 0, le minimum de (20.40) est
simplement ce dernier déterminant. Les rapports de vraisemblance pour les
différentes valeurs de r sont par conséquent des produits de quelques-unes des
valeurs propres, élevés à la puissance n/2; souvenons-nous de (9.65). Si nous
calculons les logarithmes et multiplions par 2 afin d’obtenir une statistique
LR, nous aboutissons à −n fois le produit des logarithmes des valeurs propres
concernées.
De façon générale, la statistique LR du test de l’hypothèse nulle r = r1 ,
0 ≤ r1 < m, contre l’hypothèse alternative r = r2 , r1 < r2 ≤ m, est
r2
X
LR = −n log λi . (20.43)
i=r1 +1
Termes et Concepts 733

Cette expression est évidemment l’analogue de la statistique LR (18.50) dans


le contexte LIML. Cependant, elle n’aura pas la distribution asymptotique
usuelle du χ2 . Au lieu de cela, sous les différentes hypothèses nulles que l’on
peut tester, les statistiques LR (20.43) auront des distributions asymptotiques
non standards qui dépendent du nombre de “degrés de liberté” r2 − r1 et de la
présence ou non d’une constante ou d’une tendance linéaire dans la VAR. Ces
distributions sont tabulées par simulation, pour un nombre limité de cas, par
Johansen et Juselius (1990). On peut également réaliser des inférences sur
les éléments des vecteurs cointégrants (normalisés de manière adéquate) aux
moyens de statistiques LR conditionnellement à une certaine valeur de r; ces
statistiques auront alors une distribution asymptotique du χ2 sous l’hypothèse
nulle testée. C’est une propriété commode de l’approche VAR.

20.9 Conclusion
Nous avons vu dans ce chapitre que la théorie asymptotique pour les va-
riables I(1) est très différente de la théorie asymptotique classique et avec
laquelle nous sommes familiers. Du fait d’une différence aussi importante,
nous n’avons pas tenté de la traiter trop en profondeur. Nous nous sommes
contentés d’exposer quelques résultats fondamentaux de manière intuitive, et
de fournir les références adéquates. La majeure partie des éléments présentés
est relativement récente, à cause de l’effervescence théorique qui caractérise
ce champ de recherches depuis une dizaine d’années, et une partie de ceux-ci
est encore controversée. Les lecteurs peuvent aisément vérifier tout cela en
lisant Phillips (1991b, 1991c) et d’autres articles chez Pesaran (1991).

Termes et Concepts
autorégression vectorielle (VAR) tests de Dickey-Fuller augmentés
cointégration (ADF)
erreurs d’équilibre tests de Engle-Granger (EG)
estimateur super-convergent tests de Engle-Granger augmentés
étendue (d’un ensemble de données) (AEG)
matrice d’impact tests de racine unitaire
méthode de Engle-Granger en deux tests de racine unitaire non
étapes paramétriques
processus de somme partielle tests en τ , τ 0, et τ ∗
processus de somme partielle tests en z et z ∗
standardisé théorèmes de la limite centrale
processus de Wiener standardisé fonctionnels
racine unitaire variables cointégrées
tests de cointégration sur résidus vecteur cointégrant
tests de Dickey-Fuller (DF)

You might also like