Ch20 Racines Unitaires Et Cointégration

Chapitre 20
Racines Unitaires et Cointégration
20.1 Introduction
Comme nous l’avons vu dans le chapitre précédent, on ne peut pas s’attendre à
ce que les résultats asymptotiques s’appliquent si une quelconque variable dans
un modèle de régression est générée par un processus non stationnaire. Par
exemple, dans le cas du modèle de régression linéaire y = Xβ+u, les résultats
habituels dépendent de l’hypothèse selon laquelle la matrice n−1X>X tend
vers une matrice finie, définie positive lorsque la taille de l’échantillon n
tend vers l’infini. Lorsque cette hypothèse n’est pas vérifiée, des phénomènes
extrêmement étranges peuvent survenir, comme nous l’avons vu lors de notre
discussion dans la Section 19.2 sur les régressions “erronées” entre des varia-
bles sans aucune relation. Cela constitue un problème pratique sérieux, dans
la mesure où un grand nombre de séries temporelles manifestent une ten-
dance croissante à travers le temps, et semblent par conséquent enfreindre
cette hypothèse.
Les deux moyens qui permettent de conserver l’hypothèse valide lorsque
l’on emploie de telles séries consistent à éliminer la tendance ou à calculer
les différences premières avant de les manipuler. Mais l’élimination de la
tendance et le calcul des différences premières sont en réalité des opérations
radicalement opposées: si la première est appropriée, la seconde ne l’est pas,
et vice versa. Eliminer la tendance d’une série temporelle yt sera pertinent
si elle est stationnaire autour d’une tendance, ce qui implique que l’on peut
écrire le DGP pour yt sous la forme
yt = γ0 + γ1 t + ut , (20.01)
où t est une tendance temporelle et où ut obéit à un processus ARMA sta-
tionnaire. Alternativement, le calcul des différences sera pertinent lorsque le
DGP pour yt peut s’écrire sous la forme
yt = γ1 + yt−1 + ut , (20.02)
où ut suit également un processus ARMA stationnaire. Si les ut étaient non

autocorrélés, (20.02) serait une marche aléatoire avec dérive, le paramètre de
700
20.1 Introduction 701
dérive étant γ1 . Quoi qu’il en soit, les aléas seront autocorrélés, en général.
Comme nous le verrons prochainement, le fait que le paramètre γ1 apparaisse
à la fois dans (20.01) et (20.02) ne relève absolument pas du hasard.
Le choix entre l’élimination de la tendance et le calcul des différences se
ramène à un choix entre (20.01) et (20.02). Les principales techniques de choix
entre les deux sont des tests variés de ce que l’on appelle les racines unitaires.
La terminologie provient de la littérature consacrée aux processus de séries
temporelles. Souvenons-nous à partir de la Section 10.7 que pour un proces-
sus AR A(L)ut = εt , où A(L) désigne un polynôme en l’opérateur retard,
la stationnarité du processus dépend des racines de l’équation polynômiale
A(L) = 0. Si toutes les racines sont à l’extérieur du cercle unitaire, le pro-
cessus est stationnaire. Si une quelconque racine est égale ou inférieure à 1
en valeur absolue, le processus est non stationnaire. Une racine égale à 1 en
valeur absolue est appelée racine unitaire. Lorsqu’un processus possède une
racine unitaire, comme c’est le cas pour (20.02), on parle de processus intégré
d’ordre un ou I(1). Pour qu’une série I(1) soit stationnaire, il faut calculer
ses différences premières.
Le moyen évident de choisir entre (20.01) et (20.02) consiste à les emboı̂ter
pour obtenir un modèle beaucoup plus général. Il existe un grand nombre de
façons de procéder. Le modèle qui engloberait à la fois (20.01) et (20.02) de
la façon la plus plausible serait
yt = γ0 + γ1 t + vt ; vt = αvt−1 + ut
¡ ¢
= γ0 + γ1 t + α yt−1 − γ0 − γ1 (t − 1) + ut , (20.03)
où ut obéirait à un processus stationnaire. Ce modèle fut préconisé par Bhar-

gava (1986). Lorsque |α| < 1, (20.03) est équivalent au modèle stationnaire
autour d’une tendance (20.01); lorsque α = 1, il devient (20.02).
Parce que (20.03) est non linéaire en ses paramètres, il est commode de
le reparamétriser comme suit
yt = β0 + β1 t + αyt−1 + ut , (20.04)
où
β0 ≡ γ0 (1 − α) + γ1 α et β1 ≡ γ1 (1 − α).
Il est aisé de vérifier que les estimations par moindres carrés de α dans (20.03)
et (20.04) seront identiques, tout comme les écarts types estimés de ces esti-
mations si, dans le cas de (20.03), ces derniers sont basés sur la régression de
Gauss-Newton. Le seul inconvénient de la réparamétrisation de (20.04) est
qu’elle passe entièrement sous silence le fait que β1 = 0 lorsque α = 1.
Si l’on retranche yt−1 aux deux membres, l’équation (20.04) devient
∆yt = β0 + β1 t + (α − 1)yt−1 + ut , (20.05)

702 Racines Unitaires et Cointégration
où ∆ est l’opérateur des différences premières. Si α < 1, (20.05) est équivalent
au modèle (20.01), alors que si α = 1, il est équivalent à (20.02). Ainsi il
est habituel de tester l’hypothèse nulle α = 1 contre l’hypothèse alternative
unilatérale α < 1. Puisqu’il s’agit de tester l’hypothèse nulle de présence d’une
racine unitaire dans le processus qui génère yt , on appelle communément ces
tests des tests de racine unitaire.
A première vue, il semblerait qu’un test de racine unitaire puisse être
exécuté en observant simplement le t de Student ordinaire pour α − 1 = 0
dans (20.05), mais il n’en est rien. Lorsque α = 1, le processus qui génère yt
est intégré d’ordre un. Cela signifie que yt−1 ne satisfera pas les hypothèses
standards nécessaires à l’analyse asymptotique. En conséquence, comme nous
allons le voir bientôt, le t de Student n’est pas asymptotiquement distribué
suivant une N (0, 1). On utilise en fait cette statistique comme un t de Student
habituel, mais on ne l’associe pas aux valeurs critiques usuelles des distribu-
tions de Student ou normale.
La première moitié de ce chapitre est consacrée aux tests de racines uni-
taires. Dans la prochaine section, nous décrivons un certain nombre de tests
de racines unitaires largement diffusés, tous étant basés sur des régressions
comparables à (20.05), et reposant sur l’hypothèse peu réaliste que les aléas
ut ne sont pas autocorrélés. Dans la Section 20.3, nous discutons ensuite de
quelques aspects de la théorie asymptotique qui s’est développée pour ces tests.
Dans la Section 20.4, nous abandonnons l’hypothèse de non autocorrélation
des aléas et discutons d’autres problèmes qui compliquent l’usage des tests de
racines unitaires.
La seconde moitié du chapitre traite du concept fondamental de co-
intégration entre deux ou plusieurs séries, chacune étant I(1). Ce concept est
introduit dans la Section 20.5. Les tests de cointégration, qui sont étroitement
reliés aux tests de racines unitaires, sont abordés dans la Section 20.6. Le fait
que la variable dépendante dans un modèle de régression soit cointégrée avec
un ou plusieurs régresseurs entraı̂ne un certain nombre de conséquences im-
portantes sur le type de modèle qu’il faudrait élaborer. Dans la Section 20.7,
nous discutons des méthodes équation par équation pour l’estimation à l’aide
de séries I(1), et dans la Section 20.8, nous discutons des méthodes basées sur
des autorégressions vectorielles.
20.2 Tests de Racines Unitaires

Les tests de racines unitaires les plus simples et les plus largement utilisés
furent développés par Fuller (1976) et Dickey et Fuller (1979). On se réfère
habituellement à ces tests en tant que tests de Dickey-Fuller, ou tests DF. On
trouvera chez Dickey, Bell, et Miller (1986) un exposé particulièrement brillant
de ces tests. Les tests de Dickey-Fuller se basent sur des régressions telles que
(20.05). Trois régressions comparables sont communément employées, (20.05)
20.2 Tests de Racines Unitaires 703
étant la plus compliquée. Les deux autres sont
∆yt = (α − 1)yt−1 + ut et (20.06)

∆yt = β0 + (α − 1)yt−1 + ut . (20.07)
On peut dériver ces deux régressions exactement de la même manière que

(20.05). La première, (20.06), est extrêmement contraignante, tellement con-
traignante qu’il est difficile d’imaginer que l’on puisse l’employer avec des
séries temporelles économiques. Son seul avantage est qu’elle est plus facile à
analyser que les deux autres régressions. La seconde, (20.07), est également
assez contraignante, mais elle serait intéressante si yt ne possédait aucune
tendance. Remarquons que, dans le cas de (20.07), β0 = 0 dès lors que α = 1,
parce que β0 est en fait γ0 (1 − α).
Il existe deux types distincts de tests DF basés sur chacune des trois
régressions (20.05), (20.06), et (20.07). Un type de test est calculé exacte-
ment comme un t de Student ordinaire pour α − 1 = 0 dans n’importe quelle
régression. Puisque ces statistiques ne suivent pas une distribution de Stu-
dent, même asymptotiquement, on les nomme habituellement statistiques τ
plutôt que t. Nous nommerons les statistiques τ basées sur (20.06), (20.07),
et (20.05): τnc , τc , et τct , respectivement.1 Le second type de tests se base
directement sur l’estimation du coefficient α̂ − 1. La statistique de test est
z = n(α̂ − 1). (20.08)
Par analogie avec les trois statistiques τ , nous noterons znc , zc , et zct les
trois versions principales de la statistique z.
La statistique z (20.08) peut paraı̂tre étrange pour deux raisons: elle ne
dépend pas d’une estimation de σ, et le facteur de normalisation est n plutôt
que n1/2. Pour expliquer la présence de ces deux caractéristiques, considérons
le cas simple, à savoir (20.06). Dans ce cas,
P
yt yt−1
α̂ = P 2 ,
yt−1
où la somme s’applique aux observations allant de 1 à n à condition que y0

soit disponible, et de 2 à n dans le cas contraire. Nous supposerons que y0
est disponible, puisque cela simplifie quelques résultats, et nous supposerons
également que les données sont générées par la marche aléatoire
yt = yt−1 + ut , ut ∼ IID(0, σ 2 ).
1
La notation utilisée pour ces statistiques varie d’un auteur à l’autre. Nous
préférons celle-ci parce qu’elle repose sur un mécanisme mnémotechnique: nc
indique “sans constante,” c “avec constante,” et ct “constante et tendance.”
Cela implique que le DGP est en réalité un cas particulier du modèle estimé.
Afin d’éviter une dépendance infinie vis-à-vis du passé, il est nécessaire de
supposer que y−j est égale à une certaine valeur pour un j ≥ 0 quelconque.
Pour rester concrets et simples, nous supposerons que y−1 = 0.
Sous ces hypothèses,
P 2 P P
yt−1 ut yt−1 ut yt−1
α̂ = P 2 + P 2 =1+ P 2 .
yt−1 yt−1 yt−1
En ordonnant les termes autrement, nous avons
P
ut yt−1
α̂ − 1 = P 2 . (20.09)
yt−1
Il est clair qu’à la fois ut et yt−1 doivent être proportionnels à σ. Ainsi le
numérateur et le dénominateur de (20.09) doivent être proportionnels à σ 2.
Ces facteurs de proportionnalité s’éliminant, nous obtenons une distribution
de α̂ − 1 indépendante de σ. Ce résultat repose sur l’hypothèse selon laque-
lle y−1 est nulle. Si y−1 prend une valeur non nulle, ce résultat n’est vrai
qu’asymptotiquement.
La seconde caractéristique étrange de (20.08), à savoir que le facteur de
normalisation est n plutôt que n1/2, est quelque peu plus délicate à expliquer.
Définissons tout d’abord le processus de somme partielle St comme
t
X
St = us ,
s=0
ce qui nous permet d’écrire2
yt = y−1 + St = St .
En substituant St−1 à yt−1 dans le membre de droite de (20.09), nous obtenons

P
ut St−1
α̂ − 1 = P . (20.10)
St−1 St−1
On peut écrire le numérateur de cette expression comme
n µX
X t−1 ¶
us ut .
t=1 s=0
2
Sans l’hypothèse de nullité de y−1 , la seconde égalité ne serait pas exacte, et
les expressions qui suivent seraient plus compliquées. Cependant, les termes
impliquant y−1 ne seraient pas de la plus haute importance et n’affecteraient
donc pas les résultats finals. Dans les modèles (20.05) et (20.07), aucune hy-
pothèse sur y−1 n’est nécessaire, parce que l’ajout d’un terme constant dans la
régression signifie que les moyennes de toutes les variables ont été éliminées.
20.2 Tests de Racines Unitaires 705
La somme entre parenthèses possède t termes: u0 ut , u1P ut , u2 ut , et ainsi de

n
suite jusqu’à ut−1 ut . La somme totale comprend donc t=1 t = 21 n(n + 1),
soit O(n2 ) termes. Puisque nous avons supposé que les aléas ne sont pas auto-
corrélés, chacun de ces termes doit avoir une espérance nulle. Sous l’hypothèse
qu’un théorème de la limite centrale s’applique à leur somme, l’ordre de cette
somme sera la racine carrée de n2. Ainsi la somme est O(n).
De façon tout à fait comparable, le dénominateur de (20.10) peut s’écrire
comme
Xn µXt−1 Xt−1 ¶
ur us .
t=1 r=0 s=0
Chaque double somme à l’intérieur des parenthèses possède t2 termes. Parmi

ceux-ci, t sont de la forme u2s , et les t2 − t restants ont une espérance nulle.
Ainsi chaque double somme sera O(t), et donc aussi O(n), et aura une
espérance positive. La sommation de n de ces doubles sommes produit donc
une quantité qui doit être O(n2 ). Ainsi nous voyons que le membre de droite
de (20.10) est O(n)/O(n2 ) = O(n−1 ). Nous concluons par conséquent que le
facteur de normalisation n dans (20.08) est précisément ce qui est nécessaire
pour garantir que la statistique de test z soit O(1) sous l’hypothèse nulle.
L’analyse des régressions (20.07) ou (20.05) est encore plus compliquée
que pour (20.06), mais la conclusion est identique: α̂ − 1 doit être normalisé
par un facteur de n plutôt que par un facteur de n1/2. Cela montre assez
clairement que la théorie asymptotique standard ne s’applique pas aux statis-
tiques τ dont α̂ − 1 est le numérateur. Et la théorie asymptotique standard
ne s’applique certainement pas davantage aux statistiques z elles-mêmes. En
réalité, comme nous le verrons dans la section qui suit, les six statistiques
de test dont nous avons discuté jusqu’à présent ont toutes des distributions
asymptotiques différentes.
Il n’y a aucune raison de baser les tests de racine unitaire uniquement sur
les régressions (20.05), (20.06), ou (20.07). En particulier, il est parfaitement
valable d’ajouter d’autres régresseurs non stochastiques, tels que les variables
muettes saisonnières, dans ces régressions. Il n’est pas pertinent d’ajouter
des variables muettes à (20.06), puisqu’il n’y a pas de terme constant dans
le modèle sur lequel elle se base. Cependant, c’est une stratégie pertinente
pour (20.05) ou (20.07). Parce que les variables muettes saisonnières sont du
même ordre que la constante, leur présence ne modifie pas asymptotiquement
les distributions des statistiques de test.
Il est également envisageable d’ajouter des puissances de la tendance.
Le modèle stationnaire autour d’une tendance (20.01) peut se généraliser en
ajoutant t2 en tant que variable supplémentaire, impliquant donc que yt est
stationnaire autour d’une tendance quadratique. Identiquement, la marche
aléatoire avec dérive (20.02) peut se généraliser en ajoutant une tendance
temporelle linéaire, permettant à la dérive de varier dans le temps. Un modèle
combiné qui emboı̂te les deux modèles peut s’écrire, après la reparamétrisation
classique, comme
∆yt = β0 + β1 t + β2 t2 + (α − 1)yt−1 + ut . (20.11)
Comme on peut s’y attendre d’après ce qui survient pour (20.05) et (20.07),
β2 = 0 lorsque α = 1 dans ce modèle. Les tests basés sur (20.11), et sur
des équations possédant encore plus de puissances de la tendance, furent
préconisés par Ouliaris, Park, et Phillips (1989). Les deux statistiques de
test pour α = 1 basées sur (20.11) seront notées zctt et τctt , où ctt indique
“avec constante, tendance, et tendance quadratique.” Parce que la tendance
quadratique augmente plus rapidement avec t que ne le font la constante et la
tendance linéaire, les distributions asymptotiques de ces tests sont différentes
de celles des autres tests que nous avons abordés.
20.3 Théorie Asymptotique et Tests de Racine Unitaire

La théorie asymptotique pour des régressions qui impliquent des variables
I(1), ce qui comprend les régressions sur lesquelles sont basés les tests de
racines unitaires, est très différente de la théorie asymptotique plus clas-
sique que nous avons exploitée jusqu’à présent dans cet ouvrage. Il est
par conséquent impossible dans cette section de faire davantage qu’exposer
quelques résultats importants et d’essayer de donner l’intuition de leur va-
lidité. Les articles de référence sont dans ce domaine ceux de Dickey et Fuller
(1979), Phillips (1987), et Phillips et Perron (1988). Banerjee, Dolado, Gal-
braith, et Hendry (1993) apportent une introduction abordable des résultats
de base.
Les théorèmes de la limite centrale classiques, tellement utiles pour les
estimateurs qui approchent leur véritable valeur à des taux proportionnels à
n−1/2, ne sont plus d’aucune utilité avec les tests de racines unitaires. Au
lieu de cela, il est nécessaire d’employer ce que l’on appelle des théorèmes de
la limite centrale fonctionnels, parce qu’ils impliquent le calcul de la limite
de certaines quantités dans un espace fonctionnel; voir Billingsley (1968) ou
Hall et Heyde (1980). Nous n’essaierons pas de démontrer un quelconque
théorème de la limite centrale fonctionnel, ni même de l’établir formellement.
Cependant, nous tenterons de donner l’intuition de tels théorèmes dans ce
contexte.
L’idée fondamentale qui permet l’utilisation des théorèmes de la limite
centrale fonctionnels est l’idée d’une application d’une suite {0, 1, 2, . . . , n},
qui indice les observations, vers l’espace fermé [0, 1]. Supposons que l’on divise
cet intervalle en n + 1 portions, avec des divisions en 1/(n + 1), 2/(n + 1), et
ainsi de suite. Nous pouvons donc associer l’observation 0 au sous-intervalle
0 ≤ r < 1/(n + 1), l’observation 1 au sous-intervalle 1/(n + 1) ≤ r < 2/(n + 1),
et ainsi de suite. Au fur et à mesure que n augmente et tend vers l’infini,
20.3 Théorie Asymptotique et Tests de Racine Unitaire 707
chaque sous-intervalle tend vers zéro. Ainsi si [rn] désigne l’entier le plus
grand inférieur à rn, pour r ∈ [0, 1], nous trouvons que
1
[r(n + 1)] = 0 pour 0 ≤ r < ,
n+1
1 2
[r(n + 1)] = 1 pour ≤r< ,
n+1 n+1
et ainsi de suite jusqu’à

n
[r(n + 1)] = n pour ≤ r < 1.
n+1
Ainsi chaque réel r dans l’intervalle [0, 1] est associé à un et un seul indice
0, 1, . . . , n.
Considérons à présent le processus de somme partielle standardisé
[r(n+1)]
1 1 X
Rn (r) ≡ √ S[r(n+1)] ≡ √ us , r ∈ [0, 1].
σ n σ n s=0
Il s’agit simplement du processus de somme partielle ordinaire rencontré dans

la section précédente, divisé par l’écart type des ut et par la racine carrée de
la taille de l’échantillon, et indicé par r plutôt que par t. On peut montrer
à l’aide d’un théorème de la limite centrale fonctionnel que, sous des condi-
tions relativement souples sur les ut , Rn (r) converge vers ce que l’on appelle
un processus de Wiener standard et que l’on note W (r). Intuitivement, un
processus de Wiener est comparable à une marche aléatoire continue définie
sur l’intervalle [0, 1]. Malgré sa continuité, il varie de façon erratique à chaque
sous-intervalle, et chaque incrément est indépendant des autres. Une propriété
quelquefois intéressante est que pour un r fixé, W (r) ∼ N (0, r).
Les principaux résultats sur les propriétés asymptotiques des statistiques
de tests de racines unitaires sont que, sous l’hypothèse nulle de racine uni-
taire, elles convergent vers des fonctions variées des processus de Wiener.
Malheureusement, de telles fonctions possèdent des distributions que l’on ne
peut pas en général exprimer de manière commode, et doivent être évaluées
numériquement. Pour donner une idée de l’aspect des résultats théoriques
sur les propriétés asymptotiques des statistiques de test, nous énonçons les
principaux résultats de Phillips (1987) pour les statistiques znc et τnc :
¡ 2
1
¢
2W (1) − 1
znc ⇒ R1 (20.12)
0
W 2 (r)dr
1
¡ 2 ¢
2 W (1) − 1
τnc ⇒³ ´1/2 . (20.13)
R1
2
W (r)dr
0
Ici le symbole ⇒ désigne la convergence faible dans un espace fonctionnel, qui

est l’analogue de la convergence en distribution. Des résultats comparables
pour les statistiques de test zc , zct , τc , et τct sont détaillés par Phillips et
Perron (1988).
L’une des caractéristiques majeures de ces résultats est qu’ils ne dépen-
dent pas de l’hypothèse d’homoscédasticité des aléas ut . Les distributions
asymptotiques des statistiques de test dont nous avons discuté sont identiques
que les aléas manifestent une hétéroscédasticité de forme inconnue ou soient
homoscédastiques. Malgré tout, il est essentiel qu’il n’y ait aucune corrélation
entre ut et ut−j pour tout j 6= 0. Ainsi les statistiques de test dont nous avons
parlé ne sont pas valables lorsque les aléas sont autocorrélés. En présence
d’autocorrélation, il faut adapter les statistiques de test pour en tenir compte.
Nous discuterons dans la section suivante de deux moyens de les modifier.
Bien que des résultats comme (20.12) et (20.13) soient d’un intérêt
théorique considérable, ils ne sont pas très utiles dans la pratique, parce que
les distributions des quantités du membre de droite ne sont pas connues ana-
lytiquement. Toutefois, des valeurs critiques pour les huit statistiques de test
examinées ont été tabulées à l’aide de méthodes numériques nombreuses, dont
les simulations Monte Carlo. La référence la plus connue est Fuller (1976), où
quelques valeurs critiques asymptotiques pour τnc , τc , τct , ainsi que celles cor-
respondant aux tests en z, sont tabulées, conjointement aux valeurs critiques
en échantillon fini pour les quelques tailles d’échantillons retenues. Kiviet et
Phillips (1990) montrent que les distributions en échantillon fini des tests en z
peuvent se calculer numériquement, d’une manière très comparable à celle qui
permet le calcul des distributions en échantillon fini de la statistique Durbin-
Watson (Section 10.8), et ils tabulent quelques valeurs critiques à l’aide de
cette méthode. Nabeya et Tanaka (1990) montrent comment on peut calculer
analytiquement les distributions asymptotiques des statistiques z et tabulent
un certain nombre de valeurs critiques pour znc , zc , et zct . MacKinnon (1991)
emploie des méthodes Monte Carlo pour estimer des surfaces de réponse (voir
la Section 21.7) pour quelques tests en τ . Ces méthodes permettent une lec-
ture immédiate des valeurs critiques pour n’importe quelle taille d’échantillon,
aussi bien que pour n = ∞.
Hélas, toutes les valeurs critiques en échantillon fini pour les tests de
racine unitaire dépendent d’au moins une hypothèse irréaliste sur les aléas,
à savoir qu’ils sont NID(0, σ 2 ). Les valeurs critiques asymptotiques, au con-
traire, sont valables dans un contexte beaucoup plus général, puisqu’elles ne
reposent ni sur la normalité ni sur l’homoscédasticité. Ainsi il semble plus
prudent d’employer des valeurs critiques asymptotiques, de les traiter avec
précaution, plutôt que de se fier à des valeurs d’échantillon fini qui peuvent
se révéler tout à fait inadéquates dans la pratique.
Le Tableau 20.1 fournit quelques valeurs asymptotiques, calculées à l’aide
de méthodes comparables à celles employées par MacKinnon (1991), pour
les huit statistiques de test différentes abordées. La plupart des valeurs cri-
20.3 Théorie Asymptotique et Tests de Racine Unitaire 709
Tableau 20.1 Valeurs Critiques Asymptotiques pour les Tests de Racine Unitaire
Statistique de Test 1% 2.5% 5% 10% 97.5%
τnc −2.56 −2.23 −1.94 −1.62 1.62

τc −3.43 −3.12 −2.86 −2.57 0.24
τct −3.96 −3.66 −3.41 −3.13 −0.66
τctt −4.37 −4.08 −3.83 −3.55 −1.21
znc −13.7 −10.4 −8.0 −5.7 1.6
zc −20.6 −16.9 −14.1 −11.2 0.4
zct −29.4 −25.1 −21.7 −18.2 −1.8
zctt −36.6 −31.8 −28.1 −24.2 −4.2
tiques correspondent à celles de la queue de gauche de la distribution, étant

donné que l’hypothèse alternative contre laquelle le test de racine unitaire est
mené est presque toujours que le processus est stationnaire, plutôt qu’explosif.
Ces valeurs diffèrent légèrement de celles publiées par Fuller (1976). Les
différences, que l’on peut attribuer en première approximation à l’aspect
aléatoire de la simulation, ne sont jamais supérieures à deux unités dans le
dernier chiffre pertinent, et ne devraient donc pas avoir de conséquence dans
les applications pratiques.
Il est clair d’après le Tableau 20.1 que le comportement asymptotique
des statistiques de test de racine unitaire est très différent du comportement
de n’importe quelle autre statistique de test rencontrée jusqu’à présent. Sup-
posons que α0 désigne la véritable valeur de α. Dans le cas stationnaire,
lorsque |α0 | < 1, un t de Student pour α = α0 serait asymptotiquement dis-
tribué suivant la N (0, 1) sous l’hypothèse nulle. Ainsi les valeurs critiques à
2.5% et 97.5% pour un tel test seraient ±1.96. On peut comparer ces valeurs
avec les valeurs critiques des tests en τ données par le tableau. Les valeurs
critiques à 2.5% sont toujours inférieures à −1.96 et deviennent de plus en
plus faibles lorsque l’on ajoute des régresseurs à la régression de test. Iden-
tiquement, les valeurs critiques à 97.5% sont toujours inférieures à 1.96 et en
fait négatives pour les statistiques de test τct et τctt .
La Figure 20.1 illustre la fonction de répartition de la statistique τct
pour le cas où n = 1000, qui est pratiquement indiscernable du cas asympto-
tique. Cette courbe trace en fait les points obtenus empiriquement par une
expérience Monte Carlo; compte tenu du nombre de simulations, qui était
de 5 millions, l’erreur expérimentale est négligeable. Par comparaison, nous
avons également reporté la fonction de répartition de la normale centrée et
réduite. Les différences entre les deux sont frappantes, la c.d.f. de τct basée
sur une expérience Monte Carlo étant toujours bien à gauche de celle de la
normale centrée réduite. La principale raison de ce décalage provient du fait
que α̂ est sérieusement biaisée vers 0 lorsque α0 = 1. Ce biais provoque des
conséquences graves sur la puissance de ces tests à rejeter l’hypothèse nulle
1.0 ............................
............ ..
................
........ ...........
..
.. ..
.. .
.
.........
.
....
. ..
.....
.... ....
. .... ..
......
. .
0.8 ... ....
.. ...
... ....
.
.. .
...
c.d.f. de τct ............................................... .
...
...
.
... .
...
.. ...
0.6 ... ....
. .
... .
...
.. ...
... . ...
. .
... ...
.
.. ...
.. ...
... ...
0.4 ..
... ...
...
... .....
. .
... ... .................................... c.d.f. de N (0, 1)
.. ... ....
... .....
... ....
0.2 ... ....
..... .
.......
... .
.. 0.05 .... ....
..... .... .....
.
...... .... ...
.......
..... ........
. .
........
....... ...........
............ ..................
................................................................................................................................................
0.0 ..........
....
..........
....
.
... ...
−5 −4 −3
...
.. −2 ...
..−1 0 1 2
−3.41 −1.645
Figure 20.1 Distribution de τct pour n = 1000
de racine unitaire. Par exemple, si l’on effectue un test unilatéral au niveau

de 5%, les valeurs critiques asymptotiques pour zc , zct , et zctt sont, respec-
tivement, −14.1, −21.7, et −28.1. Ainsi, si n = 100, α̂ doit être inférieure à
0.859, 0.783, et 0.719 dans ces trois situations pour que l’hypothèse nulle soit
rejetée. A l’évidence, la puissance des tests de racine unitaire peut être faible
si les données sont en réalité générées par un modèle stationnaire en tendance
dont les aléas sont autocorrélés.
Nous avons noté à plusieurs reprises que, sous l’hypothèse nulle que
α = 1, les paramètres β0 dans la régression (20.07), β1 dans la régression
(20.05), et β2 dans la régression (20.11) doivent être nuls. Notons βk les
paramètres qui doivent être nuls dans une régression de test; ici k = 0 si
seulement une constante est ajoutée, et k est égal au nombre des termes
de tendance ajoutés dans le cas contraire. Le résultat que βk = 0 provient
directement de la manipulation algébrique qui conduit à ces régressions en
tant que versions reparamétrisées de régressions telles que (20.03), puisque
βk = (1 − α)γk . Cependant, il existe une explication beaucoup plus profonde.
La présence d’une racine unitaire accroı̂t l’ordre de yt . Il en va de même
lorsque l’on ajoute une constante, une tendance, et une tendance quadratique.
Si l’on veut préserver l’ordre de yt dans l’hypothèse nulle de racine unitaire
et dans l’hypothèse alternative de stationnarité autour d’une tendance, il est
nécessaire d’ajouter à la régression de test un certain régresseur déterministe
associé à un coefficient nul sous l’hypothèse nulle et non nul sous l’hypothèse
alternative. Par exemple, considérons (20.05), pour laquelle k = 1. Sous
l’hypothèse nulle, cette régression devient
∆yt = β0 + β1 t + ut .
20.4 Autocorrélation et Problèmes Connexes 711
Sous l’hypothèse alternative de stationnarité, nous savons que ∆yt doit être
O(1). Par ailleurs, le terme de tendance est O(n). Le seul moyen de conserver
l’ordre de ∆yt dans les hypothèses nulle et alternative est que β1 soit nul dans
la première.
Tous les résultats asymptotiques des tests de Dickey-Fuller reposent sur
l’hypothèse de nullité de βk . Cette hypothèse peut être inadaptée lorsqu’il y
a une racine unitaire uniquement lorsque le DGP n’est pas un cas particulier
du modèle que l’on teste. Par exemple, si k = 0 et si le DGP comprend un
terme de dérive γ1 , la constante β0 dans le modèle que l’on teste serait non
nulle. Dans tout cas comparable où βk 6= 0, les résultats asymptotiques sont
considérablement modifiés, comme l’a montré West (1988). En l’occurrence,
dans de telles circonstances, les t de Student pour α = 1 sont véritablement
distribués asymptotiquement suivant une normale centrée réduite.
Malgré la puissance de ce résultat, il n’est pas très utile. Il pose deux
problèmes. En premier lieu, la distribution normale n’offre une bonne approx-
imation aux distributions en échantillon fini des tests de racine unitaire en τ
que si βk est important par rapport à σ. Hylleberg et Mizon (1989) et Kwia-
towski et Schmidt (1990) mettent ce résultat en évidence à l’aide d’expériences
Monte Carlo dans les cas où k = 0 et k = 1, respectivement. Lorsque βk /σ
et n sont dans l’ordre de grandeur que l’on rencontre habituellement dans
les séries économiques chronologiques, ils trouvent que les distributions DF
approximent beaucoup mieux les distributions des statistiques τ que ne le fait
la distribution normale centrée réduite. En second lieu, les tests de racine
unitaire basés sur des régressions où βk 6= 0 manquent chroniquement de
puissance. En vérité, pour k ≥ 1 la puissance de tels tests s’annulle lorsque
n → ∞. Ainsi, asymptotiquement, ils ne rejettent jamais l’hypothèse nulle
lorsqu’elle est inexacte, bien qu’ils puissent la rejeter lorsqu’elle est vraie.
Perron (1988) et Campbell et Perron (1991) discutent de ce résultat.
20.4 Autocorrélation et Problèmes Connexes

Tous les tests de racine unitaire rencontrés jusqu’à présent ne sont valables que
sous l’hypothèse de non autocorrélation des aléas des régressions de test. Cette
hypothèse est très souvent peu pertinente, parce que les fonctions de régression
dans les régressions de test ne dépendent d’aucune variable économique. Cela
rend très probable une autocorrélation des aléas. Par conséquent, nous avons
besoin de tests de racine unitaire qui sont valables (asymptotiquement) en
présence d’autocorrélation. Il y a deux manières différentes de calculer de tels
tests. Il se trouve, et cela peut paraı̂tre surprenant, que les nouveaux tests
ont la même distribution asymptotique que certains des tests dont nous avons
déjà discuté.
Les tests de racine unitaire les plus simples valables en présence d’auto-
corrélation de forme inconnue sont des versions modifiées des tests en τ de
Dickey-Fuller. On les appelle souvent tests de Dickey-Fuller augmentés, ou

tests ADF. Ils furent proposés initialement par Dickey et Fuller (1979) sous
l’hypothèse que les aléas suivent un processus AR d’ordre inconnu. Un travail
ultérieur de Said et Dickey (1984) et Phillips et Perron (1988) montra qu’ils
sont valables asymptotiquement sous des conditions moins contraignantes.
Considérons les régressions de test (20.05), (20.06), (20.07), ou (20.11). Nous
pouvons écrire n’importe quelle régression sous la forme
∆yt = Xt β + (α − 1)yt−1 + ut , (20.14)
où Xt est composée de l’ensemble des régresseurs non stochastiques corres-

pondant à la régression de test: l’ensemble vide pour (20.06), une constante
pour (20.07), une constante et une tendance linéaire pour (20.05), et ainsi de
suite.
Supposons à présent, par souci de simplicité, que l’aléa ut dans (20.14)
obéisse au processus AR(1) stationnaire ut = ρut−1 + εt . Alors (20.14)
déviendrait
∆yt = Xt β − ρXt−1 β + (ρ + α − 1)yt−1 − αρyt−2 + εt

= Xt β ∗ + (ρ + α − 1 − αρ)yt−1 + αρ(yt−1 − yt−2 ) + εt (20.15)
= Xt β ∗ + (α − 1)(1 − ρ)yt−1 + αρ∆yt−1 + εt . (20.16)
Nous pouvons remplacer Xt β −ρXt−1 β par Xt β ∗ dans (20.15), pour un choix

quelconque de β ∗, parce que chaque colonne de Xt−1 appartient à S(X). Ceci
provient du fait que Xt ne peut comprendre que des variables déterministes
telles que la constante, une tendance linéaire, et d’autres (voir la Section 10.9).
Ainsi chaque composante de β ∗ est une combinaison linéaire des composantes
de β.
L’équation (20.16) est une régression linéaire de ∆yt sur Xt , yt−1 , et
∆yt−1 . C’est simplement la régression originelle (20.14), avec un régresseur
supplémentaire, ∆yt−1 . L’ajout de ce régresseur provoque le remplacement
de l’aléa ut autocorrélé par l’aléa εt non autocorrélé. La version ADF de
la statistique τ , que nous appellerons statistique τ 0 , est simplement le t de
Student ordinaire correspondant au test de nullité du coefficient de yt−1 dans
(20.16). Si l’autocorrélation des aléas de (20.14) était modélisée complètement
par un processus AR(1), la statistique τ 0 aurait exactement la même distri-
bution asymptotique que la statistique DF τ ordinaire, pour une spécification
de Xt identique. Le fait que le coefficient de yt−1 soit (α − 1)(1 − ρ) plutôt
que α − 1 n’est pas un problème en soi. Parce que nous avons supposé que
|ρ| < 1, ce coefficient ne peut être nul que si α = 1. Ainsi un test de nullité
du coefficient de yt−1 est équivalent à un test de α = 1.
Il est évidemment très aisé de calculer les statistiques τ 0 à l’aide de
régressions comme (20.16), mais il est plus difficile de calculer les statistiques
z 0 correspondantes. Si le coefficient de yt−1 était multiplié par n, le résultat
serait n(α̂ − 1)(1 − ρ̂) plutôt que n(α̂ − 1). Cette statistique de test n’aurait
clairement pas la même distribution asymptotique que z. Bien qu’il soit pos-
sible de calculer des statistiques z 0 à partir de régressions telles que (20.16),
cela est loin d’être facile à réaliser; consulter Dickey, Bell, et Miller (1986).
Ainsi, dans la pratique, les tests en τ 0 sont plus largement répandus alors que
les tests en z 0 ne sont presque jamais employés.
Dans cet exemple simple, nous pouvons gérer l’autocorrélation en ajou-
tant un régresseur, ∆yt−1 , à la régression de test. Il est aisé de voir
que si ut obéit à un processus AR(p), nous devrions associer p régresseurs
supplémentaires à la régression, ∆yt−1 , ∆yt−2 , et ainsi de suite jusqu’à ∆yt−p .
Mais que se passe-t-il si les aléas suivent un processus MA ou ARMA? Dans
ces cas, la composante de moyenne mobile des aléas ne serait modélisée que
par un processus AR d’ordre infini, de sorte qu’il semble falloir ajouter une
infinité de valeurs retardées de ∆yt . Cela est impossible, bien évidemment.
Par chance, nous n’avons pas besoin de recourir à une procédure aussi radi-
cale. Comme l’ont montré Said et Dickey (1984), on peut utiliser à raison les
tests ADF même lorsqu’il y a une composante de moyenne mobile dans les
aléas, à condition de laisser tendre le nombre des retards de ∆yt compris dans
la régression vers l’infini à un taux inférieur à n1/3. Il s’agit simplement de
considérer que les aléas suivent un processus AR(p), et de faire en sorte que
la croissance de p ne soit pas supérieure à n1/3.
Dans la pratique, bien sûr, étant donné que n est fixé et ne tend pas vers
l’infini, la connaissance du taux critique de n1/3 n’aide pas beaucoup au choix
de p. De plus, un économètre ne connaı̂t pas le processus qui a réellement
généré les aléas. Ainsi, la stratégie habituelle consiste à ajouter autant de re-
tards de ∆yt qu’il est nécessaire pour éliminer une quelconque autocorrélation
des aléas. Les expériences Monte Carlo (Schwert, 1989) suggèrent que les tests
ADF réalisent de bonnes performances sous l’hypothèse nulle même lorsque le
processus générateur des aléas comprend une composante de moyenne mobile.
Le second moyen d’obtenir des statistiques de test de racine unitaire va-

lables malgré la présence d’une autocorrélation de forme inconnue réside dans
l’emploi des tests de racine unitaire non paramétriques de Phillips (1987) et
Phillips et Perron (1988). Dans cette approche, les statistiques de test sont
basées sur la régression de test d’origine (20.14), mais elles sont modifiées de
telle manière que l’autocorrélation ne perturbe pas leurs distributions asymp-
totiques. Ces tests sont dénommés “non paramétriques” parce qu’aucune
spécification du processus générateur des aléas n’est nécessaire.
La statistique z non paramétrique correspondant à une spécification quel-
conque de la matrice X dans (20.14) peut s’écrire
n2 (ω̂ 2 − σ̂ 2 )
z ∗ = n(α̂ − 1) − . (20.17)
2y>MX y
Cette statistique est simplement la statistique z ordinaire, corrigée d’un terme
qui tend vers zéro asymptotiquement en l’absence d’autocorrélation. Ici, σ̂ 2
désigne n’importe quelle estimation convergente de σ 2 et ω̂ 2 n’importe quelle

estimation convergente de
³ ´
1 ¡ 2¢
ω 2 ≡ lim −n
E Sn .
n→∞
Sans autocorrélation, ω 2 = σ 2 du fait que

µX
n X
n ¶
¡ ¢
E Sn2 =E us ut = nσ 2.
s=1 t=1
Avec autocorrélation, cependant, ω 2 différera de σ 2, parce que E(us ut ) 6= 0

pour au moins un t 6= s quelconque.
Le calcul de z ∗ telle qu’elle est définie par (20.17) n’est pas entièrement
immédiat, parce qu’il y a un choix multiple pour ω̂ 2. Le problème de
l’estimation de ω 2 est identique à celui de l’estimation des matrices de cova-
riance en présence d’hétéroscédasticité et d’autocorrélation de formes incon-
nues. Nous avons vu la manière de procéder dans la Section 17.5. Une tech-
nique particulièrement simple fût suggérée par Newey et West (1987a). Grâce
à celle-ci, l’estimation de ω 2 est
Ã
n p µ X
n ¶!
1
X X
ω̂ 2 = −
n
û2t + 2 wjp ût ût−j , (20.18)
t=1 j=1 t=j+1
où wjp = 1−j/(p+1). D’autres fonctions de pondération pourraient convenir,

tant qu’elles maintiennent la positivité de ω̂ 2 . Le paramètre p de troncature
des retards ne doit pas croı̂tre à un taux supérieur à n1/4 afin que ω̂ 2 soit une
estimation convergente de ω 2.
Les statistiques τ non paramétriques sont obtenues par une modification
des statistiques τ ordinaires identique à celle qui transforme z en z ∗ :
σ̂τ n(ω̂ 2 − σ̂ 2 )
τ∗ = − . (20.19)
ω̂ 2 ω̂ y>MX y
Dès lors que les quantités nécessaires au calcul de z ∗ sont disponibles, il est
aisé de calculer τ ∗ . Cependant, quelques résultats empiriques — voir Phillips
et Perron (1988) et Schwert (1989) — montrent que les statistiques z ∗ tendent
à avoir plus de puissance que les statistiques ADF τ 0 et τ ∗ non paramétriques.
Puisque différents utilisateurs peuvent très bien choisir des valeurs dif-
férentes de p, ou employer des poids wjp différents, ils peuvent obtenir des
valeurs différentes de z ∗ ou τ ∗ pour des données identiques. Ceci est tout
à fait contrariant mais inévitable. Pour compliquer davantage les choses, il
existe d’autres techniques d’estimation de ω 2, en plus de celle que procure
(20.18). Certaines d’entre elles possèdent de bonnes propriétés, mais d’autres
possèdent quelques défauts rédhibitoires; voir Andrews (1991a, 1991b) et Ou-

liaris, Park, et Phillips (1989), parmi d’autres auteurs. Les propriétés en
échantillon fini de ces différentes techniques peuvent différer substantielle-
ment. Toutefois, elles semblent être relativement pauvres pour au moins
quelques spécifications du processus générateur des aléas (Schwert, 1989). Par
ailleurs, les distributions asymptotiques des statistiques τ 0 n’approximent pas
toujours de façon satisfaisante leur comportement en échantillon fini, mais
celui-ci n’est jamais aussi mauvais que le comportement des statistiques z ∗
et τ ∗ .
Puisqu’il existe un grand nombre de façons de calculer des statistiques
de test de racine unitaire non paramétriques, aucune ne possédant de bonnes
propriétés en échantillon fini sous l’hypothèse nulle dans tous les cas, il est
potentiellement dangereux de se fier à ces statistiques. Avant de procéder à des
inférences importantes sur la base d’une ou de plusieurs d’entre elles, il serait
judicieux de mener une expérience Monte Carlo (voir le Chapitre 21) pour
évaluer leurs performances avec des données comparables à celles utilisées.
L’autocorrélation n’est pas le seul problème qui entrave le chemin de celui
qui tente de calculer des statistiques de test de racine unitaire. Un problème
extrêmement sérieux est que ces statistiques souffrent d’une incapacité quasi
totale à rejeter l’hypothèse nulle lorsqu’elles sont employées sur des données
désaisonnalisées à l’aide de filtres linéaires ou de méthodes propres aux agences
de statistiques officielles. Dans la Section 19.6, nous discutions de la tendance
des estimations OLS de α dans la régression yt = β0 + αyt−1 + ut à être
biaisées vers 1 lorsque yt est une série désaisonnalisée. Ce biais est présent
dans toutes les régressions de test rencontrées jusqu’ici. Même lorsque α̂ n’est
pas véritablement biaisée vers 1, elle le sera toujours plus que l’estimation
correspondante correspondante employant des séries brutes. Etant donné que
les distributions tabulées des statistiques de test se basent sur le comportement
de α̂ pour ce dernier cas de figure, il est fort probable que des statistiques
de test calculées à l’aide de séries ajustées par saison rejetteront l’hypothèse
nulle beaucoup moins souvent qu’elles ne le devraient, compte tenu des valeurs
critiques du Tableau 20.1. C’est exactement ce que Ghysels et Perron (1992)
trouvent après une série d’expériences Monte Carlo.
Si cela est possible, il faut éviter de manipuler des données ajustées par
saison dans le calcul des tests de racine unitaire. Une possibilité consiste à
employer des données annuelles. Cela peut provoquer un rétrécissement de
l’échantillon, mais les conséquences de cette stratégie sont moins graves que ce
que l’on peut craindre. Shiller et Perron (1985) insistent sur le fait que c’est
davantage l’étendue des données (c’est-à-dire le nombre d’années couvert par
l’échantillon) que le nombre des observations qui détermine la puissance des
tests. La raison en est que si α est en réalité positif, mais inférieur à 1, il
sera plus proche de 1 lorsque les données sont observés plus fréquemment.
Ainsi un test basé sur n observations annuelles peut n’avoir qu’un manque
de puissance léger par rapport à un test basé sur 4n observations brutes, et
même avoir un supplément de puissance par rapport à un test basé sur 4n

observations de données ajustées par saison.
Si l’on emploie des données mensuelles ou trimestrielles, il faudrait
qu’elles ne fussent pas ajustées. Malheureusement, comme nous l’avons re-
marqué dans le Chapitre 19, des données brutes pour de nombreuses séries
temporelles sont introuvables pour de nombreux pays. De plus, l’usage de
variables non ajustées par saison rend pratiquement nécessaires l’emploi de
variables muettes saisonnières dans la régression et la prise en compte d’une
autocorrélation à l’ordre quatre ou douze.
Un second problème majeur avec les tests de racine unitaire est qu’ils sont
sensibles à l’hypothèse de stabilité du processus générateur des données sur
l’échantillon entier. Perron (1989) montra que la puissance des tests de racine
unitaire chute brutalement si le niveau ou la tendance d’une série est modifié
de manière exogène à un quelconque moment de la période d’observation. Bien
que la série soit stationnaire sur les deux sous-échantillons, il est pratiquement
impossible de rejeter l’hypothèse nulle qu’elle est I(1) dans de tels cas.
Perron proposa par conséquent des techniques que l’on peut employer
pour tester les racines unitaires conditionnellement à des modifications exo-
gènes en niveau ou en tendance. Ses tests s’effectuent en régressant yt sur
une constante, une tendance linéaire, et une ou deux variables muettes qui
permettent soit à la constante soit à la tendance, soit aux deux, de varier à
partir d’un point particulier du temps. Les résidus de ces régressions sont alors
utilisés dans une régression comme (20.06), et les statistiques z, τ , z ∗, et τ ∗
habituelles sont calculées. Les distributions asymptotiques de ces statistiques
ne sont pas les mêmes que celles de zct et τct , contrairement à ce qu’elles
seraient en l’absence de variables muettes dans les régressions initiales (à cause
du Théorème FWL). Au lieu de cela, elles dépendent des variables muettes
dont on se sert et de l’endroit où s’opère le changement dans l’échantillon.
Des valeurs critiques asymptotiques sont tabulées par Perron (1989).
Un grand nombre de recherches empiriques, suite à l’article de Nelson
et Plosser (1982), semble avoir montré que les racines unitaires caractérisent
un grand nombre de séries macroéconomiques. Perron y opposa l’idée que la
prise en compte de la grande dépression de 1929 (en ce qui concerne les séries
annuelles antérieures à 1973) ou du choc pétrolier (en ce qui concerne les séries
trimestrielles d’après-guerre) modifiait radicalement les résultats et montra
que la plupart des séries macroéconomiques américaines ne possédaient pas
de racine unitaire. Il n’est pas tout à fait évident que cette théorie polémique
résiste à la multiplication des tests.
Il y a eu un développement important des travaux empiriques faisant ap-
pel aux tests de racine unitaire; les exemples majeurs sont Nelson et Plosser
(1982), Mankiw et Shapiro (1985), Campbell et Mankiw (1987), Perron et
Phillips (1987), et DeJong et Whiteman (1991). Du fait des nombreux
problèmes dont nous avons discuté, et parce que des tests différents ten-
dent à produire des résultats différents, il est difficile d’établir des inférences
20.5 Cointégration 717
définitives sur la présence ou l’absence de racines unitaires dans les séries

économiques temporelles. Cela suggère que, lorsque l’on tente d’élaborer des
modèles de régression que l’on estime à l’aide de séries temporelles possédant
éventuellement une racine unitaire, il ne faudrait pas adopter une stratégie
performante uniquement si les données sont soit I(0) soit I(1). Nous revien-
drons sur ce point dans la Section 20.8. Avant d’envisager ce problème, nous
devons aborder le thème fondamental de la cointégration.
20.5 Cointégration
La théorie économique suggère souvent que certaines paires de variables
économiques doivent être liées par une relation d’équilibre de long terme. Bien
que ces variables puissent s’éloigner de l’équilibre un certain temps, on s’attend
à ce que des forces économiques rétablissent en quelque sorte l’équilibre. On
trouve parmi ces relations celle des taux d’intérêts aux actifs à échéances
différentes, celle des prix de biens de consommation comparables dans des
pays différents (si les taux de change sont stables en longue période), celle du
revenu disponible et de la consommation, celle des dépenses gouvernementales
et des impôts, celle des salaires et des prix, celle de la demande de monnaie
et du niveau des prix, ou encore celle des prix spot et futur d’un bien. Il n’y
a aucune raison de se limiter à des paires de variables, bien sûr, bien que cela
soit plus facile à gérer. Il peut très bien exister des groupes de trois variables,
ou quatre, ou même davantage, que l’on imagine liées par une relation de long
terme.
La plupart des variables mentionnées dans le premier paragraphe sont
I(1), ou du moins donnent l’apparence d’être non stationnaires lorsque cer-
tains tests de racine unitaire (mais pas nécessairement tous) sont utilisés.
Nous savons que des variables I(1) tendent à diverger lorsque n → ∞, parce
que leur variance non conditionnelle est proportionnelle à n. Ainsi il semble
que de telles variables n’obéissent jamais à une quelconque relation d’équilibre
de long terme. Cependant, il est possible que certaines variables soient I(1)
et que, malgré cela, des combinaisons linéaires de ces variables soient I(0). Si
c’est le cas, on parle de variables cointégrées. Si deux ou plusieurs variables
sont cointégrées, elles doivent suivre un sentier d’équilibre de long terme, bien
qu’en court terme elles puissent diverger substantiellement de l’équilibre. Le
concept de cointégration est fondamental à la compréhension des relations
d’équilibre de long terme entre les variables économiques temporelles. C’est
également un concept assez récent. La référence la plus lointaine est Granger
(1981), l’article le plus connu étant Engle et Granger (1987), et deux articles
relativement accessibles sont Hendry (1986) et Stock et Watson (1988a).
Supposons, par souci de simplicité, que nous nous intéressions à deux
variables, yt1 et yt2 , chacune étant I(1). Alors, dans le cas le plus simple,
yt1 et yt2 seraient cointégrées s’il existait un vecteur η ≡ [1 − η2 ]> tel que,
lorsque les deux variables sont en équilibre,
[y1 y2 ]η ≡ y1 − η2 y2 = 0. (20.20)
Ici y1 et y2 désignent les vecteurs de dimension n dont les éléments types

sont respectivement yt1 et yt2 . Le vecteur de η de dimension 2 est appelé
vecteur cointégrant. A l’évidence, il n’est pas unique, puisque nous pourrions
le multiplier par n’importe quel scalaire non nul sans rien changer aux résultats
de (20.20).
D’un point de vue plus réaliste, on s’attend à ce que yt1 et yt2 varient
aussi bien systématiquement qu’aléatoirement dans le temps. Ainsi, on peut
espérer trouver dans (20.20) une constante, et peut-être un ou plusieurs termes
de tendance. Si nous posons Y = [y1 y2 ], (20.20) peut prendre en compte
cette éventualité sous la forme
Y η = Xβ, (20.21)
où, comme dans (20.14), X désigne une matrice déterministe qui peut contenir
certains éléments. Si elle est non nulle, la première colonne sera une constante,
la deuxième, si elle existe, sera une tendance linéaire, la troisième, si elle existe,
sera une tendance quadratique, et ainsi de suite. Puisque Y peut contenir plus
de deux variables, (20.21) constitue en fait un moyen très général d’exprimer
la relation de cointégration entre n’importe quel nombre de variables.
Evidemment, on ne peut pas s’attendre à ce qu’une égalité comme (20.20)
ou (20.21) soit strictement satisfaite en n’importe quel instant t du temps.
Nous pouvons donc définir une erreur d’équilibre νt telle que
νt = Yt η − Xt β, (20.22)
où Yt et Xt désignent respectivement les lignes t de Y et de X. Dans le cas

particulier de (20.20), cette erreur d’équilibre serait simplement yt1 − η2 yt2 .
Les m variables yt1 à ytm sont dites cointégrées s’il existe un vecteur η tel
que νt dans (20.22) soit I(0).
Cette propriété est, à première vue, tout à fait remarquable. Ainsi, il
peut ne pas être immédiatement évident que l’on puisse générer des variables
I(1) mais cointégrées. Il est sans doute utile de considérer un exemple. Soit
le modèle bivarié suivant:
λ1 yt1 − yt2 = ut1 , (1 − ρ1 L)ut1 = εt1 ,

(20.23)
yt1 − λ2 yt2 = ut2 , (1 − ρ2 L)ut2 = εt2 ,
où yt1 et yt2 sont des variables aléatoires et λ1 et λ2 des paramètres, et

· ¸
εt1
∼ N (0, Ω).
εt2
Lorsqu’à la fois ρ1 et ρ2 sont inférieurs à 1, y1 et y2 seront à l’évidence I(0).

Lorsqu’à la fois ρ1 et ρ2 sont égaux à 1, y1 et y2 seront I(1), et elles ne seront
pas cointégrées. Cependant, si un ρi quelconque était égal à 1, l’autre étant
inférieur à 1, les deux variables seraient I(1), mais elles seraient cointégrées.
Par exemple, supposons que ρ2 < 1 et que ρ1 = 1. Alors, le vecteur cointégrant
serait [1 −λ2 ], et l’erreur d’équilibre serait
ut2 = yt1 − λ2 yt2 = εt2 + ρ2 ut−1,2 .
Tant que ρ2 < 1, cette erreur d’équilibre sera stationnaire et y1 et y2 seront

cointégrées.
Le concept de cointégration porte en lui deux interrogations économétri-
ques évidentes. La première concerne l’estimation du vecteur cointégrant η,
et la seconde concerne le test de deux ou plusieurs variables cointégrées. Ces
questions sont bien sûr étroitement liées; la réponse à la seconde dépend de
celle à la première. Nous verrons la première réponse dans les lignes qui
suivent, et la seconde sera l’objet de la prochaine section.
Le moyen le plus simple d’estimer un vecteur cointégrant consiste à récrire
(20.22) sous la forme d’une régression et à employer des OLS. Cette approche
est associée à Engle et Granger (1987). Ainsi, si le coefficient de y1 était
arbitrairement normalisé à 1, nous pourrions exécuter la régression
y1 = Xβ + Y ∗ η ∗ + ν, (20.24)
où Y ∗ est une matrice de dimension n × (m − 1) dont les colonnes sont y2 ,

y3 , jusqu’à ym , et où le vecteur de paramètres η ∗ est égal à l’opposé des
m − 1 éléments non contraints du vecteur de paramètres η qui apparaı̂t dans
(20.22).
Il y a en apparence deux problèmes majeurs dans l’exécution d’une
régression comme (20.24). Le premier est que si les yit sont cointégrées, elles
sont sûrement déterminées conjointement, ce qui implique qu’il est très peu
probable que les aléas soient indépendants des régresseurs. Dans le cas de
(20.23), avec ρ1 = 1 et ρ2 < 1, par exemple, la relation entre yt1 et yt2 est
yt1 = λ2 yt2 + ρ2 (yt−1,1 − λ2 yt−1,2 ) + εt2 . (20.25)
Ainsi, en régressant yt1 sur yt2 , le terme d’erreur est implicitement
ρ2 (yt−1,1 − λ2 yt−1,2 ) + εt2 , (20.26)
et les deux termes sont corrélés à yt2 . Le second problème est que, dans
une régression comme (20.24) nous régressons une variable I(1) sur une
ou plusieurs autres variables I(1). Cela semble être une stratégie peu
recommandée, puisque c’est typiquement une situation où l’on rencontre des
régressions erronées (voir la Section 19.2).
En dépit de ces deux problèmes, les estimations OLS de la régression

(20.24) seront convergentes lorsque les variables yt1 à ytm sont véritablement
cointégrées. En fait, ces estimations seront super-convergentes; au lieu de
converger vers la véritable valeur à un taux proportionnel à n−1/2, elles
convergeront à un taux proportionnel à n−1. Le premier problème n’a pas
d’importance asymptotiquement, puisque yt2 est I(1) et que les deux com-
posantes du terme d’erreur dans (20.26) sont I(0) (la première composante
n’est I(0) que si yt1 et yt2 sont véritablement cointégrées). Par conséquent
les termes qui comprennent des aléas seront asymptotiquement négligeables
relativement aux termes qui comprennent yt2 . Le second problème apparent
ne se pose pas asymptotiquement pour des raisons comparables, à savoir que
la (véritable) relation de cointégration entre les variables yti génère des ter-
mes qui dominent tout terme pouvant provoquer d’ordinaire une régression
erronée. Une autre conséquence de tout ceci est que le R2 de (20.24) tendra
vers 1 lorsque n → ∞.
Pour comprendre la super-convergence des estimations de la régression
(20.24), considérons le cas le plus simple, où m = 2 et X est une matrice
nulle. Dans cette configuration, l’estimation OLS de η2 , le seul élément de
η ∗ , sera Pn
t=1 yt1 yt2
η̂2 = P n 2
.
t=1 yt2
Si les deux séries sont cointégrées, nous avons
yt1 = η2 yt2 + νt ,
où les νt obéissent à un processus stationnaire quelconque. Par conséquent,

Pn
t=1 νt yt2
η̂2 = η2 + P n 2
. (20.27)
t=1 yt2
Puisque yt2 est I(1), nous l’exprimons comme
yt2 = St2 + vt2 ,
où St2 est un processus de somme partielle et où vt2 est une erreur qui serait
i.i.d. si yt2 était une marche aléatoire, mais qui sera en général autocorrélée.
Ainsi le second terme dans (20.27) est
Pn ¡ ¢
t=1 νt vt2 + νt St2
Pn ¡ 2 2
¢. (20.28)
t=1 St2 + 2St2 vt2 + vt2
On peut montrer, par des arguments similaires à ceux invoqués dans la Sec-
tion 20.2, que les deux termes du numérateur sont O(n). Le terme d’ordre
dominant dans le dénominateur est le premier, qui est O(n2 ). Ainsi, le rap-
port (20.28) est O(n)/O(n2 ) = O(n−1 ). Cela nous permet de conclure que η̂2
converge vers la véritable valeur de η2 à un taux proportionnel à n−1.
Ce résultat est crucial, et il se généralise au cas où η est un vecteur à m
composantes; voir Stock (1987). Il existe m manières d’exécuter une régression
comme (20.24), correspondant chacune au yi que l’on place en régressande.
Cela produira m vecteurs cointégrants estimés différents, tous étant super-
convergents. Etant donné que des régressions ne comprenant que des séries
stationnaires produisent toujours des estimations convergentes au taux n−1/2,
il est toujours possible de remplacer η par η̂ dans de telles régressions sans
perturber leurs propriétés asymptotiques. Parce que les différences entre η
et η̂ seront O(n−1 ), nous pouvons les négliger asymptotiquement face aux
erreurs d’estimations de telles régressions.
Malheureusement, la super-convergence de η̂ n’implique pas qu’il possède
toujours de bonnes propriétés en échantillon fini. Une partie du problème
provient du fait que l’expression (20.28) n’a pas une espérance nulle, ce qui
provoquera, en général, un biais de η̂. Ce biais peut être important dans
la pratique; consulter Banerjee, Dolado, Hendry, et Smith (1986) et Stock
(1987). Une source de biais est évidente si l’on examine (20.25). Cette
équation comprend le terme ρ2 (yt−1,1 − λ2 yt−1,2 ), dont nous ne tenons pas
compte en régressant yt1 sur yt2 . Le terme omis ressemble à un terme de
correction d’erreur. Puisqu’il est I(0) et que yt2 est I(1), sa mise à l’écart
n’a que peu d’importance asymptotiquement. Par contre, lorsque ρ2 est im-
portant, il peut y avoir une corrélation importante entre yt−1,1 − λyt−1,2 et
yt1 en échantillon fini. Dans ce cas, cela peut provoquer un biais et une perte
d’efficacité.
Des procédures d’amélioration des estimations de η furent proposées par
de nombreux auteurs, dont Phillips et Hansen (1990) et Saikkonen (1991).
L’approche de ce dernier est particulièrement élégante. Il démontre que
l’on peut obtenir des estimations asymptotiquement efficaces en exécutant
la régression
X p
∗ ∗ ∗
y1 = Xβ + Y η + ∆Y−j γj + e (20.29)
j=−p
∗
par moindres carrés. Ici, ∆Y−j désigne une matrice de dimension n × (m − 1),
dont chaque colonne est un vecteur de différences premières de la colonne cor-
respondante dans Y ∗, retardé de j périodes, et γj désigne un vecteur composé
de (m−1) coefficients. L’équation (20.29) ajoute simplement p avances et p re-
tards des différences premières de Y ∗ à la régression (20.24). Cette technique
élimine les effets néfastes de la dynamique de courte période que les erreurs
d’équilibre ν font subir aux estimations de η. Parce que ces dernières ne sont
pas asymptotiquement normalement distribuées, le concept d’efficacité em-
ployé par Saikkonen n’est pas le concept standard dont nous avons parlé dans
cet ouvrage, et son article est loin d’être élémentaire. Bien sûr, son résultat
n’a de valeur qu’asymptotiquement. Si n n’est pas grand face à p(m − 1), il

peut y avoir tellement de régresseurs supplémentaires dans (20.29) que les pro-
priétés en échantillon fini des estimations par moindres carrés de η ∗ peuvent
être très médiocres.
20.6 Tests de Cointégration

Les tests de cointégration les plus familiers, qui sont étroitement reliés aux
tests de racine unitaire, furent proposés par Engle et Granger (1987). L’idée
de base est extrêmement simple. Si les variables yt1 à ytm sont véritablement
cointégrées, la véritable erreur d’équilibre νt doit être I(0). Si elles ne sont
pas cointégrées, cependant, νt doit être I(1). Ainsi il est possible de tester
l’hypothèse nulle de non existence d’une relation de cointégration contre
l’hypothèse alternative de cointégration en exécutant un test de racine unitaire
sur νt .
Si νt était observé, les tests de racine unitaire auraient la même distri-
bution que ceux examinés précédemment. Toutefois, dans la grande majorité
des cas, nous n’observerons pas νt parce qu’au moins un élément de η sera
inconnu. Il est donc nécessaire d’estimer η. Cela peut se faire en principe de
plusieurs manières, la plus simple étant d’appliquer les OLS à la régression
(20.24). Cette procédure fournit un vecteur de résidus, ou d’erreurs d’équilibre
estimées, ν̂. Si les variables yt1 à ytm sont en réalité non cointégrées, la
régression (20.24) est falsifiée, et la série ν̂ possède une racine unitaire. Les
statistiques de test de racine unitaire classiques peuvent se calculer à l’aide
du vecteur de résidus. Pour des raisons évidentes, ces tests sont appelés
tests de cointégration sur résidus. Parce que ν̂ dépend d’un ou de plusieurs
paramètres estimés, qui sont les paramètres d’une régression falsifiée sous
l’hypothèse nulle, les distributions asymptotiques des statistiques de test de
cointégration sur résidus ne sont pas les mêmes que celles des statistiques de
test de racine unitaire ordinaires.
Le modèle (20.23) peut procurer un éclaircissement utile. Puisque c’est
la valeur de ρ2 (ou éventuellement celle de ρ1 ) qui détermine la cointégration
entre les deux séries dans ce modèle, il ne devrait pas être surprenant
d’apprendre que les tests de l’hypothèse nulle de non cointégration devraient
ressembler aux tests de l’hypothèse nulle qu’une série possède une racine uni-
taire. Il ne devrait pas être surprenant non plus d’apprendre que l’hypothèse
nulle est que les deux séries ne sont pas cointégrées, puisque, conditionnelle-
ment à ρ1 = 1, elles seront cointégrées à moins que ρ2 ne soit égal à 1.
On peut adapter des tests de cointégration sur résidus à partir de
n’importe lequel des tests de racine unitaire dont nous avons parlé, à con-
dition toutefois d’employer des valeurs critiques appropriées. La procédure la
plus simple, appelée parfois test de Engle-Granger, ou test EG, implique une
première estimation de la régression de cointégration (20.24) et par la suite
20.6 Tests de Cointégration 723
l’usage d’un test de Dickey-Fuller en τ , basé sur la régression
∆ν̂t = (α − 1) ν̂t−1 + et . (20.30)
Puisque l’autocorrélation est très souvent un problème, on préfèrera employer

un test de Engle-Granger augmenté, ou test AEG, qui est au test EG ce que le
test ADF en τ 0 est au test DF en τ . Ainsi le test AEG est simplement le t de
Student de α−1 dans une régression comme (20.30) mais avec suffisamment de
retards de ∆ν̂t comme régresseurs additionnels pour que toute autocorrélation
soit éliminée. Des tests en z ∗ et en τ ∗ non paramétriques peuvent également
être utilisés, ainsi que l’on suggéré Phillips et Ouliaris (1990). Ceux-ci sont
calculés exactement de la même manière que dans les expressions (20.17) et
(20.19): les résidus de la régression (20.30) sont employés pour évaluer σ̂ 2 et
ω̂ 2 , et la quantité ν̂>ν̂ remplace y>MX y.
Les valeurs critiques de ces tests dépendent du nombre de variables
I(1) présentes dans le membre de droite de la régression de cointégration
(20.24) ainsi que de la nature des régresseurs aléatoires dans cette régression.
Quelques valeurs critiques relativement peu précises furent publiées par En-
gle et Granger (1987), Engle et Yoo (1987), et Phillips et Ouliaris (1990).
Le Tableau 20.2 contient des valeurs critiques asymptotiques assez précises
(la probabilité que l’erreur sur la dernière décimale soit supérieure à 2 est
extrêmement faible) pour les statistiques τc , τct , τctt , zc , zct , et zctt , pour
quelques valeurs de m, obtenues par des méthodes similaires à celle employée
par MacKinnon (1991). Le tableau ne contient pas de valeurs critiques pour les
statistiques τnc ou znc , parce que cela est rarement pertinent dans la pratique.
Souvenons-nous que m est le nombre de variables endogènes; m − 1 est par
conséquent le nombre d’éléments du vecteur cointégrant qu’il s’agit d’estimer.
Si certains éléments sont connus a priori, il faut sélectionner une valeur de m
plus faible. Dans le cas extrême où tous les éléments du vecteur cointégrant
sont connus, il faudrait se reporter aux valeurs critiques du Tableau 20.1.
Parce que les régressions de cointégration contiennent les colonnes de X
parmi les régresseurs, il n’est pas nécessaire d’inclure X dans la régression de
test (20.30). Le Théorème FWL ne s’applique pas ici, parce que l’élimination
de la première observation signifie que le vecteur ν̂−1 ne sera pas véritablement
orthogonal aux colonnes de X. Cependant, ν̂−1 sera orthogonal à X, asymp-
totiquement. Ainsi, asymptotiquement, que X soit incluse ou non dans la
régression n’a pas d’importance.
Les estimations OLS η dépendent du yi qui est régressande. Un change-
ment de régressande modifiera, avec des échantillons finis, le vecteur de
résidus ν̂ et par conséquent les valeurs calculées des statistiques de test de
cointégration basées sur ce vecteur. Cela est plutôt gênant, parce que cela
s’ajoute à la multiplicité des statistiques de test. Ainsi en ce qui concerne les
tests de cointégration, plus encore qu’en ce qui concerne les tests de racine uni-
taire, les occasions de commettre des inférences divergentes sont nombreuses.
Tableau 20.2 Valeurs Critiques Asymptotiques pour les Tests de Cointégration
Statistique de Test 1% 2.5% 5% 10% 97.5%

m=2
τc −3.90 −3.59 −3.34 −3.04 −0.30
τct −4.32 −4.03 −3.78 −3.50 −1.03
τctt −4.69 −4.40 −4.15 −3.87 −1.52
zc −28.3 −23.9 −20.6 −17.1 −0.7
zct −35.8 −31.1 −27.3 −23.4 −3.2
zctt −42.6 −37.5 −33.4 −29.1 −5.8
m=3
τc −4.29 −4.00 −3.74 −3.45 −0.85
τct −4.66 −4.37 −4.12 −3.84 −1.39
τctt −4.99 −4.70 −4.45 −4.17 −1.81
zc −35.2 −30.4 −26.7 −22.7 −2.4
zct −42.0 −36.9 −32.8 −28.5 −5.0
zctt −48.5 −43.0 −38.7 −34.0 −7.6
m=4
τc −4.64 −4.35 −4.10 −3.81 −1.30
τct −4.97 −4.68 −4.43 −4.15 −1.73
τctt −5.27 −4.98 −4.73 −4.45 −2.09
zc −41.6 −36.5 −32.4 −28.1 −4.5
zct −48.1 −42.6 −38.2 −33.5 −7.0
zctt −54.3 −48.5 −43.9 −38.9 −9.8
m=5
τc −4.96 −4.66 −4.42 −4.13 −1.68
τct −5.25 −4.96 −4.72 −4.43 −2.04
τctt −5.53 −5.24 −4.99 −4.72 −2.36
zc −47.8 −42.3 −38.0 −33.3 −6.7
zct −54.0 −48.2 −43.5 −38.5 −9.3
zctt −60.0 −53.9 −49.0 −43.7 −12.1
m=6
τc −5.25 −4.96 −4.71 −4.42 −2.01
τct −5.52 −5.23 −4.98 −4.70 −2.32
τctt −5.77 −5.49 −5.24 −4.96 −2.61
zc −53.8 −48.0 −43.4 −38.4 −9.1
zct −59.7 −53.7 −48.8 −43.5 −11.8
zctt −65.5 −59.2 −54.1 −48.6 −14.6
Tous les problèmes qui enveniment les tests de racine unitaire enveni-
ment également les tests de cointégration sur résidus dont nous avons parlé.
Un problème vient du fait que les valeurs critiques asymptotiques peuvent se
révéler sérieusement trompeuses avec des échantillons finis. Malheuseusement,
les valeurs critiques dépendent des caractéristiques intrinsèques du DGP,
telles que la nature d’une quelconque hétéroscédasticité ou autocorrélation
que l’on pourrait y rencontrer, qui sont en général inconnues dans la pra-
20.7 Modélisations avec des Variables Cointégrées 725
tique. Un autre problème, introduit dans la Section 20.4, est que les tests
de cointégration manquent chroniquement de puissance lorsque l’on emploie
des données désaisonnalisées ou lorsque le processus générateur d’une série
quelconque varie dans le temps. Ainsi le non rejet de l’hypothèse nulle de
non cointégration ne procure qu’un renseignement limité sur le fait que deux
variables sont véritablement non cointégrées.
Bien que les tests basés sur le vecteur de résidus ν̂ soient de loin les
plus répandus, de nombreux autres tests de cointégration furent proposés.
On pourra par exemple consulter Stock et Watson (1988b), Phillips et Ou-
liaris (1990), Johansen (1988, 1991), et Johansen et Juselius (1990, 1992).
L’approche de Johansen sera abordée dans la Section 20.8. Campbell et Per-
ron (1991) font un exposé des nombreux tests, qui sont beaucoup plus difficiles
à calculer que ceux reposant sur les résidus. En plus, chaque statistique de
test semble posséder son propre ensemble de valeurs critiques.
20.7 Modélisations avec des Variables Cointégrées

De nombreuses séries économiques sont, ou du moins paraissent être, intégrées
d’ordre 1. A partir des résultats de la Section 19.2 sur les régressions erronées,
et des résultats de ce chapitre, il est clair que régresser une variable I(1)
en niveau sur une ou plusieurs variables I(1) en niveaux n’est généralement
pas la meilleure stratégie à suivre. Au pire, nous “découvririons” une rela-
tion entièrement fausse. Au mieux, nous estimerions de façon convergente les
éléments d’un vecteur cointégrant quelconque, mais nous ne pourrions pas ap-
pliquer la théorie asymptotique standard, et commettrions donc des inférences
inexactes à propos des paramètres que nous aurions estimés. L’étude des
méthodes de spécification et d’estimation des modèles pour des variables I(1)
est un champ de recherche florissant et quelque peu controversé. La plu-
part du matériel théorique, tel que celui de Park et Phillips (1988, 1989)
et Phillips (1991a), est techniquement trop lourd pour être traité dans cet
ouvrage. Dans cette section, nous nous contenterons donc d’exposer des
cas particuliers simples et quelques résultats relativement immédiats. Nous
traiterons de l’estimation des autorégressions vectorielles impliquant des va-
riables cointégrées dans la section qui suit.
L’approche classique pour gérer des variables cointégrées, en particulier
dans la littérature des séries temporelles, a consisté à en calculer les différences
premières autant de fois que nécessaire pour les rendre stationnaires. Cette
approche a le mérite de la simplicité. Une fois toutes les séries transformées et
stationnarisées, nous pouvons spécifier des modèles de régression dynamiques
de manière conventionnelle, et leur appliquer des résultats asymptotiques stan-
dards. Le problème relatif à cette approche est que le calcul des différences
élimine automatiquement l’opportunité d’estimer une quelconque relation en-
tre les niveaux de la variable dépendante et ceux des variables indépendantes.
Au contraire la cointégration implique qu’une telle relation existe, et, comme
les exemples du début de la Section 20.5 le suggèrent, sont d’un intérêt

économique majeur. Le calcul des différences sur les données n’est donc pas
une stratégie appropriée.
Une seconde approche consiste à estimer une sorte de modèle à correction
d’erreur, ou ECM. Nous avons vu ce genre de modèle dans la Section 19.4, sous
l’hypothèse que toutes les variables étaient stationnaires. Les modèles à cor-
rection d’erreur restent valables lorsque cette hypothèse n’est plus vérifiée. En
réalité, ils sont particulièrement attrayants lorsque la variable dépendante est
I(1). Cependant, il faut rester prudent lors de l’estimation et de la réalisation
d’inférences avec de tels modèles.
Un modèle ECM univarié simple mais largement adaptable, comparable
à l’équation (19.30), peut s’écrire comme
∆yt = zt α + β(yt−1 − λxt−1 ) + γ∆xt + ut , ut ∼ IID(0, σ 2 ). (20.31)
La variable dépendante est ici yt , et la variable indépendante est véritable-

ment xt . Nous supposons que ces deux variables sont I(1) et cointégrées, ce
qui implique que le terme de correction d’erreur β(yt−1 − λxt−1 ) est I(0). Le
vecteur ligne zt comprend une constante, et toute autre variable indépendante,
à condition qu’elle soit ou bien déterministe ou bien I(0). Si la dynamique
que procure (20.31) n’est pas satisfaisante, il est possible d’adapter le modèle
en lui ajoutant davantage de retards de ∆xt et en augmentant le retard du
terme de correction d’erreur.
Si λ était connu, l’estimation par moindres carrés de (20.31) se ferait sans
difficulté. La régressande et les régresseurs seraient soit déterministes soit
I(0). Ainsi les estimations de α, β, et γ seraient convergentes au taux n−1/2
et asymptotiquement normales, et leur matrice de covariance serait estimée
de manière habituelle. Mais dans de nombreux cas, λ sera inconnu. Il y a
alors plusieurs manières de procéder. La plus simple est la méthode de Engle-
Granger en deux étapes proposée par Engle et Granger (1987). La première
étape consiste à régresser yt sur xt , une constante, et une tendance linéaire si
celle-ci apparaı̂t dans zt . Comme nous l’avons vu, cela produira une estima-
tion super-convergente de λ, disons λ̃. La seconde étape consiste à remplacer
λ par λ̃ dans (20.31) et à estimer par OLS cette équation transformée. En
exploitant la propriété de super-convergence de λ̃, Engle et Granger montrent
que les estimations des autres paramètres sont asymptotiquement identiques
à celles obtenues connaissant λ.
Le mérite majeur de la procédure en deux étapes de Engle-Granger est
incontestablement sa simplicité. Cependant, des simulations Monte Carlo ont
largement montré qu’elle peut ne pas être fiable avec des échantillons finis;
consulter Banerjee, Dolado, Hendry, et Smith (1986) et Banerjee, Dolado,
Galbraith, et Hendry (1993). Le problème est que λ̃ semble être bien souvent
sévèrement biaisé. Ce biais se transmet alors aux autres paramètres estimés.
Le problème s’avère moins grave lorsque le R2 de la régression de cointégration
20.7 Modélisations avec des Variables Cointégrées 727
est proche de 1, ce qui doit être le cas avec une taille d’échantillon assez
importante. Ainsi, une valeur relativement faible du R2 de la régression de
cointégration est un signal d’alarme de défaillance de la procédure.
La plus simple des procédures alternatives à la méthode en deux étapes
de Engle-Granger consiste à estimer le modèle
∆yt = zt α + βyt−1 + δxt−1 + γ∆xt + ut , (20.32)
dans lequel le nouveau paramètre δ est implicitement égal à −βλ. Cette

régression est intrigante, puisque la variable dépendante est I(0) et les
régresseurs sont I(1). On devrait normalement s’attendre à ce que la théorie
de la distribution asymptotique standard ne s’applique pas à certaines estima-
tions ou à toutes. S’il est vrai que la théorie de la distribution asymptotique
pour cette équation est non standard, les problèmes pratiques se révèlent
moins graves que ce que l’on pourrait craindre.
Les résultats fondamentaux pour des régressions telles que (20.32) ont été
démontrés pas Sims, Stock, et Watson (1990). Ils envisagent les distributions
asymptotiques des coefficients individuels dans une régression linéaire impli-
quant des variables I(1). Ils montrèrent que si un paramètre θ est associé à
une variable I(0) de moyenne nulle, la quantité n1/2 (θ̂ − θ0 ) sera asympto-
tiquement distribuée suivant une loi normale, avec l’écart type asymptotique
habituel. Considérons (20.32) une nouvelle fois. Dans cette équation, γ est
associé à une variable I(0). A condition que zt contienne un terme constant,
la condition de moyenne nulle est aisément remplie. De plus, comme (20.31)
le montre clairement, on peut associer β à yt−1 − λxt−1 , qui est I(0) du fait
que x et y sont cointégrées. Si nous normalisons une nouvelle fois la régression
de cointégration de sorte que xt−1 soit associée à un coefficient unitaire, nous
voyons que l’on peut associer δ à une variable qui est I(0). Ainsi la théorie
de la distribution asymptotique standard s’applique à tous les coefficients
économiquement pertinents de (20.32).
Bien que l’on puisse pratiquer des inférences sur les coefficents individuels
dans l’équation (20.32) de manière usuelle, il faut être prudent si l’on tente
d’en faire davantage. Par exemple, un test de nullité jointe de β et de δ, ou
d’égalité à toute autre valeur, n’aurait pas la distribution asymptotique du χ2
habituelle. Dans un ordre d’idée différent, on peut choisir de calculer λ̃ comme
−δ̃/β̃, où β̃ et δ̃ désignent les estimations par moindres carrés. Puisque λ n’est
pas un coefficient associé à une variable I(0) de moyenne nulle, la théorie de
la distribution asymptotique standard ne s’applique plus.
L’estimation directe de (20.31) par moindres carrés non linéaires est
équivalente à l’estimation de l’équation (20.32) par OLS. Les valeurs ajustées
des deux équations seront identiques, ainsi que les estimations des paramètres
qu’elles ont en commun. Les résultats de Banerjee, Dolado, Hendry, et Smith
(1986) suggèrent que ces estimations seront meilleures que celles obtenues par
la méthode en deux étapes de Engle-Granger, mais cette conclusion fut remise
en cause par Engle et Yoo (1987, 1991). Il semblerait que les mérites respectifs
des deux procédures d’estimation dépendent fortement des caractéristiques
précises du DGP.
Les techniques d’estimation abordées dans cette section s’appliquent à
une seule équation, et elles ne sont pas efficaces en général. Bien que la
procédure en deux étapes soit toujours super-convergente pour λ, elle n’est pas
asymptotiquement efficace. A la fin de la Section 20.5, nous avons introduit
la procédure de Saikkonen pour l’estimation efficace du vecteur cointégrant
η. Engle et Yoo (1991) proposèrent une autre approche. Elle implique
une procédure d’estimation en trois étapes qui débute à partir des estima-
tions en deux étapes de Engle-Granger et qui exploite une régression arti-
ficielle pour une étape de Gauss-Newton unique. D’autres auteurs, parmi
lesquels Johansen (1988, 1991) et Phillips (1991a), ont proposé des méthodes
d’estimation systémiques diverses. L’approche de Johansen sera exposée dans
la section suivante.
Un grand nombre de travaux empiriques s’appuient sur des tests de
cointégration et sur l’estimation de modèles avec des variables cointégrées.
Des exemples de ces travaux sont Hall (1986), Baillie et Selover (1987), Camp-
bell (1987), Campbell et Shiller (1987), Corbae et Ouliaris (1988), Granger et
Lee (1989), Kunst et Neusser (1990), Johnson (1990), et King, Plosser, Stock,
et Watson (1991). Une extension intéressante a été proposée au cas des séries
temporelles saisonnières; voir Hylleberg, Engle, Granger, et Yoo (1990).
20.8 Autorégressions Vectorielles et Cointégration
L’une des approches les plus intéressantes à l’estimation systémique des

modèles à variables cointégrées a été développée par Johansen (1988, 1991)
et Johansen et Juselius (1990, 1992). Elle se base sur l’estimation d’une
autorégression vectorielle, ou VAR, par la méthode du maximum de vraisem-
blance; voir la Section 19.5 pour davantage de détails sur les VAR. Dans cette
section, nous discuterons brièvement de cette approche.
Considérons la VAR suivante avec un ensemble de variables en niveaux:
Yt = Yt−1 Π1 + · · · + Yt−p Πp + Ut . (20.33)
La notation est ici similaire à celle employée dans la Section 19.5: Yt et Ut

sont des vecteurs lignes de dimension 1 × m, et les matrices de dimension
m × m Π1 à Πp contiennent des coefficients. Par souci de simplicité, il n’y
a pas de terme constant, bien que cette hypothèse soit rarement pertinente
dans la réalité. On peut reparamétriser la VAR (20.33) comme suit:
∆Yt = ∆Yt−1 Γ1 + · · · + ∆Yt−p+1 Γp−1 − Yt−p Π + Ut , (20.34)

20.8 Autorégressions Vectorielles et Cointégration 729
où Γ1 = Π1 − I, Γ2 = Π2 + Γ1 , Γ3 = Π3 + Γ2 , et ainsi de suite. Ainsi la

matrice Π est reliée aux matrices Πi de (20.33) selon la formule
Π = I − Π1 − · · · − Πp .
En empilant les n observations de (20.34), nous obtenons le système complet
∆Y = ∆Y−1 Γ1 + · · · + ∆Y−(p−1) Γp−1 − Y−p Π + U, (20.35)
où la notation ne nécessite aucun éclaircissement. Chaque terme de (20.35)

est une matrice de dimension n × m.
La matrice Π, que l’on appelle souvent matrice d’impact, détermine si
oui ou non, et dans quelle mesure, le système (20.35) est cointégré. Si nous
supposons comme d’habitude que les variables dont nous avons calculé les
différences ∆Y sont stationnaires, alors chaque terme de (20.34) à l’exception
de Yt−p Π est un élément d’un processus stationnaire. Cela implique la sta-
tionnarité de Y Π. A l’évidence, Y Π sera stationnaire si Π est une matrice
composée d’éléments nuls. Ce doit être le cas lorsqu’aucune des séries n’est
cointégrée avec une quelconque autre série. A l’autre extrême, si la matrice
Π est de plein rang, seule la stationnarité de Y implique celle de Y Π, ce qui
signifie que chacune des colonnes de Y est stationnaire. Ces colonnes sont les
différentes séries, yi , i = 1, . . . , m, qui forment le système (20.33).
Entre ces deux positions radicales, si toutes les variables de Y sont non
stationnaires, (20.34) implique la cointégration, et que toute combinaison
linéaire des colonnes de Y Π doit être une série stationnaire. Supposons que
Π soit de rang r, avec 0 < r < m. Si c’est effectivement le cas, nous pouvons
exprimer Π sous la forme
Π = −ηα>, (20.36)
où α et η sont des matrices de dimension m × r, et où le signe négatif a
été introduit par commodité. A partir de (20.36), nous voyons que Y−p Π =
−Y−p ηα>. Les vecteurs cointégrants sont proportionnels aux colonnes de la
matrice η. Ainsi, pour chaque colonne de ηi , Y ηi est une variable aléatoire
stationnaire. Lorsque r = 1, il n’existe qu’un unique vecteur cointégrant, et
il est proportionnel à η1 . Lorsque r = 2, il existe un espace bidimensionnel
de vecteurs cointégrants, engendré par η1 et η2 , et ainsi de suite. Les deux
cas extrêmes sont ceux pour lesquels r = 0, lorsqu’il n’existe aucun vecteur
cointégrant, et r = m, lorsque toute combinaison linéaire des yi est station-
naire, parce que chaque yi est I(0).
L’approche de Johansen (1988, 1991) consiste à estimer la VAR (20.34)
soumise à la contrainte (20.36) pour des valeurs diverses de r, par maximum de
vraisemblance. Cette estimation se base sur l’hypothèse que le vecteur d’aléas
Ut est normal multivarié pour tout t et indépendant des vecteurs d’aléas des
autres observations. Cette hypothèse est moins contraignante qu’elle ne le
paraı̂t, puisqu’un nombre suffisamment grand de retards des différences de Y
dans (20.34) doit empêcher l’apparition d’une quelconque autocorrélation dans

les résidus. Comme l’a montré Johansen, il est possible de maximiser la fonc-
tion de vraisemblance de manière analytique conditionnellement à n’importe
quelle valeur de r, par une méthode similaire à celle employée dans la Sec-
tion 18.5 pour obtenir des estimations LIML.
Le système (20.35) soumis à la contrainte (20.36) s’écrit
∆Y = ∆Y−1 Γ1 + · · · + ∆Y−(p−1) Γp−1 + Y−p ηα> + U. (20.37)
Nous savons que les estimations ML des paramètres de ce système sont

obtenues en minimisant le déterminant de la matrice des carrés et des pro-
duits croisés (souvenons-nous de la fonction de logvraisemblance concentrée
(9.65)), c’est-à-dire
¯¡ ¢
¯
¯ ∆Y − ∆Y−1 Γ1 − · · · − ∆Y−(p−1) Γp−1 − Y−p ηα> >
¡ ¢¯¯
∆Y − ∆Y−1 Γ1 − · · · − ∆Y−(p−1) Γp−1 − Y−p ηα> ¯.
On peut apercevoir à partir de cette expression que tous les éléments de

η et α ne peuvent pas être identifiés, puisque la factorisation (20.36) n’est
pas unique pour une matrice Π donnée. En fait, si B est une matrice non
singulière quelconque de dimension r × r,
ηBB −1 α = ηα.
Ainsi la matrice η peut être élaborée en sélectionnant dans l’espace S(Π)

de dimension r n’importe quel ensemble de r vecteurs à m composantes
linéairement indépendants. Une fois la matrice η choisie, α est, de fait,
uniquement déterminé. Cette propriété permet de contourner le problème de
la dépendance non linéaire des fonctions de régression dans (20.37) vis-à-vis
des paramètres.
On peut concentrer le déterminant par rapport aux paramètres des
matrices Γ1 à Γp−1 en les remplaçant par leurs estimations par moindres
carrés. Ainsi, si nous notons M∆ la projection orthogonale sur l’espace
S⊥ (∆Y−1 · · · ∆Y−(p−1) ), le déterminant qu’il s’agit de minimiser peut s’ex-
primer comme une fonction de η et α uniquement, comme suit:
¯¡ ¢ ¡ ¢¯
¯ > > > ¯
¯ ∆Y − Y−p ηα M∆ ∆Y − Y−p ηα ¯. (20.38)
∗
Si M∆ Y−p désigne Y−p , et si M∆ Y désigne ∆Y ∗ , (20.38) peut s’écrire
¯¡ ¢¡ ¢¯¯
¯
¯ ∆Y ∗ − Y−p
∗
ηα> > ∆Y ∗ − Y−p
∗
ηα> ¯. (20.39)
20.8 Autorégressions Vectorielles et Cointégration 731
Il est désormais aisé de concentrer cette expression par rapport à α, car, à

∗
condition de fixer η, les résidus dans (20.39) sont linéaires en α. Si V ≡ Y−p η,
nous obtenons le déterminant
¯ ¯
¯(∆Y ∗ )>MV ∆Y ∗ ¯. (20.40)
Par une astuce comparable à celle développée dans la Section 18.5, nous
pouvons traiter (20.40) comme un seul facteur dans la décomposition du
déterminant d’une matrice plus importante. Considérons
¯ ¯
¯ (∆Y ∗ )>∆Y ∗ (∆Y ∗ )>V ¯
¯ ¯.
¯ V >∆Y ∗ V >V ¯
En exploitant le résultat (A.26) de l’Annexe A, cette matrice peut être fac-

torisée soit comme ¯ > ¯¯ ¯
¯V V ¯ ¯(∆Y ∗ )>MV ∆Y ∗ ¯
soit comme ¯ ¯¯ ¯
¯(∆Y ∗ )>∆Y ∗ ¯ ¯V >M ∗ V ¯,
où M ∗ est la matrice de projection orthogonale associée à S⊥ (∆Y ∗ ). Puisque

|(∆Y ∗ )>∆Y ∗ | ne dépend pas de η, nous voyons que minimiser (20.40) est
équivalent à minimiser le rapport
¯ > ∗ > ∗ ∗ ¯
|V >M ∗ V | ¯η (Y−p ) M Y−p η ¯
= ¯ > ∗ > ∗ ¯ (20.41)
|V >V | ¯η (Y−p ) Y−p η ¯
par rapport à η. Le minimum de (20.40) est alors celui de (20.41) multiplié

par |(∆Y ∗ )>∆Y ∗ |.
La problème du ratio de moindre variance qu’il fallait résoudre dans le
contexte LIML (voir (18.49)) faisait intervenir un rapport de formes quadra-
tiques plutôt qu’un rapport de déterminants tel qu’il apparaı̂t dans (20.41).
Malgré cela, nous pouvons résoudre le problème par la même technique que
(18.49), à savoir en le transformant en un problème de valeurs et de vecteurs
propres. Avant de s’engager dans des détails, remarquons que (20.41) n’est
pas modifié si nous remplaçons η par ηB, pour toute matrice B de dimen-
sion r × r non singulière. C’est précisément ce que nous relevions plus tôt en
parlant de non unicité de (20.36). Nous ne pouvons donc pas espérer obtenir
un unique η, mais au contraire tout un sous-espace de dimension r.
En ce qui concerne la minimisation présente, il est commode de se servir
d’une transformation de η. Soit S n’importe quelle matrice de dimension
m × m telle que S>S = (Y−p ∗ > ∗
) Y−p , et définissons la matrice ζ de dimension
m × r par Sη. Le rapport (20.41) devient
¯ > −1 > ∗ > ∗ ∗ −1 ¯
¯ζ (S ) (Y−p ) M Y−p S ζ ¯
¯ > ¯ . (20.42)
¯ζ ζ ¯
Puisque tout ce qui nous importe est le sous-espace engendré par les r colonnes
de ζ, nous pouvons choisir sans perte de généralité la matrice ζ de telle sorte
que ζ>ζ = Ir . Soit A la matrice définie positive de dimension m × m qui
apparaı̂t au numérateur de (20.42). Il reste à minimiser |ζ>Aζ| par rapport
à ζ sous la contrainte ζ>ζ = I.
Pour mener à bien cette opération, il est plus facile de travailler sur le
problème en termes de valeurs et vecteurs propres associés à A. La résolution
de ce problème nous fournira une matrice orthogonale Z, dont les colonnes
sont les vecteurs propres orthonormés de A, et une matrice diagonale Λ, dont
les éléments diagonaux sont les valeurs propres de A, qui doivent bien entendu
être comprises entre 0 et 1. Alors AZ = ZΛ. Si les colonnes de Z et Λ sont
classées par ordre croissant des valeurs propres λ1 , . . . , λm , les estimations ML
ζ̂ peuvent être assimilées aux r premières colonnes de Z. Géométriquement,
les colonnes de ζ̂ engendrent l’espace engendré par les vecteurs propres de A
qui correspondent aux r valeurs propres les plus petites. L’orthogonalité de
Z signifie que ζ̂ satisfait la contrainte, et le choix des valeurs propres les plus
faibles sert à minimiser le déterminant |ζ>Aζ|.
On peut retrouver l’estimation ML de l’espace des vecteurs cointégrants
S(η) à partir de ζ̂ grâce à la formule η̂ = S −1 ζ̂. La matrice α̂ requise pour
l’obtention des estimations ML des paramètres de la matrice Π peut s’obtenir
par la régression multivariée par OLS de ∆Y ∗ sur Y−p ∗
η̂. Il en découle que les
estimations des matrices Γi , i = 1, . . . , p − 1, peut aussi s’obtenir par OLS.
Bien souvent, nous ne sommes pas particulièrement intéressés par les
paramètres de la VAR (20.35). Notre préoccupation concerne davantage le
test de l’hypothèse de non cointégration contre l’hypothèse alternative de
cointégration d’un ordre quelconque. Si nous devions rejeter l’hypothèse nulle
que r = 0, nous souhaiterions tester l’hypothèse nulle r = 1 contre l’hypothèse
alternative r = 2, et ainsi de suite. Les valeurs propres λi , i = 1, . . . , m,
procurent un moyen très pratique d’y parvenir, en termes d’un test du rapport
de vraisemblance. Il est clair que si nous sélectionnons une valeur quelconque
de r, le déterminant minimisé |ζ>Aζ| est simplement le produit des r valeurs
propres les plus faibles, λ1 · · · λr . Le minimum de (20.40) correspond à ce
produit, multiplié par |(∆Y ∗ )>∆Y ∗ |. Si r = 0, le minimum de (20.40) est
simplement ce dernier déterminant. Les rapports de vraisemblance pour les
différentes valeurs de r sont par conséquent des produits de quelques-unes des
valeurs propres, élevés à la puissance n/2; souvenons-nous de (9.65). Si nous
calculons les logarithmes et multiplions par 2 afin d’obtenir une statistique
LR, nous aboutissons à −n fois le produit des logarithmes des valeurs propres
concernées.
De façon générale, la statistique LR du test de l’hypothèse nulle r = r1 ,
0 ≤ r1 < m, contre l’hypothèse alternative r = r2 , r1 < r2 ≤ m, est
r2
X
LR = −n log λi . (20.43)
i=r1 +1
Termes et Concepts 733
Cette expression est évidemment l’analogue de la statistique LR (18.50) dans

le contexte LIML. Cependant, elle n’aura pas la distribution asymptotique
usuelle du χ2 . Au lieu de cela, sous les différentes hypothèses nulles que l’on
peut tester, les statistiques LR (20.43) auront des distributions asymptotiques
non standards qui dépendent du nombre de “degrés de liberté” r2 − r1 et de la
présence ou non d’une constante ou d’une tendance linéaire dans la VAR. Ces
distributions sont tabulées par simulation, pour un nombre limité de cas, par
Johansen et Juselius (1990). On peut également réaliser des inférences sur
les éléments des vecteurs cointégrants (normalisés de manière adéquate) aux
moyens de statistiques LR conditionnellement à une certaine valeur de r; ces
statistiques auront alors une distribution asymptotique du χ2 sous l’hypothèse
nulle testée. C’est une propriété commode de l’approche VAR.
20.9 Conclusion
Nous avons vu dans ce chapitre que la théorie asymptotique pour les va-
riables I(1) est très différente de la théorie asymptotique classique et avec
laquelle nous sommes familiers. Du fait d’une différence aussi importante,
nous n’avons pas tenté de la traiter trop en profondeur. Nous nous sommes
contentés d’exposer quelques résultats fondamentaux de manière intuitive, et
de fournir les références adéquates. La majeure partie des éléments présentés
est relativement récente, à cause de l’effervescence théorique qui caractérise
ce champ de recherches depuis une dizaine d’années, et une partie de ceux-ci
est encore controversée. Les lecteurs peuvent aisément vérifier tout cela en
lisant Phillips (1991b, 1991c) et d’autres articles chez Pesaran (1991).
Termes et Concepts
autorégression vectorielle (VAR) tests de Dickey-Fuller augmentés
cointégration (ADF)
erreurs d’équilibre tests de Engle-Granger (EG)
estimateur super-convergent tests de Engle-Granger augmentés
étendue (d’un ensemble de données) (AEG)
matrice d’impact tests de racine unitaire
méthode de Engle-Granger en deux tests de racine unitaire non
étapes paramétriques
processus de somme partielle tests en τ , τ 0, et τ ∗
processus de somme partielle tests en z et z ∗
standardisé théorèmes de la limite centrale
processus de Wiener standardisé fonctionnels
racine unitaire variables cointégrées
tests de cointégration sur résidus vecteur cointégrant
tests de Dickey-Fuller (DF)

Ch20 Racines Unitaires Et Cointégration

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Ch20 Racines Unitaires Et Cointégration

Uploaded by

Copyright:

Available Formats

Chapitre 20

Racines Unitaires et Cointégration

où ut suit également un processus ARMA stationnaire. Si les ut étaient non

où ut obéirait à un processus stationnaire. Ce modèle fut préconisé par Bhar-

∆yt = β0 + β1 t + (α − 1)yt−1 + ut , (20.05)

20.2 Tests de Racines Unitaires

étant la plus compliquée. Les deux autres sont

∆yt = (α − 1)yt−1 + ut et (20.06)

On peut dériver ces deux régressions exactement de la même manière que

z = n(α̂ − 1). (20.08)

où la somme s’applique aux observations allant de 1 à n à condition que y0

ce qui nous permet d’écrire2

En substituant St−1 à yt−1 dans le membre de droite de (20.09), nous obtenons

La somme entre parenthèses possède t termes: u0 ut , u1P ut , u2 ut , et ainsi de

Chaque double somme à l’intérieur des parenthèses possède t2 termes. Parmi

∆yt = β0 + β1 t + β2 t2 + (α − 1)yt−1 + ut . (20.11)

20.3 Théorie Asymptotique et Tests de Racine Unitaire

et ainsi de suite jusqu’à

Il s’agit simplement du processus de somme partielle ordinaire rencontré dans

Ici le symbole ⇒ désigne la convergence faible dans un espace fonctionnel, qui

Statistique de Test 1% 2.5% 5% 10% 97.5%

τnc −2.56 −2.23 −1.94 −1.62 1.62

tiques correspondent à celles de la queue de gauche de la distribution, étant

Figure 20.1 Distribution de τct pour n = 1000

de racine unitaire. Par exemple, si l’on effectue un test unilatéral au niveau

20.4 Autocorrélation et Problèmes Connexes

Dickey-Fuller. On les appelle souvent tests de Dickey-Fuller augmentés, ou

∆yt = Xt β + (α − 1)yt−1 + ut , (20.14)

où Xt est composée de l’ensemble des régresseurs non stochastiques corres-

∆yt = Xt β − ρXt−1 β + (ρ + α − 1)yt−1 − αρyt−2 + εt

Nous pouvons remplacer Xt β −ρXt−1 β par Xt β ∗ dans (20.15), pour un choix

Le second moyen d’obtenir des statistiques de test de racine unitaire va-

désigne n’importe quelle estimation convergente de σ 2 et ω̂ 2 n’importe quelle

Sans autocorrélation, ω 2 = σ 2 du fait que

Avec autocorrélation, cependant, ω 2 différera de σ 2, parce que E(us ut ) 6= 0

où wjp = 1−j/(p+1). D’autres fonctions de pondération pourraient convenir,

possèdent quelques défauts rédhibitoires; voir Andrews (1991a, 1991b) et Ou-

même avoir un supplément de puissance par rapport à un test basé sur 4n

définitives sur la présence ou l’absence de racines unitaires dans les séries

lorsque les deux variables sont en équilibre,

Ici y1 et y2 désignent les vecteurs de dimension n dont les éléments types

où Yt et Xt désignent respectivement les lignes t de Y et de X. Dans le cas

λ1 yt1 − yt2 = ut1 , (1 − ρ1 L)ut1 = εt1 ,

où yt1 et yt2 sont des variables aléatoires et λ1 et λ2 des paramètres, et

Lorsqu’à la fois ρ1 et ρ2 sont inférieurs à 1, y1 et y2 seront à l’évidence I(0).

ut2 = yt1 − λ2 yt2 = εt2 + ρ2 ut−1,2 .

Tant que ρ2 < 1, cette erreur d’équilibre sera stationnaire et y1 et y2 seront

où Y ∗ est une matrice de dimension n × (m − 1) dont les colonnes sont y2 ,

yt1 = λ2 yt2 + ρ2 (yt−1,1 − λ2 yt−1,2 ) + εt2 . (20.25)

Ainsi, en régressant yt1 sur yt2 , le terme d’erreur est implicitement

ρ2 (yt−1,1 − λ2 yt−1,2 ) + εt2 , (20.26)

En dépit de ces deux problèmes, les estimations OLS de la régression

Si les deux séries sont cointégrées, nous avons

où les νt obéissent à un processus stationnaire quelconque. Par conséquent,

Puisque yt2 est I(1), nous l’exprimons comme

yt2 = St2 + vt2 ,

n’a de valeur qu’asymptotiquement. Si n n’est pas grand face à p(m − 1), il

20.6 Tests de Cointégration

l’usage d’un test de Dickey-Fuller en τ , basé sur la régression

∆ν̂t = (α − 1) ν̂t−1 + et . (20.30)

Puisque l’autocorrélation est très souvent un problème, on préfèrera employer

Tableau 20.2 Valeurs Critiques Asymptotiques pour les Tests de Cointégration

Statistique de Test 1% 2.5% 5% 10% 97.5%

20.7 Modélisations avec des Variables Cointégrées