Ch18 Modèles D'équations Simultanées

Chapitre 18
Modèles d’Equations Simultanées
18.1 Introduction
Pendant de nombreuses années, le modèles d’équations simultanées linéaire a
été le centre d’intérêt de la théorie économétrique. Nous avons abordé un cas
particulier de ce modèle, un modèle d’offre-demande à deux équations, dans la
Section 7.3. L’objet de cette discussion était simplement de monter que la si-
multanéité implique une corrélation entre les régresseurs et les termes d’erreur
de chaque équation de système, rendant les OLS non convergents et justifi-
ant l’usage des variables instrumentales. La non convergence des estimateurs
par moindres carrés des équations individuelles dans les modèles d’équations
simultanées n’est pourtant pas le seul résultat économétrique pour ce genre
de modèle. Dans ce chapitre, nou discutons donc des modèles d’équations
simultanées en détail.
La grande majorité du travail récent sur les modèles d’équations simul-
tanées s’est développé sous la bienveillance de la Commisssion Cowles; Koop-
mans (1950) et Hood et Koopmans (1953) sont des références connues. Ce
travail a fortement influencé la direction suivie par la théorie économétrique
depuis de nombreuses années. Pour une histoire sur le développement récent
de l’économétrie, consulter Morgan (1990). Parce que la littérature consacrée
aux modèles d’équations simultanées est vaste, nous ne traiterons qu’une
petite partie de celle-ci. Il existe un grand nombre d’études sur ce champ
théorique, et de nombreux ouvrages qui se situent à des niveaux différents.
Deux articles de synthèse intérssants sont ceux de Hausman (1983), qui traite
de la littérature traditionnelle, et Phillips (1983), qui traite du champ plus
spécifique de la théorie en petit échantillon dans les modèles d’équations si-
multanées, un sujet que nous n’aborderons pas du tout.
La caractéristique essentielle des modèles d’équations simultanées est
que deux ou plusieurs variables endogènes sont déterminées simultanément
par le modèle, comme des fonctions de variables exogènes, de variables
prédéterminées, et d’aléas. A ce stade, nous en avons dit très peu sur ce
que nous entendons par variables exogènes et prédéterminées. Puisque le rôle
de telles variables est essentiel dans les modèles d’équations simutlanées, il
est temps de corriger le défaut. Dans la Section 18.2, nous discutons par
conséquent en détail du concept important de l’exogénéité.
622
18.1 Introduction 623
La majeure partie du chapitre sra consacrée au modèle d’équations si-

multanées. Supposons qu’il y ait g variables endogènes, et par conséquent g
équations, et k variables exogènes ou prédéterminées. Alors le modèle peut
être écrit sous forme matricielle comme
YΓ = XB + U. (18.01)
Ici, Y désigne une matrice de dimension n × g de variables endogènes, X

désigne une matrice de dimension n × k de variables exogènes ou prédéter-
minées, Γ désigne une matrice de dimension g × g de coefficients, B désigne
une matrice de dimension k × g de coefficients, et U désigen une matrice de
dimension n × g de termes d’erreur.
Il est immédiatement clair que le modèle (18.01) comprend beaucoup trop
de paramètres à estimer. Une observation type pour l’équation l peut s’écrire
sous la forme
Xg Xk
Γil Yti = Bjl Xtj + utl .
i=1 j=1
La multiplication de tous les paramètres Γil et Bjl par n’importe quelle con-
stante non nulle aurait pour effet de multiplier utl par cette constante pour
tout t, mais ne modifierait pas la structure des aléas dans les observations.
Il est donc nécessaire d’imposer une sorte de nomrmalisation pour chaque
équation du modèle. Une normalisation évidente consiste à poser Γii = 1
pour tout i; chaque variable endogène, de y1 à yg , serait alors associée à un
coefficient unitaire dans une et une seule équation. Cependant, comme nous
l’avons vu dans la Section 7.3, de nombreuses autres normalisations pourraient
être envisagées. Nous pourrions, par exemple, poser Γ1l = 1 pour tout l; le
coefficient associé à la première variable endogène serait ainsi égal à l’unité
dans chaque équation.
Le modèle (18.01) n’a pas de sens si la matrice Γ n’est pas inversible,
car sinons il serait impossible de déterminer Y de manière unique en tant que
fonction de X et U. Nous pouvons donc postmultiplier des deux membres de
(18.01) par Γ −1 pour obtenir
Y = XBΓ −1 + UΓ −1 (18.02)
= XΠ + V. (18.03)
L’expression (18.02) est la forme réduite contrainte, ou FRC, et l’expression

(18.03) est la forme réduite libre, ou FRL. Les contraintes sont Π = BΓ −1.
Notons que, même dans le cas improbable où les colonnes de U étaient
indépendantes, celles de V ne le seraient pas. Ainsi les diverses équations
de la forme réduite possèdent preque sûrement des aléas corrélés.
L’imposition des contraintes de normalisation est nécessaire mais non
suffisante pour obtenir des estimations de Γ et B. Le problème est que, à
624 Modèles d’Equations Simultanées
moins de lui imposer des contrantes, le modèle (18.01) a beaucoup trop de

paramètres inconnus. La matrice Γ possède g 2 − g coefficients, du fait des g
conraintes de normalisation, alors que la matrice B en possède gk. Il y a donc
g 2 + gk − g coefficents structurels au total. Mais la matrice Π sous la forme
réduite libre ne possède que gk coefficients. Il est à l’évidence impossible de
déterminer les g 2 + gk − g coefficients structurels à partir des gk coefficients
de la FRL. Il faudra imposer au moins g 2 − g contraintes sur Γ et/ou B afin
d’être en mesure d’identifier le modèle. Il existe une vaste littérature con-
sacrée à l’identification dans les modèles d’équations simultanées, qui aborde
le problème des conditions sous lesquelles certains ou tous les paramètres de
tel modèle peuvent être identifiés. Nous livrerons les principaux résultats de
cette littérature dans la Section 18.3.
La grande partie restante du chapitre traite des mérhodes d’estimation
diverses et variées pour les modèles d’équations simultanées. La Section 18.4
aborde l’estimation par maximum de vraisemblance du modèle dans son en-
semble sous l’hypothèse de normalité, une technique connue sous le nom de
maximum de vraisemblance en information complète, ou FIML. La section qui
suit traite de l’estimation par maximum de vraisemblance de chaque équation
séparément, technique que l’on nomme maximum de vraisemblance en in-
formation limitée, ou LIML. Puis dans la Section 18.6, nous discuterons des
triples moindres carrés, ou 3SLS, que l’on dérive comme une application de la
méthode des moments généralisée. Enfin, les modèles d’équations simultanées
seront abordés dans la Section 18.7.
18.2 Exogénéité et Causalité

Dans le cas d’une équation de régression unique, nous estimons la distribu-
tion, ou du moins l’espérance et la variance, d’une variable endogène condi-
tionnellement aux valeurs de certaines variables explicatives. Dans le cas d’un
modèle d’équations simultanées, nous estimons la distribution jointe de deux
ou plusieurs variables endogènes conditionnellement aux valeurs de certaines
variables explicatives. Mais nous n’avons encore rien dit sur les conditions
sous lesquelles nous pouvons considérer une variable comme explicative. Pour
que l’inférence conditionnelle soit valable, les variables explicatives doivent
être soit prédéterminées soit exogènes dans un sens ou un autre que nous
allons définir.
Dans un contexte de série temporelle, nous avons vu que les variables
aléatoires qui sont prédéterminées peuvent être employées sans risque en tant
que variables explicatives dans une estimation par moindres carrés, du moins
asymptotiquement. En réalité, les variables endogènes rétardées sotn abon-
damment utilisées en tant que variables explicatives et en tant qu’instruments.
Cependant, il y a de nombreux cas, et parmi eux le cas des modèles es-
timés à l’aide de données en coupe tranversale, où nous voulons utiliser en
tant que variables explicatives des variables qui ne sont pas des variables
18.2 Exogénéité et Causalité 625
prédéterminées. De plus, le concept de prédétermination se révèle être plus

délicat que ce que l’on imagine, puisque la prédétermination n’est pas invari-
ante à la paramétrisation du modèle. Ainsi il est calir que nous avons besoin
d’un concept plus général que celui de la prédétermination.
Il est pratique de débuter par des définitions formelles du concept de
prédétermination et du concept étraitement relié de l’exogénéité faible. Ce
faisant, nous suivons l’exposé classique de ces thèmes, tel qu’il apparaı̂t chez
Engle, Hendry, et Richard (1983). Les lecteurs devraient être prévenus que
cet article, bien qu’étant une référence classique, n’est pas du tout évident à
lire. Notre discussion sera grandement simplifiée par rapport à la leur, et se
fondera sur un contexte plus général, puisque ces auteurs se concentrent sur
les modèles paramétriques pleinement spécifiés et estimables par maximum
de vraisemblance. Nous nous référerons, malgré tout, à un de leurs exemples
pour une illustration concrète d’un nombre de points.
Soit Yt le vecteur de dimension 1 × g l’observation t d’un ensemble de
variables que nous voulons modéliser dans un processus simultané, et soit
Xt le vecteur de dimension 1 × k l’observation t d’un ensemble de variables
explicatives, dont toutes ou certaines peuvent être des Yt retardés. Nous
pouvons écrire un modèle d’équations simultanées, en général nobn linéaire,
sous la forme
ht (Yt , Xt , θ) = Ut , (18.04)
où ht est un vecteur de dimension 1 × g de fonctions, comparable à la fonction
de régression d’un modèle univarié, où θ est un vecteur de paramètres de
dimensionp, et où Ut est un vecteur de dimension 1 × g d’aléas. Le modèle
linéaire (18.01) peut être considéré comme un cas particulier de (18.04) si
nous le mettons sous la forme
Yt Γ = Xt B + Ut
et si nous faisons en sorte que θ soit composé de tous les éléments de Γ

et B qu’il faut estimer. Ici Xt et Yt sont les t ième lignes des matrices X
et Y. On pourrait baser un ensemble de conditions portant sur les moments
(conditionnels) sur (18.04), en écrivant
¡ ¢
E ht (Yt , Xt , θ) = 0,
où l’espérance pourrait s’interpréter comme étant conditionnelle à un ensemble

d’information approprié.
Définition 18.1.
Les variables explicatives Xt sont prédéterminées dans l’équation i du
modèle (18.04), pour i = 1, . . . , g, si, pour tout t = 1, . . . , n,
Xt k ui,t+s pour tout s ≥ 0.

Le symbole k est ici employé pour exprimer l’indépendance statistique. La

définition est valable quel que soit le contexte, et en particulier le contexte des
séries temporelles pour lequel il existe un ordre naturel. Le prochain concept
ne nécessite pas un tel ordonnancement.
Définition 18.2.
Les variables explicatives Xt sont strictement exogènes dans l’équation
i du modèle (18.04) si, pour tout t = 1, . . . , n,
Xt k Us pour tout s = 1, . . . , n.
Si (18.04) représente une forme structurelle, alors autant la prédétermina-

tion que l’exogénéité stricte nous autorise à traiter cette forme comme une
caractérisation du processus générant Yt conditonnellement à Xt . Ainsi
nous pouvons, par exemple, écrire une fonction de log-vraisemblance basée
sur (18.04), que l’on peut maximiser pour obtenir des estimations conver-
gentes des paramètres θ; voir la Section 18.4. Si l’on pense que (18.04) doit
fournir des conditions portant sur les moments conditionnels, alors autant la
prédétermination que l’exogénéité stricte nous autorise à employer les colonnes
de X comme instruments dans l’estimation de θ par une sorte quelconque de
procédure IV, telle que les 2SLS, 3SLS ou la GMM. En réclamant cette pro-
priété, nous supposons qu’il y a suffisamment d’instruments dans X pour
identifier tous les paramètres de θ.
Hélas, le concept de l’exogénéité stricte est beaucoup trop contraignant,
du moins pour les applications sur séries temporeles. Dans ce contexte, un
très petit nombre de variables sont strictement exogènes, bien que beaucoup
soient prédéterminées. Cependant, comme nous allons le montrer, une vari-
able peut être prédéterminée ou non dans un même modèle selon la manière
de le paramétrer. En plus de cela, la prédétermination n’est pas toujours
nécessaire pour une estimation convergente. Ce concept est par conséquent
très peu satisfaisant.
Considérons le modèle simultané suivant, tiré de Engle, Hendry, et
Richard (1983):
yt = βxt + ε1t (18.05)

xt = δ1 xt−1 + δ2 yt−1 + ε2t , (18.06)
où les aléas sont normalement, identiquement, et indépendemment distribués

pour tout t, avec une matrice de covariance donnée par
· ¸
σ11 σ12
Σ≡ .
σ12 σ22
Si σ12 6= 0, xt est corrélé à ε1t et l’estimation de (18.05) par OLS ne sera pas
convergente parce que xt n’est pas prédéterminé dans (18.05).
Considérons à présent l’espérance de yt conditionnellement à xt et à tous

les yt et xt retardés. Nous avons
E(yt | xt , yt−1 , xt−1 · · ·) = βxt + E(ε1t | xt , yt−1 , xt−1 · · ·). (18.07)
Remarquons que ε2t est défini par (18.06) comme une combinaison linéaire
des variables conditionnantes. Ainsi l’espérance conditionnelle de ε1t dans
(18.07) est
σ12 σ12
E(ε1t | ε2t ) = ε2t = (x − δ1 xt−1 − δ2 yt−1 ).
σ22 σ22 t
Nous pouvons par conséquent écrire
yt = bxt + c1 xt−1 + c2 yt−1 + vt , (18.08)
avec
σ12 σ12 σ12
b=β+ , c 1 = − δ1 , c2 = − δ2 , (18.09)
σ22 σ22 σ22
où vt est indépendent de xt . Ainsi xt est prédéterminé dans (18.08), quelle
que soit la valeur de σ12 , bien qu’il ne soit pas prédéterminé dans (18.05)
lorsque σ12 6= 0.
Nous retournerons à ce modèle plus tard. Pendant ce temps, progressons
vers un concept plus approprié que la prédétermination dans le contexte du
modèle simultané. Parce que nous voulons savoir si les variables explicatives
Xt sont déterminées simultanément aux Yt nous aurons besoin de travailler
avec des DGP qui génèrent à la fois Yt et Xt . Comme d’habitude, nous
pouvons représenter un DGP par une densité de probabilité, ou mieux par
son logarithme, que l’on peut exprimer comme la somme de contributions de
chaque observation; voir la Section 8.2. La contribution de l’observation t est
de la forme
`t (Yt , Xt | Ωt ). (18.10)
Cette expression est le logarithme de la densité jointe de Yt et Xt condition-
nellement à l’ensemble d’information Ωt . Ce dernier est composé de toutes
les observations sur Yt et Xt , de la première à la (t − 1)th .
L’expression (18.10) peut être décomposée en deux contributions, l’une
correspondant au logarithme de la densité de Yt cnditionnellement à Xt et
Ωt , et la seconde correspondant au logarithme de la densité de Xt condition-
nellement à Ωt :
`t (Yt , Xt | Ωt ) = `Yt (Yt | Xt , Ωt ) + `X

t (Xt | Ωt ), (18.11)
avec une notation évidente. A ce stade, nous souhaitons pouvoir faire ab-
straction de la seconde partie des contributions dans (18.11), puisqu’elle ne
concerne que les variables explicatives.
Sous quelles conditions pouvons-nous faire abstraction de la seconde con-

tribution? Pour répondre à cette question, considérons tout d’abord un
modèle, M, composé de DGP représentés par des ensembles de contribu-
tions de la forme (18.11). Puis, définissons une application définissante des
paramètres: M → Θ ∈ Rp qui associe un vecteur de paramètres à p com-
posantes θ(µ) ∈ Θ à chaque µ ∈ M. Le vecteur de paramètres θ contient
les paramètres d’intérêt, c’est-à-dire ceux que nous vouons estimer. Comme
nous allons le voir, il peut y avoir d’autres paramètres, appelés, paramètres
perturbateurs, que nous ne souhaitons pas estimer.
Définition 18.3.
Les variables expliatives Xt sont faiblement exogènes pour le modèle
paramétrique (M, θ) si
(i) il existe un sous-modèle M X qui contient les DGP pour les vari-
ables explicatives Xt seulement;
(ii) il existe un sous-modèle conditionnel M Y qui contient les DGP
pour les variables endogènes Yt conditionnellement aux variables
explicatives Xt ;
(iii) le modèle complet M comprend tous les DGP joints (µY, µX ), où
µX est un élément arbitraire de M X et où µY est un élément
arbitraire de M Y ; et
(iv) il existe une application définissante des paramètres θ Y : M Y → Θ
telle que, pour tout µ ≡ (µY, µX ) ∈ M, θ(µ) = θ Y (µY ).
Cette définition nécessite quelques mots d’explication. Les DGP du sous-
modèle M X sont caractérisés par des sérise des contributions telles que `Xt
dans (18.11), alors que ceux de M Y sont caractérisés par des contributions
telles que `Yt dans cette équation. Ainsi les contributions qui caractérisent
les DGP des deux sous-modèles sont tels que, pour l’observation t, la densité
est conditionnelle à tous les Ωt . Cela signifie en particulier que le processus
qui génère les Xt peut tout à fait dépendre des Yt retardés. La puissance
de point (iii) de la définition est que le modèle complet M, les DGP qui ont
des contributions comparables au membre de droite de (18.11), doit contenir
toutes les combinaisons d’éléments de M X et M Y possibles. Le point (iv)
indique que les paramètres du modèle ne dépendent que du DGP conditionnel
qui génère les Yt conditionnellement aux Xt . Autrement dit, les paramètres
associés au DGP (µY , µX ) ne dépendent que de µY . Si on remplace µX par un
autre DGP pour les mêmes variables explicatives, disons ν X, les paramètres
ne sont pas modifiés.
Engle, Hendry, et Richard prétendent que l’exogénéité faible au sens de la
définiiton précédente est précisément cedont nous avons besoin pour estimer
et réaliser des inférences sur les paramètres θ without sans tenir compte du
sous-modèle M X . Afin d’estimer les modèles par maximum de vraisemblance,
cela est suffisament clair. La fonction de log-vraisemblance est la somme des
contributions du type (18.11). Seul le premier terme, issu du sous-modèle
M Y, peut dépendre de θ. La maximisation de la fonction de log-vraisemblance

dans sa totalité est donc équivalente à la maximisation de la fonction de log-
vraisemblance partielle
n
X
`Y (Y n, X n ; θ) ≡ `Yt (Yt | Xt , Ωt ; θ)
t=1
par rapport à θ. De la même façon, en ce qui concerne l’inférence, le gradient

et la matrice Hessienne de la fonction de log-vraisemblance complète ` par
rapport à θ sont identiques à ceux de la fonction de log-vraisemblance partielle
`Y .
Voyons comment s’applique la Définition 18.3 au modèle défini par (18.05)
et (18.06). A l’évidence, (18.06) correspond au sous-modèle M X et (18.05)
correspond au sous-modèle M Y. Notons que (18.06) fait usage des valeurs
retardées de yt . Remarquons que si les “paramètres” δ1 et δ2 étaient définis
par l’application définissante des paramètres, l’exogénéité faible serait sans
pertinence, puisque les δi apparaissent seulement dans le sous-modèle M X.
Pour éviter cette difficulté apparente, nous supposerons que l’application
définissante des paramètres ne définit que le paramètre β. Ainsi, dans ce
cas, nous mettons les paramètres δi et les éléments de la matrice de covar-
iance Σ sur un pied d’égalité, en tant que paramètres perturbateurs. Le seul
paramètre d’intérêt est β.
Un DGP du sous-modèle M X peut maintenant être spécifié en donnant les
valeurs des paramètres perturbateurs δi et la densité marginale des aléas ε2t ,
qui dépendra de la variance non conditionnelle σ22 mais pas de σ11 ou de
σ12 . Pour une DGP dans M Y, il est nécessaire de spécifier la valeur de β, le
paramètre qui nous intéresse, et la densité de ε1t conditionnellement à ε2t ,
qui impliquera σ11 et σ12 . A ce stade, les conditions (i), (ii), et (iv) de la
Définition 18.3 sont satisfaites. La variable xt est donc faiblement exogène
pour le modèle donné par (18.05), (18.06) et le paramètre β dès que la con-
dition (iii) est satisfaite, ce qui implique que nous soyons capables d’associer
deux DGP, quels qu’ils soient, correspondant chacun à un sous-modèle. Mais
2
cela n’est pas possible en général, parce qu’il faut que σ11 σ22 ≥ σ12 afin que
la matrice de covariance de la distribution jointe de ε1t et ε2t soit semi-définie
positive. Cette inégalité ne sera satisfaite automatiquement que si nous con-
traignons le modèle global de sorte que σ12 = 0, ce qui rend xt faiblement
exogène.
Nus voyons donc, dans ce cas, que la prédétermination de xt se con-
fond avec son exogénéité faible. Qu’advient-il si nous examinons le modèle
donné par (18.08) et (18.06)? Souvenons-nous que xt est prédéterminé dans
(18.08) de manière tout à fait générale. En réalité, il sera également faiblement
exogène en général si nous modifions l’application définissante des paramètres
(mais pas le modèle M sous-jacent) afin qu’elle décrive le paramètre b au lieu
de β. Remarquons que même si nous nous intéressons aux paramètres c1 , c2 ,
et à la variance des aléas vt dans (18.08)autant qu’à b, β ne peut pas être

recomposé à partir de ces paramètres sans σ12 . L’exogénéité faible provient
du fait que, par construction, vt est non corrélé à ε2t .
L’avantage de l’exogénéité faible par rapport à la prédétermination dans
ce contexte est que sa définition fait référence à une application définissante
des paramètres particulière. cela signifie que nous pouvons dire que xt est
faiblement exogène pour β ou pas, selon le cas, et qu’elle est toujours faible-
ment exogène pour b. A l’inverse, la prédétermination est définie relative-
ment à un équation, telle que (18.05) ou (18.08), plutôt qu’à une application
définissante des paramètres.
Le concept de causalité au sens de Granger est également un concept qui
peut être important pour celui qui désire travailler conditionnellement à un
ensemble de variables explicatives. Comme son nom le suggère, ce concept
a été développé par Granger (1969). D’autres définitions de la causalité ont
été proposées, en particulier par Sims (1972). Les définitions de la causalité
au sens de Granger ou de Sims sont souvent équivalentes, mais pas toujours;
consulter Chamberlain (1982) et Florens et Mouchart (1982). Pour la plupart
des usages, il semble que la causalité au sens de Granger, ou plutôt son opposé,
la non causalité au sens de Granger, soit le concept le plus utile.
Nous donnons à présent une définition de la non causalité au sens de
Granger. Tout comme la définition de l’exogénéité faible, elle est relative au
contexte des modèles M qui contiennent les DGP qui génèrent deux ensem-
bles de variables Yt et Xt . Contrairement à celle-ci, elle ne fait référence
à aucune application définissante des paramètres, et n’opère pas de distinc-
tion entre les variables endogènes Yt et les variables explicatives Xt . Dans la
définition, Y t−1 et X t−1 désignent les lignes des matrices Y et X, respective-
ment, antérieures à la t th. Ainsi Ωt est composé de Y t−1 et X t−1.
Définition 18.4.
Les variables Y t−1 ne causent pas au sens de Granger les variables Xt
dans un modèle M comprenant les DGP caractérisés par les contribu-
tions (18.11) si et seulement si
`X X
t (Xt | Ωt ) = `t (Xt | X
t−1
).
Cela signifie que Y t−1 ne cause pas au sens de Granger Xt si la dis-

tribution de Xt conditionnellement au passé de Xt et Yt est la même
que celle qui est conditionnelle au passé de Xt .
Un moyen pratique d’exprimer la non causalité au sens de Granger consiste à
dire que le passé de Yt ne contient aucune information sur Xt qui ne soit déjà
contenue dans le passé de Xt . Bien que cela ne soit pas strictement exact,
il est fréquent de parler de causalité au sens de Granger plutôt que de non
causalité au sens de Granger. Cette pratique n’entraı̂ne en général aucune
ambiguité.
Il est évident à partir de (18.06) que, dans le modèle donné par cette
équation et par (18.05), yt cause au sens de Granger xt , à moins que δ2 = 0.
Ainsi, même si σ12 = 0, ce qui signifie que xt est faiblement exogène pour
le paramètre β dans (18.05), le processus générateur de xt dépend du passé
de la variable endogène yt . par ailleurs, si δ2 = 0 mais que σ12 6= 0, yt ne
cause pas xt au sens de Granger, bien que xt ne soit pas faiblement exogène
pour β. Ainsi les deux idées de faible exogénéité et de non causalité au sens de
Granger sont distinctes: aucune n’implique l’autre et aucune n’est impliquée
par l’autre.
Comme nous l’avons vu, la présencé de la causalité au sens de Granger ne
nous empêche nullement d’estimer efficacement β et de réaliser des inférences
sur ce paramètre sans avoir recours au processus qui génère xt si xt est faible-
ment exogène pour β. Inversement, une absence d’exogénéité faible ne nous
empêche nullement de faire des prévisions efficaces de yt conditionnellement
à xt si yt ne cause pas xt au sens de Granger. Plus précisément, supposons
que nous établissions une équation d’anticipation de xt basée sur sont passé
uniquement. Si (18.05) et (18.06) sont exactes, nous trouvons que
E(xt | xt−1 ) = (δ1 + βδ2 )xt−1 . (18.12)
On anticiperait alors xt en termes de la valeur retardée xt−1 et d’une esti-

mation du paramètre d’autorégression δ1 + βδ2 , obtenu, sans doute, par une
régression de xt sur sa propre valeur retardée d’une période. Si par la suite
nous souhaitons anticiper yt conditionnellement à notre prévision de xt , nous
développerions une équation de prévision de yt en fonction de celle de xt et
du passé des deux variables. De (18.08),
E(yt | xt , Ωt ) = bxt + c1 xt−1 + c2 yt−1 , (18.13)
où b, c1 , et c2 sont définis par (18.09). Si maintenant nous remplaçons xt dans

(18.13) par son anticipation (18.12), nous obtenons une prévision
b(δ1 + βδ2 )xt−1 + c1 xt−1 + c2 yt−1 . (18.14)
On déduit immédiatement de (18.05) et (18.06) que
E(yt | Ωt ) = βδ1 xt−1 + βδ2 yt−1 .
Par conséquent, si (18.14) doit procurer une anticipation sans biais, il est
nécessaire que
b(δ1 + βδ2 ) + c1 = βδ1 et c2 = βδ2 .
A l’aide des définitions (18.09), nous pouvons voir que ces égalités sont vérifiées
si δ2 = 0 ou si b = 0. La première condition est précisdément celle de la non
causalité au sens de Granger. La seconde corespond à un cas particulier où
xt ne contient aucune information sur yt qui ne soit déjà contenue dans Ωt ,

et elle est moins intéressante dabns le conteste actuel.
La conclusion en général est que lorsque nous portons notre attention sur
la prévision, nous pouvons anticiper les valeurs des variables Yt conditionnelle-
ment aux anticipations sur les variables Xt si Y t−1 ne cause pas Xt au sens
de Granger. D’autre part, si nous portons notre attention surl’estimation et
l’inférence pour certains paramètres, nous pouvons conditionner par rapport
à Xt si ces variables sont faiblement exogènes pour les paramètres dans le con-
texte du modèle pour lequel ils sont définis. Il est intéressant de combiner les
deux idées pour définir les circonstances pour lesquelles toutes des activités
peuvent être entreprises avec succès conditionnellement à Xt . Le concept
approprié est celui de l’exogénéité forte, que nous définissons à présent.
Définition 18.5.
Les variables explicatives Xt sont fortement exogènes pour le modèle
paramétrisé (M, θ) comprenant les DGP qui génèrent à la fois les
variables endogènes Yt et les Xt si elles sotn faiblement exogènes et si
Y t−1 ne cause pas Xt au sens de Granger.
Ceci complète notre discussion sur la causalité et sur l’exogénéité. Pour
une discussion encore plus complète, nous orientons les lecteurs vers l’article
de Engle-Hendry-Richard. Au delà de l’introduction des concepts de faible
et de forte exogénéité, cet raticle annonce un autre concept, appelé super
exogénéité. Ce concept est importan tpour l’analyse politique, mais pas pour
l’estimation ou l’inférence, et n’est donc pas dans notre priorité immédiate.
18.3 L’Identification dans les Modèles Simultanés
Le problème de l’identification dans les modèles d’équations simultanées est,

en principe, comparable à ce dont nous avons discuté dans le contexte général
des modèles paraétrisés. si pour un modèle M donné, il est possible de définir
une application définissante des paramètres, alors les paramètres du modèles
sont identifiés, dans le sens où un seul et unique vecteur de paramètres est
associé à chaque DGP dans M. Cependant, même si une telle application
existe, les données doivent satisfaire certaines conditions pour que le modèle
soit identifié par les données, et le DGP doit en satisfaire d’autres pour que
le modèle soit identifié asymptotiquement. Dans le Chapitre 5, nous avons
défini et discuté en détail du concept d’identification asymptotique, et nous
l’avons comparé au conept d’identification par un ensemble d’observations
particulier. Dans le cadre des modèles d’équations simultanées, c’est bien
sûr le premier qui nous intéresse. Toutes les méthodes d’estimation que nous
avons étudiées se fondent sur la théorie asymptotique, et on ne peut pas
espérer réaliser des estimations convergentes si les paramètres ne sont pas
identifiés asymptotiquemen.
18.3 L’Identification dans les Modèles Simultanés 633
Dans cette section, nous traiterons de l’identification asymptotique d’une

modèle d’équations simultanées par l’estimateur des doubles moindres carrés,
que nous avons introduit dans la Section 7.5. Cela peut paraı̂tre un sujet
limité, et dans un certains sens, c’est un sujet limité. Cependant, c’est un
problème qui a donné naissance à une littérature très vaste, et que nous
ne pouvons pas exposer en entier ici; voir Fisher (1976) et Hsiao (1983).
Il existe des modèles qui ne sont pas identifiés par l’estimateur des 2SLS
mais qui le sont par des d’autres, tels que l’estimateur FIML, et nous en
parlerons brièvement. Il n’est pas très facile d’étendre la théorie que nous
présentons dans le contexte des modèles non linéaires, contexte pour lequel il
est habituellement recommandé de se recommander de se référer à la théorie
asymptotique développée dans la Section 5.2.
Nous débutons par le modèle d’équations simultanées (18.01). Ce modèle

comprend les DGP qui génèrent les échantillons d’où sont issus le vecteur Yt
des g variables dépendantes, conditionnellement à un ensemble de variables
exogènes et dépendante retardées Xt . Puisque nous avons supposé que les
variables exogènes Xt sont faiblement exogènes, nous pouvons faire abstrac-
tion du processus qui les génère. Afin de poursuivre notre discussion sur
l’identification, il fait poser quelques hypothèses sur les aléas Ut . Il faut bien
évidemment que E(Ut ) = 0, et il semble raisonnable de supposer qu’ils sont
indépendants en série et que E(Ut>Ut ) = Σt , où Σt est une matrice définie
positive pour tout t. Si l’on veut réaliser de inférences à partir de la matrice de
covariance des 2SLS, il est nécessaire d’imposer l’homoscédasticité des aléas,
c’est-à-dire d’imposer Σt = Σ pour tout t.
Il est pratique de traiter l’identification des paramètres équation par

équation dans un modèle d’équations simultanées, puisqu’il est parfaitement
envisageable d’identifier les paramètres d’une équation quelconque même si
ceux des autre équations ne le sont pas. Pour simplifier la notation, nous
ne considèrerons, sans perte de généralité, que les parmètres de la première
équation du système, c’est-à-dire les éléments des premières colonnes des ma-
trices Γ et B. Comme nous l’aons noté dans la Section 18.1, il faut imposer
des contraintes sur les éléments de ces matrices pour les identifier. Il est
habituel de supposer que ces contraintes prennent toutes la forme de con-
traintes de nullité de certains paramètres. On dit qu’une variable est ex-
clue d’une équation lorsque le coefficient correspondant est contraint à zéro;
autrement, on parle de variable incluse dans l’équation. Comme nous l’avons
vu dans la Section 6.4, il est toujours possible de reparamétriser les con-
traintes dans un contexte d’équation unique pour leur donner la forme de
contraintes de nullité. Mais dans un contexte d’équatiosn simultanées, de
telle reparamétrisations n’existent en général qu’en l’absence de contraintes
d’équations croisées, c’est-à-dire des contraintes qui impliquent les paramètres
de plus d’une équation du système. S’il existe des contraintes d’équations
croisées, alors il faut abandonner le contexte des systèmes linéaires, quoi que
l’on veuille tenter. Il nous faut également abandonner l’estimateur 2SLS si

nous voulons imposer des contraintes d’équations croisées.
Partitionnons la matrice Y comme suit:
Y = [y Y1 Y2 ], (18.15)
où le vecteur colonne y est la variable endogène associée au coefficient uni-
taire dans a première équation du système, les colonnes de la matrice Y1 de
dimension n × g1 sonbt les variables endogènes non exclues de cette équatiobn
par des contraintes de nullité, et où les colonnes de la matrice Y2 de dimen-
sion n × (g − g1 − 1) sont les variables endogènes exclues. Pareillement, nous
partitionnons la matrice X des variables exogènes:
X = [ X1 X2 ], (18.16)
où les colonnes de la matrice X1 de dimension n×k1 sont les variables exogènes
qui sont incluses dans l’équation, et où celles de la matrice X2 de dimension
n × (k − k1 ) sont les variables exogènes exclues.
De façon cohérente avec la partition de Y et X, nous pouvons partitionner
le smatrices de coefficients
 Γ et Bcomme suit:
1 Γ02 · ¸
β1 B 12
Γ =  −γ1 Γ12  et B = . (18.17)
0 B22
0 Γ22
Les lignes de Γ sont partitionnées comme les colonnes de Y dans (18.15), et
celle de B le sont comme les colonnes de X dans (18.16). En plus de cela,
nous avons partitionné les colonnes de Γ et B pour qu’elles puissent séparer
les premières colonnes de chaque matrice des autres colonnes, puisque ce sont
les premières colonnes qui contiennent les paramètres de la première équation
du système. On peut donc écrire la première équation comme suit:
y = Y1 γ1 + X1 β1 + u = Zδ + u, (18.18)
où la matrice Z de dimension n × (g1 + k1 ) est [X1 Y1 ], et où le vecteur
.
paramétrique δ est [β1 ... γ1 ].
Pour obtenir une estimation 2SLS de δ, nous devons utiliser des variables
instrumentales. Les colonnes de X1 , qui sont exogènes, peuvent servir en tant
qu’instruments, et celles de X2 constituent des instruments supplémentaires.
Si les colonnes de X sont les seuls instruments disponibles, il va de soi qu’une
condition nécessaire à l’identification de δ, que ce soit avec des échantillons
finis ou asymptotiquement, est que X possède au moins autant de colonnes
que Z. Cela revient à dire que X2 doit posséder au moins autant de colonnes
que Y1 , c’est-à-dire que k − k1 ≥ g1 . Autrement dit, il faut qèue le nombre des
variables exogènes exclues soit au moins aussi grand que celui des variables
endogènes incluses. Cette condition est connue sous le nom de condition
d’ordre pour l’identification. Cependant, comme nous le verrons, c’est une
condition necessaire mais qui n’est pas suffisante en général.1
1
Si on adment la possibilité de contraintes d’équations croisées, cette condition
d’ordre n’est plus du tout nécessaire.
Il n’est pas évident que X fournisse toutes les variable s instrumen-

tales requises. Pourquoi ne pas employer d’autres variables endogènes ou
prédéterminées qui sont correlées aux variables endogènes Y1 ? Même dans
le cas où la condition d’ordre est vérifiée, ne pourrions-nous pas faire us-
age d’autres instruments disponibles pour obtenir des estimations plus effi-
caces? Il s’avère que l’usage d’instruments supplémentaires ne permet pas
d’indentifier asymptotiquement des paramètres qui ne le sont pas. De plus,
lorsque les aléas u sont homoscédastiques et indépendants en série, les instru-
ments supplémentaires n’apportent aucun gain d’efficacité.
Pour mettre en évidence ces résultats, nous considérons la forme réduite
contraintes (18.02) correspondant à (18.01). Par un léger abus de notation,
nous poserons simplement
Y = XΠ + V , (18.19)
en définissant Π par BΓ −1. Il sera nécessaire de partitionner Π con-
formément aux partitions (18.17) de Γ et B:
· ¸
π1 Π11 Π12
Π= . (18.20)
π2 Π21 Π22
La partition des lignes est ici la même que celle de B dans (18.17), et la
partition des colonnes est identique à celle de Γ dans la même équation,
ainsi qu’à celle de Y dans (18.15). Nous supposerons que les données ont été
générées par le processus (18.19) avec Π = Π0 = B0 Γ0−1.
Considérons à présent l’identification du vecteur paramétrique δ dans
l’équation (18.18) pour n’importe quelle matrice W d’instruments valables,
c’est-à-dire n’importe quelle matrice W telle que plim(n−1 W >W ) est une
matrice définie et déterministe, et telle que plim(n−1 W >V ) = 0. A partir
des résultats de la Section 7.8, δ est identifiable par les données si la ma-
trice Z>PW Z est définie positive, et il est identifiable asymptotiquement si
plim(n−1Z>PW Z) est définie positive. Pour étudier cette limite en proba-
bilité, éxaminons la matrice
1 1
−
n
W >Z = −
n
W > [ X1 Y1 ]
1
=−
n
W > [ X1 X1 Π11 + X2 Π21 + V1 ], (18.21)
où le bloc V1 de la matrice d’aléas V correspond au bloc Y1 de Y dans (18.15),

et où les coefficients de la forme réduite sont évaluées avec Π = Π0 .
L’orthogonalité asymptotique entre les instruments W et la matrice
d’aléas V signifie que la limite en probabilité de (18.21) est
³ ´
1 >
plim − n
W [ X1 X1 Π11 + X2 Π21 ] . (18.22)
n→∞
Ceci montre clairement que, quel que soit le choix d’une matrice d’instruments
W, le rang de la matrice (18.22) ne peut excéder k, qui est précisément le nom-
bre de variables exogènes linéairement indépendantes. Toutes les colonnes de
la matrice partitionnée dans (18.22) sont des colonnes de X ou des combi-

naisons linéaires de ces colonnes. Il s’ensuit que le rang de plim(n−1Z>PW Z)
ne peut jamais dépasser k lui non plus. Ainsi, si Z possède plus de k colonnes,
ce qui implique une violation de la condition d’ordre, plim(n−1Z>PW Z) est
singulière, et donc, non définie positive. Nous concluons que la condition
d’ordre est bien nécessaire pour l’identification asymptotique de δ, quel que
soit l’ensemble d’instruments employé.
Puis nous montrons que, sous les hypothèses d’homoscédasticité et d’in-
dépendance en série des aléas u, les colonnes de X offrent des instruments
optimaux pour l’estimation de δ. Il y a deux éventualités possibles. Dans
la première, S(X) ⊂ S(W ). Puisque X1 et X2 appartiennent à S(X), nous
voyons à partir de (18.22) que
³ ´ ³ ´
1 > 1 >
plim − Z P W Z = plim −Z P X Z
n→∞ n n→∞ n
³ ´
1 >
= plim −n
[ X1 X1 Π11 + X2 Π21 ] [ X1 X1 Π11 + X2 Π21 ] .
n→∞
Ainsi l’ajout d’instruments W à ceux offerts par X ne produit aucun gain

d’efficacité asymptotique. Puique cela contribuera à accroı̂tre le biais dans
les échantillons finis (voir la Section 7.5), il vaut mieux ne pas utiliser ces
instruments supplémentaires.
Dans la seconde, S(X) n’est pas un sous-espace de S(W ). Cela implique
que, asymptotiquement, W doit avoir un pouvoir explicatif sur Z inférieur
à celui de X. Par conséquent, plim(n−1Z>PXZ) − plim(n−1Z>PW Z) est
une matrice semi-définie positive pour toute matrice d’instruments W. Il
s’ensuit que (voir l’Annexe A) plim(n−1Z>PW Z)−1 − plim(n−1Z>PXZ)−1
est également une matrice semi-définie positive. Ainsi la matrice de covar-
iance asymptotique que l’on obtient à l’aide de la matrice d’instruments X,
à savoir σ 2 plim(n−1Z>PXZ)−1, établit une borne inférieure pour la matrice
de covariance asymptotique pour tout estimateur IV.
De la discussion précédente et des résultats de la Section 7.8, il ressort
que la condition nécessaire et suffisante pour l’identification asymptotique de
δ à l’aide des instruments optimaux X est simplement que plim(n−1Z>PX Z)
soit non singulière. La littérature traditionnelle sur les modèles d’équations
simultanées fait référence à cette condition en tant que condition de rang pour
l’identification, pour des raisons évidentes. Cependant, un exposé aussi simple
de cette condition est trèsb rare. Au lieu de cela, la condition est typiquement
exprimée en termes des coefficients de Γ et B de la forme structurelle ou des
coefficients de la forme réduite contrainte. Etant donné que nous avons défini
Π en termes de Γ et B uniquement, toutes condition que l’on peut exprimer
en termes d’un ensemble de coefficients peut s’exprimer en termes de l’autre.
Nous allons à présent montrer comment on peut exprimer la condition,
qui veut que plim(n−1Z>PX Z) soit non singulière, en termes de contraintes
sur Π dans le DGP. Les paramètres γ1 et β1 de la première équation struc-

turelle peuvent être identifiés si et seulement on peut les retrouver de façon
unique à partir de la matrice Π des paramètres de la forme réduite contrainte.
Cette matrice, par définition, satisfait l’équation ΠΓ = B, dont nous pouvons
écrire la première colonne sous la forme
π1 + Π11 γ1 = β1
π2 + Π21 γ1 = 0
en vertu des partitions de (18.17) et (18.20). La première de ces deux

équations sert à définir β1 en termes de Π et γ1 , et nous permet de voir
que β1 peut être identifié si γ1 l’est aussi. La seconde équation montre que
γ1 est déterminé de façon unique si et seulement si la sous-matrice Π21 est de
plein rang en colonnes, c’est-à-dire si le rang de la matrice est égal au nom-
bre de ses colonnes (voir l’Annexe A). La sous-matrice Π21 possède k − k1
lignes et g1 colonnes. Par conséquent, si la condition d’ordre est satisfaite, il
y a au moins autant de lignes que de colonnes. La condition à l’identification
de γ1 , mais aussi à celle de β1 , est que les colonnes de Π21 soient linéairement
indépendantes.
Il est instructif de voir pourquoi cette dernière condition est équivalente
à la condition de rang en termes de plim(n−1Z>PX Z). Si, comme nous
l’avons supposé tacitement tout au long de cette discussion, les variables
exogènes X satisfont la condition que plim(n−1X>X) est définie positive,
alors plim(n−1Z>PX Z) peut ne pas être de plein rang si plim(n−1X>Z) a un
rang inférieur à g1 + k1 , le nombre de colonnes de Z. La limite en probabilité
de la matrice n−1 X>Z provient de (18.22), en remplaçant W par X. Si nous
faisons abstractin de la limite en probabilité et du facteur n−1 pour simplifier
la notation, la matrice pertinente peut s’écrire comme suit:
· > ¸
X1 X1 X1>X1 Π11 + X1>X2 Π21
. (18.23)
X2>X1 X2>X1 Π11 + X2>X2 Π21
La matrice (18.23) n’est pas de plein rang g1 + k1 si et seulement s’il existe
.
un vecteur non nul θ ≡ [θ1 ... θ2 ] de dimension (g1 + k1 ) tel que (18.23) fois ce
vecteur donne un vecteur nul. Si nous explicitons cette condition, et si nous
arrangeons les différents termes, nous obtenons
· > ¸· ¸
X1 X1 X1>X2 θ1 + Π11 θ2
= 0. (18.24)
X2>X1 X2>X2 Π21 θ2
La première matrice du membre de gauche est simplement X>X, et elle est

clairement non singulière. La condition porte alors sur les deux équations
vectorielles
θ1 + Π11 θ2 = 0 (18.25)
Π21 θ2 = 0. (18.26)
Si ces équations sont vérifiées pour un vecteur θ non nul, il est clair que θ2
ne peut pas être nul. Par conséquent, la seconde équation n’est vérifiée que
si Π21 n’est pas de plein rang. Alors si la condition de rang en termes de
Z>PX Z n’est pas vérifiée, alors elle ne l’est pas non plus en termes de Π21 .
Inversement, supposons que (18.26) soit vérifiée pour un vecteur θ2 non nul
quelconque de dimension g1 . Alors Π21 n’est pas de plein rang. Définissons
θ1 en termes de θ2 et Π grâce à (18.25). Alors (18.25) et (18.26) impliquent
ensemble (18.24), et la condition de rang initiale n’est pas satisfaite. Ainsi les
deux versions de la condition de rang sont équivalentes.
Nous terminons cette section en établissant, sans démonstration, une
troisième version de la condition de rang, équivalente aux deux premières, en
termes des paramètres structurels Γ et B. Il est impossible d’exprimer cette
condition exclusivement ne termes des paramètres γ1 et β1 de la première
équation. Au contraire, ce sont uniquement les valeurs des autres paramètres
qui déterminent la possible identification de γ1 et β1 . Ce troisième exposé
de la condition de rang est formulé de la manière suivante. Construisons la
matrice de dimension (g − g1 − 1 + k − k1 ) × (g − 1)
· ¸
Γ22
.
B22
Alors la condition de rang est satisfaite si et seulement si cette matrice est de

plein rang g − 1.
Nous n’avons discuté dans cette section que des conclusions les plus im-
portantes d’un programme de recherche ambitieux. Hsiao (1983) donne un
traitement plus précis. Nous n’avons pas géré des problèmes tels que les
contraintes d’équatios croisées ou les contraintes impliquant la matrice de
covariance Σ; voir Rothenberg (1971), Richmond (1974), et Hausman et
Taylor (1983), parmi d’autres. Dans la pratique, la condition d’ordre pour
l’identification est beaucoup plus utile que la condition de rang parce qu’elle
est beaucoup plus difficile à vérifier. Cependant, la condition de rang a un
intérêt théorique certain, et il est instructif de voir qu’elle peut s’exprimer
comme une condition très simple portant sur la limite en probabilité d’une
certaine matrice qui doit être de plein rang. Elle est donc équivalente à la
condition portant sur un certain estimateur 2SLS, celui qui utilise en tant
qu’instruments toutes les variables exogènes et prédéterminées, qui doit avoir
une matrice de covariance asymptotique non singulière.
18.4 Maximum de Vraisemblance en Information Complète

Il est possible d’établir une classification de deux façons des modèles d’équa-
tions simultanées. La première classification naturelle distingue les méthodes
équation par équation des méthodes systémiques. Les premières, dont les
représentants principaux sont les 2SLS et le LIML, estiment le modèle
18.4 Maximum de Vraisemblance en Information Complète 639
équation par équation. Les secondes, dont les représentants principaux sont les
3SLS et le FIML, estiment tous les paramètres du modèle en même temps. Les
adjectifs “information limitée” et “information complète” qui composent les
noms LIML et FIML montrent clairement que la première méthode s’applique
équation par équation, et que la seconde s’applique au système dans sa glob-
alité. Les méthodes équation par équation sont plus faciles à mettre en oeuvre,
alors que les méthodes systémiques produisent des estimations potentiellement
plus efficaces.
L’autre classification naturelle distingue les méthodes basées sur le max-
imum de vraisemblance, à savoir le LIML et FIML, des méthodes basées
sur les variables instrumentales ou la méthode des moments généralisés, dont
les représentants les plus connus sont les 2SLS et les 3SLS. Les méthodes
du ML produisent des estimations invariantes à la reparamétrisation (voir la
Section 8.3) alors que ce n’est pas le cas des méthodes des IV. Nous avons
déjà vu en détail les 2SLS dans le Chapitre 7. Au cours de cette section, nous
fournirons un traitement détaillé de FIML, qui diffère des 2SLS quelle que soit
la classification retenue. Les sections suivantes seront consacrées au LIML et
aux 3SLS.
Tous les estimateurs d’équations simultanées tentent de gérer le fait que
les aléas des équations structurelles sont corrélés avec n’importe quelle variable
endogène apparaissant dans l’équation. Cette corrélation rend les OLS non
convergents. Nous avons vu que les 2SLS gèrent ce problème en remplaçant
les régresseurs défectueux par des instruments. D’un autre côté, le FIML
gère ce problème par la maximisation d’une fonction de log-vraisemblance
qui implique un terme Jacobien qui n’est pas simplement la transformation
d’une somme de résidus au carré. Le FIML gère également deux problèmes
qui se manifestent dans le cadre de tout modèle multivarié, qu’il y ait ou non
simultanéité; voir la Section 9.9. Le premier problème est que, en dehors de
rares cas, les aléas des différentes équations seront corrélés. Les techniques
équation par équation telles que les 2SLS ou le LIML ingorent purement et
simplement ce problème. Au contraire, les techniques systémiques telles que le
FIML ou les 3SLS assurent la gestion de ce problème et devraient normalement
produire des estimations plus efficaces en général. le second problème est que,
dans de nombreux modèles, il existe des contraintes d’équations croisées. Les
méthodes équation par équation ingorent nécessairement ce problème, mais
les méthodes systémiques telles que le FIML en tiennent compte. Lorsque le
système complet est établi, les paramètres qui apparaissent dans plus d’une
équation sont automatiquement traités de façon différente des paramètres qui
n’apparaissent que dans une seule.
Le modèle d’équations simultanées linéaire (18.01), dont les aléas sont
supposés être normalement distribués, homoscédastiques et indpendants en
série, peut s’écrire
Yt Γ = Xt B + Ut , Ut ∼ N (0, Σ), (18.27)

avec une notation qui est désormais familière. Souvenons-nous simplement

que Yt est de dimension 1 × g, Γ est de dimension g × g, Xt est de dimension
1 × k, B est de dimension k × g, Ut est de dimension 1 × g, et Σ est de
dimension g × g. Le moyen le plus simple d’obtenir la densité de Yt consiste
à écrire celle de Ut :
³ ´
1
(2π)−g/2 |Σ|−1/2 exp −− Ut Σ −1 Ut> .
2
Puis nous remplaçons Ut par Yt Γ −Xt B et multiplions per un terme Jacobien

approprié. ce treme est la valeur absolue du déterminant duJacobien de la
transformation de Yt en Ut , c’est-à-dire le déterminant de Γ. Ainsi le facteur
Jacobien est |det Γ |.2 Le résultat est
³ ¡ ¢ −1 ¡ ¢>´
−g/2 −1/2 1
(2π) |det Γ ||Σ| exp −− Yt Γ − Xt B Σ Yt Γ − Xt B .
2
De là, nous voyons que la fonction de log-vraisemblance est

n
X ng
`(B, Γ, Σ) = `t (B, Γ, Σ) = − −− log(2π) + n log |det Γ |
2
t=1
n
(18.28)
n 1
X ¡ ¢ ¡ ¢
−− log |Σ| − − Yt Γ − Xt B Σ −1 Yt Γ − Xt B >.
2 2
t=1
Une première étape pratique dans la maximisation de `(B, Γ, Σ) con-

siste à la concentrer par rapport à Σ ou, comme nous l’avons fait dans la
Section 9.9, par rapport à son inverse, Σ −1. Etant donné que
Xn
∂` n 1 ¡ ¢¡ ¢
−1
= −Σ − − Yt Γ − Xt B > Yt Γ − Xt B ,
∂Σ 2 2
t=1
(voir Annexe A) il est évident que

1¡ ¢¡ ¢
Σ(B, Γ ) = −
n
YΓ − XB > YΓ − XB . (18.29)
Nous pouvons substituer (18.29) à Σ dans (18.28) pour obetnir

ng ¡ ¢
`c (B, Γ ) = − −− log(2π) + 1 + n log |det Γ |
2
¯ ¡ ¢>¡ ¢¯¯ (18.30)
n ¯1
− − log ¯−
n
YΓ − XB YΓ − XB ¯.
2
2
Dans ce chapitre, nois notons |A| le déterminant de A et |det A| la velru
absolue du déterminant. il est nécessaire d’employer la notation “det”, que
nous préférons éviter par ailleurs, lorsdque la valeur absolue apparaı̂t dans la
formule.
Cette fonction de log-vraisemblance concentrée ressemble étroitement à (9.65),

la fonction de log-vraisemblance concentrée pour un modèle de régression
multivariée. Remarquons que nous avons usé de la même astuce que pour
évaluer le second terme de la dernière ligne de (18.28). La différence entre
(9.65) et (18.30) provient de la présnece du terme Jacobien n log |det Γ |, dont
nous allons évaluer le rôle plus tard. L’estimateur FIML ne sera pas défini si
la matrice (YΓ − XB)>(YΓ − XB) qui apparaı̂t dans (18.30) n’est pas de
plein rang pour toutes les valeurs admissibles de B et Γ, et cela nécessite que
n ≥ g + k. Ce résultat suggère également que n doit être suffisamment grand
par rapport à g + k pour conserver au FIML de bonnes propriétés; consulter
Sargan (1975) et Brown (1981).
Il est révélateur de dériver cete fonction de log-vraisemblance concentrée
d’une manière radicalement opposée. Cette fois, nous partons de la forme
réduire contrainte correspondant à (18.27), qui est
Yt = Xt BΓ −1 + Vt . (18.31)
Ce système d’équations est juste un cas particulier du modèle de régression

multivariée étudié dans la Section 9.9, mais sous la forme (9.43), avec un
ensemble de fonctions de régression donné par ξt ≡ Xt BΓ −1 et qui sont
des fonctions non linéaires des éléments de B et Γ . La fonction de log-
vraisemblance concentrée correspondant à (18.31) est par conséquent (9.65).
dans notre cas particulier, (9.65) devient
¯ ¡ ¢¯
ng ¡ ¢ n ¯1 ¢¡
−1 > −1 ¯
− −− log(2π) + 1 − − log ¯−
n
Y − XBΓ Y − XBΓ ¯. (18.32)
2 2
Cette nouvelle expression pour `c (B, Γ ) est égale à celle dérivée précédem-
ment, (18.30). L’égalité entre (18.30) et (18.32) découle du fait que
¯ ¡ ¢¡ ¢¯
n ¯1 −1 > −1 ¯
− − log ¯−
n
Y − XBΓ Y − XBΓ ¯
2
¯ ¯
n ¯ 1 > −1 >¡ ¢¡
−1 > −1
¢ −1 ¯
= − − log ¯−n
(Γ ) Γ Y − XBΓ Y − XBΓ ΓΓ ¯
2
¯ ¡ ¢>¡ ¢¯¯
n ¯1
= n log |det Γ | − − log ¯−
n
YΓ − XB YΓ − XB ¯.
2
Il est intéressant de noter que la fonction de log-vraisemblance con-

centrée pour un modèle d’équations simultanées peut s’écrire de deux manières
différentes, (18.30) et (18.32). Cela montre de façon tout à faut claire que
les formes structurelle et réduite contrainte sont silmplement des moyens
d’exprimer le même modèle. Nous pouvons assimiler le modèle d’équations
simultanées soit à un type particulier de modèle, dont la fonction de log-
vraisemblance concentrée est donnée par (18.30), soit à un cas particulier
de modèle de régression multivariée non linéaire, dont la fonction de log-
vraisemblance concentrée est identique à celle de n’importe quel autre modèle
de régression multivariée. Mis sous cette forme, nous pouvons lui appliquer
tous les résultats déjà établis dans le Chapitre 9 pour les modèles de régression
multivariée. Cependant, parce que la matrice des coefficients BΓ −1 dépend
non linéairement des coefficients de toutes les équations du modèle, (18.32)
est en général moins pratique que (18.30).
Lorsqu’il fut proposé à l’origine par les chercheurs de la Commission
Cowles (Koopmans, 1950), le FIML n’était pas d’un calcul aisé, parce que
les maximisation de la fonction de log-vraisemblance (18.30) nécessite une
optimisation numérique. Au fur et à mesure que les ordinateurs devenaient
plus puissants et que ce genre de calcul se démocratisait, un certain nombre de
procédures de maximisation de la fonction de log-vraisemblance fut proposé,
et la plupart des progiciels d’économétrie modernes incopore au moins l’une
d’elles. Rothenberg et Leenders (1964), Chow (1968), Hausman (1974, 1975),
et Dagenais (1978) sont des références à consulter sur ce thème.
Comme d’habitude, la matrice de covariance asymptotique des estima-
tions paramétriques FIML B̂, Γ̂, et Σ̂ peut être estimé de différentes façons.
Une approche qui reste relativement aisée mais peu recommandée avec de pe-
tits échantillons consiste à exécuter une régression OPG. Cette régression ar-
tificielle peut se baser sur la fonction de log-vraisemblance concentrée (18.28),
mais pas sur la fonction concentrée (18.30), parce que cette dernière n’est
pas écrite sous la forme d’une somme de contributions. Une deuxième ap-
proche consiste à partir de la forme (18.32) de la fonction de log-vraisemblance.
Comme nous l’avons mis en évidence dans la Section 9.9, le bloc de la matrice
d’information assovcié aux paramètres des fonctions de régression d’un modèle
de régression multivariée est donné par (9.69), et ce bloc peut s’obtenir à l’aide
de la GNR (9.58). Une troisième approche pour estimer la matrice de covar-
iance asymptotique de B̂ et Γ̂ consiste à utiliser la propriété d’équivalence
asymptotique entre les 3SLS et le FIML; nous verrons cette approche dans la
Section 18.6.
Le terme Jacobien log |det Γ | qui apparaı̂t explicitement dans (18.30)
joue un rôle fondamental dans l’estimation. Sa présence est essentielle à la
convergence des estimations ML. De plus, lorsdque le déterminant de Γ tend
vers zéro, ce terme tend vers l’infini. Ainsi la fonction de log-vraisemblance
doit tendre vers moins l’infini chaque fois que le déterminant de Γ tend vers
zéro. Cela est cohérent, parce que le modèle n’est pas gérable si |det Γ | = 0, ce
qui implique que la vraisemblance d’un tel ensemble de paramètres est nul. De
fait, cela signifie que l’espace des valeurs possibles de Γ est divisé en un certain
nombre de régions, séparées par des singularités lorsque |det Γ | = 0. Dans le
cadre du modèle d’offre- demande discuté dans la Section 7.3, par exemple, il
n’existe qu’une seule singularité, qui survient lorsque les pentes des fonctions
d’offre et de demande sont égales. On ne peut pas espérer qu’un algorithme
de maximisation numérique passe à travers ces singularités en général, même
si cela peut arriver. Ainsi, lorsque nous tentons de maximiser numériquement
une fonction de log-vraisemblance, il y a peu de chances que nous trouvions le
maximum global si la région dans laquelle l’algorithme débute ne le contient

pas. Cela suggère qu’il peut être très important de bien choisir les valeurs
initiales lorsque nous employons le FIML.
Bien que le FIML se base sur l’hypothèse que les aléas sont normaux mul-
tivariés, cette hypothèse n’est pas nécessaire pour que les estimations B̂ et Γ̂
soient convergentes et asymptotiquement normales. Lorsque le FIML est em-
ployé alors que les aléas ne sont pas normalement distribués, c’est davantage
un estimateur QML qu’un estimateur ML, et il ne sera pas asymptotiquement
efficace. Comme nous l’avons vu dans la Section 9.6, tout modèle de régression
peut être estimé de façon satisfaisante par le ML sous l’hypothèse de distribu-
tion normale des aléas, que celle-ci soit exacte ou pas. Ce résultat s’applique
aussi au FIML parce que, comme le montre (18.32), celui-ci estime en fait
un certain modèle de régression multivariée non linéaire. Toutefois, lorsque
le modèle d’équations simultanées sous-jacent est non liénaire, ce résultat ne
s’applique plus automatiquement; voir Phillips (1982).
Les tests de spécification du modèle sont aussi importants pour les
modèles d’équations simultanées que pour les autres modèles économétriques.
Le large éventail des tests classiques — LM, LR, Wald, et C(α) — est bien sûr
disponible à cet égard. Cepedant, du fait que l’estimation FIML est relative-
ment coûteuse et difficile, les utilisateurs peuvent être tentés de renoncer à un
programme de tests de spécification ambitieux pour les modèles estimés par
FIML. Il est par conséquent utile de garder à l’esprit le fait que de nombreux
types de mauvaise spécification du modèle structurel (18.01) impliquent une
mauvaise spécification similaire de la forme réduite contrainte (18.03). Par
exemple, si un aléa quelconque du modèle structurel était corrélé en série,
alors, à de très rares exceptions près, tous les aléas de la forme réduite con-
trainte doivent l’être aussi. De manière comparable, si un aléa quelconque
était hétéroscédastique, alors tous les aléas de la forme réduite doivent l’être.
Pareillement, si les paramètres du modèle structurel sont non constants sur
l’échantillon, les paramètres de la FRL ne seront pas constants non plus.
Puisque les équations de la FRL sont estimés par moindres carrés ordinaires,
il est très facile de les tester contre des mauvaises spécifications telles que la
corrélation en série, l’hétéroscédasticité, ou encore la non constance des co-
efficients. Si de tels phénomènes sont mis en évidence par les tests, on peut
raisonnablement conclure que le modèle structurel est mal spécifié, même s’il
n’a pas encore été estimé. L’inverse n’est pas exact, cependant, puisque ces
tests peuvent manquer de puissance, en particulier si une seule équation struc-
turelle est mal spécifiée.
Un test de mauvaise spécification supplémentaire que l’on devrait tou-
jours mener est celui des contraintes de suridentification. Dans la Section 7.8,
nous avons examiné la manière de tester des contraintes de suridentifiction
pour une équation unique estimée par IV ou 2SLS. Nous sommes à présent
intéressés par toutes les contraintes de suridentification pour le système dans
sa globalité. Le nombre des degrés de liberté pour le test est égal au nombre
d’éléments dans la matrice Π de la FRL, gk, moins le nombre de paramètres

libres de B et Γ . Dans la plupart des cas, il y aura quelques contraintes de
suridentification, et dans de nombreux cas, il y en aura un grand nombre. La
manière la plus naturelle de les tester est probablement d’employer un test
LR. La valeur contrainte de la fonction de log-vraisemblance est la valeur de
(18.30) évaluée avec les estimations FIML B̂ et Γ̂, et la valeur non contrainte
est ¯ ¡ ¢¯¯
ng ¡ ¢ n ¯1 ¢>¡
− −− log(2π) + 1 − − log ¯− n
Y − XΠ̂ Y − XΠ̂ ¯ , (18.33)
2 2
où Π̂ désigne les estimations OLS des paramètres de la FRL. Comme

d’habitude, le double de la différence entre les valeurs contrainte et non
contrainte de la fonction de log-vraisemblance sera asymptotiquement dis-
tribuée suivant un χ2 dont le nombre de degrés de liberté est égal à celui
des contraintes de suridentification. Si l’on s’attend à ce que ces contraintes
de suridentification soient enfreintes et si l’on ne veut pas s’embarrasser de
l’estimation du modèle structurel, on peut employer un test de Wald, comme
Byron (1974) l’a suggéré.
Nous n’avons pas encore expliqué pourquoi les estimations OLS Π̂ sont
également les estimations ML. On voit aisément à partir de (18.33) que, pour
obtenir des estimations ML de Π, il est nécessaire de minimiser le déterminant
¯ ¯
¯(Y − XΠ)>(Y − XΠ)¯. (18.34)
Supposons que l’on évalue ce déterminant avec un ensemble d’estimations Π́

quelconque différent de Π̂. Puisqu’il est toujours possible d’écrire Π́ = Π̂ +A
pour une certaine matrice A, (18.34) devient
¯ ¯
¯(Y − XΠ̂ − XA)>(Y − XΠ̂ − XA)¯
¯ ¯
= ¯(MXY − XA)>(MXY − XA)¯ (18.35)
¯ > ¯
= ¯Y MXY + A>X>XA¯.
Parce que le déterminant de la somme de deux matrices définies positives
est toujours supérieur à chacun des déterminants des deux matrices (voir
l’Annexe A), il vient de (18.35) que (18.34) sera supérieur à Y >MXY pour
toute matrice A 6= 0. Cela implique que Π̂ minimise (18.34), ce qui démontre
que les estimations OLS équations par équation de la FRL sont également les
estimations ML systémiques.
Si l’on ne dispose pas d’un progiciel de régression qui calcule (18.33), il
existe un moyen différent d’y parvenir. Considérons le système récursif
y1 = Xη1 + e1
y2 = Xη2 + y1 α1 + e2
(18.36)
y3 = Xη3 + [y1 y2 ]α2 + e3
y4 = Xη4 + [y1 y2 y3 ]α3 + e4 ,
18.5 Maximum de Vraisemblance à Information Limitée 645
et ainsi de suite, où yi désigne la i ième colonne de Y. On peut interpréter ce

système d’équations comme une simple reparamétrisation de la FRL (18.03).
Il est aisé de voir que si l’on estime ces équations par OLS, tous les vecteurs
de résidus seront orthogonaux: ê2 sera orthogonal à ê1 , ê3 sera orthogonal
à ê2 et à ê1 , et ainsi de suite. Conformément à la FRL, tous les yi sont
des combinaisons linéaires des colonnes de X et d’erreurs aléatoires. Par
conséquent, les équations de (18.36) sont correctes pour tout choix arbitraire
des paramètres α: les ηi s’ajustent simplement selon le choix opéré. Toutefois,
si nous réclamons l’orthogonalité des termes d’erreur ei , cela sert à identifier
un choix particulier unique des α. En réalité, le système récursif (18.36)
possède autant de paramètres que la FRL (18.03): g vecteurs ηi , possédant
chacun k éléments, g − 1 vecteurs αi , avec en tout g(g − 1)/2 paramètres, et
g paramètres de variance, ce qui donne un total général de gk + (g 2 + g)/2
paramètres. la FRL possède gk paramètres pour la matrice de covariance Π
et (g 2 +g)/2 pour la matrice de covariance Ω, ce qui donne un total identique.
La différence est que les paramètres α de (18.36) ont été remplacés par les
éléments non diagonaux de la matrice de covariance de V dans la FRL.
Etant donné que le système récursif (18.36) est une simple reparamétrisa-
tion de la FRL (18.03), il ne devrait pas être surprenant d’apprendre que la
fonction de log-vraisemblance pour le système récursif est égale à (18.33).
Parce que les résidus des diverses équations dans (18.36) sont orthogo-
naux, la valeur des fonctions de log-vraisemblance des estimations OLS des
équations individuelles. Ce résultat, que les lecteurs peuvent aisément vérifier
numériquement, fournit parfois un moyen pratique de calculer la fonction de
log-vraisemblance de la FRL. En dehors de cet usage, les systèmes récursifs
sont d’une faible utilité. Ils ne procurent aucune information que ne soit déjà
disponible dans la FRL, et la reparamétrisation dépend de l’ordonnancement
des équations.
18.5 Maximum de Vraisemblance à Information Limitée

L’un des problèles qui se pose avec le FIML et les autres méthodes systémiques
est qu’elles nécessitent de la part du chercheur une spécification de la struc-
ture de toutes les équations du modèle. La mauvaise spécification d’une
équation quelconque conduira en général à des estimations non convergentes
pour toutes les équations. Pour éviter ce problème, à condition que l’efficacité
ne soit pas cruciale, les chercheurs peuvent préférer employer des méthodes
équations par équation. La plus facile et la plus répandue est la méthode des
2SLS, mais elle souffre de deux inconvénients majeurs. les estimations qu’elle
produit ne sont pas invariantes à la reparamétrisation, et, comme nous l’avons
vu dans la Section 7.5, elles peuvent être sévèrement biaisées avec de petits
échantillons. La méthode LIML est une technique alternative qui produit des
estimations invariantes et qsui, à de nombreux égards, possède de meilleures
propriétés avec des échantillons finis que les 2SLS. Bien qu’elle ait été proposée
par Anderson et Rubin (1949) avant l’invention des 2SLS, et qu’elle ait été
l’objet d’une étude plus théorique, elle a été peu utilisée par les économètres
dans la pratique.
Comme son nom le suggère, l’idée de base du LIML consite à employer
une information partielle sur la structure du modèle. Supposons que l’on
veuille estimer uen seule équation, disons la première, d’un modèle struc-
turel comme (18.01). Nous avons écrit une équation comparable dans la Sec-
tion 18.3 sous la forme (18.18). Nous devons prendre en compte le fait que
certaines variables apparaissant dans le membre de droite de (18.18), celles
qui correspondent aux colonnes de Y1 , sont endogènes. Le meilleur moyen
d’en tenir compte consiste à écrire leurs équations sous la forme réduire libre:
Y1 = X1 Π11 + X2 Π21 + V1 , (18.37)
où la notation est identique à celle utilisée dans la Section 18.3. La combinai-
son de (18.18) et (18.37)donne le système d’équations
y − Y1 γ1 = X1 β1 + u
(18.38)
Y1 = X1 Π11 + X2 Π21 + V1 .
Remarquons que Y2 n’apparaı̂t plus du tout dans ce système d’équations.

Si nous focalisons notre attention sur la première équation, les variables en-
dogènes qui n’ y apparaissent pas sont sans intérêt. On peut estimer le système
d’équations (18.38) par maximum de vraisemblance, et les estimations γ1 et
β1 qui en résulten seront les estimations LIML. Tout progiciel de FIML peut
être employé à cette fin.
En fait, nous n’avons pas besoin d’un progiciel de FIML pour obtenir des
estimations ML de (18.38). La matrice de coefficients des variables endogènes
dans ce système d’équations est
· ¸
1 0
. (18.39)
−γ1 I
Parce que cette matrice est triangulaire, son déterminant est simplement le
produit des termes de la diagonale, et sa valeur est 1. Ainsi le terme Jaco-
bien dans la fonction de log-vraisemblabce disparaı̂t, et la fonction de log-
vraisemblance pour (18.38) a la même forme que celle de n’importe quel en-
semble de régression apparemment sans lien (voir la Section 9.9). Cela im-
plique que l’on peut utiliser n’importe quel programme pour l’estimation des
systèmes SUR pour obtenir des estimations LIML. De plus, l’application des
GLS faisables à un système tel que (18.38), en débutant par des estimations
2SLS pour la première équaion et OLS pour les équations restantes, produira
des estimations asymptotiquement équivalentes aux estimations LIML. Pagan
(1979) a suggéré une procédure où l’on itère la procédure de GLS faisables
jusqu’à ce qu’elle converge vers les véritables estimations LIML.
Dans la pratique, on calcule rarement les estimations LIML de cette façon,

parce qu’il existe une méthode plus efficace pour les calculer. Il faudrait dis-
poser de davantage d’outils algébriques pour la développer, mais les résultats
terminaux seront relativement simples. A partir de (18.30), (18.32), et du
fait que |Γ | = 1, nous voyons que les estimations ML peuvent s’obtenir en
minimisant
¯ ¯ ¯ ¯
¯(Y − XBΓ −1 )>(Y − XBΓ −1 )¯ = ¯(YΓ − XB)>(YΓ − XB)¯. (18.40)
Nous allons maintenant montrer que la minimisation du déterminant dans le

membre de droite est ici équivalente à la minimisation du rapport de formes
quadratiques, et que cela peut être réalisé, à son tour, en résolvant un certain
problème de valeurs propres.
Ecrivons tout d’abord la matrice BΓ −1 qui apparaı̂t dans le membre de
gauche de (18.40). De (18.17) et d’une expression pour l’inverse de (18.39),
nous voyons que
· ¸· ¸ · ¸
−1 β1 B12 1 0 β1 + B12 γ1 B12
BΓ = = .
0 B22 γ1 I B22 γ1 B22
La matrice la plus à droite est simplement la version contrainte de Π.
L’élément au “nord-ouest” correspond à X1 et la matrice au “sud-est” cor-
respond à X2 . Puisque β1 n’apparaı̂t pas dans la matrice du bas et peut
varier librement, il est clair que, quelle que soit la valeur de γ1 , nous pou-
vons trouver des valeurs de β1 et B12 telles que l’élément au “nord-ouest”
prenne n’importe quelle valeur. Aurtrement dit, les contraintes sur l’équation
structurelle (18.37) n’imposent aucune contrainte sur les lignes de Π qui cor-
respondent à X1 . En général, cependant, elles imposent des contraintes sur
les lignes qui correspondent à X2 .
Comme nous l’avons vu dans la section qui précédait, il y a équivalence
entre la minimisation d’un déterminant tel que (18.34) sur lequel ne pèse
aucune contrainte et l’usage des OLS. Dans ce cas, puisqu’aucune contrainte
sur les lignes de Π ne correspond à X1 , nous pouvons employer les OLS pour
estimer ces aramètres, et ensuite concentrer ce déterminant par rapport à ces
paramètres. Ce faisant, le déterminant dans le membre de droite de (18.40)
devient ¯ ¯
¯(YΓ − XB)>M1 (YΓ − XB)¯,
où, comme d’habitude, M1 désigne la matrice qui projette orthogonalement
sur S⊥ (X1 ).
Nous allons à présent introduire une notation nouvelle. Premièrement,
.
notons γ le vecteur [1 ... −γ1 ]; par conséquent, Y γ ≡ y−Y1 γ1 . Deuxièmement,
notons Y ∗ M1 Y, Y1∗ M1 Y1 , et X ∗ M1 X2 . On peut récrire le déterminant
dans le membre de droite de (18.40) comme
¯ ¯
¯ (Y ∗ γ)>(Y ∗ γ) (Y ∗ γ)>(Y1∗ − X ∗ B22 ) ¯
¯ ¯
¯ (Y ∗ − X ∗ B )>(Y ∗ γ) (Y ∗ − X ∗ B )>(Y ∗ − X ∗ B ) ¯ . (18.41)
1 22 1 22 1 22
Ce déterminant ne dépend que des paramètres γ et B22 . La prochaine étape

consiste à concentrer par rapport aux paramètres de B22 , de manière à obtenir
une expression qui ne dépend que de γ. Cela nécessitera un usage intensif du
résultat suivant, qui est démontré dans l’Annexe A:
¯ > ¯
¯ A A A>B ¯
¯ ¯ > >
¯ B >A B >B ¯ = |A A||B MA B|, (18.42)
où, comme d’habitude, MA ≡ I − A(A>A)−1A>. Lorsque ce résultat est

appliqué à (18.41), nous obtenons
¯ ¯
(Y ∗ γ)>(Y ∗ γ) ¯(Y1∗ − X ∗ B22 )>Mv (Y1∗ − X ∗ B22 )¯, (18.43)
où Mv désigne la matrice qui projette orthogonalement sur S⊥ (v), et v ≡

Y ∗ γ. Il n’existe qu’un seul déterminant dans (18.43), et non pas deux, parce
que le premier est un scalaire.
Les paramètres B22 n’apparaissent que dans le second facteur de (18.43).
Ce facteur est le déterminant de la matrice des sommes des carrés et des
produits croisés des résidus du système des régressions entier
Mv Y1∗ = Mv X ∗ B22 + résidus.
Comme nous l’avons vu dans la section précédente, ce déterminant peut être

minimisé en remplaçant B22 par son estimation, obtenue en appliquant les
OLS à chaque équation séparément. La matrice des résidus ainsi produite est
MMv X ∗ Mv Y1∗ , où MMv X ∗ désigne la projection sur le complément orthog-
onal de S(Mv X ∗ ). Observons à présent que MMv X ∗ Mv = Mv, X ∗ , à savoir
la matrice de projection associée au complément orthogonal de S(v, X ∗ ).
Conséquemment, le second facteur de (18.43), lorsqu’il est minimisé par rap-
port à B22 , est ¯ ∗> ¯
¯(Y1 ) Mv, X ∗ Y1∗ ¯. (18.44)
On peut exploiter le fait que v et X ∗ apparaissent de manière symétrique
dans (18.44) afin de faire dépendre (18.44) de γ uniquement à travers un
scalaire. Considérons le déterminant
¯ > ¯
¯ v MX ∗ v v>MX ∗ Y1∗ ¯
¯ ¯
¯ (Y ∗ )>M ∗ v (Y ∗ )>M ∗ Y ∗ ¯ . (18.45)
1 X 1 X 1
En utilisant (18.42), ce déterminant peut être factorisé tout comme (18.41).

Nous aboutissons à
¯ ¯
(v>MX ∗ v) ¯(Y1∗ )>Mv, X ∗ Y1∗ ¯. (18.46)
En faisant usage des définitions M1 MX ∗ = MX et v = M1 Y γ, (18.45) peut

être récrit
¯ > > ¯
¯ γ Y MXY γ γ>Y >MXY1 ¯ ¯ > > ¯ ¯ ¯
¯ ¯ = ¯Γ Y MXYΓ ¯ = ¯Y >MXY ¯. (18.47)
¯ Y >M Y γ >
Y1 MXY1 ¯
1 X
La première égalité est ici aisément vérifiée en exploitant l’expression (18.39)

pour Γ et les définitions de γ et Y ; souvenons- nous que γ est la première
colonne de Γ. La seconde égalité est un résultat du fait que |Γ | = 1. Elle
implique que (18.47) ne dépend pas du tout de Γ .
Enfin, nous pouvons maintenant écrire une expression simplifiée, qui,
lorsqu’elle est minimisée par rapport à γ, est égale à la valeur minimisée du
déterminant originel (18.40). De (18.46) et (18.47), nous voyons que (18.44)
est égal à
¯ ∗> ¯ > >
¯(Y1 ) Mv, X ∗ Y1∗ ¯ = |Y MXY | = |Y MXY | .
v>MX ∗ v γ>Y >MXY γ
Ainsi, en utilisant (18.43), le déterminant d’origine (18.40) doit être égal à
v>v |Y >MXY | (γ>Y >M1 Y γ)|Y >MXY |
= = κ|Y >MXY |, (18.48)
γ>Y >MXY γ γ>Y >MXY γ
où le scalaire κ a été défini implicitement comme
γ>Y >M1 Y γ
κ≡ . (18.49)
γ>Y >MXY γ
Puisque |Y >MXY | ne dépend pas du tout de γ, il y a équivalence entre

la minimisation de (18.48) et la minimisation de κ. Ainsi, si nous pouvons
minimiser (18.49) par rapport à γ, nous pouvons obtenir des estimations LIML
γ̂ et une valeur associée de κ, disons κ̂. Lorsque les estimations LIML sont
obtenues de cette manière, on les appelle quelquefois estimations du rapport
de moindre variance.
Avant de voir comment obtenir des estimations LIML γ̂, il nous faut
dire quelques mots des conséquences de (18.48) et (18.49). En premier lieu, il
devrait être évident que κ̂ ≥ 1. Etant donné que S(X1 ) est un sous-espace de
S(X), le numérateur de (18.49) ne peut pas être inférieur au dénominateur
pour tout γ possible. En fait, pour une équation suridentifiée, κ̂ sera toujours
supérieur à 1 avec des échantillons finis. En ce qui concerne une équation juste
identifiée, κ̂ sera précisément égal à 1 parce que le nombre de paramètres à
estimer est aloors égal à k, le rang de X. Ainsi, dans ce cas, il est possible
de choisir γ de sorte que le numérateur et le dénominateur de (18.49) soient
égaux.
L’expression (18.48) implique que la valeur maximisée de la fonction de
log-vraisemblance concentrée pour l’estimation LIML d’une unique équation
est
ng n n
− −− log(2π) − − log(κ̂) − − log |Y >MXY |. (18.50)
2 2 2
La valeur maximisée de la fonction de log-vraisemblance concentrée pour
l’estimation ML de la forme réduire libre est
ng n
− −− log(2π) − − log |Y >MXY |.
2 2
Par conséquent une statistique LR portant sur les contraintes de suridentifi-

cation implicites dans une seule équation structurelle est simplement n log(κ̂).
Cette statistique de test fut proposée à l’origine par Anderson et Rubin (1950).
Il est aisé d’évaluer κ̂. L’ensemble des conditions du premier ordre obtenu
en dérivant (18.49) par rapport à γ est
2Y >M1 Y γ (γ>Y >MXY γ) − 2Y >MXY γ (γ>Y >M1 Y γ) = 0.
Si nous divisons chaque membre de l’égalité par 2γ>Y >MX Y γ, nous aboutis-
sons
Y >M1 Y γ − κY >MXY γ = 0. (18.51)
Un ensemble de conditions du premier ordre équivalent peut être établi en
prémultipliant (18.51) par (Y >MXY )−1/2 et en insérant ce facteur multiplié
par par son inverse devant γ. Après manipulation, nous arrivons à
¡ > ¢
(Y MXY )−1/2 Y >M1 Y (Y >MXY )−1/2 − κI (Y >MXY )1/2 γ = 0.
Cet ensemble de conditions du premier ordre possède désormais la forme d’un

problème classique de valeurs propres et vecteurs propres pour une matrice
réelle symétrique (voir Annexe A). Il est clair désormais que κ̂ sera une valeur
propre de la matrice
(Y >MXY )−1/2 Y >M1 Y (Y >MXY )−1/2 (18.52)
et que (Y >MXY )1/2 γ̂ sera son vecteur propre associé. En réalité, κ̂ doit être
la valeur propre la plus petite, du fait que c’est la plus faible valeur du rapport
(18.49).
Alors, un moyen de calculer des estimations LIML consiste à trouver le
vecteur propre (18.52) associé à la valeur propre la plus petite, et de là, à
.
calculer γ̂, qui sera [1 ... − γ̂1 ] si le premier élément est normalisé à 1. On peut
ensuite obtenir β̂1 en régressant y − Y1 γ̂1 sur X1 . Une approche alternative
se révéle pourtant plus simple et plus révélatrice. Considérons les conditions
du premier ordre (18.51). Si nous les exprimons en termes de y et Y1 au lieu
de Y, et les évaluons avec les estimations LIML, nous pouvons les récrire sous
la forme
Ã· ¸ · > ¸!· ¸
y>M1 y y>M1 Y1 y MX y y>MX Y1 1
− κ̂ = 0.
Y1>M1 y Y1>M1 Y1 Y1>MX y Y1>MX Y1 −γ̂1
Pour ce qui concerne les lignes correspondant à Y1 , nous avons
Y1>(M1 − κ̂MX )y − Y1>(M1 − κ̂MX )Y1 γ̂1 = 0.
En résolvant par rapport à γ̂1 , nous obtenons

¡ ¢−1
γ̂1 = Y1>(M1 − κ̂MX )Y1 Y1>(M1 − κ̂MX )y.
Puisque X1 ∈ S(X), M1 − κ̂MX = M1 (I− κ̂MX ). A l’aide de cette propriété

et d’un peu d’algèbre, on peut montrer que γ̂1 peut également se calculer
suivant la formule (nous laissons la manipulation en qu’exercice)
· ¸ · ¸−1 · ¸
β̂1 X1>X1 X1>Y1 X1>y
= , (18.53)
γ̂1 Y1>X1 Y1>(I − κ̂MX )Y1 Y1>(I − κ̂MX )y
qui fournit également β̂1 . Alors si nous définissons Z par [X1 Y1 ] et δ par
.
[β1 ... γ1 ], tout comme dans (18.18), (18.53) peut se récrire sous la forme très
simple
¡ ¢−1
δ̂ = Z>(I − κ̂MX )Z Z>(I − κ̂MX )y. (18.54)
L’équation (18.53) est un moyen parmi d’autres d’écrire le LIML comme

un membre des estimateurs de classe K; voir Theil (1961) et Nagar (1959).
L’équation (18.54) est un moyen encore plus simple d’arriver au même but.
La classe K comprend tous les estimateurs que l’on peut écrire sous une de
ces deux formes, mais avec un scalaire K arbitraire à la place de κ̂. Nous
employons la notation K plutôt que la notation plus conventionnelle k pour
désigner ce scalaire afin d’éviter la confusion avec le nombre de variables
exogènes dans le système. L’estimateur LIML est ainsi un estimateur de la
classe K, avec la paramétrisation K = κ̂. Identiquement, comme (18.54)le
montre clairement, l’estimateur 2SLS est un estimateur de la classe K avec
la paramétrisation K = 1, et celui des OLS est également un estimateur
de la classe K avec la paramétrisation K = 0. Puisque pour une équation
structurelle juste identifiée, κ̂ = 1, il découle immédiatement de (18.54) que
les estimateurs LIML et 2SLS se confondent dans ce cas particulier.
On peut montrer que les estimaturs de la classe K sont convergents
lorsque K tend vers 1 asymptotiquement à un taux plus fort que n−1/2 ; voir
Schmidt (1976), parmi d’autres auteurs. Bien que la convergence du LIML
provienne de résultats généraux sur les estimateurs ML, il reste intéressant de
voir comment ce résultat pour la classe K s’y applique. Nous avons déjà vu que
n log(κ̂) est la statistique de test LR pour l’hypothèse nulle de pertinence des
contraintes de suridentification sur l’équation structurelle. Un développement
de Taylor sur le logarithme nous montre que n log(κ̂) ∼ = n(κ̂ − 1). Puisque
cette statistique de test suit asymptotiquement une loi du χ2 , elle doit être
O(1), de sorte que κ̂ − 1 doit être O(n−1 ). Ceci établit la convergence du
LIML.
Il existe de nombreux autres estimateurs de la classe K. Par exemple,
Sawa (1973) suggéra un moyen de modifier l’estimateur 2SLS pour réduire
son biais, et Fuller (1977) et Morimune (1978, 1983) suggérèrent des ver-
sions modifiées de l’estimateur LIML. L’estimateur de Fuller, qui est le plus
simple d’entre eux, utilise la paramétrisation K = κ̂ − α/(n − k), où α est
une constante positive que choisit l’expérimentateur. Un choix judicieux est
α = 1, puisqu’il produit des estimations approximativement non biaisées. Par
contraste avec l’estimateur LIML qui ne possède aucun moment fini (voir Mar-
iano (1982) et Phillips (1983) sur ce point), tous les moments de l’estimateur
modifié de Fuller sont finis à condition que l’échantillon soit suffisamment
important.
Il est possible d’estimer la matrice de covariance du vecteur δ̂ des es-
timations de la classe K de différentes façons. La plus naturelle consiste à
utiliser ¡ ¢−1
σ̂ 2 Z>(I − κ̂MX )Z , (18.55)
où
1
σ̂ 2 = −
n
(y − Z δ̂)>(y − Z δ̂).
Les statistiques de test de Wald pour les contraintes sur γ1 et β1 , et parmi
elles les t de Student asymptotiques, peuvent se calculer à l’aide de (18.55)
de la manière habituelle. Toutefois, il est sans doute préférable d’employer
des statistiques LR, étant donné leur invariance à la reparamétrisation, mais
aussi compte tenu de leur facilité de calcul à partir de la fonction de log-
vraisemblance concentrée (18.50).
Le résultat selon lequel les estimateurs de la classe K sont convergents
lorsque K tend asymptotiquement vers 1 à un taux approprié peut suggérer
que les 2SLS possèdent de meilleures propriétés avec des échantillons finis que
le LIML. Après tout, pour les 2SLS, K est identiquement égal à 1, alors que
pour le LIML, K = κ̂, et κ̂ est toujours supérieur à 1 avec des échantillons
finis. Le résultat selon lequel le LIML ne possède pas de moment fini peut
également suggérer que cet estimateur est plus pauvre que celui des 2SLS,
puisque, comme nous l’avons vu dans la Section 7.5, l’estimateur des 2SLS
possèdent autant de moments finis qu’il y a de contraintes de suridentification.
D’un autre côté, il apparaı̂t que dans de nombreux cas, les 2SLS possèdent
en fait de piètres qualités face au LIML à de multiples égards. Anderson,
Kunitomo, et Sawa (1982), par exemple, exposent des résultats analytiques
qui montrent que le LIML converge vers sa distribution asymptotique normale
beaucoup plus rapidement que ne le font les 2SLS. Contrairement à la distri-
bution de l’estimateur 2SLS, dont nous avons vu qu’elle est sévèrement bi-
aisée dans certains cas, la distribution de l’estimateur LIML est généralement
centré sur une valeur proche de la véritable valeur. Mais, étant donné que
cette dernière distribution ne possède pas de moment fini, nous ne pouvons
pas conclure au moindre biais de l’estimateur LIML.
La Figure 18.1 donne une illustration du fonctionnement du LIML avec
des échantillons finis. Elle montre les distributions de l’estimateur 2SLS,
l’estimateur LIML, et l’estimateur modifié de Fuller avec α = 1 (noté LIMLF
sur la figure) dans le cas examiné précédemment dans la Section 7.5. La
présence de 6 contraintes de suridentification et de seulement 25 observation
explique la divergence importante pour chaque estimateur par rapport à sa
distribution asymptotique. Dans ce cas, l’estimateur 2SLS est sévèrement
biaisé vers le bas. Par ailleurs, l’estimateur LIML semble être pratiquement
18.6 Les Triples Moindres Carrés 653
...........................................
1.0 .................................. ...........................................
...
. ............ .......
. ..............
.
.........
.
....
........... ............................
...
. ... ....
.... ....... .........
.
. .... ......... .............
... ... ...
0.8 ... .... ......
. . ...... ........
.. ... ....
... ... ...... ← LIML
..... ..
. .
... ... .....
..←−
0.6 ..... .
. ... LIMLF
.
.....
.
..... .....
.. ..
... ... ...
..... ..........
.. .. ..
0.4 2SLS →..... ..........
... ... ...
.. .. .. ← Vraie valeur
... ......
..... ..........
... ......
.... ..........
.
0.2 ... ......
...... .............
. .
.... ..........
.
...
......................
..........
0.0 .............................................
0.0 0.5 1.0 1.5 2.0
Figure 18.1 Distributions des estimateurs 2SLS et LIML
sans biais dans le sens où sa médiane est très proche de la véritable valeur
de 1. La distribution de l’estimateur modifié de Fuller se situe généralement
entre celles des estimateurs 2SLS et LIML. Sa queue de distribution supérieure
est beaucoup plus fine que celle du LIML, mais sa médiane est quelque peu
inférieure à la véritable valeur.
Dans la pratique, il n’est pas toujours aisé de décider quel estimateur de
la classe K utiliser. Mariano (1982) aborde un certain nombre de résultats an-
alytiques et donne des conseils sur l’opportunité d’une performance meilleure
du LIML par rapport aux 2SLS. Il faudrait éviter d’employer ce dernier
lorsque le nombre des contraintes de suridentification est important, par ex-
emple. Cependant, cela dépend énormément des caractéristiques intrinsèques
du modèle et des données que l’on utilise. Si les résultats des 2SLS et du LIML
sont très proches, alors le choix entre les deux est peu important. S’ils sont
relativement différents, toutefois, ce choix devient important. Sans doute la
meilleure chose à faire dans ces circonstances consiste à réaliser des expériences
Monte Carlo, qui sont typiquement conçues pour départager les performances
relatives des différents estimateurs pour le modèle et les données en cause; se
reporter au Chapitre 21.
18.6 Les Triples Moindres Carrés

La dernière des quatre méthodes principales pour l’estimation des modèles
d’équations simultanées dont nous allons discuter est celle des triples moin-
dres carrés, ou 3SLS. Tout comme le FIML, la méthode des 3SLS est une
méthode systémique, pour laquelle tous les paramètres du modèle sont es-
timés conjointement. Ainsi que son nom le suggère, on peut calculer les 3SLS
en trois étapes. Les deux premières sont celles des 2SLS classiques, appliquées
à chaque équation du système séparément. La troisième étape est alors es-
sentiellement la même que l’étape terminale de l’estimation par GLS faisables
d’un système SUR (Section 9.7). La méthode fut proposé par Zellner et Theil
(1962).
Le moyen le plus simple de dériver l’estimateur des 3SLS, ainsi que ses
propriétés asymptotiques, consiste à appliquer les principes de la méthode des
moments généralisée au système des modèles d’équations simultanées linéaires
(18.01). Pour l’observation t, ce système peut se mettre sous la forme
Yt Γ = Xt B + Ut .
L’hypothèse selon laquelle toutes les variables dans X sont soit exogènes soit
prédéterminées implique que, pour toutes les observations t,
¡ ¢
E Yt Γ − Xt B | Xt = 0.
On interprète immédiatement les égalités comme des conditions portant sur les
moments conditionnels au sens du Chapitre 17. Puisque, comme nous l’avons
vu dans la Section 18.3, les variables exogènes constituent des instruments
efficaces pour les 2SLS si les aléas sont homoscédastiques et indépendants en
série, il semble raisonnable d’envisager l’ensemble suivant de conditions du
premier ordre: ¡ ¢
E Xt>(Yt Γ − Xt B) = 0. (18.56)
Etant donné que Xt possède k composantes et Yt Γ − Xt B en possède g, il
y a en tout gk conditions portant sur les moments. Si la condition d’ordre
pour l’idetnification est satisfaite avec une égalité, il y aurait exactement
gk paramètres à estimer. Ainsi (18.56) fournit toujours au moins autant de
conditions portant sur les moments qu’il y a de paramètres dans le système,
et même davantage si le système est suridentifié. Bien évidemment, l’utilité
réelle de ces conditions sur les moments dans le processus d’identification des
paramètres dépend asymptotiquement de la validité de la condition de rang.
Il est pratique d’ordonner différemment les éléments de la matrice de
dimension k × g (18.56) pour en faire un vecteur de dimension gk. En premier
lieu, exprimons chaque équation du système dans une notation comparable à
celle de (18.18):
yi = Zi δi + ui , pour i = 1, . . . , g,
où la matrice de régresseurs Zi qui apparaı̂t dans l’équation i est [Xi Yi ],
avec ki variables exogènes Xi incluses et gi variables endogènes Yi incluses, et
.
où le vecteur de paramètres de dimension (ki + gi ) δi est [βi ... γi ]. Définissons
alors le vecteur ligne Ft composé de gk éléments comme:
Ft ≡ [ut1 Xt · · · utg Xt ],
où uti ≡ yti − (Zi )t δi . Chaque composante de Ft est la contribution de

l’observation t à un des moments empiriques provenant de is the (18.56). La
matrice F de dimension n × gk est définie pour avoir une ligne type Ft .
Pour obtenir des estimations GMM, il est nécessaire de trouver une esti-
mation de la matrice de covariance des gk moments (18.56). Nous ferons les
mêmes hypothèses préliminaires sur les aléas que pour le FIML et le LIML.
Nous supposons que chaque vecteur ui est homoscédastique et indépendant en
série (l’hypothèse d’homoscédasticité sera relâchée plus tard). Nous supposons
également que, pour chaque observation t, les uti sont corrélés entre eux, avec
une matrice de covariance contemporaine de dimension g ×g Σ, indépendante
de t. Nous noterons σij un élément type de Σ et σ ij un élément type de Σ −1.
Il est relativement aisé de trouver la matrice de covariance du vecteur des
moments empiriques F >ι. C’est
n
¡ > > ¢ X ¡ ¢
E F ιι F = E Ft>Ft
t=1
Xn
= E[ut1 Xt · · · utg Xt ]>[ut1 Xt · · · utg Xt ]. (18.57)
t=1
La dernière expression dans (18.57) est une matrice de dimension gk × gk qui

apparaı̂t sous une forme plus lisible lorsqu’elle est partitionnée, chaque bloc
étant de dimension k × k. Pour chaque t, E(uti utj ) = σij . Parce que les
éléments de σij ne dépendent pas de t, nous obtenons
 
σ11 X>X ··· σ1g X>X
 .. .. .. ,
. . . (18.58)
> >
σg1 X X ··· σgg X X
c’est-à-dire une matrice dont le bloc type est σij X>X. Afin de construire une
fonction critère comparable à (17.54) et avec laquelle nous pourrons obtenir
des estimations des paramètres vectoriels δi , i = 1, . . . , g, nous aurons be-
soin d’inverser la matrice (18.58)L̇a structure en bloc de (18.58) facilite cette
manipulation. On peut vérifer facilement par une simple multiplication de
matrices partitionnées que l’inverse est une matrice dont le bloc type est
σ ij (X>X)−1 (souvenons-nous que σ ij est un élément type de Σ −1 ).
Il est pratique d’exprimer le vecteur des moments empiriques F >ι sous
une forme partitionnée comparable à (18.58), comme une fonction des données
et des paramètres du modèle. Le résultat est un vecteur avec l’élément type
X>(yi − Zi δi ), pour i = 1, . . . , g:
 
X>(y1 − Z1 δ1 )
..
F >ι =  . . (18.59)
>
X (yg − Zg δg )
Alors, si nous élaborons une forme quadratique à parir du vecteur (18.59) et

de la matrice (18.58), nous aboutissons à la fonction critère
g X
X g
¡ ¢ ¡ ¢−1 ¡ ¢
σ ij yi − Zi δi >X X>X X> yj − Zj δj
i=1 j=1
g X g
(18.60)
X ¡ ¢ ¡ ¢
ij
= σ yi − Zi δi >PX yj − Zj δj .
i=1 j=1
Puisque nous supposons tacitement qu’il n’existe aucune contrainte d’équa-

tions croisées, les paramètres δi n’apparaissent que dans le résidus de l’équa-
tion i. Ainsi les conditions du premier ordre pour un minimum de (18.60)
peuvent s’écrire assez simplement comme
g
X ¡ ¢
σ ij Zi>PX yj − Zj δj = 0, pour i = 1, . . . , g. (18.61)
j=1
Afin de rendre (18.61) opérationnelle, nous avons besoin d’estimer la

matrice de covariance des aléas, Σ. Dans le cas du modèle SUR, nous pour-
rions employer les OLS pour chaque équation individuellement. Puisque les
OLS sont non convergents pour les modèles d’équations simultanées, nous
employons à la place les 2SLS sur chaque équation. Ainsi les deux premières
“étapes” des 3SLS correspondent exactement aux deux étapes des 2SLS, ap-
pliqué à chaque équation de (18.01). Les covariances des aléas sont alors
estimés à partir des résidus 2SLS:
n
X
1
σ̃ij = −
n
ũti ũtj . (18.62)
t=1
Bien sûr, ces résidus doivent correspondre aux véritables résidus 2SLS, et non
aux résidus de l’estimation OLS de seconde étape: voir la Section 7.5. Nous
voyons donc que les estimateurs 3SLS, δ̃1 à δ̃g doivent conjointement résoudre
les conditions du premier ordre:
g
X ¡ ¢
σ̃ ij Zi>PX yj − Zj δ̃j = 0. (18.63)
j=1
. .
La solution est aisée à formuler. Si δ ≡ [δ1 ... · · · ... δg ] et si les matrices entre
crochets désignent les matrices partitionnées caractérisées par l’élément ype
à l’intérieur du crochet, l’estimateur 3SLS δ̃ se met sous la forme compacte
" g #
£ ij > ¤−1 X
δ̃ = σ̃ Zi PXZj σ̃ ij Zi>PX yj . (18.64)
j=1
L’écriture de l’estimateur 3SLS dans une notation qui utilise les produits de
Kronecker est plus fréquente; consulter la plupart des ouvrages d’économétrie.
Bien que les produits de Kronecker soient bien souvent très utiles (Magnus et
Neudecker, (1988)), nous préférons la notation compacte de (18.64).
L’estimateur 3SLS est intimement relié à la fois à celui des 2SLS et à
celui des GLS pour les modèles SUR multivariés pour lequel les variables
explicatives sont toutes exogènes ou prédéterminées. Si nous supposons que Σ
est proportionnelle à une matrice identité, les conditions (18.63) se ramènent
à ¡ ¢
σ̃ ii Zi>PX yi − Zi δi = 0,
et ces conditions sont équivalentes aux conditions équation par équation
des 2SLS. Ainsi les 3SLS et les 2SLS seront asymptotiquement (mais pas
numériquement) équivalents lorsque les aléas contemporains de la forme struc-
turelle sont non corrélés. Il est également aisé de voir que l’estimateur SUR
pour les modèles linéaires est juste un cas particulier de l’estimateur 3SLS.
Etant donné que tous les régresseurs peuvent servir en tant qu’instruments
dans le cas SUR, il n’est plus du tout besoin d’employer les 2SLS en première
étape. En correspondance, le fait que chaque matrice de régresseur Zi soit
une sous-matrice de la matrice de tous les régresseurs, X, implique que
PXZi = Zi . Ainsi (18.63) se ramène à
g
X ¡ ¢
σ̃ ij Zi> yj − Zj δj = 0,
j=1
et c’est précisément ce que deviennent les équations définissantes (9.54) dans

le cas linéaire pour l’estimateur des GLS faisables d’un système SUR sans
contrainte d’équations croisées. Nous voyons que la relation entre 3SLS et les
2SLS équation par équation est identique à celle qu’il existe entre l’estimation
SUR par GLS faisables et l’estimation OLS équation par équation.
Sur la base de (18.64), il est naturel de penser que l’estimation de la
matrice de covariance de l’estimateur 3SLS peut être estimée par
[σ̃ ij Zi>PXZj ]−1 . (18.65)
C’est en réalité le cas, comme on peut le montrer assez facilement à l’aide du
résultat général (17.55) pous l’estimation GMM. Nous avons vu que pour Φ̃−1
dans cette expression nous devions employer la matrice dont l’élément type
est σ̃ ij (X>X)−1. Pour D̃, la matrice des dérivées des moments empiriques
par rapport aux paramètres du modèle, nous voyons que la matrice adéquate
doit être bloc diagonale, avec des blocs types définis par −X>Zi . (Nous ne
considérons pas volontairement les facteurs des puissances de n.) Puisque
nous traitons d’un système linéaire, D̃ ne dépend d’aucun paramètre estimé.
Ainsi une estimation appropriée de la matrice de covariance asymptotique est
donnée par l’inverse de la matrice dont le bloc type est
¡ ¢−1
Zi>X σ̃ ij X>X X>Zj = σ̃ ij Zi>PXZj ,
ce qui correspond précisément à (18.65).

Puisque le modèle d’équations simultanées (18.01) est équivalent à la
forme réduite contrainte (18.02), on peut raisonnablement se demander pour-
quoi un estimateur tel que celui des 3SLS ne peut pas être obtenu simple-
ment à partir de (18.02), étant donné que sa forme est précisément celle d’un
sustème SUR. La réponse est, bien sûr, que cela est possible. Cependant,
à moins que chaque équation ne soit juste identifiée, les contraintes seront
non linéaires. Cette approche a été essentiellement utilisée par Chamberlain
(1984). L’avantage de l’approche que nous suivons est qu’elle évite les diffi-
cultés associées au traitement des contraintes non linéaires.
Une autre similitude entre les estimations 3SLS et SUR est que les deux
sont numériquement équivalentes à la procédure équation par équation si
chaque équation est juste identifiée. Pour les systèmes SUR, cela signifie
simplement que tous les régresseurs se confondent avec des variables explica-
tives dans chaque équation (sinon, il existerait des contraintes de suridentifi-
cation impliquées par la nécessaire orthogonalité entre les aléas des équations
où certains régresseurs sont absents et les régresseurs absents et inclus dans
l’équation). Nous avons vu dans la Section 9.8, à travers le Théorème de
Kruskal, que les estimations SUR sont numériquement idetniques aux estima-
tions OLS équation par équation dans ce cas. C’est un bon exercice que de
montrer la validité du même résultat dans le contexte 3SLS.
Si nous supposons que les aléas contenus dans la matrice U de (18.01) sont
normalement distribués, les propriétés asymptotiques de toutes les procédures
d’estimation ML garantissent l’efficacité asymptotique de l’estimateur FIML.
Il est par conséquent naturel de se demander si l’estimateur 3SLS partage la
propriété asymptotique d’efficacité avec le FIML, et la réponse est, comme
nous le verrons assez directement, affirmative. Nous pourrions directement
obtenir une démonstration de ce résultat si nous avions une expression de la
matrice de covariance asymptotique de l’estimateur FIML, que nous pour-
rions comparer à (18.65). Toutefois, nous préférions ne pas obtenir une telle
expression dans la Section 18.4, parce qu’un moyen très simple d’obtenir une
estimation de la matrice de covariance FIML consiste à utiliser l’estimation
3SLS (18.65), évaluée avec les estimations FIML. Au lieu de cela, notre
démonstration de l’équivalence asymptotique entre les 3SLS et le FIML se
base sur le fait que l’estimateur FIML peut s’interpréter comme un estima-
teur des variables instrumentales.
Ce résultat, que Hausman (1975) démontra le premier, est d’un intérêt
considérable en lui-même, du fait qu’il fournit des instruments optimaux as-
sociés à l’estimation ML du système (18.01). Comme nous pouvions nous y
attendre, on peut les trouver en considérant les conditions du premier ordre
pour la maximisation de la fonction de log-vraisemblance, que nous envis-
ageons sous la forme (18.28). Si nous notons Γi ou Bi la colonne i de Γ ou
B, respectivement, et notons une fois de plus σ ij l’élément type de Σ −1, alors
(18.28) peut s’exprimer comme

ng n
`(B, Γ, Σ) = − −− log(2π) + n log |det Γ | − − log |Σ|
2 2
n X
X g
g X
1 ¡ ¢¡ ¢ (18.66)
−− σ ij Yt Γi − Xt Bi Yt Γj − Xt Bj .
2
t=1 i=1 j=1
La difficulté majeure dans l’explicitation des conditions du premier ordre pour

un maximum de (18.66) est que B et Γ sont contraintes à posséder de nom-
breux éléments nuls de sorte qu’un seul élément de Γ est égal à 1. Par
conséquent, nous ne pourrions annuler les dérivées de (18.66) par rapport à
aux éléments de Γ et B qui sont ainsi contraints. Pour contourner la difficulté,
nous pouvons tout d’abord développer une matrice des dérivées partielles de
`(B, Γ, Σ) par rapport à B qui aura exactement la même forme que la ma-
trice B. Nous signifions que l’élément ij de la matrice des dérivées partielles
sera égal à la dérivée partielle de ` par rapport à l’élément ij de la matrice B.
Nous pouvons exécuter une opération similaire pour Γ et annuler uniquement
les éléments pertinents des deux matrices de dérivées.
La matrice B n’apparı̂t que dans le dernier terme de (18.66), aussi
pouvons-nous nous focaliser uniquement sur ce terme pour l’instant. Il est
commode de calculer la matrice des dérivées partielles élément par élément
et d’ordonner ces dérivées par la suite dans une matrice de dimension k × g.
Puisque chaque facteur dans le dernier terme de (18.66) est un scalaire, chaque
dérivée est aisément calculable. Par rapport à l’élément ij, nous obtenons
g
n X
X ¡ ¢
σ im Xtj Yt Γm − Xt Bm . (18.67)
t=1 m=1
Nous souhaitons trouver une matrice dont l’élément ij est (18.67). Puisque j
est l’indice associé à l’élément Xtj , nous pouvons développer la colonne j de
ladite matrice en ordonnant les éléments Xtj en colonne. Cela donne
g
n X
X ¡ ¢
σ im Xt> Yt Γm − Xt Bm
t=1 m=1
X g
im
¡ ¢
= σ X> YΓm − XBm
m=1
¡ ¢
= X> YΓ − XB (Σ −1 )i , (18.68)
où (Σ −1 )i est la i ième colonne de Σ −1. Observons maintenant que les ex-
pressions successives dans (18.68) sont des vecteurs de dimension k. Pour
conclure cette manipulation, il nous faut concatener ces vecteurs pour former
une matrice de dimension k × g, et il est désormais évident que cette matrice
est X>(YΓ − XB)Σ −1.
Il nous faut maintenant calculer les dérivées (18.66) par rapport à la

matrice de dimension g × g Γ. Des opérations identiques à celles menées
pour B montrent que la matrice des dérivées par rapport au dernier terme de
(18.66) est
−Y >(YΓ − XB)Σ −1.
Cette matrice est de dimension g × g, ce qui est cohérent. Mais Γ ap-
paraı̂t également à travers son déterminant dans le second terme de (18.66).
Souvenons-nous (ou bien consultons l’Annexe A) que la dérive du logarithme
du déterminant d’une matrice par rapport à l’élément ij de cette matrice est
l’élément ji de l’inverse de la matrice. Par conséquent, la matrice des dérivées
partielles correspondant à Γ est
¡ ¢
n(Γ −1 )> − Y > YΓ − XB Σ −1. (18.69)
Nous pouvons aboutir à une expression plus pratique que (18.69) en util-
isant les conditions du premier ordre pour les éléments de la matrice de co-
variance Σ. De (18.29), nous voyons que ces conditions donnent
Σ̂ = n−1 (Y Γ̂ − XB̂)>(Y Γ̂ − XB̂), (18.70)
où Σ̂, Γ̂, et B̂ désignent des estimations FIML. Si nous prémultiplions cette
équation par nΣ̂ −1, la postmultiplions par Γ̂ −1, et la transposons, nous ar-
rivons à
n(Γ̂ −1 )> = Y >(Y Γ̂ − XB̂)Σ̂ −1 − (Γ̂ −1 )>B̂>X>(Y Γ̂ − XB̂)Σ̂ −1. (18.71)
Puisque XB̂Γ̂ −1 est la matrice des valeurs ajustées de l’estimation de la forme

réduite contrainte, nous la noterons Ŷ: cela simplifiera la notation et aura le
mérite de clarifier l’analyse ultérieure. Ainsi (18.71) peut s’écrire
n(Γ̂ −1 )> = Y >(Y Γ̂ − XB̂)Σ̂ −1 − Ŷ >(Y Γ̂ − XB̂)Σ̂ −1.
Par suite, la matrice (18.69), évaluée avec les estimations ML, devient
−Ŷ >(Y Γ̂ − XB̂)Σ̂ −1.
Nous pouvons, après tant d’efforts, sélectionner les éléments de deux

matrices de dérivées partielles qui sont véritablement nuls lorsque nous les
évaluons avec les estimations ML. Les paramètres qui apparaissent dans
l’équation i proviennent de la colonne i des matrices Γ et B, et les dérivées
partielles correspondantes proviennent des colonnes i des matrices de dérivées
partielles. En ce qui concerne la matrice B, cette colonne est X>(Y Γ̂ −
XB̂)(Σ̂ −1 )i . Nous souhaitons sélectionner dans cette colonne uniquement
les lignes pour lesquelles l’élément correspondant de Bi est non contraint,
c’est-à-dire les éléments correspondant à la matrice de dimension n × ki Xi .

Puisque pour sélectionner les lignes d’un produit matriciel, il nous suffit de
sélectionner les lignes correspondant au facteur le plus à gauche, les éléments
nuls sont ceux du vecteur de dimension ki Xi>(Y Γ̂ − XB̂)(Σ̂ −1 )i .
Par un rasionnement en tous points identique, nous trouvons que, pour
chaque i = 1, . . . , g, le vecteur Ŷi>(Y Γ̂ − XB̂)(Σ̂ −1 )i de dimension gi est nul,
où Ŷi ne contient que les colonnes de Ŷ qui correspondent à la matrice Yi
des variables endogènes incluses en tant que régresseurs dans l’équation i. Si
nous définissons Ẑi ≡ [Xi Ŷi ], alors nous pouvons écrire toutes les conditions
du premier ordre correspondant aux paramètres de la i ième équation sous la
forme ¡ ¢
Ẑi> Y Γ̂ − XB̂ (Σ −1 )i = 0.
Ces conditions peuvent se simplifier grandement. Remarquons que

g
X
−1
¡ ¢
(Y Γ̂ − XB̂)(Σ̂ )i = σ̂ ij Y Γ̂j − XB̂j
j=1
Xg
¡ ¢
= σ̂ ij yj − Zj δ̂j .
j=1
L’ensemble complet des conditions du premier ordre définissant les estimations

FIML peuvent donc s’écrire
g
X ¡ ¢
σ̂ ij Ẑi> yj − Zj δ̂j = 0, pour i = 1, . . . , g. (18.72)
j=1
Les conditions (18.72) apparaissent désormais sous une forme très com-
parables à celle des conditions (18.63) qui définissent l’estimateur 3SLS. En
réalité, si nous notons Ȳi la matrice de dimension n × gi des valeurs ajustées
de la forme réduite libre, de sorte que Ȳi = PX Yi for i = 1, . . . , g, alors
£ ¤ £ ¤
PXZi = PX Xi Yi = Xi Ȳi ≡ Z̄i .
Ainsi la conditions (18.63) qui définit l’estimateur 3SLS peut s’écrire comme
g
X ¡ ¢
σ̃ ij Z̄i> yj − Zj δ̃j = 0. (18.73)
j=1
Les différences existant entre les conditions qui définissent les etsimations
3SLS et celles qui définissent les estimations FIML sont mises en évidence à
partir de (18.73) et (18.72). Elles sont les suivantes:
(i) l’estimation de la matrice de covariance provient des résidus 2SLS équa-
tion par équation en ce qui concerne les 3SLS, et des résidus FIML en ce
qui concerne le FIML;
(ii) Les valeurs ajustées de Y employées en tant qu’instruments sont celles

de la forme réduite non contrainte en ce qui concerne les 3SLS et celle du
FIML en ce qui concerne le FIML.
Les deux différences reflètent le fait que, contrairement aux 3SLS, le FIML
est une procédure d’estimation jointe: il faut résoudre simultanément les con-
ditions (18.72) et les conditions (18.70) pour Σ si l’on veut obtenir une quel-
conque estimation ML.
Une autre façon d’établir la différence entre les deux procédures consiste
à dire qu’elles emploient des estimations différentes des mêmes instruments
optimaux. Ces instruments sont quelque peu délicats à écrire. Afin de le faire
sans trop de difficulté, nous pouvons construire un vecteur de dimension ng
constitué de toutes les contributions des moments empiriques. Sous forme
partitionnée, ce vecteur peut s’écrire
£ . . ¤
y1 − Z1 δ1 ... · · · ... yg − Zg δg , (18.74)
et
Pgun élément type est n--vector yi − Zi δi . Au total, il faut identifier p ≡
i=1 (gi + ki ) paramètres, de sorte qu’il faut prémultiplier le vecteur (18.74)
par exactement le nombre de vecteurs lignes, chacun étant de dimesnion ng,
si l’on veut obtenir les équations définissantes pour ces estimations. On peut
voir sans grande difficulté que la matrice de dimension p × ng nécessaire à
l’obtention de (18.72) ou de (18.73) est constituée de blocs de la forme σ ij Wi>,
où Wi indique une matrice de la forme [XΠi Xi ] pour un choix donné des
matrices Πi de dimension n × gi . Ce bloc type est une matrice de dimension
(gi + ki ) × n, ce qui est cohérent.
Les estimateurs 3SLS et FIML diffèrent selon la manière de choisir Σ et
les matrices Πi . Les instruments optimaux réel, mais non observables, sont
donnés en posant Σ égale à la véritable matrice de covariance des erreurs Σ0
et en posant Πi = B0 Γ0−1, à l’aide des véritables matrices de paramètres. A
l’évidence, aussi bien Σ̃ que Σ̂ convergent vers Σ0 . Identiquement, les ma-
trices Π̄ telle que Ȳ = PX Y = X Π̄ obtenue de la forme réduite contrainte
que la matrice B̂Γ̂ −1 obtenue par l’estimation FIML convergent vers B0 Γ0−1.
Les deux procédures emploient par conséquent des estimations convergentes
des véritables instruments optimaux, de sorte que les deux sont asympto-
tiquement équivalentes et asymptotiquement efficaces. Remarquons que cette
conclusion ne s’applique qu’à l’estimation de Γ et B: les procédures ne sont
pas équivalentes en ce qui concerne l’estimation de la matrice de covariance Σ.
On peut obtenir l’équivalence numérique entre le FIML et les 3SLS en
itérant ces derniers. A chaque itération, les résidus de la précédente étape
sont utilisés pour générer les estimations actualisées de Σ, alors que les es-
timations paramétriques de la précédente étape sont utilisées pour générer
les estimations actualisées de Π. Une telle procédure itérative, dont l’intérêt
reste surtout théorique, débute par les 3SLS et converge vers le FIML pour
tous les paramètres, incluant ceux de Σ. Cette opération itérative, et de nom-
breuses autres, sont abordées par Hendry (1976), qui fournit également une
bibliographie exhaustive de la plupart des thèmes de la littérature consacrée

aux équations simultanées existant à cette époque.
Comme nous l’avons suggéré lors de la Section 18.4, un moyen pratique
de calculer une estimations de la matrice de covariance de l’estimateur FIML
de Γ et B consiste à employer une expression comparable à (18.65). Si nous
remplaçons l’estimation 3SLS Σ̃ par l’estimation FIML Σ̂, et les matrices
PX Zi des 3SLS par les matrices Ẑi du FIML, le résultat est
£ ij > ¤−1
σ̂ Ẑi Ẑj .
De même que le LIML appliqué à une équation est un cas dégénéré du

FIML appliqué à ladite équation suridentifiée, les 2SLS sont un cas dégénéré
des 3SLS appliqué à une équation suridentifiée unique d’un système global
par ailleurs juste idetnifié. Ce résultat est d’une grande importance pratique,
bien que la démonstration ne soit guère intéressante, et donc éludée. Le
résultat implique que la raison invoquée dans la Section 18.5 qui nous conduit
parfois à préférer le LIML au FIML, à savoir que cela évite d’imposer des
contraintes de suridentification éventuellement inexactes, conduirait chaque
expérimentateur dans un contexte de moindres carrés à ne jamais dépasser
le stade des 2SLS. Compte tenu du fait que le surcroı̂t de calcul pour obenir
les 3SLS par rapport aux 2SLS est considérable si l’on ne s’intéresse qu’à une
seule équation, il est fondamental de réaliser que ce travail supplémentaire ne
procure aucun avantage à moins que certaines équations du système ne soient
suridentifiées.
Etant donné que les 3SLS sont un cas particulier de l’estimation par
GMM, on peut les généraliser pour tenir compte d’une hétéroscédasticité de
forme inconnue des aléas, chose impossible à réaliser avec le FIML. Si nous ne
disposons d’aucune information quant à la forme de l’hétéroscédasticité, alors
nous ne pouvons pas améliorer le choix (18.56) des conditions portant sur
les moments empiriques employée pour l’identification des paramètres. Par
contre nous pouvons remplacer l’estimation (18.58) de leur matrice de covar-
iance basée sur l’hypothèse d’homoscédasticité par une extimation robuste à
l’éhétroscédasticité. Avec des aléas corrélés en série, (18.57) reste une expres-
sion correcte pour la matrice de covariance des moments empiriques. Un bloc
type de cette matrice est
n
X ¡ ¢
E uti utj Xt>Xt .
t=1
Il est clair que, tout comme pour les autres HCCME, il est possible d’estimer
de façon convergente 1/n fois cette matrice par
n
X
1 ¡ ¢
−
n
E ũti ũtj Xt>Xt ,
t=1
que l’on peut écrire plus simplement sous la forme
1 >
−
n
X Ω̃ij X (18.75)
si l’on pose la définition Ω̃ij = diag(ũti ũtj ), pour i, j = 1, . . . , g. Si nous

employons cette expression pour élaborer une fonction critère basée sur les
conditions portant sur les moments empiriques (18.56), nous aboutissons à un
nouvel estimateur, défini par les équations
g
X ¡ ¢−1 ¡ ¢
Zi>X X>Ω̃ij X X> yj − Zj δj = 0.
j=1
La résolution de ces équations nous conduit à l’estimateur

" g #
£ > ¡ > ¢−1 > ¤−1 X ¡ ¢−1
δ̌ = Zi X X Ω̃ij X X Zj Zi>X X>Ω̃ij X X>yj . (18.76)
j=1
Il n’est pas surprenant de retrouver en (18.76) une structure très ompara-

ble à celle de l’estimateur H2SLS (17.44), aussi l’appellerons-nous estimateur
H3SLS. On peut estimer sa matrice de covariance asymptotique par l’inverse
de la matrice avec le bloc type
¡ ¢−1
Zi>X X>Ω̃ij X X>Zj .
En présence d’hétéroscédasticité de forme inconnue, l’estimateur H3SLS de-

vrait être plus efficace, asymptotiquement que celui des 3SLS ou du FIML.
Malgré tout, ses performances avec des échantillons finis sont pratiquement
inconnus à ce jour.
Il est évident que nous pourrions généraliser l’estimateur H3SLS en-
core davantage à l’aide d’un estimateur HAC de la matrice de covariance
à la place de la HCCME (18.75); consulter, par exemple, Gallant (1987,
Chapitre 6). Cependant, c’est une stratégie adéquate tant que la présence
de corrélation en série reste compatible avec le modèle correctement spécifié
et que la taille d’échantillon est relativement importante. Pour la plupart des
applications sur données chronologiques, le FIML ou les 3SLS restent les esti-
mateurs systémiques préférés, du fait que l’hétéroscédasticité sera largement
absente, alors que la corrélation en série largement répandue si le modèle est
mal spécifié. Quoi qu’il en soit, lorsque la taille de l’échantillon est importante
et que l’hétéroscédasticité se manifeste fortement, comme c’est le cas avec de
nombreuses applications sur données en coupe transversale, il est fort prob-
able que l’estimateur H3SLS soit l’estimateur sysmétique le plus approprié.
18.7 Modèles d’Equations Simultanées Non Linéaires 665
18.7 Modèles d’Equations Simultanées Non Linéaires

A ce stade de l’exposé, nous avons très peu parlé des modèles d’équations
simultanées non linéaires. Un modèle d’équations simultanées peut être non
linéaire de trois manières possibles. Pour la première, Yt peut dépendre
de fonctions non liénaires de quelques variables exogènes ou prédéterminées.
Comme d’habitude, ce type de non linéarité n’engendre pas de problème et
peut être géré de façon simple en redéfinissant Xt . Pour la deuxième, cer-
tains paramètres peuvent agir de manière non linéaire dans le modèle struc-
turel pour Yt , sans doute parce qu’ils sont soumis à des contraintes non
linéaires. C’est le genre de non linéarité que nous avons traité fréquemment
avec l’estimation de modèles de régression non liénaire, et elle ne cause pas
de problème supplémentaire dans le contexte des modèles d’équations simul-
tanées. Enfin, pour la troisième, il peut exister des non linéarités provoquées
par les variables endogènes. Ce type de non linéarité ne pose pas non plus de
problème sérieux supplémentaire.
Le problème avec les modèles qui sont non linéaires du fait des variables
endogènes est que pour de tels modèles il n’existe aucun équivalent à la forme
réduite non contrainte d’un modèle d’équations simultanées linéaire. Il est
habituellement difficile voire impossible d’obtenir les variables endogènes en
fonction de svariables exogènes et des aléas. Même lorsque cela est possible,
Yt dépendra presque toujours de façon non liénaire à la fois des exogènes et
des aléas. Soit, par exemple, le modèle simple à deux équations
y1 = αy2 + X1 β1 + u1
(18.77)
y2 = γ1 y1 + γ2 y12 + X2 β2 + u2 ,
où la notation reste conventionnelle et où l’indice t a été supprimé pour ne

pas surcharger les expressions Si nous subsituons le membre de droite de la
première équation de (18.77) dans la seconde, nous obtenons
¡ ¢ ¡ ¢2
y2 = γ1 αy2 + X1 β1 + u1 + γ2 αy2 + X1 β1 + u1 + X2 β2 + u2 .
Puisque cette équation est une forme quadratique en y2 , elle possèdera

habituellement deux solutions. Selon les valeurs paramétriques et les valeurs
des Xi et des ui , les deux solutions peuvent être réelles ou pas. Même s’il
existe une solution réelle, elle ne sera généralement pas linéaire en les variables
exogènes. Par conséquent, le simple usage des composantes de X1 et de X2
en tant qu’instruments ne sera pas optimal.
Cet exemple illustre la nature des problèmes que l’on peut rencontrer
avec tout modèle d’équations simultanées qui n’est pas linéaire en les variables
endogènes. Nous sommes au moins confrontés à un problème de choix des in-
struments. Une approche, discutée dans la Section 7.6, consiste à employer
des puissances et même des produits croisés des des variables exogènes en
tant qu’instruments, en même temps que les variables exogènes elles-mêmes.

Si la taille de l’échantillon est suffisamment importante, cette approche est
judicieuse, mais dans de nombreux cas il sera difficile de déterminer le nom-
bre d’instruments à employer, et même de savoir lesquels employer. L’ajout
d’instruments améliorera généralement l’efficacité asymptotique mais tendra
également à accroı̂tre le biais avec des échantillons finis. Plus sérieusement,
il est fort possible d’estimer un modèle qui ne peut pas être résolu pour des
valeurs tout à fait raisonables des variables exogènes et des aléas. Ainsi il
faudrait probablement éviter d’employer des modèles qui sont non linéaires
en les variables endogènes, si cela est possible.
Il semble que le LIML ne soit pas une procédure viable pour l’estimation
de modèles d’équations simultanées non liénaires. La procédure LIML clas-
sique discutée dans la Section 18.5 est conçue exclusivement pour les modèles
linéaires. On peut imaginer obtenir des estimations LIML d’une équation
structurelle non linéaire en employant un programme pour le FIML non
linéaire appliqué à un système constitué d’une seule équation structurelle et
de g − 1 équations linéaires sous forme réduite. Cela ne serait cohérent que
si les équations sous forme réduite étaient en fait linéaires, ce qui ne sera
presque jamais le cas. Ainsi, pour l’estimation d’équations isolées, les seules
procédures adéquates sont celles basées sur les variables instrumentales.
Nous avons discuté de l’estimation de modèles non linéaires constitués
d’une seule équation par les méthodes IV dans la Section 7.6, et il reste seule-
ment quelques compléments à livrer sur ce sujet. Supposons que l’équation
structurelle qui nous intéresse puisse s’écrire
y = x(δ) + u,
où δ est un vecteur composé de l paramètres, et le vecteur de fonctions non
linéaires x(δ) dépend implicitement d’au moins une variable endogène et d’un
certain nombre de variables exogènes et prédéterminées. Alors si W désigne
une matrice d’instruments de dimension n × m, nous avons vu que les esti-
mations IV peuvent être calculées en minimisant la fonction critère
¡ ¢ ¡ ¢
y − x(δ) >PW y − x(δ) . (18.78)
Les estimations qui en résultent sont souvent nommées moindres carrés non
linéaires en deux étapes ou estimations NL2SLS, si l’on se réfère à la termi-
nologie d’Amemiya (1974), bien que ces estimations ne soient pas obtenues en
deux étapes. Nous avons vu ce détail dans la Section 7.6.
La fonction critère (18.78) peut se dériver comme une procédure GMM
en débutant par les conditions portant sur les moments
³ ¡ ¢´
E W > y − x(δ) = 0
et en supposant que E(uu> ) = σ 2 I. Cette hypothèse peut se révéler parfois

trop contraignante. Si elle était correcte, la minimisation de (18.78) produirait
des estimations non efficaces et une estimation non convergentes de la matrice

de covariance des paramètres estimés. Une hypothèse plus souple est que
E(uu> ) = ∆, où ∆ est une matrice diagonale dont les élements diagonaux
sont inconnus (mais finis). Nous pouvons obtenir des estimations analogues
aux estimations H2SLS de la Section 17.3 à l’aide d’une procédure en deux
étapes. Dans la première étape, nous minimisons (18.78), de manière à obtenir
des estimations paramétriques convergentes mais non efficaces et des résidus
˜
ũt , et nous utilisons ces derniers pour construire la matrice W >∆W, ˜a
où ∆
2
comme élément type ũt . Dans la seconde étape, nous minimisons la fonction
critère ¡ ¢ ¡ ¢−1 >¡ ¢
y − x(δ) >W W >∆W ˜ W y − x(δ) .
Comme d’habitude, nous pourrions abandonner l’hypothèse de diagonalité de
∆ et employer un estimateur HAC, si cela s’avérait utile (voir les remarques
à la fin de la section précédente).
L’estimation systémique des modèles d’équations simultanées non liné-
aires relève typiquement d’une sorte de procédure IV (ou GMM) ou FIML.
Nous discuterons brièvement de ces deux approches à tour de rôle. Supposons
que la i ième équation du système puisse s’écrire pour toutes les observations
sous la forme
fi (Y, X, θ) = ui , (18.79)
où fi (·) est un vecteur de dimension n de fonctions non linéaires, ui est un
vecteur de dimension n d’aléas, et où θ est un vecteur de dimension p de
paramètres qu’il s’agit d’estimer. En général, toutes les variables endogènes
et exogènes et tous les paramètres peuvent apparaı̂tre dans n’importe quelle
équation, compte tenu des contraintes quelconques que l’on peut vouloir leur
imposer pour identifier le système.
La première étape dans toute procédure IV consiste à choisir les instru-
ments que l’on va utiliser. Si le modèle est non linéaire seulement en les
paramètres, la matrice des instruments optimaux est X. Cependant, comme
nous l’avons vu, il n’existe pas de moyen simple de choisir les instruments pour
les modèles qui sont non linéaires en une ou plusieurs variables endogènes. La
théorie de la Section 17.4 peut s’appliquer, bien entendu, mais le résultat
qu’elle entraı̂ne n’est pas d’un grand intérêt pratique. Il apparaı̂t que sous les
hypothèses habituelles sur les termes d’erreur, à savoir leur homoscédasticité
et leur indépendance en série mais pas entre les équations, la matrice des
instruments W sera optimale si S(W ) correspond à l’union des sous-espaces
engendrés par les colonnes de E(∂fi /∂θ). Ce résultat est du à Amemiya
(1977). Il reste pertinent mais généralement, il n’est pas utile dans la pra-
tique. Pour l’instant, nous supposons simplement qu’une certaine matrice
d’instruments W de dimension n × m est disponible, avec m ≥ p.
Une procédure IV non linéaire pour l’estimation systémique, compara-
ble dans l’esprit à la procédure équation par équation des NL2SLS basée sur
la minimisation de (18.78), fut proposée à l’origine par Jorgenson et Laf-
font (1974) et fut nommée moindres carrés en trois étapes, ou NL3SLS.
L’appellation est quelque peu trompeuse, pour une raison identique à celle
qui fait que le nomù “NL2SLS” est également trompeuse. Par analogie avec
(18.60), la fonction critère que nous voudrions réellement minimiser est
g X
X g
σ ij fi>(Y, X, θ)PW fj (Y, X, θ). (18.80)
i=1 j=1
Quoi qu’il en soit, dans la pratique, les éléments σ ij de l’inverse de la matrice

de covariance contemporaine Σ ne seront pas connus et il nous faudra les
estimer. Plusieurs possibilités s’offrent à nous. On peut tout d’abord employer
les NL2SLS pour chaque équation séparément. Cela sera traditionnellement
plus aisé, mais pas toujours possible si certains paramètres ne sont identifiés
que grâce à des contraintes d’équations croisées. Une autre approche qui
fonctionnera dans ce cas consiste à minimiser la fonction critère
g X
X g
fi>(Y, X, θ)PW fj (Y, X, θ), (18.81)
i=1 j=1
pour laquelle la matrice de covariance Σ est remplacée par la matrice identité.

La minimisation de (18.81) conduira à un estimateur qui sera à l’évidence un
estimateur GMM valable, et par conséquent convergent même s’il n’est pas
efficace. Quel que soit l’estimateur non efficace utilisé à l’étape initiale, il pro-
duira g vecteur de résidus úi à partir desquels on peut estimer de façon con-
vergente la matrice Σ, exactement de la même manière que pour les modèles
linéaires; voir (18.62). On obtient alors la fonction critère
g X
X g
σ́ ij fi>(Y, X, θ)PW fj (Y, X, θ), (18.82)
i=1 j=1
en remplaçant les σ ij inconnus dans (18.80) par les éléments σ́ ij de l’inverse de

l’estimation de Σ. Cette fonction critère peut véritablement être minimisée
dans la pratique.
Comme d’habitude, la valeur minimisée de la fonction critère (18.82)
fournit une statistique de test pour les contraintes de suridentification; voir
les Sections 7.8 et 17.6. Si le modèle et les instruments sont correctement
spécifiés, cette statistique de test sera asymptotiquement distribuée suivant
une χ2 (m − p); souvenons-nous que les instruments sont au nombre de m et
que les paramètres libres sont au nombre de p. De plus, si le modèle est estimé
sans contrainte puis sous r contraintes distinctes, la différence entre les deux
valeurs des fonctions critères aura une distributions asymptotique du χ2 (r).
Si cette dernière statistique de test doit être utilisée, il est fondamental que la
même estimation de Σ soit emplyée dans les deux estimations, car autrement
la statistique de test peut même ne pas être positive avec des échantillons
finis.
Lorsdque la taille de l’échantillon est importante, il est peut être plus

facile d’obtenir des estimations efficaces en une étape plutôt que de minimiser
(18.82). Supposons que l’on note θ́ les estimations efficaces initiales, qui peu-
vent être soit des estimations NL2SLS soit des estimations systémiques basées
sur (18.81). Un développement en série de Taylor de fi (θ) ≡ fi (Y, X, θ) au-
tour de θ́ est
fi (θ́) + Fi (θ́)(θ − θ́),
où Fi est une matrice de dimension n × p des dérivées de fi (θ) par rap-
port aux p éléments de θ. Si quelques paramètres n’apparaissent pas dans
l’équation i, les colonnes correspondantes de Fi seront identiquement nulles.
Les estimations en une étape, qui seront asymptotiquement équvalentes aux
estimations NL3SLS, sont simplement θ̀ = θ́ − t́, où t́ désigne le vecteur des
estimations 3SLS linéaires
" g #
£ ij > ¤−1 X
t́ = σ́ F́i PW F́j σ́ ij F́i>PW f´j . (18.83)
j=1
Cette expression doit être comparée à (18.64).

Il est clair que l’on peut généraliser les NL3SLS pour gérer une hétéroscé-
dasticité de forme inconnue, une corrélation sérielle de forme inconnue, ou les
deux simultanément. Par exemple, afin de tenir compte d’une hétéroscédasti-
cité, nous remplacerions simplement la matrice PW dans (18.82) et (18.83)
par la matrice
¡ ¢−1 >
W W >Ώij W W ,
où, par analmogie avec (18.76), Ώij = diag(úti útj ) pour i, j = 1, . . . , g. Les
estimations initiales θ́ peuvent ne pas tenir compte de l’hétéroscédasticité.
pour une discussion plus détaillée sur cette sorte de procédure, et de NL3SLS
en général, consulter Gallant (1987, Chapitre 6).
L’autre méthode d’estimation systémique qui est largement employée est
celle du FIML non linéaire. Pour l’examiner, il est judicieux d’écrire le système
d’équations à estimer non pas sous la forme (18.79) mais plutôt sous la forme
ht (Yt , Xt , θ) = Ut , Ut ∼ NID(0, Σ), (18.84)
où θ demeure un vecteur de p paramètres, ht un vecteur de dimension 1 × g

de fonctions non linéaires, et Ut un vecteur de dimension 1 × g de termes
d’erreur. Pour admettre que (18.79) et (18.84) sont de formes comparables il
suffit d’imaginer que le i ième élément de ht (·) est identique au t ième élément
de fi (·).
La densité du vecteur Ut est
³ ´
1
(2π)−g/2 |Σ|−1/2 exp − − Ut Σ −1 Ut> .
2
Pour se ramener à la densité de Yt , nous devons remplacer Ut par ht (Yt , Xt , θ)

et multiplier par le terme jacobien |det Jt |, où Jt ≡ ∂ht (θ)/∂Yt , c’est-à-dire
la matrice de dimension g × g des dérivées de ht par rapport aux éléments de
Yt . La résultat est
³ ´
1
(2π)−g/2 |det Jt ||Σ|−1/2 exp − − ht (Yt , Xt , θ)Σ −1 ht>(Yt , Xt , θ) .
2
Il s’ensuit immédiatement que la fonction de logvraisemblance est

n
X
ng n
`(θ, Σ) = − −− log(2π) + log |det Jt | − − log |Σ|
2 2
t=1
n
(18.85)
1
X
−− ht (Yt , Xt , θ)Σ −1 ht>(Yt , Xt , θ).
2
t=1
Cette expression peut être maximisée par rapport à Σ et le résultat injecté

pour mener à l fonction de logvraisemblance concentrée
n
X
c ng ¡ ¢
` (θ) = − −− log(2π) + 1 + log |det Jt |
2
t=1
(18.86)
¯ Xn ¯
n ¯1 > ¯
− − log ¯−
n
h t (Y t , Xt , θ)h t (Y t , Xt , θ) ¯.
2
t=1
De toute évidence, il existe une forte ressemblance entre (18.85) et (18.86) et

leurs contreparties (18.28) et (18.30) pour le cas linéaire. La différence ma-
jeure est que le terme jacobien dans (18.85) et (18.86) correspond à la somme
des logarithmes de n déterminants différents. Ainsi à chaque évaluation de ces
fonctions de logvraisemblance, il faut calculer n déterminants différents. Cela
peut s’avérer coûteux lorsque g ou n est important. Bien sûr, le problème
disparaı̂t si le modèle est linéaire n les variables endogènes, puisqu’alors Jt
sera constant.
Une difficulté avec le FIML non linéaire est que l’on ne sait pas trop
bien comment tester les contraintes de suridentification, ni même à quoi elles
peuvent ressembler dans de nombreux cas. Dans le contexte d’un modèle
d’équations simultanées linéaire, toute forme structurelle impose des con-
traintes non linéaires à la forme réduite non contrainte, et un test LR permet
de tester simplement ces contraintes. Cependant, dans le cas d’un modèle
d’équations simultanées non linéaire en les variables endogènes, nous ne pou-
vons en général pas même écrire la FRL, let alone estimate it. On peut
toujours tester n’importe quelle contrainte à l’aide des tests classiques, qu’il
s’agisse de contraintes d’équations croisées ou de contraintes portant sur une
équation isolée. Mais il sera en général impossible de tester toutes les con-
traintes de suridentification en même temps. Il existe un problème connexe
18.8 Conclusion 671
avec l’estimation NL3SLS, bien sûr. Bien que la valeur minimisée de la fonc-
tion critère (18.82) fournisse une statistique de test, elle ne sera valable que
pour les contraintes de suridentification associées à une matrice d’instruments
particulière W, qui peut parfaitement ne pas procurer une approximation sat-
isfaisante à la véritable forme réduite non contrainte, qui est inconnue.
La relation entre le FIML non linéaire et les NL3SLS n’est pas de na-
ture comparable à celle qui existe entre le FIML linéaire et les 3SLS. Les
deux méthodes non linéaires seront asymptotiquement équivalentes lorsque le
modèle est linéaire en les variables endogènes. Toutefois, dans la majorité des
situations, elles ne le seront pas. Dans l’éventualité d’une non équivalence,
le FIML non linéaire sera plus efficace, asymptotiquement, que les NL3SLS.
Mais cette plus grande efficacité se paye. Lorsque le FIML non linéaire et les
NL3SLS ne sont pas équivalents, le premier peut être non convergent si les
aléas sont en réalité distribués autrement que suivant la loi normale multi-
variée. Au contraire, comme nous l’avons vu, l’hypothèse de normalité n’est
pas nécessaire pour assurer la convergence du FIML linéaire. Pour plus de
détails sur ces points, consulter Amemiya (1977) et Phillips (1982). Amemiya
(1985, Chapitre 8) et Gallant (1987, Chapitre 6) donnent des traitements plus
explicites du FIML non linéaire que le notre.
Il existe une littérature véritablement vaste sur le calcul des estuiimations
par le FIML non linéaire. Comme d’habitude, on peut employer de nom-
breux algorithmes différents pour maximiser la fonction de logvraisemblance
et la fonction de logvraisemblance concentrée, dont certains exploitent des car-
actéristiques spéciales des classes particulières de modèles. Le références clas-
siques sont Eisenpress et Greenstadt (1966), Chow (1973), Dagenais (1978),
Belsley (1979, 1980), Fair and Parke (1980), Parke (1982), et Quandt (1983).
18.8 Conclusion
Le fait que nous traitions un thème aussi important que les modèles d’équa-
tions simultanées aussi tard peut heurter certains lecteurs. Nous avons bien
évidemment abordé certains aspects du problème dans le Chapitre 7, en tant
que contribution à notre traitement des variables instrumentales. La raison
de ce retard volontaire est que nous voulions que le lecteur ait acquis une
compréhension claire de l’estimation et des tests de spécification par maximum
de vraisemblance et de la méthode des moments généralisée. Cela nous a alors
permis de développer toutes les méthodes d’estimation et de test discutées
dans ce chapitre en tant qu’applications immédiates du ML et de la GMM.
Si l’on admet cela, il est beaucoup plus facile de comprendre les modèles
d’équations simultanées et les techniques statistiques qui leur sont associées.
Termes et Concepts
causalité au sens de Granger maximum de vraisemblance en

condition d’ordre pour l’identification information limitée (LIML)
condition de rang pour l’identification modèles d’équations simultanées
contraintes d’équation croisées modèles d’équations simultanées
contraintes de suridentification linéaire
doubles moindres carrés non linéaires modèles d’équations simultanées non
(NL2SLS) linéaire
estimateur de classe K non causalité au sens de Granger
estimateur du ratio de moindre paramètres de nuisance
variance paramètre d’intérêt
estimateur H3SLS super exogénéité
exogénéité système récursif
exogénéité faible triples moindres carrés (3SLS)
exogénéité stricte triples moindres carrés non linéaires
FIML non linéaire (NL3SLS)
fonction de logvraisemblance partielle variable endogène
forme réduite contrainte (FRC) variable exclue
forme réduite libre (FRL) variable exogène
maximum de vraisemblance en variable incluse
information complète (FIML) variable prédéterminée

Ch18 Modèles D'équations Simultanées

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Ch18 Modèles D'équations Simultanées

Uploaded by

Copyright:

Available Formats

Chapitre 18

Modèles d’Equations Simultanées

La majeure partie du chapitre sra consacrée au modèle d’équations si-

Ici, Y désigne une matrice de dimension n × g de variables endogènes, X

L’expression (18.02) est la forme réduite contrainte, ou FRC, et l’expression

moins de lui imposer des contrantes, le modèle (18.01) a beaucoup trop de

18.2 Exogénéité et Causalité

prédéterminées. De plus, le concept de prédétermination se révèle être plus

et si nous faisons en sorte que θ soit composé de tous les éléments de Γ

où l’espérance pourrait s’interpréter comme étant conditionnelle à un ensemble

Xt k ui,t+s pour tout s ≥ 0.

Le symbole k est ici employé pour exprimer l’indépendance statistique. La

Si (18.04) représente une forme structurelle, alors autant la prédétermina-

yt = βxt + ε1t (18.05)

où les aléas sont normalement, identiquement, et indépendemment distribués

Considérons à présent l’espérance de yt conditionnellement à xt et à tous

E(yt | xt , yt−1 , xt−1 · · ·) = βxt + E(ε1t | xt , yt−1 , xt−1 · · ·). (18.07)

Nous pouvons par conséquent écrire

yt = bxt + c1 xt−1 + c2 yt−1 + vt , (18.08)

`t (Yt , Xt | Ωt ) = `Yt (Yt | Xt , Ωt ) + `X

Sous quelles conditions pouvons-nous faire abstraction de la seconde con-

M Y, peut dépendre de θ. La maximisation de la fonction de log-vraisemblance

par rapport à θ. De la même façon, en ce qui concerne l’inférence, le gradient

et à la variance des aléas vt dans (18.08)autant qu’à b, β ne peut pas être

Cela signifie que Y t−1 ne cause pas au sens de Granger Xt si la dis-

E(xt | xt−1 ) = (δ1 + βδ2 )xt−1 . (18.12)

On anticiperait alors xt en termes de la valeur retardée xt−1 et d’une esti-

E(yt | xt , Ωt ) = bxt + c1 xt−1 + c2 yt−1 , (18.13)

où b, c1 , et c2 sont définis par (18.09). Si maintenant nous remplaçons xt dans

b(δ1 + βδ2 )xt−1 + c1 xt−1 + c2 yt−1 . (18.14)

On déduit immédiatement de (18.05) et (18.06) que

E(yt | Ωt ) = βδ1 xt−1 + βδ2 yt−1 .

xt ne contient aucune information sur yt qui ne soit déjà contenue dans Ωt ,

18.3 L’Identification dans les Modèles Simultanés

Le problème de l’identification dans les modèles d’équations simultanées est,

Dans cette section, nous traiterons de l’identification asymptotique d’une

Nous débutons par le modèle d’équations simultanées (18.01). Ce modèle

Il est pratique de traiter l’identification des paramètres équation par

l’on veuille tenter. Il nous faut également abandonner l’estimateur 2SLS si

Il n’est pas évident que X fournisse toutes les variable s instrumen-

où le bloc V1 de la matrice d’aléas V correspond au bloc Y1 de Y dans (18.15),

la matrice partitionnée dans (18.22) sont des colonnes de X ou des combi-

Ainsi l’ajout d’instruments W à ceux offerts par X ne produit aucun gain

sur Π dans le DGP. Les paramètres γ1 et β1 de la première équation struc-

en vertu des partitions de (18.17) et (18.20). La première de ces deux

La première matrice du membre de gauche est simplement X>X, et elle est

Alors la condition de rang est satisfaite si et seulement si cette matrice est de

18.4 Maximum de Vraisemblance en Information Complète

Yt Γ = Xt B + Ut , Ut ∼ N (0, Σ), (18.27)

avec une notation qui est désormais familière. Souvenons-nous simplement

Puis nous remplaçons Ut par Yt Γ −Xt B et multiplions per un terme Jacobien

De là, nous voyons que la fonction de log-vraisemblance est

Une première étape pratique dans la maximisation de `(B, Γ, Σ) con-

(voir Annexe A) il est évident que

Nous pouvons substituer (18.29) à Σ dans (18.28) pour obetnir

Cette fonction de log-vraisemblance concentrée ressemble étroitement à (9.65),

Ce système d’équations est juste un cas particulier du modèle de régression

Il est intéressant de noter que la fonction de log-vraisemblance con-

maximum global si la région dans laquelle l’algorithme débute ne le contient

d’éléments dans la matrice Π de la FRL, gk, moins le nombre de paramètres

où Π̂ désigne les estimations OLS des paramètres de la FRL. Comme

Supposons que l’on évalue ce déterminant avec un ensemble d’estimations Π́

et ainsi de suite, où yi désigne la i ième colonne de Y. On peut interpréter ce