Professional Documents
Culture Documents
18.1 Introduction
Pendant de nombreuses années, le modèles d’équations simultanées linéaire a
été le centre d’intérêt de la théorie économétrique. Nous avons abordé un cas
particulier de ce modèle, un modèle d’offre-demande à deux équations, dans la
Section 7.3. L’objet de cette discussion était simplement de monter que la si-
multanéité implique une corrélation entre les régresseurs et les termes d’erreur
de chaque équation de système, rendant les OLS non convergents et justifi-
ant l’usage des variables instrumentales. La non convergence des estimateurs
par moindres carrés des équations individuelles dans les modèles d’équations
simultanées n’est pourtant pas le seul résultat économétrique pour ce genre
de modèle. Dans ce chapitre, nou discutons donc des modèles d’équations
simultanées en détail.
La grande majorité du travail récent sur les modèles d’équations simul-
tanées s’est développé sous la bienveillance de la Commisssion Cowles; Koop-
mans (1950) et Hood et Koopmans (1953) sont des références connues. Ce
travail a fortement influencé la direction suivie par la théorie économétrique
depuis de nombreuses années. Pour une histoire sur le développement récent
de l’économétrie, consulter Morgan (1990). Parce que la littérature consacrée
aux modèles d’équations simultanées est vaste, nous ne traiterons qu’une
petite partie de celle-ci. Il existe un grand nombre d’études sur ce champ
théorique, et de nombreux ouvrages qui se situent à des niveaux différents.
Deux articles de synthèse intérssants sont ceux de Hausman (1983), qui traite
de la littérature traditionnelle, et Phillips (1983), qui traite du champ plus
spécifique de la théorie en petit échantillon dans les modèles d’équations si-
multanées, un sujet que nous n’aborderons pas du tout.
La caractéristique essentielle des modèles d’équations simultanées est
que deux ou plusieurs variables endogènes sont déterminées simultanément
par le modèle, comme des fonctions de variables exogènes, de variables
prédéterminées, et d’aléas. A ce stade, nous en avons dit très peu sur ce
que nous entendons par variables exogènes et prédéterminées. Puisque le rôle
de telles variables est essentiel dans les modèles d’équations simutlanées, il
est temps de corriger le défaut. Dans la Section 18.2, nous discutons par
conséquent en détail du concept important de l’exogénéité.
622
18.1 Introduction 623
YΓ = XB + U. (18.01)
La multiplication de tous les paramètres Γil et Bjl par n’importe quelle con-
stante non nulle aurait pour effet de multiplier utl par cette constante pour
tout t, mais ne modifierait pas la structure des aléas dans les observations.
Il est donc nécessaire d’imposer une sorte de nomrmalisation pour chaque
équation du modèle. Une normalisation évidente consiste à poser Γii = 1
pour tout i; chaque variable endogène, de y1 à yg , serait alors associée à un
coefficient unitaire dans une et une seule équation. Cependant, comme nous
l’avons vu dans la Section 7.3, de nombreuses autres normalisations pourraient
être envisagées. Nous pourrions, par exemple, poser Γ1l = 1 pour tout l; le
coefficient associé à la première variable endogène serait ainsi égal à l’unité
dans chaque équation.
Le modèle (18.01) n’a pas de sens si la matrice Γ n’est pas inversible,
car sinons il serait impossible de déterminer Y de manière unique en tant que
fonction de X et U. Nous pouvons donc postmultiplier des deux membres de
(18.01) par Γ −1 pour obtenir
Y = XBΓ −1 + UΓ −1 (18.02)
= XΠ + V. (18.03)
Yt Γ = Xt B + Ut
Xt k Us pour tout s = 1, . . . , n.
Si σ12 6= 0, xt est corrélé à ε1t et l’estimation de (18.05) par OLS ne sera pas
convergente parce que xt n’est pas prédéterminé dans (18.05).
18.2 Exogénéité et Causalité 627
Remarquons que ε2t est défini par (18.06) comme une combinaison linéaire
des variables conditionnantes. Ainsi l’espérance conditionnelle de ε1t dans
(18.07) est
σ12 σ12
E(ε1t | ε2t ) = ε2t = (x − δ1 xt−1 − δ2 yt−1 ).
σ22 σ22 t
avec
σ12 σ12 σ12
b=β+ , c 1 = − δ1 , c2 = − δ2 , (18.09)
σ22 σ22 σ22
où vt est indépendent de xt . Ainsi xt est prédéterminé dans (18.08), quelle
que soit la valeur de σ12 , bien qu’il ne soit pas prédéterminé dans (18.05)
lorsque σ12 6= 0.
Nous retournerons à ce modèle plus tard. Pendant ce temps, progressons
vers un concept plus approprié que la prédétermination dans le contexte du
modèle simultané. Parce que nous voulons savoir si les variables explicatives
Xt sont déterminées simultanément aux Yt nous aurons besoin de travailler
avec des DGP qui génèrent à la fois Yt et Xt . Comme d’habitude, nous
pouvons représenter un DGP par une densité de probabilité, ou mieux par
son logarithme, que l’on peut exprimer comme la somme de contributions de
chaque observation; voir la Section 8.2. La contribution de l’observation t est
de la forme
`t (Yt , Xt | Ωt ). (18.10)
Cette expression est le logarithme de la densité jointe de Yt et Xt condition-
nellement à l’ensemble d’information Ωt . Ce dernier est composé de toutes
les observations sur Yt et Xt , de la première à la (t − 1)th .
L’expression (18.10) peut être décomposée en deux contributions, l’une
correspondant au logarithme de la densité de Yt cnditionnellement à Xt et
Ωt , et la seconde correspondant au logarithme de la densité de Xt condition-
nellement à Ωt :
avec une notation évidente. A ce stade, nous souhaitons pouvoir faire ab-
straction de la seconde partie des contributions dans (18.11), puisqu’elle ne
concerne que les variables explicatives.
628 Modèles d’Equations Simultanées
`X X
t (Xt | Ωt ) = `t (Xt | X
t−1
).
Il est évident à partir de (18.06) que, dans le modèle donné par cette
équation et par (18.05), yt cause au sens de Granger xt , à moins que δ2 = 0.
Ainsi, même si σ12 = 0, ce qui signifie que xt est faiblement exogène pour
le paramètre β dans (18.05), le processus générateur de xt dépend du passé
de la variable endogène yt . par ailleurs, si δ2 = 0 mais que σ12 6= 0, yt ne
cause pas xt au sens de Granger, bien que xt ne soit pas faiblement exogène
pour β. Ainsi les deux idées de faible exogénéité et de non causalité au sens de
Granger sont distinctes: aucune n’implique l’autre et aucune n’est impliquée
par l’autre.
Comme nous l’avons vu, la présencé de la causalité au sens de Granger ne
nous empêche nullement d’estimer efficacement β et de réaliser des inférences
sur ce paramètre sans avoir recours au processus qui génère xt si xt est faible-
ment exogène pour β. Inversement, une absence d’exogénéité faible ne nous
empêche nullement de faire des prévisions efficaces de yt conditionnellement
à xt si yt ne cause pas xt au sens de Granger. Plus précisément, supposons
que nous établissions une équation d’anticipation de xt basée sur sont passé
uniquement. Si (18.05) et (18.06) sont exactes, nous trouvons que
Par conséquent, si (18.14) doit procurer une anticipation sans biais, il est
nécessaire que
b(δ1 + βδ2 ) + c1 = βδ1 et c2 = βδ2 .
A l’aide des définitions (18.09), nous pouvons voir que ces égalités sont vérifiées
si δ2 = 0 ou si b = 0. La première condition est précisdément celle de la non
causalité au sens de Granger. La seconde corespond à un cas particulier où
632 Modèles d’Equations Simultanées
Ceci montre clairement que, quel que soit le choix d’une matrice d’instruments
W, le rang de la matrice (18.22) ne peut excéder k, qui est précisément le nom-
bre de variables exogènes linéairement indépendantes. Toutes les colonnes de
636 Modèles d’Equations Simultanées
π1 + Π11 γ1 = β1
π2 + Π21 γ1 = 0
θ1 + Π11 θ2 = 0 (18.25)
Π21 θ2 = 0. (18.26)
638 Modèles d’Equations Simultanées
Si ces équations sont vérifiées pour un vecteur θ non nul, il est clair que θ2
ne peut pas être nul. Par conséquent, la seconde équation n’est vérifiée que
si Π21 n’est pas de plein rang. Alors si la condition de rang en termes de
Z>PX Z n’est pas vérifiée, alors elle ne l’est pas non plus en termes de Π21 .
Inversement, supposons que (18.26) soit vérifiée pour un vecteur θ2 non nul
quelconque de dimension g1 . Alors Π21 n’est pas de plein rang. Définissons
θ1 en termes de θ2 et Π grâce à (18.25). Alors (18.25) et (18.26) impliquent
ensemble (18.24), et la condition de rang initiale n’est pas satisfaite. Ainsi les
deux versions de la condition de rang sont équivalentes.
Nous terminons cette section en établissant, sans démonstration, une
troisième version de la condition de rang, équivalente aux deux premières, en
termes des paramètres structurels Γ et B. Il est impossible d’exprimer cette
condition exclusivement ne termes des paramètres γ1 et β1 de la première
équation. Au contraire, ce sont uniquement les valeurs des autres paramètres
qui déterminent la possible identification de γ1 et β1 . Ce troisième exposé
de la condition de rang est formulé de la manière suivante. Construisons la
matrice de dimension (g − g1 − 1 + k − k1 ) × (g − 1)
· ¸
Γ22
.
B22
équation par équation. Les secondes, dont les représentants principaux sont les
3SLS et le FIML, estiment tous les paramètres du modèle en même temps. Les
adjectifs “information limitée” et “information complète” qui composent les
noms LIML et FIML montrent clairement que la première méthode s’applique
équation par équation, et que la seconde s’applique au système dans sa glob-
alité. Les méthodes équation par équation sont plus faciles à mettre en oeuvre,
alors que les méthodes systémiques produisent des estimations potentiellement
plus efficaces.
L’autre classification naturelle distingue les méthodes basées sur le max-
imum de vraisemblance, à savoir le LIML et FIML, des méthodes basées
sur les variables instrumentales ou la méthode des moments généralisés, dont
les représentants les plus connus sont les 2SLS et les 3SLS. Les méthodes
du ML produisent des estimations invariantes à la reparamétrisation (voir la
Section 8.3) alors que ce n’est pas le cas des méthodes des IV. Nous avons
déjà vu en détail les 2SLS dans le Chapitre 7. Au cours de cette section, nous
fournirons un traitement détaillé de FIML, qui diffère des 2SLS quelle que soit
la classification retenue. Les sections suivantes seront consacrées au LIML et
aux 3SLS.
Tous les estimateurs d’équations simultanées tentent de gérer le fait que
les aléas des équations structurelles sont corrélés avec n’importe quelle variable
endogène apparaissant dans l’équation. Cette corrélation rend les OLS non
convergents. Nous avons vu que les 2SLS gèrent ce problème en remplaçant
les régresseurs défectueux par des instruments. D’un autre côté, le FIML
gère ce problème par la maximisation d’une fonction de log-vraisemblance
qui implique un terme Jacobien qui n’est pas simplement la transformation
d’une somme de résidus au carré. Le FIML gère également deux problèmes
qui se manifestent dans le cadre de tout modèle multivarié, qu’il y ait ou non
simultanéité; voir la Section 9.9. Le premier problème est que, en dehors de
rares cas, les aléas des différentes équations seront corrélés. Les techniques
équation par équation telles que les 2SLS ou le LIML ingorent purement et
simplement ce problème. Au contraire, les techniques systémiques telles que le
FIML ou les 3SLS assurent la gestion de ce problème et devraient normalement
produire des estimations plus efficaces en général. le second problème est que,
dans de nombreux modèles, il existe des contraintes d’équations croisées. Les
méthodes équation par équation ingorent nécessairement ce problème, mais
les méthodes systémiques telles que le FIML en tiennent compte. Lorsque le
système complet est établi, les paramètres qui apparaissent dans plus d’une
équation sont automatiquement traités de façon différente des paramètres qui
n’apparaissent que dans une seule.
Le modèle d’équations simultanées linéaire (18.01), dont les aléas sont
supposés être normalement distribués, homoscédastiques et indpendants en
série, peut s’écrire
Xn
∂` n 1 ¡ ¢¡ ¢
−1
= −Σ − − Yt Γ − Xt B > Yt Γ − Xt B ,
∂Σ 2 2
t=1
2
Dans ce chapitre, nois notons |A| le déterminant de A et |det A| la velru
absolue du déterminant. il est nécessaire d’employer la notation “det”, que
nous préférons éviter par ailleurs, lorsdque la valeur absolue apparaı̂t dans la
formule.
18.4 Maximum de Vraisemblance en Information Complète 641
Yt = Xt BΓ −1 + Vt . (18.31)
Cette nouvelle expression pour `c (B, Γ ) est égale à celle dérivée précédem-
ment, (18.30). L’égalité entre (18.30) et (18.32) découle du fait que
¯ ¡ ¢¡ ¢¯
n ¯1 −1 > −1 ¯
− − log ¯−
n
Y − XBΓ Y − XBΓ ¯
2
¯ ¯
n ¯ 1 > −1 >¡ ¢¡
−1 > −1
¢ −1 ¯
= − − log ¯−n
(Γ ) Γ Y − XBΓ Y − XBΓ ΓΓ ¯
2
¯ ¡ ¢>¡ ¢¯¯
n ¯1
= n log |det Γ | − − log ¯−
n
YΓ − XB YΓ − XB ¯.
2
de régression multivariée. Mis sous cette forme, nous pouvons lui appliquer
tous les résultats déjà établis dans le Chapitre 9 pour les modèles de régression
multivariée. Cependant, parce que la matrice des coefficients BΓ −1 dépend
non linéairement des coefficients de toutes les équations du modèle, (18.32)
est en général moins pratique que (18.30).
Lorsqu’il fut proposé à l’origine par les chercheurs de la Commission
Cowles (Koopmans, 1950), le FIML n’était pas d’un calcul aisé, parce que
les maximisation de la fonction de log-vraisemblance (18.30) nécessite une
optimisation numérique. Au fur et à mesure que les ordinateurs devenaient
plus puissants et que ce genre de calcul se démocratisait, un certain nombre de
procédures de maximisation de la fonction de log-vraisemblance fut proposé,
et la plupart des progiciels d’économétrie modernes incopore au moins l’une
d’elles. Rothenberg et Leenders (1964), Chow (1968), Hausman (1974, 1975),
et Dagenais (1978) sont des références à consulter sur ce thème.
Comme d’habitude, la matrice de covariance asymptotique des estima-
tions paramétriques FIML B̂, Γ̂, et Σ̂ peut être estimé de différentes façons.
Une approche qui reste relativement aisée mais peu recommandée avec de pe-
tits échantillons consiste à exécuter une régression OPG. Cette régression ar-
tificielle peut se baser sur la fonction de log-vraisemblance concentrée (18.28),
mais pas sur la fonction concentrée (18.30), parce que cette dernière n’est
pas écrite sous la forme d’une somme de contributions. Une deuxième ap-
proche consiste à partir de la forme (18.32) de la fonction de log-vraisemblance.
Comme nous l’avons mis en évidence dans la Section 9.9, le bloc de la matrice
d’information assovcié aux paramètres des fonctions de régression d’un modèle
de régression multivariée est donné par (9.69), et ce bloc peut s’obtenir à l’aide
de la GNR (9.58). Une troisième approche pour estimer la matrice de covar-
iance asymptotique de B̂ et Γ̂ consiste à utiliser la propriété d’équivalence
asymptotique entre les 3SLS et le FIML; nous verrons cette approche dans la
Section 18.6.
Le terme Jacobien log |det Γ | qui apparaı̂t explicitement dans (18.30)
joue un rôle fondamental dans l’estimation. Sa présence est essentielle à la
convergence des estimations ML. De plus, lorsdque le déterminant de Γ tend
vers zéro, ce terme tend vers l’infini. Ainsi la fonction de log-vraisemblance
doit tendre vers moins l’infini chaque fois que le déterminant de Γ tend vers
zéro. Cela est cohérent, parce que le modèle n’est pas gérable si |det Γ | = 0, ce
qui implique que la vraisemblance d’un tel ensemble de paramètres est nul. De
fait, cela signifie que l’espace des valeurs possibles de Γ est divisé en un certain
nombre de régions, séparées par des singularités lorsque |det Γ | = 0. Dans le
cadre du modèle d’offre- demande discuté dans la Section 7.3, par exemple, il
n’existe qu’une seule singularité, qui survient lorsque les pentes des fonctions
d’offre et de demande sont égales. On ne peut pas espérer qu’un algorithme
de maximisation numérique passe à travers ces singularités en général, même
si cela peut arriver. Ainsi, lorsque nous tentons de maximiser numériquement
une fonction de log-vraisemblance, il y a peu de chances que nous trouvions le
18.4 Maximum de Vraisemblance en Information Complète 643
par Anderson et Rubin (1949) avant l’invention des 2SLS, et qu’elle ait été
l’objet d’une étude plus théorique, elle a été peu utilisée par les économètres
dans la pratique.
Comme son nom le suggère, l’idée de base du LIML consite à employer
une information partielle sur la structure du modèle. Supposons que l’on
veuille estimer uen seule équation, disons la première, d’un modèle struc-
turel comme (18.01). Nous avons écrit une équation comparable dans la Sec-
tion 18.3 sous la forme (18.18). Nous devons prendre en compte le fait que
certaines variables apparaissant dans le membre de droite de (18.18), celles
qui correspondent aux colonnes de Y1 , sont endogènes. Le meilleur moyen
d’en tenir compte consiste à écrire leurs équations sous la forme réduire libre:
où la notation est identique à celle utilisée dans la Section 18.3. La combinai-
son de (18.18) et (18.37)donne le système d’équations
y − Y1 γ1 = X1 β1 + u
(18.38)
Y1 = X1 Π11 + X2 Π21 + V1 .
Parce que cette matrice est triangulaire, son déterminant est simplement le
produit des termes de la diagonale, et sa valeur est 1. Ainsi le terme Jaco-
bien dans la fonction de log-vraisemblabce disparaı̂t, et la fonction de log-
vraisemblance pour (18.38) a la même forme que celle de n’importe quel en-
semble de régression apparemment sans lien (voir la Section 9.9). Cela im-
plique que l’on peut utiliser n’importe quel programme pour l’estimation des
systèmes SUR pour obtenir des estimations LIML. De plus, l’application des
GLS faisables à un système tel que (18.38), en débutant par des estimations
2SLS pour la première équaion et OLS pour les équations restantes, produira
des estimations asymptotiquement équivalentes aux estimations LIML. Pagan
(1979) a suggéré une procédure où l’on itère la procédure de GLS faisables
jusqu’à ce qu’elle converge vers les véritables estimations LIML.
18.5 Maximum de Vraisemblance à Information Limitée 647
Si nous divisons chaque membre de l’égalité par 2γ>Y >MX Y γ, nous aboutis-
sons
Y >M1 Y γ − κY >MXY γ = 0. (18.51)
Un ensemble de conditions du premier ordre équivalent peut être établi en
prémultipliant (18.51) par (Y >MXY )−1/2 et en insérant ce facteur multiplié
par par son inverse devant γ. Après manipulation, nous arrivons à
¡ > ¢
(Y MXY )−1/2 Y >M1 Y (Y >MXY )−1/2 − κI (Y >MXY )1/2 γ = 0.
et que (Y >MXY )1/2 γ̂ sera son vecteur propre associé. En réalité, κ̂ doit être
la valeur propre la plus petite, du fait que c’est la plus faible valeur du rapport
(18.49).
Alors, un moyen de calculer des estimations LIML consiste à trouver le
vecteur propre (18.52) associé à la valeur propre la plus petite, et de là, à
.
calculer γ̂, qui sera [1 ... − γ̂1 ] si le premier élément est normalisé à 1. On peut
ensuite obtenir β̂1 en régressant y − Y1 γ̂1 sur X1 . Une approche alternative
se révéle pourtant plus simple et plus révélatrice. Considérons les conditions
du premier ordre (18.51). Si nous les exprimons en termes de y et Y1 au lieu
de Y, et les évaluons avec les estimations LIML, nous pouvons les récrire sous
la forme
÷ ¸ · > ¸!· ¸
y>M1 y y>M1 Y1 y MX y y>MX Y1 1
− κ̂ = 0.
Y1>M1 y Y1>M1 Y1 Y1>MX y Y1>MX Y1 −γ̂1
qui fournit également β̂1 . Alors si nous définissons Z par [X1 Y1 ] et δ par
.
[β1 ... γ1 ], tout comme dans (18.18), (18.53) peut se récrire sous la forme très
simple
¡ ¢−1
δ̂ = Z>(I − κ̂MX )Z Z>(I − κ̂MX )y. (18.54)
contraste avec l’estimateur LIML qui ne possède aucun moment fini (voir Mar-
iano (1982) et Phillips (1983) sur ce point), tous les moments de l’estimateur
modifié de Fuller sont finis à condition que l’échantillon soit suffisamment
important.
Il est possible d’estimer la matrice de covariance du vecteur δ̂ des es-
timations de la classe K de différentes façons. La plus naturelle consiste à
utiliser ¡ ¢−1
σ̂ 2 Z>(I − κ̂MX )Z , (18.55)
où
1
σ̂ 2 = −
n
(y − Z δ̂)>(y − Z δ̂).
Les statistiques de test de Wald pour les contraintes sur γ1 et β1 , et parmi
elles les t de Student asymptotiques, peuvent se calculer à l’aide de (18.55)
de la manière habituelle. Toutefois, il est sans doute préférable d’employer
des statistiques LR, étant donné leur invariance à la reparamétrisation, mais
aussi compte tenu de leur facilité de calcul à partir de la fonction de log-
vraisemblance concentrée (18.50).
Le résultat selon lequel les estimateurs de la classe K sont convergents
lorsque K tend asymptotiquement vers 1 à un taux approprié peut suggérer
que les 2SLS possèdent de meilleures propriétés avec des échantillons finis que
le LIML. Après tout, pour les 2SLS, K est identiquement égal à 1, alors que
pour le LIML, K = κ̂, et κ̂ est toujours supérieur à 1 avec des échantillons
finis. Le résultat selon lequel le LIML ne possède pas de moment fini peut
également suggérer que cet estimateur est plus pauvre que celui des 2SLS,
puisque, comme nous l’avons vu dans la Section 7.5, l’estimateur des 2SLS
possèdent autant de moments finis qu’il y a de contraintes de suridentification.
D’un autre côté, il apparaı̂t que dans de nombreux cas, les 2SLS possèdent
en fait de piètres qualités face au LIML à de multiples égards. Anderson,
Kunitomo, et Sawa (1982), par exemple, exposent des résultats analytiques
qui montrent que le LIML converge vers sa distribution asymptotique normale
beaucoup plus rapidement que ne le font les 2SLS. Contrairement à la distri-
bution de l’estimateur 2SLS, dont nous avons vu qu’elle est sévèrement bi-
aisée dans certains cas, la distribution de l’estimateur LIML est généralement
centré sur une valeur proche de la véritable valeur. Mais, étant donné que
cette dernière distribution ne possède pas de moment fini, nous ne pouvons
pas conclure au moindre biais de l’estimateur LIML.
La Figure 18.1 donne une illustration du fonctionnement du LIML avec
des échantillons finis. Elle montre les distributions de l’estimateur 2SLS,
l’estimateur LIML, et l’estimateur modifié de Fuller avec α = 1 (noté LIMLF
sur la figure) dans le cas examiné précédemment dans la Section 7.5. La
présence de 6 contraintes de suridentification et de seulement 25 observation
explique la divergence importante pour chaque estimateur par rapport à sa
distribution asymptotique. Dans ce cas, l’estimateur 2SLS est sévèrement
biaisé vers le bas. Par ailleurs, l’estimateur LIML semble être pratiquement
18.6 Les Triples Moindres Carrés 653
...........................................
1.0 .................................. ...........................................
...
. ............ .......
. ..............
.
.........
.
....
........... ............................
...
. ... ....
.... ....... .........
.
. .... ......... .............
... ... ...
0.8 ... .... ......
. . ...... ........
.. ... ....
... ... ...... ← LIML
..... ..
. .
... ... .....
..←−
0.6 ..... .
. ... LIMLF
.
.....
.
..... .....
.. ..
... ... ...
..... ..........
.. .. ..
0.4 2SLS →..... ..........
... ... ...
.. .. .. ← Vraie valeur
... ......
..... ..........
... ......
.... ..........
.
0.2 ... ......
...... .............
. .
.... ..........
.
...
......................
..........
0.0 .............................................
0.0 0.5 1.0 1.5 2.0
sans biais dans le sens où sa médiane est très proche de la véritable valeur
de 1. La distribution de l’estimateur modifié de Fuller se situe généralement
entre celles des estimateurs 2SLS et LIML. Sa queue de distribution supérieure
est beaucoup plus fine que celle du LIML, mais sa médiane est quelque peu
inférieure à la véritable valeur.
Dans la pratique, il n’est pas toujours aisé de décider quel estimateur de
la classe K utiliser. Mariano (1982) aborde un certain nombre de résultats an-
alytiques et donne des conseils sur l’opportunité d’une performance meilleure
du LIML par rapport aux 2SLS. Il faudrait éviter d’employer ce dernier
lorsque le nombre des contraintes de suridentification est important, par ex-
emple. Cependant, cela dépend énormément des caractéristiques intrinsèques
du modèle et des données que l’on utilise. Si les résultats des 2SLS et du LIML
sont très proches, alors le choix entre les deux est peu important. S’ils sont
relativement différents, toutefois, ce choix devient important. Sans doute la
meilleure chose à faire dans ces circonstances consiste à réaliser des expériences
Monte Carlo, qui sont typiquement conçues pour départager les performances
relatives des différents estimateurs pour le modèle et les données en cause; se
reporter au Chapitre 21.
méthode systémique, pour laquelle tous les paramètres du modèle sont es-
timés conjointement. Ainsi que son nom le suggère, on peut calculer les 3SLS
en trois étapes. Les deux premières sont celles des 2SLS classiques, appliquées
à chaque équation du système séparément. La troisième étape est alors es-
sentiellement la même que l’étape terminale de l’estimation par GLS faisables
d’un système SUR (Section 9.7). La méthode fut proposé par Zellner et Theil
(1962).
Le moyen le plus simple de dériver l’estimateur des 3SLS, ainsi que ses
propriétés asymptotiques, consiste à appliquer les principes de la méthode des
moments généralisée au système des modèles d’équations simultanées linéaires
(18.01). Pour l’observation t, ce système peut se mettre sous la forme
Yt Γ = Xt B + Ut .
L’hypothèse selon laquelle toutes les variables dans X sont soit exogènes soit
prédéterminées implique que, pour toutes les observations t,
¡ ¢
E Yt Γ − Xt B | Xt = 0.
On interprète immédiatement les égalités comme des conditions portant sur les
moments conditionnels au sens du Chapitre 17. Puisque, comme nous l’avons
vu dans la Section 18.3, les variables exogènes constituent des instruments
efficaces pour les 2SLS si les aléas sont homoscédastiques et indépendants en
série, il semble raisonnable d’envisager l’ensemble suivant de conditions du
premier ordre: ¡ ¢
E Xt>(Yt Γ − Xt B) = 0. (18.56)
Etant donné que Xt possède k composantes et Yt Γ − Xt B en possède g, il
y a en tout gk conditions portant sur les moments. Si la condition d’ordre
pour l’idetnification est satisfaite avec une égalité, il y aurait exactement
gk paramètres à estimer. Ainsi (18.56) fournit toujours au moins autant de
conditions portant sur les moments qu’il y a de paramètres dans le système,
et même davantage si le système est suridentifié. Bien évidemment, l’utilité
réelle de ces conditions sur les moments dans le processus d’identification des
paramètres dépend asymptotiquement de la validité de la condition de rang.
Il est pratique d’ordonner différemment les éléments de la matrice de
dimension k × g (18.56) pour en faire un vecteur de dimension gk. En premier
lieu, exprimons chaque équation du système dans une notation comparable à
celle de (18.18):
yi = Zi δi + ui , pour i = 1, . . . , g,
où la matrice de régresseurs Zi qui apparaı̂t dans l’équation i est [Xi Yi ],
avec ki variables exogènes Xi incluses et gi variables endogènes Yi incluses, et
.
où le vecteur de paramètres de dimension (ki + gi ) δi est [βi ... γi ]. Définissons
alors le vecteur ligne Ft composé de gk éléments comme:
Ft ≡ [ut1 Xt · · · utg Xt ],
18.6 Les Triples Moindres Carrés 655
c’est-à-dire une matrice dont le bloc type est σij X>X. Afin de construire une
fonction critère comparable à (17.54) et avec laquelle nous pourrons obtenir
des estimations des paramètres vectoriels δi , i = 1, . . . , g, nous aurons be-
soin d’inverser la matrice (18.58)L̇a structure en bloc de (18.58) facilite cette
manipulation. On peut vérifer facilement par une simple multiplication de
matrices partitionnées que l’inverse est une matrice dont le bloc type est
σ ij (X>X)−1 (souvenons-nous que σ ij est un élément type de Σ −1 ).
Il est pratique d’exprimer le vecteur des moments empiriques F >ι sous
une forme partitionnée comparable à (18.58), comme une fonction des données
et des paramètres du modèle. Le résultat est un vecteur avec l’élément type
X>(yi − Zi δi ), pour i = 1, . . . , g:
X>(y1 − Z1 δ1 )
..
F >ι = . . (18.59)
>
X (yg − Zg δg )
656 Modèles d’Equations Simultanées
Bien sûr, ces résidus doivent correspondre aux véritables résidus 2SLS, et non
aux résidus de l’estimation OLS de seconde étape: voir la Section 7.5. Nous
voyons donc que les estimateurs 3SLS, δ̃1 à δ̃g doivent conjointement résoudre
les conditions du premier ordre:
g
X ¡ ¢
σ̃ ij Zi>PX yj − Zj δ̃j = 0. (18.63)
j=1
. .
La solution est aisée à formuler. Si δ ≡ [δ1 ... · · · ... δg ] et si les matrices entre
crochets désignent les matrices partitionnées caractérisées par l’élément ype
à l’intérieur du crochet, l’estimateur 3SLS δ̃ se met sous la forme compacte
" g #
£ ij > ¤−1 X
δ̃ = σ̃ Zi PXZj σ̃ ij Zi>PX yj . (18.64)
j=1
18.6 Les Triples Moindres Carrés 657
L’écriture de l’estimateur 3SLS dans une notation qui utilise les produits de
Kronecker est plus fréquente; consulter la plupart des ouvrages d’économétrie.
Bien que les produits de Kronecker soient bien souvent très utiles (Magnus et
Neudecker, (1988)), nous préférons la notation compacte de (18.64).
L’estimateur 3SLS est intimement relié à la fois à celui des 2SLS et à
celui des GLS pour les modèles SUR multivariés pour lequel les variables
explicatives sont toutes exogènes ou prédéterminées. Si nous supposons que Σ
est proportionnelle à une matrice identité, les conditions (18.63) se ramènent
à ¡ ¢
σ̃ ii Zi>PX yi − Zi δi = 0,
et ces conditions sont équivalentes aux conditions équation par équation
des 2SLS. Ainsi les 3SLS et les 2SLS seront asymptotiquement (mais pas
numériquement) équivalents lorsque les aléas contemporains de la forme struc-
turelle sont non corrélés. Il est également aisé de voir que l’estimateur SUR
pour les modèles linéaires est juste un cas particulier de l’estimateur 3SLS.
Etant donné que tous les régresseurs peuvent servir en tant qu’instruments
dans le cas SUR, il n’est plus du tout besoin d’employer les 2SLS en première
étape. En correspondance, le fait que chaque matrice de régresseur Zi soit
une sous-matrice de la matrice de tous les régresseurs, X, implique que
PXZi = Zi . Ainsi (18.63) se ramène à
g
X ¡ ¢
σ̃ ij Zi> yj − Zj δj = 0,
j=1
Nous souhaitons trouver une matrice dont l’élément ij est (18.67). Puisque j
est l’indice associé à l’élément Xtj , nous pouvons développer la colonne j de
ladite matrice en ordonnant les éléments Xtj en colonne. Cela donne
g
n X
X ¡ ¢
σ im Xt> Yt Γm − Xt Bm
t=1 m=1
X g
im
¡ ¢
= σ X> YΓm − XBm
m=1
¡ ¢
= X> YΓ − XB (Σ −1 )i , (18.68)
où (Σ −1 )i est la i ième colonne de Σ −1. Observons maintenant que les ex-
pressions successives dans (18.68) sont des vecteurs de dimension k. Pour
conclure cette manipulation, il nous faut concatener ces vecteurs pour former
une matrice de dimension k × g, et il est désormais évident que cette matrice
est X>(YΓ − XB)Σ −1.
660 Modèles d’Equations Simultanées
Nous pouvons aboutir à une expression plus pratique que (18.69) en util-
isant les conditions du premier ordre pour les éléments de la matrice de co-
variance Σ. De (18.29), nous voyons que ces conditions donnent
où Σ̂, Γ̂, et B̂ désignent des estimations FIML. Si nous prémultiplions cette
équation par nΣ̂ −1, la postmultiplions par Γ̂ −1, et la transposons, nous ar-
rivons à
Par suite, la matrice (18.69), évaluée avec les estimations ML, devient
Les conditions (18.72) apparaissent désormais sous une forme très com-
parables à celle des conditions (18.63) qui définissent l’estimateur 3SLS. En
réalité, si nous notons Ȳi la matrice de dimension n × gi des valeurs ajustées
de la forme réduite libre, de sorte que Ȳi = PX Yi for i = 1, . . . , g, alors
£ ¤ £ ¤
PXZi = PX Xi Yi = Xi Ȳi ≡ Z̄i .
Ainsi la conditions (18.63) qui définit l’estimateur 3SLS peut s’écrire comme
g
X ¡ ¢
σ̃ ij Z̄i> yj − Zj δ̃j = 0. (18.73)
j=1
Les différences existant entre les conditions qui définissent les etsimations
3SLS et celles qui définissent les estimations FIML sont mises en évidence à
partir de (18.73) et (18.72). Elles sont les suivantes:
(i) l’estimation de la matrice de covariance provient des résidus 2SLS équa-
tion par équation en ce qui concerne les 3SLS, et des résidus FIML en ce
qui concerne le FIML;
662 Modèles d’Equations Simultanées
Il est clair que, tout comme pour les autres HCCME, il est possible d’estimer
de façon convergente 1/n fois cette matrice par
n
X
1 ¡ ¢
−
n
E ũti ũtj Xt>Xt ,
t=1
664 Modèles d’Equations Simultanées
1 >
−
n
X Ω̃ij X (18.75)
y1 = αy2 + X1 β1 + u1
(18.77)
y2 = γ1 y1 + γ2 y12 + X2 β2 + u2 ,
L’appellation est quelque peu trompeuse, pour une raison identique à celle
qui fait que le nomù “NL2SLS” est également trompeuse. Par analogie avec
(18.60), la fonction critère que nous voudrions réellement minimiser est
g X
X g
σ ij fi>(Y, X, θ)PW fj (Y, X, θ). (18.80)
i=1 j=1
où, par analmogie avec (18.76), Ώij = diag(úti útj ) pour i, j = 1, . . . , g. Les
estimations initiales θ́ peuvent ne pas tenir compte de l’hétéroscédasticité.
pour une discussion plus détaillée sur cette sorte de procédure, et de NL3SLS
en général, consulter Gallant (1987, Chapitre 6).
L’autre méthode d’estimation systémique qui est largement employée est
celle du FIML non linéaire. Pour l’examiner, il est judicieux d’écrire le système
d’équations à estimer non pas sous la forme (18.79) mais plutôt sous la forme
avec l’estimation NL3SLS, bien sûr. Bien que la valeur minimisée de la fonc-
tion critère (18.82) fournisse une statistique de test, elle ne sera valable que
pour les contraintes de suridentification associées à une matrice d’instruments
particulière W, qui peut parfaitement ne pas procurer une approximation sat-
isfaisante à la véritable forme réduite non contrainte, qui est inconnue.
La relation entre le FIML non linéaire et les NL3SLS n’est pas de na-
ture comparable à celle qui existe entre le FIML linéaire et les 3SLS. Les
deux méthodes non linéaires seront asymptotiquement équivalentes lorsque le
modèle est linéaire en les variables endogènes. Toutefois, dans la majorité des
situations, elles ne le seront pas. Dans l’éventualité d’une non équivalence,
le FIML non linéaire sera plus efficace, asymptotiquement, que les NL3SLS.
Mais cette plus grande efficacité se paye. Lorsque le FIML non linéaire et les
NL3SLS ne sont pas équivalents, le premier peut être non convergent si les
aléas sont en réalité distribués autrement que suivant la loi normale multi-
variée. Au contraire, comme nous l’avons vu, l’hypothèse de normalité n’est
pas nécessaire pour assurer la convergence du FIML linéaire. Pour plus de
détails sur ces points, consulter Amemiya (1977) et Phillips (1982). Amemiya
(1985, Chapitre 8) et Gallant (1987, Chapitre 6) donnent des traitements plus
explicites du FIML non linéaire que le notre.
Il existe une littérature véritablement vaste sur le calcul des estuiimations
par le FIML non linéaire. Comme d’habitude, on peut employer de nom-
breux algorithmes différents pour maximiser la fonction de logvraisemblance
et la fonction de logvraisemblance concentrée, dont certains exploitent des car-
actéristiques spéciales des classes particulières de modèles. Le références clas-
siques sont Eisenpress et Greenstadt (1966), Chow (1973), Dagenais (1978),
Belsley (1979, 1980), Fair and Parke (1980), Parke (1982), et Quandt (1983).
18.8 Conclusion
Le fait que nous traitions un thème aussi important que les modèles d’équa-
tions simultanées aussi tard peut heurter certains lecteurs. Nous avons bien
évidemment abordé certains aspects du problème dans le Chapitre 7, en tant
que contribution à notre traitement des variables instrumentales. La raison
de ce retard volontaire est que nous voulions que le lecteur ait acquis une
compréhension claire de l’estimation et des tests de spécification par maximum
de vraisemblance et de la méthode des moments généralisée. Cela nous a alors
permis de développer toutes les méthodes d’estimation et de test discutées
dans ce chapitre en tant qu’applications immédiates du ML et de la GMM.
Si l’on admet cela, il est beaucoup plus facile de comprendre les modèles
d’équations simultanées et les techniques statistiques qui leur sont associées.
Termes et Concepts
672 Modèles d’Equations Simultanées