Professional Documents
Culture Documents
Le Maximum de Vraisemblance et
Les Moindres Carrés Généralisés
9.1 Introduction
Jusqu’à présent nous avons supposé que les erreurs relatives aux modèles
de régression sont indépendamment distribuées avec une variance constante.
C’est une hypothèse très forte, qui est souvent mise à mal dans la pratique.
Dans ce chapitre, nous envisageons des techniques d’estimation qui permettent
de la relâcher. Ce sont d’une part les moindres carrés généralisés, ou GLS,
et les moindres carrés généralisés non linéaires, ou GNLS, et d’autre part
des applications variées de la méthode du maximum de vraisemblance. Nous
traitons les GLS et le ML ensemble parce que quand le ML est appliqué aux
modèles de régression dont les erreurs sont normales, les estimateurs qui en
résultent entretiennent des liens étroits avec les estimateurs GLS.
Le plan de ce chapitre est le suivant. Tout d’abord, dans la Section
9.2, nous relâchons l’hypothèse selon laquelle les aléas sont indépendamment
distribués avec une variance constante. L’estimation ML des modèles de
régression sans ces hypothèses se trouve être conceptuellement simple et très
proche de la méthode des GNLS. Dans la Section 9.3, nous discutons de la
géométrie des GLS, et considérons un cas particulier important dans lequel les
estimations OLS et GLS sont identiques. Dans la Section 9.4, nous décrivons
la manière d’utiliser une version de la régression de Gauss-Newton avec des
modèles estimés par GNLS. Dans la Section 9.5, nous établissons un lien entre
les GNLS et les GNLS faisables, et discutons d’un certain nombre de résultats
fondamentaux concernant à la fois les GNLS et les GNLS faisables. La rela-
tion entre les GNLS et le ML est ensuite traitée dans la Section 9.6. Enfin, de
la Section 9.7 à la Section 9.9, nous considérons les modèles de régression non
linéaire multivariée. Bien que de tels modèles puissent souvent paraı̂tre très
difficiles, et en premier lieu à cause de la notation complexe qui doit permettre
de prendre en compte de nombreuses variables dépendantes entre elles, nous
montrons qu’ils sont en fait assez simples à estimer à l’aide des GNLS ou
du ML. Pour terminer, dans la Section 9.10, nous discutons des modèles qui
traitent des données de panel et d’autres ensembles de données qui combinent
300
9.2 Les Moindres Carrés Généralisés 301
n 1 1¡ ¢ ¡ ¢
`n (y, β, Ω) = − − log(2π) − − log |Ω| − − y − x(β) >Ω −1 y − x(β) . (9.03)
2 2 2
302 Les Moindres Carrés Généralisés
Si la matrice Ω est connue, il est clair que cette fonction peut être maximisée
par la minimisation de la somme généralisée des résidus au carré
¡ ¢ ¡ ¢
SSR(β | Ω) = y − x(β) >Ω −1 y − x(β) . (9.04)
Ce problème de minimisation est celui résolu par les moindres carrés non
linéaires généralisés, ou GNLS. En dérivant (9.04) par rapport à β et en an-
nulant les dérivées, nous obtenons k conditions du premier ordre comparables
à (2.04): ¡ ¢
−2X>(β̃)Ω −1 y − x(β̃) = 0. (9.05)
La résolution de ces équations donne β̃, qui est le vecteur à la fois des esti-
mations ML et GNLS pour ce problème. Il est simple de prolonger la théorie
asymptotique du Chapitre 5, pour montrer que
³ ¡ ¢−1´
a
n1/2 (β̃ − β0 ) ∼ N 0, plim n−1X>(β0 )Ω −1X(β0 ) , (9.06)
n→∞
où β0 est la valeur de β sous le DGP. Ce résultat implique que nous pouvons
réaliser des inférences pour les estimations GNLS essentiellement de la même
manière que nous les réalisons pour les estimations NLS.
Dans le cas linéaire où x(β) = Xβ, les conditions du premier ordre (9.05)
deviennent
−2X>Ω −1 y + 2X>Ω −1Xβ̃ = 0.
Celles-ci peuvent être résolues analytiquement pour donner la formule stan-
dard de l’estimateur des moindres carrés généralisés, ou GLS, 1
¡ ¢−1
β̃ = X>Ω −1X X>Ω −1 y. (9.07)
Il existe différentes manières d’obtenir une matrice η qui satisfasse (9.08) (voir
l’Annexe A); on la choisit habituellement, mais pas nécessairement, triangu-
laire. Etant donnée η, il est possible de calculer les estimations GLS au moyen
de la régression OLS
ηy = ηXβ + ηu. (9.09)
Cette régression possède des erreurs qui sont indépendantes et qui ont une
variance constante unitaire, puisque
¡ ¢ ¡ ¢−1 ¡ ¢−1
E ηuu>η> = ηΩη> = η η>η η> = ηη −1 η> η> = In ,
1
L’estimateur GLS est occasionnellement appelé estimateur Aitken, parce qu’il
fut proposé par Aitken (1935).
9.2 Les Moindres Carrés Généralisés 303
n 1
`n (y, β, ∆, σ) = − − log(2π) − n log(σ) − − log |∆|
2 2
1 ¡ ¢ ¡ ¢
− 2
y − x(β) >∆−1 y − x(β) .
2σ
où wt est une observation portant sur une variable exogène et α est un
paramètre. Ce type de spécification pourrait avoir du sens si wt était une vari-
able liée à l’échelle de la variable dépendante, telle que la taille de l’entreprise
si la variable dépendante était le bénéfice. Dans ce cas la matrice Ω est dia-
gonale, avec un t ième élément diagonal égal à σ 2 wtα . Ainsi, la matrice Ω −1 est
également une matrice diagonale avec σ −2 wt−α comme t ième élément diagonal,
−α/2
et η est une matrice diagonale avec σ −1 wt comme t ième élément diagonal.
La fonction σ 2 wtα est ce que l’on appelle parfois la fonction scédastique. De la
même manière qu’une fonction de régression détermine l’espérance condition-
nelle d’une variable aléatoire, une fonction scédastique détermine sa variance
conditionnelle.
Dans ce cas, il est particulièrement facile de voir qu’il n’est pas nécessaire
de connaı̂tre σ pour obtenir les estimations GLS, puisque le sous-espace en-
gendré par les colonnes de ηX ne change pas si nous multiplions η par
n’importe quelle constante. Pourvu que nous connaissions α, nous pouvons
exécuter la régression
k
X
yt Xti
α/2
= βi α/2
+ résidu. (9.11)
wt i=1 wt
k
X
yt Xti
α/2
= βi α/2
+ résidu.
σwt i=1 σwt
Ω
¡ ¢−1
MX ≡ I − X X>Ω −1X X>Ω −1. (9.13)
qui est nulle uniquement dans des circonstances très spéciales, telles que celles
où Ω est proportionnelle à In . Ainsi, les résidus des GLS ne sont généralement
pas orthogonaux aux valeurs ajustées des GLS.
La Figure 9.1 illustre la distinction entre les estimations OLS et GLS.
Dans le but d’avoir au plus trois dimensions dans nos représentations, quelques
hypotèses simplificatrices ont dû être faites. Premièrement, X et Ω −1X
possèdent chacune seulement deux colonnes, afin que S(X) et S(Ω −1X) puis-
sent être bi-dimensionnelles. Ces deux sous-espaces sont représentés sur la
figure par deux plans qui s’intersectent, mais en général, leur intersection
se réduira seulement à l’origine. D’autre part, le vecteur y appartient dans
notre figure (par nécessité) au même espace à trois dimensions que les deux
plans. En général, il n’en sera pas ainsi: normalement cinq dimensions
sont nécessaires pour que la Figure 9.1 soit une représentation adéquate.
Néanmoins, la figure est suffisante pour nos objectifs présents.
æ
306 Les Moindres Carrés Généralisés
directement applicable aux GLS, dès que le modèle originel a été transformé
comme dans (9.09). En particulier, le Théorème de Gauss-Markov s’applique
aux modèles estimés par GLS. Si les données sont générées par un cas spécial
de
y = Xβ + u, E(uu>) = Ω,
(notons que l’hypothèse de normalité n’est pas nécessaire ici), alors l’estima-
teur GLS (9.07) est le meilleur estimateur linéaire sans biais. Ce résultat
découle de l’application du Théorème de Gauss-Markov démontré dans la
Section 5.5 à la régression (9.09). De façon similaire, si le DGP est un cas
particulier de (9.01) (peut-être avec Ω = σ 2∆ où seulement ∆ est connue),
alors l’estimateur GNLS sera le meilleur estimateur convergent et asympto-
tiquement linéaire.
Avant de quitter cette section, nous devons discuter de la possibilité
importante où GLS et OLS peuvent dans certains cas donner des estima-
tions identiques. Notre discussion fait suite à l’article de Kruskal (1968), et
nous nous référerons alors au résultat en tant que Théorème de Kruskal. Le
résultat est simple à énoncer: les estimations OLS et GLS sont les mêmes si
et seulement si les deux sous-espaces S(X) et S(Ω −1X) sont identiques. Le
résultat est évident sur la Figure 9.1, imaginons simplement que S(Ω −1X)
pivote pour coı̈ncider avec S(X). Formellement, pour voir que les estimations
OLS et GLS doivent coı̈ncider si S(Ω −1X) et S(X) sont les mêmes, il suf-
fit d’observer que la décomposition par OLS de y en un vecteur des valeurs
ajustées et un vecteur de résidus satisfait les exigences de la décomposition
(unique) par GLS: PX y se trouve dans S(X), et MX y est orthogonal à S(X),
et par là aussi à S(Ω −1X). Si les valeurs ajustées par OLS Xβ̂ et les valeurs
ajustées par GLS Xβ̃ sont identiques, et si les estimations paramétriques β̂
et β̃ sont uniques, ces deux procédures doivent être également identiques.
Le résultat réciproque, à savoir que si OLS et GLS donnent les mêmes
estimations pour n’importe qu’elle réalisation du vecteur y, alors S(X) et
S(Ω −1X) doivent être les mêmes, est aussi facile à voir. Notons qu’un unique
vecteur de résidus doit être orthogonal à la fois à S(X) et à S(Ω −1X), et
par conséquent à S(X, Ω −1X). Puisque seuls k éléments de β sont estimés,
les résidus peuvent être orthogonaux à un espace à plus de k dimensions, et
ainsi S(X, Ω −1X), peut être à plus de k dimensions. Mais comme S(X) et
S(Ω −1X) sont tous deux de dimension k, ils doivent coı̈ncider.
Selon les applications, il sera plus facile de manipuler Ω ou Ω −1 , et il
peut être utile de noter que S(X) = S(Ω −1X) si et seulement si S(X) =
S(ΩX). Le raisonnement est comme suit: S(X) ⊆ S(Ω −1X) si et seulement
si pour tout β ∈ Rk il existe λ ∈ Rk tel que Xβ = Ω −1Xλ. Mais ceci
est équivalent à dire que ΩXβ = Xλ, qui implique que S(ΩX) ⊆ S(X).
La reprise de l’argumentation en permutant X et Ω −1X donne le résultat
dans son intégralité. La situation dans laquelle les estimations OLS et GLS
sont identiques ne se rencontre pas très fréquemment, mais nous verrons une
application importante du Théorème de Kruskal dans la Section 9.8.
308 Les Moindres Carrés Généralisés
où, comme d’habitude, PΩ −1X désigne la matrice de projection sur S(Ω −1 X).
Quand S(Ω −1 X) = S(X), PΩ −1X = PX. Ainsi, la seconde expression de β̃
se réduit ici à l’expression de l’estimateur OLS β̂.
Le fait que l’estimateur GLS ressemble à un estimateur IV suscite un
intérêt plus théorique que pratique, parce que l’on ne voudrait pas obtenir des
estimations GLS en utilisant une procédure IV. Les estimations paramétriques
seraient correctes, mais l’estimation de la matrice de covariance ne le serait
pas. La matrice de covariance correcte des GLS est proportionnelle à
(X>Ω −1X)−1, mais l’estimation IV de la matrice de covariance est propor-
tionnelle à (X>PΩ −1X X)−1.
où b est un vecteur de coefficients à k dimensions qui doit être estimé et η est
n’importe quelle matrice de dimension n × n qui satisfait l’équation (9.08).
Ce n’est pas une coı̈ncidence si la régression (9.14) ressemble à la régression
(9.09), qui a été utilisée pour calculer les estimations GLS dans le cas linéaire.
La GNR correspond en réalité à une linéarisation du modèle non linéaire
originel, où à la fois la régressande et les régresseurs sont transformés afin de
rendre la matrice de covariance des aléas proportionnelle à la matrice identité.
Si nous évaluons à la fois x(β) et X(β) en β̃, le résultat de la régression
(9.14) donne b̃ = 0 et la matrice de covariance estimée
Ici, M0Ω désigne une matrice de projection oblique identique à (9.13), mais
qui dépend de la matrice de dérivées X0 ≡ X(β0 ) plutôt que d’une matrice
de régresseurs X. Le résultat (9.17) est à l’évidence l’analogue GNLS du
résultat (5.57) pour les NLS ordinaires et nous ne nous soucierons donc pas
de le dériver.
Puisque l’hypothèse de la valeur bornée nous permet de conclure que
η ũ = ηM0Ω u + o(n−1/2 ),
la quantité dont nous voulons calculer la limite en probabilité dans (9.16) est
³ ´
1 > −1 1 > Ω > −1 Ω 1/2
−n
ũ Ω ũ = −n
u (M0 ) Ω M0 u + o(n )
(9.18)
1 > Ω > −1 Ω −1/2
=− n
u (M0 ) Ω M0 u + o(n ).
2
Cet énoncé est vrai seulement si Ω est complètement connue. Comme nous le
verrons par la suite, l’estimateur GNLS demeure inchangé si Ω est seulement
connue à une constante multiplicative près, et il s’agit d’une estimation com-
munément rencontrée dans la pratique. Dans ce cas, le premier facteur dans
(9.15) serait employé pour estimer cette constante.
310 Les Moindres Carrés Généralisés
où
¡ ¢−1
P0Ω ≡ I − M0Ω ≡ X0 X0>Ω −1X0 X0>Ω −1
est essentiellement la même matrice que PXΩ définie dans (9.12). Seul le
premier terme de (9.19) est O(1). Intuitivement, la raison est que lorsque u
est projeté sur S(X0 ), le résultat se trouve dans un espace à k dimensions.
Ainsi, une expression comparable au second terme dans (9.19), qui peut être
écrite comme
¡ ¢¡ ¢−1¡ −1/2 > −1 ¢
n−1 n−1/2 u>Ω −1X0 n−1X0>Ω −1X0 n X0 Ω u ,
1 > −1 1 > −1
a
−
n
ũ Ω ũ = −
n
u Ω u. (9.20)
La forme quadratique dans le membre de droite de (9.20) peut être écrite très
simplement en utilisant une matrice η qui satisfait (9.08). Nous obtenons
n
X
1 > −1 1
−
n
u Ω u=−
n
(ηu)2t .
t=1
Alors, à partir de (9.20), nous concluons que cela reste vrai si u est remplacé
par ũ, qui était ce que nous cherchions à montrer à l’origine.
Ce résultat peut être utilisé pour tester si Ω est réellement la matrice de
covariance des aléas. Une statistique de test appropriée est ũ>Ω −1 ũ, qui cor-
respond simplement à la SSR de la régression GNLS d’origine après transfor-
mation. Elle devrait être asymptotiquement distribuée suivant une χ2 (n − k)
sous l’hypothèse nulle.
9.5 Les Moindres Carrés Généralisés Faisables 311
3
Tout ceci suppose que la structure de Ω est connue. Lorsque ce n’est pas le cas,
il n’est généralement pas possible d’utiliser les GNLS ou le ML. Cependant,
comme nous le verrons dans le Chapitre 17, on peut tout de même obtenir
des estimations qui sont plus efficaces que les estimations NLS en utilisant la
méthode généralisée des moments.
312 Les Moindres Carrés Généralisés
Comme nous l’avons vu dans la Section 5.3, les trois termes de (9.22) doivent
chacun satisfaire une propriété cruciale. Le premier terme doit satisfaire
µ X n ¶
1 ¡ ¢2
plim −n
xt (β0 ) − xt (β) >0 (9.23)
n→∞
t=1
sera présentée dans la prochaine section. Nous rencontrerons certains cas plus
simples, où les paramètres de la matrice de covariance peuvent être estimés
par moindres carrés ordinaires, au cours du Chapitre 10.
Nous présentons maintenant une explication non rigoureuse de l’équiva-
lence asymptotique entre les GNLS faisables et les GNLS. Les conditions du
premier ordre pour GNLS sont
¡ ¢
−2X>(β̃)Ω0−1 y − x(β̃) = 0. (9.26)
Comme Ω0 est O(1) alors que A est O(n−1/2 ), le second terme ici devient
négligeable relativement au premier lorsque n → ∞. Mais le premier terme
est simplement le membre de gauche de (9.26). Ainsi, asymptotiquement, les
équations qui définissent l’estimateur des GNLS faisables β̌ sont les mêmes
que celles qui définissent l’estimateur GNLS β̃. Par conséquent, les deux
estimateurs sont asymptotiquement équivalents.
Nous insistons sur le fait que la discussion précédente n’est pas rigoureuse.
Nous n’avons pas montré formellement qu’il est correct d’écrire (9.28), ou
que le second terme du membre de gauche de (9.29) est asymptotiquement
négligeable relativement au premier. Cependant, une preuve pleinement
rigoureuse de l’équivalence asymptotique des estimations des GLS et des GLS
faisables est assez technique et pas très intuitive. Consulter Amemiya (1973a,
1973b) et Carroll et Ruppert (1982), parmi d’autres.
En pratique, le désir d’utiliser les GLS faisables comme méthode d’estima-
tion dépend de la qualité de l’estimation de Ω que l’on peut obtenir. Si Ω(α̌)
est une très bonne estimation de Ω0 , alors les GLS faisables auront, en effet,
9.6 Le Maximum de Vraisemblance et les GNLS 315
essentiellement les mêmes propriétés que les GLS, et les inférences basées sur
la matrice de covariance habituelle
¡ > −1 ¢−1
X̌ Ω̌ X̌ (9.30)
seront raisonnablement fiables. Quoi qu’il en soit, si Ω(α̌) est une estimation
pauvre de Ω0 , les estimations des GLS faisables peuvent posséder des pro-
priétés très différentes des véritables estimations GLS, et (9.30) peut mener
à des inférences très trompeuses.
n 1
`n (y, β, α) = − − log(2π) − − log |Ω(α)|
2 2
(9.32)
1¡ ¢ ¡ ¢
−− y − x(β) >Ω −1 (α) y − x(β) .
2
n
X
n n α
` (y, β, α, σ) = − − log(2π) − n log σ −− log(wt )
2 2
t=1
n ¡ ¢2 (9.34)
X yt − xt (β)
− 2 wα
.
t=1
2σ t
yt xt (β) ut
α/2
= α/2
+ α/2
, (9.35)
wt wt wt
9.6 Le Maximum de Vraisemblance et les GNLS 317
où εt est N (0, 1). Cette spécification de la fonction scédastique n’incite pas
en elle-même à utiliser les moindres carrés. En fait, le moyen le plus attrayant
d’estimer α consiste à prétendre que ǔt est effectivement ut à estimer α à partir
de (9.36) par le maximum de vraisemblance. Si nous remplaçons yt − xt (β)
dans (9.34) par ǔt , nous obtenons
n
X n
X
n n α ǔ2t
` (y, α, σ) = − − log(2π) − n log(σ) − − log(wt ) − . (9.37)
2 2
t=1 t=1
2σ 2 wtα
et sa résolution donne
Xn
1 ǔ2t
σ̌ 2 = −
n α.
t=1
w t
Ici yti est la t ième observation de la i ième variable dépendante, ξti (β) est
la t ième observation de la fonction de régression qui détermine l’espérance
conditionnelle de cette variable dépendante, β est un vecteur de dimension k
regroupant les paramètres à estimer, et uti est un aléa d’espérance nulle et
comportant d’autres propriétés dont nous discuterons dans peu de temps.
Les modèles de régression multivariée surviennent dans plusieurs circon-
stances. Comme exemple simple, supposons qu’il y ait des observations sur
une variable dépendante, pour 5 pays sur 120 trimestres (ce qui implique que
m = 5 et n = 120). Chaque pays pourrait avoir une fonction de régression
différente déterminant l’espérance conditionnelle de la variable dépendante. Si
les mêmes paramètres apparaissaient dans plus d’une fonction de régression,
on dirait que le système est soumis à des restrictions croisées. En présence de
telles restrictions, il est évident que l’on voudrait estimer les cinq équations
simultanément dans un système plutôt qu’individuellement, afin d’obtenir des
estimations efficaces. Même en l’absence de restrictions croisées, il semble très
probable que les caractéristiques observées des environnements économiques
des différents pays seraient reliées à chaque instant, de telle sorte que, selon
toute vraisemblance, uti serait corrélé avec utj pour i 6= j. Dans cette situa-
tion, le système des équations forme un ensemble que Zellner (1962) surnomme
régressions sans lien apparent, ou système SUR. En vérité, il semblerait plus
logique de s’y référer en tant que “régressions avec lien apparent”, mais il est
trop tard pour changer la terminologie à ce stade. Comme Zellner l’a montré,
l’estimation d’un ensemble de régressions sans lien apparent conjointement
320 Les Moindres Carrés Généralisés
dans un système produira sauf dans certains cas particuliers dont nous dis-
cuterons par la suite, des estimations plus efficaces que celles obtenues par
l’estimation de chacune d’entre elles séparément, même quand il n’y a pas de
restrictions croisées. Ainsi, nous voudrions normalement traiter un système
SUR comme un modèle multivarié.
Il existe de nombreuses situations dans lesquelles la théorie économique
suggère l’utilisation d’un modèle de régression multivariée. Une classe très
largement répandue de modèles est celle des systèmes de demande, dans
lesquels les parts des différentes classes de biens et services dans les dépenses
des consommateurs sont reliées à la dépense totale et aux prix relatifs. La
littérature sur les systèmes de demande est vaste; consulter, parmi de nom-
breux autres, Barten (1964, 1969, 1977), Brown et Heien (1972), Christensen,
Jorgenson, et Lau (1975), Deaton (1974, 1978), Deaton et Muellbauer (1980),
Parks (1969), Pollak et Wales (1969, 1978, 1981, 1987), Prais et Houthakker
(1955), et Stone (1954). Les systèmes de demande peuvent être estimés en
utilisant soit des données chronologiques agrégées (généralement annuelles
mais parfois trimestrielles), ou, moins fréquemment, des données en coupe
transversale ou un mélange de données chronologiques et de données en coupe
transversale sur les ménages.
Dans bien des cas (bien que cela soit moins vrai dans la littérature plus
récente), les formes fonctionnelles des systèmes de demande sont simplement
obtenues en maximisant une fonction d’utilité d’une certaine forme connue
soumise à une contrainte budgétaire. Par exemple, supposons que la fonction
d’utilité soit
m+1
X
αi log(qi − γi ), (9.41)
i=1
où pi est le prix de la marchandise i et E est la dépense totale pour toutes les
marchandises, donne le système de demande:
à Pm+1 !
γi pi E − j=1 pj γj
si (E, p, α, γ) = + αi ,
E E
Sommons
Pm+1 les deux côtés de cette équation sur i, nous trouvons que 1 = 1 +
i=1 uti , ce qui implique que
m+1
X
uti = 0. (9.42)
i=1
Ainsi les aléas pour chaque observation doivent avoir une somme nulle sur
toutes les parts de la dépense. Comme Barten (1968) le montra, ceci ne crée
pas de problème pour l’estimation; nous devons simplement abandonner une
équation de part et estimer le système pour les m parts restantes. De plus, si
nous utilisons le maximum de vraisemblance, le choix de l’équation que nous
ne prenons pas en compte importe peu: les estimations de α et γ que nous
obtenons seront identiques (souvenons-nous que les αi sont normalisés pour
donner une somme égale à l’unité; c’est pourquoi nous pouvons procéder sans
avoir besoin d’estimer l’une d’entre elles).
Bien que (9.42) ne produise pas de problème sérieux pour l’estimation,
elle laisse apparaı̂tre de manière absolument claire que les aléas uti et utj
doivent être en général corrélés entre eux. A proprement parler, nous ne
devrions pas supposer que les uti soient normalement distribués, parce que
0 ≤ sti ≤ 1, ce qui implique que les uti doivent être borné supérieurement et
inférieurement; voir Wales et Woodland (1983). Cependant, à condition que
l’échantillon ne contienne pas d’observations qui sont, relativement aux écarts
types de uti , proches de 0 ou 1, il est probablement raisonnable, en première
approximation, de supposer la normalité, et c’est précisément ce que la plupart
des auteurs ont fait. Ainsi, si Ut désigne un vecteur ligne dont l’élément type
est uti , nous pourrions spécifier la distribution des Ut par N (0, Σ), où Σ est
une matrice de covariance singulière de dimension (m + 1) × (m + 1). Alors
Ut∗ ∼ N (0, Σ ∗ ),
322 Les Moindres Carrés Généralisés
Supposons pour l’instant que Σ soit connue. Alors Σ peut être utilisée
pour transformer le modèle multivarié (9.40) en un modèle univarié. Sup-
posons que ψ soit une matrice de dimension m × m (habituellement triangu-
laire) telle que
ψψ> = Σ −1. (9.46)
Si nous postmultiplions chaque terme dans (9.43) par ψ, nous obtenons la
régression
Yt ψ = ξt (β)ψ + Ut ψ. (9.47)
Le vecteur d’erreur de dimension 1 × m Ut ψ a une matrice de covariance égale
à ¡ ¢
E ψ>Ut>Ut ψ = ψ>Σ ψ = Im . (9.48)
Comme nous l’avons écrit, (9.47) comporte seulement une observation, et
tous les termes sont des vecteurs de dimension 1 × m. Afin de d’exécuter cette
régression, nous devons d’une manière ou d’une autre convertir ces vecteurs
de dimension 1 × m en des vecteurs de dimension nm × 1 regroupant toutes
les observations. Il existe plus d’une manière de réaliser ceci.
Une approche consiste simplement de transposer chaque vecteur de di-
mension 1×m de (9.47) et d’empiler ensuite les vecteurs de dimension m ainsi
créés. Cependant, ceci n’est pas la manière la plus simple de procéder. Une
approche plus facile est premièrement de former les m ensembles de vecteurs
de dimension n, comme suit. Pour la variable dépendante, le t ième élément
324 Les Moindres Carrés Généralisés
du i ième vecteur serait Yt ψi , où ψi est la i ième colonne de ψ, et pour les fonc-
tions de régression l’élément correspondant serait ξt (β)ψi . Puis, les vecteurs
de dimension nm-- seraient obtenus en empilant les vecteurs de dimension n.
La régression non linéaire univariée ainsi définie peut être exprimée en termes
des matrices partitionnées comme
Y ψ1 ξ(β)ψ1 U ψ1
... = ..
. + ... . (9.49)
Y ψm ξ(β)ψm U ψm
Ainsi, nous voyons que l’exécution de la régression non linéaire (9.47) ou (9.49)
fournira exactement les mêmes estimations GNLS que la minimisation de la
somme généralisée des résidus au carré (9.45).
Normalement, la matrice de covariance contemporaine Σ ne sera pas
connue et donc ψ ne le sera pas également. Cependant, il est souvent aisé
d’obtenir une estimation convergente de Σ, disons Σ̌. Pourvu que chaque
équation individuelle, pour i = 1, . . . , m, soit identifiée (peut-être une hy-
pothèse peu réaliste dans le cas de certains modèles multivariés non linéaires
tels que les systèmes de demande), il est possible d’estimer chaque équation
par OLS ou NLS afin d’obtenir la matrice de dimension n × m des résidus Ǔ.
Alors, il est facile de voir que, sous des conditions assez générales
∂ξti (β)
(Zi )tj (β) ≡ (9.52)
∂βj
m
X ¡ ¢¡ ¢
yi − xi (βi ) > yi − xi (βi ) .
i=1
W >Xβ̃ = W >y.
Dans la pratique cette régression sera exécutée sous la forme empilée. Définis-
sons un ensemble de m matrices Xi (β), toutes de dimension n × k, en termes
des matrices Zi (β) introduites dans (9.52), comme suit:
m
X
Xi (β) = Zj (β)ψji .
j=1
Les estimations OLS de la GNR (9.58) seront définies par les conditions
du premier ordre
µX
m ¶ m
X ¡ ¢
Xi>(β)Xi (β) b̈ = Xi>(β) Y − ξ(β) ψi . (9.59)
i=1 i=1
Ainsi, nous voyons que la régression (9.58) possède toutes les propriétés que
nous sommes en droit d’attendre de la régression de Gauss-Newton. Si nous
l’évaluons en β = β̃, la régression n’aura aucun pouvoir explicatif, parce que
(9.60) est satisfaite avec b = 0 en vertu des conditions du premier ordre (9.53).
La matrice de covariance estimée de la régression (9.58) avec β = β̃ sera
µX
m X
m ¶−1
2 ij
s̃ σ Z̃i>Z̃j> , (9.61)
i=1 j=1
9.9 L’Estimation ML des Régressions Multivariées 329
de laquelle il est clair que (9.61) est en fait le véritable estimateur GNLS de
la matrice de covariance.
Nous pouvons également exécuter la GNR empilée (9.58) avec toutes les
quantités évaluées en un ensemble d’estimations ML β́, où les restrictions
porte seulement sur β et non sur les éléments de Σ. La somme des carrés
expliquée de cette régression sera
µX n ¶µX n ¶−1µX n ¶>
−1 > −1 > −1 >
(Yt − ξ́t )Σ Ξ́t Ξ́t Σ Ξ́t (Yt − ξ́t )Σ Ξ́t .
t=1 t=1 t=1
Ceci est à l’évidence une statistique LM. Elle peut être utilisée pour tester
toutes sortes de restrictions sur β, et parmi celles-ci l’hypothèse que les aléas
sont non corrélés en série. Pour en savoir plus sur les statistiques LM dans les
modèles de régression multivariée, consulter Engle (1982a) et Godfrey (1988).
Les résultats antérieurs auraient pu être anticipés en vertu du fait qu’un
modèle de régression multivariée peut toujours s’écrire comme un modèle de
régression univariée. Néanmoins, il est utile d’avoir des résultats spécifiques
pour les modèles multivariés. En particulier, la possibilité de calculer les
régressions de Gauss-Newton fournit une façon commode d’obtenir les estima-
tions par GNLS, pour vérifier que ces estimations sont précises, pour calculer
les estimations de la matrice de covariance, et pour calculer les statistiques de
test LM pour les restrictions sur β. Evidemment, tous ces résultats restent
également valables pour les GNLS faisables, où Σ n’est pas disponible mais
où l’estimation convergente Σ̌ l’est.
Xn
mn n 1 ¡ ¢ ¡ ¢
− −
log(2π) − log |Σ| − − Yt − ξt (β) Σ −1 Yt − ξt (β) >. (9.62)
2 2 2
t=1
Xn
∂` n 1 ¡ ¢¡ ¢
−1
= −Σ − − Yt − ξt (β) > Yt − ξt (β) . (9.63)
∂Σ 2 2
t=1
Le fait de poser que l’expression de droite dans (9.63) est égale à zéro donne
n
X
n 1 ¡ ¢¡ ¢
−− Σ = −− Yt − ξt (β) > Yt − ξt (β) ,
2 2
t=1
¯ Xn
¡ ¢>¡ ¢¯¯
c n ¯1
` (Y, β) = C − − log ¯−
n
Yt − ξt (β) Yt − ξt (β) ¯
2
t=1 (9.65)
n
=C −− log |Σ(β)|,
2
où Σ(β) a été définie implicitement, et C, une constante qui ne dépend pas
de β, est égale à
mn ¡ ¢
− log(2π) + 1 .
2
L’expression (9.65) est l’analogue multivarié de la fonction de logvraisem-
blance (8.82) pour des modèles de régression non linéaires univariée.
De (9.65), nous voyons que pour obtenir les estimations ML β̂ nous de-
vrons minimiser le logarithme du déterminant de la matrice de covariance
contemporaine, |Σ(β)|. Ceci peut être fait très facilement en utilisant la
règle de calcul des dérivées des logarithmes des déterminants donnée dans
l’Annexe A. Cette règle stipule que si A est une matrice de dimension m × m
non singulière, alors la dérivée de log |A| par rapport au (i, j) ième élément de
A est le (j, i) ième élément de A−1. Il vient que la dérivée de log |Σ(β)| par
rapport à βi est
m m
∂ log |Σ(β)| X X ∂ log |Σ(β)| ∂σjl (β)
=
∂βi j=1
∂σjl ∂βi
l=1
m
XX m
¡ ¢ ∂σjl (β)
= Σ −1 (β) lj
j=1 l=1
∂βi
µ ¶
−1 ∂Σ(β)
= Tr Σ (β) .
∂βi
Xn
∂Σ(β) 2 > ∂ξt (β)
= −−
n
Ut (β) ,
∂βi t=1
∂β i
332 Les Moindres Carrés Généralisés
n
X ¡ ¢
Ξt (β)Σ(β)−1 Yt − ξt (β) >. (9.66)
t=1
∂`t 1 1¡ ¢>¡ ¢
= − Σ − − Yt − ξ t (β) Y t − ξt (β) .
∂Σ −1 2 2
∂`t 1 1¡ ¢¡ ¢
ij
=− σij − − yti − ξti (β) > ytj − ξtj (β) . (9.67)
∂σ 2 2
Xn
1 ¡ ¢ ¡ ¢
Yt − ξ̂t ψ̂ ψ̂> Yt − ξ̂t >
mn − k t=1
n
(9.70)
1 X ¡ ¢ ¡ ¢ mn
= Yt − ξ̂t Σ̂ −1 Yt − ξ̂t > = .
mn − k t=1 mn − k
Ici, la dernière égalité provient d’un argument presque identique à celui utilisé
pour établir (9.65). Comme il est évident que (9.70) tend asymptotiquement
vers 1, l’expression (9.61), qui est dans ce cas
µXn ¶−1
mn −1 >
Ξ̂t Σ̂ Ξ̂t ,
mn − k t=1
dépense linéaire dont nous avons discuté plus tôt. Pour être concret, nous
supposerons que m = 2, ce qui signifie qu’il y a en tout trois marchandises.
Alors nous voyons que
Yt = [st1 st2 ];
. . . .
β = [α1 ... α2 ... γ1 ... γ2 ... γ3 ];
µ X3 ¶ µ X3 ¶
γ1 p1t α1 γ2 p2t α2
ξt (β) = + Et − pjt γj + Et − pjt γj ;
Et Et j=1
Et Et j=1
³ P3 ´
Et − j=1 jt j /Et
p γ 0
P3
0 Et − pjt γj
j=1
Ξt (β) = (1 − α1 )p1t /Et −α2 p1t /Et .
−α1 p2t /Et (1 − α2 )p2t /Et
−α1 p3t /Et −α2 p3t /Et
Etablir la GNR pour tester l’hypothèse que γ1 = γ2 = γ3 = 0, où les esti-
mations soumises à cette restriction ont été obtenues, peut être un exercice
utile.
Notre traitement des modèles multivariés a été relativement bref. Un
traitement plus complet, mais seulement pour les modèles SUR, peut être
trouvé chez Srivastava et Giles (1987), qui est également une source excellente
pour les références concernant la littérature économétrique et statistique sur
ce sujet.
supposer que
ut ∼ IID(0, Σ).
Ainsi, nous supposons que uti est en général corrélé avec utj pour i 6= j et
que ut n’est pas corrélé avec us pour t 6= s. Avec cette spécification d’erreur,
le modèle univarié (9.71) devient un cas particulier du modèle de régression
non linéaire multivariée (9.40) et peut être estimé soit par GLS faisables (Sec-
tion 9.8) soit par maximum de vraisemblance (Section 9.9). Naturellement, il
existera de nombreuses restrictions croisées, car les paramètres dans toutes les
équations sont supposés être les mêmes, mais l’une ou l’autre de ces techniques
devrait être capable de les traiter sans difficulté.
Le traitement d’un modèle tel que (9.71) comme un modèle multi-
varié est attrayant parce que l’on peut employer des logiciels standards pour
l’estimation de tels modèles. De plus, il devient naturel de tester l’hypothèse
(pas toujours plausible) que la même fonction de régression xti (β) s’applique
à toutes les unités de la dimension tranversale. Une exigence minimale est
d’être toujours capable de vérifier que chaque unité peut avoir une ordonnée
à l’origine différente. Ceci peut être fait de différentes manières. Deux pos-
sibilités existent, la première consistant à estimer le modèle non contraint et
ensuite à calculer un test LR ou un test équivalent et la seconde consiste à cal-
culer un test LM basé sur une GNR telle que (9.58). Par ailleurs, on voudrait
sûrement pouvoir tester la corrélation des aléas à travers les périodes de temps.
Ceci peut être réalisé en utilisant les tests standards pour la corrélation en
série dans les modèles multivariés, qui peuvent également se baser sur la GNR
(9.58). Ce thème sera abordé très brièvement dans la Section 10.11; consul-
ter aussi Engle (1984) et Godfrey (1988). On peut également vouloir tester
l’hétéroscédasticité à travers les périodes de temps, ce qui peut être réalisé
par des extensions directes des techniques dont nous discuterons dans les
Chapitres 11 et 16.
Bien que l’approche du traitement d’un modèle univarié estimé à l’aide
de données à deux dimensions en un modèle multivarié possède de nombreux
attraits, elle peut ne pas être pertinente si n et T sont tous deux assez im-
portants. Par exemple, supposons que n = 30 et T = 40. Alors un modèle
multivarié qui traite chaque unité de la dimension tranversale séparément
aura 30 équations, et la matrice Σ comportera 12 (30 × 31) = 465 éléments
distincts, qui devront être estimés individuellement avec seulement 40 obser-
vations. L’estimation d’un modèle à 30 équations est tout à fait réalisable.
Cependant, avec seulement 40 observations, il sera difficile d’obtenir de bonnes
estimations de Σ, et nous pourrions donc nous attendre à ce que les propriétés
avec des échantillons finis des estimations GLS et ML soient pauvres.
Une seconde approche, très populaire, consiste à utiliser ce qui est appelé
un modèle à erreurs composées. L’idée est de modéliser uti comme la com-
posante de trois chocs individuels, chacun étant supposé être indépendant des
autres:
uti = et + vi + εti . (9.72)
9.10 Modélisation des Données à Deux Dimensions 337
où la matrice MD est simplement la matrice qui calcule des écarts par rapport
aux moyennes X̄.i pour i = 1, . . . , n. Ainsi, un élément type de MD X est
(MD X)ti = Xti − X̄.i .
Cette manipulation permet de calculer facilement β́ même lorsque n prend des
valeurs telles qu’il serait impossible d’exécuter la régression (9.74). Il suffit
simplement de calculer les moyennes des groupes y.i et X.i pour tout i et de
régresser yti − ȳ.i sur Xti − X̄.i pour tout t et i. La matrice de covariance
estimée devrait alors être ajustée pour tenir compte du fait que le nombre de
degrés de liberté utilisé dans l’estimation est en fait n + k plutôt que k.
Parce que l’estimateur des effets fixes (9.75) dépend seulement des écarts
de la régressande et des régresseurs par rapport à leurs moyennes de groupe
respectives, il est parfois appelé l’estimateur intra-groupes. Comme le nom
l’implique, il n’exploite pas le fait que les moyennes du groupe soient en général
différentes pour des groupes différents. Cette propriété de l’estimateur peut
être un avantage ou un inconvénient, selon les circonstances. Comme nous
l’avons mentionné auparavant, il se peut que les effets transversaux vi soient
corrélés avec les régresseurs Xti et par conséquent aussi avec les moyennes de
groupe des régresseurs. Dans cette éventualité, l’estimateur OLS (sans effet
fixe) basé sur l’échantillon complet serait non convergent, mais l’estimateur
intra-groupes restera convergent. Cependant, si, par opposition, les effets
fixes sont indépendants des régresseurs, l’estimateur intra-groupes n’est pas
complètement efficace. Dans le cas extrême où une variable indépendante ne
varie à l’intérieur des groupes, mais seulement entre les groupes, le coefficient
correspondant à cette variable ne sera même pas identifiable par l’estimateur
intra-groupes.
Un autre estimateur non efficace qui exploite seulement la variation sur
les moyennes des groupes est appelé l’estimateur inter-groupes. Il peut être
écrit comme ¡ ¢−1
β̀ = X>PD X X>PD y. (9.76)
Comme PD Xti = X̄.i , cet estimateur n’implique véritablement que n ob-
servations distinctes plutôt que nT . Il sera clairement non convergent si les
effets transversaux, les vi , sont corrélés avec les moyennes par groupe des
régresseurs, les X̄.i . L’estimateur OLS peut être écrit comme une moyenne
pondérée (par des matrices) de l’estimateur intra-groupes et de l’estimateur
inter-groupes:
¡ ¢−1
β̂ = X>X X>y
¡ ¢−1¡ > ¢
= X>X X MD y + X>PD y
¡ ¢−1 ¡ ¢−1
= X>X X>MD Xβ́ + X>X X>PD Xβ̀.
Ainsi, nous voyons immédiatement que l’estimation par OLS sera non conver-
gente toutes les fois que l’estimateur inter-groupes (9.76) est non convergent.
9.10 Modélisation des Données à Deux Dimensions 339
Même quand elle est convergente, l’estimation par OLS sera habituelle-
ment non efficace. Si les effets transversaux sont non corrélés avec les
moyennes par groupe des régresseurs, alors nous voulons utiliser un modèle à
effets aléatoires dans lequel les vi ne sont pas traités comme fixes mais comme
des composantes des aléas. Les OLS pondèrent toutes les observations de
manière identique, mais ceci n’est pas optimal pour le modèle à erreurs com-
posées (9.73). La variance de uti est, en utilisant une notation évidente,
σv2 + σε2 . La covariance de uti avec utj est, par hypothèse, nulle pour i 6= j.
Mais la covariance de uti avec usi pour s 6= t est σv2 . Ainsi, si les données sont
ordonnées en premier selon i et ensuite selon t, la matrice de covariance de
uti peut être écrite comme
Σ 0 ··· 0
0 Σ ··· 0
. .. .. ,
.. . .
0 0 ··· Σ
Cette matrice de covariance illustre le fait que pour un i fixé, les erreurs sont
équicorrélées; à comparer à (9.24).
Afin de calculer les estimations GLS, nous avons besoin de déterminer
−1/2
Σ . Il est facile de vérifier que
1
Σ −1/2 = (I − αPι ),
σε
où Pι = T −1 ιι> et α, qui doit être compris entre 0 et 1, est défini par
σε
α=1− . (9.77)
(T σv2 + σε2 )1/2
Ceci implique que l’élément type de Σ −1/2 y.i est σε−1 (yti −αȳ.i ), et un élément
type de Σ −1/2 X.i est σε−1 (Xti − αX̄.i ). Les estimations GLS peuvent alors
être obtenues en exécutant la régression OLS
9.11 Conclusion
Les GLS et GNLS sont des techniques d’estimation très importantes qui
sont largement usitées en économétrie appliquée. Nous en rencontrerons
des variantes dans la suite de cet ouvrage, plus particulièrement dans le
Chapitre 10, où nous traitons de la corrélation en série, et dans le Chapitre 18,
où nous traitons des techniques de systèmes complets pour estimer les modèles
d’équations simultanées. Néanmoins, il est important de se souvenir que
les GLS et les GNLS ne sont que des variantes masquées des moindres
carrés. N’importe quelle erreur que l’on peut commettre en spécifiant un
modèle estimé par OLS (telle que la spécification incorrecte de la fonction
de régression ou une défaillance de la gestion de la corrélation en série ou de
l’hétéroscédasticité) peut également être commise en spécifiant des modèles
estimés par GLS, par GNLS, et par les méthodes variées du maximum de
vraisemblance qui s’y rattachent. Il est alors tout aussi important de tester la
mauvaise spécification de tels modèles que de tester le modèle de régression
le plus simple. Les régressions de Gauss-Newton (9.14) et (9.58) fournissent
souvent des manières commodes de le faire. Cependant, notre expérience nous
révèle que le nombre de tests de spécification auquel un modèle est soumis est
inversement relié à la difficulté d’estimation du modèle. Puisqu’il nous faut
fournir habituellement un effort plus important pour estimer des modèles par
GLS ou par GNLS et en particulier des modèles multivariés que pour estimer
des modèles de régression univariée par OLS, les modèles estimés par GLS ou
par GNLS sont souvent soumis à des tests de mauvaise spécification moins
nombreux que ce que l’on imagine.
Termes et Concepts
données de panel modèle de régression non linéaire
données à deux dimensions multivariée
équivalence asymptotique des GNLS, moindres carrés généralisés (GLS)
GNLS faisables, et ML moindres carrés généralisés non
erreurs équicorrélées linéaires (GNLS)
estimateur GLS (Aitken) moindres carrés pondérés
estimateur inter-groupes régressions sans lien apparent
estimateur intra-groupes (système SUR)
fonction d’utilité de Stone-Geary restrictions croisées
fonction scédastique somme généralisée des résidus au
GLS faisables et GNLS carré
matrice de covariance contemporaine système d’équation singulier
matrice de projection oblique système de dépense linéaire
modèles à effets aléatoires systèmes de demande
modèles à effets fixes Théorème de Kruskal
modèles à erreurs composées