Professional Documents
Culture Documents
2.1 Introduction
Dans le Chapitre 1, nous avons discuté en détail de la géométrie des moindres
carrés ordinaires et de leurs propriétés en tant que système de calcul. Ce
matériau est important car de nombreux modèles statistiques communément
usités sont souvent estimés à l’aide de variantes des moindres carrés. Parmi
ceux-ci, nous trouvons le type de modèle le plus communément rencontré
en économétrie, c’est-à-dire la classe des modèles de régression, dont nous
entamons l’étude dès à présent. Au lieu de nous restreindre volontairement
au domaine bien connu des modèles de régression linéaire, qu’il est possible
d’estimer directement par OLS, nous considérons la famille plus large des
modèles de régression non linéaire qui peuvent être estimés par moindres
carrés non linéaires, ou NLS. Parfois, nous traiterons de manière spécifique
des modèles de régression linéaire si les résultats qui sont vérifiés pour de tels
modèles ne se généralisent pas au cas non linéaire.
Au cours de ce chapitre et des quelques chapitres suivants consacrés
aux modèles de régression, nous porterons notre attention principalement sur
les modèles univariés, c’est-à-dire les modèles dans lesquels n’existe qu’une
seule variable dépendante. Ceux-ci sont beaucoup plus simples à traiter que
les modèles multivariés dans lesquels on trouve plusieurs variables dépend-
antes jointes. Les modèles univariés sont de loin plus fréquemment rencontrés
en pratique que les modèles multivariés, et une bonne compréhension des
premiers est essentielle pour une bonne compréhension des seconds. Nous
démontrerons au Chapitre 9 qu’il est simple de rendre compatibles les résultats
des modèles univariés aux modèles multivariés.
Nous commençons par écrire le modèle de régression linéaire univariée
sous sa forme générique:
45
46 Les Moindres Carrés non Linéaires
1
Les lecteurs devraient être avertis que la notation que nous avons utilisée ici
est quelque peu inhabituelle. De nombreux auteurs utilisent ft (β) en lieu et
place de notre xt (β). Nous préférons cette notation pour deux raisons. La
première est qu’elle nous laisse la liberté d’utiliser la notation f (·) pour désigner
des objets autres que les fonctions de régression sans créer d’ambiguı̈té. La
seconde est qu’avec notre notation, il devient naturel de désigner ∂xt (β)/∂βi
par Xti (β) (voir la Section 2.2). La matrice dont l’élément type est Xti (β)
est de fait étroitement liée à la matrice habituelle X qui est utilisée dans la
plupart des traitements du modèle de régression linéaire, et nous espérons que
cette ressemblance d’écriture sera un moyen efficace de se le rappeler.
2.2 La Géométrie des Moindres Carrés non Linéaires 47
variance σ 2. A ce propos, les lecteurs devraient sans doute être avertis que
nous dérogeons à l’usage standard. Ainsi que nous le verrons dans la Sec-
tion 2.6, les propriétés de ces aléas sont cruciales car elles déterminent toutes
les propriétés statistiques du modèle, et par là, permettent de savoir si un
modèle de régression peut raisonnablement être utilisé ou pas. Quoi qu’il en
soit, puisque les estimations NLS (comme les estimations OLS) peuvent être
calculées sans se préoccuper de la façon dont les données ont été générées,
nous traiterons le calcul des estimations NLS avant d’aborder la discussion de
leurs propriétés statistiques.
Le reste du chapitre traite un certain nombre d’aspects des moindres
carrés non linéaires et des modèles de régression non linéaire. Dans la
Section 2.2, nous discutons des moindres carrés non linéaires en tant que
procédure de calcul qui constitue une extension des moindres carrés ordinaires.
Nous démontrons que la minimisation de la somme des résidus au carré pour
un modèle de régression non linéaire tel que (2.01) est très semblable, eu
égard à la géométrie impliquée, à l’exécution d’une régression linéaire. Un
modèle de régression non linéaire doit être identifié si l’on désire obtenir des
estimations uniques des paramètres. Nous discutons par conséquent du con-
cept fondamental d’identification dans la Section 2.3. Dans la seconde moitié
du présent chapitre, nous entamerons la discussion des aspects statistiques (et
économiques) des modèles de régression non linéaire. Dans la Section 2.4 nous
verrons comment les équations de régression comme (2.01) s’interprètent, et
la distinction entre les modèles et les processus générateurs de données. Puis
des exemples de fonctions de régression linéaires et non linéaires seront ex-
aminés à la Section 2.5, alors que les aléas seront examinés à la Section 2.6.
Procéder à des inférences à partir de modèles estimés par NLS sera le thème
du Chapitre 3.
∂xt (β)
Xti (β) ≡ .
∂βi
Le fait que chaque vecteur de (2.04) possède k éléments implique l’existence
de k équations normales déterminant les k composantes de β.
Nous retrouverons à plusieurs reprises la matrice X(β) lors de notre
discussion sur les moindres carrés non linéaires. Chaque élément de cette
matrice correspond à la dérivée partielle d’un élément de x(β) par rapport
à un élément de β. Comme la notation que nous avons adoptée le suggère,
la matrice X(β) correspond exactement à la matrice X dans le cas de la
régression linéaire. Ainsi, lorsque la fonction de régression x(β) s’apparente
à la fonction linéaire Xβ, nous voyons immédiatement que X(β) = X.
Les conditions du premier ordre (2.04) peuvent légèrement se simplifier en
regroupant les termes, en éliminant le facteur −2, et en adoptant les définitions
x̂ ≡ x(β̂) et X̂ ≡ X(β̂).2 Le résultat est
2
Il est souvent pratique d’indiquer de cette façon la dépendance d’un vecteur
ou d’une matrice par rapport à un vecteur de paramètres qui a été estimé.
Ainsi, si α0 était un ensemble de paramètres exact, et α̂ et α̃ deux ensem-
bles d’estimations, alors Z0 désignerait Z(α0 ), Ẑ désignerait Z(α̂), et Z̃
désignerait Z(α̃).
2.2 La Géométrie des Moindres Carrés non Linéaires 49
.........
. ..
..
...
..
SSR(β) ..
.. .
.
...
.. ...
...
.. . . ..
... .
...
.. ... ...
... . . . ..
.. ... ..
... ... ......
...........................................
..
... ... ... ... ... ...
.. ... ........
...
... ........ ........... ..
.............. ... ................................................................
.. ..
... ... . ... ..
..
... ... .... . .. .. ..
.. ... . .. . .
. .
. ..
... . ... .
. . ..
.. .
... . . .
.
.
.
. ..
... . . .. .. .. ..
..
...
... .. .. .. ..
.. ... . .. .. .. ..
... .
... . . .
. .
. ..
..
... . ... .
. .
. ..
.. ... .. .. .. ..
... ...
.... ..
.
..
.
..
..
..
...
... .. .
.. .
.. ..
.. .
... . .. .
. .
. ..
...
.. ... .. . .. .. ..
... .... .... .
. ..
..
..
..
..
.. ..
... ............ .. .. ..
.. .. .
. .
. ..
... .. .. ..
.. ...
..........................................................................................................................................................................................................................................................................................................................................................................................................................................................
β̂ β 00 β0 β∗ β
est aisé de trouver avec certitude un minimum global, dès lors qu’un graphe
similaire à la Figure 2.1 permet de le repérer. Cependant, dans le cas où
le nombre de dimensions est plus élevé, les méthodes graphiques ne sont en
général d’aucune utilité, et même lorsque l’on démarre un algorithme avec un
certain nombre de points de départ, il n’existe aucune garantie de trouver le
minimum global si l’on obtient plusieurs minima locaux. Des méthodes de
calcul des estimations NLS seront discutées plus tard, au Chapitre 6.
Il est instructif d’étudier l’analogue des Figures 1.1 et 1.3 pour le cas de
la régression non linéaire. Souvenons-nous que y peut être considéré comme
un point dans l’espace des observations E n , et que la fonction de régression
linéaire Xβ définit alors un sous-espace à k dimensions de cet espace. Dans
la Figure 1.3, nous avons illustré, pour le cas le plus simple où n = 2 et k = 1,
la façon dont les moindres carrés ordinaires projettent y orthogonalement sur
S(X), le sous-espace engendré par les colonnes de X. Lorsque la fonction de
régression x(β) est non linéaire, mais partout différentiable, elle définit une
variété à k dimensions,3 ou une surface lisse, qui ne constitue plus un sous-
espace linéaire en général. Chaque point de cette variété, que nous noterons
X, correspond (par hypothèse) à une valeur différente de β, et donc on pourra
se référer à un point particulier qui correspond à β 1, en le notant X(β 1 ). Il est
essentiel pour que X soit lisse partout, que chaque composante du vecteur §(β)
soit partout dérivable. Pour n’importe quel point choisi arbitrairement, disons
β̄, la matrice X̄ ≡ X(β̄) définit un espace tangent S∗ (X̄), qui correspond tout
simplement au sous-espace linéaire à k dimensions S(X̄), translaté de façon à
avoir l’origine en X(β̄). Cela implique que S∗ (X̄) est tangent à X en ce point.
La Figure 2.2 illustre ces considérations dans le cas k = 1. On suppose
que x(β) se situe, au moins localement, dans un sous-espace de Rn à deux
dimensions, ce qui nous permet de le dessiner sur la feuille. La figure repré-
sente la variété incurvée X, les espaces tangents S∗ (X̄ 1 ) et S∗ (X̄ 2 ) en deux
points arbitrairement choisis X(β̄ 1 ) et X(β̄ 2 ), et les sous-espaces linéaires cor-
respondants S(X̄ 1 ) et S(X̄ 2 ). Ces derniers, comme les flèches sur la figure
l’indiquent, sont parallèles à S∗ (X̄ 1 ) et S∗ (X̄ 2 ) respectivement, mais ne sont
pas mutuellement parallèles. Si X était rectiligne, comme cela serait le cas
si la fonction de régression était linéaire, alors bien évidemment il n’y aurait
pas de distinction possible entre X, S(X̄ 1 ), S(X̄ 2 ), S∗ (X̄ 1 ), et S∗ (X̄ 2 ). C’est
justement la présence de telles distinctions qui rend les modèles non linéaires
plus difficiles à traiter que les modèles linéaires. Notons également que bien
que la variété définie par une fonction de régression linéaire comprenne tou-
jours l’origine, ce n’est en général pas le cas pour une fonction non linéaire,
comme on peut le constater sur la figure.
3
Pour des définitions plus formelles d’une variété, ainsi que pour une discus-
sion minutieuse des propriétés des variétés, consulter entre autres, Spivak
(1965) pour une approche rudimentaire et Lang (1972) pour une approche
plus avancée.
2.2 La Géométrie des Moindres Carrés non Linéaires 51
X ...
.
..
.. ......
... ..............
.. ......
... ......... ∗ 2
S(X̄ 2
) . .. ......... S (X̄ )
. . ...
....
.......... . ...........
......
.... ...........
..
. ..
..
.....
. 1 .
.... . ........... S(X̄ )
O .
.....................................
.
. 2 .
.
......
.
.
...... X(β̄ )........
................. ......
................. .. .....
.
.
...
.
.
S ∗
( X̄ 1
) .. .............
. ..
........ ....
.
.. ... ............. .
.... ..................
.... ..
.
.
. .
...
.......................................................................... .......
.
... . .
..
..........................
.. .
......
.. 1 ...
.... X(β̄ )
.
..
... ....
.. .... ∗
......... S (X̂)
......
.........
...
y .............................................................y − x̂ .......
...............
. ......... ....... ... .
.
................ ........ ... ........
............... ................ . ................................ X̂
...... .
............... ..
. .
...
...
...
...
...
...
.. . . . . ... . . . . . ...... ..
. .
.. .
.
O ...........................
......................................... .....
................
. ............
....
....
..................................................... x̂
.. .......
.... .
. . . .........
... ..
. . .. . . . ..... ......
............................................................. .....
.................... ...
. ...... ...
...
.
Figure 2.3 Une régressande y projetée sur une variété non linéaire
La Figure 2.3 montre la même variété X que la Figure 2.2, mais S(X̄ 1 ),
S(X̄ ), S∗ (X̄ 1 ), et S∗ (X̄ 2 ) n’y figurent plus. Apparaissent par contre une
2
. .
.... ...
... ......
... ...
........
X00................................
......... ...............
... ........................ ...... .......
...
.... ........
..... ....
.......
.......
.......
.
.... .... .. .......
. .......
...... . .......
.......
...... .......
.......
.
....................... .......
.......
0 .... ................................................................................................................................................. ..
X ...... ........................................ y
....... .. . ... . . . . ............
. ........ ....
.
... .. ...........
..... ... ........................
. .. . ....
. . ........ ..... ....
.
........... ......................
... .... . .
. ........... .. .. . ........ ... .......
. . . ................... .........
....
... ....
........
.... ........... ..........
.............. .. .........
...........
......................
...
..
. X̂ ..............
...
....
... ......... ..
...........
.
. ...
. ..............
............
...
...
. ...... ... ......
O ..
. .
...
...
... ...... . . .. ...
.
......
...
. ........... .......
.............
à leur sujet (consulter les Chapitres 7 et 18), mais il s’agit un concept qui
s’applique à tout modèle économétrique. Pour l’essentiel, un modèle de moin-
dres carrés non linéaires est identifié par un ensemble d’informations donné
si, pour cet ensemble de données, il est possible de trouver un β̂ unique qui
minimise SSR(β). Si le modèle n’est pas identifié par les données utilisées,
il existera plus d’un β̂, et peut-être un nombre infini d’entre eux. Certains
modèles peuvent n’être identifiés par aucun ensemble concevable de données,
alors que d’autres peuvent être identifiés par quelques ensembles de données,
mais pas par tous.
On distingue deux sortes d’identifications, l’identification locale et l’iden-
tification globale. Les estimations β̂ des moindres carrés seront identifiées
localement si pour toute modification légère de β̂, la valeur de SSR(β) s’élève.
On peut établir cette définition de façon formelle comme la nécessité d’avoir
une fonction SSR(β) strictement convexe en β̂, de sorte que
∂ 2SSR(β)
Hij (β) ≡ ,
∂βi ∂βj
est définie positive en β̂. La stricte convexité implique que SSR(β) soit in-
curvée dans toutes les directions; aucun plat n’est autorisé quelle que soit la
direction. Si SSR(β) était plate dans une direction au voisinage de β̂, il serait
possible de s’éloigner de β̂ dans cette direction sans jamais modifier la valeur
de la somme des résidus au carré (rappelons-nous que les dérivées premières de
SSR(β) sont nulles en β̂, de sorte que SSR(β) doit être égale à SSR(β̂) en tout
54 Les Moindres Carrés non Linéaires
.
β2 ........... .............
.... .............
... .... ....................................
... ... ... ........................ .......
... ... ... ... ............... .......
... ... ... ... ......... ...... ...... ......
.... ... ... .... .... ...... ...... ...... ......
... ... ... .... ..... ..... ..... ..... .........................................
... ... ... ..... ..... ...... ...... ...... ........ Courbes de niveau de SSR(β)
... ... .... .... .... . ..... ..... ..... ......
. . ..
... B ........................................................................................................................................... .........
... .... ..... ..... ..... ..... ..... ..... ..... .....
... .... .... .... ..... ..... ..... ..... ..... ....
... .... .... .... .... .... .... .... .... ....
.... .... .... .... .... .... .... .... .....
.... .... .... ..... .... ..... ..... ..... ..... ....
.... .... .... ..... .... .... .... .... ....
... .... .... .... .... .... .... .... .... ....
..... ..... .... .... .... .... .... .... ...
...
... ..... ..... ..... ..... ..... ..... ..... .... .....
... ..... ..... ...... ...... ..... ..... ..... ..... .....
..... ..... ..... ..... ..... ...... .... .... ....
... ..... ..... ..... ..... ................................................................................................... A
... ..... ..... ..... ..... ..... .... .... ...
.... ..... ..... ..... ..... .... .... ... ...
..... ...... ..... ..... .... .... ... ...
... ..... ..... ...... ...... .... ... .. ...
..... ..... ..... ......... .. ... ..
... ..... ..... ..... ... .. ...
...
......................................................................................................................................................................................................................................................................................
....... .................... ..
.......... ...... β1
............................
Figure 2.6 Minimum non identifié d’une fonction somme des carrés
Cette définition de l’identification globale reste, à vrai dire, une simple refor-
mulation de la condition d’obtenir un β̂ unique qui minimise SSR(β̂). Remar-
quons que même si un modèle est identifié localement, il est toujours possible
qu’il y ait deux (ou davantage) estimations distinctes, soit β̂ 1 et β̂ 2, avec
SSR(β̂ 1 ) = SSR(β̂ 2 ). A titre d’exemple, examinons le modèle
yt = βγ + γ 2 zt + ut . (2.06)
Il apparaı̂t clairement que si (β̂, γ̂) minimise la SSR pour ce modèle, (−β̂, −γ̂)
en fera autant. Donc le modèle est globalement non identifié par quelque
ensemble de données que ce soit, bien que les conditions du premier ordre
et du second ordre soient satisfaites aux deux minima. Cet exemple peut
paraı̂tre simpliste à première vue, mais le même phénomène apparaı̂t souvent
dans de nombreux modèles utilisés par les économistes. Un exemple se trouve
être celui des modèles de séries temporelles avec une composante d’erreur à
moyenne mobile; consulter le Chapitre 10.
2.3 Identification dans les Modèles non Linéaires 55
...
........ SSR(β) ..
...
... ... ....
... .... .
.
... ...
... .... ...
.
... .... ...
... .... ...
.
... ....... .
.
... ........... ... .................. ..
... ...
......... ... ...... ....
.
.... .... ......
...
... ..... ..... ...
... .
....... .... .....
..
. .....
.. .... ....
... ... ..... ...
...
... .
..
. ..... .... .....
.. .....
. .... ......
.... ..... ...... ...
.... ....... . ... .....
.... .... ... .... .... ... .... ...................................... .... ... ... .... ... ... .... .... ... .... .... .... .... ... ... ....... ... .... .... ... .... .... ... .... .... ... .... .... ... .... ....................................... ... .... .... ... .... .... ..
..
..
.... ..
..
.. .... ..
..
..
.
.
..
..
..
.. .
.. ..
..
.
.
.
..............................................................................................................................................................................................................................................
.
.
1 .
. 2
β̂ O. β̂ β
Figure 2.7 Cas où β est localement identifié mais non globalement
La Figure 2.7 illustre ce que peut donner la fonction somme des carrés
pour un modèle qui est localement mais non globalement identifié dans le sens
donné précédemment. La fonction somme-des-carrés ne possède qu’un seul
argument, β, et elle est symétrique par rapport à l’origine de β. Le minimum
de SSR est donc atteint en β 1 et en β 2. Chacune des estimations potentielles
est identifiée localement, mais le modèle n’est pas identifié globalement.
Il est aussi envisageable d’avoir un modèle globalement identifié, sans
pour autant que la condition d’identification locale, impliquant que la matrice
Hessienne est définie positive, soit satisfaite, pour certaines valeurs particu-
lières de β̂. Ce genre de lacune d’identification ne pose pas de difficulté si
la valeur réalisée β̂ se situe assez loin de ces valeurs particulières, et nous
parvenons à la calculer, mais il rend difficile l’estimation du modèle. A titre
d’exemple, considérons la fonction de régression
où Ω1t et Ω2t représentent les deux ensembles d’informations. Les fonctions
x1t (β1 ) et x2t (β1 ) peuvent différer fortement, et on pourrait vouloir les estimer
ensemble à des fins différentes. Il existe plusieurs circonstances pour lesquelles
on ne désire pas faire dépendre yt de toutes les informations disponibles.
Par exemple, si l’on spécifie une fonction de régression dans le but ultime
de réaliser des prévisions, il n’y a pas de raison de faire dépendre yt des
informations qui ne sont pas disponibles pour la période pour laquelle on
effectue la prévision. Même lorsque l’on désire intégrer toutes les informations
disponibles, le fait qu’une variable particulière appartienne à Ωt n’implique pas
qu’elle apparaı̂tra dans xt (β), dès lors que sa valeur ne nous renseigne pas sur
l’espérance conditionnelle de yt , et l’introduire peut amoindrir notre capacité
à estimer l’impact des autres variables sur cette espérance conditionnelle.
Pour toute variable dépendante yt donnée et tout ensemble d’informations
Ωt , il est toujours possible d’interpréter la différence yt − E(yt | Ωt ) comme
l’aléa associé à l’observation t. Mais pour qu’un modèle de régression soit
opérationnel, ces différences doivent généralement avoir la propriété d’être
i.i.d.. En fait, il est envisageable, lorsque la taille de l’échantillon est im-
portante, de traiter des cas où les aléas sont indépendants, identiquement
distribués uniquement à l’égard des espérances, mais pas forcément à l’égard
des variances. Nous discuterons des techniques de traitement de tels cas dans
les Chapitres 16 et 17, et dans ce dernier nous abandonnerons l’hypothèse
d’indépendance. Comme nous le découvrirons au Chapitre 3 cependant,
les techniques conventionnelles pour pratiquer des inférences à partir des
58 Les Moindres Carrés non Linéaires
où la notation “ut ∼ NID(0, σ∗2 )” est un moyen simple de dire que les ut sont
normalement et indépendamment distribués, ou n.i.d., avec une espérance
nulle et une variance égale à σ∗2 . Ceci est vrai pour tout sous-ensemble com-
posé de xit car toute combinaison linéaire de variables suivant la loi normale
multivariée, est elle-même normalement distribuée. Ainsi l’aléa ut défini de
manière implicite dans (2.08) sera normalement et indépendamment distribué
et sans considération des xit que l’on introduit dans x∗t , et l’on peut toujours
choisir β0∗ convenablement de façon à rendre son espérance nulle. Ceci est vrai
même si x∗t est un vecteur nul, puisque (2.08) ne fait que traduire l’idée selon
laquelle yt est égale à son espérance, plus une variable aléatoire ut qui est n.i.d.
avec une espérance nulle, et yt est elle-même normalement distribuée. Pour
plus de détails sur ces considérations et sur d’autres cas particuliers, et pour
un traitement plus approfondi sur l’interprétation des modèles de régression,
consulter Spanos (1986).
Un modèle tel que (2.01) devrait être distingué d’un processus générateur
de données, ou DGP, tel que
que l’autre fait référence à un vecteur de coefficients bien défini β0 , qui serait
connu si l’on connaissait le DGP. Les aléas ut du modèle sont simplement
définis comme indépendants et identiquement distribués, avec une espérance
nulle et une variance inconnue égale à σ 2, alors que les aléas du DGP sont
normalement et indépendamment distribués avec une variance connue σ02 , qui
nous permet de générer une série de ut si nous le désirons. Bien évidemment,
nous aurions également pu préciser un DGP avec des erreurs qui suivent une
distribution autre que la normale; ce qui importe réellement, c’est que la
distribution soit spécifiée complètement. D’autre part, nous pouvons être
intéressés par ce qui se passe avec la famille entière des DGP, et dans de tels
cas une spécification totale n’est pas appropriée.
Un modèle peut ainsi être imaginé comme un ensemble de DGP. Lors
du processus d’estimation du modèle, ce que nous essayons d’obtenir, c’est
une caractérisation estimée du DGP qui a réellement généré les données; dans
le cas du modèle de régression non linéaire (2.01) la caractérisation désirée
consiste en un ensemble de paramètres estimés, c’est-à-dire, des estimations
des paramètres inconnus β de la fonction de régression, ainsi qu’une estimation
de la variance des erreurs, σ 2. Mais puisque dans une régression non linéaire
seules l’espérance et la variance des erreurs sont précisées, la caractérisation
du DGP obtenue par l’estimation du modèle est partielle ou incomplète. Plus
tard, dans le Chapitre 8, nous discuterons d’une autre méthode d’estimation,
celle du maximum de vraisemblance, qui offre une caractérisation complète
du DGP après estimation. Ainsi, on peut dire que cette méthode produit un
unique DGP estimé, alors que toute méthode adoptée pour estimer un modèle
de régression non linéaire produit un ensemble de DGP, qui satisfont tous la
caractérisation estimée.
Cet ensemble de DGP, ou l’unique DGP estimé lorsque ce sera le cas, ap-
partient évidemment à l’ensemble des DGP défini par le modèle. L’estimation
statistique peut donc être considérée comme une procédure avec laquelle on
sélectionne un sous-ensemble de DGP à partir d’un ensemble donné de DGP.
Cette sélection est bien sûr une procédure aléatoire, puisqu’un seul DGP
appartenant au modèle peut générer des ensembles différents d’observations
aléatoires qui entraı̂nent des caractérisations aléatoires estimées différentes. Il
est ensuite possible de disserter sur la probabilité, pour un DGP donné, que la
caractérisation soit proche, dans un certain sens, du DGP lui-même. On peut
alors classer ces différentes procédures d’estimation selon ces probabilités, et
nous préférerons généralement des procédures d’estimation efficaces, c’est-à-
dire celles pour lesquelles la probabilité que le sous-ensemble sélectionné soit
proche du DGP est la plus forte, toujours sous l’hypothèse que le DGP ap-
partient réellement au modèle.
Il nous est impossible de dire quoi que ce soit d’intéressant à propos des
propriétés statistiques des estimateurs et des statistiques de test sans préciser
à la fois le modèle et le processus qui a généré les données. En pratique bien
sûr, nous ne connaissons presque jamais le DGP, sauf si nous procédons à
60 Les Moindres Carrés non Linéaires
xt (β) = β1 ιt = β1 , (2.10)
où ιt est l’élément t d’un vecteur dont les n composantes sont égales à l’unité.
Dans ce cas, le modèle (2.01) indique que l’espérance conditionnelle de yt est
tout simplement une constante. Bien que ce soit un exemple simpliste de
fonction de régression, puisque xt (β) est identique quel que soit t, il s’agit
néanmoins d’un bon exemple pour débuter, et que l’on doit garder à l’esprit.
Toutes les fonctions de régression sont tout simplement des versions de (2.10)
plus élaborées. Et toute fonction de régression qui ne s’ajuste pas aux données
au moins aussi bien que (2.10) devrait être considérée comme une bien mau-
vaise fonction de régression.
La fonction qui est ensuite la plus simple est la fonction de régression
linéaire simple
xt (β) = β1 + β2 zt , (2.11)
2.5 Fonctions de Régression Linéaires et Non Linéaires 61
xt (β) = Zt β,
2
xt (β) = β1 zt1 + β2 zt2 + β3 zt2 + β4 zt1 zt2 ,
qui est linéaire en ses paramètres mais qui fait appel à des variables indépen-
dantes d’une manière non linéaire. Les modèles qui impliquent cette famille de
fonctions de régression peuvent être manipulés comme n’importe quel autre
modèle de régression linéaire, tout simplement en définissant de nouveaux
régresseurs de façon appropriée. Ici, par exemple, on pourrait définir zt3
2
comme zt2 et zt4 comme zt1 zt2 . En faisant usage de ce genre de fonction on
évite de subir les effets qui s’additionnent, comme l’implique (2.12), mais cela
nécessiterait sans doute d’estimer plus de paramètres qu’il ne serait utile en
pratique avec de nombreux ensembles de données. A cause de cela, et à moins
62 Les Moindres Carrés non Linéaires
Remarquons que cette fonction peut être évaluée uniquement lorsque zt2 et
zt3 sont positifs pour tout t. C’est la première véritable fonction de régression
non linéaire que nous rencontrons, puisqu’il est clair qu’elle n’est linéaire ni
en ses paramètres ni en ses variables. Cependant, un modèle non linéaire tel
que
β2 β3
yt = eβ1 zt2 zt3 + ut (2.14)
est très rarement estimé dans la pratique. La raison en est que l’hypothèse
d’aléas additifs et identiquement distribués est autant encombrante que peu
réaliste. Elle est peu réaliste car les zti sont multiplicatifs, ce qui implique que
leurs effets dépendent des niveaux que prennent toutes les valeurs des autres
variables, alors que les aléas sont additifs, ce qui rend leur effet indépendant
des niveaux des autres variables explicatives. Elle est encombrante car (2.14)
doit être estimée par moindres carrés non linéaires plutôt que par moindres
carrés linéaires.
Il est facile de modifier (2.14) de façon à donner aux aléas une structure
multiplicative. Le modèle le plus évident que l’on peut alors formuler est
¡ β2 β3 ¢ β2 β3
yt = eβ1 zt2 zt3 (1 + vt ) ≡ eβ1 zt2 zt3 + ut , (2.15)
où les perturbations 1 + vt , qui sont des quantités sans unité de mesure, sont
multiplicatives. Bien que les erreurs sous-jacentes vt soient i.i.d., les erreurs
additives ut sont maintenant proportionnelles à la fonction de régression. Si
le modèle s’ajuste relativement bien, les vt devraient être assez faibles (disons
inférieures à environ 0.05). Maintenant, souvenons-nous que ew ∼ = 1+w
pour des valeurs de w proches de zéro. Par conséquent, pour des modèles qui
s’ajustent relativement bien, (2.15) sera très similaire au modèle
β2 β3 v t
yt = eβ1 zt2 zt3 e . (2.16)
qui est un modèle de régression linéaire. Il est évident que ce modèle, qui
est linéaire dans tous les paramètres et dans les logarithmes de toutes les
2.5 Fonctions de Régression Linéaires et Non Linéaires 63
variables, sera plus facile à estimer que le modèle non linéaire (2.14). Les
arguments que l’on a développés plus tôt suggèrent que c’est, en tout cas, plus
plausible. Ainsi, il ne devrait pas être surprenant d’apprendre que les modèles
de régression log-linéaire, comme (2.17), sont très fréquemment estimés en
pratique, alors que les modèles multiplicatifs avec des aléas additifs comme
(2.14) ne le sont que très rarement.
Un modèle purement multiplicatif comme (2.16) peut être rendu linéaire
en passant en logarithme. Toutefois, un modèle qui mélange les deux struc-
tures, multiplicative et additive, ne peut pas être transformé en un modèle
linéaire. Ainsi, peu importe la manière dont sont précisés les aléas; des
modèles qui intègrent des fonctions de régression du type
β3
xt (β) = β1 + β2 zt2 + β4 zt3 et (2.18)
β3 β4
xt (β) = β1 + β2 zt2 zt3 (2.19)
doivent nécessairement être estimés à l’aide des méthodes non linéaires.
Comme on devrait s’y attendre, de tels modèles ne sont pas estimés aussi
fréquemment que les modèles linéaires ou log-linéaires, d’une part parce que
la paresse nous y pousse sans doute, et d’autre part car il n’y a souvent pas
de raison, ni théorique ni empirique, qui nous permettent de choisir ce type
de spécification plutôt que les modèles conventionnels. En fait, les fonctions
de régression comme (2.18) et (2.19) sont d’une difficulté de traitement no-
toire, car il est complexe d’estimer conjointement tous les paramètres avec
n’importe quel degré de précision. Souvenons-nous de la discussion à propos
du fait que les modèles fondés sur la fonction de régression (2.06), qui est très
similaire à celles-ci, sont le plus souvent insuffisamment identifiés.
L’ultime exemple d’une fonction de régression non linéaire que nous allons
aborder est très différent par rapport à (2.18). Considérons la fonction de
régression
xt (β) = β1 + β2 (zt2 − β3 zt3 ) + β4 (zt4 − β3 zt5 ). (2.20)
Cette fonction est linéaire en ses variables indépendantes ιt et zt2 , zt3 , zt4 et
zt5 , mais elle est non linéaire en ses paramètres βi (allant de β1 à β4 ). Mais il
s’agit en réalité d’une fonction de régression linéaire avec une seule contrainte
non linéaire sur les coefficients. Pour apercevoir ceci, examinons la fonction
de régression linéaire non contrainte
xt (β) = γ1 + γ2 zt2 + γ3 zt3 + γ4 zt4 + γ5 zt5 .
Si l’on impose la contrainte non linéaire
γ3 γ2
= , (2.21)
γ5 γ4
et si l’on reparamétrise ensuite de façon à ce que
γ5
β1 = γ1 , β2 = γ2 , β3 = − , et β4 = γ4 ,
γ4
64 Les Moindres Carrés non Linéaires
Il s’agit d’un caractère typique des contraintes non linéaires que de pou-
voir être formulées de plusieurs façons différentes mais équivalentes, et par
conséquent, la fonction de régression peut être paramétrisée de différentes
façons.
On retrouve très fréquemment des fonctions de régression comme (2.20)
en économétrie. Elles apparaissent, par exemple, dans certains modèles avec
anticipations rationnelles — consulter Hoffman et Schmidt (1981) ou Gregory
et Veall (1985, 1987) — et dans les modèles avec corrélation en série (voir
Chapitre 10). De tels modèles ne sont pas particulièrement difficiles à estimer
en général, pourvu que les contraintes soient plus ou moins exactes.
ut = wt vt , vt ∼ IID(0, σv2 ),
où wt est une variable indépendante qui est toujours non nulle. Cette
spécification implique que ut possède une espérance nulle et une variance
égale à σv2 wt2 . Supposons désormais que la fonction de régression sur laquelle
on applique les erreurs ut soit
xt (β) = β1 + β2 zt + β3 wt .
Bien évidemment, on peut obtenir un modèle avec des erreurs i.i.d. en divisant
la variable dépendante et toutes les variables indépendantes, la constante
comprise par wt . Ce modèle modifié est
yt 1 zt
= β1 + β2 + β 3 + vt . (2.22)
wt wt wt
Notons que les régresseurs sont désormais 1/wt , zt /wt , et une constante, mais
le coefficient de la constante est maintenant celui de wt dans le modèle originel,
alors que le coefficient 1/wt est la constante du modèle de départ. Ainsi il est
très facile d’éliminer l’hétéroscédasticité dans un cas pareil, mais il faut être
prudent en interprétant les coefficients du modèle transformé.
Au Chapitre 8, nous discuterons d’une hypothèse relativement forte que
l’on fait en économétrie, c’est-à-dire
ut ∼ NID(0, σ 2 ), t = 1, . . . , n,
2.6 Termes d’Aléa 67
n
Y µ ¶n/2 µ n ¶
1 1 1 X 2
f (u) = f (ut ) = exp − 2 u .
t=1
2π σn 2σ t=1 t
0.5
..........
..... ......... ............
.
.... .... ...... ......
0.4 .. ..... ..
. ...... ...
.
....
.
. . .. ..... ... .....
. .
.
. . .
. .... . .....
. .
.
... .. .... ... .. ..
.... .
. . . ... .. ....
Asymétrie à droite → .... ... ..... ... .. ..
... . ...
0.3 .. . . ... .. ...
.... ... ..... ... . ..
.... .. .... ... .. ... ← Asymétrie à gauche
... .. ...
.... ... .... ... .. ...
.... .. .... ... . ...
. . . ... .. ...
0.2 ........ ..... ... . ...
... .. ..
.. . . ... .....
........... .... ....
.......... .... ....
.... ....
........... .... ..
.........
0.1 ...
....
. ...
. ......
..
.. .
. .........
..
..
. .
. ............
.
..
. ..
..
.......... .... ... .............
.... ..............
.
...
...
... . ..
..
...
...
...
...
. . . .. ..... . . .................
..
...
...
...
...
...
. . . . . .
... .......... . . . . .....................................
0.0 ............................. . . . . . ........... ..................... . . . . . . . . ......
−4 −3 −2 −1 0 1 2 3 4
0.5 .............
.... ......
...
. ...
... ...
...
.... ... ← Leptokurtique
...
0.4 . . . .. .... ...
.... ... .. ...
.. ...
.
... .. . ..
.....................................................................
... .. ......
..... .......
0.3 .
............ .........
.... ....
.. .
.
... ....... ..... ...
..... ...
.
.. ......
.. . ... . ....
.. .
. ... .. ...
.
... ....... ... .. ...← Platykurtique
0.2 .. . .. ... .. ...
.
... ... .... ... . ...
.. . .. ... .. ...
.. . .
. ... .. ...
.
...... ... ... . ...
.. . ..
. ... .. ...
.. . .
. ... .....
0.1 .
...... ..... .... .....
.. .
. ... ... .... ....
..
. .... ....
.
.............. ..... .....
....... ....
..
.....
..... ...............
. ...
..
.
...
... ..............
... .
...
...
..
..
.
.
...
... ..............................................
......... .
.. .
... . ..
...
.
0.0 ........................................................................... ................................................................
−4 −3 −2 −1 0 1 2 3 4
2.7 Conclusion
Ce chapitre nous a donné une introduction non rigoureuse aux modèles de
régression non linéaire, mettant l’accent sur des concepts fondamentaux tels
que la géométrie de la régression non linéaire. Les ouvrages qui offrent un
traitement plus rigoureux sont ceux de Gallant (1987), Bates et Watts (1988),
et Seber et Wild (1989). Le prochain chapitre traite de la façon d’opérer des
inférences à partir de modèles de régression non linéaire et introduit les idées
de base des tests d’hypothèses pour de tels modèles. La prochaine étape devra
offrir un traitement des propriétés asymptotiques des moindres carrés non
linéaires, et cela sera l’objet des Chapitres 4 et 5. Puis le Chapitre 6 examinera
une régression linéaire “artificielle” de Gauss-Newton que l’on associe à tout
modèle de régression non linéaire. Cette régression artificielle s’avèrera très
utile pour toute une variété d’usages, dont le calcul des estimations NLS et le
calcul des statistiques de test.
Termes et Concepts
aléas modèles de régression: linéaire et non
algorithme de minimisation linéaire, multivariée et univariée
bruit blanc moindres carrés non linéaires
colinéarité moments centrés
corrélation en série moyenne conditionnelle
distribution normale multicolinéarité
données chronologiques asymétrie
données en coupe transversale processus générateur de données
ensemble d’informations (DGP); relation avec les modèles
fonction somme des carrés restrictions non linéaires
hétéroscédasticité résultats asymptotiques
homoscédasticité Théorèmes de la Limite Centrale
identification: globale et locale variables aléatoires indépendantes et
indépendance: stochastique et linéaire identiquement distribuées (i.i.d.)
kurtosis: leptokurtique, mésokurtique, variables dépendantes et
platykurtique, excès de kurtosis indépendantes
minima: locaux et globaux variance d’erreur
modèle: ensemble de DGP