Professional Documents
Culture Documents
Méthodes Asymptotiques
et Moindres Carrés non Linéaires
5.1 Introduction
Dans le chapitre précédent, nous avons introduit la plupart des idées fon-
damentales de l’analyse asymptotique et établi certains résultats essentiels à
partir de la théorie des probabilités. Dans ce chapitre, nous utilisons ces con-
cepts et résultats pour démontrer un certain nombre de propriétés importantes
de l’estimateur des moindres carrés non linéaires.
Dans la prochaine section, nous discutons du concept de l’identification
asymptotique des modèles paramétrisés et, en particulier, des modèles es-
timés par NLS. Dans la Section 5.3, nous nous focaliserons sur la convergence
de l’estimateur NLS pour des modèles identifiés asymptotiquement. Dans
la Section 5.4, nous abordons sa normalité asymptotique et nous dérivons
également la matrice de covariance asymptotique de l’estimateur NLS. Ceci
nous conduit, dans la Section 5.5, à l’efficacité asymptotique des NLS, que
nous démontrons par une extension au cas non linéaire du célèbre Théorème
de Gauss-Markov pour les modèles de régression linéaire. Dans la Section 5.6,
nous traitons de différentes propriétés utiles des résidus NLS. Enfin, dans la
Section 5.7, nous considérons les distributions asymptotiques des statistiques
de test introduites dans la Section 3.6 pour tester des restrictions sur des
paramètres du modèle.
139
140 Méthodes Asymptotiques et Moindres Carrés non Linéaires
θ̂ n (y n ) ∈ Θ,
naturellement i est choisi de telle sorte que θi1 6= θi2 . Si l’estimateur possède
effectivement de bonnes propriétés, nous pourrions nous attendre à ce que
¡ ¢ ¡ ¢
plim1 θ̂i 6= plim2 θ̂i ,
n→∞ n→∞
1
Consulter, par exemple, Abramowitz et Stegun (1965), équation 23.2.24, page
807, ou n’importe quelle discussion de la fonction zeta de Riemann.
5.2 Identification Asymptotique 145
2
La précision d’une variable aléatoire est simplement la réciproque de sa va-
riance, et la matrice de précision d’une variable aléatoire vectoriel est l’inverse
de sa matrice de covariance. En dépit de la simplicité de la relation entre les
deux concepts, il est parfois plus intuitif de raisonner en terme de précision
plutôt qu’en terme de variance.
146 Méthodes Asymptotiques et Moindres Carrés non Linéaires
où y, x(β), et u sont des vecteurs de dimension n pour une taille d’échantillon
n donnée. Les paramètres du modèle sont par conséquent β et soit σ soit σ 2.
La fonction de régression xt (β), qui est le i ième élément de x(β), dépendra
en général du vecteur ligne des variables Zt . La spécification du vecteur
des aléas u n’est pas complète, puisque la distribution des ut n’a pas été
spécifiée. Ainsi, pour un échantillon de taille n, le modèle M décrit par (5.08)
est l’ensemble de tous les DGP qui génèrent des échantillons y de taille n
tels que l’espérance de yt conditionnellement à un ensemble d’information Ωt
quelconque qui comprend Zt , est xt (β) pour un certain vecteur paramétrique
β ∈ Rk, et tels que les différences yt − xt (β) sont des aléas indépendamment
distribués et de variance commune σ 2, habituellement inconnue.
Il sera commode de généraliser quelque peu cette spécification des DGP
dans M, afin de pouvoir traiter les modèles dynamiques, c’est-à-dire les
modèles comprenant des variables dépendantes retardées. Par conséquent,
5.3 Convergence de l’Estimateur NLS 147
3
En effet, même pour des modèles dynamiques linéaires, il n’est pas trivial
de montrer que les moindres carrés fournissent des estimations convergentes,
asymptotiquement normales. La référence classique sur ce sujet est Mann et
Wald (1943).
148 Méthodes Asymptotiques et Moindres Carrés non Linéaires
Cette fonction est la somme de n termes non négatifs qui ne tendront pas en
général vers zéro quand n → ∞, de sorte que leur somme tendra en général
vers l’infini avec n. Puisque l’infini n’est pas traditionnellement une limite
intéressante, nous préférons travailler avec la moyenne de ces termes plutôt
qu’avec leur somme. Ainsi, nous définissons
Puisque la fonction ssrn est définie comme une moyenne, nous pouvons espérer
être capables de lui appliquer une loi des grands nombres. Si tel est le cas,
nous pouvons alors poser la définition suivante:
¡ ¢
ssr(β, µ) ≡ plimµ ssrn (y, β) = lim Eµ ssrn (y, β) , (5.11)
n→∞ n→∞
Autrement dit, la limite en moyenne des résidus au carré est minimisée lorsque
les résidus sont évalués avec le véritable vecteur paramétrique β0 . Pourquoi
cela implique-t-il la convergence? Sans entrer dans des détails techniques,
cela peut se comprendre si nous acceptons que la limite des estimateurs NLS
en échantillon fini β̂ n, définis de façon à minimiser ssrn, est la valeur de β
qui minimise la fonction limite ssr. Ainsi, cette valeur, d’après (5.12), est
simplement la véritable valeur β0 .
Bien que plausible, cet argument est faussement simple. Lorsque nous
établirons un argument comparable dans le Chapitre 8, dans le contexte de
l’estimation par maximum de vraisemblance, nous serons plus prudents, sans
toutefois être pleinement rigoureux. Pour l’instant, nous nous contentons de
présenter un théorème dans lequel nous supposons suffisamment de régularité
pour que le passage de (5.12) à la convergence de l’estimateur NLS soit jus-
tifié. Nous discuterons ensuite, dans certains cas pratiques importants, de
l’existence et des conditions de l’existence de ssr, et de la validité et des
conditions de validité de (5.12).
150 Méthodes Asymptotiques et Moindres Carrés non Linéaires
sont indépendants, de sorte que chaque terme de cette somme a une espérance
nulle, puisque ut a une espérance nulle. Cependant, les termes successifs ne
sont pas nécessairement mutuellement indépendants, puisque la présence des
variables dépendantes retardées dans xt (β0 ) − xt (β) mènerait à une possi-
ble corrélation de cette expression avec les termes indicés par t − 1, . . . , t − i
de la somme (5.15), et la plupart des représentations des Zt comme séries
temporelles mènera également à de telles corrélations. Ainsi, si nous devons
utiliser une loi des grands nombres afin de conclure que la limite en proba-
bilité de (5.15) est nulle, nous devons expliciter les hypothèses suffisantes qui
garantissent qu’une telle loi des grands nombres s’applique. Il est nécessaire
de pouvoir appliquer une loi uniforme des grands nombres à
n
X
1
−
n
xt (β)ut (5.16)
t=1
et également que
µ Xn ¶
1 ¡ ¢2
plim 0 −
n
xt (β0 ) − xt (β) (5.19)
n→∞
t=1
existe et est une grandeur non négative, non stochastique. Si le modèle est
asymptotiquement identifié, cette grandeur sera strictement positive pour tout
β 6= β0 .
L’hypothèse d’indépendance est naturellement souvent beaucoup trop
forte. Plus généralement, nous aimerions considérer le cas d’une fonction
de régression xt (β) qui dépend seulement de variables non aléatoires et d’un
nombre fini de variables dépendantes retardées:
Malheureusement, la forme (5.20) n’est pas en général telle qu’une loi des
grands nombres puisse s’appliquer à (5.16) et (5.17). Le cas le plus flagrant
est celui d’un processus explosif, dont un exemple particulièrement simple est
fourni par le DGP
pour tout α avec |α| > 1. Il est aisé de voir pourquoi cette spécification
conduit à un processus explosif: supposons que la variance de y1 soit σ12 , et
calculons la variance de yt . Nous trouvons que
Var(yt ) = Var(αyt−1 + ut )
= α2 Var(yt−1 ) + σ 2
¡ ¢ (5.22)
= α4 Var(yt−2 ) + σ 2 1 + α2
¡ ¢−1 ¡ 2(t−1) ¢
= α2(t−1) σ12 + σ 2 α2 − 1 α −1 ,
où la dernière ligne dans (5.22) est obtenue par la substitution répétée du
résultat contenu dans la première ligne. Nous voyons immédiatement que,
5.3 Convergence de l’Estimateur NLS 153
puisque |α| > 1, la variance de yt tend vers l’infini avec t. Le terme qui cor-
respond à xt (β)ut pour la fonction de régression αyt−1 de (5.21) est αyt−1 ut ,
et nous voyons que la variance de ce terme tend également vers l’infini avec t.
Ainsi, aucune loi des grands nombres ne peut s’appliquer en général à (5.16).
Les économètres veillent habituellement à ce que les fonctions de régres-
sion qu’ils utilisent ne donnent pas naissance à des processus explosifs tels
que celui considéré. Si nous imposons que |α| < 1 dans (5.21), nous obtenons
un processus qui n’est pas explosif.4 Afin de pouvoir gérer ce cas, et plus
généralement une fonction de régression (5.20) quand elle ne conduit pas à un
processus explosif, la loi des grands nombres la plus utile est celle de la martin-
gale, Théorème 4.6. Notons tout d’abord que ce théorème peut être appliqué
directement aux termes xt (β)ut , puisque l’espérance de xt (β)ut , condition-
nellement à {xs (β)us }t−1
s=1 , est nulle, parce que ut est indépendant à la fois de
us et de xs (β) pour tout s ≤ t. Ainsi, la seule contrainte supplémentaire du
théorème est très faible et peut être satisfaite en imposant que les espérances
des xt (β) soient uniformément bornées.
Reste la question de notre certitude sur l’existence de l’expression (5.19)
et sur le fait qu’elle soit non stochastique. C’est une question à laquelle on
ne peut répondre que si la fonction de régression et le DGP ont été spécifiés
en détail. Nous adopterons donc la position que (5.19) existe et est non
stochastique si le processus défini par la fonction de régression (5.20) n’est
pas explosif. Ainsi, quand nous dirons qu’un processus n’est pas explosif,
nous signifierons que (5.19) existe, est finie et non stochastique. Par ce bi-
ais, nous pouvons considérer des modèles de régression non linéaire avec des
fonctions de régression comme (5.20) individuellement afin de déterminer s’ils
sont explosifs.
Considérons par exemple le modèle simple (5.21), mais avec |α| < 1. Pour
cette spécification, (5.19) devient
µ Xn ¶
2 1 2
(α0 − α) plim 0 −
n
yt−1 . (5.23)
n→∞
t=1
Pour nos propos le facteur (α0 − α)2 est non pertinent, et il suffit d’étudier la
limite en probabilité. Malheureusement, ceci n’est pas particulièrement facile
sans faire appel à des propriétés des processus stochastiques que nous n’avons
pas exposées jusqu’à présent et n’exposerons pas dans cet ouvrage.5 Mais nous
verrons dans le Chapitre 10 que la suite {yt } générée par (5.21) est ce que l’on
appelle un processus autorégressif d’ordre 1, ou processus AR(1), et que pour
|α| < 1 il est stationnaire et ergodique. Les mêmes propriétés sont valables par
4
De tels processus seront discutés dans le Chapitre 10 en connexion avec notre
discussion de l’autocorrélation.
5
Consulter Lamperti (1977) pour une discussion plus générale des processus
stochastiques à un niveau avancé.
154 Méthodes Asymptotiques et Moindres Carrés non Linéaires
n tend vers l’infini. Ainsi, le produit n1/2 (β̂ − β0 ) tend vers un vecteur de
variables aléatoires non nulles. La normalité asymptotique, lorsqu’elle est
valable, impliquera naturellement la convergence, puisque si n1/2 (β̂ − β0 )
est O(1), il s’ensuit que β̂ − β0 doit être O(n−1/2 ). Si l’estimateur β̂ satisfait
la dernière propriété, il est dit convergent au taux n1/2, ce qui signifie que
la différence
√ entre l’estimateur et la véritable valeur est proportionnelle à 1
sur n. Un estimateur convergent au taux n1/2 doit aussi être faiblement
convergent, puisque plim(β̂ − β0 ) = 0. Cependant, tous les estimateurs ne
sont pas convergents au taux n1/2.
Comme dans la section précédente, nous établirons tout d’abord un
théorème qui fournit les conditions suffisantes à la normalité asymptotique
de l’estimateur NLS et discuterons ensuite des circonstances dans lesquelles
nous pouvons espérer que ces conditions seront satisfaites. Pour commencer,
quelques notations. Soit Xt (β) ≡ Dβ xt (β) le vecteur ligne des dérivées par-
tielles de la fonction de régression xt (β); alors At (β) ≡ Dββ xt (β) désignera
la matrice Hessienne de xt (β), et Ht (yt , β) ≡ Dββ (yt − xt (β))2 désignera la
matrice Hessienne de la contribution de l’observation t à la fonction somme-
des-carrés. Cette dernière matrice est
³ ¡ ¢´
>
Ht (yt , β) = 2 Xt (β)Xt (β) − At (β) yt − xt (β) . (5.24)
Ici β ∗ est une combinaison convexe de β̂ et β0 , qui peut être différente pour
chaque ligne de l’équation, comme le demande le Théorème de Taylor.
Notre prochaine étape consiste à examiner la limite du membre de droite
de (5.27) quand n → ∞. La matrice Hessienne Dββ ssrn (y, β), évaluée en un
vecteur β ∈ Θ quelconque, peut s’écrire comme
n
X n
X
n 1 ¡ ¢2 1
Dββ ssr (y, β) = −
n
Dββ yt − xt (β) =−
n
Ht (yt , β). (5.28)
t=1 t=1
Cette forme est compatible avec l’application d’une loi des grands nombres,
d’où la condition (i) du Théorème 5.2. Nous pouvons aussi conclure que
¡ ¢
plim 0 Dββ ssrn (y, β) = Dββ ssr(β, µ0 ). (5.29)
n→∞
où la matrice inverse du membre de droite existe avec une probabilité arbi-
trairement proche de un, pour un n assez grand, et satisfait
¡ ¢−1 ¡ ¢−1
plim 0 Dββ ssrn (y, β ∗ ) = Dββ ssr(β0 , µ0 ) . (5.31)
n→∞
Puisque la condition (i) du Théorème 5.2 nous permet l’usage d’une loi des
grands nombres sur (5.36), il s’ensuit de (5.37) que
¡ ¢
Dββ ssr(β0 , µ0 ) = plim 0 Dββ ssrn (y, β0 )
n→∞
µ Xn ¶
1 ¡ > ¢
= plim 0 −
n
2 Xt (β0 )Xt (β0 ) − At (β0 )ut (5.38)
n→∞
t=1
¡ ¢
= 2 plim 0 n−1X0>X0 .
n→∞
Puisque ceci est l’expression (5.25), nous avons démontré la dernière partie
du Théorème 5.2.
Il sera utile d’exprimer (5.32) au vu de (5.33) et de (5.38). Elle devient
¡ ¢−1
n1/2 (β̂ − β0 ) = n−1X0>X0 n−1/2 X0>u + o(1). (5.39)
5.5 Efficacité Asymptotique des NLS 159
Dans le cas d’un modèle de régression linéaire avec x(β) = Xβ, l’égalité serait
exacte sans le terme o(1). Tous les facteurs des puissances de n sont inutiles
dans ce cas, et nous obtenons le résultat familier
¡ ¢−1
β̂ − β0 = X>X X>u. (5.40)
variances des deux estimations de cette combinaison linéaire sont w>V (θ̌)w
et w>V (θ̂)w, de sorte que la différence entre elles est
¡ ¢
w>V (θ̌)w − w>V (θ̂)w = w> V (θ̌) − V (θ̂) w.
Puisque V (θ̌) − V (θ̂) est une matrice semi-définie positive, cette grandeur
doit être soit positive soit nulle. Ainsi, quel que soit le paramètre ou la
combinaison linéaire des paramètres que nous tentons d’estimer, nous pouvons
être sûrs que θ̂ fournira un estimateur au moins aussi bon que θ̌ si la différence
entre leurs matrices de covariance est semi-définie positive. Dans la pratique,
quand un estimateur est plus efficace qu’un autre, cette différence de matrices
est très souvent définie positive. Lorsque c’est le cas, chaque paramètre ou
combinaison linéaire des paramètres sera en fait estimé plus efficacement en
utilisant θ̂.
Quand nous estimons des modèles de régression non linéaire et d’autres
types de modèles non linéaires, nous rencontrons rarement des estimations
sans biais, et sommes rarement capables d’évaluer les matrices de covariance
en échantillon fini des estimateurs. Il est par conséquent naturel de chercher
un concept asymptotique comparable à l’efficacité dans le cas d’un échantillon
fini. Le concept approprié est celui de l’efficacité asymptotique, définie comme
suit:
Définition 5.6.
Supposons que θ̂ et θ̌ soient deux estimateurs convergents du même
vecteur paramétrique θ. Soient
¡ ¢ ¡ ¢
V ∞ n1/2 (θ̂ − θ0 ) ≡ lim E0 n(θ̂ − θ0 )(θ̂ − θ0 )> et
n→∞
¡ ¢ ¡ ¢
V ∞ n1/2 (θ̌ − θ0 ) ≡ lim E0 n(θ̌ − θ0 )(θ̌ − θ0 )>
n→∞
y = Xβ + u, E(uu> ) = σ 2 I, (5.41)
où les régresseurs X sont fixes ou peuvent être traités comme fixes parce que
nous conditionnons l’espérance de la variable dépendante par rapport à eux
(consulter la Section 3.5). Ce théorème enseigne que:
5.5 Efficacité Asymptotique des NLS 161
= 0.
Par conséquent, l’équation (5.42) indique que l’estimateur linéaire sans biais
β̌ est égal à l’estimateur des moindres carrés β̂ auquel s’ajoute un élément
aléatoire Cy qui est non corrélé à β̂. Comme nous le verrons plus tard et
dans le Chapitre 8, c’est un phénomène que l’on observe assez généralement:
asymptotiquement, un estimateur non efficace est toujours égal à un estima-
teur efficace auquel s’ajoute un bruit aléatoire qui lui est indépendant.
Le résultat (5.44) démontre en grande partie le Théorème de Gauss-
Markov, puisqu’il implique que
E(β̌ − β0 )(β̌ − β0 )>
³¡ ¢¡ > −1 > ¢>´
> −1 >
= E (X X) X u + Cu (X X) X u + Cu (5.45)
¡ ¢−1
= σ02 X>X + σ02 CC>.
162 Méthodes Asymptotiques et Moindres Carrés non Linéaires
Ainsi, la différence entre les matrices de covariance β̌ et β̂ est σ02 CC>, qui est
une matrice semi-définie positive. Notons que l’hypothèse que E(uu> ) = σ02 I
est ici cruciale. Si à la place nous avions E(uu> ) = Ω, avec une matrice
Ω définie positive quelconque de dimension n × n, la dernière ligne de (5.45)
serait ¡ > ¢−1 > ¡ ¢−1
X X X ΩX X>X
¡ ¢−1 ¡ ¢−1
+ CΩC> + X>X X>ΩC> + CΩX X>X ,
rare où les variables supplémentaires sont orthogonales à celles qui appartien-
nent au modèle.
Il est important de garder à l’esprit les limites du Théorème de Gauss-
Markov. Il n’enseigne pas que l’estimateur OLS β̂ est meilleur que tout
autre estimateur concevable. Des estimateurs non linéaires et/ou biaisés
peuvent être plus performants que l’estimateur OLS dans certaines circon-
stances. En particulier, comme nous le verrons dans le Chapitre 8, seule
l’hypothèse de normalité des aléas fera en général coı̈ncider l’estimateur OLS
avec l’estimateur du maximum de vraisemblance, qui sera asymptotiquement
“meilleur” sous des conditions assez générales lorsque la distribution des aléas
est connue. De plus, le théorème ne s’applique qu’à un modèle correctement
spécifié avec des erreurs homoscédastiques.
Pour comprendre l’importance d’une spécification correcte, reconsidérons
l’exemple de la régression linéaire dans laquelle E(y | X, Z) = Xβ. Si nous ne
savons pas que l’espérance de y conditionnellement à X et Z est indépendante
de Z, il est raisonnable d’estimer le modèle de régression
y = Xβ + Zγ + u. (5.49)
est une matrice semi-définie positive est alors un exercice très comparable à la
démonstration du Théorème de Gauss-Markov. Par conséquent, nous conclu-
ons que l’estimateur NLS est asymptotiquement plus efficace que n’importe
quel autre estimateur de la forme (5.50). Nous nous référerons à de tels es-
timateurs en tant qu’estimateurs convergents et asymptotiquement linéaires,
l’estimateur NLS étant considéré comme le meilleur estimateur convergent et
asymptotiquement linéaire.
Ce résultat peut ne pas sembler très significatif parce que, jusqu’à
présent, nous n’avons pas vu d’autres estimateurs convergents et asympto-
tiquement linéaires. Cependant, il devrait être clair à partir de la similitude
de l’estimateur NLS et OLS que si nous estimions le modèle
y = x(β, γ) + u, E(uu> ) = σ 2 I,
où x(β, 0) = x(β), nous obtiendrions un estimateur qui satisfait (5.50) asymp-
totiquement. La forme particulière de (5.50) serait similaire à l’expression
(5.47) dans le cas linéaire. Parmi les estimateurs convergents et asymptotique-
ment linéaires, nous trouvons l’estimateur des moindres carrés généralisés non
linéaires que nous examinerons dans le Chapitre 9 et l’estimateur des variables
instrumentales non linéaire qui sera examiné dans le Chapitre 7.
Un résultat plus fort sur l’efficacité des NLS est disponible si nous sup-
posons que les aléas sont normalement distribués. Dans ce cas, l’estimateur
NLS du vecteur de paramètres β correspond à l’estimateur du maximum de
vraisemblance. Comme nous le verrons dans le Chapitre 8, l’estimateur ML
est asymptotiquement efficace dans un sens très fort, pourvu que toute la
structure stochastique du modèle soit correctement spécifiée. Cela implique
que l’estimateur NLS est asymptotiquement efficace par rapport à une classe
très large de techniques d’estimation pour la classe des modèles de régression
non linéaire avec des perturbations homoscédastiques, indépendantes et nor-
malement distribuées.
Afin d’obtenir les propriétés asymptotiques des résidus NLS, nous com-
mençons par opérer un développement de Taylor sur un résidu type autour
de β = β0 . Ce développement est
qui implique que les résidus estiment de façon convergente les vrais aléas.
Le résultat simple (5.52) est extrêmement précieux, mais il n’est pas
suffisamment détaillé pour tous les cas de figures. Pour s’en convaincre, con-
sidérons l’expression
Xn
−1/2 > −1/2
n a û = n at ût (5.53)
t=1
pour un vecteur a quelconque dont les éléments forment une suite non stochas-
tique {at }. Si chaque at est de l’ordre de l’unité, alors la substitution de (5.52)
dans (5.53) montre que cette dernière est égale à
n
X n
X
n−1/2 at ut + n−1/2 O(n−1/2 ). (5.54)
t=1 t=1
Il devrait être clair que le premier terme est O(1) et que le second est O(n−1/2 ).
Ainsi, (5.56) livre les deux premiers termes dans ce que nous appelons le
développement stochastique du résidu ût . Mais ce développement est encore
inutilement compliqué, parce que nous avons
Puisque ceci est vrai pour tout t, nous avons l’équation vectorielle
¡ ¢−1
û = u − X0 X0>X0 X0>u + o(n−1/2 ),
û = MX u. (5.58)
Le premier terme du membre de droite est ici O(1), tandis que le second
est o(1). Ainsi, contrairement à ce qui survenait quand nous remplacions ût
par ut , nous pouvons ignorer le second terme du membre de droite de (5.59).
5.6 Propriétés des Résidus NLS 167
Ainsi, le résultat (5.57) fournit ce dont nous avons besoin lorsque nous traitons
de l’analyse asymptotique d’expressions comparables à (5.53).
Nous devrions nous attarder ici pour éclaircir la relation entre le résultat
asymptotique (5.57), le résultat linéaire exact (5.58), et deux autres résultats.
Ces autres résultats sont (1.03), qui établit que les résidus OLS sont orthogo-
naux aux régresseurs, et (2.05), que nous pouvons exprimer comme X̂>û = 0,
et qui établit que les résidus NLS sont orthogonaux à X(β̂). Cette sec-
onde paire de résultats conduit aux propriétés numériques des OLS et des
NLS qui doivent être vérifiées quel que soit le processus ayant généré les
données. Par contraste, (5.57) et (5.58) sont des résultats statistiques qui ne
sont valables que si le DGP appartient véritablement au modèle de régression
adéquat. Aussi bien les OLS que les NLS opèrent ce que l’on pourrait ap-
peler une projection orthogonale, mécanique et parfaite; c’est précisémment
ce qu’indiquent les résultats (1.03) et (2.05). Si de plus le DGP appartient
au modèle linéaire ou non linéaire considéré, cette projection correspond à
la projection du véritable vecteur d’aléas u sur le complément orthogonal
du sous-espace S(X0 ). C’est exactement parce que cette projection annule
un nombre fixe et fini de directions (k dans la notation utilisée) que nous
obtenons le résultat simple (5.52).
Les directions annulées de u, P0 u, correspondent asymptotiquement
(dans le cas linéaire, exactement) aux erreurs commises en estimant les
paramètres. Pour comprendre ceci, nous pouvons récrire (5.55) comme
a ¡ ¢−1
β̂ − β0 = X0>X0 X0>u, (5.60)
d’où
a
X0 (β̂ − β0 ) = P0 u. (5.61)
En exprimant (5.57) à l’aide d’une notation simplifiée comparable, nous
voyons que
a
û = u − P0 u = M0 u. (5.62)
un cas où l’analyse dépend des propriétés des valeurs ajustées des moindres
carrés quand le DGP n’appartient pas du tout au modèle estimé.
Une utilisation importante des résidus ût consiste à estimer la variance
des erreurs σ 2. Les deux estimateurs principaux suggérés dans le Chapitre 2
étaient
n
2 1 X¡ ¢2
σ̂ ≡ yt − xt (β̂) et
n t=1
n
2 1 X¡ ¢2
s ≡ yt − xt (β̂) .
n − k t=1
Nous démontrerons que ces deux estimateurs convergent mais que s2 est
préférable à σ̂ 2.
Le résultat asymptotique fondamental pour les résidus NLS, l’équation
(5.57), peut être récrit comme
û = M0 u + o(n−1/2 )a (5.63)
σ̂ 2 ≡ n−1 û>û
= n−1 u>M0 u + 2n−1 o(n−1/2 )a>M0 u + n−1 o(n−1 )a>a (5.64)
= n−1 u>u − n−1 u>P0 u + 2o(n−3/2 )a>M0 u + o(n−2 )a>a.
C’est n−1 fois le produit de trois facteurs, chacun étant O(1), ce qui implique
que le second terme dans son ensemble doit être O(n−1 ).
5.6 Propriétés des Résidus NLS 169
n−k 2
E(σ̂ 2 ) = σ0 .
n
Ainsi, comme nous le savions déjà, σ̂ 2 est biaisée vers le bas. Par contraste,
il est facile de voir que, pour le même ordre, s2 est sans biais. Ce résultat
favorise fortement l’usage de s2 plutôt que de σ̂ 2 lorsque nous estimons la
variance des aléas d’un modèle de régression non linéaire, tout comme c’est
le cas pour un modèle linéaire. Naturellement, le fait que s2 soit sans biais
à l’ordre n−1 n’implique pas qu’il sera sans biais quel que soit l’ordre. En
général, il sera biaisé pour un ordre inférieur à n−1.
La démonstration de la convergence de s2 (ou de σ̂ 2 ) était très différente
de celle de β̂, parce que bien que σ 2 soit un paramètre du modèle de régression
non linéaire, ce n’est pas un argument de la fonction somme-des-carrés.
Comme nous l’avons mentionné plus tôt, le paramètre σ 2 n’est pas iden-
tifié, asymptotiquement ou autrement, par la procédure NLS. Par conséquent,
une stratégie d’estimation assez différente, qui est en fait une stratégie essen-
tiellement ad hoc, a dû être utilisée. Une conséquence malheureuse de cette
méthode ad hoc est qu’aucune estimation de la variance de s2 n’est automa-
tiquement disponible, rendant impossible une quelconque inférence statistique
sur σ 2 . Pour rendre une inférence possible, il faudrait connaı̂tre ou être ca-
pable d’estimer le quatrième moment des perturbations ut , comme nous le
montrons dans ce qui suit. Nous construisons, par analogie avec les résultats
de l’estimateur β̂, la variable aléatoire n1/2 (s2 − σ02 ). A partir de (5.64) et
des arguments qui la suivent, nous concluons que û>û = u>u + O(1). Ainsi,
170 Méthodes Asymptotiques et Moindres Carrés non Linéaires
1 >¡ >
¢
−1 > −1
r̂ R̂( X̂ X̂) R̂ r̂, (5.66)
σ̂ 2
0
où Xti désigne le ti ième élément de X0 . La deuxième ligne utilise (5.69). La
troisième ligne en découle parce que la somme de n termes d’ordre n−1/2 peut
être au plus d’ordre n1/2 ; divisée par n, elle devient d’ordre n−1/2. Notons
que n−1X0>X0 lui-même est O(1).
Puis, nous utilisons le résultat de la normalité asymptotique (5.39) pour
obtenir une expression plus pratique pour n1/2 r̂. Nous avons
¡ ¢−1
n−1/2 r̂ = R0 n−1X0>X0 n−1/2X0>u + o(1). (5.71)
où P2 est la projection orthogonale sur l’espace engendré par les r colonnes
de la matrice X0 (X0>X0 )−1R0>. Cette projection orthogonale possède une
interprétation géométrique et statistique très intéressante, que nous exposons
à présent. Elle justifiera le choix apparemment étrange de l’indice 2 dans P2 .
Considérons tout d’abord le sous-espace linéaire S(X0 ), qui est l’espace
d’arivée de la projection P0 . Ce sous-espace est de dimension k, la dimen-
sion de l’espace paramétrique entier non contraint Θ, puisqu’il est tangent
5.7 Tests Basés sur des Estimations NLS 173
S(X )
... 1
.. .. .....
..
.....
.. .. .......................................................................................................................................................................................................................................................................................
. .. ........................................................................................................ ......
.............. .................. .....
. .. ................. ........... ... ....
....
..
... .
... ..
. . .
.......... . . .....
.......
. .. . .
...
.
............. β0
.. . . .
....
.......
..................
....
..... . .. ...........
.......... .. . . . .
..... ..
. . ..
... ... .. .
.. ......
...
..... .. ..... ....
.....................................................................................................................................................................................................................................................................................←− S(X )
. . .. . . . 0
. ... ... ..
D’après (5.73), cette limite est simplement X0 b, où b est défini comme le
vecteur de dimension k qui est la limite de (β1 − β0 )/kβ1 − β0 k quand β1
tend vers β0 . Ainsi, b est simplement la limite d’un vecteur unité dans la
direction du segment de droite qui relie β0 à β1 .
Puisque r(β1 ) = 0, un autre développement de Taylor révèle que
0 = R(β ∗ )(β1 − β0 ).
P0 = P1 + P2 .
u
................
. . ..
. . . .... .. .....
... . .
S(P ) .... ... ....
......2 .. .
......
...... .....
. . .....
.
.
.. .... .....
.
....
......
...... . .
...... .. . ..
........... ........ ........ ............................................... ....
...
......
......
. . .. . .
......
....... ............
.
......
........ P0 u ..........................
.. ..................
.... ......
P2 u.............................. ......
.. .......
... . . ................................... S(P1 )
..................................
.......... ... .. ...
.. . . . . . .. .. .
..
..
..
..
..
..
..
..
.
......... ................................................................................................... . . . . .
. .
. ........................................
...............................
P1 u
.... .
.. ...... .
.. ..... ...................... ..........
.... O .........
......
....
S(X0 )
a
ũ = M1 u, (5.75)
1 −1/2 ¡ ¢−1
2
n (y − x̃)>X̃ n−1X̃>X̃ n−1/2X̃>(y − x̃). (5.77)
σ̃
176 Méthodes Asymptotiques et Moindres Carrés non Linéaires
n
X
n−1/2 X̃>(y − x̃) = n−1/2 X̃t>ũt
t=1
n
X
= n−1/2 >
X0t (M1 u)t + o(1)
t=1
n
X
−1/2
=n (M1 X0 )t ut + o(1)
t=1
−1/2
=n X0>M1 u + o(1).
1 >
σ̂ 2 = −
n
u M0 u + o(n−1 ),
Théorème 5.4.
Pour un modèle de régression non linéaire (5.08) soumis aux restric-
tions (5.65), où à la fois les estimations contraintes β̃ et les estimations
non contraintes β̂ convergent et sont asymptotiquement normales, la
statistique de Wald (5.66), la statistique LM (5.76), et la statistique de
test LR (5.80) sont, sous l’hypothèse nulle, asymptotiquement égales
à la variable aléatoire
σ0−2 u>P2 u,
qui suit asymptotiquement une χ2 (r). Ici, P2 ≡ P0 −P1 , où P0 désigne
la projection sur le sous-espace de dimension k S(X0 ), et P1 la pro-
jection sur le sous-espace de dimension k − r de S(X0 ) qui correspond
aux variations paramétriques satisfaisant les restrictions.
une large mesure du fait que l’estimateur NLS est défini par la minimisation
de la fonction somme-des-carrés. Il s’avère que l’analyse s’applique pour de
nombreux aspects à d’autres estimateurs définis par la minimisation ou la
maximisation d’autres fonctions critères; consulter le Chapitre 17. Des traite-
ments qui gèrent de façon abstraite les estimateurs définis de la sorte sont
disponibles chez Amemiya (1985, Chapitre 4) et Huber (1981). Quand nous
traiterons l’estimation par maximum de vraisemblance dans le Chapitre 8,
les résultats de ce chapitre serviront de modèles à la dérivation de résultats
similaires dans un autre contexte.
Termes et Concepts
application définissante des estimation (des paramètres d’un
paramètres modèle)
asymptotiquement non stochastique identification asymptotique
caractérisation des DGP, complète ou identification asymptotique stricte
partielle identification (d’un modèle
convergence au taux n1/2 paramétrisé)
convergence des estimateurs innovations
développement d’un DGP à des matrice de covariance asymptotique
échantillons arbitrairement grands meilleur estimateur linéaire sans
développement stochastique biaisé (BLUE)
dimension modèle paramétrisé
distribution asymptotique modèles dynamiques
efficacité asymptotique normalité asymptotique
efficacité (d’un estimateur) paramètres du modèle
espace d’arrivée (d’une application) précision des estimateurs
espace de départ (d’une application) processus explosif
espace paramétrique règles pour la génération de processus
estimateur convergent et stochastiques infinis
asymptotiquement linéaire résidus NLS
estimateur (des paramètres d’un Théorème de Gauss-Markov
modèle) variables dépendantes retardées
estimateur et estimation variables strictement exogènes