Professional Documents
Culture Documents
ECONOMETRIA I
CURSO 2009/2010
PROFESORA: SONIA SOTOCA LPEZ
e-mail: sotoca@ccee.ucm.es
Tfno. 91 394 23 03/ 23 04
Despacho: Pabelln Central (Decanato, Primera Planta, Despacho 3)
Horario de tutoras: Martes y Jueves de 12.30 a 14 horas
Material disponible en: www.ucm.es/info/ecocuan/ectr1
1
INTRODUCCION
- Econometra: este vocablo procede del griego y significa medida
de la economa
- Esta definicin no caracteriza completamente el contenido de la
materia, pero pone de manifiesto su carcter necesariamente
cuantitativo.
- A lo largo del tiempo, la Econometra ha ido ampliando su
contenido debido fundamentalmente a 4 aspectos:
o El desarrollo de la Teora Econmica
o Los avances en la Teora Estadstica
o El desarrollo de la Informtica y la creciente disponibilidad y
fcil acceso a grandes bases de datos (tanto a nivel macro
como micro).
- Por tanto, el continuo avance de esta disciplina hace que no haya
una definicin generalmente aceptada.
- Intriligator (1978) define Econometra como aquella rama de la
Economa que se ocupa de medir desde el punto de vista emprico
cualquier relacin entre variables econmicas.
- De acuerdo con esta definicin, los dos ingredientes bsicos de la
Econometra son: 1) La Teora Econmica y 2) Los datos.
- La caracterstica fundamental de esta disciplina es que debe saber
conjugar perfectamente ambos ingredientes. En otras palabras, un
econmetra no puede defender la medicin sin teora, pero
tampoco la teora sin datos.
- Saber conjugar perfectamente teora, datos y tcnicas estadsticas
es lo ms difcil, pero tambin lo ms atractivo de la Econometra.
Alguien dijo que la Econometra sera ms fcil sin datos.
- En definitiva, la Econometra debe complementar a la Teora
Econmica, para validar determinadas relaciones que postula
usando datos. En este sentido, el econmetra no puede prescindir
de la Teora, ni el terico de lo que dicen los datos.
Relaciones entre la Teora Econmica y la Econometra
(1) La Econometra necesita primero de la Teora Econmica para
que le proporcione un marco conceptual concreto. Por ejemplo, la
teora de Keynes proporciona un marco en el que se relacionan
dos variables econmicas: Consumo (
C
) y Renta (Y ), en donde,
adems se postula que el
C
es una funcin de la Y :
( ) C f Y
y no
a la inversa. En ocasiones, el econmetra puede partir no de una
teora, sino del sentido comn o de la intuicin de que exista una
relacin entre un conjunto de variables. Por ejemplo, puede
2
preguntarse si un tipo de inters a corto plazo depende de su
propia historia pasada o no.
(2) La teora econmica tambin necesita de la econometra para
poder validar, contrastar, determinadas hiptesis postuladas por el
terico. En el ejemplo de la funcin de consumo Keynesiana, se
postula una funcin lineal entre
C
e Y :
C a bY +
, donde
a
es el
consumo autnomo y
b
la propensin marginal a consumir.
Adems, se supone que
0 1 b
. Usando datos, el econmetra
puede contrastar si esta restriccin se cumple o no.
(3) La teora econmica necesita de la econometra para poder seguir
desarrollndose. Es decir, la evidencia emprica obtenida con los
datos puede ayudar a reformular teoras ya existentes o incluso,
sugerir nuevas. En el ejemplo anterior, se puede contrastar si la
relacin entre
C
e Y es lineal o no. Adems, se puede contrastar
si la relacin entre
C
e Y es esttica. Es decir, el
C
en un instante
puede depender de la Y en ese momento, pero tambin del
C
e Y
pasados.
Pasos en un Estudio Economtrico:
(1) Para que la teora econmica pueda utilizarse en un estudio
economtrico necesita de una elaboracin matemtica que de lugar
a un modelo y en concreto, a un modelo economtrico. Un modelo
economtrico no es un modelo geomtrico ni un modelo
matemtico. En un modelo geomtrico se representan mediante
grficos o diagramas relaciones entre variables econmicas
(IS/LM, Oferta/Demanda). En un modelo matemtico se
representan mediante ecuaciones matemticas relaciones entre
variables. Por ejemplo,
( ) C f Y
Las principales diferencias entre un modelo matemtico y uno
economtrico son:
a) La forma funcional ha de estar perfectamente definida. Por
ejemplo,
C a bY +
, es una funcin lineal caracterizada por
a
y
b
,
que son los parmetros de la misma. La idea es medir o estimar
numricamente
a
y
b
, dada una muestra de
C
e Y .
b) El carcter estocstico. Un modelo economtrico es estocstico
porque aparecen en el mismo variables aleatorias. La excepcin son
relaciones puramente deterministas como las identidades contables.
En nuestro ejemplo,
C a bY + +
, donde
es la perturbacin
aleatoria, ya que no nos creemos que haya una relacin exacta entre
3
C
e Y . La interpretacin de
y
2
(elasticidad del output con respecto al trabajo). Una simple transformacin
logartmica en los datos, hace que esta relacin cumpla la linealidad en los
parmetros. Es decir:
ln ln ln ln Y A K L + +
8
Ejemplos de relaciones entre variables econmicas no lineales en los
parmetros hay muchos, por ejemplo, en una funcin de Consumo no lineal
como:
c
C a bY +
donde a, b y c son los parmetros que caracterizan esta relacin. En este
caso, habra que estimar estos tres parmetros dada una muestra de C y Y.
Contrastar una relacin lineal entre C y Y, equivale a contrastar si el
parmetro c es unitario o no.
(2) Hiptesis de especificacin correcta . Esta hiptesis supone que las
k
variables explicativas del modelo son aquellas variables
relevantes que explican el comportamiento de la endgena. Y que
estn todas. No existe ninguna variable
i
x
que no explique nada de
la
y
. Es decir, el modelo est bien planteado o especificado.
Esta hiptesis supone aceptar en la prctica dos cosas no siempre
ciertas:
(a) Aceptar que siempre hay una teora detrs que me permite
saber cales son las variables relevantes en cada modelo.
(b) Aceptar que sobre estas variables dispongo siempre de
informacin muestral adecuada.
El incumplimiento de esta hiptesis se da en muchos casos. Ejemplo: Si
uno quiere estimar con datos de seccin cruzada una funcin de consumo
keynesiana, adems de la renta familiar, existen otras muchas variables que
explican el comportamiento del consumo de una familia. Por ejemplo, el
nmero de hijos, la edad del cabeza de familia, si la mujer trabaja o no, si
se vive en el campo o en la ciudad, etc. Sin embargo, nunca ser posible
incluir todas y cada una de las variables que determinan el consumo de una
familia.
(3) Hiptesis de grados de libertad positivos . Los grados de libertad
de un modelo se definen como la diferencia entre el nmero de datos
(
n
) y el nmero de variables explicativas (
k
). Es decir,
0 gl n k
.
Esta hiptesis supone que, como mnimo, es necesario disponer de
tantos datos como parmetros a estimar. No obstante, es preferible
siempre disponer de ms datos que parmetros a estimar. En el ejemplo
de la funcin de consumo keynesiana hay que estimar dos parmetros (a
y b). Con un nico dato, no sera posible estimar de forma nica ambos
9
parmetros. Con dos datos, sera posible obtener una nica estimacin
de a y b, pero para que la estimacin sea estable, es mejor tener una
nube de datos y pocos parmetros a estimar.
(4) Hiptesis de parmetros constantes . Esta hiptesis supone que los
parmetros
1 2
, ,...,
k
son constantes en el tiempo.
Si trabajamos con n datos en la funcin de consumo keynesiana,
suponer que la propensin marginal a consumir es constante en el
tiempo, implica que se obtiene una estimacin que ha de interpretarse
como la propensin marginal a consumir media en ese perodo de
tamao n. Si el perodo muestral con el que se trabaja es muy amplio y
heterogneo (por ejemplo, incluye perodos de crisis y de auge), es ms
difcil mantener esta hiptesis que si la muestra es homognea.
(5) Hiptesis de independencia lineal entre las variables
explicativas. Esta hiptesis implica que cada variable explicativa
contiene informacin adicional sobre la endgena que no est
contenida en otras. Si hubiera informacin repetida, habra variables
explicativas dependientes linealmente de otras. Formalmente, se
puede resumir la informacin muestral sobre las
k
variables
explicativas (regresores) en una matriz, denotada por X , de tamao
n k
con la siguiente estructura:
11 1
1
k
n nk
x x
x x
_
,
K
M O M
L
donde cada columna recoge los datos asociados a cada variable
x
. El
hecho de que cada columna sea linealmente independiente de las otras
implica que el rango de la matriz X es completo, es decir, igual a
k
. Si
alguna variable
x
es linealmente dependiente de otra, decimos que
existe un problema de multicolinealidad exacta.
(6) Hiptesis de regresores no estocsticos . Esta hiptesis implica que
los datos de las variables explicativas son fijos en muestras
repetidas. Es decir, el valor de las variables explicativas es constante
en la funcin de distribucin de la endgena.
Existen tres situaciones en Econometra donde no es posible
mantener esta hiptesis:
10
(6.1) Modelos de ecuaciones simultneas. Por ejemplo, un modelo de
demanda y de oferta de un bien que se intercambia en un mercado
competitivo en equilibrio, se puede escribir:
1
d
t t t
q a bp + +
2
o
t t t
p c dq + +
, 1, 2, ,
d o
t t
q q t n K
donde se observa una relacin bidireccional entre el precio (
t
p
) y la
cantidad intercambiada (
d
t
q
o
o
t
q
), de forma que el precio es una
exgena en la ecuacin de demanda y pasa a ser la endgena en la
ecuacin de oferta y por tanto, esto hace que sea un regresor estocstico.
(6.2) Modelos dinmicos en los que aparecen como regresores sucesivos
retardos de la variable endgena. Por ejemplo, si en la relacin entre
consumo y renta se supone un modelo dinmico como:
1 2 1 3 t t t t
C C Y
+ + +
donde el propio modelo indica que el consumo retardado es un regresor
estocstico al depender un error aleatorio,
1 t
. Es decir:
1 1 2 2 3 1 1 t t t t
C C Y
+ + +
(6.3) Modelos con errores de medida en las variables explicativas. Bajo
la hiptesis de renta permanente de Friedman, el consumo slo depende
del componente permanente de la renta (
P
t
Y
):
P
t t t
C bY +
P T
t t t
Y Y Y +
donde el componente transitorio (
T
t
Y
) o las desviaciones aleatorias
alrededor de la renta media de un agente no es observable. Por tanto, la
renta permanente (
P
t
Y
) es un regresor estocstico, ya que
P T
t t t
Y Y Y
.
De hecho, estos 3 incumplimientos dan lugar a 3 temas de econometra .
(7) Hiptesis referentes a las perturbaciones aleatorias del modelo .
El trmino de error
t
tenga
esperanza nula. Se usan las hiptesis de parmetros constantes y
regresores no estocsticos.
(7.2) Varianza constante (Homocedasticidad). Supone que al cumplirse
(7.1), la
2 2
var( ) ( ) , 1, 2, ,
t t
E t n K
. Si la variabilidad (o dispersin
alrededor de la media) de las perturbaciones cambia con el tiempo
hablamos de heterocedasticidad.
Es muy frecuente la heterocedasticidad en modelos donde se usan datos
de seccin cruzada. Si tenemos la funcin de consumo familiar utilizada
hasta ahora, es fcil comprender que aquellas familias con mayor nivel
de renta tengan mayor variabilidad en su consumo (adems de satisfacer
necesidades bsicas, pueden consumir otras cosas). Puesto que el error
del modelo est relacionado con el consumo, lo que ocurrir es que a
mayor renta, mayor varianza en el consumo y por tanto, mayor varianza
en el error.
(7.3) Ausencia de autocorrelacin en todo instante de tiempo. Implica
que la
cov( ) ( ) 0, , 1, 2, ,
t s t s
E t s n t s K
. Si hay autocorrelacin, el
error en un momento del tiempo ayudara a predecir el error en un
12
momento posterior y los errores tendran inercia. Si no hay
autocorrelacin, la historia pasada no ayuda a predecir el
comportamiento futuro y los errores son completamente aleatorios e
imprevisibles.
Es muy frecuente el incumplimiento de esta hiptesis en modelos
donde se usan datos de series temporales.
Estas restricciones se imponen para exigir un buen
comportamiento a las variables
t
_
,
=
1
.
n
_
,
Matriz de varianzas y covarianzas: Sera una matriz que recoge las
varianzas de cada variable en la diagonal principal y las covarianzas
entre una perturbacin y otra diferente fuera de la diagonal. Es
simtrica, definida positiva y de tamao
n n
.
2
1 1 2 1 1 1 2 1
2
2 1 2 2 2 1 2 2
2
1 2 1 2
var( ) cov( ) . cov( ) ( ) ( ) . ( )
cov( ) var( ) . cov( ) ( ) ( ) . ( )
var( )
. . . . . . . .
cov( ) cov( ) . var( ) ( ) ( ) . ( )
n n
n n
n n n n n n
E E E
E E E
E E E
_ _
, ,
Los elementos diferentes de dicha matriz son
( 1)
2
n n +
. No obstante, si la
muestra disponible es de tamao
n
, ya no tenemos grados de libertad
para caracterizar el trmino de error, ya que habra que estimar
n
medias y
( 1)
2
n n +
varianzas y covarianzas distintas. Las hiptesis (7)
hacen que el vector de medias sea nulo y la matriz de var-cov una
matriz diagonal, en donde slo habra que estimar la varianza constante
2
, ya que por ausencia de autocorrelacin todas las covarianzas son
cero.
13
NOTACIN MATRICIAL DEL MODELO LINEAL GENERAL
La informacin asociada a la variable endgena se almacena en un
vector columna Y de tamao
1 n
:
Y =
1
.
n
y
y
_
,
La informacin asociada a las variables explicativas se recoge en una
matriz llamada X de tamao
n k
:
X =
11 1
1
.
. . .
.
k
n nk
x x
x x
_
,
Las perturbaciones en un vector
de tamao
1 n
y los parmetros en
un vector
de tamao
1 k
:
=
1
.
n
_
,
;
=
1
.
k
_
,
El modelo lineal general (MLG) escrito en forma matricial o compacta
es:
1
.
n
y
y
_
,
=
11 1
1
.
. . .
.
k
n nk
x x
x x
_
,
1
.
k
_
,
+
1
.
n
_
,
o bien, Y =X
) = 0 ; var (
) = E(
T
) =
2
I, donde I es la matriz identidad
14
METODOS DE ESTIMACIN DEL MODELO LINEAL SIMPLE
Y GENERAL
Estimacin del modelo lineal simple:
Supongamos que queremos estimar los parmetros de la funcin de
consumo keynesiana (modelo de regresin lineal simple):
t t t
C a bY + +
donde a es el consumo autnomo y b la propensin marginal a
consumir. Para ello, se dispone de una muestra de n datos de consumo y
renta que se puede representar en el plano
t
C
e
t
Y
. Cada punto
representa el par de valores de Consumo y Renta observados en ese
perodo (ao) concreto. Esto se denomina NUBE DE PUNTOS real,
donde habr tantos puntos como datos utilizados.
Grfico: Nube de puntos real y recta de ajuste
500
1000
1500
2000
2500
500 1000 1500 2000 2500 3000
RENTA
C
O
N
S
U
M
O
Si suponemos un modelo lineal entre ambas variables, dada la nube de
puntos, una estimacin del modelo viene dada por una recta llamada
RECTA DE AJUSTE definida por:
t
a bY +
donde
a
representa una estimacin del consumo autnomo y
b una
estimacin de la propensin marginal a consumir. Para cada valor de
t
Y
,
la recta de ajuste genera un valor de consumo que denotamos por
t
C
,
que no tiene por qu coincidir con el consumo real
t
C
. Si dado un valor
de la
t
Y
, el modelo predice un valor de consumo tal que
t t
C C
, en ese
instante de tiempo el modelo ajusta perfectamente. Si dado un valor de
la
t
Y
, el modelo genera un valor del consumo tal que
t t
C C <
, el modelo
15
infraestima el verdadero valor del consumo en ese ao y comete un
error. Este error es medible y se denomina RESIDUO, es decir
t t t
C C
. El residuo puede ser nulo, positivo o negativo, si el modelo
acierta, infraestima o sobrestima el verdadero valor de consumo. En
general, en todos los puntos de la nube real por encima de la recta de
ajuste, el verdadero valor de consumo est por encima de lo que predice
la recta; en los puntos sobre la recta de ajuste el modelo no se equivoca
y en los puntos de la nube real por debajo de la recta, el verdadero valor
de consumo est por debajo de lo que ajusta el modelo (la recta).
El objetivo ahora es conseguir una estimacin de a y b de manera que se
cumpla algn criterio de optimalidad. Por ejemplo, un criterio sera
minimizar la suma de los residuos cometidos en toda la muestra:
1 1
min min
n n
t t t
t t
C a bY
Este no es un buen criterio, ya que los errores individuales que comete
el modelo pueden ser muy grandes, pero al tener signo los errores
grandes y positivos se pueden compensar con los grandes y negativos.
La solucin obvia es eliminar en este criterio el signo de los residuos,
tomando por ejemplo el valor absoluto:
1
min
n
t
t
min min ( )
n n
t t t
t t
C a bY
que tiene las ventajas de (1) eliminar la compensacin de errores por el
signo, (2) penalizar ms los errores grandes que los pequeos y (3)
llevar a una solucin analtica sencilla. Este criterio de estimacin es el
ms conocido en Econometra y se denomina MCO (Mnimos
Cuadrados Ordinarios).
16
Ejemplo: Obtener la expresin MCO para
a
y
b en la funcin de
Consumo Keynesiana:
2 2
1 1
min min ( )
n n
t t t
t t
C a bY
Solucin: Condiciones de primer orden:
2
1
1
2 ( ) 0
n
t n
t
t t
t
C a bY
a
2
1
1
2 ( ) 0
n
t n
t
t t t
t
C a bY Y
b
( )
n n n n
t t t t t
t t t t
b Y Y Y CY C Y
1 1
2 2 2
1 1
( )( )
( )
n n
t t t t
t t
n n
t t
t t
CY nCY C C Y Y
b
Y nY Y Y
Las dos frmulas en los recuadros son los estimadores MCO para los
parmetros a y b. Para una muestra concreta de Consumo y Renta, el
17
estimador proporciona una estimacin concreta del consumo autnomo
y de la propensin marginal a consumir.
Ejercicio para el estudiante: Comprobar que la solucin obtenida es un
mnimo. Es decir, mostrar que el hessiano es definido positivo:
2 2 2 2
2
2 2 2 2
2
( )
( )
t t
t t
a
a b
H
b a b
1
1
1
1
1
]
Estimacin del modelo lineal general (MLG):
Dada la formulacin matricial del MLG, Y =X
, el objetivo es,
de nuevo, obtener la expresin analtica del estimador MCO de
. Para
ello, se define el vector de residuos
de tamao
1 n
que una vez
conseguida una estimacin del vector
, se calcular como:
Y X
La funcin objetivo sigue siendo minimizar la suma de cuadrados de los
residuos con respecto a los k parmetros del modelo que puede
escribirse como:
2
1
min min min( ) ( )
n
T T
t
t
Y X Y X
Operando:
min( )( ) min( 2 )
T T T T T T T T T
Y X Y X Y Y X Y X X +
Condiciones de primer orden:
2 2 0
T
T T
X Y X X
; 2
T
z Az
Az
z
18
siendo z y w dos vectores de tamao compatible y A una matriz
cuadrada. La solucin analtica a las condiciones de primer orden es:
T T
X X X Y
Este es un sistema de k ecuaciones con k incgnitas (
1 2
, ,...,
k
),
llamado sistema de ecuaciones normales. El estimador
que satisface
este sistema se llama estimador por MCO. La forma ms sencilla de
resolver este sistema es premultiplicar el mismo por la inversa de la
matriz
T
X X de tamao (
k k
), teniendo que:
1
( )
T T
X X XY
:
Linealidad: El estimador MCO de
, el estimador MCO de
se
puede escribir como
. Si la
que el insesgado, el primero tendra menos varianza que el segundo. Es
decir, a veces un pequeo sesgo compensa por la menor varianza.
Prueba: La expresin del estimador MCO de
,
1
( )
T T
X X X Y
, se
puede escribir como
1
( )
T T
X X X
( ) [ ( ) ] ( ) [( ) ] ( ) ( )
T T T T T T
E E X X X E E X X X X X X E
+ + +
donde se han usado las hiptesis de (1) parmetros constantes, (2)
regresores fijos e independientes linealmente y (3) esperanza nula del
trmino de error .
Eficiencia: El estimador MCO de
.
1 1
var( ) [( )( ) ] [( ) ( ) ]
T T T T T
E E X X X X X X
Sabiendo que por hiptesis los regresores son fijos:
1 1
var( ) ( ) ( ) ( )
T T T T
X X X E X X X
var( ) ( )
T
X X
n
T t
t
n k n k
20
Este estimador es insesgado, es decir, la
2 2
( ) E
, ya que la
2
( ) ( )
T
E n k
.
Prueba: El vector de residuos MCO se puede escribir como:
1 1
( ) [ ( ) ]
T T T T
Y Y Y X Y X X X X Y I X X X X Y MY
donde la matriz M de tamao
( ) n n
es la llamada matriz de proyeccin
que tiene propiedades importantes: (1) es simtrica, (2) idempotente ,(3)
no tiene inversa y (4) es ortogonal a la matriz X , es decir,
0 MX
.
Ejercicio para el estudiante: Probar estas cuatro propiedades de la matriz
M .
A partir de la relacin anterior y de las propiedades de la matriz M , se
obtiene:
( ) MY M X M +
. Por tanto, siempre que se desee la
suma de cuadrados de los residuos se puede escribir como una forma
cuadrtica:
T T
M
Finalmente, la esperanza de esa suma es igual a:
2 2
( ) ( ) [ ( )] [ ( )]
[ ( )] [ ( )] [ ] [ ]
T T T T
T T
E E M E tr M E tr M
tr E M tr ME tr M tr M
y la traza de la matriz M :
1 1 1
( ) [ ( ) ] [ ( ) ] [( ) ]
T T T T T T
tr M tr I X X X X n tr X X X X n tr X X X X n k
ya que la matriz M es cuadrada y de dimensin
n
y
1
( )
T
X X
de tamao
( ) k k
. De hecho, la prueba de que esta matriz no tiene inversa es
inmediata, ya que el rango de una matriz idempotente coincide con su
traza.
Una vez obtenido un estimador insesgado de la varianza residual, dada
cualquier muestra de Y y X en el MLG, los pasos en la estimacin
MCO son:
(1)
1
( )
T T
X X X Y
(2)
2
T
n k
21
(3)
2 1
var( ) ( )
T
X X
y
2
.
Solucin: El clculo de la expresin
1
( )
T T
X X X Y
para esta muestra
es:
2
11 99
99 1001
t T
t t
n x
X X
x x
1
1
1
1
]
]
82.51
797.60
t T
t t
y
X Y
y x
1
1
1
1
]
]
1
1
2
1
1 1 1 1 1
1
1 1 1 1 1
] ] ] ] ] 1
]
El modelo estimado se escribe
3 0.5
t t
y x +
. La estimacin de la varianza
residual por MCO exige calcular la suma de cuadrados de residuos:
1 1 1 11 11 11
8.04 8 0.04;...; 5.68 5.5 0.18 y y y y
11
2
11
2 2 1
1
14
14; 1.55
11 2
t
t
t
t
SR
n k
y
2
es:
22
1 1 2 2 1
1 2 2
var( ) cov( ) 1001 99 1.27 0.13
1.55
var( ) ( )
99 11 0.13 0.014 1210
cov( ) var( )
T
X X
1
1 1
1
1 1
] ] 1
]
Propiedades algebraicas del criterio de estimacin MCO
Hay que distinguir las propiedades algebraicas del criterio MCO
dependiendo de si el modelo incorpora o no un trmino constante. El
sistema de ecuaciones normales para un modelo con trmino constante
tiene la siguiente estructura:
T T
X X X Y
o bien:
1
12 1 1
12 22 2 22 2 12 22 2 2
2
1 2 2 1 2
1 1 . 1 1 . 1 1 . 1
. 1 . .
. . . . . . . . . . . . .
.
. 1 . .
k
n k n
k k nk n nk k k nk n
k
x x y
x x x x x x x x y
x x x x x x x x y
1
1 1 1 1
1
1 1 1 1
1
1 1 1 1
1
1 1 1 1
1
1 1 1 1
1 1 1 1 1
] ] ] ]
]
donde la primera columna de la matriz X es determinista y vale siempre
uno (es el llamado trmino constante del modelo). Operando en el
sistema anterior, se obtiene:
1
2 3
2
2 2 3 2 2
2
2
.
. . . . .
.
. . .
t t tk t
t t t t tk t t
tk tk t
k
n x x x y
x x x x x x y
x x y
1
1 1
1
1 1
1
1 1
1
1 1
1
1 1
1
1 1
] ]
]
La primera ecuacin del sistema de ecuaciones normales de un modelo
con trmino constante es:
1 2 2
...
t tk k t
n x x y + + +
o bien, en trminos matriciales:
T T
i X i Y
donde
T
i es un vector fila unitario de tamao
n
;
[ ]
1 1 . 1
T
i
. A partir
de esta primera ecuacin que cumple el criterio MCO es fcil derivar
algunas propiedades algebraicas:
23
Propiedad 1. En el MLG con trmino constante estimado por MCO, la
media muestral de los residuos es nula, es decir, 0 .
Prueba: A partir de la primera ecuacin normal de un modelo con
constante:
( ) 0 ( ) 0 0 0
T T T T T
t
i X i Y i Y X i Y Y i
Y Y
.
Prueba: A partir de la primera ecuacin normal de un modelo con
constante:
T T T T
t t
i X i Y i Y i Y y y
Propiedad 3. En el MLG con o sin trmino constante estimado por
MCO, los residuos son ortogonales a las variables explicativas, es decir:
0
T
X . En trminos escalares,
1
0, 1, 2,...,
n
ti t
t
x i k
.
Prueba: A partir del sistema de ecuaciones normales MCO:
( ) 0 0
T T T T
X X X Y X Y X X
Propiedad 4. En el MLG con o sin trmino constante estimado por
MCO, los residuos son ortogonales a la variable endgena ajustada, es
decir:
0
T
Y . En trminos escalares,
1
0
n
t t
t
y
.
Prueba: A partir de la misma condicin de ortogonalidad:
0 ( ) 0 0
T T T T
Y X X
teniendo en cuenta la propiedad 3 de ortogonalidad entre los residuos y
los regresores.
Propiedad 5. En el MLG con o sin trmino constante estimado por
MCO, la suma de cuadrados de la variable endgena real es igual a la
24
suma de cuadrados de la variable ajustada ms la suma de cuadrados de
residuos, es decir:
T T T
Y Y Y Y + . O bien, escrita en trminos escalares,
2 2 2
1 1 1
n n n
t t t
t t t
y y
+
.
Prueba: La suma de cuadrados de residuos MCO se puede escribir
como:
( ) ( ) 2
T T T T T T T
Y X Y X Y Y X Y X X +
Sustituyendo en el ltimo sumando la expresin analtica del estimador
MCO de
:
1
2 ( )
T T T T T T T T T T T
Y Y X Y X X X X X Y Y Y X Y
+
Finalmente:
T T T T T
Y Y X X X Y
Ejercicio para el estudiante: Probar de una manera diferente esta
propiedad haciendo uso de la propiedad 4.
Propiedad 6. En el MLG con trmino constante estimado por MCO, la
propiedad 5 se cumple cuando las variables se expresan en desviaciones
con respecto a sus medias, es decir:
( ) ( ) ( ) ( ) ( ) ( )
T T T
Y iY Y iY Y iY Y iY i i +
donde
i
es una columna unitaria de tamao n.
Prueba: Aplicando las propiedades algebraicas 1 y 2, la expresin
anterior en trminos escalares queda reducida a:
2 2 2
( ) ( )
t t t
y y y y +
y operando
2 2 2 2 2
t t t
y ny y ny +
, que se corresponde con la
propiedad 5.
A la suma de cuadrados de los valores de la endgena alrededor de
su media se le llama ST (Suma Total); a la suma de cuadrados de la
variable ajustada en desviaciones SE (Suma Explicada) y a la suma de
cuadrados de residuos se le denomina SR (Suma Residual). Por tanto,
esta ltima propiedad se expresa como
ST SE SR +
. La interpretacin
de esta igualdad es una descomposicin de varianzas. Es decir,
25
dividiendo por
n
, indica que de toda la variabilidad que hay que
explicar de la endgena (ST), hay una parte captada por el modelo (SE)
y otra parte que no puede ser explicada (SR). Si el modelo ajusta
perfectamente la SR=0 y la ST=SE. Si el modelo no explica nada, la
0 SE
y la
ST SR
.
Ejercicio para el estudiante: Comprobar que se cumplen estas 6
propiedades con los datos del ejercicio numrico 1.
Medidas de bondad de ajuste en la regresin
La SR puede ser una medida de bondad de ajuste. No obstante, no es
buena medida, ya que los residuos tienen escala y esta suma cambia ante
un simple de escala en los datos de la endgena.
Adems, la SR como mnimo es nula, pero su valor mximo no est
acotado. Si queremos una medida adimensional y acotada, se puede
definir un ratio de sumas. La medida de ajuste ms conocida es el
llamado coeficiente de determinacin o
2
R del modelo definido como:
2
1
SE SR
R
ST ST
en donde se ha usado la propiedad de que la
ST SR SE +
, por lo que la
expresin dada se corresponde con una medida de bondad slo vlida si
el modelo tiene trmino constante.
El valor del
2
R (multiplicado por 100) se interpreta como el porcentaje
de la varianza de la endgena que queda explicada por el modelo.
Adems, est acotado entre cero y uno. Si el
2
0 R , el ajuste es nulo, ya
que la
0 SE
. Si el
2
1 R , el ajuste es perfecto, ya que la
SE ST
, o
bien, la
0 SR
. Ajustes intermedios daran lugar a un
2
0.5 R .
Ejercicio para el estudiante: Probar que en un modelo como
t t
y +
,
el
2
0 R .
El
2
R es muy fcil de calcular y muy usado, pero hay que tener en
cuenta que tiene problemas.
Problemas del
2
R . En primer lugar, puede ser engaoso mirar slo el
2
R sin mirar los datos. Muchas veces, el
2
R es muy alto en relaciones
espreas. El ejemplo ms famoso en la literatura economtrica es la
relacin entre el N de nacimientos en un ao en los EEUU y el N de
26
cigueas en ese mismo ao y estados. La estimacin del modelo que
explica el N de nacimientos en funcin del N de cigueas proporciona
un
2
R muy elevado y esto sabemos que es espreo. La razn es que en
ese ao la correlacin muestral entre ambas variables fue muy alta y
aunque no hay ninguna relacin causal entre ambas, el coeficiente de
determinacin es bueno, pero engaoso.
En relaciones donde tiene sentido relacionar determinadas variables
(Consumo y Renta), el coeficiente de determinacin puede ser
excesivamente alto si en el perodo muestral considerado ambas
variables evolucionan de forma muy parecida o presentan una tendencia
comn.
Otro problema distinto del
2
R convencional es que nunca empeora
cuando en el modelo introducimos variables explicativas adicionales. Es
decir, aunque una nueva variable no sea muy relevante, su
incorporacin hace que, en el peor de los casos, el
2
R no cambie, o bien,
con un poco de suerte, aumente. Introducir un nuevo regresor en el
modelo tiene dos efectos: (1) disminuyen los grados de libertad y ste es
negativo y (2) disminuye la suma residual y ste es positivo. Si el peso
del efecto negativo es mayor que la mejora en el ajuste, no compensar
introducir esta nueva variable y a la inversa.
La solucin a ste ltimo problema es utilizar el llamado
2
R ajustado o
corregido de grados de libertad (
2
R ) que se calcula como:
2 2
1
1 (1 )
n
R R
n k
y (2)
Esos nuevos regresores pueden mejorar el modelo en trminos de ajuste,
es decir:
2 2
k SR R R . Si el efecto de penalizacin es menor
que el efecto de mejora en el ajuste, el
2
R aumentar e indicar que
compensa la introduccin de esas nuevas variables y a la inversa.
Como ejemplo, supongamos que se han estimado dos funciones de
consumo alternativas:
2
; 0.80
t t t
C a bY R + +
2
; 0.87
t t t t
C a bY ci R + + +
27
donde
t
i
es un Tipo de inters. Ambos modelos estn anidados ya que se
quiere explicar el Consumo en funcin de la Renta (en el primero) o
bien, introducir un nuevo regresor (Tipo de inters) en el modelo ms
sencillo. El hecho de que el
2
R sea mayor en el modelo ms complicado
indica que el Tipo de inters es una variable que compensa introducir
(en trminos de ajuste) a pesar de que los grados de libertad hayan
disminuido.
Derivacin del
2
R : Se obtiene a partir del
2
R convencional
2
/
1 1
/
SR SR n
R
ST ST n
donde dividiendo por n la Suma Residual y la Suma Total, esta medida
se puede interpretar como un ratio de varianzas. Implantando la
restriccin de que los estimadores de las varianzas residual y de la
variable endgena sean insesgados, se obtiene el
2
R corregido de los
grados de libertad:
2 2
/ 1
1 1 (1 )
/ 1
SR n k n
R R
ST n n k
Ejercicio para el estudiante: Calcular el
2
R convencional y el corregido
usando los datos del ejercicio numrico 1. Interpretar este coeficiente.
Prctica con los datos de Anscombe y Eviews.
En un conocido trabajo publicado por F.J. Anscombe en 1973 (Graphs
in Statistical Analysis, The American Statistician, 27, pp.17-21), se
ilustran algunos aspectos bsicos del anlisis de regresin lineal usando
los datos simulados que figuran en la tabla siguiente (tambin en
www.ucm.es/info/ecocuan/ectr1):
t
1 t
y
2 t
y
3 t
y
4 t
y
1 t
x
2 t
x
1 8.04 9.1
4
7.46 6.58 10.0
0
8.00
2 6.95 8.1
4
6.77 5.76 8.00 8.00
3 7.58 8.7
4
12.7
4
7.71 13.0
0
8.00
4 8.81 8.7 7.11 8.84 9.00 8.00
28
7
5 8.33 9.2
6
7.81 8.47 11.0
0
8.00
6 9.96 8.1
0
8.84 7.04 14.0
0
8.00
7 7.24 6.1
3
6.08 5.25 6.00 8.00
8 4.26 3.1
0
5.39 12.5
0
4.00 19.00
9 10.8
4
9.1
3
8.15 5.56 12.0
0
8.00
1
0
4.82 7.2
6
6.42 7.91 7.00 8.00
1
1
5.68 4.7
4
5.73 6.89 5.00 8.00
Dada esta informacin se pide:
(1) Estimar por MCO las cuatro regresiones con trmino
constante que se indican a continuacin:
(a)
1 11 12 1 1 t t t
y x + +
(b)
2 21 22 1 2 t t t
y x + +
(c)
3 31 32 1 3 t t t
y x + +
(d)
4 41 42 2 4 t t t
y x + +
Usando Eviews, los resultados son:
Modelo (a)
Dependent Variable: Y1
Method: Least Squares
Date: 11/06/03 Time: 17:03
Sample: 1 11
Included observations: 11
Variable Coefficient Std. Error t-Statistic Prob.
C 3.000091 1.124747 2.667348 0.0257
X1 0.500091 0.117906 4.241455 0.0022
R-squared 0.666542 Mean dependent var 7.500909
Adjusted R-squared 0.629492 S.D. dependent var 2.031568
S.E. of regression 1.236603 Akaike info criterion 3.425579
Sum squared resid 13.76269 Schwarz criterion 3.497924
Log likelihood -16.84069 F-statistic 17.98994
Durbin-Watson stat 3.212290 Prob(F-statistic) 0.002170
29
Modelo (b)
Dependent Variable: Y2
Method: Least Squares
Date: 11/06/03 Time: 17:22
Sample: 1 11
Included observations: 11
Variable Coefficient Std. Error t-Statistic Prob.
C 3.000909 1.125302 2.666758 0.0258
X1 0.500000 0.117964 4.238590 0.0022
R-squared 0.666242 Mean dependent var 7.500909
Adjusted R-squared 0.629158 S.D. dependent var 2.031657
S.E. of regression 1.237214 Akaike info criterion 3.426567
Sum squared resid 13.77629 Schwarz criterion 3.498912
Log likelihood -16.84612 F-statistic 17.96565
Durbin-Watson stat 2.187570 Prob(F-statistic) 0.002179
Modelo (c)
Dependent Variable: Y3
Method: Least Squares
Date: 11/06/03 Time: 17:26
Sample: 1 11
Included observations: 11
Variable Coefficient Std. Error t-Statistic Prob.
C 3.002455 1.124481 2.670080 0.0256
X1 0.499727 0.117878 4.239372 0.0022
R-squared 0.666324 Mean dependent var 7.500000
Adjusted R-squared 0.629249 S.D. dependent var 2.030424
S.E. of regression 1.236311 Akaike info criterion 3.425107
Sum squared resid 13.75619 Schwarz criterion 3.497452
Log likelihood -16.83809 F-statistic 17.97228
Durbin-Watson stat 2.143578 Prob(F-statistic) 0.002176
Modelo (d)
Dependent Variable: Y4
Method: Least Squares
Date: 11/06/03 Time: 17:26
Sample: 1 11
Included observations: 11
Variable Coefficient Std. Error t-Statistic Prob.
C 3.001727 1.123921 2.670763 0.0256
X2 0.499909 0.117819 4.243028 0.0022
R-squared 0.666707 Mean dependent var 7.500909
Adjusted R-squared 0.629675 S.D. dependent var 2.030579
S.E. of regression 1.235695 Akaike info criterion 3.424111
Sum squared resid 13.74249 Schwarz criterion 3.496455
Log likelihood -16.83261 F-statistic 18.00329
Durbin-Watson stat 1.662223 Prob(F-statistic) 0.002165
30
Obsrvese que en los cuatro modelos coinciden todos los resultados
MCO: (1) La estimacin puntual de la constante y la pendiente, (2) la
media y la desviacin tpica muestral de la variable dependiente, (3) el
coeficiente de determinacin convencional y corregido, (4) la suma de
cuadrados de residuos (5) la desviacin tpica residual y (6) las
desviaciones tpicas de los parmetros estimados por MCO.
A la vista de estos resultados, los cuatro modelos ajustan igual.
Aproximadamente el 66.7% de las fluctuaciones de la endgena vienen
explicadas por la variabilidad de la exgena. Sin embargo, los datos
utilizados no son los mismos. Muchas veces, la representacin grfica
de los datos nos ayuda a entender los resultados numricos de una
simple estimacin lineal.
(2) Represente grficamente la nube de puntos real junto con la
recta ajustada en cada uno de los cuatro modelos
considerados:
4
6
8
10
12
2 4 6 8 10 12 14 16
X1
Y
1
2
4
6
8
10
2 4 6 8 10 12 14 16
X1
Y
2
4
6
8
10
12
14
2 4 6 8 10 12 14 16
X1
Y
3
4
6
8
10
12
14
5 10 15 20
X2
Y
4
31
En el modelo (a) la relacin entre las variables es ms o menos
lineal, luego la hiptesis de linealidad en los parmetros hace que el
ajuste sea razonable.
En el modelo (b) la relacin entre las variables es claramente no
lineal y el ajuste podra mejorar claramente especificando el modelo de
otras formas, como por ejemplo:
2
1 2 3 t t t t
y x x + + +
1 2
ln
t t t
y x + +
En el modelo (c) todos los puntos de la nube real, exceptuando uno,
se ajustan casi perfectamente en una recta que no es la estimada porque
ese valor atpico (el tercer par de valores) hace que la recta de ajuste
cambie de pendiente y el ajuste sea peor. En este caso, se aprende que la
presencia de una o ms observaciones atpicas pueden alterar todos los
resultados de la estimacin. Por tanto, el tratamiento de atpicos antes de
estimar una relacin puede ser crucial.
En el modelo (d) tenemos otro problema diferente en los datos. Los
datos de la variable explicativa
2 t
x
son todos igual a 8, exceptuando el
octavo valor, que es igual a 19. De hecho, ste es el dato que hace que la
recta de ajuste est anclada donde est. Si eliminramos el par de
valores de la endgena y de la exgena para el instante t=8, no sera
posible estimar por MCO el modelo, ya que seran perfectamente
colineales la constante y la variable explicativa (la primera vale uno en
toda la muestra y la segunda vale 8).
Ejercicios para el estudiante usando EViews: (1) Con los datos
usados en el modelo (b) reestime usando las especificaciones
alternativas que se proponen. Compare los resultados. (2) Cmo
cambian los resultados de la estimacin del modelo (c) si se elimina el
tercer par de valores observados sobre
3 t
y
y
1 t
x
?. (3) Qu propiedad
tiene la matriz
T
X X si se elimina el octavo par de valores de
4 t
y
y
2 t
x
en la regresin (d)?
ESTIMACIN DEL MLG POR MXIMA VEROSIMILITUD
Es otro mtodo de estimacin del vector de parmetros
en el
MLG. Este criterio proporciona un valor de los parmetros que
maximizan la probabilidad (o verosimilitud) de que con ese valor se
generen las mismas observaciones de la variable Y que las observadas.
32
Es decir, maximiza la verosimilitud de que el modelo estimado
proporcione los mismos datos de Y que los observados en la realidad.
Es un criterio de estimacin que tiene propiedades tericas ms
fuertes que el MCO. A cambio, requiere de una hiptesis adicional: la
hiptesis de normalidad de las perturbaciones del modelo. De hecho,
esta hiptesis se puede justificar por diversos motivos:
(a) Sabemos que
t
( )
MCO
f
.
Esto es crucial para poder hacer inferencia estadstica
acerca de
.
(d) La distribucin normal es una distribucin sencilla,
caracterizada slo por dos parmetros (media y varianza).
Sus propiedades tericas han sido ampliamente estudiadas.
Derivacin de la funcin de verosimilitud del modelo:
Si
( , ) N :
, es decir, una normal multivariante con media
y matriz
de varianzas
' ;
Dadas las hiptesis habituales sobre
, sabemos que
0
y
2
I y la
funcin de densidad anterior es ms simple:
33
/ 2 2 / 2
2
1
( ) (2 ) exp
2
n n T
f
' ;
Puesto que Y es una funcin de
, conocemos la funcin de
distribucin de Y , aplicando el resultado de que:
( ) ( ) f Y f
Y
' ;
siendo la funcin de verosimilitud cuando depende de los parmetros
y
2
, dada una muestra de Y y X . Esta es la funcin de densidad
conjunta de Y y X , dados los valores de los parmetros
y
2
.
Obtener la expresin de los estimadores por mxima verosimilitud de
y
2
, supone maximizar la funcin de verosimilitud,
2
( , ) L
. Para que
sea ms fcil y puesto que no cambia el ptimo se maximiza el
logaritmo neperiano de la funcin de verosimilitud:
2 2
2
1
max ln ( , ) ln 2 ln ( ) ( )
2 2 2
T
n n
L Y X Y X
Condiciones de primer orden:
2
1
2
ln ( , ) 1
( 2 2 ) 0 ( )
2
T T T T
MV
L
X Y X X X X X Y
2
2
2 2 4
ln ( , ) ( ) ( ) 1
0
2 2
T T
MV
L n Y X Y X
n
,
Por tanto, el estimador MV de
1
1
1
1
]
Propiedades estadsticas del estimador MV: La cota de Cramer Rao
proporciona la mnima varianza que puede alcanzar cualquier estimador
insesgado de un vector de parmetros. Dicha cota viene dada por la
inversa de la matriz de informacin ( I ), donde sta viene definida por la
esperanza del hessiano cambiada de signo. Es decir:
2
2
ln ( ) L
I E
1
1
]
, siendo
2
1
]
Tomando las derivadas segundas a las condiciones de primer orden, se
tiene que:
2 2
2 2
ln ( , )
T
L X X
2 2
2 4
ln ( , ) [ ]
( )( )
T
L X X Y
2 2
2 2 4 6
ln ( , ) [ ] [ ]
( )( ) 2
T
L n Y X Y X
y formando el hessiano:
35
2 4
4 6
[ ]
[ ] [ ]
2
T T
T
X X X X Y
H
n Y X Y X
1
1
1
1
]
La esperanza de los trminos del hessiano es igual a:
2 2
T T
X X X X
E
1
1
]
4 4
[ ]
0
T T
X X Y X
E E
1 1
1 1
] ]
2
4 6 4 6 4 6 4
[ ] [ ] [ ]
2 2 2 2
T T
n Y X Y X n E n n n
E
1
1
]
Puesto que la matriz de informacin es diagonal por bloques, su inversa
tambin y tiene la expresin:
2 1
1
4
( ) 0
2
0
T
X X
I
n
1
1
1
1
]
Esta matriz indica que la cota inferior para la varianza de un estimador
insesgado de
es
2 1
( )
T
X X
y la cota inferior para la varianza de un
estimador insesgado de
2
es la expresin
4
2
n
.
En el caso MCO y MV, el estimador de
(ver Apndice 2), que supera a la Cota de Cramer Rao. En este caso, no
podemos hablar de eficiencia.
En el caso MV, el estimador de
2
tiene una varianza igual a
4
2 ( ) n k
n n
(ver Apndice 2), que es inferior a la Cota de Cramer Rao. No obstante,
en este caso el estimador MV es sesgado. Lo que s es cierto es que no
existe un estimador insesgado de
2
que alcance la cota.
36
Apndice 1: Teorema de Gauss-Markov.
Este teorema demuestra que el estimador MCO de
es el que tiene
mnima varianza dentro de la familia de estimadores lineales e
insesgados.
La varianza del estimador MCO de
tiene la expresin
2 1
var( ) ( )
T
X X
. La expresin del estimador MCO de
es
WY
donde
1
( )
T T
W X X X
. Denotando por
*
CY , donde
C W
, tendr
todos los estimadores de
( ) E . Por
tanto, la
*
llamado
*
es:
* * * 2
var( ) [( )( ) ] ( )
T T T T
E E C C CC
Aunque todava no son comparables ambas matrices de varianzas y
covarianzas, es posible siempre descomponer una matriz fija como la
C
en la suma de otras dos:
C W D +
, donde
0 D
y postmultiplicando por
la matriz X esa identidad, tenemos que
CX WX DX +
. Como
k
CX I
,
por insesgadez y
k
WX I
, por definicin, es obvio que
0 DX
. Por
tanto:
* 2 2 2 2 2 2
var( ) ( )( )
T T T T T T
CC W D W D WW DD DW WD + + + + +
teniendo en cuenta que
1
( )
T T
WW X X
y 0
T T
DW WD , se obtiene :
* 2 1 2 * 2
var( ) ( ) var( ) var( )
T T T
X X DD DD
+ +
y la matriz
2 T
DD es definida positiva por construccin.
Apndice 2. Distribuciones de los estimadores MCO y MV de
y de
2
.
A partir de la hiptesis de normalidad de las perturbaciones es fcil
obtener las distribuciones de los estimadores MCO y MV.
37
Distribucin del estimador de
( )
T T
X X X
[ , ( ) ]
T
N X X
:
Distribucin del estimador de
2
por MCO y MV: Para obtener esta
distribucin es necesario el uso de un resultado estadstico preliminar:
Resultado: La distribucin de la forma cuadrtica
2
2
T
q
Q
: si se
cumplen las siguientes condiciones:
(1) El vector
2
(0, ) N I :
(2) La matriz
Q
es idempotente y su
( ) tra Q q
.
A partir de este resultado podemos derivar inmediatamente la
distribucin del estimador de
2
por MCO:
2
2 2 2
2 2
T T
MCO MCO n k
M n k
n k n k
:
ya que la
( ) tra M n k
. Es habitual escribir esta distribucin como:
2
2 2
MCO n k
n k
:
Los dos primeros momentos de esta distribucin son:
2 2
2 2 2
( ) ( )
MCO n k
E E n k
n k n k
4 4 4
2 2
2 2
2
var( ) var( ) 2( )
( ) ( )
MCO n k
n k
n k n k n k
Ejercicio para el estudiante: Derivar la distribucin y los momentos
(esperanza y varianza) del estimador MV de
2
.
38