El Apunte de Econometria I

Econometra I
Autores:1
Jose Miguel Benavente
Andrs Otero
Javiera Vsquez
Agosto 2007
1 Cualquier error es responsabilidad exclusiva de los autores.

ndice general
1. Introduccin 5
2. Modelo de Regresin Lineal 8
2.1. Anlisis de Regresin . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1. Qu es una regresin? . . . . . . . . . . . . . . . . . . . . 8
2.1.2. Relaciones estadsticas versus relaciones determinsticas . . 9
2.1.3. Regresin versus Causalidad . . . . . . . . . . . . . . . . . 10
2.1.4. Regresin versus Correlacin . . . . . . . . . . . . . . . . . 10
2.2. Anlisis de regresin con dos variables . . . . . . . . . . . . . . . 14
2.2.1. Funcin de regresin poblacional (FRP) . . . . . . . . . . 16
2.2.2. Especificacin estocstica de la funcin de regresin pobla-

cional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.3. Funcin de regresin muestral . . . . . . . . . . . . . . . . 18
2.2.4. Propiedades de un Estimador . . . . . . . . . . . . . . . . 21
2.3. Modelo de regresin con dos variables . . . . . . . . . . . . . . . . 24
2.3.1. Mtodo de Mnimos Cuadrados Ordinarios . . . . . . . . . 24
2.3.2. Supuestos detrs del mtodo MCO . . . . . . . . . . . . . 31
2.3.3. Errores estndar de los Estimadores Mnimos Cuadrados

Ordinarios . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1
2.3.4. Estimador Mnimo Cuadrado Ordinario de 2 . . . . . . . 36
2.4. Modelo de Regresin con k variables . . . . . . . . . . . . . . . . 38
2.4.1. Representacin Matricial del Modelo de Regresin Lineal . 38
2.4.2. Estimador Mnimo Cuadrados Ordinarios . . . . . . . . . . 39
2.5. Propiedades del estimador MCO . . . . . . . . . . . . . . . . . . . 41
2.5.1. Propiedad de mejor estimador lineal insesgado . . . . . . . 42
2.5.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . 42
2.6. Geometra del Estimador MCO . . . . . . . . . . . . . . . . . . . 44
2.7. Bondad de Ajuste y Anlisis de Varianza . . . . . . . . . . . . . . 45
2.7.1. Modelo de Regresin Lineal en Desvos . . . . . . . . . . . 45
2.7.2. Anlisis de Varianza . . . . . . . . . . . . . . . . . . . . . 47

2 . . . . . . . . . . . . . . . . .
2.7.3. Bondad de Ajuste: R2 y R 48
2.8. Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.8.1. Test t (Una hiptesis lineal) . . . . . . . . . . . . . . . . . 53
2.8.2. Test F (Conjunto de hiptesis lineales) . . . . . . . . . . . 61
2.8.3. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . 61
2.8.4. Test de Normalidad (Test de Jarque-Bera) . . . . . . . . . 63
2.9. Prediccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.9.1. Medicin de la precisin de la prediccin . . . . . . . . . . 67
2.10. Estimacin Mximo Verosmil (EMV) . . . . . . . . . . . . . . . . 74
2.10.1. Propiedades de los estimadores MV . . . . . . . . . . . . . 75
2.10.2. Estimacin MV . . . . . . . . . . . . . . . . . . . . . . . . 76
2.11. Inferencia en el contexto MV . . . . . . . . . . . . . . . . . . . . . 80
2.11.1. Test de Razn de Verosimilitud (LR) . . . . . . . . . . . . 80
2
2.11.2. Test de Wald (W) . . . . . . . . . . . . . . . . . . . . . . . 81
2.11.3. Test del Multiplicador de Lagrange (LM) . . . . . . . . . . 81
2.12. Algunas acotaciones respecto a la estimacin y la inferencia MV . 85
3. Forma Funcional y Especificacin 87
3.1. Regresores Estocsticos en el Modelo de Regresin Lineal . . . . . 87
3.2. Incorporacin de No Linealidades . . . . . . . . . . . . . . . . . . 89
3.2.1. Test de No Linealidades Omitidas (Test de Reset) . . . . . 90
3.3. Variables Dummies o cualitativas . . . . . . . . . . . . . . . . . . 92
3.3.1. Posibles usos de las variables Dummies . . . . . . . . . . . 97
3.4. Variable Dependiente Rezagada . . . . . . . . . . . . . . . . . . . 101
3.4.1. Ejemplo y advertencias sobre el uso de variable dependiente

rezagada como regresor . . . . . . . . . . . . . . . . . . . . 103
3.5. Seleccin de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.5.1. Ejemplo: Retornos a la educacin, diferencias entre hom-

bres y mujeres . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.6. Regresin Particionada . . . . . . . . . . . . . . . . . . . . . . . . 109
3.7. Omisin de Variables Relevantes . . . . . . . . . . . . . . . . . . . 110
3.7.1. Impacto sobre el Insesgamiento . . . . . . . . . . . . . . . 110
3.7.2. Impacto sobre la Varianza . . . . . . . . . . . . . . . . . . 111
3.7.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.8. Inclusin de Variable Irrelevantes . . . . . . . . . . . . . . . . . . 114
3.8.1. Impacto sobre Insesgamiento . . . . . . . . . . . . . . . . . 114
3.8.2. Impacto sobre Varianza . . . . . . . . . . . . . . . . . . . 114
3.8.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3
3.9. Perturbaciones no Esfricas . . . . . . . . . . . . . . . . . . . . . 117
3.9.1. Consecuencias de estimacin por MCO . . . . . . . . . . . 118
3.9.2. Estimacin Eficiente: Mnimos Cuadrados Generalizados . 118
3.9.3. Test de Hiptesis . . . . . . . . . . . . . . . . . . . . . . . 119
3.9.4. Estimacin cuando es desconocida:

Mnimos Cuadrados Factibles . . . . . . . . . . . . . . . . 120
3.9.5. Heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . 121
3.9.6. Autocorrelacin . . . . . . . . . . . . . . . . . . . . . . . . 130
4. Problemas con los datos 149
4.1. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
4.1.1. Multicolinealidad Exacta y Multicolinealidad Aproximada 151
4.1.2. Deteccin de Multicolinealidad . . . . . . . . . . . . . . . 151
4.1.3. Otros mtodos de deteccin de multicolinealidad . . . . . . 153
4.1.4. Remedios contra la Multicolinealidad . . . . . . . . . . . . 155
4.2. Error de Medicin . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.2.1. Estimacin por Variables Instrumentales . . . . . . . . . . 159
4.2.2. Test de Hausman . . . . . . . . . . . . . . . . . . . . . . . 160
4
Captulo 1
Introduccin
Econometra es la ciencia que aplica mtodos matemticos y estadsticos al anli-

sis de datos econmicos, con el objetivo de dotar de una base emprica a una
teora econmica, para as refutarla o verificarla.
^ (1.1)
Aunque la econometra parece ser tan antigua como la misma ciencia econmica,
slo en 1930 se crea la Sociedad Economtrica, la cual sistematiz su estudio y
prctica. En 1933 se lanza el primer nmero de Econometrica en el que Ragnan
Frish (uno de los fundadores de la Sociedad Economtrica, a quin de hecho, se
le acredita el haber acuado el trmino "Econometra") destaca: "La experiencia
ha mostrado que cada uno de estos tres puntos de vista, el de la estadstica, la
teora econmica y las matemticas, es necesario, pero por si mismo no suficiente
para una comprensin real de las relaciones cuantitativas de la vida econmica
modera. Es la unin de los tres aspectos lo que constituye una herramienta de
anlisis potente. Es la unin lo que constituye la econometra".
Sin embargo, las metodologas aplicadas en econometra (los tres puntos de vista
de Frish), no han sido utilizados exclusivamente por la ciencia econmica. Otras
ciencias naturales tambin han aprovechado sus ventajas. Sin embargo, en el
campo del comportamiento econmico adquieren especial particularidad y rele-
vancia, en tanto el ambiente y el comportamiento econmicos, son esencialmente
no-experimentales, colocndonos en situaciones donde todas las variables rele-
vantes parecen moverse constantemente y donde existen factores impredecibles
que pueden alterar los resultados. Es por esto que la econometra es esencial-
mente una ciencia no determinstica, donde se reconoce la existencia de factores
5
Econometra I
Capitulo 1: Introduccin FEN, Universidad de Chile
esencialmente impredecibles que determinan nuestras conclusiones.
La metodologa economtrica se puede detallar (a grandes rasgos) segn lo enun-

cia la Figura 1. En primer lugar contamos con una teora econmica que busca
validez. Para ella, es necesario encontrar su equivalente modelo economtrico
(relaciones matemticas que describan el comportamiento de los agentes involu-
crados). Para estimar entonces dicho modelo, se necesita de la ecuacin resultante
del modelo, los datos que ella implica y los supuestos bajo los cuales se construye.
Slo una vez que contamos con dichos ingredientes se procede a estimar cuan-
titativamente las predicciones o implicancias expuestas por la teora econmica
inicial. Luego, se debe realizar inferencia o pruebas de hiptesis, las cuales nos in-
dicarn si nuestros resultados son estadsticamente significativos. Si la respuesta
es si, entonces slo queda realizar las predicciones pertinentes y las recomenda-
ciones de poltica asociadas. Si la respuestas es no, entonces, debemos revisar los
posibles errores que existan a nivel de teora o metodologa.
TEORIA ECONOMICA
MODELO ECONOMETRICO
ECUACION DATOS SUPUESTOS
ESTIMACION
INFERENCIA Y PRUEBA DE HIPOTESIS
SI NO
PREDICCIONES Y
RECOMENDACIONES DE POLITICA
TEORIA VERIFICADA
6
Econometra I
Capitulo 1: Introduccin FEN, Universidad de Chile
Esta breve descripcin no es ms que una somera vista a lo que realmente implica
hacer econometra. El camino no est exento de dificultades (en trminos de la
calidad de los datos, de la dificultad de medir las variables que la teora indica,
de los supuestos que realizamos, etc), sin embargo, esto, ms que una dificultad,
implica un desafo.
7
Captulo 2
Modelo de Regresin Lineal
2.1. Anlisis de Regresin
2.1.1. Qu es una regresin?
La regresin es un elemento fundamental en la Econometra, corresponde a un

estudio de dependencia entre una variable dependiente y una o ms variables
explicativas. El anlisis de regresin tiene como objeto estimar y/o predecir el
promedio poblacional de la variable dependiente para valores fijos de la(s) vari-
able(s) explicativa(s).
Por ejemplo, observemos la Figura 1, en el eje de las abscisas tenemos nuestra
variable explicativa (X): notas controles, y en el eje de las ordenadas tenemos
nuestra variable dependiente (Y): nota examen.
Notas de los controles

Figura 1: Distribucin de las Notas del Examen vs. Promedio Notas de
Controles
8
Econometra I
Capitulo 2: Modelo de Regresin Lineal FACEA, Universidad de Chile
Podemos observar dos cosas: primero, para cada nota posible en los controles
(3.0, 4.0,..) tenemos un rango o distribucin de notas en el examen y segundo,
el promedio de notas en el examen es mayor mientras mayores son notas de los
controles. Esto ltimo se puede apreciar al trazar una recta que una los valores
promedios de notas en examen para cada nota en los controles (linea negra del la
Figura 1), la que corresponde a la recta de regresin. Esta nos permite, para
cada nivel de edad, predecir la estatura promedio correspondiente.
2.1.2. Relaciones estadsticas versus relaciones determins-

ticas
La calidad de un producto, por ejemplo el vino, depender de como fue su cosecha

y por lo tanto, de variables como la temperatura al que estuvo expuesta la uva, la
cantidad de lluvia, sol y los fertilizantes. La relacin entre estas variables explica-
tivas y la calidad del vino tiene una naturaleza estadstica, ya que si bien estas
variables ayudan al productor de vino a saber ms o menos como ser la cosecha,
no podr predecir en forma exacta la calidad del producto debido a los errores
involucrados en estas variables y porque pueden haber otros factores difciles de
medir que estn afectando la calidad del vino.
La variable dependiente, en este caso la calidad del vino, tiene una variabilidad
aleatoria, ya que no puede ser explicada en su totalidad por las variables explica-
tivas.
En la econometra nos interesa la dependencia estadstica entre variables, donde

tratamos con variables aleatorias, es decir, variables que tienen una distribucin
de probabilidad. La dependencia determinstica, por el contrario, trata relaciones
como la ley de gravedad de Newton1 , las que son exactas (no tienen naturaleza
aleatoria).
1
La ley de gravedad de Newton plantea que toda partcula en el universo atrae a cualquier
otra partcula con una fuerza directamente proporcional al producto de sus masas e inversamente
proporcional al cuadrado de la distancia entre ellas: F=k( mr1 m2
2
), donde F=fuerza, m1 y m2
son la masa de las dos partculas, r es la distancia y k una constante de proporcionalidad. Esta
es una relacin determinstica, ya que para valores de masas, distancia y constante sabemos
exactamente a la fuerza que se atraen estas partculas. Si alguna de las variables estuviera
medida con error, la ley de Newton pasa a ser una relacin estadstica, y F se convierte en una
variable aleatoria.
9
Econometra I
2.1.3. Regresin versus Causalidad
Es importante tener claro que la regresin es una relacin estadstica, que no

implica causalidad apriori. En el ejemplo del vino, no hay una razn estadstica
para suponer que la lluvia no depende de la calidad del vino. Pero nuestro sentido
comn nos hace considerar como variable dependiente la calidad del vino y no la
lluvia. Es importante recordar de aqu en adelante que una relacin estadstica
no puede por s misma implicar en forma lgica una causalidad.
2.1.4. Regresin versus Correlacin
El Anlisis de Correlacin est estrechamente relacionado con el de regresin

aunque conceptualmente son dos cosas muy diferentes. El anlisis de correlacin
tiene como objetivo medir el grado de asociacin lineal entre dos variables, medida
a travs del coeficiente de correlacin. Por ejemplo, se puede estar interesado
en medir el grado de correlacin entre aos de educacin y salario. En cambio, el
anlisis de regresin trata de estimar o predecir el valor promedio de salario para
un nivel dado de educacin.
Las diferencias fundamentales son que, en el anlisis de regresin, tenemos una

variable dependiente y una o ms explicativas, la que son tratadas en forma
asimtrica: la variable dependiente es aleatoria, tiene una distribucin de proba-
bilidad, en cambio las variables explicativas toman valores fijos. En el anlisis de
correlacin las variables son tratadas de forma simtrica: la correlacin entre edu-
cacin y salario es igual a la correlacin entre salario y educacin. Adems ambas
variables son aleatorias. As, si x e y son dos variables aleatorias, el coeficiente de
correlacin se define de la siguiente manera:
E {[x E(x)] [y E(y)]} xy
yx = p =p 2 2
var(x)var(y) x y
Lo que se calcula para una muestra de la siguiente forma:

Pn
i=1 xi X yi Y
yx = qP 2 qPn 2
n
i=1 x i X i=1 y i Y
1
Pn 1
Pn
con X = n i=1 xi e Y = n i=1 yi .
De ahora en adelante denotaremos con un a los estimadores de un estadsti-

co obtenidos a partir de informacin muestral.
10
Econometra I
Ejemplo 1: Portales de Internet, correlacin entre nmero de visitas y valor de

la empresa:
Ejemplo 2: Correlacin entre Empleo y Producto (serie de tiempo):
11
Econometra I
Ejemplo 3: Correlacin entre Producto per-capita y ranking ftbol:
Ejemplo 4: Correlacin entre temperatura media del da y estudiantes ausentes

a clases:
12
Econometra I
Algunas precauciones con el coeficiente de correlacin:
Cuidado cuando el grado de correlacin muestral depende de solo unas

pocas observaciones.
El coeficiente de correlacin mide una relacin lineal. Por lo tanto, una

variable puede depender de otra an cuando la correlacin sea cero si la
relacin es no lineal.
Correlacin no implica causalidad econmica, es slo una relacin estads-

tica.
Correlacin puede indicar relacin espuria.
No olvidar que la correlacin muestral es una variable aleatoria y que por

lo tanto, el coeficiente por si slo no garantiza la existencia de una relacin
estadstica entre las series.
13
Econometra I
2.2. Anlisis de regresin con dos variables
Para esta seccin asumiremos que existe una variable dependiente (Y) que es
explicada por slo una variable (X).
Consideremos el siguiente ejemplo. En la Tabla 1 se presentan datos de salarios

y nivel de educacin para una poblacin de 60 individuos 2
Tabla 1: Salarios y Aos de Educacin

Aos de Educacin (X)
Salario (Y) 8 9 10 11 12 13 14 15 16 17
16000 18260 15000 15000 20000 20000 21912 35000 40000 60000
32868 36520 40000 40000 50000 54780 60000 73040 90000 120000
50000 54780 58000 60000 73040 80000 89000 100000 105000 165784
80000 82170 90000 90000 100000 100500 120000 140000 180000 250000
100000 109560 120000 120000 140000 160000 200000 230000 280000 365200
150000 170000 182600 188973 219120 257880 300000 400000 434686 600000
219120 273900 280000 328680 365200 400000 500000 600000 730400 1095600
300000 365200 380000 434120 500000 550000 650000 883085 1000000 1643400
547800 730400 913000 821700 1064558 1460800 1500000 1826000 2487041 4000000
E(Y|X) 166199 204532 230956 233164 281324 342662 382324 476347 594125 922220
La poblacin tiene 10 niveles distintos de educacin, que van desde 8 a 17. Para
cada uno de estos niveles tenemos 9 individuos con distintos salarios. A pesar de la
variabilidad en los salarios para cada nivel educacional considerado, en promedio
el salario se incrementa a medida que los aos de educacin aumentan. Esto
ltimo se puede verificar al calcular el promedio para cada nivel de educacin, lo
que se presenta en la ltima linea de la Tabla 1, estos corresponden a los valores
esperados condicionales, ya que dependen de los valores dados de la variable X.
En la Figura 2, los valores medios condicionales estn marcados con una cruz. La
unin de estos valores representa la Recta de regresin poblacional, donde
el trmino poblacional se refiere a que estamos trabajando con el total de la
poblacin.
4000000
3000000
2000000
salario
Recta de regesin
poblacional (RRP)
1000000
x
x x
x x
x
x x
x
x
0
8 10 12 14 16 18
Escolaridad
Figura 2: Distribucin de los salarios para distintos niveles de educacin.
2
Una poblacin de 60 individuos puede parecer un poco pequea, pero por el momento
consideremos que estas familias son el total existente
14
Econometra I
Definicin: La curva de regresin poblacional es simplemente el lugar geomtri-

co de las medias condicionales de la variable dependiente para los valores fijos de
la(s) variable(s) explicativa(s).
En el ejemplo anterior los valores de Y (salario) no estaban distribuidos de forma

simtrica en torno al valor promedio para cada valor X, desde ahora asumiremos
que esto si se cumple, tal como lo podemos apreciar en la Figura 3.
Figura 3: Ingreso semanal y Gasto semanal. Distribucin simtrica
En este ejemplo, se ve la relacin entre ingreso semanal y gasto en consumo

semanal, para cada nivel de ingreso se tiene un rango de gasto que se distribuye
en forma simtrica entorno al valor promedio condicional de gasto.
15
Econometra I
2.2.1. Funcin de regresin poblacional (FRP)
De lo anterior es claro que la media condicional E(Y|Xi ) es funcin de Xi , donde

Xi es un valor dado de X:
E(Y |Xi ) = f (Xi ) (2.1)
donde f() es una funcin cualquiera, en el ejemplo anterior era una funcin lineal.
La ecuacin (2.1) se denomina Regresin Poblacional.
Que forma tiene f() es una pregunta emprica, aunque muchas veces la teora nos
puede ayudar bastante. Supongamos que en nuestro ejemplo anterior el salario
esta relacionado linealmente con la educacin, as podemos suponer que la funcin
de regresin poblacional E(Y|Xi ) es una funcin lineal de Xi , es decir:
E(Y |Xi ) = 1 + 2 Xi (2.2)
donde 1 y 2 se denominan coeficientes de regresin. As el objetivo es estimar

1 y 2 a partir de datos de X e Y.
2.2.2. Especificacin estocstica de la funcin de regresin

poblacional
En los dos ejemplos anteriores veamos que a medida que se incrementa la vari-
able explicativa (educacin o ingreso), el valor promedio de la variable dependi-
ente (salario o gasto) tambin se incrementaba. Sin embargo, este patrn se da
solo a nivel de promedios. A nivel individual esto no es necesariamente cierto.
En la Tabla 1 podemos ver que el individuo que gana menos ingreso con 9 aos
de educacin, gana menos que el individuo con 8 aos de educacin con mayor
salario.
Existe una dispersion de los valores individuales de Yi en torno al promedio

condicional de esta variable. De esta forma, podemos definir:
ui = Yi E(Y |Xi )
Yi = E(Y |Xi ) + ui (2.3)
donde ui es una variable aleatoria no observable que toma valores positivos o neg-
ativos. Este trmino surge pues no se puede esperar que todas las observaciones
16
Econometra I
Yi sean igual al promedio condicional a Xi .
Recordemos que la regresin es una relacin estadstica, a pesar de conocer los

valores de Xi , esto no nos permite predecir en forma exacta Yi . Lo que no pode-
mos explicar debido a que tiene naturaleza aleatoria se representa a travs de ui ,
denominado trmino de error estocstico.
Entonces siguiendo el ejemplo de la Figura 3, podemos decir que el gasto de una
familia individual (Yi ) corresponde a la suma de dos componentes:
E(Y|Xi ), que corresponde a la media de gasto de todas las familias con el

mismo nivel de ingresos Componente Determinstico
ui Componente Aleatorio
Si E(Y|Xi ) es lineal en Xi , podemos escribir la ecuacin (2.3) de la siguiente

forma:
Yi = E(Y |Xi ) + ui
= 1 + 2 Xi + ui (2.4)
Tomando el valor esperado condicional en Xi a la ecuacin (2.4):
E(Yi |Xi ) = E[E(Y |Xi )|Xi ] + E(ui |Xi )

= E(Y |Xi ) + E(ui |Xi ) (2.5)
Debido a que E(Yi |Xi ) = E(Y |Xi ), implica que:
E(ui |Xi ) = 0 (2.6)
As, el supuesto de que la recta de regresin pasa a travs de las medias condi-
cionales de Y, implica que la media condicional de ui es cero.
17
Econometra I
2.2.3. Funcin de regresin muestral
En la mayora de los fenmenos econmicos a estudiar, no disponemos de las

observaciones totales de la poblacin, como hemos supuesto hasta ahora. En la
prctica se tiene alcance nada ms que a una muestra de los valores de Y que
corresponden a unos valores fijos de X. En este caso tenemos que estimar la fun-
cin de regresin poblacional en base a informacin muestral.
Los datos poblacionales asociados a la Figura 3 son los siguientes:
Tabla 2. Ingreso familiar (X) y Gasto en consumo (Y).

Y|X 80 100 120 140 160 180 200 220 240 260
Gasto en 55 65 79 80 102 110 120 135 137 150
consumo 60 70 84 93 107 115 136 137 145 152
familiar 65 74 90 95 110 120 140 140 155 175
semanal 70 80 94 103 116 130 144 152 165 178
(Y) 75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
Media Condicional 65 77 89 101 113 125 137 149 161 173
Supongamos que nosotros no conocemos estos datos, es decir, no tenemos acceso

a las observaciones correspondientes a la poblacin total. Tenemos a nuestra dis-
posicin slo una muestra (Tabla 3), la que ha sido obtenida de forma aleatoria
de la poblacin.
Es importante notar que a partir de una poblacin podemos sacar una gran can-
tidad de muestras en forma aleatoria y en la realidad nosotros observamos solo
una de ellas. Debido a esta variabilidad en las muestras podremos estimar la FRP
pero no de manera precisa. Para ejemplificar esto supongamos que adems de la
muestra en la Tabla 3 se saco otra muestra (Tabla 4) a partir de la informacin
poblacional.
Tabla 3. Muestra aleatoria Tabla 4. Muestra aleatoria

de la poblacin en tabla 2. de la poblacin en tabla 2.
Y X Y X
70 80 55 80
65 100 88 100
90 120 90 120
95 140 80 140
110 160 118 160
115 180 120 180
120 200 145 200
140 220 135 220
155 240 145 240
150 260 175 260
18
Econometra I
Al graficar los datos de las Tablas 3 y 4 obtenemos los diagramas de dispersion en

la Figura 4. En este diagrama se han trazado dos rectas de regresin mues-
tral: FRM1 corresponde a la primera muestra y FRM2 corresponde a la segunda.
Como vemos, no es posible asegurar cual de las dos rectas muestrales representa
mejor la recta de regresin poblacional.
Entonces es importante tener en mente que las rectas de regresin muestral rep-
resentan la recta de regresin poblacional, pero debido a fluctuaciones muestrales
pueden ser consideradas slo como una aproximacin.
Como contraparte muestral la funcin de regresin muestral puede escribirse

como:
Yi = 1 + 2 Xi (2.7)
donde Yi es el estimador de E(Y|Xi ), 1 es el estimador de 1 y 2 es el estimador

de 2 .
Figura 4: Rectas de Regresin basadas en dos muestras distintas
Definicin: Un estimador es una regla, frmula o mtodo que dice cmo deter-
minar el parmetro poblacional a partir de la informacin suministrada por la
muestra disponible.
De igual manera que para el caso poblacional la funcin de regresin muestral
19
Econometra I
tambin tiene una representacin estocstica:
Yi = 1 + 2 Xi + ui (2.8)
Entonces, el objetivo del Anlisis de Regresin es estimar la Funcin de regresin

poblacional:
Yi = 1 + 2 Xi + ui (2.9)
con base en la Funcin de regresin muestral:
Yi = 1 + 2 Xi + ui (2.10)
Esta aproximacin se puede ver en la Figura 5:
Figura 5: Rectas de Regresin muestral y poblacional
En trminos de la funcin de regresin muestral, la Yi observada puede ser ex-

presada como:
Yi = Yi + ui (2.11)
y en trminos de la funcin de regresin poblacional puede ser expresada como:
Yi = E(Y |Xi ) + ui (2.12)
20
Econometra I
En la figura 5 podemos notar que para todo Xi a la derecha del punto A, Yi

sobreestima E(Y |Xi ). De igual manera, para cualquier punto a la izquierda de A,
Yi subestima E(Y |Xi ). Esta sobreestimacin y subestimacin del modelo pobla-
cional es inevitable debido a las fluctuaciones muestrales.
Cmo se puede construir la funcin de regresin muestral para 1

y 2 que este lo ms cerca de los valores verdaderos (poblacionales) de
1 y 2 ?
2.2.4. Propiedades de un Estimador
Un estimador, siendo funcin de la muestra, es una variable aleatoria y tiene su

propia distribucin de probabilidad.
Las propiedades de los estimadores son las siguientes:
1. Se denomina sesgo a la diferencia entre el valor esperado del estimador y

. De esta forma, se dice que es un estimador
su verdadero valor: E()
= .
insesgado si E()
2. El estimador es eficiente o de mnima varianza si no hay ningn otro esti-
mador insesgado que tenga una varianza menor que . En general se trata de
utilizar estimadores de varianza pequea, pues de este modo la estimacin
es ms precisa.
3. El Error Cuadrtico Medio (ECM) es una propiedad de los estimadores que
mezcla los conceptos de eficiencia e insesgamiento. El ECM de se define
como:
= E[( )2 ]
ECM ()
Lo que se puede expresar equivalentemente de la siguiente manera:
= V ar()
ECM () + [Sesgo()]
2
4. La ltima propiedad de un estimador es la consistencia. El estimador

es consistente si converge (en el limite) al verdadero valor del parmetro.
Se dice que la sucesin de variables aleatorias X1 , X2 ,...,Xn converge en
probabilidad a la variable aleatoria (o constante) X si:
> 0, lm P r[|Xn X| < ] = 1
n
Esto se denota plim Xn = X. Dos reglas tiles al respecto son:
21
Econometra I
X plimX
plim Y
= plimY
plim (X Y )=plimX plimY
Ejemplo: Tenemos una variable yi que esta compuesta por la suma de un com-
ponente fijo o determinstico (c) y un componente aleatorio(ui ):
yi = c
|{z} + ui
|{z}
componente f ijo componente aleatorio
Si ui N (0, u2 ), entonces:
= E(yi ) = c
V (yi ) = E[(yi E(yi ))2 ] = E[u2i ] = u2
22
Econometra I
Ahora consideremos el siguiente estimador de la esperanza de yi , la media mues-

tral:
n
1 1X

= Y = (y1 + y2 + ... + yn ) = yi
n n i=1
Veamos que propiedades tiene este estimador:
Insesgamiento: E(
) =

E(
) = E Y

1
= E (y1 + y2 + ... + yn )
n
1
= (E(y1 ) + E(y2 ) + ... + E(yn ))
n
dado que E(yi ) = E(c) + E(ui ) = c,
| {z }
0
E(
) = c =
Eficiencia: V ar(
)<V ar(1 )
Comparemos el estimador promedio muestral con un estimador que es sim-
plemente cualquier valor de yi:
2

=Y E(Y ) = c V ar(Y )= nu

1 = yi E(yi ) = c V ar(yi ) = u2
Entonces para n>1 siempre se cumple que

es ms eficiente (menor vari-
anza) que
1 .
Error Cuadrtico Medio: Como es un estimador insesgado de al

igual que
1 , el error cuadrtico medio de ambos estimadores es igual a la
varianza del estimador, de esta forma tiene menor error cuadrtico medio
que 1 .
Consistencia:
es un estimador consistente dado que:
plim(
) = plim(Y ) = c
Ya que si lmn V ar(Y ) = 0 plim(Y ) = c.
23
Econometra I
2.3. Modelo de regresin con dos variables
2.3.1. Mtodo de Mnimos Cuadrados Ordinarios
De la seccin anterior tenamos que el error estimado era:

ui = Yi Yi
= Yi 1 2 Xi (2.13)
es decir, los residuos son simplemente la diferencia entre los valores verdaderos y
estimados de Y.
Si queremos que la funcin de regresin muestral sea lo ms cercana posible

a la poblacional, debemos tratar de escoger los coeficientes de regresin (los s)
de forma tal que los errores sean lo ms pequeos posible. De acuerdo a esto
un criterio para escoger la Pfuncin P
de regresin muestral podra ser minimizar
la suma de los los errores: ui = (Yi Yi ), sin embargo este criterio no es
muy bueno. Observemos la Figura 6, existe una gran diferencia en la magnitud
de los errores, sin embargo en la suma de los errores todos reciben el mismo peso.
Debido a esto es posible que la suma de los errores sea muy pequea cercana a
cero, incluso cuando la dispersion de los errores en torno a la funcin de regresin
muestral es alta.
Figura 6: Mnimos Cuadrados Ordinarios
24
Econometra I
Este problema puede ser solucionado al considerar la suma de los errores al

cuadrado como criterio a minimizar, en este caso los errores ms lejos reciben
un mayor peso:
X X
u2i = (Yi Yi )2
X
= (Yi 1 2 Xi )2 (2.14)
El Mtodo de Mnimos CuadradosPOrdinarios (MCO) escoge 1 y 2 de

forma tal que para una muestra dada, u2i sea lo ms pequeo posible.
Entonces el problema que este mtodo propone resolver es el siguiente:

X
mn (Yi 1 2 Xi )2 (2.15)
1 ,2
las condiciones de primer orden de este problema son:

P X X
u2i
= 2 (Yi 1 2 Xi ) = 2 ui = 0 (2.16)
1
P X X
u2i
= 2 (Yi 1 2 Xi )Xi = 2 ui Xi = 0 (2.17)
2
Simplificando (2.16) y (2.17) obtenemos las ecuaciones normales:

X X
Yi = n1 + 2 Xi (2.18)
X X X
Yi Xi = 1 Xi + 2 Xi2 (2.19)
Debemos resolver un sistema con dos ecuaciones y dos incgnitas. De la ecuacin

(2.18) podemos despejar 1 :
P P
Yi 2 Xi
1 = (2.20)
n
reemplazando (2.20) en (2.19):
P P ! X
X Yi 2 Xi X
Yi X i = Xi + 2 Xi2 (2.21)
n
De esta forma, el estimador de 2 es:

P P P
n Yi Xi Xi Yi
2 = P P (2.22)
n Xi2 ( Xi )2
25
Econometra I
El que puede ser escrito de la siguiente forma (hacerlo):

P
xi y i
2 = P 2 (2.23)
xi
P Pn
donde xi = Xi X e yi = Yi Y , con X = n1 ni=1 Xi e Y = 1
n i=1 Yi
Reemplazando (2.22) en (2.20):

P 2P P P
Xi Yi Xi Xi Yi
1 = P P (2.24)
n Xi2 ( Xi )2
= Y 2 X (2.25)
Los resultados (2.23) y (2.25) podran haber sido obtenidos de igual forma, expre-
sando inicialmente el modelo de regresin en desviaciones con respecto a la media.
El modelo de regresin original es:
Yi = 1 + 2 Xi + ui
si le restamos el promedio de esta:
Y = 1 + 2 X + ui (2.26)
y recordando que el valor esperado del trmino de error es 0, tenemos el siguiente

modelo de regresin lineal expresado en desviaciones con respecto a la media:
(Yi Y ) = 2 (Xi X) + ui
yi = 2 xi + ui
As el problema de Mnimos Cuadrados Ordinarios es:

X
mn (yi 2 xi )2
2
La condicin de primer orden de este problema es:

P X
u2i
= 2 (yi 2 xi )xi = 0
2
As obtenemos el mismo estimador de 2 , encontrado en (2.23), y 1 se obtiene

simplemente despejando la ecuacin (2.26):
1 = Y 2 X
26
Econometra I
que corresponde a lo mismo en la ecuacin (2.25).
Una vez estimados los coeficientes de regresin mediante MCO y utilizando la

informacin muestral, la recta de regresin muestral (Yi = 1 + 2 Xi ) puede ser
obtenida fcilmente.
Ejemplo 1: Disponemos datos de una empresa qumica sobre el gasto que el-
la realiza en Investigacin y Desarrollo (I+D) y las ganancias anuales de esta
compaa:
Ao Gasto en I+D Ganancia Anual

(Millones de dlares) (Millones de dlares)
1990 2 20
1991 3 25
1992 5 34
1993 4 30
1994 11 40
1995 5 31
Ahora debemos debemos determinar de que forma como cambia el promedio

condicional de la variable dependiente (Ganancias) cuando cambia el valor fijo de
la variable explicativa (Gasto en I+D).
\
La forma muestral de la recta de regresin: E(Y
i |Xi ) = 1 + 2 Xi requiere deter-
minar el valor estimado de estos parmetros, para lo cual utilizaremos el mtodo
27
Econometra I
de mnimos cuadrados ordinarios:

P P P P
n Yi Xi Xi Yi Yi Xi nXY
2 = P P 2 = P 2
n Xi2 ( Xi )2 Xi n(X)2
Utilicemos los datos para obtener los clculos necesarios para computar el esti-
mador de 2 :
Ao Gasto en I+D (X) Ganancia Anual (Y )

(n=6) (Millones de dlares) (Millones de dlares) XY X2
1990 2 20 40 4
1991 3 25 75 9
1992 5 34 170 25
1993 4 30 120 16
1994 11 40 440 121
1995 P 5 P 31 P 155 P 25
Suma X=30 Y =180 XY =1000 X 2 =200
P
X = nX
X = 30
6
X =P5 Media de los valores de la variable dependiente
Y = nY
Y = 180
6
Y = 30 Media de los valores de la variable independiente
De esta forma,
1000 6 5 30
2 =
200 6 (5)2
1000 900
=
200 150
100
=
50

2 = 2
1 = Y 2 X
= 30 2 5
= 30 10
1 = 20
De esta forma, la recta de regresin muestral estimada es:
Y = 20 + 2 X
28
Econometra I
Con esta ecuacin en mano, el gerente de I+D de esta compaa puede predecir
el promedio en ganancias futuras anuales a partir de la cantidad presupuestada
de gasto en Investigacin y Desarrollo. Por ejemplo, si la compaa presupuesta
gastar 8 millones de dlares en I+D el prximo ao, entonces debe ganar aprox-
imadamente 36 millones de dlares durante este ao.
Ejemplo 2: Tenemos los siguientes datos de portales de internet, con los cuales
queremos ver el impacto promedio del nmero de visitas en el valor de la empresa:
vempresa visitas y-ybar x-xbar (y-ybar)*(x-xbar) (x-xbar)^2 ygorro ugorro

AOL 134844 50 108787.6 30.6 3331621.0 937.9 98976.5 35867.5
Yahoo 55526 38 29469.6 18.6 548871.8 346.9 70403.7 -14877.7
Lycos 5533 28 -20523.4 8.6 -177014.1 74.4 46593.1 -41060.1
Cnet 4067 8 -21989.4 -11.4 250129.1 129.4 -1028.3 5095.3
Juno Web 611 8 -25445.4 -11.4 289441.1 129.4 -1028.3 1639.3
NBC Internet 4450 16 -21606.4 -3.4 72921.5 11.4 18020.3 -13570.3
Earthlink 2195 5 -23861.4 -14.4 343007.3 206.6 -8171.5 10366.5
El sitio 1225 2 -24831.4 -17.4 431445.1 301.9 -15314.7 16539.7
Promedio 26056.4 19.4 26056.4 0
Suma 5090422.9 2137.9
1 2381.1
2 -20076.8
29
Econometra I
Utilizando estos datos tenemos:

n
X
(Xi X)2 = 2137,9
i=1
n
X
(Yi Y )(Xi X) = 5090422,9
i=1
5090422,9
2 = = 2381,1
2137,9
1 = 26056,4 2381,1 19,4 = 20076,8
30
Econometra I
2.3.2. Supuestos detrs del mtodo MCO
En el anlisis de regresin nuestro objetivo no es slo obtener los valores de 1 y

2 sino tambin hacer inferencia sobre los verdaderos 1 y 2 . Nos interesa saber
que tan cerca estn 1 y 2 de sus contraparte poblacional o que tan cerca esta Yi
de la verdadera E(Y|Xi ). La Funcin de regresin poblacional: Yi = 1 +2 Xi +ui ,
nos muestra que Yi depende de Xi y ui . As, los supuestos hechos para estas dos
variables son fundamentales para lograr una interpretacin vlida de los valores
estimados de la regresin. Mientras no se especifique la forma como se generan
Xi y ui , no hay forma de hacer inferencia estadstica sobre Yi ni sobre 1 y 2 .
Supuesto 1: Modelo de regresin lineal, el modelo de regresin es lineal en

parmetros:
Yi = 1 + 2 Xi + ui
Supuesto 2: Los valores de X son fijos, X se supone no estocstica. Esto im-

plica que el anlisis de regresin es un anlisis de regresin condicional,
condicionado a los valores dados del regresor X.
Supuesto 3: El valor medio del error ui es igual a cero. Dado el valor de

X, el valor esperado del trmino de error ui es cero:
E(ui |Xi ) = 0
Lo que nos dice este supuesto es que los factores que no estn considerados
en el modelo y que estn representados a travs de ui , no afectan sistemti-
camente el valor de la media de Y. Es decir, los valores positivos de ui se
cancelan con los valores negativos de ui . De esta forma, el efecto promedio
de ui sobre Y es cero. Ver Figura 7.
31
Econometra I
Figura 7: Distribucin condicional del trmino de error ui
Supuesto 4: Homocedasticidad o igual varianza de ui . Dado el valor de

X, la varianza de ui es la misma para todas las observaciones:
var(ui |Xi ) = E[ui E(ui )|Xi ]2
= E(u2i |Xi ) por supuesto 3
= 2
En la Figura 8 podemos apreciar el significado del supuesto de homocedas-
ticidad, la variacin alrededor de la recta de regresin es la misma para
todos los valores de X. Esto implica que la funcin de densidad del trmino
de error ui es la misma.
Figura 8: Homocedasticidad
32
Econometra I
Por el contrario, el la Figura 9 observamos el caso cuando la varianza del

trmino de error varia para cada Xi , en este caso particular la varianza del
error aumenta en la medida que Xi crece.
Figura 9: Heterocedasticidad
Esto se conoce como Heterocedasticidad o varianza desigual, lo que se

expresa de la siguiente manera:
var(ui |Xi ) = i2 (2.27)
Supuesto 5: No existe autocorrelacin entre los errores. Dado dos valores

de X, Xi y Xj , con i6= j, la correlacin entre ui y uj es cero:
cov(ui , uj |Xi , Xj ) = E{[ui E(ui )]|Xi }{[uj E(uj )]|Xj }

= E(ui |Xi )(uj |Xj )
= 0
Si en la Funcin de regresin poblacional Yi = 1 + 2 Xi + ui , ui esta

correlacionado con uj , entonces Yi no depende solamente de Xi sino tambin
de uj . Al imponer le supuesto 5 estamos diciendo que solo se considerar
el efecto sistemtico de Xi sobre Yi sin preocuparse de otros factores que
pueden estar afectando a Y, como la correlacin entre los us.
Supuesto 6: La covarianza entre ui y Xi es cero E(ui Xi ) = 0:
cov(ui , Xi ) = E[ui E(ui )][Xi E(Xi )]

= E[ui (Xi E(Xi )] por supuesto E(ui ) = 0
= E(ui Xi ) E(ui )E(Xi ) por supuesto E(Xi ) no estocastica
= E(ui Xi ) por supuesto E(ui ) = 0
= 0
33
Econometra I
Como mencionamos en la seccin 2.2.2 se supone que X y u tienen una in-

fluencia separada sobre Y (determinstica y estocstica, respectivamente),
ahora si X y u estn correlacionadas, no es posible determinar los efectos
individuales sobre Y.
Este supuesto se cumple automticamente si X es no estocstica y el supuesto
3 se cumple.
Supuesto 7: El nmero de observaciones n debe ser mayor que el nmero

de parmetros por estimar. El nmero de observaciones tiene que ser
mayor que el nmero de variables explicativas, de otra forma no se puede
resolver el sistema de ecuaciones. Supongamos que tenemos una sola obser-
vacin para nuestra variable dependiente y nuestra variable explicativa (Y1
y X1 ), el modelo de regresin es tal que tiene intercepto, es decir:
Y1 = 1 + 2 X1 + u1
el estimador MCO de 2 es :
P
xi yi
2 = P 2
xi
donde xi = Xi X e yi = Yi Y , sin embargo con una observacin X1 = X

e Y1 = Y , as 2 no esta determinado y as tampoco podemos determinar
1 .
Supuesto 8: Variabilidad en los valores de X. No todos los valores de X en

una muestra deben ser iguales, var(X) debe ser un nmero finito positivo.
Si las X son las mismas Xi = X, de esta forma ni 2 ni 1 pueden ser
estimados.
Supuesto 9: El modelo de regresin esta correctamente especificado.

Esto es muy importante, ya que por ejemplo la omisin de variables impor-
tantes en el modelo, o la eleccin de la forma funcional inadecuada, o la
consideracin de supuestos estocsticos equivocados sobre las variables del
modelo, harn cuestionable la validez de la interpretacin de la regresin
estimada. (Aspectos que veremos ms adelante).
34
Econometra I
2.3.3. Errores estndar de los Estimadores Mnimos Cuadra-

dos Ordinarios
Como vimos en la seccin 2.3.1, los valores estimados para 1 y 2 dependen de

los datos muestrales, sin embargo, los datos cambian de una muestra a otra y as
los valores estimados tambin, por eso es necesario tener una medida que nos per-
mita decir que tan cercano son los valores estimados a los valores poblacionales
de los parmetros.
La medida que utilizaremos para medir la precisin del estimador es el error es-
tndar, que es la desviacin estndar de la distribucin muestral del estimador,
la que a su vez es la distribucin del conjunto de valores del estimador obtenidos
de todas las muestras posibles de igual tamao de una poblacin dada.
Recordemos el estimador MCO de 2 :

P
xi y i
2 = P 2
xi
donde yi = 2 xi +ui (modelo poblacional en desviaciones con respecto a la media).

De esta forma reemplazando yi en el estimador de 2 :
P
xi (2 xi + ui )
2 = P 2
x
P 2 iP
x ui x i
= 2 P 2i + P 2
x xi
Pi
ui x i
= 2 + P 2
xi
Aplicando valor esperado a la expresin anterior:

P
ui x i
E(2 ) = 2 + E P 2
xi
P
E(ui )xi
= 2 + P 2 por supuesto 2
xi
= 2 por supuesto 3 (2.28)
La ecuacin (2.28) nos dice que en valor esperado el estimador MCO de 2 es

igual a su verdadero valor. Esta propiedad del estimador MCO se conoce como
insesgamiento.
35
Econometra I
Ahora procedamos a calcular la varianza de el estimador MCO de 2 :

var(2 ) = E[2 E(2 )]2
= E(2 2 )2
P
[ xi ui ]2
= E P
[ x2i ]2
Por supuesto 4 E(u2i ) = 2 y por supuesto 6 E(ui uj ) = 0, esto implica que:
2
var(2 ) = P 2 (2.29)
xi
2.3.4. Estimador Mnimo Cuadrado Ordinario de 2
Ahora debemos estimar el parmetro poblacional 2 , como este corresponde al

valor esperado de u2i y ui es una estimacin de ui , por analoga:
Pn 2
u
= i=1 i
2
n
pareciera ser un estimador razonable. Pero los errores de MCO, estn estimados
imperfectamente si los comparamos con los errores poblacionales, ya que depen-
den de una estimacin de 1 y 2 . Veamos esto con ms detalle:
Partiendo del Regresin poblacional expresado en desviaciones con respecto a

la media:
yi = 2 xi + (ui u) (2.30)
y recordando tambin que:
ui = yi 2 xi (2.31)
Al sustituir (2.30) en (2.31), se obtiene:
ui = 2 xi + (ui u) 2 xi
Elevando al cuadrado la expresin anterior, aplicando sumatoria y tomando valor
esperado:
X X hX i h X i
E 2
ui
= E(2 2 ) 2 2
xi + E 2
(ui u) 2 E (2 2 ) xi (ui u)
| {z } | {z }
(i) (ii)
X P X
x u
= var(2 ) 2 i i
xi + (n 1)var(ui ) 2E P 2 xi (ui u)
xi
= 2 + (n 1) 2 2 2
= (n 2) 2
36
Econometra I
hX i hX i
(i) E (ui u)2 = E (u2i 2ui u + u2 )
hX X i
= E u2i 2u ui + nu2
hX nX i
2 2
= E ui 2u ui + nu
hX n i
= E u2i 2nu2 + nu2
hX i
2 2
= E ui nu
" P 2 #
X ui
2
= E ui n
n
n
= n 2 2
n
= (n 1) 2
h X i h X i
(ii) E (2 2 ) xi (ui u) = E (2 2 ) xi (ui u)
P
x i ui X
= E P 2 xi (ui u)
xi
P P P
( xi ui )2 x i ui x i
= E P 2 u P 2
xi xi
2
=
e2 como:
Por lo tanto se define el estimador de la varianza
P 2
2 ui

e = (2.32)
n2
e2 es un estimador insesgado de 2 :
De forma tal que,
1 X
e2 =
E u2i = 2
n2
37
Econometra I
2.4. Modelo de Regresin con k variables
Ahora abandonemos la simplificacin de solo usar dos variables, de ahora en ade-

lante generalizaremos el modelo de regresin lineal para que pueda tener hasta k
variables explicativas.
Aclaracin: haremos un cambio de notacin, cada observacin i de la variable

dependiente ser denotada por yi y cada observacin i de una variable explicati-
va, por ejemplo X1 , ser denotada por x1i . Ahora las variables en minscula no
significa que estn en desvos.
El Modelo de Regresin Poblacional en este caso es:
yi = 1 + 2 x2i + 3 x3i + ... + k xki + ui i = 1, ..., n
2.4.1. Representacin Matricial del Modelo de Regresin

Lineal
El modelo con k variables explicativas puede ser expresado en notacin matricial.

En efecto, cada variable explicativa xj , con j=1,..., k, es un vector columna de
dimensin n, al igual que la variable dependiente y el trmino de error. De este
modo, el modelo puede ser reescrito de la siguiente forma:

y1 1 x21 x31 xk1 u1
y2 1 x22 x32 xk2 u2

.. = .. 1 + .. 2 + .. 3 + ... + .. k + ..
. . . . . .
yn 1 x2n x3n xkn un
Donde las variables explicativas se pueden agrupar en una sola matriz de dimen-
sin nk, que denotaremos simplemente como X, de esta manera el modelo se
expresa de la siguiente forma:

y1 1 x21 x31 xk1 1 u1
y2 1 x22 x32 xk2 2 u2

.. = .. .. .. . . .. .. + .. Y = X + u(2.33)
. . . . . . . .
yn 1 x2n x3n xkn k un
donde Y es un vector de dimensin n1, X es la matriz de variables explicativas

de dimensin nk y u es un vector correspondiente al trmino de error con di-
mensin n1.
38
Econometra I
Ahora debemos expresar la distribucin del trmino de error en trminos ma-

triciales:

E(u1 )
E(u2 )

E(u) = .. = 0
. n1
E(un )

E(u21 ) E(u1 u2 ) E(u1 un ) 2 0 0
E(u2 u1 ) E(u2 ) E(u2 un ) 0 2 0
0 2 2
E(uu ) = .. .. . . .. = .. .. . . .. = nn
I
. . . . . . . .
E(un u1 ) E(un u2 ) E(u2n ) 0 0 2
De los supuestos 3, 4 y 5, tenemos entonces que el trmino de error tiene la

siguiente distribucin:

2
u 0 , I (2.34)
n1 nn
2.4.2. Estimador Mnimo Cuadrados Ordinarios
El mtodo de MCO, plantea que los parmetros del modelo pueden ser estimados
la que en trminos
minimizando la suma de los errores al cuadrado (SE ()),
matriciales equivale a:
n
X
=
SE () u2i = u0 u
i=1
Entonces el problema de minimizar la suma de los errores al

donde u = Y X .
cuadrado se expresa de la siguiente forma:
h i
0
mn SE () = mn (Y X ) (Y X )

h i
= mn Y 0 Y 20 X 0 Y + 0 X 0 X

SE ()
= 2X 0 Y + 2X 0 X = 0
0
= (X 0 X)1 X 0 Y (2.35)
39
Econometra I
De (2.35) tenemos:
= 0 X 0 u = 0
X 0 (Y X ) (2.36)
(2.36) es la condicin de ortogonalidad.
De esta forma, el vector de parmetros estimados se obtiene de resolver el

siguiente sistema de ecuaciones normales:
X 0 X = X 0 Y

1 1 1 1 1 x2,1 x3,1 xk,1 1
x2,1 x2,2 x2,3 x2,n 1 x2,2 x3,2 xk,2 2

x3,1 x3,2 x3,3 x3,n 1 x2,3 x3,3 xk,3
3
.. .. .. .. .. .. .. .. .. .. .
. . . . . . . . . . ..
xk,1 xk,2 xk,3 xk,n 1 x2,n x3,n xk,n k

1 1 1 1 y1
x2,1 x2,2 x2,3 x2,n
y2

x3,n y3
= x3,1 x3,2 x3,3
.. .. .. ... .. ..
. . . . .
xk,1 xk,2 xk,3 xk,n yn
Pn Pn P Pn
n x 2,i Pn i=1 x3,i P ni=1 xk,i 1
Pn i=1 yi
Pn x2,i Pn 2
i=1
Pni=1 x2,i xk,i 2
Pni=1
Pn i=1 x2,i i=1 x2,i x3,i
P n 2 n

Pi=1
n
yi x2,i

i=1 x3,i i=1 x3,i x2,i i=1 x3,i i=1 x3,i xk,i 3 = i=1 yi x3,i
.. .. .. ... .. . ..
..
Pn . Pn . Pn . Pn . 2 Pn .
i=1 xk,i i=1 xk,i x2,i i=1 xk,i x3,i i=1 xk,i k i=1 yi xk,i
Es importante recordar que el estimador MCO esta definido solo cuando la matriz
(XX) es invertible, lo que ocurre siempre y cuando:
1. Las k columnas de la matriz X sean linealmente independientes.

2. Se disponga al menos de tantas observaciones como variables explicativas,
es decir: n k.(Supuesto 7)
Pongamos atencin en el segundo supuesto, cuando n=k la matriz X tiene dimen-

sin kk, por lo tanto salvo que no se cumpla el supuesto 8, X es invertible, y de
esta forma (X 0 X)1 = X 1 (X 0 )1 y por lo tanto:
= (X 0 X)1 X 0 Y = X 1 (X 0 )1 X 0 Y = X 1 Y (2.37)
40
Econometra I
el vector de residuos u = Y X = Y X(X 1 Y ) = Y Y = 0n , de esta forma

el ajuste es perfecto, ya que todos los residuos son cero, la suma residual de igual
forma toma el mnimo valor posible, cero.
Sin embargo, esta no es una caracterstica deseable, el ajuste perfecto ocurre
porque tenemos una muestra muy reducida. Esto trae como consecuencia poco
robustez e imprecisin en las estimaciones. Si escogemos una nueva muestra, del
mismo tamao que la anterior, obtendremos otro estimador con suma residual
0, que puede diferir en forma arbitraria del anterior.
Para lograr estimaciones precisas de los parmetros, es necesario tener un nmero

de observaciones notablemente superior al de las variables explicativas. La difer-
encia n-k se conoce como el nmero de grados de libertad de la estimacin.
2.5. Propiedades del estimador MCO
Notemos que el vector es un vector aleatorio, ya que depende del vector de

errores:
= (X 0 X)1 X 0 Y = (X 0 X)1 X 0 (X + u) = + (X 0 X)1 X 0 u (2.38)
= E() + E[(X 0 X)1 X 0 u]

E()
= + (X 0 X)1 X 0 E(u)
La esperanza de es el mismo parmetro, ya que este es un constante (valor

poblacional), y por supuestos 2 y 3 el segundo trmino de la expresin anterior
es cero,
=
E() (2.39)
Es decir, el estimador MCO es insesgado, tal como lo habamos mostrado en la

ecuacin (2.28).
De (2.38) podemos definir el error de estimacin o sesgo como:
= (X 0 X)1 X 0 u
41
Econometra I

Ahora calculemos la varianza de :
=
var() E[( E())
( E())
0]
= E[( ) ( )0 ]
= E[(X 0 X)1 X 0 uu0 X(X 0 X)1 ]
= (X 0 X)1 X 0 E(uu0 )X(X 0 X)1
= (X 0 X)1 X 0 ( 2 In )X(X 0 X)1
= 2 (X 0 X)1 (2.40)
Para poder estimar la varianza de necesitamos reemplazar 2 en (2.40) por su

estimador insesgado:
u0 u
e2 =

nk
2.5.1. Propiedad de mejor estimador lineal insesgado
Se dice que , es el mejor estimador lineal insesgado (MELI) de si se cumple

lo siguiente:
1. El lineal, es decir, es una funcin lineal de una variable aleatoria, como la

variable y en el modelo de regresin.
es igual a el verdadero
2. Es insesgado, es decir, su valor esperado, E(),
valor, .
3. Tiene varianza mnima dentro de la clase de todos los estimadores lineales

insesgados; un estimador insesgado como varianza mnima es conocido como
un estimador eficiente.
2.5.2. Teorema de Gauss-Markov
Proposicin: El estimador MCO es el estimador lineal insesgado ptimo, en el

sentido de que cualquier otro estimador lineal e insesgado tiene una matriz de co-
varianza mayor que la del estimador MCO. Es decir, el estimador MCO es MELI.
Demostracin: Sea e = Ay
e un estimador lineal de , donde A
e es una matriz
42
Econometra I
e (X 0 X)1 X 0 , de modo que:

kn. Denotemos A = A
e = [A + (X 0 X)1 X 0 ]Y
= [A + (X 0 X)1 X 0 ](X + u)
= AX + + [A + (X 0 X)1 X 0 ]u
Aplicando esperanza a la expresin anterior:

e = AX + + [A + (X 0 X)1 X 0 ]E(u)
E()
= AX +
El estimador e ser insesgado solo si la matriz A es tal que AX=0kk . De esta

forma:
e = + [A + (X 0 X)1 X 0 ]u
y su matriz de covarianza ser:

e = E[(e )(e )0 ]
cov()
= E{([A + (X 0 X)1 X 0 ]u)([A + (X 0 X)1 X 0 ]u)0 }
= 2 AA0 + 2 (X 0 X)1
| {z }

cov()
Como la matriz AA0 es semidefinida positiva, se concluye la diferencia entre la

covarianza de e y es una matriz semidefinida positiva, con lo que la covarianza
de e es mayor o igual a la covarianza de
43
Econometra I
2.6. Geometra del Estimador MCO
Recordemos que el modelo de regresin muestral tiene la siguiente expresin:
Y = X + u
la que puede ser reescrita de la siguiente forma:
Y = P Y + MY (2.41)
donde P se denomina matriz de proyeccin y se define de la siguiente manera:
P = X(X 0 X)1 X 0
Adems se tiene que M=I-P. De acuerdo a la ecuacin (2.36) el estimador MCO es

tal que los errores son ortogonales a las X, es decir se deben escoger los parmet-
ros de forma tal que el vector de errores sea ortogonal al espacio formados por
las variables explicativas.
As, el estimador MCO nos permite descomponer Y en dos trminos ortogonales

entre si: el primer componente puede ser escrito como una combinacin lineal
de las columnas x y el segundo es un componente ortogonal a X (el trmino de
error), tal como lo muestra (2.41). Esto se representa grficamente en la Figura
10.
MY
x1
PY
x2
0
Col X
Figura 10: Descomposicin Ortogonal de Y
El trmino P Y alternativamente se puede ver como la proyeccin de Y en el

espacio barrido por las Xs y M Y como la proyeccin de Y es el espacio ortogonal
a las Xs.
44
Econometra I
2.7. Bondad de Ajuste y Anlisis de Varianza
El objetivo de esta seccin es introducir un criterio de ajuste de nuestra regre-

sin, es decir, un criterio que nos indique cuan bien se ajusta nuestro modelo a
la muestra.
En principio, podramos pensar que la suma de los residuos cuadrados, es de-

cir, nuestro criterio original de ajuste, es una buena opcin: a menor sea ste,
mejor es nuestro ajuste. Sin embargo, la suma de los residuos cuadrados puede
ser arbitrariamente escalada al multiplicar la variable dependiente (Y) por el fac-
tor de escala deseado, lo cual invalida su uso como criterio de ajuste.
Por ello, se ha desarrollado un criterio que elimine el problema anterior. Di-

cho estadstico ya no se basar en la magnitud de un valor (como la suma de
los cuadrados de los residuos), sino que intentar preguntarse si la variacin de
las variables independientes (X) explica la variacin de la variable independi-
ente, como veremos ms adelante. Para ello analizaremos con un poco ms de
profundidad el modelo de regresin lineal en desvos con respecto a la media y
presentaremos la llamada descomposicin de varianza (o anlisis de varianza),
ambos, insumos fundamentales para obtener nuestro estadstico de bondad de
ajuste.
2.7.1. Modelo de Regresin Lineal en Desvos
Sea el modelo poblacional usual con k variables:
yi = 1 + 2 x2i + 3 x3i + + k xki + ui (2.42)
donde i = 1 . . . n y cuya contraparte estimada es:
yi = 1 + 2 x2i + 3 x3i + + k xki + ui (2.43)
Luego, si sumamos para todas las observaciones y dividimos a ambos lados por
el tamao muestral n, tenemos:
Y = 1 + 2 x2 + 3 x3 + + k xk (2.44)
por lo cual:
1 = Y 2 x2 + 3 x3 + + k xk (2.45)
45
Econometra I
La ecuacin (2.45) muestra que el trmino independiente de una regresin queda

determinado por el resto de los k-1 coeficientes involucrados. Finalmente, note
que restando las ecuaciones (2.43) y (2.44) obtenemos:
yi Y = 2 (x2i x2 ) + 3 (x3i x3 ) + + k (xki xk ) + ui (2.46)
la cual es una expresin similar a (2.43), excepto por dos importantes diferencias.
Primero, el modelo no posee constante y segundo, las variables se encuentran
expresadas en desvos con respecto a la media. A pesar de ello, note que los coe-
ficientes y los residuos son los mismos en ambos modelos.
De lo anterior surge un importante corolario respecto del trmino constante de

nuestro modelo. En general, el inters del investigador se centra en el impacto de
los regresores sobre la variable dependiente, por lo cual, el trmino constante no
es ms que una correccin que garantiza que los promedios muestrales de ambos
miembros del modelo economtrico coincidan.
Para transformar en desvos con respecto a la media un modelo en trminos ma-

triciales, introduciremos una matriz fundamental para el anlisis de esta seccin.
Denotaremos por M 0 una matriz de n n, definida como:

1 0 0 1 1 1 1 n1 n1 n1
ii0
1
0 1 0 1 1 1 1 1 n1 n1
M 0 = I = .. .. . . .. .. .. . . .. = .. n .. .. ..
nn n . . . . n . . . . . . . .
0 0 1 1 1 1 n1 n1 1 n1
donde I es la identidad (nn) e i corresponde al vector unitario de dimensin n.

Dicha matriz es singular, simtrica (M 0 =M 0 ) e idempotente (M 0 M 0 =M 0 ). En
general, M 0 es conocida como matriz de desvos, ya que resta a cada columna de
la matriz involucrada, su media aritmtica. Por ejemplo, es fcil comprobar que:
Pn
y1 y i y1
Y
y2 1 Pn yi y2 Y
i=1
0 1 0 i=1
M Y = Y ii Y = .. .. = ..
n . n
Pn. .

yn i=1 yi yn Y
Por lo tanto, nuestro modelo expresado en matrices, puede ser expresado en tr-
minos de desvo con respecto a la media como:
M 0 Y = M 0 X + M 0 u (2.47)
46
Econometra I
2.7.2. Anlisis de Varianza
Suponga entonces el siguiente modelo poblacional:

Y = X + u
donde Y corresponde a una vector n 1, X corresponde a nuestra matriz de re-
gresores que incluye un trmino constante, tal que X es de n k y u corresponde
a nuestro vector de errores de n 1.
Buscamos entonces definir la variacin de la variable dependiente (Suma de los

cuadrados totales = TSS) como3 :
n
X
T SS = (Yi Y )2 (2.48)
i=1
Para encontrar entonces una expresin para (2.48), de la ecuacin (2.47) tenemos
que nuestro modelo estimado en desvos con respecto a la media es:
M 0 Y = M 0 X + M 0 u
con lo cual, al particionar nuestra matriz X en X = [i X2 ], nuestro vector de
parmetros en 0 = [1 2 ] y considerando que M 0 i = 0 y que M 0 u = u,
tenemos que:
M 0Y = M 0 i1 + M 0 X2 2 + M 0 u
= M 0 X2 2 + u (2.49)
Luego, para formar la TSS(suma de los cuadrados totales o la suma de los cuadra-
dos de las desviaciones de Y con respecto a su media), de la ecuacin (2.48),
multiplicamos por Y la ecuacin (2.49):
Y 0M 0Y = Y 0 (M 0 X2 2 + u)
= (X + u)0 (M 0 X2 2 + u)
= 0 X 0 M 0 X2 2 + 0 X 0 u + u0 M 0 X2 2 + u0 u
0 0
Y M Y = 2 X20 M 0 X2 2 + u0 u (2.50)
T SS = ESS + RSS (2.51)
donde el segundo y el tercer trmino desaparecen gracias a que los residuos estima-
dos son, por construccin, ortogonales a las variables explicativas 4 . La igualdad
3
Note que para dicha definicin utilizamos los cuadrados de la desviaciones, ya que la suma
de las desviaciones es siempre cero.
4
Ya que X 0 u = X 0 Y X 0 Y = 0.
= X 0 (Y X )
47
Econometra I
anterior es conocida como la descomposicin de varianza. El trmino de la

izquierda corresponde a TSS o la suma de los cuadrados de las desviaciones de
la variable dependiente. En otras palabras, la variabilidad de Y. En la derecha se
encuentra la variabilidad de las variables independientes o regresores y la variabil-
idad de los errores. Cul es entonces el objetivo?: descomponer la varianza de
la variable dependiente aquella parte que es explicada por la regresin (ESS) de
aquella parte explicada por los residuos (RSS). Por qu?: porque intuitivamente,
la regresin se ajusta mejor si las desviaciones de Y se explican en su mayor parte
por desviaciones de X y no por desviaciones de los residuos.
2.7.3. 2
Bondad de Ajuste: R2 y R
Definimos entonces la bondad de ajuste del modelo a travs del siguiente estad-
grafo llamado tambin coeficiente de determinacin:
ESS
R2 = (2.52)
T SS
es decir, como la proporcin de la varianza de Y que es explicada por la varianza
de la regresin. Alternativamente:
RSS
R2 = 1 (2.53)
T SS
Note que:
1. El coeficiente de determinacin es siempre menor a 1. Ello porque RSS

T SS y por lo tanto RSS
T SS
1.
2. El anlisis de varianza anterior fue derivado bajo el supuesto que el modelo

inclua una constante (por ello utilizbamos la matriz M 0 ). En dicho caso,
necesariamente R2 0. En caso de que el modelo no incluya una constante,
se debe utilizar la frmula (2.5.2) utilizando TSS=YY (sin desvos).
3. Al agregar regresores al modelo, el R2 nunca decrecer (se mantendr con-

stante o aumentar)
4. No es claro cuan bueno sea como predictor de ajuste.
Para ver este ltimo punto, suponga que usted posee el siguiente modelo pobla-
cional:
Y = 1 + 2 X + u
48
Econometra I
donde X es un vector (n 1). Suponga ahora que restamos X a ambos lados de

nuestro modelo. Obtenemos entonces:
Y X = 1 + X + u
Si 2 1, entonces es fcil verificar que el R2 del primer modelo ser cercano a

1, mientras que el del segundo sera cercano a cero, a pesar de que los modelos
son matemticamente equivalentes. A pesar de lo anterior, en trabajos aplicados,
el R2 es ampliamente utilizado, por lo cual se recomienda su publicacin.
Retrocedamos ahora al punto tres. El nos dice que el coeficiente de determinacin

probablemente crecer al incluir regresores. Ello plantea incentivos a incluir re-
gresores no relevantes para nuestro modelo, con el fin de obtener un mejor ajuste.
Porqu sucede esto?, ya que al incluir regresores, la RSS necesariamente decrece
(o en el mejor de los casos se mantiene), mientras que la TSS permanece constante.
Por esta razn se cre el coeficiente de determinacin ajustado, el cual corrige el

R2 original por los grados de libertad del numerador y el denominador. Entonces,
definimos el R2 ajustado (R 2 ) como:
0
2 = 1 u u/(n k)
R (2.54)
Y 0 M Y /(n 1)
o equivalentemente:
2 = 1 (1 R2 ) (n 1)
R (2.55)
(n k)
49
Econometra I
2.8. Inferencia
Una vez que hemos estimado nuestra regresin muestral, es necesario preguntarse
cuan buena aproximacin es dicha regresin de la poblacional. Para que la aprox-
imacin sea cercana, es condicin necesaria que los parmetros incluidos en la
regresin muestral sea estadsticamente distintos de cero (en caso contrario, no
pertenecen a la regresin poblacional). As, uno de nuestros objetivos puede ser
el testear la significancia individual de los parmetros.
Pero lo anterior es slo una de las preguntas que como investigadores podemos
estar interesados en responder. Por ejemplo, en la estimacin de la funcin de
produccin de una firma, que asumimos Cobb Douglas (Y = AK L eu o en loga-
ritmo ln Y = ln A + ln K + ln L + u), podemos estar interesados en descubrir si
la firma presenta rendimientos constantes, crecientes o decrecientes a la escala, lo
cual se reflejar en que + > o 1. Por lo tanto, ello podra ser otra hiptesis
interesante de plantearse. Tambin podra ser interesante descubrir si todos los
parmetros a la vez son distintos de cero, o de algn valor determinado.
La gama de preguntas posibles respecto del valor de los parmetros es slo aco-
tada por la pregunta que el investigador desee responder. Nuestro objetivo es,
por lo tanto, desarrollar los mtodos de inferencia y contraste de hiptesis que
nos permitan responder, en el contexto de una regresin muestral particular, las
preguntas anteriores.
Dos notas precautorias. En esta seccin nos ocuparemos de restricciones o hipte-

sis lineales sobre los coeficientes. Restricciones no lineales son ms escasas en
econometra aplicada y se desarrollan en contexto de un modelo particular. Se-
gundo, en todo lo que se refiere a este apartado, asumiremos que los errores de
nuestra regresin muestral siguen una distribucin normal (ya veremos porqu).
Entonces, sea nuestro modelo poblacional
Y = X + u
donde X es una matriz de (n k),u e Y son vectores (n 1) y es vector de

(k 1).
Sean entonces las siguientes hiptesis:
1. H0 : i = 0 Plantea que el regresor Xi no posee influencia alguna sobre Y.

Este es el test ms comn y nos referiremos a l como test de significancia.
50
Econometra I
2. H0 : i = i0 Plantea que el regresor Xi posee un impacto determinado

por i0 sobre Y.
3. H0 : i + j =1 Plantea que la suma de los regresores Xi y Xj poseen un

impacto conjunto de magnitud 1.
4. H0 : i = j Plantea que los regresores Xi y Xj poseen el mismo impacto

sobre Y.
5. H0 : i =0 i=2. . . k Plantea que todos los regresores conjuntamente,

excepto la constante, son cero.
6. H0 : l =0 donde el vector ha sido particionado en dos (l y p ) con di-

mensiones (kl 1) y (kp 1) respectivamente, tal que kl + kp = k. Plantea
entonces que un subconjunto de parmetros son estadsticamente no signi-
ficativos.
Todas las hiptesis anteriores pueden ser resumidas en la siguiente expresin:
R = r
donde R es una matriz de (q k) constantes conocidas (ceros o unos), cuyo obje-

tivo ser seleccionar los parmetros a testear, cuyo nmero de filas, q, representa
el nmero de restricciones. A su vez, r es un vector de dimensin q y contiene el
real al cual es restringido cada parmetro. Veamos como sern las matrices R y
r en cada una de nuestras hiptesis:
1. R=[0. . . 010 . . . 0]; r=0; q=1

donde 1 se encuentra en la i-sima posicin
2. R=[0. . . 010 . . . 0]; r=i0 ; q=1

donde 1 se encuentra en la i-sima posicin
3. R=[0. . . 010 . . . 010 . . . 0]; r=1; q=1

donde 1 se encuentra en la i-sima posicin y en la j-sima posicin.
4. R=[0. . . 010 . . . 0-10 . . . 0]; r=0; q=1

donde 1 se encuentra en la i-sima posicin y en la j-sima posicin.
5. R=[0q1 Ik1 ]; r=0; q=k 1
6. R=[0ki kj Iki ]; r=0; q=ki
51
Econometra I
Entonces, nuestra hiptesis nula corresponde a:
H0 : R = r (2.56)
con lo cual, slo nos resta derivar el test que nos permita rechazar o no rechazar
nuestra nula. La construccin del estadgrafo es como sigue. Dado que MCO
(bajo los supuestos relevantes) es insesgado, tenemos que E() = , por lo tanto,
E(R) = R, mientras que la varianza de R corresponde a
= E[R( )( )0 R0 ]
V [R]
0
= RV ar()R
= 2 R(X 0 X)1 R0
Necesitamos an un supuesto ms para determinar la distribucin muestral de

nuestra nula. Dado que es funcin de u y u N (0, 2 ), entonces N (, 2 (X 0 X)1 )
y por lo tanto R N (r, 2 R(X 0 X)1 R0 ), entonces:
N [, 2 (X 0 X)1 ] (2.57)
R N [R, 2 R(X 0 X)1 R0 ] (2.58)
y si la nula R = r es cierta:
(R r) N [0, 2 R(X 0 X)1 R0 ] (2.59)
luego estandarizamos, con lo cual:
(R r)
p N [0, 1] (2.60)
2 R(X 0 X)1 R0
Adems, se puede demostrar que (hacerlo)5 :

u0 u
2(nk) (2.61)
2
Luego, se puede demostrar que (hacerlo)6 :
(R r)0 [ 2 R(X 0 X)1 R0 ]1 (R r) 2q (2.62)

5
Basta con recordar que si x corresponde a un vector de realizaciones normales (0,1), por lo
cual x N (0, 2 I) y A corresponde a una matriz simtrica e idempotente de rango n, entonces
1 0 2
2 x Ax n . Finalmente, recuerde que u = M Y = M u y que el rango de una matriz simtrica
e idempotente es su traza.
6
Basta con recorder que si el vector x, de dimensin n, es tal que x N (0, ), entonces,
x x 2n .
0 1
52
Econometra I
luego, combinando los dos resultados anteriores, se puede demostrar que (hacer-
lo)7 :
[(R r)0 [R(X 0 X)1 R0 ]1 (R r)]/q

F(q,nk) (2.63)
u0 u/(n k)
El test expuesto en (2.63) corresponde a la forma general del test F. Dicho test
es de utilidad para testear cualquier hiptesis de la forma expuesta en (2.56). A
continuacin veremos subcasos de dicho test general.
2.8.1. Test t (Una hiptesis lineal)
Reescribiendo el test F como:
[(R r)0 [RVd 0 ]1 (R r)] F(q,nk)

ar()R
y haciendo el reemplazo respectivo de R y r correspondientes a las hiptesis 1 o

2 (H0 : i = 0 = i0 ), llegaremos a:
( i0 )2
F = F (1, n k) (2.64)
Vd ar(i )
Recordando que t2 es una caso particular de una F con un grado de libertad en
el numerador, tenemos que:
i0
t= q tnk (2.65)
Vdar(i )
Lo anterior es conocido como el test t (test de significancia) y en su versin ms

utilizada corresponde a t = d , donde se busca testear la hiptesis nula de
V ar(i )
que el parmetro es cero.
El test t tambin cubre los casos 3. y 4.. En el caso 3. por ejemplo (H0 : i +j =1),
el estadgrafo corresponder a:
i + j 1
t= q tnk (2.66)
ar(i ) + 2Cov(
Vd d i , j ) + Vd
ar(j )
La distribucin t es simtrica y se aproxima a la normal para tamaos de muestras

7
Slo un poquito de lgebra y recordar como se construye una distribucin F(q, n-k) a partir
de la divisin de dos 2 con grados de libertad q en el numerador y n-k en el denominador.
53
Econometra I
grandes, sin embargo, la t posee colas ms gruesas que la normal (lo cual es ms
pronunciado en muestras pequeas: n30). La siguiente figura expone la relacin
entre la distribucin t y la normal:
Probabilidad
Distribucin Normal
Distribucin t
Nota precautoria:
Toda la derivacin anterior se basa en el estricto supuesto de normalidad de

los errores. En caso de que los mismos no distribuyan normal, la distribucin
del test F (y por lo tanto el del t) es desconocida en muestras finitas. Sin em-
a
bargo, es posible demostrar que t N (0, 1), es decir, que el test t distribuye
asintticamente normal. Luego, los valores crticos de t y (normal estndar)
se encuentran sumamente cerca si n-k30, por lo cual, en trminos prcticos no
importa mucho cual de ellas escojamos para los valores crticos (a menos que la
muestra sea especialmente pequea).
Finalmente, nos queda examinar los criterios de rechazo del test y los niveles
de confianza. Como usted recordar de sus clases de estadstica, lo anterior de-
pende de como especifiquemos la hiptesis alternativa. A continuacin, pasamos
a revisar este punto.
54
Econometra I
Criterio de Rechazo y Nivel de Confianza
Una vez que hemos calculado el valor del test para nuestra nula particular (o
valor calculado), resta calcular el valor crtico o el valor que nos indica la tabla t.
Dicho valor crtico nos dir si nuestra nula es falsa o si no podemos afirmar que lo
es. La eleccin de dicho valor crtico se toma desde la tabla de distribucin t y el
nmero debe ser escogido tomado en cuenta el nivel de significancia escogido
(1 %, 5 % o 10 %), el cual a su vez determina el nivel de confianza del test
(99 %, 95 % o 90 %, respectivamente). El nivel de confianza posee una explicacin
intuitiva: Nuestro estadgrafo es funcin de la muestra con lo que estamos traba-
jando, por lo cual, si contramos con una gran nmero de ellas y con cada una
pudisemos calcular nuestro estadgrafo, el nivel de confianza indica el porcenta-
je de veces que calculamos nuestro estadgrafo en que realmente no rechazamos
lo cierto o rechazamos correctamente lo falso. La forma en que se distribuya la
probabilidad de rechazo, es decir, el nivel de significancia, depende de nuestra
hiptesis alternativa. A continuacin revisamos dicho asunto. Test de una cola
Supongamos que nuestra hiptesis es:
H0 : i = io
H1 : i > io
donde i0 R. En dicho caso, el estadgrafo es calculado segn lo propuesto en la
seccin anterior. El punto est en como acumulamos la probabilidad de rechazo.
En este caso, el total de la probabilidad de rechazo se acumula en la cola derecha
de la distribucin, como lo muestra la siguiente figura8 :
8
Por qu en la cola derecha? Porque la probabilidad de rechazo, es decir, el nivel de sig-
nificancia, nos indica hasta donde puedo tolerar un valor mayor a io , por lo cual, carecera de
sentido que la zona de rechazo se encuentre en la cola izquierda de la distribucin. Por ejemplo,
si io =0, la distribucin de nuestro estadgrafo se centra en cero (vea la frmula), por lo cual la
hiptesis alternativa correspondera a que el parmetro es positivo. el punto es cun positivo
puedo aceptar que sea?.
55
Econometra I
Probabilidad
Se Rechaza (5%)
No se Rechaza
por lo tanto, rechazaremos nuestra hiptesis nula de que el coeficiente es cero

contra la hiptesis alternativa que el parmetro es mayor que io , si el valor cal-
culado del test es mayor al valor crtico de la tabla t. En el caso que H1 sea que
el parmetro es menor a io , entonces la probabilidad de rechazo se concentra en
la cola izquierda y se rechaza la nula en el caso que el valor calculado sea menor
que el valor crtico de la tabla t.
Test de dos colas
Supongamos que nuestra hiptesis es:
H0 : i = io
H1 : i 6= io
En este caso estamos repartiendo uniformemente la probabilidad de rechazo en

ambas colas de la distribucin como lo muestra la siguiente figura (al 95 % de
confianza):
56
Econometra I
Probabilidad
Se Rechaza (2,5%))
Se Rechaza (2,5%)
No se Rechaza
Por lo tanto, rechazaremos la nula si el valor calculado es en mdulo mayor que

el valor crtico de tabla. Note que en este caso, la probabilidad de rechazo se
reparte un partes iguales en ambas colas. Ello se justifica en que la distribucin
t corresponde a una distribucin simtrica.
Error de Tipo I, Error de Tipo II, Tamao y Potencia de un test
Antes de continuar, veremos cuatro conceptos estadsticos importantes que nos

indican caractersticas de nuestro test.
1. Error de Tipo I (ETI): Corresponde a la probabilidad de rechazar la

nula cuando es cierta.
2. Error de Tipo II (ETII): Corresponde a la probabilidad de aceptar la

nula cuando es falsa.
3. Tamao del Test: Corresponde la probabilidad de cometer ETI. Se define

como el nivel de significancia del test ().
4. Potencia del Test: Corresponde a la probabilidad de rechazar la nula

cuando es falsa. Se define como Potencia =1-ETII.
El ptimo para el investigador sera minimizar ambos tipos de errores y tener un

test con un menor tamao y mayor potencia posibles, sin embargo, note que el
57
Econometra I
tamao del test y por lo tanto, el ETI, es una variable endgena al investigador,
en tanto que l decide con que nivel de confianza trabajar. Luego, el objetivo se
transforma en, dado un nivel de confianza, minimizar la ocurrencia de ETII.
Intuitivamente, si usted escoge un nivel de significancia pequeo (1 %, por ejemp-

lo), sus zonas de rechazo sern pequeas, con lo cual, inevitablemente, la zona de
no rechazo crece, lo cual implica que por minimizar el ETI, ha aumentado el ETII.
P-value
Otra forma alternativa al valor crtico de tabla para rechazar o no rechazar nues-
tra nula, corresponde al uso de los llamados p-values, los cuales son reportados
en cualquier paquete estadstico. El p-value (p) se define como:
p = p(tcalculado ) = P (|Z| |tcalculado |) = 2(1 (|tcalculado |)) (2.67)
es decir, el p-value representa la probabilidad de que el valor crtico (t de tabla, en
nuestro caso), sea mayor al valor t calculado, es decir, describe el nivel de signif-
icancia exacto asociado a un resultado economtrico en particular. Por ejemplo,
un p-value de 0.07 indica que un coeficiente es estadisticamente significativo en
un nivel de 0.07 (o con un 93 % de confianza).
Ejemplo:
Suponga el siguiente Modelo de Regresin Lineal Simple:

Yi = 1 + 2 Xi + ui para i = 1, ..., N
Adems posee la siguiente informacin muestral de X e Y:
Y 2 5 6 7
X 0 10 18 20
El estimador MCO de 1 y 2 es el siguiente:

1
1 4 48 20 2,1935
= = =
2 48 824 298 0,2338
La matriz de varianzas y covarianzas de es:

=
V () u2 (X 0 X)1
1
0,436 4 48 0,180866 0,010536
= =
2 48 824 0,010536 0,000878
58
Econometra I
Primero veamos el ajuste de este modelo, es decir, en que grado la variable x

2
explica a la variable y, para lo cual calculemos el R2 y R :
P4
RSS u2 0,436
2
R = 1 = 1 P4 i=1 i =1 = 0,969
T SS i=1 (Y i Y )2 14
P4
2 RSS/2 i=1 u2i /2
R = 1 = 1 P4 = 0,953
T SS/3 i=1 (Yi Y ) /3
2
Como podemos ver, el grado de ajuste del modelo es bastante bueno, como el
modelo incluye constante, el R2 se puede interpretar como la proporcin de la
variabilidad de la variable independiente que es explicada por la variabilidad de
la variable dependiente, la que en este caso alcanza un 97 %.
Ahora veamos si estos parmetros estimados son significativos a un 95 % de con-

fianza, para lo cual realizaremos un test t de significancia a cada uno de ellos:
1. Test de significancia de 1 :
H0 : 1 = 0
H1 : 1 6= 0
1
t= t2
V ar(1 )
De esta forma, el valor calculado para el estadstico t es:
2,193548387
tc = = 5,157850523
0,180866
El valor de tabla del estadstico t a un 95 % de confianza y con dos grados
de libertad es 4,303.
Probabilidad
No se
Rechaza Se
Se Rechaza
Rechaza (2,5%)
(2,5%))
t(2)=4,303 t(2)=4,303
tc=5,158
59
Econometra I
De esta forma, se rechaza la hiptesis nula de que 1 =0, y por lo tanto el

parmetro estimado resulta ser estadsticamente significativo.
2. Test de significancia de 2 :
H0 : 2 = 0
H1 : 2 6= 0
2
t= t2
V ar(2 )
De esta forma, el valor calculado para el estadstico t es:

0,233870968
tc = = 7,892762865
0,000878
El valor de tabla del estadstico t a un 95 % de confianza y con dos grados

de libertad es 4,303.
Probabilidad
No se
Rechaza Se
Se Rechaza
Rechaza (2,5%)
(2,5%))
t(2)=4,303 t(2)=4,303
tc=7,893
De esta forma, se rechaza la hiptesis nula de que 2 =0, y por lo tanto el

parmetro estimado resulta ser estadsticamente significativo.
3. TAREA: Testee la siguiente hiptesis nula:
H0 : 1 2 = 2
H1 : 1 2 6= 2
60
Econometra I
2.8.2. Test F (Conjunto de hiptesis lineales)
Los casos 6. y 5. corresponden a un conjunto de hiptesis a testear. En el caso

5. corresponda a un subconjunto particular de parmetros, mientras que el caso
6. corresponda a la nula de que todos ellos eran cero, menos la constante. En
dichos casos se aplica la frmula del test F segn la ecuacin (2.63) y los criterios
de rechazo siguen lo expuesto en la seccin anterior.
Sin embargo, en ambos casos podemos derivar expresiones alternativas para nue-
stro test.
Todas las pendientes del modelo son cero: En este caso, se puede
demostrar que el test F puede expresarse como:
ESS/(k 1)
F = F(k1,nk) (2.68)
RSS/(n k)
o alternativamente, utilizando la definicin del R2 :
R2 /(k 1)
F = F(k1,nk) (2.69)
(1 R2 )/(n k)
Un subconjunto de las pendientes del modelo son cero: En este

caso, se puede demostrar que el test F puede expresarse como:
u0 u u0 u)/k2
(
F = F (k2 , n k) (2.70)
u0 u/(n k)
donde u denotan los residuos MCO restringidos (donde k2 representa el

nmero de regresores que han sido restringidos a cero), mientras que u
representan los residuos del modelo MCO original.
2.8.3. Intervalos de Confianza
Una forma alternativa (o mejor dicho complementaria) de examinar la significan-

cia estadstica de un parmetro ( o un conjunto de ellos) es a travs de intervalos
de confianza (IC). Ellos nos indican, dado un nivel de confianza, el rango de
valores admisibles del coeficiente que se estima. Los niveles de confianza gen-
eralmente utilizados son 99 %, 95 % y 90 % (al igual que en los test de hiptesis),
61
Econometra I
donde el tamao de los mismos es necesariamente decreciente9 .
Una manera natural de obtener el IC asociado a i es a travs del test t aso-

ciado. Vimos entonces que l corresponde a:
i0
qi tnk
V ar(i )
entonces, si deseamos un IC del (1-) % de confianza (es decir, de % de signifi-

cancia) para el parmetro i , basta obtener de las tablas de distribucin el valor
correspondiente, es decir:

i i0
1 = P r Z/2 q Z1/2
V ar(i )

i i0
= P r Z1/2 q Z1/2

V ar(i )
q q

= P r i Z1/2 V ar(i ) i0 i + Z1/2 V ar(i )
donde la tercera expresin se obtiene de despejar i0 de la segunda. Note que el

intervalo ha sido construido en base a una distribucin simtrica (como la t o la
normal), por lo cual el valor de tabla a escoger debe corresponder a /2.
Note adems que dicho intervalo est construido slo en base a constantes cono-
cidas. Una vez construido, se puede contrastar la nula (H0 : i = i0 ) al nivel
de significancia sencillamente observando si i0 pertenece al intervalo (en cuyo
caso no rechazamos la nula) o se encuentra fuera de l (en cuyo caso rechazamos
la nula)10 . Nuevamente, la validez de dicho intervalo de confianza depende crti-
camente del supuesto de distribucin de los errores. En el caso que el valor Z
se obtenga de la tabla t, como ya sabemos, estamos suponiendo que los errores
siguen una distribucin normal. Un caso ms general es utilizar los valores crticos
de la distribucin normal estndar.
Tambin es posible derivar regiones de confianza, es decir, IC de confianza si-

multneos para una conjunto de parmetros, sin embargo, su utilizacin es escasa
9
Intuitivamente, ya que a ms exacta es mi estimacin del rango posible, con menos confianza
puedo afirmar estar en lo correcto.
10
Una forma fcil de verlo es pensando en i0 =0, es decir, que la variable xi no ayuda a
explicar y.
62
Econometra I
en econometra aplicada (a menos que su pregunta puntual lo requiera!).
Finalmente derivaremos el intervalo de confianza para la varianza de los errores.

Sabemos de la ecuacin (2.61) que:
u0 u
2
2nk

2
(n k)
2
2nk (2.71)

tenemos
Utilizando la misma lgica que utilizamos para el IC de un parmetro ,
2
que el IC para
corresponde a:
" #
(n k)2 (n k) 2
2 2 = (1 ) (2.72)
2nk, nk,1
Note que los valores crticos utilizados corresponden a 2nk,1 y 2nk, , ya que
la distribucin 2 es una distribucin asimtrica.
2.8.4. Test de Normalidad (Test de Jarque-Bera)
Consideramos ahora el problema de utilizar los momentos de los residuos MCO

para hacer inferencia sobre la distribucin de los errores poblacionales. Dado que
algunas de las propiedades de MCO y de la inferencia dependen del supuesto de
normalidad en los errores, es importante poseer un contraste para dicho supuesto.
Como es sabido, la distribucin normal es simtrica y mesocrtica. La simetra
implica que el tercer momento poblacional E(u3 ) en torno a la media, es cero. El
hecho que sea mesocrtica implica que la kurtosis es 3 (es decir, el ancho de las
colas de la distribucin, el cual se mide utilizando el cuarto momento en torno
a la media). Recordemos entonces que el coeficiente de simetra poblacional se
define como:
E(u3 )
S= 3
( 2 ) 2
mientras que la kurtosis (o coeficiente de):
E(u4 )
K=
( 2 )2
63
Econometra I
En base a los anteriores, Bera y Jarke (1981), propusieron el siguiente estadgrafo,

construido bajo la nula de normalidad:
" #
S (K 3)2 a
JB = n + 2(2)
6 24
Donde los estimadores muestrales del coeficiente de asimetra y kurtosis se ob-

tienen al considerar que un estimador natural de:
ur ]
r = E[
corresponde a:
n
1X r
mr = u
n i=1 i
Note que el estadgrafo est definido en trminos del exceso de kurtosis, por
lo cual, a menor sea el valor, menor es la probabilidad de rechazar la nula de
normalidad. Note adems que el estadstico es esencialmente no constructivo, en
trminos de que no nos indica que camino seguir en caso de rechazar la nula,
adems de que no rechazar normalidad no implica confirmar su existencia. Sin
embargo, en la prctica corresponde al test ms utilizado.
64
Econometra I
2.9. Prediccin
La prediccin es una de las herramientas ms atractivas y utilizadas en Econometra.

Si el modelo que hemos escogido confirma la teora en consideracin, es decir,
a sobrevivido a las pruebas de hiptesis, podemos utilizar el modelo estimado
Yb = X b para predecir. La prediccin se puede efectuar para un valor puntual de
la variable dependiente, y 0 , correspondiente a un valor dado de los regresores, x0 ,
o predecir el valor esperado E[y 0 /x0 ] condicional a las variables explicativas.
Supongamos primero que queremos predecir un valor individual de Y, y 0 , asoci-

ado a un vector de regresores x0j con j = 1, 2..., k de dimensin 1 k.
De acuerdo con el modelo economtrico se tiene que y 0 = 1 +x02 2 +.....+x0k k +u0 .

Para predecir el valor de y 0 podemos utilizar la estimacin MCO del modelo,
b
yb0 = x0 .
De esta forma, el error de prediccin estar dado por :

b + u0
e0 = y 0 yb0 = x0 ( )
En donde se distinguen dos fuentes del error de prediccin
El error en la estimacin del vector

El error estocstico inherente al modelo u0
Sin embargo, si consideramos que el estimador MCO es insesgado y mantenemos

los supuestos de nuestro modelo de regresin lineal, es trivial mostrar que el valor
esperado del error de prediccin ser cero. Adems, podemos calcular la varianza
del error de prediccin:
b
e0 ) = E[x0 ( )(
V ar(b b 0 x00 + 2x0 ( )u
) b 0 + u0 u00 ]
e0 ) = 2 + 2 x0 (X 0 X)1 x00
V ar(b
La varianza del error de prediccin depender de la matriz de regresores X de
dimensin n k que se utiliz para obtener las estimaciones de . Sabemos que
a mayor dispersion de las variables explicativas menor varianza tendrn nues-
tras estimaciones MCO11 . Adems depender del vector x0 que hemos asumido
11
Es posible y se recomienda derivar una expresin para la varianza del error de prediccin
utilizando un modelo con 2 regresores. En est expresin se aprecia claramente la dependencia
de la varianza del error de prediccin con la dispersion en torno a la media de las variables
explicativas.
65
Econometra I
conocido y del parmetro 2 , el cual no conocemos y deber ser reemplazado por

su estimador b2 si es que queremos construir un intervalo de confianza para la
prediccin yb0 .
Bajo supuestos de normalidad del trmino de error, el error de prediccin es

una combinacin lineal de dos variables normales por lo tanto tiene una distribu-
cin Normal(0, be2 ). Por lo tanto, por una razonamiento anlogo al de las secciones
anteriores se tiene que:
y 0 yb0 y 0 yb0
q N (0, 1) q tnk
2 (1 + x0 (X 0 X)1 x00 ) b2 (1 + x0 (X 0 X)1 x00 )
Por lo tanto, dada una prediccin puntual yb0 y una estimacin de la desviacin
estndar del error de prediccin podemos construir un intervalo de confianza para
el valor de y 0 :
p p
y 0 t1/2,nk V ar(b
P r[b e0 ) y 0 yb0 + t1/2,T k V ar(b
e0 )] = 1
Consideremos ahora que el investigador no est interesado en predecir el valor

de la variable endgena y 0 , si no tan solo su valor esperado E(y 0 ) = x0 . La
b La diferencia es que el error
prediccin, al igual que en el caso anterior, ser x0 .
de prediccin en este caso estar definido por ee = E[y 0 ] x0 b = x0 x0 b =
b
x0 ( ).
Calculando entonces la varianza (Hacerlo!) de este nuevo error de prediccin

podemos construir ahora un intervalo de confianza para E(y 0 ) de la misma forma
que antes.
E[y 0 ] yb0 E[y 0 ] yb0

q N (0, 1) q tnk
2 (x0 (X 0 X)1 x00 ) b2 (x0 (X 0 X)1 x00 )
p p
y 0 t1/2,nk
P r[b e0 ) E[y 0 ] yb0 + t1/2,T k
V ar(e e0 )] = 1
V ar(e
Donde utilizamos V ar(yb0 ) = V ar(x0 )

b = x0 V ar()x
b 00 = 2 x0 (X 0 X)1 x00 .

La siguiente figura ejemplifica las predicciones de y 0 y E[y 0 /x0 ] en un modelo

de 2 variables independientes.
66
Econometra I
2.9.1. Medicin de la precisin de la prediccin
Se han propuesto varias medidas para valorar la precisin de los modelos de

prediccin. Muchas de estas medidas estn para evaluar la prediccin expost, es
decir, predicciones para las que las variables exgenas no tienen que ser predichas.
Dos de estas medidas que se basan en los residuos de la prediccin, son la raz
cuadrada del error cuadrado medio y el error absoluto medio.
rP
bi )2
i (yi y
RM SE =
n0
67
Econometra I
P
i | yi ybi |
M AE =
n0
Donde n0 es el nmero de perodos que hay que predecir. Estos mtodos presentan
un problema obvio de escala. Algunas medidas que no presentan este problema
se basan en el estadstico U de Theil.
s P
(1/n0 ) i (yi ybi )2
U= P
(1/n0 ) i yi2
Ejemplo:
Supongamos que un analista comercial est pensando en construir un edificio

comercial para luego vender. Sin embargo, no sabe cuales son las caractersticas
que debiera tener el edificio para maximizar su rentabilidad. Para descubrir esto
el se propone realizar un anlisis de regresin.
El analista elige al azar una muestra de 11 edificios de oficinas de 1500 edificios

posibles. Estos datos los puede utilizar para emplear el anlisis de regresin lineal
multiple para estimar el valor de un edificio de oficinas en un rea determinada
basndose en las siguientes variables.
x1 x2 x3 x4 y
Datos Superficie m2 Oficinas Entradas Antiguedad aos Valor Edificio US$
2310 2 2 20 142000
2333 2 2 12 144000
2356 3 1,5 33 151000
2379 3 2 43 150000
2402 2 3 53 139000
2425 4 2 23 169000
2448 2 1,5 99 126000
2471 2 2 34 142900
2494 3 3 23 163000
2517 4 4 55 169000
2540 2 3 22 149000
Teniendo los datos podemos entonces utilizar cualquier software estadstico que
nos permita desarrollar la estimacin por mnimos cuadrados ordinarios del mod-
elo de regresin. Supongamos que el modelo que mejor describe el compor-
tamiento de nuestra variable dependiente es un modelo lineal del tipo:
yi = 1 + 2 x2i + 3 x3i + 4 x4i + i
Utilizando el software Stata tenemos:
68
Econometra I
A mayor nmero de metros cuadrados, entradas y cantidad de oficinas del edificio

mayor es el valor comercial de este. Adems, mientras ms aos de construccin
menor es el valor del edificio. Todas las variables incluidas en el modelo son es-
tadsticamente significativas( lo cual se puede ver comparando los test calculados
con los de t de tabla, o viendo directamente el p-value) individualmente (Test
t) y conjuntamente(Test F). Un porcentaje importante de la varianza del precio
es explicada por la varianza de las variables explicativas, conclusin obtenida a
2
partir del alto R2 y R observado.
Las conclusiones obtenidas a partir de la inferencia realizada son vlidas s i el

supuesto de normalidad de los errores se cumple. Para estudiar esto observemos el
comportamiento de los errores estimados y realicemos un Test de Normalidad(Jarque-
Bera).
69
Econometra I
Podemos ver que la distribucin de los errores no es del todo simtrica (Skewness =
1,2) y que tampoco presenta un comportamiento mesocurtico (Kurtosis = 3).
Ambos elementos se ven reflejados en el estadsitico Jarque - Bera, el cual cae en
la zona de rechazo (Ver adems p -value).
Las estimaciones realizadas anteriormente pueden hacerse en cualquier programa

estadstico, incluso en el sub utilizado programa excel, el cual posee un comando
que permite obtener estimaciones de regresiones lineal de manera mu rpida.
70
Econometra I
Con los parmetros estimados es posible realizar predicciones del valor de un

edificio particular condicional a sus caractersticas.
ybi = b1 + b2 x2i + b3 x3i + b4 x4i
Por ejemplo podra calcular el valor tasado de un edificio de oficinas en la misma

zona con 2500 metros cuadrados, tres oficinas, dos entradas y una antiguedad de
25 aos. Es decir realizar predicciones fuera de la muestra.
158261 = 52318 + 27,64 2500 + 12530 3 + 234,24 25
Para analizar la capacidad predictiva de nuestro modelo realicemos predicciones

utilizando la muestra que ya tenemos. Utilizando por ejemplo el programa Eviews
tenemos.
71
Econometra I
72
Econometra I
Si analizamos los errores de prediccin podemos ver que en promedio son cero,
tal como se demostr en clases.
Para ver la relacin existente entre la varianza de la prediccin y una de las

variables explicativas podemos realizar un ajuste con una variable.
Podemos ver que la varianza de la prediccin es mayor a medida que las variables
explicativas estn ms lejos de su media.
73
Econometra I
2.10. Estimacin Mximo Verosmil (EMV)
Hasta el momento hemos adoptado el criterio de estimacin consistente con es-

2 ) de modo de minimizar la suma de los
coger los valores de los parmetros (,
residuos al cuadrado. A continuacin, expondremos otra forma de obtener los
parmetros de inters, el cual, a diferencia de OLS, descansa en un determinado
supuesto respecto de la distribucin del trmino de error, teniendo por objetivo,
como veremos ms adelante, determinar los parmetros que maximicen la prob-
abilidad de ocurrencia de la muestra observada. La ventaja de MV es que puede
producir estimadores consistentes y asintticamente eficientes cuando MCO falla.
Sea Y=[y1 , y2 , . . ., yn ] un vector n 1 de valores muestrales para la variable

dependiente, los cuales dependen de un vector k 1 = [1 , 2 , . . ., k ]. Sea
f (y; ) la densidad conjunta asociada. A dicha probabilidad conjunta se le llama
funcin de Verosimilitud y se denota por L():
L(; y) = f (y; )
Note que hemos invertido la notacin entre L y la densidad. Ello porque la den-
sidad describe los valores probables de Y dado un vector determinado, sin
embargo, en nuestro caso el sentido es inverso: estamos interesados en el vector
dado un vector Y determinado.
Al maximizar L(; Y ) respecto de se obtienen los estimadores mximo verosmiles

(M V ), los cuales maximizan la probabilidad de ocurrencia de la muestra observa-
da, es decir:
M V = max L(; Y ) (2.73)

o equivalentemente12
M V = max ln(L(; Y )) = max l(; Y ) (2.74)

13
Luego, si asumimos que las observaciones de Y son independientes, entonces :
n
Y n
X
l(; Y ) = ln( Li (; yi )) = li (; yi ) (2.75)
i=1 i=1
12
En general se utiliza el logaritmo de la funcin de verosimilitud, denotado como l = ln(L)
como funcin objetivo. Note que dicha transformacin es inocua, en trminos de que el vector
l
de parmetros que maximize l ser el que a su vez maximize L, ya que: = L1 L

13
Bajo independencia, la funcin de distribucin conjunta de una muestra corresponde a la
multiplicacin de las funciones de densidad individuales.
74
Econometra I
La primera derivada de L es generalmente conocida como Score, s = (; Y ), por

lo cual M V se obtienen al igualar el score a cero.
2.10.1. Propiedades de los estimadores MV
Las propiedades de los estimadores ML se derivan en grandes muestras, por lo

cual hablaremos de las propiedades asintticas de los mismos. Ellas son:
1. Consistencia:
plim(M V ) = (2.76)
es decir, asintticamente, el parmetro estimado corresponde al parmetro

poblacional.
2. Eficiencia Asinttica: La varianza del estimador ML alcanza la llamada

Cota Inferior de Cramer Rao, es decir I()1 . Esta propiedad asinttica
es la principal virtud de los estimadores ML. La cota inferior de Cramer
Rao corresponde al inverso de la matriz de informacin (que definiremos a
continuacin), la cual corresponde a la mnima varianza que puede poseer
un estimador insesgado.
3. Normalidad Asinttica:
M V a N (, I()1 ) (2.77)
es decir, el estimador ML distribuye asintticamente normal, con media

y varianza igual al inverso de la llamada matriz de informacin (I()).
Esta ltima se define como:
2
l l 0 l
I() = E = E
0
donde note que la matriz hessiana de segundas derivadas de L es una matriz

cuadrada y simtrica de orden k k.
4. Invarianza: Si es el estimador ML de y g() es una funcin continua

es el estimador ML de g().
de , entonces g()
75
Econometra I
2.10.2. Estimacin MV
Como ya es usual, sea el siguiente modelo poblacional:
Y = X + u
iid
donde las matrices poseen los tamaos usuales y u N (0, 2 I). Entonces:
n
Y
f (u1 , u2 , . . . , un ; 2 I) = f (u1 ) f (u2 ) f (un ) = f (ui )
i=1
y asumiendo una distribucin normal para los errores, tenemos que la funcin de
verosimilitud corresponde a:
n
Y 1 u2
i
2
f (u1 , u2 , . . . , un ; I) = exp 22 (2.78)
i=1 2 2
1 0
u u2
= n exp 2 (2.79)
(2 2 ) 2
luego, dado nuestro modelo poblacional, tenemos que:
1
(Y X)0 (Y X)
L = f (y1 , y2 , . . . , yn ; X, 2 , ) = n exp 2 2 (2.80)
(2 2 ) 2
con lo cual, nuestros estimadores M V = [M V M 2 0

V ] se obtienen siguiendo la
regla expuesta en (2.74):

1
(Y X)0 (Y X)
ma2x ln(L) = ma2x ln n exp 2 2
, , (2 2 ) 2

n n 2 (Y X)0 (Y X)
= ma2x ln(2) ln( ) (2.81)
, 2 2 2 2
con lo cual, las CPO:
lnL 1 =0
= 2 X 0 (Y X )

= M V = (X 0 X)1 X 0 Y (2.82)
lnL n 1 0 (Y X )
=0
= 2 + 4 (Y X )
2
2

(Y X M V )0 (Y X M V )
= 2 M V = (2.83)
n
76
Econometra I
Entonces, bajo normalidad de los errores, el estimador M V es equivalente al es-

timador MCO. Sin embargo, note que el estimador de la varianza de los errores
(
M V ) da lugar al estimador sesgado.
Nos queda entonces derivar la varianza de los estimadores MV. Vimos que la
matriz de varianzas corresponda al inverso de la matriz de informacin (I()).
Por facilidad de clculo, generalmente se utiliza la segunda definicin de I(), es
decir, la de las segundas derivadas de la funcin de verosimilitud. Entonces:
2l X 0X
= 2
0

2l X 0X
E = (2.84)
0 2
2l X 0u
= 4
2

2l
E =0 (2.85)
2
2l n u0 u
=
( 2 )2 2 4 6

2l n
E 2 2
= 4 (2.86)
( ) 2
donde esta ltima esperanza se deriva del hecho que E(u0 u) = n 2 . Entonces, la
matriz de informacin corresponde a:
X0X
2 0
I(, ) = n (2.87)
0 2 4
mientras que su inversa:

1 (X 0 X)1 2 0
I(, ) = 2 4 (2.88)
0 n
Note que el hecho que la matriz de informacin (y por lo tanto su inversa) sea
una matriz diagonal, refleja que X y u se distribuyen independientemente (de otra
77
Econometra I
forma E(X 0 u) 6=0).
Ejemplo: Considere la siguiente funcin de densidad condicional:

ey (y)x
f (y|x) = y 0, 0
x!
Obtenga el estimador de mxima verosimilitud de .
Primero debemos recordar que cada observacin i de la variable dependiente y

tiene la siguiente densidad condicional a la variable explicativa x:
eyi (yi )xi
f (yi |xi , ) =
xi !
El logaritmo de la funcin de verosimilitud asociada a cada observacin i es:
yi
e (yi )xi
li (|yi , xi ) = ln
xi !
= ln yi + xi (ln + ln yi ) ln(xi !)
De esta forma, aplicando sumatoria a la ecuacin anterior obtengo la verosimilitud

conjunta:
n
X n
X n
X n
X
L(|y, x) = n ln yi + ln xi + xi ln yi ln(xi !)
i=1 i=1 i=1 i=1
Maximizando la expresin anterior con respecto a obtenemos el estimador Mx-

imo Verosmil:
n Pn
L n X xi
= yi + i=1 = 0

i=1
n
X n
X

n yi + xi = 0
i=1 i=1
Pn
= n + x
Pn i=1 i
i=1 yi
= 1 + x

y
Ahora suponga que disponemos de los siguientes datos de la variable x e y:
y 2 5 6 7
x 4 10 18 20
78
Econometra I
En este caso el estimador Mximo Verosmil de es:
= 1+x

y
1 + 13
= = 2,8
5
79
Econometra I
2.11. Inferencia en el contexto MV
2.11.1. Test de Razn de Verosimilitud (LR)
El valor de la funcin de verosimilitud, L(,

2 ), corresponde al valor de la
verosimilitud irrestricta, es decir, sin imponer ninguna restriccin sobre los
parmetros del modelo. Suponiendo entonces que nuestro inters se centra en
una serie de restricciones lineales del tipo R = r (donde R y r se definen como
en la seccin 2.8), entonces el modelo original es estimable en su versin restringi-
da, al maximizar la funcin de verosimilitud sujeta a R = r, cuyo resultado son
los estimadores y 2 . Luego L(,
2 ) corresponde al valor de la verosimilitud
restringida.
El valor de la verosimilitud restringida no puede ser superior al de la no restringi-
da, sin embargo, podra esperarse que si las restricciones impuestas son correctas,
el valor de la primera est cerca del de la segunda. Entonces, definimos la razn
de verosimilitud () como:
L(, 2 )
=
L(,
2)
El test LR se define entonces como:

LR = 2 ln = 2[ln L(, 2 )] a 2 (q)
2 ) ln L(, (2.89)
donde q corresponde al nmero de restricciones impuestas (es decir, el nmero de

filas de R).
Intuitivamente, el valor del estadgrafo crecer a mayor sea la discrepancia entre

los valores de la verosimilitud restringida y la no restringida, lo cual nos aleja de
la posibilidad que las restricciones impuestas sea vlidas (no rechazo de la nula).
En el caso que los errores distribuyan normal, es posible derivar una versin
alternativa del estadgrafo utilizando los residuos. Reemplazando M V y 2 M V en
l es posible demostrar:
n2
2 ) = (2e) n2 (2 ) n2 = 2e n
L(, u0 u) 2
( (2.90)
n
Luego, si definimos como uN R los residuos del modelo irrestricto y como uR ,

reemplazando en la definicin del test, obtenemos:
LR = n(ln u0R uR ln u0N R uN R ) (2.91)
80
Econometra I
2.11.2. Test de Wald (W)
Un segundo test asinttico en el contexto MV corresponde al llamado Test de

Wald. Dicho test se basa en evaluar la hiptesis nula en los coeficientes estimados
y evaluar cuan cercano es el resultado comprado a lo propuesto por la nula. Una
de las ventajas del test de Wald es que slo necesita de la estimacin no restringi-
da. As, una vez obtenido , un vector (R r) cercano a cero tendera a apoyar
la hiptesis nula.
Siguiendo la misma lgica de la demostracin del test F, si:

a
(, I()1 ) (2.92)
entonces, bajo la hiptesis nula:
a
(R r) (0, RI()1 R0 ) (2.93)
entonces, se puede demostrar que:
a
(R r)0 [RI()1 R0 ]1 (R r) 2q (2.94)
donde q es el nmero de filas de R y por lo tanto, el nmero de restricciones (segn
la definimos en la seccin 2.8). Luego, como los estimadores MV distribuyen asin-
tticamente normales, entonces la matriz de informacin expuesta en la ecuacin
(2.88) es vlida en muestras grandes, tenemos que el estadstico de Wald se define
como14 :
(R r)0 [R(X 0 X)1 R0 ]1 (R r) a 2
W = q (2.95)
2

Una nota: Dijimos que el test era vlido asintticamente, donde hemos utilizado
el resultado de normalidad asinttica de MV. En caso de que los errores efecti-
vamente distribuyan normal en muestra finita, el test (lgicamente) mantiene su
distribucin.
2.11.3. Test del Multiplicador de Lagrange (LM)
Un tercer test corresponde al test LM, el cual tambin es conocido como el test
del Score. recordemos que el Score corresponde a la matriz de primeras derivadas
14
Note que hemos utilizado slo el bloque superior izquierdo de la inversa de la matriz de
informacin. Ello porque el test corresponde a los parmetros asociados a los coeficientes de la
regresin. Adems, ello es posible porque la matriz es diagonal, lo cual implica que no existe
correlacin entre los errores y los regresores.
81
Econometra I
de la funcin de Verosimilitud:
ln L
s() =

l
=

Como vimos en la introduccin, s() = 0, por lo cual, al evaluar el score en el
estimador restringido bajo la nula R r = 0 (), generalmente obtendremos
un vector diferente de cero, sin embargo, si la nula no se puede rechazar, esper-
aramos obtener un vector cercano a cero.
Se puede demostrar que el score posee media cero y varianza igual a la matriz de
informacin (I()). Por lo tanto, tenemos que la forma cuadrtica:
a
s0 ()I()1 s() 2
con lo cual, al evaluar en el vector de parmetros restringido tenemos que bajo

la nula, el test LM se define y distribuye como:
)
LM = s0 ()I( 1 s()
a 2 (2.96)
q
Note que contraposicin al test de Wald, slo necesitamos calcular el estimador

restringido. De hecho, su popularidad reside en que muchas veces es ms fcil
calcular el estimador restringido que el irrestricto.
Dada la normalidad asinttica de los estimadores MV, podemos reducir el es-

tadgrafo a una forma mucho ms simple. Para ver lo anterior, considere una
notacin matricial del score:
l 1 0

2X u
s() = = u0 u
l
2
2n2 + 2 4
entonces, para evaluar el score en la estimacin restringida, utilizamos los residuos

restringidos, los cuales denotaremos por:
u = Y X
y por lo tanto:
u0 u
2 =

n
con lo cual:
1

= 2
X 0 u
s() (2.97)
0
82
Econometra I
Entonces, tomado en cuenta la definicin de I()1 dada en (2.87) y evalundola

en el estimador restringido, tenemos que nuestro test en (2.96) queda como:
2 0 1 1 0
1 0 (X X) 0 2 u X
LM = uX 0
2 4
2

0 n
0
u0 X(X 0 X)1 X 0 u
=
2

u X(X 0 X)1 X 0 u
0
= n (2.98)
u0 u
= nR2 a 2q (2.99)
donde el R2 corresponde a la bondad de ajuste de la regresin auxiliar entre u
y X.
Resumiendo, el test se implementa en tres simples pasos:
1. Estimar el modelo restringido y obtener sus residuos

2. Con ellos correr una regresin de ellos contra X. Obtener el R2
3. Construir el estadstico
Ejemplo: Siguiendo con el ejemplo anterior, testee la hiptesis nula de que = 5.
(i) Test de Razn de Verosimilitud: recordemos que el estadstico de este test es:
ln L()]
LR = 2[ln L() a 2 (q)
Primero debemos evaluar el logaritmo de la verosimilitud en el parmetro

no restringido (estimado):
n
X n
X n
X n
X
x) = n ln
L(|y,

yi + ln xi + xi ln yi ln(xi !)
i=1 i=1 i=1 i=1
= 4 ln(2,8) 2,8 20 + ln(2,8) 52 + 90,04 97,014
= 5,317999436
El siguiente paso es computar el logaritmo de la funcin de verosimilitud
= 5):
restringida, es decir, evaluada en el valor del bajo la hiptesis nula (
n
X n
X n
X n
X
x) = n ln
L(|y,

yi + ln xi + xi ln yi ln(xi !)
i=1 i=1 i=1 i=1
= 4 ln(5) 5 20 + ln(5) 52 + 90,04 97,014
= 16,8481637
83
Econometra I
Luego debemos computar el estadstico restando ambas verosimilitudes en

logaritmos y multiplicar esta diferencia por 2:
ln L()]
LR = 2[ln L()
= 2[5,317999436 + 16,8481637] = 23,06032853
Finalmente, debemos comparar el valor de este estadstico con el valor de

tabla de una 2 con 1 grado de libertad (slo estamos testeando una hipte-
sis). El valor de la 2 con un grado de libertad a un 5 % de significancia es
de 3.84, por lo tanto se rechaza la hiptesis nula de que sea igual a 5.
(ii) Test de Wald: para poder realizar este test primero necesitamos computar la
matriz de varianzas y covarianzas del estimador, el inverso de la matriz de
informacin. Recordemos la forma de esta matriz:
2
l l 0 l
I() = E = E
0
El score (o primera derivada de el logaritmo de la funcin de verosimilitud

era:
n Pn
lnL n X xi
= yi + i=1
i=1
Ahora, la segunda derivada (o Hessiano) es:

Pn
lnL2 n i=1 xi
=
0 2 P 2
lnL 2
(n + ni=1 xi )
=
0 2
Como la variable x es fija el valor esperado del hessiano corresponde a la
misma expresin, luego el negativo de esto constituye la matriz de informa-
cin:
P
(n + ni=1 xi )
I() =
2
(4 + 52)
I() =
2
56
I() =
2
Ahora el estadstico de Wald se construye de la siguiente forma:
5)0 I()(
W = ( 5) 2
1
84
Econometra I
por 2.8:
Reemplazando

c 0 56
W = (2,8 5) (2,8 5)
(2,8)2
W c = 34,6
Como el valor calculado del estadstico de Wald resulta ser mayor al valor
de tabla de una 2 con un grado de libertad, se rechaza la hiptesis nula de
= 5.
que
(iii) Test de multiplicador de Lagrange: para construir este estadstico necesita-
mos evaluar el score y la matriz de informacin en el estimador restringuido
e que en este caso es igual a 5:
(),
n Pn
e n X 4 52
s() = yi + i=1 = 20 + = 8,8
e
e
5 5
i=1
e = 56
I() = 2,24
(5)2
Reemplazando en el estadstico:
e 0 I()
LM = s() e 1 s()
e
LM = (8,8)(2,24)1 (8,8) = 34,6
= 5.
Con lo cual se rechaza la hiptesis nula de que
2.12. Algunas acotaciones respecto a la estimacin

y la inferencia MV
1. La seccin 2.10.2 asume que la distribucin de los errores sigue una dis-
tribucin normal. Sin embargo, suponer errores normales es slo uno de los
posibles supuestos respecto a la distribucin de los errores. Existe una gran
cantidad de posibilidades al respecto, utilizndose otras como la distribucin
logstica y la exponencial, muy regularmente en otros tpicos economtricos.
Lo anterior es una ventaja de la estimacin MV, dado que sus propiedades
asintticas se mantienen independientemente de la distribucin utilizada.
2. Otra ventaja corresponde a la posibilidad de utilizar modelos no lineales.
MCO (tal y como lo hemos estudiado) slo permite estimar modelos lineales
en parmetros, mientras que MV permite no linealidades (aunque ello im-
plique la imposibilidad de obtener de obtener formas funcionales cerradas
85
Econometra I
para nuestros estimadores, lo cual implica necesariamente utilizar mtodos

numricos para optimizar la funcin objetivo).
3. Otra ventaja reside en la inferencia. Toda la inferencia vista en MCO posea

distribucin exacta bajo el supuesto de normalidad. Los test asintticos
visto en la inferencia MV son vlidos bajo cualquier distribucin supuesta
(aunque asintticamente).
4. Adicionalmente, los tres test vistos son capaces de lidiar con restricciones no
lineales. Por qu? Porque MV es capaz de lidiar con modelos no lineales15
5. Es posible demostrar que W LR LM al ser aplicados a un modelo

lineal. Los tres son asintticamente equivalentes, sin embargo, en muestras
finitas arrojarn resultados diferentes.
6. Cundo es recomendable utilizar un test t o un test F por sobre un test

asinttico?
7. Todos los paquetes estadsticos reportan el valor de la funcin de verosimili-

tud (es decir, la funcin evaluada en los parmetros estimados). Ello, muchas
veces es utilizado como un criterio de seleccin entre modelos (recuerde que
nuestro objetivo es maximizar la funcin de verosimilitud).
15
Un ejemplo de restriccin no lineal corresponde a H0 : ln(32 ) = 0,1+ln(2 ). Para estimar
el modelo restringido basta con aislar 2 e introducirlo en la funcin de verosimilitud que ser
maximizada por mtodos numricos.
86
Captulo 3
Forma Funcional y Especificacin
3.1. Regresores Estocsticos en el Modelo de Re-

gresin Lineal
En el desarrollo del modelo de regresin lineal realizado en la seccin 2.4 asum-

imos que nuestras variables explicativas eran determinsticas (Supuesto 2). En
ese contexto, cada vez que tombamos una muestra diferente los regresores per-
manecan fijos y solo la variable dependiente cambiaba, haciendo entonces que
la regresin muestral fuera una aproximacin a la regresin poblacional. En est
seccin procederemos a eliminar este supuesto1 y veremos cuales son las con-
secuencias de asumir regresores estocsticos en las estimaciones del modelo de
regresin lineal. Es decir, asumiremos ahora que X es obtenida aleatoriamente a
partir de alguna distribucin de probabilidad.
Si X es estocstico, X debe ser independiente de u si queremos mantener las

propiedades estadsticas de los estimadores MCO. Un mtodo adecuado para
obtener las propiedades estadsticas de b consiste en obtener primero los resulta-
dos condicionados en X. Esto equivale al caso de los regresores no estocsticos.
Despus buscamos los resultados incondicionales "promediando"(por ejemplo, por
integracin total) las distribuciones condicionadas. La clave de este razonamien-
to es que, si podemos establecer insesgamiento condicionado en un X arbitrario,
podemos promediar las X para obtener un resultado incondicionado.
Manteniendo los supuestos 3 y 4 dados por E(u|x)=E(u)=0, V ar(u|X) = V ar(u) =

1
Todos los otros supuestos realizados anteriormente se mantienen.
87
Econometra I
Capitulo 3: Forma Funcional y Especificacin FACEA, Universidad de Chile
2 podemos al igual que antes estudiar si MCO es insesgado.
b = + (X 0 X)1 X 0 u
b
E[|X] = + (X 0 X)1 X 0 E[u|X] =
Ya que por supuesto 3 E[u|X] = 0. Podemos ahora calcular el valor esperado

incondicional aplicando esperanza sobre todo el espacio posible de los regresores.
b = Ex [E[|X]]
E[] b
b = + Ex [(X 0 X)1 X 0 E[u|X]] =

E[]
Por lo tanto, b tambin es insesgado incondicionalmente.E[]

b = Ex [E[|X]]
b = .
El insesgamiento de los parmetros MCO es robusto a los supuestos de la matriz
X.
Con respecto a la varianza de condicionada en la matriz de variables inde-

pendientes tenemos
b
V [|X] = 2 (X 0 X)1
Sin embargo, la varianza incondicional de b esta dada por2

b = Ex [V [|X]]
V [] b b
+ Vx [E[|X]]
b = Ex [V [|X]]
V [] b + Vx []
b = Ex [V [|X]]
V [] b = E[ 2 (X 0 X)1 ] = 2 E[(X 0 X)1 ]
Nuestra conclusin inicial se altera un poco, tenemos que sustituir (X 0 X)1 por
su valor esperado para obtener la matriz de covarianzas apropiadas. La varianza
incondicionada de b solo puede ser descrita en trminos del comportamiento
medio de X. Sin embargo, el teorema de Gauss Markov seguir aplicando. Ya que
si para cada X particular el estimador MCO es el mejor estimador lineal insesgado
tambin lo ser para los valores medios de los regresores.
2
Aplicando descomposicin de la varianza(Ver).
88
Econometra I
Conclusiones:
Si los errores son independientes de las X entonces se cumplir el Teorema

de Gauss Markov.
Bajo normalidad del error los test estadsticos tienen la misma distribucin
que en el caso de las X no estocsticas.
3.2. Incorporacin de No Linealidades
En la seccin 2 asumimos que el modelo de regresin deba ser lineal. Sin embargo,
muchas de las relaciones econmicas no son lineales. Veamos el siguiente ejemplo
de la relacin entre las ventas de los portales de Internet y el nmero de visitas
al portal.
Claramente la relacin es no lineal. No es lo mismo en trminos de ventas aumen-

tar desde 40 visitas a 50 que de 10 visitas a 20. Pero, Cmo podemos incorporar
no linealidad entre Y y X en nuestro modelo de regresin?. Bsicamente lo que
haremos es utilizar algunos tipos de transformacin de variables. Esto nos permi-
tir tener un modelo no lineal y a partir de la aplicacin de las transformaciones
tener un modelo de regresin lineal para el que se cumplen todas las cosas que
hemos visto.
89
Econometra I
Transformacin Logartmica
Suponga un modelo original no lineal de la siguiente forma Yi = 1 Xi2 ui .

Si aplicamos logaritmo nos quedar un modelo transformado de la sigu-
iente forma
ln(Yi ) = ln(1 ) + 2 ln(Xi ) + ln(ui )
Y X
En donde 2 = X Y
corresponde a la elasticidad X de Y. Este tipo de
transformaciones es muy til en modelos de demanda y de produccin.
Transformacin Semilogartmica
Suponga un modelo original no lineal de la siguiente forma Yi = 1 e2 Xi ui .

Si aplicamos logaritmo nos quedar un modelo transformado de la sigu-
iente forma
ln(Yi ) = ln(1 ) + 2 Xi + ln(ui )
Y 1
En donde 2 = X Y
corresponde a la semi elasticidad X de Y. Una uti-
lizacin comn de la formulacin semilogartmica se da en los casos de
crecimiento exponencial. Si X es el tiempo t, entonces ln(Y
t
)
= 2 =Tasa
media de crecimiento de Y.
Transformacin Recproca
Suponga un modelo original no lineal de la siguiente forma Yi = 1 +

2 X1i + ui . El cual podemos expresar como un modelo transformado de
la siguiente forma
Yi = 1 + 2 Zi + u i
Y
En donde 2 = X
corresponde al parmetro usual.
Si no se conoce a priori la forma funcional, existen algunos mtodos que podran

identificar la existencia de alguna no linealidad. A continuacin veremos uno de
ellos.
3.2.1. Test de No Linealidades Omitidas (Test de Reset)
Una pregunta interesante de plantearse es si nuestro modelo ha omitido no lin-

ealidades en ciertos regresores3 . Ramsey (1969) introdujo el siguiente test. Bajo
3
Es importante no confundir la no linealidad en regresores Vs no linealidades en parmetros.
Nuestro enfoque se basa en el primer tipo de ellas. El segundo es de mayor complejidad en tanto
90
Econometra I
la nula, el modelo poblacional corresponde a:
Y = X + u
Ramsey propuso estimar el sigu-
luego, denotamos, como ya es usual, Y = X .
iente modelo auxiliar a travs de MCO.
Y = X 1 + Z 2 + u
donde:

Z = Y 2 Y 3 . . . Y m
luego la nula:
H0 : No Existen no linealidades omitidas
H0 : 2 =0
puede ser testeada utilizando un test de Wald sobre 2 . Es posible demostrar que
bajo la nula Wa 2m1 . Por lo tanto, la nula se rechaza al % de significancia si
el estadgrafo es mayor que el valor crtico correspondiente. Para implementar el
test, m (es decir, el nmero de potencias de Y a incluir en la regresin auxiliar)
debe ser seleccionado previamente. Tpicamente, valores pequeos como 2, 3 o 4
parecen funcionar mejor.
que al derivar la funcin objetivo con respecto a los parmetros de inters, podemos no obtener
una forma funcional cerrada para nuestro estimador. Ello nos llevar generalmente a utilizar
mtodos numricos para maximizar o minimizar nuestra funcin objetivo, la cual, incluso puede
dejar de ser estrictamente cncava.
91
Econometra I
3.3. Variables Dummies o cualitativas
En en anlisis de regresin, la variable dependiente esta influida frecuentemente

no solo por variables continuas como so el ingreso, produccin, precios, costos,
estatura, temperatura, etc..., sino tambin por variables que son esencialmente
cualitativas, estos son regresores binarios, es decir, variables que slo toman el val-
or 0 o 1. Dichas variables son llamadas variables dummies, variables dicotmicas
o variables ficticias. Muchas veces el regresor es binario porque as fue recogido
en la encuesta. Sin embargo, en otros casos el regresor binario ha sido construido
a partir de otras variables de los datos.
Algunos ejemplos de variable dummies son: gnero, raza, religin, nacionalidad,

regin geogrfica, etc....Con respecto a las dos primeras variables mencionadas
por ejemplo, se ha encontrado que manteniendo todos los dems factores con-
stantes, las trabajadoras mujeres ganan menos que sus colegas hombres, y que
las personas de color ganan menos que las blancas. Este patrn puede resultar de
discriminacin sexual o racial, pero cualquiera sea la razn, las variables cualita-
tivas tales como gnero o raza s influyen sobre la variable dependiente.
Por ejemplo, consideremos la siguiente variable dummy para gnero (mujer/hombre)

del individuo. Entonces la variable dummy consistir en un vector (n 1) con
elementos 0 o 1 segn corresponda. Es decir:
(
1 mujer
d1i = (3.1)
0 hombre
A modo de ejemplo, pensemos en una ecuacin simple de salarios E(Salario(W)/Gnero),

la cual implica el siguiente modelo:
Wi = 0 + 1 d1i + ui (3.2)
entonces, dada la especificacin escogida para la dummy, tenemos que:
0 = E(W/hombre)
0 + 1 = E(W/mujer)
Alternativamente, podramos haber definido la dummy de la siguiente forma:
(
0 mujer
d2i = (3.3)
1 hombre
92
Econometra I
y el modelo como
Wi = 0 + 1 d2i + ui
entonces, en esta segunda especificacin escogida para la dummy, tenemos que:
0 + 1 = E(W/hombre)
0 = E(W/mujer)
Una tercera forma de definir el modelo sera incluyendo ambas dummies:
Wi = 1 d1i + 2 d2i + ui
con el cual tendramos que los retornos a ambos gneros seran:
2 = E(W/hombre)
1 = E(W/mujer)
Los tres modelos anteriores son equivalentes. Note que en el tercer modelo
no incluimos trmino constante ya que ello hara que la matriz X fuese singular y
por lo tanto, no invertible. Dicho error de especificacin es llamado en la literatu-
ra Trampa de las Dummies y corresponde a un error netamente del investigador,
no de los datos.
Un modelo de regresin puede contener variables explicativas que son exclusi-

vamente dicotmicas o cualitativas, tales modelos se denominas Modelos de
anlisis de varianza (ANOVA), estos modelos son utilizados para determinar
la significancia estadstica de la diferencias de medias entre grupos, por ejemplo,
servira para determinar si existe diferencia significativa entre los ingresos medios
de los hombres y mujeres.
Ejemplo I:
Contamos con datos de ingreso proveniente de la ocupacin principal para el ao
2000, de acuerdo a zona geogrfica de Chile: Norte (de la primera a la cuarta
regin), Centro (quinta regin, sexta regin y regin metropolitana) y Sur (de
la sptima a la duodcima regin). Suponga que deseamos averiguar si el salario
promedio difiere entre las distintas zonas geogrficas, si tomamos el promedio de
los salarios de los individuos en cada una de las zonas obtenemos lo siguiente:
Zona Geogrfica Salario Promedio

Norte $ 270,154
Centro $ 296,857.8
Sur $240,238.9
93
Econometra I
Estos nmeros son claramente diferentes entre s, pero lo que nos interesa saber
es si esta diferencia es estadsticamente significativa, para esto utilizaremos un
modelo ANOVA.
Consideremos el siguiente modelo de regresin:

Yi = 0 + 1 D1i + 2 D2i + ui
donde:
Yi =Salario del individuo i.

D1i =es una variable dummy que toma valor 1 si la persona i vive en el norte y
cero sino.
D2i = es una variable dummy que toma valor 1 si la persona i vive en el sur y
cero sino.
Este modelo es como cualquier otro modelo de regresin lineal, la nica difer-
encia que ahora todo nuestras variables explicativas son binarias. De esta forma,
el salario promedio de los individuos que viven en el norte es:
E(Yi |D1i = 1, D2i = 0) = 0 + 1
de igual forma el salario promedio de los individuos que viven en el sur es:
E(Yi |D1i = 0, D2i = 1) = 0 + 2
y por ltimo, el salario promedio de los individuos que viven en el centro es:
E(Yi |D1i = 0, D2i = 0) = 0
As, el salario promedio de los individuos de la zona centro esta dado por el inter-
cepto de la ecuacin de regresin, adems los coeficientes 1 y 2 ("pendiente"),
indican la cantidad en que los salarios promedios del norte y sur difieren de los del
centro, respectivamente. Ahora necesitamos ver si estas diferencias son estadsti-
camente significativas.
El modelo estimado es:
94
Econometra I
Como los tres coeficientes estimados resultan ser estadsticamente significativos,

la diferencia en los salarios promedios entre regiones es estadsticamente signi-
ficativa. De esta forma, se puede concluir que los salarios en la zona centro son
estadsticamente mayores a los de la zona norte y sur, y que los de la zona norte
son estadsticamente superior a los de la zona sur.
Es importante tener claro que las variables dicotmicas simplemente sealaran
las diferencias, si es que estas existen, pero no sugieren razones por las cuales
estas se presentan.
Desde ahora llamaremos a la categora que no se le asigna dummy (en nuestro

ejemplo la zona centro) como categora base, todas las comparaciones se harn
respecto a esta categora. Los coeficientes correspondientes a las variables di-
cotmicas los llamaremos coeficientes de interaccin diferencial.
Los modelos ANOVA que acabamos de analizar no son muy frecuentes en economa,
slo se utilizan para testear diferencias de medias.
Los modelos economtricos generalmente son ms amplios e introducen tanto vari-

ables explicativas continuas como dicotmicas. Por ejemplo, es razonable suponer
que, adems del gnero, existen otros factores que explican el salario (educacin
y experiencia (entre otros) siguiendo a Mincer (1974)).
Especifiquemos nuevamente el modelo en (3.2) como E(Salario (W)/Educacin

(E), Gnero):
Wi = 0 + 1 d2i + 2 Ei + ui
Dicho modelo presenta un efecto intercepto para el gnero, es decir, hombres
y mujeres poseen diferente intercepto, pero igual pendiente (2 ) en educacin
(retorno a la educacin):
W Hombres
Mujeres
2
0+ 1 2
E
Salario y Educacin, diferencia de intercepto entre hombres
y mujeres
95
Econometra I
Ahora, si quisiramos especificar un modelo en que adems las pendientes varen

con el gnero (retornos a la educacin diferenciados), tendramos el siguiente
modelo:
Wi = 0 + 1 d2i + 2 Ei + 3 d2i Ei + ui
donde:
E(Salario (W)/Educacin (E), Hombre)=0 + 1 +2 E+3 E.

E(Salario (W)/Educacin (E), Mujer)=0 +2 E.
E(Salario(W )/Educacin(E),Hombre)
E
= 2 + 3 .
E(Salario(W )/Educacin(E),M ujer)
E
= 2 .
En el caso que existan otros regresores continuos (experiencia, por ejemplo), po-
dra ser deseable poseer efectos diferenciados en la pendiente slo para algunos
de ellos.
Hombres
W
2+3
Mujeres
0+ 1 2
E
Salario y Educacin, diferencia de intercepto y pendiente
entre hombres y mujeres
96
Econometra I
3.3.1. Posibles usos de las variables Dummies
Como hemos mencionado las variable dummies pueden reflejar caractersticas in-
dividuales como gnero, status marital,raza, etc, y de esta forma las habiamos
llamado variable cualitativas. Sin embargo, este no es el nico motivo para
incluir dummies en una regresin. Existen adems aquellas dummies llamadas
dummies estacionales cuyo objetivo es controlar por factores temporales de
los datos. Por ejemplo, estimando la demanda de helados, es posible que ex-
ista un "efecto verano"por lo cual la demanda aumente en algunos trimestres o
bimestres, de esta forma para controlar dicho efecto, se deben incluir 4 dummies
cada una correspondiente a un trimestre del ao (o 6 en el caso del bimestre, o 2
en el caso del semestre, etc.). Recuerde que el caso de incluir una constante debe
retirar discrecionalmente alguna de ellas, la cual servir como trimestre de ref-
erencia. Las dummies tambin pueden ser tiles para captar efectos umbrales.
Siguiendo con nuestro ejemplo de educacin, podramos tener que en la encuesta,
la variable Educacin no fue recogida en forma continua, sino discreta (es decir,
si la persona posee: Educacin Bsica (8 aos), Educacin Media (12 aos), Edu-
cacin Universitaria (17 aos), Educacin universitaria con postgrado (19 aos)).
Definiendo una dummy por cada nivel de educacin, el coeficiente asociado a ca-
da una de ellas nos mostrara el retorno a cada tipo de educacin. Finalmente,
las dummies pueden ser de utilidad para cuantificar efectos condicionales. Ya
habamos enunciado stas cuando vimos E(W/E,gnero), en que permitimos que
la pendiente vare entre gneros. Dichas dummies son de inters cuando queremos
captar algn efecto condicional a alguna caracterstica. Por ejemplo, el retorno a
la educacin dado que se es mujer, o que se es casado, o que se es blanco, etc.
En dicho caso, basta introducir la dummy que identifica el estado condicional
multiplicada por la variable de inters.
Concluyendo, la forma en que se incluyan las variables binarias en el modelo

de regresin depende de la pregunta que el investigador desee responder o del
objetivo que tenga para incluirlas. Creatividad y teora.
Desde el punto de vista de la teora de regresin, di corresponde a un vari-

able aleatoria del mismo proceso de muestro que gener el resto de las variables.
Veamos entonces como manejarlas algebraicamente. Sea el modelo simple:
Wi = 1 d1i + 2 d2i + ui
o en nuestra notacin matricial usual:
Y = X + u
97
Econometra I
donde = (1 2 ) y X = [D1 D2 ], entonces:
= (X 0 X)1 X 0 Y
0 1 0
D1 D1 D10 D2 D1 Y
=
D20 D1 D20 D2 D20 Y
Pn 2 Pn 1 Pn
Pn i=1 d1i Pn 2
i=1 d 1i d2i Pn
i=1 d1i yi
=
i=1 d1i d2i i=1 d2i i=1 d2i yi
1 Pn
n1 0 Pni=1 d1i yi
=
0 n2 i=1 d2i yi

y1
=
y2
donde n1 y n2 son el nmero de observaciones con d1i =1 y d2i =1, respectivamente,

y y1 y y2 corresponden a las medias muestrales entre las respectivas observaciones.
Y con respecto a la varianza de los estimadores:
V () = (X 0 X)1 2
" 2 #

n1
0
= 2
0 n 2
donde: n
2 1X 2

= u
n i=1 i
es el estimador basado en la muestra completa.
98
Econometra I
Ejemplo II:
A continuacin veremos la aplicacin de la llamada "Ecuacin de Mincer"para
estimar el retorno a la educacin. Los datos corresponden a un grupo de jvenes
chilenos egresados de la educacin media tcnica, los que fueron entrevistados en
1997. La primera figura muestra la estimacin de la ecuacin de Mincer en su
versin original (1974):
ln(Salario)i = + 1 Educacioni + ui
Consideremos ahora una versin ms completa del modelo en que incluimos la

experiencia y una dummy que toma el valor 1 si el individuo es una mujer:
Note que el retorno a la educacin sigue siendo positivo, mientras que la dummy
para mujer es negativa (Qu significa que el parmetro sea negativo?). Veamos a
continuacin, la misma especificacin, slo que esta vez la dummy se define como
1 si el individuo es hombre:
99
Econometra I
Cmo es el parmetro de la dummy para el hombre comparado con el de la

mujer? Qu pasa con la estimacin del resto de los parmetros?.
100
Econometra I
3.4. Variable Dependiente Rezagada
Cuando trabajamos con series de tiempo, es posible que sea de nuestro inters
incluir rezagos de la variable dependiente como variables explicativas. Ello puede
ocurrir cuando creemos que existe cierta persistencia de nuestra variable depen-
diente. Por ejemplo, para tratar de explicar el comportamiento de la inflacin
(t ), tendra sentido introducir como variables explicativas, junto con la tasa de
crecimiento del dinero (mt ), rezagos de la propia tasa de inflacin:
t = 0 + 1 t1 + 2 mt + ut
Supongamos el modelo ms simple posible:
yt = 1 yt1 + ut con |1 | < 1 (3.4)
Adelantndonos a la teora de series de tiempo, el modelo anterior recibe el nom-

bre de Proceso Autorregresivo de Primer Orden (AR(1)), donde el nombre
de autorregresivo se debe a que la variable se explica por rezagos de ella misma y
de primer orden porque depende slo del primer rezago (el orden indica el nmero
mximo de rezagos incluidos).
La estimacin MCO del modelo anterior es = (X 0 X)1 X 0 Y , donde X=[i,Yt1 ],

con la diferencia que esta vez poseemos n-1 datos, a menos que supongamos un
valor inicial para Y0 . En este caso dejan de cumplirse uno de los supuestos bajo
los cuales vimos las propiedades del estimador MCO y la inferencia asociada,
aunque continuemos haciendo los supuestos pertinentes para el trmino de error,
el modelo viola el supuesto de regresores fijos (no estocsticos).
Analicemos esto con ms detalle, el estimador MCO de 1 en (3.4) es:

PT
yt yt1
1 = Pt=2 T
t=2 yt12
PT
t=2 (1 yt1 + ut )yt1
= PT 2
t=2 yt1
PT
ut yt1
= 1 + Pt=2 T
t=2 yt12
para que este estimador sea insesgado se requiere que:

"P #
T
u t y t1
E Pt=2 T
=0 (3.5)
t=2 yt12
101
Econometra I
lo cual se cumplir en la medida que ys y ut sean independientes para todo (t,s).
Para examinar este punto con ms detalle, substituyamos el modelo en repetidas

ocasiones hasta llegar a una forma general:
y1 = 1 y0 + u1
y2 = 1 y1 + u2 y2 = 1 (1 y0 + u1 ) + u2 = 12 y0 + (u2 + 1 u1 )
y3 = 1 y2 + u3 y3 = 1 (12 y0 + u2 + 1 u1 ) + u3 = 13 y0 + 12 u1 + 1 u2 + u3
..
.
yt = 1t y0 + (ut + 1 ut1 + 12 ut2 + + 1t1 u1 )
Luego, multiplicando yt por ut , ut1 , ut2 , etc. y tomando esperanza, tenemos

que:
E(yt ut ) = 2
E(yt ut1 ) = 1 2
E(yt ut2 ) = 12 2
Por lo tanto, el valor actual de y se encuentra correlacionado con el error actual y

pasado (no con los futuros). De la misma forma, rezagando la expresin final para
yt , multiplicando por ut , ut1 , ut2 , etc. se puede verificar que el regresor yt1 no
se encuentra correlacionado con el valor actual del error, pero si con sus valores
pasados. Ello implica que nuestro supuesto E(ui Xi ) = 0 ya no es vlido, por lo
cual, la matriz de varianzas y covarianzas involucradas ya no ser una matriz de
ceros, lo cual se traducir en que los estimadores MCO ya no sern insesgados,
pero si consistentes (Demostrarlo).
Note que lo anterior es vlido para rezagos de la variable dependiente, pero no

para rezagos de variables explicativas, en cuanto estos ltimos pueden ser an
interpretados como fijos. El nico problema que puede presentar el incluir este
tipo de regresores es la alta correlacin que existente entre el valor presente del
regresor y de su o sus rezagos incluidos en el modelo. Ello da origen a problemas
de multicolinealidad.
102
Econometra I
3.4.1. Ejemplo y advertencias sobre el uso de variable de-

pendiente rezagada como regresor
Tenemos la siguiente informacin sobre ndice de Precios al Consumidor (IPC)

desde 1982 al 20034 . A partir de esta informacin podemos construir la inflacin
(cambio porcentual en el ndice de precios):
IP Ct IP Ct1
t =
IP Ct1
Veamos que resultados obtenemos al realizar la siguiente regresin:

IP Ct = 0 + 1 IP Ct1 + ut
4
Informacin obtenida del Banco Central de Chile: www.bcentral.cl
103
Econometra I
Cuando el coeficiente de la variable dependiente rezagada es muy cercano a 1, se

dice que la serie tiene raiz unitaria5 . Sin embargo, este no es el caso. Si teorica-
mente siempre se espera que la inflacin sea pequea pero positiva, deberiamos
esperar que el ndice de precios siempre fuera creciendo, y por lo tanto esta serie
ms que tener una raiz unitaria tiene una tendencia.
La persistencia en el ndice de precios al consumidor es casi obvia. Lo que nos

interesa es determinar si existe persistencia en la inflacin, la que deberamos
esperar fuera estable en el tiempo y con valores relativamente bajos y positivos.
Vemos que sucede al estimar el siguiente modelo:
t = 0 + 1 t1 + ut
El coeficiente 1 es significativo y del orden del 0.8 Que significa esto?.

5
Cuando una serie tiene raiz unitaria, esta no es estacionaria, lo que significa que no flucta
en torno a su valor promedio. El test t de significancia del parmetro que acompaa a la variable
dependiente, no sirve para evaluar la hiptesis de raiz unitaria. Comente error tipo I
104
Econometra I
3.5. Seleccin de Modelos
Una pregunta crucial que se enfrenta en econometra aplicada es como escoger

entre diversas especificaciones planteadas para responder una misma pregunta.
No existe un respuesta nica al problema anterior, sin embargo, algunas recomen-
daciones son:
Elegir el modelo ms parsimonioso (lo ms pequeo posible)
Que posea un buen ajuste
Que sea consistente con los datos observados
Sin embargo, el caso de tener que elegir entre modelos anidados, es posible utilizar
los llamados Criterios de Informacin. Suponga que usted desea escoger entre
alguno de los siguientes modelos:
Y = 0 + 1 x1 + 2 x2 + 3 x3 + u (1)
Y = 0 + 1 x1 + 3 x3 + v (2)
Y = 0 + (x1 + x2 ) + (3)
donde se dice que el modelo (1) encompasa al (2) y al (3), ya que los dos segundos
son el versiones restringidas del primero. Luego, se dice (2) y (3) son anidados en
(1)
La pregunta relevante es Cul de las tres especificaciones anteriores es mejor?.

Los criterios de informacin nos ayudan a responder dicha pregunta. El primer
criterio de informacin es el Criterio de Akaike (ACI) y se define como:
2 ln L k
ACI = +
n n
mientras que el Criterio de Schwarz (BIC) se define como:
2 ln L ln(n)
BIC = +k
n n
Luego, el criterio de seleccin entre modelos anidados corresponde a elegir el
modelo con menor criterio de informacin. Note que para que los criterios sean
comprables, deben poseer el mismo tamao de muestra.
105
Econometra I
3.5.1. Ejemplo: Retornos a la educacin, diferencias entre

hombres y mujeres
Recordemos lo aprendido en la seccin 3.3 del curso. Veamos que para estimar el
retorno a la educacin, es decir, cuanto ingreso adicional me genera un ao ms
de educacin, podamos considerar al menos tres especificaciones:
M odelo I : Wi = 0 + 1 d2i + 2 Ei + 3 Ei d2i + ui

M odelo II : Wi = 0 + 1 d2i + 2 Ei + ui
M odelo III : Wi = 0 + 2 Ei + ui
donde Wi era el logaritmo natural del salario del individuo i, d2i era una variable
dummy que tomaba el valor 1 si la persona i era hombre y 0 sino, Ei eran los
aos de educacin del individuo i y Ei d2i era una variable interactiva.
Adems tenemos que el Modelo II anida al modelo III, y el modelo I anida a los
modelos II y III. De esta forma, podemos utilizar los criterios de informacin de
Akaike y Schwarz para determinar con que especificacin nos quedamos.
Estimacin del Modelo I:
Wi = 0 + 1 d2i + 2 Ei + 3 Ei d2i + ui
106
Econometra I
Estimacin del Modelo II:
Wi = 0 + 1 d2i + 2 Ei + ui
Estimacin del Modelo III:
Wi = 0 + 2 Ei + ui
107
Econometra I
En resumen:
Modelo Akaike Schwarz

I 2.278 -680692.847
II 2.279 -680676.053
II 2.338 -676154.845
Como debemos elegir el modelo que minimize el criterio de informacin, de acuer-

do a ambos criterios debemos elegir el Modelo I.
108
Econometra I
3.6. Regresin Particionada
Sea el siguiente modelo de regresin lineal con k regresores:
Y = X + u
La matrix X de dimensin n k puede ser particionada en dos submatrices de

dimensiones n k1 y n k2 que llamaremos respectivamente X1 y X2 . De igual
forma el vector de parmetros debe ser particionado en dos subvectores 1 y
2 asociado a cada una de las submatrices de variables explicativas.
De esta forma, el modelo anterior puede ser reescrito como:
Y = X1 1 + X2 2 + u
En trminos matriciales estamos haciendo lo siguiente:

h i 1
X = nkX1 X2 = k1 1 tal que k = k1 + k2
nk 1 nk2
k1 2
k2 1
Recordando que la estimacin mnimos cuadrados ordinaria implica despejar el

vector de parmetros del sistema de ecuaciones normales X 0 X = X 0 Y , podemos
escribir esto en funcin de las matrices particionadas:
0 0
X1 1 X1 Y
X1 X2 =
X20 2 X20 Y
0 0
X1 X1 X10 X2 1 X1 Y
0 0 =
X2 X1 X2 X2 2 X20 Y
Lo que puede ser expresado de la siguiente forma:
X10 X1 1 + X10 X2 2 = X10 Y (i)

X20 X1 1 + X20 X2 2 = X20 Y (ii)
De (ii) podemos despejar 2 :
X20 X2 2 = X20 Y X20 X1 1

X20 X2 2 = X20 (Y X1 1 )
2 = (X20 X2 )1 X20 (Y X1 1 ) (iii)
109
Econometra I
Reemplazando (iii) en (i):
X10 Y = X10 X1 1 + X10 X2 (X20 X2 )1 X20 (Y X1 1 )

| {z }
P2
X10 Y = X10 X1 1 + X10 P2 Y X10 P2 X1 1

X10 Y X10 P2 Y = X10 X1 1 X10 P2 X1 1
X10 (I P2 ) Y = X10 (I P2 ) X1 1
| {z } | {z }
M2 M2
As, obtenemos el estimador MCO de 1 (y 2 en forma anloga) de una regresin

particionada:
1 = (X10 M2 X1 )1 X10 M2 Y
2 = (X20 M1 X2 )1 X20 M1 Y
Tambin se puede demostrar que las matrices de varianzas y covarianzas de ambos

estimadores son:
V (1 ) =
e2 (X10 M2 X1 )1
V (2 ) =
e2 (X20 M1 X2 )1
e2 se obtiene utilizando la muestra completa.

Donde
3.7. Omisin de Variables Relevantes
3.7.1. Impacto sobre el Insesgamiento
Considere el siguiente modelo poblacional (expresado en desvos con respecto a

la media):
Y = X1 1 + X2 2 + u
Suponga ahora que el investigador se equivoca y estima el siguiente modelo:
Y = X1 1 + u
Estimando el modelo incorrecto obtenemos:
1 = (X10 X1 )1 X10 Y
= 1 + (X10 X1 )1 X10 X2 2 + (X10 X1 )1 X10 u
110
Econometra I
por lo cual:
E(1 ) = 1 + (X10 X1 )1 X10 X2 2

= 1 + Z2
Ello implica que por lo general, la omisin de variables relevantes (que pertenecen
al modelo poblacional), causar que los parmetros estimados sea sesgados. Ello
no suceder, slo en el caso que Z=0 (es decir que X1 y X2 sea ortogonales) o si
2 =0 (aunque dicho caso es contradictorio, dado que implicara que la variable
no pertenece al modelo poblacional).
La direccin del sesgo es difcil de obtener, sin embargo, el anlisis se simpli-

fica si pensamos en 1 y 2 como escalares. En dicho caso:
Cov(X1 , X2 )
E(1 ) = 1 + 2
V (X1 )
De lo anterior, se desprende que la direccin del sesgo depende de como covarien
las variables incluidas con respecto a las excluidas y del signo del parmetro
omitido.
3.7.2. Impacto sobre la Varianza
Estimando el modelo incorrecto, el estimador de la varianza ser:
V (1 /X1 ) = 2 (X10 X1 )1
mientras que si hubiramos estimado el modelo correcto, se puede demostrar que

la varianza del estimador insesgado de 1 (1 ) correspondera a:
V (1 /X1 , X2 ) = 2 (X10 M2 X1 )1
donde M2 = I X2 (X20 X2 )1 X20 . Luego, comparamos las inversas de ambas ma-

trices:
(V (1 /X1 ))1 (V (1 /X1 , X2 ))1 = 2 (X10 X2 (X20 X2 )1 X20 X1 )
tal que se puede demostrar que dicha matriz es definida positiva.
Por lo tanto, el omitir variables relevantes implica que los parmetros estimados
sern sesgados y que sus varianzas sern menores. Ms an, tambin es posible
demostrar que el estimador de la varianza de los errores ( 2 ) es sesgado hacia
arriba (la varianza poblacional es menor).
111
Econometra I
3.7.3. Ejemplo
Suponga que un investigador quiere estimar el retorno a la educacin y que el

modelo verdadero(obviamente es un caso ilustrativo) est dado por:
Wi = 1 Ei + 2 EXPi + ui (1)
Donde Wi corresponde al logaritmo del salario del individuo i, Ei corresponde a

los aos de educacin del individuo i, EXPi corresponde a los aos de experiencia
laboral del individuo i6 y ui corresponde a un trmino de error bien comportado.
Sin embargo este investigador utiliza el siguiente modelo para su estimacin.
Wi = 1 Ei + ui (1)
Los resultados del modelo verdadero son
Los resultados el modelo estimado son
6
La cual esta definida como EXPi = Edadi Ei 6.
112
Econometra I
Podemos ver el parmetro que acompaa a la variable aos de educacin es menor

en el modelo estimado que en el modelo verdadero. Esta direccin del sesgo se
puede explicar por el signo del parmetro que acompaa a la variable experiencia
en el modelo verdadero y a la relacin existente entre educacin y experiencia en
el mercado laboral.
113
Econometra I
3.8. Inclusin de Variable Irrelevantes
3.8.1. Impacto sobre Insesgamiento
Considere ahora el siguiente modelo poblacional:
Y = X1 1 + u
Suponga ahora que el investigador se equivoca y estima el siguiente modelo:
Y = X1 1 + X2 2 + u
Estimando el modelo incorrecto obtenemos:
1 = (X10 M2 X1 )1 X10 M2 Y
= 1 + (X10 M2 X1 )1 X10 M2 u
donde M2 se define igual que el la seccin anterior. Entonces:
E(1 ) = 1
y con el mismo razonamiento, se puede demostrar que:

2 u0 u
E( ) = E
T k1 k2
2
=
es decir, la inclusin de variable irrelevantes no causa sesgo en los parmetros

estimados, ni en la varianza de los errores estimados. Bajo dichos resultados,
pareciera que es mejor poner muchos regresores en nuestro modelo. Sin embargo,
nos falta estudiar que sucede con la varianza de los parmetros estimados.
3.8.2. Impacto sobre Varianza
Recordemos que:
1 = 1 + (X10 M2 X1 )1 X10 M2 u
con lo cual, la varianza estimada:
V (1 /X1 , X2 ) = 2 (X10 M2 X1 )1
114
Econometra I
mientras que la varianza verdadera:

V (1 /X1 ) = 2 (X10 X1 )1
entonces, como probamos con anterioridad, la varianza verdadera es menor que

la varianza estimada. Ello implica que el incluir regresores adicionales, aumenta
la varianza de nuestros parmetros estimados, lo cual se traduce en parmetros
menos eficientes.
3.8.3. Ejemplo
Suponga que un investigador quiere estimar el retorno a la educacin y que el

modelo verdadero(obviamente es un caso ilustrativo) est dado por:
Wi = 1 + 2 Ei + ui (1)
Donde Wi corresponde al logaritmo del salario del individuo i, Ei corresponde a

los aos de educacin del individuo i y ui corresponde a u trmino de error bien
comportado.
Sin embargo este investigador utiliza el siguiente modelo para su estimacin.
Wi = 1 + 2 Ei + 3 Di + ui (1)
Donde Di corresponde a una variable dicotmica que toma el valor 1 si el indi-

viduo fuma y 0 si no fuma.
Los resultados del modelo verdadero son
Los resultados el modelo estimado son:
115
Econometra I
Podemos ver no existe una variacin importante en los parmetros del modelo
estimado y el modelo verdadero. Sin embargo, tal como habamos demostrado, la
varianza de los parmetros aumenta disminuyendo entonces la eficiencia.
116
Econometra I
3.9. Perturbaciones no Esfricas
Un supuesto importante en el modelo clsico de regresin lineal (Supuesto 4) es

que los errores ui son homocedsticos, es decir la varianza es constante para todo
valor de Xi :
V ar(ui ) = V ar(uj ) para i 6= j
Figura 8: Homocedasticidad
Cuando el supuesto 4 no se cumple los errores son Heterocedasticos:
Figura 9: Heterocedasticidad
Adems se supona que los trminos de error no estaban correlacionados entre si

(Supuesto 5):
Cov(ui uj ) = 0 para i 6= j
117
Econometra I
Es decir, tenamos que E[uu0 ]= 2 In , ahora si el trmino de error no cumple con

los supuestos del modelo de regresin lineal tenemos que E[uu0 ]= 2 . Donde
es una matriz definida positiva.
3.9.1. Consecuencias de estimacin por MCO
Recordemos que el estimador MCO es:
= (X 0 X)1 X 0 Y
= + (X 0 X)1 X 0 u
Como el supuesto de que E[u|X] = 0 se mantiene, tenemos que la E[|X] = y

por lo tanto, E[ ]=0. De esta forma, el estimador MCO con perturbaciones
no esfricas sigue siendo insesgado y consistente. Pero no ser eficiente, dado
E[uu0 ]= 2 entonces la varianza de es:
0

V ar() = E

= E (X 0 X)1 X 0 uu0 X(X 0 X)1
= 2 (X 0 X)1 (X 0 X)(X 0 X)1
De esta forma, solo si = In la matriz de covarianzas de ser igual a 2 (X 0 X)1 ,

por lo tanto el estimador MCO en presencia de perturbaciones no esfricas no
tendr varianza mnima, es decir, no ser eficiente. Entonces cualquier inferencia
basada en e2 (X 0 X)1 llevar a conclusiones errneas.
3.9.2. Estimacin Eficiente: Mnimos Cuadrados General-

izados
La estimacin eficiente de en el modelo generalizado, donde los errores pueden

no ser esfricos, requiere el conocimiento de . Para comenzar supondremos que
es una matriz conocida, simtrica y definida positiva.
Bajo estas condiciones el Mtodo de Mnimos Cuadrados Generalizados nos

permite estimar de manera eficiente los parmetros.
Dado que es una matriz simtrica definida positiva, puede ser descompues-
118
Econometra I
ta de la siguiente manera:7
= CC 0
donde las columnas de C son los vectores propios de y los valores propios (j )
de se encuentran en la diagonal
p de . Entonces 1/2sea 1/2 , la matriz diagonal
con el j-simo elemento igual a j y sea T = C . De esta forma, = T T 0 .
Adems sea P 0 = C1/2 y por lo tanto, 1 = P 0 P . 8
Si pre multiplicamos Y = X + u por P obtenemos:
P Y = P X + P u o
Y = X + u (3.6)
Notemos que (3.6) es un modelo transformado de forma tal que:
V ar(u ) = E[u u0 ]
= 2 P P 0
= 2 In (3.7)
Por lo tanto, el modelo transformado cumple con los supuestos del modelo clsico
de regresin, y se puede utilizar MCO para estimar el parmetro :
M CG = (X0 X )1 X0 Y
= (X 0 P 0 P X)1 X 0 P 0 P Y
= (X 0 1 X)1 X 0 1 Y
Como el estimador MCG de es idntico al estimador MCO aplicado al modelo

transformado (3.6) y que cumple con los supuestos, M CG es MELI.
3.9.3. Test de Hiptesis
Nuevamente como el estimador MCG es igual al estimador MCO slo que se aplica
al modelo transformado, todos los procesos para testear hiptesis y construir
intervalos de confianza se mantienen.
Por ejemplo si queremos testear q hiptesis lineales H0 : Q0 = c, se tiene el
7
Esto se conoce como Descomposicin Espectral de una matriz.
8
Esto viene de la ortogonalidad de C, lo que implica que I = C 0 C = CC 0 y entonces
C = C 1 .
0
119
Econometra I
siguiente estadstico F:
0
Q0 M CG c [Q0 0
2 0 1 1
eM CG (X X ) Q] Q M CG c
Fq,nk
q
0
Q0 M CG 0
0 1
1 c [Q (X0 X )1 Q] Q M CG c
2
Fq,nk
q
eM CG
2 2
donde eM CG es el estimador insesgado de en presencia de perturbaciones no
esfricas:
0

Y X M CG 1
Y X M CG
2 u0 u

eM CG = =
nk nk
3.9.4. Estimacin cuando es desconocida:

Mnimos Cuadrados Factibles
Anteriormente asumimos que era conocida, en este caso una simple transfor-
macin del modelo de regresin lineal lleva a una matriz de covarianza esfrica.
En la prctica, es desconocida y es necesario estimar los parmetros al interior
de esta matriz.
Es-
Entonces lo que debemos hacer es sustituir por un estimador de ella .
to se denomina estimador Mnimos Cuadrados Factibles (MCF), donde el
estimador de se define de la siguiente forma:
1
M CF = X 0 1 X 1 y
X 0
El problema es que tenemos ms incgnitas (n(n+1)/2) en que observaciones,

para n>1. En la prctica para lograr la estimacin de debemos asumir que es
funcin de un nmero fijo y reducido de parmetros . El problema se reduce a
encontrar y usarlo para computar
= ().
120
Econometra I
3.9.5. Heterocedasticidad
La Heterocedasticidad surge cuando a pesar de que Cov(ui uj )=0 para i6= j, las
varianzas de cada observacin son diferentes, es decir, V ar(uj ) = j2 para j=1,...,n.
La matriz de covarianzas en este caso es:

12 0 1 0

E[uu0 ] = 2 = ... . . . ... = 2 ... . . . ...
0 n2 0 n
4000000
3000000
2000000
salario
Recta de regesin
poblacional (RRP)
1000000
x
x x
x x
x
x x
x
x
0
8 10 12 14 16 18
Escolaridad
Figura 2: Distribucin de los salarios para distintos niveles de educacin.
La heterocedasticidad es un problema bastante recurrente, especialmente al tra-

bajar con datos de corte transversal. Algunas razones por las que ui puede variar
son las siguientes:
En los modelos de aprendizaje sobre errores, a medida que la gente aprende,

sus errores de comportamiento son menores, as en este caso a medida que
aumentan las horas de prctica de una cierta actividad, la varianza de los
errores se reduce.
A medida que aumentan los ingresos, la gente tiene ms posibilidades de

disponer de parte de ese ingreso de la forma que desee. As en una regresin
de ahorro contra ingreso, es posible que i2 aumente en la medida que el
ingreso aumenta.
La Heterocedasticidad tambin puede surgir por la presencia de factores

atpicos, que es muy diferente a las restantes observaciones.
121
Econometra I
Al omitir variables relevantes, a parte del sesgo que se produce en las estima-
ciones por esto, se produce Heterocedasticidad ya que este variable estar
en el trmino de error y por lo tanto la varianza depender de ella.
Otra fuente de Heterocedasticidad es la asimetra en la distribucin de una

o ms variables explicativas incluidas en el modelo, por ejemplo: ingreso,
riqueza y educacin.
122
Econometra I
Como mencionamos anteriormente en presencia de Heterocedasticidad el es-

timador MCO seguir siendo insesgado, pero no tendr varianza mnima. El es-
timador que si cumple con la propiedad de MELI es el de MCG. Este ltimo
estimador requiere conocimiento de la matriz . Sin embargo, White (1980) ha
propuesto una aproximacin a la matriz de covarianzas del estimador MCO:

V ar(|X) = (X 0 X)1 (X 0 2 X)(X 0 X)1
que no requiere una representacin especifica de la forma funcional que adopta la
heterocedasticidad, por lo que no tendremos riesgo de asumir una forma funcional
incorrecta.
La sugerencia de White es que la varianza del estimador M CO se exprese de

la siguiente forma:

0 1 1 2 0
V ar(|X) = n(X X) X X (X 0 X)1
n
se define:
= n1 2 X 0 X
Xn
1
= n i2 xi x0i
i=1
la que se estima de la siguiente forma:

n
X
= n1
ui 2 xi x0i
i=1
White demuestra bajo condiciones generales que:

n
X p
= n1
ui 2 xi x0i
i=1
De esta forma, una estimacin consistente de la matriz de covarianzas es:

V ar(|X) 0 X)1
= n(X 0 X)1 (X (3.8)
su comparacin con 2 (X 0 X)1 puede dar nocin del grado de heterocedasticidad.
La estimacin de White de una matriz consistente con Heterocedasticidad es

un resultado muy til, ya que no se necesita saber la naturaleza de la Hetero-
cedasticidad. Ante la duda de presencia de este problema es mejor ocupar este
estimador ya que no produce alteraciones, y nos permite hacer inferencia correcta
con o sin la presencia de Heterocedasticidad.
123
Econometra I
Contrastes de Heterocedasticidad:
1. El contraste de White: La hiptesis nula es de Homocedasticidad (al

igual que en todos los contrastes que estudiaremos). Esto es, H0 : i2 = 2
i, bajo la hiptesis nula el estimador de la matriz de covarianzas de es
Vd
ar(|X) = e2 (X 0 X)1 , pero bajo la hiptesis alternativa es (3.8). Basa-
do en la observacin de esto, White propone un test que puede obtenerse
al calcular nR2 de una regresin de u2i contra todos los productos posibles
entre las variables explicativas. Demuestra que nR2 2J1 , donde J es el
nmero de regresores de esta ecuacin.
Consideremos el siguiente modelo:

yi = 0 + 1 xi + 2 zi + ui
Los pasos para realizar el test de White son:
a) Obtener y los residuos de la estimacin del modelo anterior por MCO
ui }ni=1
{
b) Correr una regresin de u2i sobre una constante, xi , zi , x2i , zi2 y xi zi .
c) Computar nR2 de la regresin anterior
d ) Para el nivel de significancia escogido, comparar nR2 con el valor crti-
co de una distribucin chi cuadrado con 5 grados de libertad. Si nR2
excede el valor crtico se rechaza la hiptesis nula de Homocedastici-
dad.
2. El contraste de Goldfeld y Quandt: este contraste parte del supuesto de
que la magnitud de i2 depende de cierta variable zi , la que generalmente
es una variable explicativa pero no es necesario. Supongamos que dicha
relacin es positiva, es decir, para valores ms altos de zi mayor es i2 . Las
observaciones se dividen en dos grupos, bajo la hiptesis nula ambos grupos
tienen la misma varianza, pero bajo la alternativa las varianzas difieren
significativamente. Entonces el contraste consiste en:
a) Ordenar las observaciones por los valores de la variable zi , de menor a
mayor.
b) Omitir p observaciones en la mitad de la muestra, se sugiere no eliminar
ms de la tercera parte de las observaciones.
c) Estimar dos veces el modelo original, una con las np
2
primeras ob-
np
servaciones muestrales y otra con las 2 ltimas observaciones en la
muestra. Notar que p debe ser lo suficientemente pequeo de manera
que T p
2
sea mayor al nmero de parmetros.
124
Econometra I
d ) Se calcula es estadstico:
u02 u2 np
Fm,m con m = k
u01 u1 2
Si se sospecha que la varianza del error depende inversamente de zi , entonces

las observaciones se deben ordenar de mayor a menor.
Si se llega a la conclusin de que el trmino de error del modelo no presenta
heterocedasticidad, podra deberse a que hemos comenzado con una mala
especificacin del parmetro i2 , que quizs depende de un variable diferente
a la que hemos supuesto. Por esta razn el contraste debera realizarse varias
veces con distintas variables de las que tengamos sospechas pueda depender
la varianza del trmino de error.
3. El contraste de Breusch y Pagan: supongamos que la varianza del

trmino de error de cada observacin depende de un vector de variables zi
de dimensin p, es decir:
i2 = h(zi0 ) = h(0 + 1 z1i + 2 z2i + ... + p zpi )
Notemos que si todos los coeficientes s excepto el correspondiente a 0

fuesen cero, tendramos una situacin de Homocedasticidad. Por lo tanto,
si puedieramos estimar los coeficientes 0 , 1 ,...,p un contraste para la
hiptesis nula de Homocedasticidad es:
H0 : 1 = 2 = ... = p = 0
Los pasos para realizar este contraste son:
a) Se estima por MCO el modelo original y se obtienen los residuos cor-

respondientes.
b) Se obtiene la serie de residuos normalizados al cuadrado:
Pn 2
u2i u
2
ei = 2 i = 1, ..., n donde u = i=1 i
2

u n
c) Se estima una regresin de e2i sobre una constante y las variables z1i ,
z2i ,...,zpi y se obtiene la suma explicada (SE) de dicha regresin.9
d ) Bajo la hiptesis nula de Homocedasticidad y dado el supuesto de
normalidad del trmino de error, la razn SE
2
se distribuye 2p .
9
Pn
Recordemos que la suma explicada de una regresin es igual a i=1 (
yi y)2 , cuando yi es
la variable dependiente.
125
Econometra I
4. El contraste de Glesjer: este contraste es ms ambicioso que el anterior,

ya que trata de estimar la verdadera estructura de Heterocedasticidad, no
limitndose a una estructura lineal. Sin embargo, una limitacin del con-
traste de Glesjer es que slo resulta til cuando se cree que dicha estructura
puede explicarse solo con una variable. Este contraste se hace en tres etapas:
a) Estimar el modelo por MCO y obtener los residuos correspondientes.

b) Estimar una regresin del valor absoluto de ui , o su cuadrado u2 , sobre
una potencia de la variable zi , es decir:
ui | = 0 + 1 zih + i
|

para distintos valores del exponente h: h = 1, 1, 21 , 21 . Escoger el
valor de h que proporcione una mejor regresin (coeficiente 1 signi-
ficativo y una suma residual pequea).
c) Una vez seleccionado h, se divide el vector de dimensin (k+1) formado
por las observaciones (y h
qi ,xi ) de cada periodo por 0 +1 zi si se estimo la
ui | y por 0 + 1 zih si se estimo u2i , y se estima el modelo
regresin de |
de nuevo por MCO, pero ahora con las variables transformadas.
Ejemplo: Produccin y Empleo por comunidades autnomas de Espaa
Como ejemplo, estimemos la relacin que existe entre empleo y Pib en las comu-
nidades autnomas espaolas. Se dispone datos del PIB en miles de millones de
pesetas, y de ocupados, en miles de personas para 1989, los que se muestran en
la siguiente tabla:
126
Econometra I
Estimador de la
desviacin estandar
del error
~2
u =
SEC/(n-k)
= 4307097.27/16
= 269193.56
~
u = 518.84
127
Econometra I
El estimador del parmetro asociado al empleo resulta ser significativo, por cada
1,000 empleador el PIB aumenta en 3,760 millones de pesetas. Sin embargo, la
estimacin de la constante es bastante imprecisa, y por ello resulta ser no sig-
nificativa. Existe la posibilidad de que la varianza del componente del PIB no
explicado por el empleo aumente con este, es decir, tengamos un problema de
heterocedasticidad, donde i depende de empleoi , y de esta forma, i2 depende
de empleo2i . Con esta sospecha, es necesario testear Heterocedasticidad.
1. Test Breusch-Pagan: para realizar este test, primero de la estimacin MCO

del modelo de inters se obtienen los residuos, luego se computan los residuos
normalizados (dividir cada residuo al cuadrado por el estimador de la varianza
del error). Se estima una regresin entre los residuos generalizados y el empleo al
cuadrado.
SE
Una vez realizada la estimacin se construye el estadstico SE

2
= 7,64, que resulta
2
ser mayor al valor de tabla de una 1 al 95 % de confianza (3.84), de esta forma
se rechaza la hiptesis nula de homocedasticidad.
2. Test Goldfeld y Quandt: es de esperar que la varianza dependa positiva-

mente del nivel de empleo, de esta forma, ordenamos las observaciones de menor a
mayor nivel de empleo y omitimos las 6 observaciones que ocupan los lugares cen-
trales. Luego estimamos dos modelos cada uno con 6 observaciones, y se computa
el estadstico igual a la divisin de la suma residual:
128
Econometra I
= 93.2
Este estadstico debe ser comparado con el valor de tabla de una distribucin
Fm,m al 95 % de confianza, que es igual a 6.39. De esta forma, nuevamente se
rechaza la hiptesis nula de Homocedasticidad.
129
Econometra I
3.9.6. Autocorrelacin
Al comienzo de esta seccin examinamos el caso general cuando la matriz de vari-

anzas y covarianzas del error dejaba de cumplir los supuestos 4 y 5, en este caso la
matriz ya no era 2 In , sino que era igual a 2 . La forma que tome esta matriz
depender de cual de los dos supuestos se estaba rompiendo. En la seccin 3.8.5,
vimos que forma toma la matriz si se rompe el supuesto 4 de Homocedasticidad
en el trmino de error, en este caso la matriz de varianzas y covarianzas del error
es no escalar (o no esfrica) porque los elementos de la diagonal eran distintos
para cada observacin i.
Por otra parte, la autocorrelacin es un problema que surge cuando rompemos el

supuesto 5 de no autocorrelacin en los errores. Ello implica que:
Cov(ui uj ) 6= 0 para i 6= j
La autocorrelacin en el trmino de error se da en los datos se serie de tiempo,

donde es un problema bastante comn.
Luego, nuestra matriz de varianzas y covarianzas del error ya no ser una matriz
diagonal (como en el caso de varianzas esfricas y no esfrica pero slo con het-
erocedasticidad) ya que el trmino de error se encuentra correlacionado consigo
mismo a travs del tiempo. La forma que toma la matriz cuando slo tenemos
autocorrelacin pero los errores son homocedsticos:

2 1,2 1,3 1,T
2,1 2 2,3 2,T

0 2 3,1 3,2 2 3,T
E[uu ] = =
.. .. .. . . ..
. . . . .
T,1 T,2 T,3 2
donde t,q = cov(ut uq ).
Nuestro modelo ahora ser:
yt = Xt + ut t = 1, 2, ..., T. (3.9)
ut = ut1 + t
donde, como vimos en la seccin 3.4, el error sigue un proceso AR(1).
130
Econometra I
Matriz de Varianzas y Covarianzas cuando ut es un AR(1):
En este caso el trmino de error tiene la forma sealada en (3.9):
ut = ut1 + t
2
1. V (ut ) = V (ut1 + t )=2 V (ut1 ) + 2 , de esta forma V (ut ) = 12
2. Como E(ut ) = 0, Cov(ut ut1 ) = E(ut ut1 ). Calculemos esta ltima esper-
anza:
ut ut1 = ut1 (ut1 + t )

= u2t1 + ut1 t /E()
E(ut ut1 ) = E(u2t1 ) + E(ut1 t )
| {z } | {z }
2 0
2
E(ut ut1 ) =
3. Siguiendo la misma lgica anterior, E(ut , ut2 ) se calcula de la siguiente

forma:
ut ut2 = ut2 (ut1 + t )

= ut1 ut2 + ut2 t /E()
E(ut ut2 ) = E(ut1 ut2 ) + E(ut2 t )
| {z } | {z }
2 0
E(ut ut2 ) = 2 2
4. As se puede derivar la siguiente expresin genrica:
E(ut ut(T 1) ) = T 1 2
131
Econometra I
Entonces:

2 1,2 1,3 1,T
2,1 2 2,3 2,T

3,1 3,2 2 3,T
E[uu0 ] = 2 =
.. .. .. ... ..
. . . .
T,1 T,2 T,3 2

2 2 2 2 T 1 2
2 2 2 T 2 2

2 2 2 2 T 3 2
=
.. .. .. .. ..
. . . . .
T 1 2 T 2 2 T 3 2 2

1 2 T 1
1 T 2

2
T 3
= 2 1
.. .. .. .. ..
. . . . .
T 1 T 2 T 3
1
Naturaleza y causas de la autocorrelacin
Existe autocorrelacin cuando el trmino de error de un modelo economtrico est

correlacionado consigo mismo a travs del tiempo. Por supuesto, no es necesario
que ut este correlacionado consigo mismo slo un periodo atrs, esta correlacin
puede ser de cualquier orden, es decir, ut puede ser un AR(1), AR(2),...,AR(q),
etc. As, dependiendo de cual sea el orden de la autocorrelacin en el trmino de
error, la matriz de varianzas y covarianzas ira tomando distintas formas.
La autocorrelacin en el trmino de error puede ser producida por varias causas:
Existencia de ciclos y tendencias: Si la autocorrelacin es positiva (es decir,

en (3.9) el coeficiente es positivo), un valor alto de ut que genera un valor
de yt por sobre su media condicional, tendr una probabilidad elevada de ir
seguido por un valor alto de ut+1 , y por ello, de un valor de yt+1 por encima
del promedio; lo mismo ocurra para yt debajo del promedio.
Sin embargo, si existe autocorrelacin negativa, valores de yt por sobre su
valor promedio condicional irn seguidos, con alta probabilidad, de valores
de yt+1 por debajo de su promedio. Por lo tanto, la autocorrelacin positiva
esta asociada a la existencia de rachas de valores altos y bajos de yt .
132
Econometra I
Autocorrelacin Positiva Autocorrelacin Negativa
Entonces, si debido a la inercia presente en la mayora de las variables

macroeconmicas la variable endgena presenta ciclos, y estos no son bien
explicados por la variables exgenas del modelo, el trmino de error tendr
autocorrelacin.
Por otra parte, tambin es cierto que la mayora de las variables econmicas
(y especialmente las variables medidas en trminos nominales) tienen una
tendencia, generalmente creciente. Si el conjunto de variables explicativas
del modelo no explican adecuadamente dicho comportamiento, entonces el
trmino de error incorporar dicha tendencia, lo que conduce a existencia de
autocorrelacin positiva:una primera racha de residuos negativos seguidos
por otra racha de residuos positivos.
X Modelo
XX verdadero
X X Modelo
XX X estimado
X
XX
X X X
X
X
X X
X X
X X
Autocorrelacin producida por una tendencia
Variables omitidas: Omisin tanto de variables relevantes, de no lineali-

dades y de relaciones dinmicas (rezagos de la variable dependiente) sern
133
Econometra I
incorporadas al trmino de error, causando posible autocorrelacin (adems

de las dificulatdes que usted ya comoce de las secciones 3.4 y 3.6).
Corolario: Si usted encuentra autocorrelacin en sus residuos, entonces

revise su modelo, ya que el error est captando informacin relevante que
usted est omitiendo.
Todo lo dicho en las secciones 3.8.1 hasta 3.8.4 aplican en este contexto (recuerde
que la matriz se plante en trminos generales). De esta forma, MCO sigue
siendo insesgado, pero pierde eficiencia, por lo cual ya no es MELI. El estimador
de mnima varianza en este contexto es MCG, y en caso de desconocerse la forma
de la autocorrelacin se debe utilizar MCF.
Sin embargo y siguiendo el espritu de la correccin de White, Newey y West

(1987) propusieron una correccin para la matriz de varianzas y covarianzas de
MCO. Recordemos que en este contexto se cumple que:
V ar(M CO /X) = 2 (X 0 X)1 X 0 X(X 0 X)1
mientras que el estimador de Newey-West corresponde a:
V ar(M CO /X) = n(X 0 X)1 S(X 0 X)1 (3.10)
donde el estimador consistente de S es:

n n
1XX
S = ut us xt x0s
w(t s) (3.11)
n t=1 s=1
|ts|<L
donde L corresponde al orden mximo de autocorrelacin del trmino de error

(que no siempre es fcil de determinar).
134
Econometra I
Contrastes de Autocorrelacin
1. Test de Durbin-Watson (d): Lejos el test ms utilizado para detectar

autocorrelacin de los residuos es el test propuesto en 1951 por Durbin
y G.S Watson. El test est diseado para detectar autocorrelacin en los
residuos de la forma ut = ut1 +t (AR(1)), donde es ruido blanco (media
cero y varianza constante). La nula corresponde a no autocorrelacin de los
residuos (H0 : = 0 H1 : 6= 0)y el test se define como:
Pn
ut ut1 )2
(
d = t=2Pn 2 (3.12)
t=1 u
t
Si > 0, los valores de u probablemente sern muy cercanos, por lo cual el

numerador ser muy pequeo en comparacin al residuo mismo. Ello im-
plica que d ser pequeo. Si < 0, entonces el numerador probablemente
ser grande, ms grande que el residuos n si mismo. Ello implica que d ser
grande10 .
Se puede demostrar que para muestra grandes d converge a:
d ' 2(1 ) (3.13)
con:
Pn
t=2 u
P
t ut1
= n
t=1 u 2t
donde puede ser obtenido de la siguiente regresin:
ut =
ut1 + ut (3.14)
Respecto a los valores crticos del test, la distribucin en muestras finitas

depende del supuesto de normalidad de los errores y de la matriz X, por
lo cual Durbin y Watson derivaron las tablas de valores de crticos para
facilitar la aplicacin del test. Sin embargo, dichos valores poseen rangos
indeterminados, en los cuales no podemos tomar una decisin respecto a la
nula. El test distribuye con dos colas y se presenta en la siguiente figura:
10
Por lo tanto, autocorrelacin positiva tender a arrojar un pequeo d, mientras que auto-
correlacin negativa tender a arrojar un d grande
135
Econometra I
Por ejemplo, el test rechaza la nula de no autocorrelacin en favor de la

alternativa de correlacin positiva si DW < dl y lo rechaza ante la alterna-
tiva de correlacin negativa de los errores si DW > 4 dl. El test posee dos
zonas grises que se presentan en los intervalos (dl,du) y (4-du, 4-dl), en las
cuales no podemos decir nada respecto de la nula. Finalmente, si DW cae
dentro del intervalo (du, 4-du) no se rechaza la nula de no autocorrelacin.
Sin embargo, las tablas de valores crticos son raramente utilizadas. Lo

anterior debido a que si no existe autocorrelacin, por la ecuacin (3.13)
sabemos que el valor de d ser cercano a dos, mientras que si hay evidencia
de autocorrelacin positiva d ser muy pequeo y si existe evidencia de
autocorrelacin negativa,d ser grande.
El test posee dos grandes omisiones. Primero, slo sirve para detectar au-
tocorrelacin de orden 1 en los errores y segundo, no puede ser aplicado si
se incluyen regresores de la variable dependiente en el modelo (porque se
construye bajo el supuesto de regresores determinsticos). Adems, se debe
tener presente que el test est construido bajo normalidad de los errores y
que existen las zonas grises o indeterminadas de las que hablbamos con
anterioridad.
2. Test de h-Durbin (h) Una variacin del test DW puede ser aplicada
cuando existen variables rezagadas de la variable dependiente en nuestro
136
Econometra I
modelo. Esta variacin se conoce como test de h-Durbin. El estadgrafo es:

r
DW n
h = 1 a N (0, 1) (3.15)
2 1 n2
donde 2 a la varianza del parmetro asociado al primer rezago de la variable
dependiente incluido en el modelo. Algunas notas respecto al test. Primero,
no importa cuantos rezagos de Y se hallan incluido en el modelo: slo nos
interesa la varianza del primero de ellos. Segundo, el test no es aplicable
cuando n 2 > 1 y tercero, las propiedades del test slo son conocidas as-
intticamente, por lo cual debe ser implementado con cuidado en muestras
pequeas.
3. Test de Breusch y Godfrey Este test es una alternativa para testear
autocorrelaciones de ordenes superiores a 1 y se basa en el test LM in-
troducido en la seccin 2.12.3. La nula, al igual que en todos los test de
autocorrelacin es que los residuos no se encuentran correlacionados. Con-
sideremos para distintos valores de k, el siguiente conjunto de estadsticos:
Pn
t=1 u
t utk
rk = P n (3.16)
t=1 u 2t
note que si k=1, entonces estamos en una caso parecido al estadstico DW.
Los pasos para realizar el test son:
a) Estimar el modelo por MCO y obtener los residuos u. El modelo puede
incluir rezagos de la variable dependiente.
b) Estimar una regresin auxiliar de ut sobre p rezagos: ut1 , . . . , utp ,
incluyendo las variables exgenas (X) del modelo original. Note que
deber excluir p observaciones.
c) Calcular el R2 de la regresin auxiliar
d ) Construir el estadgrafo nR2 2p
La lgica del test se basa en que si no existe autocorrelacin, entonces los
residuos MCO no deberan ser explicados por sus retardos, por lo cual el
R2 de la regresin auxiliar debera ser cercano a cero, lo cual nos llevara a
un bajo valor del estadgrafo y a un no rechazo de la nula.
4. Test de Box-Pierce-Ljung (Q-Stat) Este test se basa en el cuadrado
de las primeras p autocorrelaciones de los residuos MCO. El estadgrafo se
define como:
p
X
Q=n rj2 (3.17)
j=1
137
Econometra I
donde: Pn
t=j+1 u
t utj
rj = P
2t
t=1 u
La distribucin del estadgrafo bajo la nula de no autocorrelacin es 2 con

grados de libertad igual a p menos el nmero de rezagos del error incluidos
en la especificacin autorregresiva del error. De ello se deduce que el test
permite detectar autocorrelacin de ordenes superiores a 1.
Estimacin de Modelos con Autocorrelacin
Como vimos anteriormente la matriz en presencia de autocorrelacin es:

1 2 T 1
1 T 2

2 1 T 3
=
.. .. .. .. ..
. . . . .
T 1 T 2 T 3
1
Se puede demostrar que la matriz P en este caso es:

p
1 2 0 0 0
1 0 0

0 1 0
P =
.
. .. .. . . ..
. . . . .
0 0 1
Entonces utilizando esta matriz P podemos transformar el modelo y aplicar Mni-
mos Cuadrados Generalizados. Al premultiplicar X e Y por la matriz P tendremos
que la primera observacin se transforma de la siguiente forma:
p p p
1 2 y1 = ( 1 2 )x01 + ( 1 2 )u1 (3.18)
Y para el resto de las (T 1) observaciones la transformacin es la siguiente:
yt yt1 = (xt xt1 )0 + ut ut1 (3.19)

| {z }
t
El que la primera observacin de la muestra tenga un trato especial, es porque

para ella no existe una observacin anterior, y por lo tanto, es imposible aplicar
la transformacin en (3.19).
138
Econometra I
1. Estimacin MCF: El Mtodo de Cochrane Orcutt
La matriz P que transforma nuestro modelo en un libre de autocorrelacin

en el error, es tal que cada observacin de las variables dependientes, ex-
plicativas y trmino de error, se debe transformar de acuerdo a (3.19). Si
es que nuestro modelo es el siguiente:
y t = x t + ut
ut = ut1 + t
El modelo transformado es de la siguiente forma:
yt yt1 = (xt xt1 ) + ut ut1

| {z } | {z } | {z }
yt xt t
yt = xt + t
El Mtodo de Cochrane-Orcutt es un procedimiento iterativo para obtener

la estimacin de y :
a) Estimar por Mnimos Cuadrados Ordinarios la regresin de inters,

ignorando la presencia (conocida) de autocorrelacin de primer orden
en el trmino de error.
b) Utilizar los residuos MCO para estimar el parmetro . Esto puede
hacerse mediante una regresin de ut contra ut1 , o a partir del es-
tadstico DW de la estimacin anterior.
c) Utilizar este parmetro para transformar las variables, y obtener yt
y xt .
d ) Estimar por MCO un modelo con las variables transformadas, para
obtener un nuevo vector de coeficientes .
e) Utilizar esta nueva estimacin para computar otro vector de residuos,
y utilizar estos residuos para obtener una nuevaestimacin de
f ) Repetir este procedimiento hasta que los convergan11 .
Este Mtodo puede ser fcilmente generalizado con autocorrelacin de orden

superior.
2. Estimacin por Mxima Verosimilitud
11
Esto sucede cuando la diferencia entre el vector de parmetros difiere infinitesimalmente
del obtenido en la vuelta anterior.
139
Econometra I
Supongamos que se pretende estimar el modelo de regresin con auto-

correlacin de primer orden. Adems debemos asumir alguna distribucin
para t (recuerde que este es un requisito para poder estimar por mxima
verosimilitud). Supongamos que t se distribuye N (0, 2 ). As, la funcin
de verosimilitud es:
T " P #!
1 Tt=1 2t
L= exp (3.20)
2 22
Recordemos que P es la matriz que transforma ut en t , es decir, t =

P ut . La funcin de verosimilitud en (3.20) se puede expresar en funcin del
trmino de error ut (AR(1)) como12 :
T p " PT #!
2 2 2
1 (1 )u 1 t=2 (u t u t1 )
L= 1 2 exp
2 22
p
dado que en este caso el determinante de P (|P |) es 1 2 .
Finalmente, la funcin de verosimilitud en funcin del trmino de error

original autocorrelacionado es:
T p 0 1
1 u u
L= 2
1 exp (3.21)
2 22
La ventaja de este mtodo es que puedo estimar simultneamente y .
12
Ver Greene, Anlisis Economtrico pgina 69. Si la funcin de densidad conjunta de la
variable t es:
T " P #!
T
1 t=2 2t
f () = exp
2 22
o equivalentemente:
T
1 0
f () = exp
2 22
la funcin de densidad de conjunta de P ut = t es:

T
1 u0 P 0 P u
f (u) = |P | exp
2 22
140
Econometra I
El logaritmo de la Verosimilitud Condicional13 en trminos de observables es:

T
T 1 T 1 1 X
lnL = ln(2) ln(2 ) 2 [(yt xt ) (yt1 xt1 )]2
2 2 2 t=2
Las condiciones de primer orden del problema de Mxima Verosimilitud son:

T
lnL 1 X
= t xt = 0 (k ecuaciones) (3.22)
2 t=2

T
lnL 1 X
= (
ut ut1 )
ut1 = 0 (1 ecuacion) (3.23)
2 t=2

PT 2
lnL (T 1) 1 t=2 t
= + = 0 (1 ecuacion) (3.24)
2 2 2
4

De (3.22) podemos encontrar el estimador MV de , que como podemos observar

coincide con el estimador MCF.
De (3.23) se determina el estimador MV de :

PT
t=2 ut ut1
=
ut1
que corresponde exactamente a lo sugerido por el mtodo de Cochrane-Orcutt.
Ejemplo: Estimacin de Funcin Consumo
Suponga estamos interesados en estimar una funcin Consumo:
Ct = 0 + 1 Yt + ut (3.25)
donde Ct es el consumo e Yt es el Ingreso. Para esto contamos con informacin

del consumo agregado del sector pblico y privado y del PIB de Espaa para los
aos 1954-1988. Estas series se muestran en el siguiente grfico:
13
La estimacin condicional toma la primera observacin como dada y es eliminada de la
estimacin, es decir, se estima con (T-1) observaciones
141
Econometra I
20000
16000
12000
8000
4000
0
1955 1960 1965 1970 1975 1980 1985
CONSUMO PIB
Ahora estimemos (3.25) utilizando la informacin disponible:
142
Econometra I
Dependent Variable: CONSUMO

Method: Least Squares
Date: 11/09/04 Time: 15:51
Sample: 1954 1988
Included observations: 35
CONSUMO=C(1)+C(2)*PIB
Coefficient Std. Error t-Statistic Prob.
C(1) 76.53412 81.89808 0.934504 0.3568

C(2) 0.768971 0.006842 112.3909 0.0000
R-squared 0.997394 Mean dependent var 8615.809

Adjusted R-squared 0.997315 S.D. dependent var 3490.620
S.E. of regression 180.8607 Akaike info criterion 13.28878
Sum squared resid 1079450. Schwarz criterion 13.37765
Log likelihood -230.5536 Durbin-Watson stat 0.338818
Si comparamos el valor del DW (0.34) con el valor de tabla (k=1 y n=35 al 95 %

de confianza, di=1.4 y ds=1.52), tenemos que se rechaza la hiptesis nula de no
autocorrelacin a favor de autocorrelacin positiva. Adems podemos apreciar
grficamente la forma autorregresiva de los residuos:
16000
12000
8000
400
4000
200
0
0
-200
-400
1955 1960 1965 1970 1975 1980 1985
Residual Actual Fitted
Veamos que sucede con nuestros parmetros estimados si aplicamos la correccin

de Newey-West a nuestra estimacin MCO:
143
Econometra I
Dependent Variable: CONSUMO

Method: Least Squares
Date: 11/09/04 Time: 15:59
Sample: 1954 1988
Included observations: 35
Newey-West HAC Standard Errors & Covariance (lag truncation=3)
CONSUMO=C(1)+C(2)*PIB
Coefficient Std. Error t-Statistic Prob.
C(1) 76.53412 105.8340 0.723152 0.4747

C(2) 0.768971 0.008968 85.75039 0.0000
R-squared 0.997394 Mean dependent var 8615.809

Adjusted R-squared 0.997315 S.D. dependent var 3490.620
S.E. of regression 180.8607 Akaike info criterio 13.28878
Sum squared resid 1079450. Schwarz criterion 13.37765
Log likelihood -230.5536 Durbin-Watson sat 0.338818
144
Econometra I
Para realizar la estimacin MCF de la propensin marginal a consumir (que

es equivalente a la estimacin Mximo Verosmil) debemos primero estimar la
funcin autorregresiva del error. Para esto determinemos primero el vector de
residuos de la estimacin MCO de nuestro modelo de inters:
Y luego estimamos el siguiente modelo:
145
Econometra I
Una vez estimado podemos transformar el modelo original de acuerdo a la

ecuacin (3.19), de forma que el error transformado (t ) cumple con los requisitos
para que MCO sea MELI:
146
Econometra I
La estimacin del modelo transformado arroja los siguientes resultados:
147
Econometra I
Primero, podemos notar que el DW es 1.81, mayor al lmite superior de tabla

(1.52) y menor a (4 ds) = 2,48, por lo tanto no se puede rechazar la nula
de no autocorrelacin. El parmetro de la propensin marginal a consumir es
exactamente el mismo que el obtenido de la estimacin MCO del modelo original.
148
Captulo 4
Problemas con los datos
4.1. Multicolinealidad
Es prcticamente imposible encontrar dos variables econmicas cuyo coeficiente

de correlacin es una determinada muestra sea numricamente cero, dicho coe-
ficiente puede tomar valores pequeos pero nunca llegar a ser cero. Granger y
Newbold (1974) entre otros autores han ilustrado como el slo hecho de intro-
ducir una tendencia lineal en dos series de tiempo independientes aumenta su
correlacin notablemente.
La Multicolinealidad aparece cuando las variables explicativas en modelo economtri-

co estn correlacionadas entre si, esto tiene efectos negativas cuando se quire es-
timar los parmetros del modelo por MCO.
Existen diversas fuentes de la multicolinealidad:
El mtodo de recoleccin de informacin empleado, obtencin de muestras

en un intervalo limitado de valores de los regresores en la poblacin.
Restriccin en el modelo o en la poblacin objeto de muestreo.
Especificacin del modelo.
Consideremos el siguiente modelo:
yi = 1 + 2 x2i + ... + k xki + ui
149
Econometra I
Capitulo 4: Problemas con los datos FACEA, Universidad de Chile
Si existe la inversa de XX, el estimador MCO de este modelo, viene dado por
M CO = (X 0 X)1 X 0 y y su matriz de covarianzas es Var()=
2 0 1
u (X X) .
Supongamos que la xji tiene un alto grado de correlacin con las dems vari-
ables explicativas de modelo, es decir que la regresin lineal:
xji = 1 + 2 x2i + ... + j1 xj1,i + j+1 xj+1,i + ... + k1 xki + i (4.1)
tiene un coeficiente de determinacin alto.
En estas condiciones la variable xji puede escribirse aproximadamente como una

combinacin lineal del resto de las variables explicativas del modelo, lo que se
puede apreciar en la ecuacin (4.1). Como consecuencia una de las columnas
de la matriz X, la correspondiente a xji , puede escribirse como una combinacin
lienal aproximada de las dems columnas de X, y de esta forma (XX) ser aprox-
imadamente singular.
En la medida que el determinante de (XX) sea distinto de cero, existir (XX)1 ,

y por lo tanto tambin existir es el estimador MCO, y sigue cumpliendo con la
propiedad de MELI, pero se tienen las siguientes consecuencias:
1. La solucin del sistema de ecuaciones normales est mal definido: mientras

la dependencia de xji sea aleatoria como lo muestra la ecuacin (4.1) y no
exacta, XX no ser exactamente singular y existir un nico estimador
MCO, ya que existe una nica solucin al sistema de ecuaciones normales,
pero tambin habr un nmero de vectores 1 , 2 , ..., que al sustituirlos en
el sistema de ecuaciones normales, seran aproximadamente una solucin al
mismo.
2. Pequeas variaciones muestrales por incorporar o sustraer un nmero re-

ducido de observaciones muestrales, introducir ligeros cambios en (XX) y
Xy, pero podran generar importantes cambios en la solucin del sistema
de ecuaciones normales.
3. Al ser la matriz XX casi singular, es muy pequea. Como consecuencia la

matriz de covarianzas ser muy grande, por lo tanto el estimador MCO es
poco preciso en este caso.
150
Econometra I
4.1.1. Multicolinealidad Exacta y Multicolinealidad Aprox-

imada
La presencia de multicolinealidad en un modelo de regresin lineal puede ser de

dos formas:
Multicolinealidad Exacta: una de las variables explicativas es una com-

binacin lineal determinstica de todas las dems (o algunas de ellas).
Multicolinealidad Aproximada: ocurre cuando una de las variables es
aproximadamente igual a una combinacin lineal de las restantes, como en
la ecuacin (3.1).
En la prctica, contrario a lo que se pudiera esperara es ms complicado la mul-

ticolinealidad aproximada que la exacta.
4.1.2. Deteccin de Multicolinealidad
Puesto que la multicolinealidad es un problema de naturaleza muestral, que surge

principalmente por el carcter no experimental de la mayora de la informacin
recopilada en las Ciencias Sociales, no tiene una manera nica de ser detectada.
Lo que se tiene son algunas reglas prcticas detalladas a continuacin:
1. El R2 es alto, pero los parmetros no resultan ser individualmente significa-

tivos.
Por ejemplo: Considere los siguientes datos:
Tabla 6: Multicolinealidad
Periodo yi x2i x3i x4i
1 20 5 10 10
2 12 2 8 6
3 28 7 12 16
4 26 6 4 12
5 14 4 16 8
6 24 8 14 14
7 16 3 6 4
Las variables x3 y x4 tienen las mismas observaciones numricas solo que en

distinto orden, de forma tal que la correlacin entre x2 y estas dos variables
151
Econometra I
son: 23 = 0,32 y 24 = 0,93, altamente diferentes entre s.

Una regresin de yi sobre x2i , x3i y una constante gener las siguientes
estimaciones MCO:
yt = 10,81 + 2,92x2i 0,54x3i + ui (4.2)
(2,6) (0,42) (0,21)
R2 = 0,92
u2 = 2,09
Una regresin de y contra una constante, x2 y x4 , produjo las siguientes

estimaciones:
yi = 6,67 + 1,33x2i + 0,67x4i + ui (4.3)
(3,27) (1,61) (0,81)
R2 = 0,83
u2 = 3,16
Ambas regresiones no incluyen las mismas variables explicativas y por lo

tanto, no son comparables. Sin embargo, en el segundo modelo donde el gra-
do de correlacin entre las variables explicativas es alto, podemos apreciar
que a pesar de que el R2 es alto, los parmetros resultan ser insignificativos
individualmente (t4 =2.78).
152
Econometra I
2. Pequeos cambios en los datos, produce importantes variaciones en las es-

timaciones mnimo cuadrticas.
3. Los coeficientes pueden tener signos opuestos a los esperados o una magni-
tud poco creble.
4.1.3. Otros mtodos de deteccin de multicolinealidad

(a) Mtodos basados en la correlacin entre variables explicativas: una
de las consecuencias de la multicolinealidad era varianzas de los estimadores
bastante altas. Entonces, Cal es la relacin entre la varianza estimada y
el grado de correlacin entre las variables explicativas?.
Si descomponemos la matriz X de la siguiente forma:
X = [xj ; Xj ]
donde xj es un vector columna correspondiente a la j-sima variable ex-

plicativa y Xj una matriz de n(k-1) con las observaciones de las restantes
variables. Entonces, XX puede escribirse como:
0
0 xj xj x0j Xj
XX=
Xj0 xj Xj0 Xj
De esta forma, el elemento (1,1) de (X 0 X)1 es (Demostrar ): 1
[(x0j xj ) x0j Xj (Xj0 Xj )1 (Xj0 xj )]1 = (x0j Mj xj )1
donde Mj = In Xj (Xj0 Xj )1 Xj0 y donde x0j Mj xj corresponde a la suma de

los residuos al cuadrado de una regresin de xj sobre Xj , de esta forma se
tiene que:
u2
V ar(j ) = (4.4)
x0j Mj xj
Lo que tiene la siguiente expresin:

u2
V ar(j ) = (4.5)
STj (1 Rj2 )
1
Recordar que la inversa de una matriz particionada es:
1 1
A11 A12 A11 (I + A12 F2 A21 A1 1
11 ) A11 A12 F2
=
A21 A22 F2 A21 A1
11 F2
donde F2 =(A22 -A21 A1

11 A12 ).
153
Econometra I
P
donde STj es la suma total de la regresin entre xj y Xj (STj = ni=1 (xji
xj )2 ) y R2j es el coeficiente de determinacin de esta misma regresin.
La varianza de j depende de tres cosas:
La varianza del trmino de error, que es independiente del grado de

correlacin entre las xs.
La suma total propia de la variable xj , la que depende solo de esta
variable.
El coeficiente de determinacin R2j , el que si depende del grado del gra-
do de correlacin entre la variable xj y las restantes, es decir, depende
del grado de multicolinealidad.
La cota inferior para la varianza de j , cuando R2j =0, es:
u2
V ar(j0 ) =
STj
Por lo que la relacin entre las varianzas de la estimacin de j en un caso

de correlacin entre variables explicativas y el caso de independencia lineal
es:
V ar(j ) 1
=
V ar(j )
0 1 Rj2
154
Econometra I
De acuerdo con este anlisis, los coeficientes de determinacin obtenidos

en las regresiones de cada variable explicativa con el resto son un buen
indicador de una posible situacin de multicolinealidad.
(b) Mtodos basados en el tamao de la matriz XX: cuando tenemos mul-
ticolinealidad la matriz XX es casi singular, de esta manera una medida de
tamao de esta matriz nos permite detectar la presencia de multicolineali-
dad. El determinante no es una medida buena, ya que tiene problemas de
sensibilidad a los cambios de unidades. Pero sabemos que el determinante
de una matriz simtrica es igual al producto de sus valores propios, y por lo
tanto el examen de estos valores nos da una idea del tamao de la matriz.
De esta forma, Belsley propone la siguiente medida para ver el grado de
multicolinealidad:
r
max
=
min
Esta medida se denomina nmero de condicin de la matriz X, y nmeros
de este indicador mayores 25 suelen considerarse problemticos.
Los s corresponden a los valores propios de la matriz B = S(X 0 X)S,
donde S es la siguiente matriz diagonal:

10 0 0
x2 x2
..
0 1
0 .
S= x 0x
3 3
. .
.. 0 .. 0

0 0 01
xk xk
Esta matriz nos permite librarnos del problema de unidad en el tamao de

los valores propios, ya que normaliza cada una de las variables al dividir
todas las observaciones por su desviacin estndar.
El nmero de condicin de la matriz X (), implica que mientras mayor es
este valor, el valor de min es realmente pequeo al compararlo con max ,
indicando el potencial problema de multicolinealidad.
4.1.4. Remedios contra la Multicolinealidad
Se han propuesto varios mtodos para hacer frente a la multicolinealidad. La

solucin ms sencilla es eliminar de la regresin las variables que se sospeche son
la causa del problema. Obviamente de este mtodo surgen problemas de especi-
ficacin, como la omisin de variables relevantes. Es necesario recordar que el
155
Econometra I
estimador MCO sigue siendo el mejor estimador lineal insesgado de los parmet-
ros. El problema es que, cuando hay multicolinealidad, el mejor no resulta ser
muy bueno.
Las soluciones propuestas en la literatura (estimador de ridge o estimador cresta

y estimador de componentes principales) tienen como caracterstica buscar un
estimador ligeramente sesgado pero cuya varianza sea mucho menor, es decir, un
estimador con menor error cuadrtico medio. No existe una metodologa que per-
mita eliminar el problema de alta multicolinealidad sin alterar las propiedades y
la interpretacin de los parmetros.
Estas metodologas tienen poco respaldo intuitivo, por lo tanto la interpretacin
de los parmetros es desconocida.
156
Econometra I
4.2. Error de Medicin
Una dificultad en todo trabajo emprico en Economa es la imposibilidad de

disponer de las observaciones muestrales de las variables de inters. Por ejemplo,
las variables de contabilidad nacional como el PIB, stock de capital o consumo,
son slo estimaciones de conceptos tericos que no se observan en la realidad. En
otros casos, como la Renta Permanente, inteligencia o habilidad de un trabajador,
no disponemos ni siquiera estimaciones, y debemos utilizar variables Proxies, que
aproximan los conceptos que se quieren utilizar. As por ejemplo se utilizan aos
de experiencia del trabajador para aproximar su habilidad.
Podemos adelantar que el error de medicin o el uso de variables proxies generar

sesgos en las estimaciones por MCO, el que ser menor:
cuanto ms se aproxime la verdadera variable que debera incluirse en el

modelo con que que incluyo efectivamente.
cuanto ms independiente sea el error de medida de las restantes variables
del modelo.
Consideremos el siguiente modelo lineal simple:
yi = xi + ui i = 1, ..., n (4.6)
en el que la variable dependiente yi est medida con error, es decir, solo observa-
mos:
yi = yi + i i = 1, ..., n (4.7)
donde asumimos que i N (0, 2 ) y es independiente de xi y ui .
Reemplazando (4.7) en (4.6):
yi = xi + (ui + i ) = xi + i (4.8)
Bajo los supuestos mencionados es fcil darse cuenta que el estimador de ser
el mismo que si observramos el verdadero valor de yi .
En consecuencia, los errores de medida en la variable endgena no producen
ningn problema importante al estimar por MCO.
Ahora supongamos que la variable xi esta medida con error, es decir:
xi = xi + i i = 1, ..., n (4.9)
157
Econometra I
donde i N (0, 2 ) y es independiente de ui , xi y de yi .
El modelo en trminos de las variables observables es:
yi = xi + (ui i ) = xi + i (4.10)
contrario a lo que ocurra en (4.8) en este caso tenemos dificultad al estimar por
MCO, ya que el trmino de error i esta relacionado con xi , lo que va en contra
del supuesto 6, veamos:
Cov(i , xi ) = Cov(ui i , xi + i )
= Cov(ui , xi ) Cov(i , xi ) + Cov(ui , i ) Cov(i , i )
= 0 0 + 0 2
Esto hace que el estimador MCO de en el modelo (4.10) sea sesgado:

PN
xi yi 1/N
= Pi=1
N

i=1 xi
2 1/N
1
P N
i=1 xi yi
= N
1
P N 2
plim
N i=1 x i
P
plim N N
1
i=1 xi yi
plim = P
plim N1 N i=1 xi
2
P
plim N1 N i=1 (xi + i )(xi + ui )
plim = P
plim N1 N i=1 (xi + i )
2
P
plim N1 N i=1 (xi + i )(xi + ui + i i )
plim = P
2
P
plim N1 N i=1 (xi + i )(ui i )
plim = + P
2
2
plim = + 2 2
Sx +

plim = 2

1+ Sx2
Pn
donde Sx2 = plim n1 i=1 x2i , que supondremos existe.
El resultado en trminos generales es que el estimador MCO en presencia de

error de medicin estar sesgado hacia en origen.
158
Econometra I
En el caso del modelo de regresin mltiple:

y = X + u
X = X +
donde todas las variables pueden estar medidas con error. Extendiendo lo desar-
rollado anteriormente:
plim M CO = [xx + ]1 (4.11)
X0X 0
donde xx = plim n
y = plim n
.
Lo que implica que un slo error basta para generar inconsistencias en todos
los coeficientes del modelo.
4.2.1. Estimacin por Variables Instrumentales
La estimacin consistente de los parmetros en presencia de errores de medida es

posible si se disponen de instrumentos.
Definicin: Un instrumento es una variable no incluida en el modelo, que cumple

con:
No estar correlacionada con el trmino de error.

Esta correlacionada con la variable explicativa para la cual acta como
instrumento (en este caso la variable medida con error).
Volviendo al modelo en (4.10), el sesgo del estimador MCO de surge por la

correlacin entre la variable xi y i . Supongamos ahora que se dispone de la
variable zi , tal que:
E(zi i ) = 0 E(zi xi ) 6= 0
Entonces el estimador de variables instrumentales de (4.10) es:
Pn
zi yi
V I = Pni=1
i=1 zi xi
En un modelo de regresin mltiple, tenemos que encontrar una matriz Z que

contenga los instrumentos de las variables medidas con error. El estimador de
Variables Instrumentales se obtiene de una regresin MCO en dos etapas:
159
Econometra I
i. En la primera etapa, se hace una regresin entre X y la matriz de instrumentos

Z, para obtener el valor estimado de X :
X = Z +
= (Z 0 Z)1 Z 0 X
= Z(Z 0 Z)1 Z 0 X
X
ii. En la segunda etapa se reemplaza el valor estimado de X en el modelo de

regresin original:
y = X +
y=X +
y obtengo el estimador de mediante MCO:
V I = (X
0 X
)1 X
0 y
0 0
= [X Z(Z 0 Z)1 Z 0 X ]1 X Z(Z 0 Z)1 Z 0 y (4.12)
Si todas las variables explicativas estn medidas con error cada una de ellas se
necesita un instrumento, entonces Z tiene dimensin nk al igual que X , en este
caso se puede demostrar (Hacerlo) que:
V I = (Z 0 X )1 Z 0 y
con matriz de varianzas y covarianzas (tambin demostrar ):
V ar(V I ) = 2 (Z 0 X )1 (Z 0 Z)(X Z)1

0
4.2.2. Test de Hausman
Bajo errores de medida, el estimador MCO es inconsistente, mientras que el esti-

mador de variables instrumentales es consistente. Si en ralidad no hubiese errores
de medida, ambos estimadores sern consistentes, y MCO es adems eficiente,
lo que no ocurre con cualquier estimador de variables instrumentales (es un esti-
mador en dos etapas, lo que hace perder eficiencia).
Por lo tanto, para contrastar la existencia de errores de medida Hausman plantea

realizar un test estadstico comparando (M CO V I ) con su matriz de varianzas
y covarianzas.
160
Econometra I
La hiptesis nula es que no existe error de medida, es decir:
H0 : M CO V I = 0 (4.13)
Hausman demuestra que la matriz de varianzas y covarianzas de (M CO V I )

es igual a V (V I ) V (M CO ). De esta forma, se puede construir el siguiente
estadstico de Wald para la hiptesis nula en (4.13):
W = (M CO V I )0 (V (V I ) V (M CO ))1 (M CO V I ) 2k
161

El Apunte de Econometria I

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

El Apunte de Econometria I

Uploaded by

Copyright:

Available Formats

Econometra I

1 Cualquier error es responsabilidad exclusiva de los autores.

2. Modelo de Regresin Lineal 8

2.1. Anlisis de Regresin . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.1. Qu es una regresin? . . . . . . . . . . . . . . . . . . . . 8

2.1.2. Relaciones estadsticas versus relaciones determinsticas . . 9

2.1.3. Regresin versus Causalidad . . . . . . . . . . . . . . . . . 10

2.1.4. Regresin versus Correlacin . . . . . . . . . . . . . . . . . 10

2.2. Anlisis de regresin con dos variables . . . . . . . . . . . . . . . 14

2.2.1. Funcin de regresin poblacional (FRP) . . . . . . . . . . 16

2.2.2. Especificacin estocstica de la funcin de regresin pobla-

2.2.3. Funcin de regresin muestral . . . . . . . . . . . . . . . . 18

2.2.4. Propiedades de un Estimador . . . . . . . . . . . . . . . . 21

2.3. Modelo de regresin con dos variables . . . . . . . . . . . . . . . . 24

2.3.1. Mtodo de Mnimos Cuadrados Ordinarios . . . . . . . . . 24

2.3.2. Supuestos detrs del mtodo MCO . . . . . . . . . . . . . 31

2.3.3. Errores estndar de los Estimadores Mnimos Cuadrados

2.4. Modelo de Regresin con k variables . . . . . . . . . . . . . . . . 38

2.4.1. Representacin Matricial del Modelo de Regresin Lineal . 38

2.4.2. Estimador Mnimo Cuadrados Ordinarios . . . . . . . . . . 39

2.5. Propiedades del estimador MCO . . . . . . . . . . . . . . . . . . . 41

2.5.1. Propiedad de mejor estimador lineal insesgado . . . . . . . 42

2.5.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . 42

2.6. Geometra del Estimador MCO . . . . . . . . . . . . . . . . . . . 44

2.7. Bondad de Ajuste y Anlisis de Varianza . . . . . . . . . . . . . . 45

2.7.1. Modelo de Regresin Lineal en Desvos . . . . . . . . . . . 45

2.7.2. Anlisis de Varianza . . . . . . . . . . . . . . . . . . . . . 47

2.8.1. Test t (Una hiptesis lineal) . . . . . . . . . . . . . . . . . 53

2.8.2. Test F (Conjunto de hiptesis lineales) . . . . . . . . . . . 61

2.8.3. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . 61

2.8.4. Test de Normalidad (Test de Jarque-Bera) . . . . . . . . . 63

2.9.1. Medicin de la precisin de la prediccin . . . . . . . . . . 67

2.10. Estimacin Mximo Verosmil (EMV) . . . . . . . . . . . . . . . . 74

2.10.1. Propiedades de los estimadores MV . . . . . . . . . . . . . 75

2.11. Inferencia en el contexto MV . . . . . . . . . . . . . . . . . . . . . 80

2.11.1. Test de Razn de Verosimilitud (LR) . . . . . . . . . . . . 80

2.11.3. Test del Multiplicador de Lagrange (LM) . . . . . . . . . . 81

2.12. Algunas acotaciones respecto a la estimacin y la inferencia MV . 85

3. Forma Funcional y Especificacin 87

3.1. Regresores Estocsticos en el Modelo de Regresin Lineal . . . . . 87

3.2. Incorporacin de No Linealidades . . . . . . . . . . . . . . . . . . 89

3.2.1. Test de No Linealidades Omitidas (Test de Reset) . . . . . 90

3.3. Variables Dummies o cualitativas . . . . . . . . . . . . . . . . . . 92

3.3.1. Posibles usos de las variables Dummies . . . . . . . . . . . 97

3.4. Variable Dependiente Rezagada . . . . . . . . . . . . . . . . . . . 101

3.4.1. Ejemplo y advertencias sobre el uso de variable dependiente

3.5. Seleccin de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . 105

3.5.1. Ejemplo: Retornos a la educacin, diferencias entre hom-

3.6. Regresin Particionada . . . . . . . . . . . . . . . . . . . . . . . . 109

3.7. Omisin de Variables Relevantes . . . . . . . . . . . . . . . . . . . 110

3.7.1. Impacto sobre el Insesgamiento . . . . . . . . . . . . . . . 110

3.7.2. Impacto sobre la Varianza . . . . . . . . . . . . . . . . . . 111

3.7.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

3.8. Inclusin de Variable Irrelevantes . . . . . . . . . . . . . . . . . . 114

3.8.1. Impacto sobre Insesgamiento . . . . . . . . . . . . . . . . . 114

3.8.2. Impacto sobre Varianza . . . . . . . . . . . . . . . . . . . 114

3.8.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

3.9.1. Consecuencias de estimacin por MCO . . . . . . . . . . . 118

3.9.2. Estimacin Eficiente: Mnimos Cuadrados Generalizados . 118

3.9.3. Test de Hiptesis . . . . . . . . . . . . . . . . . . . . . . . 119

3.9.4. Estimacin cuando es desconocida:

3.9.5. Heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . 121

3.9.6. Autocorrelacin . . . . . . . . . . . . . . . . . . . . . . . . 130

4. Problemas con los datos 149