You are on page 1of 47

Multicolinealidad

Errores de especicacin

Multicolinealidad y
errores de especicacin

Mariana Marchionni
marchionni.mariana@gmail.com

Mariana Marchionni Multicolinealidad y errores de especicacin 1 / 46


Multicolinealidad
Errores de especicacin

En la primera parte del curso

Estudiamos el modelo de regresin lineal con 2 y con K


variables

Discutimos la interpretacin econmica (efectos marginales,


elasticidades, semi-elasticidades)

Aprendimos a estimar por MCO y a hacer inferencia

Mariana Marchionni Multicolinealidad y errores de especicacin 2 / 46


Multicolinealidad
Errores de especicacin

En la primera parte del curso

Adems, estudiamos las propiedades tericas de los


estimadores MCO

Vimos que bajo los supuestos clsicos los estimadores MCO


son:

1 lineales
2 insesgados
3 los de menor varianza dentro de los lineales e insesgados
(MELI)
4 Lo mismo es cierto para cualquier combinacin lineal de los
estimadores MCO

Los supuestos clsicos son necesarios y sucientes para MELI

Mariana Marchionni Multicolinealidad y errores de especicacin 3 / 46


Multicolinealidad
Errores de especicacin

En la segunda parte de la materia

Qu pasa cuando no se cumplen los supuestos clsicos? Los


estimadores MCO ya no sern MELI

No ser MELI puede deberse a:

que ya no son estimadores lineales pero los estimadores


MCO no pueden dejar de ser lineales por qu?

que ya no son insesgados


que ya no son los ms ecientes entre los lineales e insesgados

Mariana Marchionni Multicolinealidad y errores de especicacin 4 / 46


Multicolinealidad
Errores de especicacin

En la segunda parte de la materia

Vamos a detenernos en cada uno de los supuestos clsicos y


preguntarnos:

1 Cul es la propiedad que est en juego si ese supuesto no se


cumple? Problema potencial
(en gral. van a ser problemas de sesgo o de ineciencia)

2 Cmo podemos testear si el supuesto efectivamente se


cumple o no? Diagnstico

3 Qu hacer si hay evidencia de que el supuesto NO se cumple?


Solucin

Mariana Marchionni Multicolinealidad y errores de especicacin 5 / 46


Multicolinealidad
Errores de especicacin

En la clase de hoy

1 Multicolinealidad perfecta versus multicolinealidad alta (pero


no perfecta)

2 Errores de especicacin del modelo

1 por omisin de regresores relevantes


2 por inclusin de regresores irrelevantes

Mariana Marchionni Multicolinealidad y errores de especicacin 6 / 46


Multicolinealidad
Errores de especicacin

Multicolinealidad perfecta

El supuesto clsico dice: (X ) = K


En palabras: la matriz X tiene rango columna completo o
no hay multicolinealidad perfecta

Intuicin?

Mariana Marchionni Multicolinealidad y errores de especicacin 7 / 46


Multicolinealidad
Errores de especicacin

Qu se requiere para que (X ) = K ?

X21 X31 XK 1

1
1 X22 X32 XK 2
X =


. . . .. .
. . . .

. . . . .
1 X2n X3n XKn

Mariana Marchionni Multicolinealidad y errores de especicacin 8 / 46


Multicolinealidad
Errores de especicacin

Por qu es necesario suponer que no hay multicolinealidad


perfecta?

Vimos antes que si (X ) = K (X 0 X ) = K


Lo que implica que
1 1
|X 0 X | 6= 0 X 0X = X 0 X X 0Y

Que no haya multicolinealidad perfecta es necesario para que


existan los estimadores MCO.
O, lo que es lo mismo: si hay multicolinealidad perfecta, no existen
los estimadores MCO.
Alguna intuicin?

Mariana Marchionni Multicolinealidad y errores de especicacin 9 / 46


Multicolinealidad
Errores de especicacin

Por qu es necesario suponer que no hay multicolinealidad


perfecta?

Vimos antes que si (X ) = K (X 0 X ) = K


Lo que implica que
1 1
|X 0 X | 6= 0 X 0X = X 0 X X 0Y

Que no haya multicolinealidad perfecta es necesario para que


existan los estimadores MCO.
O, lo que es lo mismo: si hay multicolinealidad perfecta, no existen
los estimadores MCO.
Alguna intuicin?

Mariana Marchionni Multicolinealidad y errores de especicacin 9 / 46


Multicolinealidad
Errores de especicacin

Volvamos al caso del modelo con 2 variables

En qu situacin habra multicolinealidad perfecta?

Pensarlo en trminos de la matriz X


Matemticamente: las CPO son 2 ecuaciones linealmente
dependientes con 2 incgnitas

Hay innitos pares (, ) que resuelven la CPO

Grcamente

Mariana Marchionni Multicolinealidad y errores de especicacin 10 / 46


Multicolinealidad
Errores de especicacin

Mariana Marchionni Multicolinealidad y errores de especicacin 11 / 46


Multicolinealidad
Errores de especicacin

Mariana Marchionni Multicolinealidad y errores de especicacin 12 / 46


Multicolinealidad
Errores de especicacin

Mariana Marchionni Multicolinealidad y errores de especicacin 13 / 46


Multicolinealidad
Errores de especicacin

Mariana Marchionni Multicolinealidad y errores de especicacin 14 / 46


Multicolinealidad
Errores de especicacin

Mariana Marchionni Multicolinealidad y errores de especicacin 15 / 46


Multicolinealidad
Errores de especicacin

Mariana Marchionni Multicolinealidad y errores de especicacin 16 / 46


Multicolinealidad
Errores de especicacin

Un ejemplo de multicolinealidad perfecta en el modelo con K


variables?

Incluimos el gnero como regresor mediante una dummy


aditiva

obs. sexo hombre mujer


1 mujer 0 1
2 hombre 1 0
... ... ... ...
n hombre 1 0

Regla: si hay 2 categoras incluimos slo una dummy.


Qu pasa si incluimos las dos variables dummy en el modelo?
Trampa de la variable binaria

Qu columnas de la matriz X son perfectamente colineales?

Mariana Marchionni Multicolinealidad y errores de especicacin 17 / 46


Multicolinealidad
Errores de especicacin

Multicolinealidad alta (pero no perfecta)

No hay multicolinealidad perfecta, entonces (X ) = K


No se viola ningn supuesto

Se cumplen las condiciones del TGM entonces los estimadores


MCO son MELI

Entonces por qu hablar de multicolinealidad alta?

Mariana Marchionni Multicolinealidad y errores de especicacin 18 / 46


Multicolinealidad
Errores de especicacin

Volvamos otra vez al modelo con 2 variables. Vimos que

2 2
V [ ] = =
xi2 nV [X ]

Cuanto menos varan las X mayor es la varianza de :


intervalos de conanza ms amplios, tendemos a aceptar
cualquier H0 (poca potencia de los tests)

El estimador MCO tiene varianza grande, pero sigue siendo el


estimador ms eciente entre todos los lineales e insesgados!

Pensar otra vez el caso extremo de multicolinealidad perfecta

Mariana Marchionni Multicolinealidad y errores de especicacin 19 / 46


Multicolinealidad
Errores de especicacin

En el caso con K variables pasa algo parecido:

1
V [ ] = 2 (X 0 X )1 = 2 Adj (X 0 X )
|X 0 X |

cuando aumenta la correlacin entre 2 o ms regresores el


determinante |X 0 X | se hace cada vez ms chico

y la V [ ] crece exponencialmente

Mariana Marchionni Multicolinealidad y errores de especicacin 20 / 46


Multicolinealidad
Errores de especicacin

Mariana Marchionni Multicolinealidad y errores de especicacin 21 / 46


Multicolinealidad
Errores de especicacin

Cuando hay multicolinealidad alta (pero no perfecta)

Las varianzas de los estimadores estn inadas


Como consecuencia los intervalos de conanza son muy
amplios y los resultados de los tests de hiptesis son poco
conables

Tendencia a aceptar cualquier hiptesis nula

Por ejemplo, tendemos a no rechazar H0 : = 0


Sin embargo, la bondad del ajuste y los estadsticos F de test
globales pueden ser altos. Por qu?

Sntoma de multicolinealidad: estadsticos t muy chicos,


estadsticos F grandes

Mariana Marchionni Multicolinealidad y errores de especicacin 22 / 46


Multicolinealidad
Errores de especicacin

Ejemplo emprico: la relacin entre la educacin de los hijos


y la educacin de los padres

Hiptesis: la educacin del padre y/o de la madre inuyen


sobre la educacin de los hijos e hijas

Por qu?

canales econmicos: restricciones de liquidez, costos de


oportunidad
canales socio-culturales: educacin como valor social,
valoraciones subjetivas

Datos: informacin de 500 adultos, conocemos su educacin y


la de sus padres

Mariana Marchionni Multicolinealidad y errores de especicacin 23 / 46


Multicolinealidad
Errores de especicacin

Descripcin de la muestra:

Comando: summ hombre mujer edu edupadre edumadre

Mariana Marchionni Multicolinealidad y errores de especicacin 24 / 46


Multicolinealidad
Errores de especicacin

Primera regresin: la educacin en funcin de la educacin de


la madre, del padre y del gnero

Comando: regress edu edumadre edupadre mujer hombre

Mariana Marchionni Multicolinealidad y errores de especicacin 25 / 46


Multicolinealidad
Errores de especicacin

Segunda regresin: mismo modelo, slo para mujeres

Comando: regress edu edumadre edupadre mujer if mujer==1

Mariana Marchionni Multicolinealidad y errores de especicacin 26 / 46


Multicolinealidad
Errores de especicacin

Tercera regresin: no hay multicolinealidad perfecta

Comando: regress edu edumadre edupadre mujer

La educacin de la madre es muy singnicativa para explicar la


educacin de los hijos

Pero la del padre parecera no ser relevante

Cun conable es este resultado?

Mariana Marchionni Multicolinealidad y errores de especicacin 27 / 46


Multicolinealidad
Errores de especicacin

Probemos estimando el modelo anterior pero excluyendo la


variable edumadre

Ahora la educacin del padre aparece como muy signicativa

Cambios drsticos de resultados ante cambios en la


especicacin del modelo son sntoma de alta correlacin entre
las variables explicativas, en este caso entre la educacin del
padre y de la madre

Mariana Marchionni Multicolinealidad y errores de especicacin 28 / 46


Multicolinealidad
Errores de especicacin

Comando: correlate edupadre edumadre

En efecto, la correlacin supera el 99 %

Mariana Marchionni Multicolinealidad y errores de especicacin 29 / 46


Multicolinealidad
Errores de especicacin

Nos damos cuenta que hay alta multicolinealidad entre 2 variables


explicativas, entonces:

No conamos en el resultado de no signicatividad de la


educacion del padre porque sabemos que las varianzas de los
estimadores estn inadas

La no signicatividad de edupadre cuando el modelo tambin


incluye edumadre sugiere que la educacin del padre no genera
una contribucin extra una vez que ya se ha considerado el
efecto de la educacin de la madre

Resultados no robustos: incluir o no alguna de las variables que


estn correlacionadas cambia drsticamente nuestras
conclusiones (ms sobre esto cuando veamos errores de
especicacin)

Y, qu hacemos?

Mariana Marchionni Multicolinealidad y errores de especicacin 30 / 46


Multicolinealidad
Errores de especicacin

Una solucin: construir una medida nica que capture la


informacin de las variables correlacionadas

Por ejemplo: aos promedio de educacin de los padres


edupadre+edumadre)
1/2*(

Comando: regress edu edu_promedio mujer

Mariana Marchionni Multicolinealidad y errores de especicacin 31 / 46


Multicolinealidad
Errores de especicacin

Micronumerosidad: la otra cara de la misma moneda

Micronumerosidad = muestra chica

Un tamao de muestra chico genera los mismos problemas que


una alta multicolinealidad

Recordemos para el modelo con 2 variables:

2 2
V [ ] = =
xi2 nV [X ]

La varianza de los estimadores crece:

cuandoV [X ] es chica (o, en el caso de K variables, cuando el


determinante |X 0 X | es chico)
cuando n es chica

Mariana Marchionni Multicolinealidad y errores de especicacin 32 / 46


Multicolinealidad
Errores de especicacin

Errores de especicacin del modelo

Supongamos dos modelos posibles

1 Y = X 1 1 + X2 2 + u
2 Y = X 1 1 +
donde X1 es (n K1 ) incluye columna de unos y X2 es (n K2 )
Problema: no sabemos cul de los dos es el modelo correcto

Podemos cometer dos tipos de errores:

Estimar (1) cuando el verdadero modelo es (2)


Inclusin de variable irrelevante

Estimar (2) cuando el verdadero modelo es (1)


Omisin de variable relevante

Mariana Marchionni Multicolinealidad y errores de especicacin 33 / 46


Multicolinealidad
Errores de especicacin

Sesgo por omisin de variables relevantes

1 Y = X 1 1 + X2 2 + u verdadero modelo
2 Y = X 1 1 + el que nosotros estimamos
Importante: los supuestos clsicos se cumplen para el modelo
verdadero.

Estimamos 1 por MCO, regresando Y en X1 solamente:

1,sinX2 =(X10 X1 )1 X10 Y

Resultado: 1,sinX2 ser por lo general sesgado:

E [1,sinX2 ] 6= 1

Mariana Marchionni Multicolinealidad y errores de especicacin 34 / 46


Multicolinealidad
Errores de especicacin

Demostracin:

1,sinX2 = (X10 X1 )1 X10 Y


= (X10 X1 )1 X10 (X 1 1 + X2 2 + u )
= 1 + (X10 X1 )1 X10 X2 2 + (X10 X1 )1 X10 u

E [1,sinX2 ] = 1 + (X10 X1 )1 X10 X2 2

Sesgo [1,sinX2 ] = (X10 X1 )1 X10 X2 2

Mariana Marchionni Multicolinealidad y errores de especicacin 35 / 46


Multicolinealidad
Errores de especicacin

De qu depende el sesgo?

Sesgo [1,sinX2 ] = (X10 X1 )1 X10 X2 2

Trivialmente, si la variable omitida no es relevante (2 = 0)


entonces no hay sesgo

Entonces el sesgo depende de (X10 X1 )1 X10 X2

Mariana Marchionni Multicolinealidad y errores de especicacin 36 / 46


Multicolinealidad
Errores de especicacin

Qu es (X10 X1 )1 X10 X2 ?
Supongamos que X2 tiene alguna relacin con las variables X1
(por simplicidad, X2 es una sola variable)

X2 = X 1 +

Notar que el estimador MCO de viene dado por:

= (X10 X1 )1 X10 X2

= 0 solo cuando X2 es ortogonal a todas las variables X1


Basta con que haya algn grado de correlacin entre la variable
omitida X2 y las variables incluidas X1 para que haya sesgo

Mariana Marchionni Multicolinealidad y errores de especicacin 37 / 46


Multicolinealidad
Errores de especicacin

Resumiendo

Si 2 = 0 no habr sesgo por omitir X2 (trivial)

Si 2 6= 0 habr sesgo siempre que algn regresor est


correlacionado con la variable omitida X2
A mayor correlacin, mayor sesgo

El signo del sesgo depende del signo de la correlacin y del


signo de 2

Mariana Marchionni Multicolinealidad y errores de especicacin 38 / 46


Multicolinealidad
Errores de especicacin

Ejemplo emprico: fumar hace bien (?)

Ejemplo basado en Appleton, French y Vanderpump (1996).


Ignoring a Covariate: an Example of Simposons Paradox, The
American Statistician, 50(4).

Cmo impacta el consumo de cigarrillos sobre la salud?

Datos: 100 hombres de entre 20 y 65 aos. Se conoce el


consumo diario de cigarrillos y un indicador de riesgo que se
construye en base a pruebas clnicas.

Mariana Marchionni Multicolinealidad y errores de especicacin 39 / 46


Multicolinealidad
Errores de especicacin

Descripcin de la muestra:
summ indice_riesgo edad cigarrillos

Mariana Marchionni Multicolinealidad y errores de especicacin 40 / 46


Multicolinealidad
Errores de especicacin

Modelo: ndice riesgoi = 1 + 2 cigarrillosi + ui


Estimamos por MCO: regress indice_riesgo cigarrillos

Contraintuitivo!!!

Mariana Marchionni Multicolinealidad y errores de especicacin 41 / 46


Multicolinealidad
Errores de especicacin

Es natural que la edad tambin afecte la salud:


ndice riesgoi = 1 + 2 cigarrillosi + 3 edadi + ui
regress indice_riesgo cigarrillos edad

Tanto la edad como el consumo de cigarrillos afectan


positivamente al ndice de riesgo y ambos efectos son
signicativos estadsticamente: resultados intuitivos

Por qu el cambio en los resultados?

Mariana Marchionni Multicolinealidad y errores de especicacin 42 / 46


Multicolinealidad
Errores de especicacin

Cuando omitimos la variable edad, el estimador del efecto de


cigarrillos captura no slo el efecto de fumar ms sino tambin el
de la edad

Mariana Marchionni Multicolinealidad y errores de especicacin 43 / 46


Multicolinealidad
Errores de especicacin

El sesgo se produce porque la variable omitida ( edad) est


correlacionada con la variable incluida (cigarrillos)
corr indice_riesgo edad cigarrillos

Como la correlacin es negativa y el verdadero efecto de la


edad sobre el riesgo es positivo, el sesgo es negativo:
estimamos un efecto menor que el verdadero.
En el ejemplo, el sesgo negativo es tan grande que el signo del
coeciente estimado se revierte cuando se omite la edad

Mariana Marchionni Multicolinealidad y errores de especicacin 44 / 46


Multicolinealidad
Errores de especicacin

Inclusin de variables irrelevantes


En este caso estamos agregando un regresor que no pertenece al
modelo:

1 Y = X 1 1 + X2 2 + u estimamos este modelo


2 Y = X 1 1 + pero este es el modelo verdadero
Resultado:

El estimador MCO de 1 que surge de estimar el modelo 1


cuando el verdadero modelo es el 2 es insesgado

Pero no es el de mnima varianza entre los estimadores


lineales e insesgados (es decir, no es MELI). Por qu?

Entonces, el costo de agregar variables irrelevantes es la


prdida de eciencia

Mariana Marchionni Multicolinealidad y errores de especicacin 45 / 46


Multicolinealidad
Errores de especicacin

Omitir o incluir, esa es la cuestin...

El problema existe porque no sabemos cul es el modelo


verdadero

Omitir variables relevantes genera (casi siempre) SESGO


Incluir variables irrelevantes genera INEFICIENCIA
Entonces qu preferimos?

un modelo grande puede ser muy ineciente


pero uno pequeo puede ser sesgado

Metodologa general a particular: estimar un modelo grande e


ir eliminando variables no signicativas

OJO: encontrar que una variable no es estadsticamente


signicativa no nos asegura que la variable sea irrelevante.

Mariana Marchionni Multicolinealidad y errores de especicacin 46 / 46

You might also like