You are on page 1of 62

TEMA 2: Modelo de regresion simple

Basado en Wooldridge (2010), Captulo 2


Profesora: Serafima Chirkova
Departamento de Economa.
Universidad de Santiago
Econometra I. Primer semestre 2015

Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

1 / 62

Estructura
1

Introduccion. Definicion del modelo de regresion simple.

Modelo de regresion lineal simple: estimacion

Valores ajustados y residuos. Bondad de ajuste.

Propiedades estadsticas de los estimadores MCO

Unidades de medida y forma funcional

Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

2 / 62

Introduccion
Objetivo: presentar un modelo econometrico para analizar la
relacion entre dos variables: como x causa (provoca) cambios
en y .
Problemas basicos:
1

Como se permite que otros factores afecten a y ?


incorporar u: otros factores
Cual es la relaci
on funcional entre x y y ? suponer una
relaci
on lineal
Como asegurarnos que se esta captando una relacion ceteris
paribus? interpretaci
on de los par
ametros

Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

3 / 62

Modelo de regresion lineal simple: definicion


Consideramos una ecuacion que relacione y y x:
y = 0 + 1 x + u,

(1)

Nota: suponemos que se cumple en la poblacion de interes.


Elementos del modelo:
variables y termino de error,
relacion funcional,
parametros.

y variable dependiente, variable explicada, variable de


respuesta o regresando.
x variable independiente, variable explicativa, variable
de control o regresor.
u t
ermino de error o perturbaci
on aleatoria que recoge el
efecto de otros factores que afectan a y .
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

4 / 62

Modelo de regresion lineal simple: parametros


1 y 0 son parametros desconocidos que queremos estimar
utilizando un muestra aleatoria de (x, y ).
1 es el parametro de pendiente
1 refleja la variaci
on en y ante un aumento de una unidad en x,
y = 1 x

si

u = 0

manteniendo constantes el resto de los factores que


influyen en y y que vienen recogidos en el termino de error u.
x tiene un efecto lineal sobre y : el aumento en una unidad en x
tiene el mismo efecto sobre y con independencia del valor inicial
de x.
x = 1 y = 1 , x, u = 0

0 es el intercepto o el termino constante


Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

5 / 62

Modelo de regresion lineal simple: ejemplos


Ejemplo 1: salario y educacion
Consideremos el modelo de regresion simple que relaciona el
salario de una persona con su nivel de educacion
wage = 0 + 1 educ + u
El termino de error u contiene todos los demas factores que
influyen en el salario, como la experiencia laboral, la habilidad
innata, la antig
uedad en el empleo actual, etc.

Ejemplo 2: rendimiento de frijol de soya y el fertilizante


Supongamos que la produccion de soja esta determinada por el
modelo
yield = 0 + 1 fertilizer + u
El termino de error u contiene todos los demas factores que
influyen en la producci
on de soja como la calidad de la tierra, la
cantidad lluvia cada, etc.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

6 / 62

Modelo de regresion lineal simple: supuestos


Supuesto RLS.1 (linealidad en los par
ametros)
En el modelo poblacional, la variable aleatoria dependiente, y ,
esta relacionada con la variable aleatoria independiente, x, y con
el error (o perturbacion), u, de la manera lineal con respecto a
los parametros 0 y 1 :
y = 0 + 1 x + u,
Ejemplos de modelos lineales:

(2)

wage = 0 + 1 educ 2 + u,
wage = 0 + 1 lneduc + u,
Ejemplos de modelos no lineales:
wage = 0 + educ 1 + u,
wage =
Serafima Chirkova (USACH)

0
+ u.
1 educ

Tema 2. Regresi
on simple

Econometra I, 2015

7 / 62

Modelo de regresion lineal simple: supuestos


(cont.)
Supuesto RLS.2 (muestra aleatoria)
Se cuenta con una muestra aleatoria de tamano n,
{(xi , yi ) : i = 1, 2, . . . , n} que sigue el modelo poblacional de la
ecuacion:
yi = 0 + 1 xi + ui ,
(3)
donde i indexa individuos de una muestra aleatoria de tamano n,
i = 1, 2, . . . , n
Consecuencia: la informacion del individuo i es independiente
de la informacion del individuo j:
cov (ui , uj ) = 0, i 6= j

Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

8 / 62

Modelo de regresion lineal simple: relacion x y u


El parametro 1 mide el efecto de x sobre y , con todos los
demas factores (en u) fijos. Pero en que sentido mantenemos
los otros factores para llegar a tales conclusiones?
Como x y u son variables aleatorias necesitamos un concepto
basado en su distribucion de probabilidad.
Supuesto provisional: siempre que incluyamos el termino
constante 0 en la ecuacion podemos suponer que el valor
promedio de u en la poblacion es cero:
E (u) = 0
Es simplemente una normalizacion: el efecto medio de los otros
factores se renormaliza a cero,
Consecuencia: 0 = E (y ) 1 E (x)
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

9 / 62

Modelo de regresion lineal simple: supuestos


(cont.)
Problema: u pueden tener otro tipo de relacion (no lineal) con x:
puede haber relacion u con x 2 , etc.
Supuesto RLS.3 (media condicionada nula)
E (u|x) = 0

(4)

Consecuencia: E (u) = 0, para todos los posibles valores de x,


la media de u siempre es la misma constante, 0.
Supuesto RLS.4 (variaci
on muestral de una variable
explicativa)
Los valores de la variable explicativa xi , i = 1, . . . , N, no pueden
ser todos iguales, es decir, x no puede ser constante.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

10 / 62

Ejemplo: salario y educacion


Como interpretar el supuesto (4) en el contexto de los ejemplos
anteriores?
Ejemplo 1 (cont.)
Para simplificar supondremos que el termino de error u mide
exclusivamente la habilidad innata.
El supuesto (4) implica que el nivel medio de habilidad no
depende de los a
nos de formaci
on.
Bajo este supuesto, el nivel de habilidad medio de los individuos
con 10 a
nos de formaci
on debera ser el mismo que el de los
individuos con 16 a
nos de formaci
on.
Sin embargo, si pensamos que los individuos con mayor
habilidad innata eligen adquirir mayor formacion, la habilidad
media de los individuos con 16 a
nos de formacion sera mayor
que la de los individuos con 10 a
nos de formacion, y el supuesto
(4) no se verificara.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

11 / 62

Ejemplo: rendimiento de frijol de soya y el


fertilizante
Ejemplo 2 (cont)
Para simplificar supondremos que en este ejemplo el termino de
error u mide exclusivamente la calidad de la tierra.
En este caso, si la cantidad empleada de fertilizante en las
distintas parcelas es aleatoria y no depende de la calidad de la
tierra, entonces el supuesto (4) sera cierto: la calidad media de
la tierra no depende de la cantidad de fertilizante.
Por el contrario, si las mejores parcelas reciben una mayor
cantidad de fertilizante, el valor medio de u dependera de la
cantidad de fertilizante y el supuesto (4) no sera cierto.

Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

12 / 62

Funcion de regresion poblacional


Vamos a obtener ahora la expresion de la media de y
condicionada a x bajo el supuesto (4). Si calculamos el valor
esperado (condicionado a x) en la ecuacion (1) tenemos que
E (y | x) = E (0 + 1 x + u | x) = 0 + 1 x + E (u | x)
y bajo el supuesto (4)
E (y | x) = 0 + 1 x

(5)

Esta ecuacion muestra que, bajo el supuesto (4), la funci


on de
regresi
on poblacional, E (y | x), es una funcion lineal de x.
De la ecuacion (5) se deduce que:
0 es la media de y cuando x es igual a cero.
1 mide al variaci
on en la media de y ante un aumento de una
unidad en x.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

13 / 62

Modelo de regresion lineal simple: estimacion


Puesto que E (u) = 0, utilizando la ecuacion (1) y substituyendo
u en funcion de las variables observables tenemos que
E (y 0 1 x) = 0

(6)

Por otra parte se puede demostrar que


E (u | x) = 0 E (xu) = 0
y utilizando la ecuacion (1) y substituyendo u en funcion de las
variables observables tenemos que
E (x(y 0 1 x)) = 0

Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

(7)

Econometra I, 2015

14 / 62

Metodo de los momentos


Reemplazando en las ecuaciones (6) y (7) las esperanzas
poblacionales por las medias muestrales, se definen las
estimaciones b0 y b1 como las soluciones de las ecuaciones:
n

1X
(yi b0 b1 xi ) = 0
n i=1

(8)

1X
xi (yi b0 b1 xi ) = 0
n i=1

(9)

Notese que las ecuaciones (8) y (9) son las contrapartidas


muestrales de las ecuaciones (6) y (7). Los estimadores
obtenidos como contrapartidas muestrales de momentos
poblacionales se denominan estimadores del m
etodo de los
momentos.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

15 / 62

Los estimadores del Metodo de los Momentos


Los estimadores MM en el modelo de regresion simple:

b1MM

b0MM = y b1MM x
Pn
(xi x) (yi y )
Sxy
= i=1
= 2
Pn
2
Sx
i=1 (xi x)

(10)
(11)

donde
1 Pn
Sxy = n1
i=1 (xi x) (yi y ) es la covarianza muestral
entre x e y ,
2
1 Pn
Sx2 = n1
i=1 (xi x) es la varianza muestral de x.

Demostracion en clase.
MM
MM
A b0
lo denominamos estimador MM de 0 y a b1
estimador MM de 1 .
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

16 / 62

Metodo de Mnimos Cuadrados Ordinarios (MCO)


En el modelo de regresion simple:
yi = 0 + 1 xi + ui , para i = 1, . . . , N
El objetivo es estimar los valores de los coeficientes 0 y 1 .
Para ellos tomamos una muestra de los datos de las variables y
y x: (xi , yi ) para i = 1, , N.
Ejemplo 1: salario y educacion
Queremos analizar si el nivel de educaci
on de un trabajador
tiene alg
un efecto en su salario.
Se toman datos de 526 trabajadores, yi es el salario por hora del
trabajador i, y xi = es el n
umero de los a
nos de educacion del
trabajador i para i = 1, , 526.

Dibujamos la nube de puntos asociada a una determinada


muestra de tamano n y una recta cualquiera
y = b0 + b1 x
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

17 / 62

Metodo de MCO: interpretacion grafica

Cada punto representa una observacion.


Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

18 / 62

Metodo de MCO: funcionamiento


La estimacion MCO consiste en minimizar la suma de los
cuadrados de las distancias verticales de los puntos de la nube a
la recta de regresion.
Graficamente la distancia vertical del punto (xi , yi ) a la recta
y = b0 + b1 x viene dada por yi b0 b1 xi .
Por tanto la funcion objetivo que tenemos que minimizar es
n
X
min s(b0 , b1 ) min
(yi b0 b1 xi )2
(12)
b0 ,b1

b0 ,b1

i=1

Las derivadas parciales son:


s(b0 , b1 )
b0

= 2

s(b0 , b1 )
b1

= 2

Serafima Chirkova (USACH)

n
X
i=1
n
X

(yi b0 b1 xi )
xi (yi b0 b1 xi )

i=1
Tema 2. Regresi
on simple

Econometra I, 2015

19 / 62

Metodo de MCO: funcionamiento


Los coeficientes estimados se obtienen igualando a cero las
derivadas parciales de la funcion objetivo
n
X

(yi b0 b1 xi ) = 0

i=1
n
X

donde

xi (yi b0 b1 xi ) = 0

i=1

El valor de b0 es el valor aproximado de 0 , 0 = b0


El valor de b1 es el valor aproximado de 1 , 1 = b1

Estas dos ecuaciones se denominan condiciones de primer


oden de las estimaciones MCO y son identicas a las ecuaciones
(8) y (9).
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

20 / 62

Estimadores MCO
Por tanto los estimadores obtenidos minimizando la funcion
objetivo (12) coinciden con los estimadores MM definidos en las
ecuaciones (10) y (11).
Los estimadores MCO en el modelo de regresion simple:

b1MCO

b0MCO = y b1MCO x
Pn
(xi x) (yi y )
Sxy
= i=1
= 2
Pn
2
Sx
i=1 (xi x)

(13)
(14)

donde
1 Pn
Sxy = n1
i=1 (xi x) (yi y ) es la covarianza muestral
entre x e y ,
2
1 Pn
Sx2 = n1
i=1 (xi x) es la varianza muestral de x.
MCO
MCO
A b0
lo denominamos estimador MCO de 0 y a b1
estimador MCO de 1 .
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

21 / 62

Metodo de MCO: alternativa


Por que se utiliza como criterio minimizar la suma de los
cuadrados de los residuos?
La respuesta es que el criterio es sencillo y da lugar a
estimadores con buenas propiedades bajo ciertos supuestos.
Notese que un criterio que consistiera en minimizar la suma de
los residuos no sera apropiado, ya que los residuos pueden ser
positivos y negativos.
S podramos considerar otros criterios alternativos como por
ejemplo minimizar la suma de los valores absolutos de los
residuos
n
X
mn
|yi b0 b1 xi |
b1 ,b2

i=1

El problema de utilizar este criterio es que la funcion objetivo no


es diferenciable y por tanto es mas complicado calcular el
mnimo.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

22 / 62

Interpretacion de los resultados de la regresion


Se define la recta de regresi
on o funci
on de regresi
on
muestral
yb = b0 + b1 x
y es la version estimada de la funcion de regresion poblacional
E (y | x) = 0 + 1 x.
Se definen el valor ajustado para y cuando x = xi como
ybi = b0 + b1 xi
este es el valor que predecimos para y cuando x = xi . Notese
que hay un valor ajustado para cada observacion de la muestra.
Se define el residuo para cada observacion de la muestra como
la diferencia entre el valor observado yi y el valor ajustado ybi .
ubi = yi ybi
y tenemos un residuo para cada una de las observaciones de la
muestra.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

23 / 62

Interpretacion de los resultados de la regresion


(cont.)
El termino constante, b0 , es el valor predicho para y cuando
x = 0.
En muchos casos no tiene sentido considerar x = 0, y en esos
casos b0 no tiene interes en s mismo. Sin embargo, es
importante que no olvidemos que tenemos que incluir b0 a la
hora de predecir y para cualquier valor de x.
b0 es tambien el valor estimado para la media de y cuando
x = 0.

La pendiente, b1 , mide la variacion en yb cuando x aumenta en


una unidad .
De hecho si x cambia en x unidades, el cambio predicho en y
es de b
y = b1 x unidades.
b1 mide tambien la variaci
on estimada en la media de y cuando
x aumenta en una unidad.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

24 / 62

Metodo de MCO: interpretacion grafica de los


resultados

Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

25 / 62

Ejemplo 1: salario y educacion


En base a una muestra con n = 526 individuos (fichero WAGE1
del libro de Wooldridge) para los que se observa el salario por
hora en dolares, wage, y los anos de formacion, educ, se ha
obtenido la siguiente recta de regresion MCO
wage
[ = 0,90 + 0,54 educ
El valor estimado 0,9 para el termino constante significa que el salario
predicho para los individuos con 0 a
nos de educaci
on es de 90 centavos
(0,9 d
olares) por hora, lo que evidentemente no tiene ning
un sentido.
El valor estimado para la pendiente indica que un a
no mas de formacion
supone un aumento en el salario por hora predicho de 54 centavos (0,54
d
olares). Si el aumento en el n
umero de a
nos de formacion fuese de 3 a
nos,
el salario predicho aumentara en 3 0,54 = 1,62 d
olares.
En cuanto a la predicci
on para distintos valores de educ, el salario por hora
predicho para individuos con 10 a
nos de educaci
on es
wage
[ = 0,90 + 0,54 10 = 4,5 d
olares por hora.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

26 / 62

Propiedades algebraicas de los estimadores MCO


1

La suma, y por tanto la media muestral, de los residuos es cero:


n
X

ubi = 0

(15)

i=1
2

La covarianza muestral entre los valores observados para x y los


residuos es cero:
n
X
xi ubi = 0
(16)
i=1

3
4

La recta de regresion MCO pasa por el punto (x, y ).


La media de los valores ajustados coincide con la media de los
valores observados y = yb.

Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

27 / 62

Propiedades algebraicas de la regresion MCO


(cont.)
5

La covarianza muestral entre los valores ajustados y los residuos


es cero:
n
X
ybi ubi = 0
(17)
i=1

Se satisface:

N
X
i=1

yi2

N
X

yi2

i=1

N
X

ui2

(18)

i=1

Demostracion en clase.

Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

28 / 62

Bondad de Ajuste
Necesitamos una medida que nos indique la calidad del ajuste, es
decir hasta que punto la recta de regresion MCO se ajusta bien a los
datos.
Definiciones:
Suma Total de los Cuadrados (STC ):
STC =

n
X
(yi y )2
i=1

Suma Explicada de los Cuadrados (SEC ):


SEC =

n
X
i=1

(b
yi yb)

n
X

(b
y i y )2

como y =b
y i=1

Suma de los Cuadrados de los Residuos (SCR):


SCR =

n
X

ubi2

i=1
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

29 / 62

Bondad de Ajuste (cont.)


Los tres valores que acabamos de definir son no negativos, pues
son sumas de cuadrados.
STC , SEC y SCR son medidas del grado de variabilidad de la
variable dependiente, de los valores ajustados y de los residuos,
respectivamente, pues son el numerador de la varianza muestral
de cada una de estas variables.
STC = SEC + SCR
Demostracion en la clase.
Suponiendo que STC no es nula, lo que equivale a decir que las
observaciones de la variable dependiente no son todas iguales y
dividiendo los tres sumandos de la igualdad anterior por STC
nos queda que:
SEC
SCR
1=
+
STC
STC
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

30 / 62

Coeficiente de determinacion
Una medida de la bondad de ajuste es el coeficiente de
determinacion.
Se define el coeficiente de determinaci
on del modelo como
R2 =

SEC
SCR
=1
STC
STC

El Rcuadrado mide la proporcion de la variabilidad de la


variable dependiente que viene explicada por el modelo
R 2 siempre cumple la siguiente condicion:
0 R2 1
Es no negativo por serlo SEC y STC
Es menor o igual que 1 porque SCR es no negativo.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

31 / 62

Coeficiente de determinacion (cont.)


Examinamos los casos extremos:
El coeficiente de determinaci
on es 1 si y s
olo si SCR = 0; en
este caso todos los residuos tienen que ser exactamente igual a
0, luego yi = ybi para todas las observaciones y por tanto todas
las observaciones estan exactamente sobre la recta de regresion
MCO: el ajuste es perfecto.
El coeficiente de determinaci
on es 0 si y s
olo si SEC = 0; en
este caso todos los valores ajustados tienen que ser exactamente
igual a y , es decir, los valores ajustados no dependen de cual
sea el valor de la variable independiente, luego la recta de
regresion MCO es la recta horizontal y = y . En este caso
conocer el valor de la variable independiente no aporta ninguna
informacion sobre la variable dependiente.

En la practica siempre obtendremos valores intermedios del R 2 .


Cuanto mas proximo a 1 este el R 2 mejor es la calidad del ajuste.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

32 / 62

Coeficiente de determinacion (cont.)


Es importante resaltar que en ciencias sociales los R 2 bajos son
bastante frecuentes, sobre todo cuando, como haremos este
curso, trabajamos con datos de seccion cruzada.
El hecho de que obtengamos un R 2 bajo no quiere decir que la
estimacion MCO no sea util. La estimacion MCO puede
proporcionarnos una buena estimacion del efecto de x sobre y
aunque el R 2 sea bajo.
Ejemplo 1 (cont.) En la regresion del salario sobre los anos de
formacion obtenemos
wage
[ = 0,90 + 0,54 educ
n = 526, R 2 = 0,165
Los a
nos de educaci
on explican el 16,5 % de la variacion de los
salarios.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

33 / 62

Propiedades estadsticas de los estimadores MCO


El modelo de regresion lineal cumple los siguientes supuestos:
Supuesto RLS.1 (linealidad en par
ametros) La variable
dependiente y esta relacionada en poblacion con la variable
explicativa x y el termino de error u mediante el modelo
poblacional
y = 0 + 1 x + u
Supuesto RLS.2 (muestreo aleatorio) Los datos proceden de
una muestra aleatoria de tamano n: {(xi , yi ) : i = 1, 2, .., n} del
modelo poblacional
Supuesto RLS.3 (media condicionada nula)
E (u | x) = 0
Supuesto RLS.4 (variaci
on muestral de la variable
independiente)
Las xi , i = 1, 2, .., n, de la muestra no son todas iguales.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

34 / 62

Insesgadez de los estimadores MCO


Los supuestos RLS.1 y RLS.2 implican que podemos escribir (2)
en terminos de la muestra aleatoria como
yi = 0 + 1 xi + ui ,

i = 1, 2, .., n

(19)

donde ui es el termino de error de la observacion i y contiene los


no observables que afectan a yi .
Notese que el termino de error ui no es lo mismo que el residuo
ubi .
Los supuestos RLS.2 y RLS.3 implican que para cada
observacion i
E (ui | xi ) = 0,

i = 1, 2, .., n

y
E (ui | x1 , x2 , .., xn ) = 0,

i = 1, 2, .., n

(20)

Notese que si el supuesto RLS.4 fallara no podramos calcular el


estimador MCO.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

35 / 62

Insesgadez de los estimadores MCO (cont.)


Antes de abordar la demostracion del las propiedades estadsticas
de los estimadores MCO vamos a escribir las expresiones de los
estimadores en funcion de los errores del modelo.
Expresion para b1 en funcion de los errores:
Pn
(xi x) ui
b
1 = 1 + Pi=1
n
2
i=1 (xi x)

(21)

Expresion para b0 en funcion de los errores:


b0 = 0 + (1 b1 )x + u

(22)

Bajo los supuestos RLS.1 a RLS.4, b0 y b1 son estimadores


insesgados de los parametros 0 y 1 , es decir
E (b0 ) = 0
Serafima Chirkova (USACH)

y E (b1 ) = 1

Tema 2. Regresi
on simple

Econometra I, 2015

36 / 62

Insesgadez de los estimadores MCO: demostracion


Utilizando (21)
Pn

(xi x) ui
Pi=1
n
2
i=1 (xi x)



E b1 x) = 1 + E

= 1 + Pn

2
i=1 (xi x)

i=1 (xi

x)2

n
X
i=1

n
X

= 1 + Pn




x)




(xi x) ui x)

(xi x) E (ui |x)

i=1

=
utilizando (20)

Utilizando (22)




E (b0 |x) = 0 + E (1 b1 )x x) + E (u| x)
n
 
1X

b
= 0 + 1 E 1 x) x +
E (ui | x)
n

i=1

=
utilizando E (b1 |x) = 1
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

0
y (20)
Econometra I, 2015

37 / 62

Comentarios sobre los supuestos RLS.1 a RLS.4


Si los supuestos RLS.1 a RLS.4 se cumplen el estimadores MCO
es un estimador insesgado de los coeficientes del modelo de
regresion lineal.
Si el supuesto RLS.4 falla no se puede calcular el estimador
MCO.
El supuesto RLS.1 se refiere a linealidad en parametros ya que
las variables x e y pueden ser transformaciones de las variables
de interes. Si el supuesto RLS.1 falla y el modelo no es lineal en
parametros, la estimacion es mas complicada.
En cuanto al supuesto RLS.2, este es adecuado en muchas
aplicaciones (aunque no en todas) cuando trabajamos con datos
de seccion cruzada.
Finalmente, el supuesto RLS.3 es el supuesto crucial para la
insesgadez del estimador MCO. Si este supuesto falla, los
estimadores estaran en general sesgados.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

38 / 62

Ejemplo: programa estatal de almuerzo


Queremos analizar el efecto de un programa estatal de almuerzo en
los colegios sobre el rendimiento escolar.
El fichero MEAP93 del libro de Wooldridge contiene datos sobre 408
institutos del estado de Michigan: el porcentaje de alumnos que
aprueban un examen estandarizado de matematicas (math10) y el
porcentaje de alumnos que pueden beneficiarse del programa de
almuerzo en los colegios (lnchprg ).
En base a estos datos se han obtenido los siguientes resultados:
\ = 32,14 0,319 lnchprg
math10
n = 408
R 2 = 0,171
El modelo estimado predice que si la accesibilidad al programa de
almuerzos aumenta en 10 p.p., el porcentaje de estudiantes que
aprueba el examen disminuye en aproximadamente 3,2 p.p. ceteris
paribus. Es este resultado creble?
La respuesta es no. Es mas probable que este resultado se deba a que
el termino de error este correlacionado con lnchprg .
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

39 / 62

Varianzas de los estimadores MCO


La propiedad de insesgadez no es demasiado util si no viene
acompanada de alguna otra propiedad que garantice que la
dispersion de la distribucion de los estimadores MCO es pequena.
La medida de dispersion de la distribucion de los estimadores
permite elegir el mejor estimador que sera aquel que tenga
menos dispersion.
La varianza del estimador MCO se puede calcular sin tener que
hacer ningun supuesto adicional, es decir utilizando solamente
los supuestos RLS1 a RLS4. Sin embargo las expresiones para las
varianzas en el caso general son mas complicadas.
En este tema vamos a calcular la varianza de los estimadores
MCO bajo un supuesto adicional que se conoce como supuesto
de homoscedasticidad. Este supuesto establece que la varianza
del termino de error u condicionada a x, es constante, es decir
no depende de x.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

40 / 62

Varianzas de los estimadores MCO (cont.)


Supuesto RLS.5 (homoscedasticidad)
Var (u | x) = 2
Cuando Var (u | x) depende de x se dice que los errores son
heterosced
asticos.
Puesto que el supuesto RLS.3 establece que E (u | x) = 0 y
puesto que Var (u | x) = E (u 2 | x) (E (u|x))2 , podemos
escribir tambien el supuesto RLS.5 como
E (u 2 | x) = 2
El supuesto RLS.5 tambien se puede escribir como
Var (y | x) = 2
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

41 / 62

Ejemplo: salario y educacion


Consideremos de nuevo el modelo de regresion simple que
relaciona el salario de una persona con su nivel de educacion
wage = 0 + 1 educ + u
En este modelo el supuesto de homoscedasticidad es Var (wage |
educ) = 2 , es decir, la varianza del salario no depende de los
a
nos de educaci
on.
Este supuesto puede no ser muy realista, ya que es probable que
los individuos con mayores niveles de educacion puedan tener
muy distintas oportunidades de trabajo, lo que podra llevar a
una mayor variabilidad de los salarios para niveles de educacion
altos.
Por el contrario, los individuos con niveles de educacion bajo
tienen pocas oportunidades de trabajo y muchos de ellos
trabajan por el salario mnimo y esto puede hacer que la
variabilidad del salario sea peque
na para niveles de educacion
bajos.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

42 / 62

Varianza de la distribucion muestral de los


estimadores MCO
Bajo los supuestos RLS.1 a RLS.5
2
2
=
2
(n 1)Sx2
i=1 (xi x)
Pn
21
2

2x 2
i=1 xi
n
b
Var (0 ) = Pn
2 =
(n 1)Sx2
i=1 (xi x)

Var (b1 ) = Pn

donde las varianzas son condicionales a los valores observados en


la muestra para la variable explicativa, es decir son varianzas
condicionadas en x1 , x2 , .., xn

Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

43 / 62

Varianza de la distribucion muestral de los


estimadores MCO (cont.)
Demostracion
Vamos a demostrar la f
ormula para Var (b1 ).
Recordemos la expresi
on de b1 en funci
on de los errores del
modelo que aparece en la ecuaci
on (21)
Pn
(xi x) ui
b1 = 1 + Pi=1
n
2
i=1 (xi x)
Tenemos que
 
Var b1 =

Serafima Chirkova (USACH)

Pn

2
i=1 (xi x) var (ui )
Pn
2
(xi x)2
i=1
P
n
2 i=1 (xi x)2
Pn
2 2
i=1 (xi x)

(
=

Pn

utilizando RLS.5

Tema 2. Regresi
on simple

2
Pn
2
(x
i=1 i x)

2 2
i=1 (xi x)
2 2
i=1 (xi x)
2
(n1)Sx2

Pn

(
=

Econometra I, 2015

44 / 62

Varianza de la distribucion muestral de los


estimadores MCO (cont.)

Cuanto mayor es la varianza del termino de error, 2 , mayor es la


varianza de b1 , si la varianza de los no observables que afectan a
y es muy grande, es muy difcil estimar 1 con precision.
Cuanto mayor es la varianza de las xi menor es la varianza de b1 ,
si las xi tienen muy poca dispersion es muy difcil estimar 1 con
precision.
Cuanto mayor es el tamano muestral menor es la varianza de b1 .

Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

45 / 62

Estimacion de la varianza del termino de error


Las varianzas de b0 y b1 dependen de los valores muestrales de
las xi , que son observables, y de la varianza del termino de error,
2 , que es un parametro desconocido. Por tanto, para poder
estimar la varianza de b0 y b1 tenemos que obtener un estimador
de 2 .
Puesto que 2 es la varianza del termino de error u, que como
vimos coincide con la esperanza de u 2 (ya que la media de u es
cero por el supuesto RLS.3), podramos pensar en utilizar la
media muestral de los errores al cuadrado
n

w=

1X 2
u
n i=1 i

como estimador de 2 .
El problema es que los errores no son observables.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

46 / 62

Estimacion de la varianza del termino de error


(cont.)
Lo que s podemos calcular en funcion de la muestra son los
residuos ubi .
Recordemos que el residuo de la observacion i se define como
ubi = yi ybi = yi b0 b1 xi
De esta manera podemos definir el siguiente estimador de 2
n
1X 2
b=
w
ub
n i=1 i
b es un estimador sesgado de 2 . El motivo por el que no es
w
insesgado es que, a diferencia de los errores que s son
independientes, los residuos no son independientes ya que
satisfacen las dos restricciones lineales (ecuaciones (15) y (16)).
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

47 / 62

Estimacion de la varianza del termino de error


(cont.)
Por tanto, como los n residuos satisfacen dos restricciones
lineales, los residuos tienen n 2 grados de libertad y el
estimador insesgado de 2 es (Demonstracion: Wooldridge, p.57)
n

b2 =

1 X 2
ub
n 2 i=1 i

Utilizando este estimador para 2 , se definen las varianzas


estimadas de b1 y b0 como
\
Var (b1 ) =

Serafima Chirkova (USACH)

b2
(n 1)Sx2

\
y Var (b0 ) =

Tema 2. Regresi
on simple

b2 x 2
(n 1)Sx2
Econometra I, 2015

48 / 62

Errores estandar
Se define el error est
andar de la regresi
on (EER) como

b2

b=

b es un estimador de la desviacion tpica del termino de error, .


Aunque
b no es un estimador insesgado de veremos mas
adelante que tiene otras buenas propiedades cuando la muestra
es grande.
Se define el error est
andar de b1 , que notaremos por se(b1 ),
como

b
se(b1 ) = p
(n 1)Sx2
se(b1 ) es un estimador de la desviacion tpica de b1 y por tanto
una medida de la precision de b1 .
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

49 / 62

Errores estandar (cont.)


Analogamente, se define el error est
andar de b0 , que
b
notaremos por se(0 ), como
p

b
x2
se(b0 ) = p
(n 1)Sx2
se(b0 ) es un estimador de la desviacion tpica de b0 y por tanto
una medida de la precision de b0 .
se(b1 ) es una variable aleatoria que, dados los valores de las xi ,
toma valores distintos para distintas muestras de y . Para una
muestra concreta el error estandar se(b1 ) es un numero como
tambien es un numero b1 cuando lo calculamos para una
muestra concreta. Lo mismo ocurre con se(b0 ).
Los errores estandar juegan un papel fundamental a la hora de
hacer inferencia, es decir a la hora de contrastar restricciones
sobre los parametros del modelo o a la hora de construir
Serafima
Chirkova (USACH)
Econometra I, 2015
50 / 62
intervalos
de confianza.Tema 2. Regresion simple

Ejemplo: salario y educacion


Utilzando los datos WAGE1.dta del Wooldridge se ha estimado
el modelo
wage = 0 + 1 educ + u
y se han calculado los errores estandar.
Los resultados de la estimaci
on incluyendo los errores estandar
se suelen presentar de la siguiente forma
wage
[ =

0,9 + 0,54 educ


(0,685)

n = 526,

Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

(0,053)

R 2 = 0,164

Econometra I, 2015

51 / 62

Unidades de medida
Es importante tener en cuenta las unidades de medida de las
variables a la hora de interpretar los resultados de la regresion.
Cambio en las unidades de medida de la variable dependiente
y = cy implica
yb = c b0 + c b1 x = b0 + b1 x
donde b0 = c b0 y b1 = c b1
los nuevos coeficientes estimados seran iguales a los coeficientes
estimados que tenamos anteriormente multiplicados por c.

Cambio en las unidades de medida de la variable explicativa


x = cx, implica
b1
yb = b0 + x = b0 + b1 x
b
c
donde b1 = c1
la constante estimada no cambia y la nueva pendiente estimada
es igual a la pendiente estimada que tenamos anteriormente
dividida por c.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

52 / 62

Unidades de medida (cont.)


El mismo cambio en las unidades de medida de la variable
dependiente y = cy y la variable explicativa x = cx implica
yb = c b0 + b1 x = b0 + b1 x

b
b
donde 0 = c 0
la pendiente estimada no cambia y la nueva constante estimada
es igual a la constante estimada que tenamos anteriormente
dividida por c.

El cambio en las unidades de medida de la variable dependiente


y = c1 y y la variable explicativa x = c2 x implica
c1
yb = c1 b0 + b1 x = b0 + b1 x
c2
donde b = c1 b0 y b = c1 b1
0

c2

los nuevos coeficientes estimados seran iguales a los coeficientes


estimados que tenamos anteriormente multiplicados por c1 y cc21
respectivamente

La interpretacion de los resultados de la regresion no cambia al


cambiar las unidades de medida.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

53 / 62

Ejemplo: salario y educacion


En la regresion del salario sobre los anos de formacion con la
variable wage medida en dolares por hora y la variable educ
medida en anos obtuvimos la siguiente recta de regresion:
wage
[ = 0,90 + 0,54 educ
n = 526, R 2 = 0,165
Que valores obtendramos para la constante y la pendiente de
la recta de regresion si midiesemos ahora el salario en centavos
por hora?
Sea wagec el salario en centavos wagec = 100 wage,
tendremos:
wagec
\ = 90 + 54 educ
donde b = 100b0 = 100(0,90) y b = 100b1 = 100(0,54)
0

Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

54 / 62

Ejemplo: salario de ejecutivos


El fichero CEOSAL1 contiene datos de n = 209 directores
generales para los que se observa el salario anual en miles de
dolares, salary , y el rendimiento medio (en tanto por ciento) de
las acciones de la empresa en la que trabaja, roe
Consideramos el siguiente modelo econometrico:
salaryi = 0 + 1 roei + ui .
Utilizando los datos obtenemos la siguiente recta de regresion
MCO
\ i = 963,19 + 18,50 roei
salary
n = 209, R 2 = 0,013
un aumento de un punto porcentual en el rendimiento de las
acciones de la empresa aumenta el salario predicho del director
general en 18500 d
olares (18,5 miles de d
olares).

Ahora medimos el rendimiento en tanto por uno, Cuales seran


los nuevos coeficientes estimados?
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

55 / 62

Ejemplo: salario de ejecutivos (cont.)


Sea roe1 el rendimiento de las acciones en tanto por uno:
roe1 =

1
roe
100

Los resultados de estimacion cambian:


\ = 963,19 + 1850 roe1
salary
n = 209, R 2 = 0,013
donde b0 mantiene la constante y b1 = 100b1 = 100(18,50)
La interpretacion de los resultados de la regresion no cambia al
cambiar las unidades de medida, un aumento de un punto
porcentual en roe supone un aumento en salary de
1850 0,01 = 18,5 miles de dolares.
El R 2 sigue siendo 0,013.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

56 / 62

Ejemplo: salario de ejecutivos (cont.)


Si cambiamos ahora las unidades de medida de la variable
explicativa y de la variable dependiente, por ejemplo si ahora
medimos el rendimiento en tanto por uno y el salario en dolares,
Cual seran los nuevos coeficientes estimados?
Por una parte acabamos de ver que el cambio de unidades en el
rendimiento de las acciones implica que tenemos que multiplicar
por 100 la pendiente estimada.
Por otra parte si llamamos salary 100 al salario en cientos de
dolares
salary 100 = 10 salary

Este cambio de unidades implica que b0 = 10b0 y b1 = 10b1


Si hacemos los dos cambios de unidades la recta de regresion es
\
salary
100 = 9631,9 + 18500 roe1
n = 209, R 2 = 0,013
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

57 / 62

Forma funcional
Cuando establecemos una relacion lineal entre y y x estamos
suponiendo que el efecto sobre y de un cambio en una unidad en
x no depende del nivel inicial de x. Este supuesto no es muy
realista en algunas aplicaciones.
Por ejemplo, el modelo de salario estimado predice que un ano
adicional de educacion aumenta el salario por hora en 54
centavos tanto para el primer ano de educacion, como para el
quinto, el decimosexto, etc., y esto no es del todo razonable.
Si suponemos que cada ano adicional de educacion supone un
aumento constante en el salario pero en terminos porcentuales,
tenemos que cambiar el modelo inicial por el modelo modelo
log-nivel.

Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

58 / 62

Modelo log-nivel
El modelo en el que la variable dependiente esta en logaritmos y
la variable explicativa esta en niveles se denomina modelo
log-nivel.
log(wage) = 0 + 1 educ + u,
tenemos que 1 100 % mide el cambio porcentual de salario
wage por un a
no adicional de educaci
on educ.

Nota: este modelo implica una relacion no lineal entre salarios y


anos de escolarizacion:
Un a
no adicional de educaci
on supone un aumento mayor en el
salario (en terminos absolutos) cuanto mayor es el n
umero de
a
nos de educacon.

Utilizando los datos del ejemplo salario y educacion se han


obtenido los siguientes resultados
\
log(wage)
= 0,584 + 0,083 educ
n = 526, R 2 = 0,186
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

59 / 62

Modelo log-log
Como podemos utilizar la transformacion logartmica para
conseguir un modelo de elasticidad constante.
El modelo en el que tanto la variable dependiente como la
explicativa estan en logaritmos se denomina modelo log-log.
log(salary ) = 0 + 1 log (sales) + u,
tenemos que 1 mide la elasticidad del salario de los directores
generales respecto de las ventas de la empresa.

Utilizando los datos del ejemplo salario de ejecutivos se han


obtenido los siguientes resultados
\ ) = 4,961 + 0,224 log (sales)
log(salary
n = 177,

R 2 = 0,281

La elasticidad estimada es 0,257 lo que implica que un aumento


de un 1 % en las ventas supone un aumento del 0,257 % en el
sueldo del director general (que es la interpretacion habitual de
la elasticidad).
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

60 / 62

Modelo nivel-log
El modelo en el que la variable dependiente esta en niveles y la
explicativa en logaritmos. Este modelo se denomina modelo
nivel-log
salary = 0 + 1 log (sales) + u,
tenemos que 1 /100 mide el cambio salarial salary por un
aumento de un 1 % en las ventas sales.

Utilizando los datos del ejemplo salario de ejecutivos se han


obtenido los siguientes resultados
\ = 415,105 + 177,149 log (sales)
salary
n = 177, R 2 = 0,186
un aumento de un 1 % en las ventas aumenta el salario predicho
del director general en 1,77 miles de d
olares (177,149/100).

Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

61 / 62

Forma funcional
El modelo que hemos estado estudiando en este tema se
denomina modelo de regresion lineal simple aunque hemos visto
que este modelo tambien permite establecer algunas relaciones
no lineales entre variables.
El termino linealse debe que el modelo es lineal en los
parametros 0 y 1 .
Las variables y y x pueden ser transformaciones cualesquiera de
otras variables.
Tambien podramos considerar en el contexto del modelo de
regresion simple otras transformaciones como
y = 0 + 1 x 2 + u

y = 0 + 1 x + u
Las variables sean transformaciones de otras, no afecta al
metodo de estimacion pero s afecta a la interpretacion de los
parametros.
Serafima Chirkova (USACH)

Tema 2. Regresi
on simple

Econometra I, 2015

62 / 62

You might also like