You are on page 1of 37

El Modelo de Regresin Simple

y = b0 + b1x + u
Wooldridge J., Introduccin a la Econometra. Captulo 2.

Valor Esperado o Esperanza


Anteriormente definimos a y como la media
poblacional de la variable aleatoria y. Dicha
media puede ser vista como el Valor Esperado o
Esperanza de y:
E(y) = y
As, es posible escribir y como:
y = y + u,
en donde u = (y y) son las desviaciones
respecto de la media.
2

Esperanza Condicional
Hemos visto que si dos variables (y, x) estn
correlacionadas positivamente, los valores de y
tienden a aumentar a medida que x aumenta.
Generalizando, la media de una variable (y)
puede cambiar su valor a medida que otra
variable (x) cambia. As es posible considerar a
E(y) = y como una funcin de x. Tal funcin se
conoce como la esperanza condicional:
E(y|x) = y|x
3

Modelo de Regresin Lineal Simple


Si la esperanza de y condicional a x , E(y|x),
es modelada como una funcin lineal de x, surge
el modelo de Regresin Lineal Simple:
E(y|x) = y|x =b0 + b1x
Y como antes, es posible escribir
y = E(y|x) + u = b0 + b1x + u
donde u son las desviaciones respecto de la
esperanza condicional (o media condicional).
4

Lnea de regresin poblacional, siendo x una


variable binaria x = {0, 1}
y

u2 {

y2

E(y|x = 0) = b0

} u1

y1
0

E(y|x =1) = b0 + b1

x
5

Lnea de regresin poblacional siendo x una


variable continua.
E(y|x) = b0 + b1x

y
y4

u4

y3
y2

y1

u2 {.

.{

.} u3

} u1

x1

x2

x3

x4

x
6

Terminologa utilizada
En el modelo de regresin lineal simple,
y = b0 + b1x + u,
nos referimos tpicamente a y como:

Variable Dependiente, o
Variable Explicada, o
Regresando

Terminologa utilizada, (continuacin)


En el modelo de regresin lineal de y sobre
x, nos referimos tpicamente a x como:

Variable Independiente, o
Variable Explicativa, o
Regresor, o
Co-variable

Significado de Lineal
Lineal en los parmetros o coeficientes (b0 y
b1), NO en las variables:
y = b0 + b1x + u

Por lo tanto el modelo siguiente tambin es


lineal (en este contexto)
y = b0 + b1x2 + u
9

Significado de Lineal
Una funcin se dice lineal en, por ejemplo,
el parmetro 1 si 1 aparece elevado solo a
la primera potencia y adems no est
multiplicado o dividido por otro parmetro
(por ejemplo, 12, 2/1, etc.).

10

Significado de Simple
Simple: incluye a una sola variable
independiente:
y = b 0 + b 1x + u
Mltiple: incorpora un conjunto de k variables
independientes:
y = b0 + b1x1 + b2x2 + . . . bkxk + u

11

Ejemplos
rendimiento = b0 + b1 fertilizante + u
salario = b0 + b1 aos_educacin + u
aos_educacin = b0 + b1 sexo + u

La linealidad de estas ecuaciones implica que


todo cambio de x en una unidad tiene siempre
el mismo efecto sobre y (que es igual a b1 en
este caso), sin importar el valor inicial de x.
12

El trmino de error aleatorio (u)


El componente aleatorio del modelo es u,
dentro del cual se encuentran todos los dems
factores que afectan la variable dependiente (y)
y que no se han incluido como variables
independientes (o regresores) en el modelo.

13

Esperanza del error


El valor promedio de u, el trmino de error, es
igual a cero en la poblacin. Esto es,
E(u) = 0
Este no es un supuesto muy restrictivo, ya que
siempre podemos usar b0 para normalizar E(u)
a 0. Entonces, b0 puede ser interpretado como
el promedio de los factores inobservables en la
poblacin.
14

Esperanza Condicional Cero


Explicitamos un supuesto crucial acerca de
cmo u y x estn relacionadas:
E(u|x) = E(u) = 0, lo que implica que
E(y|x) = b0 + b1x, como ya vimos antes.
Ms adelante se entender porqu este
supuesto es importante para interpretar el
modelo.
15

E(y|x) como una funcin lineal de x, donde para cada


valor de x, la distribucin de y est centrada en E(y|x)
y
f(y)

.
x1

. E(y|x) = b + b x
0

x2
16

Mnimos Cuadrados Ordinarios


Dada una muestra aleatoria de tamao n de la
poblacin {(xi,yi): i=1, ,n}, podemos escribir
cada observacin de la muestra como
y i = b 0 + b 1x i + u i
La idea bsica de la regresin es estimar los
parmetros poblacionales (b0 y b1) usando la
muestra, para obtener

yi b0 b1 xi ui
17

Mnimos Cuadrados Ordinarios


El residuo i es un estimador del trmino de
error ui y es la diferencia entre la lnea ajustada
y el i-esimo punto de la muestra.
Intuitivamente, MCO consiste en ajustar una
lnea a travs de los n puntos muestrales (xi,yi)
de tal forma que la suma de los residuos (i)
elevados al cuadrado sea tan pequea como
fuese posible, de all el trmino mnimos
cuadrados
18

Lnea de regresin muestral ajustada, puntos de


datos muestrales y los correspondientes resuiduos
y

y4

4{ y b b x
0
1

y3
y2

y1

2 { .

.} 3

1
}
.

x1

x2

x3

x4

x
19

El problema de minimizacin
Dada la idea intuitiva de ajustar una lnea,
podemos establecer ahora un problema formal
de minimizacin
Esto es, queremos elegir los parmetros de tal
forma que se minimice la siguiente expresin:
n

ui
i 1

yi b0 b1 xi
i 1

20

El problema de minimizacin
Resolviendo el problema de minimizacin
para los dos parmetros, obtenemos las
condiciones de primer orden siguientes,

i 1
n

x 0

b
0
1 i

b x 0
x
y

b
i i 0 1i
i 1

21

Derivacin de estimadores MCO


Dada la definicin de media muestral, y las
propiedades de la sumatoria, podemos reescribir
la primera condicin para obtener el estimador
de la ordenada al origen o intercepto

y b0 b1 x ,
o
b0 y b1 x
22

Mas sobre derivacin de MCO


Reemplazando en la segunda condicin
n

x b x 0
x
y

b
i i
1
1 i
i 1
n

i 1

i 1

x
y

b
i i
1 xi xi x
n

i 1

i 1

xi x yi y b1 xi x

23

La pendiente estimada por MCO


Despejando la pendiente
n

b1

x x y
i

i 1

x x

i 1
n

siendo

x x
i 1

0
24

Resumen de la estimacin de la
pendiente
El estimador MCO de la pendiente es igual a
la covarianza muestral entre y y x dividida por
la varianza muestral de x.
Si x y y estn correlacionadas positivamente,
la pendiente ser positiva.
Si x y y estn correlacionadas negativamente,
la pendiente ser negativa.
Notar que es necesario que x tenga
variabilidad en la muestra.
25

Descomposicin de la varianza
Podemos ver a cada observaci n yi como compuesta
de una parte explicada y i , y otra parte no explicada ui ,
yi y i ui . Luego definimos lo siguiente :

y y : suma total de cuadrados (STC)


y y : suma explicada de cuadrados (SEC)
u : suma de residuos al cuadrado (SRC)
2

2
i

Luego tenemos que STC SEC SRC


26

Bondad del ajuste


Cmo podemos medir cun bien se ajusta a
los datos la lnea de regresin estimada?
Podemos computar la proporcin de la suma
de cuadrados totales (STC) que es explicada
por el modelo (es decir, SEC/STC), a esta
medida la llamamos la R-cuadrada de la
regresin o coeficiente de determinacin:
R2 = SEC/STC = 1 SRC/STC
27

Propiedades estadsticas de los


estimadores MCO
1.

2.

3.
4.

Supuestos de Gauss-Markov (G-M)


El modelo poblacional es lineal en los parmetros:
y = b0 + b1x + u
Tenemos a disposicin una muestra aleatoria de
tamao n, {(xi, yi): i=1, 2, , n}, extrada de la
poblacin. Por lo que podemos escribir el modelo
para cada observacin muestral como
yi = b0 + b1xi + ui
Suponemos E(u|x) = 0 y por lo tanto E(ui|xi) = 0
Suponemos que hay variacin muestral en las xi
28

Insesgamiento
Bajo los 4 supuestos de G-M anteriores, el
estimador MCO es insesgado en muestras
repetidas:

E b0 b 0 ,

E b1 b1

Recordar que insesgamiento es una propiedad


del estimador en una muestra dada podemos
estar cerca o lejos del verdadero valor del
parmetro.
29

Varianza de los estimadores MCO


Hasta ahora lo que sabemos es que la
distribucin muestral (en muestras repetidas)
del estimador est centrada alrededor del
verdadero parmetro (por insesgamiento).
Pero queremos saber cun dispersa es esta
distribucin.
Es mas fcil analizar esta varianza si
establecemos un supuesto adicional
Var(u|x) = E(u2|x) = s2 (Homocedasticidad).
30

El caso Homocedstico
y
f(y|x)

.
x1

x2

. E(y|x) = b + b x
0

x
31

El caso Heterocedstico
f(y|x)

.
x1

x2

x3

E(y|x) = b0 + b1x

x
32

Varianza de MCO
Bajo los 5 supuestos de G-M anteriores, la
varianza del estimador MCO es:

Var b1 s

2
n

(x x)
i 1

33

Varianza de MCO (resumen)


A mayor varianza del error, s2, mayor
varianza del estimador de la pendiente
A mayor variablilidad en las xi, menor la
varianza del estimador de la pendiente
Un mayor tamao de la muestra hace
disminuir la varianza del estimador de la
pendiente
Problema: s2 es desconocida
34

Un estimador para

2
s

No conocemos el valor de s2, porque no


observamos los trminos de error ui
Pero lo que s conocemos son los residuos
de MCO, i
Podemos usar los residuos i para construir
un estimador de s2
35

Un estimador para

2
s (continuacin)

ui yi b0 b1 xi
b 0 b1 xi ui b0 b1 xi
Luego, un estimador insesgado de s es
2

s
2

2
i

( n 2)

SRC / n 2

36

El error estndar de la pendiente


Por consiguiente, el desvo estndar es

de b1

x x

si sustituimos s por s s , tenemos el error


estndar de b ,

ee b1

x x
2

37

You might also like