You are on page 1of 37

Econometra

Propiedades Algebraicas, Bondad de Ajuste, Unidades de Medicin

Andrs Elberg
Universidad Diego Portales

16 de abril, 2013

Andrs Elberg (UDP)

Clase 6

04/16

1 / 37

Clase Anterior

derivacin de los estimadores MCO


b
0 = y
b
1 =

Andrs Elberg (UDP)

b
1 x

ni=1 (xi

sxy
sxx

ni=1

Clase 6

x ) (yi

(xi

x)

y)
2

04/16

2 / 37

Estimador de Mnimos Cuadrados Ordinarios

usando los valores estimados de b


0 y b
1 a partir de una muestra
particular podemos obtener los valores ajustados o predichos de la
variable dependiente:
ybi = b
0 + b
1 xi
la ecuacin anterior se conoce como lnea de regresin

tambin conocida como Funcin de Regresin Muestral; contraparte


emprico de la Funcin de Regresin Poblacional
E (y jx ) = 0 + 1 xi

Andrs Elberg (UDP)

Clase 6

04/16

3 / 37

Representacin Grca
Lnea de regresin
ajustada
Por ej. el i-simo
punto

Andrs Elberg (UDP)

Clase 6

04/16

4 / 37

Aplicacin
ejemplo. retornos a la educacin
ecuacin a estimar:
salarioi = 0 + 1 educaci on
i + ui
datos: wage1.gdt
wage = salario promedio por hora (en dlares)
educ = aos de educacin

procedimiento en Gretl
File ! Open Data 7 ! wage1.gdt
Model ! Ordinary Least Squares
dependent variable V wage
independent variables V cons; educ

Andrs Elberg (UDP)

Clase 6

04/16

5 / 37

Estimacin usando Gretl


Model 1: OLS, using observations 1526
Dependent variable: wage

const
educ

Coe cient

Std. Error

t-ratio

p-value

0.904852
0.541359
.

0.684968
0.0532480
.

1.3210
10.1667
.

0.1871
0.0000
.

Mean dependent var


Sum squared resid
R2
F (1, 524)
Log-likelihood
Schwarz criterion

Andrs Elberg (UDP)

5.896103
5980.682
0.164758
103.3627
1385.712
2783.954

S.D. dependent var


S.E. of regression
Adjusted R 2
P-value(F )
Akaike criterion
HannanQuinn

Clase 6

3.693086
3.378390
0.163164
2.78e22
2775.423
2778.764

04/16

6 / 37

Aplicacin

el estimador MCO aplicado a esta muestra en particular entrega las


siguientes estimaciones para los trminos constante y pendiente:
b
0 =

0.905

b
1 = 0.541

interpretacin: un ao adicional de educacin asociado a un aumento


en 0.54 dlares en el salario por hora promedio
cul es el salario promedio que predeciramos para una persona con
12 aos de educacin?

Andrs Elberg (UDP)

Clase 6

04/16

7 / 37

Aplicacin
ejemplo 2. salario de CEO vs. ROE
ecuacin a estimar:
salarioi = 0 + 1 ROEi + ui
datos: CEOSAL1.gdt
salary = salario en 1990, en miles de dlares
roe = retorno sobre el patrimonio (en %)

procedimiento en Gretl
File ! Open Data 7 ! CEOSAL1.gdt
Model ! Ordinary Least Squares
dependent variable V salary
independent variables V cons; roe

Andrs Elberg (UDP)

Clase 6

04/16

8 / 37

Estimacin usando Gretl


Model 1: OLS, using observations 1209
Dependent variable: salary

const
roe

Coe cient

Std. Error

t-ratio

p-value

963.191
18.5012
.

213.240
11.1233
.

4.5169
1.6633
.

0.0000
0.0978
.

Mean dependent var


Sum squared resid
R2
F (1, 207)
Log-likelihood
Schwarz criterion

Andrs Elberg (UDP)

1281.120
3.87e+08
0.013189
2.766532
1804.543
3619.771

Clase 6

S.D. dependent var


S.E. of regression
Adjusted R 2
P-value(F )
Akaike criterion
HannanQuinn

1372.345
1366.555
0.008421
0.097768
3613.087
3615.789

04/16

9 / 37

Propiedades Algebraicas de la Lnea de Regresin


las siguientes propiedades se cumplen para cualquier muestra de datos
1. la suma (y el promedio) de los residuos MCO es igual a cero
n

ubi = 0

i =1

2. la covarianza muestral entre los regresores y los residuos MCO es


igual a cero
n

(xi

i =1

x) u
bi

u
b

xi ubi

= 0
= 0

i =1

Andrs Elberg (UDP)

Clase 6

04/16

10 / 37

Propiedades Algebraicas de la Lnea de Regresin

3. el punto (x, y ) siempre se encuentra sobre la lnea de regresin


y=b
0 + b
1 x

4. el promedio muestral de la variable dependiente, es igual al promedio


de los valores ajustados
y = yb

Andrs Elberg (UDP)

Clase 6

04/16

11 / 37

Propiedades Algebraicas de la Lnea de Regresin

5. si 1 = 0, de manera que el nico regresor es el intercepto


b
0 = y

6. si 0 = 0, de manera que no hay intercepto,


n xy
b
1 = in=1 2
i =1 x

Andrs Elberg (UDP)

Clase 6

04/16

12 / 37

Descomposicin de la Suma de Cuadrados Totales


la suma de cuadrados totales, SST, representa la variacin de la
variable y que queremos explicar
n

SST =

(yi

y )2

i =1

podemos usar algunas de las propiedades de la lnea de regresin antes


vistas para descomponer esta variacin total en otros dos trminos:
la suma de cuadrados explicados por el modelo
n

SSE =

(ybi

y )2

i =1

y la suma de cuadrados de los residuos


n

SSR =

ubi 2

i =1

importante para juzgar la bondad de ajuste de la regresin


Andrs Elberg (UDP)

Clase 6

04/16

13 / 37

Descomposicin de la Suma de Cuadrados Totales

comenzamos por notar que la estimacin por MCO descompone la


variable dependiente entre un trmino predicho o ajustado y un
residuo:
yi

yi

Andrs Elberg (UDP)

bi
= b
+b
xi + u
| 0 {z 1 }
ybi

= ybi + ubi

Clase 6

04/16

14 / 37

Descomposicin de la Suma de Cuadrados Totales

restando y a ambos lados y elevando al cuadrado tenemos...

(yi
sumamos sobre i...
n

(yi

i =1

Andrs Elberg (UDP)

y )2 = [(ybi
y )2 =

y) + u
bi ]2

[(ybi

i =1

Clase 6

y) + u
bi ]2

04/16

15 / 37

Descomposicin de la Suma de Cuadrados Totales

expandimos el binomio al cuadrado del lado derecho...


n

(yi

i =1

y )2 =

i =1

(ybi

y )2 + u
bi2 + 2 (ybi

y) u
bi

notar que dado que la covarianza entre los residuos y los valores
ajustados es igual a cero el tercer trmino del lado derecho
desaparece...

Andrs Elberg (UDP)

Clase 6

04/16

16 / 37

Descomposicin de la Suma de Cuadrados Totales

obtenemos:

(yi

i =1

{z

SST

y )2 =
}

(ybi

i =1

{z

SSE

y )2 + u
bi2
}

i =1

| {z }
SSR

la variacin total de y , SST , puede descomponerse en dos trminos:


SSE mide la suma de cuadrados explicados por la regresin
SSR mide la suma de cuadrados de los residuos

Andrs Elberg (UDP)

Clase 6

04/16

17 / 37

Bondad de Ajuste

cun bueno es el ajuste de la lnea de regresin a los datos?


en otras palabras, qu parte de la variacin en y es posible explicar
con nuestro modelo?
el estadstico R 2 (pronunciado "erre cuadrado") captura precisamente
esto, se dene como
SSE
R2 =
SST
a veces se multiplica por 100 para expresarlo en porcentaje
indica qu % de la variacin total de y es explicada por nuestro
modelo

Andrs Elberg (UDP)

Clase 6

04/16

18 / 37

Bondad de Ajuste

la descomposicin anterior de SST nos permite expresar el R 2 en una


forma alternativa
R2 =

SST SSR
SST

= 1

SSR
SST

notar que R 2 se encuentra siempre entre 0 y 1 (SSE

Andrs Elberg (UDP)

Clase 6

SST )

04/16

19 / 37

Bondad de Ajuste

si todos los puntos se encuentran sobre la lnea de regresin entonces


tenemos un ajuste perfecto y R 2 = 1
valores de R 2 cercanos a 0 indican un mal ajuste a los datos
suele multiplicarse por 100 para expresarlo como un porcentaje
un bajo R 2 no necesariamente implica que nuestro modelo debe
desecharse
a veces nuestro inters se centra no en predecir la variable y sino que
en estimar el efecto de una variable sobre y
en ese caso el valor de R 2 no es crtico

Andrs Elberg (UDP)

Clase 6

04/16

20 / 37

Unidades de Medicin

es muy importante tener presente las unidades en que estn medidas


las variables x e y para interpretar los coecientes estimados
ej. (salario de CEO vs ROE)
salario puede estar medido en dlares o en miles de dlares
ROE puede estar medido en puntos porcentuales o en decimales

cambios en las unidades de medicin de las variables afectan los


coecientes estimados

Andrs Elberg (UDP)

Clase 6

04/16

21 / 37

Unidades de Medicin

comencemos considerando un cambio en la unidades de medicin de


la variable dependiente y
en el ejemplo Salario CEO - ROE, el salario est medido en miles de
dlares
supongamos que lo medimos en dlares (en lugar de miles de dlares)
salario 0 = salario 1000
donde salario 0 es la nueva variable medida en dlares
cmo esperaramos que cambien b
yb
?
0

qu pasa cuando ROE es igual a cero?


qu pasa cuando el ROE aumenta en una unidad?

Andrs Elberg (UDP)

Clase 6

04/16

22 / 37

Unidades de Medicin

(un poco) ms formalmente, podemos derivar el cambio en b


0 y b
1
de la siguiente forma:
1000
1000

ybi

1000b
yi

= b
0 + b
1 xi

= 1000b
0 + 1000b
1 xi

0
0
ybi0 = b
0 + b
1 xi

Por tanto al expresar la variable dependiente en dlares, el valor de


ambos coecientes aumenta en un factor igual a 1000

Andrs Elberg (UDP)

Clase 6

04/16

23 / 37

Unidades de Medicin
originalmente, con la variable Salario expresada en "miles de dlares"
las estimaciones MCO de la constante y la pendiente son
b
0 = 963, 191

b
1 = 18, 5012

Si el ROE de la empresa es igual a cero, el modelo predice que el


salario anual del CEO es igual a $963.191
Si el ROE aumenta en 1 punto porcentual, ceteris paribus, el modelo
predice que el salario anual del CEO aumenta en $18.501
qu pasa cuando expresamos la variable salario en dlares (en lugar
de "miles de dlares")?

Andrs Elberg (UDP)

Clase 6

04/16

24 / 37

Model 1: OLS, using observations 1209


Dependent variable: sal_dollar

const
roe

Coe cient

Std. Error

t-ratio

p-value

963191.
18501.2
.

213240.
11123.3
.

4.5169
1.6633
.

0.0000
0.0978
.

Mean dependent var


Sum squared resid
R2
F (1, 207)
Log-likelihood
Schwarz criterion

Andrs Elberg (UDP)

1281120
3.87e+14
0.013189
2.766532
3248.264
6507.213

Clase 6

S.D. dependent var


S.E. of regression
Adjusted R 2
P-value(F )
Akaike criterion
HannanQuinn

1372345
1366555
0.008421
0.097768
6500.528
6503.231

04/16

25 / 37

Unidades de Medicin

consideremos ahora un cambio en las unidades de medicin de la


variable x
supongamos que en lugar de medir el ROE en porcentaje, lo medimos
en decimales:
ROE
ROE 0 =
100
qu esperaramos que ocurriera intuitivamente con los coecientes
estimados de la constante y la pendiente?
qu pasa cuando ROE es igual a cero?
qu pasa cuando la nueva variable aumenta en una unidad?

Andrs Elberg (UDP)

Clase 6

04/16

26 / 37

Unidades de Medicin
(un poco) ms formalmente, podemos derivar el cambio en b
0 y b
1
de la siguiente forma:
ybi

= b
0 + b
1 xi

ybi

0
= b
0 + b
1 xi0

ybi

= b
0 + 100b
1

100
100

xi
100

luego, la estimacin de la constante se mantiene igual y la estimacin


de la pendiente es igual a 100 veces la estimacin anterior (cuando la
variable explicativa es expresada en %)

Andrs Elberg (UDP)

Clase 6

04/16

27 / 37

Model 2: OLS, using observations 1209


Dependent variable: salary

const
roe_dec

Coe cient

Std. Error

t-ratio

p-value

963.191
1850.12
.

213.240
1112.33
.

4.5169
1.6633
.

0.0000
0.0978
.

Mean dependent var


Sum squared resid
R2
F (1, 207)
Log-likelihood
Schwarz criterion

Andrs Elberg (UDP)

1281.120
3.87e+08
0.013189
2.766532
1804.543
3619.771

Clase 6

S.D. dependent var


S.E. of regression
Adjusted R 2
P-value(F )
Akaike criterion
HannanQuinn

1372.345
1366.555
0.008421
0.097768
3613.087
3615.789

04/16

28 / 37

Formas Funcionales
el modelo de regresin lineal es lo sucientemente general para
capturar relaciones no lineales entre la variable explicativa y la
variable explicada
la razn es que el modelo es lineal en los parmetros, no en las
variables
ejemplo (retornos a la educacin). podramos pensar que un ao
adicional de educacin tiene el mismo efecto porcentual sobre el
salario a distintos niveles de educacin (en lugar del mismo efecto en
$)
en este caso, salario = exp ( 0 + 1 educ )

dos casos importantes en el modelo de regresin simple:


variable dependiente en logs, variable independiente en nivel
("log-nivel")
variable dependiente en logs, variable independiente en logs ("log-log")
Andrs Elberg (UDP)

Clase 6

04/16

29 / 37

Formas Funcionales: log-nivel

el modelo es el siguiente:
log y = 0 + 1 x + u
1 representa la derivada parcial de la variable dependiente, log y , con
respecto a la variable independiente, x:
log y
= 1
x

Andrs Elberg (UDP)

Clase 6

04/16

30 / 37

Formas Funcionales: log-nivel

recordar que el cambio en una variable en logartmos es


aproximadamente igual a un cambio porcentual:
d log y =

dy
y

por tanto, cuando la variable dependiente se encuentra en logartmos


y la variable independiente se encuentra en nivel, el parmetro de la
pendiente tiene la interpretacin de "cambio porcentual en y cuando
x aumenta en 1 unidad"
"semielasticidad"

Andrs Elberg (UDP)

Clase 6

04/16

31 / 37

Formas Funcionales: log-nivel

ejemplo
log (salario ) = 0 + 1 Educaci on
+u
1 mide el cambio porcentual en el salario cuando la persona tiene un
ao adicional de educacin
en Gretl. generamos variable en logs:
Add ! Dene new variable ! Enter formula for new variable
lwage = log(wage)

Andrs Elberg (UDP)

Clase 6

04/16

32 / 37

Formas Funcionales: log-nivel


Model 1: OLS, using observations 1526
Dependent variable: lwage

const
educ

Coe cient

Std. Error

t-ratio

p-value

0.583773
0.0827444
.

0.0973358
0.00756669
.

5.9975
10.9353
.

0.0000
0.0000
.

Mean dependent var


Sum squared resid
R2
F (1, 524)
Log-likelihood
Schwarz criterion
Andrs Elberg (UDP)

1.623268
120.7691
0.185806
119.5816
359.3781
731.2867

S.D. dependent var


S.E. of regression
Adjusted R 2
P-value(F )
Akaike criterion
HannanQuinn

Clase 6

0.531538
0.480079
0.184253
3.27e25
722.7561
726.0962
04/16

33 / 37

Formas Funcionales: log-log

el modelo es el siguiente:
log y = 0 + 1 log x + u
1 representa la derivada parcial de la variable dependiente, log y , con
respecto a la variable independiente, log x:
log y
= 1
log x

Andrs Elberg (UDP)

Clase 6

04/16

34 / 37

Formas Funcionales: log-log

dado que el cambio en el log es aproximadamente igual a un cambio


porcentual,
dy /y
1
dx /x
interpretacin de 1 : "cambio porcentual en y cuando x aumenta en
un 1%"
"elasticidad"

Andrs Elberg (UDP)

Clase 6

04/16

35 / 37

Formas Funcionales: log-log

ejemplo. relacin entre el ingreso y el consumo en alimentos


modelo:
log Consumo = 0 + 1 log Ingreso + u
1 mide el cambio porcentual en el consumo de alimentos cuando el
ingreso aumente en 1%
estimacin usando datos belgas

Andrs Elberg (UDP)

Clase 6

04/16

36 / 37

Formas Funcionales: log-log


Model 1: OLS, using observations 1235
Dependent variable: lfoodexp

const
lincome

Coe cient

Std. Error

t-ratio

p-value

0.545142
0.855897
.

0.138202
0.0203228
.

3.9445
42.1152
.

0.0001
0.0000
.

Mean dependent var


Sum squared resid
R2
F (1, 233)
Log-likelihood
Schwarz criterion

Andrs Elberg (UDP)

6.353400
4.359798
0.883888
1773.687
135.0407
259.1623

S.D. dependent var


S.E. of regression
Adjusted R 2
P-value(F )
Akaike criterion
HannanQuinn

Clase 6

0.400578
0.136790
0.883390
6.3e111
266.0815
263.2920

04/16

37 / 37

You might also like