You are on page 1of 6

Conceptos Importantes

Econometra 1
Santiago Montoya
18 de agosto de 2015
En este peque
no documento van a encontrar algunos puntos que cubrimos en clase
acerca del modelo de regresion lineal que seran importantes en el resto del curso y en
particular para la presentacion que deben hacer con el ejercicio de los carros.

1.

Modelo de regresi
on lineal en Stata

Para correr un modelo de regresion lineal en Stata, en primer lugar necesitan importar
sus datos a traves de los metodos ya vistos en clase. Si necesitan crear nuevas variables,
por ejemplo el logaritmo natural de una variable, necesitan usar el comando generate.
En caso de encontrar problemas con cualquier comando, recuerden que es posible acceder a la ayuda usando simplemente help y el nombre del comando, por ejemplo help
generate.
Una vez cuenten con todas las variables, el comando para correr la regresion lineal en
Stata es regress, seguido de la variable dependiente y luego las variables independientes. A modo de ejemplo, supongamos que cargamos los datos usados en clase y queremos
correr un modelo de regresion lineal para encontrar los efectos que n
umero de a
nos de
educacion y de experiencia tienen sobre el salario. En ese caso el modelo teorico sera
el siguiente:
salarioi = 0 + 1 educaci
oni + 2 experienciai + i

(1)

En la base de datos, los nombres de las variables correspondientes seran wage, educ y
exper, respectivamente. Por tanto, es posible correr el modelo dado en la Ecuacion (1)
con el siguiente codigo:
regress wage educ exper
Al correr el comando anterior en Stata, se genera el resultado de la Figura (1). En
el, se pueden reconocer algunos valores de importancia, en particular los coeficientes
estimados, el error estandar asociado a los coeficientes, el coeficiente R2 , los estadsticos
de prueba de significancia global y especfica, la suma de cuadrados totales, residuales
y del modelo, entre otros.
1

Figura 1: Resultado de regresion lineal en Stata

2.

Interpretaci
on de los resultados

En primer lugar es importante identificar que la tabla esta divida en tres secciones. La
primera de ellas, situada en la parte superior izquierda y dada en la Figura (2), provee
una descomposicion de la varianza de la variable dependiente (tambien conocida como
la tabla ANOVA). En general, si un modelo lineal incluye un termino constante, la varianza de la variable dependiente se divide exactamente entre aquella explicada por las
variables independientes y la que no puede ser explicada por estas o residual. Se puede
apreciar que para este ejemplo, la varianza explicada por el modelo (las variables exogenas) es una peque
na fraccion de la varianza total (aproximadamente un 22.52 %), lo que
nos llevara a concluir que estas variables no explican muy bien el salario. Finalmente,
se observa que esta fraccion explicada por el modelo corresponde con el coeficiente R2 ,
puesto que este se calcula justamente como el cociente entre las dos cantidades.
A continuacion, identificamos en la parte superior derecha, reproducida en la Figura (3),

Figura 2: Tabla de descomposicion de la varianza

Figura 3: Ajuste general del modelo

la tabla que resume varios estadsticos de ajuste del modelo. Estas cifras nos permiten
dar cuenta de que tan bueno es el modelo que hemos planteado para explicar nuestra
variable de interes. El estadstico F sirve para probar la siguiente hipotesis:
H0 : 1 = 2 = 0
HA : 1 6= 0 2 6= 0
Es decir, es u
til para probar si al menos uno de los coeficientes estimados es estadsticamente diferente de 0. En caso de que la hipotesis nula no se rechace, todos los coeficientes
seran iguales a 0 y se concluye que la variable dependiente no tiene una relacion lineal con las variables independientes. Tal como se recalco en clase con respecto a la
correlacion, esto no significa que no esten relacionadas en absoluto, simplemente que su
relacion no es lineal. De igual manera, hay que tener cuidado en caso de que se rechace
la hipotesis nula. En este caso, podramos concluir que la variable dependiente tiene una
relacion lineal con al menos una variable, mas no provee informacion acerca de cuantas
variables o cuales de ellas. En general, cuando hay K variables exogenas en el modelo,
la prueba de hipotesis toma la siguiente forma analoga al caso de dos variables:
H0 : 1 = 2 = . . . = K = 0
HA : Al menos un 1 , 2 , . . . , K es distinto de 0
Podemos rechazar la hipotesis nula cuando el p-valor sea menor al valor de , usualmente 0.05, aunque tambien se puede usar 0.1 o 0.01. En la tabla se encuentran ademas
las medidas R2 y R2 ajustado. El coeficiente R2 , tambien conocido como el coeficiente
de determinacion, indica el porcentaje de la varianza de la variable dependiente que es
explicada por el modelo lineal. Se calcula como
PN
PN
(yi yi )2
yi y)2
2
i=1 (
= 1 Pi=1
R = PN
N
)2
)2
i=1 (yi y
i=1 (yi y
donde N es el n
umero de observaciones, y es la media de la variable dependiente, y
es la prediccion hecha por el modelo lineal. El coeficiente de determinacion tiene una
desventaja, dado que la inclusion de variables independientes, as sean irrelevantes,
3

aumentan el valor de esta cifra. El coeficiente R2 ajustado, penaliza la inclusion de


muchas variables exogenas y es u
til para comparar diferentes conjuntos de variables
explicativas con respecto al modelo lineal. Por tanto, se puede decir que el coeficiente
R2 es una medida absoluta, mientras que el ajustado es relativo. Se calcula a partir de
la expresion
PN
(yi yi )2 /(N K 1)
N 1
2
2

= 1 i=1
R = 1 (1 R )
PN
N K 1
)2 /(N 1)
i=1 (yi y
donde K es el n
umero de variables exogenas (sin incluir el termino constante).
Figura 4: Coeficientes estimados y significancia estadstica

Finalmente, en la parte inferior y reiterado en la Figura (4), se encuentra la tabla con los
coeficientes estimados y varios estadsticos para determinar su significancia estadstica.
En clase aprendimos a hacer la interpretacion de estos valores estimados siguiendo las
formulas en el Cuadro (1):
Cuadro 1: Interpretacion de parametros con varios modelos
y
x
y = x

ln x y = 100
%x

ln y
%y = 100x
%y = %x

donde x expresa el cambio en la variable x y %x el cambio porcentual. Para analizar


la constante (0 ), basta considerar el caso en donde todas las variables explicativas
sean iguales a cero. La constante sera el valor que predecira el modelo para la variable
dependiente en este caso. Seg
un la informacion en la tabla y el resultado final de la
regresion, podemos concluir lo siguiente:
1. Una persona que tiene cero a
nos de educacion y no tiene experiencia laboral
ganara 3,39 dolares. Es claro que este hecho no tiene sentido economico pero
esta es la prediccion del modelo lineal.
2. Un a
no mas de educacion genera en promedio un aumento de 0,64 dolares en el
salario por hora.
4

3. Un a
no mas de experiencia laboral genera en promedio un aumento de 0,07 dolares
en el salario por hora.
Es importante recordar que aunque un modelo tenga mas de una variable explicativa,
la interpretacion se hace para cada variable. De igual manera, si queremos analizar la
significancia estadstica de estos parametros, podemos recurrir a varios metodos
Estadstico t: Si en valor absoluto el estadstico t es mayor a 2.
p-valor: Si el p-valor es menor a para los valores usuales de este parametro.
Intervalo de confianza: Si 0 no esta incluido en el intervalo de confianza.
Por tanto, si se cumplen las condiciones, se concluira que el coeficiente es estadsticamente significativo y que la variable asociada al coeficiente tiene una relacion lineal
con la variable dependiente. Para nuestro ejemplo, encontramos que todos los valores
del estadstico t (11.97, 6.39 y -4.42) son mayores a 2 en valor absoluto. Ademas, sus
p-valores son menores a 0.05 en todos los casos y 0 no esta en el intervalo de confianza
por lo que se concluye que todos los coeficientes son estadsticamente significativos.

3.

Variables categ
oricas

En los modelos de regresion lineal es posible incluir variables categoricas (tambien


llamadas variables dummies). A modo de ejemplo, si se quisiera encontrar el efecto que
estar casado tiene sobre el salario, podramos incluir una variable a nuestro modelo que
tomara el valor de 1 cuando el individuo esta casado y 0 en caso contrario. El modelo
sera
salarioi = 0 + 1 educaci
oni + 2 experienciai + 3 casadoi + i
y podra ser corrido usando el comando regress wage educ exper married con la
base de datos usada en el curso. El modelo estimado usando los datos de Stata es
\ i = 3,373 + 0,613 educaci
salario
oni + 0,057 experienciai
+ 0,989 casadoi
La interpretacion del coeficiente asociado con la variable categorica se puede ver facilmente. Asumiendo ceteris paribus (que todo lo demas permanece constante), una persona que no esta casado, tal que la variable casado sea igual a 0 tendra un salario
estimado igual a 0 . Si esta casado, el salario estimado sera de 0 + 3 , es decir, el efecto que estar casado tiene con respecto a no estar casado es de 3 . Con los resultados
obtenidos diramos que el estar casado significa en promedio 0,989 dolares mas de salario con respecto a la categora base, el no estar casado. Entendemos a partir de nuestro
modelo que hay una prima en el mercado laboral por estar casado de aproximadamente
un dolar en promedio.
5

Las variables categoricas pueden surgir en muchos contextos. Para el ejercicio que expondran en clase, se les pidio recopilar una base de datos acerca de un carro especfico
en la que se tuvieran datos con respecto al:
Precio del vehculo
Modelo
Kilometraje
Color
Ciudad en la que esta listado para la venta
Otras variables como el cilindraje, si es automatico o no, si tiene asientos de cuero
o de tela, n
umero de due
nos previos, si tiene o no bolsas de aire, etc.
Tomemos como ejemplo la variable color. Para poder incluir esta variable en una regresion pensaramos en asignarle un n
umero a cada color, es decir, asignarle a la variable
color un 1 si el carro es negro, 2 si es rojo, 3 si es gris, etc. Sin embargo, dado que el
color no es una variable con una ordenacion natural (no es una variable numerica), no
tiene sentido incluirla de esta manera en el modelo. La alternativa es construir para
cada color una variable dicotomica, que tome el valor de 1 si el carro es de ese color
y 0 en caso contrario. As, en caso de tener 5 colores distintos, se construiran 5 variables dummy. Para pasar de una variable que contiene el color como texto o n
umero en
Stata, es posible usar el comando tabulate variable a convertir , generate(variable
nueva). Tras tener la variable codificada correctamente, es necesario incluir cada una
de las variables generadas menos una. Esta variable que se excluye servira como la
categora base (como el ejemplo de estar casado donde la categora base era no estarlo).
Se estimara entonces el siguiente modelo
ln precioi = 0 + 1 tiempo de uso i + 2 azuli + 3 rojoi + 4 blancoi + 5 grisi + i
Es decir, buscaremos estimar el logaritmo natural del precio del vehculo en funcion del
tiempo de uso de este y su color. En este caso se omitio la variable asociada al color
negro, por lo que la interpretacion de los coeficientes asociados a las demas variables de
color se hara con respecto a esta categora base. Los resultados obtenidos usando unos
datos de ejemplo son los siguientes
\ i = 17,422 0,128 tiempo de uso i 0,132 azuli 0,051 rojoi
ln precio
0,234 blancoi + 0,176 grisi
Para la interpretacion hay que tener en cuenta que la variable dependiente esta en
logaritmo natural. Por tanto, con respecto al coeficiente de la variable azul podemos
decir que un carro azul cuesta en promedio 13,2 % menos que un carro negro (la categora base). Con respecto a la variable gris, podemos decir que un carro gris cuesta en
promedio 17,6 % mas que un carro negro.
6

You might also like