You are on page 1of 17

Resolucin

Ejercicio I STATA


















Para comenzar, se mostrar la distribucin del espacio de trabajo del software STATA SE.









Para comenzar, se debe extraer la base de datos a utilizar en la resolucin de la gua
desde la siguiente pgina Web (que corresponde a las bases de datos del libro de
Woolridge):

http://fmwww.bc.edu/ec-p/data/wooldridge/datasets.list.html







La zona N1 corresponde al sector en que se van registrando cada una de las acciones
que nosotros realicemos con el software. Es una especie de registro de los comandos y
las acciones ejecutadas.

La zona N2 muestra las variables con las cuales nos encontremos trabajando, mientras
que en la parte inferior de dicha zona, se indican algunas propiedades de cada una de las
variables (la que se ecuestre seleccionada).

La zona N3 corresponde al lugar en que se ingresarn los distintos comandos para que
el software se encargue de ejecutar los clculos requeridos.

La zona N4 muestra los resultados de las distintas rdenes y clculos que se le pida al
software. Es -en pocas palabras- un visor de resultados.

En la parte superior del software es posible visualizar un men con algunas acciones
comunes, entre ellas destacan el editor de archivos Do (hacer en ingls) [Do-File Editor]
y el editor de datos [Data Editor].

1
4
2
3
COMENZANDO A TRABAJAR CON STATA


Preparacin de la Base de Datos

Lo primero que se debe hacer es extraer la base de datos correspondiente a la Ayudanta,
la que se puede encontrar en:


http://fmwww.bc.edu/ec-p/data/wooldridge/datasets.list.html


Lo primero que se debe hacer, es escribir el siguiente comando en la zona designada para
ello:

ssc install bcuse !


Lo que se hace con el comando anterior es decirle a STATA que cargue la base de datos
de Woolridge. Una vez conectado, STATA mostrar la siguiente informacin en el visor de
resultados:

ssc install bcuse
checking bcuse consistency and verifying not already installed...
all files already exist and are up to date.


Posteriormente, lo que hacemos es llamar la base de datos especca que ocuparemos.
Para ello, nos dirigimos al sitio Web antes sealado y buscamos la base de datos
SMOKE. Una vez encontrada, podemos observar que abajo del nombre de dicha base
de datos aparecern unas palabras (en este caso bcuse saving). Entonces, para llamar a
dicha base de datos, se debe agregar dicho comando en la zona de comandos, es decir,
se debe escribir:

bcuse smoke !


Cuando el software cargue la base de datos, se podr ver lo siguiente (jarse que en el
panel del lado derecho ahora se observan los nombres de las variables que estn
contenidas en la base de datos):






















Finalmente guardaremos la base de datos para trabajar de forma local (es decir,
grabaremos los datos en el computador). Para ello vamos al men del programa y
hacemos clic en File \ Save as y luego grabamos la base de datos en alguna carpeta
creada para el efecto. Para este caso, usaremos una carpeta llamada Ejemplo y el
archivo se llamara smoke. Una cuestin importante de sealar es que en caso que la
carpeta en que se guarde la base de datos tenga ms de una palabra (o nmero), estas
no deben tener espacios y deben ser reemplazados por un guin bajo, por ejemplo, la
carpeta se podra llamar Carpeta_Ejemplo para evitar problemas.










RESOLUCIN GUA DE EJERCICIOS


Pregunta a)
Cuntas observaciones tiene la muestra? Cuntas variables han sido
consideradas? Enumrelas.

Para responder lo anterior, debemos utilizar el comando describe, cuya funcin principal
es entregar una descripcin general de la base de datos utilizada. Para acceder a ello, se
debe utilizar el siguiente comando:

describe !


Una vez ejecutado, obtendremos lo siguiente (lo que ser mostrado en el visor de
resultados):















De los resultados obtenidos, se tiene que la muestra tiene 807 observaciones y 10
variables (los resultados se encuentran sealados en el cuadro rojo). Respecto de las
variables, estas aparecen en la parte inferior del resultado (cuadro verde). Para este caso,
son las siguientes: educ, cigpric, white, age, income, cigs, restaurn, lincome,
agesq y lcigpric.




Pregunta b)
Cul es el ingreso anual promedio de los encuestados?

Para calcular el ingreso promedio, o el promedio de cualquiera de las variables, se debe
usar el comando summarize, el cual -como su nombre lo indica- entrega algunos clculos
bsicos para la variable en cuestin. Para su utilizacin se puede utilizar el siguiente
comando:

summarize !

o bien,

summarize income !


La diferencia entre los dos casos, es que el primero entregar resultados de las 10
variables (antes sealadas), mientras que en el segundo caso, solamente se entregar
estadsticos descriptivos respecto de la variable income. Para este ejemplo, utilizaremos
la segunda forma y el resultado ser el siguiente:








Como se puede apreciar, el promedio de la variable income corresponde a 19.304,83
(Mean). Adems, el comando summarize entrega el nmero de observaciones (Obs), la
desviacin estndar (Std. Dev.), el valor mnimo (Min) y el valor mximo (Max).










Pregunta c)
Cunto es el mximo de cigarros diarios fumados declarados por un individuo en
esta encuesta? Y el mnimo?. Ahora, Cul es el mximo nmero de cigarrillos
fumados por individuos de 17 aos?

Para resolver esta pregunta, esto se deber hacer por partes. Primeramente, se deber
determinar el nmero mximo y mnimo de cigarros consumidos por algn individuo. Para
ello se podr utilizar el mismo comando anteriormente, esta vez, con la variable cigs:

summarize cigs !


El resultado obtenido es el siguiente:



Del resultado, se puede decir que el nmero mximo de cigarrillos diarios declarados
fumar por alguien es de 80, mientras que el mnimo es de cero. Entonces, en la muestra
hay personas que declaran fumar cero cigarrillos al da, mientras que la persona que
declara fumar ms cigarros diarios, dice fumar 80.


Para responder la segunda parte de la pregunta, es decir, el mximo nmero de cigarrillos
fumados por individuos de 17 aos, se deber establecer una restriccin a la solicitud
efectuada a STATA, para ltrar la informacin entregada. Para ello, utilizaremos una
condicional con el comando if, estableciendo la restriccin con la variable age. El
comando a utilizar ser el siguiente:

summarize cigs if age==17 !


Ntese que para establecer una igualdad (en este caso que la variable edad sea igual a
17) se debe utilizar un doble signo igual (es decir ==); solo de esta forma STATA
entender que se le est diciendo que la variable debe ser igual al nmero para efectos de
ltrar los resultados.
Una vez ejecutado el comando, se obtendr lo siguiente:



Entonces, de los resultados obtenidos se sabe que el mximo nmero de cigarros
fumados por jvenes de 17 aos es de 50 unidades.





























Pregunta d)
Cul es el total de individuos que no fuman?

Bsicamente, lo que se pide en esta pregunta es que sealemos la cantidad de individuos
que dicen fumar cero cigarros, es decir, que la variable cigs = 0. Para efectos de ir
introduciendo ms herramientas para utilizar STATA, se resolver esta pregunta utilizando
tres formas distintas. La primera es utilizando el comando summarize y estableciendo la
condicional que la variable cigs sea igual a cero. Lo anterior se obtiene de la siguiente
manera:

summarize cigs if cigs==0 !


El resultado ser el siguiente:



Como se puede observar, la cantidad de personas que dicen consumir cero cigarros al da
es de 497.


Una segunda forma de obtener el resultado es mediante la utilizacin del comando count,
cuya funcin es contar las veces que se repite un resultado especicado (en este caso,
que la variable cigs sea igual a cero). Para ejecutar dicho comando, se hace de la
siguiente manera:

count if cigs==0 !


El resultado, esta vez se muestra de forma directa, como se ve a continuacin:





La ltima forma que veremos para obtener el resultado requerido, es mediante la
utilizacin del comando tabulate, el cual entrega un resultado ordenado respecto de
frecuencia de ocurrencia de cada uno de los datos. Para este caso, indicar cuantas
personas sealan fumar cigarrillos (para cada cantidad que se haya dicho). La utilizacin
de este comando, se realizar de la siguiente manera:

tabulate cigs !


El resultado obtenido se ver de la siguiente manera (ojo, que la tabla entregada por
STATA es ms larga, para efectos de este documento ha sido cortada):



Como se puede observar, la tabla no solo entrega la frecuencia de personas que dicen
fumar determinadas cantidades de cigarrillos, sino que tambin indica el porcentaje de
ello. Para este caso, se seala que 497 personas dicen fumar cero cigarrillos al da, lo
cual corresponde a un 61,59% del total de miembros de la muestra (encuestados).













Pregunta e)
Qu porcentaje de los encuestados han estudiado por lo menos 12 aos (esto es;
educacin bsica y media completa)? Cmo se obtiene esta cifra?

La solucin de este problema es bastante simple utilizando el comando count, sin
embargo, para efectos del siguiente texto utilizaremos tanto esta tcnica, como una
adicional que consiste en la creacin de una nueva variable. Primeramente, para la
utilizacin del comando count, este se har introduciendo la condicin de que la variable
educ sea mayor o igual que 12, lo anterior se logra de la siguiente manera:

count if educ>=12 !


Y el resultado obtenido es:






Una segunda alternativa para resolver la problemtica sealada es la creacin de una
nueva variable que contenga solamente los valores para los cuales la variable educ es
mayor o igual a 12. Esta nueva variable, para efectos del ejemplo, la llamaremos educ12.
Lo primero que debemos hacer es crear la variable educ12 es utilizar el comando
generate, que creara la nueva variable, y a su vez, establecer que esta variable tenga el
valor 1 cuando la variable educ sea mayor o igual a 12. Esto se realiza de la siguiente
manera:

generate educ12=1 if educ>=12 !


Como se puede apreciar del visor de resultados, al realizar la operacin anterior, STATA
indica que existen valores perdidos (esto quiere decir que la variable no tiene valores
asociados y se denota por missing values), lo cual se corrige haciendo que el sistema
rellene dichos espacios en blanco con ceros.





Ahora, para rellenar esos valores perdidos con ceros, debemos utilizar el siguiente
comando:

replace educ12=0 if educ12!=1 !


Con el comando anterior, lo que le estamos diciendo a STATA es que cuando encuentre
en la variable educ12 valores distintos a 1 (valores sin registros), los reemplace por
valores cero (en STATA cuando queremos sealar una desigualdad, esta se hace
utilizando el signo de exclamacin seguido por un signo igual [!=]).


Una vez creada la variable, y habiendo eliminado los valores perdidos, se puede utilizar el
comando tabulate para encontrar a las personas que han estudiado por lo menos 12
aos. La forma de ejecutar el comando es la siguiente:

tabulate educ12 !


El resultado obtenido ser el siguiente:



Del resultado anterior se puede desprender que cuando la variable educ12 toma el valor
de 1 (es decir, cuando la educacin es mayor o igual a 12), esta nos seala que
corresponde a 584 personas, que es el mismo valor obtenido anteriormente al usar el
comando count.






Pregunta f)
Cul es la estimacin por M.C.O. del siguiente modelo?





Para realizar una regresin por el mtodo de los mnimos cuadrados ordinarios (M.C.O.)
se debe utilizar el siguiente comando:

regress cigs cigpric educ age lincome !


Como se puede observar, tras sealar a STATA que se quiere realizar una regresin (con
el comando regress) es necesario escribir en primer lugar la variable independiente y
posteriormente las variables dependientes, separadas nicamente por un espacio. Una
vez ejecutada la regresin, se obtendr el siguiente resultado:



Como se puede observar, al ejecutar una regresin en STATA, este entrega los resultados
divididos en tres secciones; Los resultados ms relevantes son los siguientes:

Seccin 1 - Sumas de cuadrados: En esta seccin se ofrecen los resultados de las
sumas de cuadrados (SCR, SCE y SCT). En este caso, los valores se encuentran bajo la
columna SS y los respectivos resultados son Model para la suma de cuadrados de la
regresin (SCR), Residual para la suma de cuadrados del error (SCE) y Total para la
suma de cuadrados totales (SCT).

cigs
i
= !
0
+ !
1
cigpric
i
+ !
2
educ
i
+ !
3
age
i
+ !
4
log(income
i
)
1 2
3
Seccin 2 - ANOVA: Ac se encuentran los resultados de una tabla ANOVA (anlisis de
varianza), en particular los resultados ms interesantes son el valor del estadstico F (y su
respectivo valor-p p value), adems del valor del coeciente de determinacin (R
2
). Para
efectos prcticos, el valor del estadstico F se encuentra donde dice F( 4, 802) y el valor p
es aquel asociado al trmino Prob > F. Por su parte, el valor de R
2
se obtiene donde dice
R-squared.


Seccin 3 - Coecientes Beta: En esta seccin es donde se encuentran los coecientes
beta, sus respectivos errores estndar, as como sus respectivas pruebas t y los intervalos
de conanza para los coecientes. Como se puede observar, en la columna Coef es
donde se encuentran los valores de los regresores (betas), el trmino constante o "0, se
encuentra donde dice _cons. El resto de los valores ", se encuentran junto a sus
respectivas variables.

Considerando lo anterior, se puede estimar el siguiente modelo de regresin:
























cigs
i
= 0, 5862 - 0,0406 cigpric
i
! 0,3891 educ
i
! 0, 0426 age
i
+1,7720 log(income
i
)
Pregunta g)
Son las variables cigpric y age' conjuntamente signicativas?

Para resolver lo anterior, se puede utilizar el comando test y se agregan ambas hiptesis
en forma conjunta, es decir, se utiliza la siguiente funcin:

test (cigpric==0) (age==0) !


En este caso, lo que hace STATA es crear un modelo restringido en el cual se eliminan
ambas variables estudiadas (en este caso cigpric y age) y posteriormente efecta una
prueba F al modelo restringido. El resultado que se obtiene es el siguiente:









Del resultado del valor p (Prob > F), se puede determinar que con un 95% de conanza no
se rechaza la hiptesis nula de que ambas variables no son conjuntamente signicativas.
Es decir, existe evidencia que indica que las variables cigpric y age no son
conjuntamente signicativas.















Pregunta g)
Tienen el mismo efecto en el consumo de tabaco las variables cigpric y age?
Conteste a esta pregunta mediante una reparametrizacin del modelo.

Primero debemos establecer un modelo reparametrizado del modelo original, es decir, el
modelo original es:





Entonces establecemos un modelo reparametrizado sera el siguiente:







Lo primero entonces que se debe hacer es crear una nueva variable, la cual se
denominar (para este ejemplo) como cig_age, para esto, se utiliza el siguiente
comando:

generate cig_age = cigpric+age !


Una vez generada la nueva variable, se debe volver a ejecutar la regresin, esta vez con
el nuevo modelo y la nueva variable generado. Para hacer esto, se utiliza el siguiente
comando:

regress cigs cigpric educ cig_age lincome !


El resultado obtenido al generar este nuevo modelo es el que se muestra a continuacin:






cigs
i
= !
0
+ !
1
cigpric
i
+ !
2
educ
i
+ !
3
age
i
+ !
4
log(income
i
)
! = cigpric + age
cigs
i
= "
0
+ "
1
cigpric + "
2
educ
i
+!cig_age
i
+ "
4
Log(income
i
)


Como lo que se estaba pidiendo es saber si las variables cigpric y age tienen el mismo
efecto, se debe vericar si la variable reparametrizada, en este caso cig_age, es
estadsticamente signicativa. Para ello, se debe vericar el estadstico t-student asociado
a dicha variable. En este caso, y usando el criterio del valor-p (P > | t |), se puede
establecer que ambas variables no son estadsticamente signicativas, es decir, no
podemos rechazar la hiptesis nula de que la variable cig_age es igual a cero.

You might also like