Professional Documents
Culture Documents
N
VENTANA DE
VARIABLES
VENTANA DE
PROPIEDADES
DE VARIABLES
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
7
problema en la realizacin, rojo indicar error y el azul es un
hipervnculo al men de ayuda.
Ventana de Revisin: Bitcora que Permite llevar un completo registro de todos los
procedimientos ejecutados durante una sesin de Stata ya sea que se
ejecutaron por el ambiente GUI, por la ventana de comandos o por
un editor .do. Una de las propiedades de la ventana Review es que
si se desea repetir un comando simplemente debe hacer doble clic
sobre el comando deseado y Stata lo ejecutar de nuevo.
Ventana de Propiedades: Presenta la informacin de cada variable, como nombre, tipo de
variable, formato, las notas de la base de datos (puede usar el
comando notes para verlas en la ventana de resultados), entre otras
caractersticas.
BARRAS
Figura 2. Mens de Stata
Barra de Nombre: Indica la versin de Stata disponible, el nombre y la ruta de la base
de datos activa.
Barra de Mens: Es el conjunto de las diferentes herramientas que tiene Stata las
cuales le permiten al usuario cargar, transformar, modificar,
analizar, graficar y solicitar informacin y ayuda del programa.
Barra de Herramientas: Es el conjunto de conos de acceso rpido a herramientas
fundamentales como son abrir, salvar, creacin de un archivo Log,
un archivo .do, abrir el editor, el visor y el administrador de
variables.
1.2 EL MEN DE AYUDA
Stata ha incorporado en la versin 11 un conjunto de nuevas opciones en el men de ayuda para
facilitarle al usuario la mejor forma de entender cmo funciona el programa. Una de las novedades
principales es que se ha agregado la opcin de tener disponibles los manuales de Stata en formato
PDF.
Para acceder a los manuales de ayuda debe seguir la ruta Help PDF Documentation
Barra de Nombre
Barra de Mens
Barra de Herramientas
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
8
El men de ayuda de Stata le permite:
- Ver el ndice de contenidos del programa
- Buscar informacin sobre algn tema, la rutina que permite ejecutarla en Stata, o el sitio desde
donde es posible descargar la macro para alimentar el programa.
- Obtener ayuda sobre algn comando de Stata
- Listar y descargar las ltimas actualizaciones del programa.
- Instalar programas de Stata escritas por otros usuarios, desde el Stata Journal o del boletn
tcnico Stata Technical Bulletin.
- Acceder a lugares de inters en el sitio Web de Stata.
El sistema de ayuda para los comandos de Stata es una de las herramientas que ms rpidamente
puede familiarizar al usuario con el manejo de Stata. Alternativamente al sistema de ventanas, el
usuario puede digitar en el cuadro de comandos help seguido del comando del cual desea
informacin.
Por ejemplo al digitar en el cuadro de comandos: help describe emerge la siguiente ventana
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
9
Figura 3. La Ayuda de Stata
La ayuda de Stata ofrece informacin sobre:
- La sintaxis completa y abreviada de letra(s) subrayadas) de cada comando,
- Descripcin del comando,
- Opciones adicionales para ejecutar el comando,
- Ejemplos sobre cmo usar el comando,
- Hipervnculos a otros comandos relacionados y/o similares y,
- El manual impreso de Stata en el que puede consultar los detalles sobre el comando.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
10
Con frecuencia, el usuario desconoce el nombre del comando especfico que realiza algn
procedimiento en Stata. En estos casos es conveniente realizar una bsqueda temtica por medio del
comando search. A travs de este comando Stata realiza una bsqueda en lnea en:
- Los ejemplos oficiales de Stata disponibles en su sitio web,
- El sitio de preguntas frecuentes Frequently Asked Questions de Stata,
- Ejemplos en lnea compilados por la universidad de UCLA,
- Las referencias bibliogrficas en Stata Journal y Stata Technical Bulletin.
Por ejemplo, supongamos que queremos calcular en Stata el coeficiente de concentracin gini
(procedimiento muy conocido en economa y estadstica), pero no sabemos si Stata realiza este
clculo y, adems, si es posible hacerlo, no conocemos el comando para ejecutarlo. En estos casos
el comando search resulta de gran ayuda. Por ejemplo al escribir en el cuadro de comandos
search gini
adoupdate, update
Se despliega el siguiente cuadro de ayuda:
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
11
Figura 4. Search
En el cuadro de ayuda aparecen en azul hipervnculos a sitios oficiales (Stata Journal SJ, o Stata
Technical Bulletin STB) desde donde se pueden descargar macros relacionadas con el
procedimiento que calcula el coeficiente de concentracin gini.
ACTUALIZACIONES DE Stata: Automticamente Stata hace actualizaciones peridicas del
programa. Sin embargo el usuario puede pedir manualmente al programa que se actualice a travs
del comando update as:
update all
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
12
1.3 TIPOS DE ARCHIVOS
Antes de iniciar una sesin de trabajo es importante tener en cuenta que Stata opera a travs de
diferentes tipos de archivos.
Tipo de Archivo Extensin
Archivos de datos *.dta
Archivos grficos *.gph
Bitcoras de salida *.smcl
Archivos de comandos *.do
Archivos de programacin *.ado
Tabla 3. Tipos de Archivos
1.4 ESTRUCTURA DE COMANDOS
[by varlist:] Command [varlist] [=exp] [if exp] [in range] [weight] [using filename] [,
options]
Por ejemplo:
Se debe tener en cuenta que Stata distingue entre letras maysculas y minsculas. Todos los
comandos del programa se deben escribir en letras minsculas. De lo contrario el programa no lo
reconoce. Los parntesis cuadrados indican que no es un carcter obligatorio dependiendo el
comando especfico.
Es posible usar con Stata prefijos para algunos comandos, por ejemplo, el comando regress que
permite realizar el procedimiento de regresin se puede ejecutar digitando solamente los tres
primeros caracteres, es decir al tener reg ejecuta la misma funcin que al escribir regress.
Para conocer mayor informacin sobre la estructura de los comandos de Stata, busque informacin
as: help syntax
1.5 VENTANAS DE COMANDOS
Es comn encontrar en las ventanas emergentes de Stata el nombre del comando que permite
realizar la instruccin que se le ordenar al programa para que realice, por ejemplo, al seguir la ruta
File Import ASCII data created by a Spreedsheet
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
13
En este caso es el comando insheet. A continuacin se explican algunas caractersticas generales de
las ventanas emergentes de Stata para la realizacin de procedimientos, este manual no presentar
las ventanas en las cuales se ejecutan las instrucciones sino los comandos y las opciones
correspondientes.
Figura 5. Caractersticas de una ventana
1.6 CONFIGURANDO LA MEMORIA DE Stata
Stata funciona exclusivamente desde la memoria RAM. El programa nicamente interacta con el
disco duro del computador cuando se hacen salvados de bases de datos, grficos, archivos log, o
archivos de comandos. En la versin 12 Stata configura automticamente el tamao de la memoria
para poder trabajar con bases de datos muy grandes.
Para versiones inferiores a la 12 las versiones SE y MP del programa trabajan con 10 megas de
memoria RAM. Sin embargo, cuando se trabaja con bases de datos muy grandes, es posible
configurar la cantidad de memoria RAM disponible para una sesin de trabajo a travs del comando
set memory.
3
Por ejemplo, para trabajar con 100 megas de memoria RAM la sintaxis es
4
:
3
Si desea conocer qu versin tiene de Stata y la configuracin de la memoria y la licencia del programa
escriba el comando about y creturn list.
Comando
Descripcin del comando
Copiar
como
comando
Ejecutar No Ejecutar
Ejecutar y
mantener la
ventana
activa
Ayuda de
la
instruccin
Limpiar la
ventana
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
14
set mem 100m
Es muy importante que antes de empezar una sesin de trabajo el usuario configure la cantidad de
memoria RAM que necesita de lo contrario emerger el siguiente error:
no room to add more observations
r (901);
1.7 CAMBIANDO EL DIRECTORIO DE TRABAJO DE Stata
La sintaxis para cargar y salvar datos puede ser muy extensa dependiendo de la ruta de acceso a las
bases de datos o el lugar en el disco duro donde se quieran almacenar los resultados. Una forma
prctica de abreviar la sintaxis en ambos casos consiste en indicarle a Stata, antes de comenzar la
sesin de trabajo, el lugar en el disco duro de donde se desean tomar los datos y donde se quieren
almacenar los resultados. Este procedimiento se lleva a cabo a travs del comando cd as:
cd "C:\...."
La otra opcin es por medio del Men File Change Working Directory
Entre comillas se debe encontrar la direccin o ruta de la carpeta donde se encuentran las bases de
datos que sern empleadas en la sesin de trabajo de Stata.
1.8 BASES DE DATOS DE EJEMPLO
En el momento en que Stata se instala en su equipo se incluyen bases de datos de ejemplo
las cuales le permitirn trabajar con el software, tenga en cuenta estos archivos dado que la
ayuda en muchas ocasiones se referencia a las bases de datos del software, para acceder a
ellas siga la ruta File Example Datasets Example datasets installed with Stata o para
acceder a todas las bases de datos seleccione Stata 12 manual datasets pero debe tener
acceso a internet.
El comando asociado es
sysuse dir * para ver el directorio de bases de ejemplo en su equipo
sysuse auto.dta * cargar la base auto.dta que es una base de ejemplo de Stata
1.9 TIPOS DE VARIABLES
Una de las preguntas comunes en el manejo de un software estadstico es cmo el programa
clasifica o categoriza las variables, es decir que formato es posible asignarle a una variable, para
ello es necesario primero que el usuario tenga claro el tipo de variable.
4
Se recomienda revisar la ayuda sobre el comando set y el comando memory
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
15
Las variables las podemos dividir de acuerdo al siguiente esquema
Stata es case sensitive, es decir, distingue entre maysculas y minsculas, de forma que las
variables var1 es diferente a Var1.
Para Stata se manejan los datos cuantitativos por diferentes tipos de variables los cuales se
diferencian por el rango de los datos o por el tamao en el nmero de caracteres disponibles a
continuacin se presenta una tabla que describa los tipos de datos.
TIPO DE VARIABLE
RANGO
FORMATO
MNIMO MXIMO
Byte -127 100
%8.0g
Int -32,767 32,740
%8.0g
Long -2,147,483,647 2,147,483,620
%12.0g
Float -1.70141E+38 1.70141173319*10^38
%9.0g
Doubl -8.9885E+307 8.9884656743*10^307
%10.0g
Precisin para FLOAT 3.795x10^-8.
Precisin para DOBLE 1.414x10^-16.
Tabla 4. Tipos de Variable
El nmero que aparece despus del smbolo % es el nmero mximo de dgitos enteros o ancho que
soporta el formato y el nmero a la derecha ndica el nmero de decimales, posteriormente se
encuentra una letra. Donde [f] es aproximacin al entero ms cercano, [e] indica notacin cientfica
y [g] indica decimales.
Stata por defecto selecciona el formato FLOAT, el otro tipo de variables son las variables
alfanumricas, estas variables en las que se encuentran principalmente las variables cualitativas,
Stata define un formato especial para ellas, y es el formato STRING, %str# es la visualizacin de
este formato, en el cual el carcter # indica el largo de la cadena.
VARIABLE
CUANTITATIVA
Continua
Discreta
CUALITATIVA
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
16
FORMATO DE LAS VARIABLES: El formato de las variables hace referencias a la forma como
son almacenadas y desplegadas las variables en STATA. Para cambiar el formato de una de una
variable a travs del lenguaje de sintaxis debe tener en cuenta que el formato de toda variable
siempre antecedido por el smbolo %.
Variables de cadena
Variable numrica
Si desea cambiar el formato de una variable utilice el comando recast.
sysuse auto
describe Price
recast float price
Para mayor informacin: help data_types y help recast
2. { TC "MANEJO FUNDAMENTAL DE STATA 11" }MANEJO DE
BASES DE DATOS
Antes de realizar usted un anlisis de la informacin ya sea de tipo descriptivo, inferencial, debe
contar con la informacin lo mejor posible para poder realizar los correspondientes anlisis, por ello
en ste captulo podr ver como realizas manejo de bases de datos financieras y econmicas.
Una de las ventajas de Stata es su fortaleza en el manejo de bases de datos, principalmente porque
permite al usuario manejar gran cantidad de variables y de observaciones, adems, es posible
realizar manipulacin y transformaciones como es crear, eliminar, modificar, concatenar y dems
funciones a variables, de igual forma permite agregar variables y observaciones a una base de datos
con otras bases.
Entre opciones avanzadas se encuentran la proteccin de bases de datos, la creacin de firmas y
restricciones a usuarios. Stata permite a los usuarios manejar bases de datos de formatos como son
% 20 s Variable String
Inicio de un formato nmero de caracteres
Formato general g, Notacin cientfica e,
formato fijo f
% 10. 0 g c opcional, separados de
miles por comas
Inicio de un formato
Dgitos antes del punto decimal
Dgitos despus del punto decimal
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
17
MS Excel, texto, SQL, SAS, entre otros, de igual forma permite exportar archivos a dichos
formatos.
El captulo se divide en cuatro secciones, la primera un manejo de bases de datos bsico, en la
segunda seccin datos de corte transversal, la tercera datos de series de tiempo y en la ltima
manejo de datos de panel.
1.1 FUNDAMENTOS DE BASES DE DATOS
Hay ciertas caractersticas que usted podr aprender para el manejo de la informacin, entre ellas
los pasos fundamentales, como son, importar una base de datos, eliminacin, transformacin de
bases de datos, entre otros.
1.1.1 Creacin de un archivo log
Un archivo tipo texto con extensin .log o .smcl
5
, permite guardar todo lo que usted digite y
ejecute en la lnea de comandos as como las salidas obtenidas en la ventana de resultados
realizadas durante la sesin activa de Stata.
Se recomienda que la extensin sea SMCL, dado que le permite conservar las fuentes y colores de
su ventana de resultados y adems podr configurarlo para imprimir.
Figura 6. Creacin de un archivo Log
Para la creacin de un archivo log por medio de comandos debe usar
log using tables.log, replace
1.1.2 Abrir una base de datos
El primer paso es cargar una base de datos, para ello depende el formato de la base de
datos. Es comn que los usuarios contengan su informacin en archivos tipo Excel, para
ello es necesario tener claro que Stata requiere que el separador decimal debe ser el punto
(.), para ello se recomienda utilizar la herramienta de buscar-reemplazar de Excel o hacer
cambio de la configuracin de Excel o de la configuracin regional de su equipo.
5
Iniciales de Stata Markup and Control Language.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
18
Recuerde que las bases de datos de Stata finalizan con la extensin .dta, cuando se tiene un
base tipo Stata para abrirla puede utilizar la ruta File Open y seleccionar el archivo o por
el cono abrir de la barra de herramientas, por medio de comandos podr usar la instruccin
use
use "C:\Users\Brayan\Desktop\ipc_raw.dta", clear
Recuerde la seccin 1.7 en donde se indica como activar un directorio de trabajo para no
tener que referenciar la ruta o path en donde se encuentra el archivo; si ya tiene un
directorio activo la instruccin es:
use ipc_raw, clear
Dado que la instruccin solo importa bases de datos de formato Stata no se requiere
ingresar la extensin .dta.
Finalmente con el comando use podr seleccionar solamente las variables que desea usando
la opcin using importar por ejemplo
use fecha ipc inflacin using ipc_ra, clear
2.1.1 Importar una base de datos .CSV o TXT
Uno de los formatos ms comunes en el manejo de informacin estadstica es el formato
Separado por Comas (CSV), para importar una base de dato se sigue la ruta:
File Import ASCII data created by a Spreedsheet
Como se mencion anteriormente en la parte superior de cada ventana aparece el nombre del
comando correspondiente, si el usuario desea llamar una ventana puede hacerlo desde la ventana de
comandos por medio de db nombre_comando.
En este caso el comando insheet tiene la siguiente estructura
insheet [variables] using ruta , opciones
Por ejemplo:
insheet using "C:\Users\USER\Documents\Software Shop\Stata\Taller docentes\Docentes_01.csv",
delimiter(":") clear
En el caso que el usuario no requiera importar la totalidad de la base de datos debe especificar
despus del comando insheet el nombre de las variables; entre las opciones encontramos el tipo de
formato que separa los datos, como son tabulaciones (tab), comas (comma) o especificado por el
usuario (delimiter(x)).
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
19
La funcin anterior es similar para archivos con extensin .TXT.
2.1.2 Importar una base de datos .XLS o .XLSX
2.1.2.1 Pegar bases de datos de Hojas de clculo
Es comn que las bases de datos y los archivos que se usan a diario por las empresas y sus
trabajadores sean de hojas de clculo, para facilitar el trabajo de uso de Stata cuando las
bases son de una hoja de clculo se puede sin mayor problema copiar los datos de la hoja
correspondiente y posteriormente en la ventana edit dar clic derecho y seleccionar pegar o
la secuencia CTRL + V, de sta forma Stata reconoce los datos correspondientes.
Nota: El usuario debe tener sumo cuidado con el formato de la base original dado que Stata
trabaja los separadores decimales con el punto y no con la coma como se usa en la
configuracin de los computadores con idioma espaol. Para ello se recomienda al usuario
cambiar el formato de separador decimal y de miles en su hoja de clculo o directamente
desde la configuracin regional de su equipo. De igual forma usar la tcnica de buscar y
reemplazar le permite obtener un buen resultado.
Se recomienda ver informacin adicional con help input, infix e infile.
Editor de datos en stata
Los datos pueden ser visualizados o introducidos en Stata haciendo clic en el cono de la ventana
Data Editor, presionando control+7, o haciendo clic en
Data Data Editor Editor
Figura 7. Editor de datos de Stata
La ventana emergente presenta un formato similar a una hoja de clculo y le permite a un usuario
hacer manipulacin de variables y observaciones similares a las que se realizan en una hoja de
clculo. La opcin ms sencilla para cargar una base de datos es copiar y pegar la informacin de su
hoja de clculo a la ventana de Edit de Stata.
cono de EDIT
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
20
Snapshots: Permite preservar y restaurar la base de datos a un punto
predeterminado por el usuario.
Hide/Show Variables: Slo para efectos de visualizacin, esta opcin permite
ocultar parte de una base de datos.
Filter Observations: Mientras est abierto el editor de datos, a travs de esta
opcin es posible mantener un filtro sobre la base la base de datos.
Variable Properties: Esta opcin permite renombrar variables, asignar etiquetas a
variables y valores de variables categricas, y ajustar los tipos de variables y los
formatos de las variables.
Variable Manager: Similar a la opcin anterior, adems permite visualizar
simultneamente varias variables y adicionar notas a estas.
2.1.2.2 Asistente de Importacin de Excel files
La versin 12 de Stata ha incorporado una nueva herramienta para importar bases de datos
tipo .xls o .xlsx, para acceder al asistente siga la ruta File Import Excel Spreadsheet
(*.xls, *.xlsx) emerger la siguiente ventana:
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
21
Figura 8. Asistente Importacin Archivos de Excel
Nota: Para poder importar la base de datos debe tener cerrada la base de datos de lo
contrario el asistente no realizar la importacin.
La estructura del comando es:
import excel [using] filename [, import_excel_options]
En las opciones podr seleccionar:
- sheet("sheetname") Nombre de la hoja a importar
- cellrange([start][:end]) Rango de celdas a cargar
- firstrow Tomar la primera fila como los nombres de las variables
- allstring Importar todas las variables como texto
- clear Reemplazar los datos en la memoria
Para el ejemplo la instruccin es:
import excel "C:\Users\Brayan\Desktop\base1.xlsx", sheet("base 1") firstrow
2.1.3 Importar otros tipos de archivo
Busque el
archivo
de Excel
Seleccione
la hoja a
importar
Active la casilla si en
su hoja la primera fila
contiene los nombres
de las variables
Seleccione
el rango de
los datos
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
22
Hay otro tipo de archivos que Stata le permite importar automticamente como archivo
para ello se recomienda tener en cuenta las siguientes recomendaciones:
TIPO DE BASE COMANDO
ODBC Odbc
Archivo de Texto sin diccionario
(.raw)
Infile
Archivo de Texto con ancho fijo
(.raw)
Infix
Archivo de Texto con
diccionario (
infile2
Formatos SAS XPORT o .xpf import sasxport
Formato tipo haver haver
XML files Xmlsave
Tabla 5. Otros comandos para importar archivos
Finalmente si tiene otro tipo de archivos se recomienda que adquiera el software
Stat/transfer, para mayor informacin ingrese a
http://www.stata.com/products/transfer.html, ste programa le permite importar archivos
tipo SPSS, SAS, R, RATS, Statistica, MATLAB, GAUSS, entre otros.
2.2 SALVANDO UNA BASE DE DATOS
Como los datos han sido cargados en la memoria RAM, slo puede modificarse la base de datos
original de tres formas
Haciendo clic en el icono de salvado en la barra de herramientas
Haciendo clic en ctrl+S
A travs del cuadro de comandos empleando el comando save, por ejemplo
save base1.dta, replace
La opcin replace le permite sobre escribir un archivo que tenga en el mismo directorio de trabajo
activo y con el mismo nombre.
Una vez que los datos han sido guardados o abiertos es posible optimizar el espacio que estos
ocupan utilizando el comando compress este comando comprime la base de datos. Es muy til
cuando trabajamos con bases de datos grandes.
2.3 DESCRIPCIN DE LA BASE DE DATOS
Una vez se tenga una base de datos cargada, es necesario empezar a revisarla y obtener
informacin de ella, para ellos Stata le permite al usuario por medio de diferentes
procedimientos entender cada variable y su contenido.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
23
Lo primero que debe realizar el usuario una vez importa o abre una base de datos es
observar la base, para ello se encuentran diferentes formas de visualizar los datos, entre
ellas las opciones de edit y de browse, las cuales abren una ventana con forma de hoja de
clculo, la otra opcin es por medio del comando list que permite visualizar la o las
variables en la ventana de resultados, se recomienda usar los comandos edit, browse y list
con las opciones if in.
Adicional a esto el usuario puede recibir informacin especfica de cada variable por medio
de las opciones del men Data Describe Data. En ste men las opciones de describe
data in memory, describe data contents e inspect variables, le da la posibilidad al usuario de
obtener informacin correspondiente al nombre, la etiqueta, el tipo y formato de la variable,
notas, etiquetas sobre valores, el nmero de valores perdidos, entre otras. A continuacin se
presenta un ejemplo del uso de estos comandos
*cargar una base de datos del programa
sysuse auto
*observar los datos
browse
Figura 9. Browse
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
24
*Describir los datos
describe make price mpg
Cuando se desea aplicar un comando para todas las variables de la base de datos podr hacerlo
ingresando el comando sin incluir ninguna variable de esta forma Stata tomar la instruccin para
toda la base de datos, otra alternativa es escribir _all posterior al comando por ejemplo:
sysuse auto
describe _all
2.3.1 Creacin de Variables
Por medio del men Data podemos encontrar opciones como crear nuevas variables Data Create
or Change Data Create New Variable:
.
mpg int %8.0g Mileage (mpg)
price int %8.0gc Price
make str18 %-18s Make and Model
variable name type format label variable label
storage display value
foreign byte %8.0g origin Car type
gear_ratio float %6.2f Gear Ratio
displacement int %8.0g Displacement (cu. in.)
turn int %8.0g Turn Circle (ft.)
length int %8.0g Length (in.)
weight int %8.0gc Weight (lbs.)
trunk int %8.0g Trunk space (cu. ft.)
headroom float %6.1f Headroom (in.)
rep78 int %8.0g Repair Record 1978
mpg int %8.0g Mileage (mpg)
price int %8.0gc Price
make str18 %-18s Make and Model
variable name type format label variable label
storage display value
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
25
Figura 10. Generate
La creacin de las variables se realiza por medio del comando generate, los comandos en Stata no
es necesario escribirlo en su totalidad, la mayora de los comandos pueden ser reducidos en un
prefijo, para conocer el prefijo de cada comando escriba help nombre del comando en la ayuda
aparecer subrayado el nombre hasta cierto carcter indicando que puede usar solamente ese texto
para ejecutar el comando, por ejemplo g es igual a generate
Figura 11. Prefijo de un comando
Algunos ejemplos de creacin de variables:
generate suma = var1 + var2
gen resta = var1 var2
g multiplicacin = var1 * var2
Para la creacin de las variables se recomienda usar el siguiente cuadro
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
26
Tabla 6. Operadores
En algunas ocasiones se requieren algunos caracteres especiales, uno de ellos son los caracteres _n
y _N o denominadas variables del sistema, _n es un contador del nmero de observaciones, y _N
indica el total de observaciones de la base de datos.
gen tendencia = _n
gen totales = _N
Para la creacin de variables con condiciones puede utilizar la opcin de la estructura de comandos
[if] [in], estas opciones le permitirn poner restricciones no solo para la creacin de variables si no
para la gran mayora de comandos que contiene Stata, debe tener en cuenta que solo debe escribir
una vez el carcter if o in, a continuacin algunos ejemplos en el uso de estos caracteres especiales:
gen dummy = 1 if TV >5 * crea una variable con valores = 1 si TV > 5, perdido en otro caso.
list make mpg if mpg>25
list price in 10/20 * crea una lista para las observaciones entre la 10 y 20
list price in -10/l * crea una lista con las ltimas 10 observaciones
Para la opcin in se puede utilizar las siguientes estructuras:
# Condicin sobre una nica observacin
#/# Condicin sobre un rango de observaciones
#/l Condicin sobre una observacin hasta la ltima (l)
f/# Condicin desde la primera observacin (f) hasta una observacin
-#/# Condicin desde las ltimas # observaciones hasta # que puede ser la ltima con l
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
27
A continuacin listamos algunas funciones matemticas, estadsticas y de fecha importantes en la
creacin de variables
FUNCIN EJEMPLO DESCRIPCIN
ln() g lpib = ln(pib) Logaritmo natural
exp() g epib = exp(pib) Exponencial
sqrt() g y = sqrt(epib) Raz cuadrada
abs() g x = abs(y) Valor absoluto
cos() g coseno = cos() Coseno
logit() g logit = logit(x) Retorna el logaritmo de los odds ratio de x
runiform() g uniforme = runiform() Genera nmeros aleatorios de una distribucin
uniforme [0,1)
rnormal() g normal = rnormal() Genera nmeros aleatorios de una distribucin
normal estndar (0,1)
rnormal(m,s) g normal = rnormal(10,2) Genera nmeros aleatorios de una distribucin
normal con media m y desviacin estndar s
int() g enteros = int(pib) Convierte una variable o dato en entero
invnormal(p) g inversa = invnormal(prob) Genera una variable como la inversa de la
probabilidad de una distribucin normal
length(s) g largo = length(nombre) Presenta el nmero de caracteres de una
variable string
Tabla 7. Ejemplos Funciones generate
2.3.2 Extensiones en la creacin de variables
Podemos utilizar algunos comandos adicionales para la creacin de variables con algunas
condiciones, tales como el comando egen y la funcin cond()
Ejemplos:
gen dummy = cond(TV>5,1,0)
gen dummy = (TV>5)
egen concatenar = concatenate(variable1 variable)
FUNCIN EJEMPLO DESCRIPCIN
max() egen maximo = max(ingresos) Presenta el mximo de una variable
min() egen minimo = min(ingresos) Presenta el mnimo de una variable
mean() egen promedio = mean(ingresos) Presenta el promedio de una variable
kurt() egen curtosis = kurt(ingresos) Presenta la curtosis de una variable
sd() egen desviacin = sd(ingresos) Presenta la desviacin estndar de una variable
2.3.3 Ordenar variables y bases de datos
Ordenar datos Data Sort Ascending Sort:
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
28
Figura 12. Ordenar datos
Para ordenar en forma descendente se recomienda usar el comando gsort de la siguiente forma:
gsort var1 var2 +var3
El comando anterior nos produce un ordenamiento descendente primero por la variables VAR1,
seguido por la variable VAR2 y de forma ascendente por la variable VAR3, indicando que se debe
ubicar un signo (-) para establecer descendente y un signo (+) para orden ascendente, aunque este
ltimo no es necesario en el comando.
Existe otro caso y es en el caso que se dese ordenar las variables, es decir cambiar el orden en la
base de datos, por medio del comando order es posible realizar esto, de igual forma es posible
utilizar aorder para que las variables queden ordenadas en forma alfabtica. Finalmente el comando
move permite modificar la ubicacin de las variables, pero a partir de la versin 11, este comando es
reemplazado por order.
2.3.4 Clculos por grupos
En algunas ocasiones el usuario requiere de verificar la informacin por una caracterstica
particular, grupales, entre otras, para ellos Stata cuenta con el prefijo by el cual se ubica previo al
comando estadstico, grfico o de modelo.
Ejemplos
use http://www.stata-press.com/data/imeus/census2d, clear
gsort region -pop
by region: generate totpop = sum(pop)
by region: list region totpop if _n = = _N
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
29
by region: egen meanpop = mean(pop)
by region popsize, sort: egen meanpop2 = mean(pop)
by sex age: regress wage expert expert2 occup
El comando by permite generar variables por diversas categoras, adems, permite ordenar de
acuerdo a alguna variable. En el ltimo ejemplo hace una regresin por cada categora entre el
gnero y la edad.
2.3.5 Codebook e Inspect
codebook, escribe el contenido de las variables, indicando nmero de observaciones, valores
perdidos, percentiles, entre otros.
codebook foreign
codebook price
inspect, entrega el nmero de observaciones de una variable identificando los valores positivos,
negativos, cero, missing, y si estos corresponden a nmeros enteros o no. Los missing values se
3 1 Foreign
12 0 Domestic
tabulation: Freq. Numeric Label
unique values: 2 missing .: 0/15
range: [0,1] units: 1
label: origin
type: numeric (byte)
foreign Car type
3 15906
3 14500
3 13594
3 13466
3 12990
tabulation: Freq. Value
unique values: 5 missing .: 0/15
range: [12990,15906] units: 1
type: numeric (int)
price Price
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
30
sealan en Stata mediante un punto (.). Se considera que un missing value es mayor que cualquier
valor.
2.4 CONSERVAR Y RECARGAR BASES DE DATOS
Es importante cuidar la base de datos que se est trabajando, por eso se recomienda salvar la base
de datos, pero adems, Stata ofrece opciones que le permitirn al usuario guardar la base de datos
de forma virtual, por medio de los comandos preserve y snapshot y para recuperar la base con el
comando restore
preserve
restore
snapshot save, label("nombre del elemento guardado")
snapshot restore 1
La diferencia entre el snapshot y el preserve es que este ltimo solo permite guardar una vez la base
de datos, mientras el snapshot varias veces.
2.5 FILTROS DE LA BASE DE DATOS
Ejemplos de filtros
browse if pop > 10000000
browse if pop > 10000000 & marriage > 100000
browse if pop > 10000000 & marriage > 100000 & popurban > 10000000
browse if pop > 10000000 | marriage > 100000 & popurban > 10000000
Uso del in
browse pop in 1/10
browse pop in f/10 f = FIRST, l = LAST
browse pop in 10/l hasta el ltimo
Se puede combinar con que realizar el filtro puede usar los comandos browse, edit, keep, drop y list.
drop elimina observaciones y/o variables.
keep conserva observaciones y/o variables.
list presenta variables y/o observaciones en la ventana de resultados.
(5 unique values)
1 5 74
. # # # # Missing 5
# # # Total 69 69 -
# #
# Positive 69 69 -
# Zero - - -
# Negative - - -
Total Integers Nonintegers
rep78: Repair Record 1978 Number of Observations
. inspect rep78
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
31
edit permite visualizar los datos en una hoja de datos y podr editar y modificar los datos.
browse realiza las mismas opciones de edit pero no se puede modificar la informacin.
El comando keep y drop tienen la misma estructura
keep/drop variables
keep/drop if expresin
keep/drop in rango
Ejemplos
sysuse census
drop death divorce * Elimina las variables death y divorce
keep state pop* medage marriage * Conserva las variables indicadas
drop if medage > 30 * Elimina las observaciones donde medage sea mayor a 30
sort popurban
keep in -10/l * Conserva las ltimas 10 observaciones con mayor popurban
2.6 ADMINISTRADOR DE VARIABLES
En la versin 11 de Stata se incluy la ventana del administrador de variables, este
administrador de variables permite modificar informacin de cada variable, principalmente
el cambio de nombre, etiquetas, tipo de variable, formato, notas y creacin de categoras y
etiquetas.
Figura 13. Administrador de variables.
Para la modificacin de la variable, deber ser seleccionada la variable y una vez
modificada la informacin correspondiente debe dar click en Apply.
En la versin 12 Stata ha incluido una nueva ventana que es la ventana de propiedades en la
cual se pueden modificar la informacin de cada variable:
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
32
Figura 14. Ventana de Propiedades
Entre los cambios del administrador de variables y la ventana de propiedades se encuentran
las siguientes opciones, se describe el comando correspondiente para automatizacin de
tareas.
2.6.1 Rename
Este comando permite cambiar el nombre de una variable. Por ejemplo
rename nombreviejo nombrenuevo
rename price precio
2.6.2 Label Variable
Para ponerle nombre o etiqueta al variable
label var nombrevariable etiqueta variable
lable var precio Precio del auto
2.6.3 Notes
Se pueden crear dos tipos de notas, una para la base de datos o para la base de datos, a
continuacin un ejemplo para cada caso:
notes divorce: 1 si la persona es divorciada, 0 en otro caso * nota para la variable divorce
notes _dta: Censo 1994 * nota para la base de datos
2.7 CREACIN DE CATEGORAS
La forma ms sencilla de crear categoras de variables es por medio del administrador de
variables, la variable que seleccionar debe ser discreta, una vez inicie el administrador
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
33
debe seleccionar la variable que codificar, luego debe dar clic en Manage que se encuentra
a la derecha de la opcin Value label
La figura 14 presenta el administrador de etiquetas, en el cual podr crear, editar o eliminar
etiquetas y para las etiquetas ya creadas puede agregar, editar o eliminar valores que se
encuentran en una etiqueta creada.
Figura 14. Administrador de Value Labels
Para crear una nueva etiqueta haga clic en Create Label, en la figura 15 podr agregar,
eliminar y editar las categoras con su correspondiente descripcin.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
34
Figura 15. Creacin de Labels
Una vez haya creado la etiqueta deber asignarla a la(s) variable(s) que correspondan, para
ello en el administrador de variable a la izquierda de Manage seleccione el nombre de la
etiqueta.
Figura 16. Asignacin de etiquetas
Por medio de comandos
label define respuestas 1 si 2 no * Creacin de la etiqueta con sus valores
label values pregunta1 respuestas *Se asigna a la variable pregunta1 la etiqueta respuestas
2.8 MODIFICACIN Y TRANSFORMACIN DE VARIABLES
En la seccin anterior se present la forma de creacin de variables por medio de los comandos gen
y egen, de igual forma el comando replace. Pero existen otras formas de modificar variables ya sea
en su formato, tipo de variable, codificacin entre otras, a continuacin se presentan las ms
importantes.
2.8.1 Recode
Este comando permite recodificar algn valor de una variable
recode x (1=2), gen(nx)
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
35
recode x1 (1=2), gen(nx1)
En el ejemplo 1 se recodifica la variable x, cambiando los valores 1 por valores 2, la variable
transformada se guarda como nx.
Figura 17. Recode
En el ejemplo 2 se cambia de 1 a 2 y de 2 a 1, generando la variable nx1.
2.8.2 Divisin de Variables de texto
Split divide una variable texto en nuevas variables por el espacio o un carcter especfico
split var1, parse(,) gen(geog)
2.9 COMBINACIN DE BASES DE DATOS
La combinacin de bases de datos es un problema muy comn para el investigador o el analista de
informacin, Stata le permite realizar diferentes tipos de fusiones de bases de datos, a continuacin
presentaremos los dos formatos ms importantes, la adicin vertical (merge) y horizontal (append).
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
36
2.9.1 Combinacin Vertical Append
Este comando agrega filas a la base de datos, las variables deben como regla contener los mismos
nombres, el mismo tipo de variable y adems la base de datos sus variables deben estar ordenadas
de igual forma. Para combinar conjuntos de datos verticalmente se emplea el comando append.
En nuestro ejemplo, a la base de datos HOMBRES vamos a adicionar los casos correspondientes la
informacin de las mujeres as:
use hombres, clear
append using MUJERES
En la nueva base de datos se ha combinado la informacin hombres y mujeres en una nica base de
datos.
d
EDUCACION.dta
HOMBRES.dta
Adicin casos:
append
No es necesaria
variable llave
MUJERES.dta
Adicin de variables:
merge
Es necesaria variable llave.
Las bases de datos deben
estar ordenadas.
Revisar la variable _merge
Semi-elasticidad: Cambio porcentual
esperado en y ante un cambio marginal
en x. En nuestro ejemplo ,
2
,
3
y
4
Variable
dependiente en
niveles
Cambio esperado en nivel en y ante
un cambio porcentual en x
Efecto marginal: Cambio esperado en
nivel en y ante un cambio marginal en
x.
Resumen estadstico de la muestra empleada en la estimacin: Raras veces el nmero de
observaciones empleadas en las estimaciones coincide exactamente con las observaciones
que originalmente estaban disponibles en la base de datos. Para obtener una descripcin
resumida de la muestra empleada efectivamente en la estimacin despus realizar MCO
empleamos el comando estat sum el cual genera el siguiente resultado.
estat sum
Es fcil comprobar que las caractersticas de las personas en la muestra empleada en la estimacin
difieren de las observadas en la base de datos original.
PRUEBAS DE HIPTESIS LINEALES: Una vez realizada una regresin lineal es posible
probar hiptesis lineales sobre los coeficientes estimados a travs del comando test as:
test lnm=1
En el primer caso se prob que si el coeficiente estimado asociado a las horas de trabajo al mes es
igual a 1. La probabilidad de que el coeficiente sea 1 es cero, por los tanto no se acepta la hiptesis.
En trminos econmicos se podra afirmar que no hay elasticidad unitaria entre horas de trabajo al
mes y el ingreso laboral.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
101
EJERCICIO:
9. Pruebe la hiptesis de que todos los coeficientes del modelo exceptuando el intercepto son
estadsticamente iguales a cero. Compare con la prueba F generada por Stata en la regresin lineal
antes estimada.
10. Cuntos aos de experiencia laboral serian necesarios para maximizar los ingresos laborales
mensuales?
lincom -0.0347/(2*-0.0003987)
COMPROBACIN DEL CUMPLIMIENTO DE LOS SUPUESTOS DE MCO
MULTICOLINEALIDAD (Asociacin lineal entre variables): Pese a que en presencia de
multicolinealidad los estimadores son MELI (Mejores Estimadores Lineales Insesgados), los errores
estndar de los coeficientes estimados tienden a estar inflados (sobreestimados), haciendo ms fcil
que se acepte que uno o ms regresores son estadsticamente iguales a cero. La velocidad con la
cual se incrementan las varianzas y las covarianzas de los estimadores puede analizarse a travs del
factor inflador de varianza, el cual calcula Stata a travs del comando vif despus de ejecutar
regress as:
Vif
Los VIF de cada uno de los estimadores cuyo valor sea superior a 10 (algunos menos conservadores
consideran 30) indican que la variable a la que acompaan puede considerarse como una
combinacin lineal de otras variables independientes. Alternativamente suele observarse el ndice
de Tolerancia (1/VIF). Un ndice de tolerancia igual a 0.1 es equivalente a un VIF de 10. Valores de
tolerancia inferiores a 0.1 (0.333 para los menos conservadores) indican presencia moderada o
severa de multicolinealidad.
EJERCICIO:
11. Calcule cada uno de los VIF de la regresin anterior.
HOMOSCEDASTICIDAD: Es uno de los principales supuestos de MCO. En trminos generales,
en presencia de heroscedasticidad la varianza de los estimadores est sesgada (sobrestimada o
subestimada). En estos casos no se puede confiar en las pruebas t y F. Visto de otro modo, si el
modelo est bien especificado no debera existir un patrn definido entre los residuales del modelo
y la variable dependiente pronosticada. Cuando la varianza de los residuales no es constante se dice
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
102
que la varianza de los residuales es heteroscedstica. Existen mtodos grficos y mtodos formales
para detectar heteroscedasticidad.
Mtodo Grfico: A travs de un grfico que relacione los residuales del modelo contra los
valores estimados de la variable dependiente se puede hacer una primera comprobacin
visual de posibles patrones de interrelacin entre estas dos variables. Siguiendo con nuestro
ejemplo, en Stata se puede obtener este grfico a travs del comando rvfplot as:
rvfplot, yline(0)
No parece haber un patrn definido en los residuales del modelo.
Mtodo formal: Stata ofrece una gran variedad de pruebas de heteroscedasticidad para
modelos lineales estimados a travs de MCO. Sin embargo, una de las pruebas de
heteroscedasticidad ms ampliamente difundida es la prueba de WHITE. Esta prueba se
puede obtener despus de emplear el comando regress as:
imtest, white
Claramente se rechaza la prueba de homoscedasticidad. As mismo se puede constatar que los
residuales tienen problemas de asimetra (skewness) y apuntalamiento (kurtosis). Una forma simple
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
103
de corregir heteroscedasticidad segn el criterio de WHITE (1980)
7
es a travs de la opcin robust
en la estimacin por MCO as:
regress lny lnm edu007 exp exp2, robust
Aunque el problema de heteroscedasticidad no era importante (la significancia de los coeficientes se
mantuvo inalterado), se puede constatar que los errores estndar en el modelo correccin de
heteroscedasticidad son mayores, lo cual prueba que inicialmente estaban subestimados.
NORMALIDAD DE LOS RESIDUOS: Es un supuesto necesario nicamente garantizar la
validez de las pruebas t y F en MCO. En realidad, MCO tan solo requiere que los residuales estn
idntica e independientemente distribuidos. Despus de ejecutar el comando regress, podemos
emplear el comando predict seguido por la opcin res para estimar los residuales as:
predict residual, res
Mtodo Grfico: A continuacin empleamos los comandos kdensity y qnorm para
constatar grficamente si los residuos siguen una distribucin normal as: kdensity
residual, normal
7
WHITE H. 1980. A Heteroscedasticity Consistent Covariance Matriz Estimator and Direct Test of
Heteroscedasticity. Econometrica, vol 48.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
104
La opcin normal permite comparar la funcin de densidad de los residuales con una funcin de
densidad normal. Se puede observar apuntalamiento y asimetra en los residuales. Otra
comprobacin grfica de normalidad muy conocida es aquella que contrasta cuantiles de una
variable contra cuantiles de una distribucin normal. Cuanto ms cerca estn los cuantiles de la
variable a los cuantiles de la distribucin normal (lnea diagonal continua) ms cerca est la variable
de ser normal. Stata la representa a travs del comando qnorm as:
qnorm residual
Mtodo formal: Claramente hay problemas en los residuales que nos hacen pensar en que
no se cumple el supuesto de normalidad. Sin embargo, para estos casos en los que la
variable tiene muchas observaciones, Stata ofrece una prueba formal de normalidad a travs
del comando sktest as:
sktest residual
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
105
Se rechaza la hiptesis de normalidad en los residuales del modelo.
EXOGENEIDAD DE LAS VARIABLES INDEPENDIENTES: Otro supuesto bsico en
regresin lineal es que las variables explicativas estn determinadas por fuera del modelo que
estamos estimando. En otras palabras, suponemos que ninguno de los regresores est determinado
por otro u otros regresores dentro del modelo. A travs de la prueba de HAUSMAN (1978)
8
es
posible establecer si un regresor es exgeno o no. La prueba se realiza en etapas: en primer lugar,
estimamos un modelo que consideramos consistente pero ineficiente (en el sentido que no
empleamos toda la informacin disponible para explicar la variable dependiente).
A continuacin, estimamos otro modelo (el cual tiene en cuenta la variable que deseamos
comprobar si es exgena) que suponemos consistente y eficiente. En tercer lugar, empleamos el
estadstico de HAUSMAN el compara los coeficientes comunes en ambos modelos y sus
respectivas matrices de varianzas y covarianzas. Si no hay diferencias sistemticas en los
coeficientes la nueva variable se puede considerar exgena. Los pasos y los comandos necesarios
para realizar esta comprobacin en Stata son:
1. Estimamos el modelo consistente pero ineficiente (no tiene en cuenta la variable lnm)
regress lny edu007 exp exp2, robust
2. Lo almacenamos con el comando est store as:
est store reg
3. Estimamos el modelo que suponemos consistente y eficiente (tiene en cuenta la variable lnm)
regress lny lnm edu007 exp exp2, robust
4. Calculamos el estimador de HAUSMAN
hausman reg ., eq(1:1)
Existen diferencias sistemticas en los coeficientes, por lo tanto la variable lnm es endgena, en
otras palabras, puede estar explicada por los otros regresores del modelo.
EJERCICIO:
12. Pruebe la hiptesis de exogeneidad de cada una de las variables del modelo.
8
HAUSMAN J,. Specification Test in Econometrics, Economtrica Vol. 46. No. 6. 1978.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
106
PRONOSTICO: El pronstico de la variable dependiente se realiza empleando el comando
predict
predict lnyp if e(sample), xb
La opcin e(sample) restringe la estimacin a la muestra efectivamente empleada en la estimacin.
REPRESENTACIN GRAFICA DEL PRONSTICO DE LA VARIABLE DEPENDIENTE
Y SU RELACIN CON LOS REGRESORES: Finalmente es posible visualizar la aproximacin
del modelo de regresin lineal a travs de MCO, graficando el ingreso estimado promedio respecto
a cada una de las variables independientes. Por ejemplo, la relacin entre el ingreso estimado
promedio por ao de educacin y los aos de educacin se obtiene siguiendo los siguientes pasos:
egen plny_ed=mean(lnyp), by(edu007)
Generacin de los ingresos promedio estimados por ao de educacin
line plny_ed lny_ed edu007, sort
Grfico que representa los ingresos estimados y observados por ao de educacin y los aos de
educacin
Ahora tenemos una idea bastante clara de la aproximacin lineal que hemos llevado a cabo entre los
ingresos promedio y los aos de educacin a travs de MCO.
EJERCICIO:
13. Grafique la relacin promedio entre las variables dependiente y dependiente pronosticada contra
cada uno de los regresores del modelo.
14. Estime una ecuacin que adems tenga en cuenta el sexo como variable explicativa
15. Compruebe si se cumplen los supuestos de MCO
16. Cmo decidir cul de los dos modelos estimados (sin sexo y con sexo) es el mejor y como lo
hara en Stata?
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
107
6 MODELOS ARIMA
9
SERIE DE TIEMPO EN Stata MODELOS AUTORREGRESIVOS DE MEDIA MOVIL
(ARMA)
Los modelos autorregresivos (AR), de media mvil (MA) y autorregresivos de media mvil
(ARMA) se caracterizan por incorporar en la explicacin futura de la variable dependiente su
propio comportamiento pasado. Esta forma de modelar la conducta de una serie de datos temporales
hace posible, en su forma ms simple en modelos univariados, la generacin de pronsticos sin
emplear informacin adicional proveniente de otros regresores. En las secciones siguientes
seguiremos la metodologa de BOX y JENKINS (1976)
10
para estimar y pronosticar modelos
univariados de serie de tiempo a travs de Stata. En particular se har uso de la informacin
mensual de inflacin contenida en la base de datos INFLACION.dta.
Antes de desarrollar la metodologa de BOX y JENKINS aprenderemos a generar variables con
formato de fecha, variables rezagadas y a designar la variable que representar el tiempo en las
estimaciones. Cargamos la base de datos INFLACION.dta use INFLACION.dta
GENERACIN DE VARIABLES CON FORMATO DE FECHA Las variables de tiempo;
fechas en aos, semestres, trimestres, meses, semanas y das deben tener un formato especial en el
anlisis de serie de tiempo y panel de datos. Los formatos de estas variables en cada caso se
describen a continuacin:
Formato
Descripcin
Codificacin
%td %d
Diario
0 = 01jan1960;
1 = 02jan1960
%tw
Semanal
0 = 1960w1;
1 = 1960w2
%tm
Mensual
0 = 1960m1;
1 = 1960m2
%tq
Trimestral
0 = 1960q1;
1 = 1960q2
%th
Semestral
0 = 1960h1;
1 = 1960h2
%ty
Anual
1960 = 1960;
1961 = 1961
Es posible generar variables con formato de fecha a partir del comando generate. Por ejemplo, para
crear una variable con formato mensual empleamos la siguiente sintaxis:
9
Findit arimafit, Arimafit
Para crear una dummy para una fecha especifica
g dummy = (fecha ==tm(2008m10))
10
BOX G. & JENKINS G. Time Series Analiysis, Forecasting and Control. Holden Day, San Francisco. 1976
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
108
Como la base de datos es relativamente pequea podemos listar la informacin en la base de datos
por medio del comando list as: list
La variable fecha tiene un formato numrico general que corresponde al nmero de meses desde
1960. En el mes 1 del ao 2001 el nmero de meses transcurridos desde 1960 son 492. Sin
embargo a la variable fecha se le puede dar un formato numrico mensual as:
VARIABLES CON REZAGO
En anlisis de serie de tiempo resulta muy til generar variables con uno o ms rezagos. En estos
casos suele acompaarse al comando generate con los operadores [_N] y [_n]. El operador _N se
usa para contar el nmero total de observaciones en una variable y, el operador _n numera las
observaciones dentro de una variable.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
109
Por ejemplo, podemos generar una variable rezagada un periodo as:
g rezago = inflacion[_n-1]
En este ejemplo se debe tener en cuenta:
Inflacin es el nombre de la variable que ser rezagada.
Los corchetes en este caso deben ser cuadrados.
No puede hacer separacin entre la variable a rezagar y el corchete cuadrado de apertura.
-1 en este caso indica que la variable inflacion ser rezagada 1 perodo.
Al listar las variables fecha, inflacion y rezago se puede visualizar la nueva variable rezago
correspondiente a la inflacin rezagada un perodo.
list fecha inflacion rezago
DESIGNANDO LA VARIABLE QUE REPRESENTA AL TIEMPO: Antes de estimar
cualquier modelo de serie de tiempo es necesario que Stata reconozca la variable que representa el
tiempo (en nuestro ejemplo, la variable fecha). Este paso se logra a travs del comando tsset as:
tsset fecha, monthly
La opcin monthly indica la periodicidad mensual de la variable de tiempo fecha.
NOTA: Para hacer pronsticos varios perodos hacia delante es necesario que la variable que
representa el tiempo se extienda tantos perodos hacia delante como perodos de la variable
dependiente se quieran pronosticar. En nuestro ejemplo, 7 perodos hasta diciembre de 2006. Se
dispone de informacin de inflacin hasta mayo de 2006.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
110
METODOLOGA BOX JENKINS (BJ) APLICADA AL CASO DE SELECCIN Y
ESTIMACIN DE UN MODELO ARMA PARA PRONOSTICO DE LA INFLACIN.
BOX JENKINS difundieron una metodologa en tres fases para identificar, estimar y validar
modelos de serie de tiempo univariada y generar pronsticos. A continuacin seguiremos estos
pasos para obtener un modelo de pronstico tipo ARMA para la inflacin mensual.
1. FASE DE IDENTIFICACIN: La primera aproximacin a los datos es grfica. Al
graficar la variable a pronosticar respecto al tiempo obtenemos informacin sobre posibles
outliers, valores perdidos missing values o cambios estructurales en la serie de datos.
As mismo, si la variable a pronosticar es no estacionaria podrn observarse tendencias
pronunciadas o comportamientos sin media y/o varianza constante a travs del tiempo. Con
el comando tsline es posible efectuar esta primera constatacin as:
tsline inflacion
A su vez es posible constatar si se viola el supuesto de estacionariedad comprobando la existencia
de races unitarias por medio de la prueba de DICKEY y FULLER DF (1979)
11
. En Stata la prueba
se puede efectuar a travs del comando dfuller as:
dfuller inflacion, trend regress lags(7)
Nota: Previamente se comprob la no que no eran significativos los rezagos 7,,12 (se probaron
12 rezagos porque la serie es mensual). Para tener en cuenta la tendencia en la prueba se emplea la
opcin trend. La opcin regress se puede omitir si tan slo se desea el valor del estadstico DF.
Para omitir la constante se emplea la opcin noconstant.
11
DICKEY D. & FULLER W. 1991. Distribution of the Estimates for Autoregressive Time Series With a
Unit Root. Journal of the American Statistical Association 74.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
111
Al 1% de significancia se rechaza la hiptesis de existencia de raz unitaria, en otras palabras, se
puede pensar que la variable inflacin ha sido generada por un proceso estacionario.
El paso a seguir consiste en identificar la naturaleza del proceso generador de datos (en nuestro
ejemplo, la inflacin). Para llevar a cabo esta tarea se suele recurrir a las funciones de
autocorrelacin (para identificar el componente de media mvil MA del modelo) y autocorrelacin
parcial (para identificar el orden la parte autorregresiva AR del modelo). En Stata ambas funciones
se pueden graficar con los comandos ac y pac respectivamente as:
ac inflacion
pac inflacion
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
112
2. FASE DE ESTIMACIN: Las funciones de autocorrelacin y autocorrelacin parcial
sugieren varios procesos ARMA factibles para la inflacin. La seleccin de los modelos
debe tener en cuenta los criterios de parsimonia (menor parametrizacin posible)
estacionariedad e invertibilidad de la variable dependiente y bondad de ajuste del
modelo. A continuacin presentamos una de los posibles procesos ARMA para la inflacin.
El comando para estimarlos en Stata es arima y a travs de las opciones ar(nmero de los
rezagos de la variable dependiente separados por comas) ma(nmero de los rezagos
separados por comas) se puede especificar el componente autorregresivo y de media mvil
as:
arima inflacion tendencia, ar(1,12) ma(5,8,11) robust
Nota: El orden de integracin en este caso es 0. Sin embargo a travs del prefijo D1., D2.,
D3.,,etc., antecediendo la variable dependiente (por ejemplo, D1.inflacion, D2.inflacion,
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
113
D3.inflacion,) se pueden lograr diferenciaciones de orden superior. La opcin robust genera una
matriz de varianzas y covarianzas consistente con posibles problemas de heteroscedasticidad.
A travs del comando estat ic se puede obtener el criterio de informacin de Akaike (AIC) y el
criterio bayesiano de Schwartz (BIC) los cuales son las dos medidas ms comunes de bondad de
ajuste. Cuanto ms pequeo es el valor de los estadsticos (AIC) y (BIC) mejor ajuste tiene el
modelo. Estos criterios se pueden emplear para seleccionar el modelo ms apropiado de un conjunto
de posibles modelos.
estat ic
3. FASE DE VERIFICACIN Y DIAGNOSTICO: Es muy importante que los residuales
del modelo estimado no estn serialmente correlacionados. Cualquier evidencia de
correlacin serial implicara movimientos sistemticos en la variable dependiente que no
han sido tenidos en cuenta por los coeficientes incluidos en el modelo ARMA. Para
chequear correlacin en los residuales se pueden construir las funciones de autocorrelacin
y autocorrelacin parcial para los residuales. A travs del comando predict seguido de la
opcin res podemos estimar los residuales as:
predict residual, res
ac res
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
114
pac res
En una prueba ms general, se puede constatar si los residuales son ruido blanco, en otras
palabras, tienen media cero, varianza constante y no estn serialmente correlacionados. A travs del
comando wntestq realizar esta prueba as:
wntestq residual
No hay evidencia para rechazar que la serie de residuales es ruido blanco.
PRONSTICOS Finalmente, podemos emplear el modelo para hacer pronsticos. El pronstico
se puede hacer tantos periodos hacia delante como horizonte temporal tenga la variable de tiempo
fecha la cual est definida entre el mes 1 de 2001 y el mes 12 de 2006, mientras que se tiene dato
mensual de inflacin hasta el mes 5 de 2006. A travs del comando predict seguido de la opcin xb
podemos pronosticar la inflacin para los siguientes 7 meses as:
predict inf_p, xb
El pronstico de inflacin para el mes 6 de 2006 (segn este proceso ARMA) es del 0.366%.
Listamos las variables fecha, inflacin e inf_p a travs del comando list as:
list fecha inflacion inf_p
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
115
Finalmente, a travs del comando tsset es posible visualizar los valores observados y pronosticados
de la inflacin hasta diciembre de 2006.
tsline inflacion inf_p
EJERCICIO:
24. Replique las fases 1, 2 y 3 de la metodologa de BJ para generar un proceso ARMA para la
inflacin.
25. Compar entre varios modelos posibles la bondad de ajuste de los mismos para seleccionar el
mejor modelo.
26. Pronostique la inflacin para los prximos 6 meses y grafique los resultados frente a los valores
observados.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
116
7 MODELOS DE VARIABLE DEPENDIENTE DICOTMICA
MODELOS LOGIT Y PROBIT
Si queremos analizar los factores que determinan que una persona participe o no en el mercado
laboral, o que un individuo apoye o no a un determinado candidato poltico, o que un estudiante
alcance o no la titulacin. Todas esas variables de anlisis pueden tomar uno de dos valores:
participacin vs. no participacin; apoyo vs. no apoyo; titulacin vs. no titulacin. Esa caracterstica
recibe el nombre de respuesta binaria o dicotmica.
En la encuesta CASEN 2006 se encuentra la variable ACTIV, que considera a la poblacin en edad
de trabajar (15 aos y superior). El comando tab acompaado de los pesos relativos nos permite
alcanzar una descripcin de la condicin actividad en Chile para dicho ao:
ACTIVIDAD Freq. Percent Cum.
Ocupados 6,578,325 53.11 53.11
Desocupados 519,357 4.19 57.3
Inactivos 5,288,175 42.7 100
Total 12,385,857 100
De la Poblacin en Edad de Trabajar el 53% se encontraba ocupada, el 4% de la poblacin se
encontraba desempleada y un 42% no se estaba ni trabajando ni buscando empleo. La Poblacin
Econmicamente Activa est determinada por aquella poblacin ocupada o buscando activamente
empleo, por lo que el 57% participaba activamente en el mercado laboral. Podemos generar una
variable de participacin a partir la variable ACTIV. La siguiente cadena de comandos genera la
variable PARTI:
gen PARTI=1 if ACTIV==1 | ACTIV==2
recode PARTI (mis=0) if ACTIV==3
label variable PARTI "Participa en el mercado laboral"
label define part 1 "si" 0 "no"
label values PARTI part
tab PARTI [w=EXPR]
Participa Freq. Percent Cum.
No 5,288,175 42.7 42.7
Si 7,097,682 57.3 100
Total 12,385,857 100
Para el propsito de este ejemplo vamos a considerar las variables de gnero, edad, estado civil,
nivel de estudios, nivel de ingresos del hogar, relacin con el jefe de hogar y el nmero de personas
en el hogar. Sin embargo, en un modelo ampliado podran considerarse otras variables.
Algunas de las opciones que se pueden utilizar para analizar la variable de participacin son:
-Modelo de regresin logstica (el usado en el presente ejemplo)
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
117
-Modelo de regresin probabilstica. Los resultados bajo este tipo de anlisis producen resultados
similares a los resultados de la regresin logstica. La escogencia entre uno y otro modelo depende
de las preferencias del investigador. Estos dos modelos construyen una funcin de probabilidad
acerca de la ocurrencia del evento a describir, (en este caso que un individuo participe en el
mercado laboral) y la diferencia est en la forma funcional que asume cada modelo
12
.
-Mnimos cuadrados ordinarios. Cuando se utiliza esta metodologa sobre una variable dicotmica
se le conoce como un modelo lineal de probabilidad. Sin embargo, los residuos de la estimacin
violan los supuestos de homocedasticidad y de normalidad del modelo clsico, lo que resulta en
errores estndar y pruebas de hiptesis invlidas
13
.
REPRESENTACIN DE LAS RELACIONES ENTRE VARIABLES
Participacin y Gnero
Participa en el Mercado Laboral
Sexo no si Total
Hombre 1,622,038 4,303,680 5,925,718
Mujer 3,666,137 2,794,002 6,460,139
Total 5,288,175 7,097,682 12,385,857
Participacin y Nivel Educativo
12
La funcin logstica es
Donde i significa la i-sima unidad transversal (individuo) y t el tiempo.
Con la base nls_panel.dta, entre las variables:
lwage exper exper2 tenure tenure2 south union black educ,
Recordar hacer descripcin de las variables y adems decirle a Stata que es una base tipo panel.
log using ch15_nls_re, replace text
use nls_panel, clear
_cons .4766 .0561559 8.49 0.000 .3664993 .5867008
educ (omitted)
union .1322432 .0149616 8.84 0.000 .102909 .1615774
south -.1060026 .0142008 -7.46 0.000 -.1338451 -.07816
black -.1167139 .0157159 -7.43 0.000 -.1475269 -.0859008
tenure2 -.000486 .0002577 -1.89 0.059 -.0009913 .0000192
tenure .01496 .0044073 3.39 0.001 .006319 .023601
exper2 -.0011475 .0003613 -3.18 0.002 -.0018559 -.0004392
exper .0556851 .0086072 6.47 0.000 .0388096 .0725605
educ .0714488 .0026894 26.57 0.000 .0661759 .0767217
lwage Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 772.56123 3579 .215859522 Root MSE = .38197
Adj R-squared = 0.3241
Residual 521.026185 3571 .14590484 R-squared = 0.3256
Model 251.535045 8 31.4418807 Prob > F = 0.0000
F( 8, 3571) = 215.50
Source SS df MS Number of obs = 3580
note: educ omitted because of collinearity
. reg lwage educ exper exper2 tenure tenure2 black south union educ
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
135
8.10 EFECTOS ALEATORIOS
La ecuacin (1) supone que el intercepto de la regresin es la misma para todas las
unidades transversales. Sin embargo, es muy probable que se necesite controlar el carcter
individual de cada individuo. El modelo de efectos aleatorios permite suponer que cada
unidad transversal tiene un intercepto diferente. Este modelo se expresa como:
Donde
, en (2) tenemos:
Stata realiza la estimacin de efectos aleatorios con el comando xtreg, re.
Si se analiza (3), se puede observar que si u
i
es igual a cero, es decir
, no existe
diferencia entre (1) y (3).
Para saber si utiliz efectos aleatorios o datos agrupados entonces debo realizar la prueba
de Breusch - Pagan, la prueba del Multiplicador de Lagrange para Efectos Aleatorios. La
hiptesis nula de esta prueba es que
Donde v
i
es un vector de variables dicotmicas para cada estado. El modelo se estima de la
siguiente forma
El cual estima una dummy para cada individuo, (la base tiene 716). Pero la opcin ms
sencilla es por medio de xtreg
Prob > chi2 = 0.0000
chi2(1) = 3859.28
Test: Var(u) = 0
u .1082737 .3290497
e .0380681 .1951104
lwage .2158595 .4646068
Var sd = sqrt(Var)
Estimated results:
lwage[id,t] = Xb + u[id] + e[id,t]
Breusch and Pagan Lagrangian multiplier test for random effects
9 .0862207 .3293165 0.26 0.793 -.5595012 .7319426
8 .1714799 .3293968 0.52 0.603 -.4743996 .8173593
7 .3502798 .3298208 1.06 0.288 -.296431 .9969906
6 .2891988 .4476351 0.65 0.518 -.5885216 1.166919
5 .7703423 .2173306 3.54 0.000 .3442017 1.196483
4 .8530533 .1311647 6.50 0.000 .5958663 1.11024
3 .5301255 .1301154 4.07 0.000 .2749959 .785255
2 -.6097623 .5683056 -1.07 0.283 -1.724093 .5045682
id
educ (omitted)
union .0636972 .0142538 4.47 0.000 .0357485 .091646
south -.0163224 .036149 -0.45 0.652 -.0872031 .0545584
black .4436098 .1296263 3.42 0.001 .1894394 .6977803
tenure2 -.0008962 .0002059 -4.35 0.000 -.0012999 -.0004926
tenure .0139089 .0032778 4.24 0.000 .0074818 .0203361
exper2 -.0004091 .0002733 -1.50 0.135 -.000945 .0001269
exper .0410832 .00662 6.21 0.000 .0281027 .0540637
educ .2095154 .1238721 1.69 0.091 -.0333723 .4524031
lwage Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 772.56123 3579 .215859522 Root MSE = .19511
Adj R-squared = 0.8236
Residual 108.798526 2858 .038068064 R-squared = 0.8592
Model 663.762704 721 .920614014 Prob > F = 0.0000
F(721, 2858) = 24.18
Source SS df MS Number of obs = 3580
note: 716.id omitted because of collinearity
note: 715.id omitted because of collinearity
note: educ omitted because of collinearity
. reg lwage educ exper exper2 tenure tenure2 black south union educ i. id
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
137
Ahora se debe seleccionar agrupados o fijos?, (1) (4), el modelo (1) es ms restringido
dado que asume un intercepto comn para todos los estados, es decir, no incluye variables
dicotmicas individuales. Por lo tanto, utilizando la prueba F, la cual la hiptesis nula es
que
Donde
Donde k = 1, , K variables independientes de inters, i = 1, , N unidades sociales y t = 1, , T
observaciones en el tiempo. La variable Yt es la endgena y Y
t-1
es la variable endgena rezagada
un perodo en el tiempo, x
t
son las variables explicativas o exgenas cuyos retardos en el tiempo
tambin pueden ser incluidos en el modelo causal y u
t
es el error del modelo.
Lo anterior es una solucin para evitar el problema de errores correlacionados entre s cuando se
realiza la estimacin por MCO.
Adems el hecho de que y
t-1
se incluya en el modelo permite controlar por el efector qu valores
precios de la variable endgena tienen en el valor presente, y con ello, el efecto de las variables
independientes puede ser ms acertado y preciso que en cualquier otro caso. El coeficiente
asociado con y
t-1
representa lo que se denomina la tasa de descuento, es decir, la tasa de
decrecimiento del efecto de valores pasado de y
t-1
.
Incluir rezagos genera problemas de estabilidad de los parmetros y adems la inclusin de rezagos
no necesariamente soluciona totalmente el problema de autocorrelacin serial, para ello se podra
incluir un comportamiento autorregresivo para el error. Otro problema es que las estimaciones
pueden ser sesgadas dificultando muchas veces la estimacin del modelo. Una solucin a este
problema es la realizacin de modelos incluyendo variables instrumentales.
MTODO DE ARELLANO BOND PARA PANEL CON REZAGOS
Comando xtabond
use http://www.stata-press.com/data/r9/abdata
xtabond n l(0/1).w l(0/2).(k ys) yr1980 yr1981 yr1982 yr1983 yr1984, lags(2)
RAICES UNITARIAS Y COINTEGRACIN
Los contrastes de races unitarias con datos de panel son similares a los contrastes de races
unitarias efectuados en modelos de nica seria. Se parte de la siguiente ecuacin:
Se evala por medio de los test de Fisher ADF y Fisher PP para contrastar la existencia de races
unitarias en datos de panel, combinan lo p valores de los test de races unitarias individuales. La
hiptesis nula de que hay una raz unitaria en todos los N cortes transversales, una de las formas
ms sencillas para verificar COINTEGRACIN es comprobar mediante un contraste de races
unitarias de panel, que los residuos del modelo de panel estn exentos de races unitarias.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
143
9 INTRODUCCIN A LA PROGRAMACIN
Help comments
Capture
Ejecuta el comando y no muestra resultados ni errores
9.1 LOCAL MACROS
Las macros locales de Stata le van a permitir trabajar ms fcilmente con Stata, estas
macros le permitirn alojar objetos como nmeros, variables o varios conjuntos de objetos.
Estos objetos pueden contener caracteres alfanumricos y hasta 8000 caracteres. El
comando para definir una macro es con local seguido por el nombre del objeto y sus
caractersticas.
Ejemplos:
local country US UK DE FR
local ctycode 111 112 136 134
display country
US UK DE FR
El comando global le permite crear nombres de listas de variables, para as poder referirse a ellas de
forma conjunta y evitar tener que escribir cada una de ellas cada vez que vayamos a utilizarlas.
Por ejemplo
global grupo1 var1 var2 var3
Luego para hacer referencia al grupo de variable utilizando algn comando, se debe anteponer el
smbolo $ al nombre del grupo
Por ejemplo keep $grupo1
9.2 CREANDO CICLOS
Una de las utilidades principales de la programacin es la creacin de loops estos le permiten al
usuario crean rutinas para evaluar diferentes alternativas o para crear ciclos de comandos. Los
comandos ms importantes para estos ciclos son forvalues y foreach.
Comando IF
If expression {
Comandos Stata
}
else if expression {
comandos stata
}
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
144
else {
comandos stata
Comando For
set obs 100
For new u1-u10: gen x=uniform()
For any . : replace z=. If y= X
For new x2-x5 \ num 2/5: gen X =variable^Y
Comando Forvalues
forvalues nueva_macro = rango {
comandos referidos a nueva_macro
}
program define diez
forvalues i = 1(1)10 {
display "`i'"
}
End
Comando While:
while condicion {
comandos Stata
}
local i = 1
while `i' <= 10 {
display `i'
local i = `i' + 1
}
9.3 ESCALARES Y MATRICES
scalar raiz2 = sqrt(9)
generate raizPIB = PIB*raiz2
Los estadsticos, pruebas y resultados que genera Stata es posible visualizarlos por medio del
comando return y ereturn. Por ejemplo
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
145
Luego se obtienen los resultados
Veamos en este caso, al hacer un comando de sum e indicando la opcin de detail, Stata nos
muestra los resultados generales ms otras medidas de percentiles, la curtosis y la simetra. Ahora
suponiendo que se quiere armar una tabla que muestre para la base de nlsw.dta, por raza, el
promedio del salario, la mediana, la varianza y el nmero de observaciones. Para ello se usar la
construccin de una matriz.
Para la creacin de la matriz se construye indicando el tamao que se quiere.
La matriz a generar es:
BLACK WHITE
Promedio
Varianza
99% 15906 15906 Kurtosis 4.819188
95% 13466 14500 Skewness 1.653434
90% 11385 13594 Variance 8699526
75% 6342 13466
Largest Std. Dev. 2949.496
50% 5006.5 Mean 6165.257
25% 4195 3748 Sum of Wgt. 74
10% 3895 3667 Obs 74
5% 3748 3299
1% 3291 3291
Percentiles Smallest
Price
. sum price, detail
r(p99) = 15906
r(p95) = 13466
r(p90) = 11385
r(p75) = 6342
r(p50) = 5006.5
r(p25) = 4195
r(p10) = 3895
r(p5) = 3748
r(p1) = 3291
r(max) = 15906
r(min) = 3291
r(sum) = 456229
r(kurtosis) = 4.819187528464004
r(skewness) = 1.653433511704859
r(sd) = 2949.49588476892
r(Var) = 8699525.97426879
r(mean) = 6165.256756756757
r(sum_w) = 74
r(N) = 74
scalars:
. return list
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
146
Mediana
No. Observaciones
Usamos el comando matrix, help matrix_functions
matrix define A=J(4,2,0)
matrix A[1,1] = r(mean)
matrix A[2,1] = r(p50)
matrix A[3,1] = r(Var)
matrix A[4,1] = r(N)
Debe hacer lo mismo para los negros
Ahora a continuacin le damos los nombres a las filas y a las columnas
matrix rown A = Promedio Media Varianza Observaciones
matrix coln A = Blanco Negro
Para pasar de matriz a variable, se usa el comando svmat.
99% 38.70926 40.19808 Kurtosis 14.74577
95% 17.34411 40.19808 Skewness 3.00474
90% 13.14009 40.19808 Variance 35.46285
75% 9.758451 40.19808
Largest Std. Dev. 5.955069
50% 6.545891 Mean 8.082999
25% 4.516906 1.501798 Sum of Wgt. 1637
10% 3.344482 1.392914 Obs 1637
5% 2.875546 1.032247
1% 2.090301 1.004952
Percentiles Smallest
hourly wage
. sum wage if race ==1, d
r4 1637 583
r3 35.462848 25.767671
r2 6.5458913 5.434783
r1 8.0829994 6.8445578
c1 c2
A[4,2]
. matrix list A
Observacio~s 1637 583
Varianza 35.462848 25.767671
Media 6.5458913 5.434783
Promedio 8.0829994 6.8445578
Blanco Negro
A[4,2]
. matrix list A
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
147
svmat A
Ejercicio.
1. Ahora haga una prueba de igualdad de medias de los salarios, por la raza
2. Cree una tabla de resultados tal como se presenta a continuacin
BLANCO NEGRO ESTADSTICAS
Promedio Observaciones Promedio Observaciones Diferencia Error std T-test
La primera fila no es posible crearla en Stata, entonces solamente ingrese como nombres la segunda
fila.
Ahora utilizando loops realice la siguiente tabla por las variables tenure, hours, wage grade
SINGLE MARRIED ESTADSTICAS
Promedio Observaciones Promedio Observaciones Diferencia Error std T-test
tenure
hours
wage
grade
global grupo tenure hours wage grade
Definimos una matriz 4x7
matrix def C=J(4,7,0)
Se genera el indicador del loop i que comience desde cero
local i = 0
Utilizando el comando foreach me dice que para cada variable en el grupo que acabo de formar
realice los comandos dentro del loop.
foreach var in $grupo {
local i = `i'+1
preserve
qui ttest `var', by(married)
matrix C[`i',1]=r(mu_1)
matrix C[`i',2]=r(N_1)
matrix C[`i',3]=r(mu_2)
matrix C[`i',4]=r(N_2)
matrix C[`i',5]=r(mu_1) - r(mu_2)
matrix C[`i',6]=r(se)
matrix C[`i',7]=r(t)
restore
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
148
}
matrix rown C = tenure hours wage grade
matrix coln C = Prom1 Obs1 Prom2 Obs2 Dif ErrSt T-test
matrix list C
10 TRUCOS CON Stata
ALGUNOS CONSEJOS CON Stata
16
1. Si quiere redondear los nmeros en su base de datos podr usar los comandos floor(),
round() y ceil().
Ejemplos:
Sysuse auto
gen g_ratio = floor(gear_ratio)
gen g_ratio = ceil(gear_ratio)
2. En algunas ocasiones se recomienda que el usuario antes de ejecutar algn comando o un
archivo .do, verifique que las condiciones se cumplan, una de las formas para verificarlo es
usando el comando assert.
Ejemplo:
Sysuse bplong
Assert sex == 0 | sex ==1
Replace sex = 3 in 1
Assert sex == 0 | sex == 1
3. Para ingresar carcteres de texto en grficas, crear variables, tablas, puede utilizar el
comando char() , en su interior debe ingresar el cdigo ASCII
Ejemplos
gen arroba = char(64)
local copyr = char(169)
scatter Price mpg, xtitle(MPG) ytitle(Precio `copyr)
4. El commando creturn, c(), le permite al usuario obtener la informacin parametrizada del
sistema, tal como, meses, das, fecha actual, versin de Stata. Algunos ejemplos son:
display `c(alpha)
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
di `c(ALPHA)
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
16
Retomado del libro Seventy-six of Stata tips.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
149
di `c(Mons)
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
di `c(current_date)
di `c(current_time)
di `c(sysdir_stata)
di `c(N)
di `c(k)
di `c(memory)
di `c(more)
di `c(virtual)
di `c(pi) - Genera el nmero Pi
5. Fillin
Clear
Set obs 20
Gen y = _n
Gen x = y
Fillin y x
6. Predefiniendo teclas, Stata, le permite al usuario la posibilidad de usar las teclas funtions,
para el llamado de comandos, funciones, caracteres, entre otros.
Ejemplo:
Global F4 = char(96)
Global F4 = char(180)
Global F4 = list;
7. Si desea ejecutar un comando y que el resultado no aparezca utilice el comando quietly
Ejemplo
quietly summarize x
8. Descargar programas escritos por usuarios
net from http://www.stata.com
net cd stb
net cd stb42
net install sbe16_1
9. Actualizacin Menores de Stata
Stata es un programa que continuamente se encuentra en desarrollo, adems, al contar con
una amplia comunidad de usuarios en diferentes partes del mundo le brinda la oportunidad
de estar frecuentemente mejorado por los Statistical Software Components (SSC) que
continuamente generan los usuarios.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
150
Pero Stata en su versin 11.0 ha generado ya dos actualizaciones menores dentro de esta
versin, siendo la ms actual la versin 11.2, los usuarios que tengan registrado el software
y que cuenten con una conexin a Internet podrn acceder a la ltima actualizacin de
forma gratuita, lo primero que debe verificar es la conexin a internet, si se encuentra en un
equipo que pertenece a una red deber consultar si su conexin requiere proxy, para
configurar el proxy en Stata debe ir a Edit Preferences General Preferences
Posteriormente en la pestaa de Internet, configur el proxy, el puerto y el usuario y
contrasea en caso de ser necesario.
En la misma pestaa de Internet podr activar la opcin de actualizacin automtica, si
activa esta opcin debe tener en cuenta que cada vez que Stata se inicie se actualizar con
la frecuencia que usted seleccione y el tiempo de la actualizacin depender de su conexin
a internet.
En caso de no activar la actualizacin automtica, usted podr realizar la actualizacin en el
momento que lo desee, ingresando en la ventana de comandos el comando update all el
cual le indicar paso a paso las instalaciones que desea.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
151
Recomendamos tambin ver la ayuda de
help update
help ssc
help net
help sj
10. Ejecutando comandos en Stata sin resultados (quietly)
El comando quietly de Stata permite ejecutar otros comandos de Stata sin presentar los
resultados o salidas en la ventana de resultados, la instruccin se ubica como prefijo al
comando principal. Esta es una herramienta clave si se requiere retornar algunos resultados
por ejemplo: media, varianza, coeficientes, etc., (ver listado de la opcin r() por medio de
help return list) sin necesidad de ver la salida completa.
Ejemplo 1.
sysuse auto, clear
quietly summarize mpg, detail
Ejemplo 2.
quietly: summarize mpg, detail
De igual forma se pueden ejecutar un bloque o grupo de comandos con quiet
Ejemplo 3.
sysuse auto, clear
quietly {
summarize mpg, detail
local a=r(mean)
summarize price, detail
local a=r(mean)
}
En el caso que se desee mostrar un resultado completo en un bloque de comandos, se usa el
comando noisily como prefijo al comando principal.
Ejemplo 4.
sysuse auto, clear
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
152
quietly {
summarize mpg, detail
local a=r(mean)
noisily summarize price, detail
local a=r(mean)
}
Para ms informacin ver:
help quietly
11. HERRAMIENTA DE CALIFICACIN DE Stata 12
La versin de Stata 12 liberada el pasado mes de agosto, incluy una nueva herramienta
denominada Installation Qualification Tool (IQT) la cual verifica que el software y todas
sus actualizaciones estn instaladas correctamente, en ste momento se cuenta con IQT
para Windows y Mac y tambin para las versiones 11 y 12.
Para descargar la herramienta ingrese a http://www.stata.com/support/installation-
qualification/, una vez descargado el programa, instlelo, se requiere que tenga permisos de
administrador para ejecutar la aplicacin.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
153
Una vez ejecutado la IQT deber instalar un recurso de evaluacin, para ello haga clic en
Browse de la opcin de Qualification source, seleccione una ubicacin, puede ser la carpeta
de Stata 12, e instale el complemento.
Al instalar el complemento, la aplicacin buscar la versin de Stata actual y las
actualizaciones realizadas, seleccione la que desee y de clic en RUN TEST.
El programa empezar a evaluar su correcta instalacin del software y generar un reporte
sobre los resultados del anlisis el cual podr exportar a PDF haciendo clic en Export.
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
154
Para mayor informacin dirjase a http://www.stata.com/support/installation-qualification/
12. Archivos en PDF de logs y grficas con Stata 12
En Stata 12 los archivos log (archivos de registro) se siguen generando como SMCL o texto. Pero
en esta ltima versin estos archivos pueden ser convertidos a formato PDF. Esto se puede hacer
fcilmente con el comando translate, por ejemplo:
log using c:/log1, replace
sysuse auto, clear
tab rep78 foreign
log close
translate c:/log1.smcl c:/log1.pdf , translator(smcl2pdf)
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
155
La visualizacin del PDF ser la siguiente:
Adems, en Stata 12 se puede producir un PDF de un grfico desde Stata. Por ejemplo
sysuse auto, clear
scatter mpg weight //, name(g1)
graph export c:/graph.pdf //name(windowname)
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
156
Al exportar a PDF
Para ayuda sobre un comando especfico digite:
help
Y por ejemplo especifique un comando
help translate
help graph export
Utilizar variables del sistema _n y _N
Las variables del sistema de Stata _n y _N se puede utilizar para hacer un gran nmero de
tareas que de otra manera sera difcil. En este truco vamos a ilustrar algunas de las cosas en
que estos pueden ser utilizados.
1
0
2
0
3
0
4
0
M
i
l
e
a
g
e
(
m
p
g
)
2,000 3,000 4,000 5,000
Weight (lbs.)
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
157
Definicin:
_n: la observacin actual
_N: El nmero total de observaciones en el conjunto de datos actualmente en la memoria
** Ejemplo 1
Generacin de observaciones que son una secuencia de nmeros igual al nmero de
observacin de Stata. Variable de resultado: number
Genera observaciones igual al nmero de la ltima observacin. La variable resultante:
number_T
clear all
set obs 10
generate number=_n
generate number_T=_N
El resultado de ejecutar lo anterior es:
+-------------------+
| number number_T |
|-------------------|
1. | 1 10 |
2. | 2 10 |
3. | 3 10 |
4. | 4 10 |
5. | 5 10 |
|-------------------|
6. | 6 10 |
7. | 7 10 |
8. | 8 10 |
9. | 9 10 |
10. | 10 10 |
+-------------------+
** Ejemplo 2
Invertir los datos para que la _N (ltima) observacin se convierta en la primera. Se realiza
para una variable en particular.
clear
set obs 10
generate number=_n
generate rev_number=number[_N-_n+1]
list
El resultado de ejecutar lo anterior es:
+-------------------+
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
158
| number rev_nu~r |
|-------------------|
1. | 1 10 |
2. | 2 9 |
3. | 3 8 |
4. | 4 7 |
5. | 5 6 |
|-------------------|
6. | 6 5 |
7. | 7 4 |
8. | 8 3 |
9. | 9 2 |
10. | 10 1 |
+-------------------+
** Ejemplo 3
Usando _N el comando con bysort para generar una variable que tiene el nmero total de
nios en las familias.
clear
input ///
famid child
1 1
2 1
2 2
2 3
3 1
3 2
3 3
3 4
end
bysort famid: generate number=_N
list, sepby(famid)
The result of running the above is:
+------------------------+
| famid child number |
|------------------------|
1. | 1 1 1 |
|------------------------|
2. | 2 1 3 |
3. | 2 2 3 |
4. | 2 3 3 |
|------------------------|
5. | 3 1 4 |
6. | 3 2 4 |
7. | 3 3 4 |
8. | 3 4 4 |
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
159
+------------------------+
** Ejemplo 4
_n y _N tambin pueden ser utilizados como un calificativo. En este ejemplo se marca, para
cada familia, el nio que tiene el mayor ingreso. La variable ingreso est entre parntesis
que indica a Stata ordenar por esta variable. Cuando se ordena por la ltima observacin
(_N), por familia, es el ingreso mayor por familia.
clear
input ///
famid child income
1 1 100
2 1 150
2 2 200
2 3 250
3 1 10
3 2 100
3 3 500
3 4 250
end
bysort famid (income): generate number=1 if _n==_N
l, sepby(famid)
El resultado de ejecutar lo anterior es:
+------------------------+
| famid child number |
|------------------------|
1. | 1 1 1 |
|------------------------|
2. | 2 1 3 |
3. | 2 2 3 |
4. | 2 3 3 |
|------------------------|
5. | 3 1 4 |
6. | 3 2 4 |
7. | 3 3 4 |
8. | 3 4 4 |
+------------------------+
** Ejemplo 5
Generacin de rezagos y adelanto de datos.
clear
input ///
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
160
time sales
1 100
2 150
3 200
4 250
5 10
6 100
7 500
8 250
end
generate lead=sales[_n+1]
generate lag=sales[_n-1]
generate lags=(sales[_n-1]+sales[_n-2])/2
list
El resultado de ejecutar lo anterior es:
+----------------------------------+
| time sales lead lag lags |
|----------------------------------|
1. | 1 100 150 . . |
2. | 2 150 200 100 . |
3. | 3 200 250 150 125 |
4. | 4 250 10 200 175 |
5. | 5 10 100 250 225 |
|----------------------------------|
6. | 6 100 500 10 130 |
7. | 7 500 250 100 55 |
8. | 8 250 . 500 300 |
+----------------------------------+
Para obtener ayuda sobre el cdigo anterior, vase:
Gua de usuario: [U] 13.4 Variables del Sistema (variables)
help bysort
MATERIAL DE APOYO
Algunos recursos en Internet para usuarios Stata:
- http://www.ats.ucla.edu/stat/stata/
- http://econpapers.hhs.se/paper/bocbocoec/531.htm
- http://fmwww.bc.edu/ec/res.info.php
- http://ideas.repec.org/s/boc/bocins.html
BRAYAN RICARDO ROJAS O.
INSTRUCTOR
161
11 BIBLIOGRAFIA
[1] Adkins, L. & Hill, R. (2008). Using Stata for Principles of Econometrics. Wiley, Third Edition.
[2] Baum, Christopher. (2006). An Introduction to Moderm Econometrics Using Stata. Stata Press,
Second Edition.
[3] Baum, Christopher. (2009). An Introduction to Stata Programming.. Stata Press, First Edition.
[4] Cameron, A. & Trivedi, P. (2009). Microeconometrics Using Stata. Stata Press, Second Edition.
[5] Cox, N. & Newton, H. (2009) Seventy-six Stata Tips. Stata Press, Second Edition.
[6] Freese, J. & Long. S. (2006). Regression Models for Categorial Dependent Variables Using
Stata. Stata Press, Second Edition.
[7] Mitchell, Michael. (2008). A Visual Guide to Stata Graphics. Stata Press, Second Edition.
[8] Mitchell, Michael. (2010). Data Management Using Stata, A Practical Handbook. Stata Press,
Second Edition.