Analisis de Datos MPP 2011

Centro de Microdatos
2011
Anlisis de Datos
Magister en Polticas Pblicas
Javiera Vsquez

Introduccin

La mayora de las decisiones en economa y polticas pblicas depender de cun bien podamos
entender, las relaciones entre las variables que nos rodean.
Al momento de disear una poltica pblica se debe tener una pregunta concreta en trminos
cuantitativos sobre la o las variables que queremos afectar, y que instrumentos disponemos para
afectar estas variables, es decir, necesitamos dar respuestas cuantitativas a preguntas
cuantitativas, y adicionalmente, debemos tener clara cul es la causalidad de la relacin entre las
variables.
Por ejemplo, podemos querer dar respuesta a las siguientes preguntas:
- El cuidado prenatal lleva a tener hijos ms saludables?
- La Reforma Previsional, mejor la calidad de vida de los adultos mayores?
- EL programa de Subsidio a la Contratacin de Trabajadores Jvenes, incrementar la
formalizacin del trabajo juvenil?
- Hay discriminacin por gnero en el mercado laboral?Hay discriminacin por apariencia
fsica en el mercado laboral?
- Cul es el impacto de las restricciones a los fumadores sobre el hbito de fumar?
- Qu impacto ha tenido el programa Chile Crece Contigo?
- Existe mayor vulnerabilidad econmica en los hogares monoparentales?
- Cmo afecta la disponibilidad de salas cunas a la tasa de participacin femenina?
Para que los datos nos entreguen respuestas concretas y tiles a estas preguntas debemos
aprender a trabajar con ellos, para esto es importante adquirir prctica en organizar la
informacin y presentarla de manera informativa, entender la aleatoriedad y cuando lo que
encontramos puede ser producto del azar, entender los conceptos de probabilidad y como estos
pueden ser usados para interpretar la informacin emprica.
Datos Experimentales versus No Experimentales

El escenario ideal para estimar el efecto de un tratamiento o de una poltica es hacer cambios
experimentales (controlados) sobre una variable y observar los cambios en la variable de inters.
Adems para tener una base de comparacin necesitamos un grupo de control. Esto es lo que
generalmente se hace en medicina para probar nuevas drogas y sus efectos, se tiene un grupo de
tratamiento y un grupo de control con caractersticas similares, y slo a los del grupo de
tratamiento se le entrega la droga y a los del grupo de control un placebo, luego podemos analizar
simplemente comparando ambos grupos cuales son los efectos de la droga.
En polticas pblicas la asignacin aleatoria de un tratamiento o poltica es algo bastante ms
complejo, ya que una poltica es diseada para la poblacin o un grupo de ellas y a veces no es
tico darle prioridad aleatoria a un grupo versus otro. Adems implementar un experimento en
polticas pblicas es mucho ms costoso porque requiere la implementacin del programa
propiamente tal a una escala menor. De esta forma, en la mayora de los casos que estudiemos no
disponemos de Datos Experimentales sino de Datos Observados o No Experimentales.
Cuando los datos son de naturaleza experimental, el efecto causal de la poltica (o tratamiento) se
puede obtener tomando la diferencia de promedios de la variable de resultados entre el grupo de
tratamiento y control, por ejemplo, tomando el peso al nacer promedio de bebes de madres con
cuidado prenatal y restndole el peso al nacer promedio de bebes de madres sin cuidado prenatal.
Sin embargo, si los datos no son experimentales debemos utilizar tcnicas economtricas para
estimar el efecto causal, estas herramientas se preocupan de aislar el efecto que otras variables,
distintas al tratamiento, pueden tener sobre el resultado (outcome).

Tipos de Datos

Los datos que disponemos para trabajar pueden tener tres formatos: corte transversal, Series de
Tiempo, y Datos de Panel (o Longitudinales).
Corte Transversal

Los datos de corte transversal se caracterizan por recopilar informacin para varias unidades en un
momento del tiempo, las unidades pueden ser individuos, hogares, comunas, colegios, empresas,
regiones, etc.
Un ejemplo de datos de corte transversal en Chile es la Encuesta CASEN.
La Figura 1 muestra un ejemplo de una base de corte transversal de pases, que muestra la tasa de
mortalidad, expectativa de vida, y otras variables para el ao 2005.

Figura 1
Datos de tipo Corte Transversal

Series de Tiempo

Las series de tiempo representan observaciones para una sola unidad en varios momentos del
tiempo, la frecuencia de los datos puede ser diaria, semanal, trimestral, anual, etc.
Por ejemplo, del Banco Central de Chile podemos obtener las series de tiempo del Producto
Interno Bruto (PIB), Indice de Precios al Consumidor (IPC), fuerza de trabajo, ocupados, etc. Ver
Figura 2.
Figura 2
Datos de tipo Serie de Tiempo

Datos de Panel o Longitudinales

Los datos longitudinales corresponden a observaciones de varias unidades en distintos momentos
del tiempo, por ejemplo puedo tener los puntajes en SIMCE, PSU, nmero de alumnos, nmero de
profesores, para varios colegios entre los aos 2000 y 2008.
La ventaja de los datos de panel es que observamos la mima unidad en diferentes momentos del
tiempo lo que nos permite estudiar la dinmica en el comportamiento de diversas variables.
La Figura 3 muestra un ejemplo de datos de panel, con observaciones de varios pases entre el ao
2004 y 2009.
Figura 3
Datos de tipo Datos de Panel

Una primera inspeccin de los datos

Lo primero que debe hacer todo investigador que trabaja con una base de datos, ya sea de
creacin propia o externa, antes de aplicar modelos estadsticos, es inspeccionar y explorar los
datos de modo correcto.

Qu debemos tener presente cuando inspeccionamos los datos?

- A qu nivel de agregacin queremos trabajar y presentar los datos: individuos, hogar,
comunas, regiones, etc.
- Qu tipo de grfico me permite mostrar de manera clara y ordenada los resultados,
incluso es relevante fijarse en las escalas de los ejes de los grficos que los haga
comparable entre ellos, y relevantes para el anlisis.
- Seleccin correcta de la informacin que se mostrar, no siempre es preferible ms a
menos, no es recomendable presentar muchos datos ni grficos, sino saber elegir los
correctos.

Para revisar algunos conceptos relacionados con la inspeccin de los datos utilizaremos la
Encuesta CASEN 2009 (http://www.mideplan.gob.cl/casen/index.html), especficamente
trataremos de producir estadsticas descriptivas y grficos en STATA que nos permitan analizar la
situacin de los ingresos, pobreza, y desigualdad en Chile.
Para nuestro primer anlisis utilizaremos como medida el ingreso autnomo per-cpita del hogar
1
,
el que puede ser generado a partir de la informacin disponible en la encuesta:

1
El Ingreso Autmomo se define como aquel por concepto de sueldos y salarios, ganancias provenientes del
trabajo independiente, autoprovisin de bienes producidos por el hogar, bonificaciones, gratificaciones,
rentas, intereses, as como jubilaciones, pensiones, montepos y transferencias entre privados.
use casen2009.dta, clear
egen hogarid=group(segmento folio)
g s=1 if pco1!=14
replace s=0 if pco1==14
egen n=sum(s), by(hogarid)
gen yauthpc=yauthaj/n

histogram yauthpc if yauthpc<1000000, percent fcolor(purple)
ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar) title(Ingreso
Autnomo per-capita del hogar) subtitle(Distribucin Emprica) note(Fuente:
Elaboracin propia en base a Encuesta CASEN 2009)

Distribucin Emprica

La distribucin emprica de una variable nos muestra que tan frecuente es que la variable tome un
valor dentro de cierto intervalo. Grficamente la distribucin emprica de la variable se puede ver
a travs de un histograma.

Grfico 1

Un histograma nos muestra una serie de rectngulos, el ancho de estos rectngulos representa un
intervalo de la variable para la cual estamos construyendo el histograma, en este caso ingreso, y la
altura representa la proporcin de las observaciones que caen dentro de este intervalo.
En este ejemplo, STATA automticamente escoge rectngulos con ancho 18849.16 para de esta
forma generar 53 rectngulos de igual ancho:

Sin embargo, se puede elegir de que ancho se quieren los rectngulos o en cuntos rectngulos
dividir el rango completo en el cual se mueve la variable de inters, teniendo en cuanta que
0
5
1
0
1
5
P
o
r
c
e
n
t
a
j
e
0 200000 400000 600000 800000 1000000
Ingreso Autnomo per-cpita del hogar
Fuente: Elaboracin propia en base a Encuesta CASEN 2009
Distribucin Emprica
Ingreso Autnomo per-capita del hogar
histogram yauthpc if yauthpc<1000000, width(50000) percent fcolor(purple)
mientras ms anchos sean los rectngulos o menor cantidad ms tosco ser el histograma, y
mientras ms angostos sean los rectngulos (mayor cantidad) ms fina ser la distribucin de la
variable que podemos analizar con el histograma.
Grfico 2

En este grfico le pedimos a STATA que tome rectngulos de ancho 50,000 para hacer el
histograma, por lo cual utiliza 20 barras para cubrir todo el rango de valores que toma la variable
de inters.
Por otra parte, podemos indicar que haga un histograma con 100 rectngulos, los que
automticamente quedarn con ancho 10000:

0
1
0
2
0
3
0
P
o
r
c
e
n
t
a
j
e
0 200000 400000 600000 800000 1000000
Distribucin Emprica
histogram yauthpc if yauthpc<1000000, bin(100) percent fcolor(purple)

Grfico 3

El histograma nos permite analizar la distribucin de la variable que estamos estudiando, en
particular en el caso de ingreso autnomo per-cpita observamos que:
- Alrededor de un 20% de las personas (con ingresos per-cpita menor a 1 milln de pesos)
tienen ingresos per-cpita menores a $200 mil pesos.
- A pesar de que la mayora de los individuos se encuentras a la izquierda de la distribucin,
existe una cola larga a la derecha.

0
2
4
6
8
P
o
r
c
e
n
t
a
j
e
0 200000 400000 600000 800000 1000000
Distribucin Emprica
kdensity yauthpc if yauthpc<1000000, ytitle(Densidad) xtitle(Ingreso Autnomo
per-cpita del hogar) title(Ingreso Autnomo per-capita del hogar)
subtitle(Distribucin Emprica) note(Fuente: Elaboracin propia en base a
Encuesta CASEN 2009)
Estimacin Kernel de la Distribucin Emprica

Como se mencionaba mientras ms angosto son los rectngulos en el histograma ms fina es la
estimacin de la distribucin de la variable que puede ser realizada, el caso extremo es cuando
estos rectngulos se reducen a un solo punto
2
, esta estimacin de la funcin de densidad
(distribucin) es conocida como Kernel.

El siguiente grfico nos muestra la estimacin de la funcin de densidad del ingreso autnomo
per-cpita, lo que nos permite apreciar de manera ms suave y continua la distribucin de las
observaciones en el rango en el cual se mueve el ingreso autnomo per-cpita.

Grfico 4

Si bien la distribucin emprica de la variable nos permite caracterizar bastante bien la variable, es
difcil utilizar esta distribucin para comparar dos o ms variables, para hacer comparacin

2
La estimacin de densidad Kernel consiste ajustar una distribucin normal en cada punto observado de
datos, luego se une (suma ponderada) cada una de estas distribuciones normales.
0
2
.
0
0
0
e
-
0
6
4
.
0
0
0
e
-
0
6
6
.
0
0
0
e
-
0
6
8
.
0
0
0
e
-
0
6
D
e
n
s
i
d
a
d
0 200000 400000 600000 800000 1000000
Distribucin Emprica
necesitamos tener indicadores concretos que de alguna forma resuman lo que podemos ver
grficamente con el histograma o kernel. Algunos de estos indicadores son las medidas de
tendencia central y las medidas de dispersin.
Medidas de Tendencia Central

Las medidas de tendencia central, tal como lo dice su nombre hablan del punto medio de la
distribucin.

Una medida de tendencia central es la media aritmtica (o promedio), la que representa el punto
de equilibrio de la distribucin:

Por ejemplo, el promedio entre los nmeros 1 y 9 es 5, ya que de esta manera se equilibra la
distribucin de ellos, la distancia (en valor absoluto) entre 1 y 5 es la misma que la distancia entre
9 y 5.
Veamos otro ejemplo, supongamos los siguientes nmeros: 1, 2, 3, 4, y 5. La media aritmtica de
estos nmeros es 3, ya que de esta manera equilibramos la distribucin de estos nmeros.
Notemos la segunda columna de la Tabla 1, la diferencia (en valor absoluto) entre 1 y la media (3)
es 2, entre 2 y la media es 1, y entre 3 y la media es cero, estos tres valores son menores o iguales
a la media, y la suma de su distancia con respecto a la media es 3. Por otra parte, los valores que
estn sobre la media, tienen una diferencia de 1 con respecto a la media y 2 con respecto a la
media, lo que tambin suma 3. De esta forma, vemos que la media es el nmero que logra
equilibrar la distribucin de los nmeros observados.
Tabla 1
Ejemplo media aritmtica
Nmeros
Diferencia absoluta con
respecto a la media
Suma antes y despus de la
media
1 2
2 1
3 0 3
4 1
5 2 3

La Tabla 2 nos muestra otro ejemplo, en este caso tenemos 8 nmeros cuya media aritmtica es
26.75. Slo dos de los ocho nmeros estn sobre la media aritmtica y los restantes seis estn bajo
la media, podemos ver que la suma de la diferencia absoluta de cada uno de los nmeros que
estn bajo la media con respecto a la media es exactamente igual a la suma de las diferencias
absolutas de los nmeros que estn sobre la media.
Tabla 2
Nmeros
respecto a la media
media
10 16.75
11 15.75
12 14.75
13 13.75
13 13.75
15 11.75 86.5
40 13.25
100 73.25 86.5

Veamos un caso an ms extremo, la Tabla 3 nos muestra un listado de 12 nmeros, los primeros
11 nmeros son bastante pequeos (menores o iguales a 1), pero el ltimo nmero es un nmero
bastante grande, lo que hace que para equilibrar estos nmeros el promedio va a ser un nmero
bastante ms grande que los primeros 11 nmeros, en efecto el promedio de estos 12 nmeros es
8.79, y 11 de los 12 nmeros estn bajo el promedio, mientras que 1 slo est sobre el promedio.
Tabla 3
Nmeros
respecto a la media
media
0 8.79
0.1 8.69
0.2 8.59
0.3 8.49
0.4 8.39
0.5 8.29
0.6 8.19
0.7 8.09
0.8 7.99
0.9 7.89
1.0 7.79 91.21
100 91.21 91.21

Esto nos muestra algo importante que hay que tener presente cuando uno utiliza la media como
una medida de tendencia central, esta medida es bastante sensible a valores extremos en la
distribucin de nmeros.
En el caso del ingreso autnomo per-cpita de la encuesta CASEN 2009, la media de esta variable
es $130,992.7:

De las 244,511 observaciones, 162,504 (66.5%) estn bajo la media y 82,007 (33.5%) estn sobre la
media.
Otra medida de tendencia central es la mediana, la que corresponde al valor de la variable en la
mitad de la distribucin, es decir, si ordenamos las observaciones de menor a mayor valor de la
variable, la mediana es el valor de la observacin que est justo en la mitad, dejando la misma
cantidad de observaciones a la derecha y a la izquierda de la mediana. La mediana es una medida
de tendencia central ms robusta que la media, en el sentido que no es afectada por valores
extremos.
En el ejemplo de la Tabla 1 tenemos 5 nmeros, donde el nmero 3 corresponde al que est justo
en la mitad de estos 5 nmeros, de esta forma la mediana es 3. En el ejemplo, de la Tabla 2
tenemos 8 nmeros, no existe un nico nmero que este en la mitad, en este caso tenemos que
considerar los nmeros en la posicin 4 y 5 para calcular la mediana, como ambos nmeros son
iguales a 13, la mediana de estos nmeros es 13. Finalmente, en la Tabla 3 tenemos 12 nmeros,
nuevamente al ser un nmero par no existe un nico nmero en la mitad, tenemos que considerar
los nmeros en la posicin 6 y 7 para calcular la mediana, la que corresponde al promedio de estos
dos nmeros, 0.55.
La mediana del ingreso autnomo per-cpita es $93,361.7, bastante menor a la media ya que esta
medida no es sensible a los valores extremos, ingresos elevados.
La mediana corresponde al percentil 50 y podemos calcular este valor en STATA a travs del
comando summarize con la opcin detail.

histogram yauthpc if yauthpc<1000000, percent fcolor(purple)
Elaboracin propia en base a Encuesta CASEN 2006) xline(130993,
lcolor(cranberry)) xline(93362, lcolor(black))

Adicionalmente el grfico 5 muestra el histograma del ingreso autnomo per-cpita y los valores
de la media y mediana.
Grfico 5

0
5
1
0
1
5
P
o
r
c
e
n
t
a
j
e
0 200000 400000 600000 800000 1000000
Distribucin Emprica
Simetra de una distribucin

Se dice que una distribucin es simtrica con respecto a la media
3
si existe el mismo nmero de
valores a la derecha de la media que a la izquierda de la media, esto significa que el lado derecho
de la distribucin es un espejo del lado izquierdo de la distribucin.

Por ejemplo, la siguiente variable es simtrica en torno a su media que es igual a 3

Grfico 6
Histograma de variable simtrica en torno a la media

Para saber de manera ms objetiva si la variable es simtrica o no, y no simplemente utilizando la
inspeccin grfica, podemos calcular el coeficiente de asimetra. Si este coeficiente es igual a cero
se dice que la variable tiene una distribucin simtrica en torno a la media, en este ejemplo el
coeficiente de asimetra es -0.0054. Si el coeficiente de asimetra es positivo la variable tiene una
distribucin que concentra ms observaciones a lado izquierdo de la distribucin (bajo la media),
por el contrario si el coeficiente de asimetra es negativo hay ms observaciones en el lado
derecho de la distribucin (sobre la media).

3
La simetra se puede definir tambin con respecto a la mediana o cualquier otro punto de inters, por
ejemplo, el punto ms alto de la distribucin.
0
.
1
.
2
.
3
.
4
D
e
n
s
i
t
y
-3 -2 -1 0 1 2 3 4 5 6 7 8 9
g lyauthpc=ln(yauthpc)
(8829 missing values generate)

histogram yauthpc if yauthpc>0 & yauthpc<1000000, percent fcolor(purple)
Autnomo per-capita) subtitle(Distribucin Emprica) note(Fuente: Elaboracin
propia en base a Encuesta CASEN 2006) saving(nivel, replace)
histogram lyauthpc if yauthpc<1000000, percent fcolor(purple)
ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar)
title(Logaritmo Ingreso Autnomo per-capita) subtitle(Distribucin Emprica)
note(Fuente: Elaboracin propia en base a Encuesta CASEN 2006) saving(log,
replace)
graph combine nivel.gph log.gph
El coeficiente de asimetra forma parte de los indicadores del comando summarize, detail
de STATA. En el caso del ingreso autnomo per-cpita grficamente notbamos que era una
variable asimtrica ya que tiene mayor cantidad de observaciones al lado izquierdo, en particular
el coeficiente de asimetra de esta variable es 2.65.

Figura 4
Asimetra positiva y negativa

Cuando la variable tiene un coeficiente de asimetra positivo o negativo, se dice que la variable es
sesgada.

En el caso de variables muy asimtricas como el ingreso, la transformacin logartmica de la
variable puede lograr que la distribucin sea algo ms simtrica. Se debe tener presente el
logaritmo de 0 no existe, por lo cual las observaciones que reportaban ingreso autnomo igual a
cero quedarn con missing value en la variable transformada. El Grfico 7 nos muestra que sucede
con el ingreso autnomo per-cpita al aplicar logaritmo.

Grfico 7

El coeficiente de asimetra de la variable en logaritmo es bastante ms pequeo:

0
5
1
0
1
5
P
o
r
c
e
n
t
a
j
e
0 200000 400000 600000 800000 1000000
Distribucin Emprica
Ingreso Autnomo per-capita
0
2
4
6
8
1
0
P
o
r
c
e
n
t
a
j
e
4 6 8 10 12 14
Distribucin Emprica
Logaritmo Ingreso Autnomo per-capita
Medidas de dispersin

Tal como dice su nombre las medidas de dispersin tienen que ver con que tan dispersas estn las
observaciones, o que tan concentradas estn.

Una medida de dispersin es la varianza (o
2
):

Varianza poblacional:

Varianza muestral:

La varianza corresponde el promedio de las desviaciones al cuadrado de cada observacin con
respecto a la media de la variable. Notemos que nos interesan las desviaciones, razn por la cual
se toma el valor al cuadrado, generando siempre un valor positivo, pero al estar al cuadrado la
medida de dispersin le da ms peso a las observaciones ms distantes en el promedio. Otra
consecuencia de que se midan las desviaciones al cuadrado es que la medida quedara expresada
en el cuadrado de la unidad en la que medida la variable, lo cual dificulta bastante la
interpretacin. Por esta razn usualmente se utiliza la desviacin estndar que consiste en tomar
raz cuadrada de la varianza, por lo cual la medida de dispersin queda expresada en la misma
unidad de la variable estudiada.
Desviacin estndar muestral:

La desviacin estndar del ingreso autnomo per-cpita es de $130,662.
El siguiente grfico nos muestra variables generadas aleatoriamente con distribucin normal con
media 1, pero diferentes varianzas (desviaciones estndar).

clear
set obs 10000

matrix desv1=1
matrix desv2=sqrt(2)
matrix desv3=sqrt(3)
matrix desv4=2

drawnorm var1, m(1) sd(desv1)

histogram var1, percent fcolor(purple) xtitle(media=1 varianza=1) saving(var1,
replace)
replace)
replace)
replace)
graph combine var1.gph var2.gph var3.gph var4.gph, xcommon

Grfico 8

0
2
4
6
8
P
e
r
c
e
n
t
-10 -5 0 5 10
media=1 varianza=1
0
2
4
6
8
P
e
r
c
e
n
t
-10 -5 0 5 10
media=1 varianza=2
0
2
4
6
8
P
e
r
c
e
n
t
-10 -5 0 5 10
media=1 varianza=3
0
2
4
6
8
P
e
r
c
e
n
t
-10 -5 0 5 10
media=1 varianza=4
graph box yauthpc if yauthpc>0 & yauthpc<1000000
Otra medida de dispersin utilizada es el rango inter-cuartil, el que se define como la distancia en
unidades de la variable entre el percentil 75 y el percentil 25:

El rango inter-cuartil del ingreso autnomo per-cpita es $107,185 lo que indica que la diferencia
en ingreso autnomo entre la persona que est en el 75% de mayores ingresos y la persona que
est en el 25% de menos ingresos es $107,185.
El problema de estas tres medidas de dispersin; varianza, desviacin estndar, y rango inter-
cuartil; es que estn en la escala de la variable que estamos midiendo su dispersin, por lo cual no
nos permite comparar variables con diferentes escalas, no es una medida estandarizada.
Una medida de dispersin estandarizada y que nos permite comparar variables de distinta
naturaleza es el coeficiente de variacin (cv):

Por ejemplo, el coeficiente de variacin del ingreso autnomo es casi igual a uno, indicando que la
desviacin estndar es igual a la media de la variable, sin embargo, al aplicar la transformacin
logartmica de la variable la dispersin de reduce bastante la desviacin estndar de la variable
transformada es igual a 0.08 veces la media.
Un grfico que nos permite ver de manera simultnea la dispersin de la variable como su
tendencia central es el Box plot.

Grfico 9

La lnea dentro de la caja corresponde a la mediana de la variable (medida de tendencia central), la
parte superior de la caja representa el percentil 75 y la parte baja de la caja el percentil 25, por lo
cual la altura de la caja representa el rango inter-cuartil (medida de dispersin). La lnea que esta
por sobre la caja define la cantidad de valores extremos en la variable, todas las observaciones
sobre esta lnea son valores extremos o outliers. Esta lnea se est definida por el percentil 75 ms
1.5 veces el rango inter-cuartil, de manera equivalente la lnea que est bajo la casa corresponde
al percentil 25 menos 1.5 veces el rango inter-cuartil.
Medidas de desigualdad

Para definir si una persona es indigente, pobre no indigente, o no pobre se utiliza la lnea de
indigencia y pobreza definida segn el consumo de una canasta bsica por MIDEPLAN. Para el ao
2009 se tienen los siguientes valores de lnea de indigencia y pobreza:

Tabla 4
Lnea de indigencia
Urbana 32,067
Rural 24,710
Lnea de pobreza
Urbana 64,134
Rural 43,242

0
2
0
0
0
0
0
4
0
0
0
0
0
6
0
0
0
0
0
8
0
0
0
0
0
1
.
0
e
+
0
6
y
a
u
t
h
p
c
**Ingreso total per-cpita
g ingpc=ytothaj/n

***Ingreso del trabajo del hogar****
g ytrab= ytrabhaj
replace ytrab=. if ytrab==0

***Ingreso Autonomo ditisntos del trabajo, del hogar***
g yaut2=yauthaj-ytrab
replace yaut2=. if yaut2==0

***Ingresos de subsidios del hogar***
g ysub=ysubhaj
replace ysub=. if ysub==0

***Alquiler imputado***
g alq=yaimhaj
replace alq=. if alq==0

***Ingreso Autonomo Percapita del hogar***
g yaupc=yauthaj/n
replace yaupc=. if yaupc==.
Para definir si un individuo tiene un ingreso bajo o sobre la lnea de pobreza o indigencia, se
calcula su ingreso per-cpita del hogar, tomando el ingreso total del hogar y dividindolo por el
nmero de personas en el hogar, excluyendo el servicio domstico.
Los ingresos totales del hogar se pueden dividir en:
- Ingreso autnomo del hogar
o Ingresos laborales
o Otras fuentes de ingresos (rentas, pensiones, etc.)
- Ingresos por subsidios monetarios
- Alquiler imputado
Dos medidas de desigualdad ampliamente utilizadas son la razn entre el ltimo y primer quintil, y
la razn entre el ltimo y primer decil.
A continuacin tomaremos las diferentes medidas de ingreso para analizar las medidas de
tendencia central, dispersin, y desigualdad.

xtile quintil_trab=ytrab [w=expr] if o==1, nq(5)
xtile quintil_au2=yaut2 [w=expr] if o==1, nq(5)
xtile quintil_sub=ysub [w=expr] if o==1, nq(5)
xtile quintil_alq=alq [w=expr] if o==1, nq(5)
xtile quintil_aupc=yaupc [w=expr] if o==1, nq(5)
xtile quintil_totpc=ingpc [w=expr] if o==1, nq(5)

xtile decil_trab=ytrab [w=expr] if o==1, nq(10)
xtile decil_au2=yaut2 [w=expr] if o==1, nq(10)
xtile decil_sub=ysub [w=expr] if o==1, nq(10)
xtile decil_alq=alq [w=expr] if o==1, nq(10)
xtile decil_aupc=yaupc [w=expr] if o==1, nq(10)
xtile decil_totpc=ingpc [w=expr] if o==1, nq(10)

matrix MED=J(6,12,0)

matrix colnames MED=Promedio DesvEstandar P25 P75 Quintil1 Quintil5
Decil1 Decil10 CV IQR D10/D1 Q5/Q1
matrix rownames MED=Trabajo otros_autonomos subsidios alquiler
autonomo_pc total_pc

sum ytrab [w=expr] if o==1, detail
matrix MED[1,1]=r(mean)
matrix MED[1,2]=r(sd)
matrix MED[1,3]=r(p25)

sum ytrab [w=expr] if o==1 & quintil_trab==1
sum ytrab [w=expr] if o==1 & quintil_trab==5

sum ytrab [w=expr] if o==1 & decil_trab==1
sum ytrab [w=expr] if o==1 & decil_trab==10

sum yaut2 [w=expr] if o==1, detail

sum yaut2 [w=expr] if o==1 & quintil_au2==1
sum yaut2 [w=expr] if o==1 & quintil_au2==5

sum yaut2 [w=expr] if o==1 & decil_au2==1
sum yaut2 [w=expr] if o==1 & decil_au2==10

sum ysub [w=expr] if o==1, detail

sum ysub [w=expr] if o==1 & quintil_sub==1
sum ysub [w=expr] if o==1 & quintil_sub==5

sum ysub [w=expr] if o==1 & decil_sub==1
sum ysub [w=expr] if o==1 & decil_sub==10

sum alq [w=expr] if o==1, detail

sum alq [w=expr] if o==1 & quintil_alq==1
sum alq [w=expr] if o==1 & quintil_alq==5

sum alq [w=expr] if o==1 & decil_alq==1
sum alq [w=expr] if o==1 & decil_alq==10

sum yaupc [w=expr] if o==1, detail

sum yaupc [w=expr] if o==1 & quintil_aupc==1
sum yaupc [w=expr] if o==1 & quintil_aupc==5

sum yaupc [w=expr] if o==1 & decil_aupc==1
sum yaupc [w=expr] if o==1 & decil_aupc==10

sum ingpc [w=expr] if o==1, detail

sum ingpc [w=expr] if o==1 & quintil_totpc==1
sum ingpc [w=expr] if o==1 & quintil_totpc==5

sum ingpc [w=expr] if o==1 & decil_totpc==1
sum ingpc [w=expr] if o==1 & decil_totpc==10

local i=1
while ì'<=6 {

matrix MED[ì',9]=MED[ì',2]/MED[ì',1]
matrix MED[ì',10]=MED[ì',4]-MED[ì',3]

local i=ì'+1
}

La razn de deciles y quintiles nos permiten estudiar la distribucin o desigualdad en las distintas
medidas de ingresos propuestas. Por ejemplo, se tiene que los hogares del decil ms alto obtienen
ingresos del trabajo que son en promedio ms de 37 veces los ingresos de las personas del decil
ms bajo. Esto puede ser de alguna manera compensado (al menos en trminos relativos) con los
subsidios, ya que la razn entre el Decil 90 y Decil 10 de subsidios monetarios es 45.5. Con
respecto a la razn de quintiles, las personas que estn en el 20% de mayores ingresos del trabajo
tienen ingresos por este tem promedio que son 16.2 veces los ingresos de trabajo de las personas
que estn en el 20% inferior.
En trminos de ingreso autnomo per-cpita la desigualdad de ingresos nos muestra que las
personas del decil ms alto tienen un ingreso 78.7 veces el ingreso de las personas del decil ms
bajo. En trminos de quintiles la razn (desigualdad) es menor, nos muestra que las personas en el
quintil ms acomodado tiene un ingreso autnomo 24 veces el ingreso del primer quintil. Pero si
nos concentramos en el ingreso total del hogar, el cual corresponde a los ingresos autnomos ms
los subsidios monetarios y alquiler imputado, se tiene que la razn de deciles es poco menos de la
mitad de la misma medida para el ingreso autnomo, y la razn de quintiles es 15.8.
Otras dos medidas de desigualdad son la curva de Lorenz y el coeficiente de Gini. La Curva de
Lorenz mide el porcentaje acumulado del ingreso (o de la variable que estemos analizando) en
manos del porcentaje acumulado de la poblacin. La Figura 5 nos muestra la Curva de Lorenz en
rojo, en el eje horizontal nos va mostrando la proporcin de la poblacin que va desde cero a 1, y
en el eje vertical la proporcin del ingreso. Por ejemplo, esta curva nos muestra que un 60% de la
poblacin acumula cerca del 30% de los ingresos. Mientras mayor curvatura tenga la curva de
lorenz yaupc
lorenz mayor es la desigualdad, y mientras ms recta sea la curva menor es la desigualdad, en el
extremo no existe desigualdad en la lnea negra (45).
Figura 5

Grfico 10

inequal yaupc
Esta medida de desigualdad es grfica y dificulta la comparacin con otras variables. El coeficiente
de Gini es un indicador ms objetivo que se obtiene a partir de la Curva de Lorenz, el Gini es un
nmero que est entre 0 y 1, en donde 0 corresponde a perfecta igualdad y 1 corresponde a
perfecta desigualdad.
El Coeficiente de Gini se obtiene de dividir el rea que hay entre la lnea de perfecta igualdad y la
Curva de Lorenz (a), y el rea total bajo la lnea de perfecta igualdad (a+b).
Figura 6
Coeficiente de Gini

Para obtener el coeficiente de GINI del ingreso autnomo per-cpita podemos utilizar el comando
inequal de STATA:

El coefiente del Gini del ingreso autnomo per-cpita es 0.513 o 51.3%.
La interpretacin del coeficiente de GINI es la siguiente, si tomo dos familias o personas al azar, la
diferencia en ingresos autnomos per-cpita de estas dos personas como proporcin del ingreso
promedio:

Es el doble del coeficiente de GINI, es decir, en este caso 102.6%.
Todos los indicadores que hemos presentados: medidas de tendencia central, medidas de
dispersin, y medidas de desigualdad, lo hemos mostrando pensando en el anlisis de una sola
variable. Sin embargo, en muchos casos nos interesar hacer comparaciones entre estadsticos de
diferentes variables o para diferentes grupos, por ejemplo, podramos comparar los ingresos
promedios entre hombre y mujeres.
Una forma de compararlos sera simplemente tomar la diferencia entre el ingreso promedio de los
hombres y el ingreso promedio de las mujeres, esto nos entregar un nmero. Pero no sabremos
si decir si ese nmero es grande o pequeo, o afirmar que realmente la diferencia existe, para esto
necesitamos determinar si el valor encontrado es estadsticamente diferente de cero.
A continuacin comenzaremos a desarrollar el marco conceptual que ms adelante nos permitir
responder esta pregunta.

Teora de Distribucin de Probabilidades

A continuacin vamos a presentar y desarrollar una serie de conceptos relacionado con la Teora
de Probabilidades, la que ms adelante nos permitira rechazar o no hiptesis desde el punto de
vista estadstico.

Variable Aleatoria

Definicin
Una variable aleatoria es aquella variable cuyos resultados posibles se obtienen del azar, es
decir, de manera experimental.

Existen variables aleatorias discretas, es decir, que slo pueden tomar valores contables, y existen
variables aleatorias continuas donde la variable puede tomar cualquier nmero del infinito de
nmeros posibles.
Probabilidad de un evento

Se entiende por probabilidad como la posibilidad de que ocurra un resultado o un evento
determinado. Un evento es uno de los posibles resultados de hacer algo. Por ejemplo, al lanzar
una moneda tenemos dos posibles eventos: que salga cara o que salga sello. Luego, la
probabilidad de que al lanzar una moneda esta caiga en cara es o 0.5.

Una probabilidad siempre estar entre 0 y 1, donde 0 significa que no existe ninguna posibilidad
de que el evento ocurra, y 1 existe seguridad de que el evento ocurra.

En la teora de probabilidad, la actividad que origina los diferentes eventos se conoce como
experimento. Al conjunto de todos los resultados posibles de un experimento se le llama espacio
muestral del experimento. En el experimento lanzar una moneda el espacio muestral es:

Consideremos ahora el experimento de lanzar una moneda cuatro veces, para cada lanzamiento
de la moneda tenemos dos posibles resultados (cara o sello), por lo cual el espacio muestral de
este experimento tendr 16 eventos posibles:

Cara Cara
Sello
Cara
Sello
Cara
Sello
Cara
Sello
Cara
Sello
Cara
Sello
Cara
Sello
Cara
Sello
Cara
Sello
Cara
Sello
Cara
Sello
Cara
Sello
Cara
Sello
Cara
Sello
Sello
1 moneda 2 moneda
3 moneda 4 moneda
De esta forma, el experimento lanzar 4 monedas tiene 16 posibles eventos que forman el espacio
muestral del experimento, y la probabilidad de cada uno de los eventos es 1/16 o 0.0625.
Nmero Evento Probabilidad
1 CCCC 1/16 =0.0625
2 CCCS 1/16 =0.0625
3 CCSC 1/16 =0.0625
4 CCSS 1/16 =0.0625
5 CSCC 1/16 =0.0625
6 CSCS 1/16 =0.0625
7 CSSC 1/16 =0.0625
8 CSSS 1/16 =0.0625
9 SCCC 1/16 =0.0625
10 SCCS 1/16 =0.0625
11 SCSC 1/16 =0.0625
12 SCSS 1/16 =0.0625
13 SSCC 1/16 =0.0625
14 SSCS 1/16 =0.0625
15 SSSC 1/16 =0.0625
16 SSSS 1/16 =0.0625

Otra pregunta que nos podemos hacer con respecto al experimento de lanzar 4 monedas es la
cantidad de caras que salen, esta variable la denotaremos por X, y se tiene que:
X N de casos Probabilidad
0 1 1/16=0.0625
1 4 =0.25
2 6 3/8=0.375
3 4 =0.25
4 1 1/16=0.0625

Esta variable aleatoria puede tomar cinco valores diferentes, por lo cual es una variable aleatoria
discreta, las probabilidades de cada uno de los posibles valores de esta variable son todos
positivos y menores a 1, y la suma de ellos es igual a 1.
Funcin de Distribucin de Probabilidad

Definicin
La Funcin de Distribucin de Probabilidad nos seala para cada uno de los resultados posibles
de la variable aleatoria cual es su probabilidad

histogram X, discrete fraction fcolor(purple) lcolor(black)
ytitle(Pr(X=x)) xtitle(Nmero de caras en el lanzamiento de cuatro
monedas)

La Funcin de Distribucin de Probabilidad tiene dos caractersticas importantes:
- La probabilidad de un resultado en particular est entre 0 y 1:

- La suma de las probabilidades de todos los eventos es 1:

Grfico 11
Distribucin de Probabilidad X

histogram X, discrete freq fcolor(purple) lcolor(black)
ytitle(frecuencias) xtitle(Nmero de caras en el lanzamiento de cuatro
monedas)

Definicin
La Funcin de Distribucin de Frecuencias nos seala para cada uno de los resultados posibles
de la variable aleatoria la cantidad de casos que tienen ese resultado.

Grfico 12
Distribucin de Frecuencias X

Una tabulacin de una entrada de la variable X nos muestra la distribucin de frecuencia,
distribucin de probabilidades (en porcentaje), y distribucin de probabilidad acumulada:

En este caso la variable aleatoria es discreta, por lo cual esta funcin que relacionada cada evento
posible de la variable con sus probabilidades est definida, sin embargo, cuando trabajamos con
variables aleatorias continuas no es posible definir esta funcin de distribucin de probabilidad, ya
que existen infinitos valores posibles para X.
Para variables aleatorias continuas se define la funcin de densidad de probabilidad.
Definicin
La Funcin de Densidad de Probabilidad (pdf) es tal que el rea bajo esta funcin entre dos
puntos es igual a la probabilidad de que la variable aleatoria este entre dos puntos

matrix m=(0,1,2,2)
matrix sd=(1,1,1,sqrt(2))
drawnorm w x y z, n(50000) means(m) sds(sd)
Es importante tener presente que el valor asociado a la funcin de densidad en un punto no
representa la probabilidad de que la variable aleatoria tome ese valor, ya que la funcin de
densidad est definida para entregar probabilidades integrando por reas.
De esta forma, se tiene que la probabilidad de que una variable aleatoria continua Z tome valores
entre a y b estar dada por:

Donde f(z) es la funcin de densidad.
Adems se cumple que:

Definicin
La Funcin de Probabilidad Acumulada (cdf) indica la probabilidad de que una variable aleatoria
tome un valor menor o igual a cierto umbral especfico

Por ejemplo, podemos preguntarnos cul es la probabilidad de que la variable aleatoria Z sea
menor a:

Una funcin de densidad bastante utilizada por sus particularidades es la funcin de densidad
normal:

Esta funcin de densidad tiene dos parmetros que definen su media (u) y su desviacin estndar
(o), y se denota
. Esta funcin de densidad tiene la particularidad de ser simtrica

(coeficiente de asimetra es cero), y mesocurtica (coeficiente de curtosis es igual a 3).
Por ejemplo, mediante el siguiente comando de STATA podemos generar variables aleatorias con
una funcin de densidad normal, para lo cual debemos escoger sus dos parmetros: media y
desviacin estndar:

g densidadw=normalden(w)
twoway (scatter densidadw w)

Hemos generado 4 variables aleatorias independientes entre ellas, w tiene media 0 y desviacin
estndar 1, x tiene media 1 y desviacin estndar 1, y tiene media 2 y desviacin estndar 1, y z
tiene media dos y varianza 2.
El Grfico 13 nos muestra la funcin de densidad de w, la cual la obtuvimos a travs del comando
normalden()de STATA. Este comando genera una variable que corresponde a aplicar la funcin
de densidad normal con media cero y desviacin estndar 1 a la variable indicada entre parntesis,
en este caso w.
Es decir,

Grfico 13
Funcin de densidad normal: media 0 y desviacin estndar 1

g cdensidadw=normal(w)
twoway (scatter cdensidadw w, mcolor(purple))

histogram w, title(media=0; varianza=1) name(g1, replace)
histogram x, title(media=1; varianza=1) name(g2, replace)
histogram y, title(media=2; varianza=1) name(g3, replace)
histogram z, title(media=2; varianza=2) name(g4, replace)
graph combine g1 g2 g3 g4, xcom ycom

Tambin podemos obtener y graficar la funcin de densidad de probabilidad acumulada de esta
variable:

Grfico 14
Funcin de densidad normal acumulada: media 0 y desviacin estndar 1

Ambos grficos los obtuvimos asumiendo que la variable w fue generada a partir de una funcin
de densidad normal con media cero y varianza 1, sin embargo, en la prctica slo se nos entregar
un vector de datos sin saber cul fue el proceso que gener esos datos. Por lo cual en la prctica
debemos estimar empricamente cual es la funcin de densidad de los datos, ya sea a travs de un
histograma o a travs de una estimacin kernel (suavizacin del histograma).
kdensity w, title(media=0; varianza=1) name(g5, replace)
kdensity x, title(media=1; varianza=1) name(g6, replace)
kdensity y, title(media=2; varianza=1) name(g7, replace)
kdensity z, title(media=2; varianza=2) name(g8, replace)
graph combine g5 g6 g7 g8, xcom ycom

Grfico 15
Histograma, aproximacin muestral de la funcin de densidad

Grfico 16
Kernel, aproximacin muestral de la funcin de densidad

Media y Varianza

A partir de la funcin de distribucin de probabilidad o la funcin de densidad de probabilidad de
una variable aleatoria se pueden obtener algebraicamente los momentos de una variable,
especialmente, la media y la varianza. Estos parmetros son anlogos a la media y varianza
muestral de una distribucin emprica.

Media

La media de una variable aleatoria de conoce como valor esperado o esperanza, y de denota por
E(x).

Variable aleatoria discreta

Variable aleatoria continua

Varianza

La varianza de una variable aleatoria de denota por V(X), y se define de la siguiente manera:

Variable aleatoria discreta

Variable aleatoria continua

Nuevamente, estos conceptos son ms bien tericos o poblacionales, ya que suponen conocer la
funcin de probabilidad o densidad que dio origen a los valores observados de la variable
aleatoria. Por esta razn, la E(X) y V(X) se conocen como momentos poblacionales (verdaderos).
Pero en la prctica desconocemos la funcin de densidad o la funcin de probabilidad, y slo
podremos obtener aproximaciones muestrales de estos momentos.
Media muestral

La media muestral se define de la siguiente manera:

Es anloga a la definicin de E(x) o media poblacional, pero cada x
i
tiene igual probabilidad de
ocurrencia, 1/N.

insheet using "pick3.dat", delimiter("%")

rename v1 ao
rename v2 mes
rename v3 dia
rename v4 jornada
drop v5
rename v6 n1
rename v7 n2
rename v8 n3
drop v9-v13
keep if ao==1975

save "loteria75.dta", replace
Varianza muestral

La varianza muestral se define de la siguiente manera:

Aplicacin: Lotera de New Jersey

Para este ejercicio se utilizarn los datos de la Lotera de New Jersey, especficamente el juego Pick
3, en este juego se saca tres veces seguidas una bola numerada de 0 a 9, y se realiza un sorteo en
la maana y otro en la tarde.

En la siguiente pgina pueden descargar los datos histricos del juego desde 1975:
http://www.state.nj.us/lottery/data/pick3.dat

El objetivo de este ejercicio es mostrar que el resultado del azar, lo que hemos denominado
variable aleatoria, es slo UNO de los resultados posibles que podra tomar dicha variable. Es
decir, lo que observamos es una de las posibles realizaciones de la variable aleatoria segn la
distribucin de probabilidad que la variable tiene asociada.

De esta forma, debemos establecer un criterio para poder decidir cuando la variable aleatoria
tiene un comportamiento estadstico apropiado segn su distribucin de probabilidad o cuando
no.

Nos concentraremos para comenzar en la lotera del ao 1975, la siguiente figura muestra la base
de datos que se obtiene de descargar la informacin de la pgina y traspasarla a STATA mediante
los siguientes comandos:

egen id=group(ao mes dia jornada)

reshape long n, i(id) j(digito)

Figura 7
Base de Datos Pick 3 (1975)

Cada nmero del sorteo (n1, n2, n3) corresponden a eventos independientes uno del otro: sacar
una bola de entre 10 bolas numeradas de 0 a 9, por lo cual podemos generar una sola variable
aleatoria.

Lo primero que hacemos es generar un identificar cada uno de los sorteos, variable id, luego
ordenamos la base de datos de manera tal que las variables n1, n2, y n3 se agrupen hacia abajo en
una sola columna llamada n, esto se hace a travs del comando reshape long.

Figura 8
Base de datos ordenada Pick 3 (1975)

La siguiente tabla nos muestra la distribucin de frecuencias y de probabilidad de cada uno de los
nmeros de 0 a 9 que pueden ser sorteados:

En una lotera justa cada nmero tiene igual probabilidad de salir, esta probabilidad terica es de
un 10%. Empricamente debisemos observar que dentro de estos 570 sorteos cada nmero
debera salir 57 veces aproximadamente, sin embargo, observamos que el nmero 1 por ejemplo
sale 72 veces, 12.6%.
El siguiente grfico muestra el histograma de la variable aleatoria
Grfico 17
Distribucin de Frecuencias sorteo

0
5
1
0
1
5
P
r
o
b
a
b
i
l
i
d
a
d
0 1 2 3 4 5 6 7 8 9
Numeros Pick3
Fuente: Lotera de New Jersey
(1975)
Distribucin de Nmeros sorteados Pick3
Se observa claramente que los nmeros 0, 1, y 4 aparecen en ms del 10% de los casos, y los
nmeros 3 y 5 en menos del 10% de los casos. Podramos afirmar entonces que la lotera no es
justa?.
Para poder afirmar que la lotera no es justa, debemos establecer algn criterio que nos permita
decir cuando estadsticamente la variable aleatoria no se est comportando segn lo esperado
tericamente. Una estrategia para hacer esto es simular muchas loteras honestas (por ejemplo
5000) sacando muestras repetidas de 570 observaciones, luego si en estas simulaciones
observamos que es frecuente que un nmero aparezca 12.6% de las veces o ms, podramos
concluir que los resultados obtenidos no son irregulares. Si por el contrario la probabilidad de que
un nmero aparezca 12.6% en las simulaciones es muy baja habra que sospechar de los
resultados de la lotera de 1975.
Pero necesitamos un criterio para decir cuando es un resultado regular o un resultado raro, es
decir, cual es la probabilidad lmite tal que sobre este valor diremos que este resultado (observar
ms del 10% el nmero 1) es un mero resultado del azar, y bajo este valor diremos que esta lotera
es injusta. Por ejemplo, si en un 100% de las simulaciones observamos que el nmero 1 sale 12.6%
de las veces podramos decir que esto no es algo raro o que la lotera es justa. Si observamos que
en un 80% de las simulaciones se da este resultado tambin sigue siendo un resultado que no nos
permite decir que la lotera es injusta pero si por ejemplo, observamos que este resultado slo se
da en un 1% de las simulaciones tenemos evidencia para decir que la lotera no es justa ya que el
resultado se da en slo un 1% de los casos, es un caso aislado. Entonces debemos escoger el valor
sobre el cual diremos que el resultado es normal y bajo el cual diremos que el resultado es
extrao, por ejemplo 5%.
Entonces,
- Si en la simulacin la probabilidad (cantidad de casos sobre el total) de que el nmero 1
sea sorteado 12.6% de las veces o ms, es mayor a 5% (nuestro criterio) diremos que la
lotera es justa.
- Si en la simulacin la probabilidad de que el nmero 1 sea sorteado 12.6% de las veces o
ms, es menor a 5% (nuestro criterio) diremos que la lotera no es justa.
A continuacin realizaremos las 5,000 simulaciones de una lotera justa, esto significa obtener
aleatoriamente y con igual probabilidad un nmero entre 0 y 9, 570 veces, ya que esta es la
cantidad de observaciones que poseemos para el ao 1957. Luego contaremos la cantidad de
veces que fue sorteado cada nmero.

clear
drop _all
set matsize 6000
set more 1

matrix B=J(5000,10,0)

set obs 570

g y=0

local i=1
while ì'<=5000 {

qui replace y=int(uniform()*10)

qui sum y if y==0
matrix B[ì',1]=r(N)
qui sum y if y==1
qui sum y if y==2
qui sum y if y==3
qui sum y if y==4
qui sum y if y==5
qui sum y if y==6
qui sum y if y==7
qui sum y if y==8
qui sum y if y==9

local i=ì'+1
}

drop y

svmat B, names(col)

Luego, la matriz B se transforma a base de datos

g prop1=c2/570*100

count if prop1>=12.6

Figura 9
Base de datos 5,000 simulaciones
Nmero de veces que es sorteado cada nmero

Luego, calculamos el porcentaje en el que es sorteado el nmero 1 para cada simulacin:

Se obtiene que en 119 de las 5,000 simulaciones el nmero 1 es obtenido 12.6% o ms, lo que
corresponde a 2.38%, este porcentaje es menor al 5% que establecimos como criterio para decidir
cuando la lotera no es justa, por lo cual podemos decir que los resultados de la lotera de 1975 NO
son regulares.

El Grfico 18 muestra la distribucin de el porcentaje de veces que es sortead el nmero 1 de las
5,000 simulaciones. Vemos que la distribucin es bastante simtrica y se concentra en torno a
10%, que representa el valor terico del nmero de veces que debemos obtener el nmero 1. En
efecto, el promedio es justamente 10%. Adems observamos que en un 1% de los casos el
porcentaje de 1 es mayor a 13.2%, y en un 1% de los casos es menor a 7.2%.

Grfico 18
Distribucin de porcentaje de veces que nmero 1 es sorteado

0
2
4
6
P
e
r
c
e
n
t
6 8 10 12 14 16
Distribucion del porcentaje de unos en las 5000 simulaciones
1975
Muestreo Aleatorio y Distribucin de la Media Muestral

Cuando estamos interesados en analizar el comportamiento de una variable de inters, por
ejemplo, el nivel de ingresos de un hogar, el peso de los menores al nacer, la propensin a padecer
diabetes, el nmero de meses que una persona permanece desempleado, etc., generalmente
trabajaremos con una muestra extrada de la poblacin. Esto, porque en trminos prcticos no
tiene sentido estudiar a toda la poblacin para determinar el comportamiento estadstico y las
propiedades de la variable de inters, para esto bastar extraer una muestra aleatoria de la
poblacin.
Por ejemplo, si queremos estudiar el comportamiento previsional de los trabajadores
independientes, no es necesario entrevistar a todos los trabajadores independientes sino que
bastar con extraer una muestra aleatoria que sea representativa de este grupo de inters.
De una poblacin se pueden extraer distintas muestras que permitan representar dicha poblacin.
Supongamos que nuestra poblacin bajo estudio est formada por 10 individuos, cuntas
muestras diferentes podemos obtener de esta poblacin?

Una posible muestra es tomar a 1 individuo de los 10, podramos formar 10 muestras de este tipo.
Otro extremo es tomar una muestra de 10 individuos (igual a la poblacin), tambin podramos
formar muestras de dos individuos, o de tres, etc. Esto nos permite ver como a partir de una
poblacin pequea de slo 10 individuos, la cantidad de muestras que se pueden obtener de ellas
es bastante amplia. Cuntas muestras podemos obtener de una poblacin de 16,000,000 de
personas?, este nmero tiende a infinito.
Se define como Poblacin al conjunto de todos los elementos que han sido escogidos para el
estudio. Se realiza un Censo cuando se entrevista a cada uno de los elementos de la poblacin.
Una Muestra corresponde a una seleccin de parte de la poblacin.

1
2
3
4
5
6
7
9
8
10
Estadsticas versus parmetros

Cuando queremos caracterizar una variable, y a su vez, compararla con otra variable o la misma
variable entre diferentes grupos, podemos utilizar las medidas de tendencia central como la media
y la mediana, y las medidas de dispersin como desviacin estndar y rango inter-cuartil. Cuando
estos indicadores son obtenidos de una muestra son conocidos como estadsticas descriptivas, sin
embargo, cuando son obtenidos de la poblacin se conocen como parmetros.
Tipos de muestreo

Para que una muestra sea representativa de la poblacin debe ser obtenida de manera aleatoria,
slo si esto se cumple podremos aproximar los parmetros poblacionales a travs de estimaciones
muestrales.

Como ya se mencionaba, de una poblacin podemos obtener infinitas muestras aleatorias, as
cuando se nos entrega una base de datos cuya informacin corresponde a una muestra obtenida
de la poblacin, esta corresponde a una de un milln de bases de datos que podramos haber
obtenido para la poblacin de estudio.

Muestreo Aleatorio Simple

El Muestreo Aleatorio Simple (MAS) selecciona muestras de forma tal que cada muestra tiene
igual probabilidad de ser seleccionada y que cada elemento de la poblacin tiene igual
probabilidad de ser incluido en la muestra.

Un MAS se dice que es con reemplazo, si una personas seleccionada puede ser elegible
nuevamente, es decir, podra ser que una personas fuese seleccionada ms de una vez para
formar parte de la muestra. El MAS es sin reemplazo si cada persona puede ser seleccionada una
vez o no seleccionada, es decir, una vez escogida la persona esta deja de ser elegible nuevamente.

Suponga que tenemos una poblacin 845 estudiantes de Ingeniera Comercial egresados en los
aos 2005, 2006 y 2007. De esta poblacin de estudio debemos escoger una muestra de 120
estudiantes para ser entrevistados. Los 845 estudiantes estn identificados en la base de datos a
travs de la variable folio que tiene tres dgitos y toma valores del 1 al 845.

Para determinar qu persona entrevistar debemos generar 120 nmero aleatorios de tres dgitos
que representarn los folios de las personas seleccionadas.

Los 120 folios seleccionados mediante muestreo aleatorio simple con reemplazo pueden ser
seleccionados a travs de los siguientes comandos:

set obs 120

g n1=int(uniform()*10)

g sorteo=n1*100+n2*10+n3)

set obs 150

g sorteo=n1*100+n2*10+n3

duplicates drop sorteo, force

keep if n<=120

La siguiente figura nos muestra los nmeros sorteados:

Figura 10
Nmeros sorteados mediante Muestreo Aleatorio Simple
Con reemplazo

El primer estudiante seleccionado es aquel con el folio 169.

Ahora, si queremos seleccionar la muestra mediante un muestreo aleatorio simple sin reemplazo
podemos hacerlo mediante los siguientes comandos:
A pesar de que mediante los comandos anteriores nos permiten ejemplificar el muestreo aleatorio
simple, STATA ya posee comandos que automticamente seleccionan muestra a travs de este
tipo de muestreo con y sin reemplazo:
clear
set obs 100000

g x=invnorm(uniform())*10+15

save x.dta,replace

- sample: el comando simple de STATA genera una muestra aleatoria simple sin reemplazo
o sample 10: escoge aleatoriamente 10% de las observaciones
o sample 120, count: escoge aleatoriamente 120 observaciones
- bsample: muestreo aleatorio simple con reemplazo
o bsample 120: escoge aleatoriamente 120 observaciones.

El Grfico 19 muestra la comparacin entre las funciones de densidad de una poblacin de
100,000 observaciones que siguen una distribucin normal con media 15 y varianza 100, y
diferentes muestras obtenidas de esa poblacin. La diferencias entre un grfico y otro es el
tamao muestral de la poblacin, podemos notar que mientras ms pequea es la muestra (N=50)
mayor es la diferencia entre la densidad de la muestra y de la poblacin, versus las muestras ms
grandes (N=5000) donde las diferencias son infimas.

Grfico 19
Muestras Aleatorias de Diferentes Tamaos

Para realizar este grfico se utilizaron los siguientes comandos:
0
.
0
1
.
0
2
.
0
3
.
0
4
.
0
5
-40 -20 0 20 40 60
x
Poblacion Muestra 50
0
.
0
1
.
0
2
.
0
3
.
0
4
.
0
5
-40 -20 0 20 40 60
x
0
.
0
1
.
0
2
.
0
3
.
0
4
.
0
5
-40 -20 0 20 40 60
x
0
.
0
1
.
0
2
.
0
3
.
0
4
.
0
5
-40 -20 0 20 40 60
x
0
.
0
1
.
0
2
.
0
3
.
0
4
.
0
5
-40 -20 0 20 40 60
x
0
.
0
1
.
0
2
.
0
3
.
0
4
.
0
5
-40 -20 0 20 40 60
x
use x, clear

sample 50, count
rename x x50

save x50.dta, replace

use x, clear

sample 80, count
rename x x80


use x, clear

sample 100, count
rename x x100


use x, clear

sample 500, count
rename x x500


use x, clear

sample 1000, count
rename x x1000


use x, clear

sample 5000, count
rename x x5000


use x, clear
merge using x50 x80 x100 x500 x1000 x5000
twoway (kdensity x) (kdensity x50), name(g1, replace) legend(order(1
"Poblacion" 2 "Muestra 50"))

graph combine g1 g2 g3 g4 g5 g6, xcommon ycommon

clear
set obs 120

g sorteo=int(uniform()*6)+1 if _n==1
replace sorteo=sorteo[_n-1]+7 if _n>1
Muestreo Aleatorio Sistemtico

En el Muestreo Aleatorio Sistemtico los elementos son seleccionados de la poblacin dentro de
un intervalo uniforme. En el ejemplo anterior, se deben seleccionar 120 personas de una
poblacin de 875 individuos, por lo cual debemos escoger aproximadamente 1 de cada 7 personas
en la poblacin (875/120~7).

A travs de los siguientes comandos en STATA podemos generar los 120 individuos seleccionados
con este tipo de muestreo:

La siguiente figura muestra los 120 folios seleccionados a travs de este mtodo
Figura 11
Nmeros sorteados mediante Muestreo Aleatorio Sistemtico

Muestreo Aleatorio Estratificado

El Muestreo Aleatorio Estratificado consiste en dividir a la poblacin en grupos relativamente
homogneos llamados estratos, y dentro de cada estrato se selecciona a una muestra de esta sub-
poblacin, ya sea a travs de muestreo aleatorio simple o sistemtico. El muestreo aleatorio
estratificado puede ser proporcional o no proporcional. En el primero, la muestra de cada estrato
es seleccionada de manera proporcional a la poblacin del estrato, en el segundo se seleccionada
la misma cantidad de elementos en cada estrato.

set matsize 11000
matrix B=J(1000,1,0)

clear
set obs 10000
g x=invnorm(uniform())*10+15
save xm.dta, replace
Propiedades de la Media Muestral

A partir una poblacin podemos seleccionar infinitas muestra, generalmente nosotros
dispondremos de slo una de estas infinitas muestras que podran haber sido seleccionadas, por lo
cual debemos conocer las propiedades de la media muestral para poder hacer inferencia sobre
ella.

Para estudiar las propiedades de la media muestral, supongamos que disponemos de la poblacin
y podemos sacar varias muestras diferentes a partir de esta poblacin. Para cada una de estas
muestras podemos calcular la media muestral:

Si la variable aleatoria X tiene una media poblacional igual a u y una varianza poblacional igual a
o
2
, notamos que el valor esperado (o esperanza) de la media muestral es:

Y la varianza de la media muestral es:

De esta forma, podemos notar que en valor esperado la media muestral ser igual a la media
poblacional, esto se conoce como que es un estimador insesgado. Adems, mientras mayor sea el
tamao de la muestra menor ser la varianza de este estimador (la media muestral), y estar ms
concentrada en torno a la media (media poblacional).
Suponga que tenemos una poblacin de 10,000 observaciones, donde esta poblacin tiene una
distribucin de probabilidad (densidad) normal con media poblacional 15 y varianza poblacional
igual a 100.
Luego, seleccionamos 1,000 muestras aleatorias de tamao N=500 cada una, y a cada una de estas
muestras le tomamos la media muestral, el siguiente grfico nos muestra la distribucin
(histograma) de las medias muestrales.
local i=1
while ì'<=1000{

use xm, clear
sample 500, count
qui sum x

matrix B[ì',1]=r(mean)

local i=ì'+1
}

clear
svmat B

histogram B1, title(Distribucin de las medias muestrales)

Grfico 20

0
.
2
.
4
.
6
.
8
1
D
e
n
s
i
t
y
13.5 14 14.5 15 15.5 16
B1
Distribucin de las medias muestrales

Se obtiene que el promedio de las medias muestrales es 15, aproximadamente igual a la media
poblacional, y que la varianza de las medias muestrales es 0.186 (0.431^2), lo que equivale
aproximadamente a 100/500.

La desviacin estndar de las medias muestrales se conoce como error estndar, esto porque la
variabilidad en las medias muestrales proviene del error de muestreo debido al azar.

Si la variable aleatoria x tiene una distribucin normal de la siguiente forma:

Se tiene que la media muestral tambin tendr una distribucin normal de la forma:

Luego, se puede estandarizar la media muestral restndole la media y dividindolo por la
desviacin estndar, y se tiene que:

Teorema Central del Lmite

El Teorema Central del Lmite establece que si tomamos una muestra aleatoria de un tamao
muestral lo suficientemente grande, independiente de cul sea la distribucin de la variable
aleatoria en la poblacin, la media muestral de la variable tendr una distribucin normal con
media igual a la media poblacional, y varianza igual a la varianza muestral dividi por N.

Supongamos una poblacin que tiene una distribucin de probabilidad (densidad) tipo Pareto,
esta distribucin tiene la caracterstica de ser bastante asimtrica.

La funcin de densidad Pareto es:

Y la funcin de probabilidad acumulada de esta funcin de densidad es:

clear
set obs 100000

g u=uniform()
g z=1/(u^(1/3))

histogram z, normal title(Distribucin de Probabilidad Variable
Aleatoria Pareto) subtitle(Poblacin de 100.000 observaciones)

save z.dta,replace
Supongamos a=3.

La media poblacional de la variable z que tiene una densidad Pareto es

La varianza poblacional de la variable z es:

A travs de los siguiente comandos generamos 100,000 observaciones de una variable que tiene
densidad de probabilidad Pareto con parmetro a=3.
Grfico 21

0
.
1
.
2
.
3
.
4
.
5
D
e
n
s
i
t
y
0 20 40 60 80 100
z
Poblacin de 100.000 observaciones
Distribucin de Probabilidad Variable Aleatoria Pareto
matrix Z=J(500,6,0)

local i=1
while ì'<=500{

use z, clear
sample 10, count
qui sum z

matrix Z[ì',1]=r(mean)

local i=ì'+1
}

local i=1
while ì'<=500{

use z, clear
sample 50, count
qui sum z


local i=ì'+1
}

local i=1
while ì'<=500{

use z, clear
sample 100, count
qui sum z


local i=ì'+1
}
local i=1
while ì'<=500{

use z, clear
sample 500, count
qui sum z


local i=ì'+1
}
Para ver el Teorema de Central del Lmite, tomaremos muestras aleatorias de tamao
N=10,50,100,1000, y 5000. Tomaremos la media muestral de cada una de las muestras repitiendo
el ejercicio 500 veces para obtener la distribucin de la media muestral en cada uno de los casos.
local i=1
while ì'<=500{

use z, clear
sample 1000, count
qui sum z


local i=ì'+1
}

local i=1
while ì'<=500{

use z, clear
sample 5000, count
qui sum z


local i=ì'+1
}

clear
svmat Z

rename Z1 N10
rename Z2 N50
rename Z3 N100
rename Z4 N500
rename Z5 N1000
rename Z6 N5000

sum N*

histogram N10, normal title(Muestra de 10 observaciones) note(500
simulaciones) name(gz1, replace)

graph combine gz1 gz2 gz3 gz4 gz5 gz6

Grfico 22

0
.
5
1
1
.
5
2
2
.
5
D
e
n
s
i
t
y
1 1.5 2 2.5 3
N10
500 simulaciones
Muestra de 10 observaciones
0
1
2
3
4
D
e
n
s
i
t
y
1.2 1.4 1.6 1.8 2 2.2
N50
500 simulaciones
0
2
4
6
D
e
n
s
i
t
y
1.2 1.4 1.6 1.8 2
N100
500 simulaciones
0
2
4
6
8
1
0
D
e
n
s
i
t
y
1.4 1.5 1.6 1.7
N500
500 simulaciones
0
5
1
0
1
5
2
0
D
e
n
s
i
t
y
1.45 1.5 1.55 1.6
N1000
500 simulaciones
0
1
0
2
0
3
0
4
0
D
e
n
s
i
t
y
1.46 1.48 1.5 1.52 1.54
N5000
500 simulaciones
La importancia del Teorema Central del Lmite es que nos permite hacer inferencia sobre los
parmetros poblacionales, a travs de las estadsticas calculadas a partir de la muestra y sin
necesidad de conocer la distribucin de probabilidad que dio origen a la poblacin.
Por ejemplo, segn los datos de la encuesta CASEN 2009 el ingreso autnomo per-cpita es de
$147,388; y la desviacin estndar $239,435.4. Supongamos que estos son los valores
poblacionales de la media y la desviacin estndar, es decir:

Con esta informacin y utilizando el Teorema Central del Lmite, podemos calcular la probabilidad
de que el ingreso autnomo per-cpita promedio sea, por ejemplo, menor a $147,000.
Por el Teorema Central del lmite se tiene que:

Por lo cual, la probabilidad de que el ingreso autnomo per-cpita sea menor a $147,000 es
equivalente a:

Es decir, la probabilidad acumulada en ese punto.
El error estndar es igual a:

Luego se obtiene que la probabilidad de que el ingreso autnomo per-cpita sea menor a
$147,000 es:

Esto lo podemos realizar en STATA mediante los siguientes comandos:
use "casen2009.dta", clear

egen hogarid=group(seg f)

g s=1 if pco1!=14



keep yauthpc

save "Bootstrap.dta", replace

Hay situaciones en las que el Teorema Central del Lmite no ser til:
- Cuando el estadstico de anlisis no es la media muestral. El TCL nos dice que la media
muestral tiende a una distribucin normal cuando la muestra es lo suficientemente
grande. Sin embargo, no es aplicable cuando nuestro estadstico de inters es por ejemplo
la mediana o algn otro percentil.
- El TCL requiere que la muestra sea lo suficientemente grande para que la media muestral
tienda a una distribucin normal, si la muestra con la que estamos trabajando es pequea,
no se cumplir el TCL.
Para poder determinar la probabilidad de que una variable sea menor o mayor a cierto valor,
cuando no se cumple el TCL podemos utilizar el mtodo de simulacin Bootstrap.
El mtodo de Bootstrap consiste en tomar una cantidad de seudo-muestras aleatorias de la
muestra observada, y para cada una las seudo-muestras obtener el estadstico de inters (media,
mediana, percentil, etc.). Luego, se tendr una cantidad suficiente de valor del estadstico en de
distintas seudo-muestras que permitir calcular la probabilidad de que el estadstico sea menor o
mayor a cierto valor. Luego, se tendr una cantidad suficiente de valor del estadstico en de
distintas seudo-muestras que permitir calcular la probabilidad de que el estadstico sea menor o
mayor a cierto valor.

matrix B=J(500,1,0)

local i=1
while ì'<=500{

use "Bootstrap.dta", clear

bsample 246924

qui sum yauthpc

matrix B[ì',1]=r(mean)

local i=ì'+1
}

clear

svmat B

Luego de ejecutar estos comandos se tiene una base de datos con 500 observaciones y los valores
de la media muestral de cada una de las seudo-muestras (de tamao 246,924) en las filas.
Podemos contar cuantas de las 500 observaciones son menores a $147,000, y comparar con el
resultado que se obtena asumiendo la distribucin normal:

Se obtiene que en 105 de las 500 simulaciones el ingreso autnomo per-cpita es menor
$147,000, lo que equivale a 21%, practicamente identico al que se obtenia asumiendo normalidad.
El grfico 23 nos muestra el histograma de las 500 simulaciones de medias muestrales del ingreso
autnomo per-cpita. Y la tabla siguiente las estadsticas descriptivas de estas variables.
El Bootstrap en general es costoso en tiempo ya que requiere repetir el proceso en cada
simulacin, dos aspectos son claves en cuanto tiempo va a tomar la simulacin:
- La cantidad de simulaciones realizadas
- El tamao muestral de las seudo-muestras
La Tabla 5 muestra los resultados para este mismo problema, con diferentes tamaos muestrales
para 500 y 1000 simulaciones. Podemos apreciar que no existe gran diferencia en cuanto a la
cantidad de simulaciones, pero si es clave la cantidad de observaciones en cada seudo-muestra.

Nmero de simulaciones
Tamao muestral de las
pseudo-muestras
Grfico 23

Tabla 5
Resultado Bootstrap para diferentes tamaos muestrales y cantidad de simulaciones
N=10,000 N=50,000 N=100,000 N=246,924
500 0.452 0.356 0.276 0.21
1000 0.434 0.357 0.339 0.192
0
.
0
5
.
1
.
1
5
F
r
a
c
t
i
o
n
146000 147000 148000 149000
B1
Bootstrap 500 simulaciones
Distribucin de Medias Muestrales

Stata tiene un comando para realizar bootstrap:

bootstrap "sum yauthpc, detail" "r(mean)", rep(100)
size(100000) saving("C:\boot1.dta)

egen hogarid=group(seg f)

g s=1 if pco1!=14



Test de Hiptesis e Intervalos de Confianza

Cuando se toman decisiones de poltica se requieren como insumos las estimaciones de ciertas
variables. Por ejemplo, estimar la proporcin de la poblacin que postular a un programa de
capacitacin, o cual es el ingreso promedio de las personas que trabajan por cuenta propia, que
proporcin de las madres tienen acceso a salas cunas para sus hijos, etc.
La estimacin consiste en obtener una aproximacin del parmetro poblacional (promedio o
proporcin verdadera) a partir de la muestra disponible. Pero dado que esta es una estimacin
una vez obtenido el valor debemos preguntarnos si el resultado obtenido es estadsticamente
vlido o significativo, o es un mero resultado del azar (de nuestra muestra).
Una vez obtenida la estimacin podemos hacer inferencia estadstica y pruebas de hiptesis.
Estimador

Un estimador corresponde al mtodo o frmula a travs del cual aproximamos un parmetro
poblacional a partir de una muestra.

Por ejemplo, la media muestral de una variable:

Es un estimador de la media poblacional de la variable u.

Por ejemplo, si estamos interesados en saber cul es la escolaridad de las personas que viven en
zona rural podemos utilizar la Encuesta Casen 2009 y tomar el promedio muestral de los aos de
escolaridad segn zona:

De esta forma, podemos decir que un estimador de los aos de escolaridad en la zona rural es
7.64.
Propiedades de un Estimador

Hay estimadores que son mejores que otros, lo que se puede evaluar segn las propiedades
deseables para los estimadores

Insesgamiento

Un estimador se dice insesgado cuando el valor esperado del estimador es igual al parmetro
poblacional. Es decir, si obtuviramos infinitas muestras de una poblacin, y para cada una de ellas
calculamos el estimador, por ejemplo, la media muestral, si el promedio de estos estimadores es
igual a la media poblacional, se dir que el estimador es insesgado.

Eficiencia

Un estimador se dice que es eficiente cuando la varianza es lo ms pequeo posible. Nuevamente,
si tomamos infinitas muestras y para cada una de ellas calculamos el valor del estimador,
queremos que la desviacin estndar de estos estimadores sea la menor posible.

Consistencia

Un estimador es consistente cuando al aumentar el tamao muestral se tiene casi certeza que el
estimador se aproxima bastante al verdadero valor del parmetro poblacional.

Estimador de la Media Poblacional

Un estimador insesgado, eficiente y consistente de la media poblacional es la media muestral:

Estimador de la varianza

Para poder obtener el error estndar debemos utilizar la varianza poblacional de la variable, para
esto utilizaremos un estimador de la varianza poblacional insesgado, eficiente, y consistente que
estar dado por:

Estimador de una Proporcin de la Poblacin

Por ejemplo, si queremos estimar la proporcin de la poblacin que pertenece al sistema pblico
de salud a partir de una muestra, un estimador insesgado, eficiente y consistente es la proporcin
muestral.
Sea,

El estimador de la proporcin poblacional es:

Intervalos de Confianza

Los estimadores presentados nos entregan informacin importante para poder tomar decisiones,
sin embargo, dado que estos son estimadores o aproximaciones muestrales de parmetros
poblacionales existe cierta incertidumbre o posibilidad de error en las estimaciones. Es decir, no
podemos afirmar con 100% de seguridad que la media del ingreso es cierto valor o que el
porcentaje de personas que cotiza en FONASA es otra valor. Pero si podemos decir con un 95% de
seguridad (o 90% o 99%), esto se conoce como nivel de confianza, que el ingreso promedio se
encuentra en cierto rango de valores, y el valor poblacional est contenido en l.

El intervalo de confianza nos indica el rango de valores (creado a partir de los datos muestrales)
entre los cuales el parmetro poblacional est incluido con cierta probabilidad. La probabilidad de
que el parmetro poblacional este en este intervalo de valores se conoce como el nivel de
confianza.

Intervalos de confianza de media muestral

Supongamos una variable aleatoria X la que poblacionalmente tiene una media igual a u y una
varianza igual a o
2
, y disponemos una muestra de esta poblacin de tamao N. Sabemos que la
media muestral es un estimador insesgado, eficiente, y consistente de la media poblacional (u), ya
que se tiene que:

Adems, sabemos por el Teorema Central del Lmite que independiente de cul sea la distribucin
de probabilidad de X, su media muestral tendr una distribucin normal:

Podemos estandarizar la media muestral y se tiene que:

Entonces, sabemos que la media muestral estandarizada se distribuye normal, y que est centrada
en cero, por lo cual con alta probabilidad la media muestral estandarizada estar en torno a cero.
Queremos determinar algn valor lmite para poder decir que estamos lejos de la media de la
distribucin, por ejemplo, podemos decir que los valor que estn en el 5% ms lejos son son
valores probables para la media muestral estandarizada. A partir de esto se define el intervalo de
confianza con un 95% de nivel de confianza o 5% de nivel de significancia:

Donde Z
0.025
corresponde al valor de la distribucin normal estndar bajo el cual se acumula un
2.5% de probabilidad, y Z
0.975
corresponde al valor de la distribucin normal estndar que acumula
un 97.5% de probabilidad a la izquierda. Estos valores pueden ser obtenidos de una tabla de la
distribucin normal estndar disponible en cualquier libro de estadstica o a travs de STATA
mediante los siguientes comandos:

Figura 12
Distribucin Normal Estndar

Por lo tanto,

Lo que se puede escribir de manera equivalente como:

De esta manera, el intervalo de confianza nos indica que con un 95% de seguridad la media
poblacional est entre:

Sin embargo, lo anterior supone el conocimiento de la varianza poblacional de X, pero en la
prctica esto no ser conocido y debemos utilizar su estimador s
2
. Al utilizar el estimador la
distribucin ya no es exactamente normal sino que se convierte en una distribucin t-student:

Nuevamente, los valores de la distribucin t-student los podemos obtener de las tablas de la
distribucin o de STATA, a continuacin se presentan los valores para diferentes tamaos
muestrales:

Podemos apreciar que a mayor tamao muestral se aproxima bastante a los valores de la
distribucin normal.
Por ejemplo, podemos calcular el intervalo de confianza del ingreso autnomo per-cpita
utilizando la encuesta CASEN 2009:

Entonces podemos decir con un 95% de confianza que el ingreso autnomo per-cpita esta entre
$146,444 y $148,333.
Esto se puede obtener directamente e STATA a travs del comando para obtener intervalo de
confianza de una media:

Por defecto entrega el intervalo de confianza al 95%, pero eso puede ser modificado:

Para obtener el intervalo de confianza estamos imponiendo que se cumple el Teorema Central del
Lmite, es decir, que la media muestral sigue una distribucin normal. Si este supuesto no se
cumple el clculo del intervalo confianza antes planteado no es vlido. En este caso se puede
utilizar Bootstrap para obtener el intervalo de confianza:

bootstrap "sum yauthpc, detail" "r(mean)", rep(500)
Intervalos de confianza de una proporcin

La proporcin corresponde a la media muestral de una variable binaria que toma valor 1 si se
cumple cierta condicin y cero sino. La proporcin muestral se utiliza para estimar la proporcin
poblacional.
Considere la siguiente variable aleatoria Z con una distribucin Bernoulli:

Lo que nos interesa estimar es el parmetro poblacional p.
La media poblacional de la variable Z est dada por:

Luego, obteniendo un estimador para p queda determinado el estimador de la media poblacional
y de la varianza poblacional, existe slo un parmetro que estimar. Un estimador insesgado,
eficiente y consistente de p es la proporcin muestral:

De esta forma, el intervalo de confianza de una proporcin esta dado por:

Test de Hiptesis
Qu es una hiptesis?

Una hiptesis es una declaracin sobre un parmetro poblacional, luego con la informacin
muestral podremos decir si la afirmacin es estadsticamente vlida o no. Obviamente al trabajar
con una muestra esta conclusin tendr cierto nivel de error o alternativamente cierto nivel de
confianza.

Por ejemplo, podemos querer testear si la tasa de participacin de mujeres con hijos es un 30%,
esta hiptesis plantea una afirmacin sobre un parmetro poblacional, ahora con los datos
muestrales debemos encontrar la evidencia estadstica suficiente para rechazar o no esta
afirmacin. Otra posible hiptesis a testear es por ejemplo, que el ingreso promedio de los
pensionados es $230 mil. De esta forma, se nos pueden ocurrir diversas hiptesis sobre
parmetros poblacionales, para poder rechazar o no dichas hiptesis debemos contar con datos
muestrales que nos permitan ver si la hiptesis es estadsticamente vlida o no, con cierto error
dado que vamos a trabajar con una muestra.
Cmo se realiza un Test de hiptesis?

El procedimiento de testear o probar una hiptesis consiste en determinar si una hiptesis de un
parmetro poblacional es razonable a partir de los datos provenientes de una muestra y utilizando
la teora de probabilidades.
El resultado del Test de Hiptesis NUNCA nos permite afirmar que la hiptesis es verdadera, ya
que el parmetro poblacional es desconocido, pero si nos permite con cierta confianza o
significancia rechazar la hiptesis nula.
Paso 1: Establecer la hiptesis nula y alternativa
Lo primero que se debe hacer es definir la hiptesis a testear, la que se denomina Hiptesis Nula
(H
0
). La hiptesis nula es una afirmacin que no se rechaza a menos que la informacin de la
muestra ofrezca evidencia convincente de que esta es falsa.
Recuerde que si no rechazamos la hiptesis nula no implica que la aceptemos o que esta sea
verdadera, ya que para probarlo necesitaramos conocer el parmetro poblacional.
La hiptesis alternativa es la afirmacin que se acepta si los datos de la muestra no proporcionan
suficiente evidencia de que la hiptesis nula es falsa.
Paso 2: Seleccionar el nivel de significancia
El nivel de significancia (o) es la probabilidad de rechazar la hiptesis nula cuando esta es
verdadera, lo que se conoce como Error Tipo I. El Error Tipo II corresponde a aceptar la hiptesis
nula cuando esta es falsa.
Generalmente se utiliza un 5% de significancia, pero esto depender de la hiptesis puntual bajo
estudio, ya que de alguna manera el nivel de significancia es el riesgo que el investigador esta
dispuesto a asumir.
Paso 3: Seleccionar el estadstico
El estadstico es la expresin matemtica de la hiptesis nula, construido con la informacin
muestral disponible, y de forma tal que tenga una distribucin de probabilidad conocida (normal,
o t-student) que nos permita determinar fcilmente si rechazamos la hiptesis nula o no.
Por ejemplo, si queremos testear que la media poblacional de cierta variable es 0.5, contra la
hiptesis alternativa de que es distinta a 0.5:

Dado que sabemos, por TCL, que la media muestral tiene una distribucin normal, podemos
plantear el siguiente estadstico:

Todos los valores del estadstico pueden ser calculados a partir de la muestra, excepto u que
justamente corresponde al valor del parmetro poblacional que estamos planteando en la
hiptesis nula.

Paso 4: Formular la regla de decisin

Se deben establecer las condiciones especficas en las que la hiptesis nula se rechaza. Notemos
que el estadstico est centrado en 0, valor que toma cuando se cumple al hiptesis nula, en la
medida que se aleja de cero ya sea porque este se hace muy grande o muy pequeo, es cada vez
menos probable que se cumpla la hiptesis nula. La zona de rechazo define los valores del
estadstico para los cuales la probabilidad de que se cumpla la hiptesis nula es remota.
Entonces debemos determinar el valor crtico del estadstico de manera que se acumule un 5% de
probabilidad en los valores extremos de la distribucin, 2.5% en la cola derecha y 2.5% en la cola
izquierda.

La Figura 13 muestra la zona de rechazo para el test de hiptesis antes planteado, desde - hasta
-1.96 se encuentra la zona de rechaz a la izquierda, y desde 1.96 a + la zona de rechazo a la
derecha.
Figura 13
Zona de rechazo Test de dos colas

En caso que la hiptesis alternativa sea que la media poblacional es menor a cierto valor,
rechazaremos la hiptesis nula a favor de la alternativa slo si el valor efectivamente es menor al
planteado, es decir , cuando el estadstico se vuelva muy negativo, por lo cual en este caso la zona
de rechazo completa se ubica en la cola izquierda de la distribucin, desde - a -1.64.

Figura 14
Zona de rechazo Test de una cola

Finalmente, la Figura 15 muestra la zona de rechazo en el caso que la hiptesis alternativa es que
la media poblacional es mayor a cierto valor, en este caso se rechazar la hiptesis nula de que es
igual a este valor slo si el valor de la media muestral est lo suficientemente por arriba del valor
planteado, y el valor del estadstico es positivo y lo suficientemente grande, as la zona de rechazo
completa se ubica en la cola derecha de la distribucin, de 1.64 a +.

Figura 15
Zona de rechazo Test de una cola

Paso 5: Tomar una decisin

Una vez definida la hiptesis nula, se calcula el estadstico a partir de los datos muestrales, y
determinado el nivel de significancia se puede establecer el valor crtico del estadstico.
Comparando el valor calculado del estadstico con los valores que definen las zonas de rechazo se
puede concluir si se rechaza o no la hiptesis nula a favor de la hiptesis alternativa.

Ejemplo Test de Hiptesis sobre media poblacional

Suponga que estamos interesados en testear que la edad media de las mujeres que trabajan es 45
aos, contra la hiptesis alternativa de que es distinta a 45 aos.

1) Debemos plantear el Test de Hiptesis:


g trabaja=1 if o1==1
replace trabaja=1 if o1==2 & o2==1
replace trabaja=1 if o1==2 & o2==2 & o3==1
replace trabaja=0 if trabaja==.
replace trabaja=. if o1==.

sum edad if sexo==2 & trabaja==1

2) Escoger el nivel de significancia: 5%
3) Obtener el valor calculado del estadstico con los datos muestrales:

Luego, con esta informacin podemos construir el estadstico para el test sobre la media
poblacional, el que se basa en que la media muestral tiene una distribucin normal:

4) El estadstico calculado lo debemos comparar con el de la distribucin t-student con 31660
grados de libertad y con un 5% de significancia dividido en dos colas.

De esta forma, la zona de rechazo est entre - y -1.96, y 1.96 y +.

5) Dado que el valor del estadstico cae en la zona de rechazo de la cola izquierda, se puede
concluir que se rechaza la hiptesis nula de que la edad promedio de las mujeres que
trabajan es 45 aos, en favor de que es distinta.

g horas=o16/7*30
g yhora=yopraj/horas

Esto mismo lo podemos hacer a travs del comando ttest de STATA:

p-value

En el procedimiento antes descrito necesitamos definir un nivel de significancia para determinar
las zonas en las cuales rechazaremos la hiptesis nula.

Por otra parte, el valor p nos entrega informacin adicional para determinar con que fuerza la
hiptesis nula es rechazada, es decir, con qu seguridad rechazamos H
0
.

El valor p es la probabilidad acumulada en las colas desde el valor negativo del estadstico a la
izquierda, y desde el valor positivo del estadstico a la derecha, en el caso de un test de dos colas.

1) H
1
: uu
0
:

2) H
1
: u<u
0
:

3) H
1
: u>u
0
:

Por ejemplo, a continuacin realizaremos test para el salario por hora promedio:

En el primero caso, donde se plantea como hiptesis nula que el ingreso promedio por hora es
$1,900, el valor calculado del estadstico es 1.12, si lo comparamos con el valor de de la
distribucin t al 5% de significancia (1.96), podemos concluir que no se puede rechazar la hiptesis
nula de que el ingreso por hora promedio es $1,900.

En este caso, si estamos planteando un test de dos colas el valor p es igual a:

Esto significa que el valor del estadstico calculado para esta hiptesis nula acumula un 26.3% de
probabilidad en las colas, claramente mayor al 5% de error tipo I que se est dispuesto a tolerar.
Si la hiptesis alternativa fuese que la media es mayor a 1900, el valor p estar dado por:

Tambin es mayor al 5% de significancia.
Finalmente, si la hiptesis alternativa fuese que el salario promedio es menor a 1900, el valor p
estara dado por:


g cotiza=1 if o29==1
replace cotiza=0 if o29==2 | o29==3 | o29==9

El valor p nos indica el nivel de significancia o error tipo I asociado al estadstico calculado, si este
es menor al 5% es porque nuestro estadstico estar en la zona de rechazo, por lo cual la regla de
oro para utilizar le p-value es:
- Si el valor p es menor al nivel de significancia dado se rechaza la hiptesis nula
- Si el valor p es mayor al nivel de significancia dado no se puede rechazar la hiptesis nula
Test de hiptesis sobre una proporcin

Se tiene como hiptesis nula que la proporcin de la poblacin que cotiza para el sistema de
pensiones es 0.5.

- El valor del estadstico calculado es 20.63 mayor al 1.96 que determina el valor crtico por
lo cual se rechaza la hiptesis nula.
- Tambin podemos notar que el valor p es 0% menor al 5% de significancia por lo cual se
rechaza la hiptesis nula.
- Una tercera forma de concluir sobre la hiptesis nula es notando que el intervalo de
confianza (valor ms probables) no contiene el valor 0.5.
Test de diferencia de medias

Una conjunto importante e interesante de test de hiptesis son los relacionados con comparar las
medias o proporcin de una variable entre dos grupos diferentes, o de manera equivalente testear
que la media de una variable de un grupo, por ejemplo, hombres es igual a la media de la misma
variable en el otro grupo, mujeres.

Por ejemplo, si queremos testear que el ingreso por hora de los hombres es igual que al de las
mujeres, debemos plantear el siguiente test de hiptesis:

Para plantear el estadstico en funcin de los indicadores muestrales, tomamos como punto de
partida que la diferencia de medias muestrales tambin se distribuye normal con media igual a la
diferencia de medias poblacionales, y con varianza:

De esta forma, se tiene que:

Pero el error estndar es estimado a partir de la muestra de la siguiente manera:

As, el estadstico para el test de diferencias de medias es:

El comando ttest y prtest de STATA pueden ser utilizados con la opcin by() para realizar el
test de diferencia de medias y diferencias de proporciones.
El siguiente output nos muestra el resultado para el test de diferencias de media de ingreso por
hora entre hombres y mujeres, notemos que la hiptesis nula es que el ingreso promedio de los
hombres menos el ingreso promedio de las mujeres es igual a cero. En trminos muestrales, el
ingreso promedio de los hombres es $2,007 y el ingreso promedio de las mujeres $1,741, la
diferencia es de $265.8. El error estndar de la diferencia es 27.9. De esta forma, se obtiene un
valor calculado del estadstico de 9.5358 lo que nos permite rechazar al 5% (ya que es mayor que
1.96) que el ingreso promedio de los hombres es igual al ingreso promedio de las mujeres (o que
la diferencia es cero). Esto tambin se puede concluir notando que el valor p es menor a 0.05 (5%)
y que el cero no est contenido en el intervalo de confianza para la diferencia de ingresos
promedios.

El siguiente output nos muestra el resultado para testear la hiptesis nula de que la proporcin de
hombres que cotiza en el sistema de pensiones es igual a la proporcin de mujeres que cotiza.
Tenemos que el valor calculado del estadstico es 1.74 levemente inferior a 1.96, por lo cual al 5%
de significancia no podemos rechazar la hiptesis nula de que las proporciones son iguales, lo
vemos tambin porque el p-value es mayor a 0.05 y el cero est contenido en el intervalo de
confianza.

Bootstrap para el test de medias

En el caso que se tenga una muestra pequeas o dudas sobre la normalidad de la media muestral
se puede aplicar el mtodo no paramtrico de bootstrap para obtener el intervalo de confianza de
la media muestral y de esta manera testear cualquier hiptesis sobre el parmetro poblacional.

El resultado nos muestra que con un 95% de confianza el ingreso por hora promedio poblacional
se encuentra entre 1889.4 y 1946.9, con lo cual no podemos rechazar la hiptesis nula de que es
igual a 1900, antes testeada, y si podemos rechazar que es igual a 2100.

Bootstrap para el test de mediana

Suponga que queremos testear la hiptesis nula de que la mediana poblacional del ingreso por
hora es igual a 1000, dado que para la mediana no se cumple el Teorema Central del Lmite
debemos utilizar bootstrap para testear esta hiptesis.
La siguiente imagen nos muestra el resultados del bootstrap para la mediana el ingreso por hora
con 300 repeticiones, se obtiene que con un 95% de confianza el ingreso por hora mediano
poblacional est entre 1088.63 y 1105, con lo cual se rechaza la hiptesis nula de que el ingreso
por hora mediano sea igual a 1000 ya que este valor esta fuera del intervalo de confianza.
bootstrap "do difgenero.do" "r(mean)", reps(300)

Bootstrap para el test de diferencia de medias

Como no existe un comando directo en STATA que calcule la diferencia de media, en vez de pedir
en el comando bootstrap que repita un comando le pediremos que repita un do-file, donde este
do-file calcula la diferencia de medias:

difgenero.do

sum yhora if sexo==1
g h=r(mean)
sum yhora if sexo==2
g m=r(mean)
g dif=h-m
sum dif

Previo a haber creado el do-file anterior y haber sido guardado en el computador, se ejecuta el
siguiente comando:

El resultado del bootstrap nos muestra que la diferencia entre el ingreso por hora medio de los
hombres y el ingreso por hora medio de las mujeres se encuentra con un 95% de confianza entre
209.6 y 310.5. Con lo cual al testear la hiptesis nula de que la diferencia de medias es cero, se
rechaza la hiptesis nula
bootstrap "do difmediangenero.do" "r(mean)", reps(300)

Bootstrap para el test de diferencia de medianas

Si queremos testear que la diferencia entre el ingreso por hora mediano entre hombres y mujeres
es cero, debemos utilizar de manera obligada bootstrap ya que la diferencia de medianas no tiene
distribucin normal.

difmediangenero.do

sum yhora if sexo==1, d
g h=r(p50)
sum yhora if sexo==2, d
g m=r(p50)
g dif=h-m
sum dif

Previo a haber creado el do-file anterior y haber sido guardado en el computador, se ejecuta el
siguiente comando:

La siguiente tabla nos muestra el resultado del bootstrap, encontrando que la diferencia de
ingreso por hora mediano entre hombres y mujeres se encuentra con un 95% de confianza entre
114.5925 y 114.5927, por lo cual tambin se rechaza que la diferencia de medianas sea igual a
cero.

Distribucin de Probabilidad Conjunta

Hasta ahora nos hemos concentrado en el anlisis de una sola variable, como es su distribucin, su
media y dispersin. Pero en gran parte de los problemas econmicos y de polticas pblicas no
slo nos interesa estudiar una variable, sino tambin como esta variable se puede o no ver
afectada por el comportamiento de otras variables.

Por ejemplo, cuando analizamos el nivel de ingreso nos interesara tambin saber cmo se
relacionada con otra variable, como aos de escolaridad o experiencia laboral, etc.

Otras preguntas que nos puede interesar responder:

- Afecta la salud fsica los resultados que obtienen los individuos en el mercado del
trabajo?
- Disminuye el empleo cuando el salario mnimo se incrementa?
- Disminuye la desigualdad de ingresos cuando aumenta la participacin laboral femenina?

Ms especficamente, si la salud fsica es una variable aleatoria (X) y salario laboral es otra variable
aleatoria (Y), cada una tiene su propia distribucin de probabilidad, lo que se denomina
distribucin de probabilidad marginal, luego debemos determinar la funcin de probabilidad
conjunta y condicional para estudiar si las variables aleatorias X e Y son independientes o no.

La funcin de probabilidad conjunta de dos variables aleatorias X e Y indica la probabilidad de que
las dos variables tomen ciertos valores de manera simultnea. Las probabilidades de todas las
posibles combinaciones (x,y) deben sumar 1. La funcin de probabilidad conjunta se denota de la
siguiente manera:

Supongamos el siguiente ejemplo, en que la variable aleatoria X es binaria y toma valor 1 si el
profesor particip en el proceso de certificacin docente y cero si es que no particip. Esta
variable aleatoria tiene la siguiente funcin de probabilidad marginal:

La que puede ser escrita de la siguiente manera:
X Pr[X=x]
0 2/3
1 1/3

Suponga ahora que tiene otra variable aleatoria binaria Y que toma valor 1 si el profesor naci el
primer trimestre del ao, y 0 si nacieron los trimestres 2, 3, o 4. Entonces, la funcin de
probabilidad marginal de Y es:

La que puede ser escrita de la siguiente manera:
Y Pr[Y=y]
0 3/4
1 1/4

La funcin de probabilidad conjunta de estas dos variables aleatorias es:

Lo que puede ser escrito de manera alternativa:
x=0 x=1
y=0 6/12 3/12
y=1 2/12 1/12

Donde podemos verificar que la suma de probabilidades es igual a 1.
Luego sumando verticalmente las probabilidades podemos obtener la distribucin de probabilidad
marginal de X, y sumando horizontalmente las probabilidades podemos obtener la distribucin de
probabilidad marginal de Y:
x=0 x=1
y=0 6/12 3/12 3/4
y=1 2/12 1/12 1/4
2/3 1/3

Tambin podemos notar del cuadro anterior que cualquiera de las probabilidades conjuntas puede
ser obtenida simplemente multiplicando las probabilidades marginales:

Esto se cumple slo cuando las variables aleatorias son independientes.
Ahora supongamos otra variable aleatoria Z la que tambin es binaria y toma valor 1 si el
establecimiento educacional al cual pertenece el profesor es privado y 0 si es pblico. La
probabilidad con la cual Z toma valor 1 es 1/3 y la probabilidad con la que toma valor 0 es 2/3.
La siguiente tabla muestra las probabilidades asociadas a la distribucin conjunta de las variables X
y Z:
x=0 x=1
z=0 7/12 1/12 2/3
z=1 1/12 3/12 1/3
2/3 1/3

En este caso, el producto de las probabilidades marginales no es igual a la probabilidad conjunta,
esto sucede porque las variables no son independientes:

De esta forma, se concluye que la certificacin del profesor y la dependencia del colegio al cual
pertenece no son variables independientes.

Test de Independencia ;
2

Si tenemos dos variables aleatorias podemos realizar un test de independencia para ver si
empricamente las variables se comportan como si fuesen independientes.
Este test se basa en que bajo la hiptesis nula de independencia de las variables la multiplicacin
de las probabilidades marginales debera ser igual a la probabilidad conjunta.
Supongamos que X e Y, dos variables aleatorias, pueden tomar dos valores respectivamente. Y se
tiene que:

Sea N el total de observaciones, y N
ij
el nmero de observaciones donde X=i e Y=j.
Luego el estadstico para testear esta hiptesis es:

Al 5% de significancia el valor de la distribucin ;
2
con un grado de libertad es 3.84.
Recordemos que la hiptesis nula es de independencia entre las variables, por lo cual bajo la
hiptesis nula se debera cumplir que N
ij
sea igual a Nq
i
p
j
, lo que indica que el nmero de
observaciones que cumplen con Y=0 y X=0 es igual a tomar el total de observaciones y multiplicar
por la probabilidad de que Y=0 y por la probabilidad de que X=0. De esta forma, bajo la hiptesis
nula el estadstico toma valor cero, en la medida que se deja de cumplir la hiptesis nula el valor
del estadstico comienza a crecer (siempre positivo), si este difiere tanto de cero al punto de llegar
a ser mayor a 3.84 se rechaza la hiptesis nula de que las variables son independientes.
La siguiente tabla nos muestra el resultado del test de independencia entre la variable aleatoria X
(certificacin del profesor) y la variable aleatoria Y (trimestre de nacimiento):

De la tabla anterior, tenemos que:

Luego podemos calcular cada uno de los cuatro trminos en la sumatoria del estadstico:
Y=0, X=0:

Y=1, X=0:

Y=0, X=1:

Y=1,X=1

Sumando los cuatro trminos se obtiene el valor calculado del estadstico:

Como el valor del estadstico calculado es menor a 3.84 no se puede rechazar la hiptesis nula de
independencia entre certificacin del profesor y fecha de nacimiento, tambin se puede concluir
estos notando que el valor p es mayor a 0.05 (5%).
La siguiente tabla muestra el test de independencia entre las variables aleatorias X y Z:

El valor del estadstico es mayor al valor crtico, o el p-value es menor a 0.05, con lo cual se
rechaza la hiptesis nula de que certificacin del profesor y dependencia del colegio sean variables
independientes.

Distribucin de probabilidad condicional

Cuando analizamos la distribucin de probabilidad de la variable aleatoria X condicional en algn
valor especifico de Y, por ejemplo, Y=0, se conoce como distribucin de probabilidad condicional.

Por ejemplo, suponga que estamos interesados en saber cul es la probabilidad de que un docente
se certifique condicional en que naci en el primer trimestre del ao.

x=0 x=1
y=0 6/12 3/12 3/4
y=1 2/12 1/12 1/4
2/3 1/3

En trminos generales, la distribucin de probabilidad de X condicional en Y es igual a:

Notemos que la probabilidad de que un docente se certifique condicional en que naci el primer
trimestre es igual a la probabilidad incondicional (o marginal) de que un docente se certifique,
esto se cumple porque las dos variables son independientes.

Tambin podemos analizar la probabilidad de que un docente se certifique condicional en que la
dependencia del colegio es pblica:

x=0 x=1
z=0 7/12 1/12 2/3
z=1 1/12 3/12 1/3
2/3 1/3

En este caso la probabilidad de certificarse condicional en que el colegio es pblico es distinta a la
probabilidad incondicional de certificarse, esto porque las variables no son independientes.

La distribucin de probabilidad condicional nos permite definir la esperanza condicional de una
variable:

Este concepto es muy importante en anlisis de regresin, herramienta fundamental para el
anlisis de polticas pblicas.
Covarianza y Correlacin

La covarianza entre dos variables aleatorias muestra el grado en que estas dos variables se
mueven de manera conjunta. La covarianza entre dos variables aleatorias X e Y es igual a:

La covarianza entre las dos variables ser positiva si cuando X est por sobre la media Y tambin
tiende a estar pos sobre la media, y la covarianza ser negativa si cuando X est por sobre la
media Y tiende a estar bajo la media. Cuando las dos variables son independientes la covarianza
ser igual a cero.
El comando correlate con la opcin c de STATA calcula las covarianza en el listado de
variables sealado.

En este caso nos muestra que la covarianza entre X e Y es positiva e igual a 0.011, y la covarianza
entre X y Z es positiva tambin e igual a 0.069. Finalmente, la covarianza entre Z e Y es negativa e
igual a -0.005873.
Pero cmo podemos interpretar el valor de la covarianza?
Si nos fijamos la definicin de covarianza estar multiplica los desvos de X con respecto a su media
por los desvos de Y con respecto a su media, por lo cual, est en unidades de X multiplicado por
unidades de Y lo que no tiene ninguna interpretacin.
Una medida estandarizada de dependencia entre dos variables aleatorias es el Coeficiente de
Correlacin el que elimina el problema de las unidades en la variable dividiendo la covarianza por
la desviacin estndar de X y por l desviacin estndar de Y.

Esta medida tomar valores entre -1 y 1, donde -1 indica dependencia negativa perfecta entre las
dos variables, 1 indica dependencia positiva perfecta entre las dos variables, y 0 indica que son
independientes.
Con el comando correlate de STATA podemos obtener el coeficiente de correlacin entre un
listado de variables:

En este caso, el coeficiente de correlacin entre X e Y (variables independientes) es muy cercano a
cero, sin embargo, el coeficiente de correlacin entre X y Z es positivo de orden de 0.28,
mostrando una dependencia positiva entre las dos variables.
Por ejemplo, utilizando los datos de la Encuesta CASEN 2009 podemos ver cul es la correlacin
entre los aos de escolaridad (esc) y el salario de la ocupacin principal (yopraj):

Los resultados nos muestran un coeficiente de correlacin positivo del orden de 0.28 entre los
aos de escolaridad y el salario. Sin embargo, al ser obtenido de una muestra podemos
preguntarnos si este valor es estadsticamente diferente de cero o no.
A travs del siguiente comando en STATA podemos testear si el coeficiente de correlacin es
estadsticamente diferente de cero. La hiptesis nula es que el coeficiente es igual a cero, y la tabla
a continuacin presenta bajo el coeficiente de correlacin y valor p para esta hiptesis nula:

En este caso, se rechaza la hiptesis nula de que el coeficiente de correlacin entre aos de
escolaridad y salario sea igual a cero.
La siguiente tabla nos muestra, utilizando la misma Encuesta CASEN 2009, correlaciones entre un
listado de variables:

Finalmente, debemos tener presente que el coeficiente de correlacin mide asociacin lineal entre
las variables, por lo cual si existe una relacin pero no lineal esta no ser detectada por el
coeficiente de correlacin.

Test de Normalidad

Hasta ahora para estudiar la normalidad de una variable lo hemos realizado por simple inspeccin
grfica o viendo que los coeficientes de asimetra y kurtosis sean cercanos a los valores que
caracterizan una distribucin normal, 0 y 3 respectivamente.

Podemos plantear ms formalmente un test que tenga como hiptesis nula:

Esta hiptesis testea conjuntamente que asimetra es cero y kurtosis es igual a 3, es decir, la
hiptesis nula es que la variable es normal.
Tenemos la variable X, con las siguientes estadsticas descriptivas:

El coeficiente de asimetra es prcticamente cero, y la kurtosis muy cercana a 3. En efecto
podemos ver a travs del histograma de la variable que sigue una distribucin muy parecida a la
normal:

Sin embargo, necesitamos saber si estadsticamente la asimetra es cero y la kurtosis es 3, para eso
realizaremos un test de hiptesis que tenga como hiptesis nula la normalidad de la variable:
0
.
2
.
4
.
6
.
8
D
e
n
s
i
t
y
0 1 2 3 4
x

El primer valor p que muestra es sobre la hiptesis nula de que la asimetra (skewness) es igual a
cero, dado que el valor p es mayor a 0.05 no se puede rechazar la hiptesis nula de que la
asimetra de la variable X es cero. El segundo valor p es sobre la hiptesis nula de que la kurtosis es
igual a 3, dado que el valor p es mayor a 0.05 no se puede rechazar la hiptesis nula de que la
kurtosis es igual a 3. Finalmente, el tercer valor p presentado corresponde a lo que estrictamente
se conoce como test de normalidad, ya que testea conjuntamente que ambas condiciones se
cumplen. En este caso el valor p es mayor a 0.05 por lo cual no se puede rechazar la hiptesis nula
de normalidad de la variable X.
El siguiente grfico nos muestra la distribucin de la edad segn los datos de la Encuesta CASEN
2009:

Y sus principales estadsticas descriptivas:
0
.
0
0
5
.
0
1
.
0
1
5
.
0
2
D
e
n
s
i
t
y
0 20 40 60 80 100
r3: edad

Notamos que la asimetra es relativamente lejana a cero, y la kurtosis diferente de 3. Pero
debemos ver si estadsticamente la asimetra difiere mucho de cero y la kurtosis de 3 como para
rechazar la hiptesis nula de normalidad de la variable edad.

En este caso, se rechaza la hiptesis nula de normalidad de la variable.

Anlisis de Regresin Lineal

Vimos que cuando nos interesa analizar la relacin entre dos variables, el coeficiente de
correlacin es un indicador que me permite obtener el grado de dependencia y la direccin de
ella. Por ejemplo, el siguiente grfico nos muestra la relacin entre las expectativas de vida de los
hombres y las expectativas de vida de las mujeres para 188 pases:

graph twoway (lfit lex60_f lex60_m) (scatter lex60_f lex60_m)

Grficamente se aprecia una fuerte relacin positiva entre estas dos variables, en efecto el
coeficiente de correlacin es 0.94:

El siguiente grfico nos muestra la relacin entre la tasa de mortalidad infantil y la tasa de
alfabetizacin de las mujeres:

Podemos apreciar que existe una fuerte relacin negativa entre la tasa de alfabetizacin y la tasa
de mortalidad, es decir, en pases con mayor alfabetizacin de las mujeres tienden a tener menor
tasa de mortalidad infantil. El coeficiente de correlacin entre estas dos variables es -0.81.

Si bien la correlacin entre las variables nos indica dependencia entre ellas, ya sea positiva en el
primer ejemplo o negativa en el segundo, no nos indica alguna causalidad de la relacin entre las
variables.
En la mayora de los problemas econmicos y de evaluacin de polticas pblicas el inters est en
estudiar el efecto causal que tiene una o ms variables sobre alguna variable de inters (variable
de resultado).
El concepto ceteris paribus (todo lo dems constante) juega un rol fundamental en determinar el
efecto causal, ya que generalmente habr una serie de variables que afectan el comportamiento
de nuestra variable de inters y debemos ser capaces de controlar por todas ellas para poder aislar
e identificar de manera correcta el efecto de una o ms variables particulares que nos interesen
sobre la variable de inters.
Por ejemplo, si estamos interesados en determinar el efecto de una semana adicional de
capacitacin sobre la productividad de los trabajadores (lo que se ver reflejado en su salario)
debemos considerar los otros factores que pueden afectar la productividad del trabajador como
educacin y experiencia, es decir, debemos preguntarnos cul es el efecto de una semana
adicional de capacitacin dado un nivel de escolaridad y un nivel de experiencia.
Suponga que nos interesa estudiar en el rendimiento de los alumnos, medido a travs del puntaje
SIMCE, de reducir el tamao del curso (o alumnos por profesor) en 2. Luego queremos encontrar
una relacin entre A Simce y A TamaoCurso, donde A significa cambio. Entonces queremos
determinar cunto cambia el puntaje de Simce en relacin a cuanto est cambiando el tamao del
curso, vale decir:

| mide cuanto cambia el puntaje del simce por cada cambio en tamao de curso, por ejemplo, si
beta es -5.7 se puede interpretar que un aumento en 1 alumno el tamao del curso disminuye el
puntaje de SIMCE en 5.7 puntos:

Notemos que b corresponde a la pendiente de una recta que relaciona el puntaje en el SIMCE con
el tamao del curso:

donde o es el intercepto y | es la pendiente.
De esta forma, si tuvisemos los valores de o y | podramos responde cualquier pregunta que
relacione tamao de curso con puntaje Simce.

Recta de Regresin Lineal

En trminos generales denotaremos por Y a la variable de inters y X a la variable que tiene un
efecto causal sobre la variable de inters la que normalmente se denominan variable explicativa o
regresor.

La relacin entre la variable Y y la variable X (puede ser ms de una variable explicativa) no es
determinstica, sino que es aleatoria. Esto es, para un mismo valor de X no siempre observamos el
mismo valor de Y sino distintos valores (con cierta distribucin).

Si la relacin fuese determinstica, estadsticamente no tendramos ningn problema interesante.
El problema en Anlisis de Regresin es justamente que para un valor de X no siempre
observamos el mismo valor de Y, por lo cual lo mejor que podemos hacer es tratar de descubrir
cul es el valor esperado de Y condicional en cierto valor de X, lo que se conoce como Esperanza
Condicional:

Podemos ver grficamente que el valor de la esperanza de Y va cambiando condicional en
diferentes valores de X, especficamente, observamos en este caso que a medida que aumenta X
(nmero de alumnos por curso) el puntaje promedio va disminuyendo.
De esta forma, podemos decir que la Esperanzan Condicional de Y, lo mejor que podemos tratar
de predecir, es una funcin de X. El modelo de regresin lineal asume que esta funcin es lineal:

Las observaciones que tengamos en nuestra muestra de datos nos permitirn obtener
estimadores para los parmetros poblacionales desconocidos: o y |, y de esta forma obtener un
estimador para la media condicional:

Tendremos N observaciones, la observacin del individuo i de la variable dependiente ser Y
i
y la
variable explicativa del individuo i ser X
i
donde i=1,..,N.
Existe una diferencia entre la observacin puntual de Y
i
y la recta de regresin o esperanza
condicional, esa diferencia es la que se denomina error y ser denotado por u
i
. El error de
regresin resume los factores aleatorios que determinan el comportamiento de Y pero que no son
explicados por X.

Entonces, la distancia que hay entre la observacin puntual de Y
i
y el valor en la recta de regresin
(o media condicional) es el error de regresin:

Donde el valor esperando de u
i
es cero.
De esta forma, el Anlisis de Regresin estudia la relacin entre una variable dependiente y una o
ms variables explicativas, y tiene como objetivo medir o predecir la media poblacional de la
variable dependiente para valores fijos, o condicional en valores de la o las variables explicativas.
Para estimar la media poblacional:

Se utiliza la muestra obteniendo la recta de regresin muestral:

La diferencia entre el valor estimado de la media y el valor observado de Y
i
ser el error estimado:

o y | se denominan coeficientes de regresin poblacionales y y
corresponden a los
estimadores muestrales de dichos coeficientes o parmetros.
Notemos que nosotros dispondremos de una de las infinitas muestras que pueden ser obtenidas
de una poblacin, y para esta muestra obtendremos los estimadores de los parmetros
poblacionales. Si hubisemos tenido acceso a otra muestra el estimador sera diferente, en efecto,
podemos construir una distribucin (terica) para los estimadores.
La pregunta ahora es Cul ser un buen estimador para estos parmetros?
Estimador de Mnimos Cuadrados Ordinarios

Recordemos que un estimador es una frmula o mtodo que nos dice como aproximar un
parmetro poblacional a partir de una muestra. Para clasificar al estimador como bueno o
deseable este deba cumplir con ciertas propiedades:

- Ser insesgado
- Ser eficiente
- Ser consistente

Bajo ciertos supuestos el estimador de Mnimos Cuadrados Ordinario (MCO) cumplir con todas
estas propiedades.
Los supuestos detrs del estimador MCO son:

1) Modelo de regresin sea lineal en los parmetros

2) El valor esperado del error del modelo sea cero

3) Las variables explicativas sean exgenas o no correlacionadas con el error del modelo

4) La varianza del error sea constante

5) Los errores no estn correlacionados entre ellos

El supuesto 3 es clave para la identificacin correcta del efecto causal que tiene X sobre Y, es decir,
la identificacin correcta de |. Notemos que si existe correlacin entre X y u, al cambiar X tambin
se mover u, y no sabremos de donde proviene el cambio observado en Y.
Los supuestos 2, 4, y 5 se resumen en que el error es independiente e idnticamente distribuido
con media cero y varianza constante o
2
:

El estimador MCO me dice que escoja y
de forma tal de minimizar la suma de los errores al

cuadrado:

Resolviendo este problema de optimizacin se tiene que:

La regresin lineal por MCO en STATA sea hace a travs del comando regress:

Esto se interpreta que un aumento marginal (de un alumno) en la cantidad de alumnos por curso
disminuye en 2.3 puntos el puntaje en la prueba estandarizada. Note que el resultado se ve
siempre enunciando un cambio marginal en la variable explicativa (un alumno, un ao, un peso,
etc), y el coeficiente estimado esta en unidades de la variable dependiente, en este caso puntaje.
Ejemplos

La siguiente regresin muestra cual es el efecto marginal que tiene un ao adicional de escolaridad
sobre el salario por hora:

Se estima con esta muestra que un ao ms de escolaridad aumenta en salario por hora en
promedio 161.5 pesos.

Muchas veces las variables monetarias se miden en logaritmo, por ejemplo, logaritmo del salario
por hora. Esto se hace por dos razones: cuando la variable esta en logaritmo el cambio marginal es
un cambio porcentual:

Y la segunda razn es que la transformacin logartmica de la variable logra transformar variables
muy asimtricas en variables asimtricas.

La siguiente regresin muestra la regresin lineal entre el logaritmo natural del salario por hora y
los aos de escolaridad:

En este caso el coeficiente estimado para el parmetro que acompaa los aos de escolaridad es
igual a:

De esta forma, se interpreta como que un ao adicional de escolaridad aumenta en 6.63% el
salario por hora.

La siguiente tabla nos muestra una regresin mltiple (considera ms de una variable explicativa)
explicando el salario por hora en funcin de los aos de escolaridad y la edad:

Se obtiene que una ao ms de escolaridad aumenta el salario por hora en 213.5 pesos en
promedio, dado un nivel edad edad, y se obtiene que un ao ms de edad aumenta el salario por
hora promedio en 42.7 pesos dado cierto nivel de escolaridad. Recordemos que lo que estudia el
anlisis de regresin son los efectos marginales de variables explicativas sobre la esperanza
condicional de la variable dependiente.

Inferencia

Recordemos que el estimador es la aproximacin del parmetro poblacional desconocido, en el
modelo de regresin lineal los parmetros poblacionales desconocidos son los coeficientes que
acompaan a las variables explicativas ms el intercepto (o constante).

Dado que el estimador se obtiene de una muestra, el estimador de por s es una variable aleatoria
que tiene una distribucin de probabilidad, con cierta media y cierta varianza.

Recordemos que el estimador MCO de | en el modelo:

Est dado por:

El que puede ser escrito de la siguiente forma:

De esta forma, podemos notar fcilmente que el estimador es insesgado, ya que:

Luego, podemos calcular la varianza del estimador:

Recuerde que el estimador MCO es eficiente por lo cual tiene la mnima varianza dentro de todos
los posibles estimadores lineales e insesgados, sin embargo, podemos ver que esta varianza (aun
siendo eficiente) ser mayor mientras mayor sea la varianza del error, y menor mientras mayor
sea la varianza de las variables explicativas.
Notemos que hasta ahora, para decir que MCO es insesgado, eficiente y consistente, no hemos
necesitado el supuesto de normalidad del error. Sin embargo, para hacer inferencia se necesita
hacer este supuesto de normalidad:

Bajo este supuesto se tiene que:

Luego, podemos estndarizar:

Sin embargo, o
2
es desconocido y debemos utilizar el estimador muestral s
2
. Luego,

Donde k es el nmero de parmetros estimados en el modelo de regresin.
Luego podemos utilizar este estadstico para hacer inferencia sobre los valores de los parmetros
poblacionales.
Los test de hiptesis mnimos que se deben hacer cuando se estima un modelo de regresin, es lo
que se conoce como test de significancia de los parmetros, estos consisten en plantear como
hiptesis nula que el parmetro poblacional es igual a cero, y como alternativa que es distinto de
cero:

El estadstico estar dado por:

Para esto necesitamos tener el valor del estimador y de la varianza estimada.
Cuando se hace una regresin en STATA automticamente nos mostrar el valor del estimador y
de su desviacin estndar, dividiendo los valores de la primera columna (estimador) por los
valores de la segunda columna (desviacin estndar) se obtiene el valor calculado del estadstico,
el que es presentado en la tercera columna.
El valor de este estadstico calculado debe ser comparado con el valor de la distribucin t con
83987 grados de libertad, y con el nivel de significancia seleccionado.

El valor de la distribucin t-student es -1.96 y 1.96, comparando lo estadsticos calculados, en
todos los casos se rechaza la hiptesis nula de que el parmetro sea igual a cero.

Esto tambin lo podemos concluir notando que el valor p asociado a este estadstico es menor a
0.05, o notando que el cero no pertenece al intervalo de confianza.
Test de Normalidad del error

El supuesto clave para poder concluir directamente la significancia de las variables explicativas (a
travs de la significancia de los parmetros que la acompaan) mediante los valores entregados
por el output de STATA es que el error del modelo se distribuye normal, si este supuesto no se
cumple, el estadstico no tiene una distribucin conocida y se debe utilizar el mtodo de bootstrap
para obtener los intervalos de confianza.

Podemos testear la normalidad de los errores. Una vez estimado el modelo se pueden obtener los
errores estimados:

En STATA:

Se rechaza la hiptesis nula de normalidad del error.

Debemos utilizar bootstrap para obtener los intervalos de confianza de los parmetros:

Bondad de Ajuste

Una medida de bondad de ajuste nos dice como evaluar el poder explicativo de nuestro modelo.
Una medida de bondad de ajuste es el R
2
, el que mide que fraccin de la varianza del la variable
dependiente o de inters esta siendo explicada por la varianza de las variables, y no por el error:

Donde ESS, es la suma de los cuadrados explicada, TSS es la suma de los cuadrados totales, y RSS
es la suma de los residuos al cuadrado:

Esta medida siempre estar entre cero y uno ya que es una proporcin, donde mientras ms
cercano a 1 mejor es el modelo, y mientras ms cercano a cero peor.
El R
2
ajustado es una medida ms confiable en el sentido que penaliza el hecho de incorporar ms
variables que no pueden aportar mucho al modelo, y slo se incorporan para aumentar el R
2
.

Analisis de Datos MPP 2011

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisis de Datos MPP 2011

Uploaded by

Copyright:

Available Formats

Centro de Microdatos

. Esta funcin de densidad tiene la particularidad de ser simtrica

de forma tal de minimizar la suma de los errores al

You might also like