You are on page 1of 46

PRIMERA PARTE

Sesin Tcnica 5
Diseos de Muestreo
Diseo de muestreo y diseo de
la encuesta
Diseo de muestreo de una encuesta: conjunto
de tcnicas para seleccionar una muestra
probabilstica y los mtodos de estimacin
empleados para inferir los valores de los
parmetros de inters a partir de la muestra.
Diseo de la encuesta: definiciones, mtodos y
procedimientos concernientes a todas las fases
necesarias para conducir la operacin.
Conceptos previos
Poblaciones: Una poblacin (U) es un conjunto
de (N) elementos. Un elemento se denotar
por i.
Variables: Cada elemento tiene asociados
valores de variables de inters. Sea y
i
el valor
de la variable y en el i-simo elemento.
Parmetros: Son valores desconocidos de la
poblacin que nos interesa estimar.
Muestra: Una parte (de tamao n) de la
poblacin. Una muestra se denotar por M.


Conceptos previos (cont.)
Conjunto de observaciones: A cada elemento
seleccionado en la muestra la observamos y
tendremos al conjunto de observaciones: O :
{y
i
: i M}.
Estimador: Funcin (T) de las observaciones
(T=t(O)), que usamos para estimar los
parmetros.
Error de muestreo: Error proveniente de
observar M y no U. (Error intrnseco)
Errores no de muestreo: Los otros errores.

Conceptos previos (cont.)
Cmo se mide el error de muestreo?
Como veremos ms adelante la varianza estimada del
estimador juega un papel clave porque ella es una
medida de la variabilidad entre las estimaciones que
esperaramos si se tomaran muchas muestras. El
problema es que la varianza depende de la unidad
de medida, por ello es conveniente utilizar el
Coeficiente de Variacin que es libre de unidad de
medida:
o usar intervalos de

confianza

parmetro del estimacin
muestral
CV
var
=
Diseos de muestreo ms comunes
Muestreo Aleatorio Simple (MAS)
Muestreo Aleatorio Estratificado (MAE)
Muestreo por conglomerados:
Con seleccin MAS
Con seleccin proporcional al tamao (PPT) u
otro diseo de probabilidad variable.
Muestreo sistemtico
Muestreo en varias etapas

MUESTREO ALEATORIO
SIMPLE
Muestreo Aleatorio Simple (1)
Definicin: M.A.S. es el diseo en el cual cada
muestra posible tiene igual probabilidad de
seleccin ( ).
Una consecuencia es que en MAS cada elemento
de la poblacin tiene la misma probabilidad de ser
seleccionado en la muestra (n/N ).
Estos procedimientos de muestreo se conocen
como Mtodos de seleccin equiprobables
(EPSEM).
MAS es EPSEM pero no todos los EPSEM son
MAS.
N
n
C
1

Muestreo Aleatorio Simple (2)
Cmo se selecciona una MAS? Por definicin,
cada elemento (i) de los N de la poblacin tiene
igual probabilidad de ser seleccionado (p
i
=
n/N). Una forma prctica es elegir n de a uno y
sin reponer sorteando n nmeros aleatorios
distintos entre 1 y N. Usando una tabla de
nmeros aleatorios o un programa de cmputo
(por ejemplo la funcin ALEATORIO de
Excel

).

Muestreo Aleatorio Simple (3)
Estimadores insesgados:
- Para la media poblacional (), la media
muestral:

- Para el total poblacional (N):

- Para la varianza poblacional la varianza
muestral corregida: siendo

=
M i
i
y
n
1
y
y N Y =

2
n
)s
N
n
- (1 ) y r( a v =

2
M i
i
2
n
) y (y
1 n
1
s

=

Muestreo Aleatorio Simple (4)
Intervalos de confianza:
Un intervalo de confianza (IC) al (1-)% es un
intervalo que contiene al verdadero valor del
parmetro poblacional con probabilidad igual
a 1-.
IC para la media (n>50):
siendo el valor de la distribucin Normal
Estndar que acumula 1-/2 de probabilidad:
= 0.1 z
1-
= 1.645
= 0.05 z
1-
= 1.96
= 0.01 z
1-
= 2.576


) y r( a v z y
1

1
z

Muestreo Aleatorio Simple (5)
Determinacin del tamao de la muestra:
Sea e el error mximo permitido (en la
unidad original), entonces el n que
garantiza ese error mximo para la
estimacin de al nivel de confianza 1-

en el MAS es:

Problema: ?




2 2
) o
o - 1
2
2 2
- 1
(z N
) N(z
n
+
=
e
Muestreo Aleatorio Simple (6)
Caso particular: Estimacin de proporciones (o
porcentajes).
Si el objetivo es estimar una proporcin, las cosas se
simplifican porque la proporcin no es ms que la media de
una variable y que slo toma los valores 0 1. Los
estimadores insesgados son:
-Para la proporcin poblacional: la proporcin observada en la
muestra
-La estimacin de la varianza se simplifica porque en este
caso s
2
=(n/n-1)(p(1-p))
-Para los intervalos de confianza hay que tener cuidado con la
aproximacin Normal (ver tabla en las Notas)
-En la determinacin del n,
2
puede acotarse por 0.25
Muestreo Aleatorio Simple (7)
Estimacin de una razn (o cociente): Dos casos:
a) La razn es el parmetro a estimar
b) La razn la estimamos para estimar otro parmetro.
Caso a): Se quiere estimar el cociente y/x (por ejemplo:
rendimiento=produccin/rea) y se estima la media de y y
la media de x y se usa como estimador a:

Caso b): Se tiene informacin auxiliar sobre x sea X, se usa
esa informacin para estimar el total (o la media de Y)
mediante:

Con MAS, es un estimador sesgado de la verdadera razn
x
y
r =

r X
x
y
X Y

= =
r

MUESTREO ALEATORIO
ESTRATIFICADO
Muestreo Aleatorio Estratificado (1)
Definicin: La poblacin de N elementos se
divide en L grupos llamados estratos. Se
toman luego M.A.S. dentro de cada estrato.
Consecuencia: la probabilidad de seleccin
de un elemento de la poblacin ya no es
constante (depende del estrato al cual
pertenece).
Cundo es ms eficiente? Cuando los
estratos son muy homogneos
internamente y heterogneos entre ellos.
Muestreo Aleatorio Estratificado (2)
Sean: N
h
= tamao de la poblacin del estrato h.
n
h
= tamao de la muestra del estrato h.
y
hi
= valor de y en la i-sima unidad del
estrato h

h
= media poblacional en el estrato h

Por tanto: ; ;

N N
L
1 h
h
=

=

=
=
L
1 h
h
n n

=
=
L
1 h
h
h

N
N

Muestreo Aleatorio Estratificado (3)


Estimadores insesgados:
- Para la media poblacional ():

- Para el total poblacional (N):

- Para la varianza poblacional (
2
):


donde s
h
2
se define como antes, pero a
nivel del estrato



h
L
1 h
h
est
y
N
N
y

=
=
est
y N Y =

h
2
h
h h
h
2
h
est
n
s
) n (N
N
N
) y r( a v =

Muestreo Aleatorio Estratificado (4)


Intervalos de confianza:
Lo ya desarrollado para el M.A.S. vale aqu
sustituyendo por (cuidado con la
aproximacin Normal)
Determinacin del tamao de muestra:
Ahora debemos determinar tantos tamaos
de muestra como estratos (L). Se
determina el tamao n de la muestra total
y se distribuye entre los estratos, cmo?
y
est
y
Muestreo Aleatorio Estratificado (5)
Asignaciones usuales:
Distribucin proporcional: asignamos a cada
estrato una proporcin de n, igual a la
proporcin de N del estrato: n
h
= n(N
h
/N)

;
Distribucin ptima: adems de N
h
considera la
dispersin de los valores de y en el estrato:

=
h
h h
h h
h
N
N
n n
Muestreo Aleatorio Estratificado (6)
Determinacin del n:
1) En el caso de asignacin proporcional:


2) En el caso de la asignacin ptima:


+
=
h
2
h h
2
1
2 2
2
1
N z e N
Nz
n

+
|
.
|

\
|
=
h
2
h h
2
1
2 2
2
h
h h
2
1
N z e N
N z
n
Muestreo Aleatorio Estratificado (7)
Problemas a resolver:
1) Cmo aproximar los L valores
h
?
2) L?
3) Puntos de corte de los estratos?
4) Qu variable de estratificacin usar?
5) Cmo controlar el error de estimacin
de varios parmetros a la vez? (este
problema vale para todos los diseos)

Muchas gracias
SEGUNDA PARTE
Sesin Tcnica 5
Diseos de Muestreo
Post estratificacin
Concepto: Se desea clasificar las unidades de una
poblacin en grupos a partir de la muestra y luego
de haber realizado la encuesta, pero el diseo no
fue estratificado.
Supongamos que extrajimos n unidades mediante
M.A.S. y luego se desea post-estratificar la
poblacin en L estratos. La diferencia con el M.A.E.
es que los n
h
pasan a ser variables aleatorias
(cambian de muestra a muestra). Lo interesante ( e
intuitivo) es que el valor esperado de esa variable
aleatoria es: es decir en promedio la
muestra de n unidades se va a distribuir como en la
asignacin proporcional.
N
N
n n
h
h
=
Muestreo por conglomerados(1)
Definicin: La poblacin se divide en grupos
(conglomerados) y cada grupo pasa a ser una
unidad de muestreo.
Tipos:
a) Si la unidad final de muestreo es el conglomerado:
Muestreo por conglomerados mono-etpico
b) Si los conglomerados seleccionados se sub-muestrean:
Muestreo por conglomerados poli-etpico (en dos
etapas, en tres etapas, etc.). En este caso se tendrn:
Unidades primarias de muestreo (UPM PSU),
unidades secundarias de muestreo (USM SSU), y as
sucesivamente.
Cundo es ms eficiente? Cuando los conglomerados son
muy heterogneos dentro y homogneos entre s
Muestreo por conglomerados(2)
Razones para usar el Muestreo por
conglomerados:
1. Construccin de marcos: listamos solo
los elementos de los conglomerados
seleccionados.
2. Economa de recursos: una vez en el
conglomerado es ms econmico visitar los
elementos del conglomerado que
elementos dispersos.
Muestreo por conglomerados mono-etpico (1)
Concepto: La poblacin se divide en N
conglomerados y hay M
j
unidades en el j-simo
conglomerado. Llamando M al nmero de unidades
originales de la poblacin:
Sea y
jk
el valor de la variable en la k-sima unidad
secundaria del j-simo conglomerado. Entonces, el
total poblacional de Y es

La media por unidad es:

La media por conglomerado es:

=
=
N
1 j
j
M M

= = =
= =
N
1 j
j
N
1 j
M
1 k
jk
y y Y
j
M
Y
=
N
Y
congl
=
Muestreo por conglomerados mono-etpico (2)
Caso 1: De los N conglomerados elegimos n
mediante M.A.S y barremos todas las
unidades de los conglomerados
seleccionados. Los estimadores insesgados
de la media y la varianza surgen facilmente del
MAS ya que cada conglomerado es ahora una
unidad que tiene asociada el total del valor de
la variable en el conglomerado (es decir la
suma de los valores de y para los elementos
del conglomerado).
(Observacin: en este caso no hay contribucin a la varianza muestral de la
varianza dentro del conglomerado porque se censan todos los elementos
del conglomerado, es decir el total de cada conglomerado muestreado se
obtiene sin error de muestreo
Muestreo por conglomerados mono-etpico (3)
Si la variable y est altamente correlacionada
con el tamao del conglomerado, se demuestra
que el estimador de razn:


es muy eficiente. Es sesgado pero el sesgo
disminuye rpidamente al aumentar n.
(Ver estimador de la varianza en las notas 2.3.2 (frmula [35]))
N
M
M
y
N
M
r y
n
j
j
n
j
j
r

=
=
= =
1
1

Muestreo por conglomerados mono-etpico (4)


Caso 2: De los N conglomerados elegimos n
mediante muestreo con probabilidad
proporcional al tamao (ppt) (con repeticin) y
barremos todas las unidades de los
conglomerados seleccionados. Es decir que el
conglomerado j lo elegimos con probabilidad
M
j
/M. Cmo se hace? Se forma la suma
acumulativa de las M
j
y se forman intervalos
con extremos en los acumulados
consecutivos, elegido un nmero al azar se
observa a qu conglomerado de la lista
corresponde.



Muestreo por conglomerados mono-etpico (5)
Ejemplo:

Conglomerado Tamao (M
j
) M
j
Rango asignado
1 20 20 1-20
2 10 30 21-30
3 45 75 31-75
4 67 142 76-142
5 50 192 143-192
6 16 208 193-208
7 25 233 209-233
8 13 246 234-246
Seleccionamos nmeros al azar entre 1 y 246, sale por ejemplo el 123,
entonces el conglomerado 4 es seleccionado y as sucesivamente, con
reemplazo, es decir volvemos a sortear un nmero entre 1 y 246, sale
por ejemplo el 78, el conglomerado 4 es nuevamente incluido, luego,
en la tercera extraccin obtenemos el 205, entra el conglomerado 6,
etc.
Muestreo en varias etapas (sub-muestreo)
Concepto: La poblacin se divide en grupos
(conglomerados que son unidades primarias
de muestreo: UPM), se muestrean
conglomerados pero en lugar de barrerlos
se selecciona una muestra de unidades del
conglomerado (unidades secundarias de
muestreo: USM), luego en una tercera etapa
puede a su vez submuestrearse y as
sucesivamente.
Es el diseo complejo ms utilizado en las encuestas.
Pueden combinarse distintos diseos en las diferentes
etapas
Muestreo en dos etapas (1)
Caso 1: M.A.S. en ambas etapas.
Primera etapa: se eligen n UPM de las N con M.A.S.
Primera etapa: se eligen m
i
USM con M.A.S de la i-sima
UPM seleccionada.
Observacin: se agrega ahora la varianza muestral entre
USM dentro de las UPM.
Estimadores: el total de la j-sima UPM seleccionada se
estimar por
Y la media poblacional es insesgadamente estimada por:


Varianza y estimador ver Notas 2.5.2 frmulas [40] y [41]

=
= =
j
m
i
ij j j j j
y y siendo y M y
1

=
=
n
1 j
j
y
n
1
y

Muestreo en dos etapas (2)
Caso 2: UPM elegidas con ppt y USM con
M.A.S
En este caso un estimador insesgado del total
es:
y la estimacin de la varianza se simplifica:


Un caso particular muy utilizado en los muestreos
agrcolas es el muestreo de reas.

=
=
n
1 j
j ppt
y
n
M
Y

=
|
|
.
|

\
|

=
n
j
ppt
j ppt
M
Y
y
n n
M
Y
1
2
2

) 1 (
)

r( a v
Caso particular: Muestreo de reas.
Concepto: Las UPM son reas contiguas de
terreno (por ejemplo segmentos censales o
subdivisiones de ellos). Se estratifican (por
ejemplo, por uso del suelo) y se seleccionan ppt
(con reposicin). Luego las UPM seleccionadas
se segmentan (el tamao del segmento est en
funcin del estrato) y se selecciona UN
segmento al azar (M.A.S) por UPM sorteada.
Esta forma de proceder simplifica mucho las
cosas como veremos en la siguiente diapositiva.
Muestreo de reas
Asignada la UPM a su estrato y definido el tamao que tendrn
todos los segmentos de ese estrato queda determinado el
nmero de segmentos (aproximado) de cada UPM. Sea M
jh
el
nmero de segmentos de la j-sima UPM del estrato h, en la
poblacin. En la primera etapa elegimos la muestra de UPM con
probabilidad proporcional al nmero de segmentos: M
jh
/M
h
luego
en la UPM seleccionada elegimos 1 segmento aleatoriamente.
Cul es la probabilidad de inclusin de un segmento del estrato
h en la muestra?

Pr(segmento sea seleccionado/sali la
UPM)xPr(UPM) = (1/M
jh
)x(M
jh
/M
h
)=1/M
h
es decir es igual a sacar
1 segmento del total de segmentos del estrato.
Y esto simplifica mucho las cosas. VER: FAO: Encuestas
Agrcolas con Mltiples Marcos de Muestreo.Vol 1. (Cap 4)
Muestreo sistemtico (1)
Slo la primera unidad es seleccionada
aleatoriamente y luego se elige una cada
tantas hasta completar las n. Si la
poblacin tiene N unidades y k=N/n,
elegimos aleatoriamente un nmero entre
1 y k y luego una de cada k.


Muestreo sistemtico (2)
Propiedades: 1)es un diseo EPSEM ya que cada unidad tiene
la misma probabilidad de ser seleccionada (aunque no es
equivalente al M.A.S.).
2) Puede tratarse como un diseo por conglomerados donde
elegimos un conglomerado de k conglomerados posibles o
como un diseo estratificado en n estratos y elegimos una
unidad de cada uno.
3) No se puede estimar insesgadamente la varianza.
4) Cuando k no es entero hay que usar muestreo sistemtico
circular
5) Es muy simple y cuando la correlacin entre las unidades
disminuye con la distancia entre ellas es muy eficiente.
Eleccin de un diseo
Elementos a considerar:
1) Presupuesto
2) Facilidades computacionales
3) Personal capacitado disponible
4) Informacin de base
5) Marcos disponibles y costo de
elaboracin/actualizacin
6) Niveles de precisin requeridos
7) Nivel de desagregacin de los datos

Estimacin de la varianza(1)
A fin de calcular el error de muestreo (en
cualquier diseo) es necesario estimar la
varianza muestral de los estimadores. En
algunos casos ello no es posible, por ejemplo en
el muestreo sistemtico usual. En otros no hay
una expresin algebraica para la varianza
estimada o sta es muy compleja. Por ello se han
diseado diversos mtodos para estimarla. Los
paquetes estadsticos ms usados en general
incorporan alguno de ellos.
Estimacin de la varianza(2)
Algunos mtodos:
Linearizacin: Estimadores no lineales, se aproximan por el
desarrollo en series de Taylor y se desechan los trminos
mayores a los de primer orden. Caso ms comn: estimacin
de la varianza de estimadores de razn.
Grupos aleatorios (Muestreo replicado): La muestra total de n
se divide en R grupos (de tamao n/R), de manera que cada
grupo es una versin en pequeo de toda la encuesta. Si las
muestras de cada grupo son independientes, y siendo el
parmetro estimado por la r-sima muestra, se demuestra que
un estimador insesgado de la varianza de es:

Caso ms comn: estimacin de la
varianza en el muestreo sistemtico
(con R arranques aleatorios).

r

=
=
R
1 r
r

R
1


( ) ( )
2
1

) 1 (
1


=

=
R
r
r
R R
V u u u
Estimacin de la varianza(3)
Replicas balanceadas (BBR): La muestra se divide en H
estratos con 2 unidades por estrato. Hay 2
H
maneras de
elegir una submuestra de tamao H con una unidad por
estrato. Se toman R de estas muestras asignado los
valores 1 y -1 a cada unidad en cada estrato. Cada
submuestra as obtenida es un vector (
r
) de H
componentes 1 y -1 que corresponden a H unidades
etiquetadas con 1 y -1. Se eligen aquellos que sean
ortogonales 2 a 2. Siendo

el estimador de para el
r-simo vector, una estimacin de la varianza es:

siendo


) (
r

( ) ( )
2
1

) (

) 1 (
1


=

=
R
r
r
R R
V u o u u

=
=
R
1 r
r

R
1


Estimacin de la varianza(4)
Jacknife: La muestra se divide aleatoriamente en k
grupos de m observaciones cada uno (n=mk). Se estima
el parmetro con toda la muestra ( ) y con las unidades
de k-1 grupos (se omite el grupo -simo). Sea
y entonces un

estimador de la varianza es:

Bootstrap: Como las anteriores es una tcnica de re-
muestreo donde R muestras independientes de tamao
n con reposicin son independientemente extradas de
la muestra de n original y se producen R estimaciones y
se estima la varianza entre elllas.

) ( ) (k k


1

+ =

=
=
k
k
1

o
o
u u
( ) ( )
2
1

) 1 (
1


=

=
k
k k
V
o
u o u u
Software
Todos los mtodos de estimacin de la
varianza son muy intensivos en clculo y
requieren de paquetes especficos. Dentro
de los paquetes estadsticos ms comunes
los mtodos incorporados son:
SAS: Linearizacin
Stata: Linearizacin
SUDAAN (software desarrollado para el anlisis de diseos complejos) :
Linearizacin, Jacknife, BRR, Bootstrap
Osiris (para Mac): BRR y Jacknife
R: Linearizacin, Jacknife, BRR, Bootstrap
Muchas gracias

You might also like