You are on page 1of 18

445

PERÚ: TAMAÑO DE MUESTRA EN ENCUESTAS


DE PROPÓSITOS MÚLTIPLES

INSTITUTO NACIONAL DE ESTADÍSTICA E INFORMÁTICA (INEI)


446 Perú: tamaño de muestra en encuestas de...

ÍNDICE

Página

1. Encuesta Nacional de Hogares, ENAHO 1998 IV............................................................... 447


2. Encuesta Nacional de Hogares, ENAHO 2001 IV............................................................... 449
2.1 Evaluación de la precisión de los tamaños de muestra ................................................ 450
2.2 Optimización en la asignación de la muestra por departamentos ................................ 451
3. Métodos para la Estimación de la Varianza ......................................................................... 452
4. Algoritmos de Estratificación .............................................................................................. 455
4.1 Procedimientos para la estratificación del marco de muestreo.................................... 455
5. Diseño de Panel.................................................................................................................... 457
5.1 Encuestas por panel ..................................................................................................... 457
5.2 Muestras panel en la Encuesta Nacional de Hogares................................................... 457
Perú: tamaño de muestra en encuestas de... 447

1. Encuesta Nacional de Hogares, ENAHO 1998 IV


En 1998, el INEI de Perú estableció la necesidad de elaborar una muestra maestra de áreas para el
desarrollo de encuestas de propósitos múltiples como la Encuesta Nacional de Hogares (ENAHO), con el
fin de hacer el seguimiento de un conjunto de variables que cubren diversos temas relacionados con el
empleo y las condiciones de vida.
La muestra maestra fue básicamente una muestra de áreas de empadronamiento censales agrupadas, y
denominadas conglomerados; su propósito fue seleccionar diferentes submuestras para la implementación
de encuestas más reducidas en alcance y cobertura durante el período 1998 – 2000.
La muestra fue diseñada para obtener indicadores relacionados con: la composición del hogar,
características de la vivienda, acceso a servicios, acceso a la educación, acceso a la salud, acceso a
programas sociales, empleo, ingreso, gasto y otros temas libres.
Para el diseño de la muestra se consideró resultados de la ENAHO de 1996 para las variables siguientes:
i. Ingreso Per Capita por Persona
ii. Porcentaje de Personas que Acceden a Servicios de Salud
iii. Porcentaje de Hogares con Servicio de Desagüe
iv. Porcentaje de Hogares Beneficiados con Programas Sociales
v. Tasa de Desempleo Urbana
Se consideraron básicamente ocho (8) regiones o dominios geográficos,
1. Lima Metropolitana,
2. Costa Norte,
3. Costa Centro,
4. Costa Sur.
5. Sierra Norte,
6. Sierra Centro,
7. Sierra Sur, y
8. Selva Total.
También se consideró importante la desagregación en cinco niveles de urbanización de las unidades
primarias de muestreo (UPM) agrupados en las siguientes categorías:
i. Menos de 500 habitantes,
ii. De 500 a 2 mil habitantes,
iii. De 2 mil a 20 mil habitantes,
iv. De 20 mil a 100 mil habitantes, y
v. Más de 100 mil habitantes
Para determinar el tamaño global de la muestra maestra se tomó en cuenta la variabilidad de las
características o variables de estudio. Como se sabe, el error muestral para una encuesta del tipo de la
ENAHO tiene dos componentes: el primero corresponde a la variación entre conglomerados y el segundo
a la variación de las viviendas o los hogares dentro de los conglomerados.
448 Perú: tamaño de muestra en encuestas de...

La variabilidad entre conglomerados es mucho mayor para las áreas urbanas que en las áreas rurales,
pero la variabilidad dentro del conglomerado seleccionado es menor en lo urbano que en lo rural.
Por lo tanto, un importante factor para controlar el error muestral es reducir el mayor componente de
variabilidad que es la variación entre conglomerados, el cual es inversamente proporcional al número de
conglomerados (especialmente en el área urbana).
Como consecuencia, para cumplir con los diferentes objetivos de la encuesta se consideró que un tamaño
de muestra de aproximadamente 4 mil conglomerados era el tamaño de muestra más adecuado para
producir con suficiente precisión los principales indicadores para los diferentes niveles de desagregación
requeridos en la ENAHO: regiones o dominios geográficos. Cuando estas áreas varían considerablemente
en sus tamaños totales (habitantes o viviendas), surgen problemas en el uso de asignaciones estándar.
Por un lado se tiene la asignación de la muestra total del país entre sus dominios que minimiza el error
relativo al nivel nacional, la cual es casi igual a la asignación proporcional al tamaño del dominio,
ocasionando que ciertos dominios tengan un mayor error relativo que el tamaño de muestra producido
por la directa minimización del error dentro del dominio.
Por otro lado, cuando se requiere que cada dominio tenga el mismo nivel de error relativo entonces puede
resultar que el error relativo producido para el nivel nacional sea mucho más grande que el calculado con
la respectiva minimización al nivel nacional. Esta asignación con el mismo nivel de error relativo produce
el mismo tamaño de muestra para cada dominio sin consideración del tamaño o de la importancia, es decir
el tamaño de muestra en el dominio es independiente de su tamaño.
Aprovechando el concepto de la importancia (tamaño) del dominio anteriormente discutido y tomando en
consideración el concepto de precisión del indicador estadístico en cada dominio, entonces una mejor
asignación de la muestra total entre sus dominios componentes se obtiene cuando el tamaño de muestra en
el dominio es función de la importancia del dominio y de su correspondiente error relativo (véase
Power Allocations Determining Sample Sizes for Subnational Areas por Michael D. Bankier. The
American Statistician. August 1988 Vol 42 No 3).
Teniéndose el indicador estadístico Y (promedio, proporción o porcentaje) estimado en cada dominio, y
además teniéndose la importancia X (tamaño) de cada dominio entonces se considera la minimización de
la siguiente función en términos de la mejor asignación de muestra entre los dominios (nh ):

α
F = ∑h ( X h CV(Y h ) )
2
(1)

con la restricción de que:

n = ∑ h nh

donde : (2)

CV(Yh): es el coeficiente de variación (error relativo) del indicador Y en el dominio h,


Xhα : es la potencia α de la importancia (tamaño) X en el dominio h,
nh : es la muestra asignada al dominio h,
α : es un valor constante entre 0 y 1.
Perú: tamaño de muestra en encuestas de... 449

Se demuestra matemáticamente que la función F es minimizada cuando la asignación por dominio es dada
por la siguiente relación:

α
Sh X h / Yh
nh = n
∑ h S h X hα / Y h (3)

donde :
Sh : esta definido dentro de la fórmula de la varianza del indicador, Var (Yh) = Sh2 / nh , en el
dominio h.

Como quiera que se tenia cinco indicadores, había varias alternativas para utilizar esta información:
i) Utilizar el indicador más importante de acuerdo a los objetivos de la encuesta y con este
indicador hacer la asignación de la muestra.
ii) Combinar dos o más indicadores y luego hacer la asignación.
iii) Obtener un promedio simple de estos cinco indicadores para una encuesta de propósitos
múltiples.
Finalmente, se decidió aplicar el criterio de promedio simple de los cinco indicadores, que vendría a ser el
tamaño de muestra deseado para cada departamento, cuyo objetivo era investigar a las variables
relacionadas con la extrema pobreza.
Se realizó la asignación para cada dominio de cada uno de esos indicadores considerando el tamaño de
muestra total de 3 mil 884 conglomerados.

Tabla 1. Distribución de la Muestra Maestra de Conglomerados por área urbana y rural,


según dominios de estudio
MUESTRA MAESTRA DE
DOMINIOS DE
CONGLOMERADOS
ESTUDIO
TOTAL URBANO RURAL
TOTAL 3884 2209 1675
Costa 893 702 191
Costa norte 397 299 98
Costa centro 301 236 65
Costa Sur 195 167 28
Sierra 1922 738 1184
Sierra norte 590 211 379
Sierra centro 764 272 492
Sierra sur 568 255 313
Selva 707 407 300
Lima Metro. 362 362 -

2. Encuesta Nacional de Hogares, ENAHO 2001 IV


A diferencia de la ENAHO de 1998, los dominios de estudio definidos para este año, estaban referidos a
cada uno de los 24 departamentos que componen el Perú.
El presupuesto sólo permitía ejecutar la encuesta ENAHO 2001 IV Trimestre en 18,000 viviendas. La
asignación de la muestra por departamento se efectuó teniendo en cuenta el promedio de la asignación
proporcional y asignación uniforme. Esta muestra agrupada en 2,782 conglomerados urbanos y rurales, se
presenta en la siguiente tabla:
450 Perú: tamaño de muestra en encuestas de...

Tabla 2. Distribución de la muestra ENAHO 2001 IV por Area Urbana y Rural


TOTAL AREA URBANA AREA RURAL
DEPARTAMENTO
CONG VIV CONG VIVI CONG VIV
TOTAL 2782 18179 2195 11345 587 6834
AMAZONAS 62 507 32 161 30 346
ANCASH 104 760 70 353 34 407
APURIMAC 60 525 24 115 36 410
AREQUIPA 131 739 120 621 11 118
AYACUCHO 71 570 42 224 29 346
CAJAMARCA 106 903 47 209 59 694
CUSCO 105 785 68 356 37 429
HUANCAVELICA 59 550 22 113 37 437
HUANUCO 77 649 39 200 38 449
ICA 107 623 98 529 9 94
JUNIN 122 800 92 447 30 353
LA LIBERTAD 141 910 117 631 24 279
LAMBAYEQUE 120 768 104 579 16 189
LIMA 639 3262 627 3124 12 138
LORETO 102 707 74 380 28 327
MADRE DE DIOS 61 410 48 260 13 150
MOQUEGUA 72 427 65 348 7 79
PASCO 65 476 46 255 19 221
PIURA 146 920 124 670 22 250
PUNO 99 807 55 285 44 522
SAN MARTIN 95 639 70 343 25 296
TACNA 86 476 79 400 7 76
TUMBES 73 444 69 398 4 46
UCAYALI 79 522 63 344 16 178

La evaluación de estos tamaños muestrales normalmente implica desarrollar dos etapas de trabajo:

2.1 Evaluación de la precisión de los tamaños de muestra.


Para la evaluación de la precisión de los tamaños de muestra se utiliza la fórmula:

(1 − p)
CV ( p) = efd (4)
np
donde,:
CV(p) es el coeficiente de variación relativo del indicador con un valor de p.
efd es el efecto del diseño, se asume un valor igual a 2.
P es el indicador con valores de p 0.3, 0.4 y 0.5.
n es el número de viviendas de la muestra
Aplicando la fórmula anterior se han construido el cuadro siguiente, que presenta los respectivos
coeficientes de variación para los valores previstos del indicador p, para un número de conglomerados en
la muestra y su respectivo tamaño de muestra de viviendas, con un efecto de diseño igual a 2.
Perú: tamaño de muestra en encuestas de... 451

Se puede afirmar que con un mínimo de 75 conglomerados, el correspondiente error relativo para
cualquier indicador, cuyo valor es mayor a 0.3, puede alcanzar hasta el 12%. En la medida que aumente el
número de conglomerados disminuye el error relativo.

Tabla 3. Precisión del tamaño de muestra: Total departamento


Tamaño de Efecto del CV(p) % (Conglomerados)
Número
Muestra de Diseño
de Conglomerados p=0.03 p=0.10 p=0.30 p=0.40 p=0.50
Viviendas (cfd)
25 150 2 92.86 48.99 24.94 20.00 16.33
50 400 2 56.86 30.00 15.28 12.25 10.00
60 500 2 50.86 26.83 13.66 10.95 8.94
75 600 2 46.43 24.49 12.47 10.00 8.16
100 800 2 40.21 21.21 10.80 8.67 7.07
125 850 2 39.00 20.58 10.48 8.40 6.86
150 900 2 37.91 20.00 10.18 8.16 6.67
600 3600 2 18.95 10.00 5.09 4.08 3.33
2700 18000 2 8.48 4.47 2.28 1.83 1.49

2.2 Optimización en la asignación de la muestra por departamentos.


Se ha calculado coeficientes de variación por departamentos a partir de los resultados de la ENAHO 2001
IV para las siguientes variables:

Variable Indicador
V1. Desempleo Abierto Tasa de Desempleo Abierto Urbano
V2. Acceso a los Servicios de Salud Proporción de la Población Que Accede a Servicios de Salud
V3. Servicio de Desagüe a Red Pública Proporción de Hogares con Servicio de Desagüe Conectado a Red
Pública
V4. Asistencia Escolar de Niños de 5 a 14 años Proporción de Niños de 5 a 14 años Que Asisten a un Centro
Educativo
V5. Acceso a Programas Sociales Proporción de Hogares Que Acceden a Programas Sociales
V6. Ingreso Trimestral por Perceptor Ingreso Promedio Trimestral Por Perceptor
V7. Población en Estado de Pobreza Proporción de pobres en la Población.

Haciendo uso de la información antes referida, se ha procedido a calcular un tamaño de muestra deseado,
siguiendo el método “Power allocation determining Sample Sizes For Subnational Areas” de Michael
D. Banker, cuya fórmula es la siguiente:

CV ( p) * X 0.5* (5)
nh =
∑ X 0.5 * CV ( p)
Donde :
nh es el tamaño de muestra óptimo por departamento
X es el tamaño de cada departamento
CV(p) es el coeficiente de variación relativo del indicador con un valor de p.
452 Perú: tamaño de muestra en encuestas de...

p es igual a V1, V2, V3, V4, V5, V6 y V7.


Para mostrar las diferencias entre el tamaño de muestra asignado y el tamaño de muestra deseado, se ha
construido el cuadro que se presenta a continuación. Al analizar la información de este cuadro se observa
que los departamentos de Madre de Dios, Lima, Tumbes, Lambayeque, Ucayali y Loreto tienen tamaño
de muestra sobrestimado, mientras que los departamentos de Puno, Ayacucho, Apurímac, Moquegua,
Cajamarca, Amazonas, y Huancavelica tienen tamaños de muestra subestimados. El resto de
departamentos tienen el tamaño de muestra mäs o menos apropiado.

Tabla 4. Comparación de los tamaños de muestra asignados y deseados para la ENAHO 2001 IV
TAMAÑO DE DIFERENCIA
TAMAÑO DE
DEPARTAMENTO MUESTRA (ASIGNADO
MUESTRA DESEADO
ASIGNADO / DESEADO) *100
TOTAL 18179 18000
MADRE DE DIOS 410 252 162.64
LIMA 3262 2038 160.05
LAMBAYEQUE 768 611 125.66
TUMBES 444 355 125.00
UCAYALI 522 430 121.35
LORETO 707 606 116.73
TACNA 476 460 103.58
CUSCO 785 783 100.30
AREQUIPA 739 750 98.55
PIURA 920 936 98.25
JUNIN 800 822 97.30
LA LIBERTAD 910 950 95.76
SAN MARTIN 639 675 94.61
HUANUCO 649 708 91.70
PASCO 476 521 91.33
ANCASH 760 838 90.68
ICA 623 703 88.56
PUNO 807 933 86.54
AYACUCHO 570 671 85.01
APURIMAC 525 635 82.70
MOQUEGUA 427 538 79.41
CAJAMARCA 903 1221 73.96
AMAZONAS 507 697 72.76
HUANCAVELICA 550 867 63.40

3. Métodos para la Estimación de la Varianza


Para el cálculo de los errores de muestreo se aplica el paquete CENVAR, el cual está basado en los
estimadores de la varianza de los conglomerados últimos, esto vale decir que el referido paquete se ha
aplicado bajo el criterio que el muestreo es bietápico, cuando en la práctica se trata de un muestreo
trietápico. En ese sentido es importante tener especial cuidado en el momento en que se analizan los
correspondientes errores de muestreo. Para facilitar este análisis se puede utilizar la siguiente fórmula:

S a2 / a
efd = (1 + rho ( b − 1 ) ) (6)
S2 /n
Perú: tamaño de muestra en encuestas de... 453

Donde:
Efd es el efecto del diseño;

S a2 es la varianza de los promedios de los conglomerados.

S2 / n es la varianza de una muestra aleatoria simple


rho
es el coeficiente de correlación intraclase
a es la muestra de conglomerados;
b es la submuestra dentro de un conglomerado a* b = n

El coeficiente de correlación intraclase mide el grado de homogeneidad de las unidades dentro de un


conglomerado. Si el coeficiente de correlación intraclase es igual a 1, esto significa que todos los
elementos que definen cualquier conglomerado tienen el mismo valor; en este caso, el efecto del diseño
será igual al valor de b. Esto implica que los conglomerados han sido conformados por unidades
altamente correlacionadas y por lo tanto la aplicación del muestreo es deficiente.
En cambio, si el coeficiente de correlación intraclase es igual a cero esto significa que las unidades dentro
de un conglomerado están incorrelacionadas y por lo tanto la eficiencia del muestreo de conglomerados es
óptima, porque el efecto del diseño es igual a 1 y por lo tanto, el muestreo de conglomerados tiene la
misma eficiencia que el muestreo aleatorio simple.
Hay algunos casos donde el coeficiente de correlación intraclase puede asumir valores muy pequeños,
siendo el valor más pequeño cuando rho es –1/b-1, en este caso la varianza entre medias de
conglomerados es igual a cero. Los valores negativos de rho son raros, ocurren cuando las medias de los
conglomerados son más uniformes de lo que se tendría al distribuirlos aleatoriamente
Al analizar los resultados de la ENAHO 2001 IV Trimestre tomando como indicadores la población en
extrema pobreza y la población por debajo de la línea de pobreza pero que no son extremadamente pobres
(pobreza total), observamos que si bien es cierto la mayoría de los departamentos tienen valores de error
de muestreo muy bajos, no es suficiente para tener un panorama completo sobre la precisión de estos
estimadores. De allí que es importante complementar el análisis observando el efecto del diseño y el
coeficiente de correlación intraclase.
A continuación se presenta el cuadro que resume la evaluación de la muestra de la ENAHO 2001 IV
Trimestre. El análisis solamente es válido para las variables relacionadas con la pobreza y extrema
pobreza. Este cuadro podría variar para otro tipo de variables. En ese sentido, si el objetivo principal de la
ENAHO 2002 sigue siendo la medición de la pobreza y extrema pobreza, es necesario dispersar la
muestra en un mayor número de conglomerados, sobre todo en el área rural. Si bien es cierto que esta
propuesta es válida para los departamentos incluidos en las categorías de moderado y pobre, sin embargo,
un diseño diferenciado por departamentos, complicaría el manejo de la muestra a nivel nacional. Ante
esta situación, se sugiere que la muestra esperada por conglomerado en el área rural sea de tamaño igual a
8 viviendas, manteniendo en el área urbana la submuestra por conglomerado se mantenga en 6 viviendas.
454 Perú: tamaño de muestra en encuestas de...

Tabla 5. Rendimiento del muestreo de conglomerados en la ENAHO 2001 IV


Rendimiento del Efecto del Diseño Coeficiente de Departamento Porcentaje de
muestreo de correlación viviendas
conglomerados intraclase (%)
Eficiente Bajo Menor a 0.2 Amazonas, Apurímac, 10.7
Menor a 2 Huancavelica, Madre de Dios,
Moquegua, Pasco, Tacna, Tumbes
y Ucayali.

Moderado Mediano Entre 0.2 y 0.4 Arequipa, Ayacucho, Cajamarca, 70.6


Entre 2 y 4 Cusco, Ica, Junín, Lambayeque,
Lima y Callao, Loreto, Puno, San
Martín.
Pobre Alto Mayor a 0.4 Ancash, Huánuco, La Libertad y 18.7
Mayor a 4 Piura.

Tabla 6. Errores de muestreo para la población en extrema pobreza ENAHO IV Trimestre 2001

Departamento Estimador Error Estándar Coef. Var. Efecto del diseño


Amazonas 41.1% 0.049 11.8% 2.600
Ancash 33.3% 0.052 15.7% 8.488
Apurimac 47.4% 0.041 8.7% 1.950
Arequipa 14.5% 0.028 19.0% 4.197
Ayacucho 45.4% 0.065 14.2% 5.774
Cajamarca 50.8% 0.038 7.5% 5.402
Cusco 51.3% 0.043 8.3% 5.394
Huancavelica 74.4% 0.040 5.4% 2.365
Huánuco 61.9% 0.053 8.6% 6.078
Ica 8.6% 0.019 22.3% 1.989
Junín 24.3% 0.030 12.5% 3.866
La Libertad 18.3% 0.031 16.9% 5.926
Lambayeque 19.9% 0.029 14.7% 3.720
Lima y Callao 3.1% 0.006 19.3% 6.146
Loreto 47.2% 0.038 7.9% 3.204
Madre de Dios 11.5% 0.029 25.1% 0.513
Moquegua 7.6% 0.025 32.8% 0.871
Pasco 33.2% 0.060 18.0% 2.646
Piura 21.4% 0.035 16.2% 7.236
Puno 46.1% 0.036 7.8% 4.134
San Martín 36.2% 0.033 9.1% 2.239
Tacna 5.2% 0.021 40.4% 1.590
Tumbes 7.4% 0.027 36.6% 1.341
Ucayali 44.9% 0.039 8.8% 1.783
TOTAL 24.4% 0.007 2.8% 4.150
Perú: tamaño de muestra en encuestas de... 455

Tabla 7. Errores de muestreo para la población en pobreza (total) ENAHO 2001 IV


Efecto del Diseño
FGT0 Estimador Error Estándar Coef. Var.
Amazonas 74.5% 0.033 4.4% 1.524
Ancash 61.1% 0.042 6.8% 5.060
Apurimac 78.0% 0.030 3.9% 1.557
Arequipa 44.1% 0.034 7.7% 3.176
Ayacucho 72.5% 0.049 6.8% 4.186
Cajamarca 77.4% 0.025 3.3% 3.453
Cusco 75.3% 0.030 4.0% 3.613
Huancavelica 88.0% 0.024 2.7% 1.489
Huánuco 78.9% 0.042 5.4% 5.393
Ica 41.7% 0.040 9.5% 2.728
Junín 57.5% 0.028 4.9% 2.510
La Libertad 52.1% 0.034 6.6% 4.365
Lambayeque 63.0% 0.035 5.6% 3.734
Lima y Callao 33.4% 0.011 3.3% 2.792
Loreto 70.0% 0.032 4.6% 2.801
Madre de Dios 36.7% 0.049 13.3% 0.636
Moquegua 29.6% 0.057 19.4% 1.550
Pasco 66.1% 0.038 5.7% 1.049
Piura 63.3% 0.038 6.1% 6.382
Puno 78.0% 0.028 3.6% 3.596
San Martín 66.9% 0.034 5.1% 2.506
Tacna 32.8% 0.039 11.8% 1.226
Tumbes 46.8% 0.043 9.2% 0.933
Ucayali 70.5% 0.031 4.4% 1.288
Total 54.8% 0.007 1.2% 3.120

4. Algoritmos de Estratificación
4.1 Procedimientos para la estratificación del marco de muestreo
En toda encuesta de hogares en la que se haga uso del muestreo multietápico, la estratificación de las
unidades de muestreo es fundamental e importante para la reducción de la varianza. A fin de mejorar la
eficiencia del marco muestral de la Encuesta Nacional de Hogares (ENAHO) utilizado desde 1995, se
tomaron criterios de estratificación para las unidades de muestreo.
En una primera etapa, las unidades primarias de muestreo (UPM) fueron agrupadas en estratos teniendo
en cuenta su importancia en tamaño de habitantes:
• Estrato 1: Unidades primarias de muestreo (UPM) urbanas de gran tamaño, tales como ciudades
con 100 mil y más habitantes.
• Estrato 2: Unidades primarias de muestreo urbanas de mediano tamaño, tales como ciudades con
20 mil a menos de 100 mil habitantes.
• Estrato 3: Unidades primarias de muestreo urbanas menores, tales como aquellos centros
poblados o localidades con 2 mil a menos de 20 mil habitantes.
456 Perú: tamaño de muestra en encuestas de...

• Estrato 4: Unidades primarias de muestreo rurales concentradas, tales como centros poblados o
localidades con 500 a menos de 2 mil habitantes.
• Estrato 5: Áreas rurales pequeñas y dispersas, formadas por centros poblados con menos de 500
habitantes, agrupados en AER (áreas de empadronamiento rural).
Es importante mencionar que los estratos 1,2 y 3, conforman el área urbana mientras que los estratos 4 y
5, el área rural. Así mismo, la ENAHO es comparable con el Censo considerando solamente el estrato 5
como área rural.
La inclusión de conglomerados o unidades secundarias de muestreo (USM) en la muestra, dado el
carácter multitemático de la ENAHO, tiende a incrementar la varianza muestral y el método que se diseña
para minimizar la varianza de una variable, pudiera conducir a resultados no satisfactorios para otra. En
tal sentido, deben buscarse indicadores socio económicos que determinen diferencias que afecten a la
mayor parte de las características.
La mayoría de las variables importantes analizadas en la ENAHO tales como empleo, ingresos, gastos,
educación y salud, están altamente correlacionadas con los niveles socioeconómicos de la población. Por
lo que fue necesario definir subestratos socioeconómicos en los aglomerados urbanos de gran tamaño,
como son las grandes ciudades.
A fin de reducir la varianza de la segunda componente, la estratificación de las USM fue un objetivo
primordial para la ENAHO.
Sobre la base de información de los censos de 1993, el INEI procesó y obtuvo 5 indicadores de
Necesidades Básicas Insatisfechas (NBI) para los hogares peruanos, al nivel de distritos:
• Hogares en viviendas con características físicas inadecuadas
• Hogares en viviendas con hacinamiento
• Hogares en viviendas sin servicio de desagüe de ningún tipo
• Hogares con niños que no asisten a la escuela
• Hogares con alta dependencia económica
La medición estaba referida a los hogares que habitaban en viviendas particulares con ocupantes
presentes. Haciendo uso de esta metodología, estos indicadores se procesaron para cada USM del marco
de las UPM, según el procedimiento siguiente:
1. En primer lugar, se identifican a los hogares carentes por cada indicador; luego, para el cálculo de
la proporción de hogares carentes por cada indicador (Ij), se le relaciona con el total de hogares de
la USM correspondiente.
2. Se agrupan los hogares que tienen al menos 1 NBI, de la manera siguiente:
HOG1 : Hogares con 1 necesidad básica insatisfecha.
HOG2: Hogares con 2 necesidades básicas insatisfechas.
HOG3: Hogares con 3 necesidades básicas insatisfechas.
HOG4: Hogares con 4 necesidades básicas insatisfechas.
HOG5: Hogares con 5 necesidades básicas.
3. Basándose en estos cinco grupos de hogares se obtiene por sumatoria y agregación el índice de
necesidades básicas insatisfechas (NBI), que representa el indicador sintético de los hogares con al
menos una necesidad básica insatisfecha para cada USM, resumida en la siguiente expresión
matemática:
Perú: tamaño de muestra en encuestas de... 457

INBI = Σ (HOGi / HT) (7)


donde:
INBI: Indice de Necesidades Básicas Insatisfechas para cada USM
HOGi: Hogares con al menos una necesidad básica insatisfecha
HT: Total de hogares en la USM
4. Se ordenaron las USM según este indicador para cada UPM. Con esto se obtiene una estratificación
implícita del marco cuando la muestra es seleccionada sistemáticamente con probabilidad
proporcional al tamaño.
El uso de la metodología del NBI, tuvo como propósito obtener muestras estratificadas que aseguren la
representatividad de los diferentes niveles socioeconómicos de la ciudad investigada.

5. Diseños de Panel
5.1 Encuestas por panel
Muestra Panel es aquélla muestra en la que se miden los mismos elementos en dos o más ocasiones. Las
encuestas por panel permiten hacer estudios de cambios individuales y de la dinámica de las causas y las
relaciones.
Existen dos clases de encuestas por panel. Una es con paneles fijos y la otra es con paneles que rotan. Los
paneles fijos son aquellos en los cuales los individuos que lo componen no cambian.
El uso exclusivo de un panel fijo produce estimaciones muy eficientes de cambios periódicos. En tanto
que los paneles que rotan son utilizados para reducir el agotamiento de los respondientes y provee
estimaciones eficientes de totales del periodo.

5.2 Muestras Panel en la Encuesta Nacional de Hogares


• Encuesta Permanente de Empleo en Lima Metropolitana – EPE 2001
Población de estudio, la población está definida como el conjunto de todas las viviendas particulares y
sus ocupantes residentes de los 43 distritos de la provincia Lima y 6 distritos de la provincia
constitucional del Callao. Por no formar parte de la población bajo estudio, se excluye a los
establecimientos económicos y viviendas de tipo colectivo. Por tanto, se excluye a los miembros de las
Fuerzas Armadas que viven en cuarteles, campamentos, barcos y a las personas que residen en viviendas
colectivas (hoteles, hospitales, asilos y claustros religiosos, cárceles, etc.).
Marco Muestral, el marco muestral de la Encuesta Permanente de Empleo tiene como fuente la
información básica y cartografía de la Actualización Cartográfica y Registro de Edificios y Viviendas del
Precenso de 1999 –2000 realizada en el ámbito de Lima Metropolitana. Esta información precensal se
encuentra bajo el soporte de una base de datos que ha permitido organizarla adecuadamente a efectos de
la formación del marco muestral y selección automática de la muestra.
Las unidades del marco muestral son:
! Unidades Primarias de Muestreo (UPM), son las secciones censales denominadas conglomerados.
! Unidades Secundarias de Muestreo (USM), son las viviendas particulares.
Como paso previo al diseño y selección de la muestra, el marco muestral fue parcialmente actualizado
mediante salidas a campo. Los únicos conglomerados actualizados fueron los seleccionados para la
encuesta permanente.
458 Perú: tamaño de muestra en encuestas de...

Tamaño de Muestra, para la determinación del tamaño de la muestra, se ha tenido en cuenta, además de
los recursos disponibles para ejecutar la encuesta, los requerimientos mínimos de precisión o
confiabilidad de las estimaciones a obtenerse en la investigación.
Se tomó como referencia las estimaciones obtenidas en la Encuesta Especializada de Empleo del Tercer
Trimestre del 2000. Los indicadores estadísticos más importantes a estimarse con la encuesta son:

! Magnitud del empleo:


Y = Número de ocupados = 3114507

! Magnitud del desempleo:


Y = Número de desocupados = 268238

! Desempleo Abierto:
P = Tasa de Desempleo Abierto = 7.9%

! Duración del desempleo:


P = Porcentaje de desempleados que ha buscado empleo por lo menos 4 semanas = 42.41% .

! Entradas y salidas del mercado laboral:


P = Porcentaje de personas ocupadas que iniciaron su ocupación en el mes de referencia = 3.7%
P = Porcentaje de personas que perdieron el empleo en el mes de referencia (desocupados e inactivos)
= 3.5%.

! Composición del empleo por tamaño de la empresa:


De 1 a 10 trabajadores = 2107576 ( P = 67.8%)
De 10 y + trabajadores = 998663 (P = 32.2%)

! Porcentaje de ocupados que tienen algún seguro de salud:


P = 1103873 ( P = 35.0%)

! Porcentaje de ocupados que ganan menos de la línea de pobreza (ganancia monetaria):


P = 66.1%

En efecto, la encuesta producirá estimaciones para estos indicadores y existirán diferentes niveles de
confiabilidad, dependiendo de la frecuencia con que se presentan estas característica particulares en la
población. Por ejemplo, el Desempleo, característica infrecuente, tendrá una confiabilidad estadística
mucho menor que la Duración del Desempleo, característica más frecuente en la población de estudio.
Otro objetivo de la encuesta es tener estimativos de los cambios en la magnitud del empleo de una ronda
de encuesta a otra. Es decir, se quiere medir con alguna certeza, un cambio del 2 por ciento o más de una
ronda (trimestre) de encuesta a la siguiente.
Debe determinarse entonces, qué tamaño de muestra se necesita para que las estimaciones de la encuesta
estén dentro del intervalo permisible de error en 95 de cada 100 casos (con 1,96 errores estándar). Una
regla menos rígida sería la de exigir que el margen especificado de error fuera satisfecho en 90 de cada
100 casos ( con 1,6 errores estándar). Este criterio, requiere una muestra más pequeña.
También, como en toda investigación muestral, es de esperar que durante la recopilación de información
en campo se produzca bajas en las unidades seleccionadas debido a la no respuesta, la cual está asociada a
casos de: ausencia de informantes, viviendas desocupadas, viviendas no ubicadas o no localizadas,
viviendas que son establecimientos, direcciones que no corresponden a una vivienda, rechazos a la
entrevista de la vivienda, rechazo de la entrevista por el informante calificado, etc.
Perú: tamaño de muestra en encuestas de... 459

En el caso de la Encuesta Permanente de Empleo, en base a la experiencia de la ENAHO y teniendo en


cuenta que a partir de la siguiente ronda de encuesta (segundo trimestre) los hogares muestrales serán
nuevamente visitados, es de esperar que la pérdida muestral sea de aproximadamente 20 %.
En efecto, al determinar el tamaño de la muestra, se calculó un tamaño de 5 mil viviendas particulares con
las que se espera obtener información de aproximadamente 4 mil viviendas y 12 mil personas
económicamente activas (PEAS).
La muestra fue finalmente ajustada a 4 mil 950 viviendas particulares, tamaño que se ajusta a las
cargas de trabajo por conglomerado establecidas para la operación de campo.
En el cálculo del tamaño de la muestra se utilizó como base información de la Encuesta Nacional de
Hogares:
El error estándar de una diferencia es:

σ( yi - yi + 1 ) = (σ ²yi + σ ²yi + 1) - 2 ρ σyi * σyi + 1

donde:
yi : es el número de personas ocupadas en el periodo i.
yi+1: es el número de personas ocupadas en el periodo (i+1).
σ( yi - yi + 1 ):error estándar de cambio en la magnitud del empleo (personas ocupadas) u otra medida
que se seleccione.
σ yi : error estándar de la magnitud del empleo (personas ocupadas) en la encuesta i.
σ²yi : varianza de la magnitud del empleo (personas ocupadas) en la encuesta i.
σ yi + 1 : error estándar de la magnitud del empleo (personas ocupadas) en la encuesta i+1.
σ²yi+1 : varianza de la magnitud del empleo (personas ocupadas) en la encuesta i+1
ρ: correlación en la magnitud del empleo entre la encuesta i y la i+1. Esta medida
generalmente se calcula del número estimado de personas en la muestra de las dos
encuestas.
El último término en la expresión (I), indica que la covarianza entre dos estimaciones reduce la varianza
de la diferencia de las estimaciones. Por lo tanto, a mayor correlación entre las dos muestras, menor será
la varianza de la diferencia estimada. La correlación máxima se obtiene incluyendo los mismos hogares
en la muestra en ambas encuestas.
Para efectos prácticos, σyi e σyi+1 pueden considerarse prácticamente iguales, es decir, se considera que
la magnitud del empleo en los periodos i e i+1 no varia.
Además, una estimación de 0.80 puede suponerse para ρ, basándose en la experiencia previa con una
característica tal como el empleo y donde la totalidad de los conglomerados son comunes de trimestre a
trimestre cuando la muestra se alterna:

σ( yi - yi + 1 ) = (2σ ²yi ) - (2 (0,8) σ ²yi

σ( yi - yi + 1 ) = 0,4 σyi
460 Perú: tamaño de muestra en encuestas de...

Por tratarse de una variable absoluta:

σ yi = def ( N ² σ ²/ n)

donde:
def: es el factor con que se incrementa la varianza del muestreo simple al azar por el uso de
conglomerados. A este factor se le conoce como Efecto de Diseño.
def: 1,5
n: es el tamaño muestral medido en cantidad de personas económicamente activas.
N: es el total de personas económicamente activas en la población de estudio.
N= 3 millones 200 mil, según la ENAHO.

También, considerando:
d = z σ( yi - yi + 1 ): margen de error en la estimación de la diferencia.

Reemplazando:

d =z 0,4 1,5 N² σ ² / n
n =z 0,4 1,5 N² σ ² / d
n = [z² (0,4) (1,5) (N² σ²) ] / d²

Los valores utilizados fueron:


z= 1,96 , ya que se trabajó con una confianza del 95 por ciento.
d= 75 mil PEAs ocupadas, equivalente a un margen de error del 2 %.
N σ = 172 mil 800 PEAs ocupadas.

Por lo tanto:
n= 12 200 personas económicamente activas para la muestra.

Dado que se espera encontrar en promedio 3 PEAs por vivienda,


m= 4 000 viviendas particulares para la muestra.

Además, teniendo en cuenta una pérdida muestral esperada del 20%,


m = 4 950 viviendas particulares.

En el cuadro siguiente se muestra los principales indicadores estadísticos a obtenerse de la encuesta, los
estimativos, margen de error, intervalo de confianza y los tamaños de muestra calculados para cada
indicador. Puede observarse que el “Desempleo Abierto” es estimado en 7,9%. Según esta variable, el
tamaño de muestra requerido es de 5 mil 400 viviendas particulares.
También, se observa que variables como “Ocupados con Seguro Social”, “Ocupados Que Ganan Por
Debajo de la Línea de Pobreza” y “Ocupados en Empresas con 1 a 10 Trabajadores”, tienen estimaciones
mayores al 30%. El tamaño de muestra requerido para estimar estos indicadores es, en promedio, 2 mil
viviendas particulares, número equivalente a la tercera parte de lo necesario para estimar el Desempleo
Abierto.
Perú: tamaño de muestra en encuestas de... 461

En resumen, el tamaño de muestra de 4 mil 950 viviendas, determinado para la encuesta, satisface las
necesidades de información para el resto de indicadores.

Tabla 8. Tamaño de Muestra Necesario para los Principales Indicadores de la Encuesta


Margen de error Intervalo Confidencial Muestra
Indicador Estimación viviendas
Absoluto Relativo (%) Inferior Superior
trimestral
1. PEA Ocupada 3 200 000 ocup. 75 000 2,0 3 125 000 3 275 000 4 950
2. Tasa Desempleo Abierto 7,9% 1,0 12,6 6,9 8,9 5 400

3. Desempleados buscan Empleo 4


42,4% 3,0 7,0 39,4 45,4 2036
semanas

4. Personas inician trabajo en mes


3,7% 0,7 18,0 3,0 4,4 5 460
de referencia

5. Ocupad. Pierden empleo en 3,5% 0,7 18,0 2,8 4,2 5 460


mes de referencia
6. Ocupa. Con Seguro de S. 35,0% 3,0 8,6 32,0 36,0 2 000
7. Tamaño de Empresa
01 a 10 67,8% 3,0 4,4 64,8 70,8 2 000
10 y más 32,2% 2,0 6,2 30,2 34,2 4 000

8. Ocupados ganan debajo de línea


66,1% 3,0 4,5 63,1 69,1 2 000
de pobreza

La muestra está diseñada para dar resultados trimestrales para las principales características investigadas
en la encuesta a nivel del Área Metropolitana de Lima y Callao. Para otros niveles de desagregación se
debe prestar atención a los coeficientes de variación de las estimaciones.
Errores de Muestreo de la Encuesta, Los errores de muestreo están en función del diseño de la muestra y
de los procedimientos de estimación utilizados.
Las estimaciones obtenidas mensualmente para la Población Ocupada tienen errores muestrales relativos
(CV) por debajo del 2.0% y en el caso de la Población Desocupada están entre 5.0% y 6.0%.
Las estimaciones obtenidas trimestralmente para la Población Ocupada tienen errores muestrales relativos
(CV) por debajo del 2.0% y en el caso de la Población Desocupada están entre 3.0% y 3.5%.
Las variaciones de los errores relativos entre meses no son significativas pero las estimaciones desde el
punto de vista de eficiencia muestral, poseen márgenes de error mayores con respecto al de las
estimaciones trimestrales.

Tabla 9. Mensual – Población Ocupada


Error C. V. 95% Intervalo de Confianza Nª de
Mes Estimado DEFF
Estándar (%) Inferior Superior casos
MARZO 3,627,616 59,488 1.64 3,511,019 3,744,212 1.72 7398
ABRIL 3,446,391 63,169 1.83 3,322,581 3,570,202 1.83 6844
MAYO 3,514,842 62,041 1.77 3,393,243 3,636,442 1.76 6933
JUNIO 3,453,673 59,940 1.74 3,336,190 3,571,155 1.73 7215
JULIO 3,442,081 61,678 1.79 3,321,193 3,562,969 1.67 6554
462 Perú: tamaño de muestra en encuestas de...

Tabla 10. Mensual – Población Desocupada


Error C. V. 95% Intervalo de Confianza Nª de
Mes Estimado DEFF
Estándar (%) Inferior Superior casos
MARZO 349,418 19,637 5.62 310,929 387,907 1.09 7398
ABRIL 375,108 24,984 6.66 326,140 424,077 1.54 6844
MAYO 353,589 20,996 5.94 312,437 394,742 1.16 6933
JUNIO 363,273 22,311 6.14 319,544 407,003 1..33 7215

Tabla 11. Trimestral - Población Ocupada


Error C. V. 95% Intervalo de Confianza Nª de
Trimestre Estimado DEFF
Estándar (%) Inferior Superior casos
MARZO - MAYO 3,529,616 35,556 1.01 3,459,926 3,599,306 1.77 21175
ABRIL - JUNIO 3,471,635 35,640 1.03 3,401,780 3,541,490 1.78 20992
MAYO - JULIO 3,470,198 35,810 1.03 3,400,011 3,540,385 1.77 20702

Tabla 12. Trimestral - Población Desocupada


Error C. V. 95% Intervalo de Confianza Nª de
Trimestre Estimado DEFF
Estándar (%) Inferior Superior casos
MARZO - MAYO 359,372 12,696 3.53 334,488 384,256 1.28 21175
ABRIL - JUNIO 363,990 13,177 3.62 338,163 389,818 1.35 20992
MAYO - JULIO 351,440 12,674 3.61 326,599 376,282 1.27 20702

Analizando la población ocupada, el error estándar de la diferencia de las estimaciones de un trimestre


móvil a otro, viene dado por la relación siguiente:

σ( yi - yi + 1 ) = 0,4 σyi

Por ejemplo, el error estándar de cambio en la magnitud del empleo (personas ocupadas) entre los
trimestres móviles marzo-mayo y abril-junio es:

σ( yi - yi + 1 ) = 0,4 * (35,556)

σ( yi - yi + 1 ) = 22,488

El error relativo (cv) de esta estimación es cv = 22,488 / 3 529,616 = 0.006 (menos del 1%)

You might also like