Professional Documents
Culture Documents
ÍNDICE
Página
La variabilidad entre conglomerados es mucho mayor para las áreas urbanas que en las áreas rurales,
pero la variabilidad dentro del conglomerado seleccionado es menor en lo urbano que en lo rural.
Por lo tanto, un importante factor para controlar el error muestral es reducir el mayor componente de
variabilidad que es la variación entre conglomerados, el cual es inversamente proporcional al número de
conglomerados (especialmente en el área urbana).
Como consecuencia, para cumplir con los diferentes objetivos de la encuesta se consideró que un tamaño
de muestra de aproximadamente 4 mil conglomerados era el tamaño de muestra más adecuado para
producir con suficiente precisión los principales indicadores para los diferentes niveles de desagregación
requeridos en la ENAHO: regiones o dominios geográficos. Cuando estas áreas varían considerablemente
en sus tamaños totales (habitantes o viviendas), surgen problemas en el uso de asignaciones estándar.
Por un lado se tiene la asignación de la muestra total del país entre sus dominios que minimiza el error
relativo al nivel nacional, la cual es casi igual a la asignación proporcional al tamaño del dominio,
ocasionando que ciertos dominios tengan un mayor error relativo que el tamaño de muestra producido
por la directa minimización del error dentro del dominio.
Por otro lado, cuando se requiere que cada dominio tenga el mismo nivel de error relativo entonces puede
resultar que el error relativo producido para el nivel nacional sea mucho más grande que el calculado con
la respectiva minimización al nivel nacional. Esta asignación con el mismo nivel de error relativo produce
el mismo tamaño de muestra para cada dominio sin consideración del tamaño o de la importancia, es decir
el tamaño de muestra en el dominio es independiente de su tamaño.
Aprovechando el concepto de la importancia (tamaño) del dominio anteriormente discutido y tomando en
consideración el concepto de precisión del indicador estadístico en cada dominio, entonces una mejor
asignación de la muestra total entre sus dominios componentes se obtiene cuando el tamaño de muestra en
el dominio es función de la importancia del dominio y de su correspondiente error relativo (véase
Power Allocations Determining Sample Sizes for Subnational Areas por Michael D. Bankier. The
American Statistician. August 1988 Vol 42 No 3).
Teniéndose el indicador estadístico Y (promedio, proporción o porcentaje) estimado en cada dominio, y
además teniéndose la importancia X (tamaño) de cada dominio entonces se considera la minimización de
la siguiente función en términos de la mejor asignación de muestra entre los dominios (nh ):
α
F = ∑h ( X h CV(Y h ) )
2
(1)
n = ∑ h nh
donde : (2)
Se demuestra matemáticamente que la función F es minimizada cuando la asignación por dominio es dada
por la siguiente relación:
α
Sh X h / Yh
nh = n
∑ h S h X hα / Y h (3)
donde :
Sh : esta definido dentro de la fórmula de la varianza del indicador, Var (Yh) = Sh2 / nh , en el
dominio h.
Como quiera que se tenia cinco indicadores, había varias alternativas para utilizar esta información:
i) Utilizar el indicador más importante de acuerdo a los objetivos de la encuesta y con este
indicador hacer la asignación de la muestra.
ii) Combinar dos o más indicadores y luego hacer la asignación.
iii) Obtener un promedio simple de estos cinco indicadores para una encuesta de propósitos
múltiples.
Finalmente, se decidió aplicar el criterio de promedio simple de los cinco indicadores, que vendría a ser el
tamaño de muestra deseado para cada departamento, cuyo objetivo era investigar a las variables
relacionadas con la extrema pobreza.
Se realizó la asignación para cada dominio de cada uno de esos indicadores considerando el tamaño de
muestra total de 3 mil 884 conglomerados.
La evaluación de estos tamaños muestrales normalmente implica desarrollar dos etapas de trabajo:
(1 − p)
CV ( p) = efd (4)
np
donde,:
CV(p) es el coeficiente de variación relativo del indicador con un valor de p.
efd es el efecto del diseño, se asume un valor igual a 2.
P es el indicador con valores de p 0.3, 0.4 y 0.5.
n es el número de viviendas de la muestra
Aplicando la fórmula anterior se han construido el cuadro siguiente, que presenta los respectivos
coeficientes de variación para los valores previstos del indicador p, para un número de conglomerados en
la muestra y su respectivo tamaño de muestra de viviendas, con un efecto de diseño igual a 2.
Perú: tamaño de muestra en encuestas de... 451
Se puede afirmar que con un mínimo de 75 conglomerados, el correspondiente error relativo para
cualquier indicador, cuyo valor es mayor a 0.3, puede alcanzar hasta el 12%. En la medida que aumente el
número de conglomerados disminuye el error relativo.
Variable Indicador
V1. Desempleo Abierto Tasa de Desempleo Abierto Urbano
V2. Acceso a los Servicios de Salud Proporción de la Población Que Accede a Servicios de Salud
V3. Servicio de Desagüe a Red Pública Proporción de Hogares con Servicio de Desagüe Conectado a Red
Pública
V4. Asistencia Escolar de Niños de 5 a 14 años Proporción de Niños de 5 a 14 años Que Asisten a un Centro
Educativo
V5. Acceso a Programas Sociales Proporción de Hogares Que Acceden a Programas Sociales
V6. Ingreso Trimestral por Perceptor Ingreso Promedio Trimestral Por Perceptor
V7. Población en Estado de Pobreza Proporción de pobres en la Población.
Haciendo uso de la información antes referida, se ha procedido a calcular un tamaño de muestra deseado,
siguiendo el método “Power allocation determining Sample Sizes For Subnational Areas” de Michael
D. Banker, cuya fórmula es la siguiente:
CV ( p) * X 0.5* (5)
nh =
∑ X 0.5 * CV ( p)
Donde :
nh es el tamaño de muestra óptimo por departamento
X es el tamaño de cada departamento
CV(p) es el coeficiente de variación relativo del indicador con un valor de p.
452 Perú: tamaño de muestra en encuestas de...
Tabla 4. Comparación de los tamaños de muestra asignados y deseados para la ENAHO 2001 IV
TAMAÑO DE DIFERENCIA
TAMAÑO DE
DEPARTAMENTO MUESTRA (ASIGNADO
MUESTRA DESEADO
ASIGNADO / DESEADO) *100
TOTAL 18179 18000
MADRE DE DIOS 410 252 162.64
LIMA 3262 2038 160.05
LAMBAYEQUE 768 611 125.66
TUMBES 444 355 125.00
UCAYALI 522 430 121.35
LORETO 707 606 116.73
TACNA 476 460 103.58
CUSCO 785 783 100.30
AREQUIPA 739 750 98.55
PIURA 920 936 98.25
JUNIN 800 822 97.30
LA LIBERTAD 910 950 95.76
SAN MARTIN 639 675 94.61
HUANUCO 649 708 91.70
PASCO 476 521 91.33
ANCASH 760 838 90.68
ICA 623 703 88.56
PUNO 807 933 86.54
AYACUCHO 570 671 85.01
APURIMAC 525 635 82.70
MOQUEGUA 427 538 79.41
CAJAMARCA 903 1221 73.96
AMAZONAS 507 697 72.76
HUANCAVELICA 550 867 63.40
S a2 / a
efd = (1 + rho ( b − 1 ) ) (6)
S2 /n
Perú: tamaño de muestra en encuestas de... 453
Donde:
Efd es el efecto del diseño;
Tabla 6. Errores de muestreo para la población en extrema pobreza ENAHO IV Trimestre 2001
4. Algoritmos de Estratificación
4.1 Procedimientos para la estratificación del marco de muestreo
En toda encuesta de hogares en la que se haga uso del muestreo multietápico, la estratificación de las
unidades de muestreo es fundamental e importante para la reducción de la varianza. A fin de mejorar la
eficiencia del marco muestral de la Encuesta Nacional de Hogares (ENAHO) utilizado desde 1995, se
tomaron criterios de estratificación para las unidades de muestreo.
En una primera etapa, las unidades primarias de muestreo (UPM) fueron agrupadas en estratos teniendo
en cuenta su importancia en tamaño de habitantes:
• Estrato 1: Unidades primarias de muestreo (UPM) urbanas de gran tamaño, tales como ciudades
con 100 mil y más habitantes.
• Estrato 2: Unidades primarias de muestreo urbanas de mediano tamaño, tales como ciudades con
20 mil a menos de 100 mil habitantes.
• Estrato 3: Unidades primarias de muestreo urbanas menores, tales como aquellos centros
poblados o localidades con 2 mil a menos de 20 mil habitantes.
456 Perú: tamaño de muestra en encuestas de...
• Estrato 4: Unidades primarias de muestreo rurales concentradas, tales como centros poblados o
localidades con 500 a menos de 2 mil habitantes.
• Estrato 5: Áreas rurales pequeñas y dispersas, formadas por centros poblados con menos de 500
habitantes, agrupados en AER (áreas de empadronamiento rural).
Es importante mencionar que los estratos 1,2 y 3, conforman el área urbana mientras que los estratos 4 y
5, el área rural. Así mismo, la ENAHO es comparable con el Censo considerando solamente el estrato 5
como área rural.
La inclusión de conglomerados o unidades secundarias de muestreo (USM) en la muestra, dado el
carácter multitemático de la ENAHO, tiende a incrementar la varianza muestral y el método que se diseña
para minimizar la varianza de una variable, pudiera conducir a resultados no satisfactorios para otra. En
tal sentido, deben buscarse indicadores socio económicos que determinen diferencias que afecten a la
mayor parte de las características.
La mayoría de las variables importantes analizadas en la ENAHO tales como empleo, ingresos, gastos,
educación y salud, están altamente correlacionadas con los niveles socioeconómicos de la población. Por
lo que fue necesario definir subestratos socioeconómicos en los aglomerados urbanos de gran tamaño,
como son las grandes ciudades.
A fin de reducir la varianza de la segunda componente, la estratificación de las USM fue un objetivo
primordial para la ENAHO.
Sobre la base de información de los censos de 1993, el INEI procesó y obtuvo 5 indicadores de
Necesidades Básicas Insatisfechas (NBI) para los hogares peruanos, al nivel de distritos:
• Hogares en viviendas con características físicas inadecuadas
• Hogares en viviendas con hacinamiento
• Hogares en viviendas sin servicio de desagüe de ningún tipo
• Hogares con niños que no asisten a la escuela
• Hogares con alta dependencia económica
La medición estaba referida a los hogares que habitaban en viviendas particulares con ocupantes
presentes. Haciendo uso de esta metodología, estos indicadores se procesaron para cada USM del marco
de las UPM, según el procedimiento siguiente:
1. En primer lugar, se identifican a los hogares carentes por cada indicador; luego, para el cálculo de
la proporción de hogares carentes por cada indicador (Ij), se le relaciona con el total de hogares de
la USM correspondiente.
2. Se agrupan los hogares que tienen al menos 1 NBI, de la manera siguiente:
HOG1 : Hogares con 1 necesidad básica insatisfecha.
HOG2: Hogares con 2 necesidades básicas insatisfechas.
HOG3: Hogares con 3 necesidades básicas insatisfechas.
HOG4: Hogares con 4 necesidades básicas insatisfechas.
HOG5: Hogares con 5 necesidades básicas.
3. Basándose en estos cinco grupos de hogares se obtiene por sumatoria y agregación el índice de
necesidades básicas insatisfechas (NBI), que representa el indicador sintético de los hogares con al
menos una necesidad básica insatisfecha para cada USM, resumida en la siguiente expresión
matemática:
Perú: tamaño de muestra en encuestas de... 457
5. Diseños de Panel
5.1 Encuestas por panel
Muestra Panel es aquélla muestra en la que se miden los mismos elementos en dos o más ocasiones. Las
encuestas por panel permiten hacer estudios de cambios individuales y de la dinámica de las causas y las
relaciones.
Existen dos clases de encuestas por panel. Una es con paneles fijos y la otra es con paneles que rotan. Los
paneles fijos son aquellos en los cuales los individuos que lo componen no cambian.
El uso exclusivo de un panel fijo produce estimaciones muy eficientes de cambios periódicos. En tanto
que los paneles que rotan son utilizados para reducir el agotamiento de los respondientes y provee
estimaciones eficientes de totales del periodo.
Tamaño de Muestra, para la determinación del tamaño de la muestra, se ha tenido en cuenta, además de
los recursos disponibles para ejecutar la encuesta, los requerimientos mínimos de precisión o
confiabilidad de las estimaciones a obtenerse en la investigación.
Se tomó como referencia las estimaciones obtenidas en la Encuesta Especializada de Empleo del Tercer
Trimestre del 2000. Los indicadores estadísticos más importantes a estimarse con la encuesta son:
! Desempleo Abierto:
P = Tasa de Desempleo Abierto = 7.9%
En efecto, la encuesta producirá estimaciones para estos indicadores y existirán diferentes niveles de
confiabilidad, dependiendo de la frecuencia con que se presentan estas característica particulares en la
población. Por ejemplo, el Desempleo, característica infrecuente, tendrá una confiabilidad estadística
mucho menor que la Duración del Desempleo, característica más frecuente en la población de estudio.
Otro objetivo de la encuesta es tener estimativos de los cambios en la magnitud del empleo de una ronda
de encuesta a otra. Es decir, se quiere medir con alguna certeza, un cambio del 2 por ciento o más de una
ronda (trimestre) de encuesta a la siguiente.
Debe determinarse entonces, qué tamaño de muestra se necesita para que las estimaciones de la encuesta
estén dentro del intervalo permisible de error en 95 de cada 100 casos (con 1,96 errores estándar). Una
regla menos rígida sería la de exigir que el margen especificado de error fuera satisfecho en 90 de cada
100 casos ( con 1,6 errores estándar). Este criterio, requiere una muestra más pequeña.
También, como en toda investigación muestral, es de esperar que durante la recopilación de información
en campo se produzca bajas en las unidades seleccionadas debido a la no respuesta, la cual está asociada a
casos de: ausencia de informantes, viviendas desocupadas, viviendas no ubicadas o no localizadas,
viviendas que son establecimientos, direcciones que no corresponden a una vivienda, rechazos a la
entrevista de la vivienda, rechazo de la entrevista por el informante calificado, etc.
Perú: tamaño de muestra en encuestas de... 459
donde:
yi : es el número de personas ocupadas en el periodo i.
yi+1: es el número de personas ocupadas en el periodo (i+1).
σ( yi - yi + 1 ):error estándar de cambio en la magnitud del empleo (personas ocupadas) u otra medida
que se seleccione.
σ yi : error estándar de la magnitud del empleo (personas ocupadas) en la encuesta i.
σ²yi : varianza de la magnitud del empleo (personas ocupadas) en la encuesta i.
σ yi + 1 : error estándar de la magnitud del empleo (personas ocupadas) en la encuesta i+1.
σ²yi+1 : varianza de la magnitud del empleo (personas ocupadas) en la encuesta i+1
ρ: correlación en la magnitud del empleo entre la encuesta i y la i+1. Esta medida
generalmente se calcula del número estimado de personas en la muestra de las dos
encuestas.
El último término en la expresión (I), indica que la covarianza entre dos estimaciones reduce la varianza
de la diferencia de las estimaciones. Por lo tanto, a mayor correlación entre las dos muestras, menor será
la varianza de la diferencia estimada. La correlación máxima se obtiene incluyendo los mismos hogares
en la muestra en ambas encuestas.
Para efectos prácticos, σyi e σyi+1 pueden considerarse prácticamente iguales, es decir, se considera que
la magnitud del empleo en los periodos i e i+1 no varia.
Además, una estimación de 0.80 puede suponerse para ρ, basándose en la experiencia previa con una
característica tal como el empleo y donde la totalidad de los conglomerados son comunes de trimestre a
trimestre cuando la muestra se alterna:
σ( yi - yi + 1 ) = 0,4 σyi
460 Perú: tamaño de muestra en encuestas de...
σ yi = def ( N ² σ ²/ n)
donde:
def: es el factor con que se incrementa la varianza del muestreo simple al azar por el uso de
conglomerados. A este factor se le conoce como Efecto de Diseño.
def: 1,5
n: es el tamaño muestral medido en cantidad de personas económicamente activas.
N: es el total de personas económicamente activas en la población de estudio.
N= 3 millones 200 mil, según la ENAHO.
También, considerando:
d = z σ( yi - yi + 1 ): margen de error en la estimación de la diferencia.
Reemplazando:
d =z 0,4 1,5 N² σ ² / n
n =z 0,4 1,5 N² σ ² / d
n = [z² (0,4) (1,5) (N² σ²) ] / d²
Por lo tanto:
n= 12 200 personas económicamente activas para la muestra.
En el cuadro siguiente se muestra los principales indicadores estadísticos a obtenerse de la encuesta, los
estimativos, margen de error, intervalo de confianza y los tamaños de muestra calculados para cada
indicador. Puede observarse que el “Desempleo Abierto” es estimado en 7,9%. Según esta variable, el
tamaño de muestra requerido es de 5 mil 400 viviendas particulares.
También, se observa que variables como “Ocupados con Seguro Social”, “Ocupados Que Ganan Por
Debajo de la Línea de Pobreza” y “Ocupados en Empresas con 1 a 10 Trabajadores”, tienen estimaciones
mayores al 30%. El tamaño de muestra requerido para estimar estos indicadores es, en promedio, 2 mil
viviendas particulares, número equivalente a la tercera parte de lo necesario para estimar el Desempleo
Abierto.
Perú: tamaño de muestra en encuestas de... 461
En resumen, el tamaño de muestra de 4 mil 950 viviendas, determinado para la encuesta, satisface las
necesidades de información para el resto de indicadores.
La muestra está diseñada para dar resultados trimestrales para las principales características investigadas
en la encuesta a nivel del Área Metropolitana de Lima y Callao. Para otros niveles de desagregación se
debe prestar atención a los coeficientes de variación de las estimaciones.
Errores de Muestreo de la Encuesta, Los errores de muestreo están en función del diseño de la muestra y
de los procedimientos de estimación utilizados.
Las estimaciones obtenidas mensualmente para la Población Ocupada tienen errores muestrales relativos
(CV) por debajo del 2.0% y en el caso de la Población Desocupada están entre 5.0% y 6.0%.
Las estimaciones obtenidas trimestralmente para la Población Ocupada tienen errores muestrales relativos
(CV) por debajo del 2.0% y en el caso de la Población Desocupada están entre 3.0% y 3.5%.
Las variaciones de los errores relativos entre meses no son significativas pero las estimaciones desde el
punto de vista de eficiencia muestral, poseen márgenes de error mayores con respecto al de las
estimaciones trimestrales.
σ( yi - yi + 1 ) = 0,4 σyi
Por ejemplo, el error estándar de cambio en la magnitud del empleo (personas ocupadas) entre los
trimestres móviles marzo-mayo y abril-junio es:
σ( yi - yi + 1 ) = 0,4 * (35,556)
σ( yi - yi + 1 ) = 22,488
El error relativo (cv) de esta estimación es cv = 22,488 / 3 529,616 = 0.006 (menos del 1%)