Professional Documents
Culture Documents
TECNICAS
DE
MUESTREO
) . \ .
uo/162~.
WILLIAM G. COCHRAN
Professor of Statistics, Emeritus-Harvard University
......
......
......
......
..,..,...
._
'
Brasil -
Guatemala -
'
Costa Rica -
Bonc!uru -
Dominicana -
Ecuador -
E1tado1 Unido~
Pen1 -
l'ortucal
12.
INDICE DE MATEIUAS
Pg.
Cap.
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
Caractersticas Cualitativas . . . . . . . . . . . . . . . . . .
Varianzas de las Estimaciones Muestrales . . . . . .
Fl Efecto de P en los Errores Estndar . . . . . . . .
La Distribucin Binomial . . . . . . . . . . . . . . . . . . .
La Distribucin Hpergeomtrca . . . . . . . . . . . . .
Limites de Confianza . . . . . . . . . . . . . . . . . . . . . .
Clasificacinen ms de dos Clases . . . . . . . . . . . .
Lmites de Confianza Cuando Existen ms de
dos Clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.9 La Distribucin Condicional de p . . . . . . . . . . . .
3.10 Proporciones y Totales Sobre Subpoblaciones . .
3.11 Comparaciones Entre Dominios Diferentes . . . . .
3.12 Estimacin de Proporciones en el Muestreo por
Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5
5.6
79
80
83
84
85
87
90
5.7
5.8
5.9
5.10
5.11
91
92
93
94
5.12
4 1
Un Ejemplo Hipottico . . . . . . . . . . . . . . . . . . . . .
Anlisis del Problema . . . . . . . . . . . . . . . . . . . . . .
La Especificacin de la Precisin . . . . . . . . . . . . .
La Frmula para 11 al Hacer un Muestreo para
Determinar una Proporcin . . . . . . . . . . . . . . . . . .
Atributos Raros-Muestreo Inverso . . . . . . . . . . . . .
La Frmula para n con Datos Continuos . . . . . .
Estimaciones Anticipadas de Varianzas de Poblacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tamao de la Muestra con ms de una Caracterstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tamao de la Muestra Cuando las Estimaciones
se Quieren para Subdivisiones de la Poblacin . .
El Tamao de la Muestra en Problemas de Decisin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
El Efecto del Diseo (Deff) . . . . . . . . . . . . . . . . .
103
105
106
5A.1
107
108
109
5A.3
110
5A.5
114
5A.6
SA. 7
SA.8
5A.9
4.10
4.11
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1
5.2
5.3
5.4
Descripcin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Notacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Propiedades de las Estimaciones . . . . . . . ... . . . .
La Varianza Estimada y Limites de Confianza . . .
115
117
119
120
125
125
126
127
132
138
142
143
145
147
155
103
4.9
136
SA
133
149
149
LA
4.8
.
Precisiones Relativas del Muestreo Aleatorio Estratificado y del Muestreo Aleatorio Simple
.
En qu Casos Produce la Estratificacin Considerables Ganancias de Precisin?
.
Asignacin que Requiere ms del 100% del
Muestreo
.
Estimacin del Tamao de la Muestra con Datos
Continuos
.
Muestreo Estratificado para Proporciones
.
Ganancias en Precisin en el Muestreo Estratificado para Proporciones
.
Estimacin del Tamao de Muestra con Proporciones
.
.
95
100
4.5
4.6
4.7
La Asignacin Optima
Ejercicios
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2
4.3
4.4
Pg.
Cap.
79
13
5A.2
5A.4
SA.10
5A. l l
5A.12
5A.13
5A.14
155
157
160
161
165
167
169
174
177
178
179
181
184
186
102
T:!CNICAS DE :MUUTllO
(m -1)!(11 -m)!
P'"Q"-'"
(n 2: m)
donde P es la frecuencia de la caracterstica rara. Encontrar el tamao promedio de la muesrra total y demostrar que si m > 1, p - (m - l )/(n - 1)
es una estimacin lnsesada de P. (Para una mayor discusin vase Flnney,
1949, y Sandellus, 1951, quienes consideran un plan en el cual el muestreo
contina hasta que se encuentren m individuos o el tamao total de la muestra alcance un lmite n@ predeterminado.) Vase tambin la sec. 4.5.
Nm. de
personas
s
6
3
3
2
3
3
3
4
4
3
2
7
4
3
Dentista visto
S
No
o
1
2
o
o
1
1
6
2
1
2
3
2
2
3
4
5
4
4
3
3
4
3
3
1
2
4
3
4
3
3
2
4
o
o
Dentista visto
Nm. de
personas
2
2
CAPITULO 4
Si
No
o
3
3
3
3
o
o
1
o
o
o
1
o
o
2
1
2
4
2
3
2
4
4.1
UN EJEMPLO BIPOTETICO
muy grande
CJUC
2JPQ/n=5
4PQ
n=--
25
En este momento aparece una dificultad comn a todos los problemas para la estimacin del tamao de la muestra. Se obtuvo
una frmula para n, pero n depende de una propiedad de la poblacin sujeta al muestreo. En este caso, la propiedad es la cantidad
P que desearamos medir. Por lo tanto, preguntamos al antroplogo
si nos puede dar una idea del valor que se espera de P. El contesta
que con base en datos obtenidos previamente con otros grupos tncos, y de acuerdo a sus especulaciones sobre la historia racial de
la isla, le sorprenderla que P estuviera fuera del intervalo del 30
al 60%.
Esta informacin ser suficiente para proporcionar una respuesta til. Para cualquier valor de P entre 30 y 60, el producto
PQ est entre 2 100 y un mximo de 2 500 con P - 50. El valor correspondiente de n est entre 336 y 400. Para no correr riesgos se
toma 400 como estimacin inicial de n.
Ahora pueden reexaminarse las hiptesis hechas en este anlisis.
Con n - 400 y p entre 30 y 60, la distribucin de p debera estar
cerca de la normal. Si se requiere o no la cpf, dependen del nmero de habitantes de la isla. Si la poblacin excede a 8 000, la frac
cin de muestreo es menor al 5% y no se necesita ajuste para la cpf.
en la Scc. 4.4.
que se va a gastar en alguna empresa), entonces, la precisin requerida se puede enunciar usualmente de una manera ms especfica, en trminos de las consecuencias de los errores de decisin.
Un enfoque general a los problemas de esta ndole se presenta en
la Sec. 4.10, que ofrece un punto de partida lgico para la solucin.
PI~ d) = a
Se supone un muestreo aleatorio simple y p se toma con distribucin normal. A partir del Teorema 3.2, Sec. 3.2,
= ::;,
(T
p
PQ
v~v-:
fi0
tV::V-:
d=~
en
,2PQ
(4.1)
no=7=
pq
V
donde
V - pq - varianza deseada de la proporcin de muestra
no
(4.2)
108
TECNICAS DE MUESTREO
no
l+(no-1)/N
no
=. l+(no/N)
(4.3)
d=0.05,
p a0.5,
a =0.05,
Luego
no
(4)(0.5)(0.S}
OO
(0.0025} 4
Supongamos que slo hay 3 2.00 isleos. La cpf ser necesaria y encontramos
n...
no
1+(n0-l}/N
400 356
l+H&J
La Frmula
{4.2)'
(I~ 2::,)=Pr
(r ;pJ
9
2::,)=Pr(l9-Yl~rf)=a
As que
~s
109
Al resolver para
.;,
(4.4)
12
110
LA ESTIMACION
TECNICAS DE MUESTREO
no={~r = ~(ff
(4.5)
(4.3)
95
nn---78
l+i%
Casi el 20% de la abnciga se debe contar para alcanzar la precisin
deseada.
Las frmula., para n dadas aqu se aplican sfo al muestreo aleatorio
smple en el que se usa la media muestra! como estimacin de Y. Las frmulas
apropiadas para otros mtodos de muestreo y estimacin se presentan al
discutir estas tcnicas.
DEL
TAMAO
DE LA MUESTRA
111
es~\ (1 +se+
Y1
s~ 2
n1Y1
+1-)
n1
(4.6)
s2( 1+n=..l..
2)
n1
{4.7)
112
TECNlC.t.S DE MUJlSTllEO
U.
.":q1
Vn1
(4.8)
Estimacin de P con cv
Tmese
= .Je
dado
Cp1
P1q1
Cp1n,
n=-+--+-La estimacin es
se ignora la cpf.
P=p-
(4.9)
Ejemplo. Un muestreador desea estimar P con un coeficiente de variacin de 0.1 (10%) y conjetura que P se encontrar entre 5 y 2.0%. Este intervalo es demasiado amplio para dar una buena estimacin inicial del n
requerido. Como el cv de P es .../ Q/nP, fcilmente se verifica que n
400
es adecuado para P - 20%, pero n - 1900 se requerir si P es slo 5%.
De acuerdo con esto, el muestreador toma una muestra :Inicial con n1 396 y encuentra p1 - 0.101. Dado que Je- 0.1, C 0.01. La Ec. 4.9 con
duce a
(0.899)
n = (0.01)(0.101)
sesgo, Cp/q, viene a ser 0.0011, lo que da una estimacin fnal de 0.094 o
9.4 ',;.
113
conglomerados de unidades. As, el valor s2 calculado, mide principalmente la variacin dentro de un conglomerado y puede ser una
subestimacin del valor pertinente SS. La relacin entre las variaciones ntra e interconglomerados se discutir en el Cap. 9. El mismo problema surge en el muestreo por conglomerados para proporciones, en donde la frmula pq/n puede subestimar el efecto de
la variacin entre conglomerados. Cornfield ( 1951) ilustra adecuadamente la estimacin del tamao de la muestra en muestreo
por conglomerados para proporciones.
El tercer mtodo -uso de los resultados de encuestas previas -,
seala el valor que tiene el poner a disposicin, o al menos rnante
ner accesible, cualquier dato sobre la desviaciones estndar obtenidas en encuestas previas. Infortunadamente, el costo de computa
cin de las desviaciones estndar en encuestas complejas es elevado,
aun con mquinas electrnicas, y es frecuente que slo aquellas
desviaciones estndar requeridas para dar una vaga idea de la precisin de las estimaciones principales, se computen y registren. Si
se encuentran datos anteriores apropiados, el valor de 52 puede requerir un ajuste, para actualizarlo. Con datos asimtricos en los
que Y cambia con el tiempo, frecuentemente se encuentra que sz
varia de acuerdo a una razn comprendida entre kY y kY~ donde
k es una constante. Por lo tanto, si se cree que Y ha aumentado en
10% en el intervalo de tiempo transcurrido desde la encuesta previa, podramos incrementar nuestra estimacin inicial de si entre
un 10 y un 20% .
Por ltimo, en ocasiones es posible hacer una estimacin til de
s: a partir de una Jnformacin relativamente escasa respecto a la
naturaleza de la poblacin. En estudios previos sobre el nmero de
gusanos en suelos, se utiliz un instrumento para tomar una muestra de (9 X 9 X 5 plg) de la capa superficial. Para estimar n, el
muestreador necesitaba conocer la desviacin estndar del nmero
de gusanos encontrados en una extraccin con ayuda del instrumento. Si los gusanos se distribuyeran al azar en la capa superficial, el
nmero encontrado en un pequeo volumen se apegara a una distribucin de Poisson para la cual S: = Y. Como los gusanos pueden
tender a congregarse se decidi suponer S:: - 1.21, donde el factor
l 2 es un factor arbtraro de seguridad. Aunque se desconoca Y,
sus valores de importancia econmica respecto al dao en la cosecha se pudieron delinear. Estas dos informaciones hicieron posible
la determinacin de los tamaos de muestra que resultaron satisfactorios.
caractersticas requerirn tipos diferentes de muestreo en comparacin con otras. Con poblaciones que se muestran repetidamente
es til reunir informacin respecto a las caractersticas que se pueden combinar econmicamente en una encuesta general y las que
requieren mtodos especiales. Como ejemplo, en la Tabla 4.1 presentamos una clasificacin de caractersticas en 4 tipos, sugerida
por la experiencia en encuestas agrcolas regionales. En esta clasificacin, una encuesta general quiere decir una en la cual las unidades estn ms o menos uniformemente distribuidas en alguna
regin, como sucede, por ejemplo con una muestra aleatoria simple.
TABLA 4.1.
Tipo
DE
CARACTDSnCAS
:EN
116
TECNICAS DE MO!:STR:&0
= E(s,2) = s,2
n,
ntr,
(4.10)
. , ( s.2)
n =max: -rr, V
(4.11)
so, s,:.,ri puede ser menor que S2 para las clases centrales, pero puede se.. grande para una clase extrema con ,., pequea. En este caso, tendremos que incrementar el valor de V en esta subdvsn, o
bien, encontrar alguna manera de identificar de antemano unidades
en esta subdivisin para que se puedan muestrear a una mayor tasa..
En ocasiones, el mtodo del muestreo doble (Cap. 12) es til para
este propsito.
Las exigencias en el tamao de la muestra son an mayores en
estudios analticos, donde las especificaciones son
V(j1-j1}sV
(412)
, 1 (S/
n =max-+1J
V 1r1
S/)
1r1
(4.13)
= J /(z}f(z,
n) dz
(4.14)
(4.15)
118
'tECNICAS DE MUESTREO
Por ejemplo, si
= AE(z2)
(4.16)
es la estimacin muestra! de
~
Y,
y z
= Y - Y,
AS2 AS2
n
N
(4.17)
L(n)=AV(Y)=---
n =J>..S2/c,
119
(4.18)
11
Yates (1960) da una forma ms general de este resultado. El mi~mo anlisis se aplica a cualquier mtodo de muestreo y de esnrnacn en el que la varianza de la estimacin es inversamente
proporcional a 11 y et costo es una funcin lineal de n.
Blythe ( 1945) describe la aplicacin de este principio a la estimacin del volumen de madera en un lote con fines de venta (ver
Ejercicio 4.11). Nordin (1944) discute el tamao ptimo de la
muestra para estimar las ventas potenciales de un mercado al que
desea entrar un fabricante. Si las ventas pueden pronosticarse exactamente, la cantidad de equipo fijo y de produccin por unidad de
tiempo se podr asignar de tal manera que maximice la utilidad
esperada por el fabricante. Grundy y otros ( 1954-1956) consideran
el tamao ptimo de una segunda muestra, cuando se conocen los
resultados de una muestra inicial.
Este enfoque ha sido desarrollado sustanctalmente en trabajos
sobre la teora de decisin estadstica. Las generalizaciones incluyen la sustitucin de la utilidad por el valor monetario como una
escala en la que se miden costos o prdidas, el uso explcito de informacin anterior subjetiva respecto a parmetros desconocidos,
al expresar esta informacin como distribuciones de probabilidad a
priori de los parmetros desconocidos, y la investigacin de diferentes
tipos de funciones de costo y prdida, y de datos tanto cualitativos
120
EJERCICIOS
4.1. En un distrito en donde hay 4 000 casas, el porcentaje de proplctarlos
va a ser estimado con una muestra no mayor al 2% y el porcentaje de propietarios de 2. autos con una de no mayor al 1 % . (Las cifras 2 y 1 % son los
valores absolutos, y no los cv.) El porcentaje verdadero de propietarios se
piensa que est entre 45 y 65% y el porcentaje de propietarios de dos autos
entre 5 y 10%. Qu tan grande debe ser una muestra para satisfacer las
dos finalidades?
4.2.. En la poblacin de 676 hojas de solicitud (Tabla 2..2. Pg. 53 ) qu
tan grande debe ser la muestra si se va a estimar el nmero total de firmas
con un margen de error de 1 000 con probabilidad de 95%? Suponra que el
valor de s t dado en la P. 53 es el valor de S't en la poblacin.
4.3. Se va a realizar una encuesta para determinar la existencia de en
fermedades comunes en una poblacin grande. Para cualquier enfermedad que
afecte cuando menos al 1 % de los individuos en la poblacin, se desea es
ti.mar el nmero total de casos, con un coeficiente de varladn de no ms
del 2.0%. (a) Qu tamao de muestra aleatoria simple es necesarlo al su
poner que la presencia de la enfermedad puede ser reconocida sin equivocacin? (b) Qu tamao de muestra se necesita si se desea obtener el nmero total de casos separadamente para hombres y mujeres, con la misma
precisin?
4.4. En un muestreo de insectos se va a estimar el nmero de gusanos
por acre con un limite de error del 30% al nivel de probabilidad del 95%,
en cualquier campo en donde la cantidad de gusanos exceda a 200 000 por
acre en la capa superior de 5 plg del suelo. La barrena para muestrear
mide 9 X 9 X 5 pl de alto. Suponiendo que el nmero de gusanos en une
muestra siue una cllstrlbucin ligeramente ms varlable que la de Poisson,
tomamos s: == 1.2.Y. Qu tamao de muestra aleatoria simple es necesaria?
(Un acre - 43 560 piest.)
4.5. Los siguientes coeficientes de variacin se obtuvieron en una en
cuesta de predios agrcolas en Iowa, la unidad fue un! rea de una milla cuadrada (informacin de. R. J. Jessen):
121
Coeficiente de
variacin estimado
( %)
Caracterstica
Acres en predios agrcolas
Acres de maz
Acres de avena
Nmero de trabajadores de la famllia
Nmero de trabajadores contratados
Nmero de desempleados
38
39
44
100
110
317
Se planea una encuesta para estimar caracterstcas de rea con un coeciente de variacin de 2.5% y nmero de trabajadores (excluyendo a los
desempleados) con un coeficiente de varacn del 5% . Con una muestra
aleatoria simple, cuntas unidades se necesitan? Qu~ tan bien se supone
que esta muestra estime el nmero de desempleados?
4.6. Por muestreo experimental, el valor medio de una variable aleatoria
se va a estimar con una varianza V == 0.0005. Los valores de la variable
aleatoria para las primeras 20 muestras se proporcionan a continuacin. Cuintas muestras adicionales se necesitan?
Ne. de
muestra
1
2
3
4
6
7
8
9
10
Valor de la varia
ble aleatoria
No. de
muestra
Valor de la varia
ble aleatorio.
0.0725
JI
12
13
14
IS
16
17
18
19
20
0.0712
0.0748
0.0878
0.0710
0.0754
O.Q712
0.0757
0.0737
0.0704
0.072)
0.07SS
0.0759
0.0739
0.0732
0.0843
0.0727
0.0769
0.0730
0.0727
( b) Suponga que en (a) el cliente opina que las caractersticas estn positivamente correlacionadas, pero no conoce la correlacin, si se sugere
una muestra inicial de 200, con los siguientes resultados.
4.8. Los colegios con programas de estudio de cuatro aos, en los Estados Unidos se dividieron en clases de 4 tamaos dilerentes de acuerdo con
sus inscripciones de 195Z-1953. Las desviaciones estndar dentro de cada
clase se muestran a continuacin.
Clase
2
Nmero de estudiantes
s,
< 1000
236
1
3
1000-3000
3000-10000
625
2008
12.3
Caractersticas
2.
Si
Si
No
No
ms de 10 000
10023
Si
No
Sf
No
Nmero de unidades
72
44
14
70
'J.00
Si conoce los lmites de clase pe.ro no los valores de S1, qui tan bien
puede estimar los valores de los S1 usando cifras matemticas simples (Sec.
4.7)7 Ningn colegio tiene menos de 200 estudiantes y el m crande tiene
cerca de !50 000 estudiantes.
4.9. Con una funcin cuadrtica de prdida y una funcin lineal de costos como en la Sec. 4.10, Sf se reduce a si mediante un plan de muestreo
ms eficiente, c0, c1 y >.. permanecen sin cambio. Si n', v denotan un nuevo
tamao ptimo de muestra y V(Y), demostrar que n < n y que v < V.
4.10. Si la funcin de prdida debida a un error en y es >,. fy - YI y
si el costo C = c0 + c1n, demuestre que con un muestreo aleatorio simple,
ignorando la cpf, el valor ms econmico de n es
(~'l/3
CJw