Professional Documents
Culture Documents
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
I INTRODUCCION
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
Tipos de
No Probabilisticas
Aleatoria
muestras
Estratificada
Pr
obabilisticas
Sistematica
Conglomerados
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
Nominales
Cualitativas
Ordinales
Variables Estadsticas:
Discretas
CuantitativasContinuas
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
10
= 1 2+
= =1
= Media Poblacional
Resulta obvio, que en la gran mayora de las situaciones prcticas, este valor
resultar desconocido, porque para calcularlo necesitaramos conocer las estaturas
de todos los estudiantes de la referida Universidad.
El objetivo principal del muestreo es justamente, estimar el valor de estos
parmetros poblacionales, a partir del resultado arrojado por una muestra de esta
poblacin; y de all la necesidad de introducir el concepto de estimador.
Un estimador es un valor calculado sobre la base del resultado muestral obtenido,
y que se utilizar para estimar a un parmetro poblacional.
En el ejemplo anterior, al tomar una muestra de n estudiantes (tamao de la
muestra), y medir sus estaturas, encontraremos un conjunto de valores numricos
{1 , 2 , }, sobre los cuales podemos definir la siguiente funcin:
= 1 2+
= =1
= Media muestral
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
11
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
12
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
13
Resulta fcil intuir que es un estimador consistente para , pues a medida que
ms grande sea el tamao de muestra, ms elementos de la poblacin se
incorporan a ella, y por lo tanto el valor de se acercar ms al de .
De hecho cuanto n = N (censo), podemos afirmar con certeza que =
3. Estimadores suficientes: Se dice que un estimador es suficiente cuando utiliza
toda la informacin contenida en la muestra, es decir, cuando no desperdicia
informacin y toma en cuenta a todas las observaciones mustrales.
As por ejemplo es un estimador suficiente puesto que para calcular su valor,
necesitamos conocer el valor de todas las observaciones que cayeron en la
muestra; si falta por determinar alguna de ellas, ya no podremos calcular .
La mediana de una muestra es un ejemplo tpico de un estimador que no es
suficiente, pues para calcularla slo tomamos en cuenta a los valores centrales,
descartando a los extremos.
4. Estimadores de mnima varianza: Resulta frecuente que al comparar dos
estimadores, ambos sean insesgados. En estos casos, el de menor varianza resulta
ser el mejor, pues los valores que toma estn ms concentrados alrededor del
parmetro que se desea estimar.
La siguiente figura nos seala que con el estimador de menor varianza, se tiene
una mayor probabilidad de realizar una mejor estimacin debido a que presenta
una menor dispersin.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
14
Las causas que ocasionan estos errores pueden ser clasificados en dos categoras:
asignables y aleatorias
Las causas asignables son aquellas que se pueden identificar y corregir, y que son
responsabilidad del investigador, tales como errores en el diseo de la encuesta,
preguntas mal redactadas, entrenamiento inadecuado a los encuestadores,
imprecisiones en la escala de medicin, o fallas en la calibracin de los
instrumentos de medicin.
Lamentablemente, muchas veces este tipo de fallas son detectadas despus que
se ha tomado la muestra, lo que ocasiona un atraso en los estudios por muestreo
y una prdida de los recursos invertidos en la toma de la muestra. De all la
importancia de tomar muestras preliminares o pilotos, que permitan detectar de
manera temprana tales errores.
Las causas aleatorias son producto de la variabilidad propia del estimador. En
efecto, hemos visto que todo estimador es una variable aleatoria, y que por lo tanto
su valor vara de una muestra a otra.
El valor que toma el estimador en una muestra especfica representa un valor
particular de esa variable que no necesariamente tiene que ser igual al parmetro
que se quiere estimar.
Se define como error de muestreo a la diferencia absoluta entre el valor que tom
el estimador en la muestra y el verdadero valor del parmetro poblacional, es decir:
Error de muestreo = -
Por ejemplo, si estimamos que un parmetro vale 1251 y despus resulta que su
verdadero valor es 1280, hemos cometido un error de 1251-1280= 29 unidades
El valor absoluto se debe a que el error de estimacin puede ser negativo en caso
de una subestimacin, o positivo si se trata de una sobrestimacin.
Cuando se realiza un estudio por muestreo, el investigador debe establecer cul es
el mximo error que est dispuesto a tolerar en la muestra, y este se designa
designar por = Mximo error absoluto tolerado
La fijacin del valor de depender del orden de magnitud del parmetro que se
pretende estimar. As por ejemplo, si se quiere estimar un parmetro que pensamos
est en el orden de los millones, sera absurdo fijar en el orden de las unidades,
pues le estaramos exigiendo a la muestra un nivel de precisin tal, que
seguramente redundar en un tamao de muestra prcticamente igual a un censo.
En caso de que el investigador no tenga idea alguna sobre el orden de magnitud
del parmetro que est estimando, lo ms prudente es fijar el error tolerado de
muestreo en forma relativa o porcentual, definido por la siguiente expresin:
Error porcentual de estimacin =
100%
29
1280
100% = 2,27%
Al analizar el informe de la muestra, el lector debe estar atento acerca del margen
de error de la muestra, e identificar si el error de muestreo est expresado de
manera absoluta o de manera relativa.
Una regla muy simple para hacer esta identificacin es la siguiente:
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
15
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
16
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
17
P(1 2 ) = 1-
Para facilitar la comprensin de este concepto, consideremos el siguiente ejemplo:
Supongamos que una persona anuncia tener 10 billetes, uno de los cuales es falso,
y se selecciona al azar uno de ellos.
Antes de hacer la seleccin podra decirse que la probabilidad de seleccionar un
billete bueno es del 90%; pero despus de hecha la seleccin, ya no se podra decir
lo mismo, pues el hecho aleatorio que era la seleccin del billete ya se realiz. Lo
que cabra decir despus de hecha la seleccin es que al billete seleccionado le
tenemos una confianza del 90%.
Lo mismo ocurre con el muestreo, existen muchas muestras posibles, y cada una
de ellas arrojar intervalos de confianza distintos. Algunos de ellos contienen al
parmetro y otros no. Antes de tomar la muestra, la probabilidad de seleccionar a
una que contenga al parmetro es 1-, pero despus de tomada la muestra, lo que
le tenemos al intervalo seleccionado es una confianza de 1-
Para finalizar estas secciones introductorias, y comenzar a estudiar las diferentes
metodologas de muestreo, es importante aclarar que muchas veces se oye decir
la siguiente frase: la muestra debe ser representativa de la poblacin para no
incurrir en los errores del muestreo.
Esta frase establece un principio que en la prctica resulta difcil de garantizar, pues
se supone que no conocemos a los elementos de la poblacin, ya que si los
conociramos no estaramos muestreando, y por lo tanto, no sabemos si todos ellos
van a quedar representados en la muestra. De all que siempre tengamos el riesgo
de realizar una estimacin errnea.
Para ilustrar esta idea, supongamos que queremos estimar la estatura media de los
alumnos de un colegio, en donde hay nios y adolescentes, y lo que disponemos
es de una lista de los alumnos inscritos en el colegio.
Si la muestra la tomamos haciendo un sorteo entre todos los alumnos del colegio
(muestreo aleatorio simple como veremos en la prxima seccin) resulta obvio que
existe el riesgo de que solo caigan nios o solo adolescentes, lo que nos va a
conducir a una estimacin errnea de la media poblacional.
Pudiramos disminuir este riesgo, si ahora en lugar de tener una lista general,
obtenemos una en donde aparezcan solo los alumnos de primaria por un lado, y
los de secundaria por el otro, y ahora tomamos la muestra seleccionando al azar
alumnos de uno y otro grupo (muestreo aleatorio estratificado). Este nuevo
procedimiento tampoco est exento de riesgo, porque es posible que en cada una
de las dos muestras, caigan solo alumnos de los primeros aos de primaria y de
secundaria, o exclusivamente de los ltimos aos de cada nivel.
Se puede continuar afinando nuestra estimacin, y decir que ahora vamos a
conseguir las listas de cada uno de los salones de clase, y que tomaremos la
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
18
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
19
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
20
Por ejemplo, si el universo est formado por los 5 elementos {a, b, c, d, e}, y se va a
5!
5
tomar una muestra de 2 de ellos, entonces existen ( ) = 2! 3!!= 10 muestras
2
posibles, que son {ab, ac, ad, ae, bc, bd, be, cd, ce, de}, y la probabilidad de seleccionar
cualquiera de ellas es 1/10
Segn sea el parmetro que se quiera estimar en la poblacin, debemos distinguir
entre "Muestreo aleatorio para Variables, "Muestreo aleatorio para Proporciones y
Porcentajes, Muestro aleatorio para Razones
III.1 Muestreo Aleatorio para Variables:
En este caso, la poblacin est formada por un conjunto de valores numricos
asociados a cada uno de los elementos del universo; tal como puede ser un grupo
de personas, en donde estamos observando el peso de cada uno de ellos, o un
conjunto de residencias que cada una tiene un nmero variable de habitantes, o
una produccin de cigarrillos, en donde cada uno tiene una longitud, o un dimetro
distinto.
La variable estadstica en este caso es cuantitativa, y la poblacin est formada por
el conjunto de valores numricos que ella toma sobre cada uno de los elementos
del universo.
La nomenclatura seguir es la siguiente:
N = Tamao de la Poblacin
Poblacin = {x1 , x2 , x3 , xN }
xi = Valor de la variable estadstica asociado al i-simo elemento de la poblacin
(i=1, 2,3...N); Cada xi es un nmero real
i N
i 1
= Total Poblacional.
i n
x
i i
i N
(y
i 1
= Media Poblacional.
N
)2
= Varianza Poblacional.
n = Tamao de la muestra.
Muestra= {y1 , y2 , y3 , yn }
yj = Valor de la variable estadstica asociado al j-simo elemento de la muestra
(j=1, 2,3...n)
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
21
j n
y
j 1
T = = N y = Estimador de
j n
s2
f=
(y
j 1
y)2
n 1
n
= Fraccin de muestreo.
N
N N z/2
1 f
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
Confianza
z/2
90 %
95 %
99 %
1,645
1,960
2,576
22
Es costumbre que los intervalos de confianza sean simtricos y que por lo tanto el
riesgo se reparta por mitad entre las dos colas de la Distribucin Normal.
El trmino sin multiplica por la abscisa z/2, se suele llamar el error estndar de
la estimacin, mientras que una vez multiplicarlo por la abscisa, representa el
error de muestreo para el nivel de confianza establecido.
1.681,15
2.160,39
2.554,25
2.413,25
1.781,19
1.819,62
1.772,66
2.095,72
1.587,10
876,39
1.569,50
1.426,80
2.145,41
2.085,90
2.530,04
782,58
1.192,46
2.239,11
1.900,94
1.628,44
2.179,82
1.797,69
2.387,37
1.599,76
1.662,57
2.476,30
2.362,04
1.960,13
2.428,22
1.150,14
1.448,19
1.572,99
1.966,96
2.393,09
1.956,70
1.942,82
1.877,08
1.593,56
1.727,20
2.565,92
3.202,97
1.151,57
999,62
1.443,49
2.081,10
2.166,43
2.002,05
1.398,05
778,04
1.061,72
1.791,71
2.326,23
1.415,03
1.967,46
1.494,16
817,62
1.793,70
1.832,01
2.098,32
842,67
1.652,48
2.722,45
1.652,15
1.944,56
1.099,40
1.132,65
2.249,14
1.467,12
1.209,68
2.091,25
1.538,34
1.618,40
1.810,55
1.098,63
2.428,79
1.671,05
1.546,75
1.372,94
2.797,18
1.825,83
2.225,79
1.565,78
1.554,80
1.928,56
1.681,24
2.342,90
674,06
1.719,57
2.363,02
2.389,28
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
23
Para inferir en base a esta muestra el monto total de las ventas (Total poblacional)
hay que calcular la media y la desviacin estndar de la muestra, que dan por
resultado: y = 1.776,90; s = 505,35
En base a esta informacin, el intervalo del 95% de confianza para el monto
promedio de estas 32.500 facturas resulta ser:
1.776,90 1,96
505,35
100
100
Mientras que para el total poblacional, el intervalo del 95% de confianza es:
32500 x 1.776,90 32500 x1, 96
505,35
100
100
Esto significa que con 95% de confianza, se puede afirmar que las ventas totales
estn dentro del intervalo [54.535.126,75; 60.963.373,25], de manera que si
estado financiero reporta un monto comprendido dentro del intervalo, el auditor
considerar aceptable esta cifra, caso contrario har una investigacin ms
exhaustiva.
3.214.123,25 representa el error absoluto en la estimacin, mientras que
(3.214.123,25/ 57.749.250,00) 100% = 5,57% el error relativo
Ejemplo: De un lote de 10.000 pilas, se tom una muestra de 25, y se observ su
duracin en horas, encontrndose los siguientes resultados:
Duracin
Frecuencia
(horas)
10-40
2
40-70
4
70-100
8
100-130
5
130-160
6
Obtngase un intervalo del 95% de confianza, para la duracin media de las pilas
del lote.
Solucin: En primer lugar, es necesario calcular la media y la desviacin estndar
de la muestra.
Estas resultan ser: y = 95,80 s= 37,63
Se tiene n = 25, y Z0.025 = 1,96 para 95% de confianza
Reemplazando, se obtiene que el intervalo del 95 % de confianza para es:
37,63
25
1
95,80 1,96
= 95,80 14,73 = 81,07; 110,53
10000
25
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
24
100%
Fijar el error mximo que estamos dispuestos a tolerar, no basta para poder calcular
el tamao de la muestra, porque siendo sta aleatoria, siempre tendremos un cierto
riesgo de que este formada por elementos extremos, que nos lleven a una falsa
inferencia; es por ello, que el otro trmino que hace falta fijar, para poder definir el
tamao de la muestra, es el riesgo del muestreo, que se define como la
probabilidad de tomar una muestra que nos haga cometer un error de estimacin
mayor que el mximo tolerado; es decir:
Es tambin evidente, que cuanto menor sea el riesgo que estemos dispuestos a
correr, mayor ser el tamao de muestra necesario, y que en el caso =0, se
necesitar un censo, es decir: n = N.
Usualmente el riesgo se fija en 1%, 5% o 10%.
Una vez definido el error mximo tolerado, y el riesgo del muestreo, el tamao de
la muestra puede ser calculado mediante la aplicacin de la siguiente frmula:
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
25
2
N z/2
2
n= 2 2
z/2 + (N 1) 2
En donde:
N = Tamao de la poblacin.
2= Varianza Poblacional.
= Mximo error absoluto tolerado.
= Riesgo del muestreo
z/2 = Abscisa que en la normal estndar deja a la derecha un rea "/2".
Con relacin a la frmula anterior, es importante hacer las siguientes
observaciones:
a) Una de las creencias ms arraigadas, es la de pensar que para un nivel de riesgo
y de error fijos, el tamao de muestra es siempre un porcentaje fijo de la poblacin.
La frmula anterior, nos muestra que esta creencia es falsa, puesto que si
graficamos la forma como varia el tamao de muestra al variar el tamao de la
poblacin, manteniendo fijos el error tolerado, y el riesgo, encontramos una curva
como la siguiente:
z2/2 2
2
2
z/2 2
2
lo que nos indica que en una poblacin infinita, no necesitamos una muestra infinita.
Es aqu donde radica la gran importancia del muestreo, puesto que cuanto mayor
es la poblacin, ms econmico es el muestreo en comparacin con el censo;
mientras que en poblaciones pequeas, es posible que la muestra represente una
proporcin muy apreciable de ella.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
26
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
27
= 172,54
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
28
320
173
173
=
Ejemplo N2: En un almacn en donde existen 5000 objetos diferentes, se quiere
estimar el valor total de ellas, con un error no mayor del 5%, y un nivel de riesgo
del 10%.
Una muestra piloto de 20 piezas seleccionadas al azar arroj los siguientes valores,
segn la opinin de un perito auditor:
134
276
784
756
503
1076
432
178
675
987
654
860
906
398
187
1655
543
765
534
610
a) Calcule el tamao de la muestra que es necesario tomar.
b) Si la muestra calculada anteriormente da una media de Bs. 685, con una
desviacin tpica de Bs. 346. Cree Ud. que la muestra tomada fue suficiente?
c) Encuentre un intervalo del 90% de confianza para el valor total de las piezas
almacenadas.
Solucin: a) En primer lugar, es necesario estimar , y para ello tenemos dos
opciones, a partir de la desviacin estndar de la muestra, o a partir de la cuarta
parte del rango.
Si lo hacemos a partir de la desviacin estndar de la muestra: = s= 359,81
Si lo hacemos a partir de la cuarta parte del rango: =
1655134
4
= 380,25
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
29
Cuanto mayor sea , mayor ser el tamao de muestra requerido, por lo tanto si
se quiere un clculo de n que evite futuras iteraciones, se deber tomar la
estimacin mayor, en este caso =380,25
Hay que calcular tambin la media de la muestra piloto = = 645,65
Adems N = 5000 = 5% de 645,55 =32,28, z/2= 1,645 para 90 % de confianza
Ntese que a pesar de que se desea estimar un total poblacional, se procede de la
misma manera como si se tratara de una media poblacional. Esto es debido a que
estimar un total poblacional con un error relativo del 5% es equivalente a estimar la
media poblacional con ese mismo error relativo
346
350
350
n = Tamao de la muestra.
t = Total de elementos que en la muestra, poseen una cierta caracterstica.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
30
= = Fraccin de muestreo
N
i N
x
i 1
muestra.
Con este simple argumento, resulta fcil caer en cuenta, que en el muestreo por
atributos, desempea el papel de , mientras que p el de
Los parmetros a estimar por muestreo, suelen ser "" y/o , siendo sus
correspondientes intervalos de confianza:
Intervalo del (1-) de confianza para ": z/2
p(1p)
n1
1 f
p(1p)
n1
1 f
(0,08) (0,92)
149
150
(0,08) (0,92)
149
150
1 7000 =
301,70
Es decir, que con 95% de confianza, se puede afirmar que el nmero
defectuosos en el lote est entre 278 y 882
580
de
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
31
Es importante aclarar, que en este tipo de estimacin jams se trabaja con errores
relativos; siempre que se d un error, este debe interpretarse como absoluto.
As por ejemplo, cuando decimos que se quiere estimar el porcentaje de votos que
va a obtener un candidato en unas elecciones, con un error del 1%; este 1% debe
interpretarse como la diferencia absoluta, entre la estimacin hecha, y el verdadero
porcentaje de votos a favor del candidato.
Una vez definido el error mximo tolerado y el riesgo, el tamao de la muestra
puede ser calculado mediante la aplicacin de la siguiente frmula:
2
/2
(1 )
=
2
( 1) 2 + /2
(1 )
Para poblaciones infinitas, el tamao de muestra requerido resulta ser:
2
2
/2
(1 )
/2
(1 )
= lim
=
2
2
( 1) +
2
/2 (1 )
Nuevamente aqu, se presenta la misma situacin descrita antes, ya que como el
valor de "", es desconocido, el mismo debe ser estimado a travs de una muestra
piloto, lo que conduce a un proceso iterativo, que consiste en ir completando la
muestra, hasta que al recalcular el valor de "n", se obtenga un valor igual o menor
al ya tomado.
Es importante aclarar sin embargo, que en caso de la estimacin de proporciones
y porcentajes, existe un artificio para obviar la muestra piloto, ya que
matemticamente, puede demostrarse que para un tamao de poblacin dado "N",
el valor mximo del tamao de muestra corresponde al caso =0,50, lo que da por
tamao mximo:
2
/2
=
2
4 ( 1) 2 + /2
de forma, que si el investigador, sospecha que el valor de "" est cercano al 50%,
puede tomar de una vez el mximo tamao de muestra, sin necesidad de tomar
muestra piloto.
En caso de que el investigador sospeche que el valor de "" est muy alejado del
50%, se justifica tomar las muestras piloto y el proceso iterativo, ya que tomar de
entrada la muestra mxima, puede resultar antieconmico, debido a que
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
32
2
/2
4 2
, y
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
33
= (49999)(0,02)2
= 536 piezas
+(1,96)2 (0,06)(0,94)
= (49999)(0,02)2
+(1,96)2 (0,125)(0,875)
10
= 0,125, y sustituyendo:
80
= 1029 piezas
2
/2
2
4 (1)2 +/2
50000 (1,96)2
= 2291 piezas
4 (49999)(0,02)2 +(1,96)2
(0,07) (0,93)
10291
1029
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
34
insuficiente, cuestin esta que no puede ocurrir si de una vez se toma la muestra
mxima.
III.3 Muestreo aleatorio simple para razones:
En algunos estudios, la poblacin est formada por un conjunto de pares
{(1 , 1 ) (2 , 2 ) ( , )}, y el parmetro poblacional que se desea estima es:
R=
= =
r z/2
1f
x n
2
n
2 n 2
n
1 yi 2r 1 xi yi +r 1 xi
n1
Muestreo Aleatorio
Angel Francisco Arvelo
7
2
4
2
5
3
6
4
4
2
5
3
Pag.
92
88
79
83
62
63
62
60
75
90
75
69
28.2
24.2
30.0
24.2
44.4
13.4
19.8
29.4
27.1
22.2
37.7
22.6
Totales:
3
4
7
3
3
6
2
2
6
4
2
123
77
69
65
77
69
95
77
69
69
67
63
2394
35
39.8
16.8
37.8
34.8
28.7
63.0
19.5
21.6
18.2
20.1
20.7
907.2
33 2 33 2 2822433(27,49)2
a) 2 = =1 32
= =1 32
=
= 102,68 = 10,13
32
Intervalo del 95 % de confianza para el ingreso medio poblacional por familia Y:
27, 49 1, 96
10,13
= 27, 49 3, 46
33
123
b)
1 = 33 = 3,73
Intervalo del 95% de confianza para 1 =
1
33
c)
2 =
2394
33
= 72,55
1 1
= 7,38 1.05
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
33
36
1 2
= 0,3789 0,0466
Nios
3
2
1
2
2
3
2
Votantes
0
6
3
3
3
5
4
Votantes a favor
0
4
0
1
1
5
1
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
37
8
7
4
3
0
0
9
4
0
2
2
2
10
5
0
1
4
2
Obtenga intervalos del 95% de confianza para cada uno de los siguientes
parmetros poblacionales:
a) Porcentaje de votos a favor del candidato, calculado sobre la base de la
poblacin votante.
b) Nmero total de habitantes en la zona.
c) Porcentaje de extranjeros en la zona, calculado sobre la base de la poblacin
adulta.
d) Porcentaje de familias nacionales en la zona, asumiendo que las familias
nacionales son aquellas en donde no reside ningn extranjero.
4) En un estudio de mercado, se quiere estimar el nmero total de personas que
trabajan en una determinada zona de la ciudad, y que no poseen vivienda propia;
a fin de decidir acerca de la factibilidad de desarrollar una zona residencial cercana.
El nmero total de trabajadores en la zona se estima en 32.000, y se quiere realizar
la estimacin con un error no mayor de 500 personas, y con 10% de riesgo.
Una muestra piloto de 200 trabajadores arroj que 125 de ellos, no posean vivienda
propia.
a) Qu tamao de muestra debe tomarse, para cumplir los requisitos
establecidos?
b) Si en la muestra calculada anteriormente, se encuentra que el 70% de los
trabajadores no poseen vivienda propia. Construya un intervalo del 90% de
confianza para la demanda que tendra este desarrollo residencial.
Solucin: a) n= 2402 b) 22.400 473
5) En una determinada zona residencial donde existen 2.000 viviendas, se quiere
estimar el total de nios en edad escolar, a fin de establecer la capacidad mnima
que ha de tener la escuela.
Una muestra piloto efectuada entre 10 viviendas, dio los siguientes resultados:
Nios en edad escolar
0 1 2 3
4
Frecuencia
2 4 2 1
1
Si se quiere que la estimacin del total de nios en edad escolar realizada a travs
de un muestreo aleatorio simple, no difiera en ms de 100 del verdadero valor, con
un 95% de probabilidad.
Cuntas viviendas deben encuestarse como mnimo?
Solucin: n= 1106
6) En una fbrica, se quiere estimar el total de piezas que se encuentran en un
almacn. Estas piezas se encuentran dentro de cajas, que contienen un nmero
aleatorio de piezas. En total hay 100 cajas en el almacn.
Se toma una muestra aleatoria de 5 cajas, y se cuenta su contenido, clasificndolas
en piezas buenas y defectuosas. Los resultados fueron:
Caja N
Muestreo Aleatorio
Angel Francisco Arvelo
Total de piezas
Piezas defectuosas
Pag.
15
2
10
3
12
1
20
3
38
18
2
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
39
1 2 =
Figura N 7: Particin del Universo en Estratos
Tericamente, la estratificacin puede ser hecha por cualquier criterio que satisfaga
los criterios antes sealados; pero en la prctica, si se quiere obtener una
estimacin precisa utilizando esta metodologa, es necesario utilizar un criterio que
proporcione estratos que sean muy homogneos, es decir que la varianza dentro
de cada uno de ellos sea muy pequea.
Metodologa de muestreo: El principio bsico que se debe respetar al tomar una
muestra estratificada, es que cada muestra dentro de un mismo estrato debe ser
aleatoria simple, es decir, que dentro de cada estrato, las muestras deben tomarse
aplicando los principios de muestreo aleatorio simple, como si cada estrato fuese
una poblacin en s misma.
Lo anterior significa que todas las muestras posibles dentro de un mismo estrato
deben tener idntica probabilidad de ser seleccionadas, pero esto no implica que
esa probabilidad sea la misma, cuando se le compara con la de otro estrato.
Para tomar la muestra estratificada es necesario entonces contar con una lista
numerada de los elementos de cada estrato, y realizar el sorteo aleatorio o la
generacin de nmeros aleatorios ya descrita anteriormente, para configurar una
muestra en cada estrato, teniendo en cuenta que el tamao de muestra, y la
fraccin de muestreo para cada estrato podr ser diferente.
Al igual que el muestreo aleatorio simple, el estratificado puede ser utilizado en el
caso de variables, o en el caso de atributos.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
40
Ni
Obviamente W 1 + W 2 + ..+ W L = 1
{1 , 2 . , }= Poblacin perteneciente al estrato i
=
= =1 = Total del estrato i
i =
j=N
j=1 i xij
Ni
Ni
Ni
(xij i )2
2i = 1
= Varianza del estrato i
Ni
= =
= =
=1 = =1 =1 = Total Poblacional
= = 1 = 1 = =1 = Media Poblacional
Lo anterior significa que la Media Poblacional es la Media Ponderada entre las
medias de los diferentes estratos segn el peso de cada uno de ellos
ni = Tamao de muestra en el estrato i, i = 1, 2,, L
n = Tamao total de muestra = i=L
i=1 ni
{1 , 2 . , }= Valores que cayeron en la muestra del estrato i
j=n
j=1 i yij
si2 =
ni
=n
j=1 i(yij )2
ni 1
= =
=
=1
= N
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
41
Una vez tomada la muestra dentro de cada estrato, el intervalo de confianza para
cada uno de estos dos parmetros poblacionales resulta ser:
z/2 L1
Para :
Para :
W2i S2i
ni
W2i S2i
N
N z/2 L1
ni
(1
(1
ni
Ni
Ejemplo: Se quiere estimar la nmina de una organizacin que tiene en total 6500
empleados, pero dado que existen diferencias importantes entre sus sueldos,
segn sus responsabilidades, se decide estratificarlos en tres categoras: E1
obreros, E2 empleados administrativos y E3 personal profesional, donde caen 1000,
5000 y 500 personas respectivamente.
Se tom una muestra de 50 obreros, 100 empleados administrativos y 20
profesionales, encontrndose una media mensual de $1200, $ 1800 y $ 4000, con
desviaciones tpicas de $180, $350 y $ 250 respectivamente.
En base a esta informacin, obtenga un intervalo del 95% de confianza para la
nmina mensual.
1000
5000
500
Solucin: Los pesos de cada estrato son: W 1 =6500 , W 2 =6500 , W 3 =6500
=
1000
6500
(1200) +
5000
6500
(1800) +
500
6500
(4000) =1876,92
( )
6500(1876,92)(6500)(1,96) 65
(180)2
50
(1
50
1000
)+
50 2
) (350)2
65
100
(1
100
5000
)+
5 2
) (250)2
65
20
(1
20
500
= 12.200.000,00 347.191,75
Criterios de estratificacin y coeficiente de variacin: No siempre el muestreo
estratificado proporciona resultados ms precisos que el aleatorio simple; depende
de la manera como se realice la estratificacin.
En efecto, si se analiza el error estndar en la estimacin de con muestreo
estratificado, encontramos que este es L1
muestreo aleatorio simple es
s
n
W2i S2i
ni
(1
1 f
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
42
Este coeficiente tiene la ventaja de ser una cifra adimensional, libre de unidades,
que compara de manera porcentual, la magnitud de la desviacin estndar de un
estrato con su correspondiente media.
En trminos generales, podra decirse que un estrato con un coeficiente de
variacin de hasta 10% o 15%, podra considerarse bastante homogneo, y hasta
de 30% con una variabilidad aceptable.
Por supuesto, que nuevamente se presenta el ya conocido inconveniente de que ni
i , ni i son conocidos, pues al hacer la estratificacin se ignoran los parmetros
con que resultaran los diferentes estratos.
En este sentido, las muestras piloto representan una ayuda importante, pues ellas
nos pueden advertir acerca de la bondad del criterio de estratificacin utilizado.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
43
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
44
ni
n
Ni
N
= Wi ni = Wi n
n=
2
L1 Wi 2i
Nz/2
2
L1 Wi 2i + N 2
z/2
0 - 1000
1
1000-2000
1
2000-3000
2
3000-4000
1
0 - 500
4
500-1000
6
1000-1500
7
1500-2000
3
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
45
y 975,00
y 2100,00
Industrias: 1
Residencias 2
s2 499,34
s1 1140,18
Al analizar el resultado de la muestra piloto, se encuentra que el coeficiente de
variacin para cada estrato es relativamente alto 54,29% para las industrias, y
51,21% para las residencias, lo que sugiere una reformulacin de los estratos, y a
preguntarnos si es posible subdividirlos, y considerar si es posible por ejemplo
distinguir varios tipos de industrias, y varios tipos de residencias, como por ejemplo,
quintas y apartamentos.
Suponiendo que decide seguir adelante con estos dos estratos, para calcular el
tamao de muestra se necesita ahora fijar el error absoluto tolerado, para lo que se
debe hacer una estimacin preliminar de , a partir de la muestra piloto:
200
10000
= 10200 (2100) + 10200 (975) = 997,06 = 5% de 997,06 = 49,85
200
y por consiguiente: n =
10000
(1,96)2 (
10000
+ 10200499,342 )+10200(49,85)2
= 401
200 2
) (1400)2
10200
(1
8
200
)+
10000 2
) (200)2
10200
393
(1
393
10000
)=
27,15
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
46
Ya hemos visto que en este caso, la poblacin solo contiene unos y ceros, segn
el elemento posea o no posea el atributo respectivamente.
La nomenclatura a seguir es la siguiente:
L = Nmero de estratos
Ni = Tamao del estrato i, i = 1, 2,, L
N = Tamao de poblacin = i=L
i=1 Ni
Wi =
Ni
Obviamente W 1 + W 2 + ..+ W L = 1
{1 , 2 . , }= Poblacin perteneciente al estrato i = 0 o 1
=
= =1 = Total de elementos con el atributo en el estrato i
i =
j=N
j=1 i xij
Ni
Ni
=
=1 =
=
=
=1 =1 = Total Poblacional
= = 1 = 1 = =1 = Proporcin Poblacional
Lo anterior significa que la Proporcin Poblacional es la Media Ponderada entre las
proporciones de los diferentes estratos segn el peso de cada uno de ellos
ni = Tamao de muestra en el estrato i, i = 1, 2,, L
n = Tamao total de muestra = i=L
i=1 ni
{1 , 2 . , }= Valores que cayeron en la muestra del estrato i; = 0 o 1
j=n
pi=
fi =
j=1 i yij
ni
ni
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
47
2 (1 )
Para : N pst /2
(1 )
2 (1 )
1
(1 )
( )
0,44 (1,96) 2
(0,16)(10,16)
5001
1 2
2
( ) (072)(10,72)
5001
2 (1 )
1
producto pi (1-pi) para cada estrato, y resulta ser que este producto alcanza su valor
mximo cuando pi =
De lo anterior se deduce que si la estratificacin es tal que el atributo en cuestin
divide a cada estrato en dos mitades iguales, mitad que lo tiene y mitad que no lo
tiene, entonces se habr hecho una psima estratificacin, pues el error estndar
alcanzar su valor mximo, y el intervalo de confianza resultar muy amplio.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
48
- | , y el riesgo = Probabilidad (|
- | > ) , el tamao de muestra de la
muestra definitiva, suponiendo asignacin proporcional puede ser calculado
mediante la expresin siguiente
En poblaciones finitas:
n=
2
L1 Wi (1 )
Nz/2
2
L1 Wi (1 ) + N 2
z/2
En poblaciones infinitas:
z2/2 L1 Wi (1 )
=
2
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
49
Nz2/2
z2/2 +4 N 2
para poblaciones
z2/2 L1 Wi (1 )
2
= 4922
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
50
Al repartir proporcionalmente este tamao total de muestra, entre los dos estratos,
n 0,75(4922) 3692
se obtiene: 1
n2 0,25(4922) 1231
La estimacin puntual de es:
= pst = 0,75(0,25) + 0,25(0,38) = 0,2825
y el intervalo del 90% de confianza para :
0,2825 1,645
(0,75) 2 (0,25)(10,25)
36921
(0,25) 2 (038)(10,38)
12311
= 0,2825 0,0105 =
28,25 % 1.05 %
EJERCICIOS POPUESTOS
1) Una industria tiene dos mquinas, que trabajan en paralelo para producir un
mismo artculo.
Las caractersticas de estas mquinas son:
Mquina 1: Es una mquina moderna, cuya velocidad de produccin es el triple de
la otra, y que segn una muestra piloto, produce apenas un 1% de defectuosas.
Mquina 2: Es una mquina antigua, cuya velocidad de produccin es la tercera
parte de la otra, y que segn una muestra piloto, produce un 8% de defectuosas.
Se quiere estimar el porcentaje de piezas defectuosas dentro de la produccin total,
con un error no mayor al 0.5%, y un 5% de riesgo.
Calcule con ese tamao de muestra, se obtiene un 0.8% de defectuosas en la
mquina 1, y un 8.6 % de defectuosas en la mquina 2, establezca un intervalo del
95 % de confianza, para el porcentaje de defectuosos producidos por la industria.
2) Se tiene un lote de 60.000 bombillos, de los cuales 40.000 son de una marca
A y 20.000 de otra marca B.
Se quiere estimar la duracin media de los bombillos del lote, con un error no
mayor al 2,5% y 5% de riesgo.
Una muestra piloto de ambas marcas, arroj los siguientes resultados:
Duracin (hrs)
0 a 100
100 a 200
200 a 300
300 a 400
400 a 500
Marca A
2
8
25
31
14
Marca B
6
24
10
5
0
a) Con asignacin proporcional, calcule el tamao de muestra necesario para
cada marca
b) Suponga que con el tamao de muestra calculado en a.3, se obtienen los
siguientes resultados:
Media Muestral (hrs)
Desviacin estndar (hrs)
Marca A
320
90
Marca B
170
50
Obtenga un intervalo del 95% de confianza para la duracin media de los
bombillos del lote.
Muestreo Aleatorio
Angel Francisco Arvelo
Pag.
51