You are on page 1of 26

MUESTREO

2018.
Poblaciones y muestras

 Una población consta de la totalidad de las observaciones en las


que estamos interesados.
 La muestra es un subconjunto de unidades de interés que han sido
seleccionados de la población, es decir es un subconjunto de una
población.
 Una muestra aleatoria es aquella donde las observaciones se
realizaron de forma independiente y al azar, lo cual elimina
cualquier posibilidad de sesgo en el procedimiento.
Razones para muestrear

• Imposibilidad física de revisar todos los integrantes de la población.


Ej.: poblaciones grandes que están en movimiento constante.
• Costo de estudiar a todos los integrantes de una población a
menudo es prohibitivo.
Las empresas de opinión pública comúnmente entrevistan a 2.000
familias para sacar conclusiones sobre todo el país.
• Precisión-uniformidad.
Menor número de encuestadores, más entrenados, más
coordinados.
• Es útil para determinar si las diferencias observadas entre dos
muestras son significativas o no.
• Estima parámetros de una población (𝜇, 𝜎 2 , 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛)
Inferencia

Proceso que permite estudiar características de la población a partir


de una muestra.

 Permite inferir sin necesidad de examinar a toda la población.


 Puede llevar a conclusiones erróneas si no es bien diseñado.
 Siempre tiene asociado un margen de error.
Teoría del muestreo

 Estudia la relación entre la población y las muestras extraídas de la


misma.
Población
Muestra

INFERENCIA
Parámetros y Estadísticos
 PARAMETRO
-Medida numérica descriptiva de la población
calculada con todos los elementos de la misma
-Constantes
-Ej: µ; 𝜎 2 ; 𝜎.

 ESTADÍSTICO
-Medida numérica descriptiva de una muestra
calculada a través de las unidades observadas en
la misma.
-Varían de muestra en muestra
-Ej: X ; 𝑠 2 ; 𝑠.
Medidas de localización de una muestra: la
media, la mediana y la moda muestrales

a) Si x1,x2,...,xn representan una muestra aleatoria de tamaño n,


entonces la media muestral se define mediante:
1
𝑋ത = σ𝑛𝑖=1 Xi
𝑛

b) La mediana muestral también es una medida de localización que


indica el valor central de la muestra.

c) La moda muestral es el valor que ocurre con mayor frecuencia en


la muestra.
Las medidas de variabilidad de una muestra: la
varianza, la desviación estándar y el rango de
la muestra
a) Si x1,x2,...,xn representan una muestra aleatoria de tamaño n,
entonces la varianza de la muestra se define:
1
S2 = 𝑛
σ𝑖=1 ത 2
(Xi − 𝑋)
𝑛−1

b) La desviación estándar de la muestra, denotada S, es la raíz


cuadrada de la varianza de la muestra.

c) Rango muestral:
R = Xmax - Xmin.
Distribuciones muestrales
• La distribución de probabilidad de un estadístico se denomina
distribución muestral.

• La distribución muestral de un estadístico depende de la distribución de


la población, del tamaño de las muestras y del método de selección de
las muestras.

•Nos permite conocer como un estadístico tiende a variar a causa del


muestreo aleatorio.
Distribución muestral de medias

 La primera distribución muestral importante a considerar es la de la


media 𝑋.
ത Suponga que de una población normal con media μ y
varianza 𝜎 2 se toma una muestra aleatoria de n observaciones.
Cada observacion Xi, i = 1, 2,..., n, de la muestra aleatoria tendrá
entonces la misma distribución normal que la población de donde
se tomo.
 Entonces:
El teorema del límite
central
𝑋−𝝁
Z= 𝝈
𝒏
Teorema:
 Si 𝑋 es la media de una muestra aleatoria de tamaño n, tomada
de una población con media μ y varianza finita 𝜎 2 , entonces la
forma limite de la distribución de


𝑋−𝜇
Z= 𝜎
𝑛

 a medida que n → ∞, es la distribución normal estándar.


𝜎 2 𝜎2 𝜎
 𝑋ത ≅ 𝑁 𝜇, de donde =
𝑛 𝑛 𝑛
Observaciones

 La aproximación normal para 𝑋 ത por lo general será buena si n ≥ 30,


siempre y cuando la distribución de la población no sea muy
asimétrica. Si n < 30, la aproximación será buena solo si la población no
es muy diferente de una distribución normal.

 El tamaño de la muestra n = 30 es un lineamiento para el teorema del


limite central. Sin embargo, como indica el planteamiento del teorema, la
suposición de normalidad en la distribución de 𝑋ത se vuelve mas precisa a
medida que n se hace mas grande.
Observaciones

 El grafico ilustra como funciona el


teorema. Queda claro como la
distribución de 𝑋ത se acerca mas a la
normalidad a medida que aumenta n,
empezando con la distribución
claramente asimétrica de una
observación individual (n = 1). También
ilustra que la media de 𝑋ത sigue siendo μ
para cualquier tamaño de la muestra y
que la varianza de 𝑋ത se vuelve mas
pequeña a medida que aumenta n.
Aplicaciones: Inferencias sobre la
media de la población

 Una aplicación muy importante del teorema del limite central


consiste en determinar valores razonables de la media de la
población μ. Es decir que nos permite averiguar la probabilidad de
que la media de una muestra concreta esté en un cierto intervalo.

 Temas como prueba de hipótesis, estimación, control de calidad y


muchos otros utilizan el teorema del limite central
Ejemplo

Las bolsas de sal envasadas por una máquina tienen una media de
500g y su desviación es de 35g. Las bolsas se empaquetan en cajas de
100 unidades.
¿Cuál es la probabilidad de que la media de los pesos de las bolsas de
un paquete sea menor a 495g?
Solución
Datos:
• 𝜇 = 500
• 𝜎 = 35
• n = 100
Resolución:
35
N(500, ) N(500, 3,5)
100


𝑋−500 495−500
P(𝑋ത < 495) = P( < ) = P(z < -1,43) = 0,0764 (resultado obtenido por tabla)
3,5 3,5
 Visto en forma de grafico:

El sombreado gris representa el área de la curva buscada.


Aplicaciones: Distribución muestral
de la diferencia entre dos medias

 Otra aplicación de suma importancia es cuando se tienen 2


muestras independientes de tamaño 𝑛1 𝑦 𝑛2 de dos poblaciones,
con medias 𝜇1 𝑦 𝜇2 y varianzas 𝜎1 2 𝑦 𝜎2 2 respectivamente, entonces
la distribución muestral para la diferencia de medias 𝑥1 𝑦 𝑥2 está
dada por:
2 𝜎2 1 𝜎2 2
𝜇𝑥1−𝑥2 = 𝜇1 − 𝜇2 𝜎 𝑥ҧ 1 −𝑥ҧ 2 = +
𝑛1 𝑛2

𝑥1 − 𝑥2 − (𝜇1 − 𝜇2 )
𝑧=
𝜎 21 𝜎 22
+( )
𝑛1 𝑛2
Ejemplo

Una empresa analiza la motivación laboral de sus trabajadores en dos


provincias. El jefe de recursos humanos señala que en la provincia A la media
aritmética en una prueba de motivación es de 45 con una varianza de 70, y en
la provincia B la media es de 48 con una varianza de 75. Si seleccionamos una
muestra aleatoria de 40 trabajadores de la provincia A y otra de 50 personas
de la provincia B, obtener:

La probabilidad de que la muestra de la provincia A tenga una media de


motivación laboral que se al menos 2 puntos superior a la media de la
provincia B.
Solución
Datos:
Provincia A Provincia B

𝜇 45 48

𝜎2 70 75

n 40 50

Resolución:
𝑃 𝑥𝐴ҧ − 𝑥ҧ𝐵 ≥ 2 =
𝜇= 𝜇1 − 𝜇2 = -3
𝜎2 1 𝜎2 2
𝜎= +( )= 1.80
𝑛1 𝑛2
2+3
𝑧 = 1.80 = 2.78
y de aqui:
P (𝑥𝐴ҧ − 𝑥ҧ𝐵 ≥ 2) = P (z > 2.78) = 1 −P (z < 2.78)
=1 − 0.9973 = 0.0027
Distribución muestral de S2

Si S2 es la varianza de una muestra aleatoria de tamaño n que se


toma de una población que tiene la varianza σ2, entonces el
estadísco:
(𝒏−𝟏) 𝑺𝟐 ഥ)
(𝑿𝒊 − 𝑿
X=
2 = 𝒏
σ𝒊=𝟏
𝝈𝟐 𝝈𝟐

tiene una distribución chi cuadrada con v = n – 1 grados de libertad.


Distribución t

 Sus aplicaciones giran en torno a las inferencias sobre una media


de la población o a la diferencia entre dos medias de población.

En muchos escenarios experimentales el conocimiento de σ no es


ciertamente mas razonable que el conocimiento de la media de la
población μ. A menudo, de hecho, una estimación de σ debe ser
proporcionada por la misma información muestral que produce el
promedio muestral 𝑋.ത Como resultado, un estadístico natural a
considerar para tratar con las inferencias sobre μ es:

ഥ− µ
𝑿
T= 𝑺
𝒏
Ejemplo

 Una empresa que fabrica juguetes electronicos afirma que las


baterías que utiliza en sus productos duran un promedio de 30
horas. Para mantener este promedio se prueban 16 baterías cada
mes. Si el valor t calculado cae entre −𝑡0,025 y 𝑡0,025 , la empresa
queda satisfecha con su afirmación.
Que conclusiones debería sacar la empresa a partir de una
muestra que tiene una media de 𝑋= ത 27.5 horas y una desviación
estándar de s = 5 horas?
Suponga que la distribución de las duraciones de las baterías es
aproximadamente normal.
Solución

 Por tabla sabemos que 𝑡0,025 = 2.131 para 15 grados de libertad.


Por lo tanto, la empresa quedara satisfecha con su afirmación si
una muestra de 16 baterias rinde un valor t entre –2.131 y 2.131.

27.5−30
 Ya que, t = = −2.00
5Τ4
está ubicada entre los valores citados anteriormente podemos
darle la seguridad a la empresa de que su afirmación es correcta
Distribución F

 Esta distribución se utiliza en situaciones de dos muestras para


realizar inferencias acerca de las varianzas de la población, por
esto, la distribución F también se conoce como distribución de
razón de varianzas.

 Si S21 S22 son las varianzas de las muestras independientes, de


tamaño n1 y n2 tomadas de poblaciones normales con varianzas
σ21 y σ22 , respectivamente , entonces:

S21/σ21 σ22S21
F= 2 2 = 2 2
S 2/σ 2 σ 1S 2

You might also like