Professional Documents
Culture Documents
4-1) Calcular el tamaño de la muestra de una población de 500 elementos con un nivel de confianza
del 95% y del 99%
4-2) Use La Calculadora Para Determinar Tamaño De Muestra de la pagina
http://www.med.unne.edu.ar/biblioteca/calculos/calculadora.htm
Margen de error, nivel de confianza y tamaño de la muestra siempre van de la mano. Si quiero obtener
un margen de error y un nivel de confianza determinado (por ejemplo, error del 5% con confianza
95%) necesitaré un tamaño de muestra mínimo correspondiente. Modificar cualquiera de los 3
parámetros, altera los restantes:
Pero, ¿qué fórmulas gobiernan la relación entre los parámetros anteriores? El conjunto de teoremas
que se conocen como LEY DE LOS GRANDES NÚMEROS viene a nuestro rescate. Estos teoremas
son los que dan soporte matemático a la idea de que el promedio de una muestra al azar de una
población de gran tamaño tenderá a estar cerca de la media de la población completa. En concreto,
el teorema del límite central demuestra que, en condiciones muy generales, la suma de
muchas variables aleatorias independientes (en el ejemplo, los habitantes de Brasil que tienen piso de
propiedad) «se aproxima bien» a una distribución normal (también llamada campana de Gauss).
Gracias al teorema del límite central, cuando calculamos una media (p.e. hijos por persona) o una
proporción (p.e. % de personas con piso de propiedad) sobre una muestra, podemos saber cuál es la
probabilidad de que el universo tenga ese mismo valor o un valor parecido. El valor que calculemos
en la muestra será el más probable para nuestro universo y a medida que nos alejamos de este valor
(por arriba o por abajo) cada vez serán valores menos probables. En mi ejemplo, si el 45% de mi
muestra de brasileños tiene piso de propiedad, puedo afirmar que 45% es el valor más probable del
universo estudiado. Un porcentaje de 44% será algo menos probable, 43% aún menos, etc… Lo
mismo sucede para valores superiores: 46% es menos probable que 45%.
La forma en que disminuye la probabilidad a medida que me alejo de la media corresponde a una
distribución gaussiana. Podemos fijar un intervalo alrededor del valor más probable, de manera que
englobemos el 95% de la probabilidad (nivel de confianza). La distancia a la que me tengo que alejar
del valor más probable para englobar este 95% determina el margen de error.
Según el gráfico anterior, para una distribución normalizada (media 0, desviación 1) si queremos
englobar los valores que cubren el 95% de los casos, tengo que definir un margen de error entre -1,96
y +1,96 de la media. Si quiero cubrir el 99% de los casos, el margen debe alejarse hasta +-2,58.
Conociendo la propiedad anterior, es muy fácil adaptar las fórmulas de la distribución gaussiana a
cualquier caso (sea cuál sea la media y desviación). Vamos a ver con detalle el caso de la estimación
de una proporción. Para ello usamos la siguiente fórmula:
Dónde:
Z = Es la desviación del valor medio que aceptamos para lograr el nivel de confianza deseado. En
función del nivel de confianza que busquemos, usaremos un valor determinado que viene dado por la
forma que tiene la distribución de Gauss. Los valores más frecuentes son:
La razón de que esta p aparezca en la fórmula es que cuando una población es muy uniforme, la
convergencia a una población normal es más precisa, lo que permite reducir el tamaño de muestra. Si
en mi ejemplo, yo espero que como máximo el % de personas que tengan un piso de propiedad sea
un 5%, podría usar este valor como p y el tamaño de mi muestra se reduciría. Si por el contrario,
desconozco completamente qué puedo esperar, la opción más prudente sería usar el peor caso: la
población se distribuye a partes iguales entre propietarios y no propietarios, por lo que p=50%.
Como regla general, usaremos p=50% si no tengo ninguna información sobre el valor que espero
encontrar. Si tengo alguna información, usaré el valor aproximado que espero (ajustando hacia el 50%
ante la duda).
La fórmula anterior podemos simplificarla cuando trabajamos con universos de tamaño muy grande
(se considera muy grande a partir de 100.000 individuos), resultando lo siguiente:
Ejemplo: Retomamos nuestro caso anterior. Tenemos una población de 136 millones de brasileños
entre 15 y 65 años, queremos saber qué % de ellos vive en un piso de propiedad, con un margen de
error del 5% y un nivel de confianza del 95%. Supondremos que no tenemos ninguna información
previa sobre cuál puede ser el % de propietarios que podemos obtener en la encuesta. En este caso
puedo usar la fórmula simplificada pues 136 millones > 100.000, y usaremos p=50% pues no tengo
información previa sobre el resultado esperado:
R/ Debo encuestar por lo tanto a 384 personas para mantenerme dentro de los niveles de error
definidos.
Las fórmulas anteriores se emplean para determinar el tamaño de muestra que necesito cuando
quiero estimar una proporción, pero existen unas fórmulas equivalentes cuando lo que trato de estimar
es una media (por ejemplo, la edad media de los habitantes de un país). Las fórmulas son idénticas
teniendo en cuenta que p(p-1)en realidad es una medida de la varianza de la población. Si estimo una
media, debo usar una estimación de dicha varianza en la fórmula, en lugar de p(p-1). De esta forma,
el tamaño de la muestra cuando trabajo con universos finitos es
Donde
σ2: Es la varianza que esperamos encontrar en la población (es el cuadrado de la desviación
estándar, σ). Nuevamente, es un dato que debemos obtener de un estudio previo o de una estimación
propia.
Nuevamente, podemos simplificar esta fórmula cuando el tamaño del universo es muy grande.
Ejemplo: Supongamos que queremos estimar cual es el coeficiente intelectual medio de la población
mundial con un margen de error de +-20 y un nivel de confianza del 99% (corresponde a Z=2,575).
Sabemos de un estudio anterior que la desviación estándar de este coeficiente intelectual es 50.
Usando la fórmula para universos grandes (puesto que la población mundial es mayor a 100.000
individuos), tendríamos
TERMINAR EL EJEMPLO POR FAVOR
1) Un experto en tránsito de una región, desea conocer el promedio de velocidad que los
vehículos particulares emplean al cruzar por cierta zona de carretera identificada como
altamente peligrosa. Para esto, toma una pequeña muestra y encuentra que la misma
presenta una desviación estándar de 22 kilómetros/hora. Con el fin de calcular el tamaño de la
muestra necesario, el experto está dispuesto a aceptar un error en la estimación de 8
kilómetros/hora y considera además que dicha estimación debe tener un nivel de confianza
del 99%. ¿Cuál debe ser el tamaño de la muestra empleado?
2) Se quiere estimar la proporción de clientes que entran a un gran centro comercial y que pagan
con tarjeta débito. Con el fin de determinar el tamaño de muestra necesario, se toma una
muestra piloto y se encuentra que la proporción de clientes que pagan en esa forma, es del
35%. Se pide calcular el tamaño de muestra necesario para estimar la proporción, si estamos
dispuestos a aceptar un error del 3% en la estimación y queremos tener un nivel de confianza
en la misma del 95%.
3) Un analista desea conocer el ingreso promedio de los hogares de un barrio que consta de 628
familias. Cual deberá ser el tamaño de muestra necesario para poder estimar un intervalo de
confianza del 95% del promedio del ingreso mensual, si el analista está dispuesto a aceptar
un error máximo en la estimación de $60.000 pesos mensuales y si por otra parte se sabe
que la desviación estándar de los ingresos mediante una muestra piloto está calculada en
$242.000 mensuales.
REPASE AQUÍ
http://www.bioingenieria.edu.ar/academica/catedras/metestad/Intervalos%20de%20confianza-
comic.pdf
1) Supongamos que la estatura de los niños de 2 años está distribuida normal mente con una
media de 90 cm y una desviacón estándar de 36 cm. ¿Cuál sería la distribución muestral de la
media para una muestra de tamaño 9? Recordemos que la media de una distribución
muestral de medias es igual a μ :
2) En un laboratorio se encuentro que la concentración promedio de zinc de una muestra de
36 cereales es de 2.6 gramos por miligramo. Encuentre los intervalos de confianza de 95% y
99% para la concentración media de zinc en el cereal. Suponga que la desviación estándar
de la población es 0.3.
3) Los vuelos de la empresa Avianca tienen una duración bimestral aproximadamente
distribuida de forma normal con una desviación estándar de 40 horas. Si una muestra de 30
vuelos tiene una duración promedio de 780 horas, encuentre los intervalos de confianza
de 96% para la media de la población de todos los vuelos de Avianca.
4) Se quiere obtener un intervalo de confianza para el valor de las ventas medias por hora que
se producen en un kiosco . Para ello realizamos una muestra consistente en elegir al azar las
ventas que se realizaron durante 1000 horas distintas ; muestra cuyos resultados fueron :
ventas medias por hora 4000 pts, y varianza de dicha muestra 4000 pts al cuadrado . Obtener
dicho intervalo con un nivel de confianza del 95. 5%.
5) En la empresa Levapan de 5000 trabajadores desea conocerse si ha variado mucho la
valoración positiva de la gestión de la dirección, que el año pasado se concluyó
feacientemente que era del 80 % de los trabajadores. Para ello se realiza una muestra de
tamaño 200 resultando que la valoración positiva era considerada por el 55% de los
trabajadores encuestados. ¿Podemos afirmar que la valoración ha variado con probabilidad
de equivocarnos del 1%.
USAR
Z
2 2
6) De un total de 2800 estudiantes aspirantes a ingresar a una universidad, se quiere estimar la
proporción de aspirantes que nacieron en la ciudad sede de la universidad, para lo cual se
toma una muestra de 144, de los cuales 108 nacieron en la ciudad sede. Calcule el intervalo
con un nivel de confianza del 95%.
III SECCION
PRUEBAS DE HIPOTESIS
1) LECTURA ABRA LA SIGUENTE PAGINA
http://www.geociencias.unam.mx/~ramon/EstInf/Clase15.pdf Y REVISE LOS
PROBLEMAS QUE SE PRESENTAN EN DICHA PAGINA
2) Se conocen los datos de dos muestras de dos poblaciones, que son los siguientes:
Se pide contrastar estadísticamente si hay diferencia entre las dos poblaciones, a un nivel
de significación del 0.05.(2 COLAS)
3) Según experiencias pasadas, se sabe que en una compañía el retardo promedio por mes
de sus obreros es menor de 64 minutos con una desviación estándar de 8 minutos. El
gerente de la compañía considera que éste promedio ha aumentado sensiblemente en
los últimos meses, por lo cual ordena efectuar la investigación correspondiente. Para tal
fin, se toma una muestra aleatoria de n=64 obreros y se encuentra que la misma
presenta una media de 68 minutos. Se pide comprobar si el gerente tiene o no la razón
con un nivel de significación de 0.05
4) Con relación al ejercicio anterior, asumamos que no se conoce la desviación estándar de
la población, por lo cual hubo que calcularla a través de la muestra de 64 obreros, que
arrojó una S=24. Se pide comprobar si el gerente tiene o no la razón con un nivel de
significación del 5%.
5) con relación al problema 3 asumamos que los retardos se distribuyen normalmente y que
el tamaño de la muestra es 16. Se quiere comprobar si el gerente tiene la razón con un
nivel de significación del 5%.
6) Con respecto al problema 3 sumamos que el gerente considera que el promedio de
retardos es diferente. Se pide comprobar si el gerente tiene o no la razón a un nivel de
significación del 1%.
7) Una compañía de transportes requiere comprar un gran lote de buses para el transporte
urbano con el fin de reemplazar su parque automotor y para tal fin desea comprobar la
afirmación hecha por el proveedor de la marca B, en el sentido de que la marca A es
menos ahorradora de combustible. Para tal fin la empresa toma una muestra aleatoria de
35 vehículos marca A y encuentra que la misma tiene un promedio en el rendimiento de
18 kilómetros/galón con una desviación estándar de 8 kilómetros/galón, mientras que una
muestra de 32 vehículos marca B presenta un promedio de 22 kilómetros/galón con
desviación estándar de 3 kilómetros /galón. ¿Qué decisión debe tomar el gerente de la
compañía con un nivel de significación del 5%?
8) Con relación al problema 7, asumamos que lo que afirma el proveedor de la marca B, es
que el ahorro de combustible entre las dos marcas es diferente. ¿Qué decisión debe
tomar el gerente de la compañía?
9) El jefe de personal de una gran empresa afirma que la diferencia de los promedios de
antigüedad entre los obreras y obreros de la compañía es menor de 3.5 años. El
presidente de la compañía considera que ésta diferencia es superior. Para comprobar
dicha situación, se toma una muestra aleatoria de 40 obreras cuyo promedio de
antigüedad es de 12.4 años con desviación estándar de 1.5 años y de un grupo de 45
obreros cuyo promedio de antigüedad es de 8.3 años con desviación estándar de 1.7
años. Comprobar la hipótesis con un nivel de significación del 5%.
10) El rector de una universidad pública afirma que a lo sumo 15% de los estudiantes de la
universidad que el dirige está en contra de una ley que actualmente se discute en el
congreso y que supuestamente afecta a la comunidad universitaria. El representante de
los estudiantes, considera que dicha proporción es mayor y para comprobarlo toma una
muestra de 100 estudiantes seleccionados aleatoriamente y encuentra que el 23% están
en desacuerdo con dicho proyecto de ley. Se pide comprobar si el rector tiene o no la
razón con un nivel de significación del 5%.
11) De acuerdo con la experiencia, el administrador de un negocio de comidas rápidas de un
gran centro comercial sabe que el promedio de las cuentas de sus clientes es menor de
$12.000. Por no considerarlo conveniente, retira del menú una de las comidas preferidas.
Para probar la incidencia de ésta decisión, toma una muestra aleatoria de 100 clientes y
encuentra que ésta presenta un promedio de $12.500 con desviación estándar de $2.400.
¿Debe considerarse que la decisión tomada tuvo un efecto significativamente positivo en
las cuentas de los usuarios? Nivel de significación 0.05
12) Una muestra aleatoria de 20 bandas para motores de ciertas sierras circulares
presentaron un promedio de duración de 1.08 años con una desviación estándar de 0.5
años. Se sabe por experiencia que dichas bandas han durado en promedio mayor de 1.28
años y que la duración de las bandas se distribuye normalmente. ¿Existe razón para
considerar tal disminución, como una pérdida de calidad en la fabricación? Nivel de
significación 5%.
13) Probar la hipótesis de un posible comprador quien afirma que el peso medio de una fruta
obtenida de un gran cultivo es de 25 onzas, si se sospecha que dicho peso es diferente en
razón a una muestra de 100 unidades de dicha fruta seleccionadas aleatoriamente que
dio un promedio de 27.3 onzas y una desviación estándar de 2.1 onzas. Utilizar un nivel
de significación del 5%.
14) Se extraen aleatoriamente:
15) a) una muestra de tamaño n1 = 5 de una población normalmente distribuida con media µ1 =
50 y desviación estándar σ1= 3, y se registra la media muestral X 1 .
IV SECCION CHICUADRADO
RESPUESTA
5) Variables cualitativas
Ejemplo: ¿están relacionados los hábitos de lectura con el sexo del lector?
H0: Las variables de hábitos de lectura y el sexo del lector son independientes
Escribir 5 variables cualitativas de acuerdo al ejemplo dado
6) Dada la siguiente tabla
Hombres 23 4 10
Mujeres 10 14 35
¿Es razonable concluir que hay una diferencia en la proporción de clientes que gustan
cada sabor? Use el 0.05 nivel de significación.
RESPUESTA
8) La siguiente tabla muestra las frecuencias observadas al lanzar un dado 100 veces.
Contrastar la hipótesis de que el dado es bueno empleando la Bondad de Ajuste de la
Prueba Ji Cuadrado, con un nivel de significación de 0,01.
RESPUESTA
A) Calcule las frecuencias esperadas de cada sabor del helado en cada región
C) RESPUESTA
Nro de 0 1 2 3 4
lugares
Nro de 130 240 170 52 8
turistas
Sea la hipótesis nula que afirma que la distribución es binomial con p=0,30 .Compruebe la
hipótesis a un nivel de significación de 0,10
13) La varianza muestral de la rotura de 30 cables probados fue de 32000 lbs 2 .Encuentre la
varianza maxina y minima
FUENTES
webgrafia
http://www.med.unne.edu.ar/biblioteca/calculos/calculadora.htm
http://www.bioingenieria.edu.ar/academica/catedras/metestad/Intervalos%20de%20confianza-
comic.pdf
http://www.docentesinnovadores.net/Archivos/5942/PRUEBA%20DE%20HIP%C3%93TESIS%20CON
%20CHI%20CUADRADO%20EMPLEANDO%20EXCEL%20Y%20WINSTATS.pdf
http://www.bdigital.unal.edu.co/2010/1/hugogomezgiraldo.2009.pdf
http://www.ing.unlp.edu.ar/fismat/estadistica/estadistica/archivos/capitulo3_distribucionesmuestrales_l
edesma2009.pdf
Baró, J. y Alemany, R. (2000): “Estadística II”. Ed. Fundació per a la Universitat Oberta de
Catalunya. Barcelona.
[2] Peña Sánchez de Rivera, D. (1987): “Estadística. Modelos y Métodos. Volumen 2”. Alianza