Professional Documents
Culture Documents
poblacin finita de tamao N, presentaremos la siguiente definicin de una muestra aleatoria (en ocasiones conocida tambin como muestra aleatoria simple) de una poblacin finita: Una muestra de tamao n de una poblacin finita de tamao N es una variable aleatoria si se selecciona de manera tal que cada una de las probabilidad, Ejercicio. Tome una muestra aleatoria de tamao de la poblacin consistente en las cantidades de impuestos sobre las ventas cobradas por 247 farmacias de una ciudad en diciembre de 1990 numerando las farmacias como 001,002,003 y 247 (digamos, en el orden en que aparecen en el directorio telefnico) leyendo nmeros aleatorios de tres dgitos de la segunda pgina de la tabla XI, usando la vigesimasexta, la vigesimaseptima 1
ESQUIVEL REYES GEOVANNI ALEXIS
de ser seleccionada.
ESTADSTICA
y la vigesimaoctava columnas empezando en el sexto rengln y continuando pagina abajo. Siguiendo estas instrucciones, obtenemos
Donde ignoramos los nmeros mayores que 247; si cualquier nmero se hubiera repetido, tambin lo habramos ignorado. Los doce nmeros que tenemos aqu son los nmeros asignados a las farmacias; las cifras de impuestos sobre las ventas correspondientes constituyen la muestra aleatoria deseada.
3.1.2 SISTEMTICO.
En algunos casos, la manera ms prctica de efectuar un muestreo consiste en seleccionar, digamos, cada vigsimo nombre de una lista, cada decimasegunda casa de un lado de una calle, cada quincuagsima pieza de una lnea de ensamble y as sucesivamente. Esto se conoce como muestreo sistemtico y se puede integrar un elemento de azar en esta clase de muestreo usando nmeros aleatorios para seleccionar la unidad en la que se debe comenzar. Aunque una muestra sistemtica puede no ser una muestra aleatoria de acuerdo con la definicin, a menudo es razonable tratar las muestras sistemticas como si fueran muestras aleatorias; de hecho, en algunos casos las muestras sistemticas en realidad pueden ser mejores que las muestras aleatorias simples por que las primeras se extienden en forma ms regular sobre las poblaciones enteras. Ejercicio. Si tenemos una poblacin formada por 100 elementos y queremos extraer una muestra de 25 elementos, en primer lugar debemos establecer el intervalo de seleccin que ser igual a . A continuacin elegimos el elemento de arranque, tomando aleatoriamente un nmero entre el 1 y el 4, y a partir de l obtenemos los restantes elementos de la muestra. 2, 6, 10, 14,..., 98
3.1.3 ESTRATIFICADO.
Si tenemos informacin acerca de la constitucin de una poblacin (es decir, su composicin) y esta es importante para nuestra investigacin, podemos mejorar el muestreo aleatorio por medio de la estratificacin. Este es un procedimiento que consiste en estratificar (o dividir) en un numero de subpoblaciones o estratos que no se traslapen y luego tomar una muestra de cada estrato. Si los artculos seleccionados de cada estrato constituyen muestras aleatorias simples, el procedimiento completo (primero la estratificacin y luego el muestreo aleatorio) se conoce como muestreo aleatorio (simple) estratificado.
2
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Esencialmente el objetivo de la estratificacin es formar estratos de tal forma que haya alguna relacin entre estar en un estrato particular y la respuesta que se busca en el estudio estadstico y que en los estratos separados haya tanta homogeneidad como sea posible. Ejercicio. Se debe tomar una muestra estratificada de tamao de una muestra de tamao que consta de tres estratos de tamao Si la distribucin debe ser proporcional, cun grande debe ser la muestra tomada de cada estrato? Sustituyendo en la frmula, obtenemos:
ESTADSTICA
ms elementales del conjunto poblacional, sin necesidad de tener que seleccionar ningn otro tipo de unidad intermedia. Ejercicio. Si estadistas del gobierno quieren estudiar la opinin de los profesores de las escuelas primarias estadounidenses hacia ciertos programas federales, podran estratificar primero el pas por estados o algunas otras subdivisiones geogrficas. Para tomar medida de cada estrato, podran usar el muestreo de conglomerados subdividiendo cada estrato en un nmero determinado de subdivisiones geogrficas ms pequeas y finalmente podran usar un muestreo aleatorio simple o un muestreo sistemtico para seleccionar una muestra de profesores de educacin primaria de cada conglomerado. 3.2 ESTIMACIN PUNTUAL. Un estimador de un parmetro poblacional dado por un numero sencillo se llama estimador puntual del parmetro. Un estimador de un parmetro poblacional dado por dos nmeros entre los cuales se puede considerar que esta el parmetro, se llama estimacin por intervalo del parmetro.
3.2.1 PROPIEDADES.
Existe una propiedad que comprende conjuntamente las propiedades de insesgamiento y eficiencia. Se trata del error cuadrtico medio. Sea un estimador del parmetro . El error cuadrtico medio de , denotado , se define como el valor esperado de
Nos referimos al promedio de los cuadrados de las observaciones. Si ste es pequeo, debemos aceptar que hay una tendencia para que los valores ) sean pequeos, y as lo ser tambin la diferencia ), lo que quiere decir que T tiende a producir respuestas numricas prximas al parmetro . El poder que tenga T para producir valores prximos a depende de dos condiciones bsicas. Una es la fuerza o intensidad con la que tiende a dar esos valores (insesgamiento) y la otra es la fuerza que tenga para no permitir que se aparte de del camino que lo conduce a (eficiencia). Estas dos condiciones matemticamente quedan establecidas y precisadas en el teorema siguiente: TEOREMA Si T es un estimador del parmetro ,
4
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
3.2.1.1 INSESGADO.
, para Se dice que un estimador puntual es un estimador insesgado de , si todo valor posible de . En otras palabras, un estimador insesgado es aquel para el cual la media de la distribucin muestral es el parmetro estimado. Si se usa la media muestral para estimar la media poblacional , se sabe que la , por lo tanto la media es un estimador insesgado. Ejercicio. La media varianza y varianza , ya que , son estimadores insesgados de la media de la poblacin y . Los valores de y se denominan es un estimador sesgado de , ya que, en
Una estadstica es un estimador coherente de un parmetro de poblacin, si al aumentar el tamao de la muestra se tiene casi la certeza de que el valor de la estadstica se aproxima bastante al valor del parmetro de la poblacin. Si un estimador es coherente se vuelve ms confiable si tenemos tamaos de muestras ms grandes. Un estimador es suficiente si utiliza una cantidad de la informacin contenida de la muestra que ningn otro estimador podra extraer informacin adicional de la muestra sobre el parmetro de la poblacin que se est estimando. Es decir se pretende que al extraer la muestra el estadstico calculado contenga toda la informacin de esa muestra. Por ejemplo, cuando se calcula la media de la muestra, se necesitan todos los datos. Cuando se calcula la mediana de una muestra slo se utiliza a un dato o a dos. Esto es solo el dato o los datos del centro son los que van a representar la muestra. Con esto se deduce que si utilizamos a todos los datos de la muestra como es en el caso de la media, la varianza, desviacin estndar, etc; se tendr un estimador suficiente. Ejercicio. Para una poblacin normal, la distribucin muestral de la media y la mediana tienen la misma media; es decir, la media de la poblacin. Sin embargo, la varianza de la distribucin muestral de medias es ms pequea que aquella de la distribucin muestral de medianas. Por consiguiente, la media provee un estimador ms eficiente que la mediana.
5
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Como se puede observar las dos distribuciones tienen un mismo valor en el parmetro slo que la distribucin muestral de medias tiene una menor varianza, por lo que la media se convierte en un estimador eficiente e insesgado. Ejercicio. Si decimos que una distancia es de 5.28 metros, estamos dando un estimador puntual. Si, por otro estamos dando una estimacin por intervalo. La confiabilidad de un estimador es el conocimiento de su error o de su precisin.
6
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Es conocido de nosotros durante este curso, que en base a la distribucin muestral de medias que se gener en el tema anterior, la frmula para el clculo de probabilidad es la siguiente: . Como en este caso no conocemos el parmetro y lo queremos estimar por medio de la media de la muestra, slo se despejar de la formula anterior, quedando lo siguiente:
De esta frmula se puede observar que tanto el tamao de la muestra como el valor de z se conocern. Z se puede obtener de la tabla de la distribucin normal a partir del nivel de confianza establecido. Pero en ocasiones se desconoce por lo que en esos casos lo correcto es utilizar otra distribucin llamada "t" de student si la poblacin de donde provienen los datos es normal. Para el caso de tamaos de muestra grande se puede utilizar una estimacin puntual de la desviacin estndar, es decir igualar la desviacin estndar de la muestra a la de la poblacin Ejercicio. Las medidas de los dimetros de una muestra aleatoria de 200 balineras hechas por cierta maquina durante una semana mostraron una media de 0.824 centmetros y desviacin estndar 0.042 centmetros. Encuentre los lmites de confianza del a) 95% y b) 99% para el dimetro medio de todas las balineras. Ya que es grande, podemos suponer que a) Los limites de confianza del 95% son
7
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
DESCONOCIDA.
En este caso usamos la distribucin para obtener los niveles de confianza. En general, los lmites de confianza para las medias de las poblaciones estn dados por:
Ejercicio. Una muestra de 10 medidas del dimetro de una esfera dio una media centimetros y desviacin estndar centimetros. Encuentre los limites de confianza del 95% para el verdadero dimetro. Los limites del 95% estn dados por Ya que Entonces, usando y , encontramos que , los limites de confianza del 95% requeridos son
3.3.3 DE LA VARIANZA.
Por consiguiente, podemos tener el 95% de confianza de que las verdaderas medias estarn entre y .
El hecho de que tenga distribucin chi cuadrado con grados y de libertad, nos permite obtener lmites de confianza para o . Por ejemplo, si son valores de para los cuales 2.5% del rea esta en cada cola de la distribucin, entonces el 95% del intervalo de confianza es
8
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
O de manera equivalente
O de manera equivalente
Con el 95% de confianza. De igual manera, se pueden encontrar otros intervalos de confianza. En general es deseable que la amplitud esperada de un intervalo de confianza sea lo ms pequea posible. Para estadsticos con distribuciones muestrales simtricas, tales como la normal y la t, esto se logra usando colas con reas iguales. Sin embargo, para distribuciones no simtricas, tales como la chi cuadrado, puede ser deseable ajustar las reas de las colas de manera que se obtenga el menor intervalo. Ejercicio. Se calcul que la desviacin estndar de los tiempos de vida de una muestra de 200 bombillas elctricas es 100 hrs. Encuentre los lmites de confianza del a) 95%, para la desviacin estndar de todas esas bombillas elctricas. En este caso se aplica la teora de muestreo grande. Por consiguiente los lmites de confianza para la desviacin estndar de la poblacin estn dados por , donde indica el nivel de confianza. Usamos la desviacin muestral estndar para calcular . Los lmites de confianza del 95% son .
Por consiguiente, podemos tener confianza del 95% de que la desviacin estndar de la poblacin estar entre .
3.3.4 DE LA PROPORCIN.
Su pongamos que el estadstico S es la proporcin de xitos en un muestra de tamao obtenida a partir de una poblacin con distribucin binomial en la que es la proporcin de xitos (es decir, la probabilidad de xito). Entonces, los limites de confianza para p estn dados por , donde es la proporcin de xitos en la muestra de
9
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
En el caso en que el muestreo se haga de una poblacin infinita o si se hace de una poblacin finita y con reemplazo. De manera similar, los lmites de confianza son
Si la toma de muestras se hace sin reemplazo de una poblacin de tamao finito N. Ejercicio. Una encuesta de 100 votantes, escogidos al azar de todos los votantes en un distrito dado, indico que el 55% est a favor de un candidato en particular. Encuentre los limites de confianza del a) 95%, b) 99%. a) Los limites de confianza del 95% de la poblacional son
Donde usamos la proporcin muestral de 0.55 para estimar . b) Los limites de confianza del 99% para son
3.4 ESTIMACIN POR INTERVALOS DE CONFIANZA. 3.4.1 DE LA DIFERENCIA DE DOS MEDIDAS CON CONOCIDAS.
Si son dos estadsticos muestrales cuya distribucin muestral es aproximadamente normal, los limites de confianza para las diferencias de los parmetros poblacionales correspondientes a , estn dados por
Mientras que los limites de confianza para la suma de los parmetros de la poblacin estn dados por
10
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Siempre y cuando las muestras sean independientes. De manera similar, los limites de confianza para a diferencia de dos proporciones de poblaciones, donde las poblaciones son infinitas, estn dados por
Donde son las dos proporciones muestrales y muestras obtenidas de la poblacin. Ejercicio.
En una muestra aleatoria de 400 adultos y 600 adolescentes que vean cierto programa de televisin, 100 adultos y 300 adolescentes dijeron que les gusto. Construya los limites de confianza del 95% para la diferencia en proporciones de todos los adultos y adolescentes que vieron el programa y lo encontraron de su agrado. Los limites de confianza para la diferencia en proporciones de los dos grupos estn dados por
Donde los subndices 1 y 2 se refieren a adolescentes y adultos, respectivamente, y los complementos. Aqu y son respectivamente, la proporcin de adolescentes y adultos a los que les gusto el programa. a) Limites de confianza del 95%: . Por consiguiente, podemos tener confianza del 95% de que la diferencia verdadera de proporciones este entre 0.19 y 0.31.
DESCONOCIDAS.
Si se tienen dos poblaciones con medias y y varianzas y , respectivamente, un estimador puntual de la diferencia entre y est dado por la estadstica . Por tanto. Para obtener una estimacin puntual de se seleccionan dos muestras aleatorias independientes, una de cada poblacin, de tamao , se calcula la diferencia , de las medias muestrales.
11
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
3.4.2.1 CON
IGUALES.
La
Supongamos ahora que las varianzas son desconocidas pero iguales ( distribucin de la diferencia de medias muestrales es ahora
Tenemos que eliminar el parmetro , para lo cual utilizaremos los distribuciones muestrales asociadas a las cuasi-varianzas muestrales El nuevo estadgrafo de contraste es de la forma
Los dos estadsticos toman exactamente el mismo valor por lo que pueden utilizarse indistintamente. Usaremos el calculado a partir de la cuasi-varianzas porque son estimadores insesgados de la varianza poblacional. En este caso es necesario que las varianzas sean iguales para poder despejarlas y eliminarlas en el clculo del estadgrafo de contraste. La comprobacin de la igualdad de varianzas se har posteriormente aunque sea un paso previo a la decisin del tipo de contraste. Ejercicio. Un artculo publicado dio a conocer los resultados de un anlisis del peso de calcio en cemento estndar y en cemento contaminado con plomo. Los niveles bajos de calcio indican que el mecanismo de hidratacin del cemento queda bloqueado y esto permite que el agua ataque varias partes de una estructura de cemento. Al tomar diez muestras de cemento estndar, se encontr que el peso promedio de calcio es de 90 con una desviacin estndar de 5; los resultados obtenidos con 15 muestras de cemento contaminado con plomo fueron de 87 en promedio con una desviacin estndar de 4.
12
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Supngase que el porcentaje de peso de calcio est distribuido de manera normal y que las dos poblaciones normales tienen la misma desviacin estndar. a) Encuentre un intervalo de confianza del 95% para la diferencia entre medias de los dos tipos de cemento. El estimador combinado de la desviacin estndar es:
3.4.2.2 CON
DIFERENTES.
Para hacer inferencias estadsticas sobre dos poblaciones, se necesita tener una muestra de cada poblacin. Las dos muestras sern dependientes o independientes de acuerdo a la forma de seleccionarlas. Si la seleccin de los datos de una poblacin no est relacionada con la de los datos de la otra, son muestras independientes. Si las muestras se seleccionan de manera que cada medida en una de ellas pueda asociarse naturalmente con una medida en la otra muestra, se llaman muestras dependientes. Cada dato sale de alguna fuente; una fuente es algo, una persona o un objeto, que produce datos. Si dos medidas se obtienen de la misma fuente, se puede pensar que las medidas estn pareadas. En consecuencia dos medidas que se obtienen del mismo conjunto de fuentes son dependientes. Note que si dos muestras son dependientes, entonces necesariamente tienen el mismo tamao. Si se tienen dos muestral aleatorias dependientes de tamao n, donde cada elemento de la primera muestra es pareja de un elemento de la segunda, entonces estas dos muestras dan lugar a una de parejas o a unas diferencias, como lo indica la siguiente figura. La muestra de diferencias se puede pensar como una muestra de la poblacin de diferencias de datos pareados de dos poblaciones. La media de la poblacin de diferencias es igual a la diferencias de las medias poblacionales. En consecuencia se ve que la media de la poblacin de diferencias es igual a la diferencia entre las medias poblacionales. Siguiendo la misma lnea de razonamiento, se puede demostrar que, para dos muestras dependientes, la media de sus diferencias muestrales es igual a la diferencia entre sus medias muestrales. Esto es, si , entonces Si se tiene una muestra aleatoria de n pares de datos y si las diferencias d se distribuyen normalmente, entonces el estadstico:
13
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Tiene una distribucin muestral que es una distribucin con representa la desviacin estndar de la muestra de puntajes diferencia.
, donde
. Cuando se usa
Ejercicio. Se hizo un estudio para definirse si los ejercicios aerbicos reducen el ritmo cardiaco de una persona durante el descanso, y al examinar a diez voluntarios antes y despus de seguir un programa de ese tipo durante seis meses, sus pulsaciones, en latidos por minuto, dieron los siguientes registros:
Voluntario Antes Despus 1 73 68 2 77 72 3 68 64 4 62 60 5 72 71 6 80 77 7 76 74 8 64 60 9 70 64 10 72 68
Use para calcular si los ejercicios aerbicos reducen el ritmo cardiaco durante el reposo. Calcule el valor de P.
Ensayo de hiptesis:
Para calcular el valor de se interpola entre 0.10 y 0.05, con 9 grados de libertad obteniendo un rea de 0.0574, pero como el ensayo es bilateral este sera un valor de por lo tanto el valor de 14
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
El intervalo de confianza del es y y como contiene a cero, no podemos concluir que la dieta sea efectiva para cambiar el peso. 3.4.2.3 DE DOS MEDIAS APAREADAS.
En este caso se trata de comparar dos mtodos o tratamientos, pero se quiere que las unidades experimentales donde se aplican los tratamientos sean las mismas, lo ms parecidas posibles, para evitar influencia de otros factores en la comparacin. Este es un
procedimiento de estimacin para la diferencia de dos medias cuando las muestras son dependientes y las varianzas de las dos poblaciones no necesariamente son iguales.
Las muestras pareadas involucran un procedimiento en el cual varios pares de observaciones se equiparan de la manera ms prxima posible, en trminos de caractersticas relevantes. Los dos grupos de observaciones son diferentes slo en un aspecto o "tratamiento". Toda diferencia subsiguiente en los dos grupos se atribuye a dicho tratamiento. Las ventajas de las muestras pareadas son: 1) 2) 3) Pueden utilizar muestras muy pequeas. Se encuentran varianzas ms pequeas. Menos grados de libertad se pierden en el anlisis.
4) Resulta un error de muestreo ms pequeo (la variacin entre observaciones reduce debido a que corresponden de la forma ms prxima posible).
15
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Otro mtodo para utilizar muestras pareadas a diferencia de la situacin que se describi cuando las muestras son independientes, las condiciones de las dos poblaciones no se signan de forma aleatoria a las unidades experimentales. Ms bien, cada unidad experimental homognea recibe ambas condiciones poblacionales; como resultado, cada unidad experimental tiene un par de observaciones, una para cada poblacin. Sea el valor de tratamiento I y el valor del tratamiento II en el i-simo sujeto.
Diferencia de los tratamientos en el i-simo sujeto. Ejercicio. Se asume que se tienen puntajes de la prueba de 10 empleados antes y despus de habrseles impartido capacitacin laboral adicional. Establezca un intervalo de confianza del 90% para la media de la diferencia en el puntaje antes y despus de la capacitacin. Los puntajes aparecen en la tabla: Empleado Puntaje antes de La capacitacin del empleado 1 2 3 4 5 6 7 8 9 10 9.0 7.3 6.7 5.3 8.7 6.3 7.9 7.3 8.0 8.5 7.4 Puntaje despus de La capacitacin del empleado 9.2 8.2 8.5 4.9 8.9 5.8 8.2 7.8 9.5 8.0 7.9
di
d i2
-0.3 0.09 -0.5 0.25 -1.5 2.25 -0.5 0.25 -5.0 7.38
16
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Determinar la variable aleatoria funcin del estimador y del parmetro cuya distribucin este definida.
Con
grados de libertad.
Determinar los valores de la variable aleatoria definida en el paso (2) de acuerdo a la probabilidad establecida.
Establecer la desigualdad con los valores de la variable aleatoria definidos en el paso y la expresin definida en el paso.
Encontrar los lmites inferiores y superiores dentro de los cuales se encuentra el parmetro Lmite superior de confianza:
Debido a que se restan los puntajes posteriores al entrenamiento de los puntajes anteriores al entrenamiento, produciendo valores negativos, se puede estar 90% seguro de que la media de los puntajes posteriores al entrenamiento est entre 0.073 y 0.927 ms altos. 3.4.3 ESTIMACIN POR INTERVALOS DE CONFIANZA DE LA RAZN DE DOS VARIANZAS. Supngase que se tienen dos poblaciones normales e independientes con varianzas desconocidas y , respectivamente. De este par de poblaciones, se tienen disponibles dos muestras aleatorias de tamaos y , respectivamente, sean y 17
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
las dos varianzas muestrales. Se desea conocer un intervalo de confianza del 100 por ciento para el cociente de las dos varianzas, . Para construir el intervalo de confianza para el cociente de dos varianzas poblacionales, se coloca la varianza muestral mayor en el numerador del estadstico F. Ejercicio. Se obtienen al azar dos muestras de tamaos 16 y 10 respectivamente, de dos poblaciones con distribucin normal. Si sus varianzas son 24 y 18, respectivamente, encuentre los limites de confianza del a) 98% para el cociente de las varianzas. a) Tenemos
as que:
Despejando
de esta ecuacin:
Aqu se tiene el mismo caso que en la estimacin de una proporcin, ya que al hacer el despeje nos queda las dos proporciones poblacionales y es precisamente lo que queremos estimar, por lo que se utilizarn las proporciones de la muestra como estimadores puntuales:
18
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Ejercicio. Se considera cierto cambio en un proceso de fabricacin de partes componentes. Se toman muestras del procedimiento existente y del nuevo para determinar si ste tiene como resultado una mejora. Si se encuentra que 75 de 1500 artculos del procedimiento actual son defectuosos y 80 de 2000 artculos del procedimiento nuevo tambin lo son, encuentre un intervalo de confianza de 90% para la diferencia real en la fraccin de defectuosos entre el proceso actual y el nuevo. Sean y las proporciones reales de defectuosos para los procesos actual y nuevo, respectivamente. De aqu, y . Con el uso de la tabla encontramos que para un nivel de confianza del 90% es de 1.645.
Como el intervalo contiene el valor de cero, no hay razn para creer que el nuevo procedimiento producir una disminucin significativa en la proporcin de artculos defectuosos comparada con el mtodo existente.
19
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
La proposicin , se conoce como hiptesis nula, mientras que la proposicin , recibe el nombre de hiptesis alternativa. Puesto que la hiptesis alternativa especifica valores de que pueden ser mayores o menores que 50 cm/s, tambin se conoce como hiptesis alternativa bilateral.
20
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
En algunas situaciones, lo que se desea es formular una hiptesis alternativa unilateral, como en
21
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Zona de aceptacin
Verificacin. Decisin: Aceptamos la hiptesis nula . Con un nivel de significacin del 1%. 22
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Ejercicio. Suponga que el miembro de la comisin de planificacin en realidad toma la muestra y obtiene minuto. Qu decisin tomaran los miembros de la comisin de planificacin y estarn cometiendo un error si en realidad a) b) minutos minutos?
Ya que cae en el intervalo de 40.5 a 44.4, aceptaran la hiptesis nula de que en promedio los automviles permanecen en el rea de estacionamiento momentneo durante 42.5 minutos. a) dado que la hiptesis nula es verdadera y se acepta, no estarn cometiendo un error b) Puesto que la hiptesis nula es falsa pero se acepta, estarn cometiendo un error tipo II
23
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
3.6 PRUEBAS DE HIPTESIS. 3.6.1 PARA LA MEDIA. Las suposiciones para esta prueba son mnimas. La poblacin o distribucin de inters tiene una media y una varianza , conocida. El estadstico de prueba se basa en la media muestral , por lo que tambin se supondr que la poblacin est distribuida de manera normal o que se aplican las condiciones del teorema del lmite central. Esto significa que la distribucin de es aproximadamente normal con una media y una varianza , Aqu , la media muestral; , la media de la poblacin; donde es la desviacin estndar de la poblacin y es el tamao muestral. La variable estandarizada est dada por:
Cuando es necesario, la desviacin estndar muestral, o , se utiliza para estimar . Para probar la hiptesis nula de que la media de la poblacin es podemos usar el estadstico. Entonces si la hiptesis alterna es , usando la prueba de dos colas, podemos aceptar (o al menos no rechazarla) al nivel de significancia de 0.05 si para una muestra particular de tamao con media .
Y podemos rechazarla de otra manera. Para otros noveles de significancia podemos cambiar de manera apropiada, para probar en contra de la hiptesis alternativa de que la media de la poblacin es mayor que a, podemos usar la prueba de una cola y aceptar (o al menos no rechazarla) al nivel de 0.05 si
Y rechazarla de otra manera. Para probar en contra de la hiptesis alterna de que la media de la poblacin es menor que a, podemos aceptar al nivel del 0.05 si
24
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Ejercicio. Se calculo que el tiempo de vida medio de una muestra de 100 bombillas fluorescentes producidas por una compaa es de 1570 horas con desviacin estndar de 120 horas. Si es el tiempo de vida medio de todas las bombillas producidas por la compaa, pruebe la hiptesis horas en contra de una hiptesis alterna horas, usando un nivel de significancia de 0.05. Encuentre el valor de en la prueba.
Se debe usar una prueba de dos colas ya que ms grandes y ms pequeos que 1600.
Para una prueba de dos colas con nivel de significancia de 0.05, tenemos la siguiente regla de decisin: 1) Rechazar la si el valor . 2) De otra manera aceptar de la media muestral esta por fuera del rango (o abstenerse a tomar la decisin).
El estadstico bajo consideracin es la media muestral . La distribucin muestral de tiene media y desviacin estndar , donde y son la media y la desviacin estndar de la poblacin de todas las bombillas producidas por la compaa. Bajo la hiptesis , tenemos y , usando la desviacin estndar muestral como un estimador de . Dado que se encuentran fuera del rango de , rechazamos la al nivel de significancia de 0.05.
25
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
, donde
Se pueden hacer observaciones similares a las hechas atrs sobre pruebas de una y dos colas para medias. Ejercicio. Tenemos dos grupos, A y B, cada uno de 100 personas que sufren una enfermedad. Se le da un suero al grupo A, pero no al grupo B (grupo de control); para lo dems, ambos grupos se manejan de manera idntica. Se encontr que en los grupos Ay B, 75 y 65 personas, respectivamente, se recuperaron de la enfermedad. Pruebe la hiptesis de que el suero ayuda a curar la enfermedad usando un nivel de significancia de 0.01. Sean y , respectivamente, las proporciones de la poblacin curada usando el suero sin usar el suero. Debemos decidir entre estas dos hiptesis.
y el suero es efectivo ,
Con base en una prueba de una cola con nivel de significancia e 0.01, podemos rechazar la hiptesis si solo el valor fuera mayor que 2.33. Dado que el valor es solo 1.54, debemos concluir que, con este nivel de significancia, los resultados se deben al azar.
26
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
La cual tiene la distribucin chi cuadrado con grados de libertad. Entonces, si una muestra aleatoria de tamao resulta tener varianza , podemos, sobre la base de la prueba de dos colas, aceptar (o al menos no rechazarla) al nivel de 0.05 si
Y rechazarla de otra manera. Se obtiene un resultado similar para el nivel de 0.01 u otro nivel. Para probar la hiptesis de de que la varianza de la poblacin es mayor que , podemos aun usar la hiptesis nula pero ahora emplearemos la prueba de una cola. As, podemos rechazar al nivel de 0.05 (y por consiguiente concluir que es correcta) si la varianza de la muestra particular es tal que
Y aceptamos Ejercicio.
Datos:
Suponga que un fabricante de pernos est produciendo pernos de de dimetro, y que los dimetros de estas piezas se distribuyen normalmente; con propsitos de control de calidad, se obtuvo una muestra de 25 pernos de una lnea de produccin para estimar la varianza de todos los dimetros, la cual result ser . Con un nivel de significancia de 0.05. Se puede concluir que la varianza poblacional es igual o menor ?
Establecer la hiptesis
E
27
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Calcular la estadstica de prueba. Como la esta bajo la hiptesis nula entonces tenemos
Como 21.6 es menor que 36.415 no se rechaza la hiptesis nula con un nivel de significancia de 0.05. Conclusin: Existe evidencia estadstica para decir que la varianza poblacional es igual o menor .
Donde podemos, si es necesario, usar las desviaciones estndar observadas estimados de . Usando la variable estandarizada dada por
como
28
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Podemos probar la hiptesis nula en contra de la hiptesis alterna (o de significancia de la diferencia observada) a un nivel adecuado de significancia. Ejercicio. Se evaluaron dos cursos de 40 y 50 estudiantes. En el primer curso la nota promedio fue de 74 con desviacin estndar de 8, mientras que en el segundo curso la nota promedio fue de 78 con desviacin estndar de 7. Existe alguna diferencia en el rendimiento de los dos cursos con nivel de significancia de 0.05. Cul es el valor de de la prueba? Supongamos que los dos cursos vienen de dos poblaciones con medias respectivas . Entonces tenemos que decidir entre estas hiptesis:
y la diferencia se debe al azar. y hay una diferencia significativa entre ambos cursos.
Bajo la hiptesis , ambos cursos viene de la misma poblacin. La media y la desviacin estndar de la diferencia de medias est dada por
Para una prueba de dos colas, los resultados son significativos al nivel de 0.05 si esta por afuera del rando a . Entonces concluimos que al nivel de 0.05 hay una diferencia significativa en el desempeo de los dos cursos y que probablemente el segundo curso es mejor.
29
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Podemos probar diferencias observadas a un nivel apropiado de significancia y de all probar la hiptesis nula. Ejercicio. Una encuesta hecha a 300 votantes del distrito A y a 200 del distrito B mostro que 56% y 48%, respectivamente, estaban a favor de un candidato dado. Con el nivel de significancia de 0.05 pruebe la hiptesis de que: Hay diferencia entre los distritos. Sean y las proporciones de todos los votantes de los distritos A y B, respectivamente, que estn a favor del candidato. Bajo la hiptesis
, tenemos
los valores
Si solamente queremos determinar si hay una diferencia entre los distritos, debemos decidir entre la hiptesis y , lo que involucra una prueba de dos colas. Con base en una prueba de dos colas con nivel de significancia de 0.05, debemos rechazar , si Z esta fuera del intervalo -1.96 a 1.96. Dado que esta dentro del intervalo, no podemos rechazar con este nivel de significancia, es decir, no hay diferencia significativa entre los dos distritos.
30
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Donde y son las varianzas de dos poblaciones normales de las cuales se tomaron las muestras. Supongamos que denota la hiptesis nula de que no hay diferencia entre las varianzas de las poblaciones, es decir . Entonces, bajo esta hiptesis se convierte en:
Para probar esta hiptesis al nivel de 0.10, por ejemplos, primero debemos observar que tiene la distribucin con grados de libertad. Entonces, usando una prueba de dos colas, podemos aceptar al nivel de 0.10 si
Y rechazarla de otra manera. Se pueden formular procedimientos similares usando pruebas de una cola en caso de que queramos probar la hiptesis de que la varianza de una poblacin partculas es, de hecho, mayor que la otra. Ejercicio. Un instructor tiene dos cursos, A y B en una materia en particular. El curso A tiene 16 estudiantes mientras que el B tiene 25. En el mismo examen, a pesar de que no hubo diferencias significativas en las notas promedio, el curso A tuvo una desviacin estndar de 9 mientras que el B tuvo una desviacin estndar de 12. Podemos concluir que al nivel de significancia de 0.01, la variabilidad del curso B es mayor que el de A? Sol. Usemos los subndices 1 y 2 para los cursos Ay B, respectivamente. Tenemos entonces, de manera que
, y cualquier variacin se debe al azar , y la variacin del curso B es mayor que la del A
Por lo tanto, la decisin de debe basar en una prueba de una cola de la distribucin F. para las muestras en cuestin.
31
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
El nmero de grados de libertad asociados con el numerador es para el denominador, grados de libertad. Al nivel de 0.01 para 24, 15 grados de libertad tenemos del apndice , Entonces, dado que , no podemos rechazar al nivel de 0.01.
3.7 AJUSTE DE DISTRIBUCIONES DE FRECUENCIA A DISTRIBUCIONES DE PROBABILIDAD. 3.7.1 AJUSTE A UNA DISTRIBUCIN BINOMIAL.
La distribucin binomial se caracteriza porque su funcin de probabilidad viene dada por la expresin siguiente:
Donde es el nmero de xitos asociado al experimento aleatorio. En una distribucin binomial se verifica que:
y
La probabilidad de que aparezca al menos un xito en las n repeticiones es igual a: La probabilidad de que se produzca un xito como mximo en las se determina como: repeticiones
En ocasiones, el clculo de la probabilidad de una distribucin binomial del tipo resulta muy complicado. Segn demostr el matemtico francs Abraham de Moivre (1667-1754), la probabilidad de una distribucin binomial puede aproximarse por medio de una distribucin normal de tipo que resulta particularmente adecuada cuando:
y y
El valor de n es muy elevado. Tanto y son que 5. (Obsrvese que cuanto mayor es a tanto mejor es la aproximacin realizada).
y ms se aproxima
Para transformar una distribucin binomial (de variable discreta) en una normal (de variable continua). Ejercicio. Supongamos que un importador de juguetes recibe mensualmente 100 cajas de una determinada modelo, y cada una de las cajas contiene 4 juguetes. Durante el primer mes, para poder calcular los costes reales de los juguetes, lleva a cabo un estudio en el que 32
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
obtiene:
El empresario calcula en primer lugar el medio de juguetes defectuosos por caja, obteniendo media . Si la distribucin de juguetes defectuosos por caja fuera una la media sera , luego despejando, . Para ver si se ajusta o no a la calculamos para esta ltima la probabilidad de "xitos" (juguetes defectuosos), y obtenemos:
A partir de aqu, el empresario puede asumir que la probabilidad de que un juguete sea defectuoso es del , podr hacer previsiones para las 5000 cajas de que va a constar su prximo pedido.
Y por tanto, en 100 cajas, las "tericas" apariciones de los valores , que son muy similares a las encontradas en la muestra.
, seran:
Para ajustar la distribucin de Poisson a la muestra de datos lo ms simple es usar el mtodo de los momentos, es decir se igualan los momentos de la muestra con los momentos de la distribucin o poblacin. Recordando que el primer momento es el promedio de la muestra, resulta muy fcil el ajuste en el caso de la distribucin de 33
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Ejercicio. Con base en las frecuencias observadas en la tabla anterior, pruebe en el nivel de significancia 0.05 si hay algn indicio de que los dgitos de la tabla XI no se puedan considerar como aleatorios. La probabilidad de cada digito es 0.10 No todas las probabilidades son 0.10
, donde
Y 16.919 es el valor de para , grados de libertad, de otra manera, se seala que no hay ningn indicio de que los dgitos de la tabla no se puedan considerar como aleatorios. (Aqu por que ninguno de los parametros de la distribucin de la probabilidad se deba estimar apartir de los datos de la muestra). Sustituyendo las frecuencias observadas y esperadas de la tabla de la pgina 373 en la frmula para , obtenemos
Dado que 7.92 no es mayor que 16.919, no se puede rechazar la hiptesis nula; en otras palabras, no hay indicios de que no se puedan considerar los dgitos de la tabla XI como aleatorios.
34
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Se llama tipificacin a la operacin consistente en cambiar de una variable aleatoria X a otra variable Z de distribucin tipificada, por medio de la expresin siguiente:
Ejercicio. Pruebe en el nivel de significancia 0.05 si se pueden considerar los datos de la pagina 374 como valores de una variable aleatoria que tiene una distribucin binomial. La variable aleatoria tiene una distribucin binomial. La variable aleatoria no tiene una distribucin binomial.
, donde
Y 9.488 es el valor de para grados de libertad; de otro modo se acepta la hiptesis nula o se reserva la opinin. (Aqu, por que se deban sumar seis parmetros para obtener y por que se tena que estimar a partir de los datos observados.) Sustituyendo las frecuencias observadas y esperadas de la tabla anterior en la frmula para , obtenemos
Puesto que no es mayor que 9.488, no se debe rechazar la hiptesis nula; en otras palabras, no hay ninguna evidencia real de que la variable aleatoria (el nmero de autobuses que llegan retrasados por semana) no tenga una distribucin binomial.
ESTADSTICA
complejas. Son especialmente valiosas al tratar con datos no numricos, tales como los que surgen cuando los consumidores ordenan cereales u otros productos en orden de preferencia.
Dado que es la hiptesis de que hay una diferencia entre las maquinas, en contra de la hiptesis de que la maquina I es mejor que la maquina II, usamos una prueba de dos colas. Para el nivel de significancia de 0.05, cada cola tiene la probabilidad asociada
De donde
36
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Ahora agregamos las probabilidades al lado izquierdo hasta que la suma supere 0.025. As:
caras caras
Dado que 0.025 es mayor que 0.01928, pero menor que 0.07299, podemos rechazar la hiptesis si el numero de caras es 2 o menor (o por simetra, si el numero de caras es 10 o mayor). Sin embargo, el numero de caras (los signos + de la secuencia) es 3. Por lo tanto, no podemos rechazar al nivel de 0.05 y debemos concluir que no hay diferencia entre las maquinas a este nivel.
37
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Dos Muestras con Observaciones Pareadas. Para probar la hiptesis nula de que se muestrean dos poblaciones simtricas continuas con para el caso de una muestra pareada, se clasifican las diferencias de las observaciones paradas sin importar el signo y se procede como en el caso de una muestra. Los diversos procedimientos de prueba para los casos de una sola muestra y de una muestra pareada se resumen en la siguiente tabla:
No es difcil mostrar que siempre que y el nivel de significancia no exceda 0.05 para una prueba de una cola 0.10 para una prueba de dos colas, todos los valores posibles de , , o w conducirn a la aceptacin de la hiptesis nula. Sin embargo, cuando , la tabla A.16 muestra valores crticos aproximados de y para niveles de significancia iguales a 0.01, 0.025 y 0.05 para una prueba de una cola, y valores crticos de para niveles de significancia iguales a 0.02, 0.05 y 0.10 para una prueba de dos colas. La hiptesis nula se rechaza si el valor calculado , es menor o igual que ,o el valor de tabla apropiado. Por ejemplo, cuando la tabla muestra que se requiere un valor de 17 para que la alternativa unilateral sea significativa en el nivel 0.05. Ejercicio. Los siguientes datos representan el nmero de horas que un compensador opera antes de requerir una recarga: 1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0, 1.2 y 1.7. Utilice la prueba de rango con signo para probar la hiptesis en el nivel de significancia de 0.05 que este compensador particular opera con una media de 1.8 horas antes de requerir una recarga.
38
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Se proceder a efectuar las diferencias y a poner rango con signo a los datos. Dato 1.5 2.2 0.9 1.3 2.0 1.6 1.8 1.5 2.0 1.2 1.7 Regla de decisin: Para una despus de descartar la medicin que es igual a 1.8, la tabla muestra que la regin crtica es
di = dato - 1.8 -0.3 0.4 -0.9 -0.5 0.2 -0.2 0 -0.3 0.2 -0.6 -0.1
Por lo que
(menor entre
).
Decisin y Conclusin: Como 13 no es menor que 8, no se rechaza H0 y se concluye con un tiempo promedio de operacin no es significativamente diferente de 1.8 horas. que el
39
ESQUIVEL REYES GEOVANNI ALEXIS
ESTADSTICA
Esta prueba se puede describir as: Su pongamos que tenemos muestras de tamaos siendo el tamao total de todas las muestras juntas . Supongamos, adems, que los datos de todas las muestras juntas se ordenan y que las sumas de los rdenes para las muestras son , respectivamente. Si definimos el estadstico:
Entonces se puede demostrar que la distribucin muestral de tiene casi distribucin chi cuadrado con grados de libertad, siempre y cuando sean al menos 5. La prueba ofrece un mtodo no paramtrico en el anlisis de varianza para clasificaciones simples o experimentos con un factor, y es posible hacer generalizaciones. Como consecuencia, rechazamos la hiptesis nula de que las poblaciones de las que se efecta el muestreo son idnticas, y aceptamos la hiptesis alternativa de que no todas las medias de estas poblaciones son iguales, si el valor que obtenemos para es mayor o igual que para grados de libertad. Ejercicio. Se escogen al azar 3 muestras de una poblacin. Acomodando los datos segn rango obtenemos la tabla 10-21. Determine si hay alguna diferencia al nivel de significancia de 0.05 entre las muestras. Muestra 1 Muestra 2 Muestra 3
7 4 6 10 11 9 12 5 1 3 8 2
As
As, dado que no Para grados de libertad, podemos concluir que hay una diferencia significativa entre las muestras al nivel de 0.05.
40
ESQUIVEL REYES GEOVANNI ALEXIS