Unidad 3 Estimación y Prueba de Hipotesis

ESTADSTICA
UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS
UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS. 3.1 MUESTREO ALEATORIO.

Claramente, la confiabilidad de las conclusiones obtenidas concernientes a una poblacin dependen de si la muestra se tom adecuadamente, para que represente a la poblacin lo suficientemente bien. Uno de los problemas importantes de la inferencia estadstica es precisamente cmo obtener una muestra. Una manera de hacer esto para poblaciones finitas es asegurar que cada miembro de la poblacin tenga la misma probabilidad de estar en la muestra, lo cual se denomina, muestra aleatoria. Una muestra aleatoria puede lograrse para muestras de poblaciones relativamente pequeas extrayendo lotes, o de manera equivalente, usando una tabla de nmeros aleatorios, especialmente construida para tales propsitos. Ejercicio. Cuntas muestras distintas de n podemos tomar de una poblacin finita de tamao N, cuando a) b) Hay Hay y y muestras distintas. muestras distintas.
3.1.1 ALEATORIO SIMPLE.

Con base en el resultado de que hay muestras distintas de tamao n de una
poblacin finita de tamao N, presentaremos la siguiente definicin de una muestra aleatoria (en ocasiones conocida tambin como muestra aleatoria simple) de una poblacin finita: Una muestra de tamao n de una poblacin finita de tamao N es una variable aleatoria si se selecciona de manera tal que cada una de las probabilidad, Ejercicio. Tome una muestra aleatoria de tamao de la poblacin consistente en las cantidades de impuestos sobre las ventas cobradas por 247 farmacias de una ciudad en diciembre de 1990 numerando las farmacias como 001,002,003 y 247 (digamos, en el orden en que aparecen en el directorio telefnico) leyendo nmeros aleatorios de tres dgitos de la segunda pgina de la tabla XI, usando la vigesimasexta, la vigesimaseptima 1
ESQUIVEL REYES GEOVANNI ALEXIS
muestras posibles tiene la misma
de ser seleccionada.
ESTADSTICA
y la vigesimaoctava columnas empezando en el sexto rengln y continuando pagina abajo. Siguiendo estas instrucciones, obtenemos

Donde ignoramos los nmeros mayores que 247; si cualquier nmero se hubiera repetido, tambin lo habramos ignorado. Los doce nmeros que tenemos aqu son los nmeros asignados a las farmacias; las cifras de impuestos sobre las ventas correspondientes constituyen la muestra aleatoria deseada.
3.1.2 SISTEMTICO.
En algunos casos, la manera ms prctica de efectuar un muestreo consiste en seleccionar, digamos, cada vigsimo nombre de una lista, cada decimasegunda casa de un lado de una calle, cada quincuagsima pieza de una lnea de ensamble y as sucesivamente. Esto se conoce como muestreo sistemtico y se puede integrar un elemento de azar en esta clase de muestreo usando nmeros aleatorios para seleccionar la unidad en la que se debe comenzar. Aunque una muestra sistemtica puede no ser una muestra aleatoria de acuerdo con la definicin, a menudo es razonable tratar las muestras sistemticas como si fueran muestras aleatorias; de hecho, en algunos casos las muestras sistemticas en realidad pueden ser mejores que las muestras aleatorias simples por que las primeras se extienden en forma ms regular sobre las poblaciones enteras. Ejercicio. Si tenemos una poblacin formada por 100 elementos y queremos extraer una muestra de 25 elementos, en primer lugar debemos establecer el intervalo de seleccin que ser igual a . A continuacin elegimos el elemento de arranque, tomando aleatoriamente un nmero entre el 1 y el 4, y a partir de l obtenemos los restantes elementos de la muestra. 2, 6, 10, 14,..., 98
3.1.3 ESTRATIFICADO.
Si tenemos informacin acerca de la constitucin de una poblacin (es decir, su composicin) y esta es importante para nuestra investigacin, podemos mejorar el muestreo aleatorio por medio de la estratificacin. Este es un procedimiento que consiste en estratificar (o dividir) en un numero de subpoblaciones o estratos que no se traslapen y luego tomar una muestra de cada estrato. Si los artculos seleccionados de cada estrato constituyen muestras aleatorias simples, el procedimiento completo (primero la estratificacin y luego el muestreo aleatorio) se conoce como muestreo aleatorio (simple) estratificado.
2
ESTADSTICA
Esencialmente el objetivo de la estratificacin es formar estratos de tal forma que haya alguna relacin entre estar en un estrato particular y la respuesta que se busca en el estudio estadstico y que en los estratos separados haya tanta homogeneidad como sea posible. Ejercicio. Se debe tomar una muestra estratificada de tamao de una muestra de tamao que consta de tres estratos de tamao Si la distribucin debe ser proporcional, cun grande debe ser la muestra tomada de cada estrato? Sustituyendo en la frmula, obtenemos:

3.1.4 POR CONGLOMERADOS.

Se divide la poblacin en varios grupos de caractersticas parecidas entre ellos y luego se analizan completamente algunos de los grupos, descartando los dems. Dentro de cada conglomerado existe una variacin importante, pero los distintos conglomerados son parecidos. Requiere una muestra ms grande, pero suele simplificar la recogida de muestras. Frecuentemente los conglomerados se aplican a zonas geogrficas. Se divide la poblacin total en un nmero determinado de subdivisiones relativamente pequeas y se seleccionan al azar algunas de estas subdivisiones o conglomerados para incluirlos en la muestra general. Si los conglomerados son subdivisiones geogrficas, este muestreo se llama tambin muestreo por reas. Ejercicio. Suponga que el decano de estudiantes de una universidad quiere saber la opinin de la fraternidad hacia la escuela acerca de cierta disposicin nueva. Puede tomar una muestra de conglomerados entrevistando algunos o a todos los miembros de varias fraternidades seleccionadas a azar. Aunque las estimaciones basadas en el muestreo por conglomerados por lo general no son tan confiables como las estimaciones que se basan en muestras aleatorias simples del mismo tamao, a menudo son ms confiables por el costo unitario. 3.1.5 EN DOS ETAPAS. Cuando en el muestreo por conglomerados se prosigue en el anlisis y dentro de cada conglomerado se vuelven a seleccionar, tambin de forma aleatoria, nuevos subconglomera-dos, y as sucesivamente hasta seleccionar las unidades ltimas, al muestreo se le denominador etapas o polietpico. El ms frecuente de los muestreos por etapas es el bietpico, en el que se seleccionan, en primer trmino y de forma aleatoria, los conglomerados o reas, y en una segunda etapa, las unidades ltimas o 3
ESTADSTICA
ms elementales del conjunto poblacional, sin necesidad de tener que seleccionar ningn otro tipo de unidad intermedia. Ejercicio. Si estadistas del gobierno quieren estudiar la opinin de los profesores de las escuelas primarias estadounidenses hacia ciertos programas federales, podran estratificar primero el pas por estados o algunas otras subdivisiones geogrficas. Para tomar medida de cada estrato, podran usar el muestreo de conglomerados subdividiendo cada estrato en un nmero determinado de subdivisiones geogrficas ms pequeas y finalmente podran usar un muestreo aleatorio simple o un muestreo sistemtico para seleccionar una muestra de profesores de educacin primaria de cada conglomerado. 3.2 ESTIMACIN PUNTUAL. Un estimador de un parmetro poblacional dado por un numero sencillo se llama estimador puntual del parmetro. Un estimador de un parmetro poblacional dado por dos nmeros entre los cuales se puede considerar que esta el parmetro, se llama estimacin por intervalo del parmetro.
3.2.1 PROPIEDADES.
Existe una propiedad que comprende conjuntamente las propiedades de insesgamiento y eficiencia. Se trata del error cuadrtico medio. Sea un estimador del parmetro . El error cuadrtico medio de , denotado , se define como el valor esperado de

Nos referimos al promedio de los cuadrados de las observaciones. Si ste es pequeo, debemos aceptar que hay una tendencia para que los valores ) sean pequeos, y as lo ser tambin la diferencia ), lo que quiere decir que T tiende a producir respuestas numricas prximas al parmetro . El poder que tenga T para producir valores prximos a depende de dos condiciones bsicas. Una es la fuerza o intensidad con la que tiende a dar esos valores (insesgamiento) y la otra es la fuerza que tenga para no permitir que se aparte de del camino que lo conduce a (eficiencia). Estas dos condiciones matemticamente quedan establecidas y precisadas en el teorema siguiente: TEOREMA Si T es un estimador del parmetro ,

4
ESTADSTICA
3.2.1.1 INSESGADO.
, para Se dice que un estimador puntual es un estimador insesgado de , si todo valor posible de . En otras palabras, un estimador insesgado es aquel para el cual la media de la distribucin muestral es el parmetro estimado. Si se usa la media muestral para estimar la media poblacional , se sabe que la , por lo tanto la media es un estimador insesgado. Ejercicio. La media varianza y varianza , ya que , son estimadores insesgados de la media de la poblacin y . Los valores de y se denominan es un estimador sesgado de , ya que, en
estimadores insesgados. Sin embargo, . general , 3.2.1.2 CONSISTENTE.
Una estadstica es un estimador coherente de un parmetro de poblacin, si al aumentar el tamao de la muestra se tiene casi la certeza de que el valor de la estadstica se aproxima bastante al valor del parmetro de la poblacin. Si un estimador es coherente se vuelve ms confiable si tenemos tamaos de muestras ms grandes. Un estimador es suficiente si utiliza una cantidad de la informacin contenida de la muestra que ningn otro estimador podra extraer informacin adicional de la muestra sobre el parmetro de la poblacin que se est estimando. Es decir se pretende que al extraer la muestra el estadstico calculado contenga toda la informacin de esa muestra. Por ejemplo, cuando se calcula la media de la muestra, se necesitan todos los datos. Cuando se calcula la mediana de una muestra slo se utiliza a un dato o a dos. Esto es solo el dato o los datos del centro son los que van a representar la muestra. Con esto se deduce que si utilizamos a todos los datos de la muestra como es en el caso de la media, la varianza, desviacin estndar, etc; se tendr un estimador suficiente. Ejercicio. Para una poblacin normal, la distribucin muestral de la media y la mediana tienen la misma media; es decir, la media de la poblacin. Sin embargo, la varianza de la distribucin muestral de medias es ms pequea que aquella de la distribucin muestral de medianas. Por consiguiente, la media provee un estimador ms eficiente que la mediana.
5
ESTADSTICA
3.2.1.3 INSESGADO DE VARIACION MINIMA.

son dos estimadores insesgados de . Entonces, aun cuando la y Suponga que distribucin de cada estimador est centrada en el valor verdadero de , las dispersiones de las distribuciones alrededor del valor verdadero pueden ser diferentes. Entre todos los estimadores de que son insesgados, seleccione al que tenga varianza mnima. El resultante recibe el nombre de estimador insesgado con varianza mnima (MVUE, minimum variance unbiased estimator) de . En otras palabras, la eficiencia se refiere al tamao de error estndar de la estadstica. Si comparamos dos estadsticas de una muestra del mismo tamao y tratamos de decidir cul de ellas es un estimador ms eficiente, escogeramos la estadstica que tuviera el menor error estndar, o la menor desviacin estndar de la distribucin de muestreo. Tiene sentido pensar que un estimador con un error estndar menor tendr una mayor oportunidad de producir una estimacin ms cercana al parmetro de poblacin que se est considerando.
Como se puede observar las dos distribuciones tienen un mismo valor en el parmetro slo que la distribucin muestral de medias tiene una menor varianza, por lo que la media se convierte en un estimador eficiente e insesgado. Ejercicio. Si decimos que una distancia es de 5.28 metros, estamos dando un estimador puntual. Si, por otro estamos dando una estimacin por intervalo. La confiabilidad de un estimador es el conocimiento de su error o de su precisin.
6
ESTADSTICA
3.3 ESTIMACIN POR INTERVALOS DE CONFIANZA. 3.3.1 DE LA MEDIA CON CONOCIDA.
Es conocido de nosotros durante este curso, que en base a la distribucin muestral de medias que se gener en el tema anterior, la frmula para el clculo de probabilidad es la siguiente: . Como en este caso no conocemos el parmetro y lo queremos estimar por medio de la media de la muestra, slo se despejar de la formula anterior, quedando lo siguiente:
De esta frmula se puede observar que tanto el tamao de la muestra como el valor de z se conocern. Z se puede obtener de la tabla de la distribucin normal a partir del nivel de confianza establecido. Pero en ocasiones se desconoce por lo que en esos casos lo correcto es utilizar otra distribucin llamada "t" de student si la poblacin de donde provienen los datos es normal. Para el caso de tamaos de muestra grande se puede utilizar una estimacin puntual de la desviacin estndar, es decir igualar la desviacin estndar de la muestra a la de la poblacin Ejercicio. Las medidas de los dimetros de una muestra aleatoria de 200 balineras hechas por cierta maquina durante una semana mostraron una media de 0.824 centmetros y desviacin estndar 0.042 centmetros. Encuentre los lmites de confianza del a) 95% y b) 99% para el dimetro medio de todas las balineras. Ya que es grande, podemos suponer que a) Los limites de confianza del 95% son

tiene un distribucin casi normal.
b) Los limites de confianza del 99% son

7
ESTADSTICA
3.3.2 DE LA MEDIA CON
DESCONOCIDA.
En este caso usamos la distribucin para obtener los niveles de confianza. En general, los lmites de confianza para las medias de las poblaciones estn dados por:
Ejercicio. Una muestra de 10 medidas del dimetro de una esfera dio una media centimetros y desviacin estndar centimetros. Encuentre los limites de confianza del 95% para el verdadero dimetro. Los limites del 95% estn dados por Ya que Entonces, usando y , encontramos que , los limites de confianza del 95% requeridos son
3.3.3 DE LA VARIANZA.
Por consiguiente, podemos tener el 95% de confianza de que las verdaderas medias estarn entre y .
El hecho de que tenga distribucin chi cuadrado con grados y de libertad, nos permite obtener lmites de confianza para o . Por ejemplo, si son valores de para los cuales 2.5% del rea esta en cada cola de la distribucin, entonces el 95% del intervalo de confianza es
8
ESTADSTICA
O de manera equivalente
De esto vemos que
puede calcularse en el intervalo
O de manera equivalente
Con el 95% de confianza. De igual manera, se pueden encontrar otros intervalos de confianza. En general es deseable que la amplitud esperada de un intervalo de confianza sea lo ms pequea posible. Para estadsticos con distribuciones muestrales simtricas, tales como la normal y la t, esto se logra usando colas con reas iguales. Sin embargo, para distribuciones no simtricas, tales como la chi cuadrado, puede ser deseable ajustar las reas de las colas de manera que se obtenga el menor intervalo. Ejercicio. Se calcul que la desviacin estndar de los tiempos de vida de una muestra de 200 bombillas elctricas es 100 hrs. Encuentre los lmites de confianza del a) 95%, para la desviacin estndar de todas esas bombillas elctricas. En este caso se aplica la teora de muestreo grande. Por consiguiente los lmites de confianza para la desviacin estndar de la poblacin estn dados por , donde indica el nivel de confianza. Usamos la desviacin muestral estndar para calcular . Los lmites de confianza del 95% son .
Por consiguiente, podemos tener confianza del 95% de que la desviacin estndar de la poblacin estar entre .
3.3.4 DE LA PROPORCIN.
Su pongamos que el estadstico S es la proporcin de xitos en un muestra de tamao obtenida a partir de una poblacin con distribucin binomial en la que es la proporcin de xitos (es decir, la probabilidad de xito). Entonces, los limites de confianza para p estn dados por , donde es la proporcin de xitos en la muestra de
9
ESTADSTICA
tamao . Usando los valores de de la poblacin estn dados por
, vemos que los limites de confianza para proporcin
En el caso en que el muestreo se haga de una poblacin infinita o si se hace de una poblacin finita y con reemplazo. De manera similar, los lmites de confianza son
Si la toma de muestras se hace sin reemplazo de una poblacin de tamao finito N. Ejercicio. Una encuesta de 100 votantes, escogidos al azar de todos los votantes en un distrito dado, indico que el 55% est a favor de un candidato en particular. Encuentre los limites de confianza del a) 95%, b) 99%. a) Los limites de confianza del 95% de la poblacional son
Donde usamos la proporcin muestral de 0.55 para estimar . b) Los limites de confianza del 99% para son
3.4 ESTIMACIN POR INTERVALOS DE CONFIANZA. 3.4.1 DE LA DIFERENCIA DE DOS MEDIDAS CON CONOCIDAS.
Si son dos estadsticos muestrales cuya distribucin muestral es aproximadamente normal, los limites de confianza para las diferencias de los parmetros poblacionales correspondientes a , estn dados por

Mientras que los limites de confianza para la suma de los parmetros de la poblacin estn dados por
10
ESTADSTICA
Siempre y cuando las muestras sean independientes. De manera similar, los limites de confianza para a diferencia de dos proporciones de poblaciones, donde las poblaciones son infinitas, estn dados por
Donde son las dos proporciones muestrales y muestras obtenidas de la poblacin. Ejercicio.
son los tamaos de las dos
En una muestra aleatoria de 400 adultos y 600 adolescentes que vean cierto programa de televisin, 100 adultos y 300 adolescentes dijeron que les gusto. Construya los limites de confianza del 95% para la diferencia en proporciones de todos los adultos y adolescentes que vieron el programa y lo encontraron de su agrado. Los limites de confianza para la diferencia en proporciones de los dos grupos estn dados por
Donde los subndices 1 y 2 se refieren a adolescentes y adultos, respectivamente, y los complementos. Aqu y son respectivamente, la proporcin de adolescentes y adultos a los que les gusto el programa. a) Limites de confianza del 95%: . Por consiguiente, podemos tener confianza del 95% de que la diferencia verdadera de proporciones este entre 0.19 y 0.31.
3.4.2 DE LA DIFERENCIA DE DOS MEDIDAS CON
DESCONOCIDAS.
Si se tienen dos poblaciones con medias y y varianzas y , respectivamente, un estimador puntual de la diferencia entre y est dado por la estadstica . Por tanto. Para obtener una estimacin puntual de se seleccionan dos muestras aleatorias independientes, una de cada poblacin, de tamao , se calcula la diferencia , de las medias muestrales.
11
ESTADSTICA
Recordando a la distribucin muestral de diferencia de medias:

3.4.2.1 CON
IGUALES.
La
Supongamos ahora que las varianzas son desconocidas pero iguales ( distribucin de la diferencia de medias muestrales es ahora

Tenemos que eliminar el parmetro , para lo cual utilizaremos los distribuciones muestrales asociadas a las cuasi-varianzas muestrales El nuevo estadgrafo de contraste es de la forma
Los dos estadsticos toman exactamente el mismo valor por lo que pueden utilizarse indistintamente. Usaremos el calculado a partir de la cuasi-varianzas porque son estimadores insesgados de la varianza poblacional. En este caso es necesario que las varianzas sean iguales para poder despejarlas y eliminarlas en el clculo del estadgrafo de contraste. La comprobacin de la igualdad de varianzas se har posteriormente aunque sea un paso previo a la decisin del tipo de contraste. Ejercicio. Un artculo publicado dio a conocer los resultados de un anlisis del peso de calcio en cemento estndar y en cemento contaminado con plomo. Los niveles bajos de calcio indican que el mecanismo de hidratacin del cemento queda bloqueado y esto permite que el agua ataque varias partes de una estructura de cemento. Al tomar diez muestras de cemento estndar, se encontr que el peso promedio de calcio es de 90 con una desviacin estndar de 5; los resultados obtenidos con 15 muestras de cemento contaminado con plomo fueron de 87 en promedio con una desviacin estndar de 4.
12
ESTADSTICA
Supngase que el porcentaje de peso de calcio est distribuido de manera normal y que las dos poblaciones normales tienen la misma desviacin estndar. a) Encuentre un intervalo de confianza del 95% para la diferencia entre medias de los dos tipos de cemento. El estimador combinado de la desviacin estndar es:
3.4.2.2 CON
DIFERENTES.
Para hacer inferencias estadsticas sobre dos poblaciones, se necesita tener una muestra de cada poblacin. Las dos muestras sern dependientes o independientes de acuerdo a la forma de seleccionarlas. Si la seleccin de los datos de una poblacin no est relacionada con la de los datos de la otra, son muestras independientes. Si las muestras se seleccionan de manera que cada medida en una de ellas pueda asociarse naturalmente con una medida en la otra muestra, se llaman muestras dependientes. Cada dato sale de alguna fuente; una fuente es algo, una persona o un objeto, que produce datos. Si dos medidas se obtienen de la misma fuente, se puede pensar que las medidas estn pareadas. En consecuencia dos medidas que se obtienen del mismo conjunto de fuentes son dependientes. Note que si dos muestras son dependientes, entonces necesariamente tienen el mismo tamao. Si se tienen dos muestral aleatorias dependientes de tamao n, donde cada elemento de la primera muestra es pareja de un elemento de la segunda, entonces estas dos muestras dan lugar a una de parejas o a unas diferencias, como lo indica la siguiente figura. La muestra de diferencias se puede pensar como una muestra de la poblacin de diferencias de datos pareados de dos poblaciones. La media de la poblacin de diferencias es igual a la diferencias de las medias poblacionales. En consecuencia se ve que la media de la poblacin de diferencias es igual a la diferencia entre las medias poblacionales. Siguiendo la misma lnea de razonamiento, se puede demostrar que, para dos muestras dependientes, la media de sus diferencias muestrales es igual a la diferencia entre sus medias muestrales. Esto es, si , entonces Si se tiene una muestra aleatoria de n pares de datos y si las diferencias d se distribuyen normalmente, entonces el estadstico:
13
ESTADSTICA
Tiene una distribucin muestral que es una distribucin con representa la desviacin estndar de la muestra de puntajes diferencia.
, donde
Donde . Lmites del intervalo de confianza para muestras dependientes
. Cuando se usa
Ejercicio. Se hizo un estudio para definirse si los ejercicios aerbicos reducen el ritmo cardiaco de una persona durante el descanso, y al examinar a diez voluntarios antes y despus de seguir un programa de ese tipo durante seis meses, sus pulsaciones, en latidos por minuto, dieron los siguientes registros:
Voluntario Antes Despus 1 73 68 2 77 72 3 68 64 4 62 60 5 72 71 6 80 77 7 76 74 8 64 60 9 70 64 10 72 68
Use para calcular si los ejercicios aerbicos reducen el ritmo cardiaco durante el reposo. Calcule el valor de P.
Ensayo de hiptesis:

Para calcular el valor de se interpola entre 0.10 y 0.05, con 9 grados de libertad obteniendo un rea de 0.0574, pero como el ensayo es bilateral este sera un valor de por lo tanto el valor de 14
ESTADSTICA
Calcula el intervalo de confianza del ejercicio anterior.
para la diferencia de medias poblacionales del
El intervalo de confianza del es y y como contiene a cero, no podemos concluir que la dieta sea efectiva para cambiar el peso. 3.4.2.3 DE DOS MEDIAS APAREADAS.
En este caso se trata de comparar dos mtodos o tratamientos, pero se quiere que las unidades experimentales donde se aplican los tratamientos sean las mismas, lo ms parecidas posibles, para evitar influencia de otros factores en la comparacin. Este es un
procedimiento de estimacin para la diferencia de dos medias cuando las muestras son dependientes y las varianzas de las dos poblaciones no necesariamente son iguales.
Las muestras pareadas involucran un procedimiento en el cual varios pares de observaciones se equiparan de la manera ms prxima posible, en trminos de caractersticas relevantes. Los dos grupos de observaciones son diferentes slo en un aspecto o "tratamiento". Toda diferencia subsiguiente en los dos grupos se atribuye a dicho tratamiento. Las ventajas de las muestras pareadas son: 1) 2) 3) Pueden utilizar muestras muy pequeas. Se encuentran varianzas ms pequeas. Menos grados de libertad se pierden en el anlisis.
4) Resulta un error de muestreo ms pequeo (la variacin entre observaciones reduce debido a que corresponden de la forma ms prxima posible).
15
ESTADSTICA
Otro mtodo para utilizar muestras pareadas a diferencia de la situacin que se describi cuando las muestras son independientes, las condiciones de las dos poblaciones no se signan de forma aleatoria a las unidades experimentales. Ms bien, cada unidad experimental homognea recibe ambas condiciones poblacionales; como resultado, cada unidad experimental tiene un par de observaciones, una para cada poblacin. Sea el valor de tratamiento I y el valor del tratamiento II en el i-simo sujeto.
Diferencia de los tratamientos en el i-simo sujeto. Ejercicio. Se asume que se tienen puntajes de la prueba de 10 empleados antes y despus de habrseles impartido capacitacin laboral adicional. Establezca un intervalo de confianza del 90% para la media de la diferencia en el puntaje antes y despus de la capacitacin. Los puntajes aparecen en la tabla: Empleado Puntaje antes de La capacitacin del empleado 1 2 3 4 5 6 7 8 9 10 9.0 7.3 6.7 5.3 8.7 6.3 7.9 7.3 8.0 8.5 7.4 Puntaje despus de La capacitacin del empleado 9.2 8.2 8.5 4.9 8.9 5.8 8.2 7.8 9.5 8.0 7.9
di
d i2
-0.2 0.04 -0.9 0.81 -1.8 3.24 0.4 0.16
-0.2 0.16 0.5 0.25
-0.3 0.09 -0.5 0.25 -1.5 2.25 -0.5 0.25 -5.0 7.38
16
ESTADSTICA
Encontrar estimador puntual insesgado

Estimador puntual insesgado de
Determinar la variable aleatoria funcin del estimador y del parmetro cuya distribucin este definida.

Con
grados de libertad.
Determinar los valores de la variable aleatoria definida en el paso (2) de acuerdo a la probabilidad establecida.
Establecer la desigualdad con los valores de la variable aleatoria definidos en el paso y la expresin definida en el paso.
Encontrar los lmites inferiores y superiores dentro de los cuales se encuentra el parmetro Lmite superior de confianza:
Lmite inferior de confianza
Debido a que se restan los puntajes posteriores al entrenamiento de los puntajes anteriores al entrenamiento, produciendo valores negativos, se puede estar 90% seguro de que la media de los puntajes posteriores al entrenamiento est entre 0.073 y 0.927 ms altos. 3.4.3 ESTIMACIN POR INTERVALOS DE CONFIANZA DE LA RAZN DE DOS VARIANZAS. Supngase que se tienen dos poblaciones normales e independientes con varianzas desconocidas y , respectivamente. De este par de poblaciones, se tienen disponibles dos muestras aleatorias de tamaos y , respectivamente, sean y 17
ESTADSTICA
las dos varianzas muestrales. Se desea conocer un intervalo de confianza del 100 por ciento para el cociente de las dos varianzas, . Para construir el intervalo de confianza para el cociente de dos varianzas poblacionales, se coloca la varianza muestral mayor en el numerador del estadstico F. Ejercicio. Se obtienen al azar dos muestras de tamaos 16 y 10 respectivamente, de dos poblaciones con distribucin normal. Si sus varianzas son 24 y 18, respectivamente, encuentre los limites de confianza del a) 98% para el cociente de las varianzas. a) Tenemos
as que:
3.4.4 ESTIMACIN POR INTERVALOS DE CONFIANZA DE LA DIFERENCIA DE DOS PROPORCIONES.

En la seccin anterior se vio el tema de la generacin de las distribuciones muestrales, en donde se tena el valor de los parmetros, se seleccionaban dos muestras y podamos calcular la probabilidad del comportamiento de los estadsticos. Para este caso en particular se utilizar la distribucin muestral de diferencia de proporciones para la estimacin de las mismas. Recordando la formula:
Despejando
de esta ecuacin:
Aqu se tiene el mismo caso que en la estimacin de una proporcin, ya que al hacer el despeje nos queda las dos proporciones poblacionales y es precisamente lo que queremos estimar, por lo que se utilizarn las proporciones de la muestra como estimadores puntuales:
18
ESTADSTICA
Ejercicio. Se considera cierto cambio en un proceso de fabricacin de partes componentes. Se toman muestras del procedimiento existente y del nuevo para determinar si ste tiene como resultado una mejora. Si se encuentra que 75 de 1500 artculos del procedimiento actual son defectuosos y 80 de 2000 artculos del procedimiento nuevo tambin lo son, encuentre un intervalo de confianza de 90% para la diferencia real en la fraccin de defectuosos entre el proceso actual y el nuevo. Sean y las proporciones reales de defectuosos para los procesos actual y nuevo, respectivamente. De aqu, y . Con el uso de la tabla encontramos que para un nivel de confianza del 90% es de 1.645.
Como el intervalo contiene el valor de cero, no hay razn para creer que el nuevo procedimiento producir una disminucin significativa en la proporcin de artculos defectuosos comparada con el mtodo existente.
3.5 PRUEBAS DE HIPTESIS.

Si suponemos que cierta hiptesis es verdadera, pero encontramos que los resultados de una muestra aleatoria difieren marcadamente de los esperados bajo la hiptesis sobre la base del azar de la teora del muestreo, podremos decir que las diferencias observadas son significativas y nos inclinamos a rechazar la hiptesis (o al menos a no aceptarla debido a la evidencia obtenida). Por ejemplo, si de 20 lanzamientos de una moneda obtenemos 16 caras, podemos inclinarlos a rechazar la hiptesis de que la moneda es balanceada aunque posiblemente estemos equivocados. Los procedimientos que nos permiten aceptar o rechazar hiptesis o determinar si las muestras observadas difieren significativamente de los resultados esperados reciben el nombre de pruebas de hiptesis, pruebas de significancia o reglas de decisin.
19
ESTADSTICA
3.5.1 GENERALIDADES E IMPORTANCIA DE LOS ENSAYOS DE HIPTESIS.

Es importante recordar que las hiptesis siempre son proposiciones sobre la poblacin o distribucin bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del parmetro de la poblacin especificado en la hiptesis nula se determina en una de tres maneras diferentes: 1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces el objetivo de la prueba de hiptesis usualmente es determinar si ha cambiado el valor del parmetro. 2. Puede obtenerse a partir de alguna teora o modelo que se relaciona con el proceso bajo estudio. En este caso, el objetivo de la prueba de hiptesis es verificar la teora o modelo. 3. Cuando el valor del parmetro proviene de consideraciones externas, tales como las especificaciones de diseo o ingeniera, o de obligaciones contractuales. En esta situacin, el objetivo usual de la prueba de hiptesis es probar el cumplimiento de las especificaciones. Los procedimientos de prueba de hiptesis dependen del empleo de la informacin contenida en la muestra aleatoria de la poblacin de inters. Si esta informacin es consistente con la hiptesis, se concluye que sta es verdadera; sin embargo si esta informacin es inconsistente con la hiptesis, se concluye que esta es falsa. Debe hacerse hincapi en que la verdad o falsedad de una hiptesis en particular nunca puede conocerse con certidumbre, a menos que pueda examinarse a toda la poblacin. Usualmente esto es imposible en muchas situaciones prcticas. Por tanto, es necesario desarrollar un procedimiento de prueba de hiptesis teniendo en cuenta la probabilidad de llegar a una conclusin equivocada. Ejercicio. Suponga que se tiene inters en la rapidez de combustin de un agente propulsor slido utilizado en los sistemas de salida de emergencia para la tripulacin de aeronaves. El inters se centra sobre la rapidez de combustin promedio. De manera especfica, el inters recae en decir si la rapidez de combustin promedio es o no . Esto puede expresarse de manera formal como

La proposicin , se conoce como hiptesis nula, mientras que la proposicin , recibe el nombre de hiptesis alternativa. Puesto que la hiptesis alternativa especifica valores de que pueden ser mayores o menores que 50 cm/s, tambin se conoce como hiptesis alternativa bilateral.
20
ESTADSTICA
En algunas situaciones, lo que se desea es formular una hiptesis alternativa unilateral, como en

3.5.2 HIPTESIS NULA O HIPTESIS ALTERNA.

Con el fin de llegar a una decisin es til hacer suposiciones o conjeturas sobre las poblaciones involucradas. Tales suposiciones, que pueden ser o no ciertas, reciben el nombre de hiptesis estadsticas y, en general, son planteamientos sobre la distribucin de probabilidad de las poblaciones. Por ejemplo, si vamos a decidir si cierta moneda esta cagada, formulamos la hiptesis de que la moneda es balanceada, es decir, , donde es la probabilidad de obtener caras. De igual manera, si queremos decidir si un procedimiento es mejor que otro formulamos la hiptesis de que no hay diferencia entre los procedimientos (as, cualquier diferencia observada se debe a meras fluctuaciones en el muestreo de la misma poblacin). Tales hiptesis se llaman hiptesis nulas o simplemente hiptesis, y se denota como . Cualquier hiptesis que difiera de la hiptesis nula dada se llama hiptesis alterna. Si la hiptesis nula es , las hiptesis alternas posibles son . Una hiptesis alterna de la hiptesis nula se denota por . Ejercicio. Un fabricante de aparatos domsticos est considerando la compra de una nueva mquina para prensar partes metlicas. SI es el numero promedia de partes buenas prensadas por hora con su mquina antigua y es el promedio correspondiente para la maquina nueva, el fabricante quiere probar la hiptesis nula contra una alternativa pertinente. Cul debera ser la alternativa si a) No quiere comprar la maquina nueva a menos de que sea ms productiva que la antigua; b) B) quiere comprar la maquina nueva (que tiene otras caractersticas atractivas) a menos de que sea menos productiva que la antigua? Sol. a) El fabricante debera usar la hiptesis alternativa nueva solo si se puede rechazar la hiptesis nula. b) El fabricante debera usar la hiptesis alternativa menos de que se rechace la hiptesis nula. y comprar la maquina
y comprar la maquina nueva a
21
ESTADSTICA
3.5.3 NIVEL DE SIGNIFICACIN Y REGLAS DE DECISIN.

Al probar una hiptesis dada, la probabilidad mxima con la que queremos tomar el riesgo de un error tipo I se llama nivel de significancia de la prueba. Esta probabilidad se especifica antes de que se hayan tomado muestras, para que los resultados obtenidos no influyan en nuestra decisin. En la prctica, niveles de significancia de 0.05 0.01 son habituales, aunque se pueden usar otros valores. Si por ejemplo, al disear una prueba de hiptesis escogemos un nivel de significancia de 0.05 5%, entonces hay una probabilidad de 5 en 100 de que rechacemos la hiptesis cuando deberamos aceptarla, es decir, siempre que la hiptesis nula sea verdadera, tenemos cerca del 95% de confianza de que tomaremos la decisin correcta, en tales casos decimos que rechazamos la hiptesis con un nivel de significancia de 0.05, lo cual significa que podemos estar equivocados con probabilidad de 0.05. Nuestra eleccin del estndar mnimo para una probabilidad aceptable, o el nivel de significancia, es tambin el riesgo que asumimos al rechazar una hiptesis nula cuando es cierta. Mientras ms alto sea el nivel de significancia que utilizamos para probar una hiptesis, mayor ser la probabilidad de rechazar una hiptesis nula cuando es cierta. Ejercicio. Una marca de nueces afirma que, como mximo, el 6% de las nueces estn vacas. Se eligieron 300 nueces al azar y se detectaron 21 vacas. Con un nivel de significacin del 1%, se puede aceptar la afirmacin de la marca? Enunciamos las hiptesis nula y alternativa:

Zona de aceptacin
Determinamos el intervalo de confianza:
Verificacin. Decisin: Aceptamos la hiptesis nula . Con un nivel de significacin del 1%. 22
ESTADSTICA
3.5.4 ERRORES DEL TIPO I y II.

Si rechazamos una hiptesis cuando da la casualidad que es verdadera, decimos que se ha cometido un error de tipo I. Si, por el contrario, aceptamos una hiptesis cuando esta ha debido rechazarse, decimos que se ha cometido un error de tipo II. En cualquier caso, se ha tomado una mala decisin o se ha hecho un error de juicio. Para que cualquier prueba de hiptesis o las reglas de decisin sean adecuadas, se deben disear de manera que reduzcan los errores de la decisin. Esto es sencillo ya que, para un tamao muestral dado, el intento de disminuir un tipo de error va generalmente acompaado del incremento en el otro tipo de error, En la prctica, un tipo de error puede ser ms grave que el otro, de manera que debemos inclinarnos a favor de una limitacin del error ms grave. La nica manera de reducir ambos tipos de error es incrementando el tamao de la muestra, lo cual puede o no ser posible.
Ejercicio. Suponga que el miembro de la comisin de planificacin en realidad toma la muestra y obtiene minuto. Qu decisin tomaran los miembros de la comisin de planificacin y estarn cometiendo un error si en realidad a) b) minutos minutos?
Ya que cae en el intervalo de 40.5 a 44.4, aceptaran la hiptesis nula de que en promedio los automviles permanecen en el rea de estacionamiento momentneo durante 42.5 minutos. a) dado que la hiptesis nula es verdadera y se acepta, no estarn cometiendo un error b) Puesto que la hiptesis nula es falsa pero se acepta, estarn cometiendo un error tipo II
23
ESTADSTICA
3.6 PRUEBAS DE HIPTESIS. 3.6.1 PARA LA MEDIA. Las suposiciones para esta prueba son mnimas. La poblacin o distribucin de inters tiene una media y una varianza , conocida. El estadstico de prueba se basa en la media muestral , por lo que tambin se supondr que la poblacin est distribuida de manera normal o que se aplican las condiciones del teorema del lmite central. Esto significa que la distribucin de es aproximadamente normal con una media y una varianza , Aqu , la media muestral; , la media de la poblacin; donde es la desviacin estndar de la poblacin y es el tamao muestral. La variable estandarizada est dada por:
Cuando es necesario, la desviacin estndar muestral, o , se utiliza para estimar . Para probar la hiptesis nula de que la media de la poblacin es podemos usar el estadstico. Entonces si la hiptesis alterna es , usando la prueba de dos colas, podemos aceptar (o al menos no rechazarla) al nivel de significancia de 0.05 si para una muestra particular de tamao con media .
Y podemos rechazarla de otra manera. Para otros noveles de significancia podemos cambiar de manera apropiada, para probar en contra de la hiptesis alternativa de que la media de la poblacin es mayor que a, podemos usar la prueba de una cola y aceptar (o al menos no rechazarla) al nivel de 0.05 si
Y rechazarla de otra manera. Para probar en contra de la hiptesis alterna de que la media de la poblacin es menor que a, podemos aceptar al nivel del 0.05 si
24
ESTADSTICA
Ejercicio. Se calculo que el tiempo de vida medio de una muestra de 100 bombillas fluorescentes producidas por una compaa es de 1570 horas con desviacin estndar de 120 horas. Si es el tiempo de vida medio de todas las bombillas producidas por la compaa, pruebe la hiptesis horas en contra de una hiptesis alterna horas, usando un nivel de significancia de 0.05. Encuentre el valor de en la prueba.
Debemos decidir entre dos hiptesis

Se debe usar una prueba de dos colas ya que ms grandes y ms pequeos que 1600.
incluye los valores
Para una prueba de dos colas con nivel de significancia de 0.05, tenemos la siguiente regla de decisin: 1) Rechazar la si el valor . 2) De otra manera aceptar de la media muestral esta por fuera del rango (o abstenerse a tomar la decisin).
El estadstico bajo consideracin es la media muestral . La distribucin muestral de tiene media y desviacin estndar , donde y son la media y la desviacin estndar de la poblacin de todas las bombillas producidas por la compaa. Bajo la hiptesis , tenemos y , usando la desviacin estndar muestral como un estimador de . Dado que se encuentran fuera del rango de , rechazamos la al nivel de significancia de 0.05.
3.6.2 PARA LA PROPORCIN.

Aqu la proporcin de xitos en una muestra; es el tamao muestral; La variable estandarizada est dada por , donde es la donde
proporcin de xitos en la poblacin y
25
ESTADSTICA
En el caso convierte en:
, donde
es el nmero verdadero de xitos en una muestra, se
Se pueden hacer observaciones similares a las hechas atrs sobre pruebas de una y dos colas para medias. Ejercicio. Tenemos dos grupos, A y B, cada uno de 100 personas que sufren una enfermedad. Se le da un suero al grupo A, pero no al grupo B (grupo de control); para lo dems, ambos grupos se manejan de manera idntica. Se encontr que en los grupos Ay B, 75 y 65 personas, respectivamente, se recuperaron de la enfermedad. Pruebe la hiptesis de que el suero ayuda a curar la enfermedad usando un nivel de significancia de 0.01. Sean y , respectivamente, las proporciones de la poblacin curada usando el suero sin usar el suero. Debemos decidir entre estas dos hiptesis.
. Y las diferencias observadas de deben al azar, es decir, el suero

no es efectivo Bajo la hiptesis
y el suero es efectivo ,
Donde usamos como estimado de grupos muestrales, dados por Entonces:
la proporcin promedio de curas en los dos , y donde .
Con base en una prueba de una cola con nivel de significancia e 0.01, podemos rechazar la hiptesis si solo el valor fuera mayor que 2.33. Dado que el valor es solo 1.54, debemos concluir que, con este nivel de significancia, los resultados se deben al azar.
26
ESTADSTICA
3.6.3 PARA LA VARIANZA.

Para probar la hiptesis las variables aleatorias de que una poblacin normal tiene varianza , consideramos
La cual tiene la distribucin chi cuadrado con grados de libertad. Entonces, si una muestra aleatoria de tamao resulta tener varianza , podemos, sobre la base de la prueba de dos colas, aceptar (o al menos no rechazarla) al nivel de 0.05 si
Y rechazarla de otra manera. Se obtiene un resultado similar para el nivel de 0.01 u otro nivel. Para probar la hiptesis de de que la varianza de la poblacin es mayor que , podemos aun usar la hiptesis nula pero ahora emplearemos la prueba de una cola. As, podemos rechazar al nivel de 0.05 (y por consiguiente concluir que es correcta) si la varianza de la muestra particular es tal que
Y aceptamos Ejercicio.
(o al menos no la rechazamos) de otra manera.
Datos:

Suponga que un fabricante de pernos est produciendo pernos de de dimetro, y que los dimetros de estas piezas se distribuyen normalmente; con propsitos de control de calidad, se obtuvo una muestra de 25 pernos de una lnea de produccin para estimar la varianza de todos los dimetros, la cual result ser . Con un nivel de significancia de 0.05. Se puede concluir que la varianza poblacional es igual o menor ?
Establecer la hiptesis

E
27
ESTADSTICA
Establecer la estadstica de prueba zona de rechazo.
. Definir el nivel de significancia y la
Nivel de significancia = 0.05 Zona de Rechazo =

Calcular la estadstica de prueba. Como la esta bajo la hiptesis nula entonces tenemos
Como 21.6 es menor que 36.415 no se rechaza la hiptesis nula con un nivel de significancia de 0.05. Conclusin: Existe evidencia estadstica para decir que la varianza poblacional es igual o menor .
3.6.4 PARA LA DIFERENCIA DE MEDIAS.

las medias muestrales obtenidas en muestras grandes de tamaos y y Sean de poblaciones respectivas con media y y desviaciones estndar y . Considere la hiptesis nula de que no hay diferencia entre las medias de las poblaciones, es decir, . Reemplazando vemos que la distribucin muestral de diferencias con medias es aproximadamente normal con media y desviacin estndar dadas por
Donde podemos, si es necesario, usar las desviaciones estndar observadas estimados de . Usando la variable estandarizada dada por
como
28
ESTADSTICA
Podemos probar la hiptesis nula en contra de la hiptesis alterna (o de significancia de la diferencia observada) a un nivel adecuado de significancia. Ejercicio. Se evaluaron dos cursos de 40 y 50 estudiantes. En el primer curso la nota promedio fue de 74 con desviacin estndar de 8, mientras que en el segundo curso la nota promedio fue de 78 con desviacin estndar de 7. Existe alguna diferencia en el rendimiento de los dos cursos con nivel de significancia de 0.05. Cul es el valor de de la prueba? Supongamos que los dos cursos vienen de dos poblaciones con medias respectivas . Entonces tenemos que decidir entre estas hiptesis:
y la diferencia se debe al azar. y hay una diferencia significativa entre ambos cursos.
Bajo la hiptesis , ambos cursos viene de la misma poblacin. La media y la desviacin estndar de la diferencia de medias est dada por
Donde usamos las deviaciones estndar muestrales como estimadores de .Entonces:
Para una prueba de dos colas, los resultados son significativos al nivel de 0.05 si esta por afuera del rando a . Entonces concluimos que al nivel de 0.05 hay una diferencia significativa en el desempeo de los dos cursos y que probablemente el segundo curso es mejor.
3.6.5 PARA LA DIFERENCIA DE PROPORCIONES.

Sean y las proporciones muestrales obtenidas en muestras grandes de tamaos y de las poblaciones respectivas con proporciones y . Considere la hiptesis nula de que no hay diferencia entre las proporciones de la poblacin, es decir, , y por lo tanto, de que las muestras se tomaron realmente de la misma poblacin.
29
ESTADSTICA
Usando la variable estandarizada

Podemos probar diferencias observadas a un nivel apropiado de significancia y de all probar la hiptesis nula. Ejercicio. Una encuesta hecha a 300 votantes del distrito A y a 200 del distrito B mostro que 56% y 48%, respectivamente, estaban a favor de un candidato dado. Con el nivel de significancia de 0.05 pruebe la hiptesis de que: Hay diferencia entre los distritos. Sean y las proporciones de todos los votantes de los distritos A y B, respectivamente, que estn a favor del candidato. Bajo la hiptesis
, tenemos
Donde usamos como estimadores de y , tenemos

los valores
Si solamente queremos determinar si hay una diferencia entre los distritos, debemos decidir entre la hiptesis y , lo que involucra una prueba de dos colas. Con base en una prueba de dos colas con nivel de significancia de 0.05, debemos rechazar , si Z esta fuera del intervalo -1.96 a 1.96. Dado que esta dentro del intervalo, no podemos rechazar con este nivel de significancia, es decir, no hay diferencia significativa entre los dos distritos.
3.6.6 PARA LA RELACIN DE VARIANZAS.

En algunos problemas queremos decidir si dos muestras de tamao y , respectivamente, cuyas varianzas son y , provienen o no de poblaciones normales con la misma varianza, en tales casos, usamos el estadstico.
30
ESTADSTICA
Donde y son las varianzas de dos poblaciones normales de las cuales se tomaron las muestras. Supongamos que denota la hiptesis nula de que no hay diferencia entre las varianzas de las poblaciones, es decir . Entonces, bajo esta hiptesis se convierte en:
Para probar esta hiptesis al nivel de 0.10, por ejemplos, primero debemos observar que tiene la distribucin con grados de libertad. Entonces, usando una prueba de dos colas, podemos aceptar al nivel de 0.10 si
Y rechazarla de otra manera. Se pueden formular procedimientos similares usando pruebas de una cola en caso de que queramos probar la hiptesis de que la varianza de una poblacin partculas es, de hecho, mayor que la otra. Ejercicio. Un instructor tiene dos cursos, A y B en una materia en particular. El curso A tiene 16 estudiantes mientras que el B tiene 25. En el mismo examen, a pesar de que no hubo diferencias significativas en las notas promedio, el curso A tuvo una desviacin estndar de 9 mientras que el B tuvo una desviacin estndar de 12. Podemos concluir que al nivel de significancia de 0.01, la variabilidad del curso B es mayor que el de A? Sol. Usemos los subndices 1 y 2 para los cursos Ay B, respectivamente. Tenemos entonces, de manera que

Debemos decidir entre las hiptesis
, y cualquier variacin se debe al azar , y la variacin del curso B es mayor que la del A
Por lo tanto, la decisin de debe basar en una prueba de una cola de la distribucin F. para las muestras en cuestin.
31
ESTADSTICA
El nmero de grados de libertad asociados con el numerador es para el denominador, grados de libertad. Al nivel de 0.01 para 24, 15 grados de libertad tenemos del apndice , Entonces, dado que , no podemos rechazar al nivel de 0.01.
3.7 AJUSTE DE DISTRIBUCIONES DE FRECUENCIA A DISTRIBUCIONES DE PROBABILIDAD. 3.7.1 AJUSTE A UNA DISTRIBUCIN BINOMIAL.
La distribucin binomial se caracteriza porque su funcin de probabilidad viene dada por la expresin siguiente:
Donde es el nmero de xitos asociado al experimento aleatorio. En una distribucin binomial se verifica que:
y
La probabilidad de que aparezca al menos un xito en las n repeticiones es igual a: La probabilidad de que se produzca un xito como mximo en las se determina como: repeticiones
En ocasiones, el clculo de la probabilidad de una distribucin binomial del tipo resulta muy complicado. Segn demostr el matemtico francs Abraham de Moivre (1667-1754), la probabilidad de una distribucin binomial puede aproximarse por medio de una distribucin normal de tipo que resulta particularmente adecuada cuando:
y y
El valor de n es muy elevado. Tanto y son que 5. (Obsrvese que cuanto mayor es a tanto mejor es la aproximacin realizada).
y ms se aproxima
Para transformar una distribucin binomial (de variable discreta) en una normal (de variable continua). Ejercicio. Supongamos que un importador de juguetes recibe mensualmente 100 cajas de una determinada modelo, y cada una de las cajas contiene 4 juguetes. Durante el primer mes, para poder calcular los costes reales de los juguetes, lleva a cabo un estudio en el que 32
ESTADSTICA
obtiene:
El empresario calcula en primer lugar el medio de juguetes defectuosos por caja, obteniendo media . Si la distribucin de juguetes defectuosos por caja fuera una la media sera , luego despejando, . Para ver si se ajusta o no a la calculamos para esta ltima la probabilidad de "xitos" (juguetes defectuosos), y obtenemos:
A partir de aqu, el empresario puede asumir que la probabilidad de que un juguete sea defectuoso es del , podr hacer previsiones para las 5000 cajas de que va a constar su prximo pedido.
Y por tanto, en 100 cajas, las "tericas" apariciones de los valores , que son muy similares a las encontradas en la muestra.
, seran:
3.7.2 AJUSTE A UNA DISTRIBUCIN DE POISSON.

La distribucin de Poisson describe el nmero de sucesos discretos que ocurren en serie, o en una secuencia, y que muestran una independencia de tipo muy particular. Ellos son independientes en cuanto que su ocurrencia en un intervalo de tiempo (de distancia o rea) depende slo del largo del intervalo sobre el cual son contados, pero no depende de donde se ubica el intervalo ni de las ocurrencias en otros intervalos no sobrepuestos. As los sucesos ocurren aleatoriamente, pero a una tasa temporal media constante. Este tipo de independencia resulta difcil de probar en datos atmosfricos, pero resulta til en casos en que el grado de dependencia no sea muy fuerte. Los sucesos de tipo Poisson deben ser suficientemente raros para que la probabilidad de ocurrencia de ms de uno sea muy pequea. Otra forma de motivar la ocurrencia de tipo Poisson es como el caso lmite de la distribucin binomial, con p tendiendo a cero y N tendiendo a infinito. La distribucin de Poisson tiene slo un parmetro, que especifica la tasa promedio de ocurrencia, suele denominarse la intensidad del fenmeno y sus dimensiones son ocurrencias en la unidad de tiempo. La distribucin de Poisson es:
Para ajustar la distribucin de Poisson a la muestra de datos lo ms simple es usar el mtodo de los momentos, es decir se igualan los momentos de la muestra con los momentos de la distribucin o poblacin. Recordando que el primer momento es el promedio de la muestra, resulta muy fcil el ajuste en el caso de la distribucin de 33
ESTADSTICA
Poisson. Simplemente el promedio, es igual al nmero de ocurrencias de la v.a. en la unidad de tiempo.
Ejercicio. Con base en las frecuencias observadas en la tabla anterior, pruebe en el nivel de significancia 0.05 si hay algn indicio de que los dgitos de la tabla XI no se puedan considerar como aleatorios. La probabilidad de cada digito es 0.10 No todas las probabilidades son 0.10
Se rechaza la hiptesis nula si
, donde
Y 16.919 es el valor de para , grados de libertad, de otra manera, se seala que no hay ningn indicio de que los dgitos de la tabla no se puedan considerar como aleatorios. (Aqu por que ninguno de los parametros de la distribucin de la probabilidad se deba estimar apartir de los datos de la muestra). Sustituyendo las frecuencias observadas y esperadas de la tabla de la pgina 373 en la frmula para , obtenemos
Dado que 7.92 no es mayor que 16.919, no se puede rechazar la hiptesis nula; en otras palabras, no hay indicios de que no se puedan considerar los dgitos de la tabla XI como aleatorios.
3.7.3 AJUSTE A UNA DISTRIBUCIN NORMAL.

Entre las distribuciones probabilsticas de variable continua, la ms ampliamente utilizada es la llamada distribucin normal, cuya representacin grfica tiene una forma muy conocida en el mbito de la estadstica y las ciencias naturales: la campana de Gauss. El clculo de las probabilidades asociadas a una distribucin normal por medio de integrales resulta, en general, complejo. Por ello, suele utilizarse una funcin de distribucin de apoyo cuya media es 0 y cuya desviacin tpica es la unidad. Tal funcin se denomina distribucin normal tipificada, y se expresada como
34
ESTADSTICA
Se llama tipificacin a la operacin consistente en cambiar de una variable aleatoria X a otra variable Z de distribucin tipificada, por medio de la expresin siguiente:
Ejercicio. Pruebe en el nivel de significancia 0.05 si se pueden considerar los datos de la pagina 374 como valores de una variable aleatoria que tiene una distribucin binomial. La variable aleatoria tiene una distribucin binomial. La variable aleatoria no tiene una distribucin binomial.
Se rechaza la hiptesis nula si
, donde
Y 9.488 es el valor de para grados de libertad; de otro modo se acepta la hiptesis nula o se reserva la opinin. (Aqu, por que se deban sumar seis parmetros para obtener y por que se tena que estimar a partir de los datos observados.) Sustituyendo las frecuencias observadas y esperadas de la tabla anterior en la frmula para , obtenemos
Puesto que no es mayor que 9.488, no se debe rechazar la hiptesis nula; en otras palabras, no hay ninguna evidencia real de que la variable aleatoria (el nmero de autobuses que llegan retrasados por semana) no tenga una distribucin binomial.
3.8 ESTADSTICA NO PARAMTRICA.

La mayora de las pruebas de hiptesis y significancia o reglas de decisin, requieren de varias suposiciones acerca de la distribucin de la poblacin de la que se toman las muestras. En la prctica surgen situaciones en las cuales tales suposiciones pueden no justificarse o en las que hay duda de que aplican, como en el caso en que una poblacin puede estar altamente sesgada. Debido a esto, los estadsticos han ideado diferentes pruebas y mtodos que son independientes de las distribuciones de la poblacin y de sus parmetros asociados. Estas se denominan pruebas no paramtricas. Las pruebas no paramtricas se pueden usar como un mtodo abreviado para reemplazar pruebas ms 35
ESTADSTICA
complejas. Son especialmente valiosas al tratar con datos no numricos, tales como los que surgen cuando los consumidores ordenan cereales u otros productos en orden de preferencia.
3.8.1 PRUEBA DEL SIGNO.

Una prueba no paramtrica sencilla para el caso de tales muestras pareadas, es la prueba del signo. Esta prueba consiste en tomar la diferencia entre los nmeros de tornillos defectuosos por da y escribir solamente el signo de la diferencia. Tambin se puede utilizar la prueba de signo para probar la hiptesis nula para observaciones pareadas. Aqu se reemplaza cada diferencia, , con un signo ms o menos dependiendo si la diferencia ajustada, , es positiva o negativa. A lo largo de esta seccin suponemos que las poblaciones son simtricas. Sin embargo, aun si las poblaciones son asimtricas se puede llevar a cabo el mismo procedimiento de prueba, pero las hiptesis se refieren a las medianas poblacionales en lugar de las medias. La probabilidad de obtener un valor muestral menor que la mediana y la probabilidad de obtener un valor muestral mayor que la mediana son . Si los valores de la poblacin estn distribuidos simtricamente alrededor de la mediana, entonces la mediana y la media son iguales. Solo ocasionalmente nos vemos en una situacin que nos permite suponer la simetra de una poblacin. Los procedimientos que siguen por lo regular se describirn en trminos de la mediana pero debemos recordar que en ciertas situaciones la mediana y la media son iguales. Aunque la prueba del signo es particularmente til para las muestras pareadas, tambin se puede usar para problemas que involucran muestras sencillas. Ejercicio. Con relacin a la tablas 10-1, pruebe la hiptesis la hiptesis de que no hay diferencia entre maquinas I y II, contra la hiptesis de que hay diferencia al nivel de significancia de 0.05. La figura 10-1 es una grafica de la distribucin binomial (y de la aproximacin normal a ella) que da las probabilidades de X caras en 12 lanzamientos de una moneda balanceada, donde la probabilidad de X caras es:

Dado que es la hiptesis de que hay una diferencia entre las maquinas, en contra de la hiptesis de que la maquina I es mejor que la maquina II, usamos una prueba de dos colas. Para el nivel de significancia de 0.05, cada cola tiene la probabilidad asociada
De donde

36
ESTADSTICA
Ahora agregamos las probabilidades al lado izquierdo hasta que la suma supere 0.025. As:
caras caras
Dado que 0.025 es mayor que 0.01928, pero menor que 0.07299, podemos rechazar la hiptesis si el numero de caras es 2 o menor (o por simetra, si el numero de caras es 10 o mayor). Sin embargo, el numero de caras (los signos + de la secuencia) es 3. Por lo tanto, no podemos rechazar al nivel de 0.05 y debemos concluir que no hay diferencia entre las maquinas a este nivel.
3.8.2 PRUEBA DE WILCOXON.

Se puede notar que la prueba de signo utiliza slo los signos ms y menos de las diferencias entre las observaciones y en el caso de una muestra, o los signos ms y menos de las diferencias entre los pares de observaciones en el caso de la muestra pareada, pero no toma en consideracin la magnitud de estas diferencias. Una prueba que utiliza direccin y magnitud, propuesta en 1945 por Frank Wilcoxon, se llama ahora comnmente prueba de rango con signo de Wilcoxon. Esta prueba se aplica en el caso de una distribucin continua simtrica. Bajo esta condicin se puede probar la hiptesis nula . Primero se resta de cada valor muestral y se descarta todas las diferencias iguales a cero. Se asigna un rango de 1 a la diferencia absoluta ms pequea, un rango de 2 a la siguiente ms pequea, y as sucesivamente. Cuando el valor absoluto de dos o ms diferencias es el mismo, se asigna a cada uno el promedio de los rangos que se asignaran si las diferencias se distinguieran. Por ejemplo, si la quinta y sexta diferencia son iguales en valor absoluto, a cada una se le asignara un rango de 5.5. Si la hiptesis es verdadera, el total de los rangos que corresponden a las diferencias positivas debe ser casi igual al total de los rangos que corresponden a las diferencias negativas. Se representan esos totales como y , respectivamente. Se designa el menor de y con . Al seleccionar muestras repetidas esperaramos que variaran y , y por tanto . De esta manera se puede considerar a y , y como valores de las correspondiente variables aleatorias , , y . La hiptesis nula se puede rechazar a favor de la alternativa slo si w+ es pequea y es grande. Del mismo modo, la alternativa se puede aceptar slo si es grande y es pequea. Para una alternativa bilateral se puede rechazar a favor de si o y por tanto w son suficientemente pequeas. No importa cul hiptesis alternativa puede ser, rechazar la hiptesis nula cuando el valor de la estadstica apropiada , ,o es suficientemente pequeo.
37
ESTADSTICA
Dos Muestras con Observaciones Pareadas. Para probar la hiptesis nula de que se muestrean dos poblaciones simtricas continuas con para el caso de una muestra pareada, se clasifican las diferencias de las observaciones paradas sin importar el signo y se procede como en el caso de una muestra. Los diversos procedimientos de prueba para los casos de una sola muestra y de una muestra pareada se resumen en la siguiente tabla:
No es difcil mostrar que siempre que y el nivel de significancia no exceda 0.05 para una prueba de una cola 0.10 para una prueba de dos colas, todos los valores posibles de , , o w conducirn a la aceptacin de la hiptesis nula. Sin embargo, cuando , la tabla A.16 muestra valores crticos aproximados de y para niveles de significancia iguales a 0.01, 0.025 y 0.05 para una prueba de una cola, y valores crticos de para niveles de significancia iguales a 0.02, 0.05 y 0.10 para una prueba de dos colas. La hiptesis nula se rechaza si el valor calculado , es menor o igual que ,o el valor de tabla apropiado. Por ejemplo, cuando la tabla muestra que se requiere un valor de 17 para que la alternativa unilateral sea significativa en el nivel 0.05. Ejercicio. Los siguientes datos representan el nmero de horas que un compensador opera antes de requerir una recarga: 1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0, 1.2 y 1.7. Utilice la prueba de rango con signo para probar la hiptesis en el nivel de significancia de 0.05 que este compensador particular opera con una media de 1.8 horas antes de requerir una recarga.

38
ESTADSTICA
Se proceder a efectuar las diferencias y a poner rango con signo a los datos. Dato 1.5 2.2 0.9 1.3 2.0 1.6 1.8 1.5 2.0 1.2 1.7 Regla de decisin: Para una despus de descartar la medicin que es igual a 1.8, la tabla muestra que la regin crtica es

di = dato - 1.8 -0.3 0.4 -0.9 -0.5 0.2 -0.2 0 -0.3 0.2 -0.6 -0.1
Rangos 5.5 7 10 8 3 3 Se anula 5.5 3 9 1
Por lo que

(menor entre
).
Decisin y Conclusin: Como 13 no es menor que 8, no se rechaza H0 y se concluye con un tiempo promedio de operacin no es significativamente diferente de 1.8 horas. que el
39
ESTADSTICA
3.8.3 PRUEBA DE KRUSKAL-WALLIS.

La prueba U es no paramtrica y se usa para decidir si dos muestras provienen o no de la misma poblacin. La prueba de Kruskal-Wallis, o la prueba , es una generalizacin de esto para muestras.
Esta prueba se puede describir as: Su pongamos que tenemos muestras de tamaos siendo el tamao total de todas las muestras juntas . Supongamos, adems, que los datos de todas las muestras juntas se ordenan y que las sumas de los rdenes para las muestras son , respectivamente. Si definimos el estadstico:
Entonces se puede demostrar que la distribucin muestral de tiene casi distribucin chi cuadrado con grados de libertad, siempre y cuando sean al menos 5. La prueba ofrece un mtodo no paramtrico en el anlisis de varianza para clasificaciones simples o experimentos con un factor, y es posible hacer generalizaciones. Como consecuencia, rechazamos la hiptesis nula de que las poblaciones de las que se efecta el muestreo son idnticas, y aceptamos la hiptesis alternativa de que no todas las medias de estas poblaciones son iguales, si el valor que obtenemos para es mayor o igual que para grados de libertad. Ejercicio. Se escogen al azar 3 muestras de una poblacin. Acomodando los datos segn rango obtenemos la tabla 10-21. Determine si hay alguna diferencia al nivel de significancia de 0.05 entre las muestras. Muestra 1 Muestra 2 Muestra 3
7 4 6 10 11 9 12 5 1 3 8 2
As
As, dado que no Para grados de libertad, podemos concluir que hay una diferencia significativa entre las muestras al nivel de 0.05.
40

Unidad 3 Estimación y Prueba de Hipotesis

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Unidad 3 Estimación y Prueba de Hipotesis

Uploaded by

Copyright:

Available Formats

ESTADSTICA

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS. 3.1 MUESTREO ALEATORIO.

3.1.1 ALEATORIO SIMPLE.

muestras posibles tiene la misma

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

3.1.4 POR CONGLOMERADOS.

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

estimadores insesgados. Sin embargo, . general , 3.2.1.2 CONSISTENTE.

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

3.2.1.3 INSESGADO DE VARIACION MINIMA.

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

3.3 ESTIMACIN POR INTERVALOS DE CONFIANZA. 3.3.1 DE LA MEDIA CON CONOCIDA.

tiene un distribucin casi normal.

b) Los limites de confianza del 99% son

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

3.3.2 DE LA MEDIA CON

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

De esto vemos que

puede calcularse en el intervalo

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

tamao . Usando los valores de de la poblacin estn dados por

, vemos que los limites de confianza para proporcin

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

son los tamaos de las dos

3.4.2 DE LA DIFERENCIA DE DOS MEDIDAS CON

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

Recordando a la distribucin muestral de diferencia de medias:

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

Donde . Lmites del intervalo de confianza para muestras dependientes

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

Calcula el intervalo de confianza del ejercicio anterior.

para la diferencia de medias poblacionales del

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

-0.2 0.04 -0.9 0.81 -1.8 3.24 0.4 0.16

-0.2 0.16 0.5 0.25

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

Encontrar estimador puntual insesgado

Lmite inferior de confianza

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

3.4.4 ESTIMACIN POR INTERVALOS DE CONFIANZA DE LA DIFERENCIA DE DOS PROPORCIONES.

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

3.5 PRUEBAS DE HIPTESIS.

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

3.5.1 GENERALIDADES E IMPORTANCIA DE LOS ENSAYOS DE HIPTESIS.

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

3.5.2 HIPTESIS NULA O HIPTESIS ALTERNA.

y comprar la maquina nueva a

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

3.5.3 NIVEL DE SIGNIFICACIN Y REGLAS DE DECISIN.

Determinamos el intervalo de confianza:

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

3.5.4 ERRORES DEL TIPO I y II.

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

Debemos decidir entre dos hiptesis

incluye los valores

3.6.2 PARA LA PROPORCIN.

proporcin de xitos en la poblacin y

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS