You are on page 1of 38

INFERENCIA ESTADSTICA

4.1. ESTIMACIN PUNTUAL Y POR INTERVALOS DE CONFIANZA. Estimacin puntal Una estimacin puntual de un parmetro es un slo nmero que se puede

considerar como el valor ms razonable de . La estimacin puntual se obtiene al seleccionar una estadstica apropiada y calcular su valor a partir de datos de la muestra dada. La estadstica seleccionada se llama estimador puntual de . El smbolo (theta sombrero) suele utilizarse para representar el estimador de se lee es la media muestral ". El enunciado "la .

y la estimacin puntual resultante de una muestra dada. Entonces como "el estimador puntual de estimacin puntual de Ejemplo:

es 5.77" se puede escribir en forma abreviada

En el futuro habr cada vez ms inters en desarrollar aleaciones de Mg de bajo costo, para varios procesos de fundicin. En consecuencia, es importante contar con mtodos prcticos para determinar varias propiedades mecnicas de esas aleaciones. Examine la siguiente muestra de mediciones del mdulo de elasticidad obtenidos de un proceso de fundicin a presin: 44.2 43.9 44.7 44.2 44.0 43.8 44.6 43.1 Suponga que esas observaciones son el resultado de una muestra aleatoria. Se desea estimar la varianza poblacional muestral: . Un estimador natural es la varianza

En el mejor de los casos, se encontrar un estimador

para el cual

siempre.

Sin embargo, es una funcin de las Xi mustrales, por lo que en s misma una variable aleatoria.

+ Error de estimacin

Entonces el estimador preciso sera uno que produzca slo pequeas diferencias de estimacin, de modo que los valores estimados se acerquen al valor verdadero. Propiedades de un Buen Estimador Insesgado.- Se dice que un estimador puntual es un estimador insesgado de

si , para todo valor posible de . En otras palabras, un estimador insesgado es aquel para el cual la media de la distribucin muestral es el parmetro estimado. Si se usa la media muestral para estimar la media poblacional insesgado. , se sabe que la , por lo tanto la media es un estimador

Eficiente o con varianza mnima.- Suponga que

son dos estimadores

insesgados de . Entonces, aun cuando la distribucin de cada estimador est centrada en el valor verdadero de , las dispersiones de las distribuciones alrededor del valor verdadero pueden ser diferentes. Entre todos los estimadores de varianza mnima. El que son insesgados, seleccione al que tenga

resultante recibe el nombre de estimador insesgado con

varianza mnima (MVUE, mnimo variante unbiased estimador) de . En otras palabras, la eficiencia se refiere al tamao de error estndar de la estadstica. Si comparamos dos estadsticas de una muestra del mismo tamao y tratamos de decidir cul de ellas es un estimador ms eficiente, escogeramos la estadstica que tuviera el menor error estndar, o la menor desviacin estndar de la distribucin de muestreo. Tiene sentido pensar que un estimador con un error estndar menor tendr una mayor oportunidad de producir una estimacin ms cercana al parmetro de poblacin que se est considerando.

Como se puede observar las dos distribuciones tienen un mismo valor en el parmetro slo que la distribucin muestral de medias tiene una menor varianza, por lo que la media se convierte en un estimador eficiente e insesgado.

Coherencia.- Una estadstica es un estimador coherente de un parmetro de poblacin, si al aumentar el tamao de la muestra se tiene casi la certeza de que el valor de la estadstica se aproxima bastante al valor del parmetro de la poblacin. Si un estimador es coherente se vuelve ms confiable si tenemos tamaos de muestras ms grandes. Suficiencia.- Un estimador es suficiente si utiliza una cantidad de la informacin contenida de la muestra que ningn otro estimador podra extraer informacin adicional de la muestra sobre el parmetro de la poblacin que se est estimando. Es decir se pretende que al extraer la muestra el estadstico calculado contenga toda la informacin de esa muestra. Por ejemplo, cuando se calcula la media de la muestra, se necesitan todos los datos. Cuando se calcula la mediana de una muestra slo se utiliza a un dato o a dos. Esto es solo el dato o los datos del centro son los que van a representar la muestra. Con esto se deduce que si utilizamos a todos los datos de la muestra como es en el caso de la media, la varianza, desviacin estndar, etc.; se tendr un estimador suficiente. Un estimador puntual T de un parmetro es cualquier estadstica que nos permita a partir de los datos mustrales obtener valores aproximados del parmetro. Para indicar que T es un estimador del parmetro escribimos =T. Con esto queremos decir que empleamos la expresin dada mediante T para obtener valores prximos al valor del parmetro. Es muy probable que haya error cuando un parmetro es estimado. Es cierto que si el nmero de observaciones al azar se hace suficientemente grande, stas proporcionaran un valor que casi sera semejante al parmetro; pero a menudo hay limitaciones de tiempo y de recursos y se tendr que trabajar con unas cuntas observaciones. Para poder utilizar la informacin que se tenga de la mejor forma posible, se necesita identificar las estadsticas que sean buenos estimadores. Hay cuatro criterios que se suelen aplicar para determinar si una estadstica es un buen estimador: Insesgamiento, eficiencia, consistencia y suficiencia

ROPIEDADES DE UN ESTIMADOR Existe una propiedad que comprende conjuntamente las propiedades de insesgamiento y eficiencia. Se trata del error cuadrtico medio.

Sea T un estimador del parmetro. El error cuadrtico medio de T, denotado ECM(T), se define como el valor esperado de (T- )2 . ECM(T) = E[(T- )2]

TEOREMA Si T es un estimador del parmetro, ECM (T) = V [T] [-E (T)]2 Demostracin: ECM(T) = E[(T- )2] = E[T2 - 2 T + 2] = E(T2)-E(2 T)+E( 2) = E(T2) -2 E(T) + E( 2) = E(T2) [E(T)]2 + [E(T)]2 - 2 E(T) + 2 = (E(T2) [E(T)]2) + ([E(T)]2 - 2 E(T) + 2) = V(T) + [ - E(T)]2. TEOREMA: Sea X1, X2, ..., Xn una muestra aleatoria de cierta distribucin de media y varianza . Entonces: a) T1= es un estimador insesgado de . b) T2=S2 es un estimador insesgado de . La propiedad de insesgamiento nos garantiza que las estimaciones que hagamos con el estimador se encuentran alrededor del parmetro en cuestin, de esto podemos deducir la siguiente REGLA DE PROCEDIMIENTO: REGLA 1: Si tenemos T1 y T2 estimadores del parmetro y uno de ellos es insesgado, entonces escoja el insesgado. REGLA 2 : Si tenemos T1 y T2 estimadores del parmetro ambos insesgado, entonces escoja el de menor varianza. LA FRMULA ES LA SIGUIENTE Para la poblacin Para la muestra s

Error estndar de la media

Estimacin por intervalos de confianza. Consiste en la obtencin de un intervalo dentro del cual estar el valor del parmetro estimado con una cierta probabilidad. En la estimacin por intervalos se usan los siguientes conceptos: Intervalo de confianza El intervalo de confianza es una expresin del tipo [1, 2] o 1 2, donde es el parmetro a estimar. Este intervalo contiene al parmetro estimado con una determinada certeza o nivel de confianza. Pero a veces puede cambiar este intervalo cuando la muestra no garantiza un axioma o un equivalente circunstancial. Variabilidad del Parmetro Si no se conoce, puede obtenerse una aproximacin en los datos aportados por la literatura cientfica o en un estudio piloto. Tambin hay mtodos para calcular el tamao de la muestra que prescinde de este aspecto. Habitualmente se usa como medida de esta variabilidad la desviacin tpica poblacional y se denota . Error de la estimacin Es una medida de su precisin que se corresponde con la amplitud del intervalo de confianza. Cuanta ms precisin se desee en la estimacin de un parmetro, ms estrecho deber ser el intervalo de confianza y, si se quiere mantener o disminuir el error, ms ocurrencias debern incluirse en la muestra estudiada. En caso de no incluir nuevas observaciones para la muestra, ms error se comete al aumentar la precisin. Se suele llamar E, segn la frmula E = 2 - 1. Lmite de Confianza Es la probabilidad de que el verdadero valor del parmetro estimado en la poblacin se site en el intervalo de confianza obtenido. El nivel de confianza se denota por (1-), aunque habitualmente suele expresarse con un porcentaje ((1)100%). Es habitual tomar como nivel de confianza un 95% o un 99%, que se corresponden con valores de 0,05 y 0,01 respectivamente. Valor

Tambin llamado nivel de significacin. Es la probabilidad (en tanto por uno) de fallar en nuestra estimacin, esto es, la diferencia entre la certeza (1) y el nivel de confianza (1-). Por ejemplo, en una estimacin con un nivel de confianza del 95%, el valor es (100-95)/100 = 0,05 Valor crtico Se representa por Z/2. Es el valor de la abscisa en una determinada distribucin que deja a su derecha un rea igual a /2, siendo 1- el nivel de confianza. Normalmente los valores crticos estn tabulados o pueden calcularse en funcin de la distribucin de la poblacin. Por ejemplo, para una distribucin normal, de media 0 y desviacin tpica 1, el valor crtico para = 0,1 se calculara del siguiente modo: se busca en la tabla de la distribucin ese valor (o el ms aproximado), bajo la columna "rea"; se observa que se corresponde con -1,28. Entonces Z/2 = 1,64. Si la media o desviacin tpica de la distribucin normal no coinciden con las de la tabla, se puede realizar el cambio de variable t =(X-)/ para su clculo. Con estas definiciones, si tras la extraccin de una muestra se dice que "3 es una estimacin de la media con un margen de error de 0,6 y un nivel de confianza del 99%", podemos interpretar que el verdadero valor de la media se encuentra entre 2,7 y 3,3, con una probabilidad del 99%. Los valores 2,7 y 3,3 se obtienen restando y sumando, respectivamente, la mitad del error, para obtener el intervalo de confianza segn las definiciones dadas. Para un tamao fijo de la muestra, los conceptos de error y nivel de confianza van relacionados. Si admitimos un error mayor, esto es, aumentamos el tamao del intervalo de confianza, tenemos tambin una mayor probabilidad de xito en nuestra estimacin, es decir, un mayor nivel de confianza.

Formulas Para la poblacin Para la muestra

INTERVALO 0.90 0.95 0.99

VALORES DE Z PARA 2 EXTREMOS 1.64 1.92 2.58

INTERVALO 0.90 0.95 0.99

VALORES DE Z PARA 1EXTREMOS 1.28 1.64 2.32

4.2. ESTIMACIN DE LA MEDIA, DE LA DIFERENCIA DE MEDIAS, DE LA PROPORCIN Y DE LA DIFERENCIA DE PROPORCIONES. Estimacin de la media de una poblacin El intervalo de confianza, para la media de una poblacin, con un nivel de confianza de 1 , siendo x la media de una muestra de tamao n y la desviacin tpica de la poblacin, es:

E l e rro r m xim o de e st im a cin es:

Cuanto mayor sea el tamao de la muestra, n, menor es el error. Cuanto mayor sea el nivel de confianza, 1-, mayor es el error. T am a o d e la mu est ra

Si aumentamos el nivel de confianza, aumenta el tamao de la muestra.

Si disminuimos el error, tenemos que aumentar el tamao de la muestra. Ejemplo El tiempo que tardan las cajeras de un supermercado en cobrar a los clientes sigue una ley normal con media desconocida y desviacin tpica 0,5 minutos. Para una muestra aleatoria de 25 clientes se obtuvo un tiempo medio de 5,2 minutos. . Calcula el intervalo de confianza al nivel del 95% para el tiempo medio que se tarda en cobrar a los clientes.

Estimacin de la Diferencia entre dos Medias Si se tienen dos poblaciones con medias 1 y 2 y varianzas respectivamente, un estimador puntual de la diferencia entre 1 y por la estadstica
12, 2 y 2 , 2 est dado 2 1

. Por tanto. Para obtener una estimacin puntual de , de las medias

se seleccionan dos muestras aleatorias independientes, una de cada

poblacin, de tamao n1 y n2, se calcula la diferencia mustrales. Recordando a la distribucin muestral de diferencia de medias:

Al despejar de esta ecuacin

1-

se tiene:

En el caso en que se desconozcan las varianzas de la poblacin y los tamaos de muestra sean mayores a 30 se podr utilizar la varianza de la muestra como una estimacin puntual. Ejemplos: Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y B. Se mide el rendimiento en millas por galn de gasolina. Se realizan 50 experimentos con el motor tipo A y 75 con el motor tipo B. La gasolina que se utiliza y las dems condiciones se mantienen constantes. El rendimiento promedio de gasolina para el motor A es de 36 millas por galn y el promedio para el motor B es 24 millas por galn. Encuentre un intervalo de confianza de 96% sobre la diferencia promedio real para los motores A y B. Suponga que las desviaciones estndar poblacionales son 6 y 8 para los motores A y B respectivamente. Solucin: Es deseable que la diferencia de medias sea positiva por lo que se recomienda restar la media mayor menos la media menor. En este caso ser la media del motor B menos la media del motor A. El valor de z para un nivel de confianza del 96% es de 2.05.

3.43<

B-

A<8.57

ESTIMACIN DE UNA PROPORCIN


Un estimador puntual de la proporcin P en un experimento binomial est dado por la estadstica P=X/N, donde x representa el nmero de xitos en n pruebas. Por tanto, la proporcin de la muestra p =x/n se utilizar como estimador puntual del parmetro P. Si no se espera que la proporcin P desconocida est demasiado cerca de 0 de 1, se puede establecer un intervalo de confianza para P al considerar la distribucin muestral de proporciones.

-sustituiremos por la proporcin de la muestra p siempre y cuando el tamao de muestra no sea pequeo.

Cuando n es pequea y la proporcin desconocida P se considera cercana a 0 a 1, el procedimiento del intervalo de confianza que se establece aqu no es confiable, por tanto, no se debe utilizar. Para estar seguro, se debe requerir que np nq sea mayor o igual a 5. El error de estimacin ser la diferencia absoluta entre p y P, y podemos tener el nivel de confianza de que esta diferencia no exceder Ejemplos: Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas amplias para evaluar la funcin elctrica de su producto. Todos los reproductores de discos compactos deben pasar todas las pruebas antes de venderse. Una muestra aleatoria de 500 reproductores tiene como resultado 15 que fallan en una o ms pruebas. Encuentre un intervalo de confianza de 90% para la proporcin de los reproductores de discos compactos de la poblacin que no pasan todas las pruebas. Solucin: n=500 p = 15/500 = 0.03 z(0.90) = 1.645 .

0.0237<P<0.0376 Se sabe con un nivel de confianza del 90% que la proporcin de discos defectuosos que no pasan la prueba en esa poblacin est entre 0.0237 y 0.0376

DIFERENCIA DE PROPORCIONES El estadstico de prueba que permite contrastar partir de dos muestras aleatorias e independientes es la estimacin de obtenida del total de observaciones. frente a a siendo p

Si se consideran las proporciones como medias y se aplica la prueba t utilizada para comparar medias poblacionales los resultados no son fiables ya que la estimacin del error tpico que realiza el programa no coincide con la del estadstico de prueba. Para resolver el problema con el programa SPSS se deber cruzar la variable analizada con la que define los grupos (obtener la tabla de contingencia) y realizar el contraste de independencia Chi-cuadrado.

El estadstico de prueba Chi-cuadrado se define: y presenta una distribucin Chi-cuadrado con (I-1)(J-1) grados de libertad. Las Eij se calculan multiplicando las frecuencias marginales y dividendo el producto por n. Estas Eij son estimaciones de las frecuencias absolutas que cabra esperar en cada casilla bajo el supuesto de que la proporcin de xitos es la obtenida a partir del total de observaciones mustrales sin considerar diferencias entre los dos grupos.

Estimacin de la Diferencia de dos Proporciones

Despejando P1-P2 de esta ecuacin:

Aqu se tiene el mismo caso que en la estimacin de una proporcin, ya que al hacer el despeje nos queda las dos proporciones poblacionales y es precisamente lo que queremos estimar, por lo que se utilizarn las proporciones de la muestra como estimadores puntuales:

Ejemplos: Se considera cierto cambio en un proceso de fabricacin de partes componentes. Se toman muestras del procedimiento existente y del nuevo para determinar si ste tiene como resultado una mejora. Si se encuentra que 75 de 1500 artculos del procedimiento actual son defectuosos y 80 de 2000 artculos del procedimiento nuevo tambin lo son, encuentre un intervalo de confianza de 90% para la diferencia real en la fraccin de defectuosos entre el proceso actual y el nuevo. Solucin: Sean P1 y P2 las proporciones reales de defectuosos para los procesos actual y nuevo, respectivamente. De aqu, p1=75/1500 = 0.05 y p2 = 80/2000 = 0.04. con el uso de la tabla encontramos que z para un nivel de confianza del 90% es de 1.645.

-0.0017<P1-P2<0.0217 Como el intervalo contiene el valor de cero, no hay razn para creer que el nuevo procedimiento producir una disminucin significativa en la proporcin de artculos defectuosos comparada con el mtodo existente

4.3. DETERMINACIN DEL TAMAO DE LA MUESTRA. Al iniciar cualquier investigacin, o experimento la primera pregunta que surge es: de qu tamao debe ser la o las muestras? Clculo del Tamao de la Muestra para Estimar una Media Qu tan grande debe ser una muestra si la media muestral se va a usar para estimar la media poblacional?. La respuesta va depender del error estndar de la media, si este fuera cero, entonces se necesitara una sola media que ser igual

necesariamente a la media poblacional desconocida , porque = 0. Este caso extremo no se encuentra en la prctica, pero refuerza el hecho de que mientras menor sea el error estndar de la media, menor es el tamao de muestra necesario para lograr un cierto grado de precisin. Se estableci antes que una forma de disminuir el error de estimacin es aumentar el tamao de la muestra, si ste incluye el total de la poblacin, entonces sera igual a cero. Con esto en mente, parece razonable que para un nivel de confianza fijo, sea posible determinar un tamao de la muestra tal que el error de estimacin sea tan pequeo como queramos, para ser ms preciso, dado un nivel de confianza y un error fijo de estimacin , se puede escoger un tamao de muestra n tal que P( ) = Nivel de confianza. Con el propsito de determinar n. El error mximo de estimacin est dado por:

Si se eleva al cuadrado ambos lados de esta ecuacin y se despeja n de la ecuacin resultante, obtenemos:

Como n debe de ser un nmero entero, redondeamos hacia arriba todos los resultados fraccionarios. En el caso de que se tenga una poblacin finita y un muestreo sin reemplazo, el error de estimacin se convierte en:

De nuevo se eleva al cuadrado ambos lados y se despeja la n, obteniendo:

Ejemplos: Un bilogo quiere estimar el peso promedio de los ciervos cazados en el estado de Maryland. Un estudio anterior de diez ciervos cazados mostr que la desviacin estndar de sus pesos es de 12.2 libras. Qu tan grande debe ser una muestra para que el bilogo tenga el 95% de confianza de que el error de estimacin es a lo ms de 4 libras? Solucin:

En consecuencia, si el tamao de la muestra es 36, se puede tener un 95% de confianza en que difiere en menos de 4 libras de .

Formula de determinacin del tamao de la muestra para estimar la media [ ]

4.4. PRUEBA DE HIPTESIS

Este es uno de los aspectos ms tiles de la inferencia estadstica, puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de la ingeniera, pueden formularse como problemas de prueba de hiptesis. Etapas bsicas en pruebas de hiptesis. Al realizar pruebas de hiptesis, se parte de un valor supuesto (Hipottico) en parmetro poblacional. Despus de recolectar una muestra aleatoria, se compara la estadstica muestral, as como la media, con el parmetro hipottico, se compara con una supuesta media poblacional. Despus se acepta o se rechaza el valor hipottico, segn proceda. Se rechaza el valor hipottico slo si el resultado muestral resulta muy poco probable cuando la hiptesis es cierta.

Etapa 1. Planear la hiptesis nula y la hiptesis alternativa. La hiptesis nula (H 0) es el valor hipottico del parmetro que se compra con el resultado muestral resulta muy poco probable cuando la hiptesis es cierta.

Etapa 2. Especificar el nivel de significancia que se va a utilizar. El nivel de significancia del 5%, entonces se rechaza la hiptesis nula solamente si el resultado muestral es tan diferente del valor hipottico que una diferencia de esa magnitud o mayor, pudiera ocurrir aleatoria mente con una probabilidad de 1.05 o menos.

Etapa 3. Elegir la estadstica de prueba. La estadstica de prueba puede ser la estadstica muestral (el estimador no segado del parmetro que se prueba) o una versin transformada de esa estadstica muestral. Por ejemplo, para probar el valor hipottico de una media poblacional, se toma la media de una muestra aleatoria de esa distribucin normal, entonces es comn que se transforme la media en un valor z el cual, a su vez, sirve como estadstica de prueba.

CONSECUENCIAS DE LAS DECISIONES EN PRUEBAS DE HIPTESIS. Decisiones Posibles Situaciones Posibles La hiptesis nula es verdadera Aceptar la Hiptesis Nula Rechazar Nula la Hiptesis Se acepta correctamente Error tipo I o Alfa La hiptesis nula es falsa Error tipo II o Beta Se rechaza correctamente

Etapa 4. Establecer el valor o valores crticos de la estadstica de prueba. Habiendo especificado la hiptesis nula, el nivel de significancia y la estadstica de prueba que se van a utilizar, se produce a establecer el o los valores crticos de estadstica de prueba. Puede haber uno o ms de esos valores, dependiendo de si se va a realizar una prueba de uno o dos extremos.

Etapa 5. Determinar el valor real de la estadstica de prueba. Por ejemplo, al probar un valor hipottico de la media poblacional, se toma una muestra aleatoria y se determina el valor de la media muestral. Si el valor crtico que se establece es un valor de z, entonces se transforma la media muestral en un valor de z.

Etapa 6. Tomar la decisin. Se compara el valor observado de la estadstica muestral con el valor (o valores) crticos de la estadstica de prueba. Despus se acepta o se rechaza la hiptesis nula. Si se rechaza sta, se acepta la alternativa; a su vez, esta decisin tendr efecto sobre otras decisiones de los administradores operativos, como por ejemplo, mantener o no un estndar de desempeo o cul de dos estrategias de mercadotecnia utilizar.

La distribucin apropiada de la prueba estadstica se divide en dos regiones: una regin de rechazo y una de no rechazo. Si la prueba estadstica cae en esta ltima regin no se puede rechazar la hiptesis nula y se llega a la conclusin de que el proceso funciona correctamente. Al tomar la decisin con respecto a la hiptesis nula, se debe determinar el valor crtico en la distribucin estadstica que divide la regin del rechazo (en la cual la

hiptesis nula no se puede rechazar) de la regin de rechazo. A hora bien el valor crtico depende del tamao de la regin de rechazo. Pasos de la Prueba de Hiptesis Expresar la hiptesis nula Expresar la hiptesis alternativa Especificar el nivel de significancia Determinar el tamao de la muestra Establecer los valores crticos que establecen las regiones de rechazo de las de no rechazo. Determinar la prueba estadstica. Coleccionar los datos y calcular el valor de la muestra de la prueba estadstica apropiada. Determinar si la prueba estadstica ha sido en la zona de rechazo a una de no rechazo. Determinar la decisin estadstica. Expresar la decisin estadstica en trminos del problema.

Hiptesis Estadstica. Al intentar alcanzar una decisin, es til hacer hiptesis (o conjeturas) sobre la poblacin aplicada. Tales hiptesis, que pueden ser o no ciertas, se llaman hiptesis estadsticas. Son, en general, enunciados acerca de las distribuciones de probabilidad de las poblaciones.

Hiptesis Nula. En muchos casos formulamos una hiptesis estadstica con el nico propsito de rechazarla o invalidarla. As, si queremos decidir si una moneda est trucada, formulamos la hiptesis de que la moneda es buena (o sea p=0,5, donde p es la probabilidad de cara). Analgicamente, si deseamos decidir si un procedimiento es mejor que otro, formulamos la hiptesis de que no hay diferencia entre ellos (o sea. Que cualquier diferencia observada se debe simplemente a fluctuaciones en el muestreo de la misma poblacin). Tales hiptesis se suelen llamar hiptesis nula y se denotan por Ho.

Para todo tipo de investigacin en la que tenemos dos o ms grupos, se establecer una hiptesis nula. La hiptesis nula es aquella que nos dice que no existen diferencias significativas entre los grupos. Por ejemplo, supongamos que un investigador cree que si un grupo de jvenes se somete a un entrenamiento intensivo de natacin, stos sern mejores nadadores que aquellos que no recibieron entrenamiento. Para demostrar su hiptesis toma al azar una muestra de jvenes, y tambin al azar los distribuye en dos grupos: uno que llamaremos experimental, el cual recibir entrenamiento, y otro que no recibir entrenamiento alguno, al que llamaremos control. La hiptesis nula sealar que no hay diferencia en el desempeo de la natacin entre el grupo de jvenes que recibi el entrenamiento y el que no lo recibi. Una hiptesis nula es importante por varias razones: Es una hiptesis que se acepta o se rechaza segn el resultado de la investigacin. El hecho de contar con una hiptesis nula ayuda a determinar si existe una diferencia entre los grupos, si esta diferencia es significativa, y si no se debi al azar. No toda investigacin precisa de formular hiptesis nula. Se recomienda que la hiptesis nula es aquella por la cual indicamos que la informacin a obtener es contraria a la hiptesis de trabajo.

Al formular esta hiptesis, se pretende negar la variable independiente. Es decir, se enuncia que la causa determinada como origen del problema flucta, por tanto, debe rechazarse como tal.

Hiptesis Alternativa: Toda hiptesis que difiere de una dada se llamar una hiptesis alternativa. Una hiptesis alternativa a la hiptesis nula se denotar por H1.

Al responder a un problema, es muy conveniente proponer otras hiptesis en que aparezcan variables independientes distintas de las primeras que formulamos. Por tanto, para no perder tiempo en bsquedas intiles, es necesario hallar diferentes hiptesis alternativas como respuesta a un mismo problema y elegir entre ellas cules y en qu orden vamos a tratar su comprobacin.

Las hiptesis, naturalmente, sern diferentes segn el tipo de investigacin que se est realizando. En los estudios exploratorios, a veces, el objetivo de la investigacin podr ser simplemente el de obtener los mnimos conocimientos que permitan formular una hiptesis. Tambin es aceptable que, en este caso, resulten poco precisas, como cuando afirmamos que "existe algn tipo de problema social en tal grupo", o que los planetas poseen algn tipo de atmsfera, sin especificar de qu elementos est compuesto.

Los trabajos de ndole descriptiva generalmente presentan hiptesis del tipo "todos los X poseen, en alguna medida, las caracterstica Y". Por ejemplo, podemos decir que todas las naciones poseen algn comercio internacional, y dedicarnos a describir, cuantificando, las relaciones comerciales entre ellas. Tambin podemos hacer afirmaciones del tipo "X pertenece al tipo Y", como cuando decimos que una tecnologa es capital - intensiva. En estos casos, describimos, clasificndolo, el objeto de nuestro inters, incluyndolo en un tipo ideal complejo de orden superior.

Por ltimo, podemos construir hiptesis del tipo "X produce (o afecta) a Y", donde estaremos en presencia de una relacin entre variables.

Errores de tipo I y de tipo II. Si rechazamos una hiptesis cuando debiera ser aceptada, diremos que se ha cometido un error de tipo I. Por otra parte, si aceptamos una hiptesis que debiera ser rechazada, diremos que se cometi un error de tipo II.

En ambos casos, se ha producido un juicio errneo. Para que las reglas de decisin (o no contraste de hiptesis) sean buenos, deben disearse de modo que minimicen los errores de la decisin; y no es una cuestin sencilla, porque para cualquier tamao de la muestra, un intento de disminuir un tipo de error suele ir acompaado de un crecimiento del otro tipo. En la prctica, un tipo de error puede ser ms grave que el otro, y debe alcanzarse un compromiso que disminuya el error ms grave. La nica forma de disminuir ambos a la vez es aumentar el tamao de la muestra que no siempre es posible.

4.4.1. PRUEBAS UNILATERALES Y BILATERALES. Un contraste bilateral adopta en general la forma: H0: = 0 contra H1: 0 En determinadas ocasiones el experimentador prefiere plantear directamente un contraste de la forma: H0: = 0 contra H1: > 0 Conocido como contraste unilateral derecho. Obviamente, otra posibilidad es el unilateral izquierdo: H0: = 0 contra H1: < 0 En estos tres casos, el contraste de hiptesis es simple contra compuesta. En la mayora de situaciones aplicadas, se desean realmente resolver contrastes unilaterales que comportan hiptesis compuestas. El unilateral derecho es entonces: H0: 0 Y el izquierdo es: H0: 0 contra H1: < 0 Una prueba de cualquier hiptesis estadstica, donde la alternativa es unilateral, tal como: H0: = 0 H1: > 0 O tal vez
contra H1:

> 0

H0: = 0 H1: < 0


Tambin recibe el nombre de prueba de una cola.

Una prueba de cualquier hiptesis estadstica donde la alternativa bilateral, tal como:

H0: = 0 H1: 0

Recibe el nombre de prueba bilateral o de dos colas, ya que la regin critica se divide en dos partes, generalmente con iguales probabilidades en cada cola de la distribucin del estadstico prueba.

4.4.2. PRUEBAS PARA MEDIA Y PARA DIFERENCIA DE MEDIAS. Cuando se van a realizar pruebas de hiptesis relativas a la media poblacional m se debe saber si la varianza poblacional s es conocida o desconocida, ya que la distribucin subyacente al estadstico de prueba ser la normal estndar si la varianza es conocida, y la distribucin t en caso contrario. Las diferentes hiptesis que se pueden presentar son las siguientes: 1) Ho: m = m0 H1: m > m0 2) Ho: m = m0 H1: m < m0 3) Ho: m = m0 H1: m m0 Las pruebas de hiptesis para la media se basan en el estadstico dado por la media muestral cuya distribucin tiende a la distribucin normal (m, s /n) para muestras grandes. Prueba de hiptesis para la media con varianza conocida Cuando la varianza Es conocida, las pruebas de hiptesis se basan en el hecho de que la variable aleatoria Z definida como , se distribuye normalmente con media cero y varianza unitaria.

Para el caso de las hiptesis Ho: m Debido a la dificultad de explicar este tema se enfocar un problema basado en un estudio en una fbrica de llantas. En este problema la fbrica de llantas tiene dos turnos de operarios, turno de da y turno mixto. Se selecciona una muestra aleatoria de 100 llantas producidas por cada turno para ayudar al gerente a sacar conclusiones de cada una de las siguientes preguntas

Es la duracin promedio de las llantas producidas en el turno de da igual a 25 000 millas? Es la duracin promedio de las llantas producidas en el turno mixto menor de 25 000 millas? Se revienta ms de un 8% de las llantas producidas por el turno de da antes de las 10 000 millas?

Prueba de Hiptesis para la media. En la fbrica de llantas la hiptesis nula y alternativa para el problema se plantearon como, Ho: = 25 000 H1: 25 000

Si se considera la desviacin estndar las llantas producidas en el turno de da, entonces, con base en el teorema de limite central, la distribucin en el muestreo de la media seguira la distribucin normal, y la prueba estadstica que est basada en la diferencia entre la media X de la muestra y la media hipottica se encontrara como

Si el tamao de la regin de rechazo se estableciera en 5% entonces se podran determinar los valores crticos de la distribucin. Dado que la regin de rechazo est dividida en las dos colas de la distribucin, el 5% se divide en dos partes iguales de 2.5%.

Dado que ya se tiene la distribucin normal, los valores crticos se pueden expresar en unidades de desviacin. Una regin de rechazo de 0.25 en cada cola de la distribucin normal, da por resultado un rea de .475 entre la media hipottica y el valor crtico. Si se busca est rea en la distribucin normal, se encuentra que los valores crticos que dividen las regiones de rechazo y no rechazo son + 1.96 y - 1.96

Por tanto, la regla para decisin sera rechazar Ho si Z > +1.96 o s z < -1.96, de lo contrario, no rechazar Ho. No obstante, en la mayor parte de los casos se desconoce la desviacin estndar de la poblacin. La desviacin estndar se estima al calcular S, la desviacin estndar de la muestra. PRUEBA DE HIPOTESIS PARA DIFERENCIA DE MEDIAS Puesto que deseamos estudiar dos poblaciones, la distribucin de muestreo que nos interesa es la distribucin de muestreo de la diferencia entre medias mustrales. Conceptos bsicos de las distribuciones de poblacin, distribuciones de muestreo de la media y distribuciones de muestreo de diferencias entre medias mustrales. Ambas tienen medias y desviaciones estndar, respectivamente, debajo de cada poblacin se muestra distribucin de muestreo de la media para esa poblacin.. Las dos distribuciones tericas de muestreo de la media estn integradas todas las muestras posibles de determinado tamao que pueden extraerse de la correspondiente distribucin de la poblacin 2, si despus restamos las dos medias mustrales, obtenemos la diferencia entre medias mustrales. Esta diferencia ser positiva si X1 es mayor que X2 y negativa si X3 es mayor que X1. Al construir esta distribucin de todas las diferencias posibles de muestreo de X1 X2, terminamos teniendo la distribucin de muestreo entre las medias mustrales.

4.4.3. PRUEBAS PARA PROPORCIN Y DIFERENCIA DE PROPORCIONES. Pruebas para proporcin La prueba de hiptesis relacionadas con proporciones tiene aplicacin en muchas reas. Se considerara el problema de probar la hiptesis de que la proporcin de xitos en un experimento binomial es igual que un valor especifico. Esto es se est probando la hiptesis nula H0 de que P=P0, donde p es el parmetro se la distribucin binomial. La hiptesis alternativa puede ser una de las alternativas usuales, unilateral o bilateral: P<P0, P>P0 o P P0. La variable aleatoria apropiada sobre la cual se fundamenta el criterio de decisin es la variable aleatoria binomial X. no obstante que podra utilizarse el estadstico P=X/n. los valores de X que se encuentra alejados de la media =np0 conducirn al rechazo de la hiptesis nula. Debido a que X es una variable binomial discreta, es poco probable que pueda determinarse una regin critica cuyo tamao sea exactamente igual que un valor predeterminado de . Por esta razn es preferible al tratar con muestra pequeas, basar las decisiones en los valores P. para probar la hiptesis: H0: P = P0 H1: P < P0 Se utiliza la distribucin binomial para calcular el valor de P P=P(X x cuando P=P0). El valor x es el nmero de xitos en la muestra de tamao. Si este valor Pe meno que o igual que la prueba es significativa en el nivel y es rechazar H0 en favor de H1. De igual manera, para probar la hiptesis: H0: P = P0 H1: P < P0 En el nivel de significancia P=P(X x cuando P=P0). Y se rechaza H0 en favor de H1 si este valor P es menor que o igual que . se calcula.

Finalmente, para probar la hiptesis: H0: P = P0 H1: P P0 En el nivel de significancia , se calcula: P=2P(X x cuando P=P0). Si x< np0 P=2P(X x cuando P=P0).

PRUEBA DIFERENCIA DE PROPORCIONES. Con frecuencia surgen situaciones en donde se desea probar la hiptesis de que dos proporciones son iguales. Por ejemplo, se podran intentar mostrar la evidencia de que la proporcin de medios que son pediatras en un estado es igual a la proporcin de pediatras en otro estado. Una persona puede decidir dejar de fumar solo si se cmbense de que la proporcin de fumadores con cncer pulmonar excede la proporcin de no fumadores que padecen del mismo problema. En general, se dese probar la hiptesis nula que dos proporciones, o parmetros binomiales, son iguales. Esto es, est probndose que P1=P2 en contra posicin a las alternativas P1<P2, P1>P2 o P1P2por supuesto, esto equivale a probar la hiptesis nula de que P1-P2 =0. En determinacin de los intervalos de confianza para P 1 y P2 se observ, para una n lo bastante grande que los estimadores puntuales tiene distribucin aproximadamente normal con media:

Y varianza

Por lo tanto, las regiones de aceptacin y crtica pueden establecerse mediante la variable normal estndar: ( ( ) ) ( )

4.5. Muestras pequeas. En una muestra pequea se toma la mnima partea de la poblacin para du anlisis

4.5.1. DISTRIBUCIN T DE STUDENT. La distribucin t (de Student) es una distribucin de probabilidad que surge del problema de estimar la media de una poblacin normalmente distribuida cuando el tamao de la muestra es pequeo. Surge, en la mayora de los estudios estadsticos prcticos, cuando la desviacin tpica de una poblacin se desconoce y debe ser estimada a partir de los datos de una muestra. Existen dos versiones de la prueba t-Student: una que supone que las varianzas poblacionales son iguales y otra versin que no asume esto ltimo. Para decidir si se puede suponer o no la igualdad de varianza en las dos poblaciones, se debe realizar previamente la prueba F-Snedecor de comparacin de dos varianzas.

Un poco de historia. La prueba t-Student fue desarrollada en 1899 por el qumico ingls William Sealey Gosset (1876-1937), mientras trabajaba en tcnicas de control de calidad para las destileras Guiness en Dubln. Debido a que en la destilera, su puesto de trabajo no era inicialmente de estadstico y su dedicacin deba estar exclusivamente encaminada a mejorar los costes de produccin, public sus hallazgos annimamente firmando sus artculos con el nombre de "Student".

La distribucin t de Student es la distribucin de probabilidad del cociente:

Donde Z tiene una distribucin normal de media nula y varianza 1 V tiene una distribucin ji-cuadrado con grados de libertad Z y V son independientes

Si es una constante no nula, el cociente es una variable aleatoria que sigue la distribucin t de Student no central con parmetro de no-centralidad . Aparicin y especificaciones de la distribucin t de Student Supongamos que X1,..., Xn son variables aleatorias independientes distribuidas normalmente, con media y varianza 2. Sea

La media muestral. Entonces

Sigue una distribucin normal de media 0 y varianza 1. Sin embargo, dado que la desviacin estndar no siempre es conocida de antemano, Gosset estudi un cociente relacionado,

Donde

Es la varianza muestral y demostr que la funcin de densidad de T es

Donde es igual a n 1. La distribucin de T se llama ahora la distribucin-t de Student. El parmetro representa el nmero de grados de libertad. La distribucin depende de , pero no de o , lo cual es muy importante en la prctica. Intervalos de confianza derivados de la distribucin t de Student El procedimiento para el clculo del intervalo de confianza basado en la t de Student consiste en estimar la desviacin tpica de los datos S y calcular el error estndar de la media media = , siendo entonces el intervalo de confianza para la .

Es este resultado el que se utiliza en el test de Student: puesto que la diferencia de las medias de muestras de dos distribuciones normales se distribuye tambin normalmente, la distribucin t puede usarse para examinar si esa diferencia puede razonablemente suponerse igual a cero. Para efectos prcticos el valor esperado y la varianza son: E (t(n))= 0 y Var (t(n-1)) = n/(n-2) para n > 3

Distribucin t de Student No Estandarizada La distribucin t puede generalizarse a 3 parmetros, introduciendo un parmero ocasional y otro de escala . El resultado es una distribucin t de Student No Estandarizada cuya densidad est definida por:2

Equivalentemente, puede escribirse en trminos de varianza en vez de a la desviacin estndar):

(correspondiente a la

Otras propiedades de esta versin de la distribucin t son:2

La Distribucin t de Student, tiene por funcin de densidad:

Donde el parmetro n de , se denomina grados de libertad de la distribucin. La distribucin t de Student existe para todos los valores de x reales, y es simtrica respecto al eje y. La distribucin de probabilidad de esta funcin para valores menores de un x dado, que representamos por

Dnde:

Para el clculo de esta integral existen distintos tipos de Tabla de distribucin t de Student, en la que para distintos valores de n y de x se puede buscar su probabilidad acumulada p, veamos una de esas tablas.

4.5.2. DISTRIBUCIN DE JI-CUADRADA. CUADROS DE CONTINGENCIA, LIMITACIONES DE LA PRUEBA.

Distribucin de ji-cuadrada En estadstica, la distribucin (de Pearson), llamada Chi cuadrado o Ji cuadrado, es una distribucin de probabilidad continua con un parmetro que representa los grados de libertad de la variable aleatoria

Donde son variables aleatorias normales independientes de media cero y varianza uno. El que la variable aleatoria tenga esta distribucin se representa habitualmente as: .

Es conveniente tener en cuenta que la letra griega se transcribe al latn como chi1 y se pronuncia en castellano como ji.2 3 Propiedades Funcin de densidad Su funcin de densidad es:

Donde

es la funcin gamma.

] Funcin de distribucin acumulada Su funcin de distribucin es

Donde

es la funcin gamma incompleta.

El valor esperado y la varianza de una variable aleatoria X con distribucin son, respectivamente, k y 2k. Relacin con otras distribuciones La distribucin es un caso especial de la distribucin gamma. De hecho, Como consecuencia, cuando distribucin exponencial de media . , la distribucin es una

Cuando k es suficientemente grande, como consecuencia del teorema central del lmite, puede aproximarse por una distribucin normal:

Aplicaciones La distribucin tiene muchas aplicaciones en inferencia estadstica. La ms conocida es la de la denominada prueba utilizada como prueba de independencia y como prueba de bondad de ajuste y en la estimacin de varianzas. Pero tambin est involucrada en el problema de estimar la media de una poblacin normalmente distribuida y en el problema de estimar la pendiente de una recta de regresin lineal, a travs de su papel en la distribucin t de Student. Aparece tambin en todos los problemas de anlisis de varianza por su relacin con la distribucin F de Snedecor, que es la distribucin del cociente de dos variables aleatorias independientes con distribucin .

En estadstica las tablas de contingencia se emplean para registrar y analizar la relacin entre dos o ms variables, habitualmente de naturaleza cualitativa (nominales u ordinales). Supngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la segunda recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relacin entre estas dos variables:

Diestro Zurdo TOTAL Hombre 43 Mujer 44 9 4 13 52 48 100

TOTAL 87

Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el gran total. La tabla nos permite ver de un vistazo que la proporcin de hombres diestros es aproximadamente igual a la proporcin de mujeres diestras. Sin embargo, ambas proporciones no son idnticas y la significacin estadstica de la diferencia entre ellas puede ser evaluada con la prueba de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de una poblacin. Si la proporcin de individuos en cada columna vara entre las diversas filas y viceversa, se dice que existe asociacin entre las dos variables. Si no existe asociacin se dice que ambas variables son independientes. El grado de asociacin entre dos variables se puede evaluar empleando distintos coeficientes: el ms simple es el coeficiente phi que se define por = (2 / N) Donde 2 se deriva del test de Pearson, y N es el total de observaciones -el gran total-. puede oscilar entre 0 (que indica que no existe asociacin entre las variables) e infinito. A diferencia de otras medidas de asociacin, el coeficiente de Cramer no est acotado.

Estudio de diferencia de proporciones Hay situaciones en las que tenemos probabilidades de xito cercanas al cero o del uno en donde las proporciones pueden ser poco ilustrativas sobre el comportamiento dentro de los grupos. Por ejemplo: Si 1 = 0.01 2 = 0.001 d= 1 - 2 = 0.009

Si 1 = 0.41 2 = 0.401 d= 1 - 2 = 0.009 Vamos a definir el riesgo relativo como r=1/2 Para los ejemplos anteriores: r=0.01/0.001 = 10 r=0.41/0.401 = 1.02 En el primer caso el xito dentro de los grupos es 10 veces mayor que en el otro. Si X e Y independientes -> 1 = 2 con lo que su riesgo relativo es r=1/2 = 1 Ahora bien, cmo estimar r? r' = p1/p2 En el ejemplo de ms arriba: r' = (43/52) / (44/48) = 0.902 --> la proporcin de xito (diestro) dentro de las mujeres es alrededor de un 10% mayor que dentro del grupo de los hombres

TABLAS DE CONTINGENCIA En muchas ocasiones, los n elementos de una muestra tomada de una poblacin pueden clasificarse con dos criterios diferentes. Por tanto, es interesante saber si los dos mtodos de clasificacin son estadsticamente independientes. Supngase que el primer mtodo de clasificacin tiene r niveles, y que el segundo tiene c niveles. O sea Oij la frecuencia observada para el nivel i del primer mtodo de clasificacin y el nivel j del segundo mtodo de clasificacin. En general, los datos aparecern como se muestra en la siguiente tabla. Una tabla de este tipo usualmente se conoce como tabla de contingencia r x c.

Columnas 1 1 2 Renglones . . . r . . . Or1 . . . Or2 . . . ... . . . Orc O11 O21 2 O12 O22 ... ... ... c O1c O2c

El inters recae en probar la hiptesis de que los dos mtodos de clasificacin rengln-columna son independientes. Si se rechaza esta hiptesis, entonces se concluye que existe alguna interaccin entre los dos criterios de clasificacin. Los procedimientos de prueba exactos son difciles de obtener, pero puede obtenerse un estadstico de prueba aproximado vlido para n grande. Sea pij la probabilidad de que un elemento seleccionado al azar caiga en la ij-sima celda, dado que las dos clasificaciones son independientes. Entonces, pij=uivj, donde ui es la probabilidad de que un elemento seleccionado al azar pertenezca al rengln de la clase i, y vj es la probabilidad de que un elemento seleccionado pertenezca a la columna de la clase j. Ahora bien, si se supone independencia, los estimadores de ui y vj son:

Por lo tanto, la frecuencia esperada de la celda es:

Entonces, para n grande, el estadstico

Tiene una distribucin aproximada ji-cuadrada con (r-1)(c-1) grados de libertad si la hiptesis nula es verdadera. Por consiguiente, la hiptesis de independencia debe rechazarse si el valor del estadstico de prueba X2 calculado es mayor que X2 crtico o de tabla.

LIMITACIONES DE LAS PRUEBAS DE CHI CUADRADO Se debe tener mucho cuidado, al aplicar una prueba de Chi Cuadrado (X) en algunos problemas. Si se da el caso en que existe una frecuencia esperada pequea en Una celda, el Chi Cuadrado (si se aplica) puede llevar a una conclusin errnea. Esto se debe a que la frecuencia esperada (fe), aparece en el denominador en la frmula del estadstico Chi Cuadrado, y la divisin entre un nmero muy pequeo produce un coeficiente demasiado grande. A continuacin se mencionan dos reglas de aceptacin general, respecto a pequeas frecuencias de celda, las cuales son: Si solo hay dos celdas, la frecuencia esperada en cada celda debe ser igual a 5 o mayor (fe 5), es decir, para utilizar la prueba de hiptesis de Chi Cuadrado, se debe tener un tamao de muestra lo suficientemente grande, para garantizar la similitud entre la distribucin terica correcta y nuestra distribucin de muestreo de X, porque lo ms probable es que se rechace la hiptesis nula, cuando la misma es verdadera al tener muestras menores a 5 o muestras muy pequeas. El clculo de Chi Cuadrado, si se puede realizar en el siguiente ejemplo, el cual implica un valor mnimo de 6 para la frecuencia esperada (fe). A continuacin se presenta la tabla, que expresa un ejemplo de valores correctos, que deben tener las frecuencias esperadas en un problema determinado. Tabla N 2. Regla N 1: Valores correctos de las Frecuencias esperadas (fe 5).

Si las frecuencias esperadas de la tabla N 2, fueran menores el valor o resultado de Chi Cuadrado estar sobrestimado y por lo tanto se tendr como resultado demasiados rechazos de la hiptesis nula, entonces para evitar incurrir en inferencias incorrectas de la prueba de hiptesis de Chi Cuadrado se debe seguir la Regla N 1. Para ms de dos celdas, no debe aplicarse X, si ms de 20% de las celdas de fe, tienen frecuencias esperadas menores de 5. El siguiente ejemplo, presenta una informacin gerencial, el cual de acuerdo a esta regla que se menciona, se puede calcular el X, para la informacin en la parte izquierda de la tabla que se presenta a continuacin, ya que slo una de seis celdas, es decir, el 17%, contiene una frecuencia menor que 5, pero el X no debe utilizarse para la informacin gerencial que se encuentra en la parte derecha de la tabla N 3, porque tres de las siete frecuencias esperadas, es decir, el 43% tienen un valor menor que 5, por lo tanto segn la Regla N 2, no se puede aplicar la prueba de Chi Cuadrado, porque el porcentaje es mayor al 20%. A continuacin se presenta la tabla N 3, que contiene los datos del ejemplo explicado anteriormente: Tabla N 3. Regla N 2: Frecuencias esperadas con aceptacin de un 20% mximo, de valores menores que 5.

You might also like