La inferencia estadstica es una parte de la Estadstica que comprende los
mtodos y procedimientos para deducir propiedades (hacer inferencias) de una poblacin, a partir de una pequea parte de la misma (muestra). La bondad de estas deducciones se mide en trminos probabilsticos, es decir, toda inferencia se acompaa de su probabilidad de acierto. La estadstica inferencial comprende:
1.-La Teora de muestras. 2.-La estimacin de parmetros. 3.-El Contraste de hiptesis. 4.-El Diseo experimental. 5.-La Inferencia bayesiana. Mtodo
Un estudio estadstico comprende los siguientes pasos:
1.-Planteamiento del problema 2.-Elaboracin de un modelo 3.-Extraccin de la muestra 4.-Tratamiento de los datos
5.-Estimacin de los parmetros 6.-Contraste de hipotesis 7.-Conclusiones
Estimacin puntual
Consiste en la estimacin del valor del parmetro mediante un slo valor, obtenido de una frmula determinada. Por ejemplo, si se pretende estimar la talla media de un determinado grupo de individuos, puede extraerse una muestra y ofrecer como estimacin puntual la talla media de los individuos. Lo ms importante de un estimador, es que sea un estimador eficiente. Es decir, que sea insesgado(ausencia de sesgos) y estable en el muestreo (varianza mnima). Distribucion de muestras Si X1, X2 ... Xn, es una muestra aleatoria de tamano n tomada de una poblacion (finita o no infinita) son media (M) y varianza finita y si es la media muestral, entonces la forma limite de la distribucion Z cuando n tiende infinito es una distribucion normal estandar:
La aproximacion normal depende del tamano de la muestra
Si n 30 , se puede aplicar el TLC, para una poblacion con cualquier tipo de distribucion de probabilidad.
Diferencia de medias
Sean 2 poblaciones con medias M1 y M2, y varianzas conocidas
condicion:
Muestra debe ser n 30
Distribucion de T
En probabilidad y estadstica, la distribucin-t o distribucin t de Student es una distribucin de probabilidad que surge del problema de estimar la media de una poblacin normalmente distribuida cuando el tamao de la muestra es pequeo. sta es la base del popular test de la t de Student para la determinacin de las diferencias entre dos medias muestrales y para la construccin del intervalo de confianza para la diferencia entre las medias de dos poblaciones. La distribucin t surge, en la mayora de los estudios estadsticos prcticos, cuando la desviacin tpica de una poblacin se desconoce y debe ser estimada a partir de los datos de una muestra.
Aparicin y especificaciones de la distribucin t
Supongamos que X1,..., Xn son variables aleatorias independientes distribuidas normalmente, con media y varianza 2. Sea
la media muestral y
la varianza muestral. Entonces, est demostrado que
tiende a la distribucin normal de media 0 y varianza 1 cuando n tiende a infinito. Gosset estudi una expresin relacionada,
si es menor, debemos tener la confianza de que la poblacion se distribuye de manera normal. Distribucion de ji-cuadrada En estadstica, la distribucin ji-cuadrado, tambin denominada ji-cuadrado de Pearson, es una distribucin de probabilidad continua con un parmetro k que representa los grados de libertad de la variable aleatoria:
donde Zi son variables de distribucin normal, de media cero y varianza uno. Esta distribucin se expresa habitualmente Donde el subndice k de , es le nmero de sumandos, se denomina grados de libertad de la distribucin. Se suele usar la denominada prueba ji-cuadrado como test de independencia y como test de bondad de ajuste. si se extraen todas las muestras posibles de una poblacin normal y a cada muestra se le calcula su varianza, se obtendr la distribucin muestral de varianzas.Para estimar la varianza poblacional o la desviacin estndar, se necesita conocer el estadstico X2.Si se elige una muestra de tamao n de una poblacin normal con varianza , el estadstico: donde n es el tamao de l a muestra, s2 la varianza muestral y la varianza de la poblacin de donde se extrajo la muestra.
El estadistico de Ji cuadrada es el siguiente:
Distribucion F
Usada en teora de probabilidad y estadstica, la distribucin F es una distribucin de probabilidad continua. Tambin se la conoce como distribucin F de Snedecor o como distribucin F de Fisher-Snedecor. Una variable aleatoria de distribucin F se construye como el siguiente cociente:
donde: 1.-U1 y U2 siguen una distribucin ji-cuadrada con d1 y d2 grados de libertad respectivamente. 2.-U1 y U2 son estadsticamente independientes.
La distribucin F aparece frecuentemente como la distribucin nula de una prueba estadstica, especialmente en el anlisis de varianza. Intervalos de confianza Se llama intervalo de confianza en estadstica a un intervalo de valores alrededor de un parmetro muestral en los que, con una probabilidad o nivel de confianza determinado, se situar el parmetro poblacional a estimar. Si es el error aleatorio que se quiere cometer, la probabilidad ser de 1 . A menor nivel de confianza el intervalo ser ms preciso, pero se cometer un mayor error.
Para comprender las siguientes frmulas, es necesario conocer los conceptos de variabilidad del parmetro, error, nivel de confianza, valor crtico y valor . Un intervalo de confianza es, pues, una expresin del tipo [1, 2] 1 2, donde es el parmetro a estimar. Este intervalo contiene al parmetro estimado con una determinada certeza o nivel de confianza 1-.
Al ofrecer un intervalo de confianza se da por supuesto que los datos poblacionales se distribuyen de un modo determinado. Es habitual que lo hagan mediante la distribucin normal. Ejemplos
Intervalo de confianza para la media de una poblacin
De una poblacin de media y desviacin tpica se pueden tomar muestras de n elementos. Cada una de estas muestras tiene a su vez una media (). Se puede demostrar que la media de todas las medias muestrales coincide con la media poblacional:
Pero adems, si el tamao de las muestras es lo suficientemente grande, las medias muestrales tienden a una distribucin normal (o gaussiana) con dicha media y una desviacin tpica dada por la siguiente expresin:
Si estandarizamos:
En esta distribucin normal de medias se puede calcular el intervalo de confianza donde se encontrar la media poblacional si slo se conoce una media muestral ( ), con una confianza determinada. Habitualmente se manejan valores de confianza del 95% y 99%. A este valor se le llamar 1 (debido a que es el error que se cometer, un trmino opuesto). Para ello se necesita calcular el punto X / 2 o mejor dicho su versin estandarizada Z / 2 junto con su "opuesto en la distribucin" X / 2. Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen:
Dicho punto es el nmero tal que:
Y en la versin estandarizada se cumple que:
Z / 2 = Z / 2
As:
Haciendo operaciones es posible despejar para obtener el intervalo:
Resultado el intervalo de confianza:
Si no es conocida y n es grande (p.e. 30):
donde s es la desviacin tpica de una muestra.
Aproximaciones para el valor Z / 2 para los niveles de confianza estndar son 1,96 para 1 = 95% y 2,576 para 1 = 9. ______-----------PRUEBA DE HIPOTESIS------------________
Objetivo de la prueba de hiptesis El propsito de la prueba de hiptesis no es cuestionar el valor calculado del estadstico (muestral), sino hacer un juicio con respecto a la diferencia entre estadstico de muestra y un valor planteado del parmetro. Procedimiento para prueba de hipotesis
1.- Identificar el parametro de interes (para probar parametros se hacen estimaciones por medio de la muestra). 2.- Establecer Hipotesis Nula. 3.- Establecer una apropiada Hipotesis Alternativa. 4.- Seleccionar el nivel de significancia (). 5.- Establecer un parametro de prueba apropiada (Z,t, ji cuadrada, F). 6.- Establecer region de rechazo (critica). 7.- Calcular las cantidades muestrales y sustituirlos en los estadisticos de prueba (z,t, ji cuadrada, f) y encontrar los calculos. 8.- Decide si se debe rechazar hipotesis. 9.- Conclusion.
Criterios de rechazo
Ho-si Z* <> 1.-si Z* > Z
2.-si Z* <>
Tipos de prueba
a) Prueba bilateral o de dos extremos: la hiptesis planteada se formula con la igualdad
Ejemplo:
H0 : = 200 H1 : 200
b) Pruebas unilateral o de un extremo: la hiptesis planteada se formula con o
H0 : 200 H0 : 200 H1 : <> 200
Ejemplo: Paso 1: Plantear la hiptesis nula Ho y la hiptesis alternativa H1.
Cualquier investigacin estadstica implica la existencia de hiptesis o afirmaciones acerca de las poblaciones que se estudian.
La hiptesis nula (Ho) se refiere siempre a un valor especificado del parmetro de poblacin, no a una estadstica de muestra. La letra H significa hiptesis y el subndice cero no hay diferencia. Por lo general hay un "no" en la hiptesis nula que indica que "no hay cambio" Podemos rechazar o aceptar Ho.
La hiptesis nula es una afirmacin que no se rechaza a menos que los datos maestrales proporcionen evidencia convincente de que es falsa. El planteamiento de la hiptesis nula siempre contiene un signo de igualdad con respecto al valor especificado del parmetro.
La hiptesis alternativa (H1) es cualquier hiptesis que difiera de la hiptesis nula. Es una afirmacin que se acepta si los datos maestrales proporcionan evidencia suficiente de que la hiptesis nula es falsa. Se le conoce tambin como la hiptesis de investigacin. El planteamiento de la hiptesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado del parmetro.
Paso 2: Seleccionar el nivel de significancia.
Nivel de significacia: Probabilidad de rechazar la hiptesis nula cuando es verdadera. Se le denota mediante la letra griega , tambin es denominada como nivel de riesgo, este termino es mas adecuado ya que se corre el riesgo de rechazar la hiptesis nula, cuando en realidad es verdadera. Este nivel esta bajo el control de la persona que realiza la prueba. Si suponemos que la hiptesis planteada es verdadera, entonces, el nivel de significacin indicar la probabilidad de no aceptarla, es decir, estn fuera de rea de aceptacin. El nivel de confianza (1-), indica la probabilidad de aceptar la hiptesis planteada, cuando es verdadera en la poblacin.
La distribucin de muestreo de la estadstica de prueba se divide en dos regiones, una regin de rechazo (conocida como regin crtica) y una regin de no rechazo (aceptacin). Si la estadstica de prueba cae dentro de la regin de aceptacin, no se puede rechazar la hiptesis nula.
La regin de rechazo puede considerarse como el conjunto de valores de la estadstica de prueba que no tienen posibilidad de presentarse si la hiptesis nula es verdadera. Por otro lado, estos valores no son tan improbables de presentarse si la hiptesis nula es falsa. El valor crtico separa la regin de no rechazo de la de rechazo.
Tipos de errores
Cualquiera sea la decisin tomada a partir de una prueba de hiptesis, ya sea de aceptacin de la Ho o de la Ha, puede incurrirse en error:
Un error tipo I se presenta si la hiptesis nula Ho es rechazada cuando es verdadera y deba ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa .
Un error tipo II, se denota con la letra griega se presenta si la hiptesis nula es aceptada cuando de hecho es falsa y deba ser rechazada.
En cualquiera de los dos casos se comete un error al tomar una decisin equivocada.
En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las consecuencias posibles.
Para que cualquier ensayo de hiptesis sea bueno, debe disearse de forma que minimice los errores de decisin. En la prctica un tipo de error puede tener ms importancia que el otro, y as se tiene a conseguir poner una limitacin al error de mayor importancia. La nica forma de reducir ambos tipos de errores es incrementar el tamao de la muestra, lo cual puede ser o no ser posible.
La probabilidad de cometer un error de tipo II denotada con la letra griega beta , depende de la diferencia entre los valores supuesto y real del parmetro de la poblacin. Como es ms fcil encontrar diferencias grandes, si la diferencia entre la estadstica de muestra y el correspondiente parmetro de poblacin es grande, la probabilidad de cometer un error de tipo II, probablemente sea pequea.
El estudio y las conclusiones que obtengamos para una poblacin cualquiera, se habrn apoyado exclusivamente en el anlisis de una parte de sta. De la probabilidad con la que estemos dispuestos a asumir estos errores, depender, por ejemplo, el tamao de la muestra requerida. Las contrastaciones se apoyan en que los datos de partida siguen una distribucin normal
Existe una relacin inversa entre la magnitud de los errores y : conforme a aumenta, disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas estadsticas. Lo ideal sera establecer y .En la prctica se establece el nivel y para disminuir el Error se incrementa el nmero de observaciones en la muestra, pues as se acortan los limites de confianza respecto a la hiptesis planteada .La meta de las pruebas estadsticas es rechazar la hiptesis planteada. En otras palabras, es deseable aumentar cuando sta es verdadera, o sea, incrementar lo que se llama poder de la prueba (1- ) La aceptacin de la hiptesis planteada debe interpretarse como que la informacin aleatoria de la muestra disponible no permite detectar la falsedad de esta hiptesis.
Paso 3: Clculo del valor estadstico de prueba
Valor determinado a partir de la informacin muestral, que se utiliza para determinar si se rechaza la hiptesis nula., existen muchos estadsticos de prueba para nuestro caso utilizaremos los estadsticos z y t. La eleccin de uno de estos depende de la cantidad de muestras que se toman, si las muestras son de la prueba son iguales a 30 o mas se utiliza el estadstico z, en caso contrario se utiliza el estadstico t. En las pruebas de hiptesis para la media (), cuando se conoce la desviacin estndar () poblacional, o cuando el valor de la muestra es grande (30 o ms), el valor estadstico de prueba es z y se determina a partir de:
El valor estadstico z, para muestra grande y desviacin estndar poblacional desconocida se determina por la ecuacin:
En la prueba para una media poblacional con muestra pequea y desviacin estndar poblacional desconocida se utiliza el valor estadstico t.
Paso 4: Formular la regla de decisin
Se establece las condiciones especficas en la que se rechaza la hiptesis nula y las condiciones en que no se rechaza la hiptesis nula. La regin de rechazo define la ubicacin de todos los valores que son tan grandes o tan pequeos, que la probabilidad de que se presenten bajo la suposicin de que la hiptesis nula es verdadera, es muy remota
Distribucin muestral del valor estadstico z, con prueba de una cola a la derecha
Valor critico: Es el punto de divisin entre la regin en la que se rechaza la hiptesis nula y la regin en la que no se rechaza la hiptesis nula.
Paso 5: Tomar una decisin.
En este ltimo paso de la prueba de hiptesis, se calcula el estadstico de prueba, se compara con el valor crtico y se toma la decisin de rechazar o no la hiptesis nula. Tenga presente que en una prueba de hiptesis solo se puede tomar una de dos decisiones: aceptar o rechazar la hiptesis nula. Debe subrayarse que siempre existe la posibilidad de rechazar la hiptesis nula cuando no debera haberse rechazado (error tipo I). Tambin existe la posibilidad de que la hiptesis nula se acepte cuando debera haberse rechazado (error de tipo II).
4.1 Estimacion puntual y por intervalos de confianza
Qu es una estimacin? Cuando queremos realizar un estudio de una poblacin cualquiera de la que desconocemos sus parmetros, por ejemplo su media poblacional o la probabilidad de xito si la poblacin sigue una distribucin binomial, debemos tomar una muestra aleatoria de dicha poblacin a travs de la cual calcular una aproximacin a dichos parmetros que desconocemos y queremos estimar. Bien, pues esa aproximacin se llama estimacin . Adems, junto a esa estimacin, y dado que muy probablemente no coincida con el valor real del parmetro, acompaaremos el error aproximado que se comete al realizarla. Una estimacin puntual del valor de un parmetro poblacional desconocido (como puede ser la media , o la desviacin estndar ), es un nmero que se utiliza para aproximar el verdadero valor de dicho parmetro poblacional. A fin de realizar tal estimacin, tomaremos una muestra de la poblacin y calcularemos el parmetro muestral asociado ( x para la media, s para la desviacin estndar, etc.). El valor de este parmetro muestral ser la estimacin puntual del parmetro poblacional. Consiste en la estimacin del valor del parmetro mediante un slo valor, obtenido de una frmula determinada. Por ejemplo, si se pretende estimar la talla media de un determinado grupo de individuos, puede extraerse una muestra y ofrecer como estimacin puntual la talla media de los individuos. Lo ms importante de un estimador, es que sea un estimador eficiente. Es decir, que sea insesgado(ausencia de sesgos) y estable en el muestreo o eficiente (varianza mnima) Estimacin puntual Sea X una variable poblacional con distribucin F , siendo desconocido. El problema de estimacin puntual consiste en, seleccionada una muestra X1, ..., Xn, encontrar el estadstico T(X1, ..., Xn) que mejor estime el parmetro . Una vez observada o realizada la muestra, con valores x1, ..., xn, se obtiene la estimacin puntual de , T(x1, ..., xn) = . Vemos a continuacin dos mtodos para obtener la estimacin puntual de un parmetro: mtodo de los momentos y mtodo de mxima verosimilitud. Mtodo de los momentos: consiste en igualar momentos poblacionales a momentos muestrales. Deberemos tener tantas igualdades como parmetros a estimar. Momento poblacional de orden r r = E(Xr) Momento muestral de orden r ar = Xn i=1 Xr i n Mtodo de mxima verosimilitud: consiste en tomar como valor del parmetro aquel que maximice la probabilidad de que ocurra la muestra observada. Si X1, ..., Xn es una muestra seleccionada de una poblacin con distribucin F o densidad f(x), la probabilidad de que ocurra una realizacin x1, ..., xn viene dada por: L(x1, ..., xn) = Yn i=1 f(xi) A L(x1, ..., xn) se le llama funcin de verosimilitud.(credibilidad de la muestra observada). Buscamos entonces el valor de que maximice la funcin de verosimilud, y al valor obtenido se le llama estimacin por mxima verosimilitud de . Nota: si la variable X es discreta, en lugar de f(xi ) consideramos la funcin masa de probabilidad p(xi). Ejemplo 7.1: Sea X N(, ), con desconocido. Seleccionada una m.a.s. X1, ..., Xn, con realizacin x1, ..., xn, estimamos el parmetro por ambos mtodos. Segn el mtodo de los momentos: E(X) = Xn i=1 Xi n = X, y al ser = E(X) se obtiene que = x. Por el mtodo de mxima verosimilitud: L(x1, ..., xn) = Yn i=1 f(xi ) = = Yn i=1 1 2 e (xi) 2 2 Estimacin por Intervalos de conanza 109 y maximizamos en tal funci n; en este caso resulta ms fcil maximizar su logaritmo: lnL(x1, ..., xn) = 1 2 2 Xn i=1 (xi ) 2 n ln( 2) lnL(x1, ..., xn) = 1 2 Xn i=1 (xi ) = n x n 2 = 0 = Estimacin por intervalos Consiste en la obtencin de un intervalo dentro del cual estar el valor del parmetro estimado con una cierta probabilidad. En la estimacin por intervalos se usan los siguientes conceptos: Intervalo de confianza El intervalo de confianza es una expresin del tipo [1, 2] 1 2, donde es el parmetro a estimar. Este intervalo contiene al parmetro estimado con un determinado nivel de confianza. Pero a veces puede cambiar este intervalo cuando la muestra no garantiza un axioma o un equivalente circunstancial. Variabilidad del Parmetro Si no se conoce, puede obtenerse una aproximacin en los datos aportados por la literatura cientfica o en un estudio piloto. Tambin hay mtodos para calcular el tamao de la muestra que prescinden de este aspecto. Habitualmente se usa como medida de esta variabilidad la desviacin tpica poblacional y se denota . Error de la estimacin Es una medida de su precisin que se corresponde con la amplitud del intervalo de confianza. Cuanta ms precisin se desee en la estimacin de un parmetro, ms estrecho deber ser el intervalo de confianza y, si se quiere mantener o disminuir el error, ms ocurrencias debern incluirse en la muestra estudiada. En caso de no incluir nuevas observaciones para la muestra, ms error se comete al aumentar la precisin. Se suele llamar E, segn la frmula E = (2 - 1)/2. Lmite de Confianza Es la probabilidad de que el verdadero valor del parmetro estimado en la poblacin se site en el intervalo de confianza obtenido. El nivel de confianza se denota por (1-), aunque habitualmente suele expresarse con un porcentaje ((1- )100%). Es habitual tomar como nivel de confianza un 95% o un 99%, que se corresponden con valores de 0,05 y 0,01 respectivamente. Valor Tambin llamado nivel de significacin. Es la probabilidad (en tanto por uno) de fallar en nuestra estimacin, esto es, la diferencia entre la certeza (1) y el nivel de confianza (1-). Por ejemplo, en una estimacin con un nivel de confianza del 95%, el valor es (100-95)/100 = 0,05 Valor crtico Se representa por Z/2. Es el valor de la abscisa en una determinada distribucin que deja a su derecha un rea igual a /2, siendo 1- el nivel de confianza. Normalmente los valores crticos estn tabulados o pueden calcularse en funcin de la distribucin de la poblacin. Por ejemplo, para una distribucin normal, de media 0 y desviacin tpica 1, el valor crtico para = 0,1 se calculara del siguiente modo: se busca en la tabla de la distribucin ese valor (o el ms aproximado), bajo la columna "rea"; se observa que se corresponde con -1,28. Entonces Z/2 = 1,64. Si la media o desviacin tpica de la distribucin normal no coinciden con las de la tabla, se puede realizar el cambio de variable t =(X-)/ para su clculo. Con estas definiciones, si tras la extraccin de una muestra se dice que "3 es una estimacin de la media con un margen de error de 0,6 y un nivel de confianza del 99%", podemos interpretar que el verdadero valor de la media se encuentra entre 2,7 y 3,3, con una probabilidad del 99%. Los valores 2,7 y 3,3 se obtienen restando y sumando, respectivamente, la mitad del error, para obtener el intervalo de confianza segn las definiciones dadas. Para un tamao fijo de la muestra, los conceptos de error y nivel de confianza van relacionados. Si admitimos un error mayor, esto es, aumentamos el tamao del intervalo de confianza, tenemos tambin una mayor probabilidad de xito en nuestra estimacin, es decir, un mayor nivel de confianza. 4.2 Estimacion de la media, de la diferencia de medias, de la proporcion y de la diferencia de proporciones Estimacion de la media:El intervalo de confianza, para la media de una poblacin, con un nivel de confianza de 1- , siendo x la media de una muestra de tamao n y la desviacin tpica de la poblacin, es:
El error mximo de estimacin es:
Cuanto mayor sea el tamao de la muestra, n, menor es el error. Cuanto mayor sea el nivel de confianza, 1-, mayor es el error. Tamao de la muestra
Si aumentamos el nivel de confianza, aumenta el tamao de la muestra. Si disminuimos el error, tenemos que aumentar el tamao de la muestra. Ejemplo: El tiempo que tardan las cajeras de un supermercado en cobrar a los clientes sigue una ley normal con media desconocida y desviacin tpica 0,5 minutos. Para una muestra aleatoria de 25 clientes se obtuvo un tiempo medio de 5,2 minutos. 1.Calcula el intervalo de confianza al nivel del 95% para el tiempo medio que se tarda en cobrar a los clientes.
2.Indica el tamao muestral necesario para estimar dicho tiempo medio con un el error de 0,5 minutos y un nivel de confianza del 95%.