Professional Documents
Culture Documents
Trabajo de la 4 unidad
Pruebas de bondad de ajuste y pruebas no paramtricas
N de control: 12770111
20/noviembre/2013
i 1
oi
f ei f ei
= Valor observado en la i-simo dato. = Valor esperado en la i-simo dato. = Categoras o celdas. = Parmetros estimados sobre la base de los datos de la muestra Los grados de libertad vienen dados por: gl= K-m-1. Criterio de decisin es el siguiente: 2 t2;K m1 Se rechaza H0 cuando . En caso contrario se acepta. Donde t representa el valor proporcionado por las tablas, segn el nivel de significacin elegido. Cuanto ms se aproxima a cero el valor de chi-cuadrada, ms ajustadas estn ambas distribuciones.
Cuanto mayor sea el valor de ji-cuadrada menos creble es la hiptesis nula H0. De la misma forma, cuanto ms se aproximan acero el valor de , ms ajustadas estn las distribuciones. H0 se acepta H0 se rechaza
Los sucesos A y B son independientes si P(AB) = P(A) . P(B). la hiptesis nula en este caso dice que la categora de individuos con respecto al factor 1 es independiente a la del factor 2. Esto se convierte en Pij = Pi .Pj para cada par (i, j) La cuanta esperada en la celda (i, j) es n . Pij , asi que cuando la hiptesis nula es verdadera E(Nij) = n . Pi . Pj para obtener un estadstico chi-cuadrada se debe estimar la Pi(i=1.I) y las Pj(j = 1J).
Ejemplo: Supngase que desea determinar si las opiniones de los residentes votantes del estado de Illinois respecto a una nueva reforma impositiva son independientes de sus niveles de ingreso. Una muestra aleatoria de 1000 votantes registrados del estado de Illinois se clasifica de acuerdo con sus ingresos como bajo, medio y alto y si estn a favor o en contra de la nueva reforma impositiva. Las frecuencias observadas se presentan en la siguiente tabla, la cual se conoce como una tabla de contingencia.
Tabla de contingencia 2 x 3 Nivel de ingresos Bajo Medio 182 154 336 213 138 351
A una tabla de contingencia con r renglones y c columnas se le conoce como una tabla r x c (r x c se lee r por c), a los totales de renglones y columnas en la tabla anterior se les denomina frecuencia marginales. La decisin de aceptar o rechazar la hiptesis nula, H0, de independencia entre la opinin de votantes respecto a la nueva reforma de impuestos y su nivel de ingresos se basan en que tan bien se ajustan las frecuencias observadas en cada una de las 6 celdas de la tabla, y las frecuencias que se esperaran para cada celda bajo la suposicin de que H 0 es verdadera. Para encontrar estas frecuencias esperadas, defnanse los siguientes eventos: L: una persona seleccionada esta en el nivel bajo de ingresos. M: una persona seleccionada esta en el nivel medio de ingresos. H: una persona seleccionada esta en el nivel alto de ingresos. F: una persona seleccionada est a favor de la nueva reforma fiscal. A: una persona seleccionada est en contra de la nueva reforma fiscal. Al utilizar las frecuencias marginales, es posible escribir las siguientes estimaciones de probabilidad:
( ) ( )
P (LF) = P (L) P (F) = ( P (LA) = P (L) P (A) = ( P (MF) = P (M) P (F) = ( P (MA) = P (M) P (A) = ( P (HF) = P (H) P (F) = ( P (HA) = P (H) P (A) = (
( ) , ( )
), ), ), ), ), ).
( )
)( )( )( )( )( )(
Las frecuencias esperadas se obtienen al multiplicar cada probabilidad de una celda por el nmero total de observaciones. Como antes, estas frecuencias se redondean a un decimal de esta manera el nmero esperado de votantes de bajos
ingresos en la muestra y que favorecen la nueva reforma impositiva, se estima que es: ( )( )
)(
) x 100 =
= 200.9
Cuando H0 es verdadera. La regla general para obtener la frecuencia esperada de cualquier celda la proporciona la siguiente frmula: Frecuencia Esperada = Total de la columna * Total del rengln Gran total
Para demostrar que si la poblacin sigue la distribucin hipottica propuesta, tiene, aproximadamente, una distribucin ji-cuadrada en donde los grados de libertad vienen dados por: gl= K-m-1 donde m representa el numero de parmetros de la distribucin hipottica, estimados por los estadsticos muestrales. Esta aproximacin mejora conforme n se incrementa. El criterio de decisin es el siguiente: Se rechaza H0 cuando el valor del estadstico de prueba contrario se acepta. . En caso
Donde t representa el valor proporcionado por las tablas, segn el nivel de significacin elegido. Cuanto ms se aproxima a cero el valor de ji-cuadrada, ms ajustadas estn ambas distribuciones. Un punto que cabe destacar en la aplicacin de este procedimiento de prueba se refiere a la magnitud de las frecuencias esperadas. Si stas frecuencias
esperadas son muy pequeas, entonces el estadstico de prueba no reflejar la desviacin de las frecuencias observadas y las esperadas, no nicamente la pequea magnitud de las frecuencias esperadas. No hay consenso generalizado en cuanto al valor mnimo de las frecuencias esperadas, pero valores de 3, 4 y 5 se usan ampliamente como mnimos. Algunos autores proponen que una frecuencia esperada podra ser tan pequea, como 1 o 2, siempre que la mayora de ellas excedan 5. Cuando una frecuencia esperada sea muy pequea, puede cambiarse con la frecuencia esperada de un intervalo de clase adyacente. Las frecuencias observadas correspondientes tambin se combinaran, y k se reducira una unidad. No es necesario que los intervalos de clase tengan la misma anchura. Ejemplo: Un ingeniero est probando una fuente de poder usada en una computadora notebook. Utilizando = 0.05, el quiere determinar si una distribucin normal describe adecuadamente el voltaje de salida. De una muestra aleatoria de n = 100 unidades obtiene las estimaciones muestrales de la media y la desviacin estndar x = 5.04 V y s = 0.08 V. Una prctica comn cuando se construyen los intervalos de clase para la distribucin de frecuencia usada en la prueba ji-cuadrada de la bondad del ajuste es elegir los limites de clase de las celdas de tal modo que las frecuencias esperadas Ei = npi sean iguales para todas l sa celdas o intervalos de clase. Para usar este mtodo, los limites de clase a0,a1,,ak de los k intervalos de clase se elegiran de tal modo que todas las probabilidades ) ( ) = ( sean iguales. Suponga que se decide usar k = 8 intervalos de clase. Para la distribucin normal estndar, los intervalos que dividen la escala en ocho segmentos igualmente factibles son [ 0, 0.32), [0.32, 0.675), [0.675, 1.15), [1.15, ) y los cuatro intervalos reflejados al otro lado de cero. Para cada intervalo pi = 1/8 = 0.125, por lo que las frecuencias esperadas de las celdas son Ei = npi = 100(0.125) = 12.5. La tabla completa de las frecuencias observadas y las esperadas se presenta a continuacin: Intervalo de clase x < 4.948 4.948 x < 4.986 4.986 x < 5.014 5.014 x < 5.040 5.040 x < 5.066 5.066 x < 5.094 5.094 x < 5.132 5.132 x Totales frecuencia observada Oi 12 14 12 13 12 11 12 14 100 frecuencia observada Ei 12.5 12.5 12.5 12.5 12.5 12.5 12.5 12.5 100
La cota del primer intervalo de clase es x 1.15s = 4.948. Para el segundo intervalo de clase es [x 1.15s, x 0.675s), y as sucesivamente. Puede aplicarse el procedimiento de prueba de hiptesis de ocho pasos en este problema. 1. La variable de inters es la forma de la distribucin del voltaje de la fuente de poder. 2. H0: la forma de la distribucin es normal. 3. H1: la forma de la distribucin no es normal. 4. = 0.05 5. el estadstico de la prueba es:
6. puesto que se estimaron dos parmetros de la distribucin normal, el estadstico ji-cuadrada anterior tiene k-p-1 = 8-2-1 = 5 grados de libertad. Por lo tanto, se rechazar H0 si > = 11.07 7. clculos: ( )
10
En estadstica las tablas de contingencia se emplean para registrar y analizar la relacin entre dos o ms variables, habitualmente de naturaleza cualitativa (nominales u ordinales). Sea Pij la probabilidad de que un elemento seleccionado al azar est en la celda ij, dado que las dos clasificaciones son independientes. Entonces pij = uivj, donde ui es la probabilidad de que un elemento seleccionado al azar este en la clase del rengln i y vj es la probabilidad de que un elemento seleccionado al azar est en la clase de la columna j. ahora bien, con el supuesto de independencia, los estimadores de ui y vj son
Por lo tanto, la frecuencia esperada de cada celda es Entonces, para n grande, el estadstico
Tiene una distribucin ji-cuadrada aproximada con (r-1) (c-1) grados de libertad si la hiptesis nula es verdadera. Por lo tanto, la hiptesis de independencia se rechazara si el valor observado del estadstico de prueba excediera ( )( ). Para calcular grados de libertad se tiene la siguiente frmula: gl= (r-)(c-1)
11
SAS (Statistical Analysis System): Sistema para el anlisis estadstico y economtrico con gran potencia de manejo de volmenes extensos de datos. SPSS (Statistical Packge for the Social Sciencies): Se trata de un paquete especial diseado para cubrir la mayor parte de las necesidades del proceso estadstico que suelen plantearse en las necesidades del proceso estadstico que suelen plantearse en la realizacin de investigaciones y estudios de tipo emprico en el campo de las ciencias sociales y humanas. SYSTAT (the SYstem for STATistics): Es un potente paquete estadstico, susceptible de ser implementado incluso en microordenadores de pequea capacidad. Viene avalado por una merecida fama de programa eficiente y de fcil uso. TSP (Time Series Processor): como su nombre indica, sirve para el procesamiento de series de tiempo; sin embargo, tambin tiene rutinas de procesamiento de regresin muy poderosas y toca una gran parte de los temas econmicos SCA (Scientific Computing Associates): se trata de un paquete estadstico que aborda la mayora de los temas elevados de esta disciplina, con especial hincapi en el anlisis de series temporales. Existen muchos otros paquetes, como LISREL, SPAD, STATPACH, MINITAB, LISA, OSIRIS, ABSTAT y otros ms, que con ms o menos profundidad tocan la mayor parte de las materias estadsticas. Por otro lado encontramos otra herramienta que se utiliza para realizar clculos estadsticos. La Hoja de Clculo Excel/Calc: puede convertirse en una poderosa herramienta para crear entornos de aprendizaje que enriquezcan la representacin (modelado), comprensin y solucin de problemas, en el rea de la estadstica y probabilidad. Excel ofrece funcionalidades que van ms all de la tabulacin, clculo de frmulas y Graficacin de datos: En inferencia estadstica calcula los intervalos de confianza, el tamao de la muestra y se puede aplicar al contraste de hiptesis, tanto en el bilateral como en el unilateral. La instalacin del programa es muy sencilla, adems Microsoft Excel incluye un comando para el anlisis de datos, dentro de las "herramientas para el anlisis", su uso es poco comn, ya que no se tiene cuidado de instalar todas las funciones dentro de las "herramientas", perdiendo la oportunidad de utilizar un medio poderoso para el estudio dentro de la estadstica.
12
13
Como se indic antes, ligeras divergencias de la normalidad tienen como resultado desviaciones menores del ideal para las pruebas paramtricas estndar. Esto es cierto en particular para la prueba t y la prueba F. En el caso de la prueba t y la prueba F, el valor P citado puede ser ligeramente errneo si existe una violacin moderada de la suposicin de normalidad. En resumen, si se puede aplicar una prueba paramtrica y una no paramtrica al mismo conjunto de datos, debemos aplicar la tcnica paramtrica ms eficiente. Sin embargo, se debe reconocer que las suposiciones de normalidad a menudo no se pueden justificar, y que no siempre se tienen mediciones cuantitativas.
14
es el hecho de que, aunque hay orden entre las categoras, la diferencia entre dos categoras adyacentes no es la misma en toda la extensin de la escala. Algunas escalas consisten en calificaciones de mltiples factores que se agregan despus para llegar a un ndice general. Debe mencionarse brevemente una clase espacial de escala ordinal llamada "escala de posicin", donde las observaciones se clasifican de mayor a menor (o viceversa). Al igual que en las escalas nominales, se emplean a menudo porcentajes y proporciones en escalas ordinales. Escala de Intervalo: Refleja distancias equivalentes entre los objetos y en la propia escala. Es decir, el uso de sta escala permite indicar exactamente la separacin entre 2 puntos, lo cual, de acuerdo al principio de isomorfismos, se traduce en la certeza de que los objetos as medidos estn igualmente separados a la distancia o magnitud expresada en la escala. Escala de Razn: Constituye el nivel ptimo de medicin, posee un cero verdadero como origen, tambin denominada escala de proporciones. La existencia de un cero, natural y absoluto, significa la posibilidad de que el objeto estudiado carezca de propiedad medida, adems de permitir todas las operaciones aritmticas y el uso de nmeros representada cantidades reales de la propiedad medida. 4.2.2 METODOS ESTADSTICOS CONTRA NO PARAMETRICOS 1.- EL CASO DE DOS MUESTRAS: Las pruebas estadsticas de dos muestras se usan criando el investigador desea establecer la diferencia entre chis tratamientos o si un tratamiento es mejor que otro. Por ejemplo adiestramiento, uso de psicofrmaco, en cada caso el grupo que ha sufrido el tratamiento es comparado con el que no lo ha experimentado o que ha sufrido un tratamiento diferente. En la comparacin de estos grupos, a veces se observan diferencias significativas que no son el resultado del tratamiento, por ejemplo, en el estudio de los trabajadores que se someten a un entrenamiento diferente para determinar cul es el mejor para elevar su calificacin, puede ser que la diferencia no se deba, realmente, a uno u otra tratamiento, sino que uno de los grupos estaba ms motivado por elevar rpidamente su calificacin y, de esta forma, no se refleja verdaderamente la efectividad del procedimiento de enseanza. Una forma de eliminar esta dificultad, es usar muestras relacionadas, estas se pueden lograr: Cuando el propio sujeto es su propio control. Con parejas de sujetos en las que se asignan los miembros de cada pareja, a las dos condiciones. La tcnica paramtrica usual para analizar datos provenientes de dos muestras relacionadas es aplicar la prueba t a los puntajes, estos se pueden obtener de los dos puntajes de cada pareja igualada o de los puntajes de cada sujeto bajo las dos
15
condiciones. stas pruebas determinan la medida en dije las diferencias de las muestras indican, de forma convincente, una diferencia en el proceso aplicado en ellos. En el caso de dos muestras independientes, ellas pueden obtenerse: Tomando al azar sujetos de dos poblaciones. Asignando al azar ambos tratamientos a miembros de algunas muestras de orgenes arbitrarios. No es necesario que la muestra sea del mismo tamao. En este caso, la prueba t es la tcnica paramtrica indicada para analizar los datos de las dos muestras independientes. Los mtodos estadsticos no paramtricos adecuados para estos casos, son:
Hasta aqu hemos visto las pruebas estadsticas idneas para probar la significacin de las diferencias. Entre una sola muestra y una poblacin determinada. Entre dos muestras relacionadas o independientes. Ahora veremos las pruebas que determinan la significacin de las diferencias entre 3 o ms grupos, relacionados o independientes. A veces las circunstancias requieren de diseos experimentales de ms de dos muestras o condiciones que puedan estudiarse simultneamente y entonces es necesario usar una prueba estadstica que indique si existe una diferencia total entre las k muestras o condiciones, ya que no es posible tener confianza en una decisin acerca de k muestras, en la que el anlisis se haga probando las muestras, 2 a 2.La tcnica paramtrica para probar si varias muestras proceden de una misma poblacin, es el anlisis de varianza o prueba F. La misma facilita que no haya
16
prdida de precisin al estimar la varianza por separado, pues se utiliza una varianza combinada.
17
18
El estadstico de la prueba se puede entonces comparar contra las distribuciones del estadstico de prueba (dependiendo que F se utiliza) para determinar el P-valor.
19
Donde:
con el subndice i entre parntesis es el nmero que ocupa la i-sima posicin en la muestra; = (x1 + ... + xn) / n es la media muestral; Las constantes ai se calculan
( )=
Donde: Siendo m1,..., mn son los valores medios del estadstico ordenado, de variables aleatorias independientes e idnticamente distribuidas, muestreadas de distribuciones normales. V es la matriz de covarianzas de ese estadstico de orden. La hiptesis nula se rechazar si W es demasiado pequeo.
20
Conclusin
Las variables estadsticas se clasifican en variables continuas o cuantitativas y variables discretas o cualitativas, segn el nivel de escala en que estn medidas. Las variables continuas se refieren a magnitudes medidas en escala de intervalos o de razn, mientras que las variables discretas comprenden magnitudes medidas en escalas de nivel nominal y ordinal. Por otro lado puedo concluir que las pruebas no paramtricas se encargan de estudiar las pruebas y modelos estadsticos cuya distribucin no se ajusta; o sea que no asumen ningn parmetro de las variables mustrales, por eso es muy importante el conocimiento de las pruebas no
paramtricas, ya que se aplica en la administracin debido a la prueba de la tabla de contingencia como la de bondad de ajuste analizan datos nominales u ordinales.
21
22