You are on page 1of 13

UTEM

Trabajo de Inferencia Estadstica


Prueba de Kolmogorov-Smirnov
Nombre: Alexis Tobar Vsquez 29/07/2010

Profesor: Omar Aranda Chacn.

ndice

Tema

Pgina

Introduccin. Prueba de Kolmogorov-Smirnov. Dcima de una muestra de Kolmogorov-Smirnov. Dcima de Kolmogorov-Smirnov. para dos muestras independientes. Breve descripcin del Diagrama de caja. Aplicacin de la Prueba de Kolmogorov-Smirnov. Conclusiones. Bibliografa.

3 4 4 6

9 10 13 13

Introduccin.
La estadstica no paramtrica es una rama de la estadstica que estudia las pruebas y modelos estadsticos cuya distribucin subyacente no se ajusta a los llamados criterios paramtricos. Su distribucin no puede ser definida a priori, pues son los datos observados los que la determinan. La utilizacin de estos mtodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribucin conocida. La prueba de Kolmogorov-Smirnov (tambin prueba K-S) es una prueba no paramtrica que se utiliza para determinar la bondad de ajuste de dos distribuciones de probabilidad entre s. En otras palabras, su utilidad se refleja en la verificacin de distribucin de una muestra aleatoria, esto es, si dicho conjunto sigue alguna distribucin conocida. Cabe destacar que esta prueba es aplicable para distribuciones continuas, como es el caso de la distribucin normal.

Prueba de Kolmogorov-Smirnov.
Este contraste de hiptesis compara la funcin de distribucin esperada (que se calcula), con la observada, para luego calcular un valor de discrepancia, que se denota usualmente como D, que corresponde a la diferencia mxima en valor absoluto entre ambas distribuciones observada y esperada-, que corresponde, si se est verificando un ajuste a la distribucin normal, a la probabilidad de obtener una distribucin que discrepe tanto como la observada si verdaderamente se hubiera obtenido una muestra aleatoria, de tamao n, de una distribucin normal. Si esa probabilidad es alta, no se debe descartar la hiptesis que los datos en cuestin obedecen a una distribucin conocida y continua; si no es este el caso, se debe entonces rechazar dicho modelo probabilstico para los datos. Una consideracin que no se debe dejar de lado es que dicha prueba es muy poderosa, sobre todo y como se ha dicho anteriormente, en la verificacin de una distribucin normal, y con un tamao de muestra grande.

Dcima de una muestra de Kolmogorov-Smirnov.


Premisas La nica premisa que se necesita es que las mediciones se encuentren al menos en una escala de intervalo. Se necesita que la medicin considerada sea bsicamente continua. Adems dicha prueba es aplicable cualquiera sea el tamao de la muestra.

Potencia-Eficiencia La prueba de una muestra de K-S puede en todos los casos en que se aplique ser ms poderosa que su prueba alternativa, la prueba de2 (ji-cuadrado). Caractersticas de la dcima La prueba de K-S de una muestra es una dcima de bondad de ajuste. Esto es, se interesa en el grado de acuerdo entre la distribucin de un conjunto de valores de la muestra y alguna distribucin terica especfica. Determina si razonablemente puede pensarse que las mediciones mustrales provengan de una poblacin que tenga esa distribucin terica. En la prueba se compara la distribucin de frecuencia acumulativa de la distribucin terica con la distribucin de frecuencia acumulativa observada. Se determina el punto en el que estas dos distribuciones muestran la mayor divergencia. 4

Hiptesis de la Prueba de Kolmogorov-Smirnov H0: La distribucin observada se ajusta a la distribucin esperada. F(x) = Ft(x) para todo x. H1: La distribucin observada no se ajusta a la distribucin esperada.

Tambin: F(x) Ft(x) para algn x F(x): Ft(x): Es una funcin desconocida. Es la funcin esperada. Esta puede ser por ejemplo la funcin normal con cierta media

y varianzas conocidas.

Estadstica de prueba y distribucin de la muestra D = mxima (Este valor D como se mencion anteriormente corresponde al rango mayor observado entre ambas distribuciones, esperada, y observada) Sn(x): Es la funcin de distribucin emprica (u observada).

Dcima de Kolmogorov-Smirnov para dos muestras independientes.

Estructura de la base de datos Normalmente la estructura que tiene la base de datos es la de utilizar una variable para entrar los resultados de la medicin y la otra donde se particione a estos resultados en los dos grupos.

Premisa La nica premisa que se necesita es que las mediciones se encuentren al menos en una escala ordinal. Adicionalmente se necesita que la medicin considerada sea bsicamente continua.

Potencia-Eficiencia Si se compara esta prueba ante la alternativa paramtrica de la t de student para dos muestras independientes (o el modelo de Anlisis de Varianza clasificacin simple para dos muestras), cuando las premisas paramtricas se cumplen, tiene una potencia eficiencia de cerca del 96%, que tiende a decrecer ligeramente a medida que se aumentan los tamaos de muestra.

Caractersticas de la dcima La dcima de Kolmogorov-Smirnov est construida, teniendo como base detectar las discrepancias existentes entre las frecuencias relativas acumuladas de las dos muestras objeto de estudio. Lo anterior propicia que esta dcima pueda advertir diferencias no tan solo entre los promedios, sino que stas sean debidas a la dispersin, o la simetra o la oblicuidad. Esta caracterstica la hace distintiva de aquellas en que solamente se ocupan de analizar las diferencias entre los promedios. La dcima admite que los tamaos de las muestras no sean iguales.

Hiptesis Las hiptesis de esta dcima, expresadas en palabras son: H0: Las distribuciones poblacionales son iguales. H1: Las distribuciones poblacionales son distintas. Ahora bien se recomienda en general hacer el enunciado de las hip tesis de forma tal que indique en un mayor grado la caracterstica que va a ser docimada.

Estadstica de prueba y distribucin muestral. Se designa por T1 y por T2 las tablas de distribucin de frecuencias relativas acumuladas, particionadas en k categoras. Donde el primer subndice corresponde al nmero de la muestra y el segundo al orden de la clase.

TABLA1 Clase Frecuencia relativa acumulada

TABLA2 Frecuencia acumulada

DIFERENCIAS relativa Diferencia de las Frecuencias p11-p21 p12-p21 ... p1i-p2i ... p1k-p2k

1 2 ... I ... k

p11 p12 ... p1i ... p1k

p21 p22 ... p2i ... p2k

Se analiza entonces en la columna de las diferencias de las frecuencias, en qu clases se obtiene el valor mximo. Se tendr entonces en smbolos:

La estadstica de prueba de esta dcima se designa por 2 y para tamaos de muestra suficientemente grandes, est distribuido segn 2 con dos grados los de libertad. En smbolos:

Salidas de la dcima Las salidas usuales de la dcima son tres:

Mxima diferencia negativa. Donde se muestra cul es la mayor diferencia negativa alcanzada.

Mxima diferencia positiva. Donde se muestra la mayor diferencia positiva alcanzada. Valor de la probabilidad para dos colas.

Es necesario sealar que las dos primeras opciones suministran informacin en los casos en que sea conveniente realizar una dcima unilateral, adems de reflejar informacin acerca de lo que est ocurriendo en la dcima. Tcnicas adicionales a la dcima Existe un grupo de tcnicas adicionales a la dcima, las que hemos dividido en los siguientes grupos. Estadgrafos que deben acompaar a los estadgrafos de la dcima. Entre ellos se encuentran:

Tamaos en cada una de las muestras (casos vlidos en el anlisis) Media aritmtica de cada una de las muestras. Desviacin estndar de cada una de las muestras.

Tcnicas auxiliares para respaldar los resultados obtenidos en la conclusin


Diagrama de caja y bigotes de cada una de las muestras. Histograma de cada una de las muestras.

Breve descripcin del Diagrama de caja.

Diagrama de caja (Box-Plot).

Un diagrama de caja es un grfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. Est compuesto por un rectngulo, la "caja", y dos brazos, los "bigotes". Es un grfico que suministra informacin sobre los valores mnimo y mximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atpicos y la simetra de la distribucin.

Utilidad

Proporcionan una visin general de la simetra de la distribucin de los datos; si la mediana no est en el centro del rectngulo, la distribucin no es simtrica.

Son tiles para ver la presencia de valores atpicos.

Aplicacin de la Prueba de Kolmogorov-Smirnov.


En una investigacin, consistente en medir la talla de 100 nios de 5 aos de edad, se desea saber si las observaciones provienen de una poblacin normal. Eleccin de la prueba estadstica. El modelo experimental tiene una muestra y es factible un arreglo en el carcter ordinal o en los rangos de las series de clases. Planteamiento de la hiptesis.

Hiptesis nula (H0). Las diferencias entre los valores observados y los tericos de la distribucin normal se deben al azar.

Hiptesis alterna (H1). Los valores observados de las frecuencias para cada clase son diferentes de las frecuencias tericas de una distribucin normal.

Nivel de significacin. Para todo valor de probabilidad igual o menor que 0.05, se acepta H1 y se rechaza H0. Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta H0 y se rechaza H1. Tabla de 100 nios. Los valores X + s son 99.2 2.85.

Aplicacin de la prueba estadstica. Primero se elaboran los clculos de los valores tericos esperados para la distribucin normal. Inicialmente se determina el valor Z de los lmites de cada clase en la serie, por ejemplo: en la primera clase se determinan el lmite inferior y el superior (90 y 93), y en las subsecuentes slo los lmites superiores (97, 101, 105 y 109). Para cada valor de Z, se localiza el rea bajo la curva norma tipificada. (Vase: tabla de reas bajo la curva normal tipificada de 0 a 2). Los clculos de valores Z, son de la forma siguiente: 10

Y as sucesivamente. Para cada valor Z, se localiza el rea de la curva tipificada de la tabla de nmeros aleatorios. A partir de estos valores, se obtiene la diferencia entre los lmites de clases entre el superior y el inferior, por ejemplo: 0.4997 - 0.4793 = 0.020, 0.4793 - 0.2357 = 0.2436, 0.2357 - (-0.2794) = 0.5151, -0.2794 - (-0.4854) = 0.206 y -0.4854 - (-0.4994) = 0.014. Estos resultados de diferencias se multiplican por el tamao de la muestra (100 nios), luego se obtienen las frecuencias tericas y despus se arreglan en frecuencias acumuladas. Clculos de los valores tericos.

Las frecuencias acumuladas tericas y las observadas se arreglan en los rangos correspondientes, como se muestra en la siguiente tabla, y posteriormente se aplica la frmula de Kolmogorov-Smirnov. Clculo estadstico D de Kolmogorov-Smirnov.

D = ft - fobs = - 0.036 La diferencia mxima D es igual a -0.049, valor que se compara con los valores crticos de D en la prueba muestral de Kolmogorov-Smirnov y se obtiene la probabilidad de la existencia de esa magnitud de acuerdo con la prueba de Kolmogorov-Smirnov. El valor N es 100 y el mayor nmero de N en la tabla es 35, por lo cual se aplica la frmula al pie de la tabla: 11

Para la probabilidad de Lo anterior quiere decir que para todo valor menor que el crtico para una probabilidad de 0.05, la probabilidad correspondiente es mayor que 0.05, y todo valor mayor que D al calculado tienen una probabilidad menor que 0.05, o sea, es inversamente proporcional al crtico determinado o localizado en la tabla. Decisin. En virtud de lo anterior, el estadstico de Kolmogorov-Smirnov obtenido es menor que el crtico y su probabilidad mayor que 0.05, por lo tanto, se acepta H0 y se rechaza H1. Interpretacin. Las frecuencias observadas y las tericas calculadas no difieren significativamente. Por lo tanto, las observaciones tienen una distribucin normal.

12

Conclusiones.

La prueba de Kolmogorov-Smirnov pertenece a la estadstica no paramtrica, y su prueba consiste en comparar dos distribuciones de probabilidad. Su distribucin no puede ser definida a priori refirindose a la distribucin observada-, pues son los datos los que la determinan. La utilizacin de estos mtodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribucin conocida.

Esta estadstica de prueba propicia a travs de su construccin basada en diferencias, de detectar discrepancias entre las frecuencias relativas acumuladas de las muestras en estudio, y adems, puede determinarlas no solo entre promedios, sino que tambin debido a la dispersin, en el caso de la dcima para muestras independientes.

Al ser la Prueba de Kolmogorov-Smirnov una estadstica de prueba para la bondad de ajuste, ella puede aplicarse en cualquier rama o ciencia en donde se desee estudiar el comportamiento de una muestra aleatoria que se presume tiene una distribucin normal, para el caso de una muestra.

Bibliografa.
Sitio de la Asociacin de la Sociedad Espaola de Hipertensin: http://www.seh-lelha.org/noparame.htm

Sitio web: http://members.fortunecity.com/bucker4/estadistica/pruebaks1m.htm

Sitio Monografas:

http://www.monografias.com/trabajos11/docima/docima.shtml

13

You might also like