You are on page 1of 25

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE INGENIERÍA CIVIL


ESCUELA PROFESIONAL DE INGENIERÍA CIVIL

PRUEBA DE BONDAD DE AJUSTE KOLMOVOROK


SMIRNOV
Curso:
HIDROLOGIA PARA INGENIEROS CIVILES

Ciclo:
VII

Profesor:
Ing. OSCAR CASTRO ÑAÑEZ

Alumno:
RUIZ SOLANO ANGEL ANDRES

Piura, 23 DE ABRIL del 2019


CONTENIDO
INTRODUCCION ............................................................................................................. 1

OBJETIVOS ...................................................................................................................... 2

PRUEBA DE BONDAD DE AJUSTE KOLMOVOROK SMIRNOV ............................ 3

BONDAD DEL AJUSTE .............................................................................................. 3

DEFINICIÓN................................................................................................................. 3

Aplicación: ..................................................................................................................... 3

Hipótesis a contrastar: .................................................................................................... 3

PROCEDIMIENTO ....................................................................................................... 4

PRUEBA DE BONDAD DE AJUSTE PARA DIFERENTES DISTRIBUCIONES ....... 5

DISTRIBUCION NORMAL ......................................................................................... 5

PRUEBA DE BONDAD DE AJUSTE KOLMOVOROK SMIRNOV .................... 5

DISTRIBUCION LOGNORMAL DOS PARAMETROS ............................................ 8

PRUEBA DE BONDAD DE AJUSTE KOLMOVOROK SMIRNOV .................... 8

DISTRIBUCION LOGNORMAL 3 PARAMETROS ................................................ 11

PRUEBA DE BONDAD DE AJUSTE KOLMOVOROK SMIRNOV .................. 11

DISTRIBUCIÓN GUMBEL ....................................................................................... 14

PRUEBA DE BONDAD DE AJUSTE KOLMOVOROK SMIRNOV .................. 15

DISTRIBUCION LOGGUMBEL ............................................................................... 17

PRUEBA DE BONDAD DE AJUSTE KOLMOVOROK SMIRNOV .................. 17

EJEMPLO DE APLICACIÓN DE LA PRUEBA DE BONDAD DE AJUSTE


KOLMOVOROK SMIRNOV EN DISTRIBUCION GUMBEL ........................................ 19
1

INTRODUCCION

La bondad de ajuste de un modelo estadístico describe lo bien que se ajusta un conjunto


de observaciones. Las medidas de bondad en general, resumen la discrepancia entre los
valores observados y los k valores esperados en el modelo de estudio.

La prueba de bondad de ajuste KOLMOGOROV SMIRNOV es un test no paramétrico


que permite establecer si dos muestras se ajustan al mismo modelo probabilístico (Varas y
Bois, 1998). Es un test válido para distribuciones continuas y sirve tanto para muestras
grandes como para muestras pequeñas (Pizarro et al, 1986). Así mismo, Pizarro (1988),
hace referencia a que, como parte de la aplicación de este test, es necesario determinar la
frecuencia observada acumulada y la frecuencia teórica acumulada; una vez determinadas
ambas frecuencias, se obtiene el máximo de las diferencias entre ambas.
2

OBJETIVOS

 El objetivo de esta prueba de bondad de ajuste es señalar y determinar si los


datos estudiados o mediciones muéstrales provienen de una población que tiene
una distribución teórica determinada.
 Mediante la prueba se compara la distribución acumulada de las frecuencias
teóricas (ft) con la distribución acumulada de las frecuencias observadas, se
encuentra el punto de divergencia máxima y se determina qué probabilidad existe
de que una diferencia de esa magnitud se deba al azar.
3

PRUEBA DE BONDAD DE AJUSTE KOLMOVOROK SMIRNOV

BONDAD DEL AJUSTE


Se entiende por bondad de ajuste, la asimilación de datos observados de una variable, a una
función matemática previamente establecida y reconocida. A través de ésta es posible
interpolar y extrapolar información; en otras palabras, predecir el comportamiento de la
variable en estudio (Pizarro et al, 1986). Para la estimación de la bondad de ajuste, existen
variadas pruebas, las cuales poseen distinto grado de efectividad. En el presente documento
se entrega el test de Kolmogorov-Smirnov (Cid et al, 1990; Shao, 1990).

La prueba de Kolmogorov es considerada para el análisis de una muestra un


procedimiento de bondad de ajuste, es decir, permite la medición del grado de concordancia
existente entre la distribución de un conjunto de datos y una distribución teórica específica.

DEFINICIÓN
La prueba de Kolmogorov es una prueba no paramétrica que se emplea para probar el
grado de concordancia entre la distribución de datos empíricos de la muestra y alguna
distribución teórica específica.

Aplicación:
 Compara las funciones de distribución empírica de la muestra y la que se desea
contrastar.
 Es aplicable a distribuciones continuas.
 Para distribuciones discretas, los valores críticos no están tabulados.
 Para distribuciones continuas, los valores críticos están tabulados para:
 Distribuciones con parámetros especificados.
 Algunas distribuciones con parámetros no especificados (normal, Weibull,
gamma, exponencial).
Hipótesis a contrastar:
H0: Los datos analizados siguen una distribución M.
H1: Los datos analizados no siguen una distribución M.
4

El estadístico Kolmogorov-Smirnov, D, considera la desviación de la función de


distribución de probabilidades de la muestra P(x) de la función de probabilidades teórica,
escogida Po(x) tal que:
Dn = max | P(x) – Po(x) |

La prueba requiere que el valor Dn calculado con la expresión anterior sea menor que el
valor tabulado Dα para un nivel de significancia (o nivel de probabilidad) requerido. El
valor crítico Dα de la prueba se obtiene de la tabla mostrada, en función del nivel de
significancia α y el tamaño de la muestra n.

PROCEDIMIENTO
El procedimiento a seguir en la aplicación práctica de la prueba de Kolmogorov-
Smirnov es el siguiente:
 Determinar la frecuencia observada acumulada y la frecuencia téorica
acumulada, Po(x) y P(x).
 En cada caso, calcular: Dn = max | P(x) – Po(x) | Así, Dn es la máxima
diferencia entre la función de distribución acumulada de la muestra y la función
de distribución acumulada teórica escogida.
 Fijar un nivel de probabilidad o de significancia α. Los valores de 0.05 y 0.01
son los más usuales.
 Determinar el valor crítico Dα en la tabla correspondiente.
 Aplica el criterio de decisión:
 Si el valor calculado Dn es menor que el Dα, se acepta la hipótesis nula
(Ho) que establece que la serie de datos se ajusta a la distribución teórica
escogida.
 Si el valor calculado Dn es mayor que el Dα, se rechaza la hipótesis nula
(Ho) y se acepta la hipótesis alternativa (Ha) que establece que la serie de
datos no se ajusta a la distribución teórica escogida.
5

PRUEBA DE BONDAD DE AJUSTE PARA DIFERENTES DISTRIBUCIONES


DISTRIBUCION NORMAL
La distribución normal tiene gran utilidad en hidrología, siendo alguna de sus principales
aplicaciones:
 En el ajuste de distribuciones empíricas de variables hidrológicas de intervalos
de tiempo grandes, tales como variables medias anuales, mensuales, estacionales,
etc., que pueden ser caudales, precipitación, entre otros.
 Análisis de los errores aleatorios en las observaciones o mediciones hidrológicas.
 Como referencia para -comparar varias distribuciones teóricas de ajuste en una
distribución empírica.
 Para hacer procesos de inferencia estadística.

PRUEBA DE BONDAD DE AJUSTE KOLMOVOROK SMIRNOV

1. Ordenar los datos de manera creciente


2. Calcular los parámetros estadísticos:
1
Media: 𝑄̅ = 𝑛 ∑𝑛𝑖=1 𝑄𝑖

∑𝑛 ̅ 2
𝑖=1(𝑄𝑖 −𝑄)
Desviación Estándar: 𝑆 = √ 𝑛−1

3. Calcular la probabilidad empírica o experimental P(x) de los datos, para esto usar
la fórmula de Weibull:
𝑀
𝑃(𝑥) =
𝑁+1
Donde:
 P(x) = probabilidad empírica o experimental
 M = número de orden
 N = número de datos
6

4. Calcular la probabilidad teórica F(z):


Para modelos teóricos, usar la ecuación de la función acumulada F(z), o tablas
elaboradas para tal fin.
𝑥 − 𝑥̅
𝑧=
𝑠
Con este valor se ingresa a la tabla y se interpola para hallar F(z)

5. Calcular las diferencias |P(x) - F(z)|, para todos los valores de z.


6. Seleccionar la máxima diferencia: Δ= máx |P(x) - F(z)|
7

7. Calcular el valor crítico del estadístico Δ, es decir Δo, para un 𝛼 = 0.05 y N igual
al número de datos. Los valores de Δo, se muestran en la siguiente tabla:

8. Comparar el valor del estadístico Δ, con el valor crítico Δo de la tabla, con los
siguientes criterios de decisión deducidos de la ecuación:}

 Δ < Δo ⟹ el ajuste es bueno, al nivel de significación seleccionado


 Δ > Δo ⟹ el ajuste no es bueno, al nivel de significación seleccionado,
siendo necesario probar con otra distribución.
8

DISTRIBUCION LOGNORMAL DOS PARAMETROS


PRUEBA DE BONDAD DE AJUSTE KOLMOVOROK SMIRNOV

1. Ordenar los datos de manera creciente


2. Obtener el Logaritmo natural de la serie: Y = Ln(x)
3. Calcular los parámetros estadísticos:
Media:
𝑛
1
𝜇𝑦 = ∑ 𝑙𝑛 𝑥𝑖
𝑛
𝑖=1

Desviación Estándar:

∑𝑛𝑖=1(𝑙𝑛𝑥𝑖 − 𝜇𝑦 )2
𝜎𝑦 = √
𝑛−1

4. Calcular la probabilidad empírica o experimental P(x) de los datos, para esto usar
la fórmula de Weibull:
𝑀
𝑃(𝑥) =
𝑁+1
Donde:
 P(x) = probabilidad empírica o experimental
 M = número de orden
 N = número de datos
9

5. Calcular la probabilidad teórica F(z):


Para modelos teóricos, usar la ecuación de la función acumulada F(z), o tablas
elaboradas para tal fin.
𝑙𝑛𝑥 − 𝜇𝑦
𝑧=
𝜎𝑦
Con este valor se ingresa a la tabla y se interpola para hallar F(z)

 Nota. Para el cálculo de la distribución acumulada de la normal o la log-normal,


una vez conocido sus parámetros, hacer la transformación a la distribución
normal estándar y usar las tablas o las ecuaciones de aproximación, elaboradas
para su cálculo

6. Calcular las diferencias |P(x) - F(z)|, para todos los valores de lnz.
7. Seleccionar la máxima diferencia: Δ= máx |P(x) - F(z)|
10

8. Calcular el valor crítico del estadístico Δ, es decir Δo, para un 𝛼 = 0.05 y N igual
al número de datos. Los valores de Δo, se muestran en la siguiente tabla:

9. Comparar el valor del estadístico Δ, con el valor crítico Δo de la tabla, con los
siguientes criterios de decisión deducidos de la ecuación:}

 Δ < Δo ⟹ el ajuste es bueno, al nivel de significación seleccionado


 Δ > Δo ⟹ el ajuste no es bueno, al nivel de significación seleccionado,
siendo necesario probar con otra distribución.
11

DISTRIBUCION LOGNORMAL 3 PARAMETROS


PRUEBA DE BONDAD DE AJUSTE KOLMOVOROK SMIRNOV

1. Ordenar los datos de manera creciente


2. Estimar el parámetro de posición
𝑥1 𝑥𝑛 − 𝑥 2 𝑚𝑒𝑑𝑖𝑎𝑛𝑎
𝑥0 =
𝑥1 + 𝑥𝑛 − 2𝑥𝑚𝑒𝑑𝑖𝑎𝑛𝑎
 𝑥1= primer valor de la serie ordenada ascendentemente
 𝑥𝑛 = último valor de la serie ordenada ascendentemente
 𝑥 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = mediana de la serie de valores
 si n = par = 𝑥 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = (𝑥 𝑛/2 + 𝑥 𝑛/2+1)/2
 si n = impar 𝑥 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = 𝑥 (𝑛+1)/2
 n = número de dato de la serie
3. Calcular los parámetros estadísticos:
Media:
𝑛
1
𝜇𝑦 = ∑ 𝑙𝑛 (𝑥𝑖 − 𝑥0 )
𝑛
𝑖=1

Desviación Estándar:

∑𝑛𝑖=1((𝑥𝑖 − 𝑥0 ) − 𝜇𝑦 )2
𝜎𝑦 = √
𝑛−1

4. Calcular la probabilidad empírica o experimental P(x) de los datos, para esto usar
la fórmula de Weibull:
𝑀
𝑃(𝑥) =
𝑁+1
Donde:
 P(x) = probabilidad empírica o experimental
 M = número de orden
 N = número de datos
12

5. Calcular la probabilidad teórica F(z):


Para modelos teóricos, usar la ecuación de la función acumulada F(z), o tablas
elaboradas para tal fin.
𝑙𝑛(𝑥𝑖 − 𝑥0 ) − 𝜇𝑦
𝑧=
𝜎𝑦
Con este valor se ingresa a la tabla y se interpola para hallar F(z)

6. Calcular las diferencias |P(x) - F(z)|, para todos los valores de lnz.
7. Seleccionar la máxima diferencia: Δ= máx |P(x) - F(z)|
13

8. Calcular el valor crítico del estadístico Δ, es decir Δo, para un 𝛼 = 0.05 y N igual
al número de datos. Los valores de Δo, se muestran en la siguiente tabla:

9. Comparar el valor del estadístico Δ, con el valor crítico Δo de la tabla, con los
siguientes criterios de decisión deducidos de la ecuación:}

 Δ < Δo ⟹ el ajuste es bueno, al nivel de significación seleccionado


 Δ > Δo ⟹ el ajuste no es bueno, al nivel de significación seleccionado,
siendo necesario probar con otra distribución.
14

DISTRIBUCIÓN GUMBEL
Es utilizada para modelar la distribución del máximo (o el mínimo), por lo que se usa
para calcular valores extremos. Por ejemplo, sería muy útil para representar la distribución
del máximo nivel de un río a partir de los datos de niveles máximos durante 10 años. Es por
esto que resulta muy útil para predecir terremotos, inundaciones o cualquier otro desastre
natural que pueda ocurrir. La ley de Gumbel o ley de valores extremos, se utiliza
generalmente para ajustar a una expresión matemática, las distribuciones empíricas de
frecuencia de caudales máximos anuales, precipitaciones máximas anuales, etc. Es
importante verificar, antes de aplicar esta distribución de probabilidad, que los coeficientes
de asimetría y curtosis de la distribución empírica sean del mismo orden que los valores
poblacionales Uno de los inconvenientes del uso de esta distribución, es que en una
distribución doble exponencial, la variable puede tomar cualquier valor, por lo que se puede
asignar probabilidades a valores negativos de la variable aleatoria, cuestión que resta
significación física a la aplicación, debido a que las variables hidrológicas toman solamente
valores positivos o cero.
En el caso de la frecuencia teórica acumulada, ésta se determina a través de la función de
Gumbel.
15

PRUEBA DE BONDAD DE AJUSTE KOLMOVOROK SMIRNOV

1. Colocar los datos tal y como está


2. Calcular los datos muestrales:
1
Media: 𝑋̅ = 𝑛 ∑𝑛𝑖=1 𝑋𝑖

∑𝑛 ̅ 2
𝑖=1(𝑋𝑖 −𝑋)
Desviación Estándar: 𝑆 = √ 𝑛−1

3. Calcular la probabilidad empírica o experimental P(x) de los datos, para esto usar
la fórmula de Weibull:
𝑀
𝑃(𝑥) =
𝑁+1
Donde:
 P(x) = probabilidad empírica o experimental
 M = número de orden
 N = número de datos
4. Estimación de parámetros distribución Gumbel:

√6
𝛼= 𝑆
𝜋
𝜇 = 𝑋̅ − 0.450047 S

5. Calcular función acumulada G(y)

𝑋−µ
𝑌=
𝛼

−y
𝐺(𝑦) = 𝑒 −𝑒
6. Calcular las diferencias |P(x) - G(y)|
7. Seleccionar la máxima diferencia: Δ= máx |P(x) - G(y)|
16

8. Calcular el valor crítico del estadístico Δ, es decir Δo, para un 𝛼 = 0.05 y N igual
al número de datos. Los valores de Δo, se muestran en la siguiente tabla:

9. Comparar el valor del estadístico Δ, con el valor crítico Δo de la tabla , con los
siguientes criterios de decisión deducidos de la ecuación:
 Δ < Δo ⟹ el ajuste es bueno, al nivel de significación seleccionado
 Δ > Δo ⟹ el ajuste no es bueno, al nivel de significación seleccionado,
siendo necesario probar con otra distribución
17

DISTRIBUCION LOGGUMBEL
PRUEBA DE BONDAD DE AJUSTE KOLMOVOROK SMIRNOV
1. Colocar los datos tal y como está
2. Obtener el Logaritmo natural de la serie: Y = Ln(x)
3. Calcular los datos muestrales:
1
Media: 𝑋̅𝑙𝑛𝑋 = 𝑁 ∑𝑛𝑖=1 𝑙𝑛𝑋𝑖

∑𝑛 ̅
𝑖=1(𝑙𝑛𝑋𝑖 −𝑋𝑙𝑛𝑋 )
2
Desviación Estándar: 𝑆𝑙𝑛𝑋 = √ 𝑁−1

4. Calcular la probabilidad empírica o experimental P(x) de los datos, para esto usar
la fórmula de Weibull:
𝑀
𝑃(𝑥) =
𝑁+1
Donde:
 P(x) = probabilidad empírica o experimental
 M = número de orden
 N = número de datos
5. Estimación de parámetros distribución Gumbel:

√6
𝛼= 𝑆
𝜋 𝑙𝑛𝑋
𝜇 = 𝑋̅𝑙𝑛𝑋 − 0.450047 𝑆𝑙𝑛𝑋

6. Calcular función acumulada G(y)

𝑋−µ
𝑌=
𝛼

−y
𝐺(𝑦) = 𝑒 −𝑒
7. Calcular las diferencias |P(x) - G(y)|
18

8. Seleccionar la máxima diferencia: Δ= máx |P(x) - G(y)|


9. Calcular el valor crítico del estadístico Δ, es decir Δo, para un 𝛼 = 0.05 y N igual
al número de datos. Los valores de Δo, se muestran en la siguiente tabla:

10. Comparar el valor del estadístico Δ, con el valor crítico Δo de la tabla , con los
siguientes criterios de decisión deducidos de la ecuación:
 Δ < Δo ⟹ el ajuste es bueno, al nivel de significación seleccionado
 Δ > Δo ⟹ el ajuste no es bueno, al nivel de significación seleccionado,
siendo necesario probar con otra distribución
19

EJEMPLO DE APLICACIÓN DE LA PRUEBA DE BONDAD DE AJUSTE


KOLMOVOROK SMIRNOV EN DISTRIBUCION GUMBEL
Se tiene un registro de caudales de una estación Hidrométrica con los siguientes valores:
36600
38200
39700
44200
47900
49200
49600
53100
55100
58600
58800
59600
62600
64100
69900
71200
76200
77800
99000
103000

Determinar si los valores de la muestra se ajustan a la distribución Gumbel


20

SOLUCIÓN:
1. Colocar los datos tal y como está
2. Calcular los datos muestrales:
1
Media: 𝑋̅ = 𝑛 ∑𝑛𝑖=1 𝑋𝑖 = 60720.00

∑𝑛 ̅ 2
𝑖=1(𝑋𝑖 −𝑋 )
Desviación Estándar: 𝑆 = √ =18233.64732
𝑛−1

3. Calcular la probabilidad empírica o experimental P(x) de los datos, para esto usar
la fórmula de Weibull:
𝑀
𝑃(𝑥) =
𝑁+1
m (1) x(2) P(X)
1 36600 0.0476
2 38200 0.0952
3 39700 0.1429
4 44200 0.1905
5 47900 0.2381
6 49200 0.2857
7 49600 0.3333
8 53100 0.3810
9 55100 0.4286
10 58600 0.4762
11 58800 0.5238
12 59600 0.5714
13 62600 0.6190
14 64100 0.6667
15 69900 0.7143
16 71200 0.7619
17 76200 0.8095
18 77800 0.8571
19 99000 0.9048
20 103000 0.9524
21

4. Estimación de parámetros distribución Gumbel:

√6
𝛼= 𝑆= 14216.7165
𝜋

𝜇 = 𝑋̅ − 0.450047 S = 52513.8885

5. Calcular función acumulada G(y)

𝑋−µ
𝑌=
𝛼

−y
𝐺(𝑦) = 𝑒 −𝑒
m x P(X) y G(y) Ord
1 36600 0.0476 -1.1194 0.0467
2 38200 0.0952 -1.0068 0.0648
3 39700 0.1429 -0.9013 0.0852
4 44200 0.1905 -0.5848 0.1662
5 47900 0.2381 -0.3245 0.2507
6 49200 0.2857 -0.2331 0.2829
7 49600 0.3333 -0.2050 0.2930
8 53100 0.3810 0.0412 0.3830
9 55100 0.4286 0.1819 0.4344
10 58600 0.4762 0.4281 0.5211
11 58800 0.5238 0.4422 0.5259
12 59600 0.5714 0.4984 0.5447
13 62600 0.6190 0.7095 0.6115
14 64100 0.6667 0.8150 0.6423
15 69900 0.7143 1.2229 0.7450
16 71200 0.7619 1.3144 0.7644
17 76200 0.8095 1.6661 0.8278
18 77800 0.8571 1.7786 0.8446
19 99000 0.9048 3.2698 0.9627
20 103000 0.9524 3.5512 0.9717
22

6. Calcular las diferencias |P(x) - G(y)|


m (1) x P(X) y G(y) Ord Δ
1 36600 0.0476 -1.1194 0.0467 0.0009
2 38200 0.0952 -1.0068 0.0648 0.0305
3 39700 0.1429 -0.9013 0.0852 0.0577
4 44200 0.1905 -0.5848 0.1662 0.0243
5 47900 0.2381 -0.3245 0.2507 0.0126
6 49200 0.2857 -0.2331 0.2829 0.0028
7 49600 0.3333 -0.2050 0.2930 0.0403
8 53100 0.3810 0.0412 0.3830 0.0021
9 55100 0.4286 0.1819 0.4344 0.0059
10 58600 0.4762 0.4281 0.5211 0.0449
11 58800 0.5238 0.4422 0.5259 0.0021
12 59600 0.5714 0.4984 0.5447 0.0267
13 62600 0.6190 0.7095 0.6115 0.0076
14 64100 0.6667 0.8150 0.6423 0.0243
15 69900 0.7143 1.2229 0.7450 0.0307
16 71200 0.7619 1.3144 0.7644 0.0025
17 76200 0.8095 1.6661 0.8278 0.0183
18 77800 0.8571 1.7786 0.8446 0.0125
19 99000 0.9048 3.2698 0.9627 0.0579
20 103000 0.9524 3.5512 0.9717 0.0193

7. Seleccionar la máxima diferencia: Δ= máx |P(x) - G(y)|= 0.0579


23

8. Calcular el valor crítico del estadístico Δ, es decir Δo, para un 𝛼 = 0.05 y N igual
al número de datos.
1.36
Δo = = 0.3041
√20

9. Comparar el valor del estadístico Δ, con el valor crítico Δo


Δ 0.0579
Δo 0.3041

 Δ < Δo ⟹ el ajuste es bueno, al nivel de significación de 0.05


 La serie de datos se ajusta a la distribución Gumbel.

You might also like