Professional Documents
Culture Documents
3
RECOLECCIN DE DATOS
Una de las tareas ms arduas en la resolucin de un problema real.
4
RECOLECCIN DE DATOS
Algunas sugerencias:
5
IDENTIFICACIN DE DISTRIBUCIONES DE PROBABILIDAD
Histogramas
tiles para la identificacin de la forma de una distribucin.
El nmero de clases depende del nmero de observaciones y de la dispersin
de los datos.
OJO: si los intervalos son muy anchos el histograma no mostrar un
comportamiento claramente.
Histograma de datos DISCRETOS Funcin de masa.
Histograma de datos CONTINUOS Funcin de densidad terica (lnea
dibujada a lo largo de los puntos centrales de cada clase).
6
IDENTIFICACIN DE DISTRIBUCIONES DE PROBABILIDAD
Determinar el rango
Max Min
7
IDENTIFICACIN DE DISTRIBUCIONES DE PROBABILIDAD
Ejemplo 1:
Construya el histograma para la siguiente serie de datos:
Datos
66,4 74,2 72,1 71,2 70,3 70,3
69,2 67,7 74,5 72,2 71,3 71,3
70 69,3 68 75,3 72,3 72,4
71 70,1 69,3 68 68,3 68,4
71,9 71,1 70,2 69,5 69,5 69,6
70,8 70,6 70,6 70,5 70,4 70,9
71,8 71,7 71,6 71,6 71,5 71,8
73,3 73,1 72,9 72,7 72,6 73,5
69,1 69 68,9 68,8 68,6
70 69,9 69,8 69,8 69,7
8
IDENTIFICACIN DE DISTRIBUCIONES DE PROBABILIDAD
9
IDENTIFICACIN DE DISTRIBUCIONES DE PROBABILIDAD
Histograma acumulado
10
Q-Q PLOT
Sea X una variable aleatoria con funcin acumulada de probabilidad (),
entonces el q-cuantil de X es aquel valor tal que = = . Si F
tiene inversa entonces = 1 .
Algoritmo:
Tomar una muestra de los datos { , = 1,2, , }.
Ordenarlos para obtener { , = 1,2, , }.
1 1
2 1 2
es una estimacin del cuantil de X. ~
1
1 2
Graficar
Si los datos corresponden a la distribucin que se est probando, la grfica debe
ser aproximadamente una lnea recta.
11
Q-Q PLOT
Nunca realmente es una lnea recta.
Un punto encima de la lnea ser probablemente seguido por otro.
La variacin en los extremos es ms grande. La linealidad en el centro es ms
importante que la linealidad en los extremos.
13
Q-Q PLOT
j Xj Yj Probabilidad Funcin inversa
1 105 71 0,05 78,62
2 91 83 0,15 86,53
3 103 90 0,25 91,23
4 83 91 0,35 94,99
5 71 100 0,45 98,37
6 120 103 0,55 101,63
7 100 105 0,65 105,01
8 135 120 0,75 108,77
9 123 123 0,85 113,47
10 90 135 0,95 121,38
14
Q-Q PLOT
j Xj Yj Probabilidad Funcin inversa
1 105 71 0,05 78,62 Q-Q PLOT
2 91 83 0,15 86,53 160
F-1[(j-(1/2))/n]
100
5 71 100 0,45 98,37 80
6 120 103 0,55 101,63 60
16
Ejercicio
P-P PLOT
Ejemplo 3:
Se tienen los siguientes 10 datos de la duracin de un servicio bancario
en minutos y se quiere realizar el grfico P-P Plot, ya que se sospecha
que esos datos son observaciones de una variable aleatoria
exponencial con media de 10 minutos. Los datos son:
17
P-P PLOT
j Xj Yj Probabilidad Funcin acumulada
1 15 7 0,05 0,50
2 9 7 0,15 0,50
3 10 8 0,25 0,55
4 8 9 0,35 0,59
5 7 9 0,45 0,59
6 12 10 0,55 0,63
7 11 11 0,65 0,67
8 18 12 0,75 0,70
9 7 15 0,85 0,78
10 9 18 0,95 0,83
18
P-P PLOT
j Xj Yj Probabilidad Funcin acumulada
1 15 7 0,05 0,50
2 9 7 0,15 0,50
P-P PLOT
3 10 8 0,25 0,55 1
4 8 9 0,35 0,59
0.8
5 7 9 0,45 0,59
6 12 10 0,55 0,63
(j-(1/2))/n
0.6
1 Fx(Yj)
2
19
Q-Q PLOT Y P-P PLOT
Ejemplo 4:
5,8 5,6 5,4 4,6 5,0 2,6 5,4 5,3 1,9 3,0 3,0 3,8 4,2 3,4 5,9 2,4 3,4 1,4 2,4 2,1
20
DIFERENCIAS Q-Q PLOT Y P-P PLOT
Un P-P plot compara la funcin de probabilidad acumulada emprica de
una muestra de datos con una funcin de probabilidad acumulada
especifica F(), mientras que un Q-Q plot compara los cuantiles estimados
dada una funcin de probabilidad con una muestra de datos.
El rango de un P-P plot siempre es entre 0 y 1, y el rango del Q-Q plot
depende del rango de la funcin de probabilidad asumida y los datos
observados.
Un Q-Q plot amplifica las diferencias existentes en las colas del grfico
mientras que un P-P plot amplifica las diferencias en el centro.
21
PRUEBAS DE BONDAD DE AJUSTE
22
PRUEBAS DE BONDAD DE AJUSTE
Las pruebas de bondad de ajuste son pruebas de hiptesis para
verificar si los datos observados en una muestra aleatoria se ajustan
con algn nivel de significancia a determinada distribucin de
probabilidad (Uniforme, Exponencial, Normal, Poisson, u otra
cualquiera).
La hiptesis nula Ho indica la distribucin propuesta, mientras que la
hiptesis alternativa H1, nos indica que la variable en estudio tiene una
distribucin que no se ajusta a la distribucin propuesta.
24
PRUEBAS DE BONDAD DE AJUSTE
H0: f(x) = fo(x)
H1: f(x) fo(x)
25
PRUEBAS DE BONDAD DE AJUSTE
Pruebas de bondad de ajuste:
26
PRUEBA JI-CUADRADO
Para realizar la prueba, se clasifican los datos observados en k clases o
categoras, y se contabiliza el nmero de observaciones en cada clase,
para posteriormente comparar la frecuencia observada en cada clase
con la frecuencia que se esperara obtener en esa clase si la hiptesis
nula es correcta.
27
PRUEBA JI-CUADRADO
Oi
pi
28
PRUEBA JI-CUADRADO
= No. de clases, k>2
= Frecuencia observada en la clase i
= Frecuencia esperada en la clase i, si Ho es correcta
=
Donde:
= tamao de la muestra
= rea bajo la curva () en el intervalo de la clase .
29
PRUEBA JI-CUADRADO
Esta prueba se basa en el estadstico de prueba Ji-cuadrado
2
2 =
=1
30
PRUEBA JI-CUADRADO
Dado un nivel de significancia se define un valor crtico 2 para el rechazo de la
hiptesis propuesta : () = 0 ().
No rechazo Ho
2 > 2
Rechazo Ho 2 < 2
31
PRUEBA JI-CUADRADO
Pasos a seguir al realizar la prueba de hiptesis:
1. Plantear hiptesis:
Hiptesis nula Ho: Los datos se ajustan a la distribucin terica
Hiptesis alternativa H1: Los datos no se ajustan a la distribucin
terica
2
2. Calcular estadstico de prueba 2 = =1
.
3. Establecer un nivel de significacin
4. Determinar regin de rechazo de Ho con 2
5. Decisin: Si 2 > 2 se rechaza Ho con un nivel de significacin .
32
PRUEBA JI-CUADRADO
Algunas recomendaciones a tener en cuenta:
El tamao de la muestra deber ser moderadamente grande, pues si la muestra
es muy pequea no se podr formar un nmero suficiente de clases y si la
muestra es muy grande la prueba conducir al rechazo casi con seguridad. Se
sugiere que n sea aproximadamente igual a 5 veces el nmero de clases.
Hacer que toda frecuencia esperada no sea menor que cinco (ya que si es muy
pequea no reflejar las frecuencias previstas), esto puede lograrse combinando
clases vecinas, pero para cada par de clases que se combinan, el nmero de
grados de libertad debe reducirse en uno (k es el nmero de clases efectivas en la
tabla de frecuencias).
33
PRUEBA JI-CUADRADO
Si fo(x) es continua:
Para la primera clase, calcular 1 considerando el intervalo desde
hasta el lmite superior de la clase.
Para la ltima clase, calcular considerando el intervalo desde el
lmite inferior de la clase hasta +.
Si fo(x) es discreta:
Cada posible valor puede ser un intervalo.
34
PRUEBA JI-CUADRADO
Ejemplo 4:
Se ha tomado una muestra aleatoria de 40 Frecuencia
Clase
i observada
bateras y se ha registrado su duracin en (duracin)
(oi)
aos. Estos resultados se los ha agrupado en 1 1.45 1.95 2
7 clases en el siguiente cuadro. 2 1.95 2.45 1
Verificar con 5% de significancia que la 3 2.45 2.95 4
duracin en aos de las bateras producidas 4 2.95 3.45 15
5 3.45 3.95 10
por este fabricante tiene duracin 6 3.95 4.45 5
distribuida normalmente con media 3.5 y 7 4.45 4.95 3
desviacin estndar 0.7
39
PRUEBA JI-CUADRADO
X ~ N(3.5 , 0.7)
40
PRUEBA JI-CUADRADO
Frecuencia
i Clase (duracin) pi ei
observada (oi)
1 1,45 1,95 2 0,013 0,536
2 1,95 2,45 1 0,053 2,136
3 2,45 2,95 4 0,149 5,968
4 2,95 3,45 15 0,256 10,220
5 3,45 3,95 10 0,268 10,733
6 3,95 4,45 5 0,173 6,912
7 4,45 4,95 3 0,087 3,495
41
PRUEBA JI-CUADRADO
42
PRUEBA JI-CUADRADO
Frecuencia
i Clase (duracin) pi ei (oi-ei)^2/ei
observada (oi)
1 1,45 2,95 7 0,216 8,641 0,312
2 2,95 3,45 15 0,256 10,220 2,235
3 3,45 3,95 10 0,268 10,733 0,050
4 3,95 4,95 8 0,260 10,406 0,556
2 3,153
2 7,810
2 < 2
43
44
PRUEBA JI-CUADRADO
Ejemplo 5:
La siguiente tabla presenta informacin Nro. De plantas Frecuencia
sobre el nmero de plantas Larrea divaricata i
observadas observada (oi)
halladas en cada uno de los 48 cuadrantes de 1 0 9
estudio del proyecto, como se publica en el 2 1 9
el artculo Some Sampling Characteristics of 3 2 10
Plants and Arthropods of the Arizona Desert 4 3 14
(Ecology,1962: 567-571) 5 4 2
Podran estos datos ajustarse a una 6 5 2
7 6 2
distribucin de Poisson? Utilice un nivel 0,05
de significancia.
45
PRUEBA JI-CUADRADO
Ejemplo 6:
Estos son los datos del numero de automviles que entran a una gasolinera cada
hora:
14 7 13 16 16 13 14 17 15 16
13 15 10 15 16 14 12 17 14 12
13 20 8 17 19 11 12 17 9 18
20 10 18 15 13 16 24 18 16 18
12 14 20 15 10 13 21 23 15 18
47
PRUEBA KOLMOGOROV - SMIRNOV
Esta prueba formaliza la idea de un diagrama de Q-Q y compara una funcin
emprica de probabilidad con la funcin de la distribucin hipottica. No requiere
de especificacin de intervalos y es vlida para cualquier tamao de muestra.
Funcin hipottica acumulada
48
PRUEBA KOLMOGOROV - SMIRNOV
Aplicaciones:
Contrastar si un conjunto de datos muestrales pueden considerarse procedentes de una
distribucin determinada.
Alternativa al test Chi Cuadrado cuando el modelo propuesto bajo la hiptesis nula es de
tipo continuo y el tamao muestral es pequeo
Ventajas:
No requiere la agrupacin de los datos en clases
Es aplicable a muestras pequeas
Inconvenientes:
Solo es vlido para modelos de tipo continuo
49
PRUEBA KOLMOGOROV - SMIRNOV
Algoritmo:
1. Tomar una muestra de los datos {xi , i = 1,2,,n}
2. Ordenarlos para obtener {yj , j = 1,2,,n}
3. Calcular la diferencia por encima y por debajo
+
1
= max = max
4. El estadstico de prueba est dado por = max + ,
5. Determinar el valor crtico D para un nivel de significancia y un tamao de
muestra N.
6. Si el > , entonces se procede a rechazar Ho. De lo contrario se concluye
que no hay evidencia estadstica para rechazarla.
50
PRUEBA KOLMOGOROV - SMIRNOV
Ejemplo 7:
Yj Yj
j j
Se encontraron los siguientes 18 (ordenados) (ordenados)
datos y se sospecha que la variable 1 6,9245 10 11,1293
aleatoria es Normal (11.033 , 6.90), 2 7,0469 11 11,6604
3 7,4929 12 11,7652
realizar una prueba de bondad y 4 7,996 13 12,9024
ajuste pertinente. Concluya y 5 8,6885 14 13,236
comente sus resultados. 6 10,1901 15 13,311
7 10,3933 16 13,3884
8 10,9595 17 15,032
9 10,965 18 15,5248
51
F(Yi) mx 0,10
(j-
j Yj (ordenados) (Distribucin j/n D+ D-
1)/n
Hipottica)
1 6,9245 0,06 0,06 0 0,00 0,06 1.20
2 7,0469 0,06 0,11 0,06 0,05 0,01 1.00
3 7,4929 0,09 0,17 0,11 0,08 -0,02
0.80
4 7,996 0,12 0,22 0,17 0,10 -0,04
Probabilidad
0.60
5 8,6885 0,19 0,28 0,22 0,09 -0,04
6 10,1901 0,37 0,33 0,28 -0,04 0,10 0.40
54
Bibliografa:
Banks, J., Carson, J., Nelson, B., & Nicol, D. (2005). Discrete event
system simulation (Fourth ed.). Pearson Prentice Hall.
Garcia, E., Garcia, H., & Crdenas, L. (2006). SImulacin y anlisis de
sistemas con ProModel. Mxico DF: Pearson Prentice Hall.
55