You are on page 1of 17

SIMULACIN

Anlisis de datos de Entrada
























ANLISIS DE DATOS DE ENTRADA



1. ndice
1. Introduccin
2. Identificacin grfica de distribuciones de probabilidad adecuadas
2.1. Histogramas
2.2. Q-Q Plot
2.3. P-P Plot
3. Pruebas de bondad de ajuste
3.1. Prueba Chi Cuadrado
3.2. Prueba Kolmogorov-Smirnov
Interpretacin P-Value

2. Introduccin
El propsito del presente documento es presentar a los estudiantes las herramientas grficas
y analticas para llevar a cabo un correcto anlisis de los datos de entrada, donde se tenga
muy presente que son estos los que alimentarn el modelo de simulacin a construir y, que
por lo tanto, tendrn una alta influencia en los resultados que se reporten despus de haber
corrido la simulacin.
Por otra parte, teniendo en cuenta que el objetivo general del mdulo es que los estudiantes
desarrollen las capacidades necesarias para llevar a cabo un estudio completo de simulacin,
en esta unidad se presentarn las herramientas fundamentales para realizar el anlisis de
entrada, as como herramientas computacionales que permite su realizacin casi de forma
automtica.
Finalmente, se presentar al estudiante una serie de ejercicios relacionados para reforzar los
conocimientos adquiridos en el desarrollo del mdulo.

3. Objetivo general
Al finalizar el mdulo, los estudiantes sabrn cules son las herramientas grficas para llevar
a cabo un anlisis de datos de entrada, as como sabrn emplear, de forma adecuada, las
pruebas analticas para alimentar el modelo de simulacin que se est construyendo.

Al finalizar la tercera semana de aprendizaje:
1. El estudiante entender la importancia de realizar un anlisis de datos de entrada.
2. El estudiante conocer las distintas metodologas para ejecutar un correcto anlisis de
la informacin de entrada.


[ POLITCNICO GRANCOLOMBIANO]

3. El estudiante podr realizar un anlisis de entrada donde emplee herramientas


computacionales adecuadas.

4. Desarrollo temtico


4.1 Recomendaciones acadmicas
Se recomienda al estudiante realizar la lectura de la cartilla, en la que se encuentra toda la
informacin relevante que se evaluar en la semana. Adicional, se recomienda al estudiante
revisar las teleconferencias, as como las video -diapositivas, pues estas son un medio para
aclarar las dudas generadas con la lectura y dar soporte a los temas expuestos en la misma.
Finalmente, se recomienda al estudiante realizar los ejercicios planteados y sugeridos por el
tutor, ya que estos, a pesar de no tener un valor porcentual en la nota, si harn que su
formacin sea completa y pueda ser reforzada de forma prctica.

4.2 Desarrollo de cada una de las unidades temticas

1. Introduccin
La recoleccin de datos y el procesamiento de la informacin son una de las tareas ms
grandes y difciles en los problemas reales. Incluso, an cuando hay informacin disponible,
rara vez los datos vienen o estn grabados en un formato que sea til y aplicable
directamente en un modelo de simulacin.

El trmino GIGO o garbage-in-garbage-out (si entra basura, sale basura) es un concepto
bsico en ciencias de la computacin y se aplica, sin problema, en el rea de simulacin de
sistemas discretos. An cuando la estructura del modelo sea vlida y robusta, si los datos de
entrada han sido recolectados de manera inapropiada, analizados de manera imprecisa o
simplemente no son representativos, los datos de salida o resultados del modelo sern
inservibles para tomar buenas decisiones, derivndose en prdidas costosas para la
organizacin.

Para llevar a cabo un correcto anlisis de datos de entrada y recolectar datos que no sean
basura, se recomienda lo siguiente:

Planeacin: observacin del sistema actual y situaciones atpicas, etc.


Anlisis de los datos a medida que son recolectados. Revisar su pertinencia.
Verificar homogeneidad en los diferentes grupos de datos.
Revisar la relacin entre variables.
Revisar autocorrelacin.
Diferenciar claramente entre datos de entrada y de salida.


[ SIMULACIN ]

2. Identificacin grfica de distribuciones de probabilidad adecuadas


En esta seccin se describirn mtodos para seleccionar familias de distribuciones de
probabilidad cuando los datos estn disponibles. Bsicamente, la identificacin grfica, como
su nombre lo indica, permite visualizar la forma de una distribucin como punto de partida
para realizar una primera aproximacin de al tipo de distribucin que siguen los datos
recolectados para la construccin del modelo de simulacin.

2.1. Histogramas
Una distribucin de frecuencias o un histograma es til para identificar la forma de una
distribucin. Un histograma se construye bajo la siguiente metodologa:
1.
2.
3.
4.

Dividir el rango de datos en intervalos, generalmente de igual amplitud


Marcar el eje horizontal del grfico para conformar los intervalos
Encontrar la frecuencia de ocurrencias dentro de cada intervalo
Marcar en el eje vertical del grfico el total de ocurrencias de cada intervalo

El nmero de intervalos depende del nmero de observaciones y de la dispersin de los


datos. Generalmente, en la prctica s establece que el nmero de intervalos es
aproximadamente igual a la raz cuadrada del tamao de la muestra que se utiliza para el
anlisis. Si los intervalos son muy anchos, el histograma no mostrar claramente un
comportamiento visible de la informacin.

El histograma para datos continuos corresponde a la funcin de densidad de la distribucin
terica de los dato, mientras que para datos discretos, la forma del histograma debera
parecerse a la funcin de masa de la distribucin terica.

Sin embargo, debe tenerse en cuenta que un histograma tan slo da una idea de cmo se
distribuyen los datos, ms no es la nica herramienta de identificacin de los mismos.


[ POLITCNICO GRANCOLOMBIANO]


2.2. Q-Q Plot (Diagramas Cuantil Cuantil)

Al igual que los histogramas, los grficos Cuantil Cuantil o Q-Q plot dan una idea grfica del
posible comportamiento que pueden seguir los datos de entrada que se estn analizando.

La diferencia principal de un histograma y un Q-Q plot es que los segundos no muestran
propiamente el comportamiento de la distribucin, si no que muestra la relacin de los
cuantiles de la distribucin que se sospecha siguen los datos con la distribucin real, y a
partir de dicha relacin es posible realizar conclusiones.

Estrictamente hablando, un cuantil se define de la siguiente manera:

Sea X es una variable aleatoria (VA) con funcin acumulada de probabilidad Fx(x), entonces
el q-cuantil de X es aquel valor ! tal que ! ! = ! ! ! = !. Luego, ! = ! !! (!).

Ahora bien, al partir de este concepto, se presenta a continuacin el algoritmo
(metodologa) a desarrollar para obtener los cuantiles y, por lo tanto, la grfica que propone
la herramienta debe realizarse:
1. Si se tiene una muestra de n datos de X, estos deben ordenarse de menor a mayor, y
denotarlos como yj, donde j es el orden que tiene el dato dentro del conjunto, es
decir, j = 1 para el menor dato y j = n para el mayor.
2. Asignar una probabilidad de ocurrencia a cada uno de los datos recolectados, dicha
probabilidad es asignada de acuerdo a la expresin (j-0.5)/n
3. Basado en el hecho de que yj es una estimacin del cuantil (j-0.5)/n de X calculado en
el paso anterior, debe calcularse la funcin inversa de la distribucin que se sospecha
siguen los datos. En otras palabras:


[ SIMULACIN ]

!! ! !!

! 0.5

!

4. Graficar yj v.s. ! !!

!!!.!
!


Supngase que se ha escogido una distribucin con funcin F como una posible
representacin de la distribucin de X. Si F es un miembro de una familia apropiada de
distribuciones, entonces la grfica de yj versus F-1 ser aproximadamente una lnea recta.

Ejemplo
Se tienen los siguientes diez datos y se sospecha que siguen una distribucin normal con
media = 100 y desviacin estndar = 13

105 91 103 83 71
120 100 135 123 9
0

Con base en la metodologa anterior, el primer paso consiste en ordenarlos de menor a
mayor, as:

j
Yj
1
71
2 83
3 90
4 91
5 100
6 103
7 105
8 120
9 123
10 135

El segundo paso es asignarle una probabilidad de acuerdo a la expresin (j-0.5)/n:

j
Yj Probabilidad
1
71
0,05
2 83
0,15
3 90
0,25
4 91
0,35
5 100
0,45


[ POLITCNICO GRANCOLOMBIANO]

6 103
7 105
8 120
9 123
10 135

0,55
0,65
0,75
0,85
0,95


El tercer paso es calcular la funcin inversa para cada una de las probabilidades asignadas en
el paso anterior. Como en este caso se sospecha que los datos siguen una distribucin
normal con media = 100 y desviacin estndar = 13, debe calcularse la inversa de una
distribucin normal.

Probabilid
Funcin
j
Yj
ad
inversa
1
71
0,05
78,616903
2
83
0,15
86,526366
3
90
0,25
91,231633
4
91
0,35
94,990834
5
100
0,45
98,366402
6
103
0,55
101,633598
7
105
0,65
105,009166
8
120
0,75
108,768367
9
123
0,85
113,473634
10
135
0,95
121,383097

Nota: si por ejemplo, se hubiese dicho que se sospechaba que los datos seguan una
distribucin exponencial, los pasos 1 y 2 se deban haber realizado de la misma forma, pero
en el paso tres debera haberse calculado la inversa de una distribucin exponencial y no de
la normal, es decir, la funcin inversa se calcula con base en la distribucin de probabilidad
que se sospecha siguen los datos.


[ SIMULACIN ]

140

120
100
80
60
40

20
0
0

20

40

60

80

100

120

140

160



La columna denominada Probabilidad, corresponde al clculo del cuantil respectivo. Por
!!!/!
ejemplo, para j = 1, al reemplazar en la expresin ! , da como resultado 0,05, para n = 10.
La columna de Funcin Inversa, se puede calcular utilizando Excel, mediante la funcin
DISTR.NORM.INV, con parmetros: media = 100; desviacin estndar = 13; probabilidad = la
recin calculada para cada uno de los datos.

Cabe anotar que la decisin de aceptar o rechazar la hiptesis es subjetiva, por cuanto la
apreciacin de la grfica y el ajuste de los puntos a una lnea recta parten de simple
observacin.

2.3. P-P Plot (Diagramas probabilidad probabilidad)
Al igual que con el diagrama Q-Q, el diagrama P-P permite evaluar un conjunto de datos
mediante la comparacin de una distribucin terica de probabilidad. Su principal diferencia
con respecto al diagrama anteriormente descrito, radica en que los valores a contrastar
corresponden al cuantil calculado versus la funcin de distribucin acumulada. Si los datos
corresponden a la distribucin terica que se est probando, la nube de puntos debe
aproximarse a una lnea recta.

Ahora bien, a partir de lo anterior, se presenta, a continuacin, el algoritmo (metodologa) a
desarrollar para obtener los percentiles y, por lo tanto, la grfica que propone la herramienta
debe realizarse:
1. Si se tiene una muestra de n datos de X, estos deben ordenarse de menor a mayor, y
denotarlos como yj, donde j es el orden que tiene el dato dentro del conjunto, es
decir, j = 1 para el menor dato y j = n para el mayor.


[ POLITCNICO GRANCOLOMBIANO]

2. Asignar una probabilidad de ocurrencia a cada uno de los datos recolectados, dicha
probabilidad es asignada de acuerdo a la expresin (j-0.5)/n
3. Calcular la probabilidad real de que se de cada uno de los valores de los datos que
se recolectaron. En otras palabras:
!! !!
!!!.!

4. Graficar

v.s. !! !!

Ejemplo
Se tienen los siguientes diez datos, y se sospecha que siguen una distribucin normal con
media = 100 y desviacin estndar = 13

105 91 103 83 71
120 100 135 123 9
0

Con base en la metodologa anterior, el primer paso consiste en ordenarlos de menor a
mayor, as:

j
Yj
1
71
2 83
3 90
4 91
5 100
6 103
7 105
8 120
9 123
10 135

El segundo paso es asignarle una probabilidad de acuerdo a la expresin (j-0.5)/n:

j
Yj Probabilidad
1
71
0,05
2 83
0,15
3 90
0,25
4 91
0,35
5 100
0,45
6 103
0,55


[ SIMULACIN ]

7 105
8 120
9 123
10 135

0,65
0,75
0,85
0,95


El tercer paso es calcular la probabilidad real para cada uno de los valores de los datos
ordenados en el paso 1. Como en este caso se sospecha que los datos siguen una distribucin
normal con media = 100 y desviacin estndar = 13, debe calcularse la probabilidad de los yj
con esta distribucin.

Probabilida
j
Yj
d
Acumulada
1
71
0,05
0,01284821
0,0954888
2
83
0,15
5
3
90
0,25
0,22087816
0,2443720
4
91
0,35
6
5
100
0,45
0,5
6
103
0,55
0,59125296
7
105
0,65
0,6497388
8
120
0,75
0,9380321
9
123
0,85
0,96157231
0,9964520
10
135
0,95
3

Nota: si por ejemplo se hubiese dicho que se sospechaba que los datos seguan una
distribucin exponencial, los pasos 1 y 2 se deban haber realizado de la misma forma, pero
en el paso tres debera haberse calculado la probabilidad con una distribucin exponencial y
no de la normal, es decir, la probabilidad se calcula con base en la distribucin de
probabilidad que se sospecha siguen los datos.

10


[ POLITCNICO GRANCOLOMBIANO]

1,2
1
0,8
0,6
0,4
0,2
0
0

0,2

0,4

0,6

0,8

3. Pruebas de bondad de ajuste


Las pruebas de bondad de ajuste son pruebas de hiptesis que permiten evaluar la idoneidad
de un conjunto de datos, dada una distribucin terica de probabilidad donde se podran
ajustar. Como toda prueba de hiptesis, esta comienza con el enunciado de la hiptesis nula
y alternativa. La hiptesis nula afirma que la variable aleatoria que describe el conjunto de
datos, se distribuye segn la funcin de probabilidad propuesta, mientras que la hiptesis
alternativa contradice tal afirmacin.

Nota: Las pruebas de hiptesis corresponden a procesos de toma de decisin estadsticos. El
modelador formula dos hiptesis complementarias, llamadas la hiptesis nula (denotada por
H0) y la hiptesis alternativa (denotada por H1). Generalmente, una decisin se asocia a la
hiptesis nula, la cual puede ser aceptada o rechazada. Consecuentemente, se pueden
generar dos tipos de error:
-

Error tipo I: Rechazar H0 errneamente


Error tipo II: aceptar H0 errneamente

El objetivo de las pruebas de hiptesis es rechazar (o aceptar H0) de tal manera que si H0 es
en realidad verdadera, entonces la probabilidad de rechazarla errneamente (error tipo I),
no exceda un valor de probabilidad previamente definido, , el cual es llamado nivel de
confianza o nivel de significancia. Mientras ms pequeo es , ms alta es la confianza en la
decisin de rechazo correspondiente.



[ SIMULACIN ]

11

3.1. Prueba Chi Cuadrado


Para realizar esta prueba se disponen los datos en una tabla de frecuencias. Para cada valor o
intervalo de valores se indica la frecuencia absoluta observada (Oi). A continuacin, y
suponiendo que la hiptesis nula es cierta, se calculan para cada valor o intervalo de valores,
la frecuencia esperada (Ei=npi, donde n es el tamao de la muestra y pi la probabilidad del i-
simo valor o intervalo de valores segn la hiptesis nula).

Para emplear esta metodologa que es analticamente ms confiable que los histogramas o
grficos P-P y Q-Q, es necesario calcular un estadstico de prueba. Dicho estadstico se calcula
con base en la frecuencia observada y frecuencia esperada, as:

!

!=
!!!

!! !! !

!!

Este estadstico tiene una distribucin Chi-cuadrado con k-1 grados de libertad si n es
suficientemente grande, es decir, si todas las frecuencias esperadas son mayores que 5.
Si existe concordancia perfecta entre las frecuencias observadas y las esperadas, el
estadstico tomar un valor igual a 0; por el contrario, si existe una gran discrepancia entre
estas frecuencias, el estadstico tomar un valor grande y, en consecuencia, se rechazar la
hiptesis nula. As pues, la regin crtica estar situada en el extremo superior de la
distribucin Chi-cuadrado con k-1 grados de libertad.
Ejemplo
La distribucin de los ingresos anuales en dlares de una muestra de 100 familias, que
habitan en cierta poblacin present los siguientes resultados:

Ingresos anuales en miles de
Frecuencia Observada
dlares
(Oi)
40 x 60
12
60 < x 80
8
80 <x 100
25
100 <x 120
30
120 <x 140
25

Puede admitirse que los ingresos de las familias que habitan en dicha poblacin sigue una
distribucin uniforme en el intervalo [40.000 140.000] con un nivel de significancia del 5%.

Dado que ya se tienen las frecuencias observadas, el siguiente paso es calcular la frecuencia
esperada Ei, se debe que esta siempre ser igual a pin, donde n es el nmero total de

12


[ POLITCNICO GRANCOLOMBIANO]

observaciones y pi es la probabilidad de la clase estimada con base en la funcin de


distribucin de probabilidad que se sospecha tienen los datos.

Dado que se sospecha que los datos siguen una distribucin uniforme [40 140], el clculo
de la probabilidad pi debera realizarse con la funcin de densidad acumulada de una
uniforme que como habamos visto en la semana 2 del curso es igual a:

!!
!! ! =

!!

Para la primera clase pi, sera entonces:

! 40 < ! 60 = ! ! 60 ! ! 40

60 40
40 40
! 40 < ! 60 =


140 40 140 40

! 40 < ! 60 = 0,2 0

! 40 < ! 60 = 0,2

Entonces Ei sera 0,2*100 =20

Nota: Dado que se sospechaba que los datos seguan una distribucin uniforme, la
probabilidad fue calculada con la funcin de densidad acumulada de la uniforme, si por el
contrario se hubiese sospechado que los datos seguan una distribucin exponencial, la
probabilidad debera haber sido calculada con la funcin de densidad acumulada de la
exponencial, si se hubiese sospechado que los datos seguan una distribucin Poisson,
entonces deba haberse calculado la probabilidad con la funcin de densidad de una Poisson,
etc

Este procedimiento se repite para cada una de las clases, donde se obtiene los siguientes
resultados:

Ingresos anuales
Frecuencia
Probabilida
Frecuencia
en miles de
Observada
d
Esperada (Ei)
dlares
(Oi)
40 x 60
12
0,2
20
60 < x 80
8
0,2
20
80 <x 100
25
0,2
20
100 <x 120
30
0,2
20
120 <x 140
25
0,2
20


[ SIMULACIN ]

13


Al tener los valores de la frecuencia observada y de la frecuencia esperada, es posible realizar
el clculo del estadstico recordando que este es igual a

!

!=
!!!

!! !! !

!!


Se obtienen, entonces, los siguientes resultados:

Ingresos anuales
Frecuencia
Probabilida Frecuencia
(Oi-Ei)2/Ei
en miles de
Observada
d
Esperada (Ei)
dlares
(Oi)
40 x 60
12
0,2
20
3.2
60 < x 80
8
0,2
20
7.2
80 <x 100
25
0,2
20
1.25
100 <x 120
30
0,2
20
5
120 <x 140
25
0,2
20
1.25

Y =
17.9

Una vez obtenido el estadstico, este deber compararse con el valor Chi2 de la tabla Chi2.
Para calcular este valor, recuerde que debe tenerse presente el nivel de significancia con que
se realiz la prueba y los grados de libertad.

Para este ejemplo en especfico se sugiri que alfa fuera igual a 0.05 y los grados de libertad
siempre sern iguales al nmero de clases menos 1, es decir, que para el ejercicio los grados
de libertad seran df = 5-1 = 4

Al observar la tabla de la Chi2 , apreciamos que el resultado es:



Finalmente, para concluir, si se rechaza o no la hiptesis de que la distribucin de los ingresos
anuales de dichas familias siguen una distribucin entre [40.000 140.000], se deben
comparar los valores del estadstico calculado Y y los de la tabla Chi2, as:

14


[ POLITCNICO GRANCOLOMBIANO]

Si el estadstico Y es menor al valor en tabla de la Chi2, entonces no se rechaza la


hiptesis nula de lo contrario se rechaza


Para este ejemplo en particular, dado que Y = 17.9 no es menor a 9.48, entonces se debe
rechazar la hiptesis nula y, por lo tanto, se concluye que el ingreso anual de las familias no
sigue una distribucin uniforme ente [40.000 140.000].

3.2. Prueba Kolmogorov-Smirnov
En esta prueba se pretende medir la mayor desviacin entre la funcin de distribucin
terica y la emprica. Esta desviacin se compara con el valor crtico respectivo, segn la
tabla asociada a este tipo de prueba. Una ventaja de esta prueba consiste en que funciona
muy bien para cualquier tamao de muestra, incluso para conjuntos de datos muy pequeos.

El algoritmo para ejecutar esta prueba es como sigue:

1. Ordenar los datos de manera ascendente
2. Calcular F (X) para cada uno de los datos
3. Calcular las siguientes desviaciones

!
!! = !"#
! !
!
!1
!! = !"# ! !

!

4. Estimar el estadstico de la prueba dado por ! = max !! , !! .
5. Determinar el valor crtico !! de la tabla, para un nivel de significancia y un tamao de
muestra N.
6. Si el estadstico de la prueba es mayor que el valor crtico de la tabla, entonces se
rechaza la hiptesis.

Ejemplo
Se tomaron mediciones de tiempo de un proceso crtico en una lnea de produccin, donde
se tiene la siguiente informacin (en segundos):

17,3 19,6 10,7 11,3 17,8
16,1 18,0 17,6 18,7 14,5


[ SIMULACIN ]

15

Se quiere comprobar la hiptesis de que este tiempo sigue una distribucin uniforme con
parmetros (10, 20) segundos, con un nivel de confianza del 95%.

De manera similar a la elaboracin de los diagramas Q-Q y P-P, resulta bastante til la
elaboracin de una tabla para completar la prueba.

D+ = 0,07
D- = 0,33


Entonces, el estadstico de la prueba corresponde a 0,33. Se procede ahora a consultar la
tabla de valores crticos de la prueba Kolmogorov-Smirnov, la cual se muestra a continuacin:



Se puede observar que el valor crtico equivale a 0,40925, para un tamao de muestra n = 10,
y un nivel de significancia del 5%. Como este valor es mayor al estadstico de la prueba, no

16


[ POLITCNICO GRANCOLOMBIANO]

existe suficiente evidencia estadstica para rechazar la hiptesis de que los datos se
distribuyen uniformemente.

4. Interpretacin P-Value
Otra forma de determinar si se rechaza o no una hiptesis sin emplear directamente los
estimadores, es a travs del concepto de P-value (esta metodologa es la que suelen emplear
la gran mayora de software estadsticos capaces de realizar anlisis de entrada).

El P-Value corresponde al rea superior derecha a partir del estadstico de prueba, es decir,
es la probabilidad acumulada que existe despus del estadstico de prueba. Por ejemplo,
para el caso de la prueba Chi2 realizada en el ejemplo, podemos ver que el p-value
corresponde al rea amarilla + rea azul:


Con base en este anlisis, las conclusiones se tomaran as:

Si el p-value es menor que el nivel de significancia, entonces se debe rechazar la hiptesis


nula, de lo contrario no se rechaza.


[ SIMULACIN ]

17

You might also like