You are on page 1of 10

Teora de Modelos y Simulacin

Enrique Eduardo Tarifa Facultad de Ingeniera - Universidad Nacional de Jujuy

Modelado de Entradas
Introduccin
En un sistema estocstico, por definicin, algn componente presenta una conducta aleatoria; por ejemplo, el tiempo de atencin de un mdico. Generalmente, tambin las variables de entrada presentan un comportamiento aleatorio; por ejemplo, los tiempos entre arribos de los pacientes. Por lo tanto, es necesario modelar estos comportamientos aleatorios utilizando distribuciones probabilsticas. stas pueden ser tericas (distribucin normal, exponencial, etc.) o empricas (tabla de datos, de frecuencias, etc.).

Estrategia general
Existen cuatro pasos en el modelado de las entradas, a saber: 1. Coleccin de datos del sistema real. Esta etapa requiere de bastante tiempo y esfuerzo. Desafortunadamente, no siempre es posible llevar a cabo esta etapa (el sistema an no existe, las mediciones son costosas o peligrosas, etc.); entonces, se deber recurrir al conocimiento de expertos o a registros histricos del sistema en estudio o sistemas similares. 2. Identificacin de la distribucin de probabilidad que mejor representa a la entrada. Cuando los datos estn disponibles, esta etapa se inicia con la construccin de una tabla de frecuencias o un histograma. Basado en estos datos y en la naturaleza del proceso se selecciona una familia de distribuciones. 3. Determinacin de parmetros. Una vez que se seleccion la familia de distribuciones, se deben determinar los valores de los correspondientes parmetros que optimizan el ajuste de la distribucin a los datos. 4. Evaluacin de la distribucin y de los parmetros. En esta etapa se evala cun bien la distribucin y sus parmetros representan a los datos. Esta evaluacin se puede hacer grficamente, o utilizando pruebas estadsticas; las pruebas chi-cuadrado y Kolmogorov-Smirnov son las ms utilizadas. Si esta prueba falla, se repite el proceso desde el punto 2 con otra distribucin. Si no se puede encontrar una distribucin terica adecuada, ser necesario utilizar una distribucin emprica. Existen softwares que realizan estos pasos en forma automtica, pero siempre es conveniente conocer los fundamentos tericos a fin de utilizar apropiadamente estas herramientas.

Coleccin de datos
Si la etapa de coleccin de datos no se realiza correctamente, de nada vale el esfuerzo que se dedique a las etapas de modelado, simulacin y anlisis de resultados; las conclusiones sern inevitablemente errneas. A modo de gua, las siguientes sugerencias debern ser tenidas en cuenta cuando se lleva a cabo esta etapa:
Teora de Modelos y Simulacin. Modelado de Entradas.

1. Elabore un plan. ste puede comenzar con un ensayo en el sistema real. Realice las modificaciones que sean necesarias antes de iniciar la recoleccin de datos real. Observe las circunstancias inusuales y determine cmo sern manejadas. 2. Analice los datos a medida que son recolectados. Determine si los datos son tiles para la simulacin; de lo contrario, elimnelos. 3. Combine conjunto de datos homogneos (conjuntos de datos con la misma distribucin). 4. Detecte variables dependientes (con un diagrama de dispersin). 5. Detecte variables autocorrelacionadas. Las mediciones ms comunes involucran la distancia entre eventos; por ejemplo, tiempos entre fallas de un equipo, entre arribos de clientes, entre el inicio y el final de alguna actividad.

Identificacin de la distribucin
Cuando los datos ya estn disponibles, el primer paso en su procesamiento es la construccin de un histograma para cada variable X. Para ello, se deben determinar: El tamao de la muestra n. Valor mnimo Xmin . Valor mximo Xmax. El rango R: igual a Xmax - Xmin . La cantidad de intervalos o clases C: la cantidad aconsejable es n , una cantidad menor o mayor puede distorsionar la forma del histograma. El ancho de los intervalos B: es igual a R/C. La frecuencia absoluta de los datos f k en cada intervalo k: se obtiene contando cuntos datos estn dentro del intervalo considerado. Determinados estos parmetros, el histograma surge de graficar columnas con alturas f k y ancho B para cada intervalo. A modo de ejemplo considere la Tabla 1 que fue obtenida con un generador
exponencial con tiempo medio igual a 1. Tabla 1: Datos de un generador exponencial con = 1. i 1 2 3 4 5 6 7 8 9 10 Xi 0.684 0.408 1.568 0.633 0.328 1.199 0.014 1.433 0.343 1.183

Los valores del histograma para esos datos son: Xmin = 0.014 Xmax = 1.568 R = 1.568-0.014 = 1.554 C =3 B = 1.554/3 = 0.518
Teora de Modelos y Simulacin. Modelado de Entradas.

La Tabla 2 muestra las frecuencias absolutas correspondientes y la Figura 1 muestra el histograma.


Tabla 2: Tabla de frecuencias absolutas. k 1 2 3
4 3

Intervalo [0.014, 0.532] (0.532, 1.05] (1.05, 1.568]

fk 4 2 4

1 0

0.273

0.791 X

1.309

Figura 1: Histograma.

El siguiente paso es determinar la familia de distribuciones que se probar para representar el conjunto de datos en estudio. Para ello se cuenta con la forma del histograma y tambin se cuenta con la naturaleza del proceso. En efecto, se han desarrollado numerosas distribuciones tericas para procesos determinados, por ejemplo: Binomial: Modela el nmero de xitos en n pruebas independientes con probabilidad de xito p; por ejemplo, el nmero de disquetes defectuosos en un lote de n. Binomial negativa: Modela el nmero de pruebas requeridas para lograr k xitos; por ejemplo, el nmero de disquetes que deberan ser revisados para encontrar k defectuosos. Poisson: Modela el nmero de eventos independientes que ocurren en una cantidad fija de tiempo o espacio; por ejemplo, el nmero de clientes que llegan a un centro comercial durante una hora, o el nmero de defectos encontrados en 30 m2 de una lmina de metal. Normal: Modela la distribucin de un proceso que puede representarse como la suma de varios procesos; por ejemplo, el tiempo de ensamblaje de un automvil puede representarse como la suma de los tiempos de ensamblaje de las distintas partes. Lognormal: Modela la distribucin de un proceso que puede representarse como el producto de varios procesos; por ejemplo, la velocidad de retorno de una inversin con inters compuesto es igual al producto de los retornos de todos los periodos considerados. Exponencial: Modela el tiempo entre eventos independientes, o tiempos de procesos sin memoria donde no se puede inferir el tiempo final del proceso a partir del tiempo transcurrido; por ejemplo, tiempos entre arribos de clientes. Cuando el tiempo entre eventos sigue una distribucin exponencial, el nmero de eventos en un intervalo fijo de tiempo sigue la distribucin Poisson. Gamma: Se utiliza para modelar variables no negativas. Beta: Se utiliza para modelar variables limitadas a un intervalo. Erlang: Modela procesos que pueden representarse como la suma de varios procesos con distribucin exponencial; por ejemplo, una red de computadora falla cuando una computadora y dos computadoras de respaldo fallan sucesivamente, y cada una de
Teora de Modelos y Simulacin. Modelado de Entradas.

ellas tiene tiempos entre fallas exponencialmente distribuidos. La distribucin Erlang es un caso especial de la distribucin gamma. Weibull: Modela los tiempos entre fallas de un componente; por ejemplo, los tiempos entre fallas de un disco rgido. La distribucin exponencial es un caso particular de la distribucin Weibull. Uniforme continua y discreta: Modelan procesos completamente inciertos, ya que todos son igualmente probables. Triangular: Modela procesos de los cules slo se conocen los valores mnimos, mximos y ms probables; por ejemplo, cuando se conoce la duracin mnima, mxima y ms probable de la prueba de un producto. Emprica: Modela los procesos para los cuales no se pudo encontrar una distribucin terica apropiada.

Retornando al ejemplo anterior, si se supone que los datos son tiempos entre arribos de clientes, la distribucin a probar es la exponencial.

Estimacin de parmetros
Despus de haber seleccionado una familia de distribuciones, el prximo paso es la estimacin de los parmetros correspondientes. El mtodo ms bsico emplea el valor medio (Xm) y la varianza (S 2) de la muestra, valores que son calculados de la siguiente forma: Xm =
n

X
i =1

(1)

S2 =

( X i Xm)2
i =1

n 1

X
i =1

2 i

n Xm2

(2)

n 1

A continuacin se listan los estimadores sugeridos para las distribuciones ms empleadas: Poisson: Xm. Exponencial: 1/Xm. Uniforme [0, b]: b Xmax*(n + 1)/n. Normal: Xm, 2 S 2. Para el conjunto de datos de la Tabla 1, Xm es igual a 0.7793; por lo tanto, 1.2832, algo ale jado del verdadero valor 1.

Estimacin de parmetros por regresin


En esta seccin se presenta un mtodo para estimar los parmetros de una distribucin que requiere un poco ms de esfuerzo, pero la exactitud del ajuste mejora notablemente. Primero se debe construir el histograma correspondiente como se indic en una seccin anterior, y luego se debe proponer una familia de distribuciones f(x). Los valores de los parmetros sern determinados a travs de un ajuste de la distribucin al histograma. Antes d proceder a realizar el ajuste, es necesario normalizar el histograma. En efecto, como e la curva f(x) que se utilizar para el ajuste es una distribucin probabilstica la misma cumple
Teora de Modelos y Simulacin. Modelado de Entradas.

con la condicin de tener rea unidad por debajo de ella. Sera una casualidad que el histograma construido cumpla con dicha condicin; entonces, es necesario calcular las frecuencias normales fn que hacen que el histograma posea rea unidad. Se puede demostrar que las frecuencias normales son: f fnk = k (3) nB El paso siguiente es transformar el histograma en puntos de ajustes. Para ello, se determina la marca M de cada intervalo (valor medio) y se le asocia la fn correspondiente. La Tabla 3 muestra los puntos de ajuste correspondientes al ejemplo de la Tabla 1.
Tabla 3: Puntos de ajuste. Mk 0.273 0.791 1.309 fnk 0.7722 0.3861 0.7722

Ahora el problema se reduce a determinar los valores de los parmetros que hacen mnima la suma de los errores al cuadrado. Para este ejemplo, el problema a resolver es: Min ( fnk f (M k ))
k =1 C 2

(4)

Este problema se resuelve fcilmente con una planilla de clculo, y el resultado es 0.91; el cual es un valor mucho mejor que el obtenido por el mtodo bsico. La Figura 2 muestra el ajuste realizado por el mtodo bsico y el realizado por regresin. Observe el mejor ajuste a los puntos experimentales de esta ltima. Una ventaja adicional del mtodo de regresin es que se puede aplicar sin modificaciones para estimar los parmetros de cualquier familia de distribuciones.
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.2 fn Regresin Bsico

0.4

0.6

0.8 x

1.2

1.4

Figura 2: Ajuste de parmetros.

Evaluacin del ajuste


Para evaluar si realmente la distribucin propuesta representa al conjunto de datos se pueden utilizar mtodos estadsticos como por ejemplo: Kolmogorov-Smirnov: Decide en base a la mxima desviacin entre la distribucin acumulada terica y la experimental. Chi-cuadrado: Decide en base a la suma de errores al cuadrado que surgen de comparar el histograma con la distribucin terica.
Teora de Modelos y Simulacin. Modelado de Entradas.

Estas pruebas son una buena gua para evaluar una distribucin. Sin embargo, ya que no existe una distribucin terica que ajuste perfectamente a los datos del mundo real, no se deberan tomar los resultados de estas pruebas en forma categrica. Es muy importante comprender el efecto del tamao de la muestra. Si la muestra es pequea, las pruebas aceptarn cualquier distribucin. Por el contrario, si la muestra es grande, las pruebas rechazarn a todas las distribuciones propuestas. Por lo tanto, estas pruebas son slo un elemento ms a tener en cuenta durante la evaluacin.

Grfico q-q
Una alternativa al empleo de histogramas para identificar la distribucin de los datos es el grfico quantile -quantile . ste tipo de grfico puede utilizarse an cuando los datos son escasos (menos que 30), y al no depender de parmetros arbitrarios, como el nmero de clases y el ancho de los intervalos, facilita la evaluacin del grado de ajuste de la distribucin propuesta al conjunto de datos analizados. Si X es una variable aleatoria con distribucin acumulada F(X), el q-quantile de X es el valor tal que F() = P(X ) = q para 0 < q < 1. Cuando F(X) tiene inversa, el quantile es igual a = F-1(q). Sea { i, i = 1, 2, ..., n} una muestra de X. Dicha lista ordenada de menor a mayor origina la x nueva lista { j, j = 1, 2, ..., n} donde y1 y2 ... yn. El grfico q-q se basa en que yj es una y estimacin del (j-0.5)/n quantile de X. En otras palabras: j 1 2 y j F 1 (5) n Suponga que se est probando una distribucin con funcin de probabilidad acumulada F(X) para representar los datos en estudio. Si F(X) es de la familia de distribuciones adecuada; entonces, el grfico yj vs. F-1((j-0.5)/n) ser aproximadamente una lnea recta. Si adems, los parmetros de F(X) tienen los valores adecuados; entonces, la lnea recta tendr pendiente 1. Por otra parte, si F(X) no es la funci n adecuada, los puntos no estarn alineados. Considere los datos mostrados en la Tabla 4. El valor medio es 99.99 y la varianza de la muestra es 0.28322. Estos valores pueden utilizarse como estimaciones de los correspondientes parmetros de una distribucin normal. Como puede apreciarse en la Figura 3, no es fcil determinar grficamente si los datos en realidad poseen distribucin normal. La Tabla 5 muestra los datos ordenados y los clculos realizados para comprobar si pueden ser representados por una distribucin normal.
Tabla 4: Tabla de datos con distribucin normal.
99.79 100.26 100.23 99.55 99.96 99.56 100.41 100.27 99.62 99.90 100.17 99.98 100.02 99.65 100.06 100.33 99.83 100.47 99.82 99.85

Teora de Modelos y Simulacin. Modelado de Entradas.

4.5 4 3.5 Frecuencia 3 2.5 2 1.5 1 0.5 0 99.55 99.86 100.16 Clase 100.47 Frecuencia

Figura 3: Histograma.

Tabla 5: Clculos para el grfico q-q.


j 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 yj 99.55 99.56 99.62 99.65 99.79 99.82 99.83 99.85 99.90 99.96 99.98 100.02 100.06 100.17 100.23 100.26 100.27 100.33 100.41 100.47 q j = (j-0.5)/n 0.03 0.08 0.13 0.18 0.23 0.28 0.33 0.38 0.43 0.48 0.53 0.58 0.63 0.68 0.73 0.78 0.83 0.88 0.93 0.98 F(y j ) 0.06 0.07 0.10 0.12 0.24 0.28 0.29 0.31 0.38 0.46 0.49 0.55 0.60 0.74 0.81 0.83 0.84 0.89 0.93 0.96 F -1 (q j ) 99.43 99.58 99.66 99.72 99.77 99.82 99.86 99.90 99.93 99.97 100.00 100.04 100.08 100.11 100.16 100.20 100.25 100.31 100.39 100.54

La Figura 4 muestra el grfico q-q correspondiente. Los puntos estn alineados a lo largo de una recta con pendiente 1; por lo tanto, se puede c oncluir que los datos tienen una distribucin normal con valor medio 99.99 y varianza 0.28322. Note que es posible realizar un grfico equivalente que no emplee la funcin inversa de la distribucin acumulada, la cual puede no existir; para ello, se grafica F(yj) vs. q j. La Figura 5 muestra este nuevo grfico, nuevamente los puntos estn alineados a lo largo de una lnea recta con pendiente 1. Generalmente los puntos ubicados en los extremos del grfico pueden alejarse de la lnea recta; sin embargo, la atencin debe ser puesta en los puntos centrales para decidir si la distribucin que est siendo probada es la correcta. Es posible tambin detectar si una variable X tiene una misma distribucin que otra Z; para ello, se grafican os valores ordenados de la l primera variable vs. los valores ordenados de la segunda variable. Si el grfico resulta en una lnea recta, ambas variables pueden ser representadas con la misma distribucin.

Teora de Modelos y Simulacin. Modelado de Entradas.

100.60 100.40 100.20 F-1(qj) 100.00 99.80 99.60 99.40 99.20 99.40

99.60

99.80

100.00 yj

100.20

100.40

100.60

Figura 4: Grfico q-q.


1.20 1.00 0.80 F(yj) 0.60 0.40 0.20 0.00 0.00

0.20

0.40

0.60 qj

0.80

1.00

1.20

Figura 5: Grfico q-q modificado.

La verificacin de la distribucin exponencial que se ajust en la seccin anterior = 0.91 se muestra en la Tabla 6, Figura 6 y Figura 7.
Tabla 6: Clculos para el grfico q-q.
j 1 2 3 4 5 6 7 8 9 10 yj 0.014 0.328 0.343 0.408 0.633 0.684 1.183 1.199 1.433 1.568 q j = (j-0.5)/n 0.05 0.15 0.25 0.35 0.45 0.55 0.65 0.75 0.85 0.95 F(y j ) 0.01 0.26 0.27 0.31 0.44 0.46 0.66 0.66 0.73 0.76 F -1 (q j ) 0.06 0.18 0.32 0.47 0.66 0.88 1.15 1.52 2.08 3.29

con

Teora de Modelos y Simulacin. Modelado de Entradas.

3.50 3.00 2.50 F-1(qj) 2.00 1.50 1.00 0.50 0.00 0 0.5 1 yj 1.5 2

Figura 6: Grfico q-q.

0.80 0.70 0.60 0.50 F(yj) 0.40 0.30 0.20 0.10 0.00 0.00 0.20 0.40 qj 0.60 0.80 1.00

Figura 7: Grfico q-q modificado.

Es posible determinar un nuevo valor de utilizando el principio del grfico q-q, para ello se debe resolver uno de los siguientes problemas: Min ( F 1 (q j ) y j )2
j =1 n

(6)

Min ( F ( y j ) q j ) 2
j =1

(7)

La solucin de ambos problemas da el mismo resultado: = 1.06. Este mtodo tiene la ventaja de no depender de un nmero arbitrario como es el nmero de clases de un histograma.

Seleccin de una distribucin sin datos


Cuando el sistema no existe an o el proceso de medicin no puede realizarse por algn motivo, ser necesario seleccionar una distribucin sin contar con los datos del sistema. La informacin necesaria para ello puede obtenerse de distintas fuentes, como ser:
Teora de Modelos y Simulacin. Modelado de Entradas.

Especificaciones tcnicas: Generalmente se cuenta con datos tcnicos de un producto o proceso; por ejemplo, tiempo medio entre fallas, velocidad de impresin, consumo promedio, etc. Opinin de expertos: Las personas que conocen el sistema pueden hacer estimaciones acerca de los valores mnimos, mximos y probables de las variables. Con estos datos es posible construir una distribucin triangular (Figura 8). Limitaciones fsicas o de diseo: Dada la naturaleza del sistema, los valores de las variables estn limitados a ciertos intervalos; por ejemplo, la luz roja de un semforo no puede durar menos de 10 s. La naturaleza del proceso: Este es un dato importante debido a que varias distribuciones tericas fueron desarrolladas para procesos determinados.

Sea cual fuera la fuente, es necesario evaluar la sensibilidad de los resultados con respecto a la distribucin propuesta de esta manera. Si la sensibilidad es alta, ser necesario refinar las estimaciones.

(Xmax-Xmin )*f(X pro )*0.5 = 1 f(Xpro )

Xmin

Xpro

X max

Figura 8: Distribucin triangular.

Teora de Modelos y Simulacin. Modelado de Entradas.

10

You might also like