Professional Documents
Culture Documents
[ POLITCNICO GRANCOLOMBIANO]
4. Desarrollo temtico
4.1
Recomendaciones
acadmicas
Se
recomienda
al
estudiante
realizar
la
lectura
de
la
cartilla,
en
la
que
se
encuentra
toda
la
informacin
relevante
que
se
evaluar
en
la
semana.
Adicional,
se
recomienda
al
estudiante
revisar
las
teleconferencias,
as
como
las
video
-diapositivas,
pues
estas
son
un
medio
para
aclarar
las
dudas
generadas
con
la
lectura
y
dar
soporte
a
los
temas
expuestos
en
la
misma.
Finalmente,
se
recomienda
al
estudiante
realizar
los
ejercicios
planteados
y
sugeridos
por
el
tutor,
ya
que
estos,
a
pesar
de
no
tener
un
valor
porcentual
en
la
nota,
si
harn
que
su
formacin
sea
completa
y
pueda
ser
reforzada
de
forma
prctica.
4.2
Desarrollo
de
cada
una
de
las
unidades
temticas
1. Introduccin
La
recoleccin
de
datos
y
el
procesamiento
de
la
informacin
son
una
de
las
tareas
ms
grandes
y
difciles
en
los
problemas
reales.
Incluso,
an
cuando
hay
informacin
disponible,
rara
vez
los
datos
vienen
o
estn
grabados
en
un
formato
que
sea
til
y
aplicable
directamente
en
un
modelo
de
simulacin.
El
trmino
GIGO
o
garbage-in-garbage-out
(si
entra
basura,
sale
basura)
es
un
concepto
bsico
en
ciencias
de
la
computacin
y
se
aplica,
sin
problema,
en
el
rea
de
simulacin
de
sistemas
discretos.
An
cuando
la
estructura
del
modelo
sea
vlida
y
robusta,
si
los
datos
de
entrada
han
sido
recolectados
de
manera
inapropiada,
analizados
de
manera
imprecisa
o
simplemente
no
son
representativos,
los
datos
de
salida
o
resultados
del
modelo
sern
inservibles
para
tomar
buenas
decisiones,
derivndose
en
prdidas
costosas
para
la
organizacin.
Para
llevar
a
cabo
un
correcto
anlisis
de
datos
de
entrada
y
recolectar
datos
que
no
sean
basura,
se
recomienda
lo
siguiente:
[ SIMULACIN ]
[ POLITCNICO GRANCOLOMBIANO]
2.2. Q-Q
Plot
(Diagramas
Cuantil
Cuantil)
Al
igual
que
los
histogramas,
los
grficos
Cuantil
Cuantil
o
Q-Q
plot
dan
una
idea
grfica
del
posible
comportamiento
que
pueden
seguir
los
datos
de
entrada
que
se
estn
analizando.
La
diferencia
principal
de
un
histograma
y
un
Q-Q
plot
es
que
los
segundos
no
muestran
propiamente
el
comportamiento
de
la
distribucin,
si
no
que
muestra
la
relacin
de
los
cuantiles
de
la
distribucin
que
se
sospecha
siguen
los
datos
con
la
distribucin
real,
y
a
partir
de
dicha
relacin
es
posible
realizar
conclusiones.
Estrictamente
hablando,
un
cuantil
se
define
de
la
siguiente
manera:
Sea
X
es
una
variable
aleatoria
(VA)
con
funcin
acumulada
de
probabilidad
Fx(x),
entonces
el
q-cuantil
de
X
es
aquel
valor
!
tal
que
! ! = ! ! ! = !.
Luego,
! = ! !! (!).
Ahora
bien,
al
partir
de
este
concepto,
se
presenta
a
continuacin
el
algoritmo
(metodologa)
a
desarrollar
para
obtener
los
cuantiles
y,
por
lo
tanto,
la
grfica
que
propone
la
herramienta
debe
realizarse:
1. Si
se
tiene
una
muestra
de
n
datos
de
X,
estos
deben
ordenarse
de
menor
a
mayor,
y
denotarlos
como
yj,
donde
j
es
el
orden
que
tiene
el
dato
dentro
del
conjunto,
es
decir,
j
=
1
para
el
menor
dato
y
j
=
n
para
el
mayor.
2. Asignar
una
probabilidad
de
ocurrencia
a
cada
uno
de
los
datos
recolectados,
dicha
probabilidad
es
asignada
de
acuerdo
a
la
expresin
(j-0.5)/n
3. Basado
en
el
hecho
de
que
yj
es
una
estimacin
del
cuantil
(j-0.5)/n
de
X
calculado
en
el
paso
anterior,
debe
calcularse
la
funcin
inversa
de
la
distribucin
que
se
sospecha
siguen
los
datos.
En
otras
palabras:
[ SIMULACIN ]
!! ! !!
! 0.5
!
4. Graficar yj v.s. ! !!
!!!.!
!
Supngase
que
se
ha
escogido
una
distribucin
con
funcin
F
como
una
posible
representacin
de
la
distribucin
de
X.
Si
F
es
un
miembro
de
una
familia
apropiada
de
distribuciones,
entonces
la
grfica
de
yj
versus
F-1
ser
aproximadamente
una
lnea
recta.
Ejemplo
Se
tienen
los
siguientes
diez
datos
y
se
sospecha
que
siguen
una
distribucin
normal
con
media
=
100
y
desviacin
estndar
=
13
105
91
103
83
71
120
100
135
123
9
0
Con
base
en
la
metodologa
anterior,
el
primer
paso
consiste
en
ordenarlos
de
menor
a
mayor,
as:
j
Yj
1
71
2
83
3
90
4
91
5
100
6
103
7
105
8
120
9
123
10
135
El
segundo
paso
es
asignarle
una
probabilidad
de
acuerdo
a
la
expresin
(j-0.5)/n:
j
Yj
Probabilidad
1
71
0,05
2
83
0,15
3
90
0,25
4
91
0,35
5
100
0,45
[ POLITCNICO GRANCOLOMBIANO]
6
103
7
105
8
120
9
123
10
135
0,55
0,65
0,75
0,85
0,95
El
tercer
paso
es
calcular
la
funcin
inversa
para
cada
una
de
las
probabilidades
asignadas
en
el
paso
anterior.
Como
en
este
caso
se
sospecha
que
los
datos
siguen
una
distribucin
normal
con
media
=
100
y
desviacin
estndar
=
13,
debe
calcularse
la
inversa
de
una
distribucin
normal.
Probabilid
Funcin
j
Yj
ad
inversa
1
71
0,05
78,616903
2
83
0,15
86,526366
3
90
0,25
91,231633
4
91
0,35
94,990834
5
100
0,45
98,366402
6
103
0,55
101,633598
7
105
0,65
105,009166
8
120
0,75
108,768367
9
123
0,85
113,473634
10
135
0,95
121,383097
Nota:
si
por
ejemplo,
se
hubiese
dicho
que
se
sospechaba
que
los
datos
seguan
una
distribucin
exponencial,
los
pasos
1
y
2
se
deban
haber
realizado
de
la
misma
forma,
pero
en
el
paso
tres
debera
haberse
calculado
la
inversa
de
una
distribucin
exponencial
y
no
de
la
normal,
es
decir,
la
funcin
inversa
se
calcula
con
base
en
la
distribucin
de
probabilidad
que
se
sospecha
siguen
los
datos.
[ SIMULACIN ]
140
120
100
80
60
40
20
0
0
20
40
60
80
100
120
140
160
La
columna
denominada
Probabilidad,
corresponde
al
clculo
del
cuantil
respectivo.
Por
!!!/!
ejemplo,
para
j
=
1,
al
reemplazar
en
la
expresin
! ,
da
como
resultado
0,05,
para
n
=
10.
La
columna
de
Funcin
Inversa,
se
puede
calcular
utilizando
Excel,
mediante
la
funcin
DISTR.NORM.INV,
con
parmetros:
media
=
100;
desviacin
estndar
=
13;
probabilidad
=
la
recin
calculada
para
cada
uno
de
los
datos.
Cabe
anotar
que
la
decisin
de
aceptar
o
rechazar
la
hiptesis
es
subjetiva,
por
cuanto
la
apreciacin
de
la
grfica
y
el
ajuste
de
los
puntos
a
una
lnea
recta
parten
de
simple
observacin.
2.3. P-P
Plot
(Diagramas
probabilidad
probabilidad)
Al
igual
que
con
el
diagrama
Q-Q,
el
diagrama
P-P
permite
evaluar
un
conjunto
de
datos
mediante
la
comparacin
de
una
distribucin
terica
de
probabilidad.
Su
principal
diferencia
con
respecto
al
diagrama
anteriormente
descrito,
radica
en
que
los
valores
a
contrastar
corresponden
al
cuantil
calculado
versus
la
funcin
de
distribucin
acumulada.
Si
los
datos
corresponden
a
la
distribucin
terica
que
se
est
probando,
la
nube
de
puntos
debe
aproximarse
a
una
lnea
recta.
Ahora
bien,
a
partir
de
lo
anterior,
se
presenta,
a
continuacin,
el
algoritmo
(metodologa)
a
desarrollar
para
obtener
los
percentiles
y,
por
lo
tanto,
la
grfica
que
propone
la
herramienta
debe
realizarse:
1. Si
se
tiene
una
muestra
de
n
datos
de
X,
estos
deben
ordenarse
de
menor
a
mayor,
y
denotarlos
como
yj,
donde
j
es
el
orden
que
tiene
el
dato
dentro
del
conjunto,
es
decir,
j
=
1
para
el
menor
dato
y
j
=
n
para
el
mayor.
[ POLITCNICO GRANCOLOMBIANO]
2. Asignar
una
probabilidad
de
ocurrencia
a
cada
uno
de
los
datos
recolectados,
dicha
probabilidad
es
asignada
de
acuerdo
a
la
expresin
(j-0.5)/n
3. Calcular
la
probabilidad
real
de
que
se
de
cada
uno
de
los
valores
de
los
datos
que
se
recolectaron.
En
otras
palabras:
!! !!
!!!.!
4. Graficar
v.s. !! !!
Ejemplo
Se
tienen
los
siguientes
diez
datos,
y
se
sospecha
que
siguen
una
distribucin
normal
con
media
=
100
y
desviacin
estndar
=
13
105
91
103
83
71
120
100
135
123
9
0
Con
base
en
la
metodologa
anterior,
el
primer
paso
consiste
en
ordenarlos
de
menor
a
mayor,
as:
j
Yj
1
71
2
83
3
90
4
91
5
100
6
103
7
105
8
120
9
123
10
135
El
segundo
paso
es
asignarle
una
probabilidad
de
acuerdo
a
la
expresin
(j-0.5)/n:
j
Yj
Probabilidad
1
71
0,05
2
83
0,15
3
90
0,25
4
91
0,35
5
100
0,45
6
103
0,55
[ SIMULACIN ]
7
105
8
120
9
123
10
135
0,65
0,75
0,85
0,95
El
tercer
paso
es
calcular
la
probabilidad
real
para
cada
uno
de
los
valores
de
los
datos
ordenados
en
el
paso
1.
Como
en
este
caso
se
sospecha
que
los
datos
siguen
una
distribucin
normal
con
media
=
100
y
desviacin
estndar
=
13,
debe
calcularse
la
probabilidad
de
los
yj
con
esta
distribucin.
Probabilida
j
Yj
d
Acumulada
1
71
0,05
0,01284821
0,0954888
2
83
0,15
5
3
90
0,25
0,22087816
0,2443720
4
91
0,35
6
5
100
0,45
0,5
6
103
0,55
0,59125296
7
105
0,65
0,6497388
8
120
0,75
0,9380321
9
123
0,85
0,96157231
0,9964520
10
135
0,95
3
Nota:
si
por
ejemplo
se
hubiese
dicho
que
se
sospechaba
que
los
datos
seguan
una
distribucin
exponencial,
los
pasos
1
y
2
se
deban
haber
realizado
de
la
misma
forma,
pero
en
el
paso
tres
debera
haberse
calculado
la
probabilidad
con
una
distribucin
exponencial
y
no
de
la
normal,
es
decir,
la
probabilidad
se
calcula
con
base
en
la
distribucin
de
probabilidad
que
se
sospecha
siguen
los
datos.
10
[ POLITCNICO GRANCOLOMBIANO]
1,2
1
0,8
0,6
0,4
0,2
0
0
0,2
0,4
0,6
0,8
El
objetivo
de
las
pruebas
de
hiptesis
es
rechazar
(o
aceptar
H0)
de
tal
manera
que
si
H0
es
en
realidad
verdadera,
entonces
la
probabilidad
de
rechazarla
errneamente
(error
tipo
I),
no
exceda
un
valor
de
probabilidad
previamente
definido,
,
el
cual
es
llamado
nivel
de
confianza
o
nivel
de
significancia.
Mientras
ms
pequeo
es
,
ms
alta
es
la
confianza
en
la
decisin
de
rechazo
correspondiente.
[ SIMULACIN ]
11
!=
!!!
!! !! !
!!
Este
estadstico
tiene
una
distribucin
Chi-cuadrado
con
k-1
grados
de
libertad
si
n
es
suficientemente
grande,
es
decir,
si
todas
las
frecuencias
esperadas
son
mayores
que
5.
Si
existe
concordancia
perfecta
entre
las
frecuencias
observadas
y
las
esperadas,
el
estadstico
tomar
un
valor
igual
a
0;
por
el
contrario,
si
existe
una
gran
discrepancia
entre
estas
frecuencias,
el
estadstico
tomar
un
valor
grande
y,
en
consecuencia,
se
rechazar
la
hiptesis
nula.
As
pues,
la
regin
crtica
estar
situada
en
el
extremo
superior
de
la
distribucin
Chi-cuadrado
con
k-1
grados
de
libertad.
Ejemplo
La
distribucin
de
los
ingresos
anuales
en
dlares
de
una
muestra
de
100
familias,
que
habitan
en
cierta
poblacin
present
los
siguientes
resultados:
Ingresos
anuales
en
miles
de
Frecuencia
Observada
dlares
(Oi)
40
x
60
12
60
<
x
80
8
80
<x
100
25
100
<x
120
30
120
<x
140
25
Puede
admitirse
que
los
ingresos
de
las
familias
que
habitan
en
dicha
poblacin
sigue
una
distribucin
uniforme
en
el
intervalo
[40.000
140.000]
con
un
nivel
de
significancia
del
5%.
Dado
que
ya
se
tienen
las
frecuencias
observadas,
el
siguiente
paso
es
calcular
la
frecuencia
esperada
Ei,
se
debe
que
esta
siempre
ser
igual
a
pin,
donde
n
es
el
nmero
total
de
12
[ POLITCNICO GRANCOLOMBIANO]
140 40 140 40
! 40 < ! 60 = 0,2 0
! 40 < ! 60 = 0,2
Entonces
Ei
sera
0,2*100
=20
Nota:
Dado
que
se
sospechaba
que
los
datos
seguan
una
distribucin
uniforme,
la
probabilidad
fue
calculada
con
la
funcin
de
densidad
acumulada
de
la
uniforme,
si
por
el
contrario
se
hubiese
sospechado
que
los
datos
seguan
una
distribucin
exponencial,
la
probabilidad
debera
haber
sido
calculada
con
la
funcin
de
densidad
acumulada
de
la
exponencial,
si
se
hubiese
sospechado
que
los
datos
seguan
una
distribucin
Poisson,
entonces
deba
haberse
calculado
la
probabilidad
con
la
funcin
de
densidad
de
una
Poisson,
etc
Este
procedimiento
se
repite
para
cada
una
de
las
clases,
donde
se
obtiene
los
siguientes
resultados:
Ingresos
anuales
Frecuencia
Probabilida
Frecuencia
en
miles
de
Observada
d
Esperada
(Ei)
dlares
(Oi)
40
x
60
12
0,2
20
60
<
x
80
8
0,2
20
80
<x
100
25
0,2
20
100
<x
120
30
0,2
20
120
<x
140
25
0,2
20
[ SIMULACIN ]
13
Al
tener
los
valores
de
la
frecuencia
observada
y
de
la
frecuencia
esperada,
es
posible
realizar
el
clculo
del
estadstico
recordando
que
este
es
igual
a
!
!=
!!!
!! !! !
!!
Se
obtienen,
entonces,
los
siguientes
resultados:
Ingresos
anuales
Frecuencia
Probabilida Frecuencia
(Oi-Ei)2/Ei
en
miles
de
Observada
d
Esperada
(Ei)
dlares
(Oi)
40
x
60
12
0,2
20
3.2
60
<
x
80
8
0,2
20
7.2
80
<x
100
25
0,2
20
1.25
100
<x
120
30
0,2
20
5
120
<x
140
25
0,2
20
1.25
Y
=
17.9
Una
vez
obtenido
el
estadstico,
este
deber
compararse
con
el
valor
Chi2
de
la
tabla
Chi2.
Para
calcular
este
valor,
recuerde
que
debe
tenerse
presente
el
nivel
de
significancia
con
que
se
realiz
la
prueba
y
los
grados
de
libertad.
Para
este
ejemplo
en
especfico
se
sugiri
que
alfa
fuera
igual
a
0.05
y
los
grados
de
libertad
siempre
sern
iguales
al
nmero
de
clases
menos
1,
es
decir,
que
para
el
ejercicio
los
grados
de
libertad
seran
df
=
5-1
=
4
Al
observar
la
tabla
de
la
Chi2
,
apreciamos
que
el
resultado
es:
Finalmente,
para
concluir,
si
se
rechaza
o
no
la
hiptesis
de
que
la
distribucin
de
los
ingresos
anuales
de
dichas
familias
siguen
una
distribucin
entre
[40.000
140.000],
se
deben
comparar
los
valores
del
estadstico
calculado
Y
y
los
de
la
tabla
Chi2,
as:
14
[ POLITCNICO GRANCOLOMBIANO]
Para
este
ejemplo
en
particular,
dado
que
Y
=
17.9
no
es
menor
a
9.48,
entonces
se
debe
rechazar
la
hiptesis
nula
y,
por
lo
tanto,
se
concluye
que
el
ingreso
anual
de
las
familias
no
sigue
una
distribucin
uniforme
ente
[40.000
140.000].
3.2. Prueba
Kolmogorov-Smirnov
En
esta
prueba
se
pretende
medir
la
mayor
desviacin
entre
la
funcin
de
distribucin
terica
y
la
emprica.
Esta
desviacin
se
compara
con
el
valor
crtico
respectivo,
segn
la
tabla
asociada
a
este
tipo
de
prueba.
Una
ventaja
de
esta
prueba
consiste
en
que
funciona
muy
bien
para
cualquier
tamao
de
muestra,
incluso
para
conjuntos
de
datos
muy
pequeos.
El
algoritmo
para
ejecutar
esta
prueba
es
como
sigue:
1.
Ordenar
los
datos
de
manera
ascendente
2.
Calcular
F
(X)
para
cada
uno
de
los
datos
3.
Calcular
las
siguientes
desviaciones
!
!! = !"#
! !
!
!1
!! = !"# ! !
!
4.
Estimar
el
estadstico
de
la
prueba
dado
por
! = max !! , !! .
5.
Determinar
el
valor
crtico
!!
de
la
tabla,
para
un
nivel
de
significancia
y
un
tamao
de
muestra
N.
6.
Si
el
estadstico
de
la
prueba
es
mayor
que
el
valor
crtico
de
la
tabla,
entonces
se
rechaza
la
hiptesis.
Ejemplo
Se
tomaron
mediciones
de
tiempo
de
un
proceso
crtico
en
una
lnea
de
produccin,
donde
se
tiene
la
siguiente
informacin
(en
segundos):
17,3
19,6
10,7
11,3
17,8
16,1
18,0
17,6
18,7
14,5
[ SIMULACIN ]
15
Se
quiere
comprobar
la
hiptesis
de
que
este
tiempo
sigue
una
distribucin
uniforme
con
parmetros
(10,
20)
segundos,
con
un
nivel
de
confianza
del
95%.
De
manera
similar
a
la
elaboracin
de
los
diagramas
Q-Q
y
P-P,
resulta
bastante
til
la
elaboracin
de
una
tabla
para
completar
la
prueba.
D+
=
0,07
D-
=
0,33
Entonces,
el
estadstico
de
la
prueba
corresponde
a
0,33.
Se
procede
ahora
a
consultar
la
tabla
de
valores
crticos
de
la
prueba
Kolmogorov-Smirnov,
la
cual
se
muestra
a
continuacin:
Se
puede
observar
que
el
valor
crtico
equivale
a
0,40925,
para
un
tamao
de
muestra
n
=
10,
y
un
nivel
de
significancia
del
5%.
Como
este
valor
es
mayor
al
estadstico
de
la
prueba,
no
16
[ POLITCNICO GRANCOLOMBIANO]
existe
suficiente
evidencia
estadstica
para
rechazar
la
hiptesis
de
que
los
datos
se
distribuyen
uniformemente.
4. Interpretacin
P-Value
Otra
forma
de
determinar
si
se
rechaza
o
no
una
hiptesis
sin
emplear
directamente
los
estimadores,
es
a
travs
del
concepto
de
P-value
(esta
metodologa
es
la
que
suelen
emplear
la
gran
mayora
de
software
estadsticos
capaces
de
realizar
anlisis
de
entrada).
El
P-Value
corresponde
al
rea
superior
derecha
a
partir
del
estadstico
de
prueba,
es
decir,
es
la
probabilidad
acumulada
que
existe
despus
del
estadstico
de
prueba.
Por
ejemplo,
para
el
caso
de
la
prueba
Chi2
realizada
en
el
ejemplo,
podemos
ver
que
el
p-value
corresponde
al
rea
amarilla
+
rea
azul:
Con
base
en
este
anlisis,
las
conclusiones
se
tomaran
as:
[ SIMULACIN ]
17