Professional Documents
Culture Documents
Este documento pretende responder al propósito de contar con una especie de prontuario de la visualización gráfica y de las principales características de algunas
distribuciones de probabilidad continuas (densidades de probabilidad) en un mismo lugar.
Se distinguen en él tres secciones dispuestas a manera de columnas:
1. La de la izquierda (primera columna) contiene dos gráficos. El superior muestra varios ejemplos de la distribución de probabilidades (pdf, por
probability density function), en tanto que el inferior es la función de distribución (cdf, por cumulative distribution function), graficada para los mismos
casos de la distribución de probabilidades.
2. En la sección central se pueden ver, además de la forma más común de definir la regla algebraica tanto de la pdf como de la cdf, otros valores y
expresiones: parámetros, media, moda, mediana, varianza, coeficiente de sesgo [skewness], kurtosis [cuarto cumulant1 entre el cuadrado del segundo
cumulant, cuenta que coincide con el cociente del cuarto momento central y el cuadrado de la varianza, menos 3], entropía [un indicador de la cantidad
de información que proporciona una variable aleatoria], la función generatriz de momentos y la función característica.
3. La sección derecha contiene una serie de comentarios acerca de la distribución, que tratan de redondear una mejor percepción del comportamiento de la
variable aleatoria correspondiente.
Las dos primeras secciones (columnas) se han extraido del sitio en idioma inglés de Wikipedia (el de español no está tan completo como el de inglés) y la tercera es mía.
Hay dos funciones especiales que aparecen en la definición de algunas de las distribuciones:
∞
i. Función Gamma: Γ ( x ) = ∫ t x −1 e − t dt , la que extiende el concepto de factorial a los números complejos.Si la parte real del número complejo es
0
positiva, entonces la integral converge totalmente. Propiedad: Γ(k) = (k-1) Γ(k-1), de aquí lo de factorial.
π 2 1 Γ( x ) Γ( y)
ii. Función Beta: B ( x , y ) = 2 ∫ cos 2 x −1 ( θ ) sen 2 y −1 ( θ ) dθ = ∫ t x −1 (1 − t ) y −1 dt = , entre otras muchas más formas equivalentes.
0 0
Γ( x + y)
Las últimas cuatro páginas resumen la familia de distribuciones Pearson y las dirigidas al análisis de valores extremos. Espero que en al menos en una
ocasión estas notas les resulten útiles.
1 tX
∞
tr 2
t2
El
n-‐ésimo
cumulant
se
obtiene
de
la
función
generadora
de
Cumulants
f ( t ) = ln[ E ( e )] = ∑ k r = µt + σ +
al
valorar
su
n-‐ésima
derivada
en
cero:
r =1 r! 2
itX
k1
=
µ=
f’(0),
k2
=
σ =
f’’(0),
...,
kn
=
f (0).
La
esperanza
E(e )
se
conoce
como
función
generatriz
de
momentos
en
tanto
que
E(e )
es
la
función
característica.
2
n tX
1
DISTRIBUCIÓN
NORMAL
La
distribución
Normal
de
probabilidades
es
importantísima
por
varias
razones:
1) En parte debido al Teorema del Límite
Central, es un buen modelo de varios fenó-
menos cuantitativos que ocurren tanto en las
ciencias naturales como en las de la con-
ducta.
2) Es una buena aproximación de mediciones
en un amplio espectro de disciplinas: desde
fenómenos sicológicos hasta físicos.
3) Tiene una relación fundamental con el
método de estimación conocido como Míni-
mos Cuadrados, de los más simples y anti-
guos métodos estadísticos.
4) Aparece en muchas áreas de la Estadísti-
ca. Por ejemplo, la distribución del promedio
aritmético de una muestra es aproximada-
mente Normal aunque la población de la que
procede cada dato no lo sea.
5) Muchas pruebas estadísticas están basa-
das en la suposición de normalidad.
6) Maximiza la entropía informativa (una
medida de la incertidumbre asociada a una
variable aleatoria, al cuantificar la informa-
ción contenida en ella), entre todas las dis-
tribuciones con media y varianza conocidas..
7) Es la distribución límite incluso de varias
familias de distribuciones discretas.
2
DISTRIBUCIÓN
LOGÍSTICA
Debe su nombre a que su función de
distribución (cdf) corresponde a la llamada
función logística:
eu
Z( u ) =
1+ eu
La función de densidad (pdf) se parece en
forma a la Normal pero es un poco más “pi-
cuda” (mayor kurtosis).
Ha esultado útil en diversos casos, entre
ellos:
1) “Ratings” en algunos juegos. La Federa-
ción Internacional de Ajedrez ha reemplaza-
do la distribución Normal por la Logística en
las fórmulas que utiliza para ajustar las pun-
tuaciones de los jugadores.
2) Biología: desarrollo de la población de
especies en competencia.
3) Epidemiología: en la descripción de cómo
se expande una epidemia.
4) Sicología: descripción del aprendizaje (cur-
va de aprendizaje).
5) Tecnología: cómo se difunde una nueva
tecnología y sustituye a otras.
6) Mercadotecnia: difusión de las ventas de
nuevos productos.
7) Energía: difusión y sustitución de fuentes
de energía primarias.
Cuando log(X) tiene una distribución Logísti-
ca, entonces X tiene una densidad de proba-
bilidades Log-Logística.
3
DISTRIBUCIÓN
GAMMA
5
DISTRIBUCIÓN
TRIANGULAR
La distribución de probabilidades Triangular está com-
pletamente acotada, es decir, su dominio es un interva-
lo cerrado real.
Sus parámetros determinan totalmente si es simétrica
(c = (a+b)/2) o asimétrica (y el sesgo puede ser a la
izquierda o a la derecha).
Estas características, muy fáciles de manipular, hacen
de la distribución Triangular un magnífico modelo de un
comportamiento aleatorio con alta incertidumbre, del
que no se tengan registros históricos ya sea porque no
se hayan realizado tales registros o porque simplemen-
te se trate de algo que no ha ocurrido jamás. Ejemplo
de lo último es lo que tiene que ver con contestar la
pregunta: Si se realizara la inversión (de
alrededor de quince millones de dólares)
necesaria para poner en operación un nue-
vo pozo petrolero, ¿cuál sería la produc-
ción diaria?
Cuando solamente se tenga la información suficiente
para establecer tres estimaciones sobre el dominio de
una variable: i) Una inferior, con una muy alta confianza
de que no podrá haber valores menores; ii) Una inter-
media, alrededor de la cual se espere una alta concen-
tración de valores; y iii) Una superior, con una muy alta
confianza de que no podrá haber valores mayores, en-
tonces un modelo prácticamente suficiente del compor-
tamiento de la variable es la distribución de probabilida-
des Triangular.
Es útil, entonces, en el análisis de riesgo de proyectos
de inversión y en el análisis de un proyecto tipo PERT.,
aunque también se ha extendido su uso a otros aspec-
tos de las finanzas corporativas y a un área totalmente
distinta: audio dithering, una forma intencionalmente
aplicada de “ruido” para aleatorizar ciertos errores en el
procesamiento final tanto de audio como de vídeo digi-
tales.
6
DISTRIBUCIÓN
WEIBULL
La kurtosis de la distribución de probabilidades
Weibull es:
en donde:
Γi = Γ (1 + ki )
La función generatriz de momentos y la función
característica tienen expresiones especiales
que considero que es mejor no incluir aquí.
En particular, si k=1, entonces se reduce a la
distribución Exponencial; y cuando k=3.4 la
distribución de Weibull imita bastante bien a la
distribución Normal.
La distribución de Weibull tiene variadas apli-
caciones, entre otras:
1. En el Análisis de Supervivencia, que estu-
dia el tiempo de vida de organismos biológi-
cos y de fallas en sistemas mecánicos (teoría
de confiabilidad). Cuestiones similares pue-
den ser modeladas en otros campos (como
la economía y la sociología) y en eventos re-
currentes (una persona puede ir a la cárcel, o
divorciarse, varias veces).
2. Para representar tiempos de manufactura o
de entrega de productos.
3. Modelar el comportamiento de valores ex-
tremos (los que ocurren ‘rara’ vez).
4. En el área de la actuaría: seguros de au-
tomóviles, casas, ... (pero no de vida).
5. Comunicaciones inalámbricas: modelado
de la distorsión de señales.
6. Modelado de la dispersión de señales en
sistemas de radares.
7
DISTRIBUCIÓN
RAYLEIGH
jLa función de error (erf) que aparece en la fun-
ción generatriz de momentos es:
2
1 n
2
σ̂ = ∑x i
2n i =1
Aparece en situaciones en que interesa una va-
riable relacionada con dos variables Normales
independientes de igual varianza.
Sirve para modelar, por ejemplo, la velocidad del
viento o el efecto del ambiente de propagación
sobre una señal de radio (como el usado por dis-
positivos inalámbricos).
8
LA
FAMILIA
DE
DISTRIBUCIONES
PEARSON
Cuando se dice distribución Pearson, en realidad no se refiere a una distribución específica sino a alguna distribución de probabilidades continua que satisface las
características del sistema originalmente diseñado por Karl Pearson (el mismo de la prueba de bondad de ajuste Chi-Cuadrada y del coeficiente de correlación lineal)
para modelar observaciones notoriamente sesgadasen el campo de la Bioestadística. El trabajo de Pearson fue publicado por primera vez en 1895 y corregido y au-
mentado por él mismo después, en publicaciones de1901 y 1916.
Los tipos de distribuciones de Pearson son caracterizados por dos parámetros: β1 y β2, definidos respectivamente como el cuadrado del coeficiente de sesgo y
el segundo como la kurtosis antigua (el cuarto momento central entre el cuadrado de la varianza, sin restar el 3 de la kurtosis moderna o excess kurtosis referida en la
segunda columna de las distribuciones descritas en este documento).
En general, una distribución de probabilidades continua pertenece a alguno de los tipos de la familia Pearson si resulta ser una solución válida a la ecuación
diferencial:
en la que:
Como se trata de una ecuación diferencial lineal con coeficientes variable s, su solución es inmediata:
x −a R
es
una
constante
que
asegura
que
p(x)
es
una
distribución
de
probabilidades.
− ∫ b 0 + b1 x + b 2 x 2 dx
Dependiendo
de
si
el
discriminante
de
la
ecuación
de
segundo
grado
es
o
no
negativo,
y
de
los
valores
p( x ) = R e específicos
de
a,
b0,
b1
y
b2,
se
obtienen
siete
tipos
de
distribuciones
Pearson.
La tabla ejemplifica el tipo de distribución Pearson al que pertenecen algunas distribuciones de probabilidad ya descritas, o relacionadas con ellas.
Discriminante Pearson Tipo Distribuciones que pertenecen al tipo
IV Ninguna
Negativo
VII (caso simétrico de la tipo IV) Normal, t-Student, Cauchy
I Beta, Normal (como límite)
II (caso simétrico de la tipo I) aprox. t-Student
Positivo III Gamma, Chi-Cuadrada, Normal
V Gamma Inversa, Normal
VI F-Fisher, Normal
En la siguiente página se insertan dos gráficas: una que mediante áreas coloreadas muestra las combinaciones de valores β1 y β2 que dan lugar a diferentes tipos de
distribuciones Pearson.
10
DISTRIBUCIÓN
DE
VALORES
EXTREMOS
En algunas ocasiones lo que interesa es la caracterización de los valores mínimos o máximos de un comportamiento aleatorio y no éste como tal. Por ejemplo, en el
nivel de atención de los clientes de un banco podríamos estar interesados en disminuir el tiempo máximo en cola y no precisamente el tiempo que un cliente hace cola.
Diariamente (o en los días de mayor actividad) registraríamos algunos tiempos en cola de los clientes y, de la muestra recogida, obtener el máximo dato. Al cabo de
varios días dispondríamos de una muestra que nos permitiría analizar el comportamiento aleatorio de “el tiempo máximo en cola”. La distribución de probabilidades de
éste podría ser ajustada por alguna de las distribuciones de valores extremos sugeridas aquí.
Las áreas de aplicación son variadas: 1) Grandes olas en altamar (por sus efectos desastrosos en buques, plataformas petroleras, génesis de tsunamis, ...);
2) Riesgos de mercado (grandes variaciones en el precio de las acciones, en las tasas de interés, en el tipo de cambio, en el precio de los satisfactores, en el costo del
crédito, etc.); 3) Grandes inundaciones y otros desastres naturales; 4) Notorios cambios (mutaciones) en la evolución biológica, 5) Negocio de los seguros (riesgo de
grandes pérdidas por el pago de daños).
El estudio de la distribución de probabilidades de valores extremos está enmarcado en la teoría del Valor Extremo, iniciada por Emil Julius Gumbel en la déca-
da de los 50’s.
Las distribuciones de probabilidad de valores extremos constituyen una familia de distribuciones, que comprende a su vez a las familias de distribuciones de
Gumbel (que resulta ser un caso especial de la familia de distribuciones de Fisher-Tippett), de Fréchet y de Weibull, conocidas como destribución de valores estremos
de tipo I, II y III, respectivamente.
La función de distribución (cdf) y la densidad de probabilidades (pdf) de valores extremos tienen los modelos algebaicos siguientes:
−1 / ξ
⎡ ⎛ x − µ ⎞ ⎤
− ⎢ 1+ ξ ⎜⎜ ⎟ ⎥
⎟
⎢⎣ ⎝ σ ⎠ ⎥⎦
F( x ; µ , σ , ξ ) = e
para 1+ξ(x-µ)/σ > 0, en donde µ real es el parámetro de localización, σ > 0 el de escala y ξ real el de forma.
Consecuentemente, la densidad de probabilidades está dada por:
−1 / ξ
−1 / ξ −1 ⎡ ⎛ x − µ ⎞ ⎤
1 ⎡ ⎛ x − µ ⎞ ⎤ − ⎢ 1+ ξ ⎜⎜
⎣⎢ ⎝ σ
⎟ ⎥
⎟
⎠ ⎦⎥
f ( x ; µ , σ , ξ ) = ⎢1 + ξ ⎜⎜ ⎟ ⎥
⎟ e
σ ⎢⎣ ⎝ σ ⎠ ⎥⎦
En la próxima página se da el perfil general de la familia de distribuciones de valor extremo y en particular las características de la familia de distribuciones de
Fisher-Tippett.
12