Professional Documents
Culture Documents
------------------------------------------------------------
Cap 4: Distribuciones de probabilidad teóricas
Qué es una distribución? Es una forma matemática abstracta cutya naturaleza depende de
algunos parámetros.
Parámetros vs estadísticos:
Distribuciones discretas:
Ensayo de Bernouilli: es un ensayo con sólo dos resultados posibles (éxito o fracaso) que
agotan el espacio de muestreo (exhaustivos) y sin posibilidad de que ambos ocurran
simultáneamente (excluyentes). Sea p la probabilidad de éxito y q = 1-p la probabilidad de
fracaso. La distribución binomial entrega la probabilidad de x éxitos en n ensayos o
intentos, en los cuales la probabilidad de éxito p es constante en cada ensayo y éstos son
mutuamente independientes.
Distribución Binomial:
La distribución binomial de probabilidades para los N+1 valores de X están dados por:
N
Pr{ X x} p x (1 p ) N x x 0,1,2,..., N (4.1)
x
Esta distribución tiene dos parámetros, N y p. El parámetro p es la probabilidad de
ocurrencia de un éxito en cada uno de los N intentos independientes. Es evidente que los
N+1 probabilidades de (4.1) cumplen con sumar uno, su suma es el desarrollo del binomio
de Newton (a+b)N para el caso en que a=p, b=1-p que suman a+b=1 y 1N=1.
Ejemplo: Caso de congelamiento del Lago Cayuga. I y II. Este lago se ha congelado en 10
años durante un intervalo de 200 años, luego p = 10/200 = 0.05.
Notar que la Dist. Binomial puede aplicarse a situaciones que no son intrínsicamente
binarias mediante una redefinición de los sucesos: ocurrencia o no ocurrencia de un valor
específico de la variable (temp>0°C o temp <=0°C). Hecho vinculado con la ocurrencia de
heladas.
Distribución Geométrica:
La dist. Geométrica está relacionada con la binomial, pero describe un aspecto distinto de la
misma situación conceptual. Ambas tratan con experimentos dicotómicos e independientes,
pero que en este segundo caso deben ocurrir en secuencia. La dist. Geométrica describe las
probabilidades del número de intentos que se requieren para observar el próximo éxito.
Entonces, la v.a. X es tal número de intentos y su probabilidad está dada por
Pr{ X x} p(1 p) x 1 x 1,2,... (4.5)
A menudo esta distribución se aplica intentos que ocurren consecutivamente, por lo que se
la suele denominar la distribución de las esperas. Por ejemplo, para describir la duración de
regímenes o estados del tiempo (spells). Entre ellos, secuencias de sequías a la espera de la
lluvia, o secuencias de períodos lluviosos a la espera de uno seco.
Distribución de Poisson:
Esperanza estadística
El valor esperado de una v.a. o de una función de una v.a. es simplemente el promedio
ponderado por la probabilidad respectiva de esa v.a. o de su función.
Valor esperado de una v.a.: Es más fácil comprender los promedios ponderados por
probabilidades en el caso de distribuciones discretas como la binomial. Convencionalmente
el operador esperanza se denota por E[ ]:
E[ X ] x Pr{ X x} (4.7)
x
La sumatoria toma sobre todos los valores permitidos de X. Por ejemplo, la esperanza de X
cuando X tiene un distribución binomial es
N
N
E[ X ] x p x (1 p) N x (4.8)
0 x
( x 2 2 x 2 ) Pr{ X x}
x
E[ X 2 ] 2 E[ X ] 2 * 1
E[ X 2 ] 2 (4.10)
Distribuciones continuas
Las matemáticas de probabilidades para variables continuas son algo diferentes aunque
análogas a las de variables discretas. Así como los cálculos de probabilidades para
variables discretas involucran sumatorias sobre funciones de probabilidad discontinuas, los
cálculos de probabilidades par v.a. continuas contienen integraciones de funciones
continuas llamadas funciones de densidad de probabilidad, o pdf’s.
Convencionalmente, la pdf de una v.a. X se denota por f(x). Así como la sumatoria de una
función discreta de probabilidad sobre todos los valores posibles de la v.a. deben sumar 1,
la integral de cualquier pdf sobre los valores permitidos de x debe ser igual a 1:
f ( x)dx 1
x
(4.11)
Una función no puede ser pdf a menos que satisfaga esta relación. Adicionalmente, f(x) de
ser no negativa para todo valor de x. No se han indicado límites en la integral porque
dependen de cada distribución. Las pdf son el análogo continuo y teórico de los
histogramas de datos. Sin embargo, el significado de la pdf resulta confuso al comienzo por
esta analogía. En particular, la altura de la función f(x) evaluada para un valor particular de
la v.a., carece de un significado probabilístico. La confusión se produce porque rara vez se
tiene presente que la probabilidad es proporcional al área y no a la altura, tanto en la pdf
como en el histograma.
f(1)
f(x) Pr 0.5 x 1.5
1.5
f ( x)dx
0.5
La figura muestra una pdf hipotética, definida sobre valores de una v.a. X. En tanto la pdf
puede ser evaluada para valores específicos de la v.a., digamos X = 1, por si mismo f(1) no
es interpretable en términos de probabilidades de X.
f(x)
1.5
f(1)
Pr{0.5 x 1.5} f ( x)dx
0.5
f ( x)dx 1
0
0 1 x
De hecho, puesto que X varía continuamente sobre algún segmento de los números reales,
la probabilidad de X=1 exactamente es infinitamente pequeña. Sí tiene sentido evaluar
probabilidad para valores de una v.a. en vecindades no infinitesimales en torno a X=1. La
figura muestra la probabilidad de X entre 0.5 y 1.5 como la integral de la pdf entre estos
límites.
Una idea vinculada con la pdf es la función de distribución acumulada (cdf). La cdf es una
función de la v.a. X, dada por la integral de la pdf hasta un valor determinado de x. Así la
cdf especifica la probabilidad de que la v.a. no exceda valores particulares. Es por tanto la
contraparte continua y teórica de la cdf empírica. Convencionalmente la cdf se denota por
F(x):
F ( x) Pr{X x} f ( x)dx
X x
(4.12)
También se definen esperanzas para v.a. continuas. El valor esperado de una v.a. o bein de
una función de la v.a. como el promedio ponderado correspondiente:
E[ g ( x)] g ( x) f ( x)dx (4.14)
x
Distribuciones de probabilidad teóricas: Wilks Cap 4 7/19
------------------------------------------------------------
estas esperanzas gozan de las mismas propiedades descritas en (4.9). . Para g(x) = x.
E[X]=m es la media de la distribución cuya densidad de prob. es f(x). Análogamente, la
varianza de una v.a. continua está dada por la esperanza de la función g(x) = (x – E[X])2,
Dependiendo de la forma de f(x) algunas de lasa ecs. (4.12), (4.14) y (4.15) pueden no ser
integrables analíticamente y para algunas distribuciones puede ser inexistentes.
Lo que no está claro para un conjunto de datos particular es cuan grande debe ser la
muestra para que el teorema del límite central sea aplicable. En la práctica este tamaño de
la muestra depende de la distribución desde la cual los sumando se extraigan. Si las
observaciones a ser sumadas provienen de una distribución gaussiana, la suma de cualquier
número de ellas también será gaussiana. Para distribuciones de origen no muy distintas de
la gaussiana (unimodales y no muy asimétricas) La suma de un modesto número de
observaciones también será aproximadamente gaussiana.
Para que esta distribución represente un conjunto de datos se debe ajustar los dos
parámetros a los datos. Buenas estimaciones de los parámetros se obtienen por el método
de los momentos: estimando la media por el promedio de los datos y la desviación standard
por s.
Distribución Gama
Existe una variedad de distribuciones acotadas a la izquierda por cero y con asimetría
positiva. Una elección frecuente, especialmente cuando se trata de representar datos de
precipitación es la distribución gama, cuya fdp se define por
( x / ) 1 exp( x / )
f ( x) x, , 0 (4.23)
( )
Distribuciones de probabilidad teóricas: Wilks Cap 4 9/19
------------------------------------------------------------
Los dos parámetros de la distribución son , el parámetro de forma, y el parámetro de
escala. Como antes
( ) t 1 e t dt y cumple con la relación de recurrenci a ( 1) ( )
0
que sirve para su evaluación en base a una pequeña tabla inicial que contenga argumentos
en el intervalo [1,2).
La distribución gama toma una variedad de formas dependiendo del valor de a. Como se
ilustra en la figura. Para <1 la distribución es muy asimétrica con f(x) tendiendo a infinito
a medida que x tiende a cero.
Para = 1 la función intersecta el eje de ordenadas en 1/ para x = 0, en este caso especial
la distribución gama se denomina distribución exponencial. Para >1 la distribución gama
parte desde el origen, f(0) = 0. Para crecientes disminuye la asimetría y la pdf se desplaza
hacia la derecha. Para mucho mayor la distribución se asemeja a la gaussiana. El
parámetro carece de dimensión.
El parámetro de escala que tiene las dimensiones de x estira o encoge la pdf a su
derecha o izquierda dependiendo de la magnitud de x. A medida que la pdf se desplaza a la
derecha su máximo disminuye para conservar el valor integral unitario. Este ajuste lo
proporciona el del denominador.
Distribuciones de probabilidad teóricas: Wilks Cap 4 10/19
------------------------------------------------------------
La versatilidad de la pdf gama la hace muy atractiva para el caso de la precipitación y se
suele recurrir a ella para tal efecto. Sin embargo, la distribución gama ofrece problemas al
ajuste por momentos debido a que sus parámetros no corresponden a momentos de ella,
como es el caso de la gaussiana. La media de la pdf gamma es y la varianza es 2 .
Igualando sus expresiones con el promedio y el estimador de la varianza s2 se obtienen los
estimadores
x2 s2
ˆ 2 y ˆ (4.26)
s x
Estos estimadores basados en los momentos no son tan malos para valores de >10, pero
dan pobres resultados para pequeños, en cuanto que sus valores cambian erráticamente de
una a otra muestra de datos. Es mucho mejor usar el método de máxima verosimilitud.
Las probabilidades acumuladas para la distribución gama en la Tabla B.2 Están dispuestas
en sentido inverso a la Tabla B.1 para la distribución gaussiana. Esto es, cuantiles de la
distribución están en el cuerpo de la tabla, y probabilidades acumuladas están listadas en las
cabezas de las columnas. Probabilidades se obtienen para distintos parámetros de forma ,
que aparecen en la primera columna.
Distribución de Weibull
Existen varias distribuciones que al igual que la gama son positivamente asimétricas. Una
de ellas, muy usada en las ciencias atmosféricas, es la de Weibull que suele usarse para
velocidades del viento. Su pdf es
x
1
x
f ( x) exp x, , 0 (4.32)
Distribuciones de probabilidad teóricas: Wilks Cap 4 11/19
------------------------------------------------------------
Al igual que en el caso de la distribución gama los dos parámetros y se denominan
parámetros de forma y escala, respectivamente. La forma de la distribución de Weibull es
controlada de la misma forma por los dos parámetros. Así para <=1 toma la forma de J
invertida con fuerte asimetría positiva. Para = 1 las distribuciones de Weibull y gama son
idénticas y se reduce a la distribución exponencial. Para =3.6 la distribución de Weibull es
muy parecida a la gaussiana. Igualmente el parámetro de escala estira o comprime la forma
a lo largo del eje x, para un dado.
Distribución Lognormal
Distribución Beta
Algunas variables de interés se restringen a segmento del eje real con límites en ambos
extremos. A menudo están restringidas al intervalo [0,1]. Ejemplos de ellas son la cobertura
nubosa (observada como fracción del cielo) y humedad relativa. Una variable de este tipo
más abstracta pero importante, es la probabilidad, donde una distribución paramétrica
puede ser útil resumiendo la frecuencia de uso de, por ejemplo, pronósticos de de
probabilidades de precipitación. La distribución Beta es una elección común. Su pdf es:
( p q) p 1
f ( x) x (1 x) q 1 0 x 1, p, q 0 (4.37)
( p ) ( q )
Esta es un función muy flexible que adopta diferentes formas dependiendo de los valores de
sus dos parámetros, p y q. La figura siguiente ilustra cinco de ellas. En general, para p<=1
las probabilidades se concentran cerca de 0, y para q<=1 se concentran cerca de 1. Si
ambos parámetro son menor que 1 la distribución adopta forma de U. Para p>1 y q>1 la
distribución tiene un máximo entre 0 y 1, con mayores probabilidades a la derecha si p>q,
y mayores probabilidades desplazadas a la izquierda para q>p. Distribuciones Beta con p=q
son simétricas. En la figura los parámetros p y q están rotulados como y ,
respectivamente.
La integral de la pdf beta no existe en forma cerrada excepto para algunos casos especiales.
Las probabilidades se pueden obtener por métodos numéricos donde la cdf de la
distribución beta se conoce como la función beta incompleta, Ix(p,q)= Pr{0<=X<=x}= F(x).
Distribución de Gumbel
Las distribuciones estadísticas para sucesos atmosféricos extremos son muy relevantes en el
diseño en ingeniería, y otras estimaciones de riesgos. El calificativo de evento extremo
indica los valores máximos o mínimos de una variable atmosférica entre un número dado
de observaciones como la temperatura máxima más cálida observada en un lugar durante el
mes de Enero, o la suma de precipitación registrada en un año particular. Esta distribución
podría ser usada para estimar probabilidades de que el día más cálido del próximo verano
sea mayor que umbrales especificados, o para las temperaturas más cálidas de un día de
Enero correspondientes a una probabilidad acumulada de 0.99 o mayor. Estas no pueden ser
inferidas de la distribución empírica con un conjunto de n=30 observaciones.
Distribuciones de probabilidad teóricas: Wilks Cap 4 14/19
------------------------------------------------------------
La mayor parte de las distribuciones examinadas tienden a no representar bien datos
extremos. Para este efecto la distribución de Gumbel es la más conocida y su pdf es
1 (x ) (x )
f ( x) exp exp (4.42)
Donde y b son los parámetros de ubicación y escala, respectivamente. Esta pdf es
positivamente asimétrica, y tiene un máximo en x = . Ella es integrable analíticamente de
manera que su cdf es
x
F ( x) exp exp (4.43)
La manera más simple de estimar los parámetros de la distribución de Gumbel es por el
método de los momentos. Para ello se usan el valor medio y la desviación standard de la
muestra. Los estimadores son
s 6
ˆ y ˆ x ˆ (4.44)
Donde = 0.57721… es la constante de Euler.
f ( x, y)dydx 1,
x y
f ( x , y ) 0. (4.46)
La figura ilustra la forma general de la distribución normal bivariada. Tiene la forma de una
protuberancia en 3 dimensiones, con propiedades que dependen de los 5 parámetros. La
función presenta un máximo sobre el punto (X,Y). Un incremento en X alarga la pdf en la
dirección X e incrementos de Y la alargan en la dirección Y. Para desviaciones standard
iguales y = 0 la pdf es axialmente simétrica alrededor del punto (X,Y), y sus curvas de
nivel son círculos concéntricos. A medida que aumenta en valor absoluto la pdf se alarga
diagonalmente, con las curvas de nivel de forma elíptica y excentricidad creciente. Para
negativo el eje mayor de las elipses se extiende entre los cuadrantes II y IV y para lo
hacen entre los cuadrantesy
1 z X 2 2 z X zY zY 2
f ( z X , zY ) exp (4.48)
2 1 2 2(1 2 )
Una propiedad muy útil de la distribución normal bivariada es que la distribución
condicional de una de las variables, dado un valor particular de la otra, es gaussiana. Esto
se ilustra por las líneas que forman la trama de la figura anterior. Cada una de ellas describe
una función proporcional a la distribución condicional de X dado un valor particular para Y,
y viceversa. Los parámetros de estas distribuciones condicionales gaussianas pueden
calcularse de los 5 parámetros de la distribución normal bivariada. Para la distribución de X
dado un valor para Y, la pdf condicional gaussiana f(x/Y=y) tiene parámetros
y Y
X / Y X X y X /Y X 1 2 (4.49)
Y
La primera relaciona la media de X con la anomalía standarizada de Y. Indicando que la
media condicionada X/Y es mayor que la media no condicionada X si Y es mayor que su
media y es positivo, o si Y es menor que su media y es negativo. Si X e Y están
descorrelacionados, el conocimiento de Y no agrega información acerca de X, y X/Y = X
pues La segunda ecuación indica que, a menos que las dos variables estén
descorrelacionadas, X/Y < X, sin importar el signo de Aquí el conocimiento de Y, provee
alguna información sobrfe X, y la disminuída incertidumbre acerca de X se refleja en una
menor desviación standard.
La función de verosimilitud para una única observación, x, aparece idéntica a la fdp, pero la
diferencia está que la fdp es una función de los datos para valores fijos de los parámetros,
en tanto que la función de verosimilitud es una función de los parámetros desconocidos
para valores fijos de los datos ya observados. La función de verosimilitud para el caso de n
datos independientes es simplemente el producto de n funciones de verosimilitud. Por
ejemplo, la función de verosimilitud para los parámetros gaussianos y , dadas n
observaciones, xi, i=1,2,…,n, es
n
(x )2
V ( , ) n ( 2 ) n exp i 2 (4.54)
i 1 2
En el fondo, la verosimilitud puede ser cualquier función proporcional a la ec. (4.54), de
manera que el factor con la raíz de 2 puede ser omitido. En términos geométricos, la ec.
(4.54) describe una superficie sobre el plano que tiene un valor máximo sobre un par
específico de valores de los parámetros, dependiente de los valores de las observaciones xi.
Los MLE’s para la distribución gaussiana son algo raros, en cuanto que ellos pueden ser
obtenidos analíticamente. Más frecuente es que los estimadores MLE deban ser calculados
iterativamente. Lo más común es imaginar la maximización de L como la determinación no
lineal de una raíz mediante una generalización multidimensional del método de Newton-
Raphson. Ello se basa en en un desarrollo de Taylor para la derivada de L:
L' ( *) L' ( ) ( * ) L"( ) (4.58)
Donde representa un vector genérico de parámetros de distribución y * son los valores
verdaderos a aproximar. Puesto que se trata de determinar las raíces de la derivada L’(*) se
requiere evaluar la segunda derivada de L, L”(). Igualando (4.58) a cero (para producir un
máximo de L) y despejando * se obtiene el algoritmo iterativo:
L'( )
* (4.59)
L"( )
Comenzando con un valor tentativo , se evalúa un conjunto de estimaciones, *, que a su
vez se reemplazan en el segundo miembro para la iteración siguiente.
Continuará …