You are on page 1of 19

Distribuciones de probabilidad teóricas: Wilks Cap 4 1/19

------------------------------------------------------------
Cap 4: Distribuciones de probabilidad teóricas

Por qué usar distribuciones de probabilidad teóricas?


-Para compactar la información: unos pocos parámetros por muchos datos.
-Para suavizar e interpolar valores que son ruidosos por defectos del muestreo
-Para extrapolar valores extremos
Pero los datos son imprescindibles para:
-elegir la distribución con la forma apropiada
-ajustar los parámetros de la distribución
-verificar que la distribución ajusta los datos

Qué es una distribución? Es una forma matemática abstracta cutya naturaleza depende de
algunos parámetros.

Parámetros vs estadísticos:

Hay distribuciones discretas y continuas:

Distribuciones discretas:

Ensayo de Bernouilli: es un ensayo con sólo dos resultados posibles (éxito o fracaso) que
agotan el espacio de muestreo (exhaustivos) y sin posibilidad de que ambos ocurran
simultáneamente (excluyentes). Sea p la probabilidad de éxito y q = 1-p la probabilidad de
fracaso. La distribución binomial entrega la probabilidad de x éxitos en n ensayos o
intentos, en los cuales la probabilidad de éxito p es constante en cada ensayo y éstos son
mutuamente independientes.

Distribución Binomial:

Esta distribución se aplica a situaciones en que en un número de intentos sólo pueden


ocurrir dos sucesos MECE, (mutualmente excluyentes y colectivamente exhaustivos).
Típicamente a estos sucesos se le denomina “éxito” y “fracaso”, asignándoles los números
1 y 0 respectivamente.

La v.a. de interés, X, es el número de veces que ocurre un éxito en un cierto número de


intento, N. N puede ser cualquier entero positivo y la v.a. X puede tomar el valor de
cualquier entero desde 0 a N. Para calcular las probabilidades de que ocurra cualquiera de
estos N+1 valores de X se deben cumplir dos condiciones: (1) la probabilidad de ocurrencia
del éxito no debe cambiar de intento a intento y (2) el resultado de cada uno de los N
intentos deben ser mutuamente independientes. Estas condiciones se cumplen rara vez de
manera estricta, pero existen situaciones reales suficientemente próximas a este ideal para
hacer útil la aplicación de la distribución binomial.

Una implicancia de la primera condición es que la ocurrencia de ciclos regulares (anual y


diario) debe ser tratada con cuidado separando los datos a analizar en períodos más breves
(meses o horas) dentro de los cuales la probabilidad de ocurrencia sea poco cambiante. La
segunda condición es más difícil de satisfacer por la persistencia de los fenómenos
Distribuciones de probabilidad teóricas: Wilks Cap 4 2/19
------------------------------------------------------------
meteorológicos en cuyo caso deben ser considerados como series de tiempo o extender los
períodos cubiertos por loas datos individuales hasta hacerlos efectivamente independientes,
por ejemplo precipitaciones anuales.

La distribución binomial de probabilidades para los N+1 valores de X están dados por:
N
Pr{ X  x}    p x (1  p ) N  x x  0,1,2,..., N (4.1)
x
Esta distribución tiene dos parámetros, N y p. El parámetro p es la probabilidad de
ocurrencia de un éxito en cada uno de los N intentos independientes. Es evidente que los
N+1 probabilidades de (4.1) cumplen con sumar uno, su suma es el desarrollo del binomio
de Newton (a+b)N para el caso en que a=p, b=1-p que suman a+b=1 y 1N=1.

Ejemplo: Caso de congelamiento del Lago Cayuga. I y II. Este lago se ha congelado en 10
años durante un intervalo de 200 años, luego p = 10/200 = 0.05.

En la dist. Binomial el parámetro N es especial pues depende de la pregunta que se intenta


responder. Por ejemplo si se desea saber cual es la probabilidad de que el lago se congele el
próximo año o cualquier año en particular N=1, pero para estimar la probabilidad de que se
congele al menos una vez en alguna década futura N=10.

Notar que la Dist. Binomial puede aplicarse a situaciones que no son intrínsicamente
binarias mediante una redefinición de los sucesos: ocurrencia o no ocurrencia de un valor
específico de la variable (temp>0°C o temp <=0°C). Hecho vinculado con la ocurrencia de
heladas.

Distribución Geométrica:
La dist. Geométrica está relacionada con la binomial, pero describe un aspecto distinto de la
misma situación conceptual. Ambas tratan con experimentos dicotómicos e independientes,
pero que en este segundo caso deben ocurrir en secuencia. La dist. Geométrica describe las
probabilidades del número de intentos que se requieren para observar el próximo éxito.
Entonces, la v.a. X es tal número de intentos y su probabilidad está dada por
Pr{ X  x}  p(1  p) x 1 x  1,2,... (4.5)
A menudo esta distribución se aplica intentos que ocurren consecutivamente, por lo que se
la suele denominar la distribución de las esperas. Por ejemplo, para describir la duración de
regímenes o estados del tiempo (spells). Entre ellos, secuencias de sequías a la espera de la
lluvia, o secuencias de períodos lluviosos a la espera de uno seco.

Distribución binomial negativa:

Muy ligada a la distribución geométrica está la distribución binomial negativa que se


define para valores enteros no negativos de la v.a. x:
(k  x) k
Pr{ X  x}  p (1  p) x x  0,1,2,...
x!(k )
La distribución tiene dos parámetros , p, 0<p<1, y k, k>0. Para valores enteros de k, la
distribución binomial negativa se llama distribución de Pascal y se interpreta como una
extensión de la distribución geométrica asociada a tiempos de espera para del primer éxito
Distribuciones de probabilidad teóricas: Wilks Cap 4 3/19
------------------------------------------------------------
en una secuencia de ensayos de Bernouilli independientes con probabilidad p. En el caso
binomial negativo la v.a. X corresponde al número de fracasos que anteceden al éxito k-
ésimo, de manera que x+k es el tiempo de espera requerido para observar el k-ésimo éxito.

La función gama o función factorial se define mediante la integral definida



(k )   t k 1e t dt y cumple con la relación de recurrenci a (k  1)  k(k )
0

la cual en el caso especial de k entero con (k+1)=k! permite visualizar la coincidencia


entre las distribuciones geométrica y binomial negativa para k=1, con la salvedad de la
última incluye el intento adicional correspondiente al último éxito.

Ejemplo 4.3: Aplicación al Lago Cayuga.para k=1,2,3 congelamientos en un siglo.

Distribución de Poisson:

La distribución de Poisson describe el número de sucesos discretos que ocurren en serie, o


en una secuencia, y que muestran una independencia de tipo muy particular. Ellos son
independientes en cuanto que su ocurrencia en un intervalo de tiempo (de distancia o área)
depende sólo del largo del intervalo sobre el cual son contados, pero no depende de donde
se ubica el intervalo ni de las ocurrencias en otros intervalos no sobrepuestos. Así los
sucesos ocurren aleatoriamente, pero a una tasa temporal media constante. Este tipo de
independencia resulta difícil de probar en datos atmosféricos, pero resulta útil en casos en
que el grado de dependencia no sea muy fuerte. Los sucesos de tipo Poisson deben ser
suficientemente raros para que la probabilidad de ocurrencia de más de uno sea muy
pequeña. Otra forma de motivar la ocurrencia de tipo Poisson es como el caso límite de la
distribución binomial, con p tendiendo a cero y N tendiendo a infinito.

La distribución de Poisson tiene sólo un parámetro, , que especifica la tasa promedio de


ocurrencia, suele denominarse la intensidad del fenómeno y sus dimensiones son
ocurrencias en la unidad de tiempo. La distribución de Poisson es
 xe
Pr{ X  x}  x  0,1,2... (4.6)
x!
Para ajustar la distribución de Poisson a la muestra de datos lo más simple es usar el
método de los momentos, es decir se igualan los momentos de la muestra con los momentos
de la distribución o población. Recordando que el primer momento es el promedio de la
muestra, resulta muy fácil el ajuste en el caso de la distribución de Poisson. Simplemente el
promedio  es igual al número de ocurrencias de la v.a. en la unidad de tiempo.

Ejemplo: Numero de tornados anuales en el estado de Nueva York (1959-1988).


Distribuciones de probabilidad teóricas: Wilks Cap 4 4/19
------------------------------------------------------------
Histograma: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
0, 3, 2, 6, 3, 5, 5, 3, 2, 1, 0, 0, 0
 = 138 tornados en 30 años = 4.6 tornados/año

X #Obs Poisson Frec


0 0 0.0101 0.0000
1 3 0.0462 0.1000
2 2 0.1063 0.0667
3 6 0.1631 0.2000
4 3 0.1875 0.1000
5 5 0.1725 0.1667
6 5 0.1323 0.1667
7 3 0.0869 0.1000
8 2 0.0500 0.0667
9 1 0.0255 0.0333
10 0 0.0118 0.0000
11 0 0.0049 0.0000
12 0 0.0019 0.0000

Esperanza estadística

El valor esperado de una v.a. o de una función de una v.a. es simplemente el promedio
ponderado por la probabilidad respectiva de esa v.a. o de su función.

Valor esperado de una v.a.: Es más fácil comprender los promedios ponderados por
probabilidades en el caso de distribuciones discretas como la binomial. Convencionalmente
el operador esperanza se denota por E[ ]:
E[ X ]   x Pr{ X  x} (4.7)
x

La sumatoria toma sobre todos los valores permitidos de X. Por ejemplo, la esperanza de X
cuando X tiene un distribución binomial es
N
N
E[ X ]   x  p x (1  p) N  x (4.8)
0 x

Los valores permitidos de X son los enteros no negativos hasta e incluyendo N. La


esperanza E[X] tiene un significado especial, es la media de la distribución de X. Las
medias de las distribuciones (o poblaciones) se denotan comúnmente por . Es posible
simplificar (4.8) para obtener E[X] = Np, así la media de cualquier distribución binomial es
 = Np. Un resultado análogo para la distribución Geométrica es  = 1/p, y para la
distribución de Poisson es E[X] = .

Valor esperado de una función de una v.a.:

La esperanza de una función g(x) de una v.a., es E[g(x)] y cumple con


Distribuciones de probabilidad teóricas: Wilks Cap 4 5/19
------------------------------------------------------------
J  J
E[c]  c E  g j ( x)   E[ g j ( x)]
E[cg1 ( x)]  cE[ g1 ( x)] (4.9)
 j 1  j 1
Sea la función g(x)=(x – )2. El valor esperado de esta función se denomina varianza y su
valor esperado es
Var [ X ]  E[( X   ) 2 ]   ( x   ) 2 Pr{ X  x}
x

  ( x 2  2 x   2 ) Pr{ X  x}
x

  x 2 Pr{ X  x}  2  x Pr{ X  x}   2  Pr{ X  x}


x x x

 E[ X 2 ]  2 E[ X ]   2 * 1
 E[ X 2 ]   2 (4.10)

Para la distribución binomial Var[X]= Np(1-p). Para la distribución geométrica Var[X] =


(1-p)/p2. Para la distribución de Poisson Var[X] = .

Distribuciones continuas

La mayoría de las variables atmosféricas pueden tomar un continuo de valores:


temperatura, precipitación, geopotencial, velocidad del viento, y otras cantidades no están
restringidas a valores enteros. Aunque La naturaleza de las mediciones y sistemas de
información es tal que sus valores se redondean a valores discretos, el conjunto de valores
usados es suficientemente grande para que la mayoría de las variables puedan considerase
como continuas.

Funciones de distribución y valores esperados

Las matemáticas de probabilidades para variables continuas son algo diferentes aunque
análogas a las de variables discretas. Así como los cálculos de probabilidades para
variables discretas involucran sumatorias sobre funciones de probabilidad discontinuas, los
cálculos de probabilidades par v.a. continuas contienen integraciones de funciones
continuas llamadas funciones de densidad de probabilidad, o pdf’s.

Convencionalmente, la pdf de una v.a. X se denota por f(x). Así como la sumatoria de una
función discreta de probabilidad sobre todos los valores posibles de la v.a. deben sumar 1,
la integral de cualquier pdf sobre los valores permitidos de x debe ser igual a 1:
 f ( x)dx  1
x
(4.11)

Una función no puede ser pdf a menos que satisfaga esta relación. Adicionalmente, f(x) de
ser no negativa para todo valor de x. No se han indicado límites en la integral porque
dependen de cada distribución. Las pdf son el análogo continuo y teórico de los
histogramas de datos. Sin embargo, el significado de la pdf resulta confuso al comienzo por
esta analogía. En particular, la altura de la función f(x) evaluada para un valor particular de
la v.a., carece de un significado probabilístico. La confusión se produce porque rara vez se
tiene presente que la probabilidad es proporcional al área y no a la altura, tanto en la pdf
como en el histograma.
f(1)
f(x) Pr 0.5  x  1.5 
1.5

 f ( x)dx
0.5

Distribuciones de probabilidad teóricas: Wilks Cap 4 6/19


------------------------------------------------------------

La figura muestra una pdf hipotética, definida sobre valores de una v.a. X. En tanto la pdf
puede ser evaluada para valores específicos de la v.a., digamos X = 1, por si mismo f(1) no
es interpretable en términos de probabilidades de X.

f(x)
1.5

f(1)
Pr{0.5  x  1.5}   f ( x)dx
0.5

 f ( x)dx  1
0

0 1 x

De hecho, puesto que X varía continuamente sobre algún segmento de los números reales,
la probabilidad de X=1 exactamente es infinitamente pequeña. Sí tiene sentido evaluar
probabilidad para valores de una v.a. en vecindades no infinitesimales en torno a X=1. La
figura muestra la probabilidad de X entre 0.5 y 1.5 como la integral de la pdf entre estos
límites.

Una idea vinculada con la pdf es la función de distribución acumulada (cdf). La cdf es una
función de la v.a. X, dada por la integral de la pdf hasta un valor determinado de x. Así la
cdf especifica la probabilidad de que la v.a. no exceda valores particulares. Es por tanto la
contraparte continua y teórica de la cdf empírica. Convencionalmente la cdf se denota por
F(x):
F ( x)  Pr{X  x}   f ( x)dx
X x
(4.12)

Puesto que los valores de F(x) son probabilidades, 0  F(x) 1.

La ec. (4.12) transforma un valor particular de la v.a. en una probabilidad acumulada. El


valor de la v.a. que corresponde a una prob. Acumulada está dado por función inversa de la
CDF: F-1(p) = x(F) donde p es la probabilidad acumulada. Esta relación especifica el
límite superior de la integración en (4.12) que proporciona la prob. ac. particular p = F((x).
Que entrega el cuantil correspondiente a una probabilidad dada específica.

También se definen esperanzas para v.a. continuas. El valor esperado de una v.a. o bein de
una función de la v.a. como el promedio ponderado correspondiente:
E[ g ( x)]   g ( x) f ( x)dx (4.14)
x
Distribuciones de probabilidad teóricas: Wilks Cap 4 7/19
------------------------------------------------------------
estas esperanzas gozan de las mismas propiedades descritas en (4.9). . Para g(x) = x.
E[X]=m es la media de la distribución cuya densidad de prob. es f(x). Análogamente, la
varianza de una v.a. continua está dada por la esperanza de la función g(x) = (x – E[X])2,

Var [ X ]  E[( x  E[ X ]) 2 ]   ( x  E[ X ]) 2 f ( x )dx  x


2
f ( x )dx  ( E[ X ]) 2  E[ X 2 ]   2 ( 4.15)
x x

Dependiendo de la forma de f(x) algunas de lasa ecs. (4.12), (4.14) y (4.15) pueden no ser
integrables analíticamente y para algunas distribuciones puede ser inexistentes.

Distribución Gaussiana (Normal)

La gran aplicación de la distribución gaussiana deriva de un resultado teórico muy


poderoso, conocido como el teorema del valor central. Informalmente este teorema
establece que en el límite, a medida que la muestra crece, la suma (o equivalentemente, la
media aritmética de un conjunto de observaciones independientes tiene una distribución
gaussiana. Esto es válido sin importar de que distribución derivan los datos. Ni siquiera
tiene que provenir de la misma distribución. En la práctica la independencia de las
observaciones tampoco es necesaria, lo cual implica que el teorema del valor central es
directamente aplicable a los datos atmosféricos.

Lo que no está claro para un conjunto de datos particular es cuan grande debe ser la
muestra para que el teorema del límite central sea aplicable. En la práctica este tamaño de
la muestra depende de la distribución desde la cual los sumando se extraigan. Si las
observaciones a ser sumadas provienen de una distribución gaussiana, la suma de cualquier
número de ellas también será gaussiana. Para distribuciones de origen no muy distintas de
la gaussiana (unimodales y no muy asimétricas) La suma de un modesto número de
observaciones también será aproximadamente gaussiana.

La pdf de la distribución gaussiana es:


1  (x  )2 
f ( x)  exp  2 
(4.17)
 2  2 
Los dos parámetros de la distribución son la media, , y la desviación standard, . El
gráfico de e4sta distribución tiene la forma de una campana como se muestra en la figura.
Ella muestra que la media determina el centro de esta distribución simétrica, y que la
desviación standard controla el grado en que la distribución se ensancha, prácticamente
toda la a distribución queda dentro de 3 de la media.

Para que esta distribución represente un conjunto de datos se debe ajustar los dos
parámetros a los datos. Buenas estimaciones de los parámetros se obtienen por el método
de los momentos: estimando la media por el promedio de los datos y la desviación standard
por s.

Probabilidades de sucesos de interés se obtienen integrando (4.17). Sin embargo, su


integración analítica es imposible, de manera que no existe una fórmula para la cdf F(x)
gaussiana.
Distribuciones de probabilidad teóricas: Wilks Cap 4 8/19
------------------------------------------------------------

En reemplazo se puede recurrir a evaluaciones numéricas computacionales o a tablas. En


ambos casos se precisa un cambio de variable, pues tanto los algoritmos numéricos como
las tablas operan con la distribución gaussiana standard que tiene media  = 0 y  = 1. Por
convención, la v.a. descrita por la distribución gaussiana standard se designa por Z, y su pdf
se simplifica a
1  z2 
f ( z)  exp   (4.18)
2  2 
Cualquier v.a. gaussiana puede transformarse a forma standard por
X  xx
Z o en la práctica por z (4.20)
 s

Ejemplos: Presentaciones climatológicas.

Distribución Gama

Muchas variables atmosféricas son claramente asimétricas, lo cual es frecuentemente el


resultado de límites físicos en el intervalo de los datos. Ejemplos comunes son sumas de
precipitaciones y velocidad del viento, que están restringidas a valores no negativos.
Aunque es posible ajustar distribuciones gaussianas no resultan muy útiles y adolecen de
errores como proporcionar probabilidades no nulas para valores negativos de la v.a.

Existe una variedad de distribuciones acotadas a la izquierda por cero y con asimetría
positiva. Una elección frecuente, especialmente cuando se trata de representar datos de
precipitación es la distribución gama, cuya fdp se define por
( x /  ) 1 exp( x /  )
f ( x)  x,  ,   0 (4.23)
( )
Distribuciones de probabilidad teóricas: Wilks Cap 4 9/19
------------------------------------------------------------
Los dos parámetros de la distribución son , el parámetro de forma, y  el parámetro de
escala. Como antes

( )   t  1 e t dt y cumple con la relación de recurrenci a (  1)  ( )
0

que sirve para su evaluación en base a una pequeña tabla inicial que contenga argumentos
en el intervalo [1,2).

La distribución gama toma una variedad de formas dependiendo del valor de a. Como se
ilustra en la figura. Para <1 la distribución es muy asimétrica con f(x) tendiendo a infinito
a medida que x tiende a cero.







Para  = 1 la función intersecta el eje de ordenadas en 1/ para x = 0, en este caso especial
la distribución gama se denomina distribución exponencial. Para >1 la distribución gama
parte desde el origen, f(0) = 0. Para crecientes disminuye la asimetría y la pdf se desplaza
hacia la derecha. Para  mucho mayor la distribución se asemeja a la gaussiana. El
parámetro  carece de dimensión.

El parámetro de escala que tiene las dimensiones de x estira o encoge la pdf a su
derecha o izquierda dependiendo de la magnitud de x. A medida que la pdf se desplaza a la
derecha su máximo disminuye para conservar el valor integral unitario. Este ajuste lo
proporciona el  del denominador.
Distribuciones de probabilidad teóricas: Wilks Cap 4 10/19
------------------------------------------------------------
La versatilidad de la pdf gama la hace muy atractiva para el caso de la precipitación y se
suele recurrir a ella para tal efecto. Sin embargo, la distribución gama ofrece problemas al
ajuste por momentos debido a que sus parámetros no corresponden a momentos de ella,
como es el caso de la gaussiana. La media de la pdf gamma es  y la varianza es 2 .
Igualando sus expresiones con el promedio y el estimador de la varianza s2 se obtienen los
estimadores
x2 s2
ˆ  2 y ˆ  (4.26)
s x
Estos estimadores basados en los momentos no son tan malos para valores de >10, pero
dan pobres resultados para  pequeños, en cuanto que sus valores cambian erráticamente de
una a otra muestra de datos. Es mucho mejor usar el método de máxima verosimilitud.

El método de máxima verosimilitud suele requerir de procedimientos iterativos que


requieren el recurso computacional como se explicará más adelante. Pero existen un par de
aproximaciones suficientemente simples para el cálculo manual. Ambas usan el estadístico
D:
1N
D  ln( x )   ln( xi ) (4.27)
n i1
Nótese que la media y la desviación standard no son suficientes para calcular D, pues el
segundo término requiere de cada dato de la muestra. El estimador de Thom (1958) para el
parámetro de forma es
1  1  4D / 3 x
ˆ  ˆ 
luego el parámetro de escala se calcula de(4.29)
4D ˆ
Al igual que con la distribución gaussiana la pdf gama no es integrable analíticamente, y
debe recurrirse a aproximaciones computacionales de la cdf o tablas. En cualquiera de los
dos casos la distribución de probabilidades gama se obtiene para su forma standard, con  =
1. Esto es, para la variable xque es adimensional. El parámetro de forma  será el
mismo para X y 

Las probabilidades acumuladas para la distribución gama en la Tabla B.2 Están dispuestas
en sentido inverso a la Tabla B.1 para la distribución gaussiana. Esto es, cuantiles de la
distribución están en el cuerpo de la tabla, y probabilidades acumuladas están listadas en las
cabezas de las columnas. Probabilidades se obtienen para distintos parámetros de forma ,
que aparecen en la primera columna.

Ejemplo: Distribución gama para precipitaciones en Ithaca durante 50 años (1933-1982).

Distribución de Weibull

Existen varias distribuciones que al igual que la gama son positivamente asimétricas. Una
de ellas, muy usada en las ciencias atmosféricas, es la de Weibull que suele usarse para
velocidades del viento. Su pdf es
   x 
 1
 x 

f ( x)     exp     x,  ,   0 (4.32)
         
Distribuciones de probabilidad teóricas: Wilks Cap 4 11/19
------------------------------------------------------------
Al igual que en el caso de la distribución gama los dos parámetros  y  se denominan
parámetros de forma y escala, respectivamente. La forma de la distribución de Weibull es
controlada de la misma forma por los dos parámetros. Así para <=1 toma la forma de J
invertida con fuerte asimetría positiva. Para  = 1 las distribuciones de Weibull y gama son
idénticas y se reduce a la distribución exponencial. Para =3.6 la distribución de Weibull es
muy parecida a la gaussiana. Igualmente el parámetro de escala estira o comprime la forma
a lo largo del eje x, para un  dado.

 




Una ventaja de la distribución de Weibull es la integrabilidad analítica de su pdf, que


resulta en
  x  
F ( x)  Pr{ X  x}  1  exp    (4.33)
    
Por lo cual no requiere uso de tablas. El ajuste de esta distribución requiere de métodos
iterativos u otro tipo de aproximaciones. Esto es válido aún para el ajuste mediante los
momentos ya que su media está dada por  y su varianza es 
–  Puesto que no existen formas cerradas para los estimadores de los
momentos, el método preferido es el ajuste de máxima verosimilitud.

Distribución Lognormal

La distribución lognormal es otra distribución con asimetría positiva y no negativa.


Comunmente se usa para representar variaciones en propiedades de la nubosidad y también
es usada en hidrología. Fundamentalmente, la aplicación de la distribución lognormal se
reduce a una transformación logarítmica de los datos, con la suposición de que los datos
transformados siguen una distribución gaussiana. Esto es, si la variable transformada Y =
ln(X) sigue la distribución gaussiana, entonces la pdf lognormal para x es
1  (ln x   ) 2 
f ( x)  exp  (4.34)
x 2  2 2 
Distribuciones de probabilidad teóricas: Wilks Cap 4 12/19
------------------------------------------------------------
Donde  y son la media y la desviación standard, respectivamente, de la variable
transformada, Y.

El ajuste de parámetros para la lognormal es simple: la media y la desviación standard para


los valores transformados y, es decir, Y y Y, respectivamente son estimados de su
contraparte muestreada. Las relaciones entre estos parámetros de la ec. (4.34) y la media y
varianza de la variable original son
  
   
2

 X  exp Y  Y   X  exp[ Y ]  1 exp 2 Y   Y


2 2 2
y (4.35)
 2 
Las probabilidades lognormales se evalúan simplemente trabajando con la variable
transformada y = ln(x), y usando subrutinas computacionales o tablas de probabilidad para
la distribución gaussiana. En este caso la variable gaussiana
ln( X )  Y
Z (4.36)
Y
Sigue una distribución gaussiana con Z = 0 y Z = 1.

Distribución Beta

Algunas variables de interés se restringen a segmento del eje real con límites en ambos
extremos. A menudo están restringidas al intervalo [0,1]. Ejemplos de ellas son la cobertura
nubosa (observada como fracción del cielo) y humedad relativa. Una variable de este tipo
más abstracta pero importante, es la probabilidad, donde una distribución paramétrica
puede ser útil resumiendo la frecuencia de uso de, por ejemplo, pronósticos de de
probabilidades de precipitación. La distribución Beta es una elección común. Su pdf es:
( p  q) p 1
f ( x)  x (1  x) q 1 0  x  1, p, q  0 (4.37)
 ( p ) ( q )
Esta es un función muy flexible que adopta diferentes formas dependiendo de los valores de
sus dos parámetros, p y q. La figura siguiente ilustra cinco de ellas. En general, para p<=1
las probabilidades se concentran cerca de 0, y para q<=1 se concentran cerca de 1. Si
ambos parámetro son menor que 1 la distribución adopta forma de U. Para p>1 y q>1 la
distribución tiene un máximo entre 0 y 1, con mayores probabilidades a la derecha si p>q,
y mayores probabilidades desplazadas a la izquierda para q>p. Distribuciones Beta con p=q
son simétricas. En la figura los parámetros p y q están rotulados como y ,
respectivamente.

Los parámetros de la distribución se justan comúnmente por el método de los momentos,


aunque existen métodos de máxima verosimilitud. Usando las expresiones de los dos
primeros momentos de la distribución,
p pq
 2 
pq ( p  q) ( p  q  1)
2
Distribuciones de probabilidad teóricas: Wilks Cap 4 13/19
------------------------------------------------------------

Los estimadores resultantes son fácilmente obtenidos:


x 2 (1  x ) pˆ (1  x )
pˆ  2
 x qˆ  (4.39)
s x
El uso de la distribución beta no se limita a variables definidas en el intervalo [0,1]. Una
variable –digamos, Y- restringida al intervalo [a,b] puede ser representada por una
distribución beta luego de someterla a la transformación X = (Y-a)/(b-a). En tal caso el
ajuste de parámetros se realiza usando
2
ya 2 s
x y sX  Y 2
ba (b  a)
que son luego sustituídas en (4.39).

La integral de la pdf beta no existe en forma cerrada excepto para algunos casos especiales.
Las probabilidades se pueden obtener por métodos numéricos donde la cdf de la
distribución beta se conoce como la función beta incompleta, Ix(p,q)= Pr{0<=X<=x}= F(x).

Distribución de Gumbel

Las distribuciones estadísticas para sucesos atmosféricos extremos son muy relevantes en el
diseño en ingeniería, y otras estimaciones de riesgos. El calificativo de evento extremo
indica los valores máximos o mínimos de una variable atmosférica entre un número dado
de observaciones como la temperatura máxima más cálida observada en un lugar durante el
mes de Enero, o la suma de precipitación registrada en un año particular. Esta distribución
podría ser usada para estimar probabilidades de que el día más cálido del próximo verano
sea mayor que umbrales especificados, o para las temperaturas más cálidas de un día de
Enero correspondientes a una probabilidad acumulada de 0.99 o mayor. Estas no pueden ser
inferidas de la distribución empírica con un conjunto de n=30 observaciones.
Distribuciones de probabilidad teóricas: Wilks Cap 4 14/19
------------------------------------------------------------
La mayor parte de las distribuciones examinadas tienden a no representar bien datos
extremos. Para este efecto la distribución de Gumbel es la más conocida y su pdf es
1   (x   )  (x   ) 
f ( x)  exp exp   (4.42)
      
Donde  y b son los parámetros de ubicación y escala, respectivamente. Esta pdf es
positivamente asimétrica, y tiene un máximo en x = . Ella es integrable analíticamente de
manera que su cdf es
  x   
F ( x)  exp exp   (4.43)
   
La manera más simple de estimar los parámetros de la distribución de Gumbel es por el
método de los momentos. Para ello se usan el valor medio y la desviación standard de la
muestra. Los estimadores son
s 6
ˆ  y ˆ  x  ˆ (4.44)

Donde  = 0.57721… es la constante de Euler.

Distribuciones de probabilidad multivariadas

Hasta ahora se han considerado sólo distribuciones de probabilidad univariadas, es decir,


funciones que describen la variación de una única cantidad. También es posible representar
distribuciones conjuntas de dos o más variables usando distribuciones de probabilidad
paramétricas. Aunque existen distribuciones multivariadas discretas, usualmente se usan
distribuciones teóricas multivariadas continuas.

Distribución normal bivariada

La distribución multivariada continua más usada es la generalización de la distribución


gaussiana a la distribución conjunta de dos variables, conocida como la distribución normal
bivariada. Esta distribución describe el comportamiento conjunto de dos variable
gaussianas, X e Y. A veces es posible usar esta distribución para describir el
comportamiento de dos variables no gaussianas si previamente son sometidas a
transformaciones que generen simetría en la distribución. De hecho, la oportunidad de usar
la normal bivariada es la principal motivación para el uso de transformaciones vistas en el
capítulo anterior.

La distribución normal bivariada se define por la pdf


1  1  x   2
  y  Y 
2
 x  X  y   Y 
f ( x, y )  exp  X
     2     
2 X  Y 1  2
 2(1   ) 
2
 X   Y   X   Y   C
(4.45)
omo una generalización de la ecuación (4.17) de una a dos dimensiones , esta función
define una superficie sobre el plano X-Y en lugar de una curva sobre el eje X. En las
distribuciones bivariadas la probabilidad corresponde geométricamente al volumen bajo
esta superficie, de modo que en analogía con la ec. (4.11), una condición que debe cumplir
una pdf bivariada es
Distribuciones de probabilidad teóricas: Wilks Cap 4 15/19
------------------------------------------------------------

 f ( x, y)dydx  1,
x y
f ( x , y )  0. (4.46)

La distribución normal bivariada tiene 5 parámetros: las dos medias y desviaciones


standard para las variables X e Y, y la correlación entre ellas, Las dos distribuciones
marginales de las variables X eY [es decir, las pdf univariadas f(x) y f(y)] deben ser
distribuciones gaussianas. Estas dos distribuciones marginales tienen parámetros X, X , y
Y, Y , respectivamente. El ajuste de la distribución normal bivariada es muy sencillo.
Estos cuatro parámetros son estimados usando sus contrapartes muestreadas para las
variable X e Y separadamente, y el parámetro r se estima a través de la correlación de
Pearson entre X e Y, ec. (3.17).

La figura ilustra la forma general de la distribución normal bivariada. Tiene la forma de una
protuberancia en 3 dimensiones, con propiedades que dependen de los 5 parámetros. La
función presenta un máximo sobre el punto (X,Y). Un incremento en X alarga la pdf en la
dirección X e incrementos de Y la alargan en la dirección Y. Para desviaciones standard
iguales y  = 0 la pdf es axialmente simétrica alrededor del punto (X,Y), y sus curvas de
nivel son círculos concéntricos. A medida que  aumenta en valor absoluto la pdf se alarga
diagonalmente, con las curvas de nivel de forma elíptica y excentricidad creciente. Para 
negativo el eje mayor de las elipses se extiende entre los cuadrantes II y IV y para lo
hacen entre los cuadrantesy

Las probabilidades para sucesos conjuntos de X e Y están dados por


x2 y2
Pr{ y1  Y  y 2)  ( x1  X  x 2)}    f ( x, y)dydx
x1 y1
(4.47)

Esta integral no se puede hacer analíticamente y en la práctica se debe recurrir a métodos


numéricos. Aunque existen tablas, ellas resultan muy complejas y suele ser conveniente
usar la forma standarizada de la pdf con las medias nulas y las desviaciones standard
unitarias, con la pdf
Distribuciones de probabilidad teóricas: Wilks Cap 4 16/19
------------------------------------------------------------

1  z X 2  2  z X zY  zY 2 
f ( z X , zY )  exp   (4.48)
2 1   2  2(1   2 ) 
Una propiedad muy útil de la distribución normal bivariada es que la distribución
condicional de una de las variables, dado un valor particular de la otra, es gaussiana. Esto
se ilustra por las líneas que forman la trama de la figura anterior. Cada una de ellas describe
una función proporcional a la distribución condicional de X dado un valor particular para Y,
y viceversa. Los parámetros de estas distribuciones condicionales gaussianas pueden
calcularse de los 5 parámetros de la distribución normal bivariada. Para la distribución de X
dado un valor para Y, la pdf condicional gaussiana f(x/Y=y) tiene parámetros
y  Y
 X / Y   X   X y  X /Y   X 1  2 (4.49)
Y
La primera relaciona la media de X con la anomalía standarizada de Y. Indicando que la
media condicionada X/Y es mayor que la media no condicionada X si Y es mayor que su
media y  es positivo, o si Y es menor que su media y es negativo. Si X e Y están
descorrelacionados, el conocimiento de Y no agrega información acerca de X, y X/Y = X
pues La segunda ecuación indica que, a menos que las dos variables estén
descorrelacionadas, X/Y < X, sin importar el signo de Aquí el conocimiento de Y, provee
alguna información sobrfe X, y la disminuída incertidumbre acerca de X se refleja en una
menor desviación standard.

Ejercicio: Tx en Canandaigua sabiendo que en Ithaca es de 25°F:

Distribución Normal multivariada 

La distribución gaussiana se generaliza fácilmente a más de dos dimensiones fácilmente.


En el caso general, la distribución conjunta de k>2 variables gaussianas está descrita por la
distribución normal multivariada. Para tal efecto conviene usar notación matricial, con ella
la pdf de la normal multivariada es
 1  1   T 1   
f ( x)  exp   x       x     (4.50)
(2 ) det  
k/2
 2 
 
Donde x y  son vectores con K componentes,    es la matriz de varianza-covarianza

de dimensiones K*K de las K variables en el vector x y det    es su determinante. Si

cada una de las K variables en x son estandarizadas separadamente de acuerdo a (4.19), la
densidad normal estandarizada multivariada es,
 1   z T  R  1 z 
f (z)  exp  (4.51)
(2 ) k / 2 det R   2 
Donde [R] es la matriz de correlaciones de Pearson para las K variables.

Numerosas propiedades útiles entre el conjunto de variables pueden ser derivadas si la


normalidad multivariada puede ser justificada o supuesta. Una de estas propiedades es que
las distribuciones condicionales de subconjuntos del vector X, dados valores particulares a
los otros elementos, son también normales multivariadas, esta es la generalización de
(4.49). La media condicional delsubconjunto de variables X1 dados valores particulares
para las variables restantes X2 = x 2 es
Distribuciones de probabilidad teóricas: Wilks Cap 4 17/19
------------------------------------------------------------
   1  
1 / x1  1   12   22   x 2   2 
Y la matriz de covarianza condicional es
 1 / x 2    11    12   22  1   21  (4.52)
Donde [11] es la matriz de covarianzas para las variables en X1, [22] es la matriz de
covarianzas para las variables en X2, y [12] = [21]T es la matriz de covarianzas entre las
variables en X1 y X2. Estas cuatro matrices conforman la matriz de covarianza para el
conjunto de variables reunidas:
X 1   11   12  
  Var  X   Var    (4.53)
 X 2    21    22 
Una consecuencia de (4.52) es que las distribuciones univariadas o marginales, de cada una
de las K variables serán gaussianas. Sin embargo, no es necesariamente el caso de que
distribuciones conjuntas de un conjunto arbitrariamente seleccionado de K variables
gaussianas tendrá una distribución normal multivariada.

Ajuste de parámetrso por máxima verosimilitud

Para varias distribuciones el ajuste de parámetros usando el método de los momentos


generan resultados inferiores que pueden conducir a extrapolaciones e inferencias
imprecisas. El método de la máxima verosimilitud es una importante alternativa. Como
indica su nombre el método busca valores de los parámetros de distribuciones maximiza la
función de verosimilitud. El método deriva de la noción de que la verosimilitud es una
medida del grado con que los datos pueden sostener valores particulares para los
parámetros. Una interpretación bayesiana de tal procedimiento sería que los estimadores de
máxima verosimilitud son los valores más probables, dados los datos observados.

La función de verosimilitud para una única observación, x, aparece idéntica a la fdp, pero la
diferencia está que la fdp es una función de los datos para valores fijos de los parámetros,
en tanto que la función de verosimilitud es una función de los parámetros desconocidos
para valores fijos de los datos ya observados. La función de verosimilitud para el caso de n
datos independientes es simplemente el producto de n funciones de verosimilitud. Por
ejemplo, la función de verosimilitud para los parámetros gaussianos  y , dadas n
observaciones, xi, i=1,2,…,n, es
n
 (x  )2 
V ( ,  )    n ( 2 ) n  exp i 2  (4.54)
i 1  2 
En el fondo, la verosimilitud puede ser cualquier función proporcional a la ec. (4.54), de
manera que el factor con la raíz de 2 puede ser omitido. En términos geométricos, la ec.
(4.54) describe una superficie sobre el plano  que tiene un valor máximo sobre un par
específico de valores de los parámetros, dependiente de los valores de las observaciones xi.

Resulta más cómodo trabajar con el logaritmo de V:


1 n
L(  ,  )  lnV ( ,  )  n ln( )  n ln( 2 )  2  ( xi   ) 2 (4.55)
2 i 1
Donde el término con 2 puede ser omitido pues no depende de  ni .
Distribuciones de probabilidad teóricas: Wilks Cap 4 18/19
------------------------------------------------------------
Conceptualmente, al menos la maximización de L es un simple ejercicio de cálculo. Para la
distribución gaussiana se puede hacer analíticamente. Derivando con respecto a los
parámetros:
L(  ,  ) 1  n  L(  ,  ) n 1 n
 2  xi  n  y    3  ( xi   ) 2 (4.56)
   i 1     i 1
Igualando a cero ambas derivadas se obtiene
1 n 1 n
   xi y    ( xi   ) 2 (4.57)
n i 1 n i 1
Esto son los estimadores de máxima verisimilitud (MLE) para la distribución gaussiana,
que son muy parecidos a los estimadores de los momentos. La única diferencia es el
denominador n en lugar de n-1 del estimador insesgado. Ello muestra que los estimadores
de MLE pueden ser sesgados.

Los MLE’s para la distribución gaussiana son algo raros, en cuanto que ellos pueden ser
obtenidos analíticamente. Más frecuente es que los estimadores MLE deban ser calculados
iterativamente. Lo más común es imaginar la maximización de L como la determinación no
lineal de una raíz mediante una generalización multidimensional del método de Newton-
Raphson. Ello se basa en en un desarrollo de Taylor para la derivada de L:
L' ( *)  L' ( )  ( *  ) L"( ) (4.58)
Donde representa un vector genérico de parámetros de distribución y * son los valores
verdaderos a aproximar. Puesto que se trata de determinar las raíces de la derivada L’(*) se
requiere evaluar la segunda derivada de L, L”(). Igualando (4.58) a cero (para producir un
máximo de L) y despejando * se obtiene el algoritmo iterativo:

L'( )
*    (4.59)
L"( )
Comenzando con un valor tentativo , se evalúa un conjunto de estimaciones, *, que a su
vez se reemplazan en el segundo miembro para la iteración siguiente.

Algoritmo para parámetros MLE de la distribución Gama :

En la práctica la ec. (4.59) se complica algo porque se de estimar más de un parámetro, de


modo que L’(q) es un vector de primeras derivadas y L”(q) una matriz de segundas
derivadas. Para la distribución Gama (4.59) resulta
Distribuciones de probabilidad teóricas: Wilks Cap 4 19/19
------------------------------------------------------------
1
 2L 2L   L 
 *     2  
   
 *       2 L 2L 
 L 
     
   2    

1
 n 
  n"( )  ln(x)  n ln( )  n' ( )
     
     x n  (4.60)
     n n  2 x 
  
  2 3    2  
 
Donde ’ y "son respectivamente la primera y segunda derivada de la función
Gama, que deben ser evaluadas numéricamente. La ecuación (4.60) se implementa
partiendo con valores tentativos iniciales para los parámetros  y , tal vez usando
estimadores de momentos. Nuevos valores  y  resultan de aplicar (4.60). Los nuevos
valores se sustituyen en el lado derecho, y el proceso se repite hasta que el algoritmo
converja con estimaciones sucesivas que difieran en una pequeña fracción de un uno por
ciento..

Continuará …

You might also like