You are on page 1of 29

DISTRIBUCIONES DE FUNCIONES DE

PROBABILIDAD
 La manera más común de agrupar datos
puntuales (es decir, observaciones discretas) es
mediante la utilización de divisiones en el rango
donde se desenvuelven los datos. Es decir, la
construcción de un histograma de frecuencias

 Si se tiene una muestra cuyas observaciones se


asumen extraidas de una misma población,
ellas pueden representarse mediante un
histograma de frecuencias
 Un histograma es una representación gráfica de datos
numéricos que permite identificar tres propiedades
fundamentales inherentes al grupo de datos:

 La forma en que se distribuyen los datos (datos


unimodales o bimodales, valores extremos extraños,
etc.)

 La tendencia central

 La dispersión de los datos: congregación fuerte o debil


alrededor de la media
Pasos para la construcción de un histograma de
frecuencias para una variable dada (resumen, pues
ya vimos un ejemplo en detalle):

1. Identificar el rango de los datos, R


2. Número de Clases, NC, (n1/2 o 1+3.3 log n)
3. Límites: Lici, Lsci
4. Mediatriz de la clase: Mi, (Lici+Lsci)/2
5. Frecuencia absoluta Fai, número de observaciones en
cada clase
6. Frecuencia relativa Fri, Fai/n
7. Frecuencia acumulada Faci, sumatoria de Fri
Ej: Mediciones de estaturas, en cm (243 observaciones)
 Función de frecuencia relativa:
Es el número de observaciones en un intervalo i sobre el
número total de observaciones

fs (X i ) =
ni
N

Esta función estima la probabilidad de que cierta


observación caiga en un rango dado, es decir:
P( xi − ∆x ≤ X ≤ xi )
Ej: la probabilidad de que la estatura de la persona sea
mayor o igual a 190 cm y menor o igual a 195 cm, es:
f s ( X 1 ) = P(190 ≤ X ≤ 195) = 0,82%
 Función de frecuencia acumulada:
Es la suma de las frecuencias relativas en un punto dado

Fs ( X i ) = ∑ f s (X j )
i

j =1

Esta función estima la probabilidad acumulada de Xi, es


decir:
P( X ≤ xi )
Los datos se pueden acumular de rangos menores a
rangos mayores o vicerversa. Ej: la probabilidad de que
la estatura sea menor o igual a 180 cm , es:
Fs ( X 4 ) = F (180 ) = 0,82 + 2,47 + 5,35 + 12,76 = 21.4%
Ahora se reclasifican de un modo acumulado: nº total de
casos mayor que 190 cm, mayor que 185, etc.

Efectuamos esa suma acumulada tanto con el número


de casos como con los %

En este gráfico podemos leer qué porcentaje está por


debajo de un determinado valor de estatura, o qué
estatura es superada por el 80% de los casos
 Veamos como ejemplo hidrológico, 21 observaciones
de precipitación anual en una estación. A la izquierda
de la tabla aparecen en orden cronológico. A la derecha
se han clasificado de mayor a menor, y en la última
columna se refleja el porcentaje de datos que supera ese
valor.

 Por ejemplo, para n=4, n/N=4/21*100=19 %. Quiere


decir que el 19% de los datos es igual o mayor que 1442.1
 En la gráfica se puede leer directamente la probabilidad
de que la precipitación sea mayor que 1300 mm., o,
también, qué valor de precipitación se supera el 30% de
los años.
Las funciones anteriores se definen para una muestra.
Para hacer que estas funciones sean representativas
de toda la población, deben volverse continuas

 Función de densidad de probabilidad: es la función de


frecuencia relativa, con anchos de clase muy pequeños,
y muestras muy grandes:

f (X ) = lim fs (X )
n →∞ , ∆x →0
 Función acumulada de distribución de
probabilidades: es la misma función de frecuencia
acumulada, pero (al igual que lo hecho para obtener la
función de densidad de probabilidad) con anchos de
clase muy pequeños, y muestras muy grandes:

F (X ) = lim Fs ( X )
n →∞ , ∆x →0

 A partir de la función acumulada de distribución de


probabilidades se puede estimar la probabilidad de que
la variable sea menor que un valor dado x:

F ( X ) = P( X ≤ x )
 Características de las funciones de
densidad de probabilidad
Si la variable es continua:

A)
∫ f (x )dx = 1
−∞
b
B) P(a ≤ X ≤ b ) = ∫ f (x )dx
a
b
C)
∫ f (x )dx = 0
b
 Características de las funciones de
densidad de probabilidad
Si la variable es discreta:

A)
∑ f (X ) = 1
s i

X i ≤b
B) P(a ≤ X ≤ b ) = ∑ f (X ) i
X i ≥a

i= j
C) P (X ≤ x j ) = ∑ f ( X i )
i =1
 Distribuciones simétricas y asimétricas
Si en la figura superior hiciéramos los
intervalos más pequeños, y aumentáramos
el número de valores medidos, el gráfico
continuaría con esa forma de campana ,
pero se iría suavizando hasta ser una curva
continua. Lo mismo sucedería con la curva
en forma de S.

 Gauss encontró la ecuación de estas


curvas (la ecuación de la curva en forma
de campana, es decir, la función de
densidad, y la de forma de S, o función de
distribución).

 Muchas variables naturales se ajustan a la


distribución simétrica estudiada por Gauss,
pero no todas. En ocasiones no hay la
misma proporción de pequeños que de
grandes, eso dará lugar a una distribución
asimétrica.
 Por ejemplo, si representáramos los ingresos de la
población de una ciudad, seguro que la campana no
sería simétrica: la riqueza se distribuye con menor
equidad que la estatura, y mientras que la proporción
de altos y bajos es similar, no así la de ricos y pobres
(hay pocos ricos y muchos pobres).

 Los matemáticos han encontrado para nosotros las


ecuaciones de muchas de estas campanas asimétricas
(Gumbel, Pearson III, Log-Normal, etc.).

 En otras ocasiones, los valores no se ajustan a la


distribución de Gauss, pero sus logaritmos sí: se
denomina entonces log-normal (la distribución de
Gauss también se llama “normal”).
 En Hidrología, las precipitaciones o caudales anuales
(valores medios) suelen ajustarse a la distribución
simétrica de Gauss

 Pero los valores máximos, no: si consideramos el día


más caudaloso o el más lluvioso de cada año de una
serie larga de años (eso es necesario para estudiar la
previsión de avenidas), no se ajustarán a Gauss, sino
probablemente a la campana asimétrica descrita por
Gumbel o alguna similar.
Media y desviación típica

 Para caracterizar un conjunto de medidas (las


estaturas, los caudales, etc.) es necesario disponer de
un valor indicativo de su tendencia central y otro valor
que nos indique la dispersión, es decir, si los valores
están apretados o alejados a ambos lados de la
media.

 Para indicar la tendencia central, normalmente se


utiliza la media aritmética, tan intuitiva y que todos
conocen: sumar valores y dividir por el número de
casos.

 Pero en una distribución asimétrica, la media


aritmética nos proporciona una información
equívoca …
Parámetros estadísticos

Media

La media es el valor esperado de la variable misma, y


representa una medida del punto medio o tendencia
central de la distribución.

1 n
Para una muestra: x = ∑ xi
n i =1

Para una población: ∞


µ = E ( X ) = ∫ x ⋅ f ( x )dx
−∞
Parámetros estadísticos

Varianza

La varianza es el valor que mide la dispersión de los


datos respecto a la media.

( )
n 2
Para una muestra:2 1
s = ∑
n − 1 i =1
Xi − X

[ ]
Para una población:
σ = E (x − µ )
2 2
Parámetros estadísticos

Desviación típica (o estándar)

La desviación típica es el valor que mide la variabilidad de


los datos respecto a la media, y lo hace en las mismas
dimensiones de x. la desviación estándar es la raíz
cuadrada de la varianza.

2 12
Para una muestra:  1
( ) 
n
s= ∑ Xi − X 
 n − 1 i =1 

Para una población:


{[
σ = E (x − µ ) 2 12
]}
Media y desviación típica
 Supongamos que en 100 vecinos hay 3 vecinos
riquísimos y el resto bastante pobres. Si calculáramos los
ingresos medios anuales de esa aldea, la “renta per
capita” sería alta; este valor nos engañaría respecto a
la pobreza de la mayoría de los vecinos.

 Es más significativa la mediana, que es un valor que deja


por encima a la mitad de los casos y por debajo a la otra
mitad.

 Para obtener una idea del nivel de ingresos es más útil


fijarnos en un vecino elegido de modo que el 50% fueran
más ricos que él y la otra mitad más pobre. (Esto es la
mediana o frecuencia 0,50)

 En la distribución de Gauss, la mediana y la media


coinciden
En resumen:

 La dispersión de los datos a ambos lados de la


media se evalúa mediante la desviación típica (o n

∑ i
estándar, es lo mismo).
( x − x ) 2

 La desviación típica se calcula en función de la sn = i =1


suma de las desviaciones de cada punto (x) a la n
media previamente calculada. n es el número
total de datos.
n
 La fórmula se aplica sin problema a la población
(es decir, si hemos podido medir todos los datos
∑ i
( x − x ) 2

de la población estudiada, y con ellos aplicamos s n −1 = i =1

la fórmula). Pero lo habitual es que n −1


dispongamos sólo de los datos de una
muestra, y la desviación típica se corrige

 Cuando el número de datos es grande las dos


fórmulas proporcionan valores casi idénticos.
Parámetros estadísticos

Coeficiente de Variación

 Si dos series tienen la misma media, su desviación típica


nos indica el grado de dispersión de los valores a los lados
de la media.

 Pero si las medias son distintas, la simple


comparación de las desviaciones típicas no sirve de
nada.

 Esta comparación se hace, correctamente, mediante el


Coeficiente de Variación (CV) que se define como el
cociente entre la desviación típica y la media
σ
CV =
µ
Coeficiente de Variación
Ejemplo: se tienen dos muestra de diferente tamaño, y con
diferente media, tomadas sobre la misma población

 Se observa que la dispersión de la primera muestra es


relativamente mayor (CV=0,13), es decir, su desviación
típica equivale al 13% de la media, mientras que en la
segunda muestra, su desviación típica es solamente el 5%
de su media (CV=0,05)
Series tipificadas
La tipificación de series resulta imprescindible para homogeneizar la
unidad de medida y en consecuencia poder comparar entre dos o
más resultados. Tipificar una serie no es más que dividir la resta
del valor comparado menos la media, por la desviación
estándar
x− x
z =
s n −1
Ej: Deseamos comparar un pequeño arroyo (Qmed=6,3 l/s; desviación
típica= 0,9 l/s.) con un gran río (Qmed= 97 m³/s; desviación típica
13,4 m³/s).

 En un año húmedo ambos superaron la media: en el primero el


caudal fue de 7,9 l/s, y en el segundo de 112 m³/seg.

 ¿Cuál de los dos datos fue mas excepcional (comparado con


los datos de su propia historia, claro), cuál se apartó más de su
media?
Series tipificadas

 El arroyo superó a su media en 7,9-6,3= 1,6 l/s.


 El caudal del gran río estuvo 112-97= 15 m3/seg sobre su media.
 Pero en lugar de expresarlo en ls/s o en m3/seg, vamos a expresarlo en
cantidad de desviaciones típicas:
x− x
z =
s n −1
El caudal del arroyo superó a su media en (7,9-6,3)/0,9=1,78
desviaciones típicas

El caudal del gran río superó a su media en (112-97)/13,4= =1,12


desviaciones típicas

 Por tanto, el caudal del arroyo fué más excepcional (estaba más
alejado de su media) que el del gran río.
Cálculo de probabilidades con la Ley de Gauss (valores medios)

Ejemplo: se tienen registros de caudales medios en un río

 Datos: Suponer que los caudales del río se ajustan a la Ley de Gauss
 Media aritmética=29,8 m3/s; desviación típica=8,1 m3/s

 ¿Cuál es la probabilidad de que el caudal supere 40 m3/s?

 Solución

 A) Expresamos el caudal de 40m3/s como serie tipificada:


z=(40-29,8)/8,1=1,26. Significa que 40m³/s está 1,26 desviaciones
típicas por encima de la media.

 B) Calculamos la probabilidad de que z>1,26 en la fórmula de Gauss.


Para z=1,26 la probabilidad es 0,10383.

 Por tanto, el 10,38% de los años tendrán un caudal igual o superior a


40 m3/seg.

You might also like