You are on page 1of 34

ELEMENTOS DE PROBABILIDAD

por

Maximiliano Baldiviezo

Agosto de 2013

Mecánica Estadı́stica
Departamento de Fı́sica
Facultad de Ciencias Exáctas
Universidad Nacional de Salta
Índice de contenidos

Índice de contenidos iii

I. ELEMENTOS DE PROBABILIDAD 1
I. Teorı́a clásica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
I1. Técnicas de conteo. . . . . . . . . . . . . . . . . . . . . . . . . . 2
II. Teorı́a frecuentı́sta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
III. Teorı́a axiomática. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
III1. Axiomas de Kolmogorov. . . . . . . . . . . . . . . . . . . . . . . 7
III2. El lenguaje de la teorı́a axiomática. . . . . . . . . . . . . . . . . 8
III3. Corolarios inmediatos de los axiomas de Kolmogorov. . . . . . . 9
III4. Probabilidad condicionada, teorema de Bayes e independencia
estadı́stica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
III5. Variable aleatoria: densidad de probabilidad. . . . . . . . . . . . 12
III6. Transformación de variables aleatorias. . . . . . . . . . . . . . . 13
IV. La teorı́a axiomática y su relación con los datos experimentales. . . . . 15
V. Función Caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
V1. Definición de Función Caracterı́stica. . . . . . . . . . . . . . . . 17
V2. Random Walk. . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
V3. Función de función caracterı́stica. . . . . . . . . . . . . . . . . . 22
V4. Teorema central del lı́mite. . . . . . . . . . . . . . . . . . . . . . 24
VI. Entropı́a probabilista: una medida de falta de información. . . . . . . . 27
VI1. Falta de información. . . . . . . . . . . . . . . . . . . . . . . . . 27
VI2. Entropı́a estadı́stica. . . . . . . . . . . . . . . . . . . . . . . . . 29

iii
MECÁNICA ESTADÍSTICA 2013

ELEMENTOS DE PROBABILIDAD

Ninguna disciplina matemática ha tenido un espectro tan amplio de aplicación,


desde la Biologı́a a la Economı́a, pasando por la Fı́sica y la Quı́mica, como lo ha
tenido la teorı́a de la probabilidad. No es posible exponer, ni siquiera resumir, en un sólo
capı́tulo un tema tan extenso y ramificado como el de la probabilidad. Sin embargo, la
idea de este apunte es dar el puntapié inicial para entender el concepto de probabilidad
¿Qué mejor forma de comenzar a hacerlo que la de seguir los pasos mismos de la
historia?.

I. Teorı́a clásica.
La idea de probabilidad nace relativamente tarde en la historia del conocimien-
to. Paradójicamente, las primeras aproximaciones al cálculo de probabilidades fueron
impulsadas no por problemas cientı́ficos sino por intereses esencialmente prácticos. El
matemático y filósofo Blaise Pascal fue animado a reflexionar sobre el concepto de pro-
babilidad por un amigo suyo, el caballero Méré, que era un aficionado a los juegos de
azar. La definición matemática propuesta por Pascal (denominada definición clásica),
nació como una obvia generalización de situaciones que se verifican en el juego. La
primera teorı́a de la probabilidad, actualmente denominada teorı́a clásica, fue elabora-
da durante el siglo XVIII. Jacob Bernoulli (1654-1705) fue el primero que escribió un
tratado sistemático sobre ella; y también el Reverendo Thomas Bayes hizo una impor-
tante contribución a la misma. A fines del mismo siglo, el gran matemático y fı́sico
Pierre Simon de Laplace escribió el primer gran tratado sobre el tema. Contenı́a una
vasta elaboración matemática de una teorı́a de la probabilidad y puede ser considerada
como la obra cumbre del perı́odo clásico. Todo lo realizado hasta ese momento de la
historia tenı́a como pilar la siguiente definición de probabilidad:

Definición I.1 (Definición clásica de probabilidad) La probabilidad de un evento


es la relación entre el número de casos favorables al evento en cuestión y el número de
casos posibles, donde los casos posibles han de ser todos equiprobables.

1
2 ELEMENTOS DE PROBABILIDAD

De la definición de probabilidad clásica se desprende directamente la importancia


de contar todos los casos posibles y los casos asociados a un evento determinado.
En primera instancia podrı́amos creer que contar el número de casos asociados a un
evento no presenta ninguna dificultad y que constituye el simple acto de determinar
uno a uno todos los casos posibles y luego proceder a identificar los casos favorables a
un evento dado. Sin embargo, cuando el número de casos en cuestión es muy grande
o pretendemos hacer un análisis de situaciones generales sin especificar el valor de los
parámetros del problema, esta tarea es irrealizable. Por ello es necesario nutrirse de
métodos generales de conteo, esenciales para el cálculo de probabilidades en el sentido
clásico. Realicemos un repaso de tales métodos con la intención de formalizarlos como
herramientas generales para contar.

I1. Técnicas de conteo.


Consideremos un conjunto de n elementos definido como An ≡ {ai }i≤n . Diremos
que un conjunto de este tipo es un n-conjunto. Llamaremos a cualquier subconjunto
formado por r elementos de An una r-muestra de An y lo denotaremos por

M (An , r) ≡ {mi ∈ An }i≤r≤n ⊆ An .

En principio, la definición de una r-muestra no dice nada sobre orden de sus elemen-
tos ya que simplemente está caracterizada por los elementos que la componen. Surge
de esta manera la necesidad de clasificar los tipos de muestras de un n-conjunto según
se tenga o no en cuenta el orden de sus elementos.
Con la intención de discernir el orden de los elementos de una r-muestra, vamos a
definir una r-permutación asociada al n-conjunto An como un arreglo ordenado de
r elementos de An :

P (An , r) ≡ (pi ∈ An )i≤r≤n = (p1 , . . . , pr ) .

Análogamente, con el fin de no contemplar el orden de una r-muestra, definimos


una r-combinación asociada al n-conjunto An como un arreglo no ordenado de r
elementos de An :
C[An , r] ≡ [ci ∈ An ]i≤r≤n = [c1 , . . . , cr ] .

Ası́, por ejemplo, las combinaciones C [A15 , 3] ≡ [c1 , c2 , c3 ] = [a5 , a7 , a13 ] y D [A15 , 3] ≡
[d1 , d2 , d3 ] = [a13 , a7 , a5 ] son iguales, por tratarse de los mismos elementos. Mientras que
las permutaciones P (A15 , 3) ≡ (p1 , p2 , p3 ) = (a5 , a7 , a13 ) y Q (A15 , 3) ≡ (q1 , q2 , q3 ) =
(a13 , a7 , a5 ) son diferentes a pesar de estar formadas por los mismos elementos ya que
el orden en que están dispuestos difiere.
I Teorı́a clásica. 3

Cabe recalcar que la definición de muestra, y por lo tanto también la de permuta-


ción y combinación, contempla el hecho de que los elementos que lo conforman pueden
estar repetidos. Una forma útil de visualizar este hecho es la de imaginar al n-conjunto
en cuestión como una urna que contiene n elementos. Para formar una r-muestra rea-
lizamos una extracción de r elementos. Si nos interesa hacer hincapié en el orden en
que extraemos los elementos, registramos cada extracción en una serie de r casilleros
numerados y ası́ podemos formar una r-permutación. Si el orden no nos interesa re-
gistramos los elementos extraı́dos en cualquier orden para formar una r-combinación.
Ambos procesos pueden realizarse bajo dos condiciones diferentes. El primero de ellos
consiste en que cada vez que extraemos un elemento de la urna no volvemos a colocarlo
dentro de ella hasta formar la combinación o la permutación. De esta manera los ele-
mentos no se repiten en ninguna de ellas. Por lo contrario, después de cada extracción
podemos devolver el elemento a la urna siendo posible extraerlo posteriormente. Ası́,
las permutaciones o combinaciones pueden contener más de una vez al mismo elemento.

Es en este contexto en el que surge naturalmente la cuestión de ¿cuántas r-permutaciones


o r-combinaciones pueden formarse a partir de un n-conjunto? Por supuesto que la res-
puesta a esta pregunta será diferente si consideramos o no la posibilidad de que los
elementos de una muestra se repitan.

Nos concentremos en situaciones en las que las muestras en cuestión no contienen


elementos repetidos. Sea Pnr el número de r-permutaciones y Cnr el de r-combinaciones.
No es difı́cil de entender que ambos cantidades son independientes de las caracterı́sticas
particulares del n-conjunto An y están totalmente determinadas por n y r. Por ello, los
resultados que obtendremos en lo siguiente serán ampliamente generales. Como primera
cuestión, podemos considerar una r-muestra M (An , r) sin repeticiones y observar que
con ella podemos generar una y sólo una r-combinación. Sin embargo, podremos generar
un total de r! r-permutaciones. En otras palabras por cada r-combinación tendremos
r! r-permutaciones. Este hecho nos permite inferir directamente que el número total
de r-permutaciones se relaciona con el número total de r-combinaciones mediante la
relación:
Pnr = r! Cnr .

Para determinar el número total de r-permutaciones basta con tener en cuenta


que existen n posibilidades para el primer elemento, por cada una de esas posibilida-
des habrán (n − 1) posibilidades para el segundo elemento y haciendo razonamientos
análogos para el resto de los elementos llegaremos a que hay (n − r + 1) posibilidades
para el r-ésimo elemento. De esta manera

n!
Pnr = n (n − 1) · · · (n − r + 1) = ,
(n − r)!
4 ELEMENTOS DE PROBABILIDAD

y por lo tanto
n!
Cnr = .
r! (n − r)!
Una caracterı́stica interesante de la r-combinaciones sin repetición es que el número
total de ellas coincide con el número total de r-subconjuntos del n-conjunto en cuestión.
Ahora consideremos situaciones en las que una r-muestra con repetición. Para for-
mar una r-permutación tendremos n posibilidades para el primer elemento, por cada
una de ellas tendremos otras n posibilidades para el segundo elemento y ası́ sucesiva-
mente para los restantes. De esta manera el número de r-permutaciones con repetición
está dado por:
P Rnr = nr .

Para obtener el número de r-combinaciones con repetición CRnr debemos hacer


un razonamiento mas sofisticado. Para ello debemos tener en cuenta que cualquier
n-conjunto An = {a1 , . . . , an } puede ponerse en una correspondencia biunı́voca con
el conjunto de los primeros n números naturales Nn = {1, . . . , n}. Ası́, el número de
r-combinaciones de An coincide con el de Nn . Luego, podemos formar una r-muestra
de Nn de la forma M (Nn , r) = {m1 , m2 , . . . , mr : mi ∈ Nn ∀i ≤ r ∧ m1 ≤ m2 ≤
· · · ≤ mr } donde las igualdades corresponden a la repetición de los elementos. Dicha
muestra puede ponerse en una correspondencia biunı́voca con el conjunto {m1 +0, m2 +
1, . . . , mr + r − 1} cuyos elementos son todos diferentes. El menor valor posible de sus
elementos es el número 1 y el mayor el número n + r − 1. Por ello, resulta directamente
que dicho conjunto es una r-muestra del (n+r−1)-conjunto Nn+r−1 = {1, . . . , n+r−1}.
En otros términos M 0 (Nn+r−1,r ) = {m1 + 0, m2 + 1, . . . , mr + r − 1} es una r-muestra
sin repeticiones de Nn+r−1 y por lo tanto el número de r-combinaciones asociadas es
r
Cn+r−1 y coincide con el número de r-combinaciones con repetición de Nn que a su vez
coincide con el número de r-combinaciones con repetición de An . Es decir,

(n + r − 1)!
CRnr = Cn+r−1
r
= .
r! (n − 1)!

Toda esta estructura formal es un conglomerado de herramientas muy potentes


para la determinación de probabilidades en el sentido clásico. Para convencerse de ello,
basta con considerar algunos ejemplos y poner en práctica las técnicas de conteo.

Ejercicio I.1 Una urna contiene 5 bolillas numeradas del 1 al 5. Se sacan sucesivamente al
azar las 5 bolillas (sin reposición) ¿Cuál es la probabilidad de que juntando los números de
cada bolilla según el orden de extracción resulte el número 21345?

Ejercicio I.2 Una urna contiene 10 bolillas numeradas del 0 al 9. Se sacan sucesivamente
al azar 5 bolillas (sin reposición) ¿Cuál es la probabilidad de que juntando los números de
cada bolilla según el orden de extracción resulte el número 80314?
I Teorı́a clásica. 5

Ejercicio I.3 Una urna contiene a bolillas blancas y b bolillas negras. Al sacar al azar
r bolillas de una vez (suponiendo r ≤ a) ¿cuál es la probabilidad de que todas ellas sean
blancas?

Ejercicio I.4 Se tienen 5 pares de zapatos mezclados y cada par es distinto de los demás.
Si se eligen dos zapatos al azar, ¿qué probabilidad hay de que correspondan al mismo par?

Ejercicio I.5 Se tiene una baraja de 40 cartas, donde hay 4 ases. Se reparten entre 4
personas, de manera que cada uno tenga 10 cartas, ¿cuál es la probabilidad de que a cada
uno le toque un as?

Ejercicio I.6 Si n personas se sientan al azar en una fila, ¿cuál es la probabilidad de que
dos de ellas queden una al lado de la otra?

Ejercicio I.7 Se elige al azar un número de 6 cifras. Hallar la probabilidad de que todas
las cifras sean diferentes.

Ejercicio I.8 En una urna hay 20 bolillas numeradas del 1 al 20. Si se van sacando al azar
una a una sin reposición ¿cuál es la probabilidad de que la bolilla número 8 salga precisamente
en la octava extracción?

Ejercicio I.9 De un grupo de 6 mujeres y 4 hombres se deben elegir 3 personas para que
los representen en 3 congresos a desarrollarse en mayo, junio y setiembre.

1. Si a cada congreso debe ir una persona diferente. Calcular la probabilidad de que:

a) a los dos primeros congresos vayan mujeres;


b) haya exactamente una mujer entre las tres personas elegidas;
c) haya por lo menos una mujer entre las tres personas elegidas;
d ) al segundo congreso vaya una mujer.

2. Suponiendo que una persona puede ir a más de un congreso, calcular las mismas pro-
babilidades que en el inciso 1.

3. Con la misma hipótesis que en el inciso 1 y suponiendo que lo único que importa es
elegir a las tres personas que irán a los congresos, sin importar a cuál de ellas, calcular
las probabilidades del inciso 1 que tengan sentido para este experimento.

Ejercicio I.10 Dado un n-conjunto An ¿cuál es el número total de sus subconjuntos? ¿Y


cuál es la probabilidad de que al formar un subconjunto al azar éste contenga r elementos?

Ejercicio I.11 Consideremos un conjunto S y ciertos subconjuntos del mismo Ti ⊆ S con


i ≤ k. El conjunto de tales subconjuntos se denomina partición de S si S = ki=1 Ti y
S
T
Ti Tj = ∅ ∀i 6= j. En particular, si S es un n-conjunto y cada subconjunto Ti es un ri -
subconjunto de S, dicha partición se denomina una (r1 , r2 , . . . , rk )-partición de S y se cumple
que ki=1 ri = n. Determinar el número total de (r1 , r2 , . . . , rk )-particiones de S.
P
6 ELEMENTOS DE PROBABILIDAD

Ejercicio I.12 Considere una idealización de un cristal que contiene N sitios del tipo A,
el mismo número de sitios del tipo B (defectos) y N átomos en total. Suponga que hay n
átomos en sitios del tipo B. Determine el número total de formas de acomodar los N átomos
en el cristal bajo estas condiciones.

Ejercicio I.13 Considere una superficie con Ns sitios. En estos sitios pueden absorberse
moléculas de dos tipos diferentes. Suponga que en la superficie hay absorbidas nA moléculas
del tipo A y nB moléculas del tipo B. Determine el número total de configuraciones posibles.

II. Teorı́a frecuentı́sta.


En la teorı́a clásica todo parece muy claro, hasta obvio, pero hay un obstáculo
importante para esta teorı́a. Los autores clásicos afirmaban que, antes de poder aplicar
su definición de probabilidad, es menester asegurarse de que todos los eventos posibles
son igualmente probables, es decir, equiprobables. Pero entonces, al parecer, estamos
atrapados en un cı́rculo vicioso. Tratamos de definir qué entendemos por probabilidad
y, al hacerlo, usamos el concepto de equiprobabilidad. En realidad, los defensores de la
teorı́a clásica no utilizaban exactamente esos términos. Decı́an que los casos deben ser
equiposibles. Esta expresión, a su vez, era definida mediante un famoso principio al que
llamaban el principio de razón insuficiente. En la actualidad, se lo llama comúnmente
el principio de indiferencia. Este establece que si no se conoce ninguna razón por la cual
un evento deba producirse con preferencia a otro entonces los eventos son equiposibles.
Poco a poco, durante el siglo XIX, se elevaron algunas voces crı́ticas contra la defini-
ción clásica. En el siglo XX, al rededor de 1920, Richard von Mises y Hans Reichenbach
sometieron el enfoque clásico a energéticas crı́ticas, dando lugar a la teorı́a frecuentı́sta
de la probabilidad. Mises decı́a que la equiposibilidad sólo puede ser entendida en el
sentido de equiprobabilidad. Pero si esto es lo que significa, estamos atrapados en un
cı́rculo vicioso. La tradición clásica, afirmaba Mises, es circular y, por ende, inútil. En
el aspecto constructivo, Mises y Reichenbach sostenı́an lo siguiente. El único modo de
cerciorarse de la equiprobabilidad es hacer lo irrenunciable en fı́sica: realizar el expe-
rimento. Se realiza el experimento cien, mil, un millón de veces y nos convencemos
de que ninguno de los distintos eventos posibles aparecen con más frecuencia que las
demás. De este modo, Mises y Reichenbach sostenı́an que la razón entre la frecuencia
de un dado evento y la cantidad de experimentos realizados, magnitud denominada
frecuencia relativa, es una medida de la probabilidad de que dicho evento ocurra. Y
no hay que confundirse, la frecuencia relativa es sólo una medida de la probabilidad.
Los frecuentı́stas fueron cuidadosos en ese aspecto, ya que la frecuencia relativa de-
pende considerablemente de la cantidad de pruebas realizadas. No obstante, es posible
efectuar una serie de experimentos, que consistan en un número cada vez mayor de
III Teorı́a axiomática. 7

pruebas, y de esta manera extraer una sucesión de frecuencias relativas con denomi-
nador creciente, del tipo:

m1 m2 m3 m4
, , , , ...
n1 n2 n3 n4
con n1 < n2 < n3 < n4 < ... Ası́, haciendo crecer indefinidamente el denominador,
la sucesión tiende a un valor fijo de la frecuencia relativa. Sobre esta base, Mises y
Reichenbach postulan la siguiente definición de probabilidad:

Definición I.2 (Definición frecuentı́sta) La probabilidad de un evento es el lı́mite


de la frecuencia relativa del evento en cuestión, cuando el número de experimentos
tiende a infinito.

La definición frecuentı́sta tiene aparentemente una forma matemática correcta. Pe-


ro, en realidad, ¿qué sentido puede tener el lı́mite de una sucesión que no definimos
matemáticamente, sino que determinamos a partir de la experiencia y una posterior
extrapolación (ya que no es posible realizar infinitos experimentos)?¿Y qué nos asegura
que este lı́mite existe?.

III. Teorı́a axiomática.


Un giro decisivo en la historia del concepto de probabilidad se dio con la axioma-
tización de la teorı́a, propuesta por el matemático ruso Andrej Kolmogorov, en 1933.
Después de Kolmogorov, el status lógico de la teorı́a de la probabilidad se parece al de
muchas teorı́as matemáticas y fı́sicas (la aritmética, la teorı́a de conjuntos, la mecánica
clásica, etc).
Según el planteamiento axiomático, no se debe pretender tener una definición
explı́cita de probabilidad. Sino que debemos limitarnos a dar un conjunto de axio-
mas que la definen implı́citamente. Todas las definiciones explı́citas que verifican los
axiomas de Kolmogorov se consideran buenas representaciones del concepto de proba-
bilidad.
La teorı́a de Kolmogorov es matemáticamente bastante simple e intuitiva y, dejando
de lado los aspectos excesivamente rigurosos, nos adentraremos en ella.

III1. Axiomas de Kolmogorov.


Sea S un conjunto de ciertos elementos, que denominaremos espacio muestral, y sea
F un conjunto de subconjuntos de S. Los elementos de F los denominaremos eventos.
Sobre estas definiciones, los axiomas de Kolmogorov son:
8 ELEMENTOS DE PROBABILIDAD

1
Axioma I.1 F es un campo de conjuntos.

Axioma I.2 F contiene al conjunto S.

Axioma I.3 Cada evento A perteneciente a F tiene asociado un número real positivo
P (A). El número P (A) se denomina probabilidad del evento A.

Axioma I.4 P (S) = 1.

Axioma I.5 Si A ∩ B = ∅ (con ∅ el conjunto vacı́o), entonces

P (A ∪ B) = P (A) + P (B).

El espacio muestral S, sistema de conjuntos F y la función probabilidad P (A) de


un dado evento A, forman en conjunto lo que se denomina campo de probabilidad.
Esta sistema de axiomas es consistente, es decir, se puede probar que ninguno de
ellos contradice al otro. Sin embargo, es incompleto, ya que en varios problemas de
probabilidad es posible definir diferentes campos de probabilidad para ser analizados
en base al sistema de axiomas de Kolmogorov. Esto está relacionado con el hecho
de que existe cierta arbitrariedad en la definición de la función probabilidad, ya que
los axiomas no la determinan en su totalidad. Ası́, vemos que la teorı́a axiomática
de ninguna manera logró dar solución a los problemas históricos relacionados con el
concepto de probabilidad. Sin embargo, como veremos más adelante, esta teorı́a permite
introducir un arsenal de conceptos que son muy útiles para resolver ciertos problemas.

III2. El lenguaje de la teorı́a axiomática.


Dado que los axiomas de Kolmogorov están expresados en términos de la teorı́a de
conjuntos, resulta necesario establecer una conexión entre éstos y el lenguaje coloquial
de la teorı́a de probabilidades:

Definición I.3 Si A∩B = ∅, diremos que los eventos A y B son excluyentes, es decir,
no pueden ocurrir simultáneamente.

Definición I.4 Si A∩B = X, diremos que el evento X define la ocurrencia simultanea


de los eventos A y B.
1
Este axioma es el más difı́cil de entender y no es necesario detenerse en él, solo lo exponemos por
completitud. Un sistema de conjuntos se denomina campo si la unión, la intersección y la diferencia
de dos conjuntos del sistema también pertenece al sistema.
III Teorı́a axiomática. 9

Definición I.5 Sea Ae el complemento de A. Entonces diremos el evento A


e define la
no ocurrencia del evento A.

Definición I.6 Si A = ∅ diremos que el evento A es imposible.

Definición I.7 Si A = S diremos que el evento A ocurrirá.

Definición I.8 Si B ⊂ A, diremos que la ocurrencia del evento B implica inevitable-


mente la ocurrencia del evento A.

III3. Corolarios inmediatos de los axiomas de Kolmogorov.


De los axiomas de Kolmogorov se deducen ciertos corolarios que son muy útiles
para poder desarrollar ciertas ideas más adelante.

Corolario I.1 Sea A un evento y A


e su complemento, entonces

1. P (A) = 1 − P (A)
e

2. 0 ≤ P (A) ≤ 1.

Demostración. Como A ∪ A
e=S y A∩A
e = ∅, por el Axioma I.5 resulta

P (S) = P (A ∪ A)
e = P (A) + P (A)
e

y como por el Axioma I.4 P (S) = 1, resulta directamente que P (A) = 1 − P (A). e
Finalmente, por el Axioma I.3 P (A) ≥ 0 y P (A)
e ≥ 0 y por lo tanto, es fácil ver que
0 ≤ P (A) ≤ 1.

Corolario I.2 P (∅) = 0.


Demostración. Teniendo en cuenta que Se = ∅, por el corolario anterior P (∅) =
P (S)
e = 1 − P (S) y como el Axioma I.4 impone que P (S) = 1 resulta que P (∅) = 0.

Corolario I.3 Si A y B son dos eventos excluyentes entonces P (A ∩ B) = 0.


Demostración. Si A y B son eventos excluyentes A∩B = ∅, entonces por el corolario
anterior P (A ∩ B) = P (∅) = 0.

Corolario I.4 Si A1 , A2 , A3 , · · ·, AN son eventos mutuamente excluyentes y además


A1 ∪ A2 ∪ A3 ∪ · · · ∪ AN = S, es decir, la unión de ellos representa el conjunto de todos
los eventos posibles, entonces N
P
n=1 P (An ) = 1.
Demostración. Dado que la unión todos los conjuntos es el espacio muestral, que
cumple con el Axioma I.4 P (S) = 1, tenemos que P (A1 ∪ · · · ∪ AN ) = 1. Finalmente,
como los conjuntos {Ai } son mutuamente excluyentes, por el axioma A5 resulta la
igualdad buscada N
P
n=1 P (An ) = 1.
10 ELEMENTOS DE PROBABILIDAD

Corolario I.5 Si B1 , B2 , B3 , · · ·, BN son todos los eventos posibles mutuamente exclu-


yentes, es decir: ∪N
n=1 Bn = S y Bi ∩ Bj = ∅ con i 6= j (∀i, j = 1, · · · , N ), entonces
PN
n=1 P (A ∩ Bn ) = P (A).
Demostración. Como ∪N n=1 Bn = S tenemos que P (A) = P (A ∩ S) = P (A ∩
(∪N N
n=1 Bn )) = P (∪n=1 (A ∩ Bn )). Además, dado que Bi ∩ Bj = ∅ (∀i, j = 1, · · · , N )
se deduce que los conjuntos {A ∩ Bi } también son mutuamente excluyentes y por lo
tanto P (A) = N
P
n=1 P (A ∩ Bn ).

Corolario I.6 Para cualesquiera dos eventos A y B se cumple la relación:

P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

Demostración. Sea A/B = {x : x ∈ A ∧ x ∈


/ B}. Como A = (A/B) ∪ (A ∩ B) y
(A/B) ∩ (A ∩ B) = ∅,
P (A) = P (A/B) + P (A ∩ B) .

Análogamente se cumple que

P (B) = P (B/A) + P (A ∩ B) .

Además, dado que A ∪ B = (A/B) ∪ (A ∩ B) ∪ (B/A) con (A/B), (A ∩ B) y (B/A)


mutuamente excluyentes:

P (A ∪ B) = P (A/B) + P (A ∩ B) + P (B/A) .

Remplazando las relaciones primeras dos relaciones en la tercera obtenemos lo bus-


cado:

P (A ∪ B) = P (A) + P (B) − P (A ∩ B) .

III4. Probabilidad condicionada, teorema de Bayes e indepen-


dencia estadı́stica.
Definición I.9 (Probabilidad condicionada). Se define la probabilidad del evento
A concidionado a que ocurra el evento B como el siguiente cociente entre probabilida-
des:
P (A ∩ B)
P (A|B) = .
P (B)
III Teorı́a axiomática. 11

Corolario I.7 La probabilidad condicionada P (A|B) es una probabilidad, es decir,


cumple los Axiomas I.3 y I.4 de Kolmogorov.
Demostración. Como P (A ∩ B) ≥ 0 y P (B) ≥ 0 por ser probabilidades: P (A | B) =
P (A ∩ B)/P (B) ≥ 0. Por otro lado P (S | B) = P (S ∩ B)/P (B) = P (B)/P (B) = 1.

Ejercicio I.14 Sean A1 , A2 y B tres eventos tales que A1 ∩ A2 = ∅, demostrar que


P (A1 ∪ A2 |B) = P (A1 |B) + P (A2 |B).

Ejercicio I.15 Si A ⊂ B, P (A) = 1/4 y P (B) = 1/3 encontrar P (A|B) y P (B|A).

Ejercicio I.16 Demostrar que P (A ∩ B|C) = P (A|B ∩ C) P (B|C) y P (A ∩ B ∩ C) =


P (A|B ∩ C) P (B|C) P (C).

Ejercicio I.17 (Regla de la Cadena) Demostrar la llamada regla de la cadena mediante


el Principio de Inducción: P (An ∩ · · · ∩ A1 ) = P (An |An−1 ∩ · · · ∩ A1 ) · · · P (A2 |A1 ) P (A1 ).

Teorema I.1 (Teorema de Bayes) Sean dos eventos A y B, entonces sus probabi-
lidades condicionadas cumplen la siguiente relación:

P (B|A)P (A)
P (A|B) = .
P (B)

Demostración. Por la definición de probabilidad condiconada:

P (A ∩ B)
P (A|B) = ,
P (B)
P (B ∩ A)
P (B|A) =
P (A)

y dado que A ∩ B = B ∩ A, independizandonos de P (A ∩ B) en ambas relaciones queda


demostrado el teorema.
En el contexto de la teorı́a de probabilidad, se dice que dos eventos A y B son
independientes si la probabilidad condicionada de uno de ellos no depende del otro,
es decir: P (A|B) = P (A). De esta manera resulta, por la definición de probabilidad
condicionada que P (A ∩ B) = P (A)P (B). No hay que confundir el concepto de in-
dependencia estadı́stica de eventos con el de eventos excluyentes (Definición 1). Una
forma de diferenciarlos es tener en cuenta que si dos eventos son excluyentes se cumple
que P (A ∩ B) = 0, mientras que si son independientes P (A ∩ B) = P (A)P (B), como
acabamos de ver.
12 ELEMENTOS DE PROBABILIDAD

III5. Variable aleatoria: densidad de probabilidad.


Cuando los posibles eventos A1 , A2 , · · · de un espacio muestral S son números
reales, dichos eventos son evidentemente independientes. Entonces es factible interpre-
tar esos números como posibles valores de una variable aleatoria (va). Es decir, una
va X es una función desde el espacio muestral S en un espacio de estados (el conjunto
de numeros reales R), es decir, X : S → R.
Una de las ventajas de introducir el concepto de va radica en la simplificación del
manejo de diferentes funciones de va, por ejemplo: eX , X n , etc.
Si los valores posibles de la va X consisten en un conjunto numerable de números
x1 , x2 , · · · , decimos que la va X es discreta. Mientras que si los valores posibles de
la va X consisten en números reales dentro de algún intervalo [a, b], decimos que
la va X es continua. En general, llamaremos al espacio de muestra de una va X su
dominio y lo denotaremos por DX . Entonces, en el contexto de la teorı́a axiomática de la
probabilidad, cada evento de la va X, es decir, los números x1 , x2 , · · · , tendrá asociado
una probabilidad P (x1 ), P (x2 ), · · · ; y por el Corolario 4 cumplen la relación

X
P (xn ) = 1. (I.1)
n

En el caso especial en que un sólo evento es cierto, por ejemplo xp , y ninguno del
resto puede ocurrir tendremos que

P (xn ) = δn,p ,

donde δn,p es la delta de Kronecker.


En el caso de que la va X sea continua y, por ejemplo, definida en un intervalo DX ,
aparecen nuevas dificultades en la teorı́a axiomática, que hasta ahora sólo definimos
adecuadamente para un espacio muestral numerable (aunque no esté a la vista), que
son evitadas mediante artilugios matemáticos muy sofisticados. Sin embargo nosotros
trataremos el problema con cierta soltura, realizando una definición ad hoc.

Definición I.10 Se define la densidad de probabilidad asociada a una va X con-


tinua cuyo dominio es DX = [a, b] a la función PX (x) que cumple con:

1. PX (x) ≥ 0 ∀x ∈ DX ;

2. DX PX (x0 )dx0 = 1;
R

3. PX (x)dx es la probabilidad de que la va X tome un valor x dentro del intervalo


dx;
Rx
4. FX (x) ≡ P rob.[X ≤ x] = a dx0 PX (x0 ) es la probabilidad de que la va X tome
un valor menor que x.
III Teorı́a axiomática. 13

Si la va X es discreta, su distribución de probabilidad puede ser formalmente des-


crita como una va continua usando la delta de Dirac

X
P (x) = P (xn )δ(x − xn ), (I.2)
n

para ello sólo es cuestión de recordar que la delta de Dirac sólo tiene significado bajo
integración mediante la propiedad:
Z
f (xp ) = dxδ (x − xp ) f (x). (I.3)

Definición I.11 Se define el promedio de una función f (X) de la va X cuyo dominio


es DX y densidad de probabilidad PX (x) como:
Z
hf (X)i = dx0 f (x0 )PX (x0 ). (I.4)
DX

En particular se define el promedio de la va X como hXi y la varianza de la va


X como h(X − hXi)2 i, siendo posible demostrar que h(X − hXi)2 i = hX 2 i − hXi2 .

Observación I.1 De las propiedades de la delta de Dirac y la Definición I.11, surge


una propiedad válida para cualquier va

PX (x) = hδ (X − x)i , (I.5)

ya que Z
hδ (X − x)i = dx0 δ (x0 − x) PX (x0 ) = PX (x)
DX

Observación I.2 Por la cuarta propiedad de la densidad de probabilidad de la Defi-


nición I.10 resulta directamente que

dFX (x)
PX (x) = . (I.6)
dx

III6. Transformación de variables aleatorias.


Dada una va X cuya densidad de probabilidad es PX (x), es natural preguntarse cuál
es la densidad de probabilidad de una función Y = g (X) de dicha va. Comenzaremos
14 ELEMENTOS DE PROBABILIDAD

considerando una ley de transformación monótona, en cuyo caso existe x = h(x) ≡


g −1 (y). Si la transformación es monótona creciente

FY (y) ≡ Prob. [Y ≤ y] = Prob. X ≤ x = g −1 (y) ≡ FX (x),


 

por lo tanto
dFY (y) dx dFX
= .
dy dy x=h(y) dx x=h(y)
O en términos más convenientes:

dx
PY (y) = PX (x = h(y)) .
dy x=h(y)

Por otro lado, si la transformación es monótona decreciente:

FY (y) ≡ Prob. [Y ≤ y] = Prob. X ≥ x = g −1 (y) = 1−Prob. X ≤ x = g −1 (y) ≡ 1−FX (x),


   

por lo que en dicho caso:



dx
PY (y) = − PX (x = h(y)) .
dy x=h(y)

Dado que en el caso de una monotonı́a creciente la derivada dx/dy es positiva y en


el caso en que es decreciente es negativa, en general, para una función monótona es
válida la relación:
dx
PY (y) = PX (x = h(y)) . (I.7)
dy x=h(y)

Para generalizar el resultado anterior para cualquier función invertible en tramos,


tengamos en cuenta que:
Z
PY (y) = hδ (Y − y)i = hδ (g(X) − y)i = dxPX (x)δ (g(x) − y) .
DX

Luego usaremos una de las las propiedades de la delta de Dirac, que consiste en lo
siguiente. Supongamos que g(x) una función con m raı́ces simples, tal que existen
r = m + 1 intervalos donde la función posee inversa. Si denotamos tales inversas como
xi = gi−1 (y) con i ≤ m + 1, entonces
r r
X δ (x − xi ) X dx
δ (g(x) − y) = 0 (x)|
= δ (x − x i ) dy −1 .

i=1
|g x=x i i=1 x=g (y)
i
IV La teorı́a axiomática y su relación con los datos experimentales. 15

De esta manera la densidad de probabilidad de la va Y está dada por


r
X dx
PX (gi−1 (y))

PY (y) = . (I.8)
i=1
dy x=gi−1 (y)

Ejercicio I.18 La distribución de Bolzmann para la velocidad de una partı́cula libre de


masa m está dada por
2
r
m − mv
PV (v) = e 2kB T
2πkB T
donde kB es una constante positiva denominada constante de Boltzmann y T es la tempera-
tura del reservorio. Determinar la distribución de probabilidad de la energı́a E = 12 mv 2 de la
partı́cula.

Ejercicio I.19 Sea la transformación de coordenada te = (AΩ)−2/3 , con A > 0, entre


el tiempo te y la va gaussiana Ω de media nula y segundo momento 1/3. Determine la
distribución de probabilidad del tiempo te .

IV. La teorı́a axiomática y su relación con los


datos experimentales.
La teorı́a axiomática de la probabilidad se aplica a los experimentos de la siguiente
manera:

1. Se asume un conjunto de condiciones experimentales, G, que pueden repetirse


cualquier número de veces.

2. Estudiamos un conjunto de eventos definidos que pueden suceder como resultado


del establecimiento de las condiciones G. En un caso particular en el que se
imponen dichas condiciones, ocurren eventos, en general, en diferentes formas.
Sea S el conjunto de todos las posibles variantes s1 , s2 , s3 , · · · de dichos eventos.
Algunas de estas variantes pueden no ocurrir. Dentro del conjunto S debemos
incluir todas las variantes que consideramos posibles a priori.

3. Si alguna variante de los eventos ocurre, al imponer las condiciones G, y pertenece


a un conjunto (evento) A (definido de alguna manera), entonces diremos que el
evento A ha tenido lugar.
Ejemplo: Sea el conjunto de condiciones G bajo las cuales se realiza el lanza-
miento de una moneda dos veces. El conjunto de eventos que se mencionan en
el párrafo (2) consiste en el hecho de que en cada lanzamiento se tenga como
resultado cara o cruz. De esto se deduce que sólo hay cuatro variantes diferentes
(sucesos elementales) posibles, a saber: CC, CX, XC, XX. Si el evento A connota
16 ELEMENTOS DE PROBABILIDAD

la presencia de una repetición, entonces está compuesto por el primero y el cuarto


de los acontecimientos. De esta manera, cada evento puede ser considerado como
un conjunto de sucesos elementales.

4. Bajo ciertas condiciones, que no discutiremos aquı́, se puede suponer que a un


evento A, que puede o no ocurrir bajo las condiciones G, se le asigna un número
real P (A) que tiene las siguientes caracterı́sticas:

a) Se puede estar prácticamente seguro que si el conjunto de condiciones G se


repite un gran número de veces, n, y m es el número de veces que ocurre el
evento A, la relación m/n será prácticamente, por una diferencia mı́nima,
igual a P (A). En términos un poco más precisos, la probabilidad está dada
por el lı́mite:
m
P (A) = lı́m (I.9)
n→∞ n

b) Si P (A) es un valor muy pequeño, se puede estar prácticamente seguro de


que cuando la condiciones G se imponen una sola vez, el evento A no puede
ocurrir.

Como comentamos anteriormente, el lı́mite (I.9) no está bien definido desde el


punto de vista matemático ya que su determinación está sujeta a la experiencia. Sin
embargo, cuando se trata de la medición de cierta va X, podemos darle cierta forma
introduciendo la denominada función escalón de Heaviside
(
0 si z < 0
Θ (z) = , (I.10)
1 si z ≥ 0

que tiene la particular propiedad de estar vinculada con la delta de Dirac mediante la
siguiente relación:
dΘ (z)
δ(z) = . (I.11)
dz
Consideremos el evento A que consiste en que la va X tome un valor menor a x.
Entonces si el número de veces en que sucede dicho evento está dado por
n
X
m= Θ (x − Xi ) ,
i=1

donde Xi es el valor que toma la va en el i-ésimo experimento. Si Xi < x entonces


Θ (x − Xi ) = 1 y si Xi > x entonces Θ (x − Xi ) = 0, de manera que el segundo
miembro de la relación anterior tendrá m términos no nulos y n − m términos nulos.
V Función Caracterı́stica 17

Ası́, la probabilidad de que la va tome un valor menor a x está dada por


n
X Θ (x − Xi )
FX (x) = Prob. [X < x] = lı́m , (I.12)
n→∞
i=1
n

que derivando respecto de x nos permite obtener la densidad de probabilidad


n
X δ (Xi − x)
PX (x) = lı́m , (I.13)
n→∞
i=1
n

ya que δ (Xi − x) = dΘ (x − Xi ) /dx. Veamos como esta formalidad nos permite saber
como obtener el promedio de cualquier función de la va f (X):
Z
hf (X)i = dx0 f (x0 )PX (x0 )
DX
n
δ (Xi − x0 )
Z X
= dx0 f (x0 ) lı́m
DX n→∞
i=1
n
n
dx0 f (x )δ (Xi − x0 )
0
R
DX
X
= lı́m ,
n→∞
i=1
n

es decir,
n
X f (Xi )
hf (X)i = lı́m . (I.14)
n→∞
i=1
n

V. Función Caracterı́stica

V1. Definición de Función Caracterı́stica.


Como vimos anteriormente, la densidad de probabilidad PX (x) permite caracterizar
el comportamiento de una va X pudiendo calcular con ella el promedio de cualquier
función f (X). Del mismo modo, la transformada de Fourier de la densidad de proba-
bilidad, facilita enormemente el análisis estadı́stico de una va.

Definición I.12 Definimos la función caracterı́stica de la va X como


Z
0
GX (k) ≡ he ikX
i= dx0 eikx PX (x0 ), (I.15)
DX

y por lo tanto Z ∞
1
PX (x) = dke−ikx GX (k), (I.16)
2π −∞

donde DX es el dominio de la va X.
18 ELEMENTOS DE PROBABILIDAD

A partir de la función caracterı́stica podemos determinar todos los momentos de la


va X. Si todos los momentos hX m i existen, GX (k) es desarrollable en serie de Taylor
al rededor de k = 0, es decir:

ikX
X (ik)m
GX (k) ≡ he i= Mm
m=0
m!

donde
1 dm GX (k)

m
Mm ≡ hX i = m . (I.17)
i dk m k=0
Observación I.3 Por la primera y segunda propiedad de la Definición I.10 resulta que
GX (0) = 1 y |GX (k)| ≤ 1, ya que:
Z
GX (0) = dx0 PX (x0 ) = 1,
ZDX Z Z
0 ikx0
dx0 eikx PX (x0 ) ≤ 0 0
dx0 PX (x0 ) = 1.

|GX (k)| = dx e PX (x ) =
DX DX DX

Ejercicio I.20 Sea la probabilidad de Poisson:

λn
PN (n) = exp(−λ); n ∈ [0, 1, 2, · · · ], λ ∈ (0, ∞)
n!

donde PN (n) da la probabilidad de que la va N tome algún valor n. Muestre que la función
caracterı́stica está dada por

GN (k) = exp [−λ(1 − exp(ik))] .

Calcule todos los momentos de la va N .

Ejercicio I.21 Sea la probabilidad binomial:

M!
PB (n) = pn (1 − p)M −n ; n ∈ [1, · · · , M ], M ∈ N , p ∈ [0, 1].
n! (M − n)!

Aquı́ el “experimento”tiene dos posibles eventos, A y B, con probabilidades intrı́nsecas


P (A) = p y P (B) = 1 − p respectivamente; entonces, si realizamos M experiencias indepen-
dientes y nos preguntamos por la probabilidad de obtener n eventos A [en cualquier orden
de salida], PB (n) da esa expectación. Obtenga su correspondiente función caracterı́stica

GB (k) = (p exp(ik) + (1 − p))M .

Ejercicio I.22 Sea la distribución de probabilidad de Gauss:

−(x − µ)2
 
1
PX (x) = √ exp ; x ∈ [−∞, +∞], {µ, σ} ∈ Re ,
2πσ 2 2σ 2
V Función Caracterı́stica 19

donde PX (x) dx da la probabilidad de que la va X esté en el intervalo diferencial [x, x + dx].


Note que el dominio de la va X es el continuo de los valores de la recta real. Demostrar que
su función caracterı́stica es

σ2 2
 
GX (k) = exp ikµ − k .
2

Ejercicio I.23 Usando la función caracterı́stica de la probabilidad binomial obtenga, invo-


cando un lı́mite adecuado, la probabilidad de Poisson donde λ = M p.

Ejercicio I.24 Muestre que la función caracterı́stica de la distribución de probabilidad


gamma
cb b−1 −cx
PX (x) = x e ; x ∈ [0, ∞], {b, c} ≥ 0,
Γ(b)
es
cb
GX (k) =
(c − ik)b
Note que en este caso la va X tiene soporte estrictamente no negativo; por otro lado, el
caso b = 1 corresponde a la distribución exponencial. A partir de GX (k) demuestre que el
momento de orden n de la va X es

b(b + 1) · · · (b + n − 1)
hX n i =
cn
2 ≡ (X − hXi)2 = b/c2 .


Muestre que la dispersión viene dada por σX

Ejercicio I.25 Calcule la normalización de una distribución gaussiana con soporte no ne-
gativo y valor más probable en xp .

V2. Random Walk.


Consideremos la suma de ciertas va Xl con l ≤ r, estadı́sticamente independientes
entre sı́ e igualmente distribuidas
r
X
Yr = Xl ,
l=1

donde cada va Xl puede tomar como valor ±1, con probabilidad p y q = 1 − p, respec-
tivamente. Las variables aleatorias Xl pueden representar los pasos de un caminante al
azar que parte del origen de coordenadas y realiza un paso hacia adelante con probabi-
lidad p y un paso hacia atrás con probabilidad q. Ası́, si el caminante realiza r pasos Yr
es la posición del mismo después de realizarlos. Veremos como es posible determinar,
mediante la función caracterı́stica, la probabilidad de que el caminante esté en una
posición y después de haber realizado r pasos.
20 ELEMENTOS DE PROBABILIDAD

La función caracterı́stica de esta va Yr estará dada por:


r
X
ikYr
GYr (k) = he iP (Yr ) = eiky PYr (y). (I.18)
y=−r

Dado que las va Xi son ei, la probabilidad de la va Yr es


r
Y
P Yr = PXl (xl ),
l=1

Qr
y dado que eiky = l=1 eikxl , la función caracterı́stica puede reescribirse

X X r
Y r
Y X
ikxl
eikxl PXl (xl ),

GYr (k) = ··· e PXl (xl ) =
x1 ∈{−1,1} xr ∈{−1,1} l=1 l=1 xl ∈{−1,1}

ya que la sumatoria y=r


P P P
y=−r es equivalente a las sumatorias x1 ∈{−1,1} · · · xr ∈{−1,1} .
Dado que las va Xl están igualmente distribuidas
 r
X r
GYr (k) =  eikxl PXl (xl ) = peik + qe−ik .
xl ∈{−1,1}

Usando el desarrollo del binomio de Newton:


r
r
X r!
(A + B) = An B r−n ,
n=0
n!(r − n)!

podemos escribir GYr (k)


r
X r!
GYr (k) = pn q r−n eik(2n−r) .
n=0
n!(r − n)!

Definiendo como nueva variable y = 2n − r, reescribimos la sumatoria como


r
r! r+y r−y
 r−y  p( 2 ) q ( 2 ) eiky .
X
GYr (k) = r+y
y=−r 2
! 2 !

Entonces, recordando (I.18) identificamos

r! r+y r−y
PYr (y) = r+y
 r−y  p( 2 ) q ( 2 ) , (I.19)
2
! 2 !

que es la probabilidad de que la va Yr tomo un valor y en el intervalo [−r, r].


Ahora consideraremos que las probabilidades de realizar un paso hacia adelante o
hacia atrás son son iguales, es decir, p = q = 1/2. Además consideraremos un número
V Función Caracterı́stica 21

infinito de pasos, es decir, consideraremos el lı́mite r → ∞. Podemos utilizar el conocido


teorema de Stirling
√  r r

r! = 2πr ,
e
para realizar las aproximaciones
  s   (r±y)/2
r±y ∼ r±y r±y
! = 2π .
2 2 2e

Estas aproximaciones no necesariamente mantienen la normalización de la densidad de


probabilidad PYr (y). Por ello, antepondremos un factor, que denominaremos A, cuyo
valor determinaremos al imponer la condición de normalización una vez realizadas las
aproximaciones correspondientes. De esta manera
√ r r

2πr
PYr (y) ∼
=A q qe
,
r+y r+y (r+y)/2 r−y r−y (r−y)/2
   
2r 2π 2 2e
2π 2 2e

que puede reescribirse como:

2A
PYr (y) ∼
=√ q  y   y .
y 2 y r (1+ r )/2 y r (1− r )/2
 
2πr 1 − r
1+ r
1− r

Ahora, usando los siguientes lı́mites:


 y r
lı́m 1 ± = e±y
r→∞
r r
 y 2
lı́m 1 − = 1,
r→∞ r

tenemos
y2
e− 2r
PYr (y) ∼
= 2A √ .
2πr

Ahora impondremos escalas espaciales y temporales para darle un sentido fı́sico a


la caminata realizada. Diremos que en cada paso el caminante avanza o retrocede una
distancia elemental a, de manera que la posición final es x = ay. Además, diremos que
cada paso se realiza en un intervalo de tiempo τ y por lo tanto el tiempo en que realiza
r pasos es t = rτ . Ası́, teniendo en cuenta la transformación de variables:

2
− 2x
dy e 4(a /2τ )t
Pt (x) = PYr=t/τ (y = x/a) ∼
= 2A p 2
dx y=x/a 4(a /2τ )t
22 ELEMENTOS DE PROBABILIDAD

y definiendo d = a2 /2τ (con τ, a → 0 para que x, t y d estén bien definidos):

x2
e− 4dt
Pt (x) = 2A √
4dt
R +∞
Finalmente, de la condición de normalización −∞
Pt (x) dx = 1 es fácil ver que A = 1/2
y por lo tanto
x2
e− 4dt
Pt (x) = √ (I.20)
4dt
es decir, Pt (x) es una distribución de Gauss con promedio nulo y varianza hx(t)2 i = 2dt.

V3. Función de función caracterı́stica.

Como interés particular estudiaremos la distribución de probabilidad de la suma de


un conjunto numerable de variables aleatorias estadı́sticamente independientes entre
sı́ (vaei) con la particularidad de que el número de sumandos sea una va. Si r es un
número aleatorio entero positivo caracterizado por la probabilidad Pr , y {Xl }l≤r un
conjunto de r vaei con distribución PXl , la suma
r
X
Y = Xl
l=1

es una nueva va, tanto por el carácter de cada una de las vaei Xl como por el carácter
aleatorio del número r de variables. La función caracterı́stica de la va Y está dada por

X Z
iky
GY (k) ≡ he i= Pr dyPYr (y)eiky .
r=0 DYr

donde tanto la densidad de probabilidad PYr como el dominio DYr dependen del valor
que toma r en la sumatoria. Esto se debe a que r junto con las caracterı́sticas de cada
una de las va Xl (en particular sus dominiosDXl ) definen a la va Y y determinan el
lı́mite de los valores a los cuales tiene acceso.

Si usamos el hecho de que las Xl son vaei, es decir,


r
Y
P Yr = PXl (xl )
l=1
V Función Caracterı́stica 23

R R R
y que la integral DYr
dy es equivalente a las integrales DX1
dx1 · · · D Xr
dxr , tendremos:

∞ Z Z r
! r
!
X Y Y
ikxl
GY (k) = Pr dx1 · · · dxr PXl (xl ) e .
r=0 DX1 DXr l=1 l=1
X∞ r Z
Y
= Pr dxl PXl (xl )eikxl .
r=0 l=1 DXl

Además, como las va Xl tienen igual distribución:



X Z
r
GY (k) = Pr (GX (k)) con GX (k) = dxPX (x)eikx .
r=0 DX

A este resultado es posible darle mayor prolijidad introduciendo la llamada función


generatriz.

Definición I.13 Sea r una variable aleatoria entera positiva cuya probabilidad es Pr ,
se define su función generatriz como

X
fr [Z] ≡ Pr Z r . (I.21)
r=0

Ası́, tendremos que


GY (k) = fr [GX (k)] , (I.22)

que es el resultado al que querı́amos llegar.

Observación I.4 Note que en general la función generatriz y la función caracterı́stica


de la misma va r están relacionadas por

X
ikr
Pr eikr = fr eik .
 
Gr (k) ≡ he i=
r=0

Ejercicio I.26 (Suma aleatoria de variables gaussianas.) Suponga que Xj es una va


Pr
gaussiana de media nula y varianza 1. Calcule la función caracterı́stica de Y = j=1 Xj
suponiendo que el número de sumandos r está caracterizado por una probabilidad de Poisson
λr −λ
Pr = r! e . Muestre además que hY i = 0 y hY 2 i = λ.
24 ELEMENTOS DE PROBABILIDAD

V4. Teorema central del lı́mite.

Teorema I.2 Sea {Xi }i≤N un conjunto de vaei y sea la va definida como X =
PN
i=1 Xi entonces:

N
X
M ≡ hXi = hXi i ;
i=1
N
X
2 2
σi2 = N σi2 ,

σ ≡ (X − hXi) =
i=1

donde σi ≡ (Xi − hXi i)2 .



Demostración. El primer resultado surge trivialmente de la definición de la va X:


* N + N
X X
M = hXi = Xi = hXi i .
i=1 i=1

Para obtener el segundo resultado debemos tener en cuenta que:

σ 2 ≡ (X − hXi)2 = X 2 − hXi2


Del primer resultado tenemos que:

N
X N
X N
X
2 2 2
M = hXi = hXi i hXj i = hXi i + hXi i hXj i .
i,j=1 i=1 i,j=1/i6=j

Por otro lado:


* N
!2 + * N
+ N
X X X
2


M2 = X = Xi = Xi X j = hXi Xj i
i=1 i,j=1 i,j=1
N
X N
X
Xi2 +


= hXi Xj i .
i=1 i,j=1/i6=j

Luego, dado que {Xi }i≤N es un conjunto de vaei:

Z Z Z N
!
Y
hXi Xj ii6=j = dxPX (x)xi xj = dx1 · · · dxN PXi (xi ) xi xj
DX Dx1 DxN i=1
Z ! Z !
= dxi PXi (xi )xi dxj PXj (xj )xj = hXi i hXj i .
Dxi D xj
V Función Caracterı́stica 25

entonces
N N

2 X
2 X
X = Xi + hXi i hXj i .
i=1 i,j=1/i6=j

De esta manera:
N
X N N N

2 X X  X
σ 2 = X 2 − hXi2 = hXi i2 = Xi − hXi i2 =

2
σi2 = N σi2 .


Xi −
i=1 i=1 i=1 i=1

donde se hizo uso de que σi es el mismo para cualquier va del conjunto {Xi }i≤N .

Teorema I.3 (Teorema Central del Lı́mite) Sea {Xi }i≤N un conjunto de vaei
que cumplen con las condiciones:

(i)
M1 ≡ hXi i < ∞;
(i)
M2 ≡ Xi2 < ∞.

PN
Sea además la va definida como X = i=1 Xi entonces:

(x−M )2
e− 2σ 2
lı́m PX (x) = √ .
N →∞ 2πσ 2

donde, como se demostró en el teorema anterior:

N
X (i)
M= M1 ;
i=1
N
X
σ2 = σi2 = N σi2 .
i=1

Demostración. Sea la va definida por

X −M
Z= ,
σ

entonces:
    N
D k E k k
GZ (k) = eikZ = ei σ (X−M ) = GX−M

= GXi −M (i) .
σ 1 σ

(i)
La función caracterı́stica de la va Xi − M1 puede escribirse en términos de sus mo-
mentos:
∞  m
k2 2
  X  
k 1 ik
i m
 1
GXi −M1i = Xi − M1 = 1 − 2 σi + O 3
,
σ m=0
m! σ 2σ σ
26 ELEMENTOS DE PROBABILIDAD

D E
2
ya que hXi − M1i i = 0 y (Xi − M1i ) = σi2 . Teniendo en cuenta que σ 2 = N σi2 ,
podemos reescribir la última relación como:

k2
   
k 1
GXi −M1i =1− +O .
σ 2N N 3/2

De esta manera: N


k2
 
1
GZ (k) = 1 − +O .
2N N 3/2
y por lo tanto:
N N
k2 k2
  
1 k2
lı́m GZ (k) = lı́m 1− +O = lı́m 1− = 2 e− 2 .
N →∞ N →∞ 2N N 3/2 N →∞ 2N

Finalmente obtengamos la función caracterı́stica de la va X a partir de GZ (k):

GX (k) = eikX = eik(σZ+M ) = eikM eikσZ = eikM GZ (kσ)





entonces
lı́m GX (k) = eikM lı́m GZ (kσ),
N →∞ N →∞

es decir:
σ2 2
lı́m GX (k) = eikM − 2
k
N →∞

Esta es la función caracterı́stica de una va del tipo gaussiana con promedio M y


varianza σ 2 , es decir
(x−M )2
e− 2σ 2
lı́m PX (x) = √ ,
N →∞ 2πσ 2
con lo que queda demostrado el teorema.

El teorema central del lı́mite es de crucial importancia para la fı́sica experimen-


tal, ya que una superposición lineal de muchas variables aleatorias con momento y
varianza acotadas genera una va del tipo gaussiana. Ası́, si estamos seguros que en la
medición de una va se cumplen las hipótesis de este teorema, bastará con determinar
experimentalmente el momento y la varianza de la distribución para caracterizar a la
va completamente.

2
Hemos usado el famoso lı́mite notable:
 α N
lı́m 1+ = eα .
N →∞ N
VI Entropı́a probabilista: una medida de falta de información. 27

VI. Entropı́a probabilista: una medida de falta de


información.
En esta sección trataremos el concepto de información como un concepto matemáti-
co asociado con la teorı́a de probabilidad, que será esencial dentro de la mecánica es-
tadı́stica para intentar entender el significado de la entropı́a en términos microscópicos.
La densidad de probabilidad asociada a una va representa el conocimiento que
tenemos de ella. Este conocimiento no es completo: claramente la información que
disponemos de una va es máxima cuando hacemos una predicción con certeza. En
términos más generales, tendremos más conocimiento de la va cuando el número de
valores a los cuales tiene acceso es pequeño que cuando hay una gran número de
posibles valores de acceso con aproximadamente el mismo valor de probabilidad. En esta
sección formularemos matemáticamente estas ideas intuitivas: veremos como cuantificar
la cantidad de información que nos falta para caracterizar con certeza una va dado que
sólo conocemos el comportamiento probabilı́stico de la va.

VI1. Falta de información.


Cuando el dominio DX de una va X, es decir el conjunto de valores al cual tiene
acceso, está constituido por un sólo elemento x0 resulta que PX (x) = δ (X − x0 ). En
ese caso, diremos que la va es determinı́sta, es decir, se puede estar seguro que el
evento asociado al valor x0 ocurrirá. En otras palabras, cuando la va es determinista
tenemos una información completa de su comportamiento. Sin embargo, cuando somos
incapaces de conocer con total certeza el comportamiento de una va y sólo sabemos que
puede acceder a un conjunto de valores, determinados por su dominio DX , con cierta
probabilidad PX (x), podemos decir que nos falta información sobre su comportamiento
determinista. Es de nuestro interés construir una medida de la información faltante para
caracterizar el comportamiento determinista de una va dado que sólo tenemos una
información probabilista de los posibles valores que puede tomar la va. Es necesario
recalcar la diferencia entre la información del comportamiento determinista de una va
con la información probabilista de la misma.
El conocimiento del valor de la densidad de probabilidad PX (x1 ) en un valor
x1 ∈ DX determina nuestra imposibilidad de conocer el comportamiento determinista
de la va. Ası́, el establecimiento de un comportamiento probabilista de una va está aso-
ciado a una falta de información del comportamiento determinista de la misma. Este
razonamiento impulsa la siguiente definición:

Definición I.14 Definimos la falta de información s [PX (x1 )] como la cantidad


de información que falta para caracterizar completamente (determinı́sticamente) a una
28 ELEMENTOS DE PROBABILIDAD

va X dado que asumimos un comportamiento probabilista de la misma en el valor


x1 ∈ DX .

Es claro que la falta de información debe ser una función decreciente de la densidad
de probabilidad PX (x), ya que a medida que esta aumenta tendremos más información
del comportamiento de la va en el valor x. Por ello postulamos el siguiente axioma:

Axioma I.6 La falta de información s [PX (x)] es una función monótona decreciente
de la densidad de probabilidad PX (x).

Por otro lado, dado que los eventos de una va son estadı́sticamente independientes,
la falta de información asociada a cada uno de ellos debe contribuir a la falta de
información total de manera independiente. Este hecho motiva el siguiente axioma de
aditividad de la falta de información:

Axioma I.7 La falta de información s [PX (x1 , x2 )] determinada por el conocimiento


probabilista de una va X en los valores x1 y x2 de su dominio está dada por:

s [PX (x1 ; x2 )] = s [PX (x1 )] + s [PX (x2 )] , (I.23)

donde PX (x1 ; x2 ) es la probabilidad conjunta de que la va tome los valores x1 y x2 .

Teorema I.4 (Forma funcional de la falta de información) La falta de infor-


mación asociada al conocimiento del comportamiento probabilista de una va X en un
valor x1 de su dominio es

s [PX (x1 )] = −k ln [PX (x1 )] . (I.24)

donde k es una constante positiva.


Demostración. Es increı́ble como sólo a partir de una propiedad general de las
variables aleatorias como es la independencia estadı́stica de sus eventos asociados, de
la Definición I.14 y de los Axiomas I.6 y I.7 surge naturalmente la forma funcional de
la falta de información.
Antes que nada, dado que los eventos asociados a una va son estadı́sticamente
independientes, la probabilidad conjunta PX (x1 ; x2 ) = PX (x1 )PX (x2 ) y por lo tanto el
Axioma I.6 puede reescribirse como:

s [PX (x1 )PX (x2 )] = s [PX (x1 )] + s [PX (x2 )] .

De esta manera, la falta de información cumple la importante propiedad de que


s [µν] = s [µ] + s [ν].
VI Entropı́a probabilista: una medida de falta de información. 29

Un importante teorema que surge de la Teorı́a de la Medida asegura que

f (x + y) = f (x) f (y) ⇔ f (x) = eαx .

Ası́, si definimos g ≡ f −1 y denotamos por µ = f (x) y ν = f (y), teniendo en cuenta


que x = g (µ) e y = g (ν):

f (x + y) = f (x) f (y) ⇔ g (µν) = g (µ) + g (ν) .

Y dado que,
1
f (x) = eαx ⇔ g(µ) = β ln(µ) con β = ,
α
resulta directamente que

g (µν) = g (µ) + g (ν) ⇔ g(µ) = β ln(µ).

Luego, como la falta de información cumple la primer proposición de la sentencia lógica


anterior podemos asegurar que s [µ] = β ln [µ]. Finalmente, el Axioma I.6 impone que
s [µ] debe ser una función decreciente de µ y eso deriva en que β = −k con k una
constante positiva, es decir, s [µ] = −k ln [µ] con k > 0.

VI2. Entropı́a estadı́stica.


Una vez definido y bien establecido el concepto de falta de información, es inmediata
la siguiente definición:

Definición I.15 Se define la entropı́a estadı́stica S como el promedio de la falta


de información, es decir:
Z
S = hs [PX (x)]i = −k dxPX (x) ln [PX (x)] . (I.25)
DX

Veremos más adelante como la entropı́a estadı́stica coincide con la entropı́a ter-
modinámica cuando se hace uso de la Teorı́a de la Probabilidad para fundamentar la
Termodinámica a partir de un análisis microscópico de los sistemas en términos de la
Mecánica.

Ejercicio I.27 Determinar la entropı́a estadı́stica de una va X uniforme que cuyo dominio
es DX = {x1 , . . . , xΩ }.

Ejercicio I.28 Calcular la entropı́a estadı́stica de una va gaussiana.


30 ELEMENTOS DE PROBABILIDAD

Ayuda: Pueden resultar útiles las siguiente identidades:


Z +∞ Z +∞ 
2 −αx2 ∂ −αx2
dxx e =− dxe
−∞ ∂α −∞
Z +∞ r (I.26)
−αx2 π
dxe =
−∞ α

You might also like