Elementos de Probabilidad

ELEMENTOS DE PROBABILIDAD
por
Maximiliano Baldiviezo
Agosto de 2013
Mecánica Estadı́stica
Departamento de Fı́sica
Facultad de Ciencias Exáctas
Universidad Nacional de Salta
Índice de contenidos
Índice de contenidos iii
I. ELEMENTOS DE PROBABILIDAD 1
I. Teorı́a clásica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
I1. Técnicas de conteo. . . . . . . . . . . . . . . . . . . . . . . . . . 2
II. Teorı́a frecuentı́sta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
III. Teorı́a axiomática. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
III1. Axiomas de Kolmogorov. . . . . . . . . . . . . . . . . . . . . . . 7
III2. El lenguaje de la teorı́a axiomática. . . . . . . . . . . . . . . . . 8
III3. Corolarios inmediatos de los axiomas de Kolmogorov. . . . . . . 9
III4. Probabilidad condicionada, teorema de Bayes e independencia
estadı́stica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
III5. Variable aleatoria: densidad de probabilidad. . . . . . . . . . . . 12
III6. Transformación de variables aleatorias. . . . . . . . . . . . . . . 13
IV. La teorı́a axiomática y su relación con los datos experimentales. . . . . 15
V. Función Caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
V1. Definición de Función Caracterı́stica. . . . . . . . . . . . . . . . 17
V2. Random Walk. . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
V3. Función de función caracterı́stica. . . . . . . . . . . . . . . . . . 22
V4. Teorema central del lı́mite. . . . . . . . . . . . . . . . . . . . . . 24
VI. Entropı́a probabilista: una medida de falta de información. . . . . . . . 27
VI1. Falta de información. . . . . . . . . . . . . . . . . . . . . . . . . 27
VI2. Entropı́a estadı́stica. . . . . . . . . . . . . . . . . . . . . . . . . 29
iii
MECÁNICA ESTADÍSTICA 2013
ELEMENTOS DE PROBABILIDAD
Ninguna disciplina matemática ha tenido un espectro tan amplio de aplicación,

desde la Biologı́a a la Economı́a, pasando por la Fı́sica y la Quı́mica, como lo ha
tenido la teorı́a de la probabilidad. No es posible exponer, ni siquiera resumir, en un sólo
capı́tulo un tema tan extenso y ramificado como el de la probabilidad. Sin embargo, la
idea de este apunte es dar el puntapié inicial para entender el concepto de probabilidad
¿Qué mejor forma de comenzar a hacerlo que la de seguir los pasos mismos de la
historia?.
I. Teorı́a clásica.
La idea de probabilidad nace relativamente tarde en la historia del conocimien-
to. Paradójicamente, las primeras aproximaciones al cálculo de probabilidades fueron
impulsadas no por problemas cientı́ficos sino por intereses esencialmente prácticos. El
matemático y filósofo Blaise Pascal fue animado a reflexionar sobre el concepto de pro-
babilidad por un amigo suyo, el caballero Méré, que era un aficionado a los juegos de
azar. La definición matemática propuesta por Pascal (denominada definición clásica),
nació como una obvia generalización de situaciones que se verifican en el juego. La
primera teorı́a de la probabilidad, actualmente denominada teorı́a clásica, fue elabora-
da durante el siglo XVIII. Jacob Bernoulli (1654-1705) fue el primero que escribió un
tratado sistemático sobre ella; y también el Reverendo Thomas Bayes hizo una impor-
tante contribución a la misma. A fines del mismo siglo, el gran matemático y fı́sico
Pierre Simon de Laplace escribió el primer gran tratado sobre el tema. Contenı́a una
vasta elaboración matemática de una teorı́a de la probabilidad y puede ser considerada
como la obra cumbre del perı́odo clásico. Todo lo realizado hasta ese momento de la
historia tenı́a como pilar la siguiente definición de probabilidad:
Definición I.1 (Definición clásica de probabilidad) La probabilidad de un evento

es la relación entre el número de casos favorables al evento en cuestión y el número de
casos posibles, donde los casos posibles han de ser todos equiprobables.
1
2 ELEMENTOS DE PROBABILIDAD
De la definición de probabilidad clásica se desprende directamente la importancia

de contar todos los casos posibles y los casos asociados a un evento determinado.
En primera instancia podrı́amos creer que contar el número de casos asociados a un
evento no presenta ninguna dificultad y que constituye el simple acto de determinar
uno a uno todos los casos posibles y luego proceder a identificar los casos favorables a
un evento dado. Sin embargo, cuando el número de casos en cuestión es muy grande
o pretendemos hacer un análisis de situaciones generales sin especificar el valor de los
parámetros del problema, esta tarea es irrealizable. Por ello es necesario nutrirse de
métodos generales de conteo, esenciales para el cálculo de probabilidades en el sentido
clásico. Realicemos un repaso de tales métodos con la intención de formalizarlos como
herramientas generales para contar.
I1. Técnicas de conteo.

Consideremos un conjunto de n elementos definido como An ≡ {ai }i≤n . Diremos
que un conjunto de este tipo es un n-conjunto. Llamaremos a cualquier subconjunto
formado por r elementos de An una r-muestra de An y lo denotaremos por
M (An , r) ≡ {mi ∈ An }i≤r≤n ⊆ An .
En principio, la definición de una r-muestra no dice nada sobre orden de sus elemen-
tos ya que simplemente está caracterizada por los elementos que la componen. Surge
de esta manera la necesidad de clasificar los tipos de muestras de un n-conjunto según
se tenga o no en cuenta el orden de sus elementos.
Con la intención de discernir el orden de los elementos de una r-muestra, vamos a
definir una r-permutación asociada al n-conjunto An como un arreglo ordenado de
r elementos de An :
P (An , r) ≡ (pi ∈ An )i≤r≤n = (p1 , . . . , pr ) .
Análogamente, con el fin de no contemplar el orden de una r-muestra, definimos

una r-combinación asociada al n-conjunto An como un arreglo no ordenado de r
elementos de An :
C[An , r] ≡ [ci ∈ An ]i≤r≤n = [c1 , . . . , cr ] .
Ası́, por ejemplo, las combinaciones C [A15 , 3] ≡ [c1 , c2 , c3 ] = [a5 , a7 , a13 ] y D [A15 , 3] ≡
[d1 , d2 , d3 ] = [a13 , a7 , a5 ] son iguales, por tratarse de los mismos elementos. Mientras que
las permutaciones P (A15 , 3) ≡ (p1 , p2 , p3 ) = (a5 , a7 , a13 ) y Q (A15 , 3) ≡ (q1 , q2 , q3 ) =
(a13 , a7 , a5 ) son diferentes a pesar de estar formadas por los mismos elementos ya que
el orden en que están dispuestos difiere.
I Teorı́a clásica. 3
Cabe recalcar que la definición de muestra, y por lo tanto también la de permuta-

ción y combinación, contempla el hecho de que los elementos que lo conforman pueden
estar repetidos. Una forma útil de visualizar este hecho es la de imaginar al n-conjunto
en cuestión como una urna que contiene n elementos. Para formar una r-muestra rea-
lizamos una extracción de r elementos. Si nos interesa hacer hincapié en el orden en
que extraemos los elementos, registramos cada extracción en una serie de r casilleros
numerados y ası́ podemos formar una r-permutación. Si el orden no nos interesa re-
gistramos los elementos extraı́dos en cualquier orden para formar una r-combinación.
Ambos procesos pueden realizarse bajo dos condiciones diferentes. El primero de ellos
consiste en que cada vez que extraemos un elemento de la urna no volvemos a colocarlo
dentro de ella hasta formar la combinación o la permutación. De esta manera los ele-
mentos no se repiten en ninguna de ellas. Por lo contrario, después de cada extracción
podemos devolver el elemento a la urna siendo posible extraerlo posteriormente. Ası́,
las permutaciones o combinaciones pueden contener más de una vez al mismo elemento.
Es en este contexto en el que surge naturalmente la cuestión de ¿cuántas r-permutaciones

o r-combinaciones pueden formarse a partir de un n-conjunto? Por supuesto que la res-
puesta a esta pregunta será diferente si consideramos o no la posibilidad de que los
elementos de una muestra se repitan.
Nos concentremos en situaciones en las que las muestras en cuestión no contienen

elementos repetidos. Sea Pnr el número de r-permutaciones y Cnr el de r-combinaciones.
No es difı́cil de entender que ambos cantidades son independientes de las caracterı́sticas
particulares del n-conjunto An y están totalmente determinadas por n y r. Por ello, los
resultados que obtendremos en lo siguiente serán ampliamente generales. Como primera
cuestión, podemos considerar una r-muestra M (An , r) sin repeticiones y observar que
con ella podemos generar una y sólo una r-combinación. Sin embargo, podremos generar
un total de r! r-permutaciones. En otras palabras por cada r-combinación tendremos
r! r-permutaciones. Este hecho nos permite inferir directamente que el número total
de r-permutaciones se relaciona con el número total de r-combinaciones mediante la
relación:
Pnr = r! Cnr .
Para determinar el número total de r-permutaciones basta con tener en cuenta

que existen n posibilidades para el primer elemento, por cada una de esas posibilida-
des habrán (n − 1) posibilidades para el segundo elemento y haciendo razonamientos
análogos para el resto de los elementos llegaremos a que hay (n − r + 1) posibilidades
para el r-ésimo elemento. De esta manera
n!
Pnr = n (n − 1) · · · (n − r + 1) = ,
(n − r)!
y por lo tanto
n!
Cnr = .
r! (n − r)!
Una caracterı́stica interesante de la r-combinaciones sin repetición es que el número
total de ellas coincide con el número total de r-subconjuntos del n-conjunto en cuestión.
Ahora consideremos situaciones en las que una r-muestra con repetición. Para for-
mar una r-permutación tendremos n posibilidades para el primer elemento, por cada
una de ellas tendremos otras n posibilidades para el segundo elemento y ası́ sucesiva-
mente para los restantes. De esta manera el número de r-permutaciones con repetición
está dado por:
P Rnr = nr .
Para obtener el número de r-combinaciones con repetición CRnr debemos hacer

un razonamiento mas sofisticado. Para ello debemos tener en cuenta que cualquier
n-conjunto An = {a1 , . . . , an } puede ponerse en una correspondencia biunı́voca con
el conjunto de los primeros n números naturales Nn = {1, . . . , n}. Ası́, el número de
r-combinaciones de An coincide con el de Nn . Luego, podemos formar una r-muestra
de Nn de la forma M (Nn , r) = {m1 , m2 , . . . , mr : mi ∈ Nn ∀i ≤ r ∧ m1 ≤ m2 ≤
· · · ≤ mr } donde las igualdades corresponden a la repetición de los elementos. Dicha
muestra puede ponerse en una correspondencia biunı́voca con el conjunto {m1 +0, m2 +
1, . . . , mr + r − 1} cuyos elementos son todos diferentes. El menor valor posible de sus
elementos es el número 1 y el mayor el número n + r − 1. Por ello, resulta directamente
que dicho conjunto es una r-muestra del (n+r−1)-conjunto Nn+r−1 = {1, . . . , n+r−1}.
En otros términos M 0 (Nn+r−1,r ) = {m1 + 0, m2 + 1, . . . , mr + r − 1} es una r-muestra
sin repeticiones de Nn+r−1 y por lo tanto el número de r-combinaciones asociadas es
r
Cn+r−1 y coincide con el número de r-combinaciones con repetición de Nn que a su vez
coincide con el número de r-combinaciones con repetición de An . Es decir,
(n + r − 1)!
CRnr = Cn+r−1
r
= .
r! (n − 1)!
Toda esta estructura formal es un conglomerado de herramientas muy potentes

para la determinación de probabilidades en el sentido clásico. Para convencerse de ello,
basta con considerar algunos ejemplos y poner en práctica las técnicas de conteo.
Ejercicio I.1 Una urna contiene 5 bolillas numeradas del 1 al 5. Se sacan sucesivamente al
azar las 5 bolillas (sin reposición) ¿Cuál es la probabilidad de que juntando los números de
cada bolilla según el orden de extracción resulte el número 21345?
Ejercicio I.2 Una urna contiene 10 bolillas numeradas del 0 al 9. Se sacan sucesivamente
al azar 5 bolillas (sin reposición) ¿Cuál es la probabilidad de que juntando los números de
cada bolilla según el orden de extracción resulte el número 80314?
I Teorı́a clásica. 5
Ejercicio I.3 Una urna contiene a bolillas blancas y b bolillas negras. Al sacar al azar
r bolillas de una vez (suponiendo r ≤ a) ¿cuál es la probabilidad de que todas ellas sean
blancas?
Ejercicio I.4 Se tienen 5 pares de zapatos mezclados y cada par es distinto de los demás.
Si se eligen dos zapatos al azar, ¿qué probabilidad hay de que correspondan al mismo par?
Ejercicio I.5 Se tiene una baraja de 40 cartas, donde hay 4 ases. Se reparten entre 4
personas, de manera que cada uno tenga 10 cartas, ¿cuál es la probabilidad de que a cada
uno le toque un as?
Ejercicio I.6 Si n personas se sientan al azar en una fila, ¿cuál es la probabilidad de que
dos de ellas queden una al lado de la otra?
Ejercicio I.7 Se elige al azar un número de 6 cifras. Hallar la probabilidad de que todas
las cifras sean diferentes.
Ejercicio I.8 En una urna hay 20 bolillas numeradas del 1 al 20. Si se van sacando al azar
una a una sin reposición ¿cuál es la probabilidad de que la bolilla número 8 salga precisamente
en la octava extracción?
Ejercicio I.9 De un grupo de 6 mujeres y 4 hombres se deben elegir 3 personas para que
los representen en 3 congresos a desarrollarse en mayo, junio y setiembre.
1. Si a cada congreso debe ir una persona diferente. Calcular la probabilidad de que:
a) a los dos primeros congresos vayan mujeres;

b) haya exactamente una mujer entre las tres personas elegidas;
c) haya por lo menos una mujer entre las tres personas elegidas;
d ) al segundo congreso vaya una mujer.
2. Suponiendo que una persona puede ir a más de un congreso, calcular las mismas pro-
babilidades que en el inciso 1.
3. Con la misma hipótesis que en el inciso 1 y suponiendo que lo único que importa es
elegir a las tres personas que irán a los congresos, sin importar a cuál de ellas, calcular
las probabilidades del inciso 1 que tengan sentido para este experimento.
Ejercicio I.10 Dado un n-conjunto An ¿cuál es el número total de sus subconjuntos? ¿Y

cuál es la probabilidad de que al formar un subconjunto al azar éste contenga r elementos?
Ejercicio I.11 Consideremos un conjunto S y ciertos subconjuntos del mismo Ti ⊆ S con

i ≤ k. El conjunto de tales subconjuntos se denomina partición de S si S = ki=1 Ti y
S
T
Ti Tj = ∅ ∀i 6= j. En particular, si S es un n-conjunto y cada subconjunto Ti es un ri -
subconjunto de S, dicha partición se denomina una (r1 , r2 , . . . , rk )-partición de S y se cumple
que ki=1 ri = n. Determinar el número total de (r1 , r2 , . . . , rk )-particiones de S.
P
Ejercicio I.12 Considere una idealización de un cristal que contiene N sitios del tipo A,
el mismo número de sitios del tipo B (defectos) y N átomos en total. Suponga que hay n
átomos en sitios del tipo B. Determine el número total de formas de acomodar los N átomos
en el cristal bajo estas condiciones.
Ejercicio I.13 Considere una superficie con Ns sitios. En estos sitios pueden absorberse
moléculas de dos tipos diferentes. Suponga que en la superficie hay absorbidas nA moléculas
del tipo A y nB moléculas del tipo B. Determine el número total de configuraciones posibles.
II. Teorı́a frecuentı́sta.

En la teorı́a clásica todo parece muy claro, hasta obvio, pero hay un obstáculo
importante para esta teorı́a. Los autores clásicos afirmaban que, antes de poder aplicar
su definición de probabilidad, es menester asegurarse de que todos los eventos posibles
son igualmente probables, es decir, equiprobables. Pero entonces, al parecer, estamos
atrapados en un cı́rculo vicioso. Tratamos de definir qué entendemos por probabilidad
y, al hacerlo, usamos el concepto de equiprobabilidad. En realidad, los defensores de la
teorı́a clásica no utilizaban exactamente esos términos. Decı́an que los casos deben ser
equiposibles. Esta expresión, a su vez, era definida mediante un famoso principio al que
llamaban el principio de razón insuficiente. En la actualidad, se lo llama comúnmente
el principio de indiferencia. Este establece que si no se conoce ninguna razón por la cual
un evento deba producirse con preferencia a otro entonces los eventos son equiposibles.
Poco a poco, durante el siglo XIX, se elevaron algunas voces crı́ticas contra la defini-
ción clásica. En el siglo XX, al rededor de 1920, Richard von Mises y Hans Reichenbach
sometieron el enfoque clásico a energéticas crı́ticas, dando lugar a la teorı́a frecuentı́sta
de la probabilidad. Mises decı́a que la equiposibilidad sólo puede ser entendida en el
sentido de equiprobabilidad. Pero si esto es lo que significa, estamos atrapados en un
cı́rculo vicioso. La tradición clásica, afirmaba Mises, es circular y, por ende, inútil. En
el aspecto constructivo, Mises y Reichenbach sostenı́an lo siguiente. El único modo de
cerciorarse de la equiprobabilidad es hacer lo irrenunciable en fı́sica: realizar el expe-
rimento. Se realiza el experimento cien, mil, un millón de veces y nos convencemos
de que ninguno de los distintos eventos posibles aparecen con más frecuencia que las
demás. De este modo, Mises y Reichenbach sostenı́an que la razón entre la frecuencia
de un dado evento y la cantidad de experimentos realizados, magnitud denominada
frecuencia relativa, es una medida de la probabilidad de que dicho evento ocurra. Y
no hay que confundirse, la frecuencia relativa es sólo una medida de la probabilidad.
Los frecuentı́stas fueron cuidadosos en ese aspecto, ya que la frecuencia relativa de-
pende considerablemente de la cantidad de pruebas realizadas. No obstante, es posible
efectuar una serie de experimentos, que consistan en un número cada vez mayor de
III Teorı́a axiomática. 7
pruebas, y de esta manera extraer una sucesión de frecuencias relativas con denomi-
nador creciente, del tipo:
m1 m2 m3 m4
, , , , ...
n1 n2 n3 n4
con n1 < n2 < n3 < n4 < ... Ası́, haciendo crecer indefinidamente el denominador,
la sucesión tiende a un valor fijo de la frecuencia relativa. Sobre esta base, Mises y
Reichenbach postulan la siguiente definición de probabilidad:
Definición I.2 (Definición frecuentı́sta) La probabilidad de un evento es el lı́mite

de la frecuencia relativa del evento en cuestión, cuando el número de experimentos
tiende a infinito.
La definición frecuentı́sta tiene aparentemente una forma matemática correcta. Pe-

ro, en realidad, ¿qué sentido puede tener el lı́mite de una sucesión que no definimos
matemáticamente, sino que determinamos a partir de la experiencia y una posterior
extrapolación (ya que no es posible realizar infinitos experimentos)?¿Y qué nos asegura
que este lı́mite existe?.
III. Teorı́a axiomática.

Un giro decisivo en la historia del concepto de probabilidad se dio con la axioma-
tización de la teorı́a, propuesta por el matemático ruso Andrej Kolmogorov, en 1933.
Después de Kolmogorov, el status lógico de la teorı́a de la probabilidad se parece al de
muchas teorı́as matemáticas y fı́sicas (la aritmética, la teorı́a de conjuntos, la mecánica
clásica, etc).
Según el planteamiento axiomático, no se debe pretender tener una definición
explı́cita de probabilidad. Sino que debemos limitarnos a dar un conjunto de axio-
mas que la definen implı́citamente. Todas las definiciones explı́citas que verifican los
axiomas de Kolmogorov se consideran buenas representaciones del concepto de proba-
bilidad.
La teorı́a de Kolmogorov es matemáticamente bastante simple e intuitiva y, dejando
de lado los aspectos excesivamente rigurosos, nos adentraremos en ella.
III1. Axiomas de Kolmogorov.

Sea S un conjunto de ciertos elementos, que denominaremos espacio muestral, y sea
F un conjunto de subconjuntos de S. Los elementos de F los denominaremos eventos.
Sobre estas definiciones, los axiomas de Kolmogorov son:
1
Axioma I.1 F es un campo de conjuntos.
Axioma I.2 F contiene al conjunto S.
Axioma I.3 Cada evento A perteneciente a F tiene asociado un número real positivo
P (A). El número P (A) se denomina probabilidad del evento A.
Axioma I.4 P (S) = 1.
Axioma I.5 Si A ∩ B = ∅ (con ∅ el conjunto vacı́o), entonces
P (A ∪ B) = P (A) + P (B).
El espacio muestral S, sistema de conjuntos F y la función probabilidad P (A) de

un dado evento A, forman en conjunto lo que se denomina campo de probabilidad.
Esta sistema de axiomas es consistente, es decir, se puede probar que ninguno de
ellos contradice al otro. Sin embargo, es incompleto, ya que en varios problemas de
probabilidad es posible definir diferentes campos de probabilidad para ser analizados
en base al sistema de axiomas de Kolmogorov. Esto está relacionado con el hecho
de que existe cierta arbitrariedad en la definición de la función probabilidad, ya que
los axiomas no la determinan en su totalidad. Ası́, vemos que la teorı́a axiomática
de ninguna manera logró dar solución a los problemas históricos relacionados con el
concepto de probabilidad. Sin embargo, como veremos más adelante, esta teorı́a permite
introducir un arsenal de conceptos que son muy útiles para resolver ciertos problemas.
III2. El lenguaje de la teorı́a axiomática.

Dado que los axiomas de Kolmogorov están expresados en términos de la teorı́a de
conjuntos, resulta necesario establecer una conexión entre éstos y el lenguaje coloquial
de la teorı́a de probabilidades:
Definición I.3 Si A∩B = ∅, diremos que los eventos A y B son excluyentes, es decir,
no pueden ocurrir simultáneamente.
Definición I.4 Si A∩B = X, diremos que el evento X define la ocurrencia simultanea

de los eventos A y B.
1
Este axioma es el más difı́cil de entender y no es necesario detenerse en él, solo lo exponemos por
completitud. Un sistema de conjuntos se denomina campo si la unión, la intersección y la diferencia
de dos conjuntos del sistema también pertenece al sistema.
Definición I.5 Sea Ae el complemento de A. Entonces diremos el evento A

e define la
no ocurrencia del evento A.
Definición I.6 Si A = ∅ diremos que el evento A es imposible.
Definición I.7 Si A = S diremos que el evento A ocurrirá.
Definición I.8 Si B ⊂ A, diremos que la ocurrencia del evento B implica inevitable-

mente la ocurrencia del evento A.
III3. Corolarios inmediatos de los axiomas de Kolmogorov.

De los axiomas de Kolmogorov se deducen ciertos corolarios que son muy útiles
para poder desarrollar ciertas ideas más adelante.
Corolario I.1 Sea A un evento y A

e su complemento, entonces
1. P (A) = 1 − P (A)
e
2. 0 ≤ P (A) ≤ 1.
Demostración. Como A ∪ A
e=S y A∩A
e = ∅, por el Axioma I.5 resulta
P (S) = P (A ∪ A)
e = P (A) + P (A)
e
y como por el Axioma I.4 P (S) = 1, resulta directamente que P (A) = 1 − P (A). e
Finalmente, por el Axioma I.3 P (A) ≥ 0 y P (A)
e ≥ 0 y por lo tanto, es fácil ver que
0 ≤ P (A) ≤ 1.
Corolario I.2 P (∅) = 0.

Demostración. Teniendo en cuenta que Se = ∅, por el corolario anterior P (∅) =
P (S)
e = 1 − P (S) y como el Axioma I.4 impone que P (S) = 1 resulta que P (∅) = 0.
Corolario I.3 Si A y B son dos eventos excluyentes entonces P (A ∩ B) = 0.

Demostración. Si A y B son eventos excluyentes A∩B = ∅, entonces por el corolario
anterior P (A ∩ B) = P (∅) = 0.
Corolario I.4 Si A1 , A2 , A3 , · · ·, AN son eventos mutuamente excluyentes y además

A1 ∪ A2 ∪ A3 ∪ · · · ∪ AN = S, es decir, la unión de ellos representa el conjunto de todos
los eventos posibles, entonces N
P
n=1 P (An ) = 1.
Demostración. Dado que la unión todos los conjuntos es el espacio muestral, que
cumple con el Axioma I.4 P (S) = 1, tenemos que P (A1 ∪ · · · ∪ AN ) = 1. Finalmente,
como los conjuntos {Ai } son mutuamente excluyentes, por el axioma A5 resulta la
igualdad buscada N
P
n=1 P (An ) = 1.
Corolario I.5 Si B1 , B2 , B3 , · · ·, BN son todos los eventos posibles mutuamente exclu-

yentes, es decir: ∪N
n=1 Bn = S y Bi ∩ Bj = ∅ con i 6= j (∀i, j = 1, · · · , N ), entonces
PN
n=1 P (A ∩ Bn ) = P (A).
Demostración. Como ∪N n=1 Bn = S tenemos que P (A) = P (A ∩ S) = P (A ∩
(∪N N
n=1 Bn )) = P (∪n=1 (A ∩ Bn )). Además, dado que Bi ∩ Bj = ∅ (∀i, j = 1, · · · , N )
se deduce que los conjuntos {A ∩ Bi } también son mutuamente excluyentes y por lo
tanto P (A) = N
P
n=1 P (A ∩ Bn ).
Corolario I.6 Para cualesquiera dos eventos A y B se cumple la relación:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Demostración. Sea A/B = {x : x ∈ A ∧ x ∈

/ B}. Como A = (A/B) ∪ (A ∩ B) y
(A/B) ∩ (A ∩ B) = ∅,
P (A) = P (A/B) + P (A ∩ B) .
Análogamente se cumple que
P (B) = P (B/A) + P (A ∩ B) .
Además, dado que A ∪ B = (A/B) ∪ (A ∩ B) ∪ (B/A) con (A/B), (A ∩ B) y (B/A)

mutuamente excluyentes:
P (A ∪ B) = P (A/B) + P (A ∩ B) + P (B/A) .
Remplazando las relaciones primeras dos relaciones en la tercera obtenemos lo bus-

cado:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) .
III4. Probabilidad condicionada, teorema de Bayes e indepen-

dencia estadı́stica.
Definición I.9 (Probabilidad condicionada). Se define la probabilidad del evento
A concidionado a que ocurra el evento B como el siguiente cociente entre probabilida-
des:
P (A ∩ B)
P (A|B) = .
P (B)
Corolario I.7 La probabilidad condicionada P (A|B) es una probabilidad, es decir,

cumple los Axiomas I.3 y I.4 de Kolmogorov.
Demostración. Como P (A ∩ B) ≥ 0 y P (B) ≥ 0 por ser probabilidades: P (A | B) =
P (A ∩ B)/P (B) ≥ 0. Por otro lado P (S | B) = P (S ∩ B)/P (B) = P (B)/P (B) = 1.
Ejercicio I.14 Sean A1 , A2 y B tres eventos tales que A1 ∩ A2 = ∅, demostrar que

P (A1 ∪ A2 |B) = P (A1 |B) + P (A2 |B).
Ejercicio I.15 Si A ⊂ B, P (A) = 1/4 y P (B) = 1/3 encontrar P (A|B) y P (B|A).
Ejercicio I.16 Demostrar que P (A ∩ B|C) = P (A|B ∩ C) P (B|C) y P (A ∩ B ∩ C) =

P (A|B ∩ C) P (B|C) P (C).
Ejercicio I.17 (Regla de la Cadena) Demostrar la llamada regla de la cadena mediante

el Principio de Inducción: P (An ∩ · · · ∩ A1 ) = P (An |An−1 ∩ · · · ∩ A1 ) · · · P (A2 |A1 ) P (A1 ).
Teorema I.1 (Teorema de Bayes) Sean dos eventos A y B, entonces sus probabi-
lidades condicionadas cumplen la siguiente relación:
P (B|A)P (A)
P (A|B) = .
P (B)
Demostración. Por la definición de probabilidad condiconada:
P (A ∩ B)
P (A|B) = ,
P (B)
P (B ∩ A)
P (B|A) =
P (A)
y dado que A ∩ B = B ∩ A, independizandonos de P (A ∩ B) en ambas relaciones queda

demostrado el teorema.
En el contexto de la teorı́a de probabilidad, se dice que dos eventos A y B son
independientes si la probabilidad condicionada de uno de ellos no depende del otro,
es decir: P (A|B) = P (A). De esta manera resulta, por la definición de probabilidad
condicionada que P (A ∩ B) = P (A)P (B). No hay que confundir el concepto de in-
dependencia estadı́stica de eventos con el de eventos excluyentes (Definición 1). Una
forma de diferenciarlos es tener en cuenta que si dos eventos son excluyentes se cumple
que P (A ∩ B) = 0, mientras que si son independientes P (A ∩ B) = P (A)P (B), como
acabamos de ver.
III5. Variable aleatoria: densidad de probabilidad.

Cuando los posibles eventos A1 , A2 , · · · de un espacio muestral S son números
reales, dichos eventos son evidentemente independientes. Entonces es factible interpre-
tar esos números como posibles valores de una variable aleatoria (va). Es decir, una
va X es una función desde el espacio muestral S en un espacio de estados (el conjunto
de numeros reales R), es decir, X : S → R.
Una de las ventajas de introducir el concepto de va radica en la simplificación del
manejo de diferentes funciones de va, por ejemplo: eX , X n , etc.
Si los valores posibles de la va X consisten en un conjunto numerable de números
x1 , x2 , · · · , decimos que la va X es discreta. Mientras que si los valores posibles de
la va X consisten en números reales dentro de algún intervalo [a, b], decimos que
la va X es continua. En general, llamaremos al espacio de muestra de una va X su
dominio y lo denotaremos por DX . Entonces, en el contexto de la teorı́a axiomática de la
probabilidad, cada evento de la va X, es decir, los números x1 , x2 , · · · , tendrá asociado
una probabilidad P (x1 ), P (x2 ), · · · ; y por el Corolario 4 cumplen la relación
X
P (xn ) = 1. (I.1)
n
En el caso especial en que un sólo evento es cierto, por ejemplo xp , y ninguno del
resto puede ocurrir tendremos que
P (xn ) = δn,p ,
donde δn,p es la delta de Kronecker.

En el caso de que la va X sea continua y, por ejemplo, definida en un intervalo DX ,
aparecen nuevas dificultades en la teorı́a axiomática, que hasta ahora sólo definimos
adecuadamente para un espacio muestral numerable (aunque no esté a la vista), que
son evitadas mediante artilugios matemáticos muy sofisticados. Sin embargo nosotros
trataremos el problema con cierta soltura, realizando una definición ad hoc.
Definición I.10 Se define la densidad de probabilidad asociada a una va X con-

tinua cuyo dominio es DX = [a, b] a la función PX (x) que cumple con:
1. PX (x) ≥ 0 ∀x ∈ DX ;
2. DX PX (x0 )dx0 = 1;
R
3. PX (x)dx es la probabilidad de que la va X tome un valor x dentro del intervalo

dx;
Rx
4. FX (x) ≡ P rob.[X ≤ x] = a dx0 PX (x0 ) es la probabilidad de que la va X tome
un valor menor que x.
Si la va X es discreta, su distribución de probabilidad puede ser formalmente des-

crita como una va continua usando la delta de Dirac
X
P (x) = P (xn )δ(x − xn ), (I.2)
n
para ello sólo es cuestión de recordar que la delta de Dirac sólo tiene significado bajo
integración mediante la propiedad:
Z
f (xp ) = dxδ (x − xp ) f (x). (I.3)
Definición I.11 Se define el promedio de una función f (X) de la va X cuyo dominio

es DX y densidad de probabilidad PX (x) como:
Z
hf (X)i = dx0 f (x0 )PX (x0 ). (I.4)
DX
En particular se define el promedio de la va X como hXi y la varianza de la va

X como h(X − hXi)2 i, siendo posible demostrar que h(X − hXi)2 i = hX 2 i − hXi2 .
Observación I.1 De las propiedades de la delta de Dirac y la Definición I.11, surge

una propiedad válida para cualquier va
PX (x) = hδ (X − x)i , (I.5)
ya que Z
hδ (X − x)i = dx0 δ (x0 − x) PX (x0 ) = PX (x)
DX
Observación I.2 Por la cuarta propiedad de la densidad de probabilidad de la Defi-

nición I.10 resulta directamente que
dFX (x)
PX (x) = . (I.6)
dx
III6. Transformación de variables aleatorias.

Dada una va X cuya densidad de probabilidad es PX (x), es natural preguntarse cuál
es la densidad de probabilidad de una función Y = g (X) de dicha va. Comenzaremos
considerando una ley de transformación monótona, en cuyo caso existe x = h(x) ≡

g −1 (y). Si la transformación es monótona creciente
FY (y) ≡ Prob. [Y ≤ y] = Prob. X ≤ x = g −1 (y) ≡ FX (x),

por lo tanto
dFY (y) dx dFX
= .
dy dy x=h(y) dx x=h(y)
O en términos más convenientes:

dx
PY (y) = PX (x = h(y)) .
dy x=h(y)
Por otro lado, si la transformación es monótona decreciente:
FY (y) ≡ Prob. [Y ≤ y] = Prob. X ≥ x = g −1 (y) = 1−Prob. X ≤ x = g −1 (y) ≡ 1−FX (x),

por lo que en dicho caso:

dx
PY (y) = − PX (x = h(y)) .
dy x=h(y)
Dado que en el caso de una monotonı́a creciente la derivada dx/dy es positiva y en

el caso en que es decreciente es negativa, en general, para una función monótona es
válida la relación:
dx
PY (y) = PX (x = h(y)) . (I.7)
dy x=h(y)
Para generalizar el resultado anterior para cualquier función invertible en tramos,

tengamos en cuenta que:
Z
PY (y) = hδ (Y − y)i = hδ (g(X) − y)i = dxPX (x)δ (g(x) − y) .
DX
Luego usaremos una de las las propiedades de la delta de Dirac, que consiste en lo
siguiente. Supongamos que g(x) una función con m raı́ces simples, tal que existen
r = m + 1 intervalos donde la función posee inversa. Si denotamos tales inversas como
xi = gi−1 (y) con i ≤ m + 1, entonces
r r
X δ (x − xi ) X dx
δ (g(x) − y) = 0 (x)|
= δ (x − x i ) dy −1 .

i=1
|g x=x i i=1 x=g (y)
i
IV La teorı́a axiomática y su relación con los datos experimentales. 15
De esta manera la densidad de probabilidad de la va Y está dada por

r
X dx
PX (gi−1 (y))

PY (y) = . (I.8)
i=1
dy x=gi−1 (y)
Ejercicio I.18 La distribución de Bolzmann para la velocidad de una partı́cula libre de

masa m está dada por
2
r
m − mv
PV (v) = e 2kB T
2πkB T
donde kB es una constante positiva denominada constante de Boltzmann y T es la tempera-
tura del reservorio. Determinar la distribución de probabilidad de la energı́a E = 12 mv 2 de la
partı́cula.
Ejercicio I.19 Sea la transformación de coordenada te = (AΩ)−2/3 , con A > 0, entre

el tiempo te y la va gaussiana Ω de media nula y segundo momento 1/3. Determine la
distribución de probabilidad del tiempo te .
IV. La teorı́a axiomática y su relación con los

datos experimentales.
La teorı́a axiomática de la probabilidad se aplica a los experimentos de la siguiente
manera:
1. Se asume un conjunto de condiciones experimentales, G, que pueden repetirse

cualquier número de veces.
2. Estudiamos un conjunto de eventos definidos que pueden suceder como resultado

del establecimiento de las condiciones G. En un caso particular en el que se
imponen dichas condiciones, ocurren eventos, en general, en diferentes formas.
Sea S el conjunto de todos las posibles variantes s1 , s2 , s3 , · · · de dichos eventos.
Algunas de estas variantes pueden no ocurrir. Dentro del conjunto S debemos
incluir todas las variantes que consideramos posibles a priori.
3. Si alguna variante de los eventos ocurre, al imponer las condiciones G, y pertenece

a un conjunto (evento) A (definido de alguna manera), entonces diremos que el
evento A ha tenido lugar.
Ejemplo: Sea el conjunto de condiciones G bajo las cuales se realiza el lanza-
miento de una moneda dos veces. El conjunto de eventos que se mencionan en
el párrafo (2) consiste en el hecho de que en cada lanzamiento se tenga como
resultado cara o cruz. De esto se deduce que sólo hay cuatro variantes diferentes
(sucesos elementales) posibles, a saber: CC, CX, XC, XX. Si el evento A connota
la presencia de una repetición, entonces está compuesto por el primero y el cuarto

de los acontecimientos. De esta manera, cada evento puede ser considerado como
un conjunto de sucesos elementales.
4. Bajo ciertas condiciones, que no discutiremos aquı́, se puede suponer que a un

evento A, que puede o no ocurrir bajo las condiciones G, se le asigna un número
real P (A) que tiene las siguientes caracterı́sticas:
a) Se puede estar prácticamente seguro que si el conjunto de condiciones G se

repite un gran número de veces, n, y m es el número de veces que ocurre el
evento A, la relación m/n será prácticamente, por una diferencia mı́nima,
igual a P (A). En términos un poco más precisos, la probabilidad está dada
por el lı́mite:
m
P (A) = lı́m (I.9)
n→∞ n
b) Si P (A) es un valor muy pequeño, se puede estar prácticamente seguro de

que cuando la condiciones G se imponen una sola vez, el evento A no puede
ocurrir.
Como comentamos anteriormente, el lı́mite (I.9) no está bien definido desde el

punto de vista matemático ya que su determinación está sujeta a la experiencia. Sin
embargo, cuando se trata de la medición de cierta va X, podemos darle cierta forma
introduciendo la denominada función escalón de Heaviside
(
0 si z < 0
Θ (z) = , (I.10)
1 si z ≥ 0
que tiene la particular propiedad de estar vinculada con la delta de Dirac mediante la
siguiente relación:
dΘ (z)
δ(z) = . (I.11)
dz
Consideremos el evento A que consiste en que la va X tome un valor menor a x.
Entonces si el número de veces en que sucede dicho evento está dado por
n
X
m= Θ (x − Xi ) ,
i=1
donde Xi es el valor que toma la va en el i-ésimo experimento. Si Xi < x entonces

Θ (x − Xi ) = 1 y si Xi > x entonces Θ (x − Xi ) = 0, de manera que el segundo
miembro de la relación anterior tendrá m términos no nulos y n − m términos nulos.
V Función Caracterı́stica 17
Ası́, la probabilidad de que la va tome un valor menor a x está dada por

n
X Θ (x − Xi )
FX (x) = Prob. [X < x] = lı́m , (I.12)
n→∞
i=1
n
que derivando respecto de x nos permite obtener la densidad de probabilidad

n
X δ (Xi − x)
PX (x) = lı́m , (I.13)
n→∞
i=1
n
ya que δ (Xi − x) = dΘ (x − Xi ) /dx. Veamos como esta formalidad nos permite saber
como obtener el promedio de cualquier función de la va f (X):
Z
hf (X)i = dx0 f (x0 )PX (x0 )
DX
n
δ (Xi − x0 )
Z X
= dx0 f (x0 ) lı́m
DX n→∞
i=1
n
n
dx0 f (x )δ (Xi − x0 )
0
R
DX
X
= lı́m ,
n→∞
i=1
n
es decir,
n
X f (Xi )
hf (X)i = lı́m . (I.14)
n→∞
i=1
n
V. Función Caracterı́stica
V1. Definición de Función Caracterı́stica.

Como vimos anteriormente, la densidad de probabilidad PX (x) permite caracterizar
el comportamiento de una va X pudiendo calcular con ella el promedio de cualquier
función f (X). Del mismo modo, la transformada de Fourier de la densidad de proba-
bilidad, facilita enormemente el análisis estadı́stico de una va.
Definición I.12 Definimos la función caracterı́stica de la va X como

Z
0
GX (k) ≡ he ikX
i= dx0 eikx PX (x0 ), (I.15)
DX
y por lo tanto Z ∞
1
PX (x) = dke−ikx GX (k), (I.16)
2π −∞
donde DX es el dominio de la va X.
A partir de la función caracterı́stica podemos determinar todos los momentos de la

va X. Si todos los momentos hX m i existen, GX (k) es desarrollable en serie de Taylor
al rededor de k = 0, es decir:
∞
ikX
X (ik)m
GX (k) ≡ he i= Mm
m=0
m!
donde
1 dm GX (k)

m
Mm ≡ hX i = m . (I.17)
i dk m k=0
Observación I.3 Por la primera y segunda propiedad de la Definición I.10 resulta que
GX (0) = 1 y |GX (k)| ≤ 1, ya que:
Z
GX (0) = dx0 PX (x0 ) = 1,
ZDX Z Z
0 ikx0
dx0 eikx PX (x0 ) ≤ 0 0
dx0 PX (x0 ) = 1.

|GX (k)| = dx e PX (x ) =
DX DX DX
Ejercicio I.20 Sea la probabilidad de Poisson:
λn
PN (n) = exp(−λ); n ∈ [0, 1, 2, · · · ], λ ∈ (0, ∞)
n!
donde PN (n) da la probabilidad de que la va N tome algún valor n. Muestre que la función
caracterı́stica está dada por
GN (k) = exp [−λ(1 − exp(ik))] .
Calcule todos los momentos de la va N .
Ejercicio I.21 Sea la probabilidad binomial:
M!
PB (n) = pn (1 − p)M −n ; n ∈ [1, · · · , M ], M ∈ N , p ∈ [0, 1].
n! (M − n)!
Aquı́ el “experimento”tiene dos posibles eventos, A y B, con probabilidades intrı́nsecas

P (A) = p y P (B) = 1 − p respectivamente; entonces, si realizamos M experiencias indepen-
dientes y nos preguntamos por la probabilidad de obtener n eventos A [en cualquier orden
de salida], PB (n) da esa expectación. Obtenga su correspondiente función caracterı́stica
GB (k) = (p exp(ik) + (1 − p))M .
Ejercicio I.22 Sea la distribución de probabilidad de Gauss:
−(x − µ)2

1
PX (x) = √ exp ; x ∈ [−∞, +∞], {µ, σ} ∈ Re ,
2πσ 2 2σ 2
donde PX (x) dx da la probabilidad de que la va X esté en el intervalo diferencial [x, x + dx].

Note que el dominio de la va X es el continuo de los valores de la recta real. Demostrar que
su función caracterı́stica es
σ2 2

GX (k) = exp ikµ − k .
2
Ejercicio I.23 Usando la función caracterı́stica de la probabilidad binomial obtenga, invo-

cando un lı́mite adecuado, la probabilidad de Poisson donde λ = M p.
Ejercicio I.24 Muestre que la función caracterı́stica de la distribución de probabilidad

gamma
cb b−1 −cx
PX (x) = x e ; x ∈ [0, ∞], {b, c} ≥ 0,
Γ(b)
es
cb
GX (k) =
(c − ik)b
Note que en este caso la va X tiene soporte estrictamente no negativo; por otro lado, el
caso b = 1 corresponde a la distribución exponencial. A partir de GX (k) demuestre que el
momento de orden n de la va X es
b(b + 1) · · · (b + n − 1)
hX n i =
cn
2 ≡ (X − hXi)2 = b/c2 .

Muestre que la dispersión viene dada por σX
Ejercicio I.25 Calcule la normalización de una distribución gaussiana con soporte no ne-
gativo y valor más probable en xp .
V2. Random Walk.

Consideremos la suma de ciertas va Xl con l ≤ r, estadı́sticamente independientes
entre sı́ e igualmente distribuidas
r
X
Yr = Xl ,
l=1
donde cada va Xl puede tomar como valor ±1, con probabilidad p y q = 1 − p, respec-
tivamente. Las variables aleatorias Xl pueden representar los pasos de un caminante al
azar que parte del origen de coordenadas y realiza un paso hacia adelante con probabi-
lidad p y un paso hacia atrás con probabilidad q. Ası́, si el caminante realiza r pasos Yr
es la posición del mismo después de realizarlos. Veremos como es posible determinar,
mediante la función caracterı́stica, la probabilidad de que el caminante esté en una
posición y después de haber realizado r pasos.
La función caracterı́stica de esta va Yr estará dada por:

r
X
ikYr
GYr (k) = he iP (Yr ) = eiky PYr (y). (I.18)
y=−r
Dado que las va Xi son ei, la probabilidad de la va Yr es

r
Y
P Yr = PXl (xl ),
l=1
Qr
y dado que eiky = l=1 eikxl , la función caracterı́stica puede reescribirse
X X r
Y r
Y X
ikxl
eikxl PXl (xl ),

GYr (k) = ··· e PXl (xl ) =
x1 ∈{−1,1} xr ∈{−1,1} l=1 l=1 xl ∈{−1,1}
ya que la sumatoria y=r

P P P
y=−r es equivalente a las sumatorias x1 ∈{−1,1} · · · xr ∈{−1,1} .
Dado que las va Xl están igualmente distribuidas
 r
X r
GYr (k) =  eikxl PXl (xl ) = peik + qe−ik .
xl ∈{−1,1}
Usando el desarrollo del binomio de Newton:

r
r
X r!
(A + B) = An B r−n ,
n=0
n!(r − n)!
podemos escribir GYr (k)

r
X r!
GYr (k) = pn q r−n eik(2n−r) .
n=0
n!(r − n)!
Definiendo como nueva variable y = 2n − r, reescribimos la sumatoria como

r
r! r+y r−y
r−y p( 2 ) q ( 2 ) eiky .
X
GYr (k) = r+y
y=−r 2
! 2 !
Entonces, recordando (I.18) identificamos
r! r+y r−y
PYr (y) = r+y
r−y p( 2 ) q ( 2 ) , (I.19)
2
! 2 !
que es la probabilidad de que la va Yr tomo un valor y en el intervalo [−r, r].

Ahora consideraremos que las probabilidades de realizar un paso hacia adelante o
hacia atrás son son iguales, es decir, p = q = 1/2. Además consideraremos un número
infinito de pasos, es decir, consideraremos el lı́mite r → ∞. Podemos utilizar el conocido

teorema de Stirling
√ r r
∼
r! = 2πr ,
e
para realizar las aproximaciones
s (r±y)/2
r±y ∼ r±y r±y
! = 2π .
2 2 2e
Estas aproximaciones no necesariamente mantienen la normalización de la densidad de

probabilidad PYr (y). Por ello, antepondremos un factor, que denominaremos A, cuyo
valor determinaremos al imponer la condición de normalización una vez realizadas las
aproximaciones correspondientes. De esta manera
√ r r

2πr
PYr (y) ∼
=A q qe
,
r+y r+y (r+y)/2 r−y r−y (r−y)/2

2r 2π 2 2e
2π 2 2e
que puede reescribirse como:
2A
PYr (y) ∼
=√ q y y .
y 2 y r (1+ r )/2 y r (1− r )/2

2πr 1 − r
1+ r
1− r
Ahora, usando los siguientes lı́mites:

y r
lı́m 1 ± = e±y
r→∞
r r
y 2
lı́m 1 − = 1,
r→∞ r
tenemos
y2
e− 2r
PYr (y) ∼
= 2A √ .
2πr
Ahora impondremos escalas espaciales y temporales para darle un sentido fı́sico a

la caminata realizada. Diremos que en cada paso el caminante avanza o retrocede una
distancia elemental a, de manera que la posición final es x = ay. Además, diremos que
cada paso se realiza en un intervalo de tiempo τ y por lo tanto el tiempo en que realiza
r pasos es t = rτ . Ası́, teniendo en cuenta la transformación de variables:
2
− 2x
dy e 4(a /2τ )t
Pt (x) = PYr=t/τ (y = x/a) ∼
= 2A p 2
dx y=x/a 4(a /2τ )t
y definiendo d = a2 /2τ (con τ, a → 0 para que x, t y d estén bien definidos):
x2
e− 4dt
Pt (x) = 2A √
4dt
R +∞
Finalmente, de la condición de normalización −∞
Pt (x) dx = 1 es fácil ver que A = 1/2
y por lo tanto
x2
e− 4dt
Pt (x) = √ (I.20)
4dt
es decir, Pt (x) es una distribución de Gauss con promedio nulo y varianza hx(t)2 i = 2dt.
V3. Función de función caracterı́stica.
Como interés particular estudiaremos la distribución de probabilidad de la suma de

un conjunto numerable de variables aleatorias estadı́sticamente independientes entre
sı́ (vaei) con la particularidad de que el número de sumandos sea una va. Si r es un
número aleatorio entero positivo caracterizado por la probabilidad Pr , y {Xl }l≤r un
conjunto de r vaei con distribución PXl , la suma
r
X
Y = Xl
l=1
es una nueva va, tanto por el carácter de cada una de las vaei Xl como por el carácter
aleatorio del número r de variables. La función caracterı́stica de la va Y está dada por
∞
X Z
iky
GY (k) ≡ he i= Pr dyPYr (y)eiky .
r=0 DYr
donde tanto la densidad de probabilidad PYr como el dominio DYr dependen del valor
que toma r en la sumatoria. Esto se debe a que r junto con las caracterı́sticas de cada
una de las va Xl (en particular sus dominiosDXl ) definen a la va Y y determinan el
lı́mite de los valores a los cuales tiene acceso.
Si usamos el hecho de que las Xl son vaei, es decir,

r
Y
P Yr = PXl (xl )
l=1
R R R
y que la integral DYr
dy es equivalente a las integrales DX1
dx1 · · · D Xr
dxr , tendremos:
∞ Z Z r
! r
!
X Y Y
ikxl
GY (k) = Pr dx1 · · · dxr PXl (xl ) e .
r=0 DX1 DXr l=1 l=1
X∞ r Z
Y
= Pr dxl PXl (xl )eikxl .
r=0 l=1 DXl
Además, como las va Xl tienen igual distribución:

∞
X Z
r
GY (k) = Pr (GX (k)) con GX (k) = dxPX (x)eikx .
r=0 DX
A este resultado es posible darle mayor prolijidad introduciendo la llamada función

generatriz.
Definición I.13 Sea r una variable aleatoria entera positiva cuya probabilidad es Pr ,
se define su función generatriz como
∞
X
fr [Z] ≡ Pr Z r . (I.21)
r=0
Ası́, tendremos que

GY (k) = fr [GX (k)] , (I.22)
que es el resultado al que querı́amos llegar.
Observación I.4 Note que en general la función generatriz y la función caracterı́stica

de la misma va r están relacionadas por
∞
X
ikr
Pr eikr = fr eik .

Gr (k) ≡ he i=
r=0
Ejercicio I.26 (Suma aleatoria de variables gaussianas.) Suponga que Xj es una va

Pr
gaussiana de media nula y varianza 1. Calcule la función caracterı́stica de Y = j=1 Xj
suponiendo que el número de sumandos r está caracterizado por una probabilidad de Poisson
λr −λ
Pr = r! e . Muestre además que hY i = 0 y hY 2 i = λ.
V4. Teorema central del lı́mite.
Teorema I.2 Sea {Xi }i≤N un conjunto de vaei y sea la va definida como X =
PN
i=1 Xi entonces:
N
X
M ≡ hXi = hXi i ;
i=1
N
X
2 2
σi2 = N σi2 ,

σ ≡ (X − hXi) =
i=1
donde σi ≡ (Xi − hXi i)2 .

Demostración. El primer resultado surge trivialmente de la definición de la va X:

* N + N
X X
M = hXi = Xi = hXi i .
i=1 i=1
Para obtener el segundo resultado debemos tener en cuenta que:
σ 2 ≡ (X − hXi)2 = X 2 − hXi2

Del primer resultado tenemos que:
N
X N
X N
X
2 2 2
M = hXi = hXi i hXj i = hXi i + hXi i hXj i .
i,j=1 i=1 i,j=1/i6=j
Por otro lado:

* N
!2 + * N
+ N
X X X
2

M2 = X = Xi = Xi X j = hXi Xj i
i=1 i,j=1 i,j=1
N
X N
X
Xi2 +

= hXi Xj i .
i=1 i,j=1/i6=j
Luego, dado que {Xi }i≤N es un conjunto de vaei:
Z Z Z N
!
Y
hXi Xj ii6=j = dxPX (x)xi xj = dx1 · · · dxN PXi (xi ) xi xj
DX Dx1 DxN i=1
Z ! Z !
= dxi PXi (xi )xi dxj PXj (xj )xj = hXi i hXj i .
Dxi D xj
entonces
N N

2 X
2 X
X = Xi + hXi i hXj i .
i=1 i,j=1/i6=j
De esta manera:
N
X N N N

2 X X X
σ 2 = X 2 − hXi2 = hXi i2 = Xi − hXi i2 =

2
σi2 = N σi2 .

Xi −
i=1 i=1 i=1 i=1
donde se hizo uso de que σi es el mismo para cualquier va del conjunto {Xi }i≤N .
Teorema I.3 (Teorema Central del Lı́mite) Sea {Xi }i≤N un conjunto de vaei
que cumplen con las condiciones:
(i)
M1 ≡ hXi i < ∞;
(i)
M2 ≡ Xi2 < ∞.

PN
Sea además la va definida como X = i=1 Xi entonces:
(x−M )2
e− 2σ 2
lı́m PX (x) = √ .
N →∞ 2πσ 2
donde, como se demostró en el teorema anterior:
N
X (i)
M= M1 ;
i=1
N
X
σ2 = σi2 = N σi2 .
i=1
Demostración. Sea la va definida por
X −M
Z= ,
σ
entonces:
N
D k E k k
GZ (k) = eikZ = ei σ (X−M ) = GX−M

= GXi −M (i) .
σ 1 σ
(i)
La función caracterı́stica de la va Xi − M1 puede escribirse en términos de sus mo-
mentos:
∞ m
k2 2
X
k 1 ik
i m
1
GXi −M1i = Xi − M1 = 1 − 2 σi + O 3
,
σ m=0
m! σ 2σ σ
D E
2
ya que hXi − M1i i = 0 y (Xi − M1i ) = σi2 . Teniendo en cuenta que σ 2 = N σi2 ,
podemos reescribir la última relación como:
k2

k 1
GXi −M1i =1− +O .
σ 2N N 3/2
De esta manera: N

k2

1
GZ (k) = 1 − +O .
2N N 3/2
y por lo tanto:
N N
k2 k2

1 k2
lı́m GZ (k) = lı́m 1− +O = lı́m 1− = 2 e− 2 .
N →∞ N →∞ 2N N 3/2 N →∞ 2N
Finalmente obtengamos la función caracterı́stica de la va X a partir de GZ (k):
GX (k) = eikX = eik(σZ+M ) = eikM eikσZ = eikM GZ (kσ)

entonces
lı́m GX (k) = eikM lı́m GZ (kσ),
N →∞ N →∞
es decir:
σ2 2
lı́m GX (k) = eikM − 2
k
N →∞
Esta es la función caracterı́stica de una va del tipo gaussiana con promedio M y

varianza σ 2 , es decir
(x−M )2
e− 2σ 2
lı́m PX (x) = √ ,
N →∞ 2πσ 2
con lo que queda demostrado el teorema.
El teorema central del lı́mite es de crucial importancia para la fı́sica experimen-

tal, ya que una superposición lineal de muchas variables aleatorias con momento y
varianza acotadas genera una va del tipo gaussiana. Ası́, si estamos seguros que en la
medición de una va se cumplen las hipótesis de este teorema, bastará con determinar
experimentalmente el momento y la varianza de la distribución para caracterizar a la
va completamente.
2
Hemos usado el famoso lı́mite notable:
α N
lı́m 1+ = eα .
N →∞ N
VI Entropı́a probabilista: una medida de falta de información. 27
VI. Entropı́a probabilista: una medida de falta de

información.
En esta sección trataremos el concepto de información como un concepto matemáti-
co asociado con la teorı́a de probabilidad, que será esencial dentro de la mecánica es-
tadı́stica para intentar entender el significado de la entropı́a en términos microscópicos.
La densidad de probabilidad asociada a una va representa el conocimiento que
tenemos de ella. Este conocimiento no es completo: claramente la información que
disponemos de una va es máxima cuando hacemos una predicción con certeza. En
términos más generales, tendremos más conocimiento de la va cuando el número de
valores a los cuales tiene acceso es pequeño que cuando hay una gran número de
posibles valores de acceso con aproximadamente el mismo valor de probabilidad. En esta
sección formularemos matemáticamente estas ideas intuitivas: veremos como cuantificar
la cantidad de información que nos falta para caracterizar con certeza una va dado que
sólo conocemos el comportamiento probabilı́stico de la va.
VI1. Falta de información.

Cuando el dominio DX de una va X, es decir el conjunto de valores al cual tiene
acceso, está constituido por un sólo elemento x0 resulta que PX (x) = δ (X − x0 ). En
ese caso, diremos que la va es determinı́sta, es decir, se puede estar seguro que el
evento asociado al valor x0 ocurrirá. En otras palabras, cuando la va es determinista
tenemos una información completa de su comportamiento. Sin embargo, cuando somos
incapaces de conocer con total certeza el comportamiento de una va y sólo sabemos que
puede acceder a un conjunto de valores, determinados por su dominio DX , con cierta
probabilidad PX (x), podemos decir que nos falta información sobre su comportamiento
determinista. Es de nuestro interés construir una medida de la información faltante para
caracterizar el comportamiento determinista de una va dado que sólo tenemos una
información probabilista de los posibles valores que puede tomar la va. Es necesario
recalcar la diferencia entre la información del comportamiento determinista de una va
con la información probabilista de la misma.
El conocimiento del valor de la densidad de probabilidad PX (x1 ) en un valor
x1 ∈ DX determina nuestra imposibilidad de conocer el comportamiento determinista
de la va. Ası́, el establecimiento de un comportamiento probabilista de una va está aso-
ciado a una falta de información del comportamiento determinista de la misma. Este
razonamiento impulsa la siguiente definición:
Definición I.14 Definimos la falta de información s [PX (x1 )] como la cantidad

de información que falta para caracterizar completamente (determinı́sticamente) a una
va X dado que asumimos un comportamiento probabilista de la misma en el valor

x1 ∈ DX .
Es claro que la falta de información debe ser una función decreciente de la densidad
de probabilidad PX (x), ya que a medida que esta aumenta tendremos más información
del comportamiento de la va en el valor x. Por ello postulamos el siguiente axioma:
Axioma I.6 La falta de información s [PX (x)] es una función monótona decreciente
de la densidad de probabilidad PX (x).
Por otro lado, dado que los eventos de una va son estadı́sticamente independientes,
la falta de información asociada a cada uno de ellos debe contribuir a la falta de
información total de manera independiente. Este hecho motiva el siguiente axioma de
aditividad de la falta de información:
Axioma I.7 La falta de información s [PX (x1 , x2 )] determinada por el conocimiento

probabilista de una va X en los valores x1 y x2 de su dominio está dada por:
s [PX (x1 ; x2 )] = s [PX (x1 )] + s [PX (x2 )] , (I.23)
donde PX (x1 ; x2 ) es la probabilidad conjunta de que la va tome los valores x1 y x2 .
Teorema I.4 (Forma funcional de la falta de información) La falta de infor-

mación asociada al conocimiento del comportamiento probabilista de una va X en un
valor x1 de su dominio es
s [PX (x1 )] = −k ln [PX (x1 )] . (I.24)
donde k es una constante positiva.

Demostración. Es increı́ble como sólo a partir de una propiedad general de las
variables aleatorias como es la independencia estadı́stica de sus eventos asociados, de
la Definición I.14 y de los Axiomas I.6 y I.7 surge naturalmente la forma funcional de
la falta de información.
Antes que nada, dado que los eventos asociados a una va son estadı́sticamente
independientes, la probabilidad conjunta PX (x1 ; x2 ) = PX (x1 )PX (x2 ) y por lo tanto el
Axioma I.6 puede reescribirse como:
s [PX (x1 )PX (x2 )] = s [PX (x1 )] + s [PX (x2 )] .
De esta manera, la falta de información cumple la importante propiedad de que

s [µν] = s [µ] + s [ν].
VI Entropı́a probabilista: una medida de falta de información. 29
Un importante teorema que surge de la Teorı́a de la Medida asegura que
f (x + y) = f (x) f (y) ⇔ f (x) = eαx .
Ası́, si definimos g ≡ f −1 y denotamos por µ = f (x) y ν = f (y), teniendo en cuenta

que x = g (µ) e y = g (ν):
f (x + y) = f (x) f (y) ⇔ g (µν) = g (µ) + g (ν) .
Y dado que,
1
f (x) = eαx ⇔ g(µ) = β ln(µ) con β = ,
α
resulta directamente que
g (µν) = g (µ) + g (ν) ⇔ g(µ) = β ln(µ).
Luego, como la falta de información cumple la primer proposición de la sentencia lógica

anterior podemos asegurar que s [µ] = β ln [µ]. Finalmente, el Axioma I.6 impone que
s [µ] debe ser una función decreciente de µ y eso deriva en que β = −k con k una
constante positiva, es decir, s [µ] = −k ln [µ] con k > 0.
VI2. Entropı́a estadı́stica.

Una vez definido y bien establecido el concepto de falta de información, es inmediata
la siguiente definición:
Definición I.15 Se define la entropı́a estadı́stica S como el promedio de la falta

de información, es decir:
Z
S = hs [PX (x)]i = −k dxPX (x) ln [PX (x)] . (I.25)
DX
Veremos más adelante como la entropı́a estadı́stica coincide con la entropı́a ter-
modinámica cuando se hace uso de la Teorı́a de la Probabilidad para fundamentar la
Termodinámica a partir de un análisis microscópico de los sistemas en términos de la
Mecánica.
Ejercicio I.27 Determinar la entropı́a estadı́stica de una va X uniforme que cuyo dominio
es DX = {x1 , . . . , xΩ }.
Ejercicio I.28 Calcular la entropı́a estadı́stica de una va gaussiana.

Ayuda: Pueden resultar útiles las siguiente identidades:

Z +∞ Z +∞
2 −αx2 ∂ −αx2
dxx e =− dxe
−∞ ∂α −∞
Z +∞ r (I.26)
−αx2 π
dxe =
−∞ α

Elementos de Probabilidad

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Elementos de Probabilidad

Uploaded by

Copyright:

Available Formats

ELEMENTOS DE PROBABILIDAD

Índice de contenidos iii

Ninguna disciplina matemática ha tenido un espectro tan amplio de aplicación,

Definición I.1 (Definición clásica de probabilidad) La probabilidad de un evento

De la definición de probabilidad clásica se desprende directamente la importancia

I1. Técnicas de conteo.

M (An , r) ≡ {mi ∈ An }i≤r≤n ⊆ An .

P (An , r) ≡ (pi ∈ An )i≤r≤n = (p1 , . . . , pr ) .

Análogamente, con el fin de no contemplar el orden de una r-muestra, definimos

Cabe recalcar que la definición de muestra, y por lo tanto también la de permuta-

Es en este contexto en el que surge naturalmente la cuestión de ¿cuántas r-permutaciones

Nos concentremos en situaciones en las que las muestras en cuestión no contienen

Para determinar el número total de r-permutaciones basta con tener en cuenta

Para obtener el número de r-combinaciones con repetición CRnr debemos hacer

Toda esta estructura formal es un conglomerado de herramientas muy potentes

1. Si a cada congreso debe ir una persona diferente. Calcular la probabilidad de que:

a) a los dos primeros congresos vayan mujeres;

Ejercicio I.10 Dado un n-conjunto An ¿cuál es el número total de sus subconjuntos? ¿Y

Ejercicio I.11 Consideremos un conjunto S y ciertos subconjuntos del mismo Ti ⊆ S con

II. Teorı́a frecuentı́sta.

Definición I.2 (Definición frecuentı́sta) La probabilidad de un evento es el lı́mite

La definición frecuentı́sta tiene aparentemente una forma matemática correcta. Pe-

III. Teorı́a axiomática.

III1. Axiomas de Kolmogorov.

Axioma I.2 F contiene al conjunto S.

Axioma I.4 P (S) = 1.

Axioma I.5 Si A ∩ B = ∅ (con ∅ el conjunto vacı́o), entonces

El espacio muestral S, sistema de conjuntos F y la función probabilidad P (A) de

III2. El lenguaje de la teorı́a axiomática.

Definición I.4 Si A∩B = X, diremos que el evento X define la ocurrencia simultanea

Definición I.5 Sea Ae el complemento de A. Entonces diremos el evento A

Definición I.6 Si A = ∅ diremos que el evento A es imposible.

Definición I.7 Si A = S diremos que el evento A ocurrirá.

Definición I.8 Si B ⊂ A, diremos que la ocurrencia del evento B implica inevitable-

III3. Corolarios inmediatos de los axiomas de Kolmogorov.

Corolario I.1 Sea A un evento y A

Corolario I.2 P (∅) = 0.

Corolario I.3 Si A y B son dos eventos excluyentes entonces P (A ∩ B) = 0.

Corolario I.4 Si A1 , A2 , A3 , · · ·, AN son eventos mutuamente excluyentes y además

Corolario I.5 Si B1 , B2 , B3 , · · ·, BN son todos los eventos posibles mutuamente exclu-

Corolario I.6 Para cualesquiera dos eventos A y B se cumple la relación:

P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

Demostración. Sea A/B = {x : x ∈ A ∧ x ∈

Análogamente se cumple que

Además, dado que A ∪ B = (A/B) ∪ (A ∩ B) ∪ (B/A) con (A/B), (A ∩ B) y (B/A)

Remplazando las relaciones primeras dos relaciones en la tercera obtenemos lo bus-

III4. Probabilidad condicionada, teorema de Bayes e indepen-

Corolario I.7 La probabilidad condicionada P (A|B) es una probabilidad, es decir,

Ejercicio I.14 Sean A1 , A2 y B tres eventos tales que A1 ∩ A2 = ∅, demostrar que

Ejercicio I.15 Si A ⊂ B, P (A) = 1/4 y P (B) = 1/3 encontrar P (A|B) y P (B|A).

Ejercicio I.16 Demostrar que P (A ∩ B|C) = P (A|B ∩ C) P (B|C) y P (A ∩ B ∩ C) =

Ejercicio I.17 (Regla de la Cadena) Demostrar la llamada regla de la cadena mediante

Demostración. Por la definición de probabilidad condiconada:

y dado que A ∩ B = B ∩ A, independizandonos de P (A ∩ B) en ambas relaciones queda

III5. Variable aleatoria: densidad de probabilidad.

donde δn,p es la delta de Kronecker.

Definición I.10 Se define la densidad de probabilidad asociada a una va X con-

3. PX (x)dx es la probabilidad de que la va X tome un valor x dentro del intervalo

Si la va X es discreta, su distribución de probabilidad puede ser formalmente des-

Definición I.11 Se define el promedio de una función f (X) de la va X cuyo dominio

En particular se define el promedio de la va X como hXi y la varianza de la va

Observación I.1 De las propiedades de la delta de Dirac y la Definición I.11, surge

PX (x) = hδ (X − x)i , (I.5)

Observación I.2 Por la cuarta propiedad de la densidad de probabilidad de la Defi-

De esta manera: N