You are on page 1of 26

1 Espacios probabilsticos.

Se presupone que el lector tiene conocimientos previos de la Teora de la Probabilidad


sobre espacios discretos como puede seguirse por ejemplo en los libros de Feller [5] o Stirza-
ker [14], as como conocimientos previos del Analisis Matematico, incluyendo conceptos
de Topologa sobre <n , sumacion de series y aspectos basicos de la Teora de Integracion
como puede ser la integral de Riemann.

1.1 Espacio muestral. Espacios muestrales no discretos.


Conceptualmente el espacio muestral asociado a un experimento no es mas que el con-
junto formado por los posibles resultados de ese experimento. Tambien es costumbre,
en terminos probabilsticos, denominar sucesos elementales a cada uno de esos posibles
resultados, pero tampoco se pretende que esto constituya una definicion excesivamente
rgida.
Como ilustracion, utilizando un bien conocido ejemplo de experimento aleatorio, cuando
se lanzan al azar dos monedas indistinguibles podemos convenir que el espacio muestral
correspondiente a este experimento esta formado por los sucesos elementales: salen
2 caras, salen 2 cruces y sale 1 cara y 1 cruz. Es frecuente sin embargo uti-
lizar tambien como espacio el que correspondera al experimento consistente en lanzar
dos monedas distinguibles, que con una notacion obvia representariamos como =
{(cara,cara), (cara,cruz), (cruz,cara), (cruz,cruz)}.
Desde el punto de vista probabilstico no existe ning
un inconveniente en la utilizacion
de ninguno de ellos; la habitual utilizacion del segundo se debe al necesario enfasis que, a
la hora de adjudicar las probabilidades (o grados de creencia) relacionadas con el experi-
mento, debe ponerse en el hecho natural de que la probabilidad del suceso sale 1 cara y
1 cruz debe ser doble que la de cada uno de los sucesos salen 2 caras, salen 2 cruces.
Al lector que no le convenza tal adjudicacion de probabilidades debera bastarle el
argumento de que una adjudicacion objetiva de probabilidades a tales sucesos sera inde-
pendiente de las cualidades fsicas del observador del resultado del experimento, por lo
que podemos pensar en una moneda roja y otra verde y una persona daltonica (incapaz
de distinguir la moneda verde de la roja) y otra sana (que si las distinga), que deberan ad-
judicar la misma probabilidad a tal suceso, doble que la de los otros, ya que efectivamente
puede ocurrir de dos formas cuando se tiene la perspectiva del segundo observador.
En realidad las consideraciones anteriores son en buena medida necesarias por la pre-
ponderancia que la formula de Laplace

casos favorables
probabilidad =
casos posibles

ha tenido tradicionalmente en el Calculo de Probabilidades, favorecida por el hecho de


que una descripcion conveniente del espacio permite reducir el problema del calculo de la
probabilidad de un suceso al (no siempre sencillo) de contar. Una de las implicaciones ab-
surdas de este planteamiento, que es preciso corregir, ha sido la usurpacion de la intuicion

1
probabilstica por la habilidad en los calculos combinatorios y una asociacion excesiva de
la Combinatoria y el Calculo de Probabilidades.
Cuando el espacio muestral es de tipo finito o numerable, situacion que englobaremos
genericamente bajo la notacion = { 1 , 2 , ... n , ...}, se dice que el espacio es discreto.
En tal caso la adjudicacion de probabilidades a cualquier suceso es inmediata a partir de
la de los sucesos elementales. La probabilidad de un suceso A (cualquier subconjunto
del espacio muestral) puede obtenerse como P (A) = k A P ( k ), ya que cualquier sub-
conjunto o parte de (la coleccion de todos sus subconjuntos se representara por P())
es a lo sumo numerable, por lo que es frecuente encontrar dos definiciones de probabilidad
(trivialmente equivalentes a traves de la extension dada por la anterior formula) sobre un
espacio discreto:
on 1.1 Una probabilidad sobre el espacio = { 1 , 2 , ... n , ...} es una funcion
Definici
P : R con las propiedades: i) P ( n ) 0, n N , ii)
n=1 P ( n ) = 1.

on 1.2 Una probabilidad sobre el espacio = { 1 , 2 , ... n , ...} es una funcion


Definici
P : P() R con las propiedades:
1. P (A) 0, para todo A P()
2. P () = 1
3. -aditividad de la probabilidad: P (iI Ai ) = iI P (Ai ), cuando {Ai , i I} es
cualquier familia numerable de subconjuntos de disjuntos dos a dos.
En el contexto probabilstico, la union de una familia cualquiera {Ai , i I} de con-
juntos disjuntos 2 a 2, como las numerables consideradas en la propiedad de -aditividad
en la definicion anterior, suele denotarse y as lo haremos en lo sucesivo por iI Ai .
Queremos destacar el hecho, habitual en la Teora de la probabilidad, de que, al tratarse
de series de terminos positivos, la suma en el segundo miembro de la condicion de -
aditividad no depende del orden o de reagrupamientos de los sumandos. Por otra parte,
respecto al primer miembro en dicha igualdad debe observarse que, por definicion de union
de conjuntos tampoco depende de ning un orden preestablecido.
La necesidad de considerar espacios probabilsticos no discretos se hace patente ante
el analisis de cualquier experimento aleatorio en el que el conjunto de resultados posi-
bles sea no numerable, como pueden ser aquellos relacionados con mediciones: alturas,
temperaturas, ... o casi cualquier experimento de tipo fsico; o mejor a
un al reconsiderar
sucesos de interes ligados a experiencias sucesivas de un mismo experimento como en el
siguiente ejemplo.
Ejemplo 1.3 Un jugador con un capital inicial dado, C, decide participar en sucesivas
jugadas de un mismo juego en el que con igual probabilidad, 1/2, en cada jugada su
capital se incrementara o disminuir
a en una misma cantidad, c. El jugador se retirara
s
olo cuando se arruine o duplique su capital inicial.
El suceso el jugador se retira en la jugada n-esima depende, para cada n fijo, solo de
las primeras n jugadas, por lo que su probabilidad puede calcularse (y de hecho debera
intentarse por el lector). Sin embargo el suceso el juego contin ua indefinidamente

2
no se encuentra en ning un espacio producto con un n umero finito de factores de los
habitualmente utilizados para este tipo de experimentos, por lo que su probabilidad, de
evidente interes, no puede ser calculada al menos formalmente a partir de la definicion de
probabilidad en un espacio discreto.
Esta situacion es bastante similar a la que se planteara si solo se supiera contar hasta
el 100 y se pretendiera sumar 90 y 50. La conveniencia de considerar un conjunto infinito
de numeros estriba en que nadie puede asegurarnos que las preguntas de interes sobre
los numeros van a estar restringidas a un conjunto finito universalmente valido. La
diferencia con el caso que tratamos es tambien sorprendente. El proceso de ampliacion
de los numeros hasta llegar a los infinitos numeros naturales es de diferente orden que
el infinito que se consigue al ampliar indefinidamente un conjunto del tipo

{cara,cruz} {cara,cruz} ... {cara,cruz}.

Este infinito es no numerable y su uso como espacio muestral nos lleva por tanto a justificar
la utilizacion de un espacio no discreto. Sin embargo el lector debera tambien asegurarse y
demostrar que tampoco existe una forma alternativa de construir un espacio probabilstico
discreto en el que exista una sucesion de sucesos independientes con probabilidad 1/2.
Continuando con el ejemplo conceptual de un espacio en el que tengan cabida todos
los sucesos elementales consistentes en sucesiones infinitas de exitos y fracasos igual-
mente probables, resulta comodo y felizmente adecuado representar los exitos por 1s y
los fracasos por 0s. Entonces puede equipararse al intervalo unidad [0, 1] a traves de la
tn ( )
aplicacion n=1 2n , donde tn () es 0 o 1, coincidiendo con la n-esima componente
de la sucesion . Observese que entonces no es mas que la sucesion que define la
tn ( )
expresion binaria del n umero n=1 2n , y que, con la salvedad de un conjunto numerable
formado por las sucesiones que dan lugar a los n umeros diadicos, aquellos cuya expresion
binaria esta formada solo por ceros a partir de alguna cifra (que tambien admiten otra
expresion binaria formada solo por unos a partir de alguna cifra), al que cualquier asig-
nacion razonable de probabilidad debera dar probabilidad 0, la anterior aplicacion define
una biyeccion entre y [0, 1].
Sea B : [0, 1] la aplicacion, inversa de la anterior, que a cada elemento x [0, 1]
le asocia la sucesion de 0s y 1s obtenida de su expresion binaria (de las dos posibles a
cada n umero diadico se le asocia la sucesion que solo tiene 1s a partir de alguna cifra). Si
convenimos en utilizar la longitud de un conjunto como su medida y trasladarla a los
conjuntos de a traves de la aplicacion B, resulta que la medida del suceso compuesto
por todas aquellas sucesiones que empiezan por 0 (resp. por 1) es 1/2, como medida del
conjunto [0, 12 ] (resp. ( 12 , 1]), y que analogamente, cualesquiera que sean los elementos
i1 , i2 , ...in {0, 1}, la medida del suceso correspondiente a todas aquellas sucesiones en
cuyos n primeros terminos sean exacta y respectivamente i1 , i2 , ...in es 1/2n , como medida
del conjunto (nk=1 2ikk , nk=1 2ikk + 21n ].
En este esquema queda claro que podremos asignar una medida a cada suceso de
coherente con la asignacion inicial dada a los sucesos que solo dependen de un n umero
finito de coordenadas, en tanto en cuanto exista una asignacion adecuada de medida de
longitud al correspondiente subconjunto de [0, 1]. En realidad como observaremos mas

3
adelante tal asignacion no puede hacerse de forma razonable mas alla de cierta clase
de conjuntos adecuados. El conjunto [0,1] equipado con esta clase de conjuntos, [0,1] ,
y con la medida de longitud (o medida de Lebesgue) que podemos asociar a cada
uno de estos conjuntos, constituyen conjuntamente nuestro primer ejemplo de espacio
probabilstico con espacio muestral no discreto. Este espacio, que representaremos como
la terna ([0, 1], [0,1] , ), sera una referencia de uso continuo en este curso.
Debe destacarse asimismo que, una vez consolidado este espacio probabilstico, la
sucesion Bn , n N formada por las componentes de B constituira un ejemplo de con-
struccion explcita de sucesion de variables independientes e igualmente distribuidas, de
Bernoulli con parametro 1/2 (esto es: P (Bn = 0) = P (Bn = 1) = 21 ).
Como antes se advirtio para cierto conjunto numerable (en efecto el conjunto de los
numeros diadicos, aquellos que admiten dos expresiones binarias, es numerable), resulta
obvio que la unica asignacion razonable, en el contexto descrito, de longitud/probabilidad
a cualquier punto del espacio muestral [0, 1], debe ser 0. En consecuencia la primera de
las definiciones anteriores de probabilidad no puede ser extendida a espacios no discretos
de forma inmediata, aunque mantengamos la referencia de que la integral es, en cierto
modo que no pretendemos precisar, una suma ponderada de una infinidad no numerable
de cantidades infinitesimales.
En cuanto a la segunda de las definiciones debemos realizar algunas consideraciones. En
primer lugar debe destacarse que la -aditividad exigida en la tercera de las propiedades
no ha sido siempre incuestionable. Si bien es cierto que la aditividad (la misma propiedad
pero exigida u nicamente a las familias finitas de conjuntos disjuntos) es una propiedad
irrenunciable e intrnseca de probabilidades y medidas, su extension a la de -aditividad es
muy conveniente desde un punto de vista tecnico, pero aunque su uso en las Matematicas
Aplicadas ha sido practicamente nulo, se ha desarrollado una completa teora de las
Medidas (y Probabilidades) Finitamente Aditivas.
El lector interesado en la razon por la que ahora mismo la -aditividad de una probabi-
lidad es incuestionable debera dedicar alg un tiempo a buscar una probabilidad finita-
mente aditiva y no -aditiva sobre el conjunto (discreto) de los n umeros naturales.
La estrecha relacion entre las consecuencias mas complejas del axioma de la eleccion
y la existencia de probabilidades finitamente aditivas y no -aditivas han llevado a la
consideracion de tales probabilidades como paradojicas y al consiguiente uso de la -
aditividad como propiedad que toda probabilidad debe cumplir alla donde este definida.
La extension sin mas de la Definicion 1.2 a espacios no discretos tropieza sin embargo con
otra dificultad.

1.2
Clases de sucesos. Algebras y -
algebras.
Ulam demostro la no existencia de probabilidades no discretas definidas sobre todos los
subconjuntos de si el cardinal de es menor que el del primer cardinal inaccesible (una
version de este resultado valida para el conjunto (0,1] puede encontrarse en [1]).
Para analizar el alcance de este resultado baste aqu senalar que esta imposibilidad se
extiende a todos los conjuntos habituales y que la existencia de cardinales inaccesibles esta
ligada a las diferentes axiomaticas de la Teora de Conjuntos. Por otra parte, como es de

4
esperar, las probabilidades discretas son aquellas que estan concentradas en subconjuntos
numerables, por lo que su exclusiva consideracion no justificara la aparicion de los espacios
no discretos como marcos naturales para el analisis de determinados fenomenos aleatorios.
El lector debera ahora intentar definir formalmente lo que debe considerarse como
probabilidad discreta sobre un espacio no numerable.
Las consideraciones anteriores llevan como salida natural a la consideracion de ciertas
clases de conjuntos como clases en las que estaran definidas las probabilidades, a expen-
sas de ciertos conjuntos a los que no siempre sera posible asociar una probabilidad. En
realidad solo un matematico es capaz de imaginarse tales conjuntos, por lo que la aplica-
bilidad de los conceptos y metodos no sufre ninguna merma y el lector debera quedarse
con la idea de que las clases en las que definiremos las probabilidades son suficientes para
considerar la probabilidad de cualquier conjunto razonable.
A traves de consideraciones elementales podemos exigir que la clase C de los sucesos
de , aquellos conjuntos que nos interesan especialmente, a los que debera adjudicarse
una probabilidad, cumpla determinadas propiedades interesantes.
En primer lugar parece obvio que el espacio de referencia o suceso seguro debe formar
parte de cualquiera de estas clases. Esto significa que C, y asegura que C = 6
Una segunda cualidad exigible proviene de que la ocurrencia o no de un suceso equivale
respectivamente a la no ocurrencia o ocurrencia del suceso contrario. Por tanto nuestro
interes por determinado suceso implica un interes analogo por el suceso contrario. Esta
propiedad esta determinada por la expresion: A C Ac C.
Finalmente destacaremos el hecho natural de que de nuestro interes por la ocurrencia
de determinados sucesos A y B se desprenda un obvio interes por la ocurrencia simultanea
de ambos. En la notacion habitual de las operaciones entre conjuntos esta propiedad se
expresa como: A, B C A B C.
En definitiva hemos llegado a la conclusion de que las algebras de sucesos son las
candidatas naturales a sustituir el papel que P() jugaba en la definicion de probabilidad,
justificando las definiciones formales siguientes.

on 1.4 Un algebra de sucesos de es una clase P() con las siguientes


Definici
propiedades:
1. (contiene al suceso seguro).
2. A Ac (es cerrada para complementarios).
3. A, B A B (es cerrada para intersecciones finitas).

Observese que la propiedad tercera se extiende, por la asociatividad de la interseccion


de conjuntos, a cualquier familia finita, de donde la expresion cerrada para intersec-
ciones finitas. La utilizacion de las leyes de DeMorgan permite asimismo sustituir esta
propiedad por la de ser cerrada para uniones finitas. Se deja al lector la comprobacion de
que las algebras son igualmente cerradas para cualquier n umero finito de operaciones de
las habituales con conjuntos (diferencias, diferencias simetricas, ...).
Si la tercera propiedad en la anterior definicion se sustituye por la de ser cerrada para
intersecciones numerables (notese que en presencia de la primera de las propiedades esta

5
condicion incluye las intersecciones finitas), se obtiene un tipo de clases que tecnicamente
resultan mas ricas y adecuadas para tratar problemas relacionados con lmites, que se
denominan -algebras. Consideraciones analogas a las realizadas anteriormente con las
algebras conducen a que estas nuevas clases son cerradas para cualquier infinidad nu-
merable de operaciones habituales entre conjuntos. Por supuesto toda -algebra es un
algebra y no es difcil construir ejemplos que prueban la existencia de algebras que no son
-algebras.
on 1.5 Una -algebra de sucesos de es una clase P() con las siguientes
Definici
propiedades:
1. (contiene al suceso seguro).
2. A Ac (es cerrada para complementarios).
3. An , n N n N An (es cerrada para intersecciones numerables).
T

Definiremos las probabilidades sobre algebras, como clases naturales despues de los
comentarios previos. Por supuesto esta definicion se aplica cuando ademas la clase es una
-algebra, aunque merezca la pena volver sobre las peculiaridades que se presentan en
esas estructuras.
Definici
on 1.6 Una probabilidad sobre el
algebra de sucesos del espacio es una
on P : R con las propiedades:
funci
1. P (A) 0, para todo A .
2. P () = 1.
3. -aditividad de la probabilidad: P (iI Ai ) = iI P (Ai ), cuando {Ai , i I} es
cualquier familia numerable de conjuntos de (disjuntos dos a dos) y iI Ai .
A continuacion se enumeran algunas propiedades destacables que son consecuencias
casi inmediatas de la definicion, aunque su demostracion permite conseguir destrezas
tecnicas imprescindibles para el manejo agil de las probabilidades.

1. P (Ac ) = 1 P (A), para todo A , en particular P () = 0:


Es consecuencia de la aditividad de la probabilidad aplicada a la descomposicion
= A + Ac
2. Si A, B y A B entonces P (B) = P (A)+P (B A). En particular 0 P (A)
P (B) 1 (monotona de la probabilidad):
Tengase en cuenta la aditividad de la probabilidad, junto con la descomposicion
B = A + (B A) y finalmente la positividad de P.
3. Si A, B entonces P (A B) = P (A) + P (B) P (A B), mas generalmente se
tiene la siguiente formula de inclusion-exclusion:
4. Si A1 , A2 , ...An : P ( ni=1 Ai ) = i P (Ai ) i<j P (Ai Aj ) + i<j<k P (Ai Aj
S

Ak ) ... + (1)n+1 (P (A1 A2 ...An ):


Aplquese induccion despues de probar (3), que resulta trivial a partir de la descom-
posicion A B = A + (B (A B)) y de (2).

6
Ai ) ni=1 P (Ai ) (subaditividad):
Sn
5. Si A1 , A2 , ...An : P ( i=1
Si consideramos los conjuntos (de ) B1 = A1 , B2 = A2 A1 , ...Bn = An (A1
A2 ... An1 ), trivialmente se tiene ni=1 Ai = ni=1 Bi , y P (Ai ) P (Bi ), i = 1...n,
S

de donde
n
Ai ) = P (ni=1 Bi ) = ni=1 P (Bi ) ni=1 P (Ai ).
[
P(
i=1

6. Si A1 , A2 , ...An , ... : limn P ( ni=1 Ai )


S
S i=1 P (Ai ). Si ademas se tiene
i=1 Ai , en particular si es una - algebra:
Ai )
S
7. P ( i=1 i=1 P (Ai ) (sub--aditividad).
La propiedad (6) es inmediata a partir de la (5) teniendo en cuenta que las dos
sucesiones {P ( ni=1 Ai )}n y {ni=1 P (Ai )}n son monotonas. (7) sera consecuencia de
S

(6) y de la continuidad monotona secuencial de la probabilidad, aunque el siguiente


argumento da una demostracion directa:
Volviendo a la construccion dada en (5), B1 = A1 , B2 = A2 A1 , ...Bn = An (A1

A2 ... An1 ), ..., tambien se tiene i=1 Ai = i=1 Bi , y por -aditividad
S


Ai ) = P (
[
P( i=1 Bi ) = i=1 P (Bi ) i=1 P (Ai ).
i=1

8. Si E y {An }n , An es una particion numerable de (o mas generalmente si


E
n=1 An ): P (E) = n=1 P (E An ) (Ley de la probabilidad total).
En realidad esta ultima propiedad puede considerarse como una reformulacion de la
condicion de -aditividad sin mas que observar que a partir de la hipotesis se tiene
E = n=1 (E An ). Su utilizaci
on en el calculo de probabilidades es frecuente debido
a la existencia habitual de informaciones parciales sobre el suceso de interes a partir
de sucesos excluyentes, uno de los cuales necesariamente ocurre cuando se realiza el
experimento. En particular esto suele ocurrir en experimentos compuestos.
Podra perfectamente hablarse de esta regla como una consecuencia del principio de
divide y venceras.
Otra importante propiedad de la probabilidad suele denominarse continuidad mono-
tona secuencial y esta relacionada con lmites de sucesos.
Los lmites de sucesos mas simples e intuitivos son los que surgen de sucesiones mono-
tonas: Si una sucesion de conjuntos {An }n verifica An An+1 (resp. An+1 An ) para
todo n diremos que la sucesion es monotona creciente (resp. decreciente) y que An A
(resp. An A), donde A = n N An (resp. A = n N An ). Destacaremos esta
S T

propiedad estableciendo la siguiente proposicion.

Proposici algebra, , de sucesos de . Sea {An }n


on 1.7 Sea P una probabilidad sobre el
una sucesion de sucesos de y

7
An A, con A , entonces P (An ) P (A).
An A, con A , entonces P (An ) P (A).
En particular se tiene:
Si An , entonces P (An ) 1.
Si An , entonces P (An ) 0.
Demostracion: Pasando a complementarios o considerando una descomposicion trivial
de , es inmediato observar que es suficiente con demostrar cualquiera de las cuatro
afirmaciones, por lo que solo consideraremos la tercera.
Si An , haciendo la conocida construccion B1 = A1 , B2 = A2 A1 , ...Bn = An
(A1 A2 ... An1 ), ..., como la sucesion de conjuntos, (An )n es monotona, en realidad
se tiene B1 = A1 , B2 = A2 A1 , ...Bn = An An1 , ..., luego de la -aditividad y la

igualdad =
S
n=1 An = n=1 Bn deducimos, teniendo en cuenta que (segunda propiedad
en el listado anterior) P (Bn ) = P (An ) P (An1 ):

1 = P () = m
n=1 P (Bn ) = lim n=1 P (Bn )
m

= lim m
m n=1 (P (An ) P (An1 )) = m
lim P (Am ).
2

De hecho el papel que juega la -aditividad en la definicion 1.6 de probabilidad es


equivalente al de la aditividad finita junto a la continuidad monotona secuencial en el
ltima afirmacion en la proposicion anterior), ya que si {An }n es una sucesion
vaco (la u
de sucesos disjuntos de y A = m
n=1 An , los conjuntos Bm := A n=1 An A,
pertenecen a y verifican Bm (luego P (Bm ) 0), por lo que de la propiedad de
aditividad finita de la probabilidad, se deduce:

P (A) = P ((m m m
n=1 An )+Bm ) = P (n=1 An )+P (Bm ) = n=1 P (An )+P (Bm ) n=1 P (An )

por definicion de n=1 P (An ) (ya que la sucesion {mn=1 P (An )} es una sucesion monotona
de numeros positivos).
Si no es una -algebra, la condicion iI Ai en la Definicion 1.6 no es consecuencia
de que los conjuntos Ai pertenezcan al algebra. Ello nos ha obligado a reiteradas alusiones
al hecho de que alg un conjunto aun siendo union o interseccion numerable de otros, que
por hipotesis pertenecian a , deba estar en . En cambio esta condicion es superflua
para -algebras. Afortunadamente las ventajas tecnicas que se avisaban de utilizarse -
algebras seran una realidad sin ning un costo adicional gracias a un famoso teorema de
Caratheodory sobre extension de medidas, por lo que el marco habitual de la Teora de
la Probabilidad, y el que nosotros utilizaremos por tanto a partir de la proxima seccion,
sera el de un espacio probabilstico, (, , P ), en el que P es una probabilidad sobre la
-algebra de sucesos de .
Previamente deberemos abordar el problema de construccion de unas clases a partir
de otras.

8
Al igual que ocurra en nuestra referencia al espacio ([0, 1], [0,1] , ), en el que partamos
de la longitud, lo habitual es que contemos con cierta clase inicial, C, de sucesos de
interes (los intervalos son los u
nicos conjuntos a los que inicialmente se puede asignar una
longitud). Siguiendo con este ejemplo resulta obvio como construir todos los conjuntos
que componen un algebra en [0,1], que contenga a todos los intervalos contenidos en
[0,1] y que sea la mnima con esta propiedad: Basta considerar las uniones finitas de
intervalos disjuntos. Sin embargo este problema, incluso en este ejemplo, esta lejos de ser
obvio en el caso de la -algebra. Podremos asegurar su existencia, pero su construccion
depende generalmente de un proceso de induccion trasfinita, por lo que no podremos
recurrir a un conjunto o suceso tipo para establecer propiedades que se verifiquen por
todos los conjuntos de la correspondiente -algebra. En su lugar desarrollaremos metodos
especficos de demostracion basados en argumentos indirectos.
Comenzaremos hablando genericamente de una propiedad P, que el lector puede iden-
tificar con ser un algebra, ser una -algebra, ser cerrada para intersecciones fini-
tas, u otras que se le ocurran (aunque debe comprobar que no dan lugar a situaciones
paradojicas). Sea {Ci , i I} una familia arbitraria (y no vaca) de clases no vacas de
conjuntos de que verifican la propiedad P. Es trivial comprobar que si C := iI Ci 6=
entonces C verifica la propiedad P, asi como que cualquier otra clase, D, que este con-
tenida en todas las clases Ci (verifique o no la propiedad P) tambien estara contenida en
C. En consecuencia podemos enunciar:

Proposici on 1.8 La intersecci on de una familia no vaca de clases que verifican la


propiedad P es la mayor de las clases que verifican la propiedad P y est a contenida
en todas las clases de la familia.

Si ahora C es una clase cualquiera de conjuntos de y consideramos la familia H (que


habitualmente sera no vaca) de todas las clases que contienen a C y verifican la propiedad
P, la interseccion de todas las clases de la familia H sera la mnima clase que contiene a
C y verifica P.
En particular para las propiedades P antes mencionadas, correspondientes a algebras o
-algebras, obtendremos la existencia de la mnima algebra (resp. -algebra) que contiene
a C, y que sera denominada algebra (resp. - algebra) engendrada por C, para la que
habitualmente utilizaremos la notacion (C) (resp. (C)).
Como antes se indico, las -algebras engendradas no son, en general, construibles. En
cambio el proceso indicado en la siguiente proposicion, cuya demostracion se propone
como ejercicio, permite obtener la forma general de los conjuntos del algebra engendrada
por una clase cualquiera.

Proposici on 1.9 Dada la clase C de conjuntos de , sea C la clase formada por , ,


y los conjuntos que o estan en C o son complementarios de conjuntos de C. Sea C la
clase de todas las intersecciones finitas de los conjuntos de C , y finalmente sea la clase
de las uniones finitas de conjuntos disjuntos de C . Entonces coincide con el algebra
engendrada por C, (C).

9
1.3 Espacios probabilsticos.
A continuacion enunciaremos el resultado de Caratheodory al que hemos hecho referencia,
cuya demostracion excede los planteamientos de estas notas (la version dada en [1] es
especialmente adecuada).
Teorema 1.10 Si P es una probabilidad sobre el algebra, , de sucesos de , existe una

u
nica probabilidad, P , sobre la -
algebra engendrada () que es una extension de P (es
decir, P (A) = P (A) para todo A ).
Al asegurar que es posible extender la probabilidad desde el algebra sin introducir
ning
un ruido ajeno al problema inicial este Teorema establece definitivamente la -
algebra como el marco adecuado para el estudio de la probabilidad. En consecuencia
adoptaremos la siguiente definicion.
Definicion 1.11 Un espacio probabilstico es una terna (, , P ) formada por un espacio
muestral , una -algebra, , de sucesos de , y una probabilidad P sobre . A la pareja
(, ) se la denominara espacio medible. Los conjuntos de se denominar an sucesos o
conjuntos medibles.
Existen otros resultados que permiten extender la probabilidad desde clases menos
ambiciosas que las algebras (especialmente interesantes son las semi-algebras por su es-
tructura adecuada para el tratamiento de los intervalos). Nosotros nos conformaremos con
estudiar con alguna mayor extension el problema de la unicidad, analizando las clases
determinantes de una probabilidad.
Definicion 1.12 Sea (, ) un espacio medible y C una clase de sucesos contenida en .
Diremos que C es una clase determinante de la probabilidad si dos probabilidades P y Q
sobre (, ) que coincidan en C necesariamente coinciden en .
El Teorema de Caratheodory asegura que si = () y es un algebra, entonces
es una clase determinante de la probabilidad en (, ), sin embargo mucho menos es
suficiente para asegurarnos tal propiedad. Por su interes en el marco general de la Teora
de la Probabilidad destacaremos aqu las -clases o clases cerradas para intersecciones
finitas, y el argumento de las - clases de Dynkin como ejemplo ilustrativo del uso de
los conjuntos buenos.
on 1.13 Una clase C de conjuntos de se dice que es una
Definici
-clase si es cerrada para intersecciones finitas: A, B C A B C.
-clase si verifica:
1. C.
2. A C Ac C.
3. Si A1 , ..., An , ... C son conjuntos disjuntos, entonces
n=1 An C.

Si C es una clase cualquiera, por (C) (resp. (C)) representaremos la -clase (resp.
-clase) generada por C.

10
Teorema 1.14 Si L es una -clase que contiene a una -clase C tambien contiene a
(C).
Demostracion: La demostracion se basa en la repeticion de algunos argumentos simples y
algunos resultados poco menos que evidentes, pero es sumamente ingeniosa. Como hechos
basicos contamos con:
1. Una clase que es a la vez -clase y -clase es una -algebra.
2. Si A, B D, A B y D es una -clase entonces B A D.
Consideremos ahora (C). Obviamente C (C) L. Si demostramos que (C) es
una -clase, por (1) sera una -algebra (que contiene a C), y en consecuencia contendra
a la mnima -algebra que contiene a C, es decir: (C) (C), que es lo que se desea
probar.
Para probar que (C) es una -clase consideremos para cada A (C) la clase GA :=
{B (C) tales que A B (C)}. Es inmediato probar (teniendo en cuenta (2)) que
GA es, para cada A (C) una -clase, por tanto podemos escribir:
Como C es una -clase
A C y B C A B C (C), es decir, si A C entonces C GA .
Como GA es una -clase que contiene a C tambien contendra a (C) (por ser la
mnima con esa propiedad), luego (C) GA , es decir:
A C y B (C) A B (C),
y cambiando los papeles (claramente simetricos de A y B):
B (C) y A C B A (C), es decir, B (C) C GB .
Una vez mas, como GB es una -clase y contiene a C, tambien contiene a la mnima
con esa propiedad, luego (C) GB , es decir:
A (C) y B (C) A B (C)
que expresa que efectivamente (C) es una -clase.
2

Las caractersticas de una -clase son como un traje a medida encargado para las proba-
bilidades. La unicidad de la extension en el teorema de Caratheodory es una consecuencia
del siguiente teorema.
Teorema 1.15 Sea C una -clase de conjuntos de y la - algebra engendrada por C,
= (C). Si P y Q son dos probabilidades sobre (, ) y P (A) = Q(A) para todo A C
entonces P y Q son identicas sobre (, ): P (A) = Q(A) para todo A . (C es, en
consecuencia, una clase determinante de la probabilidad).
Demostracion: Sea = {A : P (A) = Q(A)}. Es trivial comprobar que es una
-clase. Como por hipotesis C , por el teorema anterior debe ser = . 2

11
Otra extension gratuita que podemos permitirnos y asumiremos en general en la
Teora de la Probabilidad se basa en la inclusion en la clase de los sucesos de todos
aquellos que no pueden estorbar porque la u nica adjudicacion razonable de probabilidades
coherente con la probabilidad dada en el espacio es 0. Observese sin embargo que ello
implica automaticamente la inclusion de otros sucesos.
Un espacio probabilstico se denomina completo cuando contiene todos los conjuntos
contenidos en sucesos de probabilidad 0: N A N .
Aunque pueden existir diferentes extensiones completas de un espacio probabilstico,
existe una u
nica extension minimal: Es facil demostrar que es posible extender cualquier
espacio probabilstico (, , P ) a un espacio probabilstico completo (, , P ) haciendo
= {A N : A , N nulo } siendo N nulo cuando existe alg un B tal que N B y
P (B) = 0. La probabilidad P esta (demuestrese que bien) definida por P (A N ) = P (A)
siendo A N un conjunto tipo de .

1.4 on de probabilidades en <.


Construcci
Como antes se observo el teorema de Caratheodory nos permite asegurar una extension
adecuada del concepto de longitud/probabilidad a partir de la de los intervalos contenidos
en el intervalo [0, 1]. En realidad deberamos demostrar previamente la -aditividad sobre
esta clase, que es una facil consecuencia de argumentos de compacidad tpicos en la recta
real (y sera probada con mayor generalidad en el estudio de la Integral de Lebesgue en
<n ).
La -algebra usual (o de Borel) en [0, 1], [0,1] , sera la -algebra engendrada por la clase
de los intervalos contenidos en [0, 1]. Continuando con la idea de extender la medida de
longitud podemos analizar los conjuntos que se podran medir en la recta real partiendo de
la nocion de unidad de longitud. En otros terminos, para medir no necesitamos fabricar
una cinta metrica infinita, nos basta con utilizar el metro las veces que sea preciso (esta
es la principal justificacion de la propiedad de aditividad de cualquier medida). En este
sentido parece razonable que los conjuntos de < que puedan medirse sean aquellos cuyas
restricciones a cada uno de los intervalos [n, n + 1], n Z puedan medirse. Puede de-
mostrarse que la familia de tales conjuntos en < coincide con la -algebra, , engendrada
por los intervalos de < o -algebra de Borel en <.
Consideraciones analogas nos llevan a considerar sobre <n las -algebras engendradas
por los productos de intervalos, que tambien denominaremos de Borel y denotaremos por
n . Destacaremos tambien el hecho de que [0,1] coincide con la clase de los conjuntos
de que estan contenidos en [0, 1], por lo que las probabilidades sobre ([0, 1], [0,1] ), y en
general sobre espacios que son subconjuntos de < o <n , podran considerarse como casos
particulares de probabilidades sobre (<, ) o (<n , n ).
Cuando se hace referencia generica a una probabilidad sobre la recta real o sobre <n ,
se entiende que la -algebra de los sucesos de interes es precisamente la correspondiente
-algebra de Borel. En consecuencia la forma de definir probabilidades en estos espacios
esta ntimamente ligada a la forma de extender la longitud o la medida de volumen a
partir de la clase de los intervalos o de los productos de intervalos. Tal extension es
matematicamente posible gracias a la Teora de Integracion de Lebesgue, que permite,
con una nueva forma de entender la integral, ampliar el ambito de aplicacion de la Teora

12
en el sentido de Riemann, incorporando nuevas funciones.
La Teora de integracion respecto de medidas de probabilidad que desarrollaremos al
abordar el estudio de la Esperanza Matematica permite vislumbrar todos los aspectos
basicos de la integracion en el sentido de Lebesgue. Adelantaremos sin embargo algunos
hechos y resultados caractersticos que serviran para justificar prematuramente algunos
argumentos de nuestro esquema de trabajo.
La importancia de la Teora de Lebesgue no proviene tanto de su aportacion al calculo
de integrales, que basicamente sigue supeditado a la utilizacion de la regla de Barrow, sino
por las posibilidades que provee para el tratamiento de lmites. Para posteriores referencias
enunciaremos a continuacion los principales resultados en esta linea. Otras propiedades
caractersticas de la integral, como su aditividad o positividad son bien conocidas incluso
en la integral de Riemann y seran tambien utilizadas sistematicamente.
Consideraremos funciones, f : <k <, cuyas integrales se entienden extendidas a
todo el conjunto <k .
Teorema de la convergencia monotona de Levy: Si {fn }n es una sucesion creciente
(resp. decreciente) de funciones integrables y fn f (resp. fn f ) entonces
fn (x)dx f (x)dx (resp. fn (x)dx f (x)dx).
R R R R

Teorema de la convergencia dominada de Fatou-Lebesgue: Si {fn }n es una sucesion de


funciones (integrables) dominadas por una funcion integrable g, |fn (x)| g(x) para todo x
<k , entonces
Z Z Z Z
lim inf fn (x)dx lim inf fn (x)dx lim sup fn (x)dx lim sup fn (x)dx.

En particular, si ademas fn (x) f (x) para todo x <k , se tiene:


Z Z
f (x)dx = lim fn (x)dx.

Volviendo a los planteamientos iniciales del captulo, pero con la riqueza a


nadida de
las estructuras matematicas que conocemos en <, recordemos la dualidad de definiciones
del concepto de probabilidad sobre espacios discretos, y la economa que supone poder
determinar una probabilidad a partir de las correspondientes de los conjuntos unita-
rios. Como ya se adelanto entonces la integral es una extension natural (en el sentido
matematico de natural) de la suma, por lo que nuestra primera aproximacion, la mas
comoda y economica, a la construccion de probabilidades en < seguira este camino.
La notacion IA se utilizara en lo sucesivo para representar el indicador o funcion
1 si x A

indicadora del conjunto A, definido por IA (x) =
0 si x Ac
Consideraremos una intensidad de probabilidad en cada punto x de la recta real
como el valor, f (x), de una funcion f : < <, que pondera la posibilidad de ocurrencia
de cada x.

13
La probabilidad
R
de un intervalo [a, b] < sera la integral de f sobre este conjunto:
P ([a, b]) = [a,b] f (x)dx, y los requisitos que una tal funcion debera cumplir para dar
efectivamente lugar a una probabilidad seran, en analoga con la funcion de masa de
probabilidad:
1. f (x) 0 para todo x <.
R
2. f (x)dx = 1.

Definici on 1.16 Una funcion f : < <, que cumpla las condiciones anteriores se
denominara funcion de densidad (de probabilidad). Cuando una probabilidad, P , so-
bre (<, ) admite una representacion en terminos de una funci on de densidad: P (A) =

R
A f (x)dx, para todo A , se dice que P tiene funci
o n de densidad, o que es absoluta-
mente continua, y que f es la funci on de densidad de P .

Las condiciones que definen las funciones de densidad implican,Ra partir de la Teora de
R
Integracion, que efectivamente la formula P (A) := A f (x)dx := f (x)IA (x)dx define
una probabilidad sobre la -algebra (de Borel) de los conjuntos que pueden medirse
adecuadamente a partir de la medida de longitud (de Lebesgue) en <:
Por hipotesis la funcion f es positiva, luego la positividad de la integral, teniendo en
cuenta que tambienRes f (x).IA (x) 0, x <, asegura que P (A) = A f (x)dx 0. (La
R

existencia del valor A f (x)dx si A , es consecuencia de argumentos de medibilidad


en los que por ahora no entraremos).
R
La condicion
R
f (x)dx = 1 es equivalente a P (<) = < f (x)dx = 1.
Si {An }n es una sucesion de conjuntos disjuntos de , al ser f positiva, se tiene

f (x)Im (x) = m
n=1 f (x)IAn (x) n=1 f (x)IAn (x) = f (x)I
(x),
n=1 An n=1 An

y como consecuencia del teorema de la convergencia monotona y la aditividad de la


integral:
Z Z
m
n=1 P (An ) = lim n=1 f (x)dx = lim f (x)Im (x)dx
m An m n=1 An

Z Z
= f (x)I (x)dx = f (x)dx = P (
n=1 An )
n=1 An n=1 An

Una consecuencia inmediata del llamado Teorema de Anulacion de la Teora de Inte-


gracion es que la funcion de densidad de una probabilidad (cuando existe) es esencial-
mente u nica.
Podemos utilizar un smil no probabilstico para una mejor interpretacion del papel de
la funcion de densidad en la medida. Supongamos que un vehculo tiene un dispositivo
que permite conocer en cada lugar, x, el consumo de combustible, C(x), que se esta
produciendo en las condiciones de marcha de ese instante, medido en litros/Km. La

14
integral de esta funcion de consumo entre los kilometros a y b, nos dara el consumo en
dicho recorrido.
Sin embargo no siempre es posible acudir a una funcion que nos permita esta inter-
pretacion. En condiciones de marcha extremas el dispositivo no podra darnos un valor
numerico adecuado: En paradas, debidas por ejemplo a semaforos, el valor dado por el
dispositivo sera . En consecuencia la forma correcta de evaluar el consumo entre los
puntos kilometricos senalados sera la suma:

Z x1 Z x2 Z xn Z b
C(x)dx + C(x)dx + ... + C(x)dx + C(x)dx + L1 + L2 + ... + Ln
a x1 xn1 xn

donde los valores L1 , L2 , ...Ln corresponden a los consumos (en litros), obtenidos por otro
procedimiento, producidos en todas las paradas, n, que se han efectuado en los puntos
kilometricos x1 , x2 , ...xn (entre a y b).
Por supuesto otro modo eficaz de conocer el consumo en cualquier recorrido que se desee
consistira en dar la funcion correspondiente a la cantidad de combustible que queda en
el deposito en cada lugar del trayecto completo. La diferencia entre los valores de esa
funcion en los puntos a y b nos dara el consumo producido entre esos puntos, aunque
con una salvedad; deberemos ponernos de acuerdo en lo que significa en algunos casos la
expresion consumo producido entre dos puntos a y b. Basta observar que si exactamente
en el punto a hubo una parada dependera de que lo incluyamos o excluyamos para que
el consumo entre los dos puntos sea uno u otro, mientras que es obvio que la distancia
recorrida seguira siendo la misma.
En este ejemplo observamos claramente la posibilidad de coexistencia de una parte de
la medida que se concentra en un conjunto discreto, junto a otra que se comporta como
absolutamente continua. En la Teora de la Probabilidad a las medidas de probabilidad en
< que pueden expresarse como mixtura de una probabilidad discreta y otra absolutamente
continua se las suele denominar mixtas:
Definici on 1.17 Una probabilidad P sobre (<, ) es de tipo mixto si existe una prob-
abilidad P1 absolutamente continua y otra P2 discreta, ambas sobre (<, ), y un valor
[0, 1], tales que P (B) = P1 (B) + (1 )P2 (B) para todo B .
Es claro a partir de esta definicion que las probabilidades mixtas son aquellas para las
que existen un conjunto (a lo sumo) numerable S = {x1 , ...xn , ...}, una funcion f : <
<+ , integrable, y otra p : S <+ , tales que
Z X
P (B) = f (x)dx + p(xk ) para todo B . (1)
B xk SB

Haciendo


f (x) p(xk ) Z
f (x) = R , p (xk ) = P
X
, = f (x)dx(= 1 p(xk ))
< f (x)dx k=1 p(xk ) < k=1

15
aparece obviamente la relacion que existe entre f y la funcion de densidad, f , Rde P1 , as
como entre S y p y la funcion de masa de probabilidad, p , de P2 . El sumando B f (x)dx
P
en la expresion (1) se denomina la parte absolutamente continua, y el p(xk ) la
xk SB

parte discreta de la probabilidad P . Notese que nuestra definicion de probabilidad mixta


incluye a las discretas y a las absolutamente continuas.
Las probabilidades mixtas son las que podemos encontrar desde el punto de vista de
las aplicaciones, e imaginar con cierto realismo, y por tanto las que tienen mayor in-
teres en la Teora de la Probabilidad. Sin embargo existen probabilidades en (<, ) que
podramos decir que no tienen nada que ver con la medida de longitud (se denominan
por ello singulares) ni con pesos repartidos sobre un conjunto numerable. Ello com-
porta automaticamente la existencia de una descomposicion como la dada en (1) con un
sumando adicional que correspondera a la parte singular no discreta de la probabilidad.
No trataremos esta descomposicion general en lo sucesivo.

1.5 on en <.
Funciones de distribuci
Como planteamos en el ejemplo del consumo del vehculo, una alternativa al procedimiento
seguido para la introduccion de probabilidades en (<, ), que puede ser incluso mas natural
y menos ligada a la idea de longitud (aunque igualmente ligada al orden usual en la
recta real), podra consistir en dar para cada valor x < la probabilidad que queda sin
adjudicar, o equivalentemente, la acumulada hasta ese valor. Esta observacion da lugar
al estudio de la funcion de distribucion asociada a una probabilidad.
Sea P una probabilidad sobre (<, ), si convenimos en incluir la probabilidad de cada
valor, x, junto con la acumulada hasta ese valor, resulta que nuestro interes se centra
en la funcion F : < <, definida por F (x) := P ((, x]), de la que inmediatamente
podemos deducir ciertas propiedades como consecuencia de las de la probabilidad P .
1. Para todo x < se tiene 0 F (x) 1.
2. Si x y, entonces F (x) F (y) (monotona creciente).
3. limx F (x) = 0, y limx F (x) = 1.
4. limyx+ F (y) = F (x) para todo x < (continuidad por la derecha).
5. limyx F (y) = F (x) P ({x}) para todo x <.
6. El conjunto de discontinuidades de F es a lo sumo numerable.
Suele definirse, como tambien haremos nosotros, una nueva funcion como F (x) :=
limyx F (y). Obviamente se tiene F (x) = P ((, x)), que en algunos textos se
utiliza como definicion de funcion de distribucion (en realidad no existe ninguna razon
en favor de ninguna de las dos definiciones). A partir de las propiedades anteriores es
inmediato que ambas funciones coinciden en todos los puntos salvo en aquellos (a lo sumo
una infinidad numerable) con probabilidad estrictamente positiva.
El interes fundamental de la funcion de distribucion estriba en que determina comple-
tamente la probabilidad ya que la clase C = {(, x], x <} es una clase cerrada para
intersecciones finitas que genera la -algebra de Borel, . Mas precisamente se tiene:

16
Proposicion 1.18 Una funcion F : < <, con las propiedades (1) a (4) anteriores,
determina de forma u
nica una probabilidad, P , a traves de la f
ormula P ((, x]) :=
F (x).
Demostracion: Puede darse una demostracion basada en el Teorema de Caratheodory,
semejante en todo a la que asegurara la existencia de la medida de Lebesgue en (<, ),
partiendo de la definicion razonable de probabilidad para cada tipo de intervalo (y ob-
viamente de sus uniones finitas disjuntas, que constituyen un algebra que genera ). Si
definimos como antes F (x) := limyx F (y), x <, debera ser:
P ((a, b)) := F (b) F (a), P ([a, b)) := F (b) F (a),
P ((a, b]) := F (b) F (a), P ([a, b]) := F (b) F (a),
formulas validas para intervalos con extremos infinitos utilizando por conveniencia
F () := lim F (x) = 0, F () = F () := lim F (x) = 1
x x

Nosotros daremos una demostracion alternativa basada en la denominada funcion cuantil,


pero la pospondremos hasta el estudio de las variables aleatorias.
La unicidad es, como se acaba de apuntar, consecuencia del Teorema 1.15.2

La proposicion anterior justifica, puesto que cada funcion que cumple las condiciones
(1) a (4) es funcion de distribucion de alguna probabilidad, la utilizacion del termino
funcion de distribucion para designar a una funcion con esas propiedades, y el de
probabilidad asociada a una funcion de distribucion a la probabilidad determinada por la
relacion P ((, x]) = F (x). Las formulas mostradas en la anterior demostracion seran
utilizadas sistematicamente en los sucesivo.
Para probabilidades mixtas es obvia la especializacion de la relacion (1):
Z x X
F (x) = f (t)dt + p(xk ) para todo x <,
xk S:xk x

que determina la funcion de distribucion a partir de las partes discreta y absolutamente


continua de una probabilidad mixta (vease el problema 20). Aunque puede darse un
resultado totalmente preciso para obtener en general esa descomposicion a partir de la
funcion de distribucion (vease p. ej. el captulo 6 en [1]), aqu nos contentaremos con los
siguientes, suficientemente generales para las aplicaciones.
Proposicion 1.19 Toda funci on de distribucion F admite una descomposici on unica
como F = F1 + (1 )F2 , siendo [0, 1], F1 una funci on de distribuci
on continua y
F2 una funcion de distribucion correspondiente a una probabilidad discreta.
Demostracion: La unicidad se deja como ejercicio (vease el problema 23).
Para demostrar la existencia, supongamos para evitar trivialidades que F no es la
funcion de distribucion de una probabilidad discreta (es decir, no es una funcion en

17
escalera) ni tampoco continua. Sea entonces S el conjunto (a lo sumo numerable) de
discontinuidades de F , S = {x1 , ...xk , ...}, y sea, para cada xk S, pk := F (xk ) F (xk )
y = 1 xk S pk .
P

Definiendo
1 X
F2 (x) := pk ,
(1 ) xk S:xk x

F2 es la funcion de distribucion de una probabilidad discreta, y

F (x) (1 )F2 (x)


F1 (x) :=

es una funcion de distribucion trivialmente continua, que da lugar a la descomposicion


anunciada F = F1 + (1 )F2 . 2

Proposici on 1.20 Sea F una funci on de distribuci


on, cuyo conjunto de puntos de dis-
continuidad es S = {x1 , ...xn , ...}, que suponemos sin puntos de acumulaci on. Si F es
derivable con continuidad en todos los puntos (salvo quiz umero finito) de < S,
as un n
y f es su derivada, entonces F es la funci on de distribuci
on de una probabilidad de tipo
mixto y se tiene la descomposici on:
Z x X
F (x) = f (t)dt + p(xk ) para todo x <,
xk S:xk x

donde p(xk ) := F (xk ) F (xk ), para cada xk S.


Demostracion: Sea como en la demostracion de la proposicion anterior, para cada xk S,
pk := F (xk ) F (xk ) y = 1 xk S pk (suponemos de nuevo, para evitar trivialidades
P

que S 6= y que la funcion no es una funcion en escalera, por lo que sera 0 6= 6= 1).
Entonces
1 X
F2 (x) := pk
(1 ) xk S:xk x

es la funcion de distribucion de una probabilidad discreta, y

F (x) (1 )F2 (x)


F1 (x) :=

es una funcion de distribucion (siempre continua) con derivada continua en D < S:

F10 (x) := f (x)



, x D, siendo T = < D un conjunto a lo sumo numerable y sin puntos
de acumulacion.

18
Sea ahora x < cualquiera, y ordenemos el conjunto de los puntos de T que son
menores o iguales que x, Tx , de mayor a menor: Tx = {y1 , ...yk , ...}. Entonces se tiene
F1 (x) = F1 (x) F1 (y1 ) + k=1 (F1 (yk ) F (yk+1 )) (si Tx es finito, con n 0 puntos, se
P

incluira, para simplificar la expresion, el valor yn+1 := y la suma se extendera solo


hasta k = n). Ahora el teorema fundamental del Calculo Integral asegura que
Z x f (t) Z yk+1
f (t)
F1 (x) F1 (y1 ) = dt, y F1 (yk ) F1 (yk+1 ) = dt, k = 1, 2, ...,
y1 yk

y en consecuencia por la aditividad de la integral y el teorema de la convergencia monotona

x Z yk+1 Z x
Z
f (t) X f (t) f (t)
F1 (x) = dt + dt = dt,
y1 k=1 yk

y F1 es la funcion de distribucion de una probabilidad absolutamente continua (vease el


problema 20), y se tiene la descomposicion:
Z x X
F (x) = F1 (x) + (1 )F2 (x) = f (t)dt + p(xk ), para todo x <,
xk S:xk x

por lo que F es la funcion de distribucion de una probabilidad P de tipo mixto. 2

Sea F una funcion de distribucion continua que admite derivada f (x) en todo punto
x, salvo quizas en los de un conjunto S, a lo sumo numerable. Si el conjunto de los
puntos donde f no esta definida o no es continua no tiene puntos de acumulacion,
el argumento de la u ltima demostracion (sin necesidad de recurrir a las funciones
auxiliares F1 y F2 ), permite demostrar que F es la funcion de distribucion de una
probabilidad absolutamente continua, que tiene a f como funcion de densidad.
Observese que se deja abierta la posibilidad (que efectivamente, como se apunto al
final de la seccion anterior, puede producirse) de que una funcion de distribucion sea
continua y sin embargo no corresponda a una probabilidad absolutamente continua.
Las descomposiciones anteriores admiten una interesante interpretacion en terminos
de experimentos compuestos: Si realizamos un experimento con solo dos resultados
posibles E1 y E2 y probabilidades respectivas y 1 , y si ocurre E1 realizamos
un segundo experimento aleatorio de acuerdo con una probabilidad P1 sobre < de
tipo absolutamente continuo, mientras que si ocurre E2 realizamos un experimento
consistente en elegir de un conjunto numerable S < un elemento de acuerdo con
una probabilidad discreta P2 , el comportamiento probabilstico final es el definido
por la probabilidad P = P1 + (1 )P2 , y su funcion de distribucion F admite
la descomposicion F = F1 + (1 )F2 , donde F2 es la funcion de distribucion
de la probabilidad de tipo discreto P2 ligada al conjunto S, y F1 es la funcion de
distribucion correspondiente a la probabilidad P1 absolutamente continua.

19
1.6 Probabilidades en <n .
Las herramientas desarrolladas en las secciones anteriores para determinar probabilidades
en < pueden emplearse para la obtencion y/o caracterizacion de probabilidades sobre
<n . Como antes la -algebra de Borel, n , es la mnima que contiene a los sucesos de
interes, ahora constituidos por los productos de intervalos. Otras caracterizaciones como
la mnima que contiene a los conjuntos abiertos, o a los conjuntos del tipo

(, x1 ] (, x2 ] ... (, xn ],

son igualmente validas y especialmente interesantes.


En particular esta u ltima clase es cerrada para intersecciones finitas, luego, como ocu-
rra con la funcion de distribucion en <, toda probabilidad en (<n , n ) queda determinada
conociendo sus valores en los conjuntos de esta clase, es decir, conociendo

F (x1 , x2 , ...xn ) := P ((, x1 ] (, x2 ] ... (, xn ]).

Esta funcion tambien recibe el nombre de funcion de distribucion (de la probabilidad


correspondiente), pero la caracterizacion de las funciones de distribucion en <n no es tan
sencilla ni tan util como lo era en el caso unidimensional.
El mismo tipo de argumentos que permite obtener las correspondientes propiedades en
< conduce a las siguientes de una funcion de distribucion en <n , en las que las cuestiones
relacionadas con el orden en <n deben entenderse coordenada a coordenada y la notacion
~x se utilizara para representar al vector generico ~x := (x1 , x2 , ...xn ):
1. Para todo ~x <n se tiene 0 F (~x) 1.
2. Si ~x ~y , entonces F (~x) F (~y ).
3. lim~x
~ F (~
x) = 0, y lim~x
~ F (~
x) = 1.
4. lim~y~x+ F (~y ) = F (~x) para todo ~x <n .
Sin embargo, a diferencia del caso unidimensional, es posible encontrar funciones que
verifican estas cuatro propiedades y no son funciones de distribucion de ninguna proba-
bilidad:
Ejemplo 1.21 Sea F la funcion definida por

1 si x1 + x2 1

F (x1 , x2 ) =
0 si x1 + x2 < 1

Es facil ver que F cumple las propiedades (1) a (4), pero si fuera la funci
on de dis-
2 2
tribucion de alguna probabilidad P en (< , ), debera verificarse que

P ((, 0] (, 1]) = F (0, 1) = 1 = F (1, 0) = P ((, 1] (, 0]),

y por tanto, como interseccion de dos conjuntos de probabilidad 1, tambien P ((, 0]


(, 0]) = P (((, 0] (, 1]) ((, 1] (, 0])) = 1 6= 0 = F (0, 0).

20
La sustitucion de la propiedad (2) por una mas acorde con la idea de que la probabilidad
de cada conjunto del tipo

(a1 , b1 ] (a2 , b2 ] ... (an , bn ]

debe ser positiva, permite de hecho caracterizar las funciones de distribucion en <n . La
propiedad se visualiza perfectamente en <2 a partir de la formula de inclusion-exclusion
de la probabilidad, ya que debe ser

P ((a1 , b1 ] (a2 , b2 ]) = P ((, b1 ] (, b2 ]) P ((, a1 ] (, b2 ])


P ((, b1 ] (, a2 ]) + P ((, a1 ] (, a2 ]) 0

Mas generalmente, supongamos que F esta definida en <n , y ~a = (a1 , a2 , ...an ) y


~b = (b1 , b2 , ...bn ), con ai bi , i = 1, 2...n. Definimos ~ F = P~xV sign(~x)F (~x), donde
~a,b

V representa el conjunto de los 2n vertices de (a1 , b1 ] (a2 , b2 ] ... (an , bn ], y sign(~x)


es +1 o -1 seg
un que el n umero de las componentes de ~x que coinciden con las de ~a sea
par o impar. Se tiene (vease p. ej. la Seccion 12 en [1] para una demostracion) que F es
una funcion de distribucion de una probabilidad en (<n , n ) si y solo si verifica las cuatro
condiciones:
1. Para todo ~x <n se tiene 0 F (~x) 1.

2. Si ~a ~b, entonces ~a,~b F 0.

3. lim~x
~ F (~
x) = 0, y lim~x
~ F (~
x) = 1.
4. lim~y~x+ F (~y ) = F (~x) para todo ~x <n .
En cuanto a la forma alternativa de definir probabilidades en <, a partir de funciones
de densidad o de masa de probabilidad, dando lugar a las probabilidades absolutamente
continuas, discretas y mixtas, las definiciones se trasladan a <n tal cual, pero aparece
inmediatamente la posibilidad de considerar probabilidades ligadas a conjuntos de di-
mension menor que la del espacio que consideramos (y por supuesto las correspondientes
mezclas con las de los otros tipos). Considerese por ejemplo una ruleta y la distribucion
de probabilidades naturalmente asociada a ella, en la que se reparte la masa de proba-
bilidad uniformemente sobre una circunferencia C. Por supuesto esta distribucion de
probabilidades no tiene parte discreta, pero si pretendemos tratarla como absolutamente
continua a traves de alguna hipotetica funcion de densidad f (x, y) en <2 , se tendra que
Z
P (B) = f (x, y)dxdy = 0 para cada B
CB

R
puesto que C 1dxdy = 0. De hecho estas situaciones ilustran, mucho mejor que lo que
ocurra en la recta real, la posible existencia de una parte de la probabilidad que no

21
puede explicarse en terminos de una probabilidad mixta en el sentido de la definicion dada
por la relacion 1.
Por ultimo, a efectos practicos, la forma de obtener la funcion de densidad en <n
(cuando existe), f (x1 , x2 , ...xn ), a partir de la funcion de distribucion, F (x1 , x2 , ...xn ), es
de nuevo derivandola:
F (x1 , x2 , ...xn )
f (x1 , x2 , ...xn ) =
x1 x2 ...xn

2 Problemas propuestos.
1. Demostrar que no existe ning un espacio probabilstico discreto en el que exista una
sucesion (An )n de sucesos independientes e igualmente probables (0 < P (An ) = p <
1).
2. Dar una definicion adecuada de probabilidad discreta sobre un conjunto no numera-
ble.
3. Demostrar la existencia de probabilidades finitamente aditivas y no -aditivas sobre
un conjunto numerable (necesita la utilizacion de ultrafiltros).
4. Dar un ejemplo de algebra que no sea -algebra.
5. Demostrar la Proposicion 1.9.(Sugerencia: Pruebese en primer lugar que es cerrada
para intersecciones finitas. A continuacion demuestrese que los complementarios de
conjuntos de C estan en ).
6. Pruebense las afirmaciones 1 y 2 en la demostracion del Teorema 1.14.
7. Sean C, D dos clases de conjuntos de . Probar que (C) (D) si y solo si C (D).
8. Probar que si L es una -clase y A L, la clase GA = {B L : A B L} es una
-clase.
9. Caracterizar el algebra y la -algebra engendradas por la familia de todos los con-
juntos unipuntuales de un espacio muestral.
10. Probar que la union de una sucesion creciente de algebras es un algebra. Dar un
contraejemplo que demuestre que tal afirmacion es generalmente falsa con -algebras.
11. Demostrar que la familia de los conjuntos B < tales que B (n, n + 1] [n,n+1] ,
para todo n Z, coincide con la -algebra de Borel de <.
12. Probar que la -algebra de Borel en <n es la -algebra engendrada por la familia de
los abiertos de la topologa usual. Dar otras familias de conjuntos que igualmente
generan esta -algebra.
13. Sea C una clase de conjuntos que genera la -algebra en . Probar que cualquier
conjunto, A, de esta en realidad relacionado con una subclase numerable de C:
Para cada A existe C numerable, contenida en C, tal que A (C ).

22
14. Sea {An }n una particion numerable de . Caracterizar la -algebra engendrada por
los conjuntos {An }n .
15. Una -algebra, , se dice separable si existe una clase numerable, C, de conjuntos
que la genera: = (C). Probar que la -algebra de Borel en < es separable. Dar
un ejemplo de una -algebra contenida en ella y que no sea separable.
16. Sea una -algebra separable sobre y sea C una clase de conjuntos que genera ,
= (C). Probar que existe una subclase numerable C de C tal que = (C ).
17. Dada una sucesion de conjuntos {An }n de , se definen los conjuntos lim sup An
y lim inf An respectivamente como el formado por los elementos que pertenecen a
infinitos An y el formado por aquellos que pertenecen a todos salvo, a lo sumo, a un
numero finito de ellos, es decir:

\
[ \
[
lim sup An = Am lim inf An = Am .
n=1 m=n n=1 m=n

Cuando lim sup An = lim inf An = A se dice que {An }n converge hacia A y se expresa
como A = lim An , o como An A.
Probar la siguiente extension de la continuidad monotona secuencial de la probabil-
idad:
Si {An }n es una sucesion de conjuntos de en el espacio probabilstico (, , P ), se
tiene
P (lim inf An ) lim inf P (An ) lim sup P (An ) P (lim sup An ),
n n

en particular, si An A, entonces P (An ) P (A).


18. Probar los siguientes resultados de aproximacion:
(a) Sea un algebra de sucesos de y sea (, , P ) un espacio probabilstico ( =
()). Probar que la probabilidad de cada conjunto A puede ser aproximada,
con cualquier nivel de precision, por la probabilidad de conjuntos proximos de
:
Para todo A y todo  > 0 existe A tal que P (AA ) < .
(b) Sea T (resp. F) la familia de los conjuntos abiertos (resp. cerrados) de < y P una
probabilidad cualquiera sobre (<, ). Probar que la probabilidad de cualquier
conjunto B puede ser aproximada, con cualquier nivel de precision, por
cerrados (resp. abiertos) contenidos en (resp. que contienen a) A:

Para todo B y todo  > 0 existen A T y C F tales que


C B A y P (A C ) < .
(Este resultado es generalizable a espacios metricos.)

23
(c) Probar que en la aproximacion anterior la familia de cerrados en < puede susti-
tuirse por la de los conjuntos compactos.
19. Demostrar las propiedades (1) a (6) de la funcion P ((, x]).
20. Probar que si F es una funcion de distribucion y existe un conjunto S < numerable
(a lo sumo) y una funcion p : S <+ tal que

X
F (x) = p(xk ),
xk S:xk x

entonces F es la funcion de distribucion de una probabilidad discreta.


21. Probar que si F es la funcioRn de distribucion de la probabilidad P y existe una funcion
x
f positiva tal que F (x) = f (t)dt para todo x <, entonces P es absolutamente
continua y f es su funcion de densidad. Mas generalmente demuestrese que si la
funcion de distribucion admite la descomposicion
Z x X
F (x) = f (t)dt + p(xk ) para todo x <,
xk S:xk x

entonces P es de tipo mixto y se tiene


Z X
P (A) = f (t)dt + p(xk ) para todo A .
A xk SA

22. Sean F y G dos funciones de distribucion en <. Probar que si ambas coinciden en
un conjunto denso entonces son iguales.
23. Sea F una funcion de distribucion en <, y sean G, H funciones positivas, G con-
tinua y H escalonada, tales que F = G + H. Probar que tal descomposicion es
necesariamente
unica.
24. Probar que si F1 y G1 son funciones de distribucion continuas, F2 y G2 son funciones
de distribucion correspondientes a probabilidades discretas, y , [0, 1] verifican
que
F1 + (1 )F2 = G1 + (1 )G2 ,
entonces F1 = G1 , F2 = G2 y = .
25. Probar que la funcion de distribucion de una probabilidad absolutamente continua
es continua.
26. Probar que si una probabilidad P en (<, ) admite una descomposicion como P =
P1 + (1 )P2 , donde [0, 1], P1 es una probabilidad absolutamente continua y
P2 es una probabilidad discreta, esta descomposicion es u
nica.

24
27. Dar un ejemplo de probabilidad discreta en (<, ) cuya funcion de distribucion sea
discontinua en todos los puntos de un conjunto denso en <.
28. Dar ejemplos de funciones de distribucion en < correspondientes a probabilidades
discretas, absolutamente continuas y mixtas.
29. Sea D un conjunto denso en <, y G : D <+ una funcion creciente tal que
limdD,d G(d) = 0 y limdD,d G(d) = 1. Probar que la funcion definida por:

F (x) := lim G(d)


dD,dx+

es una funcion de distribucion, y que si x es un punto de continuidad de F , entonces

F (x) = lim G(d)


dD,dx

Esto significa que existe una u


nica extension natural de una funcion como G a una
funcion de distribucion.
30. Dar ejemplos de funciones de distribucion en <n correspondientes a probabilidades
discretas, absolutamente continuas y mixtas, as como otras que no pertenezcan a
ninguna de estas clases.
31. Probar con alg un ejemplo que el conjunto de puntos de discontinuidad de una funcion
de distribucion en <n no tiene porque ser finito o numerable.
32. Probar que la condicion lim~x ~ F (~
x) = 0 en las propiedades que cumple una
n
funcion de distribucion en < puede sustituirse por la lim~x F (~x) = 0 si alguna com-
ponente de ~x tiende a .
33. Definir la idea de probabilidad uniforme ligada a un conjunto (incluir la posibilidad
de conjuntos despreciables). Demostrar que existen conjuntos sobre los que no
puede definirse una probabilidad uniforme.
34. Obtener los puntos de discontinuidad de la funcion de distribucion correspondiente
a una probabilidad en <2 uniforme sobre el conjunto [0, 1] {0} {0} [0, 1].

Bibliografa
[1] BILLINGSLEY, P. (1995). Probability and Measure. Wiley.
[2] BREIMAN, L. (1968). Probability. Addison-Wesley.
[3] CHUNG, K.L. (1974). A course in Probability Theory. Academic Press.
[4] DUDLEY, R.M. (1989). Real Analysis and Probability. Wadsworth & Brooks.
[5] FELLER, W. (1975). Introducci
on a la Teora de Probabilidades y sus Aplicaciones.
Vol.1. Limusa-Wiley.

25
[6] FELLER, W. (1978). Introducci
on a la Teora de Probabilidades y sus Aplicaciones.
Vol.2. Limusa-Wiley.
[7] GALAMBOS, J. (1988). Advanced Probability Theory. Dekker
[8] HOFFMAN-JORGENSEN, J. (1994). Probability with a view toward Statistics. Vol.
1. Chapman-Hall.
[9] LAHA, R.G. and ROHATGI, V.K. (1979). Probability Theory. Wiley.
[10] LINDGREN, B.W. (1976). Statistical Theory. Macmillan.
[11] LOEVE, M. (1963). Probability Theory. Van Nostrand
[12] NEVEU, J. (1970). Bases Mathematiques du Calcul des Probabilites. Masson.
[13] PARZEN, E. (1973). Teora Moderna de la Probabilidad. Limusa-Wiley
[14] STIRZAKER, D. (1994). Elementary Probability. Cambridge.

26

You might also like