You are on page 1of 137

Procesos Estocsticos para Ingenieros:

a
Teor y Aplicaciones
a

Francisco Montes Suay


Departament dEstad
stica i Investigaci Operativa
o
Universitat de Val`ncia
e

Copyright c 2007 de Francisco Montes


Este material puede distribuirse como el usuario desee sujeto a las siguientes condiciones:
1. No debe alterarse y debe por tanto constar su procedencia.
2. No est permitido el uso total o parcial del documento como parte de otro distribuido
a
con nes comerciales.
Departament dEstad
stica i Investigaci Operativa
o
Universitat de Val`ncia
e
46100-Burjassot
Spain


Indice general
1. Probabilidad. Variable aleatoria. Vector aleatorio
1.1. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1. Causalidad y aleatoriedad . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2. Experimento, resultado, espacio muestral y suceso . . . . . . . . . . . .
1.1.3. Probabilidad y sus propiedades . . . . . . . . . . . . . . . . . . . . . . .
1.1.4. Probabilidad condicionada. Teorema de Bayes . . . . . . . . . . . . . . .
1.1.5. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1. Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
o
1.2.2. Probabilidad inducida . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3. Funcin de distribucin de probabilidad . . . . . . . . . . . . . . . . . .
o
o
1.2.4. Funcin de cuant o probabilidad: variable aleatoria discreta . . . . . .
o
a
1.2.5. Algunos ejemplos de variables aleatorias discretas . . . . . . . . . . . . .
1.2.6. Funcin de densidad de probabilidad: variable aleatoria continua. . . . .
o
1.2.7. Algunos ejemplos de variables aleatorias continuas . . . . . . . . . . . .
1.3. Vector aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1. Probabilidad inducida . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.2. Funciones de distribucin conjunta y marginales . . . . . . . . . . . . .
o
1.3.3. Funcin de cuant o probabilidad conjunta: vector aleatorio discreto . .
o
a
1.3.4. Algunos ejemplos de vectores aleatorios discretos . . . . . . . . . . . . .
1.3.5. Funcin de densidad de probabilidad conjunta: vector aleatorio continuo
o
1.3.6. Algunos ejemplos de vectores aleatorios continuos . . . . . . . . . . . . .
1.4. Independencia de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . .
1.5. Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.1. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.2. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6. Funcin de una o varias variables aleatorias . . . . . . . . . . . . . . . . . . . .
o
1.6.1. Caso univariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.2. Caso multivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

1
1
1
1
3
6
8
11
11
12
12
13
14
18
19
24
24
24
26
28
28
32
34
36
36
37
40
40
42

2. Esperanza. Desigualdades. Funcin caracter


o
stica
2.1. Esperanza de una variable aleatoria . . . . . . . . . . . . . .
2.1.1. Momentos de una variable aleatoria . . . . . . . . .
2.1.2. Momentos de algunas variables aleatorias conocidas
2.2. Esperanza de un vector aleatorio . . . . . . . . . . . . . . .
2.2.1. Momentos de un vector aleatorio . . . . . . . . . . .
2.2.2. Covarianza. Aplicaciones . . . . . . . . . . . . . . . .
2.3. Esperanza condicionada . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.

45
45
46
47
49
49
49
54

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.


INDICE GENERAL

2.4. Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1. La distribucin Normal multivariante . . . . . . . . . . . . .
o
2.5. Funcin caracter
o
stica . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.1. Funcin caracter
o
stica e independencia . . . . . . . . . . . . .
2.5.2. Funciones caracter
sticas de algunas distribuciones conocidas
2.5.3. Teorema de inversin. Unicidad . . . . . . . . . . . . . . . . .
o
2.5.4. Teorema de continuidad de Lvy . . . . . . . . . . . . . . . .
e

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

58
60
61
63
63
64
66

3. Sucesiones de variables aleatorias. Teoremas de convergencia


3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
o
3.2. Tipos de convergencia . . . . . . . . . . . . . . . . . . . . . . . .
3.3. Leyes de los Grandes Nmeros . . . . . . . . . . . . . . . . . . .
u
3.4. Teorema Central de L
mite . . . . . . . . . . . . . . . . . . . . .
3.4.1. Una curiosa aplicacin del TCL: estimacin del valor de
o
o

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

67
67
68
70
71
73

4. Procesos Estocsticos
a
4.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . .
o
4.2. Deniciones bsicas y descripcin de un proceso estocstico
a
o
a
4.2.1. Trayectoria de un proceso . . . . . . . . . . . . . . .
4.2.2. Distribuciones nito-dimensionales . . . . . . . . . .
4.2.3. Funciones de momento . . . . . . . . . . . . . . . . .
4.3. Algunos procesos estocsticos de inters . . . . . . . . . . .
a
e
4.3.1. Procesos IID . . . . . . . . . . . . . . . . . . . . . .
4.3.2. Ruido blanco . . . . . . . . . . . . . . . . . . . . . .
4.3.3. Proceso Gaussiano . . . . . . . . . . . . . . . . . . .
4.3.4. Proceso de Poisson . . . . . . . . . . . . . . . . . . .
4.3.5. Seal telegrca aleatoria (RTS) . . . . . . . . . . .
n
a
4.3.6. Modulacin por desplazamiento de fase (PSK) . . .
o
4.3.7. Proceso de Wiener. Movimiento Browniano . . . . .
4.3.8. Cadenas de Markov . . . . . . . . . . . . . . . . . .
4.4. Procesos estacionarios . . . . . . . . . . . . . . . . . . . . .
4.4.1. Estacionariedad en sentido amplio (WSS) . . . . . .
4.4.2. Procesos cicloestacionarios . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

75
75
75
76
77
78
80
80
83
83
84
89
91
93
95
102
103
106

5. Transformacin lineal de un proceso estacionario


o
5.1. Densidad espectral de potencia (PSD) de un proceso WSS . . . . .
5.1.1. PSD para procesos estocsticos WSS discretos en el tiempo
a
5.1.2. PSD para procesos estocsticos WSS continuos en el tiempo
a
5.2. Estimacin de la densidad espectral de potencia . . . . . . . . . . .
o
5.2.1. Ergodicidad . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.2. Periodograma: denicin y propiedades . . . . . . . . . . .
o

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

109
109
109
116
125
125
126

Bibliograf
a

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

128

Cap
tulo 1

Probabilidad. Variable aleatoria.


Vector aleatorio
1.1.
1.1.1.

Probabilidad
Causalidad y aleatoriedad

A cualquiera que preguntemos cuanto tiempo tardar


amos en recorrer los 350 kilmetros que
o
separan Valencia de Barcelona, si nos desplazamos con velocidad constante de 100 kms/hora,
nos contestar sin dudar que 3 horas y media. Su actitud ser muy distinta si, previamente a su
a
a
lanzamiento, le preguntamos por la cara que nos mostrar un dado. Se trata de dos fenmenos
a
o
de naturaleza bien distinta,
el primero pertenece a los que podemos denominar deterministas, aquellos en los que
la relacin causa-efecto aparece perfectamente determinada. En nuestro caso concreto, la
o
conocida ecuacin e = v t, describe dicha relacin,
o
o
el segundo pertenece a la categor de los que denominamos aleatorios, que se caractea
rizan porque aun repitiendo en las mismas condiciones el experimento que lo produce, el
resultado variar de una repeticin a otra dentro de un conjunto de posibles resultados.
a
o
La Teor de la Probabilidad pretende emular el trabajo que los f
a
sicos y, en general, los cient
cos experimentales han llevado a cabo. Para entender esta armacin observemos que la ecuacin
o
o
anterior, e = v t, es un resultado experimental que debemos ver como un modelo matemtia
co que, haciendo abstraccin del mvil concreto y del medio en el que se desplaza, describe
o
o
la relacin existente entre el espacio, el tiempo y la velocidad. La Teor de la Probabilidad
o
a
nos permitir la obtencin de modelos aleatorios o estocsticos mediante los cuales podremos
a
o
a
conocer, en trminos de probabilidad, el comportamiento de los fenmenos aleatorios.
e
o

1.1.2.

Experimento, resultado, espacio muestral y suceso

Nuestro interlocutor s que ser capaz de responder que el dado mostrar una de sus caras. Al

a
a
igual que sabemos que la extraccin al azar de una carta de una baraja espaola pertenecer a
o
n
a
uno de los cuatro palos: oros, copas, espadas o bastos. Es decir, el experimento asociado a nuestro
fenmeno aleatorio1 da lugar a un resultado, , de entre un conjunto de posibles resultados.
o
1 Una peque a disquisicin surge en este punto. La aleatoriedad puede ser inherente al fenmeno, lanzar un
n
o
o
dado, o venir inducida por el experimento, extraccin al azar de una carta. Aunque conviene se alarlo, no es
o
n

Probabilidad. Variable aleatoria. Vector aleatorio

Este conjunto de posibles resultados recibe el nombre de espacio muestral, . Subconjuntos de


resultados con una caracter
stica comn reciben el nombre de sucesos aleatorios o, simplemente,
u
sucesos. Cuando el resultado del experimento pertenece al suceso A, decimos que ha ocurrido
o se ha realizado A.
A continuacin mostramos ejemplos de experimentos aleatorios, los espacios muestrales asoo
ciados y algunos sucesos relacionados.
Lanzamiento de dos monedas.- Al lanzar dos monedas el espacio muestral viene denido
por ={CC,C+,+C,++}. Dos ejemplos de sucesos en este espacio pueden ser:
A ={Ha salido una cara}={C+,+C},
B ={Ha salido ms de una cruz}={++}.
a
Elegir un punto al azar en el c
rculo unidad.- Su espacio muestral es ={Los puntos
del c
rculo}. Ejemplos de sucesos:
A = {; d(, centro) < 0,5},
B = {; 0, 3 < d(, centro) < 0,75}.
Sucesos, conjuntos y -lgebra de sucesos
a
Puesto que los sucesos no son ms que subconjuntos de , podemos operar con ellos de
a
acuerdo con las reglas de la teor de conjuntos. Todas las operaciones entre conjuntos sern
a
a
aplicables a los sucesos y el resultado de las mismas dar lugar a nuevos sucesos cuyo signicado
a
debemos conocer. Existen, por otra parte, sucesos cuya peculiaridad e importancia nos lleva a
asignarles nombre propio. De estos y de aquellas nos ocupamos a continuacin:
o
Suceso cierto o seguro: cuando llevamos a cabo cualquier experimento aletorio es seguro que
el resultado pertenecer al espacio muestral, por lo que , en tanto que suceso, ocurre
a
siempre y recibe el nombre de suceso cierto o seguro.
Suceso imposible: en el extremo opuesto aparece aquel suceso que no contiene ningn resulu
tado que designamos mediante y que, lgicamente, no ocurre nunca, razn por la cual
o
o
se le denomina suceso imposible.
Sucesos complementarios: la ocurrencia de un suceso, A, supone la no ocurrencia del suceso
que contiene a los resultados que no estn en A, es decir, Ac . Ambos sucesos reciben el
a
nombre de complementarios.
Unin de sucesos: la unin de dos sucesos, A B, da lugar a un nuevo suceso que no es
o
o
ms que el conjunto resultante de dicha unin. En consecuencia, A B ocurre cuando el
a
o
resultado del experimento pertenece a A, a B o ambos a la vez.
o
Interseccin de sucesos: la interseccin de dos sucesos, A B, es un nuevo suceso cuya
o
realizacin tiene lugar si el resultado pertenece a ambos a la vez, lo que supone que
o
ambos ocurren simultneamente.
a
u
o
Sucesos incompatibles: Existen sucesos que al no compartir ningn resultado su interseccin
es el suceso imposible, A B = . Se les denomina, por ello, sucesos incompatibles. Un
suceso A y su complementario Ac , son un buen ejemplo de sucesos incompatibles.
este lugar para profundizar en la cuestin
o

1.1 Probabilidad

Siguiendo con el desarrollo emprendido parece lgico concluir que todo subconjunto de ser un
o
a
suceso. Antes de admitir esta conclusin conviene una pequea reexin: la nocin de suceso
o
n
o
o
es un concepto que surge con naturalidad en el contexto de la experimentacin aleatoria pero,
o
aunque no hubiera sido as la necesidad del concepto nos hubiera obligado a inventarlo. De
,
la misma forma, es necesario que los sucesos poseean una m
nima estructura que garantice la
estabilidad de las operaciones naturales que con ellos realicemos, entendiendo por naturales
la complementacin, la unin y la interseccin. Esta dos ultimas merecen comentario aparte
o
o
o

para precisar que no se trata de uniones e intersecciones en nmero cualquiera, puesto que ms
u
a
all de la numerabilidad nos movemos con dicultad. Bastar pues que se nos garantice que
a
a
uniones e intersecciones numerables de sucesos son estables y dan lugar a otro suceso. Existe
una estructura algebraica que verica las condiciones de estabilidad que acabamos de enumerar.
Denicin 1.1 (-lgebra de conjuntos) Una familia de conjuntos A denida sobre deo
a
cimos que es una -lgebra si:
a
1. A.
2. A A Ac A.
3. {An }n1 A

n1

An A.

La familia de las partes de , P(), cumple con la denicin y es por tanto una -lgebra de
o
a
sucesos, de hecho la ms grande de las existentes. En muchas ocasiones excesivamente grande
a
para nuestras necesidades, que vienen determinadas por el ncleo inicial de sucesos objeto de
u
inters. El siguiente ejemplo permite comprender mejor este ultimo comentario.
e

Ejemplo 1.1 Si suponemos que nuestro experimento consiste en elegir al azar un nmero en
u
el intervalo [0,1], nuestro inters se centrar en conocer si la eleccin pertenece a cualquiera de
e
a
o
los posibles subintervalos de [0,1]. La -lgebra de sucesos generada a partir de ellos, que es la
a
menor que los contiene, se la conoce con el nombre de -lgebra de Borel en [0,1], [0,1] , y es
a
estrictamente menor que P([0, 1]).
En resumen, el espacio muestral vendr acompaado de la correspondiente -lgebra de sucesos,
a
n
a
la ms conveniente al experimento. La pareja que ambos constituyen, (, A), recibe el nombre
a
de espacio probabilizable.
Sealemos por ultimo que en ocasiones no es posible economizar esfuerzos y A coincide con
n

P(). Por ejemplo cuando el espacio muestral es numerable.

1.1.3.

Probabilidad y sus propiedades

Ya sabemos que la naturaleza aleatoria del experimento impide predecir de antemano el


resultado que obtendremos al llevarlo a cabo. Queremos conocer si cada suceso de la -lgebra
a
se realiza o no. Responder de una forma categrica a nuestro deseo es demasiado ambicioso.
o
Es imposible predecir en cada realizacin del experimento si el resultado va a estar o no en
o
cada suceso. En Probabilidad la pregunta se formula del siguiente modo: qu posibilidad hay
e
de que tenga lugar cada uno de los sucesos? La respuesta exige un tercer elemento que nos
proporcione esa informacin: Una funcin de conjunto P , es decir, una funcin denida sobre la
o
o
o
-lgebra de sucesos, que a cada uno de ellos le asocie un valor numrico que exprese la mayor o
a
e
menor probabilidad o posibilidad de producirse cuando se realiza el experimento. Esta funcin
o
de conjunto se conoce como medida de probabilidad o simplemente probabilidad. Hagamos un
breve incursin histrica antes de denirla formalmente.
o
o
El concepto de probabilidad aparece ligado en sus or
genes a los juegos de azar, razn por
o
la cual se tiene constancia del mismo desde tiempos remotos. A lo largo de la historia se han

Probabilidad. Variable aleatoria. Vector aleatorio

hecho muchos y muy diversos intentos para formalizarlo, dando lugar a otras tantas deniciones
de probabilidad que adolec todas ellas de haber sido confeccionadas ad hoc, careciendo por
an
tanto de la generalidad suciente que permitiera utilizarlas en cualquier contexto. No por ello el
inters de estas deniciones es menor, puesto que supusieron sucesivos avances que permitieron
e
a Kolmogorov enunciar su conocida y denitiva axiomtica en 1933. De entre las distintas
a
aproximaciones, dos son las ms relevantes:
a
Mtodo frecuencialista.- Cuando el experimento es susceptible de ser repetido en las mismas
e
condiciones una innidad de veces, la probabilidad de un suceso A, P (A), se dene como
el l
mite2 al que tiende la frecuencia relativa de ocurrencias del suceso A.
Mtodo clsico (Frmula de Laplace).- Si el experimento conduce a un espacio muestral
e
a
o
nito con n resultados posibles, = {1 , 2 , . . . , n }, todos ellos igualmente probables,
la probabilidad de un suceso A que contiene m de estos resultados se obtiene mediante la
frmula
o
m
P (A) = ,
n
conocida como frmula de Laplace, que la propuso a nales del siglo XVIII. La frmula
o
o
se enuncia como el cociente entre el nmero de casos favorables y el nmero de casos
u
u
posibles. Obsrvese la incorrecin formal de esta aproximacin en la medida que exige
e
o
o
equiprobabilidad en los resultados para poder denir, precisamente, la probabilidad, lo
cual implica un conocimiento previo de aquello que se quiere denir.
Las anteriores deniciones son aplicables cuando las condiciones exigidas al experimento son
satisfechas y dejan un gran nmero de fenmenos aleatorios fuera de su alcance. Estos problemas
u
o
se soslayan con la denicin axiomtica propuesta por A.N.Kolmogorov en 1933:
o
a
Denicin 1.2 (Probabilidad) Una funcin de conjunto, P , denida sobre la -lgebra A
o
o
a
es una probabilidad si:
1. P (A) 0 para todo A A.
2. P () = 1.
3. P es numerablemente aditiva, es decir, si {An }n1 es una sucesin de sucesos disjuntos
o
de A, entonces
P(
An ) =
P (An ).
n1

n1

A la terna (, A, P ) la denominaremos espacio de probabilidad.


Sealemos, antes de continuar con algunos ejemplos y con las propiedades que se derivan de
n
esta denicin, que los axiomas propuestos por Kolmogorov no son ms que la generalizacin
o
a
o
de las propiedades que posee la frecuencia relativa. La denicin se apoya en las aproximaciones
o
previas existentes y al mismo tiempo las incluye como situaciones particulares que son.
Ejemplo 1.2 (Espacio de probabilidad discreto. La frmula de Laplace) Supongamos
o
un espacio muestral, , numerable y como -lgebra la familia formada por todos los posibles
a
subconjuntos de . Sea p una funcin no negativa denida sobre vericando: p() = 1.
o
Si denimos P (A) = A p(), podemos comprobar con facilidad que P es una probabilidad.
2 Debemos advertir que no se trata aqu de un l

mite puntual en el sentido habitual del Anlisis. Ms adelante


a
a
se introducir el tipo de convergencia al que nos estamos reriendo
a

1.1 Probabilidad

Hay un caso particular de especial inters, el llamado espacio de probabilidad discreto unie
1
forme, en el que es nito, = {1 , 2 , . . . , n }, y p(i ) = n , i . Entonces, para
A = {i1 , i2 , . . . , im } se tiene
m
P (A) = ,
n
que es la frmula de Laplace, obtenida ahora con rigor. El nombre de uniforme se justica
o
porque la masa de probabilidad est uniformemente repartida al ser constante en cada punto.
a
Un ejemplo de espacio de probabilidad discreto uniforme es el que resulta de lanzar dos dados.
El espacio muestral, ={(1,1),(1,2),. . .,(6,5),(6,6)}, est formado por las 66 posibles parejas
a
de caras. Si los dados son correctos, cualquiera de estos resultados tiene la misma probabilidad,
1/36. Sea ahora A ={ambas caras son pares}, el nmero de puntos que contiene A son 9, por
u
lo que aplicando la frmula de Laplace, P (A) = 9/36 = 1/4.
o
Propiedades de la probabilidad
De la denicin de probabilidad se deducen algunas propiedades muy utiles.
o

La probabilidad del vac es cero.- = . . . y por la aditividad numerable,


o
P () = P () + k1 P (), de modo que P () = 0.
Aditividad nita.- Si A1 , . . . , An son elementos disjuntos de A, aplicando la -aditividad, la
propiedad anterior y haciendo Ai = , i > n tendremos

Ai

=P

i=1

Ai =

P (Ai ).
i=1

i1

Se deduce de aqu fcilmente que A A, P (Ac ) = 1 P (A).


a
Monoton
a.- Si A, B A, A B, entonces de P (B) = P (A) + P (B A) se deduce que
P (A) P (B).
Probabilidad de una unin cualquiera de sucesos (frmula de inclusin-exclusin).o
o
o
o
Si A1 , . . . , An A, entonces
n

Ai

i=1
n

P (Ai Aj ) + . . . + (1)n+1 P (A1 . . . An ).

P (Ai )
i=1

(1.1)

i<j

Subaditividad.- Dados los sucesos A1 , . . . , An , la relacin existente entre la probabilidad de


o
la unin de los Ai y la probabilidad de cada uno de ellos es la siguiente:
o
n

Ai
i=1

P (Ai ).
i=1

o
o
Continuidad de la probabilidad.- Sea {An }n1 una sucesin montona de sucesos y sea A
su l
mite. Se demuestra fcilmente que
a
P (A) = P (l An ) = l
m
m P (An ).
n

n+

1.1.4.

Probabilidad. Variable aleatoria. Vector aleatorio

Probabilidad condicionada. Teorema de Bayes

Si compramos un nmero para una rifa que se celebra anualmente durante las estas de
u
verano en nuestro pueblo y que est compuesta por 100 boletos numerados del 1 al 100, sabemos
a
que nuestra probabilidad ganar el premio, suceso que designaremos por A, vale
1
100
Supongamos que a la maana siguiente de celebrase el sorteo alguien nos informa que el boleto
n
premiado termina en 5. Con esta informacin, continuaremos pensando que nuestra probabio
lidad de ganar vale 102 ? Desde luego ser absurdo continuar pensndolo si nuestro nmero
a
a
u
termina en 7, porque evidentemente la nueva probabilidad valdr P (A) = 0, pero aunque
a
terminara en 5 tambin nuestra probabilidad de ganar habr cambiado, porque los nmeros
e
a
u
que terminan en 5 entre los 100 son 10 y entonces
P (A) =

P (A) =

1
,
10

10 veces mayor que la inicial.


Supongamos que nuestro nmero es el 35 y repasemos los elementos que han intervenido en
u
la nueva situacin. De una parte, un suceso original A ={ganar el premio con el nmero 35 }, de
o
u
otra, un suceso B{el boleto premiado termina en 5 } de cuya ocurrencia se nos informa a priori.
Observemos que A B ={el nmero 35 } y que la nueva probabilidad encontrada verica,
u
P (A) =

1
1/100
P (A B)
=
=
,
10
10/100
P (B)

poniendo en evidencia algo que cab esperar, que la nueva probabilidad a depende de P (B).
a
Estas propiedades observadas justican la denicin que damos a continuacin.
o
o
Denicin 1.3 (Probabilidad condicionada) Sea (, A, P ) un espacio de probabilidad y
o
sean A y B dos sucesos, con P (B) > 0, se dene la probabilidad de A condicionada a B
mediante la expresin,
o
P (A B)
P (A|B) =
.
P (B)
Teorema de factorizacin
o
A partir de la denicin de probabilidad condicionada, la probabilidad de la interseccin de
o
o
dos sucesos puede expresarse de la forma P (AB) = P (A|B)P (B). El teorema de factorizacin
o
extiende este resultado para cualquier interseccin nita de sucesos.
o
Consideremos los sucesos A1 , A2 , . . . , An , tales que P (n Ai ) > 0, por induccin se como
i=1
prueba fcilmente que
a
n

Ai

= P An | n1 Ai P An1 | n2 Ai . . . P (A2 |A1 )P (A1 ).


i=1
i=1

(1.2)

i=1

Ejemplo 1.3 En una urna que contiene 5 bolas blancas y 4 negras, llevamos a cabo 3 extracciones consecutivas sin reemplazamiento. Cul es la probabilidad de que las dos primeras sean
a
blancas y la tercera negra?
Cada extraccin altera la composicin de la urna y el total de bolas que contiene. De acuerdo
o
o
con ello tendremos (la notacin es obvia)
o
P (B1 B2 N3 ) =
= P (N3 |B1 B2 )P (B2 |B1 )P (B1 ) =

4
7

4
8

5
9

1.1 Probabilidad

Teorema de la probabilidad total


Si los sucesos A1 , A2 , . . . , An constituyen un particin del , tal que P (Ai ) > 0, i, tendreo
mos que cualquier suceso B podr particionarse de la forma, B = n B Ai y tratndose de
a
a
i=1
una unin disjunta podremos escribir
o
n

P (B) =

P (B Ai ) =
i=1

P (B|Ai )P (Ai ).

(1.3)

i=1

Este resultado se conoce con el nombre de teorema de la probabilidad total.


Teorema de Bayes
Puede tener inters, y de hecho as ocurre en muchas ocasiones, conocer la probabilidad
e

asociada a cada elemento de la particin dado que ha ocurrido B, es decir, P (Ai |B). Para ello,
o
recordemos la denicin de probabilidad condicionada y apliquemos el resultado anterior.
o
P (Ai |B) =

P (Ai B)
=
P (B)

P (B|Ai )P (Ai )
.
P (B|Ai )P (Ai )

n
i=1

Este resultado, conocido como el teorema de Bayes, permite conocer el cambio que experimenta la probabilidad de Ai como consecuencia de haber ocurrido B. En el lenguaje habitual del
Clculo de Probabilidades a P (Ai ) se la denomina probabilidad a priori y a P (Ai |B) probaa
bilidad a posteriori, siendo la ocurrencia de B la que establece la frontera entre el antes y el
despus. Cul es, a efectos prcticos, el inters de este resultado? Vemoslo con un ejemplo.
e
a
a
e
a
Ejemplo 1.4 Tres urnas contienen bolas blancas y negras. La composicin de cada una de
o
ellas es la siguiente: U1 = {3B, 1N }, U2 = {2B, 2N }, U3 = {1B, 3N }. Se elige al azar una de
las urnas, se extrae de ella una bola al azar y resulta ser blanca. Cul es la urna con mayor
a
probabilidad de haber sido elegida?
Mediante U1 , U2 y U3 , representaremos tambin la urna elegida. Estos sucesos constituyen
e
una particin de y se verica, puesto que la eleccin de la urna es al azar,
o
o
P (U1 ) = P (U2 ) = P (U3 ) =

1
.
3

Si B={la bola extra es blanca}, tendremos


da
P (B|U1 ) =

3
2
1
, P (B|U2 ) = , P (B|U3 ) = .
4
4
4

Lo que nos piden es obtener P (Ui |B) para conocer cul de las urnas ha originado, ms probaa
a
blemente, la extraccin de la bola blanca. Aplicando el teorema de Bayes a la primera de las
o
urnas,
1 3
4
3
P (U1 |B) = 1 3 3 2 1 1 = ,
1
6
4+34+34
3
y para las otras dos, P (U2 |B) = 2/6 y P (U3 |B) = 1/6. Luego la primera de las urnas es la que
con mayor probabilidad di lugar a una extraccin de bola blanca.
o
o
El teorema de Bayes es uno de aquellos resultados que inducen a pensar que la cosa no era
para tanto. Se tiene ante l la sensacin que produce lo trivial, hasta el punto de atrevernos
e
o
a pensar que lo hubiramos podido deducir nosotros mismos de haberlo necesitado, aunque
e
afortunadamente el Reverendo Thomas Bayes se ocup de ello en un trabajo titulado An Essay
o
towards solving a Problem in the Doctrine of Chances, publicado en 1763. Conviene precisar
que Bayes no plante el teorema en su forma actual, que es debida a Laplace.
o

1.1.5.

Probabilidad. Variable aleatoria. Vector aleatorio

Independencia

La informacin previa que se nos proporcion sobre el resultado del experimento modic la
o
o
o
probabilidad inicial del suceso. Ocurre esto siempre? Vemoslo.
a
Supongamos que en lugar de comprar un unico boleto, el que lleva el nmero 35, hubiramos

u
e
comprado todos aquellos que terminan en 5. Ahora P (A) = 1/10 puesto que hemos comprado 10
boletos, pero al calcular la probabilidad condicionada a la informacin que se nos ha facilitado,
o
B ={el boleto premiado termina en 5 }, observemos que P (AB) = 1/100 porque al interseccin
o
de ambos sucesos es justamente el boleto que est premiado, en denitiva
a
P (A|B) =

P (A B)
1/100
1
=
=
,
P (B)
10/100
10

la misma que originalmente ten A. Parecen existir situaciones en las que la informacin prea
o
via no modica la probabilidad inicial del suceso. Observemos que este resultado tiene una
consecuencia inmediata,
P (A B) = P (A|B)P (B) = P (A)P (B).
Esta es una situacin de gran importancia en probabilidad que recibe el nombre de indeo
pendencia de sucesos y que generalizamos mediante la siguiente denicin.
o
Denicin 1.4 (Sucesos independientes) Sean A y B dos sucesos. Decimos que A y B son
o
independientes si P (A B) = P (A)P (B).
De esta denicin se obtiene como propiedad,
o
P (A|B) =

P (A B)
P (A)P (B)
=
= P (A),
P (B)
P (B)

y su simtrica P (B|A) = P (B).


e
En ocasiones se dene la independencia de dos sucesos a partir de este resultado, obtenindoe
se entonces como propiedad la que nosotros hemos dado como denicin. Existe equivalencia
o
entre ambas deniciones, aunque a fuerza de ser rigurosos, hay que matizar que denir el
concepto a partir de la probabilidad condicional exige aadir la condicin de que el suceso conn
o
dicionante tenga probabilidad distinta de cero. Hay adems otra ventaja a favor de la denicin
a
o
basada en la factorizacin de P (AB), pone de inmediato en evidencia la simetr del concepto.
o
a
El concepto de independencia puede extenderse a una familia nita de sucesos de la siguiente
forma.
Denicin 1.5 (Independencia mutua) Se dice que los sucesos de la familia {A1 , . . . , An }
o
son mtuamente independientes cuando
u
m

P (Ak1 . . . Akm ) =

P (Aki )

(1.4)

i=1

siendo {k1 , . . . , km } {1, . . . , n} y los ki distintos.


Conviene sealar que la independencia mutua de los n sucesos supone que han de vericarse
n
n
n
+ n1 + . . . n = 2n n 1 ecuaciones del tipo dado en (1.4).
n
2
Si solamente se vericasen aquellas igualdades que implican a dos elementos dir
amos que
los sucesos son independientes dos a dos, que es un tipo de independencia menos restrictivo que
el anterior como pone de maniesto el siguiente ejemplo. Solo cuando n = 2 ambos conceptos
son equivalentes.
La denicin puede generalizarse a familias o clases de sucesos.
o

1.1 Probabilidad

Denicin 1.6 (Clases independientes de sucesos) Las clases de sucesos A1 , . . . , An


o
A se dicen independientes, si al tomar Ai en cada Ai , i = 1, . . . , n, los sucesos de la familia
{A1 , . . . , An } son independientes.
Notemos que en la denicin no se exige que los elementos de cada clase Ai sean indepeno
dientes entre s De hecho A y Ac slo lo son si P (A) = 0 P (A) = 1.
.
o
o
Para una coleccin innita de clases de sucesos la anterior denicin se extiende con facilio
o
dad. Diremos que {An }n1 A son independientes si cualquier subcoleccin nita lo es.
o
Ejemplo 1.5 (Teorema de Bayes y sistemas de comunicacin) Muchos sistemas de coo
municacin pueden modelizarse de la siguiente forma. El usuario entra un 0 o un 1 en el sistema
o
y la correspondiente seal es transmitida. El receptor toma una decisin acerca del cul fue la
n
o
a
entrada del sistema en funcin de la seal recibida. Supongamos que el usuario envia un 0 con
o
n
probabilidad 1-p y un 1 con probabilidad p, mientras que el receptor toma un decisin errnea
o
o
con probabilidad . Para i = 0, 1, sea Ai ={el emisor env i} y Bi ={el receptor decidi i}.
a
o

(1 p)(1 )

1 p

(1 p)

Entrada

1
1

Salida

p(1 )

De acuerdo con el esquema de la gura, las probabilidades del tipo P (Ai Bi ), supuesta
independencia entre las acciones del emisor y del receptor, valen
P (A0 B0 ) = (1 p)(1 ), P (A0 B1 ) = (1 p)
P (A1 B0 ) = p,
P (A1 B1 ) = p(1 ).
Es interesante, en este contexto, conocer las probabilidades del tipo P (Ai |Bj ), con i, j = 0, 1. Es
decir, la probabilidad de que habiendo el receptor interpretado la seal como j la que realmente
n
se transmiti fuera i. De particular inters son, obviamente, P (A0 |B0 ) y P (A1 |B1 ).
o
e
Para obtener estas probabilidades podemos hacer uso del Teorema de Bayes,
P (Ai |Bj ) ==

P (Bj |Ai )P (Ai )


.
P (Bj |Ai )P (Ai )

n
i=1

(1.5)

El denominador no es ms que P (Bj ), que se calcula fcilmente a partir de las anteriores


a
a
probabilidades. As para j=0
,
P (B0 ) = P (B0 |A0 )P (A0 ) + P (B0 |A1 )P (A1 ) = (1 )(1 p) + p,
y para j=1
P (B1 ) = P (B1 |A0 )P (A0 ) + P (B1 |A1 )P (A1 ) = (1 p) + (1 )p.
En la tabla se muestran las cuatro probabilidades que se derivan de (1.5).

10

Probabilidad. Variable aleatoria. Vector aleatorio

B0

B1

A0

(1 )(1 p)
(1 )(1 p) + p

(1 p)
(1 )(1 p) + p

A1

p
(1 p) + (1 )p

(1 )p
(1 p) + (1 )p

1.2 Variable aleatoria

1.2.
1.2.1.

11

Variable aleatoria
Denicin
o

Nuestro inters al examinar el resultado de un experimento aleatorio no es tanto el espacio


e
de probabilidad resultante, como la o las caracter
sticas numricas asociadas, lo que supone
e
cambiar nuestro objetivo de a R o Rk . Hay dos razones que justican este cambio:
1. el espacio de probabilidad es un espacio abstracto, mientras que R o Rk son espacios bien
conocidos en los que resulta mucho ms cmodo trabajar,
a o
2. jar nuestra atencin en las caracter
o
sticas numricas asociadas a cada resultado implica
e
un proceso de abstraccin que, al extraer los rasgos esenciales del espacio muestral, permite
o
construir un modelo probabil
stico aplicable a todos los espacios muestrales que comparten
dichos rasgos.
Puesto que se trata de caracter
sticas numricas ligadas a un experimento aleatorio, son ellas
e
mismas cantidades aleatorias. Esto supone que para su estudio y conocimiento no bastar con
a
saber que valores toman, habr que conocer adems la probabilidad con que lo hacen. Todo
a
a
ello exige trasladar la informacin desde el espacio de probabilidad a R o Rk y la unica forma
o

que conocemos de trasladar informacin de un espacio a otro es mediante una aplicacin. En


o
o
nuestro caso la aplicacin habr de trasladar el concepto de suceso, lo que exige una m
o
a
nima
infraestructura en el espacio receptor de la informacin semejante a la -lgebra que contiene
o
a
a los sucesos. Como nos vamos a ocupar ahora del caso unidimensional, una sola caracter
stica
numrica asociada a los puntos del espacio muestral, nuestro espacio imagen es R. En R,
e
los intervalos son el lugar habitual de trabajo, por lo que ms conveniente ser exigir a esta
a
a
infraestructura que los contenga. Existe en R la llamada -lgebra de Borel, , que tiene la
a
propiedad de ser la menor de las que contienen a los intervalos, lo que la hace la ms adecuada
a
para convertir a R en espacio probabilizable: (R, ). Estamos ahora en condiciones de denir
la variable aleatoria.
Denicin 1.7 (Variable aleatoria) Consideremos los dos espacios probabilizables (, A) y
o
(R, ). Una variable aleatoria es un aplicacin, X : R, que verica
o
X 1 (B) A, B .

(1.6)

Cuando hacemos intervenir una variable aleatoria en nuestro proceso es porque ya estamos en
presencia de un espacio de probabilidad, (, A, P ). La variable aleatoria traslada la informacin
o
probabil
stica relevante de a R mediante una probabilidad inducida que se conoce como ley
de probabilidad de X o distribucin de probabilidad de X.
o
El concepto de -lgebra inducida
a
Dada la denicin de variable aleatoria, es muy sencillo comprobar el siguiente resultado.
o
Lema 1.1 La familia de sucesos
(X) = {X 1 (B), B } = {X 1 ()},
es una -lgebra, denominada -lgebra inducida por X, que verica (X) A.
a
a
A los efectos de conocer el comportamiento probabil
sticos de una variable aleatoria X, tres
funciones nos proporcionan la informacin necesaria:
o

12

Probabilidad. Variable aleatoria. Vector aleatorio

la probabilidad inducida, PX ,
la funcin de distribucin de probabilidad, FX , y
o
o
la funcin de cuant o probabilidad, si la variable es discreta, o la funcin de densidad de
o
a
o
probabilidad, si la variables es continua, en ambos casos denotada por fX .
Sus deniciones y propiedades se describen a continuacin. Se puede demostrar, aunque est fueo
a
ra del objetivo y alcance de estas notas, la equivalencia entre las tres funciones,
PX FX fX .
Es decir, el conocimiento de una cualquiera de ellas permite obtener las otras dos.

1.2.2.

Probabilidad inducida

X induce sobre (R, ) una probabilidad, PX , de la siguiente forma,


PX (A) = P (X 1 (A)), A .
Es fcil comprobar que PX es una probabilidad sobre la -lgebra de Borel, de manera que
a
a
(R, , PX ) es un espacio de probabilidad al que podemos aplicar todo cuanto se dijo en el
cap
tulo anterior. Observemos que PX hereda las caracter
sticas que ten P , pero lo hace a
a
travs de X. Qu quiere esto decir? Un ejemplo nos ayudar a comprender este matiz.
e
e
a
Ejemplo 1.6 Sobre el espacio de probabilidad resultante de lanzar dos dados, denimos las
variables aletorias, X=suma de las caras e Y =valor absoluto de la diferencia de las caras. Aun
cuando el espacio de probabilidad sobre el que ambas estn denidas es el mismo, PX y PY son
a
distintas porque viene inducidas por variables distintas. En efecto,
PX ({0}) = P (X 1 ({0}) = P () = 0,
sin embargo,
PY ({0}) = P (Y 1 ({0}) = P ({1, 1}, {2, 2}, {3, 3}, {4, 4}, {5, 5}, {6, 6}) =

1
.
6

La distribucin de probabilidad de X, PX , nos proporciona cuanta informacin necesitamos


o
o
para conocer el comportamiento probabil
stico de X, pero se trata de un objeto matemtico
a
complejo de incmodo manejo, al que no es ajena su condicin de funcin de conjunto. Esta es
o
o
o
la razn por la que recurrimos a funciones de punto para describir la aleatoriedad de X.
o

1.2.3.

Funcin de distribucin de probabilidad


o
o

A partir de la probabilidad inducida podemos denir sobre R la siguiente funcin,


o
FX (x) = PX ((, x]) = P (X 1 {(, x]}) = P (X x), x R.

(1.7)

As denida esta funcin tiene las siguientes propiedades:

o
PF1) No negatividad.- Consecuencia inmediata de su denicin.
o
PF2) Monoton
a.- De la monoton de la probabilidad se deduce fcilmente que FX (x1 )
a
a
FX (x2 ) si x1 x2 .

1.2 Variable aleatoria

13

PF3) Continuidad por la derecha.- Consideremos una sucesin decreciente de nmeros


o
u
reales xn x. La correspondiente sucesin de intervalos verica n (, xn ] = (, x], y
o
por la continuidad desde arriba de la probabilidad respecto del paso al l
mite tendremos
l xn x FX (xn ) = FX (x).
m
1
Observemos por otra parte que (, x] = {x} l n+ (, x n ], lo que al tomar
m
probabilidades conduce a

FX (x) = P (X = x) + l
m FX
n+

1
n

= P (X = x) + F (x),

(1.8)

A partir de 1.8 se sigue que FX (x) es continua en x s y solo s P (X = x) = 0.

PF4) Valores l
mites.- Si xn + o xn entonces (, xn ] R y (, xn ] y por
tanto
F (+) = l
m F (xn ) = 1, F () = l
m F (xn ) = 0.
xn +

xn

A la funcin FX se la conoce como funcin de distribucin de probabilidad de X (en adelante


o
o
o
simplemente funcin de distribucin). En ocasiones se la denomina funcin de distribucin
o
o
o
o
acumulada, porque tal y como ha sido denida nos informa de la probabilidad acumulada por
la variable X hasta el punto x. Nos permite obtener probabilidades del tipo P (a < X b) a
partir de la expresin
o
P (a < X b) = FX (b) FX (a).

1.2.4.

Funcin de cuant o probabilidad: variable aleatoria discreta


o
a

Existe una segunda funcin de punto que permite describir el comportamiento de X, pero
o
para introducirla hemos de referirnos primero a las caracter
sticas del soporte de X, entendiendo
por tal un conjunto DX que verica, PX (DX ) = P (X DX ) = 1.
Cuando DX es numerable, PX es discreta y decimos que X es una variable aleatoria discreta.
Como ya vimos en un ejemplo del cap
tulo anterior, PX ({xi }) = P (X = xi ) > 0, xi DX ,
c
y siendo adems P (X DX ) = 1, se deduce P (X = x) = 0, x DX . En este caso es fcil
a
a
comprobar que la FX asociada viene dada por
FX (x) =

P (X = xi ).

(1.9)

xi x

De acuerdo con esto, si x(i) y x(i+1) son dos puntos consecutivos del soporte tendremos que x
c
[x(i) , x(i+1) [, FX (x) = FX (x(i) ). Como adems PX (x) = 0, x DX , la funcin ser tambin
a
o
a
e
continua. Por otra parte P (X = xi ) > 0, para xi DX , con lo que los unicos puntos de

discontinuidad sern lo del soporte, discontinuidad de salto nito cuyo valor es FX (x(i) )
a
FX (x(i1) ) = P (X = xi ). Se trata por tanto de una funcin escalonada, cuyos saltos se producen
o
en los puntos de DX .
A la variable aleatoria discreta podemos asociarle una nueva funcin puntual que nos ser de
o
a
gran utilidad. La denimos para cada x R mediante fX (x) = PX ({x}) = P (X = x), lo que
supone que
P (X = x), si x DX
fX (x) =
0,
en el resto.
Esta funcin es conocida como funcin de cuant o de probabilidad de X y posee las dos
o
o
a
propiedades siguientes:
Pfc1) Al tratarse de una probabilidad, fX (x) 0, x R,

14

Probabilidad. Variable aleatoria. Vector aleatorio

Pfc2) Como P (X DX ) = 1,
fX (xi ) = 1.
xi DX

La relacin entre fX y FX viene recogida en las dos expresiones que siguen, cuya obtencin
o
o
es evidente a partir de (1.8) y (1.9). La primera de ellas permite obtener FX a partir de fX ,
FX (x) =

fX (xi ).
xi x

La segunda proporciona fX en funcin de FX ,


o
fX (x) = FX (x) FX (x).

1.2.5.

Algunos ejemplos de variables aleatorias discretas

Variable aleatoria Poisson


La distribucin de Poisson de parmetro es una de las distribuciones de probabilidad
o
a
discretas ms conocida. Una variable con esta distribucin se caracteriza porque su soporte es
a
o
DX = {0, 1, 2, 3, . . .} y su funcin de cuant viene dada por
o
a
x
e , si x D

X
x!
fX (x) =

0,
en el resto,
que cumple las propiedades Pfc1) y Pfc2). La funcin de distribucin tiene por expresin
o
o
o
FX (x) =
nx

e n
.
n!

Diremos que X es una variable Poisson de parmetro y lo denotaremos X P o(). Esta


a
variable aparece ligada a experimentos en los que nos interesa la ocurrencia de un determinado
suceso a lo largo de un intervalo nito de tiempo3 , vericndose las siguientes condiciones:
a
1. la probabilidad de que el suceso ocurra en un intervalo pequeo de tiempo es proporcional
n
a la longitud del intervalo, siendo el factor de proporcionalidad,
2. la probabilidad de que el suceso ocurra en dos o ms ocasiones en un intervalo pequeo
a
n
de tiempo es prcticamente nula.
a
Fenmenos como el nmero de part
o
u
culas que llegan a un contador Geiger procedentes de una
fuente radiactiva, el nmero de llamadas que llegan a una centralita telefnica durante un
u
o
intervalo de tiempo, las bombas ca
das sobre la regin de Londres durante la Segunda Guerra
o
mundial y las bacterias que crecen en la supercie de un cultivo, entre otros, pueden ser descritos
mediante una variable aleatoria Poisson.
3 En un planteamiento ms general, el intervalo nito de tiempo puede ser sustituido por un subconjunto
a
acotado de Rk

1.2 Variable aleatoria

15

Variable aleatoria Binomial


Decimos que X es una variable Binomial de parmetros n y p (X B(n, p)) si DX =
a
{0, 1, 2, . . . , n} y

n x

p (1 p)nx , si x DX

x
fX (x) =

0,
en el resto,
que se comprueba fcilmente que verica Pfc1) y Pfc2).
a
Cuando llevamos a cabo un experimento aleatorio cuyos rasgos esenciales son:
1. se llevan a cabo n repeticiones independientes de una misma prueba en las mismas condiciones,
2. en cada repeticin observamos la ocurrencia (xito) o no (fracaso) de un mismo suceso,
o
e
A, y
3. la probabilidad de xito es la misma en cada repeticin, P (A) = p,
e
o
la variable que describe el nmero de xitos alcanzado en las n repeticiones, es una Binomial
u
e
de parmetros n y p.
a
Fenmenos aleatorios aparentemente tan diferentes como el nmero de hijos varones de un
o
u
matrimonio con n hijos o el nmero de caras obtenidas al lanzar n veces una moneda correcta,
u
son bien descritos mediante un variable Binomial. Este hecho, o el anlogo que sealbamos en
a
n a
el ejemplo anterior, ponen de maniesto el papel de modelo aleatorio que juega una variable
aleatoria, al que alud
amos en la introduccin. Esta es la razn por la que en muchas ocasiones
o
o
se habla del modelo Binomial o del modelo Poisson.
Hagamos por ultimo hincapi en un caso particular de variable aleatoria Binomial. Cuando

e
n = 1 la variable X B(1, p) recibe el nombre de variable Bernoulli y se trata de una variable
que solo toma los valores 0 y 1 con probabilidad distinta de cero. Es por tanto una variable
dicotmica asociada a experimentos aleatorios en los que, realizada una sola prueba, nos intereo
samos en la ocurrencia de un suceso o su complementario. Este tipo de experimentos reciben el
nombre de pruebas Bernoulli.
La distribucin de Poisson como l
o
mite de la Binomial.- Consideremos la sucesin
o
de variables aleatorias Xn B(n, pn ) en la que a medida que n aumenta, pn disminuye
de forma tal que npn . Ms concretamente, npn . Tendremos para la funcin de
a
o
cuant
a,
n x
n!
fXn (x) =
p (1 pn )nx =
px (1 pn )nx ,
x n
x!(n x)! n
y para n sucientemente grande,
fXn (x)
=

n!

x!(n x)! n

nx

x n(n 1) (n x + 1)
1
x
x!
n
n

Al pasar al l
mite,
n(n 1) (n x + 1)
1,
nx

e ,

1,

16

Probabilidad. Variable aleatoria. Vector aleatorio

y tendremos

e x
.
n+
x!
La utilidad de este resultado reside en permitir la aproximacin de la funcin de cuant
o
o
a
de una B(n, p) mediante la funcin de cuant de una P o( = np) cuando n es grande y
o
a
p pequeo.
n
l
m fXn (x) =

Variable aleatoria Hipergeomtrica. Relacin con el modelo Binomial


e
o
Si tenemos una urna con N bolas, de las cuales r son rojas y el resto, N r, son blancas
y extraemos n de ellas con reemplazamiento, el nmero X de bolas rojas extra
u
das ser una
a
B(n, p) con p = r/N .
Qu ocurre si llevamos a cabo las extracciones sin reemplazamiento? La variable X sigue
e
ahora una distribucin Hipergeomtrica (X H(n, N, r)) con soporte DX = {0, 1, 2, . . . , m
o
e
n(n, r)}
y cuya funcin de cuant se obtiene fcilmente a partir de la frmula de Laplace
o
a
a
o

N r
r

x
nx

, si x DX

N
fX (x) =

0,
en el resto,
que cumple de inmediato la condicin Pfc1). Para comprobar Pfc2) debemos hacemos uso de
o
una conocida propiedad de los nmeros combinatorios,
u
n
i=0

a
i

b
ni

a+b
.
n

La diferencia entre los modelos Binomial e Hipergeomtrico estriba en el tipo de extraccin.


e
o
Cuando sta se lleva a cabo con reemplazamiento las sucesivas extracciones son independientes
e
y la probabilidad de xito se mantiene constante e igual a r/N , el modelo es Binomial. No ocurre
e
as si las extracciones son sin reemplazamiento. No obstante, si n es muy pequeo respecto a N y

n
r, la composicin de la urna variar poco de extraccin a extraccin y existir lo que podr
o
a
o
o
a
amos
denominar una quasi-independencia y la distribucin Hipergeomtrica deber comportarse como
o
e
a
una Binomial. En efecto,

fX (x) =

=
=

con p = r/N .

r
x

N r
nx
N
n

(N r)!
n!(N n)!
r!

x!(r x)! (n x)!(N r n + x)!


N!
n r
r1
rx+1
N r
N r1

x N
N 1
N x+1 N x N x1
N rn+x+1

N n+1
n x
p (1 p)nx ,
x

1.2 Variable aleatoria

17

Variable aleatoria Binomial Negativa


Consideremos n pruebas Bernoulli independientes con la misma probabilidad de xito, p, en
e
cada una de ellas. Nos interesamos en la ocurrencia del r-simo xito. La variable que describe
e
e
el m
nimo nmero de pruebas adicionales necesarias para alcanzar los r xitos, es una variable
u
e
aleatoria Binomial Negativa, X BN (r, p), con soporte numerable DX = {0, 1, 2, . . .} y con
funcin de cuant
o
a

r+x1 r

p (1 p)x , si x 0

x
fX (x) =

0,
en el resto.
El nombre de Binomial negativa se justica a partir de la expresin alternativa que admite la
o
funcin de cuant
o
a,

fX (x) =

r r
p ((1 p))x , si x 0
x
0,

en el resto,

obtenida al tener en cuenta que


r
x

(r)(r 1) (r x + 1)
x!
x
(1) r(r + 1) (r + x 1)
=
x!
(1)x (r 1)!r(r + 1) (r + x 1)
=
(r 1)!x!
r+x1
= (1)x
.
x
=

La condicin Pfc1) se cumple de inmediato, en cuanto a Pfc2) recordemos el desarrollo en serie


o
de potencias de la funcin f (x) = (1 x)n ,
o
1
=
(1 x)n

i0

n+i1 i
x,
i

|x| < 1.

En nuestro caso
fX (x) =
x0

r+x1 r
p (1 p)x = pr
x

x0

r+x1
1
(1 p)x = pr
= 1.
x
(1 (1 p))r

Un caso especial con nombre propio es el de r = 1. La variable aleatoria X BN (1, p)


recibe el nombre de variable aleatoria Geomtrica y su funcin de cuant se reduce a
e
o
a

p(1 p)x , si x 0
fX (x) =

0,

en el resto.

18

Probabilidad. Variable aleatoria. Vector aleatorio

1.2.6.

Funcin de densidad de probabilidad: variable aleatoria contio


nua.

Una variable aleatoria X es continua si su funcin de distribucin, FX , es absolutamente


o
o
continua. Lo que a efectos prcticos ello supone que existe una funcin fX (x), conocida como
a
o
funcin de densidad de probabilidad (fdp) de X, tal que
o
x

FX (x) =

f (t) dt.

En particular, dado cualquier intervalo ]a, b], se verica


b

P (X ]a, b]) = P (a < X b) =

f (x) dx.
a

Se derivan para fX dos interesantes propiedades que la caracterizan:


Pfdp1) fX (x) es no negativa, y
Pfdp2) como P (X R) = 1,
+

f (x) dx = 1.

Por otra parte, si x es un punto de continuidad de fX , por una propiedad de la integral de


Riemann se tiene
fX (x) = FX (x).
Signicado f
sico de la fdp
La continuidad de FX implica, recordemos (1.8), que en las variables aleatorias continuas
P (X = x) = 0, x R. Este es un resultado que siempre sorprende y para cuya comprensin
o
es conveniente interpretar f
sicamente la funcin de densidad de probabilidad.
o
P(a < X b)

y = f (x)
X

f (x)dx
X

xd+x x

La fdp es sencillamente eso, una densidad lineal de probabilidad que nos indica la cantidad
de probabilidad por elemento innitesimal de longitud. Es decir, fX (x) dx P (X ]x, x + dx]).
Ello explica que, para elementos con longitud cero, sea nula la correspondiente probabilidad.
En este contexto, la probabilidad obtenida a travs de la integral de Riemann pertinente se
e
asimila a un rea, la encerrada por fX entre los l
a
mites de integracin.
o

1.2 Variable aleatoria

1.2.7.

19

Algunos ejemplos de variables aleatorias continuas

Variable aleatoria Uniforme


La variable X diremos que tiene una distribucin uniforme en el intervalo [a,b], X U (a, b),
o
si su fdp es de la forma
1

, si x [a, b]

ba
fX (x) =

0,
en el resto.
La funcin de distribucin que obtendremos integrando fX vale
o
o

si x a
0,

xa
, si a < x b
FX (x) =

ba

1,
si x > b.
Surge esta variable cuando elegimos al azar un punto en el intervalo [a,b] y describimos con X
su abscisa.
Variable aleatoria Normal
Diremos que X es una variable aleatoria Normal de parmetros y 2 , X N (, 2 ), si
a
tiene por densidad,
(x )2

1
2 2 , < x < +.
fX (x) = e
(1.10)
2
En tanto que densidad, fX debe satisfacer las propiedades Pfdp1) y Pfdp2). La primera se
deriva de inmediato de (1.10). Para comprobar la segunda,
I

fX (x)dx

fX (x)dx

fX (y)dy

1 1

2
1 1

2
1
2

(x )2
1
2 2 dx
e

z2
1
e 2 dz

1
2

(y )2
2 2 dy
e

(1.11)

v2
e 2 dv

(1.12)

z2 + v2
2 dzdv
e

(1.13)

r2

e 2 rdr d = 1,

(1.14)

20

Probabilidad. Variable aleatoria. Vector aleatorio

donde el paso de (1.11) a (1.12) se lleva a cabo mediante los cambios z = (x )/ y v =


(v )/, y el de (1.13) a (1.14) mediante el cambio a polares z = r sin y v = r cos .
La grca de fX tiene forma de campana y es conocida como la campana de Gauss por ser
a
Gauss quien la introdujo cuando estudiaba los errores en el clculo de las rbitas de los planetas.
a
o
En honor suyo, la distribucin Normal es tambin conocida como distribucin Gaussiana. Del
o
e
o
signicado de los parmetros nos ocuparemos ms adelante, pero de (1.10) deducimos que R
a
a
y > 0. Adems, el eje de simetr de fX es la
a
a
recta x = y el vrtice de la campana (mximo
e
a
de fx ) est en el punto de coordenadas (, 1/ 2).
a
= 1,5

0,9
0,8

= 0,5

0,7
0,6
0,5
0,4
0,3

=1

0,2

=2

0,1
0
-2

-1

La gura ilustra el papel que los parmetros juegan en la forma y posicin de la grca de
a
o
a
la funcin de densidad de una N (, 2 ). A medida que disminuye se produce un mayor apuno
tamiento en la campana porque el mximo aumenta y porque, recordemos, el rea encerrada
a
a
bajo la curva es siempre la unidad.
Una caracter
stica de la densidad de la Normal es que carece de primitiva, por lo que su
funcin de distribucin no tiene expresin expl
o
o
o
cita y sus valores estn tabulados o se calculan
a
por integracin numrica. Esto representa un serio inconveniente si recordamos que P (a < X
o
e
b) = FX (b) FX (a), puesto que nos obliga a disponer de una tabla distinta para cada par de
valores de los parmetros y .
a
En realidad ello no es necesario, adems de que ser imposible dada la variabilidad de
a
a
ambos parmetros, porque podemos recurrir a la que se conoce como variable aleatoria Normal
a
tipicada, Z N (0, 1), cuya densidad es
z2
1
fZ (z) = e 2 , < z < +.
2
En efecto, si para X N (, 2 ) queremos calcular
x

1
FX (x) =
2

(t )2
2 2 dt,
e

efectuando el cambio z = (t )/ tendremos


1
FX (x) =
2

z2
e 2 dz =

1.2 Variable aleatoria

21

donde (z) es la funcin de distribucin de la N (0, 1).


o
o
Hay que sealar que el mayor inters de la distribucin Normal estriba en el hecho de servir
n
e
o
de modelo probabil
stico para una gran parte de los fenmenos aleatorios que surgen en el
o
campo de las ciencias experimentales y naturales.
El lema que sigue nos asegura que cualquier transformacin lineal de un variable Normal es
o
otra Normal.
Lema 1.2 Sea X N (, 2 ) y denamos Y = aX + b, entonces Y N (a + b, a2 2 ).
Demostracin.- Supongamos a > 0, la funcin de distribucin de Y viene dada por
o
o
o
FY (y) = P (Y y) = P (aX + b y) = P

yb
a

= FX

yb
a

Su funcin de densidad es
o
fY (y) = FY (y) =

1
fX
a

yb
a

a 2

exp

1
2

y (a + b)
a

Si a < 0 entonces
FY (y) = P (Y y) = P (aX + b y) = P

yb
a

= 1 FX

yb
a

y la densidad ser
a
1
fY (y) = FY (y) = fX
a

yb
a

1
1
exp
2
|a| 2

y (a + b)
a

En ambos casos se deduce que Y N (a + b, a2 2 ).


Variable aleatoria Exponencial
Diremos que la variable aleatoria X tiene una distribucin Exponencial de parmetro ,
o
a
X Exp(), si su funcin de densidad es de la forma
o
fX (x) =

0,
si x 0
ex , si x > 0, > 0.

La funcin de distribucin de X vendr dada por


o
o
a

si x 0
0,
FX (x) =
x t
e
dt = 1 ex , si x > 0.
0
La distribucin exponencial surge en problemas relacionados con tiempos de espera y est reo
a
lacionada con la distribucin de Poisson de igual parmetro. En efecto, si consideramos un
o
a
proceso de desintegracin radiactiva con desintegraciones por unidad de tiempo, el nmeo
u
ro de desintegraciones que se producen en el intervalo [0,t] es Nt P o(t), y el tiempo que
transcurre ente dos desintegraciones consecutivas es X Exp().

22

Probabilidad. Variable aleatoria. Vector aleatorio

La falta de memoria de la variable aleatoria Exponencial.- La variable aleatoria


Exponencial tiene una curiosa e interesante propiedad conocida como falta de memoria.
Consiste en la siguiente igualdad,
P (X > x + t|X > t) = P (X > x), x, t 0.
En efecto,
P (X > x + t|X > t) =
=

P (X > x + t)
e(x+t)
P ({X > x + t} {X > t})
=
=
= ex = P (X > x).
P (X > t)
P (X > t)
et
(1.15)

Variable aleatoria Gamma


Diremos que la variable aleatoria X tiene una distribucin Gamma de parmetros y ,
o
a
X Ga(, ), si su funcin de densidad es de la forma
o

0,

fX (x) =

si x 0

1
x1 ex/ ,
()

si x > 0, > 0, > 0,

donde () es el valor de la funcin Gamma en , es decir


o

() =

y 1 ey dy, > 0.

Para comprobar que Pfdp2) se satisface, la Pfdp1) es de comprobacin inmediata, baso


tar hacer el cambio y = x/ en la correspondiente integral
a

1
1
x1 ex/ dx =
()
()

y 1 ey dy =

1
() = 1.
()

Los valores de la funcin de distribucin FX (x) aparecen tabulados, con tablas para las difeo
o
rentes combinaciones de los parmetros y .
a
Obsrvese que la distribucin Exponencial de parmetro es un caso particular de la Game
o
a
ma. En concreto Exp() = Gamma(1, 1/).
Observacin 1.1 Nos ser de utilidad ms tarde recordar alguna caracter
o
a
a
stica adicional de
la funcin Gamma. En particular la obtencin de sus valores cuando = n o = n + 1 , n
o
o
2
natural. Es fcil comprobar, mediante sucesivas integraciones por partes, que
a
() = ( 1)( 1) = ( 1)( 2)( 2),
lo que para = n da lugar a
(n) = (n 1)(n 2) . . . 2(1).
Pero

(1) =
0

ex dx = 1

(n) = (n 1)!.

1.2 Variable aleatoria

Para el caso en que = n +

23

1
2

1
deberemos calcular ( 2 ),

t2
2 2
t2 /2

=
e x
dx = y =
= 2
e
dt =
= .
(1.16)
2
2
0
0

La ultima integral en (1.16), dividida por 2, es la mitad del rea que cubre la fdp de la

a
N (0, 1).
1
2

x 1/2

24

Probabilidad. Variable aleatoria. Vector aleatorio

1.3.

Vector aleatorio

Cuando estudiamos simultneamente k caracter


a
sticas numricas ligadas al resultado del
e
experimento, por ejemplo la altura y el peso de las personas, nos movemos en Rk como espacio
imgen de nuestra aplicacin. La -lgebra de sucesos con la que dotamos a Rk para hacerlo
a
o
a
probabilizable es la correspondiente -lgebra de Borel k , que tiene la propiedad de ser la
a
k
menor que contiene a los rectngulos (a, b] = i=1 (ai , bi ], con a = (a1 , . . . , ak ), b = (b1 , . . . , bk )
a
y ai bi < +. De entre ellos merecen especial mencin aquellos que tiene el extremo
o
k
inferior en , Sx = i=1 (, xi ], a los que denominaremos regin suroeste de x, por que
o
sus puntos estn situados al suroeste de x.
a
Denicin 1.8 (Vector aleatorio) Un vector aleatorio, X = (X1 , X2 , . . . , Xk ), es una aplio
cacin de en Rk , que verica
o
X 1 (B) A, B k .
La presencia de una probabilidad sobre el espacio (, A) permite al vector inducir una
probabilidad sobre (Rk , k ).

1.3.1.

Probabilidad inducida

X induce sobre (Rk , k ) una probabilidad, PX , de la siguiente forma,


PX (B) = P (X 1 (B)), B k .
Es sencillo comprobar que verica los tres axiomas que denen una probabilidad, por lo que
la terna (Rk , k , PX ) constituye un espacio de probabilidad con las caracter
sticas de (, A, P )
heredadas a travs de X.
e

1.3.2.

Funciones de distribucin conjunta y marginales


o

La funcin de distribucin asociada a PX se dene para cada punto x = (x1 , . . . , xk ) de Rk


o
o
mediante
k

FX (x) = FX (x1 , . . . , xk ) = PX (Sx ) = P (X Sx ) = P

{Xi xi } .

(1.17)

i=1

De la denicin se derivan las siguientes propiedades:


o
PFC1) No negatividad.- Consecuencia inmediata de ser una probabilidad.
PFC2) Monoton en cada componente.- Si x y, es decir, xi yi , i = 1, . . . , k, Sx
a
Sy y FX (x) FX (y).
PFC3) Continuidad conjunta por la derecha.- Si x(n) x, entonces FX (x(n) ) FX (x),
PFC4) Valores l
mites.- Al tender a las componentes del punto, se tiene
l
m FX (x1 , . . . , xk ) = 1,

xi +

o bien,
l
m F (x1 , . . . , xk ) = 0.

xi

1.3 Vector aleatorio

25

que no son ms que la versin multidimensional de las propiedades ya conocidas para el caso
a
o
unidimensional. Existe ahora una quinta propiedad sin la cual no ser posible recorrer el camino
a
inverso, obtener PX a partir de FX , y establecer la deseada y conveniente equivalencia entre
ambos conceptos.
PFC5) Supongamos que k = 2 y consideremos el rectngulo (a, b] = (a1 , b1 ] (a2 , b2 ] tal como
a
lo muestra la gura. Indudablemente PX (]a, b]) 0 , pero teniendo en cuenta (1.17)
podemos escribir,
PX (]a, b]) = FX (b1 , b2 ) FX (b1 , a2 ) FX (a1 , b2 ) + FX (a1 , a2 ) 0.
Funciones de distribucin marginales
o
Si el vector es aleatorio cabe pensar que sus componentes tambin lo sern. En efecto, la
e
a
siguiente proposicin, de sencilla demostracin, establece una primera relacin entre el vector
o
o
o
y sus componentes.
Proposicin 1.1 X = (X1 , . . . , Xk ) es un vector aleatorio si y solo si cada una de sus compoo
nentes es una variable aleatoria.
Si las componentes del vector son variables aleatorias tendrn asociadas sus correspondiena
tes probabilidades inducidas y funciones de distribucin. La nomenclatura hasta ahora utilizada
o
necesita ser adaptada, lo que haremos aadiendo los adjetivos conjunta y marginal, respectin
vamente. Puesto que PX y FX describen el comportamiento conjunto de las componentes de
X, nos referiremos a ellas como distribucin conjunta y funcin de distribucin conjunta del
o
o
o
vector X, respectivamente. Cuando, en el mismo contexto, necesitemos referirnos a la distribucin de alguna componente lo haremos aludiendo a la distribucin marginal o a la funcin de
o
o
o
distribucin marginal de Xi .
o
La pregunta que surge de inmediato es, qu relacin existe entre la distribucin conjunta
e
o
o
y las marginales? Estamos en condiciones de dar respuesta en una direccin: cmo obtener la
o
o
distribucin marginal de cada componente a partir de la conjunta. Para ello, basta tener en
o
cuenta que
k

l
m
j=i

{Xj xj } = {Xi xi },

xj j=1

y al tomar probabilidades obtendremos


FXi (xi ) = l
m FX (x1 , . . . , xk ).
j=i

(1.18)

xj

El concepto de marginalidad puede aplicarse a cualquier subvector del vector original. As


,
para l k, si X l = (Xi1 , . . . , Xil ) es un subvector de X, podemos hablar de la distribucin
o
conjunta marginal de X l , para cuya obtencin a partir de la conjunta procederemos de forma
o
anloga a como acabamos de hacer para una componente. Si en la relacin
a
o
k

{X Sx } =

{Xi xi },
i=1

jamos xi1 , . . . , xil y hacemos tender a el resto de las componentes, obtendremos


{X l Sxl } =

l
m

xi

i=i1 ,...,il

{X Sx }.

26

Probabilidad. Variable aleatoria. Vector aleatorio

Relacin que nos permite obtener la funcin de distribucin marginal conjunta de X l =


o
o
o
(Xi1 , . . . , Xil ) sin ms que tomar probabilidades,
a
FX l (xi1 , . . . , xil ) =

l
m

xi

i=i1 ,...,il

FX (x1 , . . . , xk ).

Ejemplo 1.7 Elegimos un punto al azar sobre el tringulo T de vrtices (0,0), (1,0), (0,2).
a
e

Para encontrar la funcin de distribucin conjunta


o
o
del vector de sus componentes, (X, Y ), observemos
la gura y las distintas posiciones del punto. Como la
masa de probabilidad est uniformemente repartida
a
sobre el tringulo puesto que la eleccin del punto es
a
o
al azar, tendremos que

3y

)2,3x(

)2y,2/2y-1(
2

2y

)3x2-2,3x(
)4y,2/4y-1(

P ((X, Y ) A) =

4y

)4y,1(

donde B es el rea de B. Aplicado a la funcin de


a
o
distribucin dar lugar a
o
a

1y

)2x2-2,2x(
4x

2x + y = 2

AT
,
T

FXY (x, y) = P ((x, y) Sxy ) = Sxy T , (1.19)


puesto que el rea del tringulo vale 1.
a
a

2x

3x 1x

Aplicando (1.19) obtenemos

0,

xy,

xy (x + y/2 1)2 ,
FXY (x, y) =
x2

2x 2 ,

y y /4,

1,

si
si
si
si
si
si

x 0 o y 0;
(x, y) es del tipo
(x, y) es del tipo
(x, y) es del tipo
(x, y) es del tipo
x 1 e y 2;

1
2
3
4

;
;
;
;

Observemos que las expresiones de FXY (x, y) correspondientes a puntos del tipo 3 y 4 dependen
solamente de x e y, respectivamente. Si recordamos la obtencin de la funcin de distribucin
o
o
o
marginal veremos que se corresponden con FX (x) y FY (y), respectivamente.

1.3.3.

Funcin de cuant o probabilidad conjunta: vector aleatorio


o
a
discreto

Si el soporte, DX , del vector es numerable, lo que supone que tambin lo son los de cada una
e
de sus componentes, diremos que X es un vector aleatorio discreto. Como en el caso unidimensional, una tercera funcin puede asociarse al vector y nos permite conocer su comportamiento
o
aleatorio. Se trata de la funcin de cuant o probabilidad conjunta y su valor, en cada punto
o
a
de Rk , viene dado por
fX (x1 , . . . , xk ) =

P (Xi = xi , i = 1, . . . , k), si x = (x1 , . . . , xk ) DX


0,
en el resto.

La funcin de cuant conjunta posee las siguientes propiedades:


o
a
Pfcc1) Al tratarse de una probabilidad, fX (x) 0, x Rk ,

1.3 Vector aleatorio

27

Pfcc2) Como P (X DX ) = 1,

x1

fX (x1 , x2 , . . . , xk ) = 1, (x1 , x2 , . . . , xk ) DX .
xk

Entre FX y fX se establecen relaciones similares a las del caso unidimensional:


FX (x) =

fX (y1 , y2 , . . . , yk ),
yx, yDX

y
fX (x1 , x2 , . . . , xk ) = FX (x1 , x2 , . . . , xk ) FX (x1 , x2 , . . . , xk ).
De ambas expresiones se deduce la equivalencia entre ambas funciones y tambin la de stas
e
e
con PX ,
PX FX fX .
Funciones de cuant marginales
a
Si el vector aleatorio X es discreto tambin lo sern cada una de sus componentes. Si por
e
a
Di designamos el soporte de Xi , i = 1, . . . , k, se verica,

{Xi = xi } =
xj Dj , j=i

{Xj = xj } ,

j=1

siendo disjuntos los elementos que intervienen en la unin. Al tomar probabilidades tendremos
o
fXi (xi ) =

fX (x1 , . . . , xk ),
xj Dj , j=i

que permite obtener la funcin de cuant marginal de la Xi a partir de la conjunta. La marginal


o
a
conjunta de cualquier subvector aleatorio se obtendr de manera anloga, extendiendo la suma
a
a
sobre todas las componentes del subvector complementario,
fX l (xi1 , . . . , xil ) =

fX (x1 , . . . , xk ).
xj Dj , j=i1 ,...,il

Ejemplo 1.8 Supongamos un experimento consistente en lanzar 4 veces una moneda correcta.
Sea X el numero de caras en los 3 primeros lanzamientos y sea Y el nmero de cruces en los
u
3 ultimos lanzamientos. Se trata de un vector discreto puesto que cada componente lo es. En

concreto DX = {0, 1, 2, 3} y DY = {0, 1, 2, 3}.


La funcin de cuant conjunta se recoge en la tabla siguiente, para cualquier otro valor no
o
a
recogido en la tabla fXY (x, y) = 0.
X
Y
0
1
2
3
fX (x)

0
0
0
1/16
1/16
2/16

1
0
2/16
3/16
1/16
6/16

2
1/16
3/16
2/16
0
6/16

3
1/16
1/16
0
0
2/16

fY (y)
2/16
6/16
6/16
2/16
1

En los mrgenes de la tabla parecen las funciones de cuant marginales de X e Y , obtenidas


a
a
al sumar a lo largo de la correspondiente la o columna.

28

Probabilidad. Variable aleatoria. Vector aleatorio

1.3.4.

Algunos ejemplos de vectores aleatorios discretos

Vector aleatorio Multinomial


La versin k-dimensional de la distribucin Binomial es el llamado vector aleatorio Multio
o
nomial. Surge este vector en el contexto de un experimento aleatorio en el que nos interesamos
en la ocurrencia de alguno de los k sucesos, A1 , A2 , . . . , Ak , que constituyen una particin de
o
. Si P (Ai ) = pi y repetimos n veces el experimento de manera que las repeticiones son independientes, el vector X = (X1 , . . . , Xk ), con Xi =nmero de ocurrencias de Ai , decimos que
u
tiene una distribucin Multinomial, X M (n; p1 , p2 , . . . , pk ). La funcin de cuant conjunta
o
o
a
viene dada por,

n!

pni , si 0 ni n, i = 1, . . . , k,
ni = n

n1 !n2 ! . . . nk ! i=1 i
fX (n1 , . . . , nk ) =

0,
en el resto,
que verica Pfcc1) y Pfcc2), porque es no negativa y al sumarla para todos los posibles
n1 , n2 , . . . , nk obtenemos el desarrollo del polinomio (p1 + p2 + . . . + pk )n , de suma 1 porque los
Ai constitu una particin de .
an
o
Para obtener la marginal de Xi observemos que
k

n!
pni =
n1 !n2 ! . . . nk ! i=1 i

n ni
(n ni )!
p
ni i n1 ! . . . ni1 !ni+1 ! . . . nk !

pj j ,
j=i

y al sumar para el resto de componentes,


fXi (ni ) =
=
=

n ni
p
ni i

(n ni )!
n1 ! . . . ni1 !ni+1 ! . . . nk !

pj j ,
j=i

n ni
p (p1 + . . . + pi1 + pi+1 + . . . + pk )nni
ni i
n ni
p (1 pi )nni ,
ni i

llegamos a la conclusin que Xi B(n, pi ), como era de esperar, pues al jar Xi slo nos
o
o
interesamos por la ocurrencia de Ai y el experimento que llevamos a cabo puede ser descrito
mediante un modelo Binomial.

1.3.5.

Funcin de densidad de probabilidad conjunta: vector aleatorio


o
continuo

Decimos que X es un vector aleatorio continuo si existe entonces un funcin, fX sobre Rk ,


o
conocida como funcin de densidad de probabilidad conjunta de X, tal que
o
bk

P (X (a, b]) = P (ai < Xi bi , i = 1, . . . , k) =

b1

...
ak

fX (x1 , . . . , xk ) dx1 . . . dxk .


a1

Al igual que ocurr en el caso unidimensional, esta funcin tiene dos propiedades que la caraca
o
terizan,
Pfdpc1) fX (x) es no negativa, y

1.3 Vector aleatorio

29

Pfdcp2) como P (X Rk ) = 1,
+

...

fX (x1 , . . . , xk )dx1 . . . dxk = 1.

Como consecuencia de esta denicin, entre la funcin de distribucin conjunta y la de densidad


o
o
o
de probabilidad conjunta se establecen las siguientes relaciones:
xk

x1

FX (x1 , . . . , xk ) = PX (Sx ) =

...

f (t1 , . . . , tk ) dt1 . . . dtk ,

(1.20)

y si x Rk es un punto de continuidad de fX ,
fX (x1 , . . . , xk ) =

k FX (x1 , . . . , xk )
.
x1 , . . . , xk

(1.21)

Funciones de densidad marginales


Para obtener la densidad marginal de Xi a partir de la funcin de la densidad conjunta
o
tengamos en cuenta (1.18) y (1.20) y que integracin y paso al l
o
mite pueden permutarse por
ser la densidad conjunta integrable,
FXi (xi ) =

l
m FX (x1 , . . . , xk )
j=i

xj
+

xi

...

...

f (t1 , . . . , ti , . . . , tk ) dt1 . . . dti . . . dtk .

Pero la derivada de FXi es una de las densidades de Xi y como las condiciones de la densidad
conjunta permiten tambin intercambiar derivacin e integracin, tendremos nalmente
e
o
o
fXi (xi ) =
=
Rk1

f (t1 , . . . , xi , . . . , tk ) dt1 . . . dti1 dti+1 . . . dtk .

(1.22)

Para el caso de un subvector, X l , la densidad conjunta se obtiene de forma anloga,


a
fX l (xi1 , . . . , xil ) =
=
Rkl

fX (t1 , . . . , tk )

dtj .
j=i1 ,...,il

Ejemplo 1.9 La funcin de densidad conjunta del vector aleatorio bidimensional (X, Y ) viene
o
dada por
8xy, si 0 y x 1
fXY (x, y) =
0,
en el resto.
Si queremos obtener las marginales de cada componente, tendremos para X
x

fX (x) =

fXY (x, y)dy =


0

8xydy = 4x3 , 0 x 1,

y cero en el resto. Para Y ,


1

fY (y) =

fXY (x, y)dx =


y

8xydx = 4y(1 y 2 ), 0 y 1,

30

Probabilidad. Variable aleatoria. Vector aleatorio

y cero en el resto.
Obtengamos ahora la funcin de distribucin conjunta, FXY (x, y). Observemos para ello el
o
o
grco, la funcin de densidad es distinta de 0 en la regin A por lo que FXY (x, y) = 0 si x 0
a
o
o
o y 0.

B
A

(x,y)

E
y

Si (x, y) A,
FXY (x, y) =

fXY (u, v)dudv,


Sxy A

pero Sxy A = {(u, v); 0 v u y} {(u, v); y u x, 0 v y}, por tanto


y

FXY (x, y) =

8uvdv du +
0

8uvdv du = y 2 (2x2 y 2 ).

(1.23)

Si (x, y) B, como fXY (x, y) = 0 en B, el rectngulo superior de la gura (en negro) no


a
acumula probabilidad y por tanto
FXY (x, y) = P (Sxy A) = P (Sxx A) .

B
1
y

(x,y)

A
E

As pues,

FXY (x, y) =
0

8uvdv du = x4 .

(1.24)

Observemos que (1.24) puede obtenerse a partir de (1.23) haciendo y = x. En efecto, de acuerdo
con (1.18), (1.24) no es ms que FX (x), la funcin de distribucin marginal de X.
a
o
o

1.3 Vector aleatorio

31

Si (x, y) E, un razonamiento similar conduce a


FXY (x, y) = y 2 (2 y 2 ),
que no es ms que la funcin de distribucin marginal de Y , que podr
a
o
o
amos haber obtenido
haciendo x = 1 en (1.23).
Por ultimo, si (x, y) D, FXY (x, y) = 1. Para su obtencin basta hacer x = 1 e y = 1 en

o
(1.23).
Resumiendo

si x 0 o y 0;
0,
2

y (2x2 y 2 ), si (x, y) A;

x4 ,
si (x, y) B;
FXY (x, y) =
2
y (2 y 2 ),
si (x, y) E;

1,
si (x, y) D.
Ejemplo 1.10 La funcin de densidad conjunta del vector (X1 , X2 , X3 ) es
o

48x1 x2 x3

, si x1 , x2 , x3 0
f (x1 , x2 , x3 ) =
(1 + x2 + x2 + x2 )4
1
2
3
0,
en el resto.
Obtengamos en primer lugar las densidades marginales de cada componente. Dada la simetr
a
de la densidad conjunta bastar con obtener una cualquiera de ellas.
a

f1 (x1 )

=
0

48x1 x2 x3
dx2 dx3
(1 + x2 + x2 + x2 )4
3
2
1

48x1

=
0

=
Luego

x3
dx3 dx2
(1 + x2 + x2 + x2 )4
1
2
3

x2

8x1 x2
dx2
(1 + x2 + x2 )3
1
2

(1.25)

2x1
.
(1 + x2 )2
1

2xi
,
fi (xi ) =
(1 + x2 )2
i
0,

si xi 0

(1.26)

en el resto.

Por otra parte, en el transcurso de la obtencin de fi (xi ) el integrando de (1.25) es la


o
densidad marginal conjunta de (X1 , X2 ), que por la simetr antes mencionada es la misma
a
para cualquier pareja de componentes. Es decir, para i, j = 1, 2, 3

8xi xj

, si xi , xj 0
(1 + x2 + x2 )3
fij (xi , xj ) =
i
j

0,
en el resto.
Para obtener la funcin de distribucin conjunta recordemos que
o
o
3

F (x1 , x2 , x3 ) = P (Xi xi , i = 1, 2, 3) = P

x1

{Xi xi }
i=1

x2

x3

f (u, v, z)dudvdz.
0

32

Probabilidad. Variable aleatoria. Vector aleatorio

pero en este caso ser ms sencillo recurrir a esta otra expresin,


a a
o
c

F (x1 , x2 , x3 ) = 1 P

{Xi xi }

=1P

i=1

Ai

i=1

con Ai = {Xi > xi }. Si aplicamos la frmula de inclusin-exclusin (1.1),


o
o
o

F (x1 , x2 , x3 ) = 1

P (Ai Aj ) + P (A1 A2 A3 ) .

P (Ai )
i=1

(1.27)

1i<j3

La obtencin de las probabilidades que aparecen en (1.27) involucran a las densidades antes
o
calculadas. As para P (Ai )
,

P (Ai ) = P (Xi > xi ) =


xi

1
2u
du =
.
(1 + u2 )2
1 + x2
i

Para P (Ai Aj ),
P (Ai Aj ) =

P (Xi > xi , Xj > xj )

=
xi

xj

8uv
dudv
(1 + u2 + v 2 )3

1
.
1 + x2 + x2
i
j

Finalmente

P (A1 A2 A3 ) =

ds
x1

x2

x3

1
48uvz
.
dudvdz =
(1 + u2 + v 2 + z 2 )4
1 + x2 + x2 + x2
3
2
1

Sustituyendo en (1.27) tendremos,


3

F (x1 , x2 , x3 ) = 1
i=1

1.3.6.

1
+
1 + x2
i

1i<j3

1
1
2 + x2 1 + x2 + x2 + x2 .
1 + xi
3
2
1
j

Algunos ejemplos de vectores aleatorios continuos

Vector aleatorio Uniforme en el c


rculo unidad
Al elegir un punto al azar en, C1 , c
rculo unidad, podemos denir sobre el correspondiente
espacio de probabilidad un vector aleatorio de las coordenadas del punto, (X, Y ). La eleccin
o
al azar implica una probabilidad uniforme sobre C1 , lo que se traduce en un densidad conjunta
constante sobre todo el c
rculo, pero como por otra parte
f (x, y) dxdy = 1, la densidad
C1
conjunta vendr dada por
a

1 , si (x, y) C1

fXY (x, y) =

0, en el resto.

1.3 Vector aleatorio

33

Para obtener la densidad marginal de X,


+

fX (x) =

por lo que

1
fXY (x, y) dy =

fX (x) =

0,

+ 1x2

1x2

dy =

1 x2 ,

1 x2 , si |x| 1
en el resto,

La marginal de Y , por simetr tiene la misma expresin.


a,
o
Si en lugar de llevar a cabo la eleccin en C1 , elegimos el punto en el cuadrado unidad,
o
Q = [0, 1] [0, 1], la densidad conjunta es constante e igual a 1 en el cuadrado y las marginales
son ambas U (0, 1).
Vector aleatorio Normal bivariante
El vector aleatorio bidimensional (X, Y ) tiene una distribucin Normal bivariante de parmeo
a
tros X R , y R, x > 0, y > 0 y , || < 1, si su funcin de densidad conjunta es de la
o
forma,
q(x,y)
1
fXY (x, y) =
e 2 , (x, y) R2 ,
2
2x y 1
donde
q(x, y) =

1
1 2

x x
x

x x
x

y y
y

y y
y

La gura nos muestras sendas grcas de la normal bivariante con parmetros x = y = 0,


a
a
x = y = 1 y = 0, 5. La grca est centrada en (x , y ) (parmetros de posicin) y su
a
a
a
o
forma depende de x , y y (parmetros de forma). Para ver el efecto de este ultimo la grca
a

a
de la derecha ha sido rotada 90 .

34

Probabilidad. Variable aleatoria. Vector aleatorio

Para ver que fXY (x, y) es una densidad es inmediato comprobar que verica la primera
condicin, en cuanto a la segunda, R2 fXY (x, y)dxdy = 1, observemos que
o
(1 2 )q(x, y)

x x
x

x x
x

x x
x

y y
y

y y
y
2

y y
y

+ (1 2 )

y y
y

(1.28)

pero el primer sumando de (1.28) puede escribirse


x x
x

y y
y

x x
x

x
x

y y
y

=
=
con b = x + x

yy
y .

1
y y
x x + x
x
y
1
(x b),
x

Sustituyendo en (1.28)

(1 2 )q(x, y) =

xb
x

+ (1 2 )

y y
y

y de aqu

R2

fXY (x, y)dxdy =


+

y 2

1
2

yy
y

1
x

2(1 2 )

1
2(12 ) ( xb )
x

dx dy = 1,
(1.29)

2
porque el integrando de la integral interior es la funcin de densidad de una N (b, x (1 2 ))
o
e integra la unidad. La integral resultante vale tambin la unidad por tratarse de la densidad
e
2
de una N (y , y ), que es precisamente la densidad marginal de Y (basta recordar la expresin
o
(1.22) que permite obtener la densidad marginal a partir de la conjunta). Por simetr X
a
2
N (x , x ).
Esta distribucin puede extenderse a n dimensiones, hablaremos entonces de Normal mulo
tivariante. La expresin de su densidad la daremos en el prximo cap
o
o
tulo y utilizaremos una
notacin matricial que la haga ms sencilla y compacta.
o
a

1.4.

Independencia de variables aleatorias

La independencia entre dos sucesos A y B supone que ninguno de ellos aporta informacin
o
de inters acerca del otro. Pretendemos ahora trasladar el concepto a la relacin entre variables
e
o
aleatorias, pero siendo un concepto originalmente denido para sucesos, la traslacin deber hao
a
cerse por medio de sucesos ligados a las variables. Para ello necesitamos recurrir al concepto de
-lgebra inducida por una variable aleatoria que denimos en la pgina 11.
a
a

1.4 Independencia de variables aleatorias

35

Denicin 1.9 (Variables aleatorias independientes) Decimos que las variables Xi , i =


o
1, . . . , k son independientes si las -lgebras que inducen lo son.
a
Si recordamos lo que signicaba la independencia de familias de sucesos, la denicin implica
o
que al tomar un Ai (Xi ), i = 1, . . . , k,
n

P (Aj1 . . . Ajn ) =

P (Ajl ), (j1 , . . . , jn ) (1, . . . , k).


l=1

Teniendo en cuenta cmo han sido inducidas las (Xi ), admite una expresin alternativa en
o
o
trminos de las distintas variables,
e
n

P (Aj1 . . . Ajn ) = P (Xjl Bjl , l = 1, . . . , n) =

P (Xjl Bjl ), Bjl ,

(1.30)

l=1

donde Aj1 = X 1 (Bjl ).


Comprobar la independencia de variables aleatorias mediante (1.30) es prcticamente ima
posible. El teorema que sigue, cuya demostracin omitimos, permite una caracterizacin ms
o
o
a
sencilla de la independencia.
Teorema 1.1 (Teorema de factorizacin) Sea X = (X1 , . . . , Xk ) un vector aleatorio cuyas
o
funciones de distribucin y densidad o cuant conjuntas son, respectivamente, FX (x1 , . . . , xk )
o
a
y fX (x1 , . . . , xk ). Sean Fj (xj ) y fj (xj ), j = 1, . . . , k, las respectivas marginales. Las variables aleatorias X1 , . . . , Xk son independientes s y solo s se verica alguna de las siguientes

condiciones equivalentes:
1. FX (x1 , . . . , xk ) =

k
j=1

Fj (xj ), (x1 , . . . , xk ) Rk

2. fX (x1 , . . . , xk ) =

k
j=1

fj (xj ), (x1 , . . . , xk ) Rk

Observacin 1.2 Hemos visto anteriormente que a partir de la distribucin conjunta del vector
o
o
es posible conocer la distribucin de cada una de sus componentes. El teorema de factorizacin
o
o
implica que a partir de las marginales podemos reconstruir la distribucin conjunta, si bien
o
es cierto que no siempre, pues se exige la independencia de las variables. La recuperacin en
o
cualquier circunstancia requiere de la nocin de distribucin condicionada.
o
o
Ejemplo 1.11 En la seccin 1.3.6 estudibamos el vector aleatorio determinado por las cooro
a
denadas de un punto elegido al azar en el c
rculo unidad. La densidad conjunta ven dada
a
por

1
, si (x, y) C1

fXY (x, y) =

0, en el resto.
Por simetr las marginales de X e Y son idnticas y tienen la forma,
a,
e

2 1 x2 , si |x| 1

fX (x) =

0,
en el resto.
De inmediato se comprueba que fXY (x, y) = fX (x)fY (y) y ambas variables no son independientes.

36

Probabilidad. Variable aleatoria. Vector aleatorio

1.5.
1.5.1.

Distribuciones condicionadas
Caso discreto

Consideremos un vector aleatorio bidimensional (X, Y ), con soportes para cada una de sus
componentes Dx y Dy , respectivamente, y con funcin de cuant conjunta fXY (x, y).
o
a
Denicin 1.10 La funcin de cuant condicionada de Y dado {X = x}, x Dx , se dene
o
o
a
mediante,
fXY (x, y)
.
fY |X (y|x) = P (Y = y|X = x) =
fX (x)
La funcin de distribucin condicionada de Y dado {X = x}, x Dx , se dene mediante,
o
o
FY |X = P (Y y|X = x) =

vy, vDy

fXY (x, v)

fX (x)

fY |X (v|x).
vy, vDy

La funcin fY |X (y|x) es efectivamente una funcin de cuant por cuanto cumple con las dos
o
o
a
consabidas condiciones,
1. es no negativa por tratarse de una probabilidad condicionada, y
2. suma la unidad sobre Dy ,
fY |X (y|x) =

yDy

fXY (x, y)

fX (x)

yDy

fX (x)
= 1.
fX (x)

El concepto de distribucin condicional se extiende con facilidad al caso k-dimensional.


o
Si X = (X1 , . . . , Xk ) es un vector aleatorio k-dimensional y X l = (Xi1 , . . . , Xil ), l k y
X kl = (Xj1 , . . . , Xjkl ) son subvectores de dimensiones complementarias, con soportes Dxl y
Dxkl , respectivamente, la funcin de cuant condicionada de X l dado X kl = (xj1 , . . . , xjkl ),
o
a
(xj1 , . . . , xjkl ) Dxkl , se dene mediante,
fX l |X kl (xi1 , . . . , xil |xj1 , . . . , xjkl ) =

fX (x1 , . . . , xk )
,
fX kl (xj1 , . . . , xjkl )

donde el argumento del numerador, (x1 , . . . , xk ), est formado por las componentes (xi1 , . . . , xil )
a
y (xj1 , . . . , xjkl ) adecuadamente ordenadas.
Ejemplo 1.12 Consideremos dos variables aleatorias independientes X e Y , con distribucin
o
de Poisson de parmetros y , respectivamente. Queremos encontrar al distribucin de la
a
o
variable condicionada X|X + Y = r.
Recordemos que
fX|X+Y (k|r) = P (X = k|X + Y = r) =

P (X = k, Y = r k)
fXY (k, r k)
=
.
P (X + Y = r)
fX+Y (r)

(1.31)

La distribucin conjunta del vector (X, Y ) es conocida por tratarse de variables independientes,
o
fXY (k, r k) =

k rk
e
e .
k!
r k!

(1.32)

1.5 Distribuciones condicionadas

37

La distribucin de la variable X + Y se obtiene de la forma


o
r

fX+Y (r)

= P

{X = k, Y = r k}
k=0

fXY (k, r k)

=
k=0
r

=
k=0

k rk (+)
e
k!r k!

e(+)
r!

r
k=0

r!
k rk
k!r k!

( + )r (+)
=
e
.
r!
Lo que nos dice que X + Y P o( + ).
Sustituyendo (1.32) y (1.33) en (1.31),
fX|X+Y (k|r) =
=

(1.33)

k rk
k! e
rk! e
(+)r (+)
e
r!

r!
k rk
k!(r k)! ( + )r
r
k

rk

concluimos que X|X + Y = r B(r, /( + )).


Distribuciones condicionadas en la Multinomial
Si el vector X = (X1 , . . . , Xk ) M (n; p1 , . . . , pk ) sabemos que la marginal del subvector
X l = (X1 , . . . , Xl ) es una M (n; p1 , . . . , pl , (1 p )), p = p1 + + pl (en denitiva la particin
o
c
de sucesos que genera la multinomial queda reducida a A1 , . . . , Al , A , con A = l Ai ).
i=1
La distribucin condicionada de X kl = (Xl+1 , . . . , Xk ) dado X l = (n1 , . . . , nl ), viene dada por
o
k

fX kl |X l (nl+1 , . . . , nk |n1 , . . . , nl ) =

=
con n = n1 + +nl y

1.5.2.

k
i=l+1

n!
pni
n1 !n2 ! . . . nk ! i=1 i
l

n!
(1 p )(nn )
pni
i
n1 ! . . . nl !(n n )!
i=1

(n n )!
nl+1 ! . . . nk !

k
i=l+1

pi
1 p

ni

pl+1
pk
ni = nn . Se trata, en denitiva, de una M (nn ; 1p , . . . , 1p ).

Caso continuo

Si tratamos de trasladar al caso continuo el desarrollo anterior nos encontramos, de entrada,


con una dicultad aparentemente insalvable. En efecto, si tenemos un vector bidimensional

38

Probabilidad. Variable aleatoria. Vector aleatorio

(X, Y ) en la expresin
o
P (Y y|X = x) =

P ({Y y} {X = x})
P (X = x)

el denominador P (X = x) es nulo. Puede parecer que el concepto de distribucin condicionada


o
carezca de sentido en el contexto de variables continuas.
Pensemos, no obstante, en la eleccin de un punto al azar en C1 , c
o
rculo unidad. Fijemos la
abscisa del punto en X = x, |x| < 1, y consideremos cmo se distribuir la ordenada Y sobre
o
a
la correspondiente cuerda. Estamos hablando de la distribucin condicionada de Y |X = x, que
o
no slo tiene sentido, si no que intuimos que ser uniforme sobre la cuerda. Cmo comprobar
o
a
o
nuestra intuicin? Si aceptamos como denicin de funcin densidad condicionada la que hemos
o
o
o
encontrado para el caso discreto,
fY |X (y|x) =

fXY (x, y)
,
fX (x)

y recordamos las expresiones de las densidades conjuntas y las marginales obtenidas en la seccin
o
1.3.6 y el ejemplo 1.11, tendremos

1/

, si |y| 1 x2

2 /
2 1x
fY |X (y|x) =

0,
en el resto,

que conrma nuestra intuicin, Y |X = x U ( 1 x2 , + 1 x2 ). Parece lgico pensar que


o
o
la densidad condicionada sea, efectivamente, la que hemos supuesto.
Una obtencin rigurosa de las expresiones de fY |X (y|x) y FY |X (y|x) est fuera del alcance
o
a
de esta introduccin, pero una aproximacin vlida consiste en obtener FY |X (y|x) = P (Y
o
o a
y|X = x) como l
mite de P (Y y|x < X x + ) cuando 0 y siempre que fX (x) > 0.
Vemoslo.
a
FY |X (y|x) =
=

l P (Y y|x < X x + )
m
0

l
m
0

l
m

P (Y y, x < X x + )
P (x < X x + )
y

x+
f (u, v)du
x XY
x+
f (u)du
x X

dv

Dividiendo numerador y denominador por 2, pasando al l


mite y teniendo en cuenta la relacin
o
(1.21) que liga a las funciones de densidad y de distribucin en los puntos de continuidad de
o
aquellas,
y
y
f (x, v)dv
fXY (x, v)
XY
=
dv, fX (x) > 0.
FY |X (y|x) =
fX (x)
fX (x)

Al derivar en la expresin anterior respecto de v obtendremos una de las posibles densidades


o
condicionadas,
fXY (x, y)
, fX (x) > 0,
fY |X (y|x) =
fX (x)
justamente la que hemos utilizado anteriormente.

1.5 Distribuciones condicionadas

39

Ambas expresiones se generalizan fcilmente para el caso de un vector X, k-dimensional, y


a
subvectores X l y X kl de dimensiones complementarias l y k l, respectivamente.
FX l |X kl (xi1 , . . . , xil |xj1 , . . . , xjkl ) =

x i1

xil

fX (x1 , . . . , xk )dxi1 dxil

fX kl (xj1 , . . . , xjkl )

y
fX l |X kl (xi1 , . . . , xil |xj1 , . . . , xjkl ) =

fX (x1 , . . . , xk )
,
fX kl (xj1 , . . . , xjkl )

con fX kl (xj1 , . . . , xjkl ) > 0, y donde el argumento de ambos numeradores, (x1 , . . . , xk ),


est formado por las componentes (xi1 , . . . , xil ) y (xj1 , . . . , xjkl ) adecuadamente ordenadas.
a
Ejemplo 1.13 Elegimos al azar X en [0,1] y a continuacin Y , tambin al azar, en [0, X 2 ].
o
e
Es decir
1,
0,

fX (x) =

x [0, 1];
en el resto.

fY |X (y|x) =

1/x2 , y [0, x2 ];
0,
en el resto.

La densidad conjunta de (X, Y ) vale

1 , x [0, 1], y [0, x2 ];


2
x
fXY (x, y) = fX (x)fY |X (y|x) =

0,
en el resto.
La densidad marginal de Y es
1

fY (y) =

1
1
dx = 1, y [0, 1],
x2
y

y vale 0 fuera del intervalo.

y=x

Cabe preguntarse si la eleccin de X e Y que


o
hemos hecho se corresponde con la eleccin al
o
azar de un punto en el recinto A de la gura,
determinado por la parbola y = x2 entre x = 0
a
y x = 1. La respuesta es negativa, puesto que
la densidad conjunta vendr dada en este caso
a
por

= 3, (x, y) A
rea de A
a

fXY (x, y) =

0,
en el resto.

A
1

y evidentemente, fXY (x, y) = fXY (x, y).

Puede comprobarse que en este caso

fX (x) =

3x2 ,
0,

x [0, 1];
en el resto.

fY |X (y|x) =

1/x2 , y [0, x2 ];
0,
en el resto.

Es decir, elegida la componente X la eleccin de Y continua siendo al azar en el intervalo


o
[0, X 2 ], pero a diferencia de cmo eleg
o
amos X inicialmente, ahora ha de elegirse con la densidad

fX (x).

40

Probabilidad. Variable aleatoria. Vector aleatorio

Distribuciones condicionadas en la Normal bivariante


Si (X, Y ) es un vector Normal bivariante,
1
fY |X (y|x)

2x y

1 2

1
2(12 )

( xx )
x

1
y

2(1 2 )

1
2(12 )

2(1 2 )

yy
y

1 ( xx )
2
x

yy
y

( xx )
x

1
y

yy
y

x 2
=

2( xx )
x

y
1
22 (12 ) {y(y + x (xx ))}
y

y
2
Es decir, Y |X = x N y + x (x x ), y (1 2 ) .

1.6.

Funcin de una o varias variables aleatorias


o

1.6.1.

Caso univariante

Si g es una funcin medible, Y = g(X) es una variable aleatoria porque,


o
X

Y : R R,
e Y 1 (B) = X 1 [g 1 (B)] A.
Tiene sentido hablar de la distribucin de probabilidad asociada a Y , que como ya hemos
o
visto podr ser conocida mediante cualquiera de las tres funciones: PY , FY o fY . Lo inmediato
a
es preguntarse por la relacin entre las distribuciones de probabilidad de ambas variables. Es
o
aparentemente sencillo, al menos en teor obtener FY en funcin de FX . En efecto,
a,
o
FY (y) = P (Y y) = P (g(X) y) = P (X g 1 {] , y]}).

(1.34)

Si la variable X es discreta se obtiene la siguiente relacin entre las funciones de cuant fY y


o
a
fX ,
fY (y) = P (Y = y) = P (g(X) = y) =
fX (x).
(1.35)
{g 1 (y)DX }

Pero la obtencin de g 1 {] , y]} o g 1 (y) no siempre es sencilla. Veamos ejemplos en los


o
que (1.34) puede ser utilizada directamente.
Ejemplo 1.14 Sea X U (1, 1) y denamos Y = X 2 . Para obtener FY , sea y [0, 1],

FY (y) = P (Y y) = P (X 2 y) = P ( y X y) = FX ( y) FX ( y) = y.
Entonces,

0,

FY (y) =
y,

1,

si y < 0;
si 0 y 1;
si y > 1.

1.6 Funcin de una o varias variables aleatorias


o

41

Ejemplo 1.15 Si X es una variable discreta con soporte DX , denamos Y mediante


X
|X| , si X = 0
Y = signo(X) =

0,
si X = 0.
Con esta denicin, DY = {1, 0, 1}, y su funcin de
o
o

x<0 fX (x),

fX (0),
fY (y) =

x>0 fX (x),

cuant viene dada por


a
si y = 1
si y = 0
si y = 1

Cuando la variable aleatoria es discreta (1.34) y (1.35) son la unicas expresiones que tene
mos para obtener la distribucin de probabilidad de Y . El caso continuo ofrece, bajo ciertas
o
condiciones, otra alternativa.
Teorema 1.2 Sea X una variable aleatoria continua y sea g montona, diferenciable con
o
g (x) = 0, x. Entonces Y = g(X) es una variable aleatoria con funcin de densidad,
o

1
fX (g 1 (y)) dg (y) , si y g({DX })
dy
fY (y) =
0,
en el resto.
Demostracin.- Como g es medible por ser continua, Y ser una variable aleatoria. Supono
a
gamos ahora que g es montona creciente. Tendremos, para y g({DX }),
o
FY (y) = P (Y y) = P (X g 1 (y)) = FX (g 1 (y)).
Derivando respecto de y obtendremos una funcin de densidad para Y ,
o
fY (y) =

dFY (y)
dFX (g 1 (y)) dg 1 (y)
dg 1 (y)
=

= fX (g 1 (y))
.
dy
dg 1 (y)
dy
dy

En caso de monoton decreciente para g,


a
FY (y) = P (Y y) = P (X g 1 (y)) = 1 FX (g 1 (y)).
El resto se obtiene anlogamente.
a

Ejemplo 1.16 Consideremos la variable aleatoria X cuya densidad viene dada por

0,
si x < 0,

1
fX (x) =
,
si 0 x 1,
2
1

2x2 , si x > 1,
Denimos una nueva variable mediante la transformacin Y = 1/X. La transformacin cumple
o
o
dg 1 (y)
1
1
con las condiciones del teorema, x = g (y) = 1/y y dy = y2 , por tanto la densidad de
Y vendr dada por
a

0,
si y < 0,

fY (y) =

1
y2 ,
1
2(1/y)2
1
2

si 1 y < ,

1
y2 ,

si 0 < y < 1,

que adecuadamente ordenado da lugar a la misma densidad que pose X.


a

42

Probabilidad. Variable aleatoria. Vector aleatorio

Hay dos transformaciones especialmente interesantes porque permiten obtener variables


aleatorias con distribuciones preestablecidas. La primera conduce siempre a una U (0, 1) y la
otra, conocida como transformacin integral de probabilidad, proporciona la distribucin que
o
o
deseemos. Necesitamos previamente la siguiente denicin.
o
o
Denicin 1.11 (Inversa de una funcin de distribucin) Sea F una funcin en R que
o
o
o
verica las propiedades PF1) a PF4) de la pgina 12, es decir, se trata de una funcin de
a
o
distribucin de probabilidad. La inversa de F es la funcin denida mediante
o
o
F 1 (x) =
nf{t : F (t) x}.
Observemos que F 1 existe siempre, aun cuando F no sea continua ni estrictamente creciente.
Como contrapartida, F 1 no es una inversa puntual de F , pero goza de algunas propiedades
interesantes de fcil comprobacin.
a
o
Proposicin 1.2 Sea F 1 la inversa de F . Entonces,
o
a) para cada x y t, F 1 (x) t x F (t),
b) F 1 es creciente y continua por la izquierda, y
c) si F es continua, entonces F (F 1 (x)) = x, x [0, 1].
Podemos ya denir las dos transformaciones antes mencionadas.
Proposicin 1.3 (Transformada integral de probabilidad) Sea U U (0, 1), F una funo
cin de distribucin de probabilidad y denimos X = F 1 (U ). Entonces, FX = F .
o
o
Demostracin.- Como F 1 es montona, X es una variable aleatoria. Por a) en la proposicin
o
o
o
anterior, t R,
FX (t) = P (X t) = P (F 1 (U ) t) = P (U F (t)) = F (t).

Este resultado es la base de muchos procedimientos de simulacin aleatoria porque permite


o
obtener valores de cualquier variable aleatoria a partir de valores de una Uniforme, los valores de
la Uniforme son a su vez generados con facilidad por los ordenadores. A fuer de ser rigurosos,
debemos precisar que los ordenadores no generan exactamente valores de una Uniforme, lo
que generan son valores pseudoaleatorios que gozan de propiedades semejantes a los de una
Uniforme.
Proposicin 1.4 (Obtencin de una U(0, 1)) Si FX es continua, U = FX (X) U (0, 1).
o
o
Demostracin.- Hagamos F = FX . Para x [0, 1], por la proposicin 1.2 a), P (U x) =
o
o
P (F (X) x) = P (X F 1 (x)). La continuidad de F y la proposicin 1.2 c) hacen el resto,
o
P (U x) = P (X F 1 (x)) = 1 F (F 1 (x)) = 1 x.

1.6.2.

Caso multivariante

Para X = (X1 , . . . , Xk ), vector aleatorio k-dimensional, abordaremos el problema solamente


para el caso continuo. La obtencin de la densidad de la nueva variable o vector resultante
o
en funcin de fX (x1 , . . . , xk ) plantea dicultades en el caso ms general, pero bajo ciertas
o
a
condiciones, equivalentes a las impuestas para el caso univariante, es posible disponer de una
expresin relativamente sencilla.
o

1.6 Funcin de una o varias variables aleatorias


o

43

Teorema 1.3 Sea X = (X1 , . . . , Xk ) es un vector aleatorio continuo con soporte DX y sea
g = (g1 , . . . , gk ) : Rk Rk una funcin vectorial que verica:
o
1. g es uno a uno sobre DX ,
2. el Jacobiano de g, J =

(g1 ,...,gk )
(x1 ,...,xk ) ,

es distinto de cero x DX , y

3. existe h = (h1 , . . . , hk ) inversa de g.


Entonces, Y = g(X) es un vector aleatorio continuo cuya densidad conjunta, para y = (y1 , . . . , yk )
g(DX ), viene dada por
fY (y1 , . . . , yk ) = fX (h1 (y1 , . . . , yk ), . . . , hk (y1 , . . . , yk )) |J 1 |,
donde J 1 =

(h1 ,...,hk )
(y1 ,...,yk )

(1.36)

es el Jacobiano de h.

Este teorema no es ms que el teorema del cambio de variable en una integral mltiple y
a
u
su demostracin rigurosa, de gran dicultad tcnica, puede encontrarse en cualquier libro de
o
e
Anlisis Matemtico. Un argumento heur
a
a
stico que justique (1.36) puede ser el siguiente. Para
cada y,
k

fY (y1 , . . . , yk )dy1 dyk

(yi , yi + dyi )
i=1
k

= P

Xh

(yi , yi + dyi )
i=1
k

= fX (h(y)) vol h

(yi , yi + dyi )

i=1
k

es precisamente |J 1 |dy1 , . . . , dyk .


Pero vol h
i=1 (yi , yi + dyi )
Veamos el inters del resultado a travs de los siguientes ejemplos.
e
e
Ejemplo 1.17 (Continuacin del ejemplo 1.11) En la seccin 1.3.6 estudibamos el veco
o
a
tor aleatorio determinado por las coordenadas de un punto elegido al azar en el c
rculo unidad.
La densidad conjunta ven dada por
a

1 , si (x, y) C1

fXY (x, y) =

0, en el resto.

Consideremos ahora las coordenadas polares del punto, R = X 2 + Y 2 y = arctan Y /X.


Para obtener su densidad conjunta, necesitamos las transformaciones inversas, X = R cos e
Y = R sin . El correspondiente jacobiano vale J1 = R y la densidad conjunta,
r
, si (r, ) [0, 1] [0, 2]

fR (r, ) =

0, en el resto.
Con facilidad se obtienen las marginales correspondientes, que resultan ser

2r, si r [0, 1]
fR (r) =

0, en el resto,

44

y para ,

Probabilidad. Variable aleatoria. Vector aleatorio

1 , si [0, 2]

2
f () =

0,
en el resto.

Como fR (r, ) = fR (r)f (), (r, ), R y son independientes.


Ejemplo 1.18 (Suma y producto de dos variables aleatorias) Sea X = (X1 , X2 ) un vector aleatorio bidimensional con densidad conjunta fX (x1 , x2 ). Denimos U = X1 + X2 y queremos obtener su densidad. Para poder utilizar el resultado anterior la transformacin debe de
o
ser tambin bidimensional, cosa que conseguimos si denimos una nueva variable V = X1 .
e
Con Y = (U, V ) podemos aplicar el teorema, siendo la inversa X1 = V y X2 = U V , cuyo
Jacobiano es J 1 = 1. Tendremos pues,
fY (u, v) = fX (v, u v),
y para obtener la densidad marginal de la suma, U ,
+

fU (u) =

fX (v, u v) dv.

(1.37)

Para obtener la densidad de W = X1 X2 , denimos T = X1 y actuamos como antes. Con


Y = (T, W ) y transformaciones inversas X1 = T y X2 = W/T , el Jacobiano es J 1 = 1/T y
la densidad conjunta de Y ,
1
w
fY (t, w) = fX t,
.
|t|
t
La marginal del producto se obtiene integrando respecto de la otra componente,
+

fW (w) =

1
w
fX t,
|t|
t

dt.

(1.38)

Hubieramos podido tambin proceder utilizando la transformacin bidimensional Y = (Y1 , Y2 ),


e
o
con Y1 = X1 + X2 e Y2 = X1 X2 , lo que en teor nos hubiera hecho ganar tiempo; pero slo
a
o
en teor porque en la prctica las inversas hubieran sido ms complicadas de manejar que las
a,
a
a
anteriores.

Cap
tulo 2

Esperanza. Desigualdades.
Funcin caracter
o
stica
2.1.

Esperanza de una variable aleatoria

En el cap
tulo precedente hemos visto que la descripcin completa de una variable o de un
o
vector aleatorio nos la proporciona cualquiera de las funciones all estudiadas. Es cierto que

unas son de manejo ms sencillo que otras, pero todas son equivalentes para el cometido citado.
a
En ocasiones no necesitamos un conocimiento tan exhaustivo y nos basta con una idea
general. Ciertas caracter
sticas numricas ligadas a las variables o los vectores aleatorios puee
den satisfacernos. Estas cantidades son muy importantes en Teor de la Probabilidad y sus
a
aplicaciones, y su obtencin se lleva a cabo a partir de las correspondientes distribuciones de
o
probabilidad.
Entre estas constantes, sin duda las que denominaremos esperanza matemtica y varianza
a
son las de uso ms difundido. La primera juega el papel de centro de gravedad de la distribua
cin y nos indica alrededor de qu valor se situa nuestra variable o vector. La segunda completa
o
e
la informacin indicndonos cuan dispersos o agrupados se presentan los valores alrededor de
o
a
aquella. Existen tambin otras constantes que proporcionan informacin acerca de la distrie
o
bucin de probabilidad, son los llamados momentos, de los cuales esperanza y varianza son
o
casos particulares. Los momentos pueden llegar a aportarnos un conocimiento exhaustivo de la
variable aleatoria.
Denicin 2.1 (Esperanza de una variable aleatoria discreta) Sea X aleatoria discreo
ta, fX su funcin de cuant y DX su soporte. Si g es una funcin medible denida de (R, ) en
o
a
o
(R, ), tal que xi DX |g(xi )fX (xi )| < +, decimos que existe la esperanza de g(X), E[g(X)],
cuyo valor es
E[g(X)] =

g(xi )fX (xi ).

(2.1)

xi DX

En particular, si g(X) = X,
E(X) =

xi fX (xi ).
xi DX

Denicin 2.2 (Esperanza de una variable aleatoria continua) Sea X aleatoria discreo
ta, fX su funcin de densidad. Si g es una funcin medible denida de (R, ) en (R, ), tal
o
o

46

Esperanza. Desigualdades. Funcin caracter


o
stica

que

|g(x)fX (x)dx| < +, decimos que existe la esperanza de g(X), E[g(X)], cuyo valor es,
+

E[g(X)] =

g(x)f (x)dx.

(2.2)

En particular, si g(X) = X,

xfX (x)dx.

E(X) =

2.1.1.

Momentos de una variable aleatoria

Formas particulares de g(X) dan lugar lo que denominamos momentos de X. En la tabla


resumimos los distintos tipos de momentos y la correspondiente funcin que los origina, siempre
o
que sta sea integrable pues de lo contrario la esperanza no existe.
e
de orden k
Xk
(X a)k
X(X 1) . . . (X k + 1)

Respecto del origen


Respecto de a
Factoriales

absoluto de orden k
|X|k
|X a|k
|X(X 1) . . . (X k + 1)|

Tabla 1.- Forma de g(X) para los distintos momentos de X

Respecto de la existencia de los momentos se verica el siguiente resultado.


Proposicin 2.1 Si E(X k ) existe, existen todos los momentos de orden inferior.
o
La comprobacin es inmediata a partir de la desigualdad |X|j 1 + |X|k , j k.
o
Ya hemos dicho en la introduccin que el inters de los momentos de una variable aleatoria
o
e
estriba en que son caracter
sticas numricas que resumen su comportamiento probabil
e
stico.
Bajo ciertas condiciones el conocimiento de todos los momentos permite conocer completamente
la distribucin de probabilidad de la variable.
o
Especialmente relevante es el caso k = 1, cuyo correspondiente momento coincide con E(X)
y recibe tambin el nombre de media. Suele designarse mediante la letra griega (X , si existe
e
riesgo de confusin). Puesto que es una constante, en la tabla anterior podemos hacer a = ,
o
obteniendo as una familia de momentos respecto de que tienen nombre propio: los momentos

centrales de orden k, E[(X )k ]. De entre todos ellos cabe destacar la varianza,


2
V ar(X) = X = E[(X )2 ].

Propiedades de E(X) y V (X)


Un primer grupo de propiedades no merecen demostracin dada su sencillez. Conviene
o
sealar que todas ellas derivan de las propiedades de la integral.
n
1. Propiedades de E(X).
PE1) La esperanza es un operador lineal,
E[ag(X) + bh(X)] = aE[g(X)] + bE[h(X)].
En particular,
E(aX + b) = aE(X) + b.
PE2) P (a X b) = 1 = a E(X) b.

2.1 Esperanza de una variable aleatoria

47

PE3) P (g(X) h(X)) = 1 = E[g(X)] E[h(X)].


PE4) |E[g(X)]| E[|g(X)|].
2. Propiedades de V (X).
PV1) V (X) 0.
PV2) V (aX + b) = a2 V (X).
PV3) V (X) = E(X 2 ) [E(X)]2 .
PV4) V (X) hace m
nima E (X a)2 .
En efecto,
E (X a)2

E (X E(X) + E(X) a)2

E (X E(X))2 + E (E(X) a)2 + 2E [(X E(X)(E(X) a)]

V (X) + (E(X) a)2 .

El siguiente resultado nos ofrece una forma alternativa de obtener la E(X) cuando X es no
negativa.
Proposicin 2.2 Si para X 0, existe E(X), entonces
o
+

E(X) =

P (X x) dx =
0

2.1.2.

P (X > x) dx =
0

(1 FX (x)) dx.

(2.3)

Momentos de algunas variables aleatorias conocidas

Binomial
Si X B(n, p),
n

E(X) =

x
x=0
n

x
x=0

n x
p (1 p)nx =
x

n(n 1) . . . (n x + 1) x
p (1 p)nx
x!

= np

(n 1) . . . (n x + 1) x1
p
(1 p)nx
(x 1)!
x=1
n1

= np
y=0

n1 y
p (1 p)ny1 = np
y

Para obtener V (X), observemos que E[(X(X 1)] = E(X 2 ) E(X), y de aqu V (X) =

E[(X(X 1)]+E(X)[E(X)]2 . Aplicando un desarrollo anlogo al anterior se obtiene E[X(X


a
1)] = n(n 1)p2 y nalmente
V (X) = n(n 1)p2 + np n2 p2 = np(1 p).

48

Esperanza. Desigualdades. Funcin caracter


o
stica

Poisson
Si X P (),
xe

E(X) =
x0

x
= e
x!

x10

x1
= .
(x 1)!

Por otra parte,


x(x 1)e

E[X(X 1)] =
x0

De aqu
,

x
= 2 e
x!

x20

x2
= 2 .
(x 2)!

V (X) = 2 + 2 = .

Uniforme
Si X U (0, 1),
1

E(X) =

xfX dx =

x dx =
0

1
2

Para obtener V (X) utilizaremos la expresin alternativa, V (X) = E(X 2 ) [E(X)]2 ,


o
1

E(X 2 ) =

x2 dx =

y de aqu
,
V (X) =

1
2

1
,
3
1
.
12

Normal tipicada
Si X N (0, 1), como su funcin de densidad es simtrica respecto del origen,
o
e
+

E(X k ) =

x2
1
xk e 2 dx =
2

0,
si k = 2n + 1
m2n , si k = 2n.

Ello supone que E(X) = 0 y V (X) = E(X 2 ). Para obtener los momentos de orden par,
1
m2n =
2

x2n e

x2
2

2
dx =
2

x2n e

x2
2

dx.

Integrando por partes,


+

x2n e

x2
2

dx =

x2n1 e

x2
2

+
0

+ (2n 1)

x2n2 e

x2
2

dx = (2n 1)

x2n2 e

x2
2

dx,

lo que conduce a la frmula de recurrencia m2n = (2n 1)m2n2 y recurriendo sobre n,


o
m2n = (2n 1)(2n 3) 1 =
2n(2n 1)(2n 2) 2 1
(2n)!
=
= n .
2n(2n 2) 2
2 n!
La varianza valdr por tanto,
a
V (X) = E(X 2 ) =

2!
= 1.
2 1!

2.2 Esperanza de un vector aleatorio

49

Normal con parmetros y 2


a
Si Z N (0, 1) es fcil comprobar que la variable denida mediante la expresin X = Z +
a
o
es N (, 2 ). Teniendo en cuenta las propiedades de la esperanza y de la varianza,
E(X) = E(X) + = ,

var(X) = 2 var(Z) = 2 ,

que son precisamente los parmetros de la distribucin.


a
o

2.2.

Esperanza de un vector aleatorio

Sea X = (X1 , . . . , Xk ) un vector aletorio y sea g una funcin medible de Rk en R, la


o
expresin de su esperanza depende, como en el caso unidimensional, del carcter del vector.
o
a
Vector aleatorio discreto.- Si DX es el soporte del vector y fX su funcin de cuant cono
a
junta, la esperanza se obtiene a partir de
E(g(X)) =

g(x1 , . . . , xk )fX (x1 , . . . , xk ).


(x1 ,...,xk )DX

Vector aleatorio continuo.- Si fX es la funcin de densidad conjunta,


o
+

E(g(X)) =

...

g(x1 , . . . , xk )fX (x1 , . . . , xk ) dx1 . . . dxk .

En ambos casos la existencia de la esperanza esta supeditada a que |g(x)f (x)| sea absolutamente
sumable o integrable, respectivamente.

2.2.1.

Momentos de un vector aleatorio

Como ya hemos visto en el caso de una variable aleatoria, determinadas formas de la funcin
o
g dan lugar a los llamados momentos que se denen de forma anloga a como lo hicimos entonces.
a
Las situaciones de mayor inters son ahora:
e
Momento conjunto.- El momento conjunto de orden (n1 , . . . , nk ) se obtiene, siempre que la
esperanza exista, para
n
n
g(X1 , . . . , Xk ) = X1 1 . . . Xk k , ni 0,
n
E(X1 1

(2.4)

n
. . . Xk k ).

lo que da lugar a
Obsrvese que los momentos de orden k respecto del
e
origen para cada componente pueden obtenerse como casos particulares de (2.4) haciendo
n
n
k
ni = k y nj = 0, j = i, pues entonces E(X1 1 . . . Xk k ) = E(Xi ).
Momento conjunto central.- El momento conjunto central de orden (n1 , . . . , nk ) se obtienen, siempre que la esperanza exista, para
g(X1 , . . . , Xk ) = (X1 E(X1 ))n1 . . . (Xk E(Xk ))nk , ni 0,

2.2.2.

Covarianza. Aplicaciones

De especial inters es el momento conjunto central obtenido para ni = 1, nj = 1 y nl =


e
0, l = (i, j). Recibe el nombre de covarianza de Xi y Xj y su expresin es,
o
cov(Xi , Xj ) = E[(Xi E(Xi ))(Xj E(Xj ))] = E(Xi Xj ) E(Xi )E(Xj ).
La covarianza nos informa acerca del grado y tipo de dependencia existente entre ambas
variables mediante su magnitud y signo, porque a diferencia de lo que ocurr con la varianza,
a
la covarianza puede tener signo negativo.

50

Esperanza. Desigualdades. Funcin caracter


o
stica

Covarianza en la Normal bivariante


Si (X, Y ) tiene una distribucin Normal bivariante de parmetros X , y , x , y y , ya
o
a
2
2
vimos en la pgina 33 que X N (x , x ) e Y N (y , y ). Para simplicar la obtencin de
a
o
cov(X, Y ) podemos hacer uso de la invarianza por traslacin de la covarianza (se trata de una
o
propiedad de fcil demostracin que ya comprobamos para la varianza). De acuerdo con ella,
a
o
cov(X, Y ) = cov(X x , Y y ) y podemos suponer que X e Y tienen media 0, lo que permite
expresar la covarianza como cov(X, Y ) = E(XY ). Procedamos a su clculo.
a
+

E(XY ) =

xyfXY (x, y)dxdy

1
2x y
+

1 2
y

y 2

1
2

1
2(12 )

xye

( x )
x

x
2( x )

y
y

y
y

y
y

dxdy

y
y

x
2(1 2 )

x
x

1
2(12 )

dx dy.
(2.5)

2
La integral interior en (2.5) es la esperanza de una N (x y/y , x (1 2 )) y su valor ser por
a
tanto x y/y . Sustituyendo en (2.5)

x
E(XY ) =
2

y
y

1
2

y
y

x y
dy =
2

z 2 e 2 z dy = x y .

El coeciente de correlacin entre ambas variables es


o
XY =

cov(X, Y )
= .
x y

Todos los parmetros de la Normal bivariante adquieren ahora signicado.


a
La covarianza nos permite tambin obtener la varianza asociada a la suma de variables
e
aleatorias, como vemos a continuacin.
o
Esperanza y varianza de una suma
La linealidad de la esperanza aplicada cuando g(X) = X1 + + Xn , permite escribir
k

E(X1 + + Xk ) =

E(Xi ).
i=1

Si las varianzas de las variables X1 , . . . , Xk existen, la varianza de S =


los ai son reales cualesquiera, existe y viene dada por
V (S) = E[(S E(S))2 ] =

=E

k
i=1

ai Xi , donde

ai (Xi E(Xi ))
i=1

k1

a2 V (Xi ) + 2ai aj
i

=
i=1

cov(Xi , Xj ).
i=1 j=i+1

(2.6)

2.2 Esperanza de un vector aleatorio

51

Independencia y momentos de un vector aleatorio


Un resultado interesante acerca de los momentos conjuntos se recoge en la proposicin que
o
sigue.
Proposicin 2.3 Si las variables aleatorias X1 , . . . , Xk son independientes, entonces
o
k
n
n
E(X1 1 . . . Xk k ) =

n
E(Xi i ).
i=1

Demostracin.- Si suponemos continuo el vector, la densidad conjunta puede factorizarse


o
como producto de las marginales y
n
n
E(X1 1 . . . Xk k ) =
+

...

xn1 . . . xnk fX (x1 , . . . , xk ) dx1 . . . dxk =


1
k
k

xni fi (xi ) dx1 . . . dxk =


i

...

=
i=1

i=1
k

xni fi (xi ) dxi


i

n
E(Xi i ).

=
i=1

El caso discreto se demuestra anlogamente.


a

o
a
Observacin 2.1 El anterior resultado admite una formulacin ms general. Si las funciones
o
gi , i = 1, . . . , k son medibles, las gi (Xi ) tambin son variables independientes y podemos escribir
e
k

gi (Xi ) =
i=1

E[gi (Xi )].

(2.7)

i=1

Corolario 2.1 Si las variables X1 , . . . , Xk son independientes, entonces cov(Xi , Xj ) = 0, i, j.


Corolario 2.2 Si las variables X1 , . . . , Xk son independientes y sus varianzas existen, la vak
rianza de S = i=1 ai Xi , donde los ai son reales cualesquiera, existe y viene dada por V (S) =
k
2
i=1 ai V (Xi ).
Una aplicacin de los anteriors resultados permite la obtencin de la esperanza y la varianza
o
o
de algunas conocidas variables de manera mucho ms sencilla a como lo hicimos anteriormente.
a
Veamos algunos ejemplos.
Ejemplo 2.1 (La Binomial y la Hipergeomtrica como suma de Bernoullis) Si recore
damos las caracter
sticas de una Binomial fcilmente se comprueba que si X B(n, p) entonces
a
n
X = i=1 Xi con Xi B(1, p) e independientes. Como i,
E(Xi ) = p,
tendremos que

var(Xi ) = p(1 p),

E(X) =

E(Xi ) = nE(Xi ) = np,


i=1

52

Esperanza. Desigualdades. Funcin caracter


o
stica

var(Xi ) = np(1 p).

var(X) =

(2.8)

i=1
n

Si X H(n, N, r) tambin podemos escribir X =


e
i=1 Xi con Xi B(1, r/N ) pero a
diferencia de la Binomial las variables Xi son ahora dependientes. Tendremos pues
n

E(X) =

E(Xi ) = nE(Xi ) = n
i=1

r
,
N

y aplicando (2.6)
n

var(X) =

var(Xi ) + 2
i=1

r N r
+ n(n 1)cov(X1 , X2 ),
N
N

cov(Xi , Xj ) = n
i=1 j>i

(2.9)

puesto que todas las covarianzas son iguales.


Para obtener cov(X1 , X2 ),
cov(X1 , X2 )

= E(X1 X2 ) E(X1 )E(X2 )


r
= P (X1 = 1, X2 = 1)
N
=
=
=

P (X2 = 1|X1 = 1)P (X1 = 1)


r1 r
r

N 1 N
N
r(N r)
2
.
N (N 1)

r
N

Sustituyendo en (2.9)
var(X) = n

r N r
N
N

n1
N 1

(2.10)

Es interesante comparar (2.10) con (2.8), para p = r/N . Vemos que dieren en el ultimo factor,

factor que ser muy prximo a la unidad si n


a
o
N . Es decir, si la fraccin de muestreo (as se
o

la denomina en Teor de Muestras) es muy pequea. Conviene recordar aqu lo que dijimos en
a
n

la pgina 16 al deducir la relacin entre ambas distribuciones.


a
o
Ejemplo 2.2 (La Binomial Negativa como suma de Geomtricas) Si X BN (r, p) y
e
r
recordamos su denicin, podemos expresarla como X = i=1 Xi , donde cada Xi BN (1, p)
o
e independiente de las dems y representa las pruebas Bernoulli necesarias despus del (i 1)a
e
simo xito para alcanzar el i-simo.
e
e
e
Obtendremos primero la esperanza y la varianza de una variable Geomtrica de parmetro
e
a
p.
1p
, i.
E(Xi ) =
np(1 p)n = p
n(1 p)n =
p
n0

n1

2
Para calcular la varianza necesitamos conocer E(Xi ),
2
E(Xi ) =

n2 p(1 p)n = p
n0

n2 (1 p)n =
n1

1p
(2 p), i.
p2

2.2 Esperanza de un vector aleatorio

53

y de aqu
,
var(X) =

1p
(2 p)
p2

1p
p

1p
.
p2

La esperanza y la varianza de la Binomial Negativa de parmetros r y p, valdrn


a
a
r

E(X) =

E(Xi ) =
i=1

r(1 p)
,
p

var(X) =

var(Xi ) =
i=1

r(1 p)
.
p2

Covarianzas en una Multinomial


Si X M (n; p1 , p2 , . . . , pk ), sabemos que cada componente Xi B(n, pi ), i = 1, . . . , k, y
puede por tanto expresarse como suma de n Bernoullis de parmetro pi . La covarianza entre
a
dos cualesquiera puede expresarse como,
n

cov(Xi , Xj ) = cov

Xik ,
k=1

Xjl

l=1

Se demuestra fcilmente que


a
n

Xik ,

cov
k=1

Xjl
l=1

cov(Xik , Xjl ).

(2.11)

k=1 l=1

Para calcular cov(Xik , Xjl ) recordemos que


Xik =

1,
0,

si en la prueba k ocurre Ai ;
en cualquier otro caso,

Xjl =

1,
0,

si en la prueba l ocurre Aj ;
en cualquier otro caso.

En consecuencia, cov(Xik , Xjl ) = 0 si k = l porque las pruebas de Bernoulli son independientes


y
cov(Xik , Xjk ) = E(Xik Xjk ) E(Xik )E(Xjk ) = 0 pi pj ,
donde E(Xik Xjk ) = 0 porque en una misma prueba, la k-sima, no puede ocurrir simultneae
a
mente Ai y Aj . En denitiva,
n

cov(Xi , Xj ) =

cov(Xik , Xjk ) = npi pj .


k=1

El coeciente de correlacin entre ambas variables vale,


o
ij =

npi pj
npi (1 pi ) npj (1 pj )

pi pj
.
(1 pi )(1 pj )

El valor negativo de la covarianza y del coeciente de correlacin se explica por el hecho de que
o
siendo el nmero total de pruebas jo, n, a mayor nmero de ocurrencias de Ai , menor nmero
u
u
u
de ocurrencias de Aj .

54

Esperanza. Desigualdades. Funcin caracter


o
stica

2.3.

Esperanza condicionada

Sea (X, Y ) un vector aleatorio denido sobre el espacio de probabilidad (, A, P ) y denotemos por PX|Y =y la distribucin de probabilidad de X condicionada a Y = y. Si g es una
o
funcin medible denida de (R, ) en (R, ), tal que E(g(X)) existe, la esperanza condicionada
o
de g(X) dado Y , E[g(X)|Y ], es una variable aleatoria que para Y = y toma el valor
E[g(X)|y] =

g(X) dPX|Y =y .

(2.12)

La forma de (2.12) depende de las caracter


sticas de la distribucin del vector (X, Y ).
o
(X, Y ) es discreto.- Ello supone que el soporte de la distribucin, D, es numerable y
o
E[g(X)|y] =

g(x)P (X = x|Y = y) =
xDy

g(x)fX|Y (x|y),
xDy

donde Dy = {x; (x, y) D} es la seccin de D mediante y.


o
(X, Y ) es continuo.- Entonces
E[g(X)|y] =
R

g(x)fX|Y (x|y)dx.

Una denicin similar puede darse para E[h(Y )|X] siempre que E[h(Y )] exista.
o
o
Ejemplo 2.3 Sean X e Y variables aleatorias independientes ambas con distribucin B(n, p).
La distribucin de X + Y se obtiene fcilmente a partir de
o
a
m

fX+Y (m)

= P

{X = k, Y = m k}
k=0

P (X = k, Y = m k)
k=0
m

P (X = k)P (Y = m k)
k=0
m

=
k=0

n k
n
p (1 p)nk
pmk (1 p)n(mk)
k
mk
m

= pm (1 p)2nm
k=0

=
de donde X + Y B(2n, p).

n
k

2n m
p (1 p)2nm ,
m

n
mk

2.3 Esperanza condicionada

55

La distribucin condicionada de Y |X + Y = m es
o
P (Y = k|X + Y = m)

=
=

P (Y = k, X + Y = m)
P (X + Y = m)
P (Y = k, X = m k)
P (X + Y = m)

n k
n
p (1 p)nk
pmk (1 p)n(mk)
k
mk
2n m
p (1 p)2nm
m
n
k

n
mk
,
2n
m

es decir, Y |X + Y = m H(m, 2n, n). La E(Y |X + Y = m) valdr


a
E(Y |X + Y = m) =

nm
m
= .
2n
2

La denicin la esperanza condicionada goza de todas las propiedades inherentes al concepto


o
de esperanza anteriormente estudiadas. A t
tulo de ejemplo podemos recordar,
PEC1) La esperanza condicionada es un operador lineal,
E[(ag1 (X) + bg2 (X))|Y ] = aE[g1 (X)|Y ] + bE[g2 (X)|Y ].
En particular,
E[(aX + b)|Y ] = aE(X|Y ) + b.
PEC2) P (a X b) = 1 = a E(X|Y ) b.
PEC3) P (g1 (X) g2 (X)) = 1 = E[g1 (X)|Y ] E[g2 (X)|Y ].
PEC4) E(c|Y ) = c, para c constante.
Momentos de todo tipo de la distribucin condicionada se denen de forma anloga a como
o
a
hicimos en el caso de la distribucin absoluta y gozan de las mismas propiedades. Existen,
o
no obstante, nuevas propiedades derivadas de las peculiares caracter
sticas de este tipo de
distribuciones y de que E[g(X)|Y )], en tanto que funcin de Y , es una variable aleatoria.
o
Vemoslas.
a
Proposicin 2.4 Si E(g(X)) existe, entonces
o
E (E[g(X)|Y )]) = E(g(X)).

(2.13)

56

Esperanza. Desigualdades. Funcin caracter


o
stica

Demostracin.- Supongamos el caso continuo.


o
E (E[g(X)|Y )]) =

E[g(X)|y)]fy (y)dy
R

=
R

g(x)fX|Y (x|y)dx fy (y)dy


g(x)

g(x)
R

fXY (x, y)
dx fy (y)dy
fy (y)
fXY (x, y)dy dx

g(x)fX (x)dx = E(g(X)).

=
R

La demostracin se har de forma anloga para el caso discreto


o
a
a

Ejemplo 2.4 Consideremos el vector (X, Y ) con densidad conjunta

1, 0 < y x 1

x
fXY (x, y) =

0, en el resto.
Fcilmente obtendremos que X U (0, 1) y que Y |X = x U (0, x). Aplicando el resultado
a
anterior podemos calcular E(Y ),
1

E(Y ) =

E(Y |x)fX (x)dx =


0

1
1
xdx = .
2
4

a
a
Ejemplo 2.5 Un trabajador est encargado del correcto funcionamiento de n mquinas situadas en linea recta y distantes una de otra l metros. El trabajador debe repararlas cuando se
aver
an, cosa que sucede con igual probabilidad para todas ellas e independientemente de una a
otra. El operario puede seguir dos estrategias:
1. acudir a reparar la mquina estropeada y permanecer en ella hasta que otra mquina se
a
a
aver desplazndose entonces hacia ella, o
a,
a
2. situarse en el punto medio de la linea de mquinas y desde all acudir a la averiada,
a

regresando nuevamente a dicho punto cuando la aver est resuelta.


a
a
Si X es la distancia que recorre el trabajador entre dos aver consecutivas, cul de ambas
as
a
estrategias le conviene ms para andar menos?
a
Se trata, en cualquiera de las dos estrategias, de obtener la E(X) y elegir aquella que la
proporciona menor. Designaremos por Ei (X) la esperanza obtenida bajo la estrategia i = 1, 2.
Estrategia 1.- Sea Ak el suceso, el operario se encuentra en la mquina k. Para obtea
ner E1 (X) recurriremos a la propiedad anterior, pero utilizando como distribucin cono
dicionada la que se deriva de condicionar respecto del suceso Ak . Tendremos E1 (X) =
E(E(X|Ak )).

2.3 Esperanza condicionada

57

Para obtener E(X|Ak ) tengamos en cuenta que si i es la prxima mquina averiada,


o
a
P (Ai ) = 1/n, i y el camino a recorrer ser
a

(k i)l,
X|Ak =

(i k)l,

si i k,
si i > k.

As pues,

E(X|Ak ) =

1
n

(k i)l +
i=1

(i k)l
i=k+1

l
[2k 2 2(n + 1)k + n(n + 1)].
2n

Utilizando
n

k2 =
k=1

n(n + 1)(2n + 1)
,
6

obtenemos para E1 (X)


E1 (X) = E(E(X|Ak )) =

1
n

E(X|Ak ) =
k

l(n2 1)
3n

Estrategia 2.- Para facilitar los clculos supongamos que n es impar, lo que supone
a
que hay una mquina situada en el punto medio de la linea, la n+1 -sima. Si la prxima
a
o
2 e
mquina averiada es la i la distancia a recorrer ser,
a
a

X=

2( n+1 i)l,
2

2(i

n+1
2 )l,

si i

n+1
2 ,

si i >

n+1
2 ,

donde el 2 se justica porque el operario en esta segunda estrategia regresa siempre al


punto medio de la linea de mquinas. La esperanza viene dada por,
a
E2 (X) =

2
n

n
i=1

n+1
l(n 1)
i l =
.
2
2

Como E1 (X) E2 (X) (n + 1)/3n 1/2 n 2, podemos deducir que la primera


estrategia es mejor, salvo que hubiera una sola mquina.
a

Tambin es posible relacionar la varianza absoluta con la varianza condicionada, aunque la


e
expresin no es tan directa como la obtenida para la esperanza.
o
Proposicin 2.5 Si E(X 2 ) existe, entonces
o
var(X) = E(var[X|Y ]) + var(E[X|Y ]).

(2.14)

58

Esperanza. Desigualdades. Funcin caracter


o
stica

Demostracin.- Haciendo del anterior resultado,


o
var(X) =

E (X E(X))2 = E E (X E(X))2 |Y
2

X 2 + (E(X)) 2XE(X) |Y

E E

E E[X 2 |Y ] + E(X)2 2E(X)E[X|Y ]

E E[X 2 |Y ] (E[X|Y ]) + (E[X|Y ]) + E(X)2 2E(X)E[X|Y ]

E var[X|Y ] + (E[X|Y ] E(X))

E {var[X|Y ]} + E (E[X|Y ] E(X))

E(var[X|Y ]) + var(E[X|Y ]).

2
2

Corolario 2.3 Si E(X 2 ) existe, por la propiedad anterior


var(X) var(E[X|Y ]).
Si se verica la igualdad, de (2.14) deducimos que E(var[X|Y ]) = 0, y como var[X|Y ] 0,
tendremos que P (var[X|Y ] = 0) = 1, es decir
2

P E (X E[X|Y ]) |Y

= 0 = 1,

y como (X E[X|Y ]) 0, aplicando de nuevo el anterior razonamiento concluiremos que


P (X = E[X|Y ]) = 1,
lo que supone que, con probabilidad 1, X es una funcin de Y puesto que E[X|Y ] lo es.
o

2.4.

Desigualdades

Si para X 0 existe su esperanza, sea > 0 y escribamos (2.3) de la forma,


+

E(X) =

P (X x) dx =
0

P (X x) dx +
0

P (X x) dx.

Como la segunda integral es no negativa y la funcin P (X x) es decreciente,


o

E(X)

P (X x) dx
0

P (X ) dx = P (X ),
0

y de aqu
,

E(X)
.
(2.15)

Este resultado da lugar a dos conocidas desigualdades generales que proporcionan cotas
superiores para la probabilidad de ciertos conjuntos. Estas desigualdades son vlidas indepena
dientemente de cul sea la distribucin de probabilidad de la variable involucrada.
a
o
P (X )

Desigualdad de Markov.- La primera de ellas se obtiene al sustituir en (2.15) X por |X|k


y por k ,
1
(2.16)
P (|X| ) = P |X|k k k E |X|k ,

y es conocida como la desigualdad de Markov.

2.4 Desigualdades

59

Desigualdad de Chebyshev.- Un caso especial de (2.16) se conoce como la desigualdad de


Chebyshev y se obtiene para k = 2 y X = X E(X),
1
V ar(X).
2

P (|X E(X)| )

(2.17)

Un interesante resultado se deriva de esta ultima desigualdad.

Proposicin 2.6 Si V (X) = 0, entonces X es constante con probabilidad 1.


o
Demostracin.- Supongamos E(X) = y consideremos los conjuntos An = {|X |
o
1/n}, aplicando (2.17)
P (An ) = P

|X |

1
n

= 0, n

y de aqu P (n An ) = 0 y P (n Ac ) = 1. Pero

n
Ac =
n
n1

|X | <
n1

1
n

= {X = },

luego P (X = ) = 1.

Desigualdad de Jensen.- Si g(X) es convexa sabemos que a, a tal que g(x) g(a) +
a (x a), x. Si hacemos ahora a = E(X),
g(X) g (E(X)) + a (X E(X)),
y tomando esperanzas obtenemos la que se conoce como desigualdad de Jensen,
E(g(X)) g(E(X)).
Teorema 2.1 (Desigualdad de Cauchy-Schwarz) Sean X e Y variables aleatorias con varianzas nitas. Entonces cov(X, Y ) existe y se verica
[E(XY )]2 E(X 2 )E(Y 2 ),
vericndose la igualdad si y solo si existe un real tal que P (X + Y = 0) = 1.
a
Demostracin.- Para cualesquiera nmeros reales a y b se verica
o
u
|ab|

a2 + b2
,
2

lo que signica que E(XY ) < si E(X 2 ) < y E(Y 2 ) < . Por otra parte, para cualquier
real , se tiene
E[(X + Y )2 ] = 2 E(X 2 ) + 2E(XY ) + E(Y 2 ) 0,
lo que supone que la ecuacin de segundo grado tiene a lo sumo una ra y su discriminante
o
z
ser no positivo. Es decir,
a
[E(XY )]2 E(X 2 )E(Y 2 ).
Si se diera la igualdad, la ecuacin tendr una ra doble, 0 , y E[(0 X + Y )2 ] = 0. Tratndose
o
a
z
a
de una funcin no negativa, esto implica que P (0 X +Y = 0) = 1.
o

60

Esperanza. Desigualdades. Funcin caracter


o
stica

El coeciente de correlacin
o
El coeciente de correlacin entre dos componentes cualesquiera de un vector aleatorio, X
o
y Y , se dene como la covarianza de dichas variables tipicadas1 .
X E(X)
X

XY = cov(Xt , Yt ) = E

Y E(Y )
Y

cov(X, Y )
.
X Y

De la desigualdad de Cauchy-Schwarz se desprende que 2 1 y en particular que 1


XY
XY 1. Recordemos que cuando en Cauchy-Schwarz se daba la igualdad X e Y estaban
relacionadas linealmente con probabilidad 1, P (0 X + Y = 0) = 1, pero por otra parte dicha
e
igualdad implica 2 = 1. El valor 0 es otro valor de inters para XY . Si XY = 0 decimos
XY
que las variables estn incorreladas y adems cov(X, Y ) = 0. Hay entonces una ausencia total
a
a
de relacin lineal entre ambas variables. Podemos decir que el valor absoluto del coeciente de
o
correlacin es una medida del grado de linealidad entre las variables medido, de menor a mayor,
o
en una escala de 0 a 1.

2.4.1.

La distribucin Normal multivariante


o

La expresin de la densidad de la Normal bivariante que dbamos en la pgina 33 admite


o
a
a
una forma alternativa ms compacta a partir de lo que se conoce como la matriz de covarianzas
a
de la distribucin, , una matriz 2 2 cuyos elementos son las varianzas y las covarianzas del
o
vector (X1 , X2 ),
2
1 12
.
=
2
12 2
La nueva expresin de la densidad es
o
1

f (x1 , x2 ) =

|| 2 1 (x) 1 (x)
e 2
,
2

(x1 , x2 ) R2 ,

donde || es el determinante de , cuyo valor es


2 2
2
2 2
|| = 1 2 12 = 1 2 (1 2 ),
12

x = (x1 x2 ) es el vector de variables y = (1 2 ) es el vector de medias.


Si el vector tiene n componentes, X1 , X2 , . . . , Xn , la extensin a n dimensiones de la exo
presin de la densidad es ahora inmediata con esta notacin. La matriz de covarianzas es una
o
o
matriz n n con componentes

2
1
12
1(n1)
1n
2
12
2
2(n1)
2n

.
.
.
.
.
.
.
.
.
.
=
,
.
.
.
.
.

2
1(n1) 2(n1)
n1
(n1)n
2
1n
2n
(n1)n
n
el vector de medias es = (1 2 . . . n ) y la densidad tiene por expresin
o
1

|| 2 1 (x) 1 (x)
2
f (x1 , x2 , . . . , xn ) =
,
n e
(2) 2

(x1 , x2 , . . . , xn ) Rn .

(2.18)

1 Una variable tipicada es la que resulta de transformar la original restndole la media y dividiendo por la
a
desviacin t
o pica, Xt = (X X )/X . Como consecuencia de esta transformacin E(Xt ) = 0 y var(Xt ) = 1.
o

2.5 Funcin caracter


o
stica

61

Cuando las componentes del vector son independientes, las covarianzas son todas nulas y
es una matriz diagonal cuyos elementos son las varianzas de cada componente, por tanto
||1 =

1
.
2 2
2
1 2 n

Adems, la forma cuadrtica que aparece en el exponente de (2.18) se simplica y la densidad


a
a
adquiere la forma
f (x1 , x2 , . . . , xn ) =

1 e

n
2 2
i=1 (2i )

n
i=1

1
2

xi i
i

=
i=1

e
2

1
2

xi i
i

2i

que no es ms que el producto de las densidades de cada una de las componentes.


a
Aadamos por ultimo que la matriz es siempre denida positiva y lo es tambin la forma
n

e
cuadrtica que aparece en el exponente de (2.18).
a
Transformacin lineal de una Normal multivariante
o
A partir del vector X denimos un nuevo vector Y mediante una transformacin lineal cuya
o
matriz A es invertible. Tendremos
Y = AX,

X = A1 Y,

y dada la linealidad de la esperanza, la misma relacin se verica para los vectores de medias,
o
Y = AX ,

X = A1 Y ,

Para conocer la distribucin del vector Y recurriremos a la frmula del cambio de variable
o
o
(1.36). El jacobiano de la transformacin inversa es precisamente |J 1 | = |A1 |, con lo que la
o
densidad conjunta de Y = (Y1 , Y2 , . . . , Yn ) valdr,
a
1

fY (y1 , y2 , . . . , yn ) =

|| 2 1 (A1 yA1 Y ) 1 (A1 yA1 Y ) 1


2
|A |
n e
(2) 2
1

|A1 ||| 2 1 [A1 (yY )] 1 [A1 (yY )]


e 2
n
(2) 2

|A1 ||| 2 1 (yY )[A1 ] 1 A1 (yY )


e 2
n
(2) 2

|AA | 2 1 (yY ) [AA ]1 (yY )


e 2
,
n
(2) 2

que es la densidad de una Normal multivariante con vector de medias Y = AX y matriz de


covarianzas Y = AA

2.5.

Funcin caracter
o
stica

La funcin caracter
o
stica es una herramienta de gran utilidad en Teor de la Probabilidad,
a
una de sus mayores virtudes reside en facilitar la obtencin de la distribucin de probabilidad de
o
o
la suma de variables aleatorias y la del l
mite de sucesiones de variables aleatorias, situaciones
ambas que aparecen con frecuencia en Inferencia Estad
stica.

62

Esperanza. Desigualdades. Funcin caracter


o
stica

El concepto de funcin caracter


o
stica, introducido por Lyapunov en una de la primeras
versiones del Teorema Central del L
mite, procede del Anlisis Matemtico donde se le conoce
a
a
con el nombre de transformada de Fourier.
Denicin 2.3 Sea X una variable aleatoria y sea t R. La funcin caracter
o
o
stica de X,
X (t), se dene como E(eitX ) = E(cos tX) + iE(sin tX).
Como |eitX | 1, t, X (t) existe siempre y est denida t R. Para su obtencin recordemos
a
o
que,
Caso discreto.- Si X es una v. a. discreta con soporte DX y funcin de cuant fX (x),
o
a
eitx fX (x).

X (t) =

(2.19)

xDX

Caso continuo.- Si X es una v. a. continua con funcin de densidad de probabilidad fX (x),


o
+

X (t) =

eitx fX (x)dx.

(2.20)

De la denicin se derivan, entre otras, las siguientes propiedades:


o
P1) X (0) = 1
P2) |X (t)| 1
P3) X (t) es uniformemente continua
En efecto,
eitX (eihX 1) dP.

X (t + h) X (t) =

Al tomar mdulos,
o
|eihX 1| dP,

|X (t + h) X (t)|

(2.21)

pero |eihX 1| 2 y (2.21) ser nito, lo que permite intercambiar integracin y paso al
a
o
l
mite, obteniendo
l |X (t + h) X (t)|
m

h0

l |eihX 1| dP = 0.
m

h0

P4) Si denimos Y = aX + b,
Y (t) = E(eitY ) = E eit(aX+b) = eitb X (at)
P5) Si E(X n ) existe, la funcin caracter
o
stica es n veces diferenciable y k n se verica
(k)
X (0) = ik E(X k )
La propiedad 5 establece un interesante relacin entre las derivadas de X (t) y los momentos
o
de X cuando estos existen, relacin que permite desarrollar X (t) en serie de potencias. En
o
efecto, si E(X n ) existe n, entonces,
X (t) =
k0

ik E(X k ) k
t .
k!

(2.22)

2.5 Funcin caracter


o
stica

2.5.1.

63

Funcin caracter
o
stica e independencia

Si X1 , X2 , . . . , Xn son variables aleatorias independientes y denimos Y = X1 +X2 + +Xn ,


por la observacin (2.7) de la pgina 51 tendremos,
o
a
n

Y (t) = E e

it(X1 +X2 ++Xn )

=E

itXk

n
itXk

k=1

E e

k=1

Xk (t),

(2.23)

k=1

expresin que permite obtener con facilidad la funcin caracter


o
o
stica de la suma de variables
independientes y cuya utilidad pondremos de maniesto de inmediato.

2.5.2.

Funciones caracter
sticas de algunas distribuciones conocidas

Bernoulli.- Si X B(1, p)
X (t) = e0 q + eit p = q + peit .
Binomial.- Si X B(n, p)
n

X (t) =

(q + peit ) = (q + peit )n .
k=1

Poisson.- Si X P ()
eitx

X (t) =
x0

e x
= e
x!

x0

it
(eit )x
= e(e 1) .
x!

Normal tipicada.- Si Z N (0, 1), sabemos que existen los momentos de cualquier orden y
en particular, E(Z 2n+1 ) = 0, n y E(Z 2n ) = (2n)! , n. Aplicando (2.22),
2n n!
Z (t) =
n0

i2n (2n)! 2n
t =
2n (2n)!n!

(it)2
2
n0

n!

t2

n!

n0

n
t2

= e 2 .

Para obtener X (t) si X N (, 2 ), podemos utilizar el resultado anterior y P4. En


efecto, recordemos que X puede expresarse en funcin de Z mediante X = + Z y
o
aplicando P4,
X (t) = eit Z (t) = eit

2 t2
2

Observacin 2.2 Obsrvese que Im(Z (t)) = 0. El lector puede comprobar que no se
o
e
trata de un resultado exclusivo de la Normal tipicada, si no de una propiedad que poseen
todas las v. a. con distribucin de probabilidad simtrica, es decir, aquellas que verican
o
e
(P(X x)=P(X x)).
o
Gamma.- Si X G(, ), su funcin de densidad de probabilidad viene dada por

x1 ex si x > 0,

()
fX (x) =

0
si x 0,

64

Esperanza. Desigualdades. Funcin caracter


o
stica

por lo que aplicando (2.20),


X (t) =

()

eitx x1 ex dx,

que con el cambio y = x(1 it/) conduce a


X (t) =

it

Hay dos casos particulares que merecen ser mencionados:


Exponencial.- La distribucin exponencial puede ser considerada un caso particular de
o
G(, ) cuando = 1. A partir de aqu
,
X (t) =

.
it

Chi-cuadrado.- Cuando = n/2 y = 1/2, decimos que X tiene una distribucin 2


o
con n grados de libertad, X 2 . Su funcin caracter
o
stica ser
a
n
n

X (t) = (1 2it) 2 .

2.5.3.

Teorema de inversin. Unicidad


o

Hemos obtenido la funcin caracter


o
stica de una v. a. X a partir de su distribucin de proo
babilidad, pero es posible proceder de manera inversa por cuanto el conocimiento de X (t)
permite obtener FX (x).
Teorema 2.2 (Frmula de inversin de Lvy) Sean (t) y F (x) las funciones caracter
o
o
e
stica y de distribucin de la v. a. X y sean a b sendos puntos de continuidad de F , entonces
o
1
T 2

eita eitb
(t)dt.
it

F (b) F (a) = l
m

Que puede tambin expresarse


e
1
T

F (x0 + h) F (x0 h) = l
m

sin ht itx0
e
(t)dt,
t

donde h > 0 y x0 + h y x0 h son puntos de continuidad de F .


Este resultado permite obtener F (x) en cualquier x que sea punto de continuidad de F .
Basta para ello que en F (x) F (y) hagamos que y a travs de puntos de continuidad.
e
Como FX (x) es continua por la derecha, la tendremos tambin determinada en los puntos de
e
discontinuidad sin ms que descender hacia ellos a travs de puntos de continuidad.
a
e
Si la variable es continua, un corolario del anterior teorema permite obtener la funcin de
o
densidad directamente a partir de la funcin caracter
o
stica.
Corolario 2.4 Si (t) es absolutamente integrable en R, entonces la funcin de distribucin
o
o
es absolutamente continua, su derivada es uniformemente continua y
f (x) =

1
dF (x)
=
dx
2

eitx (t)dt.
R

2.5 Funcin caracter


o
stica

65

Este teorema tiene una trascendencia mayor por cuanto implica la unicidad de la funcin
o
caracter
stica, que no por casualidad recibe este nombre, porque caracteriza, al igual que lo
hacen otras funciones asociadas a X (la de distribucin, la de probabilidad o densidad de
o
probabilidad, ...), su distribucin de probabilidad. Podemos armar que si dos variables X e
o
Y comparten la misma funcin caracter
o
stica tienen idntica distribucin de probabilidad. La
e
o
combinacin de este resultado con las propiedades antes enunciadas da lugar a una potente
o
herramienta que facilita el estudio y obtencin de las distribuciones de probabilidad asociadas
o
a la suma de variables independientes. Vemoslo con algunos ejemplos.
a
1) Suma de Binomiales independientes.- Si las variables Xk B(nk , p), k = 1, 2, . . . , m
m
son independientes, al denir X = k=1 Xk , sabemos por (2.23) que
m

X (t) =

(q + peit )nk = (q + peit )n ,

Xk (t) =
k=1

k=1

con n = n1 + n2 + + nm . Pero siendo esta la funcin caracter


o
stica de una variable
B(n, p), podemos armar que X B(n, p).
2) Suma de Poisson independientes.- Si nuestra suma es ahora de variables Poisson independientes, Xk P (k ), entonces
m

X (t) =

ek (e

Xk (t) =
k=1

it

1)

= e(e

it

1)

k=1

con = 1 + 2 + + m . As pues, X P ().

3) Combinacin lineal de de Normales independientes.- Si X =


o
2
N (k , k ) e independientes,

n
k=1 ck Xk

con Xk

X (t)

ck Xk (t) =

Xk (ck t)
k=1

eick tk

2
k c 2 t 2
k
2

k=1

eit

2 t2
2

(2.24)

Se deduce de (2.24) que X N (, 2 ) con


n

ck k

2 =

k=1

2
c2 k .
k
k=1

4) Suma de Exponenciales independientes.- En el caso de que la suma est formada por


e
n variables independientes todas ellas Exp(),
X (t) =

it

y su distribucin ser la de una G(n, 1/).


o
a

it

66

Esperanza. Desigualdades. Funcin caracter


o
stica

5) Cuadrado de una N (0, 1).- Sea ahora Y = X 2 con X N (0, 1), su funcin caracter
o
stica
viene dada por

2
1
1
x (12it)
2
Y (t) =
dx =
1 e
1 ,
(2) 2
(1 2it) 2

lo que nos asegura que Y 2 .


1
Algunos de estos resultados fueron obtenidos anteriormente, pero su obtencin fu entonces
o
e
mucho ms laboriosa de lo que ahora ha resultado.
a

2.5.4.

Teorema de continuidad de Lvy


e

Se trata del ultimo de los resultados que presentaremos y permite conocer la convergencia

de una sucesin de v. a. a travs de la convergencia puntual de la sucesin de sus funciones


o
e
o
caracter
sticas.
Teorema 2.3 (Directo) Sea {Xn }n1 una sucesin de v. a. y {Fn (x)}n1 y {n (t)}n1 las
o
respectivas sucesiones de sus funciones de distribucin y caracter
o
sticas. Sea X una v. a. y
w
FX (x) y (t) sus funciones de distribucin y caracter
o
stica, respectivamente. Si Fn F (es
L
decir, Xn X), entonces
n (t) (t), t R.
Resultado que se completa con el teorema inverso.
o
sticas y {Fn (x)}n1
Teorema 2.4 (Inverso) Sea {n (t)}n1 una sucesin de funciones caracter
la sucesin de funciones de distribucin asociadas. Sea (t) una funcin continua, si t R,
o
o
o
n (t) (t), entonces
w
Fn F,
donde F (x) en una funcin de distribucin cuya funcin caracter
o
o
o
stica es (t).
Este resultado permite, como dec
amos antes, estudiar el comportamiento l
mite de sucesiones de v. a. a travs del de sus funciones caracter
e
sticas, generalmente de mayor sencillez. Sin
duda una de sus aplicaciones ms relevantes ha sido el conjunto de resultados que se conoa
cen como Teorema Central del L
mite (TCL), bautizados con este nombre por Lyapunov que
pretendi as destacar el papel central de estos resultados en la Teor de la Probabilidad.
o
a

Cap
tulo 3

Sucesiones de variables aleatorias.


Teoremas de convergencia
3.1.

Introduccin
o

Los cap
tulos anteriores nos han permitido familiarizarnos con el concepto de variable y
vector aleatorio, dotndonos de las herramientas que nos permiten conocer su comportamiento
a
probabil
stico. En el caso de un vector aleatorio somos capaces de estudiar el comportamiento
conjunto de un nmero nito de variables aleatorias. Pero imaginemos por un momento los
u
modelos probabil
sticos asociados a los siguientes fenmenos:
o
1. lanzamientos sucesivos de una moneda,
2. tiempos transcurridos entre dos llamadas consecutivas a una misma centralita,
3. sucesin de estimadores de un parmetro cuando se incrementa el tamao de la muestra...
o
a
n
En todos los casos las variables aleatorias involucradas lo son en cantidad numerable y habremos
de ser capaces de estudiar su comportamiento conjunto y, tal y como siempre sucede en ocasiones similares, de conocer cuanto haga referencia al l
mite de la sucesin. Del comportamiento
o
conjunto se ocupa una parte de la Teor de la Probabilidad que dado su inters ha tomado
a
e
entidad propia: la Teor de los Procesos Estocsticos. En este cap
a
a
tulo nos ocuparemos de estudiar cuanto est relacionado con el l
a
mite de las sucesiones de variables aleatorias. Este estudio
requiere en primer lugar, introducir los tipos de convergencia apropiados a la naturaleza de las
sucesiones que nos ocupan, para en segundo lugar obtener las condiciones bajo las que tienen
lugar las dos convergencias que nos interesan: la convergencia de la sucesin de variables a una
o
constante (Leyes de los Grandes Nmeros) y la convergencia a otra variable (Teorema Central
u
del L
mite). El estudio de esta segunda situacin se ve facilitado con el uso de una herramienta
o
conocida como funcin caracter
o
stica de la cual nos habremos ocupado previamente.
Dos sencillos ejemplos relacionados con la distribucin Binomial no servirn de introduccin
o
a
o
y nos ayudarn a situarnos en el problema.
a
Ejemplo 3.1 (Un resultado de J. Bernoulli) Si repetimos n veces un experimento cuyo
resultado es la ocurrencia o no del suceso A, tal que P (A) = p, y si la repeticiones son independientes unas de otras, la variable Xn =nmero de ocurrencias de A, tiene una distribucin
u
o
B(n, p). La variable Xn /n representa la frecuencia relativa de A y sabemos que
E

Xn
n

1
np
E(Xn ) =
= p,
n
n

68

Sucesiones de variables aleatorias. Teoremas de convergencia

y
var

Xn
n

1
np(1 p)
p(1 p)
var(Xn ) =
=
.
n2
n2
n

Si aplicamos la desigualdad de Chebyshev,


P

Xn
p
n

var(Xn /n)
p(1 p) n
=
0.
2
n2

Deducimos que la frecuencia relativa de ocurrencias de A converge, en algn sentido, a P (A).


u
a
Ejemplo 3.2 (Binomial vs Poisson) El segundo ejemplo ya fue expuesto en la pgina 15 y
no lo repetiremos aqu Hac referencia a la aproximacin de la distribucin Binomial mediante
.
a
o
o
la distribucin de Poisson. Vimos que cuando tenemos un gran nmero de pruebas Bernoulli con
o
u
una probabilidad de xito muy pequea de manera que l n npn = , 0 < < +, la sucesin
e
n
m
o
de funciones de cuant de las variables aleatorias Xn B(n, pn ) converge a la funcin de
a
o
cuant de X P o().
a
Dos ejemplos con sucesiones de variables Binomiales que han conducido a l
mites muy distintos. En el primero, el valor l
mite es la probabilidad de un suceso, y por tanto una constante;
en el segundo la funcin de cuant tiende a otra funcin de cuant
o
a
o
a.

3.2.

Tipos de convergencia

Comenzaremos por formalizar el tipo de convergencia que aparece en el primer ejemplo.


Para ello, y tambin para el resto de deniciones, sobre un espacio de probabilidad (, A, P )
e
consideremos la sucesin de variables aleatorias {Xn } y la variable aleatoria X.
o
Denicin 3.1 (Convergencia en probabilidad) Decimos que {Xn } converge a X en proo
P
babilidad, Xn X, si para cada > 0,
l P { : |Xn () X()| } = 0.
m
n

No es esta una convergencia puntual como las que estamos acostumbrados a utilizar en Anlisis
a
Matemtico. La siguiente s es de este tipo.
a

Denicin 3.2 (Convergencia casi segura o con probabilidad 1) Decimos que {Xn } cono
a.s.
verge casi seguramente1 a X (o con probabilidad 1), Xn X, si
P ({ : l Xn () = X()}) = 1.
m
n

El ultimo tipo de convergencia involucra a las funciones de distribucin asociadas a cada variable

o
y requiere previamente una denicin para la convergencia de aquellas.
o
Denicin 3.3 (Convergencia dbil) Sean Fn , n 1 y F , funciones de distribucin de
o
e
o

probabilidad. Decimos que la sucesin Fn converge dbilmente2 a F , Fn F , si l n Fn (x) =


o
e
m
F (x), x que sea punto de continuidad de F .
1 Utilizaremos la abreviatura a. s., que corresponde a las iniciales de almost surely, por ser la notacin ms
o
a
extendida
2 Utilizaremos la abreviatura , que corresponde a la inicial de weakly, por ser la notacin ms extendida
o
a

3.2 Tipos de convergencia

69

Denicin 3.4 (Convergencia en ley) Decimos que {Xn } converge en ley a X, Xn X,


o

si FXn FX . Teniendo en cuenta la denicin de Fn y F , la convergencia en ley puede


o
expresarse tambin
e
L
Xn X l P (Xn x) = P (X x).
m
n

Denicin 3.5 (Convergencia en media cuadrtica) Decimos que {Xn } converge en meo
a
m.s
dia cuadrtica a X, Xn X, si
a
l E[(Xn X)2 ] = 0.
m
n

Las relaciones entre los tres tipos de convergencia se establecen en el siguiente teorema.
Teorema 3.1 (Relaciones entre convergencias) Sean Xn y X variables aleatorias denidas sobre un mismo espacio de probabilidad entonces:

a.s.
Xn X
P
L
Xn X Xn X

m.s.
Xn X
Las convergencias casi segura y en probabilidad tienen distinta naturaleza, mientras aquella
es de tipo puntual, esta ultima es de tipo conjuntista. El ejemplo que sigue ilustra bien esta

diferencia y pone de maniesto que la contraria de la primera implicacin no es cierta.


o
Ejemplo 3.3 (La convergencia en probabilidad = la convergencia casi segura) Co/
mo espacio de probabilidad consideraremos el intervalo unidad dotado de la -lgebra de Borel
a
y de la medida de Lebesgue, es decir, un espacio de probabilidad uniforme en ]0,1]. Denimos
p
la sucesin Xn = 1In , n, con In =] 2q , p+1 ], siendo p y q los unicos enteros positivos que
o

2q
verican, p + 2q = n y 0 p < 2q . Obviamente q = q(n) y l n q(n) = +. Los primeros
m
trminos d ela sucesin son,
e
o
n=1
n=2
n=3
n=4
n=5
n=6
n=7
......

q
q
q
q
q
q
q

= 0, p = 0
= 1, p = 0
= 1, p = 1
= 2, p = 0
= 2, p = 1
= 2, p = 2
= 2, p = 3

X1
X2
X3
X4
X5
X6
X7

= 1]0,1]
1
= 1]0, 2 ]
1
= 1] 2 ,1]
1
= 1]0, 4 ]
1
= 1] 4 , 1 ]
2
1
= 1] 2 , 3 ]
4
3
= 1] 4 ,1]

Observemos que si X = 0, > 0 se tiene { : |Xn ()| } = { : |Xn ()| = 1} =

(In ) = 2q , 2q n < 2q+1 y Xn 0; pero dada la construccin de las Xn en ningn


o
u
[0, 1] se verica l Xn () = 0.
m
Las convergencias casi y en media cuadrtica no se implican mutuamente. Vemoslo con
a
a
sendos contraejemplos.
Ejemplo 3.4 (La convergencia a.s. la convergencia m.s) Con las misma sucesin
/
o
p
p+1
del ejemplo anterior, como Xn = 1In , con In =] 2q(n) , 2q(n) ],
2
E(Xn ) =

1
,
2q (n)

70

Sucesiones de variables aleatorias. Teoremas de convergencia

2
con l n q(n) = . En denitiva, E(Xn ) 0, lo que pone de maniesto que la convergencia
m
en media cuadrtica
a
la convergencia casi segura.

a.s.
a.s.
2
Denamos ahora Xn = n1]0,1/n] . Claramente Xn 0 pero E(Xn ) = 1, n y Xn
0.

La convergencia en ley (dbil) no implica la convergencia en probabilidad, como pone de


e
maniesto el siguiente ejemplo, lo que justica el nombre de convergencia dbil puesto que es
e
la ultima en la cadena de implicaciones.

Ejemplo 3.5 Consideremos una variable Bernoulli con p = 1/2, X B(1, 1/2) y denamos
una sucesin de variables aleatorias, Xn = X, n. La variable Y = 1 X tiene la misma
o
L
distribucin que X, es decir, Y B(1, 1/2). Obviamente Xn Y , pero como |Xn Y | =
o
|2X 1| = 1, no puede haber convergencia en probabilidad.

3.3.

Leyes de los Grandes N meros


u

El nombre de leyes de los grandes nmeros hace referencia al estudio de un tipo especial de
u
l
mites derivados de la sucesin de variables aleatorias {Xn }. Concretamente los de la forma
o
n
a
l n Snbn n , con Sn = i=1 Xi y siendo {an } y {bn } sucesiones de constantes tales que l bn =
m
m
+. En esta seccin jaremos las condiciones para saber cuando existe convergencia a.s, y como
o
nos ocuparemos tambin de la convergencia en probabilidad, las leyes se denominarn fuerte y
e
a
dbil, respectivamente.
e
Teorema 3.2 (Ley dbil) Sea {Xk } una sucesin de variables aleatorias independientes tales
e
o
n
2
que E(Xk ) < +, k, y l n n2 k=1 var(Xk ) = 0, entonces
m 1
1
n

(Xk E(Xk )) 0.
k=1

n
k=1 (Xk E(Xk )),

1
Demostracin.- Para Sn = n
o
Por la desigualdad de Chebyshev, > 0

P (|Sn | )

E(Sn ) = 0 y var(Sn ) =

var(Sn )
1
= 2 2
2
n

1
n2

n
k=1

var(Xk ).

var(Xk ),
k=1

que al pasar al l
mite nos asegura la convergencia en probabilidad de Sn a 0.

Corolario 3.1 Si las Xn son i.i.d. con varianza nita y esperanza comn E(X1 ), entonces
u
P
n
1
k=1 Xk E(X1 ).
n
n

1
Demostracin.- Si var(Xk ) = 2 , k, tendremos n2 k=1 var(Xk ) = que tiende a cero con
o
n
n. Es por tanto de aplicacin la ley dbil que conduce al resultado enunciado.
o
e

Este resultado fu demostrado por primera vez por J. Bernoulli para variables con distribue
cin Binomial (vase el ejemplo 3.1), versin que se conoce como la ley de los grandes nmeros
o
e
o
u
de Bernoulli
El siguiente paso ser jar las condiciones para que el resultado sea vlido bajo convergencia
a
a
a.s.

Teorema 3.3 (Ley fuerte) Si {Xk } es una sucesin de variables aleatorias i.i.d. con media
o
nita, entonces
n
Xk a.s.
E(X1 ).
n
k=1

3.4 Teorema Central de L


mite

71

Corolario 3.2 Si {Xk } es una sucesin de variables aleatorias i.i.d. con E(X1 ) < + y
o
+
Sn a.s.
E(X1 ) = +, entonces n .

La demostracin de la ley fuerte es de una complejidad, aun en su versin ms sencilla deo


o
a
bida a Etemadi, fuera del alcance y pretensiones de este texto. La primera demostracin, ms
o
a
compleja que la de Etemadi, se debe a Kolmogorov y es el resultado nal de una cadena de
propiedades previas de gran inters y utilidad en s mismas. Aconsejamos vivamente al estue

diante que encuentre ocasin de hojear ambos desarrollos en cualquiera de los textos habituales
o
(Burrill, Billingsley,...), pero que en ningn caso olvide el desarrollo de Kolmogorov.
u

3.4.

Teorema Central de L
mite

Una aplicacin inmediata es el Teorema de De Moivre-Laplace, una versin temprana del


o
o
TCL, que estudia el comportamiento asinttico de una B(n, p).
o
X
Teorema 3.4 (De Moivre-Laplace) Sea Xn B(n, p) y denamos Zn = n np . Entonnp(1p)
ces
L
Zn N (0, 1).

Demostracin.- Aplicando los resultados anteriores, se obtiene


o
Zn (t) =

(1 p)eit

p
n(1p)

+ pe

it

(1p)
np

que admite un desarrollo en serie de potencias de la forma


t2
(1 + Rn )
Zn (t) = 1
2n

con Rn 0, si n . En consecuencia,
t2

l Zn (t) = e 2 .
m

La unicidad y el teorema de continuidad hacen el resto.

Observacin 3.1 Lo que el teorema arma es que si X B(n, p), para n sucientemente
o
grande, tenemos
X np
P
x
(x),
np(1 p)
donde (x) es la funcin de distribucin de la N (0, 1).
o
o
De qu forma puede generalizarse este resultado? Como ya sabemos Xn B(n, p) es la suma
e
de n v. a. i.i.d., todas ellas Bernoulli (Yk B(1, p)), cuya varianza comn, var(Y1 ) = p(1 p),
u
es nita. En esta direccin tiene lugar la generalizacin: variables independientes, con igual
o
o
distribucin y con varianza nita.
o
Teorema 3.5 (Lindeberg) Sean X1 , X2 , . . . , Xn , v.a. i.i.d. con media y varianza nitas, y
n
1
2 , respectivamente. Sea X n = n k=1 Xk su media muestral, entonces
Yn =

Xn
X E(X n ) L
= n
N (0, 1).
/ n
var(X n )

72

Sucesiones de variables aleatorias. Teoremas de convergencia

Demostracin.- Teniendo en cuenta la denicin de X n podemos escribir


o
o
Xn
1
=
/ n
n

Zk ,
k=1

con Zk = (Xk )/, variables aleatorias i.i.d. con E(Z1 ) = 0 y var(Z1 ) = 1. Aplicando P4
y (2.23) tendremos
n
t
Yn (t) = Z1
n
Pero existiendo los dos primeros momentos de Z1 y teniendo en cuenta (2.22), Z1 (t) puede
tambin expresarse de la forma
e
Z1 (t) = 1

t2
(1 + Rn ),
2n

con Rn 0, si n . En consecuencia,
t2
(1 + Rn )
2n

Yn (t) = 1
As pues,

t2

l Yn (t) = e 2 ,
m

que es la funcin caracter


o
stica de una N (0, 1).

Observemos que el Teorema de De Moivre-Laplace es un caso particular del Teorema de


Lindeberg, acerca de cuya importancia se invita al lector a reexionar porque lo que en l se
e
arma es, ni ms ni menos, que sea cual sea la distribucin comn a las Xi , su media muestral
a
o
u
X n , adecuadamente tipicada, converge a una N (0, 1) cuando n .
El teorema de Lindeberg, que puede considerarse el teorema central del l
mite bsico, admite
a
una generalizacin en la direccin de relajar la condicin de equidistribucin exigida a las
o
o
o
o
variables. Las llamadas condiciones de Lindeberg y Lyapunov muestran sendos resultados que
permiten eliminar aquella condicin.
o
Ejemplo 3.6 (La frmula de Stirling para aproximar n!) Consideremos una sucesin de
o
o
variables aleatorias X1 , X2 , . . . ,, independientes e idnticamente distribuidas, Poisson de pae
n
rmetro = 1. La variable Sn =
a
e
a
i=1 Xi es tambin Poisson con parmetro n = n. Si
Z N (0, 1), para n sucientemente grande el TCL nos permite escribir,
P (Sn = n)

= P (n 1 < Sn n)
=

1
Sn n
<
0
n
n

1
< Z 0
n

1
2

1/ n

1 1
,
2 n

ex

/2

dx

3.4 Teorema Central de L


mite

73

2
en donde la ultima expresin surge de aproximar la integral entre [1/ n, 0] de f (x) = ex /2

o
mediante el rea del rectngulo que tiene por base el intervalo de integracin y por altura el
a
a
o
f (0) = 1.
Por otra parte,
nn
P (Sn = n) = en .
n!
Igualando ambos resultado y despejando n! se obtiene la llamada frmula de Stirling,
o

n! nn+1/2 en 2.

3.4.1.

Una curiosa aplicacin del TCL: estimacin del valor de


o
o

De Moivre y Laplace dieron en primer lugar una versin local del TCL al demostrar que si
o
X B(n, p),
1 2
1
P (X = m) np(1 p) e 2 x ,
(3.1)
2
para n sucientemente grande y x = mnp . Esta aproximacin nos va a servir para estudiar
o
np(1p)

la credibilidad de algunas aproximaciones al nmero obtenidas a partir del problema de la


u
aguja de Buon.
Recordemos que en el problema planteado por Buon se pretende calcular la probabilidad
de que una aguja de longitud 2l, lanzada al azar sobre una trama de paralelas separadas entre
si una distancia 2a, con a > l, corte a alguna de las paralelas. Puestos de acuerdo sobre el
signicado de lanzada al azar, la respuesta es
P (corte) =

2l
,
a

resultado que permite obtener una aproximacin de si, conocidos a y l, sustituimos en =


o
2l
la probabilidad de corte por su estimador natural la frecuencia relativa de corte, p, a
aP (corte)
lo largo de n lanzamientos. Podremos escribir, si en lugar de trabajar con lo hacemos con su
inverso,
1
am
=
,

2ln
donde m es el nmero de cortes en los n lanzamientos.
u
El ao 1901 Lazzarini realiz 3408 lanzamientos obteniendo para el valor 3,1415929 con
n
o
6 cifras decimales exactas!!. La aproximacin es tan buena que merece como m
o
nimo alguna
pequea reexin. Para empezar supongamos que el nmero de cortes aumenta en una unidad,
n
o
u
las aproximaciones de los inversos de correspondientes a los m y m + 1 cortes diferir en
an
a(m + 1) am
a
1

,
2ln
2ln
2ln
2n
1
que si n 5000, da lugar a 2n 104 . Es decir, un corte ms produce una diferencia mayor
a
6
que la precisin de 10
o
alcanzada. No queda ms alternativa que reconocer que Lazzarini
a
tuvo la suerte de obtener exactamente el nmero de cortes, m, que conduc a tan excelente
u
a
aproximacin. La pregunta inmediata es, cual es la probabilidad de que ello ocurriera?, y para
o
responderla podemos recurrir a (3.1) de la siguiente forma,

P (X = m)

1
2np(1 p)

(mnp)2

e 2np(1p)

1
2np(1 p)

74

Sucesiones de variables aleatorias. Teoremas de convergencia

que suponiendo a = 2l y p = 1/ nos da para P (X = m) la siguiente cota


P (X = m)

.
2n( 1)

Para el caso de Lazzarini n=3408 y P (X = m) 0,0146, m. Parece ser que Lazzarini era un
hombre de suerte, quizs demasiada.
a

Cap
tulo 4

Procesos Estocsticos
a
4.1.

Introduccin
o

Los temas precedentes nos han dotado de las herramientas necesarias para conocer el comportamiento de una variable aleatoria o de un conjunto nito de ellas, un vector aleatorio. En
cualquier caso, se trataba de un nmero nito de variables aleatorias. El Cap
u
tulo 3 nos ha
permitido, adems, estudiar el comportamiento asinttico de una sucesin de variables aleatoa
o
o
rias a travs de las llamadas Leyes de los Grandes Nmeros y del Teorema Central del L
e
u
mite.
Pero ya advert
amos en la Introduccin de dicho cap
o
tulo que de su comportamiento conjunto
se ocupaba una parte espec
ca de la Teor de la Probabilidad, los Procesos Estocsticos.
a
a
Antes de introducir las deniciones bsicas, quizs convenga puntualizar que el concepto de
a
a
proceso estocstico abarca situaciones ms generales que las sucesiones de variables aleatorias.
a
a
Se trata de estudiar el comportamiento de un conjunto de variables aleatorias que puede estar
indexado por un conjunto no numerables. A los ejemplos que se citaban en la mencionada
Introduccin del Cap
o
tulo 3, todos ellos sucesiones aleatorias, podemos aadir otros fenmenos
n
o
aleatorios que generan familias aleatorias no numerables.
Un ejemplo ser el estudio de la ocurrencia de un mismo suceso a lo largo del tiempo, si
a
dichas ocurrencias son independientes y nos ocupamos del intervalo de tiempo que transcurre
entre una y otra, nuestro inters se centra en la sucesin {Xn }n1 , donde Xi ={tiempo transe
o
currido entre las ocurrencias i-sima y la i-1-sima}. Si lo que nos interesa es el nmero de
e
e
u
veces que el suceso ha ocurrido en el intervalo [0, t], la familia a considerar es Nt , con t > 0,
que desde luego no es numerable.

4.2.

Deniciones bsicas y descripcin de un proceso esa


o
tocstico
a

Denicin 4.1 Un proceso estocstico es una coleccin de variables aleatorias {Xt , t T }


o
a
o
denidas sobre un espacio de probabilidad (, A, P ).
Obsrvese que el
e
ndice y el conjunto de
ndices se denotan mediante las letras t y T , respectivamente. La razn para ello es que en su origen los procesos estocsticos surgen del estudio de la
o
a
evolucin temporal de fenmenos aleatorios. Ello no presupone nada respecto a la numerabilidad
o
o
de T .
Una primera clasicacin de los procesos estocsticos toma como criterios el tipo de variables
o
a
involucradas y la dimensin del
o
ndice. De acuerdo con ellos se pueden establecer cuatro tipos

76

Procesos Estocsticos
a

DTCV

DTDV

10

15

20

25

30

10

15

20

25

30

Proceso de Poisson (tiempos de llegada)

CTDV

CTCV

0 3 6 9

13 17 21 25

Proceso de Bernoulli

10

15

20

25

30

Proceso de Poisson (nmero de sucesos)

10

15

20

25

30

Proceso Gaussiano

Figura 4.1: Ejemplos de los diferentes tipos de procesos estocsticos


a
de procesos,
DTDV, acrnimo del ingls Discret Time / Discret Values, procesos con
o
e
ndice numerable
y variables discretas.
DTCV, acrnimo del ingls Discret Time / Continuous Values, procesos con
o
e
ndice numerable y variables continuas.
CTDV, acrnimo del ingls Continuous Time / Discret Values, procesos con
o
e
ndice no
numerable y variables discretas.
CTCV, acrnimo del ingls Continuous Time / Continuous Values, procesos con
o
e
ndice
no numerable y variables continuas.
La Figura 4.1 muestra la grca de un proceso de cada uno de los cuatro tipos.
a

4.2.1.

Trayectoria de un proceso

Un proceso estocstico puede tambin ser visto como una funcin aleatoria con un doble
a
e
o
argumento, {X(t, ), t T, }. Si con esta notacin jamos = 0 , tendremos una
o
realizacin del proceso, X(, 0 ), cuya representacin grca constituye lo que denominamos la
o
o
a
trayectoria del proceso (sample path). La Figura 4.2 muestra cuatro trayectorias de un proceso
de Poisson.
Por el contrario, si lo que jamos es t = t0 , estamos rerindonos a la variable aleatoria
e
Xt0 = X(t0 , ). La l
neas verticales que aparecen en la Figura 4.2 representan a las variables
aleatorias N20 y N25 , su interseccin con las cuatro trayectorias del proceso son las valores que
o
dichas variables han tomado en cada realizacin.
o

4.2 Deniciones bsicas y descripcin de un proceso estocstico


a
o
a

77

10

12

14

16

18

20

22

Trayectorias

10

15

20

25

30

Proceso de Poisson (nmero de sucesos)

Figura 4.2: Trayectorias de un proceso de Poisson y realizaciones de las variables N20 y N25

4.2.2.

Distribuciones nito-dimensionales

Un proceso estocstico se describe a partir de las distribuciones de probabilidad que induce


a
sobre Rn . Si {t1 , t2 , . . . , tn } T es un subconjunto nito cualquiera de
ndices, la distribucin
o
conjunta del vector (Xt1 , Xt2 , . . . , Xtn ) vendr dada por
a
Ft1 ,t2 ,...,tn (xt1 , xt2 , . . . , xtn ) = P (Xt1 xt1 , . . . , Xtn xtn ),

(4.1)

que recibe el nombre de distribucin nito-dimensional del proceso. Estas distribuciones pueden
o
igualmente venir dadas en trminos de la funciones de densidad o probabilidad conjuntas del
e
vector.
Un proceso estocstico se describe especicando sus distribuciones nito-dimensionales, que
a
permiten obtener la probabilidad de cualquier suceso involucrado en el proceso. Hay que advertir, no obstante, que el conjunto de distribuciones nito-dimensionales no determina por
completo las caracter
sticas del proceso1 , por lo que en ocasiones hay que denir ciertas condiciones o propiedades adicionales. Si el proceso se puede especicar completamente a partir de
dichas distribuciones, decimos que el proceso es separable.
Dos de estas propiedades son las que conocen como incrementos independientes y de Markov.
Veamos en qu consisten.
e
Denicin 4.2 (Incrementos independientes) Se dice que un proceso estocsticos tiene
o
a
sus incrementos independientes si para t1 < t2 < . . . < tn , las variables
Xt2 Xt1 , Xt3 Xt2 , . . . , Xtn Xtn1 ,

(4.2)

son independientes.
Denicin 4.3 (Markov) Se dice que un proceso estocsticos es un proceso de Markov si la
o
a
evolucin del proceso depende slo del pasado inmediato, es decir, dados t1 < t2 < . . . < tn
o
o
P (Xtn B|Xt1 , Xt2 , . . . , Xtn1 ) = P (Xtn B|Xtn1 ),
1 En

(4.3)

la pgina 319 del libro de Billingsley, Probability and Measure, 2nd Ed., hay un ejemplo relativo al
a
proceso de Poisson

78

Procesos Estocsticos
a

donde B es cualquier conjunto de Borel (suceso) en R.


La condicin (4.3) puede igualmente expresarse en trminos de las funciones de densidad o de
o
e
probabilidad, segn sea la naturaleza de las variables del proceso,
u
ftn |t1 ,...,tn1 (xtn |xt1 , . . . , xtn1 ) = ftn |tn1 (xtn |xtn1 ).
En el caso discreto las probabilidades P (Xtn = xn |Xtn1 = xn1 ) se denominan probabilidades
de transicin, cuyo conocimiento caracteriza completamente el proceso de Markov.
o
Ambas propiedades estn relacionadas. En efecto, los incrementos independientes implican
a
la propiedad de Markov, pero el rec
proco no es cierto. En el caso discreto la implicacin
o
demuestra fcilmente,
a
P (Xtn = xn |Xt1 = x1 , . . . , Xtn1 = xn1 )
= P (Xtn Xtn1 = xn xn1 |Xt1 = x1 , . . . , Xtn1 = xn1 )
= P (Xtn Xtn1 = xn xn1 |Xtn1 = xn1 )
= P (Xtn = xn |Xtn1 = xn1 ),

(4.4)
(4.5)
(4.6)

donde el paso de (4.4) a (4.5) es consecuencia de la independencia de los incrementos.

4.2.3.

Funciones de momento

Las llamadas funciones de momento, obtenidas a partir de los momentos de las variables
involucradas en un proceso estocstico, juegan un papel muy importante a la hora de conocer
a
su comportamiento y en las aplicaciones del mismo. Las ms relevantes son las siguientes:
a
Funcin media.- Se dene como
o
X (t) = E[Xt ], t T.

(4.7)

Para su obtencin tendremos en cuenta el tipo de variables que conforman el proceso. En


o
el caso discreto,
X (t) =
xP (Xt = x),
xDXt

donde DXt es el soporte de Xt .


En el caso continuo,

(t) =

xft (x)dx.

Funcin de autocorrelacin.- Se dene a partir del momento conjunto de dos variables asoo
o
ciadas a dos tiempos cualesquiera, t1 y t2 ,
R(t1 , t2 ) = E[Xt1 Xt2 ].
Para el caso discreto (4.8) se obtiene mediante
R(t1 , t2 ) =

x1 x2 P (Xt1 = x1 , Xt2 = x2 ).
x1 DXt ,x2 DXt
1

En el caso continuo

R(t1 , t2 ) =

x1 x2 ft1 t2 (x1 , x2 )dx1 dx2 .

(4.8)

4.2 Deniciones bsicas y descripcin de un proceso estocstico


a
o
a

79

Funcin de autocovarianza.- Se dene a partir del momento central conjunto de dos variao
bles asociadas a dos tiempos cualesquiera, t1 y t2 ,
C(t1 , t2 ) = E[(Xt1 (t1 ))(Xt2 (t2 ))],

(4.9)

con sus correspondientes versiones discreta y continua. Se deduce fcilmente la siguiente


a
relacin entre R(t1 , t2 ) y R(t1 , t2 ),
o
C(t1 , t2 ) = R(t1 , t2 ) (t1 )(t2 ).
El caso particular t1 = t2 = t recibe el nombre de funcin varianza, 2 (t) = C(t, t). Por
o
ultimo, la funcin de correlacin se obtiene mediante

o
o
(t1 , t2 ) =

C(t1 , t2 )
2 (t1 ) 2 (t2 )

que como es bien sabido verica |(t1 , t2 )| 1. Algunos autores, particularmente en el


campo de las Series Temporales, reservan el nombre de funcin de autocorrelacin para
o
o
esta ultima funcin.

o
Hay que advertir que todas las deniciones anteriores tiene sentido si las correspondientes
integrales o series son nitas.
Ejemplo 4.1 Consideremos el siguiente proceso estocstico del tipo CTCV,
a
Xt = A sin(0 t + ), t R,
donde A y son variables aleatorias independientes, con U (, ). Obtengamos sus
momentos.
(t)

= E[A sin(0 t + )]
= E(A)E[sin(0 t + )]

1
= A
sin(0 t + )d
2
= A 0 = 0.

La autocorrelacin vale
o
R(t1 , t2 ) =
=
=
=
=

E[Xt1 Xt2 ]
E[A2 sin(0 t1 + ) sin(0 t2 + )]
E(A2 )E[sin(0 t1 + ) sin(0 t2 + )]
1
E(A2 ) {E[cos 0 (t1 t2 )] E[cos(0 (t1 + t2 ) + 2)]}
2
1
E(A2 ) cos 0 (t1 t2 ).
2

(4.10)
(4.11)

Para pasar de (4.10) a (4.11) hemos aplicado


sin sin =

cos( ) cos( + )
.
2

Obsrvese que (t) = 0 es constante y que R(t1 , t2 ) depende de t1 t2 , en realidad de |t1 t2 |


e
porque cos() = cos(). Como ms tarde veremos, un proceso de estas caracter
a
sticas se dice
que es estacionario en sentido amplio (wide-sense stationary, WSS).

80

Procesos Estocsticos
a

4.3.

Algunos procesos estocsticos de inters


a
e

4.3.1.

Procesos IID

Se trata de procesos constituidos por variables aleatorias independientes e idnticamente


e
distribuidas (IID). Como consecuencia de ello, las distribuciones nito-dimensionales se obtienen
fcilmente a partir de la distribucin comn. Si F (x) denota la funcin de distribucin comn
a
o
u
o
o
u
a todas las Xt del proceso,
Ft1 ,t2 ,...,tn (xt1 , xt2 , . . . , xtn ) = P (Xt1 xt1 , . . . , Xtn xtn ) = F (xt1 )F (xt2 ) . . . F (xtn ).
Las funciones de momento tiene tambin expresiones sencillas. As la funcin media vale
e
,
o
(t) = E(Xt ) = ,
donde es la esperanza comn a todas las Xt .
u
La funcin de autocovarianza vale 0 porque,
o
C(t1 , t2 ) = E[(Xt1 (t1 ))(Xt2 (t2 ))] = E[(Xt1 (t1 ))]E[(Xt2 (t2 ))] = 0,
y para t1 = t2 = t da lugar a la varianza comn, 2 (t) = 2 . Es decir,
u
0,
si t1 = t2 ;
2 , si t1 = t2 .

C(t1 , t2 ) =

De la misma forma, la funcin de autocorrelacin es


o
o
R(t1 , t2 ) =

2 ,
2 + 2 ,

si t1 = t2 ;
si t1 = t2 .

De entre los procesos estocsticos IID existen algunos de especial inters.


a
e
Proceso de Bernoulli.- Se trata de una sucesin (T = N ) de variables Bernoulli indepeno
dientes, Xn B(1, p). La sucesin de lanzamientos de una moneda (cara=1, cruz=0 ) da
o
lugar a un proceso de Bernoulli. La media y la varianza del proceso valen
2 (n) = p(1 p).

(n) = p,

La obtencin de cualquier probabilidad ligada al proceso es sencilla. Por ejemplo, la proo


babilidad que los cuatro primeros lanzamientos sean {C++C}={1001} es

P (X1 = 0, X2 = 1, X3 = 1, X4 = 0)

=
=

P (X1 = 0)P (X2 = 1)P (X3 = 1)P (X4 = 0)


p2 (1 p)2 .

Procesos suma IID


La suma de procesos estocsticos es una forma de obtener nuevos procesos de inters. A
a
e
partir de una sucesin (T = N ) de variables IID denimos el proceso suma de la forma
o
Sn = X1 + X2 + . . . + Xn ,
o tambin
e
Sn = Sn1 + Xn ,

n 1,

4.3 Algunos procesos estocsticos de inters


a
e

81

con S0 = 0.
Si el proceso original es un proceso IID, el proceso suma tiene incrementos independientes
para intervalos de tiempo no solapados. En efecto, para el caso en que las Xk son discretas, si
n0 < n n1 y n2 < n n3 , con n1 n2 ,
Sn1 Sn0
Sn3 Sn2

=
=

Xn0 +1 + + Xn1
Xn2 +1 + + Xn3 .

Cada sumando est constituido por variables que son independientes de las del otro, lo que
a
supone la independencia de los incrementos. Observemos adems que para n2 > n1 ,
a
Sn2 Sn1 = Xn1 +1 + + Xn2 = X1 + X2 + Xn2 n1 = Sn2 n1 .
Por ejemplo, si las variables son discretas lo ser la suma por la expresin anterior tendremos,
a
o
P (Sn2 Sn1 = y) = P (Sn2 n1 = y).
La probabilidad depende tan slo de la longitud del intervalo y no de su posicin, por lo que
o
o
decimos que el proceso suma tiene los incrementos estacionarios. Ms adelante nos ocuparemos
a
con detalle del concepto de estacionariedad y las propiedades que de l se derivan.
e
Las distribuciones nito-dimensionales del proceso suma se obtienen haciendo uso de las
propiedad de incrementos estacionarios independientes. Si n1 < n2 < < nk ,
P (Sn1 = x1 , Sn2 = x2 , . . . , Snk = xk ) =
= P (Sn1 = x1 , Sn2 Sn1 = x2 x1 , . . . , Snk Snk1 = xk xk1 )
= P (Sn1 = x1 )P (Sn2 Sn1 = x2 x1 ) . . . , P (Snk Snk1 = xk xk1 )
= P (Sn1 = x1 )P (Sn2 n1 = x2 x1 ) . . . , P (Snk nk1 = xk xk1 ).

(4.12)

Si las variable del proceso original son continuas, es fcil obtener una expresin equivalente a
a
o
(4.12) para la densidad conjunta,
fSn1 ,Sn2 ,...,Snk (x1 , x2 , . . . , xk ) = fSn1 (x1 )fSn2 n1 (x2 x1 ) fSnk nk1 (xk xk1 ).

(4.13)

Las funciones de momento del proceso suma se derivan fcilmente de los momentos comunes a
a
las variables del proceso original. La media y la varianza valen,
2 (n) = var(Sn ) = n 2 ,

(n) = E(Sn ) = n,

donde y 2 son la media y la varianza comunes a las Xk . La funcin de autocovarianza es


o
C(n1 , n2 )

= E[(Sn1 n1 )(Sn2 n2 )

n1
n2

= E
(Xi )
(Xj )

i=1

n1

j=1

n2

E[(Xi )(Xj )]
i=1 j=1
n1 n2

cov(Xi , Xj ).
i=1 j=1

Como Xi y Xj son i.i.d.,


cov(Xi , Xj ) =

2 ,
0,

si i = j;
si i = j.

82

Procesos Estocsticos
a

En denitiva,
m
n(n1 ,n2 )

2 = m 1 , n2 ) 2 .
n(n

C(n1 , n2 ) =

(4.14)

i=1

Veamos tres ejemplos interesantes de procesos suma.


Camino aleatorio.- Se trata de proceso estocstico que describe el desplazamiento aleatorio
a
de un mvil en Rn . En el caso unidimensional, del que nos ocuparemos por ms sencillo,
o
a
el mvil se desplaza a saltos unitarios e independientes por la recta real, hacindolo hacia
o
e
la derecha con probabilidad p y hacia la izquierda con probabilidad 1 p. Al cabo de n
desplazamientos, la posicin del mvil viene dada por Sn = D1 + D2 + + Dn , donde
o
o
Dk tiene por funcin de probabilidad,
o

1 p,
p,
fk (x) =

0,

si x = 1;
si x = 1;
en el resto.

Si en los n desplazamientos k de ellos lo han sido hacia la derecha y los restantes n k en


sentido contrario, la posicin nal ser Sn = k (n k) = 2k n por lo que su funcin
o
a
o
de probabilidad valdr,
a
n k
p (1 p)nk ,
k

fSn (2k n) = P (Sn = 2k n) =

k = 0, 1, . . . , n.

(4.15)

La media y la varianza del camino aleatorio unidimensional valen,


n

(n) = E(Sn ) =

E(Dk ) = n(2p 1),


k=1

n
2
n = var(Sn ) =

var(Dk ) = 4np(1 p).


k=1

la funcin de autocovarianza vale, aplicando (4.14),


o
C(n1 , n2 ) = m 1 , n2 )4p(1 p),
n(n
y la de autocorrelacin,
o
R(n1 , n2 ) = C(n1 , n2 ) + (n1 )(n2 ) = m 1 , n2 )4p(1 p) + n1 n2 (2p 1)2 .
n(n
Proceso Binomial.- Si el proceso original es un proceso Bernoulli, el proceso suma resultante
es el proceso de recuento o Binomial, que proporciona el nmero de xitos entre las n
u
e
primeras pruebas de Bernoulli. Se llama as porque, como bien sabemos, las variables

del nuevo proceso son Sn B(n, p). Para obtener las distribuciones nito-dimensionales
podemos utilizar (4.12),
P (Sn1 = m1 , Sn2 = m2 , . . . , Snk = kk ) =
= P (Sn1 = m1 )P (Sn2 n1 = m2 m1 ) . . . , P (Snk nk1 = mk mk1 )
=

n1
m1

n2 n1
nk nk1

pmk (1 p)nk mk .
m2 m1
mk mk1

4.3 Algunos procesos estocsticos de inters


a
e

83

La media del proceso Binomial vale


(n) = E(Sn ) = np,
que no es constante y crece linealmente con n. Su varianza es
2 (n) = var(Sn ) = np(1 p),
y las funciones de autocovarianza y autocorrelacin,
o
R(n1 , n2 ) = m 1 , n2 )p(1 p) + n1 n2 p2 .
n(n

C(n1 , n2 ) = m 1 , n2 )p(1 p),


n(n

Proceso suma Gaussiano.- Se obtiene a partir de la suma de variables Xk N (0, 2 ), lo que


implica que Sn N (0, n 2 ). Utilizando (4.13) obtenemos la densidad de las distribuciones
nito-dimensionales
fSn1 ,Sn2 ,...,Snk (x1 , x2 , . . . , xk ) =
2

x1
1

e 2n1 2
2n1

)2

(x x

2(n knk1 )2

2(nk nk1 )

k1

Las funciones de momento valen,


2 (n) = n 2 ,

(n) = 0,

4.3.2.

C(n1 , n2 ) = R(n1 , n2 ) = m 1 , n2 ) 2 .
n(n

Ruido blanco

Un ruido blanco es un proceso estocstico con media cero, (t) = 0, varianza constante,
a
2 (t) = 2 y con componentes incorreladas. Como consecuencia de ello, la funcin de autocoo
varianza y autocorrelacin coinciden y valen,
o
2 , t1 = t2 ;
0,
t1 = t2 .

R(t1 , t2 ) = C(t1 , t2 ) =

La denicin es vlida tanto si se trata de una sucesin, t discreto, como si t es continuo.


o
a
o
Un proceso IID es, segn est denicin, un ruido blanco, porque la independencia de las
u
a
o
variables implica la incorrelacin. En ocasiones se da una denicin ms restrictiva de este tipo
o
o
a
de procesos, al exigir que las variables sean independientes. Como veremos a continuacin, slo
o
o
en el caso de que las variables sean normales o gaussianas ambas deniciones son equivalentes.

4.3.3.

Proceso Gaussiano

Se trata de un proceso en el que sus variables Xt N ((t), 2 (t)) y sus distribuciones


nito-dimensionales son normales multivariantes,
1

f (xt1 , xt2 , . . . , xtn ) =


donde

1
2

=
,
n

2
1
12
.
.
.

1(n1)
1n

|| 2 1 (x) 1 (x)
2
,
n e
(2) 2

(4.16)

12
2
2
.
.
.

.
.
.

1(n1)
2(n1)
.
.
.

1n
2n
.
.
.

2(n1)
2n

2
n1
(n1)n

(n1)n
2
n

84

Procesos Estocsticos
a

son el vector de medias y la matriz de covarianzas del vector (Xt1 , Xt2 , . . . , Xtn ). Esta denicin
o
es vlida tanto para tiempos discretos como continuos.
a
2
Si el proceso Gaussiano es tal que i = 0, i, ij = 0, i = j y i = 2 , i, estamos en presencia de un caso particular de ruido blanco, el ruido blanco Gaussiano, que dadas las particulares propiedades de la Normal multivariante, en la que incorrelacin equivale a independencia,
o
est constituido por variables independientes.
a
La importancia del proceso Gaussiano reside de una parte en sus propiedades, heredadas de
las propiedades de las Normal. Dos de ellas convienen ser destacadas,
a
1. las distribuciones nito-dimensionales del proceso estn completamente especicadas con
los momentos de primer y segundo orden, es decir, y ,
2. la transformacin lineal del proceso da lugar a un nuevo proceso Gaussiano (ver pgina
o
a
61).
Por otra parte, son muchos los fenmenos relacionados con seal y ruido que pueden ser modeo
n
lizados con xito utilizando un proceso Gaussiano.
e

4.3.4.

Proceso de Poisson

Consideremos una sucesin de ocurrencias de un determinado suceso a lo largo del tiempo.


o
Sea X1 el tiempo de espera necesario para que el suceso ocurra por primera vez, X2 el tiempo
transcurrido entre la primera y la segunda ocurrencia, y en general, Xi el tiempo entre las
ocurrencias consecutivas i 1 e i. El modelo formal que describe este fenmeno es una sucesin
o
o
de variables aleatorias denidas sobre un determinado espacio de probabilidad.
Otra caracter
stica de inters ligada al fenmeno es el nmero de sucesos que han ocurrido
e
o
u
en un determinado intervalo de tiempo ]t1 , t2 ]. Por ejemplo, para t1 = 0 y t2 = t, denimos la
variable Nt ={nmero de sucesos ocurridos hasta el tiempo t}. Es del proceso estocstico que
u
a
estas variables denen del que nos vamos a ocupar. Si la sucesin de tiempos de espera verica
o
las siguientes condiciones iniciales,
C1) no pueden ocurrir dos sucesos simultneamente,
a
C2) en cada intervalo nito de tiempo ocurren a lo sumo un nmero nito de suceso, y
u
C3) los tiempos de espera son independientes e idnticamente distribuidos segn una
e
u
Exp(),
el proceso recibe el nombre de proceso de Poisson y es un proceso del tipo CTDV. En efecto,
las variables Nt son variables discretas que toman valores en {0, 1, 2, . . .}.
Para estudiar el comportamiento probabil
stico de las variables Nt es conveniente recurrir a
una nueva sucesin de variables, Sn , denidas a partir de los tiempos de espera entre sucesos,
o
n

Sn =

Xi ,

n 0,

i=1

con S0 = 0. La variable Sn representa el tiempo transcurrido hasta la llegada del n-simo


e
suceso. Como consecuencia de C1 y C2, la sucesin es estrictamente creciente,
o
0 = S0 < S 1 < S 2 < ,

sup Sn = .
n

La Figura 4.3 muestra grcamente la relacin entre las Sn y las Xn a travs de una realizacin
a
o
e
o
de un proceso de Poisson.

4.3 Algunos procesos estocsticos de inters


a
e

85

X
S

S
S
S

2
3
4

X
3

S
S

X
1

Figura 4.3: Tiempos entre sucesos, Xi , y tiempos acumulados, Sk , en un proceso de Poisson


La distribucin de Sn , al ser suma de exponenciales IID con parmetro comn , viene dada
o
a
u
por (2.5.3) y es una G(n, 1/), conocida como distribucin de Erlang cuya densidad es,
o
gn (t) =

(t)n1 t
e ,
(n 1)!

t 0,

y cuya funcin de distribucin es,


o
o
et

Gn (t) =
kn

(t)k
= 1 et
k!

n1
k0

(t)k
,
k!

(4.17)

como fcilmente se comprueba derivando.


a
El nmero Nt de sucesos que han ocurrido en el intervalo ]0, t] es el mayor n tal que Sn t,
u
Nt = mx{n; Sn t}.
a
Teniendo en cuenta esta relacin es fcil deducir que
o
a
{Nt n} = {Sn t},

(4.18)

y combinando (4.18) y (4.17),


et

P (Nt n) = Gn (t) =
kn

Es ahora fcil obtener


a
P (Nt = n) = et

(t)n
.
n!

(t)k
.
k!

(4.19)

Es decir, Nt P o(t), lo que justica el nombre dado al proceso. Este resultado nos permite
adems darle signicado al parmetro porque, si recordamos que E(Nt ) = t, se deduce
a
a
de aqu que es el nmero de suceso que ocurren por unidad de tiempo, una caracter

u
stica
espec
ca del fenmeno aleatorio que da lugar al proceso. Estudiemos algunas propiedades del
o
proceso de Poisson.

86

Procesos Estocsticos
a

Incrementos independientes y estacionarios


La sucesin de tiempos acumulados es un proceso suma obtenido a partir de variables
o
exponenciales IID y como tal, tiene incrementos independientes y estacionarios. Dada la relacin
o
(4.18) que liga las Nt y las Sn , es lgico pensar que tambin el proceso de Poisson goce de
o
e
la misma propiedad. La implicacin no es inmediata si tenemos en cuenta que al considerar
o
los tiempos de espera sobre un intervalo cualquiera ]t, t + s], el primero de ellos puede estar
contenido slo parcialmente en l, tal como se muestra en la Figura 4.4. En ella observamos que
o
e
Nt+s Nt = m y que parte del tiempo transcurrido entre el suceso Nt y el Nt+1 , XNt +1 , est en
a
(t, t + s], en concreto la que hemos denotado mediante YNt +1 . La comprobacin de la propiedad
o
no es sencilla, razn por la cual no la presentamos en estas notas. El lector interesado puede
o
consultarla en las pginas 310-311 del texto de Billingsley (1995) donde se demuestra tambin
a
e
que YNt +1 Exp()

)1

..

t+s

m tN

m( t N

tN

m N

tN

tN

sucesos

Figura 4.4: Relacin entre los tiempos de espera y un intervalo arbitario (t, t + s] en un proceso
o
de Poisson
Ms sencillo resulta comprobar la estacionariedad de los incrementos. En efecto, dada la
a
independencia entre las Xi , como YNt +1 depende exclusivamente de XNt +1 y de SNt ,
XNt +1 YNt +1 = t SNt ,
YNt +1 ser tambin independiente de todos los tiempos de espera posteriores, XNt +k , k 2. La
a
e
consecuencia inmediata es que la variable Nt+s Nt est relacionada con la suma de variables
a
exponenciales IID,
m

YNt +1 +

XNt +k ,
k=2

de forma semejante a como Nt lo est con las Xi . A efectos prcticos y gracias a la propiedad
a
a
de falta de memoria es como si desplazramos el origen de tiempos a t. As pues
a

P (Nt+s Nt = m) = P (Ns = m) = es

(s)m
,
m!

(4.20)

y podemos escribir, en general, que si t2 > t1 , Nt2 Nt1 P o((t2 t1 )), que depende slo del
o
incremento de tiempos y no de su posicin. Son pues estacionarios.
o

4.3 Algunos procesos estocsticos de inters


a
e

87

Distribuciones nito-dimensionales y funciones de momento


La independencia y estacionariedad de los incrementos permite obtener fcilmente las disa
tribuciones nito-dimensionales. Para el caso de dos tiempos cualesquiera, t2 > t1 ,
P (Nt1 = n1 , Nt2 = n2 )

= P (Nt1 = n1 , Nt2 Nt1 = n2 n1 )


= P (Nt1 = n1 )P (Nt2 Nt1 = n2 n1 )
(t1 )n1 (t2 t1 ) ((t2 t1 ))n2 n1
= et1
e
n1 !
(n2 n1 )!
n2 n1
n2 n1
t1 (t2 t1 )
= et2
.
n1 !(n2 n1 )!

Por induccin obtendr


o
amos la expresin para cualquier nmero nito de tiempos.
o
u
Por lo que respecta a las funciones de momento,
Media del proceso.- Como ya vimos anteriormente
(t) = t.

(4.21)

Funcin de autocorrelacin.- Para dos tiempos cualesquiera t2 > t1 , haciendo uso de


o
o
la estacionareidad e independencia de los incrementos,
E[Nt1 Nt2 ] =
=
=
=

E[(Nt1 + (Nt2 Nt1 ))Nt1 ]


E[Nt2 ] + E[Nt2 Nt1 ]E[Nt1 ]
1
t1 + 2 t2 + (t2 t1 )t1
1
t1 + 2 t1 t2 .

Si t1 > t2 intercambiar
amos t1 y t2 en la expresin anterior. En consecuencia, la funcin
o
o
de autocorrelacin vale
o
R(t1 , t2 ) = E[Nt1 Nt2 ] = m 1 , t2 ) + 2 t1 t2 .
n(t

(4.22)

Funcin de autocovarianza.- De la relacin entre R(t1 , t2 ) y C(t1 , t2 ) se deduce


o
o
C(t1 , t2 ) = R(t1 , t2 ) (t1 )(t2 ) = m 1 , t2 ).
n(t

(4.23)

Para t1 = t2 = t obtendremos la varianza del proceso que, como en el caso de la variable


Poisson, coincide con la media
2 (t) = t.
(4.24)
Proceso de Poisson y llegadas al azar
El proceso de Poisson surge de la necesidad de modelizar fenmenos aleatorios consistentes
o
en las ocurrencias sucesivas a lo largo del tiempo de un determinado suceso. Las part
culas
radiactivas que llegan a un contador Geiger son un buen ejemplo. En este tipo de fenmenos es
o
costumbre hablar de llegadas al azar del suceso. Para entender el signicado de la expresin
o
y al mismo tiempo justicarla, supongamos que observamos el proceso en un intervalo ]0, t] a
travs de su variable asociada, Nt , y que el nmero de llegadas ha sido n, Nt = n. Consideremos
e
u
un subintervalo cualquiera de ]0, t], sin prdida de generalidad podemos hacer coincidir los
e

88

Procesos Estocsticos
a

or
genes de ambos intervalos, ]0, t1 ] [0, t], y vamos obtener la probabilidad de que k de los n
sucesos hayan ocurrido en ]0, t1 ]. Haciendo uso de las propiedades del proceso,
P (Nt1 = k|Nt = n) =
=
=
=
=

P (Nt1 = k, Nt = n)
P (Nt = n)
P (Nt1 = k, Ntt1 = n k)
P (Nt = n)
[et1 (t1 )k /k!][e(tt1 ) ((t t1 ))nk /(n k)!]
et (t)n /n!
t n k
e t1 (t t1 )nk
n!

k!(n k)!
et n tn
n
k

t1
t

t t1
t

nk

Es decir, Nt1 |Nt = n B(n, p) con p = t1 /t, lo que signica que la probabilidad de que
cualquiera de los n sucesos ocurra en ]0, t1 ] es proporcional a la longitud del subintervalo o,
equivalentemente, los n sucesos se distribuyen uniformemente, al azar, en el intervalo ]0, t].
Este resultado tiene una aplicacin inmediata en la simulacin de un proceso de Poisson de
o
o
parmetro . En efecto, un sencillo algoritmo para simular las llegadas en un intervalo ]0, t] es
a
1. Generar un valor de una variable P o(t), lo que nos dar el nmero de llegadas.
a
u
2. Si el valor anteriormente simulado es n0 , generar n0 valores de una U (0, t), que determinarn los tiempos de llegada de los n0 sucesos.
a
Las funciones para genera valores de variables Poisson y Uniformes estn disponibles en cuala
quier ordenador.
Derivacin alternativa del proceso de Poisson
o
Existe una forma alternativa de obtener el proceso de Poisson basada en resultados elementales de Teor de la Probabilidad y estableciendo condiciones iniciales para el fenmeno. Con
a
o
la notacin habitual, estas condiciones son:
o
CA1) si t1 < t2 < t3 , los sucesos {Nt2 t1 = n} y {Nt3 t2 = m} son independientes, para
cualesquiera valores no negativos de n y m,
CA2) los sucesos {Nt2 t1 = n}, n = 0, 1, . . ., constituyen una particin del espacio
o
muestral y P (Nt2 t1 = n) depende slo de la diferencia t2 t1 ,
o
CA3) si t es sucientemente pequeo, entonces P (Nt 2) es despreciablemente pequea
n
n
comparada con P (Nt = 1), es decir
l
m
t0

1 P (Nt = 0) P (Nt = 1)
P (Nt 2)
= l
m
= 0,
t0
P (Nt = 1)
P (Nt = 1)

lo que equivale a
l
m
t0

1 P (Nt = 0)
= 1.
P (Nt = 1)

El desarrollo de esta alternativa, del que no nos ocuparemos en estas notas, es intuitivo, interesante y sencillo. Aconsejamos al lector de estas notas consultarlo en Stark y Woods (2002),
Gnedenko (1979) o en el material complementario Montes (2007).

4.3 Algunos procesos estocsticos de inters


a
e

89

Generalizacin del proceso de Poisson


o
El proceso de Poisson admite generalizaciones en varios sentidos. La ms inmediata es
a
aquella que suprime la estacionariedad admitiendo que su intensidad , nmero de ocurrencias
u
por unidad de tiempo, dependa del tiempo, (t) > 0, t 0. Tenemos entonces un proceso de
Poisson no uniforme o no homogneo, en el que su media vale
e
t

(t) =

(x)dx,

t 0.

4.3.5.

Se al telegrca aleatoria (RTS)


n
a

El proceso conocido como RTS, Random Telegraph Signal en ingls, es un proceso relacioe
nado con el proceso de Poisson. Se trata de un proceso CTDV en el que la variables Xt toman
slo dos valores simtricos, {a, a}, de acuerdo con el siguiente esquema.
o
e
1. X0 = a con igual probabilidad p = 1/2,
2. Xt cambia de signo con cada ocurrencia de un suceso en un proceso de Poisson de parmea
tro .
Un proceso de estas caracter
sticas surge cuando toda la informacin de inters en una seal
o
e
n
aleatoria est contenida en los puntos donde se produce un cambio de signo, los puntos donde se
a
cruza el eje de las X s. Como las variaciones de amplitud carecen e inters, el esquema anterior
e
proporciona un modelo sencillo para el estudio de este tipo de fenmenos.
o
La funcin de probabilidad de Xt depende del valor Nt , ms concretamente de su paridad.
o
a
En efecto,
P (Xt = a) = P (Xt = a|X0 = a)P (X0 = a) + P (Xt = a|X0 = a)P (X0 = a). (4.25)
De la denicin del proceso se deduce que Xt y X0 tomarn el mismo valor si Nt = par, en
o
a
caso contrario tomarn valores opuestos. As
a
,
P (Xt = a|X0 = a) =
=

P (Nt = par)
(t)2n
et
.
(2n)!

(4.26)

n0

Para sumar la serie observemos que


et + et =
k0

(t)k + (t)k
=2
k!

n0

(t)2n
.
(2n)!

Sustituyendo en (4.26)
P (Xt = a|X0 = a) = et

et + et
1
= (1 + e2t ).
2
2

(4.27)

a) = et

et et
1
= (1 e2t ).
2
2

(4.28)

Anlogamente,
a
P (Xt = a|X0 =

90

Procesos Estocsticos
a

Sustituyendo en (4.25)
P (Xt = +a)
P (Xt = a)

1
2
1
2

=
=

1
(1 + e2t ) +
2
1
(1 e2t ) +
2

1
1
(1 e2t ) = ,
2
2
1
1
(1 + e2t ) = ,
2
2

0.0

0.2

0.4

0.6

0.8

1.0

lo que no dice que el proceso RTS toma cualquiera de los dos valores con igual probabilidad en
cualquier instante de tiempo.

10

realizacin de un proceso RTS

funcin de autocorrelacin

Figura 4.5: Realizacin de un proceso RTS con a = 1 y = 1,5 y su correspondiente funcin


o
o
de autocorrelacin
o

Distribuciones nito-dimensionales y funciones de momento


Para dos tiempos cualesquiera t y s, si t > s,
fst (x, y) = P (Xs = x, Xt = y) = P (Xs = x|Xt = y)P (Xt = x),
si s > t
fst (x, y) = P (Xs = x, Xt = y) = P (Xt = y|Xs = x)P (Xs = y).
En cualquiera de los dos casos lo que determina el valor es la paridad de N|ts| ,

fst (x, y) =

1
2 P (N|ts|

= par) =

1
2 P (N|ts|

= impar) =

1
2

1
2

1 + e2|ts| ,

si x = y;

1
2

1
2

si x = y.

(4.29)
1 e2|ts| ,

La media del proceso RTS es nula dada la simetr de las variables Xt , (t) = 0. La varianza
a
vale
1
1
2
2 (t) = E(Xt ) = a2 + (a)2 = a2 .
2
2

4.3 Algunos procesos estocsticos de inters


a
e

91

Las funciones de autocorrelacin y autocovarianza coinciden por ser la media nula,


o
C(t1 , t2 ) =
=

E(Xt1 Xt2 )
a2 P (Xt1 = Xt2 ) a2 P (Xt1 = Xt2 ),

probabilidades que se obtienen a partir de (4.29),


C(t1 , t2 ) =
=
=

a2 P (Xt1 = Xt2 ) a2 P (Xt1 = Xt2 )


a2
a2
1 + e2|t1 t2 |
1 e2|t1 t2 |
2
2
a2 e2|t1 t2 | .

(4.30)

La funcin se amortigua a medida que aumenta la diferencia entre ambos tiempos, disminuyendo
o
as la correlacin entre ambas variables. En la Figura 4.5 se muestran las grcas de una

o
a
realizacin de un proceso RTS y de su funcin de autocorrelacin, en la que se aprecia el efecto
o
o
o
de amortiguacin mencionado.
o

4.3.6.

Modulacin por desplazamiento de fase (PSK)


o

La transmisin de datos binarios a travs de ciertos medios, la linea telefnica ser un


o
e
o
a
ejemplo, exige una modulacin de dichos datos. La modulacin por desplazamiento de fase
o
o
(PSK del ingls Phase-Shift Keying) es un mtodo bsico que consiste transformar los datos, una
e
e
a
sucesin de variables aleatorias independientes todas ellas Bernoulli uniformes, Bn B(1, 1/2),
o
en una sucesin de ngulo-fase n que se utiliza para modular el cos(2f0 t) de la portadora de
o
a
la seal. Para ello denimos,
n
n =

+/2,
/2,

si Bn = 1;
si Bn = 0,

(4.31)

y el ngulo del proceso mediante


a
t = k , para kT t < (k + 1)T,

(4.32)

donde T es una constante que denota el tiempo de transmisin de un bit, que suele elegirse
o
como mltiplo de 1/f0 para tener as un nmero entero de ciclos en el tiempo de transmisin
u

u
o
del bit. El inverso de T se denomina la tasa de baudios.
El proceso de la seal modulada es el proceso PSK, cuya expresin es
n
o
Xt = cos(2f0 t + t ).

(4.33)

Para la obtencin de las funciones de momento del proceso es conveniente hacer uso de las
o
funciones,
h(c) (t) =

cos(2f0 t),
0,

0 t < T;
en el resto,

(4.34)

h(s) (t) =

sin(2f0 t),
0,

0 t < T;
en el resto.

(4.35)

92

Procesos Estocsticos
a

Aplicando la frmula del coseno del ngulo suma y teniendo en cuenta la relacin (4.32), podeo
a
o
mos escribir
cos(2f0 t + t ) =

cos(t ) cos(2f0 t) sin(t ) sin(2f0 t)


k=+

k=+

sin(k )h(s) (t kT )

cos(k )h(c) (t kT )

k=

k=
k=+

sin(k )h(s) (t kT ),

(4.36)

k=

1.0

0.5

0.0

0.5

1.0

donde el primer sumatorio se anula porque todos sus trminos son 0, puesto que si recordamos
e
(4.31), k = /2, k y en consecuencia cos(k ) = 0, k. La expresin (4.36) permite obtener
o
fcilmente (t) = 0 dado que sin(k ) = 1 con igual probabilidad.
a

0.0

0.2

0.4

0.6

0.8

1.0

realizacin de un proceso PSK

Figura 4.6: Realizacin de un proceso PSK y su correspondiente funcin de autocorrelacin


o
o
o
Las funciones autocovarianza y autocorrelacin coinciden, para calcularlas recurriremos nueo
vamente a (4.36) y a la versin numerable de la covarianza de una suma (expresin 2.11 en la
o
o
pgina 53).
a
E[sin(k ) sin(l )]h(s) (t1 kT )h(s) (t2 lT ),

R(t1 , t2 ) = E(Xt1 Xt2 ) =


k,l

pero teniendo en cuenta la independencia de la sucesin original y que k = /2, k,


o
E[sin(k ) sin(l )] =

0,
1,

si k = l;
si k = l,

con lo que
k=+

h(s) (t1 kT )h(s) (t2 kT ).

R(t1 , t2 ) =
k=

4.3 Algunos procesos estocsticos de inters


a
e

93

Por denicin, el soporte de h(s) (t) es el intervalo [0, T ], por lo que el anterior sumatorio
o
ser siempre nulo a menos que k0 tal que t1 y t2 estn ambos en [(k0 1)T, k0 T [. Si denotamos
a
e
por t = t mod T , la expresin nal de R(t1 , t2 ) ser
o
a
R(t1 , t2 ) =

h(s) (t )h(s) (t ),
1
2
0,

si t1 /T = t2 /T ;
en el resto,

(4.37)

donde representa la parte entera por defecto del argumento. La Figura 4.6 muestra una
realizacin de un proceso PSK y su funcin de autocorrelacin.
o
o
o

4.3.7.

Proceso de Wiener. Movimiento Browniano

L
mite de un camino aleatorio
El camino aleatorio que describimos en la pgina 82 era la suma de desplazamientos indea
pendientes a derecha e izquierda, de forma que slo saltos unitarios estaban permitidos en uno u
o
otro sentido en cada intervalo unitario de tiempo. Imaginemos ahora desplazamientos pequeos
n
de longitud que se producen en intervalos de tiempo pequeos de longitud , cuando desplan
zamiento y tiempo tiendan a cero obtendremos un proceso cuyas realizaciones sern funciones
a
continuas en el tiempo. Debemos precisar en que condiciones tienden a cero ambas cantidades.
Consideremos una part
cula situada en el origen. En cada intervalo de tiempo se desplaza
una cantidad aleatoria Z de manera que
P (Z = +) = p,

P (Z = ) = 1 p = q,

siendo los distintos desplazamientos independientes. Se trata de una variable dicotmica con
o
media y varianza
2
Z = (p q),
Z = 4pq2 ,
y cuya funcin caracter
o
stica vale
Z (u; ) = E(eiuZ ) = peiu + qeiu .
En un tiempo t se habrn producido n = t/ desplazamientos, siendo Xt la posicin nal
a
o
n
de la part
cula. Dicha posicin es por tanto la suma Xt = i=1 Zi , con las Zi i.i.d como la Z
o
anterior. As la funcin caracter
,
o
stica de Xt valdr
a
Xt (u; , ) = E(eiuXt ) = (peiu + qeiu )n = (peiu + qeiu )

t/

(4.38)

2
La media y la varianza de Xt se obtienen fcilmente a partir de Z y Z ,
a

Xt = t/ (p q),

2
Z = t/ 4pq2 .

Nuestro objetivo es 0 y 0 de manera tal que obtengamos un resultado razonable.


Por ejemplo, por razonable podr
amos entender que media y varianza de Xt , para t = 1, fueran
nitas e iguales a y 2 , respectivamente. Ello supondr que y deben tender a cero de
a
forma tal que
4pq2
(p q)
y
2 .

Para ello debe cumplirse,

1

1

1+
, q=
1
.
(4.39)
= , p =
2

94

Procesos Estocsticos
a

Estas relaciones suponen que tanto p como q deben ser valores muy prximos a 1/2 si queremos
o
evitar degeneraciones en el proceso l
mite y que es de un orden de magnitud mucho mayor
que puesto que como innitsimo = O( 1/2 ).
e
La distribucin de probabilidad l
o
mite de las Xt podemos conocerla a travs del comportae
miento l
mite de su funcin caracter
o
stica, para ello sustituiremos (4.39) en (4.38)
1
Xt (u; ) =
2


1+

iu

1
+
2

eiu

t/

(4.40)

y desarrollaremos en potencias de la expresin entre corchetes. Hecho esto y haciendo 0,


o
tendremos
1
Xt (u) = exp(tu 2 tu),
2
que es la funcin caracter
o
stica de una N (t, 2 t).
Observemos adems que el proceso formado por la variables Xt hereda las propiedades
a
del camino aleatorio que lo genera, al n y al cabo lo unico que hemos hecho es aplicar el

teorema Central de L
mite a la suma de variable dicotmicas que denen Xt . De entre ellas
o
conviene destacar la propiedad de incrementos independientes y estacionarios. As si t1 < t2 ,
,
Xt2 Xt1 N ((t2 t1 ), 2 (t2 t1 )).
Para obtener ahora las distribuciones nito-dimensional del proceso l
mite podemos recurrir
a la expresin (4.13), que proporciona la densidad conjunta a partir de las densidades de los
o
incrementos. Si t1 < t2 < . . . < tn ,
ft1 ,t2 ,...,tn (xt1 , xt2 , . . . , xtn )

= ft1 (xt1 )ft2 t1 (xt2 xt1 ) ftn tn1 (xtn xtn1 )


=

1
1
e 2
2t
2 1

1
2

(xt t1 )2
1
2 t1

1
2 2 (tn tn1 )
(xt t1 )2
1
2 t1

++

1
2

[(xtn xt
)(tn tn1 )]2
n1
2 (t2 tn1 )

[(xtn xt
)(tn tn1 )]2
n1
2 (t2 tn1 )

(2 2 )n t1 (tn tn1 )

que es la densidad conjunta de una Normal multivariate. El proceso l


mite es un proceso Gaussiano con incrementos independientes.
Proceso de Wiener
El proceso de Wiener es un proceso l
mite como el descrito en el prrafo anterior con
a
p = q = 1/2.
Denicin 4.4 (Proceso de Wiener) Un proceso de Wiener es un proceso estocstico Wt ,
o
a
que verica,
1. Su valor inicial es 0, P (W0 = 0) = 1.
2. Sus incrementos son independientes.
3. Para 0 t1 < t2 , el incremento Wt2 Wt1 N (0, 2 (t2 t1 )).

4.3 Algunos procesos estocsticos de inters


a
e

95

Los fundamentos matemticos del proceso fueron establecidos por Norbert Wiener, matemtico
a
a
americano especialista en inferencia estad
stica y teor de la comunicacin. El proceso es coa
o
nocido tambin como movimiento browniano, expresin utilizada para describir el movimiento
e
o
aleatorio de las molculas de un gas al entrechocar entre s que recibe este nombre en honor
e
,
de Robert Brown, un botnico del siglo diecinueve que lo describi por primera vez.
a
o
La media y la varianza del proceso de Wiener son ya conocidas,
(t) = 0,

2 (t) = 2 t.

Autocovarianza y autocorrelacin coinciden. Para su obtencin, como los incrementos son ino
o
dependientes procederemos como hicimos en (4.22) y (4.23), obteniendo,
C(t1 , t2 ) = R(t1 , t2 ) = 2 m 1 , t2 ).
n(t

(4.41)

Observemos que las funciones de autocovarianza del proceso de Wiener, (4.41), y el proceso de
Poisson, (4.23), son iguales a pesar de tratarse de dos procesos de naturaleza muy distinta. Las
trayectorias del segundo son funciones escalonadas mientras que las del primero son continuas.
Esta igualdad pone en evidencia que las funciones de momento son slo descripciones parciales
o
del proceso.

4.3.8.

Cadenas de Markov

Un proceso estocstico Xt es un proceso de Markov si verica la propiedad de Markov,


a
(4.3), enunciada en la pgina 77. Recordemos que dicha propiedad supone que la evolucin del
a
o
proceso depende tan slo de su pasado inmediato. En trminos de probabilidad, si las variables
o
e
del proceso son discretas, la propiedad se expresa mediante,
P (Xtn+1 = xtn+1 |Xtn = xtn , . . . , Xt1 = xt1 ) = P (Xtn+1 = xtn+1 |Xtn = xtn ).

(4.42)

Si las variables del proceso son continuas su expresin es


o
P (Xtn+1 xtn+1 |Xtn xtn , . . . , Xt1 xt1 ) = P (Xtn+1 xtn+1 |Xtn xtn ),

(4.43)

o sus equivalentes en trminos de las funciones de probabilidad o de distribucin, respectivae


o
mente.
Algunos de los procesos estudiados hasta ahora son procesos de Markov. En efecto, los
procesos suma IID y el proceso de Poisson ten incrementos independientes y como vimos en
an
(4.6), ello implica que poseen la propiedad de Markov.
Para el proceso RTS, recordemos que el valor de Xtn+1 = a y que su valor depende exclusivamente del signo que tenga Xtn y de la paridad de Ntn+1 tn , nmero de cambios (sucesos)
u
del proceso de Poisson subyacente, y es por tanto un proceso de Markov.
Hay, obviamente, procesos que no cumplen la condicin. Veamos un ejemplo.
o
Ejemplo 4.2 (Un proceso que no es de Markov) Consideremos el siguiente proceso,
Yn =

1
(Xn + Xn1 ),
2

donde las Xk son independientes, ambas Bernoulli con p = 1/2. Un proceso de estas caracter
sticas recibe el nombre de proceso de medias mviles de orden 2, puesto que se dene a
o
partir de la media aritmtica de las dos ultimas realizacin de otro proceso.
e

o
La funcin de probabilidad de Yn se calcula fcilmente. Por ejemplo,
o
a
P (Yn = 0) = P (Xn = 0, Xn1 = 0) =

1
.
4

96

Procesos Estocsticos
a

Para el resto,

1
1
,
P (Yn = 1) = .
2
4
Obtengamos ahora la probabilidad condicionada para dos valores consecutivos de Yn ,
P (Yn = 1/2) =

P (Yn = 1|Yn1 = 1/2) =

P (Yn = 1, Yn1 = 1/2)


P (Yn1 = 1/2)

P (Xn = 1, Xn1 = 1, Xn2 = 0)


P (Yn1 = 1/2)

1
1/8
= .
1/2
4

Si tenemos informacin de un instante anterior, por ejemplo, Yn2 = 1, podemos calcular,


o
P (Yn = 1|Yn1 = 1/2, Yn2 = 1) =

P (Yn = 1, Yn1 = 1/2, Yn2 = 1)


,
P (Yn1 = 1/2, Yn2 = 1)

pero el suceso {Yn = 1, Yn1 = 1/2} = {Xn = 1, Xn1 = 1, Xn2 = 0} y el suceso {Yn2 =
1} = {Xn2 = 1, Xn2 = 1}, con lo que ambos sucesos son incompatibles, por tanto,
P (Yn = 1|Yn1 = 1/2, Yn2 = 1) = 0 = P (Yn = 1|Yn1 = 1/2)
y el proceso no puede ser Markov.
Cadenas de Markov discretas
Si el proceso de markov es DTDV, recibe el nombre de cadena de Markov discreta. Este tipo
de procesos son de un gran inters prctico y vamos a ocuparnos de ellos con cierto detalle.
e
a
Es costumbre designar mediante X0 el inicio de la cadena. El soporte de las Xn , S =
{s0 , s1 , s2 , . . .}, se denomina espacio de estados de la cadena, que puede eventualmente ser
nito. Por razones de simplicidad nos referiremos a los valores de si solamente mediante su
sub
ndice i.
Probabilidades iniciales y de transicin.- Las probabilidades iniciales son
o
i = P (X0 = i),

i 0, i,

i = 1.
i

Las probabilidades de transicin de un paso, pij , designan


o
pij = P (Xn+1 = j|Xn = i)
y supondremos que no var con n. Diremos que son probabilidades de transicin hoan
o
mogneas.
e
Las distribuciones nito-dimensionales se obtienen fcilmente a partir de las pij si hacemos
a
uso de la propiedad de Markov y del teorema de factorizacin (1.2). En efecto,
o
P (Xn = in , Xn1 = in1 , . . . , X0 = i0 ) =
= P (Xn = in |Xn1 = in1 , . . . , X0 = i0 ) P (X1 = i1 |X0 = i0 )P (X0 = i0 )
= P (Xn = in |Xn1 = in1 ) P (X1 = i1 |X0 = i0 )P (X0 = i0 )
= pin1 ,in pin2 ,in1 pi0 ,i1 i0 .

4.3 Algunos procesos estocsticos de inters


a
e

97

La cadena de Markov discreta, Xn , queda completamente especicada con las probabilidades iniciales y la llamada matriz de transicin de un paso, que recoge las probabilidades
o
del mismo nombre,

P=

p00
p10
p20

pi0

p01
p11
p21

pi1

p02
p12

(4.44)

De acuerdo con el signicado de pij las las de la matriz suman la unidad,


pij = 1, i.
j

Probabilidades de transicin de n pasos.- Las probabilidades de transicin de n pasos,


o
o
pij (n) = P (Xn+k = j|Xk = i), n 0
proporcionan las probabilidades de pasar del estado i al estado j en n pasos o transiciones.
Como en la anterior expresin las probabilidades de transicin no dependen de k,
o
o
pij (n) = P (Xn+k = j|Xk = i) = P (Xn = j|X0 = i), n 0, k 0.
Vamos a obtenerlas recursivamente. Para obtener pij (2), consideremos la particin del eso
pacio muestral constituida por los sucesos {X1 = k}, k S, tendremos que = k {X1 =
k}. Podemos escribir,
P (X2 = j|X0 = i) =

P {X2 = j}

[k {X1 = k}] |X0 = i

P (X2 = j, X1 = k|X0 = i)

=
k

=
k

=
k

P (X2 = j, X1 = k, X0 = i)
P (X0 = i)
P (X2 = j|X1 = k, X0 = i)P (X1 = k|X0 = i)P (X0 = i)
P (X0 = i)
P (X2 = j|X1 = k)P (X1 = k|X0 = i)

pik pkj ,

(4.45)

pero la expresin(4.45) no es ms que el producto de la la i por la columna j de la matriz


o
a
P, que siendo vlida para i, j, permite escribir
a
P(2) = PP = P2 .
Aplicando recursivamente el razonamiento anterior llegaremos a
P(n) = P(n 1)P = Pn .

(4.46)

98

Procesos Estocsticos
a

Esta ecuacin puede tambin escribirse


o
e
P(n + m) = Pn Pm ,
que trmino a trmino se expresa de la forma
e
e
pij (n + m) =

pik (n)pkj (m),

n, m > 0, (i, j) S.

(4.47)

Expresiones conocidas como las ecuaciones de Chapman-Kolmogorov.


Probabilidades de los estados despus de n pasos.- Las probabilidades i constituyen
e
la distribucin inicial sobre el espacio de estados, S. La distribucin despus de n pao
o
e
sos ser
a
(n)

P (Xn = i)

P {Xn = i}

[j {Xn1 = j}]

P ({Xn = i} {Xn1 = j})


j

P (Xn = i|Xn1 = j)P (Xn1 = j)


j
(n1)

pji

resultado que podemos expresar en forma matricial,


(n) = (n1) P.

(4.48)

Aplicando recursivamente (4.48) podemos relacionar (n) con = (0) ,


(n) = Pn .

(4.49)

Ejemplo 4.3 (Paquetes de voz) Un modelo de Markov para la transmisin de paqueo


tes de voz supone que si el n-simo paquete contiene silencio, la probabilidad de que siga
e
un silencio es 1 y si lo que sigue es voz. En el caso contrario dichas probabilidades
son 1 , para el paso de voz a voz y par el paso de voz a silencio. Si representamos
los dos estados con voz = 1 y silencio = 0 el esquema de las transiciones posibles ser
a
el que muestra la Figura 4.7.

Figura 4.7: Probabilidades de transicin en el modelo de transmisin de paquetes de voz


o
o

4.3 Algunos procesos estocsticos de inters


a
e

99

Si Xn es la variable que indica la actividad en un paquete de voz en el tiempo n, se trata de


una cadena de Markov discreta con espacio de estados S = {0, 1} y matriz de transicin
o
1

P=

la matriz de transicin de orden n vale


o
Pn =

1
+

(1 )n
+

cuyo l
mite es
l Pn =
m

1
+

Por ejemplo, si = 1/10 y = 2/10, en el l


mite
l Pn =
m

2/3 1/3
2/3 1/3

El proceso goza adems de una interesante propiedad. Si la distribucin inicial es


a
o
0 = p 0 ,

1 = 1 p0 ,

aplicando (4.49) y pasando al l


mite podemos obtener la distribucin l
o mite del espacio de
estados,
l (n) = l Pn =
m
m

p0

2/3 1/3
2/3 1/3

1 p0

2/3 1/3

que no depende de la distribucin inicial.


o
Equilibrio de una cadena de Markov.- La propiedad que acabamos de ver en el ejemplo
signica que la cadena de Markov tiende a una situacin estacionaria a medida que n
o
aumenta.
Observemos que si, en general,
(e)

l pij (n) = j , i,
m
n

la consecuencia es que
(n)

l j
m
n

(e)

(e)

j i = j , j.
i

La distribucin sobre el espacio de estados tiende a una distribucin ja independiente de


o
o
la distribucin inicial . Se dice que la cadena ha alcanzando el equilibrio o una situacin
o
o
estable. La distribucin alcanzada, (e) recibe el nombre de distribucin de equilibrio o
o
o
estacionaria.
La distribucin de equilibrio puede obtenerse, si existe, sin necesidad de pasar al l
o
mite.
Para ello basta recurrir a (4.48) y tener en cuenta que (n) y (n1) tienen por l
mite
comn la distribucin estacionaria. Bastar con resolver el sistema de ecuaciones,
u
o
a
(e) = (e) P,
con la condicin adicional
o

(e)

= 1.

Si nuestro sistema se inicia con la distribucin de equilibrio, por (4.49) y (4.50)


o
(n) = (e) Pn = (e) .

(4.50)

100

Procesos Estocsticos
a

Ejemplo 4.4 (Continuacin del ejemplo 4.3) La distribucin de equilibrio podr


o
o
amos
(e) (e)
(e)
haberla obtenido utilizando (4.50). Si
= [0 1 ], el sistema a resolver es
(e)

= (1 )0 + 1

(e)

0
1

(e)

(e)

(e)

0 + (1 )1 ,
(e)

(e)

que da lugar a una unica ecuacin, 0 = 1

o
(e)

0 =

(e)

(e)

(e)

que junto con 0 + 1 = 1 conduce a

(e)

1 =

.
+

No todas las cadenas de Markov gozan de esta propiedad de equilibrio. El ejemplo siguiente
lo demuestra.
Ejemplo 4.5 (Proceso Binomial) El proceso Binomial que describ
amos en la pgina
a
82 es una cadena de Markov puesto que se trata de un proceso suma de Bernoullis independientes, B (1, p). Dada su denicin, en una transicin el proceso permanece en el
o
o
mismo estado o lo incrementa en una unidad, segn que hayamos obtenido un fracaso o
u
un xito en la prueba de Bernoulli correspondiente. La matriz de transicin ser,
e
o
a

1p
p
0
0
0
1p
p
0
.
P=
0
0
1 p p


Se comprueba que j, j (n) 0 cuando n .
Cadenas de Markov continuas en el tiempo
Si el proceso de markov es CTDV, recibe el nombre de cadena de Markov continua en
el tiempo. Como en el caso de las cadenas discretas, tambin ahora la matriz de transicin
e
o
especica completamente la cadena.
La distribucin nito-dimensional para n + 1 tiempos arbitrarios t1 < t2 < . . . < tn < tn+1 ,
o
viene dada por
P (Xtn+1 = xtn+1 , Xtn = xtn , . . . , Xt1 = xt1 ) =
= P (Xtn+1 = xtn+1 |Xtn = xtn ) P (Xt2 = xt2 |Xt1 = xt1 )P (Xt1 = xt1 ),

(4.51)

que exige conocer las probabilidades de transicin entre dos tiempos cualesquiera t y t + s,
o
P (Xt+s = j|Xt = i),

s 0.

Supondremos que dichas probabilidades son homogneas y dependen tan slo de la diferencia
e
o
de tiempos,
P (Xt+s = j|Xt = i) = P (Xs = j|X0 = i) = pij (s),

s > 0, t.

La matriz de transicin viene ahora referida a un intervalo de tiempo t, de forma que P(t) =
o
[pij (t)] denota la matriz de probabilidades de transicin en un intervalo de tiempo t.
o

4.3 Algunos procesos estocsticos de inters


a
e

101

Ejemplo 4.6 (Probabilidades de transicin para el proceso de Poisson) Para el proo


ceso de Poisson de parmetro ,
a
pij (t) = P (Nt = j i) = et

(t)ji
,
(j i)!

j i.

La matriz de transicin para un intervalo de duracin t ser


o
o
a

t
e
tet (t)2 et /2

0
et
tet
(t)2 et /2
.
P(t) =
t
0
0
e
tet

Cuando t 0, podemos sustituir et por los primeros trminos de su desarrollo en serie de


e
potencias, despreciando las potencias mayores o igual a 2, con lo que la matriz de transicin
o
adopta la forma,

1 t
t
0
0

0
1 t
t
0

.
P(t) =

0
0
1 t t


Tiempo de permanencia en un estado.- El proceso RTS modelizaba el cambio de signo de
una seal aleatoria y es una cadena de Markov continua en el tiempo que slo presenta dos
n
o
estado, S = {a, +a}. El cambio se signo estado se produce con cada llegada de un suceso
en el proceso de Poisson subyacente. Como los tiempos de llegada son exponenciales, se
deduce que el tiempo Ti que la cadena permanece en le estado i es Exp().
Esta propiedad, inmediata, en el caso del proceso RTS, es una propiedad general de este
tipo de cadenas de Markov. En efecto, si desde que el proceso alcanz el estado i ha
o
transcurrido un tiempo s, la probabilidad de que su estancia en l se prolongue por un
e
tiempo r vale
P (Ti > r + s|Ti > s) = P (Ti > r + s|Xt = i), 0 t s,
pero por la propiedad de Markov, lo unico relevante es donde estaba la cadena en el

tiempo s, lo que equivale a reestablecer el origen de tiempos en s y por tanto,


P (Ti > r + s|Ti > s) = P (Ti > r).
El tiempo de ocupacin carece pues de memoria, pero esta es una propiedad exclusiva de
o
la distribucin exponencial y la conclusin es que Ti Exp(i ) y
o
o
P (Ti > r) = ei r .
El tiempo medio de permanencia del proceso en el estado i ser E(Ti ) = 1/i .
a
Obsrvese que el parmetro depende del estado i, pudiendo ocurrir, como sucede en el
e
a
proceso RTS, que i = , i. Una vez el proceso ha entrado en i se incia el tiempo Ti
de su permanencia en l, pero independientemente de lo que esta dure, la transicin a
e
o
un nuevo estado j se lleva con probabilidad pij , que podemos asociar a una cadena de

Markov discreta que decimos est empotrada en la original.


a

102

4.4.

Procesos Estocsticos
a

Procesos estacionarios

En la pgina 81 introduc
a
amos el concepto de estacionariedad al comprobar que las distribucin ligada a los incrementos depend tan slo de la diferencia de tiempos y no de su
o
a
o
posicin.
o
El concepto de estacionariedad recoge una propiedad comn a muchos procesos consistente
u
en que su comportamiento probabil
stico no cambia con el tiempo. La denicin formal es la
o
siguiente.
Denicin 4.5 (Proceso estacionario) Un proceso estocstico Xt se dice que es estacionao
a
rio si sus distribuciones nito-dimensionales son invariantes por traslacin. Es decir,
o
Ft1 ,t2 ,...,tn (x1 , x2 , . . . , xn ) = Ft1 +,t2 +,...,tn + (x1 , x2 , . . . , xn ), (t1 , t2 , . . . , tn ), .

(4.52)

la primera consecuencia de esta denicin es que las distribuciones individuales de las variables
o
que componen el proceso no dependen de t, puesto que de (4.52) se deduce
Ft (x) = Ft+ (x) = F (x),

t, ,

y como consecuencia
(t) = E(Xt ) = , t
y
2 (t) = E[(Xt )2 ] = 2 .
Las distribucin conjunta de (Xt1 , Xt2 ) depender tan slo de la diferencia de tiempos,
o
a
o
t2 t1 . Basta para ello hacer = t1 en (4.52),
Ft1 ,t2 (x1 , x2 ) = F0,t2 t1 (x1 , x2 ), t1 , t2 .
La consecuencia es que los momentos de segundo orden y las funciones correspondientes dependen tambin, solamente, de dicha diferencia.
e
R(t1 , t2 ) = R(t2 t1 ),

C(t1 , t2 ) = C(t2 t1 ), t1 , t2 .

Algunos de los procesos antes denidos gozan de esta propiedad. As el proceso IID es
,
estacionario porque
Ft1 ,t2 ,...,tn (x1 , x2 , . . . , xn ) =
=

F (x1 ) F (xn )
= Ft1 +,t2 +,...,tn + (x1 , x2 , . . . , xn ),

, t1 , t2 , . . . , tn . Sin embargo, el proceso suma IID no es estacionario porque recordemos que


su media y varianza val (n) = n y 2 (n) = n 2 , que crecen con n y no son constantes.
an
Ejemplo 4.7 (Estacionariedad del proceso RTS) El proceso RTS se estudi en la Seccin
o
o
4.3.5. Recordemos que el proceso toma slo dos valores simtricos, {a, a}, de acuerdo con el
o
e
siguiente esquema.
1. X0 = a con igual probabilidad p = 1/2,
2. Xt cambia de signo con cada ocurrencia de un suceso en un proceso de Poisson de parmea
tro .

4.4 Procesos estacionarios

103

Obtengamos la distribucin nito-dimensional, para lo que haremos uso de la propiedad de


o
incrementos independientes que el proceso RTS hereda del proceso de Poisson subyacente.
P (Xt1 = x1 , . . . , Xtn = xn ) =
= P (Xt1 = x1 )P (Xt2 = x2 |Xt1 = x1 ) P (Xtn = xtn |Xtn1 = xtn1 ). (4.53)
Las probabilidades condicionadas que aparecen en la expresin dependen del nmero de cambios
o
u
que se han producido entre los dos tiempos implicados, ms concretamente de la paridad de
a
N|ti tj | , numero de sucesos ocurridos en el intervalo de tiempo. Aplicando (4.29)

P (Xtj = xj |Xti = xi ) =

1
2

1
2 P (N|ti tj |

= par) =

1
2 P (N|ti tj |

= impar) =

1 + e2|ti tj | ,

si xi = xj ;

1
2

si xi = xj .

1 e2|ti tj | ,

Si efectuamos ahora una traslacin de todos los tiempos, |ti tj | = |(ti ) (tj )|, y
o
P (Xtj = xj |Xti = xi ) = P (Xtj + = xj |Xti + = xi ),
y como P (Xt1 = x1 ) = 1/2, t1 , x1 , se deduce la estacionariedad del proceso RTS.
Si generalizamos el proceso RTS de manera que P (X0 = +a) = p y P (X0 = a) = 1 p la
estacionariedad se pierde. En efecto, en (4.53) las probabilidades condicionadas no cambian al
efectuar la traslacin , pero s pueden hacerlo P (Xt1 = x1 ). Por ejemplo, si x1 = a,
o

P (Xt1 = a) =
=
=

P (Xt1 = a|X0 = a)P (X0 = a) + P (Xt1 = a|X0 = a)P (X0 = a)


pP (Nt1 = par) + (1 p)P (Nt1 = impar)
1
(1 e2t1 + 2pe2t1 ).
2

Al efectuar la traslacin,
o
P (Xt1 + = a)

= P (Xt1 + = a|X0 = a)P (X0 = a) + P (Xt1 + = a|X0 = a)P (X0 = a)


= pP (Nt1 + = par) + (1 p)P (Nt1 + = impar)
1
=
(1 e2(t1 + ) + 2pe2(t1 + ) ).
2

Slo cuando desde el inicio hay equiprobabilidad, p = 1/2, P (Xt = a) = 1/2, t (vase la
o
e
demostracin en la Seccin 4.3.5) ambas probabilidades coinciden.
o
o

4.4.1.

Estacionariedad en sentido amplio (WSS)

Denicin 4.6 Decimos que un procesos estocstico es estacionario en sentido amplio (WSS,
o
a
Wide-Sense Stationary) si su media es constante y su funcin de autocorrelacin (autocovao
o
rianza) es invariante por traslacin. Es decir,
o
(t) = , t,

R(t1 , t2 ) = R(t1 + , t2 + ) = R( ), t1 , t2 .

La WWS es una propiedad ms dbil que la estacionariedad. Esta ultima implica a aquella
a e

pero no al revs, como pone de maniesto el siguiente contraejemplo.


e
Ejemplo 4.8 (WSS
la estacionariedad) El proceso Xn esta formado por dos procesos
intercalados de variables independientes, si n = 2k, Xn = 1 con probabilidad 1/2; si n = 2k+1,

104

Procesos Estocsticos
a

Xn toma los valores 1/3 y -3 con probabilidad 9/10 y 1/10, respectivamente. El proceso no puede
ser estacionario porque su funcin de probabilidad var con n.
o
a
Por otra parte, se comprueba fcilmente que
a
(n) = 0, n,
y
C(n1 , n2 ) =

E(Xn1 )E(Xn2 ) = 0,
2
E(Xn1 ),

si n1 = n2 ;
si n1 = n2 .

El proceso es WSS.
Propiedades de la funcin de autocorrelacin de un proceso WSS
o
o
En un proceso WSS la funcin de autocorrelacin tiene una serie de propiedades que por su
o
o
inters posterior vamos a deducir.
e
PA1) Para = 0
2
R(0) = R(t, t) = E(Xt ), t,

que es la potencia media del proceso.


PA2) La funcin de autocorrelacin es una funcin par. En efecto,
o
o
o
R( ) = E(Xt+ Xt ),
y haciendo s = t + ,
R( ) = E(Xt+ Xt ) = E(Xs Xs ) = R( ).
PA3) La funcin de autocorrelacin mide la tasa de cambio del proceso en trminos de probao
o
e
bilidad. Si consideramos el cambio que ha sufrido el proceso entre t y t + ,
P (|Xt+ Xt | > )

= P (|Xt+ Xt |2 > 2 )
E[(Xt+ Xt )2 ]

2
2
2
E[Xt+ + Xt 2Xt+ Xt ]
=
2
2[R(0) R( )]
=
.
2

(4.54)
(4.55)

(4.56)

El paso de (4.54) a (4.55) se hace en virtud de la desigualdad de Markov.


La expresin (4.56) indica que si R( ) crece despacio, la probabilidad de cambio para el
o
proceso es pequea.
n
PA4) La funcin de autocorrelacin alcanza su mximo en 0. Aplicando la desigualdad de
o
o
a
Schwartz, [E(XY )]2 E(X 2 )E(Y )2 ), a Xt+ y Xt ,
2
2
R( )2 = [E(Xt+ Xt )]2 E(Xt+ )E(Xt ) = R(0)2 .

y por tanto |R( )| R(0).

4.4 Procesos estacionarios

105

PA5) Si d; R(d) = R(0), la funcin de autocorrelacin es peridica con periodo d. Aplicando


o
o
o
de nuevo la desigualdad de Schwartz a Xt+ +d Xt+ y Xt ,
2
{E[(Xt+ +d Xt+ )Xt ]}2 E[(Xt+ +d Xt+ )2 ]E[Xt ],

que en trminos de R( ) podemos escribir


e
[R( + d) R( )]2 2[R(0) R(d)]R(0).
Como R(d) = R(0) entonces R( + d) = R( ), con lo que la funcin es peridica de
o
o
periodo d.
Por otra parte de

E[(Xt+d Xt )2 ] = 2[R(0) R(d)] = 0,

se deduce que el proceso es peridico en media cuadrtica.


o
a

PA6) Si Xt = m + Nt donde Nt es un proceso de media cero con RN ( ) 0, entonces


RX ( ) = E[(m + Nt+ )(m + Nt )] =

m2 + 2mE(Nt ) + RN ( )

= m2 + RN ( ) m2 .
Deducimos de estas propiedades que la funcin de autocorrelacin puede tener tres tipos de
o
o
componentes,
1. una componente que se aproxima a 0 cuando ,
2. una componente peridica, y
o
3. una componente con media no nula.
Processos Gaussianos y estacionariedad
Hemos visto que la WSS estacionariedad, pero este resultado tiene un excepcin en el caso
o
del proceso Gaussiano. Como vimos en la Seccin 4.3.3, las distribuciones nito-dimensionales
o
del proceso estn completamente especicadas mediante su vector de medias y la matriz de
a
covarianzas.
Si el proceso Gaussiano es WSS, sabemos que (t) = , t y C(t1 , t2 ) = g(|t1 t2 |). La
consecuencia inmediata es que las distribucin conjunta de (Xt1 , Xt2 , . . . , Xtn ) ser invariante
o
a
por traslacin y el proceso ser estacionario.
o
a
Ejemplo 4.9 (Un proceso Gaussiano de medias mviles) Denamos
o
Yn =

Xn + Xn1
,
2

donde Xn es un proceso Gaussiano IID con media 0 y varianza 2 .


La media de Yn es tambin 0 y su covarianza
e
CY (n1 , n2 ) =
=

1
E[(Xn1 + Xn1 1 )(Xn2 + Xn2 1 )
4
1
E[Xn1 Xn2 + Xn1 Xn2 1 + Xn1 1 Xn2 + Xn1 1 Xn2 1 )
4
2
/2, si n1 n2 = 0;
2 /4, |n1 n2 | = 1;

0,
en el resto.

106

Procesos Estocsticos
a

El proceso Yn es por tanto WSS y adems es Gaussiano por ser combinacin lineal de variables
a
o
Gaussianas. Las distribuciones nito dimensionales del proceso estn especicadas con el vector
a
de medias nulo y la matriz de covarianzas que dene CY (n1 , n2 ).

4.4.2.

Procesos cicloestacionarios

Son muchos los procesos que surgen de la repeticin peridica de un experimento o fenmeno
o
o
o
aleatorio. Es lgico pensar que la periodicidad del proceso inuya en su comportamiento proo
babil
stico. Surge as la nocin de cicloestacionariedad.

o
Denicin 4.7 (Proceso cicloestacionario (CE)) Decimos que el proceso Xt es cicloestao
cionario, CE si sus distribuciones nito-dimensionales son invariantes por traslacin mediante
o
mltiplos enteros de un cierto per
u
odo T . Es decir, (t1 , t2 , . . . , tn ) y k Z,
Ft1 ,t2 ,...,tn (x1 , x2 , . . . , xn ) = Ft1 +kT,t2 +kT,...,tn +kT (x1 , x2 , . . . , xn ).

(4.57)

El concepto de WSS tambin tiene ahora su equivalente.


e
Denicin 4.8 (Proceso cicloestacionario en sentido amplio (WSC)) Decimos que el
o
proceso Xt es cicloestacionario en sentido amplio, WSC si su media y su funcin de autocovao
rianza son invariantes por traslacin mediante mltiplos enteros de un cierto per
o
u
odo T ,
(t + kT ) = (t),

C(t1 + kT, t2 + kT ) = C(t1 , t2 ).

(4.58)

Es fcil comprobar que CE WSC, pero no al contrario.


a
Ejemplo 4.10 Consideremos el proceso
Xt = A cos

2t
T

La distribucin conjunta de (Xt1 , Xt2 , . . . , Xtn ) es


o
Ft1 ,t2 ,...,tn (x1 , x2 , . . . , xn ) =
=
=
=

P (Xt1 x1 , . . . , Xtn xn )
P [A cos(2t1 /T ) x1 , . . . , A cos(2tn /T ) xn ]
P [A cos(2(t1 + kT )/T ) x1 , . . . , A cos(2(tn + kT )/T ) xn ]
Ft1 +kT,t2 +kT,...,tn +kT (x1 , x2 , . . . , xn ),

y el proceso es cicloestacionario.
El proceso del ejemplo anterior es peridico en el sentido que todas sus trayectorias lo son. No
o
debe por ello sorprendernos que el proceso sea cicloestacionario. Hay procesos con un comportamiento c
clico que no tienen ese tipo de trayectorias y que no pudiendo por ello ser cicloestacionarios, son WSC. Veamos un ejemplo.
n
Ejemplo 4.11 Un modem transmite seales binarias 0 y 1 IID de la siguiente forma,
para transmitir un 1, emite una seal rectangular de amplitud 1 y duracin T ,
n
o
para transmitir un 0, emite una seal rectangular de amplitud -1 y duracin T .
n
o

4.4 Procesos estacionarios

107

2T

3T
0

4T

5T
0

Figura 4.8: Una trayectoria del proceso de pulsos modulados


La Figura 4.8 muestra la trayectoria correspondiente a la secuencia de datos 11010 . . ..
El proceso puede ser descrito mediante
+

An 1[0,T [ (t nT ),

Xn =
n=

donde An = 1 segn el valor a transmitir y 1[0,T [ () es la funcin indicatriz del intervalo [0, T ].
u
o
La media del proceso es 0 porque E(An ) = 0, n. La funcin de autocovarianza vale
o
+

C(t1 , t2 )

An 1[0,T [ (t1 nT )

= E
n=

Am 1[0,T [ (t2 mT )

(4.59)

m=

A2 1[0,T [ (t1 nT )1[0,T [ (t2 nT )


n

(4.60)

n=

1,
=

0,

si (t1 , t2 ) [nT, (n 1)T [[nT, (n 1)T [;


en el resto.

El paso de (4.59) a (4.60) se debe a la independencia de las An . La Figura 4.9 muestra la


regin del plano (celdas en gris) en la que C(t1 , t2 ) vale la unidad, de donde se deduce que
o
C(t1 + kT, t2 + kT ) = C(t1 , t2 ) y el proceso es WSC.

108

Procesos Estocsticos
a

5T
1

4T
1

3T
1

2T
1

T
1
T

2T

3T

4T

5T

Figura 4.9: La funcin de autocovarianza del proceso de pulsos modulados


o

Cap
tulo 5

Transformacin lineal de un
o
proceso estacionario
5.1.

Densidad espectral de potencia (PSD) de un proceso


WSS

El desarrollo en serie de de Fourier de una funcin determinista permite expresarla como


o
una suma ponderada de funciones peridicas. Si la funcin no presenta cambios bruscos y var
o
o
a
suavemente, los coecientes (pesos) de la serie correspondientes a las sinusoides de baja frecuencia presentan valores elevados frente a los de las altas frecuencias. Funciones muy variables
muestras una distribucin de coecientes opuesta. Ello supone que la tasa de variacin de la
o
o
funcin est relacionada con el valor de los distintos coecientes, que considerados ellos mismos
o
a
como una funcin recibe el nombre de espectro de la funcin original.
o
o
La idea que subyace en este tipo de descomposicin es representar la funcin en el dominio
o
o
de las frecuencias y es trasladable a los procesos estocsticos, convirtindose en una herramienta
a
e
de gran utilidad como a continuacin veremos. Pero la traslacin no puede hacerse de forma
o
o
directa debido a la diferencia existente entre los fenmenos deterministas y aleatorios. Como ya
o
sabemos, las distintas realizaciones de un proceso dan lugar a diferentes funciones (trayectorias)
y por esta razn el espectro de un proceso estocstico expresa la variacin media de todas
o
a
o
aquellas trayectorias a lo largo del tiempo.
Por otra parte, conviene recordar ahora las propiedades que la funcin de autocorrelacin de
o
o
un proceso WSS pose y que estn enumeradas y demostradas en la pgina 104. En concreto
a
a
a
la PA3), en virtud de la expresin (4.56), mostraba cmo la funcin de autocorrelacin mide la
o
o
o
o
tasa de cambio del proceso en trminos de probabilidad.
e
P (|Xt+ Xt | > )

2[R(0) R( )]
.
2

De la s
ntesis entre esta propiedad y la descomposicin en serie de Fourier surge el concepto de
o
densidad espectral de potencia (PSD de sus siglas en ingls) que introducimos y estudiamos a
e
continuacin, distinguiendo entre procesos discretos y continuos en el tiempo.
o

5.1.1.

PSD para procesos estocsticos WSS discretos en el tiempo


a

a
Denicin 5.1 Sea Xt un proceso estocstico WSS discreto en el tiempo, su espectro o densio
dad espectral de potencia, P (), es la transformada de Fourier de su funcin de autocorrelacin
o
o

110

Transformacin lineal de un proceso estacionario


o

R(k),
k=+

R(k) exp(i2k), < < .

P () = F[R(k)] =

(5.1)

k=

Si tenemos en cuenta que R(k) = R(k) y eix + eix = 2 cos x, la expresin (5.1) adopta la
o
forma
P () = R(0) + 2
R(k) cos 2k,
(5.2)
k1

lo que implica que P () es una funcin real par, P () = P (). De esta ultima expresin
o

o
para P () se deduce que es peridica con periodo 1, por lo que slo consideraremos el rango de
o
o
frecuencias 1/2 < 1/2; pero dada su paridad bastar con denir P () para [0, 1/2].
a
Podemos denir el espectro normalizado dividendo (5.2) por R(0), obtendremos
R(k)
cos 2k.
R(0)

P () = 1 + 2
k1

(5.3)

En el caso de tratarse de un proceso centrado con (n) = 0, n, el cociente


C(k)
R(k)
=
= (k),
R(0)
C(0)
es la funcin de correlacin y (5.3) se escribe,
o
o
P () = 1 + 2

(k) cos 2k.

(5.4)

k1

Ejemplo 5.1 (Espectro de un ruido blanco) Recordemos que si el proceso {Xt } es un ruido blanco, (t) = 0, 2 (t) = 2 , t y las variables son incorreladas (algunos autores exigen
independencia). Se trata, evidentemente, de un proceso WSS en el que
C(k) = R(k) =

2 , si k = 0;
0,
si k = 0.

Sustituyendo en (5.2) tendremos


P () = 2 ,
o bien su versin normalizada,
o
P () = 1.
En cualquiera de sus formas, el espectro de un ruido blanco es constante para cualquier frecuencia , a semejanza de lo que ocurre con el espectro ptico plano de la luz blanca, lo que
o
justica el nombre que reciben este tipo de procesos.
PSD versus R(k)
La denicin de P () como F[R(k)] permite recuperar la funcin de autocorrelacin si P ()
o
o
o
es conocida. Basta para ello recurrir a la transformada inversa de Fourier,
R(k) = F 1 [P ()] =

1/2

1/2

P () exp(i2k)d = 2
1/2

P () cos(2k)d.
0

(5.5)

5.1 Densidad espectral de potencia (PSD) de un proceso WSS

111

Un resultado conocido como el Teorema de Wold (pueden consultarse detalles en el texto de


Priestley (1981)), arma que cualquier funcin P () no negativa denida sobre [0, 1/2] dene un
o
espectro y, en consecuencia, R(k) es una funcin de autocorrelacin si y solo si puede expresarse
o
o
de la forma (5.5) a partir de una de estas P (). Se deriva de ello que las condiciones a cumplir
para ser funcin autocorrelacin son mucho ms restrictivas que la exigidas para el espectro.
o
o
a
Como herramientas matemticas P () y R(k) son equivalentes por lo que respecta a la infora
macin que contienen del proceso subyacente. No obstante, como ya sealbamos al comienzo
o
n a
del Cap
tulo, el espectro permite conocer e interpretar las componentes c
clicas del proceso.
Veamos un ejemplo que evidencia este aspecto.
Ejemplo 5.2 (Espectro de un proceso autoregresivo de orden uno, AR(1)) Un proceso estocstico AR(1) se dene mediante,
a
Xt = Xt1 + Zt ,

(5.6)

donde {Zt } es una sucesin de ruido blanco y || < 1. La restriccin para el valor de es
o
o
necesaria para que el proceso sea WSS (ver la Seccin 5.1 de Montes (2007)).
o
Para calcular R(k) multiplicamos ambas partes de (5.6) por Xtk y al tomar esperanzas se
obtiene,
R(k) = R(k 1),
y recursivamente,

R(k) = k R(0) = k 2 ,

con R(k) = R(k), k = 0, 1, 2, . . ., siendo 2 la varianza del proceso. Su espectro vale


+

P ()

= 2

k exp(i2k)

= + 2

k1

k1

= 2 1 +

k exp(i2k)

k exp(i2k) + 2

exp(i2)
exp(i2)
+
1 exp(i2) 1 exp(i2)

Operando y teniendo en cuenta que eix eix = 1 y que eix + eix = 2 cos x se obtiene nalmente,
P () =

2 (1 2 )
.
1 2 cos 2 + 2

(5.7)

A partir de (5.6) podemos obtener 2 en funcin de 2 = var(Zt ) ,


o
2 = 2 2 + 2

2 =

2
.
1 2

Sustituyendo en (5.7) se obtiene como expresin alternativa para P (),


o
P () =

2
.
1 2 cos 2 + 2

(5.8)

En la Figura 5.1 hemos representado (5.8) para 2 = 1 y = 0,5; 0,5; 0,9 y una trayectoria
de cada uno de estos procesos. El espectro para = 0,5 (superior) es creciente lo que signica
un mayor peso de las altas frecuencias, la potencia se concentra en ellas, y ello se corresponde
con una trayectoria que alterna valores positivos y negativos con rpidas oscilaciones entre unos
a
y otros. Para valores positivos de los espectros son decrecientes, indicando predominio de bajas
frecuencias, ms acusado para = 0,9 (inferior). Las trayectorias correspondientes muestran
a
oscilaciones menos frecuentes con largas permanencias de valores de un mismo signo.

Transformacin lineal de un proceso estacionario


o

2
2

X_n

2.0
1.5

0.5

1.0

espectro

2.5

3.0

112

0.0

0.1

0.2

0.3

0.4

0.5

50

frecuencia

100

150

100

150

100

150

2
2

X_n

2.0
1.5
0.5

1.0

espectro

2.5

3.0

0.0

0.1

0.2

0.3

0.4

0.5

50

frecuencia

0
2

X_n

10
0

espectro

15

0.0

0.1

0.2

0.3

0.4

0.5

50

frecuencia

Figura 5.1: Espectro y trayectoria del proceso AR(1) para = 0,5 (superior), = 0,5 (central)
y = 0,9 (inferior)
La existencia del espectro est supeditada a la convergencia de la serie en (5.1). Hay procesos
a
en lo que ello no ocurre. Veamos un ejemplo y cmo resolver el problema.
o
Ejemplo 5.3 (Un espectro divergente) Consideremos el proceso
Xt = A cos t + B sin t + Zt ,

(5.9)

con {Zt } una sucesin de ruido blanco con varianza 2 , y A y B sendas variables aleatorias
o
IID com media 0 y varianza 2 e independientes de Zt . La media del proceso ser por tanto
a
E(Xt ) = 0 y su varianza,
2
var(Xt ) = E(A2 ) cos2 t + E(B 2 ) sin2 t + E(Zt ) = 2 + 2 .

5.1 Densidad espectral de potencia (PSD) de un proceso WSS

113

La funcin de autocorrelacin, para t = s,


o
o
R(t, s)

= E{[A cos t + B sin t + Zt ][A cos s + B sin s + Zs ]}


= E(A2 ) cos t cos s + E(B 2 ) sin t sin s
= 2 cos (t s).

En denitiva,

2 + 2 ,
2 cos k,

R(k) =

si k = 0;
k = 0,

y el proceso es WSS. Su espectro vale,


P () =

2 + 2 + 2 2

cos(k) cos(2k)
k1

2 + 2 + 2 2

[cos k( + 2) + cos k( 2)],


k1

que para = /2 diverge y no existe.


Si se observa la expresin (5.1) constataremos que la denicin de F[R(k)] slo es vlida si
o
o
o
a
la serie es convergente. Si la serie es divergente, como es ahora el caso, el problema se resuelve
recurriendo a una denicin ms general de F[R(k)] que involucra el concepto de distribucin,
o
a
o
y una desarrollo matemtico fuera del alcance y las pretensiones de estas notas. Un proceso
a
discreto en el tiempo puede expresarse mediante una suma innita de s de Dirac y podemos
aplicarle la denicin general de transformada de Fourier para distribuciones, puesto que la
o
delta de Dirac es una distribucin. Ambas deniciones coinciden si la serie es convergente,
o
como era de esperar para una denicin que queremos coherente. A efectos prcticos, en una
o
a
situacin como la que nos encontramos admitiremos que P () puede ser innito en valores
o
aislados que concentran la potencia del proceso. Lo expresamos recurriendo a la funcin ,
o
P () = 2 + 2 + 2 2 ( /2).
Filtros lineales
Un ltro es simplemente una transformacin de un proceso Xt para dar lugar a otro proceso
o
Yt . Si la transformacin es de la forma,
o

Yt =

aj Xtj ,

(5.10)

j=

hablamos de un ltro lineal. Cada elemento del proceso resultante es una combinacin lineal,
o
eventualmente innita, de elementos del proceso original. Si hay un nmero nito de aj distintos
u
de cero y Xt es WSS, tambin lo ser Yt , pero en el caso de que la combinacin lineal sea
e
a
o
estrictamente innita, la WSS de Yt depende de los aj .
Si ambos procesos son WSS, es interesante establecer la relacin entre RX (k) y RY (k) y
o
PX () y PY (). Comencemos por la funcin de autocorrelacin,
o
o
RY (k) =

E(Yt Ytk )

al Xtl
l=

aj Xtkj

j=

al aj RX (k + j l).
l= j=

(5.11)

114

Transformacin lineal de un proceso estacionario


o

Para obtener la relacin entre las funciones de densidad espectral bastar calcular la transforo
a
mada de Fourier de ambas partes de (5.11),
k=+

PY ()

RY (k) exp(i2k)

=
k=

al aj RX (k + j l)ei2k

=
k= l= j=

al aj RX (k + j i)ei2l ei2j ei2(k+jl)

=
=

k= l= j=

al ei2l
aj ei2j
RX (k
j=
l=
k=

+ j i)ei2(k+jl) .

(5.12)

Si hacemos h() = l= al ei2l y un adecuado cambio de


ndices en el ultimo sumatorio,

(5.12) puede escribirse,


PY () = |h()|2 PX ().
(5.13)
La funcin h() recibe el nombre de funcin de transferencia del ltro lineal. Obsrvese que
o
o
e
la relacin entre las funciones de densidad espectral es mucho ms sencilla que la que liga las
o
a
funciones de autocorrelacin, (5.11).
o
Ejemplo 5.4 (Un proceso MA(3) de un proceso AR(1)) A partir del proceso AR(1),
Xt = Xt1 + Zt ,
con Zt un ruido blanco de varianza 2 , denimos un nuevo proceso
Yt =

1
(Xt1 + Xt + Xt+1 ),
3

un proceso de medias mviles de orden 3, MA(3), que no es ms que un ltro lineal con aj =
o
a
1/3, j = 1, 0, 1 y aj = 0 para cualquier otro j.
Para obtener PY (), recordemos el espectro del proceso AR(1) que obtuvimos en el ejemplo
5.2,
2
PX () =
.
1 2 cos 2 + 2
Por otra parte, la funcin de transferencia vale,
o
h() =
y
|h()|2 =

1 i2
1
(e
+ 1 + ei2 ) = (1 + 2 cos 2),
3
3

1
1
(1 + 4 cos 2 + 4 cos2 2) = (3 + 4 cos 2 + 2 cos 4).
9
9

Finalmente,

2 (3 + 4 cos 2 + 2 cos 4)
.
9(1 2 cos 2 + 2 )
La Figura 5.2 muestra los espectros de ambos procesos y la funcin de transferencia que
o
los relaciona, para 2 = 1 y = 0,5. El efecto del ltrado del proceso original es disminuir
la varianza, menor rea bajo el espectro, como resultado del suavizado que las medias mviles
a
o
implican. El suavizado se evidencia tambin en la mayor presencia de bajas frecuencias en el
e
espectro de Yt .
PY () =

115

3
0.0

0.1

0.2

0.3

0.4

0.0

0.2

0.4

espectro de Y

0.6

funcin de transferencia

2
1

espectro de X

0.8

1.0

5.1 Densidad espectral de potencia (PSD) de un proceso WSS

0.5

0.0

0.1

frecuencia

0.2

0.3

0.4

0.5

0.0

0.1

frecuencia

0.2

0.3

0.4

0.5

frecuencia

Figura 5.2: Espectros y funcin de transferencia de los procesos MA(3) y AR(1)


o
Filtrado lineal de un ruido blanco: proceso lineal general
Un caso particular de (5.10) es el que resulta de ltrar una sucesin de ruido blanco, Zt ,
o
con varianza 2 ,

Xt =

aj Ztj .

(5.14)

j=0

Recordemos que PZ () = 2 y

aj ei2j .

h() =
j=0

El espectro del nuevo proceso valdr


a
PX () =

2 |h()|2

j=0

j=k

aj ak cos 2(k j)

a2 + 2
j
j=0

k1 j<k

2
b0 +

m1 k>m

bm cos 2m,
m1

akm ak cos 2m

a2 + 2
j
j=0

aj ak ei2(kj)

a2 +
j

k=0

ak ei2k

aj ei2j
j=0

(5.15)

116

Transformacin lineal de un proceso estacionario


o

con b0 = 2 0 a2 y bm = k>m akm ak .


j
Este proceso se denomina proceso lineal general, y el caso de mayor inters en la prctica es
e
a
el que se obtiene cuando slo un nmero nito de coecientes aj son distintos de 0. Los procesos
o
u
ARMA, autoregresivos de medias mviles, son sin duda los ms interesantes de entre los que
o
a
cumplen esta condicin. En la Seccin 5.1 de Montes (2007) nos ocupamos de ellos.
o
o
La WSS de Xt no est garantizada an cuando Zt lo sea. Slo lo estar en el caso de
a
u
o
a
una combinacin lineal nita. El caso ms general requiere una condicin sobre los aj . Para
o
a
o
obtenerla,
R(t, s)

= E(Xt Xs )

al Zsl

aj Ztj
j=0

l=0

aj al E(Ztj Zsl ).

(5.16)

j=0 l=0

o
pero siendo Zt un ruido blanco, E(Ztj Zsl ) = 0 slo si t j = s l, por lo que (5.16) se
escribir, si t s,
a

R(t, s) = 2

aj aj+st .

(5.17)

j=0

Por (5.14) E(Xt ) = 0, t , y la expresin (5.17) evidencia que R(t, s) = R(s t) = R(k), con lo
o

que el proceso ser WSS si la j=0 aj aj+k es convergente k. Ello supone que para k = 0
a

2
Xt = R(t, t) = R(0) =

a2 < .
j

(5.18)

j=0

Por otra parte, si R(0) es nito, como |Xt Xtk | 1, tendremos


R(k)

|Xt Xtk | =

2
2
Xt Xtk

R(k)
1,
R(0)

y despejando
|R(k)| |R(0)| < .
En denitiva, la condicin necesaria y suciente para que el proceso lineal general sea WSS es
o

que j=0 a2 < .


j

5.1.2.

PSD para procesos estocsticos WSS continuos en el tiempo


a

Denicin 5.2 Sea Xt un proceso estocstico WSS continuo en el tiempo, su densidad espectral
o
a
de potencia, P (), es la transformada de Fourier de su funcin de autocorrelacin R( ),
o
o
+

P () = F[R( )] =

R( ) exp(i2 )d, < < .

(5.19)

En realidad P () se dene como

1
E
l
m
T T

T /2
T /2

Xt exp(i2 )d ,

(5.20)

5.1 Densidad espectral de potencia (PSD) de un proceso WSS

117

pero un resultado conocido como el teorema de Einstein-Wiener-Khinchin establece la igualdad


entre (5.20) y (5.19). De ambas deniciones y de las propiedades de R( ) se derivan las siguientes
propiedades para P (), anlogas, como no pod ser de otra forma, a las que hemos visto en el
a
a
caso discreto.
PSDc1) De (5.20) se deduce que
P () 0, .
PSDc2) En la propiedad PA2) de la pgina 104, vimos que la funcin de autocorrelacin de
a
o
o
un proceso WSS es una funcin par, R( ) = R( ) , en consecuencia la PSD es una
o
funcin real,
o
+

P ()

R( ) exp(i2 )d

R( )(cos 2 i sin 2 )d

(5.21)

= 2

R( ) cos 2 d,

(5.22)

donde el paso de (5.21) a (5.22) se justica porque la funcin seno es una funcin impar.
o
o
PSDc3) La expresin (5.22) y la paridad de la R( ) y de la funcin coseno implican la paridad
o
o
de PSD, P () = P ().
Recordemos la relacin entre las funciones de autocovarianza y autocorrelacin en un proceso
o
o
WSS,
R( ) = C( ) + 2 .
Al calcular la PSD,
P ()

= F[R( )] = F[C( ) + 2 ]
= F[C( )] + F[2 ]
= F[C( )] + 2 (),

donde () es la funcin delta de Dirac, que es la transformada de Fourier de una funcin


o
o
constante e igual a 1 en todo R. El comentario que hicimos al nal del Ejemplo 5.3 es vlido
a
tambin ahora.
e
Observacin 5.1 (El fenmeno de aliasing ) Al enumerar las propiedades de la PSD para
o
o
el caso continuo hemos mencionado su analog con las del caso discreto, pero se observar que
a
a
ahora la periodicidad est ausente. En la expresin (5.19) los l
a
o
mites de la integral son y
+. La razn para ello es que cuando observamos un proceso en tiempo continuo es posible
o
identicar cualquier componente por elevada que sea su frecuencia, por el contrario, si la observacin se lleva a cabo a intervalos de tiempo, los efectos debidos a frecuencias superiores a
o
1/2 o inferiores a 1/2 son indistinguibles de los efectos de baja frecuencia. Este fenmeno se
o
conoce con el nombre de aliasing. Para ilustrarlo consideremos la funcin
o
x(t) = cos 2t,

118

Transformacin lineal de un proceso estacionario


o

con = 0 + 1/2 y 0 < 0 < 1/2. La funcin es observada slo para tiempos enteros. Si
o
o
tenemos en cuenta que cos x = cos(x + 2t) para t entero, y que cos x = cos(x), las distintas
observaciones de x(t) cumplen,
x(t) = cos 2t
= cos(2t 2t)
=
=
=
=

cos[2t(0 + 1/2) 2t]


cos(2t0 t)
cos(t 2t0 )
cos(2t ),

1.0

0.5

0.0

0.5

1.0

con = 1/2 0 que verica 0 < < 1/2. En denitiva, las frecuencias > 1/2 no se
distinguen de las frecuencias < 1/2. La Figura 5.3 muestra el fenmeno, se observa en ella
o
que al muestrear s veces por segundo, las muestras de una y otra sinuoside se confunden. En
procesamiento de seales se dice que cada una de las sinusoides se convierte en un alias para
n
la otra, de ah el nombre que este fenmeno recibe.

10

20

30

40

50

60

Figura 5.3: El fenmeno de aliasing


o

PSD versus R(k)


Si la PSD es conocida, la transformada inversa de Fourier permite recuperar la funcin de
o
autocorrelacin,
o
R( ) = F 1 [P ()] =

P () exp(i2 )d.

(5.23)

2
De la denicin de R( ) se deduc que R(0) = E(Xt ). Aplicando (5.23) podemos calcular
o
a
esta esperanza, conocida como potencia media de Xt , mediante,
2
E(Xt ) = R(0) =

P ()d.

(5.24)

5.1 Densidad espectral de potencia (PSD) de un proceso WSS

119

A continuacin se obtiene la PSD para algunos de los procesos estudiados en el Cap


o
tulo
anterior.
Ejemplo 5.5 (PSD del proceso RTS) Recordemos que el proceso RTS es estacionario, y
por tanto WSS, y que su funcin de autocorrelacin veien dada por (4.30),
o
o
R( ) = a2 e2| | ,
donde es el parmetro del proceso de Poisson subyacente. Para obtener P (),
a
+

P () =

a2 e2| | ei2 d

a2

e (2+i2) d

a
a2
+
2 i2 2 + i2
2

a2
.
+ 2 2

(5.25)

0.6
0.4
0.0

0.2

densidad espectral de potencia

0.8

1.0

e (2i2) d + a2

frecuencia

Figura 5.4: Densidad espectral de potencia del proceso RTS para = 1 (-----) y = 4 (- - -)
La Figura 5.4 muestra la grca de la densidad espectral de potencia para sendos procesos
a
RTS con = 1 y = 4. Como el mximo de (5.25) se alcanza en = 0 y su valor es
a
P (0) = a2 /, para valores de pequeos los mayores valores de la funcin se concentran en
n
o
las bajas frecuencias, pero a medida que aumenta las frecuencias altas adquieren mayor peso.
Todo ello se corresponde con lo que representa en el proceso. Valores pequeos de suponen
n
una tasa baja de cambios por unidad de tiempo y por tanto una menor frecuencia, lo contrario
de lo que implican elevados valores de .
a
Ejemplo 5.6 (PSD de un ruido blanco continuo) La grca de la izquierda de la Figura
5.5 muestra la PSD de un ruido blanco recortada a un rango de frecuencias 0 0 . Se

120

Transformacin lineal de un proceso estacionario


o

observa que P () es constante en todo en intervalo. Ya comentbamos en el Ejemplo 5.1 que el


a
ruido blanco recibe este nombre por similitud con la luz blanca, cuyo espectro es constante para
todas la frecuencias.

R()

P(w)

Nw0
N/2

w0

w0

Figura 5.5: P () con frecuencias acotadas para un ruido blanco (izquierda) y su correspondiente
R( ) (derecha)
Para obtener la funcin de autocorrelacin recurrimos a (5.23),
o
o
R( ) =

N
2

exp(i2 )d.
0

N
ei20 ei20

2
i2

N sin 20
.
2

La grca de la derecha en la Figura 5.5 corresponde a R( ), que anula en los puntos =


a
k/20 , k = 1, 2, . . ., lo que implica que las variables Xt y Xt+ son incorreladas para dichos
valores de .
La potencia del proceso vale,
2
E(Xt ) = R(0) =

N
2

d = N 0 ,
0

que coincide con el mximo de la funcin R( ), tal como se observa en la grca de la Figura
a
o
a
5.5.
A medida que 0 , el efecto sobre R( ) es el que se muestra en las grcas de la Figura
a
5.6. En el l
mite, P () ser constante para cualquier frecuencia, hecho que caracteriza a un
a
ruido blanco, y su funcin de autocorrelacin acumular toda la potencia en 0 y valdr por
o
o
a
a
tanto innito. Utilizando la funcin lo expresar
o
amos,
R( ) =

N
( ).
2

5.1 Densidad espectral de potencia (PSD) de un proceso WSS

R()

R()

w [ w0, w0]

121

R()

w [ 2w0, 2w0]

w [ 4w0, 4w0]

Figura 5.6: Efecto del crecimiento de 0 sobre R( )


Discretizacin temporal de un ruido blanco continuo
o
El ejemplo anterior ilustra la obtencin de R( ) para un ruido blanco como l
o
mite, cuando
0 , de las R0 ( ) correspondientes a ruidos blancos ltrados del original mediante una
banda de frecuencias limitadas por || 0 . Pero tiene un inters aadido, se trata de un modelo
e n
utilizado habitualmente en el tratamiento de seales porque todos los sistemas f
n
sicos, con raras
excepciones, presentan una banda de frecuencias limitada. Esta limitacin real simplica la
o
descripcin matemtica de los procesos sin sacricar su realismo.
o
a
Pero las simplicaciones no acaban con un ltrado paso bajo. Una segunda e inevitable
simplicacin es la que supone muestrear un proceso continuo para obtener un proceso discreto
o
en el tiempo con el que realmente trabajaremos. Hemos pasado del proceso Xt a la sucesin Xn .
o
Si originalmente Xt era un ruido blanco, cules son las caracter
a
sticas de la Xn ?, es tambin
e
una sucesin de ruido blanco?
o
El nuevo proceso Xn , antes del ltrado del original, puede representarse de la forma,
Xn = Xt |t=nT , < n < +,
1
donde T = f0 es el periodo de muestreo y f0 la frecuencia de muestreo. Si queremos reconstruir
la seal original a partir de la muestreada, un conocido teorema exige que f0 sea mayor o igual
n
que 20 , la frecuencia de Nyquist.
Es inmediato comprobar que al igual que el proceso original, E(Xn ) = 0. Calculemos ahora
R(k) para comprobar si la sucesin es tambin WSS.
o
e

RXn (k)

= E(Xn Xn+k )
= E(XnT X(n+k)T )
=
=

E(XnT XnT +kT )


RXt (kT ),

(5.26)

que al no depender de n supone que Xn es WSS. Adems, de (5.26) se deduce que RXn (k) es,
a
a su vez, el resultado de muestrear la autocorrelacin del proceso original con el mismo periodo
o
T con el que se obtuvo Xn . En concreto, si f0 = 20 el periodo valdr T = (20 )1 y
a
RXn (k) = RXt [k(20 )1 ],
pero en ejemplo anterior vimos que para un ruido blanco con densidad espectral de potencia

122

Transformacin lineal de un proceso estacionario


o

constante e igual a N/2,


RXt ( ) =

N 0 sin 20
,
20

que como ya dijimos se anula en = k(20 )1 , k = 1, 2, . . ., que son lo puntos donde est dea
nida RXn . En denitiva,
N 0 , si k = 0;
RXn (k) =
0,
k = 0,
que es la autocorrelacin de una sucesin de ruido blanco con 2 = N 0 .
o
o
Ejemplo 5.7 (Se al binaria as
n
ncrona (ABS)) Una seal binaria as
n
ncrona es una sucesin constituida por sucesivos impulsos de duracin T y de amplitud aleatoria Xn , una variable
o
o
que toma los valores a con igual probabilidad. La sucesin es as
o
ncrona porque el instante de
inicio, D, es una variable U [T /2, T /2[. Como consecuencia de ello, dos tiempos cualesquiera, t1 < t2 , tales que t2 t1 < T , pueden no coincidir en el mismo impulso.
A partir de una sucesin de estas caracter
o
sticas se dene el proceso ABS, continuo en el
tiempo, mediante la expresin
o
Xt =

Xn 1[D+nT T ,D+nT + T ] (t),


2

(5.27)

donde 1A () es la funcin caracter


o
stica del conjunto A, de manera que
1A (s) =

1, si s A;
0, si s Ac .

Una trayectoria del proceso se muestra en la Figura 5.7.


T
a
t

-a

Figura 5.7: Trayectoria de un proceso ABS con D = 0


La funcin de autocorrelacin del proceso vale,
o
o
RX (t1 , t2 ) = E(Xt1 Xt2 )
= E

Xn 1[D+nT T ,D+nT + T ] (t1 )


n

Xm 1[D+mT T ,D+mT + T ] (t2 ) .


m

Suponemos que las amplitudes de los impulsos son independientes entre s y del desplazamiento

2
inicial D. En consecuencia, E(Xn Xm ) = E(Xn )E(Xm ) = 0 si n = m, E(Xn Xm ) = E(Xn ) =

5.1 Densidad espectral de potencia (PSD) de un proceso WSS

123

a2 si n = m, y
RX (t1 , t2 ) =

a2

E 1[D+nT T ,D+nT + T ] (t1 )1[D+nT T ,D+nT + T ] (t2 )


2

E(Xn )E(Xm )E 1[D+nT T ,D+nT + T ] (t1 )1[D+mT T ,D+mT + T ] (t2 )


2

n=m m

a2

E 1[D+nT T ,D+nT + T ] (t1 )1[D+nT T ,D+nT + T ] (t2 ) .


2

Observemos que 1A (t) es una variable aleatoria discreta que toma solamente los valores 0 y 1,
por tanto
E [1A (t1 )1A (t2 )] = P [1A (t1 ) = 1, 1A (t2 ) = 1],
lo que supone que tanto t1 como t2 pertenecen al mismo y unico intervalo A = [D + n0 T

T
, D + n0 T + T ]. Si t1 < t2 , entonces D ha tomado un valor tal que el anterior intervalo cubre
2
2
al intervalo que ambos denen, [t1 , t2 ]. Si t2 t1 = , para que esto ocurra D [T /2, T /2 ].
El razonamiento es igualmente vlido para el caso t2 < t1 . En denitiva
a
E 1[D+n0 T T ,D+n0 T + T ] (t1 )1[D+n0 T T ,D+n0 T + T ] (t2 ) =
2

P (D [T /2, T /2 | |]) =

T | |
| |
=1
, | | T,
T
T

mientras que la esperanza ser 0 para cualquier otro n. La expresin nal para RX ( ), con
a
o
| | = t2 t1 ser
a
| |
T

a2 1
0,

R( ) =

| | T ;
| | T .

Se trata de una funcin triangular cuya grca se muestra en la Figura 5.8 para a = 1 y
o
a
T = 1.
Conocida la funcin de autocorrelacin, podemos calcular ahora la densidad espectral de poo
o
tencia del proceso ABS y, en general, de cualquier proceso que posea una R( ) que sea triangular
(supondremos a = 1).
+

P ()

R( ) exp(i2 )d

+T

| |
T

exp(i2 )d

| |
T

cos 2 d

T
T

= 2
0

= T

sin T
T

(5.28)

El resultado sugiere una forma ms sencilla de obtener (5.28) si observamos que se trata del
a
cuadrado de una funcin sinc. Los pulsos rectangulares tienen por transformada de Fourier una
o
funcin de estas caracter
o
sticas. As si la autocorrelacin es un pulso rectangular unitario,
,
o
R( ) =

1,
0,

si | | 1/2;
si | | > 1/2,

Transformacin lineal de un proceso estacionario


o

1.0
0.0

0.5

R()

1.5

2.0

124

Figura 5.8: Funcin de autocorrelacin de un proceso ABS con a = 1 y T = 1


o
o
la P () asociada vale
1

P () = 2

cos 2 d =
0

sin
.

Calculemos ahora la convolucin de dos pulsos pulsos rectangulares unitarios.


o
+1/2

Rc () =

R1 ( )R2 ( )d.
1/2

Si observamos la Figura 5.9 vemos que para un 0, R2 ( ) ha desplazado su soporte a


[1/2+, 1/2+] y el producto R1 ( )R2 ( ) es igual a la unidad en el intervalo [1/2+, 1/2].
El valor de Rc () ser el rea del recinto punteado, A = 1 . El razonamiento es igualmente
a a
vlido para < 0 y la conclusin es que Rc ( ) es una funcin triangular,
a
o
o
Rc () =

1 ||,
0,

si || 1;
si || > 1.

La conclusin es que la autocorrelacin triangular es la convolucin de sendas autocorrelao


o
o
ciones pulsos rectangulares. Pero es sabido que
F[R1 R2 ] = F[R1 ]F[R2 ].
En nuestro caso si R1 ( ) = R2 ( ) son pulsos rectangulares de soporte [T /2, T /2] y altura

1/ T , la expresin (5.28) se obtiene de inmediato.


o

5.2 Estimacin de la densidad espectral de potencia


o

R (-)
2

R ()

125

) (R=A
- +

Figura 5.9: Convolucin de dos pulsos rectangulares


o
Densidad espectral de potencia cruzada
Cuando tenemos dos procesos estocsticos, Xt e Yt , ambos WSS, se dene la funcin de
a
o
autocorrelacin cruzada mediante,
o
RXY ( ) = E(Xt+ Yt ).
Anlogamente, podemos denir su densidad espectral cruzada, PXY (), como F[RXY ( )], que
a
es en general un funcin compleja.
o

5.2.

Estimacin de la densidad espectral de potencia


o

La Inferencia Estad
stica nos ensea que la estimacin de cualquier caracter
n
o
stica ligada
a un fenmeno aleatorio exige la observacin repetida del mismo, que proporciona lo que deo
o
nominamos una muestra aleatoria. As la media poblacional, , de una variable aleatoria X
,
n

podemos estimarla mediante la media muestral, Xn = i=1 Xi , obtenida a partir de una muestra aleatoria de tamao n, X1 , . . . , Xn . Lo esencial de este procedimiento es la repetibilidad del
n
experimento, unica forma de conseguir la n observaciones que componen la muestra.

Nuestro objetivo es ahora estimar caracter


sticas ligadas a un proceso estocstico, en cona
creto su PSD, y el problema que se nos plantea es la imposibilidad de obtener una muestra del
proceso. Lo que s est a nuestro alcance es poder efectuar una unica observacin del proceso a

o
lo largo del tiempo, incluso durante un periodo largo de tiempo. Cmo obtener estimaciones
o
en tales condiciones? Necesitamos introducir el concepto de ergodicidad.

5.2.1.

Ergodicidad

La ergodicidad es una propiedad por la cual las medias a lo largo del tiempo convergen a los
valores esperados poblacionales. Existen diferentes tipos de ergodicidad, segn la caracter
u
stica
poblacional involucrada. Deniremos algunas de ellas, que nos han de ser utiles en cuanto sigue.

Denicin 5.3 (Ergodicidad en media) Decimos que un proceso WSS es ergdico en meo
o
dia si la media temporal converge en media cuadrtica a la media del proceso, ,
a
1

XT =
2T

+T

m.s.

Xt dt , cuando T .
T

126

Transformacin lineal de un proceso estacionario


o

An cuando consideramos fuera del alcance de estas notas las demostraciones de las propiedau
des de los estimadores ergdicos, y de las relaciones entre los distintos de ergodicidad, s las
o

mencionaremos. El estimador XT es un estimador insesgado de y su varianza depende de la


funcin de autocovarianza.
o
Denicin 5.4 (Ergodicidad en autocorrelacin) Decimos que un proceso WSS es ergdio
o
o
co en autocorrelacin si
o
+T
1
m.s.
Xt+ Xt dt R( ), .
2T T
Si denimos un nuevo proceso para cada k mediante
Y (t) = Xt+ Xt ,
la ergodicidad en autocorrelacin admite una caracterizacin alternativa, como nos muestra el
o
o
siguiente teorema.
Teorema 5.1 Un proceso estocstico WSS, Xt , es ergdico en autocorrelacin si y solo si
a
o
o
1
2T

5.2.2.

+T

1
T

|u|
2T

m.s.

CY (u)du 0, .

Periodograma: denicin y propiedades


o

La estimacin de la densidad espectral de potencia puede llevarse a cabo de dos formas


o
distintas. La primera se basa en la denicin de la PSD como F[R( )], supone estimar en primer
o
lugar la funcin de autocorrelacin y estimar a continuacin la PSD mediante la transformada
o
o
o
de Fourier de dicha estimacin. La segunda obtiene la PSD directamente de los datos a partir
o
de lo que se conoce como el periodograma.
Denicin 5.5 (Periodograma) Sean X0 , X1 , . . . , Xn1 , n observaciones de un proceso WSS,
o
Xt , discreto en el tiempo. Sea xn () la transformada de Fourier discreta de dichas observacio
nes,
n1

xn () =

Xj exp(i2j).

(5.29)

j=0

Se dene el periodograma, como el cuadrado medio de dicha transformada,


In () =

1
|n ()|2 .
x
n

(5.30)

Si tenemos en cuenta que |n ()|2 es una medida de la energ del proceso en la frecuencia ,
x
a
In (), la media temporal de dicha energ es una estimacin de la potencia en .
a,
o
La justicacin de porqu el periodograma es un estimador adecuado para la PSD la encono
e
tramos al calcular la esperanza de (5.30). Tengamos primero en cuenta que

|n ()|2 =
x

Xj exp(i2j)

n1
j=0

n1

Xj exp(i2k) ,
k=0

5.2 Estimacin de la densidad espectral de potencia


o

127

por tratarse de una variable aleatoria compleja. Calculemos ahora la esperanza.

n1
n1

1
E[In ()] =
E
Xj ei2j
Xk ei2k

n
j=0

1
n

n1 n1

1
n

k=0

n1 n1

E(Xj Xk )ei2(jk)
j=0 k=0

RX (j k)ei2(jk) .

(5.31)

j=0 k=0

La expresin (5.31) puede simplicarse si tenemos en cuenta que el argumento j k toma valores
o
entre (n 1) y n 1, tantos como diagonales tiene el ret
culo [0, 1, . . . , n 1] [0, 1, . . . , n 1],
puesto que en cada una de esas diagonales j k toma el mismo valor. As pues, haciendo

j k = m,
E[In ()]

1
n

n1

(n |m|)RX (m)ei2m
m=(n1)
n1

1
m=(n1)

|m|
n

RX (m)ei2m .

(5.32)

La consecuencia inmediata de (5.32) es que In () es un estimador asintticamente insesgado de


o
PX (), lo que justica su eleccin. Es deseable que la varianza del estimador sea pequea, en
o
n
particular que sea asintticamente 0. No es el caso del periodograma, puede demostrarse que
o
para un proceso WSS,
var[In ()] P 2 ().
(5.33)
Se trata de un estimador inconsistente, lo que puede conducir a estimaciones con gran variabilidad. En los textos de Diggle (1990) y Stark y Woods (2002) puede el lector encontrar un
desarrollo de estos aspectos.
Si el proceso Xt es un proceso continuo en el tiempo, cuanto hemos dicho para el caso
discreto puede extenderse de forma inmediata. Si observamos el proceso en el intervalo [0, T ],
denimos el periodograma mediante
IT () =
con

1
|T ()|2 ,
x
T
T

xn () =

Xt ei2t dt.

Un desarrollo semejante al que condujo a (5.32) conduce ahora a


+T

E[IT ()] =

1
T

RX ( )ei2 d,

que para T implica


E[IT ()] PX ().

128

Transformacin lineal de un proceso estacionario


o

Periodograma medio. Aproximacin de Bartlett


o
Una forma de disminuir la varianza del periodograma, cuando se dispone del suciente
nmero de observaciones, consiste en dividir stas en subconjuntos consecutivos y estimar un
u
e
periodograma en cada uno de ellos. Con todos ellos podemos calcular un periodograma medio
que posee menor variabilidad.
Si m es un divisor de n, nmero de observaciones, y k el correspondiente cociente, denimos
u
los k subconjuntos de la forma,
X [l] = {Xj+(l1)m , 0 j m 1}, 1 l k.
El periodograma correspondiente a X [l] se dene mediante (5.30),
1
1
[l]
xm
Im () = |[l] ()|2 =
m
m

lm1

Xj exp(i2j) .
j=(l1)m

Denimos ahora el periodograma medio como aqul cuyo valor en cada frecuencia, , es la
e
[l]
media aritmtica de los Im (),
e
B() =

1
k

k
[l]
Im ().

(5.34)

l=1

Este periodograma recibe el nombre de periodograma de Bartlett, que fue quin lo introdujo
e
(Bartlett, 1950). La linealidad de la esperanza implica que este nuevo periodograma es tambin
e
un estimador insesgado de P (). Por lo que respecta a su varianza, podemos obtenerla a partir
[l ]
[l ]
de (5.33) teniendo en cuenta que para m lo sucientemente grande y l1 = l2 , Im1 () y Im2 ()
son incorreladas,
var[B()] =

1
k2

k
[l]
var[Im ()] =
l=1

1
1
[1]
var[Im ()] P 2 ().
k
k

Ejemplo 5.8 En el ejemplo 5.3 de Montes (2007) hemos obtenido la densidad espectral de
potencia del proceso ARMA(2,2)
(1 1,2B + 0,4B 2 )Xt = (1 0,8B + 0,1B 2 )Zt .
Hemos generado 1024 observaciones del proceso que aparecen representadas en el grco de la
a
Figura 5.10.
Para ver el efecto del periodograma medio de Bartlett hemos estimado el periodograma de
las 1024 simulaciones. Hemos calculado sendos periodogramas medios para k = 4 y k = 16. Las
grcas de todos ellos, junto con la densidad espectral de potencia del modelo ARMA(2,2) se
a
muestran conjuntamente en la Figura 5.11. Se aprecia claramente la mejora de la estimacin
o
a medida que k aumenta y tambin la disminucin de la variabilidad, basta para ello observar
e
o
las diferentes escalas para las ordenadas.

129

5.2 Estimacin de la densidad espectral de potencia


o

200

400

600

800

1000

1024 simulacines del proceso ARMA(2,2)

10

15

Figura 5.10: Simulaciones del proceso ARMA(2,2)

100

200

300

400

500

0.0

0.1

0.2

0.3

0.4

0.5

densidad espectral de potencia

0.5

1.5

2.5

3.5

periodograma de las observaciones

20

40

60

80

Bartlett con k=4

100

120

10

15

20

25

30

Bartlett con k=16

Figura 5.11: Periodogramas medios para distintos valores de k

130

Transformacin lineal de un proceso estacionario


o

Bibliograf
a
Bartlett, M. S. (1950). Periodogram analysis and continous spectra. Biometrika. 37, 116
Billingsley, P. (1995). Probability and Measure. 3rd Edition. Wiley, N.Y.
Diggle, P. (1990). Time Series. A Biostatistical Introduction. Oxford University Press, N.Y.
Gnedenko, B. V. (1979). Teor de la Probabilidad. Editorial Mir, Mosc.
a
u
Montes, F. (2007). Procesos Estocsticos para Ingenieros: Teor y Aplicaciones. Materiales
a
a
complementarios. Dpt. destad
stica i I. O. Universitat de Val`ncia.
e
Priestley, M. B. (1981). Spectral analysis and time series. Academic Press, London.
Stark, H. y Woods, J. W. (2002). Probability and random processes: with applications to signal
processing. 3rd Edition. Prentice Hall, N. J.

You might also like