Professional Documents
Culture Documents
a
Teor y Aplicaciones
a
Indice general
1. Probabilidad. Variable aleatoria. Vector aleatorio
1.1. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1. Causalidad y aleatoriedad . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2. Experimento, resultado, espacio muestral y suceso . . . . . . . . . . . .
1.1.3. Probabilidad y sus propiedades . . . . . . . . . . . . . . . . . . . . . . .
1.1.4. Probabilidad condicionada. Teorema de Bayes . . . . . . . . . . . . . . .
1.1.5. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1. Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
o
1.2.2. Probabilidad inducida . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3. Funcin de distribucin de probabilidad . . . . . . . . . . . . . . . . . .
o
o
1.2.4. Funcin de cuant o probabilidad: variable aleatoria discreta . . . . . .
o
a
1.2.5. Algunos ejemplos de variables aleatorias discretas . . . . . . . . . . . . .
1.2.6. Funcin de densidad de probabilidad: variable aleatoria continua. . . . .
o
1.2.7. Algunos ejemplos de variables aleatorias continuas . . . . . . . . . . . .
1.3. Vector aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1. Probabilidad inducida . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.2. Funciones de distribucin conjunta y marginales . . . . . . . . . . . . .
o
1.3.3. Funcin de cuant o probabilidad conjunta: vector aleatorio discreto . .
o
a
1.3.4. Algunos ejemplos de vectores aleatorios discretos . . . . . . . . . . . . .
1.3.5. Funcin de densidad de probabilidad conjunta: vector aleatorio continuo
o
1.3.6. Algunos ejemplos de vectores aleatorios continuos . . . . . . . . . . . . .
1.4. Independencia de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . .
1.5. Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.1. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.2. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6. Funcin de una o varias variables aleatorias . . . . . . . . . . . . . . . . . . . .
o
1.6.1. Caso univariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.2. Caso multivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
1
3
6
8
11
11
12
12
13
14
18
19
24
24
24
26
28
28
32
34
36
36
37
40
40
42
.
.
.
.
.
.
.
45
45
46
47
49
49
49
54
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE GENERAL
2.4. Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1. La distribucin Normal multivariante . . . . . . . . . . . . .
o
2.5. Funcin caracter
o
stica . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.1. Funcin caracter
o
stica e independencia . . . . . . . . . . . . .
2.5.2. Funciones caracter
sticas de algunas distribuciones conocidas
2.5.3. Teorema de inversin. Unicidad . . . . . . . . . . . . . . . . .
o
2.5.4. Teorema de continuidad de Lvy . . . . . . . . . . . . . . . .
e
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
58
60
61
63
63
64
66
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
67
67
68
70
71
73
4. Procesos Estocsticos
a
4.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . .
o
4.2. Deniciones bsicas y descripcin de un proceso estocstico
a
o
a
4.2.1. Trayectoria de un proceso . . . . . . . . . . . . . . .
4.2.2. Distribuciones nito-dimensionales . . . . . . . . . .
4.2.3. Funciones de momento . . . . . . . . . . . . . . . . .
4.3. Algunos procesos estocsticos de inters . . . . . . . . . . .
a
e
4.3.1. Procesos IID . . . . . . . . . . . . . . . . . . . . . .
4.3.2. Ruido blanco . . . . . . . . . . . . . . . . . . . . . .
4.3.3. Proceso Gaussiano . . . . . . . . . . . . . . . . . . .
4.3.4. Proceso de Poisson . . . . . . . . . . . . . . . . . . .
4.3.5. Seal telegrca aleatoria (RTS) . . . . . . . . . . .
n
a
4.3.6. Modulacin por desplazamiento de fase (PSK) . . .
o
4.3.7. Proceso de Wiener. Movimiento Browniano . . . . .
4.3.8. Cadenas de Markov . . . . . . . . . . . . . . . . . .
4.4. Procesos estacionarios . . . . . . . . . . . . . . . . . . . . .
4.4.1. Estacionariedad en sentido amplio (WSS) . . . . . .
4.4.2. Procesos cicloestacionarios . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
75
75
75
76
77
78
80
80
83
83
84
89
91
93
95
102
103
106
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
109
109
109
116
125
125
126
Bibliograf
a
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
128
Cap
tulo 1
Probabilidad
Causalidad y aleatoriedad
1.1.2.
Nuestro interlocutor s que ser capaz de responder que el dado mostrar una de sus caras. Al
a
a
igual que sabemos que la extraccin al azar de una carta de una baraja espaola pertenecer a
o
n
a
uno de los cuatro palos: oros, copas, espadas o bastos. Es decir, el experimento asociado a nuestro
fenmeno aleatorio1 da lugar a un resultado, , de entre un conjunto de posibles resultados.
o
1 Una peque a disquisicin surge en este punto. La aleatoriedad puede ser inherente al fenmeno, lanzar un
n
o
o
dado, o venir inducida por el experimento, extraccin al azar de una carta. Aunque conviene se alarlo, no es
o
n
1.1 Probabilidad
Siguiendo con el desarrollo emprendido parece lgico concluir que todo subconjunto de ser un
o
a
suceso. Antes de admitir esta conclusin conviene una pequea reexin: la nocin de suceso
o
n
o
o
es un concepto que surge con naturalidad en el contexto de la experimentacin aleatoria pero,
o
aunque no hubiera sido as la necesidad del concepto nos hubiera obligado a inventarlo. De
,
la misma forma, es necesario que los sucesos poseean una m
nima estructura que garantice la
estabilidad de las operaciones naturales que con ellos realicemos, entendiendo por naturales
la complementacin, la unin y la interseccin. Esta dos ultimas merecen comentario aparte
o
o
o
para precisar que no se trata de uniones e intersecciones en nmero cualquiera, puesto que ms
u
a
all de la numerabilidad nos movemos con dicultad. Bastar pues que se nos garantice que
a
a
uniones e intersecciones numerables de sucesos son estables y dan lugar a otro suceso. Existe
una estructura algebraica que verica las condiciones de estabilidad que acabamos de enumerar.
Denicin 1.1 (-lgebra de conjuntos) Una familia de conjuntos A denida sobre deo
a
cimos que es una -lgebra si:
a
1. A.
2. A A Ac A.
3. {An }n1 A
n1
An A.
La familia de las partes de , P(), cumple con la denicin y es por tanto una -lgebra de
o
a
sucesos, de hecho la ms grande de las existentes. En muchas ocasiones excesivamente grande
a
para nuestras necesidades, que vienen determinadas por el ncleo inicial de sucesos objeto de
u
inters. El siguiente ejemplo permite comprender mejor este ultimo comentario.
e
Ejemplo 1.1 Si suponemos que nuestro experimento consiste en elegir al azar un nmero en
u
el intervalo [0,1], nuestro inters se centrar en conocer si la eleccin pertenece a cualquiera de
e
a
o
los posibles subintervalos de [0,1]. La -lgebra de sucesos generada a partir de ellos, que es la
a
menor que los contiene, se la conoce con el nombre de -lgebra de Borel en [0,1], [0,1] , y es
a
estrictamente menor que P([0, 1]).
En resumen, el espacio muestral vendr acompaado de la correspondiente -lgebra de sucesos,
a
n
a
la ms conveniente al experimento. La pareja que ambos constituyen, (, A), recibe el nombre
a
de espacio probabilizable.
Sealemos por ultimo que en ocasiones no es posible economizar esfuerzos y A coincide con
n
1.1.3.
hecho muchos y muy diversos intentos para formalizarlo, dando lugar a otras tantas deniciones
de probabilidad que adolec todas ellas de haber sido confeccionadas ad hoc, careciendo por
an
tanto de la generalidad suciente que permitiera utilizarlas en cualquier contexto. No por ello el
inters de estas deniciones es menor, puesto que supusieron sucesivos avances que permitieron
e
a Kolmogorov enunciar su conocida y denitiva axiomtica en 1933. De entre las distintas
a
aproximaciones, dos son las ms relevantes:
a
Mtodo frecuencialista.- Cuando el experimento es susceptible de ser repetido en las mismas
e
condiciones una innidad de veces, la probabilidad de un suceso A, P (A), se dene como
el l
mite2 al que tiende la frecuencia relativa de ocurrencias del suceso A.
Mtodo clsico (Frmula de Laplace).- Si el experimento conduce a un espacio muestral
e
a
o
nito con n resultados posibles, = {1 , 2 , . . . , n }, todos ellos igualmente probables,
la probabilidad de un suceso A que contiene m de estos resultados se obtiene mediante la
frmula
o
m
P (A) = ,
n
conocida como frmula de Laplace, que la propuso a nales del siglo XVIII. La frmula
o
o
se enuncia como el cociente entre el nmero de casos favorables y el nmero de casos
u
u
posibles. Obsrvese la incorrecin formal de esta aproximacin en la medida que exige
e
o
o
equiprobabilidad en los resultados para poder denir, precisamente, la probabilidad, lo
cual implica un conocimiento previo de aquello que se quiere denir.
Las anteriores deniciones son aplicables cuando las condiciones exigidas al experimento son
satisfechas y dejan un gran nmero de fenmenos aleatorios fuera de su alcance. Estos problemas
u
o
se soslayan con la denicin axiomtica propuesta por A.N.Kolmogorov en 1933:
o
a
Denicin 1.2 (Probabilidad) Una funcin de conjunto, P , denida sobre la -lgebra A
o
o
a
es una probabilidad si:
1. P (A) 0 para todo A A.
2. P () = 1.
3. P es numerablemente aditiva, es decir, si {An }n1 es una sucesin de sucesos disjuntos
o
de A, entonces
P(
An ) =
P (An ).
n1
n1
1.1 Probabilidad
Hay un caso particular de especial inters, el llamado espacio de probabilidad discreto unie
1
forme, en el que es nito, = {1 , 2 , . . . , n }, y p(i ) = n , i . Entonces, para
A = {i1 , i2 , . . . , im } se tiene
m
P (A) = ,
n
que es la frmula de Laplace, obtenida ahora con rigor. El nombre de uniforme se justica
o
porque la masa de probabilidad est uniformemente repartida al ser constante en cada punto.
a
Un ejemplo de espacio de probabilidad discreto uniforme es el que resulta de lanzar dos dados.
El espacio muestral, ={(1,1),(1,2),. . .,(6,5),(6,6)}, est formado por las 66 posibles parejas
a
de caras. Si los dados son correctos, cualquiera de estos resultados tiene la misma probabilidad,
1/36. Sea ahora A ={ambas caras son pares}, el nmero de puntos que contiene A son 9, por
u
lo que aplicando la frmula de Laplace, P (A) = 9/36 = 1/4.
o
Propiedades de la probabilidad
De la denicin de probabilidad se deducen algunas propiedades muy utiles.
o
Ai
=P
i=1
Ai =
P (Ai ).
i=1
i1
Ai
i=1
n
P (Ai )
i=1
(1.1)
i<j
Ai
i=1
P (Ai ).
i=1
o
o
Continuidad de la probabilidad.- Sea {An }n1 una sucesin montona de sucesos y sea A
su l
mite. Se demuestra fcilmente que
a
P (A) = P (l An ) = l
m
m P (An ).
n
n+
1.1.4.
Si compramos un nmero para una rifa que se celebra anualmente durante las estas de
u
verano en nuestro pueblo y que est compuesta por 100 boletos numerados del 1 al 100, sabemos
a
que nuestra probabilidad ganar el premio, suceso que designaremos por A, vale
1
100
Supongamos que a la maana siguiente de celebrase el sorteo alguien nos informa que el boleto
n
premiado termina en 5. Con esta informacin, continuaremos pensando que nuestra probabio
lidad de ganar vale 102 ? Desde luego ser absurdo continuar pensndolo si nuestro nmero
a
a
u
termina en 7, porque evidentemente la nueva probabilidad valdr P (A) = 0, pero aunque
a
terminara en 5 tambin nuestra probabilidad de ganar habr cambiado, porque los nmeros
e
a
u
que terminan en 5 entre los 100 son 10 y entonces
P (A) =
P (A) =
1
,
10
1
1/100
P (A B)
=
=
,
10
10/100
P (B)
poniendo en evidencia algo que cab esperar, que la nueva probabilidad a depende de P (B).
a
Estas propiedades observadas justican la denicin que damos a continuacin.
o
o
Denicin 1.3 (Probabilidad condicionada) Sea (, A, P ) un espacio de probabilidad y
o
sean A y B dos sucesos, con P (B) > 0, se dene la probabilidad de A condicionada a B
mediante la expresin,
o
P (A B)
P (A|B) =
.
P (B)
Teorema de factorizacin
o
A partir de la denicin de probabilidad condicionada, la probabilidad de la interseccin de
o
o
dos sucesos puede expresarse de la forma P (AB) = P (A|B)P (B). El teorema de factorizacin
o
extiende este resultado para cualquier interseccin nita de sucesos.
o
Consideremos los sucesos A1 , A2 , . . . , An , tales que P (n Ai ) > 0, por induccin se como
i=1
prueba fcilmente que
a
n
Ai
(1.2)
i=1
Ejemplo 1.3 En una urna que contiene 5 bolas blancas y 4 negras, llevamos a cabo 3 extracciones consecutivas sin reemplazamiento. Cul es la probabilidad de que las dos primeras sean
a
blancas y la tercera negra?
Cada extraccin altera la composicin de la urna y el total de bolas que contiene. De acuerdo
o
o
con ello tendremos (la notacin es obvia)
o
P (B1 B2 N3 ) =
= P (N3 |B1 B2 )P (B2 |B1 )P (B1 ) =
4
7
4
8
5
9
1.1 Probabilidad
P (B) =
P (B Ai ) =
i=1
P (B|Ai )P (Ai ).
(1.3)
i=1
asociada a cada elemento de la particin dado que ha ocurrido B, es decir, P (Ai |B). Para ello,
o
recordemos la denicin de probabilidad condicionada y apliquemos el resultado anterior.
o
P (Ai |B) =
P (Ai B)
=
P (B)
P (B|Ai )P (Ai )
.
P (B|Ai )P (Ai )
n
i=1
Este resultado, conocido como el teorema de Bayes, permite conocer el cambio que experimenta la probabilidad de Ai como consecuencia de haber ocurrido B. En el lenguaje habitual del
Clculo de Probabilidades a P (Ai ) se la denomina probabilidad a priori y a P (Ai |B) probaa
bilidad a posteriori, siendo la ocurrencia de B la que establece la frontera entre el antes y el
despus. Cul es, a efectos prcticos, el inters de este resultado? Vemoslo con un ejemplo.
e
a
a
e
a
Ejemplo 1.4 Tres urnas contienen bolas blancas y negras. La composicin de cada una de
o
ellas es la siguiente: U1 = {3B, 1N }, U2 = {2B, 2N }, U3 = {1B, 3N }. Se elige al azar una de
las urnas, se extrae de ella una bola al azar y resulta ser blanca. Cul es la urna con mayor
a
probabilidad de haber sido elegida?
Mediante U1 , U2 y U3 , representaremos tambin la urna elegida. Estos sucesos constituyen
e
una particin de y se verica, puesto que la eleccin de la urna es al azar,
o
o
P (U1 ) = P (U2 ) = P (U3 ) =
1
.
3
3
2
1
, P (B|U2 ) = , P (B|U3 ) = .
4
4
4
Lo que nos piden es obtener P (Ui |B) para conocer cul de las urnas ha originado, ms probaa
a
blemente, la extraccin de la bola blanca. Aplicando el teorema de Bayes a la primera de las
o
urnas,
1 3
4
3
P (U1 |B) = 1 3 3 2 1 1 = ,
1
6
4+34+34
3
y para las otras dos, P (U2 |B) = 2/6 y P (U3 |B) = 1/6. Luego la primera de las urnas es la que
con mayor probabilidad di lugar a una extraccin de bola blanca.
o
o
El teorema de Bayes es uno de aquellos resultados que inducen a pensar que la cosa no era
para tanto. Se tiene ante l la sensacin que produce lo trivial, hasta el punto de atrevernos
e
o
a pensar que lo hubiramos podido deducir nosotros mismos de haberlo necesitado, aunque
e
afortunadamente el Reverendo Thomas Bayes se ocup de ello en un trabajo titulado An Essay
o
towards solving a Problem in the Doctrine of Chances, publicado en 1763. Conviene precisar
que Bayes no plante el teorema en su forma actual, que es debida a Laplace.
o
1.1.5.
Independencia
La informacin previa que se nos proporcion sobre el resultado del experimento modic la
o
o
o
probabilidad inicial del suceso. Ocurre esto siempre? Vemoslo.
a
Supongamos que en lugar de comprar un unico boleto, el que lleva el nmero 35, hubiramos
u
e
comprado todos aquellos que terminan en 5. Ahora P (A) = 1/10 puesto que hemos comprado 10
boletos, pero al calcular la probabilidad condicionada a la informacin que se nos ha facilitado,
o
B ={el boleto premiado termina en 5 }, observemos que P (AB) = 1/100 porque al interseccin
o
de ambos sucesos es justamente el boleto que est premiado, en denitiva
a
P (A|B) =
P (A B)
1/100
1
=
=
,
P (B)
10/100
10
la misma que originalmente ten A. Parecen existir situaciones en las que la informacin prea
o
via no modica la probabilidad inicial del suceso. Observemos que este resultado tiene una
consecuencia inmediata,
P (A B) = P (A|B)P (B) = P (A)P (B).
Esta es una situacin de gran importancia en probabilidad que recibe el nombre de indeo
pendencia de sucesos y que generalizamos mediante la siguiente denicin.
o
Denicin 1.4 (Sucesos independientes) Sean A y B dos sucesos. Decimos que A y B son
o
independientes si P (A B) = P (A)P (B).
De esta denicin se obtiene como propiedad,
o
P (A|B) =
P (A B)
P (A)P (B)
=
= P (A),
P (B)
P (B)
P (Ak1 . . . Akm ) =
P (Aki )
(1.4)
i=1
1.1 Probabilidad
(1 p)(1 )
1 p
(1 p)
Entrada
1
1
Salida
p(1 )
De acuerdo con el esquema de la gura, las probabilidades del tipo P (Ai Bi ), supuesta
independencia entre las acciones del emisor y del receptor, valen
P (A0 B0 ) = (1 p)(1 ), P (A0 B1 ) = (1 p)
P (A1 B0 ) = p,
P (A1 B1 ) = p(1 ).
Es interesante, en este contexto, conocer las probabilidades del tipo P (Ai |Bj ), con i, j = 0, 1. Es
decir, la probabilidad de que habiendo el receptor interpretado la seal como j la que realmente
n
se transmiti fuera i. De particular inters son, obviamente, P (A0 |B0 ) y P (A1 |B1 ).
o
e
Para obtener estas probabilidades podemos hacer uso del Teorema de Bayes,
P (Ai |Bj ) ==
n
i=1
(1.5)
10
B0
B1
A0
(1 )(1 p)
(1 )(1 p) + p
(1 p)
(1 )(1 p) + p
A1
p
(1 p) + (1 )p
(1 )p
(1 p) + (1 )p
1.2.
1.2.1.
11
Variable aleatoria
Denicin
o
(1.6)
Cuando hacemos intervenir una variable aleatoria en nuestro proceso es porque ya estamos en
presencia de un espacio de probabilidad, (, A, P ). La variable aleatoria traslada la informacin
o
probabil
stica relevante de a R mediante una probabilidad inducida que se conoce como ley
de probabilidad de X o distribucin de probabilidad de X.
o
El concepto de -lgebra inducida
a
Dada la denicin de variable aleatoria, es muy sencillo comprobar el siguiente resultado.
o
Lema 1.1 La familia de sucesos
(X) = {X 1 (B), B } = {X 1 ()},
es una -lgebra, denominada -lgebra inducida por X, que verica (X) A.
a
a
A los efectos de conocer el comportamiento probabil
sticos de una variable aleatoria X, tres
funciones nos proporcionan la informacin necesaria:
o
12
la probabilidad inducida, PX ,
la funcin de distribucin de probabilidad, FX , y
o
o
la funcin de cuant o probabilidad, si la variable es discreta, o la funcin de densidad de
o
a
o
probabilidad, si la variables es continua, en ambos casos denotada por fX .
Sus deniciones y propiedades se describen a continuacin. Se puede demostrar, aunque est fueo
a
ra del objetivo y alcance de estas notas, la equivalencia entre las tres funciones,
PX FX fX .
Es decir, el conocimiento de una cualquiera de ellas permite obtener las otras dos.
1.2.2.
Probabilidad inducida
1
.
6
1.2.3.
(1.7)
o
PF1) No negatividad.- Consecuencia inmediata de su denicin.
o
PF2) Monoton
a.- De la monoton de la probabilidad se deduce fcilmente que FX (x1 )
a
a
FX (x2 ) si x1 x2 .
13
FX (x) = P (X = x) + l
m FX
n+
1
n
= P (X = x) + F (x),
(1.8)
PF4) Valores l
mites.- Si xn + o xn entonces (, xn ] R y (, xn ] y por
tanto
F (+) = l
m F (xn ) = 1, F () = l
m F (xn ) = 0.
xn +
xn
1.2.4.
Existe una segunda funcin de punto que permite describir el comportamiento de X, pero
o
para introducirla hemos de referirnos primero a las caracter
sticas del soporte de X, entendiendo
por tal un conjunto DX que verica, PX (DX ) = P (X DX ) = 1.
Cuando DX es numerable, PX es discreta y decimos que X es una variable aleatoria discreta.
Como ya vimos en un ejemplo del cap
tulo anterior, PX ({xi }) = P (X = xi ) > 0, xi DX ,
c
y siendo adems P (X DX ) = 1, se deduce P (X = x) = 0, x DX . En este caso es fcil
a
a
comprobar que la FX asociada viene dada por
FX (x) =
P (X = xi ).
(1.9)
xi x
De acuerdo con esto, si x(i) y x(i+1) son dos puntos consecutivos del soporte tendremos que x
c
[x(i) , x(i+1) [, FX (x) = FX (x(i) ). Como adems PX (x) = 0, x DX , la funcin ser tambin
a
o
a
e
continua. Por otra parte P (X = xi ) > 0, para xi DX , con lo que los unicos puntos de
discontinuidad sern lo del soporte, discontinuidad de salto nito cuyo valor es FX (x(i) )
a
FX (x(i1) ) = P (X = xi ). Se trata por tanto de una funcin escalonada, cuyos saltos se producen
o
en los puntos de DX .
A la variable aleatoria discreta podemos asociarle una nueva funcin puntual que nos ser de
o
a
gran utilidad. La denimos para cada x R mediante fX (x) = PX ({x}) = P (X = x), lo que
supone que
P (X = x), si x DX
fX (x) =
0,
en el resto.
Esta funcin es conocida como funcin de cuant o de probabilidad de X y posee las dos
o
o
a
propiedades siguientes:
Pfc1) Al tratarse de una probabilidad, fX (x) 0, x R,
14
Pfc2) Como P (X DX ) = 1,
fX (xi ) = 1.
xi DX
La relacin entre fX y FX viene recogida en las dos expresiones que siguen, cuya obtencin
o
o
es evidente a partir de (1.8) y (1.9). La primera de ellas permite obtener FX a partir de fX ,
FX (x) =
fX (xi ).
xi x
1.2.5.
X
x!
fX (x) =
0,
en el resto,
que cumple las propiedades Pfc1) y Pfc2). La funcin de distribucin tiene por expresin
o
o
o
FX (x) =
nx
e n
.
n!
15
n x
p (1 p)nx , si x DX
x
fX (x) =
0,
en el resto,
que se comprueba fcilmente que verica Pfc1) y Pfc2).
a
Cuando llevamos a cabo un experimento aleatorio cuyos rasgos esenciales son:
1. se llevan a cabo n repeticiones independientes de una misma prueba en las mismas condiciones,
2. en cada repeticin observamos la ocurrencia (xito) o no (fracaso) de un mismo suceso,
o
e
A, y
3. la probabilidad de xito es la misma en cada repeticin, P (A) = p,
e
o
la variable que describe el nmero de xitos alcanzado en las n repeticiones, es una Binomial
u
e
de parmetros n y p.
a
Fenmenos aleatorios aparentemente tan diferentes como el nmero de hijos varones de un
o
u
matrimonio con n hijos o el nmero de caras obtenidas al lanzar n veces una moneda correcta,
u
son bien descritos mediante un variable Binomial. Este hecho, o el anlogo que sealbamos en
a
n a
el ejemplo anterior, ponen de maniesto el papel de modelo aleatorio que juega una variable
aleatoria, al que alud
amos en la introduccin. Esta es la razn por la que en muchas ocasiones
o
o
se habla del modelo Binomial o del modelo Poisson.
Hagamos por ultimo hincapi en un caso particular de variable aleatoria Binomial. Cuando
e
n = 1 la variable X B(1, p) recibe el nombre de variable Bernoulli y se trata de una variable
que solo toma los valores 0 y 1 con probabilidad distinta de cero. Es por tanto una variable
dicotmica asociada a experimentos aleatorios en los que, realizada una sola prueba, nos intereo
samos en la ocurrencia de un suceso o su complementario. Este tipo de experimentos reciben el
nombre de pruebas Bernoulli.
La distribucin de Poisson como l
o
mite de la Binomial.- Consideremos la sucesin
o
de variables aleatorias Xn B(n, pn ) en la que a medida que n aumenta, pn disminuye
de forma tal que npn . Ms concretamente, npn . Tendremos para la funcin de
a
o
cuant
a,
n x
n!
fXn (x) =
p (1 pn )nx =
px (1 pn )nx ,
x n
x!(n x)! n
y para n sucientemente grande,
fXn (x)
=
n!
x!(n x)! n
nx
x n(n 1) (n x + 1)
1
x
x!
n
n
Al pasar al l
mite,
n(n 1) (n x + 1)
1,
nx
e ,
1,
16
y tendremos
e x
.
n+
x!
La utilidad de este resultado reside en permitir la aproximacin de la funcin de cuant
o
o
a
de una B(n, p) mediante la funcin de cuant de una P o( = np) cuando n es grande y
o
a
p pequeo.
n
l
m fXn (x) =
N r
r
x
nx
, si x DX
N
fX (x) =
0,
en el resto,
que cumple de inmediato la condicin Pfc1). Para comprobar Pfc2) debemos hacemos uso de
o
una conocida propiedad de los nmeros combinatorios,
u
n
i=0
a
i
b
ni
a+b
.
n
n
r, la composicin de la urna variar poco de extraccin a extraccin y existir lo que podr
o
a
o
o
a
amos
denominar una quasi-independencia y la distribucin Hipergeomtrica deber comportarse como
o
e
a
una Binomial. En efecto,
fX (x) =
=
=
con p = r/N .
r
x
N r
nx
N
n
(N r)!
n!(N n)!
r!
x N
N 1
N x+1 N x N x1
N rn+x+1
N n+1
n x
p (1 p)nx ,
x
17
r+x1 r
p (1 p)x , si x 0
x
fX (x) =
0,
en el resto.
El nombre de Binomial negativa se justica a partir de la expresin alternativa que admite la
o
funcin de cuant
o
a,
fX (x) =
r r
p ((1 p))x , si x 0
x
0,
en el resto,
(r)(r 1) (r x + 1)
x!
x
(1) r(r + 1) (r + x 1)
=
x!
(1)x (r 1)!r(r + 1) (r + x 1)
=
(r 1)!x!
r+x1
= (1)x
.
x
=
i0
n+i1 i
x,
i
|x| < 1.
En nuestro caso
fX (x) =
x0
r+x1 r
p (1 p)x = pr
x
x0
r+x1
1
(1 p)x = pr
= 1.
x
(1 (1 p))r
p(1 p)x , si x 0
fX (x) =
0,
en el resto.
18
1.2.6.
FX (x) =
f (t) dt.
f (x) dx.
a
f (x) dx = 1.
y = f (x)
X
f (x)dx
X
xd+x x
La fdp es sencillamente eso, una densidad lineal de probabilidad que nos indica la cantidad
de probabilidad por elemento innitesimal de longitud. Es decir, fX (x) dx P (X ]x, x + dx]).
Ello explica que, para elementos con longitud cero, sea nula la correspondiente probabilidad.
En este contexto, la probabilidad obtenida a travs de la integral de Riemann pertinente se
e
asimila a un rea, la encerrada por fX entre los l
a
mites de integracin.
o
1.2.7.
19
, si x [a, b]
ba
fX (x) =
0,
en el resto.
La funcin de distribucin que obtendremos integrando fX vale
o
o
si x a
0,
xa
, si a < x b
FX (x) =
ba
1,
si x > b.
Surge esta variable cuando elegimos al azar un punto en el intervalo [a,b] y describimos con X
su abscisa.
Variable aleatoria Normal
Diremos que X es una variable aleatoria Normal de parmetros y 2 , X N (, 2 ), si
a
tiene por densidad,
(x )2
1
2 2 , < x < +.
fX (x) = e
(1.10)
2
En tanto que densidad, fX debe satisfacer las propiedades Pfdp1) y Pfdp2). La primera se
deriva de inmediato de (1.10). Para comprobar la segunda,
I
fX (x)dx
fX (x)dx
fX (y)dy
1 1
2
1 1
2
1
2
(x )2
1
2 2 dx
e
z2
1
e 2 dz
1
2
(y )2
2 2 dy
e
(1.11)
v2
e 2 dv
(1.12)
z2 + v2
2 dzdv
e
(1.13)
r2
e 2 rdr d = 1,
(1.14)
20
0,9
0,8
= 0,5
0,7
0,6
0,5
0,4
0,3
=1
0,2
=2
0,1
0
-2
-1
La gura ilustra el papel que los parmetros juegan en la forma y posicin de la grca de
a
o
a
la funcin de densidad de una N (, 2 ). A medida que disminuye se produce un mayor apuno
tamiento en la campana porque el mximo aumenta y porque, recordemos, el rea encerrada
a
a
bajo la curva es siempre la unidad.
Una caracter
stica de la densidad de la Normal es que carece de primitiva, por lo que su
funcin de distribucin no tiene expresin expl
o
o
o
cita y sus valores estn tabulados o se calculan
a
por integracin numrica. Esto representa un serio inconveniente si recordamos que P (a < X
o
e
b) = FX (b) FX (a), puesto que nos obliga a disponer de una tabla distinta para cada par de
valores de los parmetros y .
a
En realidad ello no es necesario, adems de que ser imposible dada la variabilidad de
a
a
ambos parmetros, porque podemos recurrir a la que se conoce como variable aleatoria Normal
a
tipicada, Z N (0, 1), cuya densidad es
z2
1
fZ (z) = e 2 , < z < +.
2
En efecto, si para X N (, 2 ) queremos calcular
x
1
FX (x) =
2
(t )2
2 2 dt,
e
z2
e 2 dz =
21
yb
a
= FX
yb
a
Su funcin de densidad es
o
fY (y) = FY (y) =
1
fX
a
yb
a
a 2
exp
1
2
y (a + b)
a
Si a < 0 entonces
FY (y) = P (Y y) = P (aX + b y) = P
yb
a
= 1 FX
yb
a
y la densidad ser
a
1
fY (y) = FY (y) = fX
a
yb
a
1
1
exp
2
|a| 2
y (a + b)
a
0,
si x 0
ex , si x > 0, > 0.
si x 0
0,
FX (x) =
x t
e
dt = 1 ex , si x > 0.
0
La distribucin exponencial surge en problemas relacionados con tiempos de espera y est reo
a
lacionada con la distribucin de Poisson de igual parmetro. En efecto, si consideramos un
o
a
proceso de desintegracin radiactiva con desintegraciones por unidad de tiempo, el nmeo
u
ro de desintegraciones que se producen en el intervalo [0,t] es Nt P o(t), y el tiempo que
transcurre ente dos desintegraciones consecutivas es X Exp().
22
P (X > x + t)
e(x+t)
P ({X > x + t} {X > t})
=
=
= ex = P (X > x).
P (X > t)
P (X > t)
et
(1.15)
0,
fX (x) =
si x 0
1
x1 ex/ ,
()
() =
y 1 ey dy, > 0.
1
1
x1 ex/ dx =
()
()
y 1 ey dy =
1
() = 1.
()
Los valores de la funcin de distribucin FX (x) aparecen tabulados, con tablas para las difeo
o
rentes combinaciones de los parmetros y .
a
Obsrvese que la distribucin Exponencial de parmetro es un caso particular de la Game
o
a
ma. En concreto Exp() = Gamma(1, 1/).
Observacin 1.1 Nos ser de utilidad ms tarde recordar alguna caracter
o
a
a
stica adicional de
la funcin Gamma. En particular la obtencin de sus valores cuando = n o = n + 1 , n
o
o
2
natural. Es fcil comprobar, mediante sucesivas integraciones por partes, que
a
() = ( 1)( 1) = ( 1)( 2)( 2),
lo que para = n da lugar a
(n) = (n 1)(n 2) . . . 2(1).
Pero
(1) =
0
ex dx = 1
(n) = (n 1)!.
23
1
2
1
deberemos calcular ( 2 ),
t2
2 2
t2 /2
=
e x
dx = y =
= 2
e
dt =
= .
(1.16)
2
2
0
0
La ultima integral en (1.16), dividida por 2, es la mitad del rea que cubre la fdp de la
a
N (0, 1).
1
2
x 1/2
24
1.3.
Vector aleatorio
1.3.1.
Probabilidad inducida
1.3.2.
{Xi xi } .
(1.17)
i=1
xi +
o bien,
l
m F (x1 , . . . , xk ) = 0.
xi
25
que no son ms que la versin multidimensional de las propiedades ya conocidas para el caso
a
o
unidimensional. Existe ahora una quinta propiedad sin la cual no ser posible recorrer el camino
a
inverso, obtener PX a partir de FX , y establecer la deseada y conveniente equivalencia entre
ambos conceptos.
PFC5) Supongamos que k = 2 y consideremos el rectngulo (a, b] = (a1 , b1 ] (a2 , b2 ] tal como
a
lo muestra la gura. Indudablemente PX (]a, b]) 0 , pero teniendo en cuenta (1.17)
podemos escribir,
PX (]a, b]) = FX (b1 , b2 ) FX (b1 , a2 ) FX (a1 , b2 ) + FX (a1 , a2 ) 0.
Funciones de distribucin marginales
o
Si el vector es aleatorio cabe pensar que sus componentes tambin lo sern. En efecto, la
e
a
siguiente proposicin, de sencilla demostracin, establece una primera relacin entre el vector
o
o
o
y sus componentes.
Proposicin 1.1 X = (X1 , . . . , Xk ) es un vector aleatorio si y solo si cada una de sus compoo
nentes es una variable aleatoria.
Si las componentes del vector son variables aleatorias tendrn asociadas sus correspondiena
tes probabilidades inducidas y funciones de distribucin. La nomenclatura hasta ahora utilizada
o
necesita ser adaptada, lo que haremos aadiendo los adjetivos conjunta y marginal, respectin
vamente. Puesto que PX y FX describen el comportamiento conjunto de las componentes de
X, nos referiremos a ellas como distribucin conjunta y funcin de distribucin conjunta del
o
o
o
vector X, respectivamente. Cuando, en el mismo contexto, necesitemos referirnos a la distribucin de alguna componente lo haremos aludiendo a la distribucin marginal o a la funcin de
o
o
o
distribucin marginal de Xi .
o
La pregunta que surge de inmediato es, qu relacin existe entre la distribucin conjunta
e
o
o
y las marginales? Estamos en condiciones de dar respuesta en una direccin: cmo obtener la
o
o
distribucin marginal de cada componente a partir de la conjunta. Para ello, basta tener en
o
cuenta que
k
l
m
j=i
{Xj xj } = {Xi xi },
xj j=1
(1.18)
xj
{X Sx } =
{Xi xi },
i=1
l
m
xi
i=i1 ,...,il
{X Sx }.
26
l
m
xi
i=i1 ,...,il
FX (x1 , . . . , xk ).
Ejemplo 1.7 Elegimos un punto al azar sobre el tringulo T de vrtices (0,0), (1,0), (0,2).
a
e
3y
)2,3x(
)2y,2/2y-1(
2
2y
)3x2-2,3x(
)4y,2/4y-1(
P ((X, Y ) A) =
4y
)4y,1(
1y
)2x2-2,2x(
4x
2x + y = 2
AT
,
T
2x
3x 1x
0,
xy,
xy (x + y/2 1)2 ,
FXY (x, y) =
x2
2x 2 ,
y y /4,
1,
si
si
si
si
si
si
x 0 o y 0;
(x, y) es del tipo
(x, y) es del tipo
(x, y) es del tipo
(x, y) es del tipo
x 1 e y 2;
1
2
3
4
;
;
;
;
Observemos que las expresiones de FXY (x, y) correspondientes a puntos del tipo 3 y 4 dependen
solamente de x e y, respectivamente. Si recordamos la obtencin de la funcin de distribucin
o
o
o
marginal veremos que se corresponden con FX (x) y FY (y), respectivamente.
1.3.3.
Si el soporte, DX , del vector es numerable, lo que supone que tambin lo son los de cada una
e
de sus componentes, diremos que X es un vector aleatorio discreto. Como en el caso unidimensional, una tercera funcin puede asociarse al vector y nos permite conocer su comportamiento
o
aleatorio. Se trata de la funcin de cuant o probabilidad conjunta y su valor, en cada punto
o
a
de Rk , viene dado por
fX (x1 , . . . , xk ) =
27
Pfcc2) Como P (X DX ) = 1,
x1
fX (x1 , x2 , . . . , xk ) = 1, (x1 , x2 , . . . , xk ) DX .
xk
fX (y1 , y2 , . . . , yk ),
yx, yDX
y
fX (x1 , x2 , . . . , xk ) = FX (x1 , x2 , . . . , xk ) FX (x1 , x2 , . . . , xk ).
De ambas expresiones se deduce la equivalencia entre ambas funciones y tambin la de stas
e
e
con PX ,
PX FX fX .
Funciones de cuant marginales
a
Si el vector aleatorio X es discreto tambin lo sern cada una de sus componentes. Si por
e
a
Di designamos el soporte de Xi , i = 1, . . . , k, se verica,
{Xi = xi } =
xj Dj , j=i
{Xj = xj } ,
j=1
siendo disjuntos los elementos que intervienen en la unin. Al tomar probabilidades tendremos
o
fXi (xi ) =
fX (x1 , . . . , xk ),
xj Dj , j=i
fX (x1 , . . . , xk ).
xj Dj , j=i1 ,...,il
Ejemplo 1.8 Supongamos un experimento consistente en lanzar 4 veces una moneda correcta.
Sea X el numero de caras en los 3 primeros lanzamientos y sea Y el nmero de cruces en los
u
3 ultimos lanzamientos. Se trata de un vector discreto puesto que cada componente lo es. En
0
0
0
1/16
1/16
2/16
1
0
2/16
3/16
1/16
6/16
2
1/16
3/16
2/16
0
6/16
3
1/16
1/16
0
0
2/16
fY (y)
2/16
6/16
6/16
2/16
1
28
1.3.4.
n!
pni , si 0 ni n, i = 1, . . . , k,
ni = n
n1 !n2 ! . . . nk ! i=1 i
fX (n1 , . . . , nk ) =
0,
en el resto,
que verica Pfcc1) y Pfcc2), porque es no negativa y al sumarla para todos los posibles
n1 , n2 , . . . , nk obtenemos el desarrollo del polinomio (p1 + p2 + . . . + pk )n , de suma 1 porque los
Ai constitu una particin de .
an
o
Para obtener la marginal de Xi observemos que
k
n!
pni =
n1 !n2 ! . . . nk ! i=1 i
n ni
(n ni )!
p
ni i n1 ! . . . ni1 !ni+1 ! . . . nk !
pj j ,
j=i
n ni
p
ni i
(n ni )!
n1 ! . . . ni1 !ni+1 ! . . . nk !
pj j ,
j=i
n ni
p (p1 + . . . + pi1 + pi+1 + . . . + pk )nni
ni i
n ni
p (1 pi )nni ,
ni i
llegamos a la conclusin que Xi B(n, pi ), como era de esperar, pues al jar Xi slo nos
o
o
interesamos por la ocurrencia de Ai y el experimento que llevamos a cabo puede ser descrito
mediante un modelo Binomial.
1.3.5.
b1
...
ak
Al igual que ocurr en el caso unidimensional, esta funcin tiene dos propiedades que la caraca
o
terizan,
Pfdpc1) fX (x) es no negativa, y
29
Pfdcp2) como P (X Rk ) = 1,
+
...
x1
FX (x1 , . . . , xk ) = PX (Sx ) =
...
(1.20)
y si x Rk es un punto de continuidad de fX ,
fX (x1 , . . . , xk ) =
k FX (x1 , . . . , xk )
.
x1 , . . . , xk
(1.21)
l
m FX (x1 , . . . , xk )
j=i
xj
+
xi
...
...
Pero la derivada de FXi es una de las densidades de Xi y como las condiciones de la densidad
conjunta permiten tambin intercambiar derivacin e integracin, tendremos nalmente
e
o
o
fXi (xi ) =
=
Rk1
(1.22)
fX (t1 , . . . , tk )
dtj .
j=i1 ,...,il
Ejemplo 1.9 La funcin de densidad conjunta del vector aleatorio bidimensional (X, Y ) viene
o
dada por
8xy, si 0 y x 1
fXY (x, y) =
0,
en el resto.
Si queremos obtener las marginales de cada componente, tendremos para X
x
fX (x) =
8xydy = 4x3 , 0 x 1,
fY (y) =
8xydx = 4y(1 y 2 ), 0 y 1,
30
y cero en el resto.
Obtengamos ahora la funcin de distribucin conjunta, FXY (x, y). Observemos para ello el
o
o
grco, la funcin de densidad es distinta de 0 en la regin A por lo que FXY (x, y) = 0 si x 0
a
o
o
o y 0.
B
A
(x,y)
E
y
Si (x, y) A,
FXY (x, y) =
FXY (x, y) =
8uvdv du +
0
8uvdv du = y 2 (2x2 y 2 ).
(1.23)
B
1
y
(x,y)
A
E
As pues,
FXY (x, y) =
0
8uvdv du = x4 .
(1.24)
Observemos que (1.24) puede obtenerse a partir de (1.23) haciendo y = x. En efecto, de acuerdo
con (1.18), (1.24) no es ms que FX (x), la funcin de distribucin marginal de X.
a
o
o
31
o
(1.23).
Resumiendo
si x 0 o y 0;
0,
2
y (2x2 y 2 ), si (x, y) A;
x4 ,
si (x, y) B;
FXY (x, y) =
2
y (2 y 2 ),
si (x, y) E;
1,
si (x, y) D.
Ejemplo 1.10 La funcin de densidad conjunta del vector (X1 , X2 , X3 ) es
o
48x1 x2 x3
, si x1 , x2 , x3 0
f (x1 , x2 , x3 ) =
(1 + x2 + x2 + x2 )4
1
2
3
0,
en el resto.
Obtengamos en primer lugar las densidades marginales de cada componente. Dada la simetr
a
de la densidad conjunta bastar con obtener una cualquiera de ellas.
a
f1 (x1 )
=
0
48x1 x2 x3
dx2 dx3
(1 + x2 + x2 + x2 )4
3
2
1
48x1
=
0
=
Luego
x3
dx3 dx2
(1 + x2 + x2 + x2 )4
1
2
3
x2
8x1 x2
dx2
(1 + x2 + x2 )3
1
2
(1.25)
2x1
.
(1 + x2 )2
1
2xi
,
fi (xi ) =
(1 + x2 )2
i
0,
si xi 0
(1.26)
en el resto.
8xi xj
, si xi , xj 0
(1 + x2 + x2 )3
fij (xi , xj ) =
i
j
0,
en el resto.
Para obtener la funcin de distribucin conjunta recordemos que
o
o
3
F (x1 , x2 , x3 ) = P (Xi xi , i = 1, 2, 3) = P
x1
{Xi xi }
i=1
x2
x3
f (u, v, z)dudvdz.
0
32
F (x1 , x2 , x3 ) = 1 P
{Xi xi }
=1P
i=1
Ai
i=1
F (x1 , x2 , x3 ) = 1
P (Ai Aj ) + P (A1 A2 A3 ) .
P (Ai )
i=1
(1.27)
1i<j3
La obtencin de las probabilidades que aparecen en (1.27) involucran a las densidades antes
o
calculadas. As para P (Ai )
,
1
2u
du =
.
(1 + u2 )2
1 + x2
i
Para P (Ai Aj ),
P (Ai Aj ) =
=
xi
xj
8uv
dudv
(1 + u2 + v 2 )3
1
.
1 + x2 + x2
i
j
Finalmente
P (A1 A2 A3 ) =
ds
x1
x2
x3
1
48uvz
.
dudvdz =
(1 + u2 + v 2 + z 2 )4
1 + x2 + x2 + x2
3
2
1
F (x1 , x2 , x3 ) = 1
i=1
1.3.6.
1
+
1 + x2
i
1i<j3
1
1
2 + x2 1 + x2 + x2 + x2 .
1 + xi
3
2
1
j
1 , si (x, y) C1
fXY (x, y) =
0, en el resto.
33
fX (x) =
por lo que
1
fXY (x, y) dy =
fX (x) =
0,
+ 1x2
1x2
dy =
1 x2 ,
1 x2 , si |x| 1
en el resto,
1
1 2
x x
x
x x
x
y y
y
y y
y
a
de la derecha ha sido rotada 90 .
34
Para ver que fXY (x, y) es una densidad es inmediato comprobar que verica la primera
condicin, en cuanto a la segunda, R2 fXY (x, y)dxdy = 1, observemos que
o
(1 2 )q(x, y)
x x
x
x x
x
x x
x
y y
y
y y
y
2
y y
y
+ (1 2 )
y y
y
(1.28)
y y
y
x x
x
x
x
y y
y
=
=
con b = x + x
yy
y .
1
y y
x x + x
x
y
1
(x b),
x
Sustituyendo en (1.28)
(1 2 )q(x, y) =
xb
x
+ (1 2 )
y y
y
y de aqu
R2
y 2
1
2
yy
y
1
x
2(1 2 )
1
2(12 ) ( xb )
x
dx dy = 1,
(1.29)
2
porque el integrando de la integral interior es la funcin de densidad de una N (b, x (1 2 ))
o
e integra la unidad. La integral resultante vale tambin la unidad por tratarse de la densidad
e
2
de una N (y , y ), que es precisamente la densidad marginal de Y (basta recordar la expresin
o
(1.22) que permite obtener la densidad marginal a partir de la conjunta). Por simetr X
a
2
N (x , x ).
Esta distribucin puede extenderse a n dimensiones, hablaremos entonces de Normal mulo
tivariante. La expresin de su densidad la daremos en el prximo cap
o
o
tulo y utilizaremos una
notacin matricial que la haga ms sencilla y compacta.
o
a
1.4.
La independencia entre dos sucesos A y B supone que ninguno de ellos aporta informacin
o
de inters acerca del otro. Pretendemos ahora trasladar el concepto a la relacin entre variables
e
o
aleatorias, pero siendo un concepto originalmente denido para sucesos, la traslacin deber hao
a
cerse por medio de sucesos ligados a las variables. Para ello necesitamos recurrir al concepto de
-lgebra inducida por una variable aleatoria que denimos en la pgina 11.
a
a
35
P (Aj1 . . . Ajn ) =
Teniendo en cuenta cmo han sido inducidas las (Xi ), admite una expresin alternativa en
o
o
trminos de las distintas variables,
e
n
(1.30)
l=1
condiciones equivalentes:
1. FX (x1 , . . . , xk ) =
k
j=1
Fj (xj ), (x1 , . . . , xk ) Rk
2. fX (x1 , . . . , xk ) =
k
j=1
fj (xj ), (x1 , . . . , xk ) Rk
Observacin 1.2 Hemos visto anteriormente que a partir de la distribucin conjunta del vector
o
o
es posible conocer la distribucin de cada una de sus componentes. El teorema de factorizacin
o
o
implica que a partir de las marginales podemos reconstruir la distribucin conjunta, si bien
o
es cierto que no siempre, pues se exige la independencia de las variables. La recuperacin en
o
cualquier circunstancia requiere de la nocin de distribucin condicionada.
o
o
Ejemplo 1.11 En la seccin 1.3.6 estudibamos el vector aleatorio determinado por las cooro
a
denadas de un punto elegido al azar en el c
rculo unidad. La densidad conjunta ven dada
a
por
1
, si (x, y) C1
fXY (x, y) =
0, en el resto.
Por simetr las marginales de X e Y son idnticas y tienen la forma,
a,
e
2 1 x2 , si |x| 1
fX (x) =
0,
en el resto.
De inmediato se comprueba que fXY (x, y) = fX (x)fY (y) y ambas variables no son independientes.
36
1.5.
1.5.1.
Distribuciones condicionadas
Caso discreto
Consideremos un vector aleatorio bidimensional (X, Y ), con soportes para cada una de sus
componentes Dx y Dy , respectivamente, y con funcin de cuant conjunta fXY (x, y).
o
a
Denicin 1.10 La funcin de cuant condicionada de Y dado {X = x}, x Dx , se dene
o
o
a
mediante,
fXY (x, y)
.
fY |X (y|x) = P (Y = y|X = x) =
fX (x)
La funcin de distribucin condicionada de Y dado {X = x}, x Dx , se dene mediante,
o
o
FY |X = P (Y y|X = x) =
vy, vDy
fXY (x, v)
fX (x)
fY |X (v|x).
vy, vDy
La funcin fY |X (y|x) es efectivamente una funcin de cuant por cuanto cumple con las dos
o
o
a
consabidas condiciones,
1. es no negativa por tratarse de una probabilidad condicionada, y
2. suma la unidad sobre Dy ,
fY |X (y|x) =
yDy
fXY (x, y)
fX (x)
yDy
fX (x)
= 1.
fX (x)
fX (x1 , . . . , xk )
,
fX kl (xj1 , . . . , xjkl )
donde el argumento del numerador, (x1 , . . . , xk ), est formado por las componentes (xi1 , . . . , xil )
a
y (xj1 , . . . , xjkl ) adecuadamente ordenadas.
Ejemplo 1.12 Consideremos dos variables aleatorias independientes X e Y , con distribucin
o
de Poisson de parmetros y , respectivamente. Queremos encontrar al distribucin de la
a
o
variable condicionada X|X + Y = r.
Recordemos que
fX|X+Y (k|r) = P (X = k|X + Y = r) =
P (X = k, Y = r k)
fXY (k, r k)
=
.
P (X + Y = r)
fX+Y (r)
(1.31)
La distribucin conjunta del vector (X, Y ) es conocida por tratarse de variables independientes,
o
fXY (k, r k) =
k rk
e
e .
k!
r k!
(1.32)
37
fX+Y (r)
= P
{X = k, Y = r k}
k=0
fXY (k, r k)
=
k=0
r
=
k=0
k rk (+)
e
k!r k!
e(+)
r!
r
k=0
r!
k rk
k!r k!
( + )r (+)
=
e
.
r!
Lo que nos dice que X + Y P o( + ).
Sustituyendo (1.32) y (1.33) en (1.31),
fX|X+Y (k|r) =
=
(1.33)
k rk
k! e
rk! e
(+)r (+)
e
r!
r!
k rk
k!(r k)! ( + )r
r
k
rk
fX kl |X l (nl+1 , . . . , nk |n1 , . . . , nl ) =
=
con n = n1 + +nl y
1.5.2.
k
i=l+1
n!
pni
n1 !n2 ! . . . nk ! i=1 i
l
n!
(1 p )(nn )
pni
i
n1 ! . . . nl !(n n )!
i=1
(n n )!
nl+1 ! . . . nk !
k
i=l+1
pi
1 p
ni
pl+1
pk
ni = nn . Se trata, en denitiva, de una M (nn ; 1p , . . . , 1p ).
Caso continuo
38
(X, Y ) en la expresin
o
P (Y y|X = x) =
P ({Y y} {X = x})
P (X = x)
fXY (x, y)
,
fX (x)
y recordamos las expresiones de las densidades conjuntas y las marginales obtenidas en la seccin
o
1.3.6 y el ejemplo 1.11, tendremos
1/
, si |y| 1 x2
2 /
2 1x
fY |X (y|x) =
0,
en el resto,
l P (Y y|x < X x + )
m
0
l
m
0
l
m
P (Y y, x < X x + )
P (x < X x + )
y
x+
f (u, v)du
x XY
x+
f (u)du
x X
dv
39
x i1
xil
fX kl (xj1 , . . . , xjkl )
y
fX l |X kl (xi1 , . . . , xil |xj1 , . . . , xjkl ) =
fX (x1 , . . . , xk )
,
fX kl (xj1 , . . . , xjkl )
fX (x) =
x [0, 1];
en el resto.
fY |X (y|x) =
1/x2 , y [0, x2 ];
0,
en el resto.
0,
en el resto.
La densidad marginal de Y es
1
fY (y) =
1
1
dx = 1, y [0, 1],
x2
y
y=x
= 3, (x, y) A
rea de A
a
fXY (x, y) =
0,
en el resto.
A
1
fX (x) =
3x2 ,
0,
x [0, 1];
en el resto.
fY |X (y|x) =
1/x2 , y [0, x2 ];
0,
en el resto.
fX (x).
40
2x y
1 2
1
2(12 )
( xx )
x
1
y
2(1 2 )
1
2(12 )
2(1 2 )
yy
y
1 ( xx )
2
x
yy
y
( xx )
x
1
y
yy
y
x 2
=
2( xx )
x
y
1
22 (12 ) {y(y + x (xx ))}
y
y
2
Es decir, Y |X = x N y + x (x x ), y (1 2 ) .
1.6.
1.6.1.
Caso univariante
Y : R R,
e Y 1 (B) = X 1 [g 1 (B)] A.
Tiene sentido hablar de la distribucin de probabilidad asociada a Y , que como ya hemos
o
visto podr ser conocida mediante cualquiera de las tres funciones: PY , FY o fY . Lo inmediato
a
es preguntarse por la relacin entre las distribuciones de probabilidad de ambas variables. Es
o
aparentemente sencillo, al menos en teor obtener FY en funcin de FX . En efecto,
a,
o
FY (y) = P (Y y) = P (g(X) y) = P (X g 1 {] , y]}).
(1.34)
FY (y) = P (Y y) = P (X 2 y) = P ( y X y) = FX ( y) FX ( y) = y.
Entonces,
0,
FY (y) =
y,
1,
si y < 0;
si 0 y 1;
si y > 1.
41
0,
si X = 0.
Con esta denicin, DY = {1, 0, 1}, y su funcin de
o
o
x<0 fX (x),
fX (0),
fY (y) =
x>0 fX (x),
Cuando la variable aleatoria es discreta (1.34) y (1.35) son la unicas expresiones que tene
mos para obtener la distribucin de probabilidad de Y . El caso continuo ofrece, bajo ciertas
o
condiciones, otra alternativa.
Teorema 1.2 Sea X una variable aleatoria continua y sea g montona, diferenciable con
o
g (x) = 0, x. Entonces Y = g(X) es una variable aleatoria con funcin de densidad,
o
1
fX (g 1 (y)) dg (y) , si y g({DX })
dy
fY (y) =
0,
en el resto.
Demostracin.- Como g es medible por ser continua, Y ser una variable aleatoria. Supono
a
gamos ahora que g es montona creciente. Tendremos, para y g({DX }),
o
FY (y) = P (Y y) = P (X g 1 (y)) = FX (g 1 (y)).
Derivando respecto de y obtendremos una funcin de densidad para Y ,
o
fY (y) =
dFY (y)
dFX (g 1 (y)) dg 1 (y)
dg 1 (y)
=
= fX (g 1 (y))
.
dy
dg 1 (y)
dy
dy
Ejemplo 1.16 Consideremos la variable aleatoria X cuya densidad viene dada por
0,
si x < 0,
1
fX (x) =
,
si 0 x 1,
2
1
2x2 , si x > 1,
Denimos una nueva variable mediante la transformacin Y = 1/X. La transformacin cumple
o
o
dg 1 (y)
1
1
con las condiciones del teorema, x = g (y) = 1/y y dy = y2 , por tanto la densidad de
Y vendr dada por
a
0,
si y < 0,
fY (y) =
1
y2 ,
1
2(1/y)2
1
2
si 1 y < ,
1
y2 ,
si 0 < y < 1,
42
1.6.2.
Caso multivariante
43
Teorema 1.3 Sea X = (X1 , . . . , Xk ) es un vector aleatorio continuo con soporte DX y sea
g = (g1 , . . . , gk ) : Rk Rk una funcin vectorial que verica:
o
1. g es uno a uno sobre DX ,
2. el Jacobiano de g, J =
(g1 ,...,gk )
(x1 ,...,xk ) ,
es distinto de cero x DX , y
(h1 ,...,hk )
(y1 ,...,yk )
(1.36)
es el Jacobiano de h.
Este teorema no es ms que el teorema del cambio de variable en una integral mltiple y
a
u
su demostracin rigurosa, de gran dicultad tcnica, puede encontrarse en cualquier libro de
o
e
Anlisis Matemtico. Un argumento heur
a
a
stico que justique (1.36) puede ser el siguiente. Para
cada y,
k
(yi , yi + dyi )
i=1
k
= P
Xh
(yi , yi + dyi )
i=1
k
= fX (h(y)) vol h
(yi , yi + dyi )
i=1
k
1 , si (x, y) C1
fXY (x, y) =
0, en el resto.
fR (r, ) =
0, en el resto.
Con facilidad se obtienen las marginales correspondientes, que resultan ser
2r, si r [0, 1]
fR (r) =
0, en el resto,
44
y para ,
1 , si [0, 2]
2
f () =
0,
en el resto.
fU (u) =
fX (v, u v) dv.
(1.37)
fW (w) =
1
w
fX t,
|t|
t
dt.
(1.38)
Cap
tulo 2
Esperanza. Desigualdades.
Funcin caracter
o
stica
2.1.
En el cap
tulo precedente hemos visto que la descripcin completa de una variable o de un
o
vector aleatorio nos la proporciona cualquiera de las funciones all estudiadas. Es cierto que
unas son de manejo ms sencillo que otras, pero todas son equivalentes para el cometido citado.
a
En ocasiones no necesitamos un conocimiento tan exhaustivo y nos basta con una idea
general. Ciertas caracter
sticas numricas ligadas a las variables o los vectores aleatorios puee
den satisfacernos. Estas cantidades son muy importantes en Teor de la Probabilidad y sus
a
aplicaciones, y su obtencin se lleva a cabo a partir de las correspondientes distribuciones de
o
probabilidad.
Entre estas constantes, sin duda las que denominaremos esperanza matemtica y varianza
a
son las de uso ms difundido. La primera juega el papel de centro de gravedad de la distribua
cin y nos indica alrededor de qu valor se situa nuestra variable o vector. La segunda completa
o
e
la informacin indicndonos cuan dispersos o agrupados se presentan los valores alrededor de
o
a
aquella. Existen tambin otras constantes que proporcionan informacin acerca de la distrie
o
bucin de probabilidad, son los llamados momentos, de los cuales esperanza y varianza son
o
casos particulares. Los momentos pueden llegar a aportarnos un conocimiento exhaustivo de la
variable aleatoria.
Denicin 2.1 (Esperanza de una variable aleatoria discreta) Sea X aleatoria discreo
ta, fX su funcin de cuant y DX su soporte. Si g es una funcin medible denida de (R, ) en
o
a
o
(R, ), tal que xi DX |g(xi )fX (xi )| < +, decimos que existe la esperanza de g(X), E[g(X)],
cuyo valor es
E[g(X)] =
(2.1)
xi DX
En particular, si g(X) = X,
E(X) =
xi fX (xi ).
xi DX
Denicin 2.2 (Esperanza de una variable aleatoria continua) Sea X aleatoria discreo
ta, fX su funcin de densidad. Si g es una funcin medible denida de (R, ) en (R, ), tal
o
o
46
que
|g(x)fX (x)dx| < +, decimos que existe la esperanza de g(X), E[g(X)], cuyo valor es,
+
E[g(X)] =
g(x)f (x)dx.
(2.2)
En particular, si g(X) = X,
xfX (x)dx.
E(X) =
2.1.1.
absoluto de orden k
|X|k
|X a|k
|X(X 1) . . . (X k + 1)|
47
El siguiente resultado nos ofrece una forma alternativa de obtener la E(X) cuando X es no
negativa.
Proposicin 2.2 Si para X 0, existe E(X), entonces
o
+
E(X) =
P (X x) dx =
0
2.1.2.
P (X > x) dx =
0
(1 FX (x)) dx.
(2.3)
Binomial
Si X B(n, p),
n
E(X) =
x
x=0
n
x
x=0
n x
p (1 p)nx =
x
n(n 1) . . . (n x + 1) x
p (1 p)nx
x!
= np
(n 1) . . . (n x + 1) x1
p
(1 p)nx
(x 1)!
x=1
n1
= np
y=0
n1 y
p (1 p)ny1 = np
y
Para obtener V (X), observemos que E[(X(X 1)] = E(X 2 ) E(X), y de aqu V (X) =
48
Poisson
Si X P (),
xe
E(X) =
x0
x
= e
x!
x10
x1
= .
(x 1)!
E[X(X 1)] =
x0
De aqu
,
x
= 2 e
x!
x20
x2
= 2 .
(x 2)!
V (X) = 2 + 2 = .
Uniforme
Si X U (0, 1),
1
E(X) =
xfX dx =
x dx =
0
1
2
E(X 2 ) =
x2 dx =
y de aqu
,
V (X) =
1
2
1
,
3
1
.
12
Normal tipicada
Si X N (0, 1), como su funcin de densidad es simtrica respecto del origen,
o
e
+
E(X k ) =
x2
1
xk e 2 dx =
2
0,
si k = 2n + 1
m2n , si k = 2n.
Ello supone que E(X) = 0 y V (X) = E(X 2 ). Para obtener los momentos de orden par,
1
m2n =
2
x2n e
x2
2
2
dx =
2
x2n e
x2
2
dx.
x2n e
x2
2
dx =
x2n1 e
x2
2
+
0
+ (2n 1)
x2n2 e
x2
2
dx = (2n 1)
x2n2 e
x2
2
dx,
2!
= 1.
2 1!
49
var(X) = 2 var(Z) = 2 ,
2.2.
E(g(X)) =
...
En ambos casos la existencia de la esperanza esta supeditada a que |g(x)f (x)| sea absolutamente
sumable o integrable, respectivamente.
2.2.1.
Como ya hemos visto en el caso de una variable aleatoria, determinadas formas de la funcin
o
g dan lugar a los llamados momentos que se denen de forma anloga a como lo hicimos entonces.
a
Las situaciones de mayor inters son ahora:
e
Momento conjunto.- El momento conjunto de orden (n1 , . . . , nk ) se obtiene, siempre que la
esperanza exista, para
n
n
g(X1 , . . . , Xk ) = X1 1 . . . Xk k , ni 0,
n
E(X1 1
(2.4)
n
. . . Xk k ).
lo que da lugar a
Obsrvese que los momentos de orden k respecto del
e
origen para cada componente pueden obtenerse como casos particulares de (2.4) haciendo
n
n
k
ni = k y nj = 0, j = i, pues entonces E(X1 1 . . . Xk k ) = E(Xi ).
Momento conjunto central.- El momento conjunto central de orden (n1 , . . . , nk ) se obtienen, siempre que la esperanza exista, para
g(X1 , . . . , Xk ) = (X1 E(X1 ))n1 . . . (Xk E(Xk ))nk , ni 0,
2.2.2.
Covarianza. Aplicaciones
50
E(XY ) =
1
2x y
+
1 2
y
y 2
1
2
1
2(12 )
xye
( x )
x
x
2( x )
y
y
y
y
y
y
dxdy
y
y
x
2(1 2 )
x
x
1
2(12 )
dx dy.
(2.5)
2
La integral interior en (2.5) es la esperanza de una N (x y/y , x (1 2 )) y su valor ser por
a
tanto x y/y . Sustituyendo en (2.5)
x
E(XY ) =
2
y
y
1
2
y
y
x y
dy =
2
z 2 e 2 z dy = x y .
cov(X, Y )
= .
x y
E(X1 + + Xk ) =
E(Xi ).
i=1
=E
k
i=1
ai Xi , donde
ai (Xi E(Xi ))
i=1
k1
a2 V (Xi ) + 2ai aj
i
=
i=1
cov(Xi , Xj ).
i=1 j=i+1
(2.6)
51
n
E(Xi i ).
i=1
...
...
=
i=1
i=1
k
n
E(Xi i ).
=
i=1
o
a
Observacin 2.1 El anterior resultado admite una formulacin ms general. Si las funciones
o
gi , i = 1, . . . , k son medibles, las gi (Xi ) tambin son variables independientes y podemos escribir
e
k
gi (Xi ) =
i=1
(2.7)
i=1
E(X) =
52
var(X) =
(2.8)
i=1
n
E(X) =
E(Xi ) = nE(Xi ) = n
i=1
r
,
N
y aplicando (2.6)
n
var(X) =
var(Xi ) + 2
i=1
r N r
+ n(n 1)cov(X1 , X2 ),
N
N
cov(Xi , Xj ) = n
i=1 j>i
(2.9)
N 1 N
N
r(N r)
2
.
N (N 1)
r
N
Sustituyendo en (2.9)
var(X) = n
r N r
N
N
n1
N 1
(2.10)
Es interesante comparar (2.10) con (2.8), para p = r/N . Vemos que dieren en el ultimo factor,
la denomina en Teor de Muestras) es muy pequea. Conviene recordar aqu lo que dijimos en
a
n
n1
2
Para calcular la varianza necesitamos conocer E(Xi ),
2
E(Xi ) =
n2 p(1 p)n = p
n0
n2 (1 p)n =
n1
1p
(2 p), i.
p2
53
y de aqu
,
var(X) =
1p
(2 p)
p2
1p
p
1p
.
p2
E(X) =
E(Xi ) =
i=1
r(1 p)
,
p
var(X) =
var(Xi ) =
i=1
r(1 p)
.
p2
cov(Xi , Xj ) = cov
Xik ,
k=1
Xjl
l=1
Xik ,
cov
k=1
Xjl
l=1
cov(Xik , Xjl ).
(2.11)
k=1 l=1
1,
0,
si en la prueba k ocurre Ai ;
en cualquier otro caso,
Xjl =
1,
0,
si en la prueba l ocurre Aj ;
en cualquier otro caso.
cov(Xi , Xj ) =
npi pj
npi (1 pi ) npj (1 pj )
pi pj
.
(1 pi )(1 pj )
El valor negativo de la covarianza y del coeciente de correlacin se explica por el hecho de que
o
siendo el nmero total de pruebas jo, n, a mayor nmero de ocurrencias de Ai , menor nmero
u
u
u
de ocurrencias de Aj .
54
2.3.
Esperanza condicionada
Sea (X, Y ) un vector aleatorio denido sobre el espacio de probabilidad (, A, P ) y denotemos por PX|Y =y la distribucin de probabilidad de X condicionada a Y = y. Si g es una
o
funcin medible denida de (R, ) en (R, ), tal que E(g(X)) existe, la esperanza condicionada
o
de g(X) dado Y , E[g(X)|Y ], es una variable aleatoria que para Y = y toma el valor
E[g(X)|y] =
g(X) dPX|Y =y .
(2.12)
g(x)P (X = x|Y = y) =
xDy
g(x)fX|Y (x|y),
xDy
g(x)fX|Y (x|y)dx.
Una denicin similar puede darse para E[h(Y )|X] siempre que E[h(Y )] exista.
o
o
Ejemplo 2.3 Sean X e Y variables aleatorias independientes ambas con distribucin B(n, p).
La distribucin de X + Y se obtiene fcilmente a partir de
o
a
m
fX+Y (m)
= P
{X = k, Y = m k}
k=0
P (X = k, Y = m k)
k=0
m
P (X = k)P (Y = m k)
k=0
m
=
k=0
n k
n
p (1 p)nk
pmk (1 p)n(mk)
k
mk
m
= pm (1 p)2nm
k=0
=
de donde X + Y B(2n, p).
n
k
2n m
p (1 p)2nm ,
m
n
mk
55
La distribucin condicionada de Y |X + Y = m es
o
P (Y = k|X + Y = m)
=
=
P (Y = k, X + Y = m)
P (X + Y = m)
P (Y = k, X = m k)
P (X + Y = m)
n k
n
p (1 p)nk
pmk (1 p)n(mk)
k
mk
2n m
p (1 p)2nm
m
n
k
n
mk
,
2n
m
nm
m
= .
2n
2
(2.13)
56
E[g(X)|y)]fy (y)dy
R
=
R
g(x)
R
fXY (x, y)
dx fy (y)dy
fy (y)
fXY (x, y)dy dx
=
R
1, 0 < y x 1
x
fXY (x, y) =
0, en el resto.
Fcilmente obtendremos que X U (0, 1) y que Y |X = x U (0, x). Aplicando el resultado
a
anterior podemos calcular E(Y ),
1
E(Y ) =
1
1
xdx = .
2
4
a
a
Ejemplo 2.5 Un trabajador est encargado del correcto funcionamiento de n mquinas situadas en linea recta y distantes una de otra l metros. El trabajador debe repararlas cuando se
aver
an, cosa que sucede con igual probabilidad para todas ellas e independientemente de una a
otra. El operario puede seguir dos estrategias:
1. acudir a reparar la mquina estropeada y permanecer en ella hasta que otra mquina se
a
a
aver desplazndose entonces hacia ella, o
a,
a
2. situarse en el punto medio de la linea de mquinas y desde all acudir a la averiada,
a
57
(k i)l,
X|Ak =
(i k)l,
si i k,
si i > k.
As pues,
E(X|Ak ) =
1
n
(k i)l +
i=1
(i k)l
i=k+1
l
[2k 2 2(n + 1)k + n(n + 1)].
2n
Utilizando
n
k2 =
k=1
n(n + 1)(2n + 1)
,
6
1
n
E(X|Ak ) =
k
l(n2 1)
3n
Estrategia 2.- Para facilitar los clculos supongamos que n es impar, lo que supone
a
que hay una mquina situada en el punto medio de la linea, la n+1 -sima. Si la prxima
a
o
2 e
mquina averiada es la i la distancia a recorrer ser,
a
a
X=
2( n+1 i)l,
2
2(i
n+1
2 )l,
si i
n+1
2 ,
si i >
n+1
2 ,
2
n
n
i=1
n+1
l(n 1)
i l =
.
2
2
(2.14)
58
E (X E(X))2 = E E (X E(X))2 |Y
2
X 2 + (E(X)) 2XE(X) |Y
E E
2
2
P E (X E[X|Y ]) |Y
= 0 = 1,
2.4.
Desigualdades
E(X) =
P (X x) dx =
0
P (X x) dx +
0
P (X x) dx.
E(X)
P (X x) dx
0
P (X ) dx = P (X ),
0
y de aqu
,
E(X)
.
(2.15)
Este resultado da lugar a dos conocidas desigualdades generales que proporcionan cotas
superiores para la probabilidad de ciertos conjuntos. Estas desigualdades son vlidas indepena
dientemente de cul sea la distribucin de probabilidad de la variable involucrada.
a
o
P (X )
2.4 Desigualdades
59
P (|X E(X)| )
(2.17)
|X |
1
n
= 0, n
y de aqu P (n An ) = 0 y P (n Ac ) = 1. Pero
n
Ac =
n
n1
|X | <
n1
1
n
= {X = },
luego P (X = ) = 1.
Desigualdad de Jensen.- Si g(X) es convexa sabemos que a, a tal que g(x) g(a) +
a (x a), x. Si hacemos ahora a = E(X),
g(X) g (E(X)) + a (X E(X)),
y tomando esperanzas obtenemos la que se conoce como desigualdad de Jensen,
E(g(X)) g(E(X)).
Teorema 2.1 (Desigualdad de Cauchy-Schwarz) Sean X e Y variables aleatorias con varianzas nitas. Entonces cov(X, Y ) existe y se verica
[E(XY )]2 E(X 2 )E(Y 2 ),
vericndose la igualdad si y solo si existe un real tal que P (X + Y = 0) = 1.
a
Demostracin.- Para cualesquiera nmeros reales a y b se verica
o
u
|ab|
a2 + b2
,
2
lo que signica que E(XY ) < si E(X 2 ) < y E(Y 2 ) < . Por otra parte, para cualquier
real , se tiene
E[(X + Y )2 ] = 2 E(X 2 ) + 2E(XY ) + E(Y 2 ) 0,
lo que supone que la ecuacin de segundo grado tiene a lo sumo una ra y su discriminante
o
z
ser no positivo. Es decir,
a
[E(XY )]2 E(X 2 )E(Y 2 ).
Si se diera la igualdad, la ecuacin tendr una ra doble, 0 , y E[(0 X + Y )2 ] = 0. Tratndose
o
a
z
a
de una funcin no negativa, esto implica que P (0 X +Y = 0) = 1.
o
60
El coeciente de correlacin
o
El coeciente de correlacin entre dos componentes cualesquiera de un vector aleatorio, X
o
y Y , se dene como la covarianza de dichas variables tipicadas1 .
X E(X)
X
XY = cov(Xt , Yt ) = E
Y E(Y )
Y
cov(X, Y )
.
X Y
2.4.1.
f (x1 , x2 ) =
|| 2 1 (x) 1 (x)
e 2
,
2
(x1 , x2 ) R2 ,
2
1
12
1(n1)
1n
2
12
2
2(n1)
2n
.
.
.
.
.
.
.
.
.
.
=
,
.
.
.
.
.
2
1(n1) 2(n1)
n1
(n1)n
2
1n
2n
(n1)n
n
el vector de medias es = (1 2 . . . n ) y la densidad tiene por expresin
o
1
|| 2 1 (x) 1 (x)
2
f (x1 , x2 , . . . , xn ) =
,
n e
(2) 2
(x1 , x2 , . . . , xn ) Rn .
(2.18)
1 Una variable tipicada es la que resulta de transformar la original restndole la media y dividiendo por la
a
desviacin t
o pica, Xt = (X X )/X . Como consecuencia de esta transformacin E(Xt ) = 0 y var(Xt ) = 1.
o
61
Cuando las componentes del vector son independientes, las covarianzas son todas nulas y
es una matriz diagonal cuyos elementos son las varianzas de cada componente, por tanto
||1 =
1
.
2 2
2
1 2 n
1 e
n
2 2
i=1 (2i )
n
i=1
1
2
xi i
i
=
i=1
e
2
1
2
xi i
i
2i
e
cuadrtica que aparece en el exponente de (2.18).
a
Transformacin lineal de una Normal multivariante
o
A partir del vector X denimos un nuevo vector Y mediante una transformacin lineal cuya
o
matriz A es invertible. Tendremos
Y = AX,
X = A1 Y,
y dada la linealidad de la esperanza, la misma relacin se verica para los vectores de medias,
o
Y = AX ,
X = A1 Y ,
Para conocer la distribucin del vector Y recurriremos a la frmula del cambio de variable
o
o
(1.36). El jacobiano de la transformacin inversa es precisamente |J 1 | = |A1 |, con lo que la
o
densidad conjunta de Y = (Y1 , Y2 , . . . , Yn ) valdr,
a
1
fY (y1 , y2 , . . . , yn ) =
2.5.
Funcin caracter
o
stica
La funcin caracter
o
stica es una herramienta de gran utilidad en Teor de la Probabilidad,
a
una de sus mayores virtudes reside en facilitar la obtencin de la distribucin de probabilidad de
o
o
la suma de variables aleatorias y la del l
mite de sucesiones de variables aleatorias, situaciones
ambas que aparecen con frecuencia en Inferencia Estad
stica.
62
X (t) =
(2.19)
xDX
X (t) =
eitx fX (x)dx.
(2.20)
X (t + h) X (t) =
Al tomar mdulos,
o
|eihX 1| dP,
|X (t + h) X (t)|
(2.21)
pero |eihX 1| 2 y (2.21) ser nito, lo que permite intercambiar integracin y paso al
a
o
l
mite, obteniendo
l |X (t + h) X (t)|
m
h0
l |eihX 1| dP = 0.
m
h0
P4) Si denimos Y = aX + b,
Y (t) = E(eitY ) = E eit(aX+b) = eitb X (at)
P5) Si E(X n ) existe, la funcin caracter
o
stica es n veces diferenciable y k n se verica
(k)
X (0) = ik E(X k )
La propiedad 5 establece un interesante relacin entre las derivadas de X (t) y los momentos
o
de X cuando estos existen, relacin que permite desarrollar X (t) en serie de potencias. En
o
efecto, si E(X n ) existe n, entonces,
X (t) =
k0
ik E(X k ) k
t .
k!
(2.22)
2.5.1.
63
Funcin caracter
o
stica e independencia
Y (t) = E e
=E
itXk
n
itXk
k=1
E e
k=1
Xk (t),
(2.23)
k=1
2.5.2.
Funciones caracter
sticas de algunas distribuciones conocidas
Bernoulli.- Si X B(1, p)
X (t) = e0 q + eit p = q + peit .
Binomial.- Si X B(n, p)
n
X (t) =
(q + peit ) = (q + peit )n .
k=1
Poisson.- Si X P ()
eitx
X (t) =
x0
e x
= e
x!
x0
it
(eit )x
= e(e 1) .
x!
Normal tipicada.- Si Z N (0, 1), sabemos que existen los momentos de cualquier orden y
en particular, E(Z 2n+1 ) = 0, n y E(Z 2n ) = (2n)! , n. Aplicando (2.22),
2n n!
Z (t) =
n0
i2n (2n)! 2n
t =
2n (2n)!n!
(it)2
2
n0
n!
t2
n!
n0
n
t2
= e 2 .
2 t2
2
Observacin 2.2 Obsrvese que Im(Z (t)) = 0. El lector puede comprobar que no se
o
e
trata de un resultado exclusivo de la Normal tipicada, si no de una propiedad que poseen
todas las v. a. con distribucin de probabilidad simtrica, es decir, aquellas que verican
o
e
(P(X x)=P(X x)).
o
Gamma.- Si X G(, ), su funcin de densidad de probabilidad viene dada por
x1 ex si x > 0,
()
fX (x) =
0
si x 0,
64
()
eitx x1 ex dx,
it
.
it
X (t) = (1 2it) 2 .
2.5.3.
eita eitb
(t)dt.
it
F (b) F (a) = l
m
F (x0 + h) F (x0 h) = l
m
sin ht itx0
e
(t)dt,
t
1
dF (x)
=
dx
2
eitx (t)dt.
R
65
Este teorema tiene una trascendencia mayor por cuanto implica la unicidad de la funcin
o
caracter
stica, que no por casualidad recibe este nombre, porque caracteriza, al igual que lo
hacen otras funciones asociadas a X (la de distribucin, la de probabilidad o densidad de
o
probabilidad, ...), su distribucin de probabilidad. Podemos armar que si dos variables X e
o
Y comparten la misma funcin caracter
o
stica tienen idntica distribucin de probabilidad. La
e
o
combinacin de este resultado con las propiedades antes enunciadas da lugar a una potente
o
herramienta que facilita el estudio y obtencin de las distribuciones de probabilidad asociadas
o
a la suma de variables independientes. Vemoslo con algunos ejemplos.
a
1) Suma de Binomiales independientes.- Si las variables Xk B(nk , p), k = 1, 2, . . . , m
m
son independientes, al denir X = k=1 Xk , sabemos por (2.23) que
m
X (t) =
Xk (t) =
k=1
k=1
X (t) =
ek (e
Xk (t) =
k=1
it
1)
= e(e
it
1)
k=1
n
k=1 ck Xk
con Xk
X (t)
ck Xk (t) =
Xk (ck t)
k=1
eick tk
2
k c 2 t 2
k
2
k=1
eit
2 t2
2
(2.24)
ck k
2 =
k=1
2
c2 k .
k
k=1
it
it
66
5) Cuadrado de una N (0, 1).- Sea ahora Y = X 2 con X N (0, 1), su funcin caracter
o
stica
viene dada por
2
1
1
x (12it)
2
Y (t) =
dx =
1 e
1 ,
(2) 2
(1 2it) 2
2.5.4.
Se trata del ultimo de los resultados que presentaremos y permite conocer la convergencia
Cap
tulo 3
Introduccin
o
Los cap
tulos anteriores nos han permitido familiarizarnos con el concepto de variable y
vector aleatorio, dotndonos de las herramientas que nos permiten conocer su comportamiento
a
probabil
stico. En el caso de un vector aleatorio somos capaces de estudiar el comportamiento
conjunto de un nmero nito de variables aleatorias. Pero imaginemos por un momento los
u
modelos probabil
sticos asociados a los siguientes fenmenos:
o
1. lanzamientos sucesivos de una moneda,
2. tiempos transcurridos entre dos llamadas consecutivas a una misma centralita,
3. sucesin de estimadores de un parmetro cuando se incrementa el tamao de la muestra...
o
a
n
En todos los casos las variables aleatorias involucradas lo son en cantidad numerable y habremos
de ser capaces de estudiar su comportamiento conjunto y, tal y como siempre sucede en ocasiones similares, de conocer cuanto haga referencia al l
mite de la sucesin. Del comportamiento
o
conjunto se ocupa una parte de la Teor de la Probabilidad que dado su inters ha tomado
a
e
entidad propia: la Teor de los Procesos Estocsticos. En este cap
a
a
tulo nos ocuparemos de estudiar cuanto est relacionado con el l
a
mite de las sucesiones de variables aleatorias. Este estudio
requiere en primer lugar, introducir los tipos de convergencia apropiados a la naturaleza de las
sucesiones que nos ocupan, para en segundo lugar obtener las condiciones bajo las que tienen
lugar las dos convergencias que nos interesan: la convergencia de la sucesin de variables a una
o
constante (Leyes de los Grandes Nmeros) y la convergencia a otra variable (Teorema Central
u
del L
mite). El estudio de esta segunda situacin se ve facilitado con el uso de una herramienta
o
conocida como funcin caracter
o
stica de la cual nos habremos ocupado previamente.
Dos sencillos ejemplos relacionados con la distribucin Binomial no servirn de introduccin
o
a
o
y nos ayudarn a situarnos en el problema.
a
Ejemplo 3.1 (Un resultado de J. Bernoulli) Si repetimos n veces un experimento cuyo
resultado es la ocurrencia o no del suceso A, tal que P (A) = p, y si la repeticiones son independientes unas de otras, la variable Xn =nmero de ocurrencias de A, tiene una distribucin
u
o
B(n, p). La variable Xn /n representa la frecuencia relativa de A y sabemos que
E
Xn
n
1
np
E(Xn ) =
= p,
n
n
68
y
var
Xn
n
1
np(1 p)
p(1 p)
var(Xn ) =
=
.
n2
n2
n
Xn
p
n
var(Xn /n)
p(1 p) n
=
0.
2
n2
3.2.
Tipos de convergencia
No es esta una convergencia puntual como las que estamos acostumbrados a utilizar en Anlisis
a
Matemtico. La siguiente s es de este tipo.
a
Denicin 3.2 (Convergencia casi segura o con probabilidad 1) Decimos que {Xn } cono
a.s.
verge casi seguramente1 a X (o con probabilidad 1), Xn X, si
P ({ : l Xn () = X()}) = 1.
m
n
El ultimo tipo de convergencia involucra a las funciones de distribucin asociadas a cada variable
o
y requiere previamente una denicin para la convergencia de aquellas.
o
Denicin 3.3 (Convergencia dbil) Sean Fn , n 1 y F , funciones de distribucin de
o
e
o
69
Denicin 3.5 (Convergencia en media cuadrtica) Decimos que {Xn } converge en meo
a
m.s
dia cuadrtica a X, Xn X, si
a
l E[(Xn X)2 ] = 0.
m
n
Las relaciones entre los tres tipos de convergencia se establecen en el siguiente teorema.
Teorema 3.1 (Relaciones entre convergencias) Sean Xn y X variables aleatorias denidas sobre un mismo espacio de probabilidad entonces:
a.s.
Xn X
P
L
Xn X Xn X
m.s.
Xn X
Las convergencias casi segura y en probabilidad tienen distinta naturaleza, mientras aquella
es de tipo puntual, esta ultima es de tipo conjuntista. El ejemplo que sigue ilustra bien esta
2q
verican, p + 2q = n y 0 p < 2q . Obviamente q = q(n) y l n q(n) = +. Los primeros
m
trminos d ela sucesin son,
e
o
n=1
n=2
n=3
n=4
n=5
n=6
n=7
......
q
q
q
q
q
q
q
= 0, p = 0
= 1, p = 0
= 1, p = 1
= 2, p = 0
= 2, p = 1
= 2, p = 2
= 2, p = 3
X1
X2
X3
X4
X5
X6
X7
= 1]0,1]
1
= 1]0, 2 ]
1
= 1] 2 ,1]
1
= 1]0, 4 ]
1
= 1] 4 , 1 ]
2
1
= 1] 2 , 3 ]
4
3
= 1] 4 ,1]
1
,
2q (n)
70
2
con l n q(n) = . En denitiva, E(Xn ) 0, lo que pone de maniesto que la convergencia
m
en media cuadrtica
a
la convergencia casi segura.
a.s.
a.s.
2
Denamos ahora Xn = n1]0,1/n] . Claramente Xn 0 pero E(Xn ) = 1, n y Xn
0.
Ejemplo 3.5 Consideremos una variable Bernoulli con p = 1/2, X B(1, 1/2) y denamos
una sucesin de variables aleatorias, Xn = X, n. La variable Y = 1 X tiene la misma
o
L
distribucin que X, es decir, Y B(1, 1/2). Obviamente Xn Y , pero como |Xn Y | =
o
|2X 1| = 1, no puede haber convergencia en probabilidad.
3.3.
El nombre de leyes de los grandes nmeros hace referencia al estudio de un tipo especial de
u
l
mites derivados de la sucesin de variables aleatorias {Xn }. Concretamente los de la forma
o
n
a
l n Snbn n , con Sn = i=1 Xi y siendo {an } y {bn } sucesiones de constantes tales que l bn =
m
m
+. En esta seccin jaremos las condiciones para saber cuando existe convergencia a.s, y como
o
nos ocuparemos tambin de la convergencia en probabilidad, las leyes se denominarn fuerte y
e
a
dbil, respectivamente.
e
Teorema 3.2 (Ley dbil) Sea {Xk } una sucesin de variables aleatorias independientes tales
e
o
n
2
que E(Xk ) < +, k, y l n n2 k=1 var(Xk ) = 0, entonces
m 1
1
n
(Xk E(Xk )) 0.
k=1
n
k=1 (Xk E(Xk )),
1
Demostracin.- Para Sn = n
o
Por la desigualdad de Chebyshev, > 0
P (|Sn | )
E(Sn ) = 0 y var(Sn ) =
var(Sn )
1
= 2 2
2
n
1
n2
n
k=1
var(Xk ).
var(Xk ),
k=1
que al pasar al l
mite nos asegura la convergencia en probabilidad de Sn a 0.
Corolario 3.1 Si las Xn son i.i.d. con varianza nita y esperanza comn E(X1 ), entonces
u
P
n
1
k=1 Xk E(X1 ).
n
n
1
Demostracin.- Si var(Xk ) = 2 , k, tendremos n2 k=1 var(Xk ) = que tiende a cero con
o
n
n. Es por tanto de aplicacin la ley dbil que conduce al resultado enunciado.
o
e
Este resultado fu demostrado por primera vez por J. Bernoulli para variables con distribue
cin Binomial (vase el ejemplo 3.1), versin que se conoce como la ley de los grandes nmeros
o
e
o
u
de Bernoulli
El siguiente paso ser jar las condiciones para que el resultado sea vlido bajo convergencia
a
a
a.s.
Teorema 3.3 (Ley fuerte) Si {Xk } es una sucesin de variables aleatorias i.i.d. con media
o
nita, entonces
n
Xk a.s.
E(X1 ).
n
k=1
71
Corolario 3.2 Si {Xk } es una sucesin de variables aleatorias i.i.d. con E(X1 ) < + y
o
+
Sn a.s.
E(X1 ) = +, entonces n .
diante que encuentre ocasin de hojear ambos desarrollos en cualquiera de los textos habituales
o
(Burrill, Billingsley,...), pero que en ningn caso olvide el desarrollo de Kolmogorov.
u
3.4.
Teorema Central de L
mite
(1 p)eit
p
n(1p)
+ pe
it
(1p)
np
con Rn 0, si n . En consecuencia,
t2
l Zn (t) = e 2 .
m
Observacin 3.1 Lo que el teorema arma es que si X B(n, p), para n sucientemente
o
grande, tenemos
X np
P
x
(x),
np(1 p)
donde (x) es la funcin de distribucin de la N (0, 1).
o
o
De qu forma puede generalizarse este resultado? Como ya sabemos Xn B(n, p) es la suma
e
de n v. a. i.i.d., todas ellas Bernoulli (Yk B(1, p)), cuya varianza comn, var(Y1 ) = p(1 p),
u
es nita. En esta direccin tiene lugar la generalizacin: variables independientes, con igual
o
o
distribucin y con varianza nita.
o
Teorema 3.5 (Lindeberg) Sean X1 , X2 , . . . , Xn , v.a. i.i.d. con media y varianza nitas, y
n
1
2 , respectivamente. Sea X n = n k=1 Xk su media muestral, entonces
Yn =
Xn
X E(X n ) L
= n
N (0, 1).
/ n
var(X n )
72
Zk ,
k=1
con Zk = (Xk )/, variables aleatorias i.i.d. con E(Z1 ) = 0 y var(Z1 ) = 1. Aplicando P4
y (2.23) tendremos
n
t
Yn (t) = Z1
n
Pero existiendo los dos primeros momentos de Z1 y teniendo en cuenta (2.22), Z1 (t) puede
tambin expresarse de la forma
e
Z1 (t) = 1
t2
(1 + Rn ),
2n
con Rn 0, si n . En consecuencia,
t2
(1 + Rn )
2n
Yn (t) = 1
As pues,
t2
l Yn (t) = e 2 ,
m
= P (n 1 < Sn n)
=
1
Sn n
<
0
n
n
1
< Z 0
n
1
2
1/ n
1 1
,
2 n
ex
/2
dx
73
2
en donde la ultima expresin surge de aproximar la integral entre [1/ n, 0] de f (x) = ex /2
o
mediante el rea del rectngulo que tiene por base el intervalo de integracin y por altura el
a
a
o
f (0) = 1.
Por otra parte,
nn
P (Sn = n) = en .
n!
Igualando ambos resultado y despejando n! se obtiene la llamada frmula de Stirling,
o
n! nn+1/2 en 2.
3.4.1.
De Moivre y Laplace dieron en primer lugar una versin local del TCL al demostrar que si
o
X B(n, p),
1 2
1
P (X = m) np(1 p) e 2 x ,
(3.1)
2
para n sucientemente grande y x = mnp . Esta aproximacin nos va a servir para estudiar
o
np(1p)
2l
,
a
2ln
donde m es el nmero de cortes en los n lanzamientos.
u
El ao 1901 Lazzarini realiz 3408 lanzamientos obteniendo para el valor 3,1415929 con
n
o
6 cifras decimales exactas!!. La aproximacin es tan buena que merece como m
o
nimo alguna
pequea reexin. Para empezar supongamos que el nmero de cortes aumenta en una unidad,
n
o
u
las aproximaciones de los inversos de correspondientes a los m y m + 1 cortes diferir en
an
a(m + 1) am
a
1
,
2ln
2ln
2ln
2n
1
que si n 5000, da lugar a 2n 104 . Es decir, un corte ms produce una diferencia mayor
a
6
que la precisin de 10
o
alcanzada. No queda ms alternativa que reconocer que Lazzarini
a
tuvo la suerte de obtener exactamente el nmero de cortes, m, que conduc a tan excelente
u
a
aproximacin. La pregunta inmediata es, cual es la probabilidad de que ello ocurriera?, y para
o
responderla podemos recurrir a (3.1) de la siguiente forma,
P (X = m)
1
2np(1 p)
(mnp)2
e 2np(1p)
1
2np(1 p)
74
.
2n( 1)
Para el caso de Lazzarini n=3408 y P (X = m) 0,0146, m. Parece ser que Lazzarini era un
hombre de suerte, quizs demasiada.
a
Cap
tulo 4
Procesos Estocsticos
a
4.1.
Introduccin
o
Los temas precedentes nos han dotado de las herramientas necesarias para conocer el comportamiento de una variable aleatoria o de un conjunto nito de ellas, un vector aleatorio. En
cualquier caso, se trataba de un nmero nito de variables aleatorias. El Cap
u
tulo 3 nos ha
permitido, adems, estudiar el comportamiento asinttico de una sucesin de variables aleatoa
o
o
rias a travs de las llamadas Leyes de los Grandes Nmeros y del Teorema Central del L
e
u
mite.
Pero ya advert
amos en la Introduccin de dicho cap
o
tulo que de su comportamiento conjunto
se ocupaba una parte espec
ca de la Teor de la Probabilidad, los Procesos Estocsticos.
a
a
Antes de introducir las deniciones bsicas, quizs convenga puntualizar que el concepto de
a
a
proceso estocstico abarca situaciones ms generales que las sucesiones de variables aleatorias.
a
a
Se trata de estudiar el comportamiento de un conjunto de variables aleatorias que puede estar
indexado por un conjunto no numerables. A los ejemplos que se citaban en la mencionada
Introduccin del Cap
o
tulo 3, todos ellos sucesiones aleatorias, podemos aadir otros fenmenos
n
o
aleatorios que generan familias aleatorias no numerables.
Un ejemplo ser el estudio de la ocurrencia de un mismo suceso a lo largo del tiempo, si
a
dichas ocurrencias son independientes y nos ocupamos del intervalo de tiempo que transcurre
entre una y otra, nuestro inters se centra en la sucesin {Xn }n1 , donde Xi ={tiempo transe
o
currido entre las ocurrencias i-sima y la i-1-sima}. Si lo que nos interesa es el nmero de
e
e
u
veces que el suceso ha ocurrido en el intervalo [0, t], la familia a considerar es Nt , con t > 0,
que desde luego no es numerable.
4.2.
76
Procesos Estocsticos
a
DTCV
DTDV
10
15
20
25
30
10
15
20
25
30
CTDV
CTCV
0 3 6 9
13 17 21 25
Proceso de Bernoulli
10
15
20
25
30
10
15
20
25
30
Proceso Gaussiano
4.2.1.
Trayectoria de un proceso
Un proceso estocstico puede tambin ser visto como una funcin aleatoria con un doble
a
e
o
argumento, {X(t, ), t T, }. Si con esta notacin jamos = 0 , tendremos una
o
realizacin del proceso, X(, 0 ), cuya representacin grca constituye lo que denominamos la
o
o
a
trayectoria del proceso (sample path). La Figura 4.2 muestra cuatro trayectorias de un proceso
de Poisson.
Por el contrario, si lo que jamos es t = t0 , estamos rerindonos a la variable aleatoria
e
Xt0 = X(t0 , ). La l
neas verticales que aparecen en la Figura 4.2 representan a las variables
aleatorias N20 y N25 , su interseccin con las cuatro trayectorias del proceso son las valores que
o
dichas variables han tomado en cada realizacin.
o
77
10
12
14
16
18
20
22
Trayectorias
10
15
20
25
30
Figura 4.2: Trayectorias de un proceso de Poisson y realizaciones de las variables N20 y N25
4.2.2.
Distribuciones nito-dimensionales
(4.1)
que recibe el nombre de distribucin nito-dimensional del proceso. Estas distribuciones pueden
o
igualmente venir dadas en trminos de la funciones de densidad o probabilidad conjuntas del
e
vector.
Un proceso estocstico se describe especicando sus distribuciones nito-dimensionales, que
a
permiten obtener la probabilidad de cualquier suceso involucrado en el proceso. Hay que advertir, no obstante, que el conjunto de distribuciones nito-dimensionales no determina por
completo las caracter
sticas del proceso1 , por lo que en ocasiones hay que denir ciertas condiciones o propiedades adicionales. Si el proceso se puede especicar completamente a partir de
dichas distribuciones, decimos que el proceso es separable.
Dos de estas propiedades son las que conocen como incrementos independientes y de Markov.
Veamos en qu consisten.
e
Denicin 4.2 (Incrementos independientes) Se dice que un proceso estocsticos tiene
o
a
sus incrementos independientes si para t1 < t2 < . . . < tn , las variables
Xt2 Xt1 , Xt3 Xt2 , . . . , Xtn Xtn1 ,
(4.2)
son independientes.
Denicin 4.3 (Markov) Se dice que un proceso estocsticos es un proceso de Markov si la
o
a
evolucin del proceso depende slo del pasado inmediato, es decir, dados t1 < t2 < . . . < tn
o
o
P (Xtn B|Xt1 , Xt2 , . . . , Xtn1 ) = P (Xtn B|Xtn1 ),
1 En
(4.3)
la pgina 319 del libro de Billingsley, Probability and Measure, 2nd Ed., hay un ejemplo relativo al
a
proceso de Poisson
78
Procesos Estocsticos
a
(4.4)
(4.5)
(4.6)
4.2.3.
Funciones de momento
Las llamadas funciones de momento, obtenidas a partir de los momentos de las variables
involucradas en un proceso estocstico, juegan un papel muy importante a la hora de conocer
a
su comportamiento y en las aplicaciones del mismo. Las ms relevantes son las siguientes:
a
Funcin media.- Se dene como
o
X (t) = E[Xt ], t T.
(4.7)
(t) =
xft (x)dx.
Funcin de autocorrelacin.- Se dene a partir del momento conjunto de dos variables asoo
o
ciadas a dos tiempos cualesquiera, t1 y t2 ,
R(t1 , t2 ) = E[Xt1 Xt2 ].
Para el caso discreto (4.8) se obtiene mediante
R(t1 , t2 ) =
x1 x2 P (Xt1 = x1 , Xt2 = x2 ).
x1 DXt ,x2 DXt
1
En el caso continuo
R(t1 , t2 ) =
(4.8)
79
Funcin de autocovarianza.- Se dene a partir del momento central conjunto de dos variao
bles asociadas a dos tiempos cualesquiera, t1 y t2 ,
C(t1 , t2 ) = E[(Xt1 (t1 ))(Xt2 (t2 ))],
(4.9)
o
o
(t1 , t2 ) =
C(t1 , t2 )
2 (t1 ) 2 (t2 )
o
Hay que advertir que todas las deniciones anteriores tiene sentido si las correspondientes
integrales o series son nitas.
Ejemplo 4.1 Consideremos el siguiente proceso estocstico del tipo CTCV,
a
Xt = A sin(0 t + ), t R,
donde A y son variables aleatorias independientes, con U (, ). Obtengamos sus
momentos.
(t)
= E[A sin(0 t + )]
= E(A)E[sin(0 t + )]
1
= A
sin(0 t + )d
2
= A 0 = 0.
La autocorrelacin vale
o
R(t1 , t2 ) =
=
=
=
=
E[Xt1 Xt2 ]
E[A2 sin(0 t1 + ) sin(0 t2 + )]
E(A2 )E[sin(0 t1 + ) sin(0 t2 + )]
1
E(A2 ) {E[cos 0 (t1 t2 )] E[cos(0 (t1 + t2 ) + 2)]}
2
1
E(A2 ) cos 0 (t1 t2 ).
2
(4.10)
(4.11)
cos( ) cos( + )
.
2
80
Procesos Estocsticos
a
4.3.
4.3.1.
Procesos IID
C(t1 , t2 ) =
2 ,
2 + 2 ,
si t1 = t2 ;
si t1 = t2 .
(n) = p,
P (X1 = 0, X2 = 1, X3 = 1, X4 = 0)
=
=
n 1,
81
con S0 = 0.
Si el proceso original es un proceso IID, el proceso suma tiene incrementos independientes
para intervalos de tiempo no solapados. En efecto, para el caso en que las Xk son discretas, si
n0 < n n1 y n2 < n n3 , con n1 n2 ,
Sn1 Sn0
Sn3 Sn2
=
=
Xn0 +1 + + Xn1
Xn2 +1 + + Xn3 .
Cada sumando est constituido por variables que son independientes de las del otro, lo que
a
supone la independencia de los incrementos. Observemos adems que para n2 > n1 ,
a
Sn2 Sn1 = Xn1 +1 + + Xn2 = X1 + X2 + Xn2 n1 = Sn2 n1 .
Por ejemplo, si las variables son discretas lo ser la suma por la expresin anterior tendremos,
a
o
P (Sn2 Sn1 = y) = P (Sn2 n1 = y).
La probabilidad depende tan slo de la longitud del intervalo y no de su posicin, por lo que
o
o
decimos que el proceso suma tiene los incrementos estacionarios. Ms adelante nos ocuparemos
a
con detalle del concepto de estacionariedad y las propiedades que de l se derivan.
e
Las distribuciones nito-dimensionales del proceso suma se obtienen haciendo uso de las
propiedad de incrementos estacionarios independientes. Si n1 < n2 < < nk ,
P (Sn1 = x1 , Sn2 = x2 , . . . , Snk = xk ) =
= P (Sn1 = x1 , Sn2 Sn1 = x2 x1 , . . . , Snk Snk1 = xk xk1 )
= P (Sn1 = x1 )P (Sn2 Sn1 = x2 x1 ) . . . , P (Snk Snk1 = xk xk1 )
= P (Sn1 = x1 )P (Sn2 n1 = x2 x1 ) . . . , P (Snk nk1 = xk xk1 ).
(4.12)
Si las variable del proceso original son continuas, es fcil obtener una expresin equivalente a
a
o
(4.12) para la densidad conjunta,
fSn1 ,Sn2 ,...,Snk (x1 , x2 , . . . , xk ) = fSn1 (x1 )fSn2 n1 (x2 x1 ) fSnk nk1 (xk xk1 ).
(4.13)
Las funciones de momento del proceso suma se derivan fcilmente de los momentos comunes a
a
las variables del proceso original. La media y la varianza valen,
2 (n) = var(Sn ) = n 2 ,
(n) = E(Sn ) = n,
= E[(Sn1 n1 )(Sn2 n2 )
n1
n2
= E
(Xi )
(Xj )
i=1
n1
j=1
n2
E[(Xi )(Xj )]
i=1 j=1
n1 n2
cov(Xi , Xj ).
i=1 j=1
2 ,
0,
si i = j;
si i = j.
82
Procesos Estocsticos
a
En denitiva,
m
n(n1 ,n2 )
2 = m 1 , n2 ) 2 .
n(n
C(n1 , n2 ) =
(4.14)
i=1
1 p,
p,
fk (x) =
0,
si x = 1;
si x = 1;
en el resto.
k = 0, 1, . . . , n.
(4.15)
(n) = E(Sn ) =
n
2
n = var(Sn ) =
del nuevo proceso son Sn B(n, p). Para obtener las distribuciones nito-dimensionales
podemos utilizar (4.12),
P (Sn1 = m1 , Sn2 = m2 , . . . , Snk = kk ) =
= P (Sn1 = m1 )P (Sn2 n1 = m2 m1 ) . . . , P (Snk nk1 = mk mk1 )
=
n1
m1
n2 n1
nk nk1
pmk (1 p)nk mk .
m2 m1
mk mk1
83
x1
1
e 2n1 2
2n1
)2
(x x
2(n knk1 )2
2(nk nk1 )
k1
(n) = 0,
4.3.2.
C(n1 , n2 ) = R(n1 , n2 ) = m 1 , n2 ) 2 .
n(n
Ruido blanco
Un ruido blanco es un proceso estocstico con media cero, (t) = 0, varianza constante,
a
2 (t) = 2 y con componentes incorreladas. Como consecuencia de ello, la funcin de autocoo
varianza y autocorrelacin coinciden y valen,
o
2 , t1 = t2 ;
0,
t1 = t2 .
R(t1 , t2 ) = C(t1 , t2 ) =
4.3.3.
Proceso Gaussiano
1
2
=
,
n
2
1
12
.
.
.
1(n1)
1n
|| 2 1 (x) 1 (x)
2
,
n e
(2) 2
(4.16)
12
2
2
.
.
.
.
.
.
1(n1)
2(n1)
.
.
.
1n
2n
.
.
.
2(n1)
2n
2
n1
(n1)n
(n1)n
2
n
84
Procesos Estocsticos
a
son el vector de medias y la matriz de covarianzas del vector (Xt1 , Xt2 , . . . , Xtn ). Esta denicin
o
es vlida tanto para tiempos discretos como continuos.
a
2
Si el proceso Gaussiano es tal que i = 0, i, ij = 0, i = j y i = 2 , i, estamos en presencia de un caso particular de ruido blanco, el ruido blanco Gaussiano, que dadas las particulares propiedades de la Normal multivariante, en la que incorrelacin equivale a independencia,
o
est constituido por variables independientes.
a
La importancia del proceso Gaussiano reside de una parte en sus propiedades, heredadas de
las propiedades de las Normal. Dos de ellas convienen ser destacadas,
a
1. las distribuciones nito-dimensionales del proceso estn completamente especicadas con
los momentos de primer y segundo orden, es decir, y ,
2. la transformacin lineal del proceso da lugar a un nuevo proceso Gaussiano (ver pgina
o
a
61).
Por otra parte, son muchos los fenmenos relacionados con seal y ruido que pueden ser modeo
n
lizados con xito utilizando un proceso Gaussiano.
e
4.3.4.
Proceso de Poisson
Sn =
Xi ,
n 0,
i=1
sup Sn = .
n
La Figura 4.3 muestra grcamente la relacin entre las Sn y las Xn a travs de una realizacin
a
o
e
o
de un proceso de Poisson.
85
X
S
S
S
S
2
3
4
X
3
S
S
X
1
(t)n1 t
e ,
(n 1)!
t 0,
Gn (t) =
kn
(t)k
= 1 et
k!
n1
k0
(t)k
,
k!
(4.17)
(4.18)
P (Nt n) = Gn (t) =
kn
(t)n
.
n!
(t)k
.
k!
(4.19)
Es decir, Nt P o(t), lo que justica el nombre dado al proceso. Este resultado nos permite
adems darle signicado al parmetro porque, si recordamos que E(Nt ) = t, se deduce
a
a
de aqu que es el nmero de suceso que ocurren por unidad de tiempo, una caracter
u
stica
espec
ca del fenmeno aleatorio que da lugar al proceso. Estudiemos algunas propiedades del
o
proceso de Poisson.
86
Procesos Estocsticos
a
)1
..
t+s
m tN
m( t N
tN
m N
tN
tN
sucesos
Figura 4.4: Relacin entre los tiempos de espera y un intervalo arbitario (t, t + s] en un proceso
o
de Poisson
Ms sencillo resulta comprobar la estacionariedad de los incrementos. En efecto, dada la
a
independencia entre las Xi , como YNt +1 depende exclusivamente de XNt +1 y de SNt ,
XNt +1 YNt +1 = t SNt ,
YNt +1 ser tambin independiente de todos los tiempos de espera posteriores, XNt +k , k 2. La
a
e
consecuencia inmediata es que la variable Nt+s Nt est relacionada con la suma de variables
a
exponenciales IID,
m
YNt +1 +
XNt +k ,
k=2
de forma semejante a como Nt lo est con las Xi . A efectos prcticos y gracias a la propiedad
a
a
de falta de memoria es como si desplazramos el origen de tiempos a t. As pues
a
P (Nt+s Nt = m) = P (Ns = m) = es
(s)m
,
m!
(4.20)
y podemos escribir, en general, que si t2 > t1 , Nt2 Nt1 P o((t2 t1 )), que depende slo del
o
incremento de tiempos y no de su posicin. Son pues estacionarios.
o
87
(4.21)
Si t1 > t2 intercambiar
amos t1 y t2 en la expresin anterior. En consecuencia, la funcin
o
o
de autocorrelacin vale
o
R(t1 , t2 ) = E[Nt1 Nt2 ] = m 1 , t2 ) + 2 t1 t2 .
n(t
(4.22)
(4.23)
88
Procesos Estocsticos
a
or
genes de ambos intervalos, ]0, t1 ] [0, t], y vamos obtener la probabilidad de que k de los n
sucesos hayan ocurrido en ]0, t1 ]. Haciendo uso de las propiedades del proceso,
P (Nt1 = k|Nt = n) =
=
=
=
=
P (Nt1 = k, Nt = n)
P (Nt = n)
P (Nt1 = k, Ntt1 = n k)
P (Nt = n)
[et1 (t1 )k /k!][e(tt1 ) ((t t1 ))nk /(n k)!]
et (t)n /n!
t n k
e t1 (t t1 )nk
n!
k!(n k)!
et n tn
n
k
t1
t
t t1
t
nk
Es decir, Nt1 |Nt = n B(n, p) con p = t1 /t, lo que signica que la probabilidad de que
cualquiera de los n sucesos ocurra en ]0, t1 ] es proporcional a la longitud del subintervalo o,
equivalentemente, los n sucesos se distribuyen uniformemente, al azar, en el intervalo ]0, t].
Este resultado tiene una aplicacin inmediata en la simulacin de un proceso de Poisson de
o
o
parmetro . En efecto, un sencillo algoritmo para simular las llegadas en un intervalo ]0, t] es
a
1. Generar un valor de una variable P o(t), lo que nos dar el nmero de llegadas.
a
u
2. Si el valor anteriormente simulado es n0 , generar n0 valores de una U (0, t), que determinarn los tiempos de llegada de los n0 sucesos.
a
Las funciones para genera valores de variables Poisson y Uniformes estn disponibles en cuala
quier ordenador.
Derivacin alternativa del proceso de Poisson
o
Existe una forma alternativa de obtener el proceso de Poisson basada en resultados elementales de Teor de la Probabilidad y estableciendo condiciones iniciales para el fenmeno. Con
a
o
la notacin habitual, estas condiciones son:
o
CA1) si t1 < t2 < t3 , los sucesos {Nt2 t1 = n} y {Nt3 t2 = m} son independientes, para
cualesquiera valores no negativos de n y m,
CA2) los sucesos {Nt2 t1 = n}, n = 0, 1, . . ., constituyen una particin del espacio
o
muestral y P (Nt2 t1 = n) depende slo de la diferencia t2 t1 ,
o
CA3) si t es sucientemente pequeo, entonces P (Nt 2) es despreciablemente pequea
n
n
comparada con P (Nt = 1), es decir
l
m
t0
1 P (Nt = 0) P (Nt = 1)
P (Nt 2)
= l
m
= 0,
t0
P (Nt = 1)
P (Nt = 1)
lo que equivale a
l
m
t0
1 P (Nt = 0)
= 1.
P (Nt = 1)
El desarrollo de esta alternativa, del que no nos ocuparemos en estas notas, es intuitivo, interesante y sencillo. Aconsejamos al lector de estas notas consultarlo en Stark y Woods (2002),
Gnedenko (1979) o en el material complementario Montes (2007).
89
(t) =
(x)dx,
t 0.
4.3.5.
El proceso conocido como RTS, Random Telegraph Signal en ingls, es un proceso relacioe
nado con el proceso de Poisson. Se trata de un proceso CTDV en el que la variables Xt toman
slo dos valores simtricos, {a, a}, de acuerdo con el siguiente esquema.
o
e
1. X0 = a con igual probabilidad p = 1/2,
2. Xt cambia de signo con cada ocurrencia de un suceso en un proceso de Poisson de parmea
tro .
Un proceso de estas caracter
sticas surge cuando toda la informacin de inters en una seal
o
e
n
aleatoria est contenida en los puntos donde se produce un cambio de signo, los puntos donde se
a
cruza el eje de las X s. Como las variaciones de amplitud carecen e inters, el esquema anterior
e
proporciona un modelo sencillo para el estudio de este tipo de fenmenos.
o
La funcin de probabilidad de Xt depende del valor Nt , ms concretamente de su paridad.
o
a
En efecto,
P (Xt = a) = P (Xt = a|X0 = a)P (X0 = a) + P (Xt = a|X0 = a)P (X0 = a). (4.25)
De la denicin del proceso se deduce que Xt y X0 tomarn el mismo valor si Nt = par, en
o
a
caso contrario tomarn valores opuestos. As
a
,
P (Xt = a|X0 = a) =
=
P (Nt = par)
(t)2n
et
.
(2n)!
(4.26)
n0
(t)k + (t)k
=2
k!
n0
(t)2n
.
(2n)!
Sustituyendo en (4.26)
P (Xt = a|X0 = a) = et
et + et
1
= (1 + e2t ).
2
2
(4.27)
a) = et
et et
1
= (1 e2t ).
2
2
(4.28)
Anlogamente,
a
P (Xt = a|X0 =
90
Procesos Estocsticos
a
Sustituyendo en (4.25)
P (Xt = +a)
P (Xt = a)
1
2
1
2
=
=
1
(1 + e2t ) +
2
1
(1 e2t ) +
2
1
1
(1 e2t ) = ,
2
2
1
1
(1 + e2t ) = ,
2
2
0.0
0.2
0.4
0.6
0.8
1.0
lo que no dice que el proceso RTS toma cualquiera de los dos valores con igual probabilidad en
cualquier instante de tiempo.
10
funcin de autocorrelacin
fst (x, y) =
1
2 P (N|ts|
= par) =
1
2 P (N|ts|
= impar) =
1
2
1
2
1 + e2|ts| ,
si x = y;
1
2
1
2
si x = y.
(4.29)
1 e2|ts| ,
La media del proceso RTS es nula dada la simetr de las variables Xt , (t) = 0. La varianza
a
vale
1
1
2
2 (t) = E(Xt ) = a2 + (a)2 = a2 .
2
2
91
E(Xt1 Xt2 )
a2 P (Xt1 = Xt2 ) a2 P (Xt1 = Xt2 ),
(4.30)
La funcin se amortigua a medida que aumenta la diferencia entre ambos tiempos, disminuyendo
o
as la correlacin entre ambas variables. En la Figura 4.5 se muestran las grcas de una
o
a
realizacin de un proceso RTS y de su funcin de autocorrelacin, en la que se aprecia el efecto
o
o
o
de amortiguacin mencionado.
o
4.3.6.
+/2,
/2,
si Bn = 1;
si Bn = 0,
(4.31)
(4.32)
donde T es una constante que denota el tiempo de transmisin de un bit, que suele elegirse
o
como mltiplo de 1/f0 para tener as un nmero entero de ciclos en el tiempo de transmisin
u
u
o
del bit. El inverso de T se denomina la tasa de baudios.
El proceso de la seal modulada es el proceso PSK, cuya expresin es
n
o
Xt = cos(2f0 t + t ).
(4.33)
Para la obtencin de las funciones de momento del proceso es conveniente hacer uso de las
o
funciones,
h(c) (t) =
cos(2f0 t),
0,
0 t < T;
en el resto,
(4.34)
h(s) (t) =
sin(2f0 t),
0,
0 t < T;
en el resto.
(4.35)
92
Procesos Estocsticos
a
Aplicando la frmula del coseno del ngulo suma y teniendo en cuenta la relacin (4.32), podeo
a
o
mos escribir
cos(2f0 t + t ) =
k=+
sin(k )h(s) (t kT )
cos(k )h(c) (t kT )
k=
k=
k=+
sin(k )h(s) (t kT ),
(4.36)
k=
1.0
0.5
0.0
0.5
1.0
donde el primer sumatorio se anula porque todos sus trminos son 0, puesto que si recordamos
e
(4.31), k = /2, k y en consecuencia cos(k ) = 0, k. La expresin (4.36) permite obtener
o
fcilmente (t) = 0 dado que sin(k ) = 1 con igual probabilidad.
a
0.0
0.2
0.4
0.6
0.8
1.0
0,
1,
si k = l;
si k = l,
con lo que
k=+
R(t1 , t2 ) =
k=
93
Por denicin, el soporte de h(s) (t) es el intervalo [0, T ], por lo que el anterior sumatorio
o
ser siempre nulo a menos que k0 tal que t1 y t2 estn ambos en [(k0 1)T, k0 T [. Si denotamos
a
e
por t = t mod T , la expresin nal de R(t1 , t2 ) ser
o
a
R(t1 , t2 ) =
h(s) (t )h(s) (t ),
1
2
0,
si t1 /T = t2 /T ;
en el resto,
(4.37)
donde representa la parte entera por defecto del argumento. La Figura 4.6 muestra una
realizacin de un proceso PSK y su funcin de autocorrelacin.
o
o
o
4.3.7.
L
mite de un camino aleatorio
El camino aleatorio que describimos en la pgina 82 era la suma de desplazamientos indea
pendientes a derecha e izquierda, de forma que slo saltos unitarios estaban permitidos en uno u
o
otro sentido en cada intervalo unitario de tiempo. Imaginemos ahora desplazamientos pequeos
n
de longitud que se producen en intervalos de tiempo pequeos de longitud , cuando desplan
zamiento y tiempo tiendan a cero obtendremos un proceso cuyas realizaciones sern funciones
a
continuas en el tiempo. Debemos precisar en que condiciones tienden a cero ambas cantidades.
Consideremos una part
cula situada en el origen. En cada intervalo de tiempo se desplaza
una cantidad aleatoria Z de manera que
P (Z = +) = p,
P (Z = ) = 1 p = q,
siendo los distintos desplazamientos independientes. Se trata de una variable dicotmica con
o
media y varianza
2
Z = (p q),
Z = 4pq2 ,
y cuya funcin caracter
o
stica vale
Z (u; ) = E(eiuZ ) = peiu + qeiu .
En un tiempo t se habrn producido n = t/ desplazamientos, siendo Xt la posicin nal
a
o
n
de la part
cula. Dicha posicin es por tanto la suma Xt = i=1 Zi , con las Zi i.i.d como la Z
o
anterior. As la funcin caracter
,
o
stica de Xt valdr
a
Xt (u; , ) = E(eiuXt ) = (peiu + qeiu )n = (peiu + qeiu )
t/
(4.38)
2
La media y la varianza de Xt se obtienen fcilmente a partir de Z y Z ,
a
Xt = t/ (p q),
2
Z = t/ 4pq2 .
1
1
1+
, q=
1
.
(4.39)
= , p =
2
94
Procesos Estocsticos
a
Estas relaciones suponen que tanto p como q deben ser valores muy prximos a 1/2 si queremos
o
evitar degeneraciones en el proceso l
mite y que es de un orden de magnitud mucho mayor
que puesto que como innitsimo = O( 1/2 ).
e
La distribucin de probabilidad l
o
mite de las Xt podemos conocerla a travs del comportae
miento l
mite de su funcin caracter
o
stica, para ello sustituiremos (4.39) en (4.38)
1
Xt (u; ) =
2
1+
iu
1
+
2
eiu
t/
(4.40)
teorema Central de L
mite a la suma de variable dicotmicas que denen Xt . De entre ellas
o
conviene destacar la propiedad de incrementos independientes y estacionarios. As si t1 < t2 ,
,
Xt2 Xt1 N ((t2 t1 ), 2 (t2 t1 )).
Para obtener ahora las distribuciones nito-dimensional del proceso l
mite podemos recurrir
a la expresin (4.13), que proporciona la densidad conjunta a partir de las densidades de los
o
incrementos. Si t1 < t2 < . . . < tn ,
ft1 ,t2 ,...,tn (xt1 , xt2 , . . . , xtn )
1
1
e 2
2t
2 1
1
2
(xt t1 )2
1
2 t1
1
2 2 (tn tn1 )
(xt t1 )2
1
2 t1
++
1
2
[(xtn xt
)(tn tn1 )]2
n1
2 (t2 tn1 )
[(xtn xt
)(tn tn1 )]2
n1
2 (t2 tn1 )
(2 2 )n t1 (tn tn1 )
95
Los fundamentos matemticos del proceso fueron establecidos por Norbert Wiener, matemtico
a
a
americano especialista en inferencia estad
stica y teor de la comunicacin. El proceso es coa
o
nocido tambin como movimiento browniano, expresin utilizada para describir el movimiento
e
o
aleatorio de las molculas de un gas al entrechocar entre s que recibe este nombre en honor
e
,
de Robert Brown, un botnico del siglo diecinueve que lo describi por primera vez.
a
o
La media y la varianza del proceso de Wiener son ya conocidas,
(t) = 0,
2 (t) = 2 t.
Autocovarianza y autocorrelacin coinciden. Para su obtencin, como los incrementos son ino
o
dependientes procederemos como hicimos en (4.22) y (4.23), obteniendo,
C(t1 , t2 ) = R(t1 , t2 ) = 2 m 1 , t2 ).
n(t
(4.41)
Observemos que las funciones de autocovarianza del proceso de Wiener, (4.41), y el proceso de
Poisson, (4.23), son iguales a pesar de tratarse de dos procesos de naturaleza muy distinta. Las
trayectorias del segundo son funciones escalonadas mientras que las del primero son continuas.
Esta igualdad pone en evidencia que las funciones de momento son slo descripciones parciales
o
del proceso.
4.3.8.
Cadenas de Markov
(4.42)
(4.43)
1
(Xn + Xn1 ),
2
donde las Xk son independientes, ambas Bernoulli con p = 1/2. Un proceso de estas caracter
sticas recibe el nombre de proceso de medias mviles de orden 2, puesto que se dene a
o
partir de la media aritmtica de las dos ultimas realizacin de otro proceso.
e
o
La funcin de probabilidad de Yn se calcula fcilmente. Por ejemplo,
o
a
P (Yn = 0) = P (Xn = 0, Xn1 = 0) =
1
.
4
96
Procesos Estocsticos
a
Para el resto,
1
1
,
P (Yn = 1) = .
2
4
Obtengamos ahora la probabilidad condicionada para dos valores consecutivos de Yn ,
P (Yn = 1/2) =
1
1/8
= .
1/2
4
pero el suceso {Yn = 1, Yn1 = 1/2} = {Xn = 1, Xn1 = 1, Xn2 = 0} y el suceso {Yn2 =
1} = {Xn2 = 1, Xn2 = 1}, con lo que ambos sucesos son incompatibles, por tanto,
P (Yn = 1|Yn1 = 1/2, Yn2 = 1) = 0 = P (Yn = 1|Yn1 = 1/2)
y el proceso no puede ser Markov.
Cadenas de Markov discretas
Si el proceso de markov es DTDV, recibe el nombre de cadena de Markov discreta. Este tipo
de procesos son de un gran inters prctico y vamos a ocuparnos de ellos con cierto detalle.
e
a
Es costumbre designar mediante X0 el inicio de la cadena. El soporte de las Xn , S =
{s0 , s1 , s2 , . . .}, se denomina espacio de estados de la cadena, que puede eventualmente ser
nito. Por razones de simplicidad nos referiremos a los valores de si solamente mediante su
sub
ndice i.
Probabilidades iniciales y de transicin.- Las probabilidades iniciales son
o
i = P (X0 = i),
i 0, i,
i = 1.
i
97
La cadena de Markov discreta, Xn , queda completamente especicada con las probabilidades iniciales y la llamada matriz de transicin de un paso, que recoge las probabilidades
o
del mismo nombre,
P=
p00
p10
p20
pi0
p01
p11
p21
pi1
p02
p12
(4.44)
P {X2 = j}
P (X2 = j, X1 = k|X0 = i)
=
k
=
k
=
k
P (X2 = j, X1 = k, X0 = i)
P (X0 = i)
P (X2 = j|X1 = k, X0 = i)P (X1 = k|X0 = i)P (X0 = i)
P (X0 = i)
P (X2 = j|X1 = k)P (X1 = k|X0 = i)
pik pkj ,
(4.45)
(4.46)
98
Procesos Estocsticos
a
n, m > 0, (i, j) S.
(4.47)
P (Xn = i)
P {Xn = i}
[j {Xn1 = j}]
pji
(4.48)
(4.49)
99
P=
1
+
(1 )n
+
cuyo l
mite es
l Pn =
m
1
+
2/3 1/3
2/3 1/3
1 = 1 p0 ,
p0
2/3 1/3
2/3 1/3
1 p0
2/3 1/3
l pij (n) = j , i,
m
n
la consecuencia es que
(n)
l j
m
n
(e)
(e)
j i = j , j.
i
(e)
= 1.
(4.50)
100
Procesos Estocsticos
a
= (1 )0 + 1
(e)
0
1
(e)
(e)
(e)
0 + (1 )1 ,
(e)
(e)
o
(e)
0 =
(e)
(e)
(e)
(e)
1 =
.
+
No todas las cadenas de Markov gozan de esta propiedad de equilibrio. El ejemplo siguiente
lo demuestra.
Ejemplo 4.5 (Proceso Binomial) El proceso Binomial que describ
amos en la pgina
a
82 es una cadena de Markov puesto que se trata de un proceso suma de Bernoullis independientes, B (1, p). Dada su denicin, en una transicin el proceso permanece en el
o
o
mismo estado o lo incrementa en una unidad, segn que hayamos obtenido un fracaso o
u
un xito en la prueba de Bernoulli correspondiente. La matriz de transicin ser,
e
o
a
1p
p
0
0
0
1p
p
0
.
P=
0
0
1 p p
Se comprueba que j, j (n) 0 cuando n .
Cadenas de Markov continuas en el tiempo
Si el proceso de markov es CTDV, recibe el nombre de cadena de Markov continua en
el tiempo. Como en el caso de las cadenas discretas, tambin ahora la matriz de transicin
e
o
especica completamente la cadena.
La distribucin nito-dimensional para n + 1 tiempos arbitrarios t1 < t2 < . . . < tn < tn+1 ,
o
viene dada por
P (Xtn+1 = xtn+1 , Xtn = xtn , . . . , Xt1 = xt1 ) =
= P (Xtn+1 = xtn+1 |Xtn = xtn ) P (Xt2 = xt2 |Xt1 = xt1 )P (Xt1 = xt1 ),
(4.51)
que exige conocer las probabilidades de transicin entre dos tiempos cualesquiera t y t + s,
o
P (Xt+s = j|Xt = i),
s 0.
Supondremos que dichas probabilidades son homogneas y dependen tan slo de la diferencia
e
o
de tiempos,
P (Xt+s = j|Xt = i) = P (Xs = j|X0 = i) = pij (s),
s > 0, t.
La matriz de transicin viene ahora referida a un intervalo de tiempo t, de forma que P(t) =
o
[pij (t)] denota la matriz de probabilidades de transicin en un intervalo de tiempo t.
o
101
(t)ji
,
(j i)!
j i.
t
e
tet (t)2 et /2
0
et
tet
(t)2 et /2
.
P(t) =
t
0
0
e
tet
1 t
t
0
0
0
1 t
t
0
.
P(t) =
0
0
1 t t
Tiempo de permanencia en un estado.- El proceso RTS modelizaba el cambio de signo de
una seal aleatoria y es una cadena de Markov continua en el tiempo que slo presenta dos
n
o
estado, S = {a, +a}. El cambio se signo estado se produce con cada llegada de un suceso
en el proceso de Poisson subyacente. Como los tiempos de llegada son exponenciales, se
deduce que el tiempo Ti que la cadena permanece en le estado i es Exp().
Esta propiedad, inmediata, en el caso del proceso RTS, es una propiedad general de este
tipo de cadenas de Markov. En efecto, si desde que el proceso alcanz el estado i ha
o
transcurrido un tiempo s, la probabilidad de que su estancia en l se prolongue por un
e
tiempo r vale
P (Ti > r + s|Ti > s) = P (Ti > r + s|Xt = i), 0 t s,
pero por la propiedad de Markov, lo unico relevante es donde estaba la cadena en el
102
4.4.
Procesos Estocsticos
a
Procesos estacionarios
En la pgina 81 introduc
a
amos el concepto de estacionariedad al comprobar que las distribucin ligada a los incrementos depend tan slo de la diferencia de tiempos y no de su
o
a
o
posicin.
o
El concepto de estacionariedad recoge una propiedad comn a muchos procesos consistente
u
en que su comportamiento probabil
stico no cambia con el tiempo. La denicin formal es la
o
siguiente.
Denicin 4.5 (Proceso estacionario) Un proceso estocstico Xt se dice que es estacionao
a
rio si sus distribuciones nito-dimensionales son invariantes por traslacin. Es decir,
o
Ft1 ,t2 ,...,tn (x1 , x2 , . . . , xn ) = Ft1 +,t2 +,...,tn + (x1 , x2 , . . . , xn ), (t1 , t2 , . . . , tn ), .
(4.52)
la primera consecuencia de esta denicin es que las distribuciones individuales de las variables
o
que componen el proceso no dependen de t, puesto que de (4.52) se deduce
Ft (x) = Ft+ (x) = F (x),
t, ,
y como consecuencia
(t) = E(Xt ) = , t
y
2 (t) = E[(Xt )2 ] = 2 .
Las distribucin conjunta de (Xt1 , Xt2 ) depender tan slo de la diferencia de tiempos,
o
a
o
t2 t1 . Basta para ello hacer = t1 en (4.52),
Ft1 ,t2 (x1 , x2 ) = F0,t2 t1 (x1 , x2 ), t1 , t2 .
La consecuencia es que los momentos de segundo orden y las funciones correspondientes dependen tambin, solamente, de dicha diferencia.
e
R(t1 , t2 ) = R(t2 t1 ),
C(t1 , t2 ) = C(t2 t1 ), t1 , t2 .
Algunos de los procesos antes denidos gozan de esta propiedad. As el proceso IID es
,
estacionario porque
Ft1 ,t2 ,...,tn (x1 , x2 , . . . , xn ) =
=
F (x1 ) F (xn )
= Ft1 +,t2 +,...,tn + (x1 , x2 , . . . , xn ),
103
P (Xtj = xj |Xti = xi ) =
1
2
1
2 P (N|ti tj |
= par) =
1
2 P (N|ti tj |
= impar) =
1 + e2|ti tj | ,
si xi = xj ;
1
2
si xi = xj .
1 e2|ti tj | ,
Si efectuamos ahora una traslacin de todos los tiempos, |ti tj | = |(ti ) (tj )|, y
o
P (Xtj = xj |Xti = xi ) = P (Xtj + = xj |Xti + = xi ),
y como P (Xt1 = x1 ) = 1/2, t1 , x1 , se deduce la estacionariedad del proceso RTS.
Si generalizamos el proceso RTS de manera que P (X0 = +a) = p y P (X0 = a) = 1 p la
estacionariedad se pierde. En efecto, en (4.53) las probabilidades condicionadas no cambian al
efectuar la traslacin , pero s pueden hacerlo P (Xt1 = x1 ). Por ejemplo, si x1 = a,
o
P (Xt1 = a) =
=
=
Al efectuar la traslacin,
o
P (Xt1 + = a)
Slo cuando desde el inicio hay equiprobabilidad, p = 1/2, P (Xt = a) = 1/2, t (vase la
o
e
demostracin en la Seccin 4.3.5) ambas probabilidades coinciden.
o
o
4.4.1.
Denicin 4.6 Decimos que un procesos estocstico es estacionario en sentido amplio (WSS,
o
a
Wide-Sense Stationary) si su media es constante y su funcin de autocorrelacin (autocovao
o
rianza) es invariante por traslacin. Es decir,
o
(t) = , t,
R(t1 , t2 ) = R(t1 + , t2 + ) = R( ), t1 , t2 .
La WWS es una propiedad ms dbil que la estacionariedad. Esta ultima implica a aquella
a e
104
Procesos Estocsticos
a
Xn toma los valores 1/3 y -3 con probabilidad 9/10 y 1/10, respectivamente. El proceso no puede
ser estacionario porque su funcin de probabilidad var con n.
o
a
Por otra parte, se comprueba fcilmente que
a
(n) = 0, n,
y
C(n1 , n2 ) =
E(Xn1 )E(Xn2 ) = 0,
2
E(Xn1 ),
si n1 = n2 ;
si n1 = n2 .
El proceso es WSS.
Propiedades de la funcin de autocorrelacin de un proceso WSS
o
o
En un proceso WSS la funcin de autocorrelacin tiene una serie de propiedades que por su
o
o
inters posterior vamos a deducir.
e
PA1) Para = 0
2
R(0) = R(t, t) = E(Xt ), t,
= P (|Xt+ Xt |2 > 2 )
E[(Xt+ Xt )2 ]
2
2
2
E[Xt+ + Xt 2Xt+ Xt ]
=
2
2[R(0) R( )]
=
.
2
(4.54)
(4.55)
(4.56)
105
m2 + 2mE(Nt ) + RN ( )
= m2 + RN ( ) m2 .
Deducimos de estas propiedades que la funcin de autocorrelacin puede tener tres tipos de
o
o
componentes,
1. una componente que se aproxima a 0 cuando ,
2. una componente peridica, y
o
3. una componente con media no nula.
Processos Gaussianos y estacionariedad
Hemos visto que la WSS estacionariedad, pero este resultado tiene un excepcin en el caso
o
del proceso Gaussiano. Como vimos en la Seccin 4.3.3, las distribuciones nito-dimensionales
o
del proceso estn completamente especicadas mediante su vector de medias y la matriz de
a
covarianzas.
Si el proceso Gaussiano es WSS, sabemos que (t) = , t y C(t1 , t2 ) = g(|t1 t2 |). La
consecuencia inmediata es que las distribucin conjunta de (Xt1 , Xt2 , . . . , Xtn ) ser invariante
o
a
por traslacin y el proceso ser estacionario.
o
a
Ejemplo 4.9 (Un proceso Gaussiano de medias mviles) Denamos
o
Yn =
Xn + Xn1
,
2
1
E[(Xn1 + Xn1 1 )(Xn2 + Xn2 1 )
4
1
E[Xn1 Xn2 + Xn1 Xn2 1 + Xn1 1 Xn2 + Xn1 1 Xn2 1 )
4
2
/2, si n1 n2 = 0;
2 /4, |n1 n2 | = 1;
0,
en el resto.
106
Procesos Estocsticos
a
El proceso Yn es por tanto WSS y adems es Gaussiano por ser combinacin lineal de variables
a
o
Gaussianas. Las distribuciones nito dimensionales del proceso estn especicadas con el vector
a
de medias nulo y la matriz de covarianzas que dene CY (n1 , n2 ).
4.4.2.
Procesos cicloestacionarios
Son muchos los procesos que surgen de la repeticin peridica de un experimento o fenmeno
o
o
o
aleatorio. Es lgico pensar que la periodicidad del proceso inuya en su comportamiento proo
babil
stico. Surge as la nocin de cicloestacionariedad.
o
Denicin 4.7 (Proceso cicloestacionario (CE)) Decimos que el proceso Xt es cicloestao
cionario, CE si sus distribuciones nito-dimensionales son invariantes por traslacin mediante
o
mltiplos enteros de un cierto per
u
odo T . Es decir, (t1 , t2 , . . . , tn ) y k Z,
Ft1 ,t2 ,...,tn (x1 , x2 , . . . , xn ) = Ft1 +kT,t2 +kT,...,tn +kT (x1 , x2 , . . . , xn ).
(4.57)
(4.58)
2t
T
P (Xt1 x1 , . . . , Xtn xn )
P [A cos(2t1 /T ) x1 , . . . , A cos(2tn /T ) xn ]
P [A cos(2(t1 + kT )/T ) x1 , . . . , A cos(2(tn + kT )/T ) xn ]
Ft1 +kT,t2 +kT,...,tn +kT (x1 , x2 , . . . , xn ),
y el proceso es cicloestacionario.
El proceso del ejemplo anterior es peridico en el sentido que todas sus trayectorias lo son. No
o
debe por ello sorprendernos que el proceso sea cicloestacionario. Hay procesos con un comportamiento c
clico que no tienen ese tipo de trayectorias y que no pudiendo por ello ser cicloestacionarios, son WSC. Veamos un ejemplo.
n
Ejemplo 4.11 Un modem transmite seales binarias 0 y 1 IID de la siguiente forma,
para transmitir un 1, emite una seal rectangular de amplitud 1 y duracin T ,
n
o
para transmitir un 0, emite una seal rectangular de amplitud -1 y duracin T .
n
o
107
2T
3T
0
4T
5T
0
An 1[0,T [ (t nT ),
Xn =
n=
donde An = 1 segn el valor a transmitir y 1[0,T [ () es la funcin indicatriz del intervalo [0, T ].
u
o
La media del proceso es 0 porque E(An ) = 0, n. La funcin de autocovarianza vale
o
+
C(t1 , t2 )
An 1[0,T [ (t1 nT )
= E
n=
Am 1[0,T [ (t2 mT )
(4.59)
m=
(4.60)
n=
1,
=
0,
108
Procesos Estocsticos
a
5T
1
4T
1
3T
1
2T
1
T
1
T
2T
3T
4T
5T
Cap
tulo 5
Transformacin lineal de un
o
proceso estacionario
5.1.
2[R(0) R( )]
.
2
De la s
ntesis entre esta propiedad y la descomposicin en serie de Fourier surge el concepto de
o
densidad espectral de potencia (PSD de sus siglas en ingls) que introducimos y estudiamos a
e
continuacin, distinguiendo entre procesos discretos y continuos en el tiempo.
o
5.1.1.
a
Denicin 5.1 Sea Xt un proceso estocstico WSS discreto en el tiempo, su espectro o densio
dad espectral de potencia, P (), es la transformada de Fourier de su funcin de autocorrelacin
o
o
110
R(k),
k=+
P () = F[R(k)] =
(5.1)
k=
Si tenemos en cuenta que R(k) = R(k) y eix + eix = 2 cos x, la expresin (5.1) adopta la
o
forma
P () = R(0) + 2
R(k) cos 2k,
(5.2)
k1
lo que implica que P () es una funcin real par, P () = P (). De esta ultima expresin
o
o
para P () se deduce que es peridica con periodo 1, por lo que slo consideraremos el rango de
o
o
frecuencias 1/2 < 1/2; pero dada su paridad bastar con denir P () para [0, 1/2].
a
Podemos denir el espectro normalizado dividendo (5.2) por R(0), obtendremos
R(k)
cos 2k.
R(0)
P () = 1 + 2
k1
(5.3)
(5.4)
k1
Ejemplo 5.1 (Espectro de un ruido blanco) Recordemos que si el proceso {Xt } es un ruido blanco, (t) = 0, 2 (t) = 2 , t y las variables son incorreladas (algunos autores exigen
independencia). Se trata, evidentemente, de un proceso WSS en el que
C(k) = R(k) =
2 , si k = 0;
0,
si k = 0.
1/2
1/2
P () exp(i2k)d = 2
1/2
P () cos(2k)d.
0
(5.5)
111
(5.6)
donde {Zt } es una sucesin de ruido blanco y || < 1. La restriccin para el valor de es
o
o
necesaria para que el proceso sea WSS (ver la Seccin 5.1 de Montes (2007)).
o
Para calcular R(k) multiplicamos ambas partes de (5.6) por Xtk y al tomar esperanzas se
obtiene,
R(k) = R(k 1),
y recursivamente,
R(k) = k R(0) = k 2 ,
P ()
= 2
k exp(i2k)
= + 2
k1
k1
= 2 1 +
k exp(i2k)
k exp(i2k) + 2
exp(i2)
exp(i2)
+
1 exp(i2) 1 exp(i2)
Operando y teniendo en cuenta que eix eix = 1 y que eix + eix = 2 cos x se obtiene nalmente,
P () =
2 (1 2 )
.
1 2 cos 2 + 2
(5.7)
2 =
2
.
1 2
2
.
1 2 cos 2 + 2
(5.8)
En la Figura 5.1 hemos representado (5.8) para 2 = 1 y = 0,5; 0,5; 0,9 y una trayectoria
de cada uno de estos procesos. El espectro para = 0,5 (superior) es creciente lo que signica
un mayor peso de las altas frecuencias, la potencia se concentra en ellas, y ello se corresponde
con una trayectoria que alterna valores positivos y negativos con rpidas oscilaciones entre unos
a
y otros. Para valores positivos de los espectros son decrecientes, indicando predominio de bajas
frecuencias, ms acusado para = 0,9 (inferior). Las trayectorias correspondientes muestran
a
oscilaciones menos frecuentes con largas permanencias de valores de un mismo signo.
2
2
X_n
2.0
1.5
0.5
1.0
espectro
2.5
3.0
112
0.0
0.1
0.2
0.3
0.4
0.5
50
frecuencia
100
150
100
150
100
150
2
2
X_n
2.0
1.5
0.5
1.0
espectro
2.5
3.0
0.0
0.1
0.2
0.3
0.4
0.5
50
frecuencia
0
2
X_n
10
0
espectro
15
0.0
0.1
0.2
0.3
0.4
0.5
50
frecuencia
Figura 5.1: Espectro y trayectoria del proceso AR(1) para = 0,5 (superior), = 0,5 (central)
y = 0,9 (inferior)
La existencia del espectro est supeditada a la convergencia de la serie en (5.1). Hay procesos
a
en lo que ello no ocurre. Veamos un ejemplo y cmo resolver el problema.
o
Ejemplo 5.3 (Un espectro divergente) Consideremos el proceso
Xt = A cos t + B sin t + Zt ,
(5.9)
con {Zt } una sucesin de ruido blanco con varianza 2 , y A y B sendas variables aleatorias
o
IID com media 0 y varianza 2 e independientes de Zt . La media del proceso ser por tanto
a
E(Xt ) = 0 y su varianza,
2
var(Xt ) = E(A2 ) cos2 t + E(B 2 ) sin2 t + E(Zt ) = 2 + 2 .
113
En denitiva,
2 + 2 ,
2 cos k,
R(k) =
si k = 0;
k = 0,
2 + 2 + 2 2
cos(k) cos(2k)
k1
2 + 2 + 2 2
Yt =
aj Xtj ,
(5.10)
j=
hablamos de un ltro lineal. Cada elemento del proceso resultante es una combinacin lineal,
o
eventualmente innita, de elementos del proceso original. Si hay un nmero nito de aj distintos
u
de cero y Xt es WSS, tambin lo ser Yt , pero en el caso de que la combinacin lineal sea
e
a
o
estrictamente innita, la WSS de Yt depende de los aj .
Si ambos procesos son WSS, es interesante establecer la relacin entre RX (k) y RY (k) y
o
PX () y PY (). Comencemos por la funcin de autocorrelacin,
o
o
RY (k) =
E(Yt Ytk )
al Xtl
l=
aj Xtkj
j=
al aj RX (k + j l).
l= j=
(5.11)
114
Para obtener la relacin entre las funciones de densidad espectral bastar calcular la transforo
a
mada de Fourier de ambas partes de (5.11),
k=+
PY ()
RY (k) exp(i2k)
=
k=
al aj RX (k + j l)ei2k
=
k= l= j=
=
=
k= l= j=
al ei2l
aj ei2j
RX (k
j=
l=
k=
+ j i)ei2(k+jl) .
(5.12)
1
(Xt1 + Xt + Xt+1 ),
3
un proceso de medias mviles de orden 3, MA(3), que no es ms que un ltro lineal con aj =
o
a
1/3, j = 1, 0, 1 y aj = 0 para cualquier otro j.
Para obtener PY (), recordemos el espectro del proceso AR(1) que obtuvimos en el ejemplo
5.2,
2
PX () =
.
1 2 cos 2 + 2
Por otra parte, la funcin de transferencia vale,
o
h() =
y
|h()|2 =
1 i2
1
(e
+ 1 + ei2 ) = (1 + 2 cos 2),
3
3
1
1
(1 + 4 cos 2 + 4 cos2 2) = (3 + 4 cos 2 + 2 cos 4).
9
9
Finalmente,
2 (3 + 4 cos 2 + 2 cos 4)
.
9(1 2 cos 2 + 2 )
La Figura 5.2 muestra los espectros de ambos procesos y la funcin de transferencia que
o
los relaciona, para 2 = 1 y = 0,5. El efecto del ltrado del proceso original es disminuir
la varianza, menor rea bajo el espectro, como resultado del suavizado que las medias mviles
a
o
implican. El suavizado se evidencia tambin en la mayor presencia de bajas frecuencias en el
e
espectro de Yt .
PY () =
115
3
0.0
0.1
0.2
0.3
0.4
0.0
0.2
0.4
espectro de Y
0.6
funcin de transferencia
2
1
espectro de X
0.8
1.0
0.5
0.0
0.1
frecuencia
0.2
0.3
0.4
0.5
0.0
0.1
frecuencia
0.2
0.3
0.4
0.5
frecuencia
Xt =
aj Ztj .
(5.14)
j=0
Recordemos que PZ () = 2 y
aj ei2j .
h() =
j=0
2 |h()|2
j=0
j=k
aj ak cos 2(k j)
a2 + 2
j
j=0
k1 j<k
2
b0 +
m1 k>m
bm cos 2m,
m1
akm ak cos 2m
a2 + 2
j
j=0
aj ak ei2(kj)
a2 +
j
k=0
ak ei2k
aj ei2j
j=0
(5.15)
116
= E(Xt Xs )
al Zsl
aj Ztj
j=0
l=0
aj al E(Ztj Zsl ).
(5.16)
j=0 l=0
o
pero siendo Zt un ruido blanco, E(Ztj Zsl ) = 0 slo si t j = s l, por lo que (5.16) se
escribir, si t s,
a
R(t, s) = 2
aj aj+st .
(5.17)
j=0
Por (5.14) E(Xt ) = 0, t , y la expresin (5.17) evidencia que R(t, s) = R(s t) = R(k), con lo
o
que el proceso ser WSS si la j=0 aj aj+k es convergente k. Ello supone que para k = 0
a
2
Xt = R(t, t) = R(0) =
a2 < .
j
(5.18)
j=0
|Xt Xtk | =
2
2
Xt Xtk
R(k)
1,
R(0)
y despejando
|R(k)| |R(0)| < .
En denitiva, la condicin necesaria y suciente para que el proceso lineal general sea WSS es
o
5.1.2.
Denicin 5.2 Sea Xt un proceso estocstico WSS continuo en el tiempo, su densidad espectral
o
a
de potencia, P (), es la transformada de Fourier de su funcin de autocorrelacin R( ),
o
o
+
P () = F[R( )] =
(5.19)
1
E
l
m
T T
T /2
T /2
Xt exp(i2 )d ,
(5.20)
117
P ()
R( ) exp(i2 )d
R( )(cos 2 i sin 2 )d
(5.21)
= 2
R( ) cos 2 d,
(5.22)
donde el paso de (5.21) a (5.22) se justica porque la funcin seno es una funcin impar.
o
o
PSDc3) La expresin (5.22) y la paridad de la R( ) y de la funcin coseno implican la paridad
o
o
de PSD, P () = P ().
Recordemos la relacin entre las funciones de autocovarianza y autocorrelacin en un proceso
o
o
WSS,
R( ) = C( ) + 2 .
Al calcular la PSD,
P ()
= F[R( )] = F[C( ) + 2 ]
= F[C( )] + F[2 ]
= F[C( )] + 2 (),
118
con = 0 + 1/2 y 0 < 0 < 1/2. La funcin es observada slo para tiempos enteros. Si
o
o
tenemos en cuenta que cos x = cos(x + 2t) para t entero, y que cos x = cos(x), las distintas
observaciones de x(t) cumplen,
x(t) = cos 2t
= cos(2t 2t)
=
=
=
=
1.0
0.5
0.0
0.5
1.0
con = 1/2 0 que verica 0 < < 1/2. En denitiva, las frecuencias > 1/2 no se
distinguen de las frecuencias < 1/2. La Figura 5.3 muestra el fenmeno, se observa en ella
o
que al muestrear s veces por segundo, las muestras de una y otra sinuoside se confunden. En
procesamiento de seales se dice que cada una de las sinusoides se convierte en un alias para
n
la otra, de ah el nombre que este fenmeno recibe.
10
20
30
40
50
60
P () exp(i2 )d.
(5.23)
2
De la denicin de R( ) se deduc que R(0) = E(Xt ). Aplicando (5.23) podemos calcular
o
a
esta esperanza, conocida como potencia media de Xt , mediante,
2
E(Xt ) = R(0) =
P ()d.
(5.24)
119
P () =
a2 e2| | ei2 d
a2
e (2+i2) d
a
a2
+
2 i2 2 + i2
2
a2
.
+ 2 2
(5.25)
0.6
0.4
0.0
0.2
0.8
1.0
e (2i2) d + a2
frecuencia
Figura 5.4: Densidad espectral de potencia del proceso RTS para = 1 (-----) y = 4 (- - -)
La Figura 5.4 muestra la grca de la densidad espectral de potencia para sendos procesos
a
RTS con = 1 y = 4. Como el mximo de (5.25) se alcanza en = 0 y su valor es
a
P (0) = a2 /, para valores de pequeos los mayores valores de la funcin se concentran en
n
o
las bajas frecuencias, pero a medida que aumenta las frecuencias altas adquieren mayor peso.
Todo ello se corresponde con lo que representa en el proceso. Valores pequeos de suponen
n
una tasa baja de cambios por unidad de tiempo y por tanto una menor frecuencia, lo contrario
de lo que implican elevados valores de .
a
Ejemplo 5.6 (PSD de un ruido blanco continuo) La grca de la izquierda de la Figura
5.5 muestra la PSD de un ruido blanco recortada a un rango de frecuencias 0 0 . Se
120
R()
P(w)
Nw0
N/2
w0
w0
Figura 5.5: P () con frecuencias acotadas para un ruido blanco (izquierda) y su correspondiente
R( ) (derecha)
Para obtener la funcin de autocorrelacin recurrimos a (5.23),
o
o
R( ) =
N
2
exp(i2 )d.
0
N
ei20 ei20
2
i2
N sin 20
.
2
N
2
d = N 0 ,
0
que coincide con el mximo de la funcin R( ), tal como se observa en la grca de la Figura
a
o
a
5.5.
A medida que 0 , el efecto sobre R( ) es el que se muestra en las grcas de la Figura
a
5.6. En el l
mite, P () ser constante para cualquier frecuencia, hecho que caracteriza a un
a
ruido blanco, y su funcin de autocorrelacin acumular toda la potencia en 0 y valdr por
o
o
a
a
tanto innito. Utilizando la funcin lo expresar
o
amos,
R( ) =
N
( ).
2
R()
R()
w [ w0, w0]
121
R()
w [ 2w0, 2w0]
w [ 4w0, 4w0]
RXn (k)
= E(Xn Xn+k )
= E(XnT X(n+k)T )
=
=
(5.26)
que al no depender de n supone que Xn es WSS. Adems, de (5.26) se deduce que RXn (k) es,
a
a su vez, el resultado de muestrear la autocorrelacin del proceso original con el mismo periodo
o
T con el que se obtuvo Xn . En concreto, si f0 = 20 el periodo valdr T = (20 )1 y
a
RXn (k) = RXt [k(20 )1 ],
pero en ejemplo anterior vimos que para un ruido blanco con densidad espectral de potencia
122
N 0 sin 20
,
20
que como ya dijimos se anula en = k(20 )1 , k = 1, 2, . . ., que son lo puntos donde est dea
nida RXn . En denitiva,
N 0 , si k = 0;
RXn (k) =
0,
k = 0,
que es la autocorrelacin de una sucesin de ruido blanco con 2 = N 0 .
o
o
Ejemplo 5.7 (Se al binaria as
n
ncrona (ABS)) Una seal binaria as
n
ncrona es una sucesin constituida por sucesivos impulsos de duracin T y de amplitud aleatoria Xn , una variable
o
o
que toma los valores a con igual probabilidad. La sucesin es as
o
ncrona porque el instante de
inicio, D, es una variable U [T /2, T /2[. Como consecuencia de ello, dos tiempos cualesquiera, t1 < t2 , tales que t2 t1 < T , pueden no coincidir en el mismo impulso.
A partir de una sucesin de estas caracter
o
sticas se dene el proceso ABS, continuo en el
tiempo, mediante la expresin
o
Xt =
(5.27)
1, si s A;
0, si s Ac .
-a
Suponemos que las amplitudes de los impulsos son independientes entre s y del desplazamiento
2
inicial D. En consecuencia, E(Xn Xm ) = E(Xn )E(Xm ) = 0 si n = m, E(Xn Xm ) = E(Xn ) =
123
a2 si n = m, y
RX (t1 , t2 ) =
a2
n=m m
a2
Observemos que 1A (t) es una variable aleatoria discreta que toma solamente los valores 0 y 1,
por tanto
E [1A (t1 )1A (t2 )] = P [1A (t1 ) = 1, 1A (t2 ) = 1],
lo que supone que tanto t1 como t2 pertenecen al mismo y unico intervalo A = [D + n0 T
T
, D + n0 T + T ]. Si t1 < t2 , entonces D ha tomado un valor tal que el anterior intervalo cubre
2
2
al intervalo que ambos denen, [t1 , t2 ]. Si t2 t1 = , para que esto ocurra D [T /2, T /2 ].
El razonamiento es igualmente vlido para el caso t2 < t1 . En denitiva
a
E 1[D+n0 T T ,D+n0 T + T ] (t1 )1[D+n0 T T ,D+n0 T + T ] (t2 ) =
2
P (D [T /2, T /2 | |]) =
T | |
| |
=1
, | | T,
T
T
mientras que la esperanza ser 0 para cualquier otro n. La expresin nal para RX ( ), con
a
o
| | = t2 t1 ser
a
| |
T
a2 1
0,
R( ) =
| | T ;
| | T .
Se trata de una funcin triangular cuya grca se muestra en la Figura 5.8 para a = 1 y
o
a
T = 1.
Conocida la funcin de autocorrelacin, podemos calcular ahora la densidad espectral de poo
o
tencia del proceso ABS y, en general, de cualquier proceso que posea una R( ) que sea triangular
(supondremos a = 1).
+
P ()
R( ) exp(i2 )d
+T
| |
T
exp(i2 )d
| |
T
cos 2 d
T
T
= 2
0
= T
sin T
T
(5.28)
El resultado sugiere una forma ms sencilla de obtener (5.28) si observamos que se trata del
a
cuadrado de una funcin sinc. Los pulsos rectangulares tienen por transformada de Fourier una
o
funcin de estas caracter
o
sticas. As si la autocorrelacin es un pulso rectangular unitario,
,
o
R( ) =
1,
0,
si | | 1/2;
si | | > 1/2,
1.0
0.0
0.5
R()
1.5
2.0
124
P () = 2
cos 2 d =
0
sin
.
Rc () =
R1 ( )R2 ( )d.
1/2
1 ||,
0,
si || 1;
si || > 1.
R (-)
2
R ()
125
) (R=A
- +
5.2.
La Inferencia Estad
stica nos ensea que la estimacin de cualquier caracter
n
o
stica ligada
a un fenmeno aleatorio exige la observacin repetida del mismo, que proporciona lo que deo
o
nominamos una muestra aleatoria. As la media poblacional, , de una variable aleatoria X
,
n
podemos estimarla mediante la media muestral, Xn = i=1 Xi , obtenida a partir de una muestra aleatoria de tamao n, X1 , . . . , Xn . Lo esencial de este procedimiento es la repetibilidad del
n
experimento, unica forma de conseguir la n observaciones que componen la muestra.
o
lo largo del tiempo, incluso durante un periodo largo de tiempo. Cmo obtener estimaciones
o
en tales condiciones? Necesitamos introducir el concepto de ergodicidad.
5.2.1.
Ergodicidad
La ergodicidad es una propiedad por la cual las medias a lo largo del tiempo convergen a los
valores esperados poblacionales. Existen diferentes tipos de ergodicidad, segn la caracter
u
stica
poblacional involucrada. Deniremos algunas de ellas, que nos han de ser utiles en cuanto sigue.
Denicin 5.3 (Ergodicidad en media) Decimos que un proceso WSS es ergdico en meo
o
dia si la media temporal converge en media cuadrtica a la media del proceso, ,
a
1
XT =
2T
+T
m.s.
Xt dt , cuando T .
T
126
An cuando consideramos fuera del alcance de estas notas las demostraciones de las propiedau
des de los estimadores ergdicos, y de las relaciones entre los distintos de ergodicidad, s las
o
5.2.2.
+T
1
T
|u|
2T
m.s.
CY (u)du 0, .
xn () =
Xj exp(i2j).
(5.29)
j=0
1
|n ()|2 .
x
n
(5.30)
Si tenemos en cuenta que |n ()|2 es una medida de la energ del proceso en la frecuencia ,
x
a
In (), la media temporal de dicha energ es una estimacin de la potencia en .
a,
o
La justicacin de porqu el periodograma es un estimador adecuado para la PSD la encono
e
tramos al calcular la esperanza de (5.30). Tengamos primero en cuenta que
|n ()|2 =
x
Xj exp(i2j)
n1
j=0
n1
Xj exp(i2k) ,
k=0
127
n1
n1
1
E[In ()] =
E
Xj ei2j
Xk ei2k
n
j=0
1
n
n1 n1
1
n
k=0
n1 n1
E(Xj Xk )ei2(jk)
j=0 k=0
RX (j k)ei2(jk) .
(5.31)
j=0 k=0
La expresin (5.31) puede simplicarse si tenemos en cuenta que el argumento j k toma valores
o
entre (n 1) y n 1, tantos como diagonales tiene el ret
culo [0, 1, . . . , n 1] [0, 1, . . . , n 1],
puesto que en cada una de esas diagonales j k toma el mismo valor. As pues, haciendo
j k = m,
E[In ()]
1
n
n1
(n |m|)RX (m)ei2m
m=(n1)
n1
1
m=(n1)
|m|
n
RX (m)ei2m .
(5.32)
1
|T ()|2 ,
x
T
T
xn () =
Xt ei2t dt.
E[IT ()] =
1
T
RX ( )ei2 d,
128
lm1
Xj exp(i2j) .
j=(l1)m
Denimos ahora el periodograma medio como aqul cuyo valor en cada frecuencia, , es la
e
[l]
media aritmtica de los Im (),
e
B() =
1
k
k
[l]
Im ().
(5.34)
l=1
Este periodograma recibe el nombre de periodograma de Bartlett, que fue quin lo introdujo
e
(Bartlett, 1950). La linealidad de la esperanza implica que este nuevo periodograma es tambin
e
un estimador insesgado de P (). Por lo que respecta a su varianza, podemos obtenerla a partir
[l ]
[l ]
de (5.33) teniendo en cuenta que para m lo sucientemente grande y l1 = l2 , Im1 () y Im2 ()
son incorreladas,
var[B()] =
1
k2
k
[l]
var[Im ()] =
l=1
1
1
[1]
var[Im ()] P 2 ().
k
k
Ejemplo 5.8 En el ejemplo 5.3 de Montes (2007) hemos obtenido la densidad espectral de
potencia del proceso ARMA(2,2)
(1 1,2B + 0,4B 2 )Xt = (1 0,8B + 0,1B 2 )Zt .
Hemos generado 1024 observaciones del proceso que aparecen representadas en el grco de la
a
Figura 5.10.
Para ver el efecto del periodograma medio de Bartlett hemos estimado el periodograma de
las 1024 simulaciones. Hemos calculado sendos periodogramas medios para k = 4 y k = 16. Las
grcas de todos ellos, junto con la densidad espectral de potencia del modelo ARMA(2,2) se
a
muestran conjuntamente en la Figura 5.11. Se aprecia claramente la mejora de la estimacin
o
a medida que k aumenta y tambin la disminucin de la variabilidad, basta para ello observar
e
o
las diferentes escalas para las ordenadas.
129
200
400
600
800
1000
10
15
100
200
300
400
500
0.0
0.1
0.2
0.3
0.4
0.5
0.5
1.5
2.5
3.5
20
40
60
80
100
120
10
15
20
25
30
130
Bibliograf
a
Bartlett, M. S. (1950). Periodogram analysis and continous spectra. Biometrika. 37, 116
Billingsley, P. (1995). Probability and Measure. 3rd Edition. Wiley, N.Y.
Diggle, P. (1990). Time Series. A Biostatistical Introduction. Oxford University Press, N.Y.
Gnedenko, B. V. (1979). Teor de la Probabilidad. Editorial Mir, Mosc.
a
u
Montes, F. (2007). Procesos Estocsticos para Ingenieros: Teor y Aplicaciones. Materiales
a
a
complementarios. Dpt. destad
stica i I. O. Universitat de Val`ncia.
e
Priestley, M. B. (1981). Spectral analysis and time series. Academic Press, London.
Stark, H. y Woods, J. W. (2002). Probability and random processes: with applications to signal
processing. 3rd Edition. Prentice Hall, N. J.