Apuntes IE 0405 Jorge Arturo Romero Chacon

Modelos probabilsticos de senales y sistemas
Jorge Arturo Romero Chacon

Enero 2016
ii
Prefacio
iii
iv
PREFACIO
Estas notas de clase representan un esfuerzo realizado con el fin de satisfacer los objetivos planteados cuando el curso IE-0405 Modelos probabilsticos
de se
nales y sistemas fue presentado ante la Asamblea de Escuela de Ingeniera Electrica para su aprobacion e inclusion dentro del plan de estudios
del bachillerato.
Tales objetivos fueron divididos en generales y especficos. Los objetivos
generales originales fueron planteados como sigue:
1. Familiarizarse con los conceptos fundamentales de la probabilidad.
2. Comprender el concepto de variable aleatoria discreta y continua y de
las funciones de densidad probabilstica.
3. Saber definir un proceso estocastico y conceptos elementales asociados.
4. Conocer los elementos basicos de la estadstica tal y como son empleados en la Ingeniera.
Los objetivos especficos originales fueron planteados de la siguiente manera. Al finalizar el curso el estudiante estara en capacidad de:
1. Definir en lenguaje com
un los conceptos de probabilidad, probabilidad
conjunta, probabilidad condicional, independencia estadstica, variable aleatoria, proceso estocastico, valor esperado, varianza, correlacion,
densidad espectral de potencia, estacionaridad, ergodicidad, deteccion
de se
nales, estimacion de parametros, intervalos de confianza, test de
hipotesis, regresion lineal y cadenas de Markov, utilizando a lo mas dos
lneas de escritura.
2. Aplicar los conceptos anteriores en aplicaciones basicas en Ingeniera
Electrica y resolver tales problemas sin recurrir a notas de clase o referencias.
3. Calcular probabilidades de eventos y los valores esperados de variables
aleatorias para problemas elementales, usando para ello la definicion
correspondiente o tablas de probabilidad.
4. Dada una situacion donde ha sido aplicado un muestreo, formular una
hipotesis y llevar a cabo tests apropiados para probar su aceptabilidad.
v
La practica docente ha demostrado que un semestre es suficiente para
cubrir la materia que se presenta en estas notas. Por consiguiente, forzosamente se ha tenido que dejar por fuera de consideracion algunos conceptos
propios de la estadstica a los que se hace alusion en los objetivos anteriores.
No obstante, es opinion de quien ha preparado estas notas que la persona que
llegue a mostrar un dominio medianamente regular de los conceptos presentados, esta en plena capacidad de estudiar por cuenta propia tales conceptos
y saber aplicarlos cuando la necesidad as lo plantee.
Por el momento, se presentan las notas con ejemplos acompa
nantes por
captulo. Eventualmente, se iran agregando mas ejercicios por el autor paulatinamente, de tal forma que se tenga a mano suficientes ejercicios representativos que sirvan de practica a la persona interesada. Tales ejercicios estaran
provistos de un desarrollo explicativo y de la correspondiente solucion. Cabe
aclarar que siempre habra mas de una forma de resolver un ejercicio, por lo
que simplemente se estara proponiendo una posible solucion.
vi
PREFACIO
Indice general
Prefacio
III
1. Teora b
asica de la probabilidad
1.1. Preambulo . . . . . . . . . . . . . . . . . . . . .
1.2. Definiciones basicas de la teora de conjuntos . .
1.2.1. Operaciones con conjuntos . . . . . . . .
1.3. Los conceptos de la Probabilidad . . . . . . . .
1.3.1. Definicion y axiomas de la probabilidad .
1.3.2. Modelo matematico de experimentos . .
1.3.3. Probabilidad condicional y conjunta . . .
1.3.4. Eventos independientes . . . . . . . . . .
1.3.5. Pruebas de Bernoulli o pruebas repetidas
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2. Variables aleatorias
2.1. Preambulo . . . . . . . . . . . . . . . . . . . . . . .
2.2. Concepto . . . . . . . . . . . . . . . . . . . . . . .
2.2.1. Variables aleatorias discretas y continuas . .
2.3. La funcion de distribucion . . . . . . . . . . . . . .
2.4. Funcion de densidad probabilstica . . . . . . . . .
2.4.1. Algunas funciones de densidad probabilstica
2.5. Densidad y distribucion condicionales . . . . . . . .
2.5.1. Funcion de distribucion condicional . . . . .
2.5.2. Funcion de densidad condicional . . . . . . .
2.6. Valor esperado de una variable aleatoria . . . . . .
2.7. Valor esperado de una funcion g(X) . . . . . . . . .
2.8. Valor esperado condicional . . . . . . . . . . . . . .
2.9. Momentos . . . . . . . . . . . . . . . . . . . . . . .
2.9.1. Momentos alrededor del origen . . . . . . .
vii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2
2
5
9
10
13
14
21
24
.
.
.
.
.
.
.
.
.
.
.
.
.
.
31
32
32
34
35
37
40
46
46
47
53
54
56
56
56
viii
INDICE GENERAL
2.9.2. Momentos centrales . . . . . . . . . . . . . . . . . . . .

2.9.3. Varianza e inclinacion . . . . . . . . . . . . . . . . . .
2.10. Funciones que dan momentos . . . . . . . . . . . . . . . . . .
2.10.1. Funcion caracterstica . . . . . . . . . . . . . . . . . .
2.10.2. Funcion generadora de momentos . . . . . . . . . . . .
2.11. Transformaciones de una variable aleatoria . . . . . . . . . . .
2.11.1. Transformaciones monotonicas de una V. A. continua .
2.11.2. Transformaciones no monotonicas de una V. A. continua
2.11.3. Transformacion de una variable aleatoria discreta . . .
3. Variables aleatorias m
ultiples
3.1. Preambulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Conceptos introductorios . . . . . . . . . . . . . . . . . . . . .
3.3. Propiedades de la distribucion conjunta . . . . . . . . . . . . .
3.4. Densidad conjunta y sus propiedades . . . . . . . . . . . . . .
3.5. Densidad y distribucion condicional . . . . . . . . . . . . . . .
3.5.1. Condicionamiento puntual . . . . . . . . . . . . . . . .
3.5.2. Condicionamiento por intervalo . . . . . . . . . . . . .
3.6. Independencia estadstica . . . . . . . . . . . . . . . . . . . . .
3.7. Distribucion y densidad de una suma de variables aleatorias .
3.7.1. Suma de dos variables aleatorias . . . . . . . . . . . . .
3.7.2. Suma de varias variables aleatorias . . . . . . . . . . .
3.8. Teorema del lmite central . . . . . . . . . . . . . . . . . . . .
3.8.1. El teorema del lmite central para sumas . . . . . . . .
3.8.2. El teorema del lmite central para medias de muestras .
3.9. Desigualdad de Chebyshev y ley de los grandes n
umeros . . .
3.9.1. Desigualdad de Chebyshev . . . . . . . . . . . . . . . .
3.9.2. Ley de los grandes n
umeros . . . . . . . . . . . . . . .
3.10. Operaciones con variables aleatorias m
ultiples . . . . . . . . .
3.10.1. Valor esperado de una funcion de variables aleatorias .
3.10.2. Momentos conjuntos alrededor del origen . . . . . . . .
3.10.3. Momentos centrales conjuntos . . . . . . . . . . . . . .
3.10.4. Funciones caractersticas conjuntas . . . . . . . . . . .
3.11. Variables aleatorias conjuntamente gaussianas . . . . . . . . .
3.12. Transformaciones de variables aleatorias m
ultiples . . . . . . .
57
57
58
58
59
61
62
65
67
69
70
70
71
72
75
75
78
79
80
81
83
84
85
89
91
91
94
96
96
98
100
103
106
109
INDICE GENERAL
4. Procesos estoc
asticos
4.1. Preambulo . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Conceptos basicos . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1. Concepto de un proceso aleatorio . . . . . . . . . . .
4.2.2. Clasificacion de procesos . . . . . . . . . . . . . . . .
4.3. Funciones de distribucion y de densidad . . . . . . . . . . .
4.4. Independencia estadstica . . . . . . . . . . . . . . . . . . . .
4.5. Procesos estacionarios de primer orden . . . . . . . . . . . .
4.6. Estacionaridad de segundo orden y de sentido amplio . . . .
4.7. Estacionaridad en sentido estricto y a orden N . . . . . . . .
4.8. Promedios en el tiempo y ergodicidad . . . . . . . . . . . . .
4.9. Funciones de correlacion . . . . . . . . . . . . . . . . . . . .
4.9.1. Funcion de autocorrelacion y sus propiedades . . . .
4.9.2. Funcion de correlacion cruzada y sus propiedades . .
4.9.3. Funciones de covarianza . . . . . . . . . . . . . . . .
4.10. Proceso aleatorio de Poisson . . . . . . . . . . . . . . . . . .
4.10.1. Funcion de densidad probabilstica . . . . . . . . . .
4.10.2. Densidad probabilstica conjunta . . . . . . . . . . .
4.11. Caractersticas espectrales de procesos estocasticos . . . . .
4.11.1. Espectro de densidad de potencia y sus propiedades .
4.11.2. Propiedades del espectro de densidad de potencia . .
4.11.3. Ancho de banda del espectro de densidad de potencia
4.11.4. Relacion entre el espectro de potencia y la autocorrelacion . . . . . . . . . . . . . . . . . . . . . . . . . .
4.11.5. Espectro de densidad de potencia cruzada y sus propiedades . . . . . . . . . . . . . . . . . . . . . . . . .
4.12. Algunas definiciones de ruido . . . . . . . . . . . . . . . . .
4.13. Respuesta de sistemas lineales a una se
nal aleatoria . . . . .
4.13.1. Respuesta del sistema: convolucion . . . . . . . . . .
4.13.2. Valor medio y cuadratico medio de la respuesta del
sistema . . . . . . . . . . . . . . . . . . . . . . . . . .
4.13.3. Autocorrelacion de la respuesta . . . . . . . . . . . .
4.13.4. Correlacion cruzada de entrada y salida . . . . . . . .
4.13.5. Caractersticas espectrales de la respuesta del sistema
4.13.6. Espectros de densidad de potencia cruzada de entrada
y salida . . . . . . . . . . . . . . . . . . . . . . . . .
ix
113
. 114
. 114
. 114
. 116
. 118
. 119
. 119
. 121
. 123
. 123
. 125
. 125
. 127
. 130
. 131
. 132
. 133
. 135
. 135
. 140
. 141
. 143
.
.
.
.
146
149
152
152
.
.
.
.
152
154
155
157
. 159
INDICE GENERAL
5. Cadenas de Markov
5.1. Preambulo . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. Conceptos introductorios . . . . . . . . . . . . . . . . . . . .
5.2.1. Primer hecho: densidad de la variable mnima de un
conjunto de variables aleatorias . . . . . . . . . . . .
5.2.2. Segundo hecho: probabilidad de que un componente
dado sea el que falle . . . . . . . . . . . . . . . . . .
5.3. El proceso de nacimiento y muerte en tiempo continuo . . .
5.4. Colas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5. El vector de probabilidad de estado estable . . . . . . . . . .
5.6. Cadenas de Markov de tiempo discreto . . . . . . . . . . . .
5.6.1. La matriz de transicion de orden t . . . . . . . . . . .
5.6.2. El vector de probabilidad t . . . . . . . . . . . . . .
5.6.3. El vector de probabilidad de estado estable . . . . . .
6. Bibliografa
161
. 162
. 162
. 163
.
.
.
.
.
.
.
.
164
167
170
176
186
193
196
200
211
Indice de figuras
5.1.
5.2.
5.3.
5.4.
5.5.
5.6.
5.7.
5.8.
5.9.
Ejemplo
Ejemplo
Ejemplo
Ejemplo
Ejemplo
Ejemplo
Ejemplo
Ejemplo
Ejemplo
1. Cadena de Markov de tiempo discreto . . . . . . .

2. Cadena de Markov de tiempo discreto . . . . . . .
3. Paseo aleatorio sobre S = {0, 1, 2, . . . , N }. . . . . .
5. De un diagrama de salto a la matriz de transicion.
6. Vector de probabilidad t . . . . . . . . . . . . . . .
7. Vector de probabilidad de estado estable. . . . . .
8. Vector de probabilidad de estado estable. . . . . .
9. Proceso cclico. . . . . . . . . . . . . . . . . . . . .
11. Paseo aleatorio sobre los enteros positivos. . . . .
xi
188
190
192
196
198
203
204
206
209
xii
INDICE DE FIGURAS
Indice de cuadros
1.1. Distribucion de valores de las resistencias en la caja. . . . . . . 15
5.1. N
umero N mas peque
no para que el 90 % del tiempo haya N
o menos clientes en el estado estable. . . . . . . . . . . . . . . 185
xiii
xiv
INDICE DE CUADROS
Captulo 1
Teora b
asica de la probabilidad

CAPITULO 1. TEORIA BASICA
DE LA PROBABILIDAD
1.1.
Pre
ambulo
Existen varios enfoques para la definicion y discusion de la probabilidad.

Vale la pena considerar dos de ellos. El primero emplea la definicion de frecuencia relativa de probabilidad. Es principalmente u
til al tratar topicos que
no se relacionan con la teora de probabilidad misma.
El segundo enfoque emplea la definicion axiomatica. Este proporciona las
bases matematicas mas firmes y es el que se estudiara en este libro.
El enfoque axiomatico requiere del enunciado de los axiomas de la probabilidad. Antes de hacerlo se hara un breve repaso de la teora de conjuntos.
1.2.
Definiciones b
asicas de la teora de conjuntos
Un conjunto es una coleccion de objetos. Los objetos se denominan elementos del conjunto, y pueden ser cualquier cosa. Se puede tener un conjunto
de voltajes, un conjunto de aeroplanos, un conjunto de sillas, o aun un conjunto de conjuntos, denominado una clase de conjuntos. Un conjunto se denota
por una letra may
uscula, mientras que un elemento por una letra min
uscula.
De esta forma, si a es un elemento del conjunto A, se escribe,
aA
(1.1)
a 6 A
(1.2)
Si no lo es,
Un conjunto se especifica por el contenido de dos llaves: {}.

Existen dos metodos para especificar el contenido de un conjunto, el metodo tabular (explcito) y el metodo de la regla (implcito o cualitativo). En el

1.2. DEFINICIONES BASICAS
DE LA TEORIA DE CONJUNTOS
metodo tabular los elementos son enumerados explcitamente. En el metodo

de la regla, el contenido de un conjunto esta determinado por alguna regla.
Este metodo es mas conveniente usarlo cuando el conjunto es grande.
Ejemplo
El conjunto de todos los enteros entre 5 y 10 se escribira, con el metodo
tabular, de la forma: {6, 7, 8, 9}. Por el metodo de la regla, se escribira,
{enteros mayores que 5 pero menores que 10}.
Un conjunto se dice ser enumerable si sus elementos pueden ponerse en
una correspondencia con los n
umeros naturales, que son los enteros 1, 2, 3, . . ..
Si el conjunto no ofrece tal posibilidad, no es enumerable. Un conjunto se dice
ser vaco si no tiene elementos, y se le representa por . Tambien se le suele
llamar el conjunto nulo.
Un conjunto finito es uno que es o vaco o tiene elementos que pueden
contarse, con un proceso de conteo que finaliza. En otras palabras, tiene un
n
umero finito de elementos. Si el conjunto no es finito, es infinito.
Un conjunto infinito con elementos enumerables es denominado enumerablemente infinito.
Si todo elemento de un conjunto A es tambien un elemento en otro conjunto B, A se dice estar contenido en B. A es un subconjunto de B:
AB
(1.3)
Si por lo menos hay un elemento de B que no esta en A, entonces es un

subconjunto propio de B:
AB
(1.4)
El conjunto vaco (nulo) es claramente un subconjunto de todo conjunto.

DE LA PROBABILIDAD
Dos conjuntos, A y B, se llaman disjuntos o mutuamente excluyentes si

no tienen elementos comunes.
Ejemplo:
A = {1, 3, 5, 7}
D = {0,0}
B = {1, 2, 3, . . .}
E = {2, 4, 6, 8, 10, 12, 14}
C = {0,5 c 8,5} F = {5,0 < f 12,0}
El conjunto A esta tabularmente especificado, es enumerable, y es finito.
B esta tambien tabularmente especificado y es enumerable, pero es infinito.
El conjunto C esta especificado por regla, no es enumerable e infinito, dado
que contiene todos los n
umeros mayores que 0,5 pero que no exceden 8,5.
Similarmente, los conjuntos D y E son finitos enumerablemente, mientras
que el conjunto F es infinito y no enumerable. D no es el conjunto nulo,
tiene un elemento, el n
umero cero. El conjunto A esta contenido en B, C y
F . Similarmente, C F , D F , y E B. Los conjuntos B y F no son
subconjuntos de alg
un otro de los conjuntos o uno del otro. Los conjuntos A,
D y E son mutuamente excluyentes uno del otro.
El conjunto mas grande o abarcador de objetos bajo discusion en una
situacion dada se denomina conjunto universal, denotado por S. Todos los
conjuntos (dentro de un contexto bajo estudio) son subconjuntos del conjunto
universal.
Ejemplo
Considerese el problema de tirar un dado. Solamente los n
umeros que
se muestran en la cara superior son de interes. Aqu el conjunto universal
es S = {1, 2, 3, 4, 5, 6}. En un juego de azar, la persona gana si el n
umero
esta en el conjunto A = {1, 3, 5}. Otra persona podra ganar si el n
umero
que aparece es cuatro o menor, es decir, por cualquier n
umero en el conjunto
B = {1, 2, 3, 4}. Tanto A como B son subconjuntos de S.

Para cualquier conjunto universal con N elementos, hay 2N subconjuntos

posibles de S. Para el ejemplo anterior, N = 6 y 2N = 64.
1.2.1.
Operaciones con conjuntos
Se suele usar una representacion geometrica que nos permite asociar una
imagen fsica con un conjunto. Tal representacion es el diagrama de Venn.
Los conjuntos son representados por figuras planas cerradas. Los elementos
de los conjuntos son representados por los puntos encerrados (es decir, por el
area encerrada). El conjunto universal S es representado por un rectangulo
que encierra a todas las figuras planas cerradas.
Igualdad y diferencia
A = B si y solo si A B y B A.
A B es el conjunto que contiene a los elementos de A que no estan
en B. Por ejemplo, con A = {0, 6 < a 6 1, 6} y B = {1, 0 < b 6 2, 5},
entonces A B = {0, 6 < c < 1, 0} o B A = {1, 6 < d 6 2, 5}. Notese que
A B 6= B A.
Uni
on e intersecci
on
La union de dos conjuntos A y B es un conjunto nuevo C constituido por
elementos que estan en A o estan en B.
C =AB
La interseccion de dos conjuntos A y B es un conjunto nuevo D constituido por elementos que pertenecen tanto al conjunto A como al conjunto
B.

DE LA PROBABILIDAD
D =AB
Dos conjuntos A y B son mutuamente excluyentes si A B = .
La union e interseccion de N conjuntos An , n = 1, 2, . . . , N se escribe,
C = A1 A2 . . . AN
N
[
=
An
n=1
D = A1 A2 . . . AN
N
\
=
An
n=1
Complemento
El complemento de un conjunto A, denotado por A, es el conjunto de
todos los elementos que no estan en A:
A=SA
Las siguientes igualdades, concernientes al concepto de complemento de
un conjunto, se satisfacen:
= S
S =
AA = S
AA =

Ejemplo
Considerese los siguientes conjuntos:
S = {1 6 enteros 6 12}
B = {2, 6, 7, 8, 9, 10, 11}
A = {1, 3, 5, 12}
C = {1, 3, 4, 6, 7, 8}
Sobre tales conjuntos, se pueden ejecutar las siguientes operaciones:
A B = {1, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12}

AB =
A C = {1, 3, 4, 5, 6, 7, 8, 12}
A C = {1, 3}
B C = {1, 2, 3, 4, 6, 7, 8, 9, 10, 11}
B C = {6, 7, 8}
A = {2, 4, 6, 7, 8, 9, 10, 11}
B = {1, 3, 4, 5, 12}
C = {2, 5, 9, 10, 11, 12}
Algebra
de conjuntos
Todos los subconjuntos del conjunto universal forman un sistema algebraico para el que cierto n
umero de teoremas y de propiedades pueden establecerse.
Ley conmutativa

DE LA PROBABILIDAD
AB = BA
AB = BA
Ley distributiva
A (B C) = (A B) (A C)
A (B C) = (A B) (A C)
Ley asociativa
(A B) C = A (B C)
= ABC
(A B) C = A (B C)
= ABC
Leyes de De Morgan
AB = AB
AB = AB
Principio de la dualidad
Si en una identidad se reemplazara uniones por intersecciones, intersecciones por uniones, S por y por S, la identidad se mantendra.
Ejemplo
Considerese la identidad
1.3. LOS CONCEPTOS DE LA PROBABILIDAD
A (B C) = (A B) (A C)
Si se aplica el principio de la dualidad, queda entonces como
A (B C) = (A B) (A C)
lo cual es una identidad cierta.
1.3.
Los conceptos de la Probabilidad
La nocion de experimento fsico es importante en la teora de la probabilidad. Un experimento podra consistir en hacer rodar un dado y observar el
n
umero que sale. Cada ejecucion del experimento recibe el nombre de prueba
para el que hay un resultado. Al rodar el dado, hay seis n
umeros que pueden
salir y entre todos constituyen todos los posibles resultados del experimento. Si el dado no esta cargado, la intuicion nos dice que cada resultado es
igualmente probable que ocurra, y la probabilidad de que cada uno ocurra es
1/6. Este experimento pareciera verse gobernado por dos conjuntos. Uno es
el conjunto de todos los posibles resultados, y el otro es el conjunto de las
probabilidades de los resultados. Cada conjunto tiene seis elementos. Por el
momento se considera solo el conjunto de resultados.
Al conjunto de todos los posibles resultados se le llama espacio de muestras y se le asigna el smbolo S. El espacio de muestras es un conjunto
universal para el experimento dado.
En el ejemplo de tirar el dado, S fue un conjunto finito de 6 elementos. Tal
tipo de espacios de muestra son discretos y finitos. Tambien los hay discretos
e infinitos: S en el experimento escoger aleatoriamente un entero positivo es
el conjunto enumerablemente infinito {1, 2, 3, . . .}.

DE LA PROBABILIDAD
10
Algunos experimentos tienen un espacio de muestras no enumerable e infinito, como en el experimento definido por obtener un n
umero moviendo un
puntero sobre una rueda de la fortuna numerada de 0 a 12 ; en este experimento cualquier n
umero s entre 0 y 12 puede aparecer y S = {0 6 s 6 12}.
Tal espacio de muestras se describe como continuo.
En la mayora de las veces, se esta interesado en alguna caracterstica
de los resultados del experimento en vez de estarlo en los mismos resultados. Esto lleva a la definicion de un evento. Un evento se define como un
subconjunto del espacio S de muestras.
Dado que un evento es un conjunto, todos las definiciones y nociones
dadas para conjuntos, se aplican a un evento. Si por ejemplo dos eventos no
tienen resultados comunes, son mutuamente excluyentes.
En un experimento con naipes, 13 de los 52 posibles resultados son espadas. Dado que cada resultado de obtener una espada satisface el evento
obtener una espada, este evento es un conjunto con 13 elementos. En este
ejemplo, puede haber hasta 2N = 252 4,5(10)15 eventos.
Los eventos pueden ser discretos o continuos. Un ejemplo de un evento discreto y enumerablemente infinito sera escoger un entero impar en el
experimento escoger al azar un entero, positivo.
Los eventos definidos en espacios de muestras continuos son usualmente
continuos, pero tambien puede definirse eventos discretos sobre espacios de
muestras continuos.
1.3.1.
Definici
on y axiomas de la probabilidad
Para cada evento definido sobre un espacio de muestras S, se asignara un

n
umero no-negativo llamado probabilidad.
La probabilidad es una funcion de los eventos definidos. Se usa la notacion
11
P (A) para denotar la probabilidad del evento A.

Las probabilidades que se asignan se escogen para satisfacer tres axiomas. Sea A un evento definido sobre un espacio de muestras S. Entonces los
primeros dos axiomas son:
Axioma 1: P (A) 0
(1.5)
Axioma 2: P (S) = 1
(1.6)
El primer axioma indica el deseo de trabajar con n

umeros no-negativos.
El segundo axioma reconoce que el espacio de muestras mismo es un evento,
y dado que es el evento que los incluye a todos, debera tener la probabilidad
mas grande posible, que se escoge como 1. Por esta razon, S es conocido
como el evento seguro. Por otro lado, el conjunto nulo es un evento sin
elementos; es conocido como el evento imposible y su probabilidad es 0.
El tercer axioma aplica a N eventos An , n = 1, 2, ....., N donde N puede
ser infinito, definido sobre un espacio de muestras S, con la propiedad Am
An = para todo m 6= n.
Axioma 3: P
N
[
!
An
n=1
N
X
P (An )
(1.7)
n=1
si Am An = para todo m 6= n = 1, 2, . . . , N con N que puede ser infinito.

El axioma establece que la probabilidad del evento igual a la union de cualquier n
umero de eventos mutuamente excluyentes es igual a la suma de las
probabilidades de los eventos individuales.
Ejemplo
Aqu se analiza la situacion que puede ocurrir cuando se define un evento
discreto sobre un espacio continuo de muestras.
12

DE LA PROBABILIDAD
Considerese el experimento que consiste en obtener un n
umero x al dar
vuelta a una aguja inserta en una rueda de la fortuna (en buen estado) que
tiene una marcacion con n
umeros de 0 a 100. El espacio de muestras es
S = {0 < x 6 100}.
La probabilidad de que el puntero caiga entre dos n
umeros x1 , x2 con
x2 x1
x1 6 x2 , podra pensarse que habra de ser
puesto que la rueda no
100
esta alterada. Se puede ver que el evento A = {x1 < x 6 x2 } satisface el
axioma 1 para todo x1 y x2 y el axioma 2 cuando x2 = 100 y x1 = 0.
Si ahora se parte la periferia de la rueda en N segmentos contiguos An
de tal forma que An = {xn1 < x 6 xn }, xn = n(100)/N , n = 1, 2, . . . , N
con x0 = 0 entonces, de acuerdo con el parrafo anterior, P (An ) = 1/N y,
para cualquier N ,
N
[
n=1
!
An
N
X
1
P (An ) =
=
= 1 = P (S)
N
n=1
n=1
N
X
lo que satisface el axioma 3.

Si en este ejemplo se hace que xn xn1 0, la probabilidad P (An )
P (xn ); es decir, P (An ) deviene la probabilidad del puntero que cae directamente en el punto xn . Puesto que N en esta situacion, P (An ) 0.
As, la probabilidad de un evento discreto definido sobre un espacio continuo
de muestras es 0. Esto es cierto en general.
Una consecuencia de la deduccion anterior es que ciertos eventos pueden
ocurrir aun si su probabilidad es 0. Intuitivamente, puede obtenerse cualquier
n
umero de la rueda de la fortuna, pero tal n
umero exacto pueda que no ocurra
otra vez. El espacio infinito de muestras tiene solo un resultado que satisface
tal evento discreto, por lo que su probabilidad es 0. Tales eventos no son los
mismos como el evento imposible que no tiene elementos y no puede ocurrir.
La situacion inversa puede tambien suceder donde eventos con probabilidad
13
1 pueda que no ocurran. Un ejemplo para el experimento de la rueda de la

fortuna sera el evento A = {todos los n
umeros excepto el n
umero xn }. Los
eventos con probabilidad 1, que puedan no ocurrir, no son los mismos que el
evento seguro que debe ocurrir.
1.3.2.
Modelo matem
atico de experimentos
Un experimento real dentro del contexto de nuestro estudio, se define

matematicamente mediante tres caractersticas: (1) asignacion de un espacio
de muestras llamado tambien espacio de probabilidad; (2) definicion de los
eventos de interes y, (3) asignacion de probabilidad a los eventos tal que se
satisfagan los axiomas.
Ejemplo
(1, 1)
(2, 1)
(3, 1)
(4, 1)
(5, 1)
(6, 1)
(1, 2)
(2, 2)
(3, 2)
(4, 2)
(5, 2)
(6, 2)
(1, 3)
(2, 3)
(3, 3)
(4, 3)
(5, 3)
(6, 3)
(1, 4)
(2, 4)
(3, 4)
(4, 4)
(5, 4)
(6, 4)
(1, 5)
(2, 5)
(3, 5)
(4, 5)
(5, 5)
(6, 5)
(1, 6)
(2, 6)
(3, 6)
(4, 6)
(5, 6)
(6, 6)
(1.8)
Un experimento consiste en observar la suma de los n

umeros que se muestran cuando dos dados se lanzan. Se desarrolla un modelo para este experimento. En este modelo, se construye una matriz con 36 puntos consistentes
en los pares ordenados que resultan de acomodar los resultados obtenidos al
lanzar los dos dados.
Cada posible resultado corresponde a una suma con valores de 2 a 12.
Supongase que estamos interesados en tres eventos definidos por A =
{suma = 7}, B = {8 < suma 6 11} y C = {10 < suma}. Para asignar
probabilidades a estos eventos, es conveniente primero definir 36 eventos elementales Aij = {suma para resultado (i, j) = i + j}, donde i representa la

DE LA PROBABILIDAD
14
fila y j representa la columna, que localizan un resultado particular posible en

la matriz anterior. Un evento elemental tiene solo un elemento.
Para la asignacion de probabilidades, la intuicion indica que cada posible
resultado tiene la misma posibilidad de ocurrir si los dados no estan cargados,
por lo que P (Aij ) = 1/36. Dado que los eventos Ai,j , i, j = 1, 2, . . . , N = 6,
son mutuamente excluyentes, deben satisfacer el axioma 3. Dado que los eventos A, B, C son simplemente las uniones de eventos elementales apropiados,
sus probabilidades se derivan del axioma 3.
P (A) = P
6
[
!
Ai,7i
i=1

P (Ai,7i ) = 6
i=1

P (B) = 9
6
X
1
36
1
=
P (C) = 3
4
1
36
1
36

=

=
1
6
1
12
Adicionalmente,

P (B C) = 2
1.3.3.
1
36

=
1
18
P (B C) =
10
5
=
36
18
Probabilidad condicional y conjunta
Puede ser que haya algunos eventos que no sean mutuamente excluyentes
debido a elementos comunes en el espacio de probabilidad. Estos elementos
corresponden a la ocurrencia simultanea o conjunta de los eventos no excluyentes. Para dos eventos A y B, los elementos comunes forman el evento
AB
Probabilidad conjunta
La probabilidad P (A B) se llama la probabilidad conjunta para dos
eventos A y B que se intersecan en el espacio de muestras. El estudio de un
diagrama de Venn mostrara que
15
P (A B) = P (B) + P (A)P (A B)
(1.9)
Equivalentemente,
P (A B) = P (A) + P (B)P (A B) 6 P (A) + P (B)
(1.10)
La probabilidad de la union de dos eventos nunca excede la suma de las

probabilidades de los eventos. La igualdad solo ocurre para eventos mutuamente excluyentes.
Probabilidad condicional
Dado alg
un evento B con una probabilidad P (B) > 0 y no nula, se define
la probabilidad condicional de un evento A dado B, por
P (A | B) =
P (A B)
P (B)
(1.11)
Esta probabilidad refleja el hecho de que la probabilidad de un evento A

depende de un segundo evento B. Si A y B son mutuamente excluyentes,
A B = , con lo que P (A | B) = 0.
Ejemplo
Tolerancia
Resistencia () 5 % 10 % Total
22
10
14
24
47
28
16
44
100
24
8
32
Total
62
38
100
Cuadro 1.1: Distribucion de valores de las resistencias en la caja.
16

DE LA PROBABILIDAD
En una caja hay 100 resistencias, cuyos valores se distribuyen de acuerdo
con el Cuadro 1.1. Escojase una resistencia de la caja y suponga que cada resistencia tiene la misma probabilidad de ser escogida. Tres eventos se definen:
A es el evento escoger una resistencia de 47 ohmios, B es el evento
escoger una resistencia con 5 % de tolerancia y C es el evento
escoger una resistencia de 100 ohmios. De la tabla, las probabilidades
aplicables son:
44
100
62
P (B) =
100
32
P (C) =
100
P (A) =
Las probabilidades conjuntas son:
28
100
P (A C) = 0
24
P (B C) =
100
P (A B) =
Las probabilidades condicionales son:

P (A | B) =
P (A | C) =
P (B | C) =
P (AB)
P (B)
P (AC)
P (C)
P (BC)
P (C)
= 28
62
= 0
= 24
32
Probabilidad total
La probabilidad P (A) de cualquier evento A definido sobre un espacio S
de muestras puede expresarse en terminos de probabilidades condicionales.
17
Supongase que estan definidos N eventos mutuamente excluyentes Bn , n =

1, 2, . . . , N cuya union iguala S.
Los anteriores eventos Bn satisfacen
N
[
Bm Bn =
Bn = S
n=1
para todo m 6= n.
Se tiene que,
A = AS
= A
N
[
!
Bn
n=1
N
[
(A Bn )
n=1
Los eventos A Bn son mutuamente excluyentes. Si se aplica el axioma

3 a estos eventos,
P (A) = P (A S)
"N
#
[
= P
(A Bn )
n=1
N
X
n=1
N
X
P (A Bn )
P (A | Bn )P (Bn )
n=1
que se conoce como la probabilidad total del evento A.

DE LA PROBABILIDAD
18
Teorema de Bayes
La definicion de probabilidad condicional, aplica a cualesquiera dos eventos. En particular, sea Bn .
P (Bn | A) =
P (Bn A)
P (A)
(1.12)
P (A | Bn ) =
P (A Bn
P (Bn )
(1.13)
si P (A) 6= 0, o tambien,
si P (Bn ) 6= 0. Una forma del teorema de Bayes se obtiene igualando estas

dos dos u
ltimas expresiones:
P (Bn | A) =
P (A | Bn )P (Bn )
P (A)
(1.14)
Una ecuacion equivalente (y mas conocida) se obtiene de una sustitucion

de P (A) en terminos de una probabilidad total:
P (Bn | A) =
P (A | Bn )P (Bn )
P (A | B1 )P (B1 ) + + P (A | BN )P (BN )
(1.15)
para n = 1, 2, . . . , N .
Ejemplo
Un sistema de comunicaciones binario elemental consiste de un transmisor que enva uno de dos posibles smbolos (un uno o un cero) sobre un canal
a un receptor. El canal ocasiona errores de modo que un uno aparece en el
receptor como un cero, y viceversa.
El espacio de muestras tiene dos elementos ( cero o uno). Se denota
por Bi , i = 1, 2, los eventos el smbolo antes del canal es uno y el
smbolo antes del canal es cero, respectivamente. Ademas, defina Ai ,
19
s del canal es uno y el

i = 1, 2 como los eventos el smbolo despue
s del canal es cero, respectivamente. Las probabilidades
smbolo despue
que los smbolos uno y cero sean escogidos para transmision se suponen que
son
P (B1 ) = 0,6 P (B2 ) = 0,4
Las probabilidades condicionales describen el efecto que el canal tiene sobre los smbolos transmitidos. Las probabilidades de recepcion dado que un
uno haya sido transmitido se supone que son
P (A1 | B1 ) = 0,9 P (A2 | B1 ) = 0,1
El canal afecta a los ceros de la manera como se indica a continuacion:
P (A1 | B2 ) = 0,1 P (A2 | B2 ) = 0,9
En cualquier caso, P (A1 | Bi ) + P (A2 | Bi ) = 1 porque A1 y A2 son mutuamente excluyentes y son los u
nicos eventos que pasan del lado del receptor
(otro que los eventos poco interesantes S y ).
De la definicion de probabilidad total se obtiene las probabilidades de
smbolo recibido:
P (A1 ) = P (A1 | B1 )P (B1 ) + P (A1 | B2 )P (B2 )

= (0,9)(0,6) + (0,1)(0,4)
= 0,58
P (A2 ) = P (A2 | B1 )P (B1 ) + P (A2 | B2 )P (B2 )
= (0,1)(0,6) + (0,9)(0,4)
= 0,42

DE LA PROBABILIDAD
20
Se tiene ademas:
P (B1 | A1 ) =
P (A1 B1 )
P (A1 | B1 )P (B1 )
(0,9)(0,6)
0,54
=
=
=
= 0,931
P (A1 )
P (A1 )
0,58
0,58
P (B2 | A2 ) =
P (A2 B2 )
P (A2 | B2 )P (B2 )
(0,9)(0,4)
0,36
=
=
=
= 0,857
P (A2 )
P (A2 )
0,42
0,42
P (B1 | A2 ) =
P (B1 A2 )
P (A2 | B1 )P (B1 )
(0,1)(0,6)
0,06
=
=
=
= 0,143
P (A2 )
P (A2 )
0,42
0,42
P (B2 | A1 ) =
P (A1 B2 )
P (A1 | B2 )P (B2 )
(0,1)(0,4)
0,04
=
=
=
= 0,069
P (A1 )
P (A1 )
0,58
0,58
Estos u
ltimos dos n
umeros son probabilidades de error del sistema, mientras que P (B1 | A1 ) y P (B2 | A2 ) son probabilidades de transmision
correcta de los smbolos.
En el teorema de Bayes, las probabilidades P (Bn ) se conocen usualmente
como probabilidades a priori, dado que se aplican a los eventos Bn
antes de la ejecucion del experimento. Similarmente, las probabilidades P (A |
Bn ) son n
umeros tpicamente conocidos antes de ejecutar el experimento.
Las probabilidades condicionales a menudo se llaman probabilidades de
n en el contexto de la teora de telecomunicaciones. Por otro lado,
transicio
las probabilidades P (Bn | A) se llaman probabilidades a posteriori
dado que se aplican despues de la ejecucion del experimento cuando se obtiene
un evento A.
1.3.4.
21
Eventos independientes
Caso de dos eventos Sean A y B dos eventos con probabilidades no nulas de ocurrencia, P (A) 6= 0 6= P (B). Estos eventos son llamados
estadsticamente independientes si la probabilidad de ocurrencia de un evento no es afectada por la ocurrencia del otro
evento. Matematicamente,
P (A | B) = P (A)
(1.16)
para eventos estadsticamente independientes. Asimismo,
P (B | A) = P (B)
(1.17)
para eventos estadsticamente independientes. La independencia estadstica

de dos eventos implica tambien que
P (A B) = P (A)P (B)
(1.18)
Las ecuaciones 1.16 y 1.18 son condiciones tanto necesarias como suficientes. En consecuencia, la ecuacion 1.18 puede servir como test de independencia.
Se ha establecido que la probabilidad conjunta de dos eventos mutuamente excluyentes es 0:
P (A B) = 0
(1.19)
Si los dos eventos tienen probabilidades no nulas de ocurrir, entonces al

comparar las ecuaciones 1.18 y 1.19, se deduce que dos eventos no pueden ser
tanto mutuamente excluyentes como estadsticamente independientes. Por lo

DE LA PROBABILIDAD
22
tanto, para que dos eventos sean independientes deben tener una interseccion
A B 6= .
Si un problema involucra mas de dos eventos que satisfacen ya sea 1.16
o 1.18, se dice que tales eventos son independientes por parejas.
Caso de eventos m
ultiples Cuando hay mas de dos eventos involucrados,
la independencia por parejas no es suficiente para establecer los eventos como
estadsticamente independientes.
Para el caso de tres eventos A1 , A2 , A3 , se dice que son independientes si
y solo si, son independientes por parejas todos y son tambien independientes
como tro, es decir, deben satisfacer las cuatro ecuaciones siguientes:
P (A1 A2 ) = P (A1 )P (A2 )

P (A1 A3 ) = P (A1 )P (A3 )
P (A2 A3 ) = P (A2 )P (A3 )
P (A1 A2 A3 ) = P (A1 )P (A2 )P (A3 )
Mas generalmente, para que N eventos A1 , A2 , . . . , AN sean estadsticamente independientes, se requiere que todas las condiciones siguientes se
satisfagan:
P (Ai Aj ) = P (Ai )P (Aj )

P (Ai Aj Ak ) = P (Ai )P (Aj )P (Ak )
..
.
P (A1 A2 . . . AN ) = P (A1 )P (A2 ) . . . P (AN )
para todo 1 6 i < j < k < . . . 6 N . Hay 2N N 1 de estas condiciones.
Ejemplo
23
Considerese retirar cuatro cartas de un juego ordinario de 52 cartas. Sean

A1 , A2 , A3 , A4 eventos definidos al escoger un as en el primer intento, otro
en el segundo, otro en el tercero y otro en el cuarto respectivamente. Considerese dos casos. El primer caso es escoger los ases asumiendo que cada
carta se reemplaza despues de escogida. En este caso, la intuicion nos dice
que los eventos son independientes de modo que P (A1 A2 A3 A4 ) =
4 4
P (A1 )P (A2 )P (A3 )P (A4 ) = ( 52
) 3,50(105 ).
El segundo caso es cuando se retiene la carta despues de escogida. Se

espera ahora que los eventos no son independientes. En el caso general, se
escribe:
P (A1 A2 A3 A4 ) = P (A1 )P (A2 A3 A4 | A1 )

= P (A1 )P (A2 | A1 )P (A3 A4 | A1 A2 )
= P (A1 )P (A2 | A1 )P (A3 | A1 A2 )
P (A4 | A1 A2 A3 )

4
3
2
1
=
52
51
50
49
6
= 3,69(10 )
De esta forma, se tiene aproximadamente 9,5 veces un mejor chance de
escoger cuatro ases cuando se restituyen las cartas que cuando no. Este es
un resultado intuitivamente correcto puesto que al reemplazar la carta sube
la probabilidad de sacar un as en la proxima escogencia.
Propiedades de eventos independientes
Muchas propiedades de eventos independientes se sumarizan en el siguiente resultado: si N eventos A1 , A2 , A3 , . . . , AN son independientes, entonces

DE LA PROBABILIDAD
24
cualquiera de ellos es independiente de cualquier evento formado por uniones, intersecciones, y complementos de los otros. Algunos ejemplos de la
aplicacion de este enunciado son los siguientes:
1. Para dos eventos independientes A1 y A2 , A1 es independiente de A2 ,
A1 es independiente de A2 , y A1 es independiente de A2 .
2. Para tres eventos independientes A1 , A2 y A3 , cualquiera de ellos es
independiente de la ocurrencia conjunta de los otros dos. Por ejemplo:
P [A1 (A2 A3 )] = P (A1 )P (A2 )P (A3 ) = P (A1 )P (A2 A3 ) (1.20)

con expresiones similares posibles para los otros casos A2 (A1 A3 )
y A3 (A1 A2 ). Cualquiera de los eventos es tambien independiente
de la union de los otros dos. Por ejemplo:
P [A1 (A2 A3 )] = P (A1 )P (A2 A3 )
(1.21)
Las ecuaciones 1.20 y 1.21 no son validas si solo los eventos son independientes por parejas.
1.3.5.
Pruebas de Bernoulli o pruebas repetidas
Las pruebas de Bernoulli consisten en un tipo de experimento para el

que solo hay dos resultados posibles en cualquier prueba. Ejemplos de tales
experimentos son numerosos: tirar una moneda, acertar o fallar un objetivo
en artillera, aprobar o perder un examen, recibir un uno o un cero en un
tren de bits de computador, o ganar o perder en un juego de azar.
25
Para este tipo de experimento, sea A el evento elemental que tiene uno de
los dos resultados posibles como su elemento. A es el otro posible (y u
nico)
evento elemental. Se repetira el experimento basico N veces, y se calculara la
probabilidad de que A acaezca k veces en las N veces. De aqu le viene el
nombre de pruebas repetidas o ensayos de Bernoulli.
Supongase que los eventos elementales son estadsticamente independientes por cada ensayo. El evento A ocurre en cualquier ensayo con probabilidad
P (A) = p. El evento A entonces tiene probabilidad P (A) = 1 p.
Despues de N ensayos del experimento basico, una secuencia particular
de resultados tiene el evento A ocurriendo k veces, seguido por el evento A
ocurriendo N k veces. Puesto que se asumio la independencia estadstica
de los ensayos, la probabilidad de esta secuencia particular es:
P (A)P (A) P (A) P (A)P (A) P (A) = pk (1 p)N k

|
{z
}|
{z
}
k t
erminos
N k t
erminos
(1.22)
Claramente, hay otras secuencias particulares que dan k eventos A y N k

eventos A. La probabilidad de cada una de estas secuencias esta dada por la
ecuacion 1.22. Dado que la suma de tales probabilidades sera la probabilidad
deseada de A ocurriendo exactamente k veces en N ensayos, es necesario
encontrar la cantidad de tales secuencias. Tal cantidad es igual al n
umero de
maneras de tomar k objetos de una vez de una coleccion de N objetos. Del
analisis combinatorio, este n
umero se sabe que es:

N
N!
=
= {N
k
k
k!(N k)!
La cantidad
N
k
se conoce como coeficiente binomial.
Se obtiene finalmente:
(1.23)

DE LA PROBABILIDAD
26

N k
P {A ocurre exactamente k veces} =
p (1 p)N k
k
(1.24)
Ejemplo
Un submarino intenta hundir un portaaviones. Sera exitoso solamente si
dos o mas torpedos aciertan en el barco. Si el submarino dispara tres torpedos
y la probabilidad de un acierto es 0,4 por cada torpedo, cual es la probabilidad
de que el barco sea hundido?
Defina el evento A = {aciertos de torpedo}. Entonces P (A) = 0,4, N =
3. Las probabilidades se hallan como sigue:

3
P {ning
un acierto} =
(0,4)0 (1 0,4)3 = 0,216
0

3
P {exactamente un acierto} =
(0,4)1 (1 0,4)2 = 0,432
1

3
P {exactamente dos aciertos} =
(0,4)2 (1 0,4)1 = 0,288
2

3
P {exactamente tres aciertos} =
(0,4)3 (1 0,4)0 = 0,064
3
La respuesta que se busca es:
P {hundir un barco} = P {dos o mas aciertos de torpedos}

= P {exactamente dos aciertos} + P {exactamente tres aciertos}
= 0,288 + 0,064
= 0,352
27
Ejemplo
En un cultivo usado para investigacion biologica el crecimiento de bacterias (lo cual es inevitable) ocasionalmente altera los resultados de un experimento que requiere a lo menos 3 de cuatro cultivos sin alterar para obtener
un punto dato. La experiencia ha demostrado que alrededor de 6 sobre 100
cultivos son alterados por las bacterias. Si el experimento requiere de tres
puntos datos inalterados y simultaneamente obtenidos para que sea exitoso,
se encontrara la probabilidad de exito por cada conjunto dado de 12 cultivos
(tres puntos datos a partir de cuatro cultivos cada uno).
Para resolver este problema, se calculara primero la probabilidad de encontrar un punto dato valido a partir de cuatro cultivos. Por consiguiente, se
tiene un problema de ensayo Bernoulli con N = 4 y p = P {buen cultivo} =
94
100
= 0,94.
P {punto dato valido} = P {3 cultivos buenos} + P {4 cultivos buenos}

4
4
3
=
(0,94) (1 0,94) +
(0,94)4 (1 0,94)0
3
4
= 0,98
Como se tiene la probabilidad de obtener un punto dato y lo que se busca es
la probabilidad de exito por cada conjunto dado de 12 cultivos, se debe buscar
la probabilidad de conseguir tres puntos dato validos. Se tiene entonces un
problema de ensayo Bernoulli con N = 3 y p = P {punto dato valido} = 0,98.
P {experimento exitoso} = P {3 puntos datos validos}

3
=
(0,98)3 (1 0,98)0
3
= 0,941
El experimento dado sera exitoso cerca del 94,1 por ciento del tiempo.

DE LA PROBABILIDAD
28
Aproximaciones
Cuando N , k y (N k) son grandes, los factoriales presentes en la ecuacion 1.24 son difciles de evaluar, por lo que se emplea formulas de aproximacion. Una de ellas es la formula de Stirling descrita por
m! (2m) 2 mm em
(1.25)
para m grande. Al aplicar esta formula a los factoriales junto con otras aproximaciones, se obtiene

N k
1
(k N p)2
N k
p (1 p)
p
exp
k
2N p(1 p)
2N p(1 p)
(1.26)
Esta ecuacion, llamada aproximacion de De Moivre-Laplace, vale para N ,

k, (N k) grandes, k cerca de N p tales que sus desviaciones de N p (mas
arriba o mas abajo) son peque
nas en magnitud relativas tanto a N p como a
N (1 p).
Ejemplo
Supongase que cierta ametralladora dispara balas durante tres segundos a
una tasa de 2400 por minuto, y la probabilidad de que una bala acierte en un
objetivo grande es 0,4. Encuentrese la probabilidad de que exactamente 50 de
las balas acierten en el objetivo.
Aqu N = 3( 2400
) = 120, k = 50, p = 0,4, N p = 120(0,4) = 48 y
60
N (1 p) = 120(0,6) = 72. As, puesto que N , k, (N k) = 70 son grandes
en tanto que k esta cerca de N p y la desviacion de k de N p (50 48 = 2) es
mucho mas peque
na que N p = 48 y N (1 p) = 72, se puede usar la formula
de aproximacion anterior:
29

(50 120(0,4))2
120
1
50
12050
exp
0,4 (0,6)
p
50
2(120)(0,4)(0,6)
2120(0,4)(0,6)
= 0,0693
La aproximacion de De Moivre-Laplace deja de ser precisa cuando N se
vuelve muy grande mientras que p es muy peque
na. Para estas condiciones,
se usa la aproximacion de Poisson:

N k
(N p)k eN p
p (1 p)N k
k!
k
para N grande y p peque
na.
(1.27)
30

DE LA PROBABILIDAD
Captulo 2
Variables aleatorias
31
CAPITULO 2. VARIABLES ALEATORIAS
32
2.1.
Pre
ambulo
El concepto de variable aleatoria es muy importante dentro de la teora

general de los procesos estocasticos. De hecho, es el concepto fundamental
que soporta tal teora.
Es conveniente prestarle mucha atencion pues, una vez comprendido, la
presentacion de la materia relevante se hace muy comprensible.
2.2.
Concepto
Una variable aleatoria real (las hay tambien complejas) es una funcion
real de los elementos de un espacio de muestras S. Una variable aleatoria se
representara por una letra may
uscula (W, X, Y) y cualquier valor particular
de la variable aleatoria por una letra min
uscula (w, x, y). De esta forma, dado
un experimento definido por un espacio de muestras S con elementos s, se
asigna a todo s un n
umero real X(s) de acuerdo con alguna regla especfica,
y a X(s) se le llama variable aleatoria.
Una variable aleatoria X puede verse como una funcion que mapea todos
los elementos del espacio S a puntos sobre la recta real o sobre algunos
segmentos de ella.
Ejemplo
Un experimento consiste en tirar un dado y voltear una moneda. El espacio de muestras consiste de doce elementos:
(C, 6)
(C, 5)
(C, 4)
(C, 3)
(C, 2)
(C, 1)
(E, 6)
(E, 5)
(E, 4)
(E, 3)
(E, 2)
(E, 1)
2.2. CONCEPTO
33
Sea X una variable aleatoria definida como: (1) un resultado escudo corresponde a valores positivos de X que son iguales a los n
umeros que se
muestran en el dado y, (2) un resultado corona corresponde a valores negativos de X que son iguales en magnitud a dos veces el n
umero aparecido en
el dado. X mapea S a doce valores entre 12 y 6.
Ejemplo
Considerese una rueda con n
umeros marcados en su circunferencia, numerados de 1 a 12, imitando un reloj, con la diferencia de que hay un puntero en lugar de las dos manecillas del reloj. De esta forma, si se da vuelta
al puntero, este se
nalara un n
umero localizado en el intervalo ]0, 12]. El experimento fsico a considerar en este caso es girar el puntero y producir un
n
umero dentro del intervalo dado. S consiste de los n
umeros en el conjunto
{0 < s 6 12}. Se define una variable aleatoria por la funcion X = X(s) = s2 .
Los puntos de S mapean a la recta real como el conjunto {0 < x 6 144}.
Como se ve de estos dos ejemplos, una variable aleatoria es una funcion
que mapea cada punto en S a alg
un punto de la recta real. No es necesario
que los puntos del espacio de muestras mapeen en forma u
nica, en el sentido
de que mas de un punto en S puede mapear a un solo valor de X. Por ejemplo,
en un caso extremo, se mapea todos los 6 puntos en el espacio de muestras
del experimento tirar un dado y observar el n
umero que aparece al punto
u
nico X = 2.
Condiciones para que una funci
on sea una variable aleatoria
Una variable aleatoria puede ser cualquier funcion que se desee, excepto
que no puede ser multivaluada. Es decir, todo punto en S debe corresponder
a solamente un valor de la variable aleatoria. Dos condiciones adicionales
deben ser satisfechas por una funcion X para que sea una variable aleatoria.
34
1. El conjunto {X 6 x} sera un evento para cualquier n

umero real x. Este conjunto corresponde a aquellos puntos s en el espacio de muestras
para los que la variable aleatoria X(s) no excede el n
umero x. La probabilidad de este evento, denotado por P {X 6 x}, es igual a la suma
de las probabilidades de todos los eventos elementales correspondientes
a {X 6 x}.
2. Las probabilidades de los eventos {X = } y {X = } han de ser
cero:
P {X = } = 0
P {X = } = 0
La segunda condicion no previene a X de ser ya sea o para algunos

valores de s; la condicion pide tan solo que la probabilidad del conjunto de
estos s sea cero.
2.2.1.
Variables aleatorias discretas y continuas
Una variable aleatoria discreta es una que toma solamente valores discretos. El espacio de probabilidad para una variable aleatoria discreta puede ser
discreto, continuo o una mezcla de puntos discretos y continuos.
Una variable aleatoria continua es una que tiene un ambito continuo de
valores. No puede originarse de un espacio de muestras discreto debido al
requisito de que toda variable aleatoria sea una funcion univaluada de todos
los puntos del espacio de muestras. De manera similar, una variable aleatoria
continua no puede resultar de un espacio de muestras mixto debido a la
presencia de la porcion discreta del espacio de probabilidad.
Variable aleatoria mixta
Una variable aleatoria mixta es una para la que algunos de sus valores
son discretos y algunos son continuos. Este caso es de los menos importantes,
DE DISTRIBUCION
2.3. LA FUNCION
35
pero ocurre en algunos problemas de importancia practica.
2.3.
La funci
on de distribuci
on
La probabilidad P {X 6 x} es la probabilidad del evento {X 6 x}. Es un

n
umero que depende de x; es decir, es una funcion de x. A esta funcion se le
llama funcion de distribucion de probabilidad acumulativa (funcion de distribucion probabilstica acumulativa) de la variable aleatoria X. Se le denota
de la siguiente forma:
FX (x) = P {X 6 x}
(2.1)
Esta funcion sera a menudo llamada simplemente funcion de distribucion

de X. El argumento x es cualquier n
umero real entre y .
La funcion de distribucion presenta las siguientes propiedades, derivadas
del hecho de que FX (x) es una probabilidad.
1. FX () = 0
2. FX () = 1
3. 0 6 FX (x) 6 1
4. FX (x1 ) 6 FX (x2 ) si x1 < x2
5. P {x1 < X 6 x2 } = FX (x2 ) FX (x1 )
6. FX (x+ ) = FX (x) donde x+ significa x + donde > 0 es infinitesimalmente peque
no; es decir, 0.
La cuarta condicion establece que FX (x) es una funcion no-decreciente de
x. La quinta condicion establece que la probabilidad de que X tenga valores
36
mas grandes que alg

un n
umero x1 pero que no exceda otro n
umero x2 , es igual
a la diferencia en FX (x) evaluada en tales puntos. Esto viene del hecho de
que los eventos {X 6 x1 } y {x1 < X 6 x2 } son mutuamente excluyentes de
modo que, la probabilidad del evento {X 6 x2 } = {X 6 x1 }{x1 < X 6 x2 }
es la suma de las probabilidades P {X 6 x1 } y P {x1 < X 6 x2 }. La sexta
propiedad establece que FX (x) es una funcion continua desde la derecha.
Las propiedades 1, 2, 4 y 6 pueden usarse como temes en una prueba
para probar si una funcion dada es una funcion de distribucion valida. Las
cuatro propiedades deben ser satisfechas.
Si X es una variable aleatoria discreta, FX (x) debe tener una forma escalonada. La amplitud de un escalon igualara la probabilidad de ocurrencia
del valor de X donde el escalon ocurre. Si los valores de X se denotan xi ,
FX (x) se escribe como:
FX (x) =
N
X
P {X = xi }u(x xi )
(2.2)
i=1
donde u( ) es la funcion escalon unitario y N puede ser infinito para algunas

variables aleatorias. Si se introduce la notacion abreviada:
P (xi ) = P {X = xi }
se puede reescribir,
FX (x) =
N
X
P (xi )u(x xi )
(2.3)
i=1
Ejemplo
X tiene los valores discretos {1; 0,5; 0,7; 1,5; 3}. Las probabilidades correspondientes son {0,1; 0,2; 0,1; 0,4; 0,2}. Ahora, P {X < 1} = 0 dado que
no hay puntos del espacio de muestra en el conjunto {X < 1}. Solamente
DE DENSIDAD PROBABILISTICA
2.4. FUNCION
37
cuando X = 1 se obtiene un resultado y hay un salto inmediato en probabilidad de 0,1 en la funcion FX (x) en el punto x = 1. Para 1 < x < 0,5,
no hay puntos del espacio de muestra adicionales de modo que FX (x) permanece constante en el valor 0,1. En x = 0,5, hay otro salto de 0,2 en
FX (x). Este proceso contin
ua hasta que se incluye todos los puntos. Despues
del u
ltimo punto, FX (x) iguala 1,0.
Una variable aleatoria continua tendra una funcion de distribucion continua.
La funcion de distribucion de una variable aleatoria mixta es una suma
de dos partes, una en forma escalonada, la otra continua.
2.4.
Funci
on de densidad probabilstica
La funcion de densidad probabilstica, denotada por fX (x), esta definida

por la derivada de la funcion de distribucion:
fX (x) =
dFX (x)
dx
(2.4)
A fX (x) a menudo se le llama simplemente funcion de densidad.

Para una variable aleatoria discreta, despues de derivar FX (x):
fX (x) =
N
X
P (xi )(x xi )
(2.5)
i=1
La funcion de densidad para una variable aleatoria discreta existe en el

sentido que se usa funciones impulso para describir la derivada de FX (x) en
sus puntos de escalon.
Una interpretacion fsica de 2.5 es la siguiente: la probabilidad de X para
tener un valor particular xi es P (xi ). Si este n
umero se asigna al punto xi
entonces la densidad de probabilidad es infinita dado que un punto no tiene
38
ancho en el eje X. La amplitud infinita de la funcion impulso describe tal

densidad infinita. El tama
no de la densidad de probabilidad en x = xi es
indicada por el factor de escala P (xi ) dando P (xi )(x xi ) para la densidad
en el punto x = xi .
Las funciones de densidad presentan las siguientes propiedades:
1. fX (x) > 0 para todo x.
Z
2.
fX (x)dx = 1.
3. FX (x) =
fX ()d.
x2
4. P {x1 < X 6 x2 } =
fX (x)dx.
x1
Las dos primeras propiedades requieren que la funcion de densidad sea

no-negativa y tenga un area unidad. Estas dos propiedades pueden usarse
como pruebas para ver si una funcion gX (x) puede ser una valida funcion de
densidad probabilstica. La tercera propiedad sirve de eslabon entre fX (x) y
FX (x). La cuarta propiedad relaciona la probabilidad de que X tenga valores
entre x1 y x2 , con la funcion de densidad.
Ejemplo
Se tiene una funcion gX (x) definida por:
gX (x) =
x0 > x > x0 +
(x x0 + ) x0 6 x < x0
1
(x
2
x0 ) x0 6 x < x0 +
Se trata de una funcion triangular, con una area determinada por el producto a. Para que sea una funcion de densidad, se debe tener que a = 1,
2.4. FUNCION
39
con lo que a = 1/. Si a toma este valor, entonces la funcion de distribucion correspondiente, de acuerdo con la tercera propiedad de las funciones de
densidad expuesta anteriormente, estara descrita por:
GX (x) =
(xx20 +)
2
1
2
x0 > x
x0 6 x < x0
+ 1 (x x0 )
1
(x
22
x0 )2 x0 6 x < x0 +
x0 + 6 x
Ejemplo
Suponga que una variable aleatoria tiene la densidad de probabilidad triangular del ejemplo anterior con x0 = 8, = 5 y a =
= 51 . Por el trabajo
hecho anteriormente,
fX (x) =
3 > x > 13
(x3)
25
0,2
36x<8
(x8)
25
8 6 x < 13
Se va a buscar la probabilidad de que X tenga valores mayores que 4,5

pero menores que 6,7. De acuerdo con la cuarta propiedad de las funciones
de densidad, expuesta anteriormente:
6,7
(x 3)
dx
25
4,5

6,7

1 x2
=
3x
25 2
Z
P {4,5 < X 6 6,7} =
4,5
= 0,2288
40
2.4.1.
Algunas funciones de densidad probabilstica
Funci
on de densidad gaussiana Una variable aleatoria X es llamada
gaussiana si su funcion de densidad tiene la forma:
(x aX )2
fX (x) = p
exp
2
2
2X
2X

(2.6)
donde X > 0 y < aX < son constantes reales. Su valor maximo

p
2
1/ 2X
ocurre en x = aX . Su dispersion (es decir, la forma particular en
que se distribuyen los valores de la funcion) alrededor de x = aX esta relacionado con X . La funcion disminuye a 0,607 veces su maximo en x = aX + X
y en x = aX X .
La respectiva funcion de distribucion es:
1
FX (x) = p
2
2X

( aX )2
exp
d
2
2X
(2.7)
La integral anterior no puede resolverse en forma cerrada, por lo que para

su evaluacion, se debe utilizar metodos numericos de aproximacion. Dado que
la variable aleatoria gaussiana es muy usada para modelar el comportamiento
de numerosas variables fsicas, se ha escogido evaluar la integral 2.7 para el
caso normalizado de aX = 0 y X = 1, para as construir una tabla u
nica
que pueda usarse para todos los valores arbitrarios de aX y X .
Para utilizar la tabla mencionada anteriormente, se utiliza una transformacion que se justifica mediante el siguiente procedimiento.
Considerese el caso normalizado donde aX = 0 y X = 1.
1
F (x) =
2

2
exp
d
2
(2.8)
Se trata de una funcion que depende solamente de x. Usualmente, las

tablas construidas para el caso normalizado se tabulan para x > 0. Para un
2.4. FUNCION
41
valor negativo de x, se utiliza la siguiente relacion:

F (x) = 1 F (x)
(2.9)
Para demostrar que la ecuacion 2.7 puede hallarse en terminos de F (x),

se hace el cambio de variables:
u=
( aX )
X
(2.10)
de donde se obtiene d = X du y,
1
FX (x) =
2
(xaX )/X

1 2
exp u du
2
(2.11)
Esta expresion es equivalente a:

FX (x) = F
x aX
X

(2.12)
Ejemplo
Encuentre la probabilidad del evento {X 6 5,5} para una variable aleatoria gaussiana con aX = 3 y X = 2.
Se tiene aqu que:
(x aX )
(5,5 3)
=
= 1,25
X
2
Con lo que entonces:
P {X 6 5,5} = FX (5,5) = F (1,25) = 0,8944
Ejemplo
Suponga que la altura de las nubes arriba de la tierra en cierto lugar
es una variable aleatoria gaussiana X con aX = 1830 metros y X = 460
42
metros. Encuentre la probabilidad de que las nubes estaran mas altas que
2750 metros.
P {X > 2750} = 1 P {X 6 2750}

= 1 FX (2750)

2750 1830
= 1F
460
= 1 F (2,0)
= 0,0228
Funci
on de densidad binomial Sea 0 < p < 1 y N = 1, 2, . . ., entonces
la funcion
fX (x) =
N
X
N
k=0
pk (1 p)N k (x k)
se llama la funcion de densidad binomial. La cantidad
N
k
(2.13)
es el coeficiente
binomial

N
N!
=
(2.14)
k!(N k)!
k
La densidad binomial se aplica al experimento de las pruebas de Bernoulli,
como asimismo a muchos juegos de azar, problemas de deteccion en radar
y sonar, y muchos experimentos con solamente dos posibles resultados en
cualquier prueba.
La correspondiente funcion de distribucion binomial es
FX (x) =
N
X
N
k=0
pk (1 p)N k u(x k)
(2.15)
Funci
on de densidad Poisson La variable aleatoria de Poisson X tiene
una densidad y distribucion dadas por
2.4. FUNCION
fX (x) = e
X
bk
k=0
FX (x) = eb
k!
X
bk
k=0
k!
43
(x k)
(2.16)
u(x k)
(2.17)
donde b > 0 es una constante real. Cuando son graficadas, estas funciones
parecen similares a la variable aleatoria binomial. De hecho, si N y
p 0 para el caso binomial de tal manera que N p = b, una constante,
entonces resulta la funcion de densidad de Poisson.
La variable aleatoria de Poisson se aplica a una amplia variedad de aplicaciones que incluyen conteo. Describe el n
umero de unidades defectuosas
en una muestra tomada de una lnea de produccion, el n
umero de llamadas
telefonicas hechas durante un periodo de tiempo, el n
umero de electrones emitidos desde una peque
na seccion de un catodo en un intervalo dado, etcetera.
Si el intervalo de interes tiene duracion T y los eventos que se cuentan se sabe que ocurren a una tasa promedio y siguen una distribucion de Poisson,
entonces b esta dado por
b = T
(2.18)
Ejemplo
Suponga que las llegadas de automoviles a una estacion de gasolina siguen
la distribucion de Poisson y ocurren a una tasa promedio de 50/hora. La
estacion tiene una sola bomba de gasolina. Si todos los carros se supone que
requieren de un minuto para cargar, cual es la probabilidad de que una fila
de espera ocurra en la bomba?
Una fila de espera ocurrira si dos o mas carros llegan en cualquier intervalo de un minuto. La probabilidad de este evento es uno menos la probabilidad
44
de que ninguno o solamente un carro llegue. Con = 50/60 carros/minuto

y T = 1 minuto, se tiene b = 5/6.
Probabilidad de una fila de espera = 1 FX (1)

5
5/6
= 1e
1+
6
= 0,2032
El resultado anterior se interpreta como que habra una fila en la bomba
cerca del 20,32 % del tiempo.
Funci
on de densidad uniforme Las funciones de distribucion y de
densidad probabilstica uniforme estan definidas por:

fX (x) =
1
ba
a6x6b
para otros valores de x
FX (x) =
(xa)
(ba)
x<a
a6x a.

La funcion de densidad uniforme halla un sinn
umero de usos practicos.
Una aplicacion particularmente importante es en la cuantizacion de las muestras de se
nal antes de su codificacion en sistemas de comunicaciones digitales.
La cuantizacion involucra el redondeo de la muestra real al mas cercano de
un n
umero grande de niveles discretos cuanticos. Los errores producidos en
el proceso de redondeo estan uniformemente distribuidos.
Funci
on de densidad exponencial Las funciones de distribucion y de
densidad exponencial son:

fX (x) =
1
b

exp
xa
b
x>a
x<a
(2.21)
2.4. FUNCION

FX (x) =

1 exp
0
xa
b
x>a
x<a
45
(2.22)
para n
umeros reales < a < y b > 0.
La funcion de densidad exponencial es u
til para describir los tama
nos de
las gotas cuando se hace un gran n
umero de mediciones de lluvia. Tambien
describe aproximadamente las fluctuaciones en la fuerza de la se
nal recibida
por radar de ciertos aviones.
Ejemplo
La potencia reflejada de un avion de estructura compleja que es recibida
por un radar puede describirse por una variable aleatoria exponencial P . La
funcion de densidad de P es por lo tanto,
(
fP (p) =
1
P0
exp
Pp0
p>0
p<0
donde P0 es la cantidad promedio de potencia recibida. A alg

un tiempo dado
P puede haber un valor diferente de su valor promedio y se puede hacer la
pregunta: cual es la probabilidad de que la potencia recibida sea mayor que
la potencia recibida en el promedio?
Se debe hallar P {P > P0 }:
P {P > P0 } = 1 P {P 6 P0 }
= 1 FP (P0 )

P0
= 1 1 exp
P0
1
= e 0,368
En otras palabras, la potencia recibida es mayor que su valor promedio
cerca del 36,8 % del tiempo.
46
Funci
on de densidad Rayleigh Las funciones de distribucion y de
densidad Rayleigh son:
(
fX (x) =
FX (x) =
2
(x
b
0
(
h
i
2
a) exp (xa)
b
i
h
2
1 exp (xa)
b
0
x>a
x<a
x>a
x<a
(2.23)
(2.24)
para constantes reales < a < y b > 0.

La densidad de Rayleigh describe la envolvente de un tipo de ruido cuando
se pasa por un filtro pasabanda. Es tambien importante en analisis de errores
en varios sistemas de medicion.
Hay otras funciones de densidad que describen variables aleatorias discretas, aparte de las mencionadas anteriormente. Entre ellas, se puede mencionar la funcion de densidad de Pascal y la de Bernoulli. En lo que toca
a variables aleatorias continuas, se puede mencionar las funciones de densidad arcseno, beta, Cauchy, chi-cuadrado con N grados de libertad, Erlang,
gamma, Laplace, log-normal, Rice y Weibull.
2.5.
2.5.1.
Densidad y distribuci
on condicionales
Funci
on de distribuci
on condicional
Sea A el evento {X 6 x} referido a la variable aleatoria X. La probabilidad resultante P {X 6 x | B} se define como la funcion de distribucion
condicional de X, que se denota FX (x | B). De esta forma,
FX (x | B) = P {X 6 x | B}
P {{X 6 x} B}
=
P (B)
(2.25)
CONDICIONALES
2.5. DENSIDAD Y DISTRIBUCION
47
(2.26)
El evento conjunto {X 6 x} B consiste de todos los resultados s tales

que:
X(s) 6 x y s B
Esta funcion de distribucion condicional es aplicable a variables aleatorias
discretas, continuas o mixtas.
Propiedades de una funci
on de distribuci
on condicional
Todas las propiedades de las funciones de distribucion ordinarias se aplican a FX (x | B):
1. FX ( | B) = 0
2. FX ( | B) = 1
3. 0 6 FX (x | B) 6 1
4. FX (x1 | B) 6 FX (x2 | B) si x1 < x2
5. P {x1 < X 6 x2 | B} = FX (x2 | B) FX (x1 | B)
6. FX (x+ | B) = FX (x | B)
2.5.2.
Funci
on de densidad condicional
De manera similar a la funcion de densidad ordinaria,

fX (x | B) =
d
FX (x | B)
dx
(2.27)
48
Si FX (x | B) contiene discontinuidades tipo escalon, como cuando X

es una variable aleatoria discreta o mixta, se supone que funciones impulso
estan presentes en fX (x | B) para dar cuenta de las derivadas en las discontinuidades.
Propiedades de una funci
on de densidad condicional
1. fX (x | B) > 0
Z
2.
fX (x | B)dx = 1
3. FX (x | B) =
fX (v | B)dv
x2
4. P {x1 < X 6 x2 | B} =
fX (x | B)dx
x1
Ejemplo
Dos cajas tienen bolas rojas, verdes y azules; el n
umero de bolas de cada
color en cada caja se da en la tabla siguiente.
xi
1
2
3
Totales
Color de bola Caja 1 Caja 2 Totales

Roja
5
80
85
Verde
35
60
95
Azul
60
10
70
100
150
250
El experimento consiste en seleccionar una caja y luego una bola de la caja

escogida. Una caja (la n
umero 2) es ligeramente mayor que la otra, haciendo
que sea escogida mas frecuentemente. Sea B2 el evento escoger la caja mas
grande mientras que sea B1 el evento escoger la caja mas peque
na. Supongase
P (B1 ) = 2/10 y P (B2 ) = 8/10. (B1 y B2 son mutuamente excluyentes y
CONDICIONALES
49
B1 B2 es el evento seguro, puesto que alguna caja debe ser escogida; por lo
tanto, P (B1 ) + P (B2 ) debe igualar 1).
Defina una variable aleatoria discreta X con valores x1 = 1, x2 = 2 y
x3 = 3 cuando una bola roja, verde o azul se escoge, y sea B un evento igual
a B1 o B2 .
5
100
35
P (X = 2 | B = B1 ) =
100
60
P (X = 3 | B = B1 ) =
100
P (X = 1 | B = B1 ) =
80
150
60
P (X = 2 | B = B2 ) =
150
10
P (X = 3 | B = B2 ) =
150
P (X = 1 | B = B2 ) =
La funcion de densidad probabilstica condicional fX (x | B1 ) es
fX (x | B1 ) =
35
60
5
(x 1) +
(x 2) +
(x 3)
100
100
100
Por integracion directa de fX (x | B1 )
FX (x | B1 ) =
5
35
60
u(x 1) +
u(x 2) +
u(x 3)
100
100
100
Para comparacion, se puede encontrar la densidad y distribucion de X

determinando las probabilidades P (X = 1), P (X = 2), P (X = 3). Estas se
encuentran del teorema de probabilidad total.
50
P (X = 1) = P (X = 1 | B1 )P (B1 ) + P (X = 1 | B2 )P (B2 )

5
2
80
8
=
+
100
10
150
10
= 0,437
P (X = 2) = P (X = 2 | B1 )P (B1 ) + P (X = 2 | B2 )P (B2 )

35
2
60
8
=
+
100
10
150
10
= 0,390
P (X = 3) = P (X = 3 | B1 )P (B1 ) + P (X = 3 | B2 )P (B2 )

60
2
10
8
=
+
100
10
150
10
= 0,173
Finalmente,
fX (x) = 0,437(x 1) + 0,390(x 2) + 0,173(x 3)

FX (x) = 0,437u(x 1) + 0,390u(x 2) + 0,173u(x 3)
El ejemplo anterior ilustra la manera como el evento condicionante B

puede definirse de alguna caracterstica del experimento fsico. Hay otras
maneras de definir B: una, es definirlo en terminos de la variable aleatoria
X; otra, en terminos de alguna otra variable que no fuera X.
Considerese el caso siguiente. Sea B = {X 6 b}, donde b es alg
un n
umero
real b y la otra donde X < b. Si b 6 x, el evento {X 6 b} es un subconjunto
del evento X 6 x, de modo que {X 6 x} {X 6 b} = {X 6 b}. Luego,
P {{X 6 x} {X 6 b}}
P {X 6 b}
P {X 6 b}
=
P {X 6 b}
= 1
FX (x | X 6 b) =
para x > b. Cuando x < b, el evento {X 6 x} es un subconjunto del evento

X 6 b, de modo que {X 6 x} {X 6 b} = {X 6 x}, por lo que
P {{X 6 x} {X 6 b}}
P {X 6 b}
FX (x)
=
FX (b)
FX (x | X 6 b) =
para x < b. Si se resume las dos u

ltimas expresiones,
FX (x)
FX (b)
FX (x | X 6 b) =
xb
La funcion de densidad condicional se obtiene de la respectiva derivada:
fX (x)
fX (x)
xb
De la suposicion inicial de que el evento condicionante tiene probabilidad
diferente de cero, se tiene que 0 < FX (b) 6 1, con lo que la funcion de
52
distribucion condicional nunca es mas peque

na que la funcion de distribucion
ordinaria:
FX (x | X 6 b) > FX (x)
(2.28)
Un enunciado similar vale para la funcion de densidad condicional en

tanto no sea cero:
fX (x | X 6 b) > fX (x) para x < b
(2.29)
Estos resultados pueden extenderse al evento mas general B = {a < X 6

b}.
Ejemplo
La distancia de yerro radial de aterrizajes por paracadas medida desde el
centro del blanco, es una variable aleatoria Rayleigh con b = 800 m2 y a = 0.

x2
FX (x) = 1 exp
u(x)
800

El blanco es un crculo de radio 50 metros con un ojo de buey de radio

10 metros. Encuentrese la probabilidad de que un paracaidista acierte en el
ojo del buey si el aterrizaje es dentro del blanco.
La probabilidad buscada es:
2.6. VALOR ESPERADO DE UNA VARIABLE ALEATORIA
53
P (dar en el ojo de buey | aterrizaje da en el blanco) =

P ({X 6 10} | {X 6 50}) =
P ({X 6 10} {X 6 50})
P ({X 6 10})
=
P ({X 6 50})
P ({X 6 50})
FX (10)
=
FX (50)
1 e100/800
=
1 e2500/800
= 0,1229
La precision del paracaidista es tal que cerca de un 12,29 % de aterrizajes

que dan en el blanco, seran dentro del ojo de buey.
2.6.
Valor esperado de una variable aleatoria
El valor esperado de cualquier variable aleatoria X esta definido por
E[X] = X
Z
=
xfX (x)dx
(2.30)
(2.31)
Se le conoce tambien como la esperanza matematica, el valor medio, la

media o el promedio estadstico de X.
Si X es una variable aleatoria discreta con N posibles valores xi con
probabilidades P (xi ) de ocurrencia, entonces
54
E [X] =
N
X
N
X
i=1
N
X
P (xi )(x xi )dx
i=1
x(x xi )dx
P (xi )
xi P (xi )
(2.32)
i=1
Para algunas variables aleatorias, N puede ser infinito.

Si la densidad de una variable aleatoria es simetrica alrededor de una
recta x = a, entonces E[X] = a; es decir,
E [X] = a si fX (x + a) = fX (x + a)
2.7.
Valor esperado de una funci

on g(X)
Para una funcion real g(x) de una variable aleatoria X, que se denota por
g(X)1 , su valor esperado esta dado por
Z
E [g(X)] =
g(x)fX (x)dx
(2.33)
Notese que la notacion utilizada para el valor esperado de una variable

aleatoria utiliza la version de letra may
uscula para la variable aleatoria de la
que se este tratando. Dentro del signo integral, se utiliza la version min
uscula
de la letra que representa a la variable aleatoria, pues se trata de valores de
esa variable aleatoria.
Si X es una variable aleatoria discreta,
1
Cabe aclarar aqu, que cualquier funcion de una variable aleatoria, es a su vez, una
variable aleatoria.
G(X)
2.7. VALOR ESPERADO DE UNA FUNCION
E [g(X)] =
N
X
g(xi )P (xi )
55
(2.34)
i=1
donde N puede ser infinito para algunas variables aleatorias.

Ejemplo
Se sabe que un voltaje aleatorio particular puede representarse como una
variable aleatoria Rayleigh V con una funcion de densidad dada por a = 0 y
b = 5. El voltaje se aplica a un dispositivo que genera una salida Y = g(V ) =
V 2 , que es igual numericamente a la potencia de V (sobre una resistencia de
1 ).
La potencia promedio de V se encuentra como

E [g(V )] = E V 2
2
Z
2
v
2
v
=
v exp
dv
5
5
0
2
Z
2
v
3
=
v exp
dv
5
5
0
Z
5e d
=
0
= 5
En el desarrollo inmediato anterior, se utilizo la sustitucion =
v2
5
luego se utilizo la tecnica de integracion por partes.

Si g(X) es una suma de N funciones gn (X), n = 1, . . . , N entonces el
valor esperado de la suma de N funciones de una variable aleatoria X es la
suma de los N valores esperados de las funciones individuales de la variable
aleatoria.
56
2.8.
Valor esperado condicional
El valor esperado condicional de X, denotado por E [X | B], es
xfX (x | B)dx
E [X | B] =
(2.35)
Si B = {X 6 b} con b
(2.36)
Sustituyendo se tiene entonces,
xfX (x | B)dx
#
Z "
fX (x)
x Rb
=
dx
f
(x)dx
X
R
xfX (x)dx
= R
b
f (x)dx
X
E [X | {X 6 b}] =
(2.37)
que es el valor medio de X cuando X esta restringido al conjunto {X 6 b}.
2.9.
2.9.1.
Momentos
Momentos alrededor del origen
La funcion g(X) = X n , n = 0, 1, 2, . . ., da los momentos alrededor del

origen de la variable aleatoria X.
mn = E [X n ]
Z
=
xn fX (x)dx
(2.38)
(2.39)
2.9. MOMENTOS
57
El valor m0 = 1 es el area de la funcion fX (x), en tanto que m1 = X es

el valor esperado de X.
2.9.2.
Momentos centrales
Los momentos alrededor del valor medio de X se llaman momentos centrales y se denotan por n . Son el valor esperado de la funcion g(X) = (X X)n ,
= 0, 1, 2, . . ..

n
n = E X X
Z
n
=
x X fX (x)dx
(2.40)
(2.41)
El valor 0 = 1 es el area de fX (x), mientras que 1 = 0.
2.9.3.
Varianza e inclinaci
on
Al segundo momento central 2 se le da el nombre varianza y tiene la

2
notacion X
.
h
2 i
2
X
= E X X
Z
=
(x X)2 fX (x)dx
h
i
2
= E X 2 2XX + X
= E[X 2 ] 2 (E[X])2 + X
= E[X 2 ] X
= m2 m21
(2.42)
(2.43)
(2.44)
(2.45)
La raz cuadrada positiva de la varianza, X , se denomina la desviacion
58
estandar de X. Es una medida de la dispersion de la funcion fX (x) alrededor

de la media.

El tercer momento central 3 = E (X X)3 es una medida de la asimetra de fX (x) alrededor de su valor medio. Se le llama la inclinacion (skew )
de la funcion de densidad. Si una densidad es simetrica alrededor de x = X,
tiene cero inclinacion. De hecho, n = 0 para valores impares de n. El ter3
cer momento central normalizado 3 /X
es conocido como el coeficiente de
inclinacion de la funcion de densidad.
2.10.
Funciones que dan momentos
2.10.1.
Funci
on caracterstica
La funcion caracterstica de una variable aleatoria X esta definida por

X () = E ejX
donde j =
(2.46)
1. Esta es una funcion del n

umero real < < y es la
transformada de Fourier (con el signo de cambiado) de fX (x):
fX (x)ejx dx
X () =
(2.47)
Este detalle de la funcion caracterstica permite usar las tablas de la

transformada de Fourier as como la teora respectiva. Por otro lado, si X ()
es conocida, fX (x) puede calcularse de la transformada inversa de Fourier
(con el signo de x cambiado)
1
fX (x) =
2
X ()ejx d
(2.48)
Con la derivacion formal de 2.47 n veces con respecto a y poniendo

= 0 en la derivada, se puede demostrar que el n-esimo momento de X
2.10. FUNCIONES QUE DAN MOMENTOS
59
esta dado por

nd
mn = (j)

X ()
d n =0
(2.49)
Una gran ventaja de usar X () para hallar momentos es que X ()

existe siempre, de modo que los momentos pueden encontrarse si X () es
conocida, siempre que sus momentos y derivadas existan.
Puede demostrarse que la magnitud maxima de una funcion caracterstica
es uno y ocurre en = 0; es decir,
|X ()| 6 X (0) = 1
2.10.2.
(2.50)
Funci
on generadora de momentos
La funcion generadora de momentos esta definida por
MX () = E [ex ]
Z
=
fX (x)ex dx
(2.51)
(2.52)
donde es un n
umero real con < < .
Los momentos estan relacionados con MX () por la expresion

dn MX ()
mn =
d n =0
(2.53)
La principal desventaja de la funcion generadora de momentos, de manera

contraria a como sucede con la funcion caracterstica, es que puede no existir
para todas las variables aleatorias y todos los valores de . No obstante, si
MX () existe para todos los valores de en un vecindario de = 0, los
momentos estan dados por la ecuacion 2.53.
60
Ejemplo
Considerese la variable aleatoria exponencialmente distribuida X con funcion de densidad
fX (x) =
1
b
e(xa)/b x > a
x<a
Encuentrese la funcion caracterstica y su primer momento. Luego, contr

astese el desarrollo realizado con el hecho con base en la funcion generadora de
momentos.
X () =
=
=
=

1 (xa)/b jx
e
e dx
b
a
a/b Z

e
1
exp j
x dx
b
b
a
a/b (1/bj)x

e
e

b
(1/b j) a
eja
1 jb
Z
La derivada de X () es
dX ()
jaeja (1 jb) (jb)eja
=
d
(1 jb)2

dX ()
= ja + jb
d =0

dX ()
m1 = (j)
d =0
= a+b
Si se considera ahora la funcion generadora de momentos:
2.11. TRANSFORMACIONES DE UNA VARIABLE ALEATORIA
=
=
=
=

1 (xa)/b x
e
e dx
b
a
a/b Z
1
e
e( b )x dx
b
a
a/b ( 1 )x
e b
e

1
b
b
a
a/b ( 1 )a
e b
e

1
b
b
ea
1 b
Z
MX () =
61
De la u
ltima expresion se puede obtener el primer momento:
m1

dMX ()
=
d =0

aea (1 b) (b)ea
=

(1 b)2
=0
= a+b
Este u
ltimo resultado coincide con el obtenido usando la funcion caracterstica.
2.11.
Transformaciones de una variable aleatoria
En ocasiones se desea transformar una variable aleatoria X en una nueva

variable aleatoria Y mediante una transformacion
Y = T (X)
(2.54)
62
La funcion de densidad fX (x) o de distribucion FX (x) es conocida, y el

problema consiste en determinar FY (y) o fY (y).
X puede ser discreta, continua o mixta. A su vez, T puede ser lineal,
nolineal, segmentada, escalonada, etcetera. Hay muchos casos que pueden
considerarse, dependiendo de la forma de X y de T . Se vera tres de tales casos:
(a) X continua y T continua (ya sea creciente o decreciente monotonicamente
con X); (b) X continua y T continua pero no monotonica; (c) X discreta y T
continua. La transformacion es supuesta continua en los tres casos a analizar.
2.11.1.
Transformaciones monot
onicas de una V. A.
continua
Una2 transformacion T se llama monotonicamente creciente si T (x1 ) <

T (x2 ) para cualquier x1 < x2 . Es monotonicamente decreciente si T (x1 ) >
T (x2 ) para cualquier x1 < x2 .
Considerese primero la transformacion creciente. Supongase que T es continua y diferenciable en todo valor de x para el que fX (x) 6= 0. Se tiene que
y0 = T (x0 ) o x0 = T 1 (y0 )
donde T 1 representa el inverso de la transformacion T . La probabilidad del
evento {Y 6 y0 } debe igualar la probabilidad del evento {X 6 x0 } debido a
la correspondencia una-a-una (inyectiva) entre X e Y . As,
FY (y0 ) = P {Y 6 y0 } = P {X 6 x0 } = FX (x0 )
Z
y0
x0 =T 1 (y0 )
fY (y)dy =
V. A.: variable aleatoria.
fX (x)dx
(2.55)
63
En este punto, es conveniente recordar el enunciado de la regla de Leibniz 3 : Si H(x, u) es continua en las variables x y u, y
Z
(u)
H(x, u)dx
G(u) =
(u)
entonces la derivada de la integral respecto al parametro u es:
dG(u)
d(u)
d(u)
= H [(u), u]
H [(u), u]
+
du
du
du
(u)
(u)
H(x, u)
dx (2.56)
u
Con base en la regla de Leibniz, se deriva la ecuacion 2.55 y se obtiene:

dT 1 (y0 )
fY (y0 ) = fX T 1 (y0 )
dy0
(2.57)
Como la ecuacion anterior aplica para cualquier y0 , se puede eliminar el

subndice y escribir:
dT 1 (y)
fY (y) = fX T 1 (y)
dy
dx
= fX (x)
dy
(2.58)
Si se considera ahora el caso de la transformacion decreciente, se puede

escribir entonces:
FY (y0 ) = P {Y 6 y0 } = P {X > x0 } = 1 FX (x0 )
Si se sigue el mismo razonamiento usado para obtener la ecuacion 2.58,
se obtendra el mismo resultado pero con un signo negativo:
3
Gottfried Wilhelm von Leibniz, 1 de julio de 1646-14 de noviembre de 1716: diplomatico, fil
osofo, matem
atico y fsico alem
an, quien constituye una gloriosa excepcion al viejo
dicho de quien mucho abarca, poco aprieta.
64
dT 1 (y)
fY (y) = fX T 1 (y)
dy
dx
= fX (x)
dy
(2.59)
No obstante, dado que la pendiente de T 1 (y) es negativa pues la transformacion es decreciente, se concluye que, para cualquier tipo de transformacion
monotonica:

1 dT 1 (y)

fY (y) = fX T (y)
dy

dx
= fX (x)
dy
(2.60)
Este u
ltimo resultado nos da la funcion de densidad probabilstica de
la nueva variable aleatoria Y, por lo que tal expresion debe siempre quedar
en terminos de la variable y. Por consiguiente, al lado derecho de la u
ltima
ecuacion, todo debe quedar escrito en terminos de tal variable.
Ejemplo
Si Y = T (X) = aX+b, donde a, b R, entonces X = T 1 (Y ) = (Y b)/a
y dx/dy = 1/a.

(y b)
fY (y) = fX
a
Si X es gaussiana, la funcion de densidad

1

a
de Y quedara como:
h
i2
(yb)
a aX
1
1

fY (y) = p
exp
2

2
2
2X
a
X
(
)
1
[y (aaX + b)]2
= p
exp
2
2
2a2 X
2a2 X
65
que es la funcion de densidad de otra variable aleatoria gaussiana con media

y varianza dadas a partir de la media y varianza de X
2
aY = aaX + b y Y2 = a2 X
Este u
ltimo ejemplo nos indica que una transformacion lineal de una
variable aleatoria gaussiana produce otra variable aleatoria gaussiana. En
el mundo practico, un amplificador lineal con un voltaje aleatorio X a su
entrada es un ejemplo de una transformacion lineal.
2.11.2.
Transformaciones no monot
onicas de una V. A.
continua
En general, puede ser que haya mas de un intervalo de valores de X que

correspondan al evento {Y 6 y0 }. Puede darse el caso que, para un dado
y0 , el evento {Y 6 y0 } corresponde al evento {X 6 x1 , x2 6 X < x3 }.
As, la probabilidad del evento {Y 6 y0 } iguala la probabilidad del evento
{valores de x que dan Y 6 y0 } que se escribira como {x | Y 6 y0 }. En otras
palabras,
Z
FY (y0 ) = P {Y 6 y0 } = P {x | Y 6 y0 } =
fX (x)dx
{x|Y 6y0 }
Se puede derivar formalmente el resultado anterior para obtener la densidad de Y :

d
fY (y0 ) =
dy0
Z
fX (x)dx
(2.61)
{x|Y 6y0 }
La funcion de densidad esta dada tambien por 4 :

4
Athanasios Papoulis, Probability, Random Variables, and Stochastic Processes. Segunda edici
on. New York: McGraw-Hill Book Company, 1984. Pagina 95.
66
fY (y) =
X
n
f (x )
X n

dT (x)

dx x=xn
(2.62)
donde la suma incluye todas las races xn , n = 1, 2, . . . , que son las soluciones
reales de la ecuacion y = T (x). Si y = T (x) no tiene races reales para un
valor dado de y, fY (y) = 0.
Ejemplo
Encuentrese fY (y) para la transformacion de ley cuadrada Y = T (X) =
cX 2 , donde c > 0 R.
Para la solucion, se utilizara dos metodos.
p
p
Metodo 1: El evento {Y 6 y} ocurre cuando { y/c 6 x 6 y/c} =
{x | Y 6 y}, con lo que
Z y/c
FY (y) =
d
fY (y) =
dy
fX (x)dx
y/c
Z y/c
fX (x)dx
y/c
Se aplica ahora la regla de Leibniz:

p
p
1
1
1
1
fY (y) = fX ( y/c)
fX ( y/c)
2 y
2 y
c
c
p
p
fX ( y/c) + fX ( y/c)
=
y>0
2 yc
Metodo 2: Si se despeja X de la ecuacion Y = cX 2 se encuentra:
Y
= X2
c
p
X = Y /c

de modo que x1 =
p
p
y/c, x2 = y/c. Ademas,
dT (x)
dx
67
= 2xc, con lo que

r
dT (x)
y
= 2 yc
= 2c

dx x=x1
c

r
dT (x)
y
= 2c
= 2 yc

dx x=x2
c
Finalmente,
p
p
fX ( y/c) fX ( y/c)
fY (y) =
+
|2 cy|
|2 yc|
p
p
fX ( y/c) + fX ( y/c)
=
2 yc
2.11.3.
y>0
Transformaci
on de una variable aleatoria discreta
Si X es una variable aleatoria discreta mientras que Y = T (X) es una

transformacion continua, el problema de encontrar la nueva funcion de densidad es simple de resolver. Se puede escribir que,
fX (x) =
P (xn )(x xn )
(2.63)
P (xn )u(x xn )
(2.64)
FX (x) =
X
n
donde la suma se aplica sobre todos los valores posibles xn , n = 1, 2, . . . , de

X.
Si la transformacion es monotona, hay una correspondencia una-a-una
entre X y Y de modo que un conjunto {yn } corresponde al conjunto {xn }
mediante la ecuacion yn = T (xn ). La probabilidad P (yn ) iguala P (xn ). As,
68
fY (y) =
FY (y) =
P (yn )(y yn )
(2.65)
P (yn )u(y yn )
(2.66)
donde yn = T (xn ), P (yn ) = P (xn ).

Si T no es monotona, el procedimiento anterior mantiene su validez con la
excepcion de que existe la posibilidad de que mas de un valor xn corresponde
a un valor yn . En este caso, P (yn ) igualara la suma de las probabilidades de
los diversos xn para los que yn = T (xn ).
Captulo 3
Variables aleatorias m
ultiples
69

CAPITULO 3. VARIABLES ALEATORIAS MULTIPLES
70
3.1.
Pre
ambulo
A pesar del ttulo de este captulo, nuestro estudio hara enfasis sobre la
teora de dos variables aleatorias.
Si bien el estudio sera restringido a dos variables aleatorias, la generalizacion a tres o mas variables sera evidente y podra llevarse a cabo sin dificultad.
3.2.
Conceptos introductorios
Supongase que dos variables aleatorias X e Y estan definidas sobre un

espacio S de muestras, donde valores especficos de X e Y se denotan por
x e y, respectivamente. Cualquier par ordenado de n
umeros (x, y) puede
considerarse un punto aleatorio en el plano xy. El punto puede tomarse como
un valor especfico de un vector aleatorio.
El plano de todos los puntos (x, y) en los intervalos de X e Y puede
considerarse un nuevo espacio de muestras. Es un espacio vectorial donde los
componentes de cualquier vector son los valores de las variables aleatorias X
e Y . Se le puede llamar al espacio de muestras resultante espacio producto
bidimensional, y se le da el smbolo SJ .
Como en el caso de una variable aleatoria, defnase los eventos A y B por
A = {X 6 x}
B = {Y 6 y}
El evento A B definido en S corresponde al evento conjunto {X 6

x e Y 6 y} definido en SJ , el cual se escribe {X 6 x, Y 6 y}.
En el caso mas general, donde N variables aleatorias X1 , X2 , X3 , . . . , XN
estan definidas sobre un espacio de muestras S, pueden verse como componentes de un vector aleatorio N -dimensional o variable aleatoria N -dimensional.
El espacio de muestras conjunto SJ es ahora N -dimensional.
CONJUNTA
3.3. PROPIEDADES DE LA DISTRIBUCION
71
La probabilidad del evento conjunto {X 6 x, Y 6 y}, funcion de los

n
umeros x e y, es una funcion de distribucion de probabilidad conjunta denotada por
FX,Y (x, y) = P {X 6 x, Y 6 y}
(3.1)
Es claro que P {X 6 x, Y 6 y} = P (A B), donde el evento conjunto

A B esta definido en S.
La funcion de distribucion conjunta para dos variables aleatorias discretas
generales X (N posibles valores xn ) e Y (M posibles valores ym ), puede
escribirse como
FX,Y (x, y) =
N X
M
X
P (xn , ym )u(x xn )u(y ym )
(3.2)
n=1 m=1
donde P (xn , ym ) es la probabilidad del evento conjunto {X = xn , Y = ym } y

u( ) es la funcion escalon unitario.
Para N variables aleatorias Xn , n = 1, 2, . . . , N la generalizacion es directa.
FX1 ,X2 ,...,XN (x1 , x2 , . . . , xN ) = P {X1 6 x1 , X2 6 x2 , . . . , XN 6 xN }
3.3.
(3.3)
Propiedades de la distribuci
on conjunta
Una funcion de distribucion conjunta para dos variables aleatorias X e Y

tiene varias propiedades.
1. FX,Y (, ) = 0 FX,Y (, y) = 0 FX,Y (x, ) = 0.
2. FX,Y (, ) = 1.

72
3. 0 6 FX,Y (x, y) 6 1.
4. FX,Y (x, y) es un funcion no-decreciente tanto de x como de y.
5. FX,Y (x2 , y2 )+FX,Y (x1 , y1 )FX,Y (x1 , y2 )FX,Y (x2 , y1 ) = P {x1 < X1 6
x2 , y1 < Y 6 y2 } > 0.
6. FX,Y (x, ) = FX (x) FX,Y (, y) = FY (y).
La u
ltima propiedad establece que la funcion de distribucion de una variable aleatoria se obtiene poniendo el valor de la otra variable a infinito
en FX,Y (x, y). Las funciones Fx (x) y Fy (y) obtenidas de esta manera se
llaman funciones de distribucion marginales. Con respecto a esto, observese que FX,Y (x, y) = P {X 6 x, Y 6 y} = P (A B). Si se hace que
y = , esto equivale a hacer B = {Y 6 y} el evento cierto; es decir,
B = {Y 6 } = S. Ademas, dado que A B = A S = A, entonces se
tiene FX,Y (x, ) = P (A S) = P (A) = P {X 6 x} = FX (x), Una prueba
similar puede establecerse para FY (y).
De una funcion de distribucion conjunta N -dimensional se puede obtener
una funcion de distribucion marginal K-dimensional, para cualquier grupo
escogido de K de las N variables aleatorias, con fijar los valores de las otras
N K variables aleatorias a infinito. Aqu K puede ser cualquier entero
1, 2, 3, . . . , N 1.
3.4.
Densidad conjunta y sus propiedades
Para dos variables aleatorias X e Y , la funcion de densidad probabilstica

conjunta, fX,Y (x, y), esta definida por la segunda derivada de la funcion de
distribucion conjunta dondequiera que esta exista,
3.4. DENSIDAD CONJUNTA Y SUS PROPIEDADES
2 FX,Y (x, y)
xy
Se le conoce tambien como funcion de densidad conjunta.
fX,Y (x, y) =
73
(3.4)
La funcion de densidad conjunta para dos variables aleatorias discretas

estara dada por:
fX,Y (x, y) =
N X
M
X
P (xn , ym )(x xn )(y ym )
(3.5)
n=1 m=1
Cuando N variables aleatorias X1 , X2 , . . . , XN estan involucradas, la funcion de densidad conjunta se convierte en la N -esima derivada parcial de la
funcion de distribucion N -dimensional
fX1 ,X2 ,...,XN (x1 , x2 , . . . , xN ) =
N FX1 ,X2 ,...,XN (x1 , x2 , . . . , xN )

x1 x2 xN
(3.6)
Por integracion directa este resultado es equivalente a:
xN
x1
FX1 ,...,XN (x1 , . . . , xN ) =
fX1 ,...,XN (v1 , . . . , vN )dv1 dvN
Las siguientes son propiedades de la funcion de densidad conjunta:

(1) fX,Y (x, y) > 0
Z Z
(2)
fX,Y (x, y)dxdy = 1
(3) FX,Y (x, y) =
fX,Y (v1 , v2 )dv1 dv2
(4a) FX (x) =
(4b) FY (y) =

74
y2
x2
(5) P {x1 < X 6 x2 , y1 < Y 6 y2 } =
fX,Y (x, y)dxdy

y1
x1
fX,Y (x, y)dy
(6a) fX (x) =
fX,Y (x, y)dx
(6b) fY (y) =
Las funciones fX (x) y fY (y) se llaman funciones de densidad probabilstica marginal o, simplemente, funciones de densidad marginal.
dFX (x)
dx
dFY (y)
fY (y) =
dy
fX (x) =
Ejemplo
Encuentre fX (x) y fY (y) cuando la funcion de densidad conjunta es
fX,Y (x, y) = u(x)u(y)xex(y+1)
Para la solucion, se debe tomar la funcion de densidad conjunta e integrar
primero sobre todo el ambito de valores de la variable aleatoria Y, para obtener
la funcion de densidad de X. Luego, se toma la funcion de densidad conjunta
y se integra sobre todo el ambito de valores de la variable aleatoria X, para
obtener la funcion de densidad de Y.
Z
u(x)u(y)xex(y+1) dy
0
Z
x
= u(x)xe
exy dy
0 xy

e

= xex u(x)
x 0
= ex u(x)
fX (x) =
CONDICIONAL
75
u(x)u(y)xex(y+1) dx
0
Z
xex(y+1) dx
= u(y)
0

x(y+1)

xex(y+1)
e

= u(y)

y+1
(y + 1)2 0
0
u(y)
=
(y + 1)2
fY (y) =
En el calculo de la funcion de densidad de Y , se utilizo la tecnica de la

integracion por partes.
Para N variables aleatorias X1 , X2 , . . . , XN la funcion de densidad marginal K-dimensional esta definida como la derivada parcial K-esima de la
funcion de distribucion marginal K-dimensional. Puede hallarse de la funcion
de densidad conjunta integrando todas las variables excepto las K variables
de interes X1 , X2 , X3 , . . . , XK :
fX1 ,...,XK (x1 , . . . , xK ) =
fX1 ,...,XN (x1 , . . . , xN )dxK+1 dxN
(3.7)
3.5.
3.5.1.
Densidad y distribuci
on condicional
Condicionamiento puntual
En algunos problemas practicos se esta interesado en la funcion de distribucion de una variable aleatoria X condicionada por el hecho de que una
segunda variable aleatoria Y tiene alg
un valor especfico y. Esto se llama condicionamiento puntual y esto se maneja definiendo un evento condicionante
B por

76
B = {y y < Y 6 y + y}
donde y es una peque
na cantidad que eventualmente puede aproximar 0.
Se escribe:
R y+y R x
yy
FX (x|y y < Y 6 y + y) =
f (v1 , v2 )dv1 dv2

X,Y
R y+y
f (v)dv
yy Y
(3.8)
Considere dos casos para la formula anterior.

1. Suponga que X e Y son ambas variables aleatorias discretas con valores
xi , i = 1, 2, . . . , N e yi , i = 1, 2, . . . , M, respectivamente, con probabilidades P (xi ), P (yi ). Se tiene que
fY (y) =
M
X
P (yj )(y yj )
j=1
fX.Y (x, y) =
N X
M
X
P (xi , yj )(x xi )(y yj )
i=1 j=1
Suponga que el valor especfico de y de interes es yk . Se puede demostrar

que
FX (x|Y = yk ) =
N
X
P (xi , yk )
i=1
P (yk )
u(x xi )
(3.9)
(x xi )
(3.10)
Despues de derivar,
fX (x|Y = yk ) =
N
X
P (xi , yk )
i=1
P (yk )
CONDICIONAL
77
2. Si X, Y son ambas variables aleatorias continuas,

Rx
FX (x|Y = y) =
fX,Y (v, y)dv

fY (y)
(3.11)
para todo y tal que fY (y) 6= 0. Despues de diferenciar ambos lados con
respecto a x:
fX (x|Y = y) =
fX,Y (x, y)
fY (y)
(3.12)
Cuando no haya confusion con respecto al significado,
fX (x|y) =
fX,Y (x, y)
fY (y)
(3.13)
fX,Y (x, y)
fX (x)
(3.14)
Puede tambien demostrarse que:
fY (y|x) =
Ejemplo
Encuentre fY (y|x) para las funciones de densidad del ejemplo anterior.

Dado que:

fX (x) = u(x)ex
no son nulas para x > 0, y > 0, fY (y|x) no es nulo solamente para y > 0
y x > 0.
fY (y|x) = u(x)u(y)xexy

78
3.5.2.
Condicionamiento por intervalo
Defina B = {ya < Y 6 yb } donde ya , yb son n

umeros reales y se supone
P (B) 6= 0. Con esta definicion se puede constatar que:
FX,Y (x, yb ) FX,Y (x, ya )

F (y ) FY (ya )
R yb R xY b
f (v, y)dvdy
y
X,Y
= R yab R
f (x, y)dxdy
ya X,Y
R yb
f (x, y)dy
ya X,Y
fX (x|ya < Y 6 yb ) = R yb R
f (x, y)dxdy
ya X,Y
FX (x|ya < Y 6 yb } =
(3.15)
(3.16)
(3.17)
Estas u
ltimas dos expresiones son validas para X e Y variables aleatorias
discretas o continuas.
Ejemplo
Encuentre fX (x|Y 6 y) de la funcion de densidad conjunta del ejemplo
anterior.
Puesto que se ha definido B = {Y 6 y}, entonces ya = e yb = y.
Ademas, dado que fX,Y (x, y) es no nula para x > 0 e y > 0, se necesita
solamente considerar esta region de x e y para hallar la funcion de densidad
condicional. El denominador de la formula anterior es
fY (v)dv =
u(v)dv
=
(v + 1)2
Z
0
y
dv
1
y
=
=
y>0

(v + 1)2
(v + 1) 0 y + 1
y es cero para y < 0. El numerador se convierte en:
3.6. INDEPENDENCIA ESTADISTICA
fX,Y (x, v)dv =
=
=
=
=
79
u(x)xex(v+1) dv
0
Z y
x
exv dv
xu(x)e
0 xv y

e

xu(x)ex
x 0

u(x)ex exy 1

1 exy u(x)ex y > 0
y cero para y < 0.
(1 exy )u(x)ex u(y)

y/(y + 1)
(y + 1)(1 exy )u(x)u(y)ex
=
y

y+1
=
(1 exy )ex u(x)u(y)
y
fX (x|Y 6 y) =
3.6.
Independencia estadstica
Dos variables aleatorias son estadsticamente independientes si y solo si

P {X 6 x, Y 6 y} = P {X 6 x}P {Y 6 y}
(3.18)
Lo anterior implica que

FX,Y (x, y) = FX (x)FY (y)
(3.19)
fX,Y (x, y) = fX (x)fY (y)
(3.20)

80
Si X, Y son estadsticamente independientes

P {X 6 x, Y 6 y}
P {Y 6 y}
FX,Y (x, y)
=
FY (y)
= FX (x)
FX (x|Y 6 y) =
(3.21)
(3.22)
(3.23)
Lo mismo sucede con FY (y|X 6 x). Ademas, si se mantiene la misma

condicion de independencia estadstica para X, Y :
fX (x|Y 6 y) = fX (x)
(3.24)
fY (y|X 6 x) = fY (y)
(3.25)
Ejemplo
Para las densidades de los ejemplos anteriores,
En tanto que,
ex
u(x)u(y)
(y + 1)2
Como fX,Y (x, y) 6= fX (x)fY (y), las variables aleatorias X e Y no son
fX (x)fY (y) =
independientes.
3.7.
Distribuci
on y densidad de una suma de
variables aleatorias
Se va a analizar el problema de hallar las funciones de densidad y distribucion para una suma de variables aleatorias estadsticamente independientes.
Y DENSIDAD DE UNA SUMA DE VARIABLES ALEATORIAS81

3.7. DISTRIBUCION
3.7.1.
Suma de dos variables aleatorias
Sea W una variable aleatoria igual a la suma de dos variables aleatorias

independientes X e Y :
W =X +Y
(3.26)
Este es un problema muy practico porque X pudiera representar una

se
nal aleatoria de tension e Y pudiera representar ruido aleatorio. La suma
W pudiera representar entonces un voltaje de se
nal mas ruido disponible
para alg
un receptor.
La funcion de distribucion de probabilidad que se busca esta definida por:
FW (w) = P {W 6 w} = P {X + Y 6 w}
(3.27)
Se puede hacer un dibujo para ilustrar la region en el plano XY donde

x + y 6 w. La probabilidad correspondiente a un area elemental dxdy en el
plano XY localizado en el punto (x, y) es fX,Y dxdy. Si se suma todas las
probabilidades sobre la region donde x + y 6 w se obtendra FW (w). As,
Z
wy
fX,Y (x, y)dxdy
FW (w) =
(3.28)
x=
Como X, Y son independientes

Z
FW (w) =
wy
fY (y)
fX (x)dxdy
(3.29)
x=
Despues de derivar, usando la regla de Leibniz, se obtiene la funcion de

densidad deseada:
Z
fY (y)fX (w y)dy
fW (w) =
(3.30)

82
La anterior expresion describe una integral de convolucion. La funcion de

densidad de la suma de dos variables aleatorias estadsticamente independientes es la convolucion de sus funciones de densidad individuales.
Ejemplo
Encuentre la funcion de densidad de W = X + Y donde las densidades
respectivas son:

1
fX (x) =
[u(x) u(x a)]
a

1
fY (y) =
[u(y) u(y b)]
b
con 0 < a < b.
Este ejercicio se puede resolver mediante la integral de convolucion o
mediante el metodo de la transformada de Laplace. Se escoge este u
ltimo
metodo al notarse que ambas funciones de densidad estan definidas a partir
del origen, lo cual facilita un manejo algebraico del problema.
Se tiene entonces:
1 sx
e dx
0 a
sx a
1 e
=
a s 0

1
=
1 eas
as

1
L{fY (y)} =
1 ebs
bs
L{fX (x)} =
La transformada de Laplace de una integral de convolucion es igual al

producto de las transformadas de Laplace de las funciones que conforman el
Y DENSIDAD DE UNA SUMA DE VARIABLES ALEATORIAS83

3.7. DISTRIBUCION
integrando de tal integral. El proximo paso es entonces encontrar el producto de las dos transformadas de Laplace calculadas para luego encontrar la
transformada de Laplace inversa y as hallar la nueva funcion de densidad,
correspondiente a la nueva variable aleatoria W .

L{fX (x)}L{fY (y)} =
1
ab

1
s2
1 ebs eas + e(a+b)s
Lo que sigue ahora es encontrar la transformada de Laplace inversa, para

lo que es importante recordar la siguiente transformada:
L{tn } =
n!
+1
sn
Se obtiene entonces:

1
as
bs
(a+b)s
fW (w) = L
1e
e +e
abs2
1
1
1
wu(w) (w a)u(w a) (w b)u(w b)
=
ab
ab
ab
1
+ (w a b)u(w a b)
ab
1
Notese que se ha hecho cambios de variable para emplear correctamente

la transformada de Laplace. Finalmente, dado que el resultado debe ser una
funcion de densidad, una prueba que se puede hacer para probar si el resultado
es correcto, es comprobar que el area bajo la curva de la nueva funcion es en
efecto igual a la unidad.
3.7.2.
Suma de varias variables aleatorias
La funcion de densidad de Y = X1 + X2 + + XN , donde las Xi son variables aleatorias estadsticamente independientes entre s, es la convolucion
de las N funciones de densidad individuales:

84
fY (y) = fXN (xN ) fXN 1 (xN 1 ) fX1 (x1 )
3.8.
(3.31)
Teorema del lmite central
El teorema del lmite central establece, expresado en terminos generales,

que la funcion de distribucion probabilstica de la suma de un n
umero grande
de variables aleatorias aproxima a una distribucion gaussiana.
Si bien se sabe que el teorema es aplicable a algunos casos de variables
aleatorias estadsticamente dependientes, la mayora de las aplicaciones y
el cuerpo mas amplio de conocimiento, se dirigen hacia variables aleatorias
estadsticamente independientes.
Considerese una muestra aleatoria de medicion {Xi }N
i=1 . Entonces el hecho de que los Xi esten distribuidas identicamente implica que tienen una
distribucion com
un - la distribucion de poblacion. Si la distribucion de poblacion es normal o gaussiana, entonces la media de la muestra X esta tambien
distribuida normalmente. El teorema del lmite central establece que si bien
la distribucion de la poblacion pueda estar lejos de ser normal, aun para un
tama
no N grande de la muestra, la distribucion de la media de la muestra X
es aproximadamente normal, con una aproximacion que mejora conforme aumenta N . El teorema del lmite central permite el calculo de probabilidades
que involucran a X aun cuando las Xi individuales tienen una distribucion
desconocida y muy complicada. Solamente la media de la poblacion y la
desviacion estandar son necesarias para obtener la distribucion aproximada
de X.
El teorema del lmite central sera enunciado dos veces, una vez para sumas
y luego para las medias de muestra.
3.8. TEOREMA DEL LIMITE CENTRAL
3.8.1.
85
El teorema del lmite central para sumas
Considerese X1 , . . . , XN variables aleatorias independientes e identicamente distribuidas, con media com

un y desviacion estandar . Sea
S N = X1 + + XN
(3.32)
Entonces la distribucion de
Z=
SN N
(3.33)
aproxima la distribucion N (0, 1) conforme N .1

As, Z tendra una distribucion que es aproximadamente N (0, 1) para N
grandes. El valor optimo de N depende de las distribuciones individuales
de los Xi as como de la exactitud requerida. Entre mas cercana este la
distribucion de Xi a la distribucion gaussiana, mas peque
no sera N para
dar una buena aproximacion. En general, sorprendentemente, con N > 20
bastara para obtener una aproximacion razonable.
La ecuacion 3.33 nos recuerda la formula 2.10 que se emplea para transformar una variable aleatoria gaussiana de cualquier media y cualquier varianza,
en una variable aleatoria gaussiana de media cero y varianza 1. Por esta razon
se puede interpretar que, en la ecuacion 3.33 se nos indica que la variable
aleatoria SN , formada a partir de la suma de las variables Xi , tiene media
ltima asercion se puede probar como

N y desviacion estandar N . Esta u
sigue.
Con respecto a la media de SN ,
1
La notaci
on N (0, 1) se refiere a una funcion de densidad gaussiana de media 0 y
varianza 1.

86
E [SN ] = E [X1 + X2 + + XN ]
= + + +
= N
Lo anterior se justifica porque E[Xi ] = . Con respecto a la varianza,
SN
2 i
SN SN
2
= E SN (E [SN ])2
= E
De la u
ltima identidad, se conoce el restando, que es la media de SN al
cuadrado. Con respecto al primer factor,

E SN 2 = E (X1 + X2 + + XN )2
= E [(X1 + X2 + + XN )(X1 + X2 + + XN )]

= E X12 + X1 X2 + X1 X3 + X1 XN + + . . .

. . . + XN X1 + XN X2 + + XN XN 1 + XN2
=
N
X
E[Xi2 ]
i=1
N
X
E[Xi ]E[Xj ]
i=1,i6=j
2
= N ( + ) + N (N 1)2
= N 2 + N 2 + N 2 2 N 2
= N 2 + N 2 2
Finalmente,
87

SN 2 = E SN 2 (E [SN ])2
= N 2 + N 2 2 N 2 2
= N 2
de donde se obtiene que SN = N .

Ejemplo
Se instala sucesivamente bombillos en un plafon. Suponga que cada uno
tiene una vida media de 2 meses con una desviacion estandar de 1/4 de mes.
Encuentre la probabilidad P {40 bombillos duran por lo menos 7 a
nos}.
Sea Xi el tiempo de vida del bombillo i-esimo instalado. Entonces N bombillos duran un tiempo total de SN = X1 + + XN . Con N = 40, = 2,
= 1/4,
S40 40 2
0,25 40
es una variable aleatoria distribuida aproximadamente de la forma N (0, 1),
suponiendo que N = 40 es suficientemente grande.
P {S40
S40 80
84 80
>
> 7 12 meses} = P
0,25 40
0,25 40
= P {Z > 2,53}
= 1 P {Z < 2,53}
= P {Z < 2,53}
= 0,0057
Ejemplo

88
Con respecto al ejemplo anterior, cuantos bombillos N deberan comprarse de modo que se pueda estar 95 % seguro que el abastecimiento de N
durara 5 a
nos?
Notese que N = 30 bombillos tienen una vida esperada de 30 2 = 60
meses (5 a
nos). Para un N general, la vida total SN tiene
E [SN ] = 2N
SN = 0,25 N
Se busca aquel valor de N , usando el teorema del lmite central, de modo

que
0,95 = P {SN > 60}

60 2N
SN 2N
>
= P
0,25 N
0,25 N

60 2N
= P Z>
0,25 N

60 2N
= 1P Z <
0,25 N

60 2N
= P Z<
0,25 N

60 2N
0,05 = P Z <
0,25 N
de donde
60 2N
= 1,645
0,25 N
Lo anterior lleva a una ecuacion cuadratica sobre la raz de N:
N 0,20565 N 30 = 0
Hay dos soluciones:
N1 = 5,581 o
89
p
N2 = 5,375
Se escoge el valor positivo, con lo que N = 31,14. Como respuesta a la

pregunta, se debe decir que se debera comprar 32 bombillos.
Para el ejemplo inmediato anterior, el n
umero 32 es razonablemente grande, por lo que el teorema del lmite central puede aplicarse. Tan solamente
sobre la base del n
umero 32 calculado por medio del teorema del lmite central es como se justifica a posteriori el empleo del mismo teorema. La logica
es extra
na, pero sin embargo valida.
3.8.2.
El teorema del lmite central para medias de

muestras
El teorema del lmite central puede reescribirse en terminos de la media

de la muestra en vez de la suma SN . Vease que si SN = X1 + X2 + + XN ,
X = SN /N . Por consiguiente,
SN N
X
=
N
/ N
Sean X1 , . . . , XN variables aleatorias independientes e identicamente distribuidas con media com
un , desviacion estandar y media de la muestra
X. Entonces la distribucion de la variable aleatoria definida por
Z=
/ N
aproxima N (0, 1) conforme N .

Ejemplo
Sea S la vida promedio de una caja de 25 bombillos de luz.
(a) Encuentre P {S > 1,9 meses}.
90
(b) Encuentre tambien un intervalo [2 c, 2 + c] alrededor de la media

= 2 de modo que se puede estar 95 % seguro que la vida promedio S
caera dentro de este intervalo.
Para la parte (a), si se aplica el teorema del lmite central,
Z=
S2
0,25/5
es aproximadamente N (0, 1). As,
1,9 2
P {S > 1,9} = P Z >
0,25/5
= P {Z > 2}
= 1 P {Z < 2}
= 1 0,0228
= 0,9772
Para la parte (b), para hallar c, notese que
0,95 = P {2 c < S < 2 + c}

c
c
= P
<Z<
0,25/5
0,25/5
Por consiguiente, c debe satisfacer
c
= 1,96
0,25/5
con lo que c = 0,098. De esta manera, 95 % de los paquetes con 25 bombillos tendra vida promedio en [1,902 2,098].

3.9. DESIGUALDAD DE CHEBYSHEV Y LEY DE LOS GRANDES NUMEROS91
3.9.
3.9.1.
Desigualdad de Chebyshev y ley de los

grandes n
umeros
Desigualdad de Chebyshev
De menor aplicabilidad computacional que el teorema del lmite central,

pero de tanto interes teorico, es la ley de los grandes n
umeros, que usa una
herramienta tecnica llamada desigualdad de Chebyshev.
Sea W una variable aleatoria con media 0. Si bien la media de W es
0, cualquier realizacion simple de W puede estar bastante alejada de 0. La
varianza mide cuan lejos los valores de W se dispersan de 0. Entre mayor el
valor de la varianza de W, mas se alejara el valor de W de 0. La desigualdad
de Chebyshev hace esta idea precisa: dada la varianza 2 , que tan cercanos
a = 0 los valores de W podran estar?
Para responder esta u
ltima pregunta, fjese un n
umero > 0 y b
usquese la
probabilidad de que W esta mas alejada que de su media = 0. De hecho,
cabra esperar que esta probabilidad P (|W | > ) debera hacerse mas grande
conforme 2 se hace mas grande, puesto que los valores de W se dispersaran
sobre un intervalo mayor. Supongase2 que W tiene una funcion de densidad
f . Entonces, para un n
umero fijo > 0,
Z
P (|W | > ) =
f (x)dx
|x|>
Z
=
x2 >2
2
f (x)dx
2
Por el ambito de valores sobre los que la integracion anterior se realiza,

se cumple que:
2
Una deducci
on similar se aplica cuando W es discreta en vez de ser continua.

92
Z
x2 >2
2
f (x)dx 6
2
x2
f (x)dx
2
x2 >2
2
Z
6
x
f (x)dx
2
Z
1 2
x f (x)dx
= 2

E[W 2 ]
=
2
2
= 2

Notese que la primera desigualdad viene del hecho que el intervalo de

integracion lo constituye los puntos x donde x2 > 2 y, por lo tanto, el
integrando sera mas grande si 2 se reemplaza por x2 en el numerador. La
segunda desigualdad viene de aumentar el intervalo de integracion de los
puntos x donde x2 > 2 , a la recta numerica de a +.
Por consiguiente, se ha demostrado que si E[W ] = 0 y dado cualquier
n
umero positivo , el evento que W difiera en por lo menos de cero, esta acotado:
2
2
Supongase ahora que X es cualquier variable aleatoria y sea = E[X].
P (|W | > ) 6
Entonces W = X tiene E[W ] = 0, por lo que el desarrollo anterior aplica

a W . Se puede entonces afirmar lo siguiente:
Desigualdad de Chebyshev: Sea X una variable aleatoria con media finita
y varianza finita 2 . Entonces para > 0 un n
umero fijo, la probabilidad
que X difiera en a lo menos de su media, esta acotada:
P (|X | > ) 6
2
2

En terminos del evento complementario,
P (|X | < ) > 1
2
2
Ejemplo
Cajas de cerrajes tienen un promedio de 100 cerrajes con una desviacion
estandar de 3. Encuentre la probabilidad que el n
umero de cerrajes en la caja
que se compra esta entre 95 y 105.
Este ejemplo se trabajara mediante dos enfoques. En el primer enfoque,
sea X el n
umero de cerrajes en la caja. Entonces = 100, = 3. Por lo
tanto, si se usa la desigualdad de Chebyshev con la informacion provista,
P (95 < X < 105) = P (|X 100| < 5) > 1
16
32
=
= 0,64
2
5
25
Con una probabilidad de al menos 0,64 la caja contiene entre 95 y 105

cerrajes.
Con un segundo enfoque, se puede usar el teorema del lmite central. Si
se supone que el teorema del lmite central aplica a la variable aleatoria X
(que X sea debida a muchas peque
nas causas), entonces X esta distribuida
aproximadamente por N (100, 9). Por lo tanto,

94
95 100
105 100
P (95 < X < 105) = P
<Z<
3
3

5
5
= P <Z<
3
3
= P (1,67 < Z < 1,67)
= F (1,67) F (1,67)
= 1 F (1,67) F (1,67)
= 1 2(0,0475)
= 0,905
Para un tama
no de muestra grande, la probabilidad es mejor aproximada
usando el teorema del lmite central que usando la desigualdad de Chebyshev.
Esto es as dado que la desigualdad de Chebyshev es un resultado general
valido para toda distribucion con la misma media y varianza. Si empero, la
distribucion se sabe que es aproximadamente normal, entonces puede usarse
los detalles especficos de tal distribucion.
3.9.2.
Ley de los grandes n

umeros
entiSea {Xi }N
i=1 una muestra aleatoria. Los Xi son variables aleatorias id
camente distribuidas e independientes con media com
un y varianza 2 . Se
espera intuitivamente que la media de la muestra, X, debera ser cercana a
la media de la poblacion para N grande. Esto se expresa matematicamente
como
SN
=
N
N N
= X1 + . . . + XN es la suma. Se demostrara que la probabilidad
lm X = lm
donde SN
que X difiera por cualquier cantidad no nula de tiende a cero conforme N

se hace grande.
Sea > 0 un n
umero fijo. Por la independencia de la secuencia X1 , . . . , XN
en la muestra aleatoria, se cumple que:
E[SN ] = N
S2 N = N 2
La desigualdad de Chebyshev aplicada a SN establece que:
P (|SN N | > N ) 6
S2 N
N 2
2
=
=
(N )2
N 2 2
N 2
En terminos de la media X de la muestra,

SN
P (|X | > ) = P
N >
= P (|SN N | > N )
2
6
N 2
Ahora, hagase N . Entonces la cota de la derecha en la u
ltima
ecuacion tiende a 0 y la siguiente conclusion se obtiene:
(Ley de los grandes n
umeros) Sea {Xi }N
i=1 una muestra aleatoria con media com
un y varianza 2 . Sea
SN = X1 + + XN
Entonces

SN
P
N > 0
conforme N para cada > 0 fijo.

96
La ley de los grandes n

umeros establece lo siguiente: se realiza un experimento aleatorio y se mide X1 , luego se repite el experimento y se mide X2 ,
y as a continuacion. Con SN = X1 + + XN , SN /N es el promedio de
muestra de los Xi sobre los primeros N experimentos. La ley de los grandes
n
umeros dice que para N grande, se puede estar tan seguro como se desee
que SN /N esta cerca de . Es decir, si se fija un error , la probabilidad que
SN /N difiera de por mas que el error cae a cero conforme N . O,
dicho e otra manera, la probabilidad que SN /N esta cerca de una cantidad
tiende a 1 conforme N .
Si cada repeticion del experimento aleatorio toma 1 minuto, entonces
SN /N es el promedio de los valores Xi sobre el curso de los primeros N
minutos. As, el promedio temporal SN /N aproxima el promedio de la
poblacion conforme el tiempo tiende a .
3.10.
Operaciones con variables aleatorias m

ultiples
3.10.1.
Valor esperado de una funci

on de variables aleatorias
Si g(X, Y ) es alguna funcion de dos variables aleatorias X e Y, el valor

esperado de g(X, Y ) esta dado por:
g = E[g(X, Y )] =
g(x, y)fX,Y (x, y)dxdy
(3.34)
Para N variables aleatorias X1 , X2 , . . . , XN y alguna funcion de estas

variables, denotada g(X1 , X2 , . . . , XN ), el valor esperado de la funcion es:

3.10. OPERACIONES CON VARIABLES ALEATORIAS MULTIPLES
97
g = E[g(X1 , X2 , . . . , XN )]
(3.35)
Z
Z
g(x1 , . . . , xN )fX1 ,...,XN (x1 , . . . , xN )dx1 dxN (3.36)

=
As, el valor esperado involucra N integraciones cuando hay N variables

aleatorias involucradas.
Ejemplo
Encuentre la media de una suma de N variables aleatorias pesadas:
g(X1 , X2 , , XN ) =
N
X
i Xi
i=1
Los pesos de la suma son las constantes i . El valor medio de la suma

pesada es:
E[g(X1 , , XN )] = E
" N
X
#
i Xi
i=1
"
N Z
X
i=1
N
X
#
i Xi fX1 ,...,XN (x1 , . . . , xN )dx1 . . . dxN
i=1
i xi fX1 ,...,XN (x1 , . . . , xN )dx1 . . . dxN
Los terminos en la suma todos se reducen a la forma:

Z
i xi fXi (xi )dxi = E[i Xi ] = i E[Xi ]
de modo que
"
E
N
X
i=1
#
i Xi =
N
X
i=1
i E[Xi ]

98
con lo que el valor medio de una suma pesada de variables aleatorias

iguala la suma pesada de valores medios.
3.10.2.
Momentos conjuntos alrededor del origen
Los momentos conjuntos se denotan por mnk y se definen por:

mnk = E X n Y k
Z Z
xn y k fX,Y (x, y)dxdy
=
(3.37)
(3.38)
para el caso de dos variables aleatorias X e Y . Claramente, mn0 = E[X n ] son

los momentos mn de X, mientras que m0k = E[Y k ] son los momentos de Y .
La suma n + k es el orden de los momentos. m02 , m20 , m11 son los momentos
de segundo orden de X e Y . Los momentos de primer orden m01 = E[Y ] =
Y y m10 = E[X] = X son los momentos esperados de Y y X, y son las
coordenadas del centro de gravedad de la funcion fXY (x, y).
El momento de segundo orden m11 = E[XY ] es denominado la correlacion
de X e Y . Recibe el smbolo especial RXY por su importancia. Se tiene
entonces,
Z
RXY = m11 = E[XY ] =
xyfX,Y (x, y)dxdy
(3.39)
Si la correlacion puede escribirse en la forma:
RXY = E[X]E[Y ]
entonces X e Y se dice que no estan correlacionadas. La independencia estadstica de X e Y es suficiente para garantizar que no estan correlacionadas.
El recproco de esta u
ltima frase, que X e Y son independientes si X e Y

3.10. OPERACIONES CON VARIABLES ALEATORIAS MULTIPLES
99
no estan correlacionadas, no es necesariamente cierto en general, con la sola
excepcion de las variables aleatorias gaussianas no correlacionadas, de las
que se sabe son tambien independientes.
Si RXY = 0 para dos variables aleatorias X e Y, estas se denominan
ortogonales.
Ejemplo
Sea X una variable aleatoria que tiene un valor medio X = E[X] = 3 y
2
varianza X
= 2. El segundo momento de X alrededor del origen se calcula
de:
2
X
= E[X 2 ] (E[X])2
2
E[X 2 ] = X
+ (E[X])2
= 11
Sea Y = 6X + 22. De aqu:
E[Y ] = 6E[X] + 22
= 6(3) + 22
= 4
RXY
= E[XY ]
= E[X(6X + 22)]
= E[6X 2 + 22X]
= 6E[X 2 ] + 22E[X]
= 6(11) + 22(3)
= 0
100
De donde X e Y son ortogonales. Por otro lado, RXY 6= E[X]E[Y ] = 12.

Con esto u
ltimo se prueba que dos variables aleatorias pueden ser ortogonales
aun cuando una de ellas, Y , esta relacionada con la otra, X, por una funcion
lineal Y = aX + b.
Para N variables aleatorias X1 , X2 , . . . , XN , los momentos conjuntos de
orden n1 + n2 + + nN estan definidos por:
mn1 n2 nN = E [X1n1 X2n2 XNnN ]

(3.40)
Z
Z
=
xn1 1 xnNN fX1 ,...,XN (x1 , . . . , xN )dx1 dxN
donde n1 , n2 , . . . , nN son todos enteros e iguales a 0, 1, 2, . . ..
3.10.3.
Momentos centrales conjuntos
Para dos variables aleatorias X e Y , estos momentos estan dados por:

nk = E (X X)n (Y Y )k
Z Z
=
(x X)n (y Y )k fX,Y (x, y)dxdy
(3.41)
(3.42)
Los momentos centrales de segundo orden

2
20 = E[(X X)2 ] = X
02 = E[(Y Y )2 ] = Y2
son las varianzas de X e Y, respectivamente.
El momento conjunto de segundo orden 11 es la covarianza de X e Y, y
se le da el smbolo CXY . Por lo tanto,

3.10. OPERACIONES CON VARIABLES ALEATORIAS MULTIPLES101
CXY
= E[(X X)(Y Y )]
Z Z
=
(x X)(y Y )fX,Y (x, y)dxdy
(3.43)
(3.44)
= E[XY XY XY + X Y ]
CXY
= E[XY ] E[X]E[Y ]
(3.45)
= RXY E[X]E[Y ]
(3.46)
Si X, Y son independientes o no estan correlacionadas, entonces CXY = 0,

como puede corroborarse facilmente.
Si X, Y son ortogonales, CXY = E[X]E[Y ]. En este u
ltimo caso, si X
o Y (o ambas) tienen valor medio cero, entonces CXY = 0.
El momento de segundo orden normalizado
=
CXY
11
=
20 02
X Y
(3.47)
dado por
E[(X X)(Y Y )]
X Y

(X X) (Y Y )
= E
X
Y
(3.48)
(3.49)
se conoce como el coeficiente de correlacion de X e Y, con 1 6 6 1.

Para N variables aleatorias X1 , X2 , , XN el momento central conjunto
de orden n1 + n2 + + nN esta definido por:

n1 n2 nN = E (X1 X1 )n1 (X2 X2 )n2 (XN XN )nN
(3.50)
Z
Z
=
(x1 X1 )n1 (xN XN )nN fX1 XN (x1 , . . . , xN )dx1 dxN
102
Ejemplo
Sea X una suma pesada de N variables aleatorias Xi :
X=
N
X
i X i
i=1
Encuentre la varianza de X.
X =
X X =
N
X
i=1
N
X
i X i
i (Xi Xi )
i=1
2
X
= E[(X X)2 ]
" N
#
N
X
X
= E
i (Xi Xi )
j (Xj Xj )
i=1
N X
N
X
j=1
i j E[(Xi Xi )(Xj Xj )]
i=1 j=1
N X
N
X
i j CXi Xj
i=1 j=1
De esta forma, la varianza de una suma pesada de N variables aleatorias

Xi (con pesos i iguala la suma pesada de todas sus covarianzas CXi Xj (con
pesos i j ). Para el caso especial de variables aleatorias no correlacionadas,
donde

CXi Xj =
0
i 6= j
2
Xi i = j
se cumple, se tiene
2
X
N
X
i=1
2
i2 X
i

Con base en esto u
ltimo, se concluye que la varianza de una suma pesada
de variables aleatorias no correlacionadas (con pesos i ) iguala a la suma
pesada de las varianzas de las variables aleatorias (con pesos i2 ).
3.10.4.
Funciones caractersticas conjuntas
La funcion caracterstica conjunta de dos variables aleatorias X e Y

esta definida por:

X,Y (1 , 2 ) = E ej1 X+j2 Y
(3.51)
donde 1 , 2 son n
umeros reales. Una forma equivalente es:
X,Y (1 , 2 ) =
fX,Y (x, y)ej1 x+j2 y dxdy
(3.52)
Lo anterior es la transformada bidimensional de Fourier (con signos cambiados para 1 , 2 ) de la funcion de densidad conjunta. De la transformada
inversa de Fourier se tiene:
1
fX,Y (x, y) =
(2)2
X,Y (1 , 2 )ej1 xj2 y d1 d2
(3.53)
Con poner 2 = 0 u 1 = 0, se obtiene las funciones caractersticas de X

o Y , de X,Y (1 , 2 ). Estas se llaman funciones caractersticas marginales:
X (1 ) = X,Y (1 , 0)
(3.54)
Y (2 ) = X,Y (0, 2 )
(3.55)
Los momentos conjuntos mnk pueden hallarse de la funcion caracterstica

conjunta como sigue:

104
mnk
n+k
(
,
)
X,Y
1
2
= (j)n+k
1n 2k
1 =0,2 =0
(3.56)
Ejemplo
Dos variables aleatorias X e Y tienen la funcion caracterstica conjunta:

X,Y (1 , 2 ) = exp 212 822
Demuestre que X, Y tienen media cero y que no estan correlacionadas.
X = m10
X,Y (1 , 2 )
= j
1
=0, =0
1 2 2 2
= (j)(41 ) exp 21 82 |1 =0,2 =0
= 0
Y
= m01

= (j)(162 ) exp 212 822 1 =0,2 =0
= 0
RXY
= m11

2
2
2
exp 21 82
= (j)
1 2
1 =0,2 =0

2
2
= (41 )(162 ) exp 21 82 1 =0,2 =0
2
= 0
Puesto que las medias son cero, CXY = RXY . Por lo tanto, CXY = 0 y
las variables aleatorias no estan correlacionadas.
La funcion caracterstica conjunta para N variables aleatorias X1 , X2 , . . . , XN
esta definida por:


X1 ,X2 ,...,XN (1 , 2 , . . . , N ) = E ej1 X1 +j2 X2 ++jN XN
(3.57)
Los momentos conjuntos se obtienen de:
mn1 n2 ...nN = (j)
X1 ,X2 ,...,XN (1 , 2 , . . . , N )
nN
1n1 2n2 N
todo i =0
(3.58)
donde R = n1 + n2 + + nN .
La funcion caracterstica conjunta es u
til particularmente en ciertos problemas practicos donde la funcion de densidad probabilstica se necesita para
la variable aleatoria resultante de la suma de N estadsticamente independientes variables aleatorias.
Ejemplo
Sea Y = X1 +X2 + +XN la suma de N estadsticamente independientes
variables aleatorias Xi , i = 1, 2, . . . , N. Denotese las funciones de densidad
probabilstica y funciones caractersticas respectivas por fXi (xi ) y Xi (i ).
Debido a la independencia estadstica, la funcion de densidad probabilstica
conjunta es el producto de todas las funciones de densidad, por lo que la
funcion caracterstica conjunta esta dada por:
Z
X1 ,...,XN (1 , . . . , N ) =
Z "Y
N
#
fXi (xi ) exp
i=1
N Z
Y
i=1
N
Y
( N
X
)
ji xi
dx1 dxN
i=1
fXi (xi )eji xi dxi
Xi (i )
i=1
Se escribe ahora la funcion caracterstica de Y a partir de la definicion:
106
Y () = E[ejY ]
"
( N
)#
X
= E exp
jXi
i=1
= X1 ,...,XN (, . . . , )
N
Y
=
Xi ()
i=1
La funcion caracterstica de Y es similar a la funcion caracterstica conjunta, definida en la ecuacion 3.57, con i = , para todo i. La funcion de
densidad probabilstica de Y se obtiene de la version particular de la transformada de Fourier inversa aplicada sobre la funcion caracterstica correspondiente:
1
fY (y) =
2
"
N
Y
#
Xi () ejy d
i=1
Si las Xi se distribuyen estadsticamente de manera identica de tal forma

que Xi () = X (), para todo i, el u
ltimo resultado final se reduce a:
1
fY (y) =
2
3.11.
[X ()]N ejy d
Variables aleatorias conjuntamente gaussianas
Se vera el caso particular de dos variables aleatorias.

Dos variables aleatorias X e Y se dice que son gaussianas conjuntamente
si su funcion de densidad conjunta es de la forma
3.11. VARIABLES ALEATORIAS CONJUNTAMENTE GAUSSIANAS107

1
(x X)2
1
p
exp
fX,Y (x, y) =
2
2(1 2 )
X
2X Y 1 2

2(x X)(y Y ) (y Y )2
+
X Y
Y2
(3.59)
expresion que a veces recibe el nombre de densidad gaussiana bivariada. El

significado de las constantes que aparecen en la expresion anterior es como
2
sigue: X = E[X], Y = E[Y ], X
= E[(X X)2 ], Y2 = E[(Y Y )2 ], =
E[(X X)(Y Y )]/(X Y ).

Cuando = 0, que es el caso cuando X, Y no estan correlacionadas, se
puede escribir:
fX,Y (x, y) = fX (x)fY (y)
(3.60)
donde fX (x) y fY (y) son las densidades marginales de X e Y .

(x X)2
fX (x) = p
exp
2
2
2X
2X

(y Y )2
1
exp
fX (x) = p
2Y2
2Y2
1
Por lo visto, X e Y son estadsticamente independientes. Se concluye que

cualesquiera variables aleatorias gaussianas no correlacionadas son estadsticamente independientes.
Como resultado especial, se tiene que una rotacion de coordenadas (transformacion lineal de X e Y ) mediante un angulo

1
2X Y
= arctan 2
2
X Y2
(3.61)
108
es suficiente para convertir variables aleatorias correlacionadas X e Y , con

2
varianzas X
, Y2 , coeficiente de correlacion , y con densidad conjunta biva-
riada, en dos variables aleatorias gaussianas estadsticamente independientes.

Ejemplo
La transformacion 3.61 es aplicable tanto a variables aleatorias gaussianas como a variables aleatorias arbitrarias. Considere variables aleatorias
Y1 e Y2 relacionadas con las variables aleatorias arbitrarias X e Y por la
rotacion de coordenadas:
Y1 = X cos + Y sen
Y2 = Xsen + Y cos
Si X e Y son las medias de X e Y , las medias de Y1 e Y2 son Y1 =

X cos + Y sen, Y2 = Xsen + Y cos . La covarianza de Y1 e Y2 es:
CY1 Y2 = E[(Y1 Y1 )(Y2 Y2 )]

= E {(X X) cos + (Y Y )sen}{(X X)sen + (Y Y ) cos }

1
1
2
2
= E (X X) sen2 + (X X)(Y Y ) cos 2 + (Y Y ) sen2
2
2
1 2
1 2
= X sen2 + CXY cos 2 + Y sen2
2
2
sen2
2
= (Y2 X
)
+ CXY cos 2
2
Recuerdese que CXY = E[(X X)(Y Y )] = X Y . Si se quiere que
Y1 e Y2 no esten correlacionadas, se debe tener CY1 Y2 = 0.

3.12. TRANSFORMACIONES DE VARIABLES ALEATORIAS MULTIPLES109
sen2 2
2
(Y X
) + cos 2CXY = 0
2
sen2 2
2
(Y X
) + cos 2X Y = 0
2
sen2 2
(X Y2 ) = 2 cos 2X Y
2
2X Y
tan 2 =
2
X
Y2

1
2X Y
arctan
=
2
Y2 )
2
(X
Este u
ltimo resultado comprueba la ecuacion 3.61.
3.12.
Transformaciones de variables aleatorias

m
ultiples
Al calcular el valor esperado de una expresion de una variable aleatoria,

no fue necesario determinar la densidad de la nueva variable aleatoria definida por esa expresion. Sin embargo, la determinacion de tal densidad se
considerara a continuacion dado que puede ser necesaria en algunos casos.
Considerese el caso de hallar la densidad conjunta para un conjunto de
nuevas variables aleatorias Yi :
Yi = Ti (X1 , X2 , . . . , XN ) i = 1, 2, . . . , N
(3.62)
definidas por transformaciones funcionales Ti . Xi puede ser continua, discreta o mixta, mientras las funciones Ti pueden ser lineales o no, continuas,
segmentadas, etcetera. Solamente se discutira un caso representativo a continuacion.
Supongase que las nuevas variables aleatorias Yi son producidas por funciones univaluadas continuas Ti con derivadas parciales continuas en todas

110
partes. Supongase asimismo que existe un conjunto de funciones inversas

continuas Tj1 tal que las viejas variables puedan expresarse como funciones
continuas univaluadas de las variables nuevas:
Xj = Tj1 (Y1 , Y2 , . . . , YN ) j = 1, 2, . . . , N
(3.63)
Estas suposiciones implican que un punto en el espacio de muestras conjunto de las Xi mapea en un solo punto en el espacio de las nuevas variables
Yj .
Sea RX una region cerrada de puntos en el espacio de las Xi , y RY sea la
region correspondiente de puntos mapeados en el espacio de las Yj . Entonces,
la probabilidad que un punto caiga en RX iguala a la probabilidad que su
punto mapeado caiga en RY . Estas probabilidades, en terminos de densidades
conjuntas, estan dadas por:
fX1 ,...,XN (x1 , . . . , xN )dx1 dxN =

fY1 ,...,YN (y1 , . . . , yN )
| {z }
| {z }
sobre RX
sobre RY
dy1 . . . dyN
(3.64)
La anterior ecuacion puede resolverse para fY1 ,...,YN (y1 , . . . , yN ) tratandola

como una integral m
ultiple donde se hace un cambio de variables. Las variables xi se cambian a nuevas variables yi por medio de tal cambio. El integrando se cambia por sustitucion funcional directa. Los lmites cambian de la
region RX a la region RY . Finalmente, el diferencial de volumen dx1 . . . dxN
cambiara al valor |J|dy1 . . . dyN , donde |J| es la magnitud del jacobiano J
de las transformaciones. El jacobiano es el determinante de una matriz de
derivadas, definido por:

3.12. TRANSFORMACIONES DE VARIABLES ALEATORIAS MULTIPLES111
J =
T11
Y1
..
.
1
TN
Y1
..
.
T11
YN
..
.
1
TN
YN
(3.65)
El lado izquierdo de la ecuacion 3.64 se convierte en:

Z
fX1 ,...,XN (x1 , . . . , xN )dx1 dxN =

| {z }
sobre RX
fX1 ,...,XN (x1 = T11 , . . . , xN = TN1 )|J|dy1 dyN

| {z }
(3.66)
sobre RY
Dado que este resultado debe igualar el lado derecho de la ecuacion 3.64,
entonces:
fY1 ,...,YN (y1 , . . . , yN ) = fX1 ,...,XN (x1 = T11 , . . . , xN = TN1 )|J|
(3.67)
Ejemplo
Considerese las siguientes transformaciones lineales:
Y1 = aX1 + bX2
Y2 = cX1 + dX2
donde a, b, c, d son constantes reales. Las funciones inversas se obtienen resolviendo estas dos ecuaciones para las dos variables X1 y X2 . Si se usa la
regla de Cramer para ello:
Y1
Y2
X1 =
a
d
dY1 bY2
=
ad bc
b
d
112
c
X2 =
a
Y1
Y2
cY1 + aY2
=
ad bc
b
El jacobiano de la transformacion estara dado por:
J =
X1
Y1
X2
Y1
X1
Y2
X2
Y2
d
adbc
c
adbc
b
adbc
a
adbc
1
=
ad bc
Se supone ad bc 6= 0. Finalmente, la funcion de densidad conjunta de

las nuevas variables aleatorias Y1 e Y2 sera:

dy1 by2 cy1 + ay2
fY1 ,Y2 (y1 , y2 ) = fX1 ,X2
,
|J|
ad bc
ad bc

1
dy1 by2 cy1 + ay2
,
= fX1 ,X2
ad bc
ad bc
|ad bc|
Captulo 4
Procesos estoc
asticos
113

CAPITULO 4. PROCESOS ESTOCASTICOS
114
4.1.
Pre
ambulo
Los procesos estocasticos constituyen una generalizacion del concepto de

variables aleatorias al campo de las funciones dependientes del tiempo. Se
conocera funciones que contienen cantidades que son estadsticas en su naturaleza esencial y otras que dependeran del tiempo directamente; sobre las
estadsticas, es donde se aplicara los conceptos aprendidos de las variables
aleatorias, en tanto que se considerara como constante aquellas cantidades
dependientes del tiempo.
4.2.
Conceptos b
asicos
En el mundo de la Ingeniera y de la ciencia, es necesario que se trate

con se
nales dependientes del tiempo. Frecuentemente, se encuentra ondas de
tiempo aleatorias en sistemas practicos. Es com
un que una se
nal deseada en
alg
un sistema sea aleatoria. El flujo de bits en un sistema de comunicaciones
binario es un mensaje aleatorio porque cada bit en el flujo ocurre aleatoriamente. Por otro lado, una se
nal deseada es a menudo acompa
nada por una
onda aleatoria indeseable, ruido. El ruido interfiere con el mensaje y limita
el funcionamiento del sistema. As, cualquier esperanza que se tenga de determinar el funcionamiento de sistemas con ondas aleatorias depende de la
capacidad para describir y tratar con tales ondas.
4.2.1.
Concepto de un proceso aleatorio
El concepto de un proceso aleatorio esta basado en la extension del concepto de una variable aleatoria para incluir el tiempo. Dado que una variable
aleatoria X es una funcion de los posibles resultados s de un experimento, se
convierte en una funcion tanto de s como del tiempo. Se asigna, de acuerdo

4.2. CONCEPTOS BASICOS
115
a una regla, una funcion del tiempo
x(t, s)
a todo resultado s. La familia de todas estas funciones, denotada X(t, s), es
denominada un proceso aleatorio o procesos estocastico. Como con variables
aleatorias donde x denota un valor especfico de la variable aleatoria X,
se usara a menudo la notacion abreviada x(t), para representar una onda
especfica de un proceso aleatorio denotado por X(t).
Un proceso aleatorio X(t, s) representa una familia o agregado de funciones del tiempo cuando t y s son variables.
Cada una de las funciones del tiempo, miembro del proceso estocastico, se
llama una funcion muestra, miembro del agregado o, a veces, una realizacion
del proceso. As, un proceso aleatorio tambien representa una simple funcion
del tiempo cuando t es una variable y s esta fijo en un valor especfico.
Un proceso aleatorio representa una variable aleatoria cuando t es fijo y s
es una variable. Por ejemplo, la variable aleatoria X(t1 , s) = X(t1 ) se obtiene
del proceso cuando el tiempo se congela al valor t1 . A menudo se usa la notacion X1 para denotar la variable aleatoria asociada con el proceso X(t) en el
tiempo t1 . X1 corresponde a una tajada vertical por el agregado en el tiempo
t1 . Las propiedades estadsticas de X1 = X(t1 ) describen las propiedades
estadsticas del proceso aleatorio en el tiempo t1 . El valor esperado de X1 es
denominado el promedio del agregado as como el valor medio o esperado del
proceso aleatorio (en el tiempo t1 ). Dado que t1 puede tener varios valores, el
valor medio de un proceso puede no ser constante; en general, es una funcion
del tiempo. Se visualiza facilmente cualquier n
umero de variables aleatorias
Xi derivadas de un proceso aleatorio X(t) en tiempos ti , i = 1, 2, . . . , como
116
Xi = X(ti , s) = X(ti )
Un proceso aleatorio representa un simple n
umero cuando t y s son ambos
fijos.
4.2.2.
Clasificaci
on de procesos
Si X es un proceso continuo y t toma un continuo de valores, entonces

X(t) se llama un proceso aleatorio continuo. Ruido termico generado por
cualquier red realizable es un ejemplo practico de una onda que es modelada
como una funcion muestra de un proceso aleatorio continuo. En este ejemplo,
la red es el resultado en el experimento aleatorio subyacente de seleccionar
una red (la suposicion es que hay muchas redes disponibles de donde escoger;
esto no podra ser el caso en el mundo real, pero no previene esto de imaginar
una lnea de produccion produciendo un sinn
umero de redes similares). Cada
red establece una funcion muestra y todas las funciones muestra forman el
proceso.
Una segunda clase de proceso aleatorio, denominado proceso aleatorio
discreto, corresponde a la variable aleatoria X que toma solamente valores
discretos mientras que t es continuo.
Un proceso aleatorio para el que X es continuo pero el tiempo tiene
solamente valores discretos se llama una secuencia aleatoria continua. Tal
secuencia se forma al muestrear periodicamente los miembros del agregado
de un proceso aleatorio continuo.
Una cuarta clase de procesos aleatorios, denominada secuencia aleatoria discreta, corresponde al caso de variables aleatorias discretas y tiempo
discreto.

4.2. CONCEPTOS BASICOS
117
Procesos determinsticos y no determinsticos

Ademas de las clases descritas anteriormente, un proceso aleatorio puede describirse por la forma de sus funciones muestra. Si valores futuros de
cualquier funcion muestra no pueden ser predichos exactamente de valores
observados pasados, el proceso se denomina no determinstico.
Un proceso se llama determinstico si los valores futuros de cualquier
funcion muestra pueden ser predichos de valores pasados. Un ejemplo es el
proceso aleatorio definido por:
X(t) = A cos (0 t + )
(4.1)
Aqu A, u 0 (o todos) pueden ser variables aleatorias. Cualquier funcion muestra corresponde a la ecuacion 4.1 con valores particulares de estas
variables aleatorias. Por consiguiente, el conocimiento de la funcion muestra
con anterioridad a cualquier instante del tiempo, permite automaticamente
la prediccion de los valores futuros de la funcion muestra porque su forma es
conocida.
Estacionaridad e independencia
Un proceso aleatorio se convierte en una variable aleatoria cuando el tiempo se fija en un valor particular. La variable aleatoria poseera propiedades
estadsticas, tales como valor medio, momentos, varianza, etcetera, relacionados con su funcion de densidad. Si dos variables aleatorias se obtienen del
proceso para dos instantes del tiempo, tendran propiedades estadsticas (medias, varianzas, momentos conjuntos, etcetera) relacionados con su funcion de
densidad conjunta. En general, N variables aleatorias poseeran propiedades
estadsticas relacionadas con su funcion de densidad conjunta N -dimensional.
Hablando ampliamente, un proceso aleatorio se dice que es estacionario

118
si todas sus propiedades estadsticas no cambian con el tiempo. Otros procesos son denominados no-estacionarios. Estas u
ltimas definiciones no se
comprenden como definiciones de estacionaridad sino que simplemente portan un significado general. De hecho, hay varios niveles de estacionaridad y
todos dependen de las funciones de densidad de las variables aleatorias del
proceso.
4.3.
Funciones de distribuci
on y de densidad
Para un tiempo particular t1 , la funcion de distribucion asociada con la

variable aleatoria X1 = X(t1 ), sera denotada FX (x1 ; t1 ) y es conocida mas
precisamente como la funcion de distribucion de primer orden del proceso
X(t). Se le define como
FX (x1 ; t1 ) = P {X(t1 ) 6 x1 }
(4.2)
para cualquier n
umero real x1 .
Para dos variables aleatorias X1 = X(t1 ) y X2 = X(t2 ), la funcion de
distribucion conjunta de segundo orden es la extension bidimensional de la
formula anterior:
FX (x1 , x2 ; t1 , t2 ) = P {X(t1 ) 6 x1 , X(t2 ) 6 x2 }
(4.3)
De manera similar, para N variables aleatorias Xi = X(ti ), i = 1, 2, . . . , N ,

la funcion de distribucion conjunta de orden N es
FX (x1 , . . . , xN ; t1 , . . . , tN ) = P {X(t1 ) 6 x1 , . . . , X(tN ) 6 xN }
(4.4)
Las funciones de densidad conjunta de interes se encuentran de las derivadas apropiadas de las tres formulas anteriores:
4.4. INDEPENDENCIA ESTADISTICA
dFX (x1 ; t1 )
dx1
2
FX (x1 , x2 ; t1 , t2 )
fX (x1 , x2 ; t1 , t2 ) =
x1 x2
N
FX (x1 , . . . , xN ; t1 , . . . , tN )
fX (x1 , . . . , xN ; t1 , . . . , tN ) =
x1 xN
fX (x1 ; t1 ) =
4.4.
119
(4.5)
(4.6)
(4.7)
Independencia estadstica
Dos procesos X(t) e Y (t) son estadsticamente independientes si el grupo

de variables aleatorias X(t1 ), X(t2 ), . . . , X(tN ) es independiente del grupo
Y (t01 ), Y (t02 ), . . . , Y (t0M ) para cualquier escogencia de tiempos t1 , t2 , . . . , tN ,
t01 , t02 , . . . , t0M . La independencia requiere que la densidad conjunta sea factorable por grupos:
fX,Y (x1 , . . . , xN , y1 , . . . , yM ; t1 , . . . , tN , t01 , . . . , t0M ) =

fX (x1 , . . . , xN ; t1 , . . . , tN )fY (y1 , . . . , yM ; t01 , . . . , t0M )
4.5.
(4.8)
Procesos estacionarios de primer orden
Un proceso aleatorio es llamado estacionario a orden uno si su funcion de

densidad de primer orden no cambia con un desplazamiento en el origen del
tiempo. En otras palabras,
fX (x1 ; t1 ) = fX (x1 ; t1 + )
(4.9)
debe ser cierto para cualquier t1 y cualquier n

umero real si X(t) es un
proceso estacionario de primer orden.

120
Consecuencias de la ecuacion 4.9 son que fX (x1 ; t1 ) es independiente de

t1 y el valor medio del proceso E[X(t)] es una constante:
E[X(t)] = X = constante
(4.10)
Para probar lo anterior se encuentra los valores medios de las variables

aleatorias X1 = X(t1 ) y X2 = X(t2 ). Para X1 :
Z
E[X1 ] = E[X(t1 )] =
x1 fX (x1 ; t1 )dx1
(4.11)
x1 fX (x1 ; t2 )dx1
(4.12)
Para X2 :
Z
E[X2 ] = E[X(t2 )] =
La variable x2 de integracion ha sido reemplazada por la variable alternativa x1 por conveniencia. Si se pone ahora t2 = t1 + en la ecuacion 4.12,
x1 fX (x1 ; t1 + )dx1 = E[X(t1 + )]
E[X2 ] = E[X(t2 )] =
x1 fX (x1 ; t1 )dx1 = E[X(t1 )] = E[X1 ]
Se concluye finalmente
E[X(t1 + )] = E[X(t1 )]
que debe ser constante porque t1 y son arbitrarios.
4.6. ESTACIONARIDAD DE SEGUNDO ORDEN Y DE SENTIDO AMPLIO121
4.6.
Estacionaridad de segundo orden y de

sentido amplio
Un proceso se llama estacionario a orden dos si su funcion de densidad

de segundo orden
fX (x1 , x2 ; t1 , t2 ) = fX (x1 , x2 ; t1 + , t2 + )
(4.13)
para todo t1 , t2 y . La formula anterior es una funcion de diferencias temporales t2 t1 y no del tiempo absoluto. Un proceso estacionario de segundo
orden es tambien estacionario de primer orden porque la funcion de densidad
de segundo orden determina la densidad de primer orden inferior.
La cantidad
RXX (t1 , t2 ) = E[X1 X2 ] = E[X(t1 )X(t2 )]
(4.14)
recibe el nombre de autocorrelaci

on de un proceso aleatorio X(t) y
sera en general una funcion de t1 y t2 . Una consecuencia de la ecuacion 4.13
es que la autocorrelacion de un proceso estacionario de segundo orden es una
funcion solamente de las diferencias temporales y no del tiempo absoluto; es
decir, si = t2 t1 , entonces
RXX (t1 , t1 + ) = E[X(t1 )X(t1 + )] = RXX ( )
(4.15)
Muchos problemas practicos requieren que se trate con la funcion de autocorrelacion y el valor medio de un proceso aleatorio. Las soluciones se
simplifican mucho si tales cantidades no dependieran del tiempo absoluto.
La estacionaridad de segundo orden es suficiente para garantizar estas caractersticas. Empero, es a menudo mas restrictivo que necesario y es deseable

122
una forma mas relajada de estacionaridad. La forma mas u

til es el proceso
estacionario en sentido amplio, definido como aquel en donde
E[X(t)] = X (constante)
E[X(t)X(t + )] = RXX ( )
(4.16)
(4.17)
Un proceso estacionario a orden 2 es claramente estacionario en sentido

amplio. No obstante, el recproco no es necesariamente cierto.
Ejemplo
Se demostrara que el proceso aleatorio
X(t) = A cos (0 t + )
es estacionario en sentido amplio si se supone que A y 0 son constantes y
es una variable aleatoria diistribuida uniformemente en el intervalo [0, 2].
El valor medio es
Z
E[X(t)] =
A cos(0 t + )
0
1
d
2
= 0
La funcion de autocorrelacion con t1 = t y t2 = t + se convierte en
RXX (t, t + ) = E [A cos(0 t + )A cos(0 t + 0 + )]

A2
=
E [cos(0 ) + cos(20 t + 0 + 2)]
2
A2
=
cos(0 )
2
La funcion de autocorrelacion depende solamente de y el valor medio
es una constante, por lo que X(t) es estacionario en sentido amplio.
4.7. ESTACIONARIDAD EN SENTIDO ESTRICTO Y A ORDEN N 123

Dos procesos aleatorios X(t), Y (t) son conjuntamente estacionarios en
sentido amplio si cada uno es estacionario en sentido amplio y su funcion de
correlacion cruzada (crosscorrelation)
RXY (t1 , t2 ) = E[X(t1 )Y (t2 )]
(4.18)
es una funcion solamente de la diferencia temporal = t2 t1 y no del tiempo

absoluto, es decir,
RXY (t, t + ) = E[X(t)Y (t + )]

= RXY ( )
4.7.
(4.19)
(4.20)
Estacionaridad en sentido estricto y a orden N
Un proceso aleatorio es estacionario a orden N si su funcion de densidad

de orden N es invariante ante un desplazamiento en el origen temporal; es
decir, si
fX (x1 , . . . , xN ; t1 , . . . , tN ) = fX (x1 , . . . , xN ; t1 + , . . . , tN + )
(4.21)
para todo t1 , . . . , tN y . La estacionaridad de orden N implica estacionaridad a todos los ordenes k 6 N . Un proceso estacionario a todo orden
N = 1, 2, . . . , es denominado estacionario en sentido estricto.
4.8.
Promedios en el tiempo y ergodicidad
El promedio temporal de una cantidad esta definida como
124
1
A [ ] = lm
T 2T
[ ] dt
(4.22)
El operador A se usa para denotar promedio temporal de una manera

analoga al operador E para el promedio estadstico. El promedio temporal se
toma sobre todo el tiempo, porque al ser aplicado sobre procesos aleatorios,
las funciones muestra de los procesos se supone que existen por todo tiempo.
Promedios especficos de interes son el valor medio x = A[x(t)] de una funcion muestra (una letra min
uscula se usa para denotar una funcion muestra) y
la funcion de autocorrelacion temporal, denotada RXX ( ) = A[x(t)x(t + )].
Estas funciones estan definidas por
x = A[x(t)]
Z T
1
x(t)dt
= lm
T 2T T
RXX ( ) = A[x(t)x(t + )]
Z T
1
= lm
x(t)x(t + )dt
T 2T T
(4.23)
(4.24)
(4.25)
(4.26)
Para cualesquiera funcion muestra del proceso X(t), estas dos u

ltimas
integrales simplemente producen dos n
umeros (para un valor fijo de ). Sin
embargo, cuando se consideran todas las funciones muestra, x y RXX ( ) son
realmente variables aleatorias. Tomando el valor esperado a ambos lados de
las definiciones, suponiendo que la operacion matematica de la esperanza
puede llevarse al interior de la integral y suponiendo que X(t) es un proceso
estacionario,
E[x] = X
E[RXX ( )] = RXX ( )

4.9. FUNCIONES DE CORRELACION
125
Si se supone que x y RXX ( ) tienen varianzas nulas, es decir, que son

constantes, se escribe entonces,
x = X
RXX ( ) = RXX ( )
Los promedios temporales x y RXX ( ) igualan a los promedios estadsticos. Los procesos para los que los promedios temporales igualan a los estadsticos se denominan ergodicos.
Ergodicidad es una forma muy restrictiva de estacionaridad y puede ser
difcil probar que constituye una suposicion razonable para cualquier situacion fsica. Sin embargo, se asumira que un proceso es ergodico a veces para
simplificar problemas.
Dos procesos aleatorios son llamados conjuntamente ergodicos si son individualmente ergodicos y tambien tienen una funcion de correlacion cruzada
temporal que iguala la funcion de correlacion cruzada estadstica:
1
RXY ( ) = lm
T 2T
4.9.
4.9.1.
x(t)y(t + )dt = RXY ( )
(4.27)
Funciones de correlaci
on
Funci
on de autocorrelaci
on y sus propiedades
La autocorrelacion de un proceso aleatorio X(t) es la correlacion E[X1 X2 ]

de dos variables aleatorias X1 = X(t1 ) y X2 = X(t2 ) definidas por el proceso
en tiempos t1 y t2 .
RXX (t1 , t2 ) = E[X(t1 )X(t2 )]
(4.28)

126
Con t1 = t y t2 = t1 +
RXX (t, t + ) = E[X(t)X(t + )]
(4.29)
Si X(t) es estacionario en sentido amplio, RXX (t, t + ) es funcion u

nicamente de la diferencia = t2 t1 . Para procesos estacionarios en sentido
amplio,
RXX ( ) = E[X(t)X(t + )]
(4.30)
Para tales procesos la funcion de autocorrelacion tiene las siguientes propiedades:

1. |RXX ( )| 6 RXX (0)
2. RXX ( ) = RXX ( )
3. RXX (0) = E[X 2 (t)]
La primera propiedad dice que RXX ( ) esta acotada por su valor en
el origen, mientras que la tercera establece que tal cota es igual al
valor cuadratico medio llamado la potencia del proceso. La segunda
propiedad indica que la autocorrelacion tiene simetra par.
4. Si E[X(t)] = X 6= 0 y X(t) es ergodico sin componentes periodicos
entonces
lm RXX ( ) = X
| |
5. Si X(t) tiene un componente periodico, entonces RXX ( ) tendra un

componente periodico con el mismo periodo.

127
6. Si X(t) es ergodico, con media cero y no tiene componente periodico,

entonces
lm RXX ( ) = 0
| |
7. RXX ( ) no puede tener una forma arbitraria. O en otras palabras, cualquier funcion arbitraria no puede ser una funcion de autocorrelacion.
Ejemplo
Para un proceso estacionario ergodico sin componentes periodicos,
RXX ( ) = 25 +
4
1 + 6 2
Encuentre el valor medio y la varianza del proceso.

De la cuarta propiedad anterior,
E[X(t)] = X =
25 = 5
Notese que tal propiedad solamente da la magnitud de X y no su signo.

La varianza esta dada por:
2
= E[X 2 (t)] [E[X(t)]]2
X
= RXX (0) 25
= 4
4.9.2.
Funci
on de correlaci
on cruzada y sus propiedades
La funcion de correlacion cruzada esta definida por

128
RXY (t, t + ) = E [X(t)Y (t + )]
(4.31)
Si X(t) y Y (t) son a lo menos conjuntamente estacionarios en sentido

amplio, RXY (t, t + ) sera independiente del tiempo absoluto:
RXY ( ) = E [X(t)Y (t + )]
(4.32)
Si RXY (t, t + ) = 0, entonces X(t) e Y (t) son procesos ortogonales. Si los

dos procesos son estadsticamente independientes, la funcion de correlacion
cruzada se convierte en:
RXY (t, t + ) = E[X(t)]E[Y (t + )]
(4.33)
Si ademas de ser independientes, X(t) e Y (t) son a lo menos estacionarios

en sentido amplio,
RXY ( ) = X Y
(4.34)
que es una constante.

Si los procesos son a lo menos estacionarios en el sentido amplio:
1. RXY ( ) = RY X ( )
2. |RXY ( )| 6
p
RXX (0)RY Y (0)
3. |RXY ( )| 6 21 [RXX (0) + RY Y (0)]

La segunda propiedad anterior se prueba expandiendo la desigualdad:
E[{Y (t + ) + X(t)}2 ] > 0

129
donde es un n
umero real. Las propiedades segunda y tercera constituyen
ambas cotas sobre la magnitud de RXY ( ), siendo la cota de la segunda
propiedad la mas ajustada puesto que la media geometrica de dos n
umeros
positivos no puede exceder su media aritmetica; es decir,
p
1
RXX (0)RY Y (0) 6 [RXX (0) + RY Y (0)]
2
Ejemplo
Sea dos procesos estocasticos X(t) y Y (t) definidos por:
X(t) = A cos(0 t) + Bsen(0 t)

Y (t) = B cos(0 t) Asen(0 t)
donde A y B son variables aleatorias y 0 es una constante. Se puede demostrar que X(t) es estacionario en sentido amplio si A y B no estan correlacionadas, son variables aleatorias de media cero con la misma varianza (pueden
tener diferentes funciones de densidad, empero). Con estos constre
nimientos
en A y B, Y (t) es tambien estacionario en sentido amplio. Se encontrara a
continuacion la correlacion cruzada RXY (t, t + ) y se demostrara que X(t)
e Y (t) son conjuntamente estacionarios en sentido amplio.
RXY (t, t + ) = E[X(t)Y (t + )]

= E AB cos(0 t) cos(0 t + 0 ) + B 2 sen(0 t) cos(0 t + 0 )

A2 cos(0 t)sen(0 t + 0 ) ABsen(0 t)sen(0 t + 0 )
= E[AB] cos(20 t + 0 ) + E[B 2 ]sen(0 t) cos(0 t + 0 )
E[A2 ] cos(0 t)sen(0 t + 0 )

130
Como A y B se supone que tienen media cero y que no estan correlacionadas, E[AB] = 0. Tambien, dado que A y B se supone que tienen igual
varianza, E[A2 ] = E[B 2 ] = 2 , con lo que se obtiene:
RXY (t, t + ) = 2 sen(0 ) = 2 sen(0 )
As, X(t) y Y (t) son conjuntamente estacionarios en sentido amplio porque RXY (t, t + ) depende solamente de y no del tiempo absoluto.
Las funciones de correlacion cruzada no son necesariamente funciones
pares de con el maximo en = 0, como es el caso con las funciones de
autocorrelacion.
4.9.3.
Funciones de covarianza
La funcion de autocovarianza de un proceso estocastico esta definida por:
CXX (t, t + ) = E [{X(t) E[X(t)]} {X(t + ) E[X(t + )}]
(4.35)
que puede ponerse tambien en la forma:

CXX (t, t + ) = RXX (t, t + ) E[X(t)]E[X(t + )]
(4.36)
La funcion de covarianza cruzada para dos procesos X(t) y Y (t) esta definida por:
CXY (t, t + ) = E [{X(t) E[X(t)]} {Y (t + ) E[Y (t + )]}]
(4.37)
o, alternativamente,
CXY (t, t + ) = RXY (t, t + ) E[X(t)]E[Y (t + )]
(4.38)
4.10. PROCESO ALEATORIO DE POISSON
131
Para procesos que son a lo menos conjuntamente estacionarios en sentido

amplio, las dos igualdades anteriores se reducen a:
CXX ( ) = RXX ( ) X
(4.39)
CXY ( ) = RXY ( ) X Y
(4.40)
La varianza de un proceso aleatorio esta dada por la autocovarianza con

= 0. Para un proceso estacionario en sentido amplio, la varianza no depende
del tiempo y esta dada por la ecuacion 4.39 con = 0:
2
X
= E[{X(t) E[X(t)]}2 ] = RXX (0) X
(4.41)
Para dos procesos aleatorios, si

CXY (t, t + ) = 0
(4.42)
entonces estan no-correlacionados. Esto significa que

RXY (t, t + ) = E[X(t)] E[Y (t + )]
(4.43)
Se concluye de la u
ltima igualdad, que procesos independientes son nocorrelacionados. El recproco no es cierto aunque s lo es para procesos conjuntamente gaussianos.
4.10.
Proceso aleatorio de Poisson
Se considerara un ejemplo importante de un proceso aleatorio discreto

conocido como el proceso de Poisson. Describe el n
umero de veces que alg
un
evento ha ocurrido como una funcion del tiempo, donde los eventos ocurren
en instantes al azar. El evento puede ser la llegada de un cliente a un banco
132
o caja de supermercado, la ocurrencia de la cada de un rayo dentro de un

area prescrita, la falla de un componente en un sistema, o la emision de un
electron desde la superficie de un material sensible a la luz (fotodetector).
En cada uno de estos ejemplos un evento ocurre en un instante al azar y el
proceso se reduce a contar el n
umero de tales ocurrencias con el tiempo. Por
esta razon, el proceso tambien se conoce como proceso contador de Poisson.
Para visualizar al proceso de Poisson, sea X(t) el n
umero de ocurrencias
del evento con el tiempo (el proceso); entonces X(t) consiste en funciones
de valores enteros no-decrecientes. Tales son sus funciones muestra. Por conveniencia, se toma X(t) = 0 en t = 0; para t > 0, X(t) es el n
umero de
ocurrencias en el intervalo [0, t]; para t < 0, X(t) es el negativo del n
umero de ocurrencias en el intervalo [t, 0]. En muchas situaciones solamente la
conducta del proceso para t > 0 es de interes, por lo que se supondra que
esta definido solamente para t > 0 (y es cero para t < 0).
Para definir el proceso de Poisson se requerira dos condiciones. La primera
es que un evento ocurra solamente a la vez. Esta condicion no previene que los
tiempos de ocurrencia de los eventos esten muy cerca unos de otros, solamente que no coincidan. Segundo, los tiempos de ocurrencia son estadsticamente
independientes de modo que el n
umero de ellos que ocurra en cualquier intervalo dado es independiente del n
umero en cualquier otro intervalo; esta
independencia es valida a pesar del n
umero de intervalos de interes. Una consecuencia de las dos condiciones es que el n
umero de ocurrencias de eventos
en cualquier intervalo finito de tiempo esta descrito por la distribucion de
Poisson donde la tasa promedio de ocurrencias se denota por .
4.10.1.
Funci
on de densidad probabilstica
La probabilidad de exactamente k ocurrencias sobre un intervalo [0, t] es
4.10. PROCESO ALEATORIO DE POISSON
133
(t)k et
k = 0, 1, 2, . . .
P [X(t) = k] =
k!
(4.44)
y la densidad de probabilidad del n

umero de ocurrencias es
fX (x) =
X
(t)k et
k!
k=0
(x k)
(4.45)
La media y la varianza de una variable aleatoria de Poisson son am2

bas iguales a t. El segundo momento se sabe que es E[X 2 (t)] = X
+
{E[X(t)]}2 = t + 2 t2 . Esto se usa para establecer ecuaciones u

tiles computando formalmente la media y el segundo momento:
Z
E[X(t)] =
x fX (x)dx =
4.10.2.
k!
k=0
k!
E[X (t)] =
X
(t)k et
X
k(t)k et
k=0
xfX (x)dx =
= t
X
k 2 (t)k et
k=0
(x k)dx
k!
= t[1 + t]
Densidad probabilstica conjunta
Para determinar la funcion de densidad probabilstica conjunta para el

proceso de Poisson en los tiempos 0 < t1 < t2 , primero observese que la
probabilidad de k1 ocurrencias de eventos sobre [0, t1 ] es:
P [X(t1 ) = k1 ] =
(t1 )k1 et1

k1 !
k1 = 0, 1, 2, . . .
(4.46)
Ahora, la probabilidad condicional de k2 ocurrencias sobre [0, t2 ] dado

que k1 eventos ocurran sobre [0, t1 ], es la probabilidad que k2 k1 eventos
ocurran sobre [t1 , t2 ] la cual es

134
P [X(t2 ) = k2 |X(t1 ) = k1 ] =
[(t2 t1 )]k2 k1 e(t2 t1 )

(k2 k1 )!
para k2 > k1 . La probabilidad conjunta de k2 ocurrencias al tiempo t2 y k1

ocurrencias al tiempo t1 es el producto de los dos u
ltimos resultados:
P (k1 , k2 ) = P [X(t2 ) = k2 |X(t1 ) = k1 ] P [X(t1 ) = k1 ]

(t1 )k1 [(t2 t1 )]k2 k1 et2
k2 > k1
=
k1 !(k2 k1 )!
(4.47)
La densidad conjunta es
fX (x1 , x2 ) =
P (k1 , k2 )(x1 k1 )(x2 k2 )
(4.48)
k1 =0 k2 =k1
para las variables aleatorias del proceso X(t1 ) = X1 y X(t2 ) = X2 .

Ejemplo
Tomese ahora el caso de tres variables aleatorias definidas en los tiempos
0 < t1 < t2 < t3 , para k1 6 k2 6 k3 ocurrencias a los tiempos respectivos. Se
tiene entonces:
P (k1 , k2 , k3 ) = P [X(t3 ) = k3 |X(t2 ) = k2 , X(t1 ) = k1 ]

P [X(t2 ) = k2 |X(t1 ) = k1 ] P [X(t1 ) = k1 ]
[(t3 t2 )]k3 k2 e(t3 t2 ) [(t2 t1 )]k2 k1 e(t2 t1 )
=
(k3 k2 )!
(k2 k1 )!
k1 t1
(t1 ) e
k1 !
k1
(t1 ) [(t2 t1 )]k2 k1 [(t3 t2 )]k3 k2 et3
=
k1 !(k2 k1 )!(k3 k2 )!
y

4.11. CARACTERISTICAS ESPECTRALES DE PROCESOS ESTOCASTICOS135
fX (x1 , x2 , x3 ) =
X
X
P (k1 , k2 , k3 )(x1 k1 )(x2 k2 )(x3 k3 )
k1 =0 k2 =k1 k3 =k2
4.11.
Caractersticas espectrales de procesos

estoc
asticos
4.11.1.
Espectro de densidad de potencia y sus propiedades
Para un proceso estocastico X(t), sea xT (t) aquella porcion de una funcion
muestra x(t) que existe entre T y T ; es decir,

x(t) T < t < T

0 fuera del intervalo
xT (t) =
(4.49)
En tanto T sea finito, se supone que xT (t) satisfara

T
|xT (t)|dt <

T
y tendra una transformada de Fourier que se denota XT (), dada por

Z
xT (t)e
XT () =
jt
x(t)ejt dt
dt =
(4.50)
La energa contenida en x(t) en el intervalo [T, T ] es

Z
x2T (t)dt
E(T ) =
x2 (t)dt
(4.51)
Como xT (t) es transformable por Fourier, su energa debe estar relacionada con XT () por el teorema de Parseval. As,
Z
E(T ) =
T
1
x (t)dt =
2
2
|XT ()|2 d
(4.52)

136
Si se divide ambas expresiones por 2T , se obtiene la potencia promedio

P (T ) en x(t) sobre el intervalo [T, T ]:
1
P (T ) =
2T
Se observa que
|XT ()|2
2T
1
x (t)dt =
2
2
|XT ()|2
d
2T
(4.53)
es un espectro de densidad de potencia porque de
la integracion sale la potencia. Empero, no es una funcion que sea u

tiil para
describir las propiedades espectrales de un proceso estocastico, por dos razones: (1) no representa la potencia de una funcion muestra completa (se podra
hacer T arbitrariamente grande para incluir toda la potencia en la funcion
muestra) y, (2) tal expresion es la potencia en una sola funcion muestra y
no representa al proceso. En otras palabras, P (T ) es realmente una variable
aleatoria con respecto al proceso aleatorio. Si se toma el valor esperado de la
funcion, se obtiene una potencia promedio PXX para el proceso aleatorio.
De la discusion anterior, es claro que se debe tomar el lmite T y el
valor esperado para obtener un espectro de densidad de potencia adecuado
para el proceso estocastico. Es importante que la operacion lmite se haga de
u
ltimo:
PXX
Z T
1
= lm
E[X 2 (t)]dt
T 2T T
Z
1
E[|XT ()|2 ]
=
lm
d
2 T
2T
(4.54)
(4.55)
Las dos ecuaciones anteriores establecen dos hechos importantes. El primer hecho es que la potencia promedio PXX de un proceso estocastico esta dada por el promedio temporal de su segundo momento:
PXX
1
= lm
T 2T
E[X 2 (t)]dt = A{E[X 2 (t)]}
(4.56)

Para un proceso que es a lo menos estacionario en sentido amplio E[X 2 (t)] =
X 2 , una constante, con lo que PXX = X 2 . El segundo hecho es que PXX puede obtenerse mediante una integracion en el dominio de la frecuencia. Si se
define el espectro de densidad de potencia para el proceso estocastico por
E[|XT ()|2 ]
T
2T
SXX () = lm
(4.57)
la integral aplicable es
PXX
1
=
2
SXX ()d
(4.58)
Ejemplo
Considere el proceso aleatorio
X(t) = A cos (0 t + )
donde A y 0 son constantes reales y es una variable aleatoria uniformemente distribuida en el intervalo [0, 2 ]. Se encontrara la potencia promedio
PXX en X(t). El valor cuadratico medio es:

138
E[X 2 (t)] = E[A2 cos2 (0 t + )]

2
A2
A
+
cos (20 t + 2)
= E
2
2
Z
A2 A2 2 2
=
+
cos (20 t + 2) d
2
2 0
2
2
A2
A
2 sen(20 t + 2)
=
+
2
2
2
0

A2 A2 sen(20 t + ) sen(20 t)
+
=
2
2
2

2
2
A 2sen(20 t)
A
+
=
2
2
2
2
A
A
=
sen(20 t)
2
Este proceso no es estacionario en sentido amplio, puesto que la funcion

anterior es dependiente del tiempo. El promedio temporal de la funcion anterior es:

A E[X 2 (t)] =
1
lm
T 2T
1
T 2T
1
T 2T
A2
=
2
=
PXX
lm
lm

A2 A2
sen(20 t) dt
2
T
(
2
T )
A cos(20 t)
A2
(2T ) +
20
T
2
2
A
1 A
2T +
[cos(20 T ) cos(20 T )]
2
2T 20
Z
Ejemplo
Reconsiderese el proceso del ejemplo anterior para encontrar SXX () y
potencia promedio PXX mediante el uso de las definiciones respectivas.

Primero se encuentra XT ():
A cos(0 t + )ejt dt
T
Z
Z
A j T j(0 )t
A j T j(0 +)t
=
e
dt + e
e
dt
e
2
2
T
T
sen[( 0 )T ]
sen[( + 0 )T ]
= AT ej
+ AT ej
( 0 )T
( + 0 )T
XT () =
Ahora se determina |XT ()|2 = XT ()XT () para luego hallar su valor

esperado:
XT ()XT ()
sen[( 0 )T ] sen[( + 0 )T ]
sen2 [( 0 )T ]
+ ej2
= (AT )
2
[( 0 )T ]
( 0 )T
( + 0 )T

2 #
sen[( + 0 )T ] sen[( 0 )T ]
sen[( + 0 )T ]
+ ej2
+
( + 0 )T
( 0 )T
( + 0 )T
(
2
sen[( 0 )T ]
sen[( 0 )T ] sen[( + 0 )T ]
= (AT )2
+ 2 cos(2)
[( 0 )T ]
( 0 )T
( + 0 )T

2 )
sen[( + 0 )T ]
+
[( + 0 )T ]
2
Como
2
cos(2)d
0
2
2 sen(2)
E[cos(2)] =
= 0
entonces

140
"
2 #
sen[(
+
)T
]
0
E[|XT ()|2 ] = (AT )2
+
( + 0 )T

E[|XT ()|2 ]
A2 T sen2 [( 0 )T ] T sen2 [( + 0 )T ]
=
+
2T
2
[( 0 )T ]2
[( + 0 )T ]2
sen[( 0 )T ]
( 0 )T
2
Como

2
T sen(T )
lm
= ()
T
T
entonces
SXX () =
A2
{( 0 ) + ( + 0 )}
2
con lo que
PXX
1
=
2
A2
=
2
A2
{( 0 ) + ( + 0 )} d
2
lo que concuerda con el resultado del ejemplo anterior.
4.11.2.
Propiedades del espectro de densidad de potencia
1. SXX () > 0
2. SXX () = SXX (), X(t) real.
3. SXX () es real.
4.
1
2
SXX ()d = A{E[X 2 (t)]}

5. SX X () = 2 SXX () donde X =
dX
dt
6. En esta propiedad, se establece que el espectro de densidad de potencia

y el promedio temporal de la autocorrelacion forman un par transformada de Fourier.
Z
1
SXX ()ej d = A[RXX (t, t + )]
(4.59)
2
Z
A[RXX (t, t + )]ej d (4.60)
SXX () =
Si X(t) es estacionario en sentido amplio, A[RXX (t, t + )] = RXX ( ),

con lo que el espectro de potencia y la autocorrelacion forman un par
transformado (ecuaciones de Wiener-Khinchin).
RXX ( )ej d
SXX () =
(4.61)
1
RXX ( ) =
2
SXX ()ej d
(4.62)
para un proceso estacionario en sentido amplio.
4.11.3.
Ancho de banda del espectro de densidad de

potencia
Suponga que X(t) es un proceso pasabajo, donde los componentes espectrales estan congregados cerca de = 0, y tienen magnitudes decrecientes
a frecuencias mas elevadas. Excepto por el hecho de que el area de SXX ()
no es necesariamente unidad, SXX () tiene caractersticas similares a una
funcion de densidad probabilstica (es no-negativa y real). De hecho, si se
divide SXX () por su area, se forma una nueva funcion con area unidad que
es analoga a una funcion de densidad.

142
Recuerdese que la desviacion estandar es una medida de la dispersion en

una funcion de densidad. La cantidad analoga para el espectro de potencia
normalizado es una medida de su dispersion, que se denomina ancho de banda
RMS, que se denota WRM S rad/s. Como SXX () es una funcion par para
un proceso real, su valor medio es cero y su desviacion estandar es la raz
cuadrada de su segundo momento. As, despues de la normalizacion, el ancho
de banda RMS es:
R
2
R
WRM
S =
2 SXX ()d
SXX ()d
(4.63)
Ejemplo
Encuentre WRM S para el espectro de potencia:
SXX () = h
1+
10
i2
2
10
(4.64)
donde el ancho de banda de 6 dB es 10 rad/s.

Con la ayuda de tablas de integrales
se puede llegar a los resultados:
x
a2
adx
a3 x
+
arctan
=
h
2 i2
2(a2 + x2 )
2
a
1 + xa
Z
x
a4 x
a3
x2 dx
=
+
arctan
h
2 i2
2(a2 + x2 )
2
a
1 + xa
Z
Se omite la constante de integracion por economa. Si se eval

ua las integrales definidas, queda entonces:
Z

= 50
SXX ()d = 50 arctan
10
Se puede consultar el libro: Dwight, H. B. Tables of Integrals and Other Mathematical

Data. Cuarta edici
on. New York: Macmillan, 1961.

2 SXX ()d = 5000 arctan
r
WRM S =

= 5000
10
5000
= 10 rad/s
50
Si bien WRM S y el ancho de banda de 6 dB de SXX () son iguales en

este caso, no lo son en general.
El concepto de WRM S puede extenderse a un proceso que tiene una forma pasabanda de espectro de potencia, es decir, sus componentes espectrales
significativos se congregan cerca de algunas frecuencias 0 y 0 . Si se supone que el proceso X(t) es real, SXX () sera real y tendra simetra par
alrededor de = 0. Con esta suposicion se define una frecuencia media 0 y
el correspondiente ancho de banda RMS por:
0
2
WRM
S
4.11.4.
R
SXX ()d
= R0
SXX ()d
R0
4 0 ( 0 )2 SXX ()d
R
=
SXX ()d
0
(4.65)
(4.66)
Relaci
on entre el espectro de potencia y la autocorrelaci
on
Se establecio anteriormente que la transformada de Fourier inversa del

espectro de densidad de potencia es el promedio temporal de la autocorrelacion:
1
2
SXX ()ej d = A [RXX (t, t + )]
Esta u
ltima expresion sera ahora probada a continuacion.
(4.67)

144
Si se usa la definicion de XT () en la ecuacion para el espectro de potencia, se tiene

Z T
Z T
1
jt1
jt2
SXX () = lm E
X(t1 )e dt1
X(t2 )e
dt2
T
2T T
T
Z T Z T
1
E[X(t1 )X(t2 )]ej(t2 t1 ) dt2 dt1
= lm
T 2T T T

Se usa X(t) en vez de x(t), para indicar que las operaciones realizadas
tienen lugar sobre el proceso en vez de una sola funcion muestra.
La esperanza matematica dentro del integrando es la autocorrelacion de
X(t):
E[X(t1 )X(t2 )] = RXX (t1 , t2 )
T < t1 , t2 < T
As,
1
SXX () = lm
T 2T
RXX (t1 , t2 )ej(t2 t1 ) dt1 dt2
Se hace ahora el cambio de variables t = t1 con lo que dt = dt1 y, =

t2 t1 = t2 t con lo que d = dt2 . Con esto,
Z
T t
RXX (t, t + )dtej d
SXX () = lm
T t
Si se toma el lmite con respecto a la integral de primero, esto permitira intercambiar el lmite y la integral para obtener:
Z
SXX () =
1
lm
T 2T

RXX (t, t + )dt ej d
La cantidad dentro de las llaves se reconoce como el promedio temporal

de la autocorrelacion del proceso:

1
A[RXX (t, t + )] = lm
T 2T
RXX (t, t + )dt

T
con lo que
Z
SXX () =
A[RXX (t, t + )]ej d
lo que muestra que SXX () y A[RXX (t, t + )] forman un par transformada

de Fourier: SXX () A[RXX (t, t + )]. Esta u
ltima expresion implica la que
se buscaba demostrar.
Cuando X(t) es a lo menos estacionario en sentido amplio, A[RXX (t, t +
)] = RXX ( ), por lo que se obtiene
SXX () =
RXX ( )ej d
(4.68)
Z
1
SXX ()ej d
RXX ( ) =
2
RXX ( ) SXX ()
(4.69)
(4.70)
Las dos pen

ultimas expresiones se llaman las ecuaciones de Wiener-Khinchin. Forman el enlace basico entre la descipcion en el dominio del tiempo
(funciones de correlacion) de procesos y su descripcion en el dominio de la
frecuencia (espectro de potencia).
Es claro que el conocimiento del espectro de potencia de un proceso permite recuperacion completa de la autocorrelacion cuando X(t) es a lo menos
estacionario en sentido amplio; para un proceso no-estacionario, solamente
el promedio temporal de la autocorrelacion es recuperable.
Ejemplo
Se encontrara el espectro de potencia para el proceso aleatorio X(t) con
la autocorrelacion

146

RXX ( ) =
A2
2

cos(0 )
Se tiene que

RXX ( ) =
A2
2

1
ej0 + ej0
2

ej0 + ej0
A2
4
F{RXX ( )} = SXX ()
A2
[2( 0 ) + 2( + 0 )]
=
4
A2
=
[( 0 ) + ( + 0 )]
2
=
4.11.5.
Espectro de densidad de potencia cruzada y sus

propiedades
Considerese un proceso estocastico real W (t) dado por la suma de dos

procesos reales X(t) y Y (t):
W (t) = X(t) + Y (t)
(4.71)
La autocorrelacion de W (t) es:
RW W (t, t + ) = E[W (t)W (t + )]

= E [(X(t) + Y (t)) (X(t + ) + Y (t + ))]
= RXX (t, t + ) + RY Y (t, t + ) + RXY (t, t + )
+ RY X (t, t + )
Si se toma el promedio temporal de ambos lados de la ecuacion y se
transforma por Fourier:

SW W () = SXX () + SY Y () + F{A[RXY (t, t + )]}

+ F{A[RY X (t, t + )]}
(4.72)
El lado izquierdo es el espectro de potencia de W (t). Los dos primeros

terminos de la derecha son los espectros de potencia de X(t) y Y (t). Los otros
dos terminos son espectros de densidad de potencia cruzada. Por definicion
se tiene que:
E[XT ()YT ()]
T
2T
SXY () = lm
(4.73)
As,
PXY
1
=
2
SXY ()d
(4.74)
El otro espectro de densidad de potencia cruzada sera entonces, por

definicion,
E[YT ()XT ()]

lm
T
2T
Z
1
=
SY X ()d
2
SY X () =
(4.75)
PY X
(4.76)
La potencia total cruzada PXY + PY X puede interpretarse como la potencia adicional dos procesos son capaces de generar, sobre y arriba de sus
potencias individuales, debido al hecho de que son correlacionados.
Propiedades del espectro de densidad de potencia cruzada
Algunas propiedades del espectro de potencia cruzada de procesos aleatorios reales X(t) y Y (t) se dan a continuacion.

148
1. SXY () = SY X () = SY X ()
2. Re[SXY ()] y Re[SY X ()] son funciones pares de .
3. Im[SXY ()] e Im[SY X ()] son funciones impares de .
4. SXY () = 0 y SY X () = 0 si X(t) e Y (t) son ortogonales.
5. Si X(t) e Y (t) son no-correlacionados y tienen medias constantes X e
Y,
SXY () = SY X () = 2X Y ()
6.
A[RXY (t, t + )] SXY ()
A[RY X (t, t + )] SY X ()
En la u
ltima propiedad, para el caso de procesos estacionarios conjuntamente en sentido amplio, las siguientes relaciones son especialmente u
tiles:
SXY () =
RXY ( ) =
1
2
RXY ( )ej d
SY X () =
S ()ej d RY X ( ) =
XY
1
2
RY X ( )ej d
SY X ()ej d
Ejemplo
Se tiene un espectro de potencia cruzado definido por

SXY () =
a+
0
(jb)
W
W < < W
|| > W
donde W > 0, a y b son constantes reales. Encuentrese la correlacion cruzada.
4.12. ALGUNAS DEFINICIONES DE RUIDO
149

Z W
1
jb j
RXY ( ) =
e d
a+
2 W
W
Z W
Z W
a
jb
j
=
e d +
ej d
2 W
2W W
"
(
#

W )
j W
jb
a e
1
j
+
=
e
2 j W
2W
j
(j )2 W

1
[(aW b)sen(W ) + bW cos(W )]
=
W 2
4.12.
Algunas definiciones de ruido
Una funcion muestra n(t) de un proceso aleatorio N (t) de ruido estacionario en sentido amplio, se llama ruido blanco si el espectro de densidad de
potencia de N (t) es una constante en todas las frecuencias. As, se define
SN N () =
N0
2
(4.77)
para ruido blanco, donde N0 es una constante positiva real. Por la transformacion inversa de Fourier, la autocorrelacion de N (t) es

RN N ( ) =
N0
2

( )
(4.78)
El ruido blanco deriva su nombre por analoga con la luz blanca, que
contiene todas las frecuencias de luz visible en su espectro.
El ruido blanco no es realizable puesto que posee potencia promedio infinita:
1
2
SN N ()d =

150
No obstante, un tipo de ruido real aproxima al ruido blanco. El ruido

termico generado por la agitacion termica de electrones en cualquier conductor electrico tiene un espectro de potencia que es constante hasta muy altas
frecuencias y luego disminuye.
Por ejemplo, una resistencia a temperatura T (en grados Kelvin) produce
un voltaje de ruido a traves de sus terminales en circuito abierto con un
espectro de potencia:
SN N () =
(N0 /2)(||/T )
e||/T 1
donde = 7,64(1012 ) Kelvin-segundos es una
(4.79)
constante. A una tempe-
ratura de T = 290 K (usualmente llamada temperatura ambiente si bien

corresponde a una temperatura de 17 C), tal funcion permanece arriba de
0,9(N0 /2) para frecuencias hasta de 1012 Hz, o 1000 GHz. As, el ruido termico tiene un espectro casi plano en aquellas frecuencias que son usadas en
sistemas de radio, microondas u ondas milimetricas.
El ruido que tiene un espectro de potencia constante y no nulo sobre
una banda de frecuencia finita y cero fuera de ella, se llama ruido blanco de
banda limitada. As, un ruido descrito por el siguiente espectro de potencia
constituye un ejemplo:

SN N () =
P
W
W < < W
|| > W
La transformacion inversa da la autocorrelacion correspondiente:

RN N ( ) = P
sen(W )
W
La constante P es la potencia del ruido.

2
Las unidades de SN N () son voltios cuadrados por hercio. De acuerdo a la convencion,

se obtiene watts/hertz suponiendo que el voltaje se da por una resistencia de 1 .
4.12. ALGUNAS DEFINICIONES DE RUIDO
151
El ruido blanco de banda limitada puede tambien ser pasabanda como el

descrito por el siguiente espectro de potencia y respectiva funcion de autocorrelacion:

SN N () =
P
W
0 (W/2) < || < 0 + (W/2)

fuera de la banda
RN N ( ) = P
sen(W /2)
cos(0 )
(W /2)
con 0 , W constantes y P la potencia en el ruido.

Por analoga con luz coloreada con solamente una porcion de las frecuencias de luz visible en su espectro, se define ruido coloreado como cualquier
ruido que no es blanco.
Ejemplo
Un proceso N (t) de ruido estacionario en sentido amplio tiene una autocorrelacion dada por:
RN N ( ) = P e3| |
donde P es una constante. Se encontrara su espectro de potencia.
P e3| | ej d
SN N () =
Z
= P
(3+j)
d + P
P
P
=
+
3 + j 3 j
6P
=
9 + 2
e(3j) d

152
4.13.
Respuesta de sistemas lineales a una

se
nal aleatoria
4.13.1.
Respuesta del sistema: convoluci

on
Aun cuando x(t) sea una se

nal aleatoria, la respuesta de cualquier red
electrica, denotada por y(t), esta dada por la integral de convolucion
Z
x()h(t )d =
y(t) =
h()x(t )d
(4.80)
donde h(t) es la respuesta al impulso de la red. Se esta suponiendo un sistema

lineal e invariante con el tiempo.
Se puede visualizar la ecuacion 4.80 como una operacion sobre un miembro x(t) del agregado del proceso estocastico X(t) que produce un miembro
del agregado de un nuevo proceso Y (t). Desde este punto de vista, se puede
decir que tal ecuacion define el proceso Y (t) en terminos del proceso X(t):
Z
h()X(t )d
Y (t) =
(4.81)
De esta forma, se puede decir que el sistema acepta al proceso aleatorio

X(t) como entrada y responde con el nuevo proceso Y (t).
4.13.2.
Valor medio y cuadr

atico medio de la respuesta
del sistema
Si se supone que X(t) es estacionario en sentido amplio, se tiene:

Z
h()X(t )d =
E[Y (t)] = E
h()E[X(t )]d
(4.82)
E[Y (t)] = X
h()d = Y (constante)
(4.83)

4.13. RESPUESTA DE SISTEMAS LINEALES A UNA SENAL
ALEATORIA153
Esta expresion indica que el valor medio de Y (t) iguala al valor medio
de X(t) veces el area bajo la curva de la respuesta al impulso si X(t) es
estacionario en sentido amplio.
Para el valor cuadratico medio de Y (t), se calcula
Z
h(1 )X(t 1 )d1

h(2 )X(t 2 )d2
E[Y (t)] = E
Z Z
E[X(t 1 )X(t 2 )]h(1 )h(2 )d1 d2 (4.84)
=
Si se supone 3 que la entrada es estacionaria en sentido amplio, entonces:

E[X(t 1 )X(t 2 )] = RXX (1 2 )
con lo que la ecuacion 4.84 se vuelve independiente de t:
Y 2 = E[Y 2 (t)]
Z Z
RXX (1 2 )h(1 )h(2 )d1 d2
=
(4.85)
(4.86)
Si bien esta expresion da la potencia en Y (t), es tedioso calcularla la

mayora de las veces.
3
Se supondr
a que las operaciones de integracion y de esperanza matematica son intercambiables cuandoquiera que se necesiten. Si
Z
t2
E[|W (t)|]|h(t)|dt <

t1
donde t1 , t2 son constantes reales que pueden ser infinitas, la operacion

Z
t2
E
t1
Z
W (t)h(t)dt =
t2
E[W (t)]h(t)dt
t1
es v
alida, donde W (t) es alguna funci
on acotada de un proceso aleatorio (sobre el intervalo
[t1 , t2 ]) y h(t) es una funci
on del tiempo no-aleatoria.

154
Ejemplo
Se encontrara Y 2 para un sistema con ruido blanco en su entrada. Aqu:
RXX (1 2 ) = (N0 /2)(1 2 )

donde N0 es una constante real positiva. Luego,
Y2 =
(N0 /2)(1 2 )h(1 )d1 h(2 )d2
= (N0 /2)
h2 (2 )d2
La potencia de salida se vuelve proporcional al area bajo el cuadrado de la

curva de h(t), en este ejemplo.
4.13.3.
Autocorrelaci
on de la respuesta
Sea X(t) estacionario en sentido amplio. La autocorrelacion de Y (t) es:
RY Y (t, t + ) = E[Y (t)Y (t + )]

Z

Z
h(1 )X(t 1 )d1
h(2 )X(t + 2 )d2
= E
Z Z
E[X(t 1 )X(t + 2 )]h(1 )h(2 )d1 d2
=
que se reduce a:
Z
RXX ( + 1 2 )h(1 )h(2 )d1 d2
RY Y ( ) =
(4.87)
pues X(t) se supone que es estacionario en sentido amplio. Se puede concluir

que:

ALEATORIA155
1. Y (t) es estacionario en sentido amplio si X(t) es estacionario en sentido
amplio porque RY Y ( ) no depende de t y E[Y (t)] es constante.
2. RY Y ( ) es la doble convolucion de la autocorrelacion de entrada con la
respuesta al impulso del sistema; es decir:
RY Y ( ) = RXX ( ) h( ) h( )
4.13.4.
(4.88)
Correlaci
on cruzada de entrada y salida
La correlacion cruzada de X(t) e Y (t) es
RXY (t, t + ) = E[X(t)Y (t + )]

Z
= E X(t)
h()X(t + )d
Z
=
E[X(t)X(t + )]h()d
Si X(t) es estacionario en sentido amplio,
RXX ( )h()d
RXY ( ) =
(4.89)
que es la convolucion de RXX ( ) con h( ):

RXY ( ) = RXX ( ) h( )
(4.90)
Un desarrollo similar muestra que:
RXX ( )h()d
RY X ( ) =
(4.91)
= RXX ( ) h( )
(4.92)

156
Es claro que la correlacion cruzada depende de y no del tiempo absoluto

t. Como consecuencia de este hecho, X(t) y Y (t) son conjuntamente estacionarios en sentido amplio si X(t) es estacionario en sentido amplio (esto se
concluye puesto que se demostro anteriormente que Y (t) es estacionario en
sentido amplio).
La autocorrelacion y la correlacion cruzada estan relacionados entre s:
RY Y ( ) =
RXY ( + 1 )h(1 )d1
(4.93)
= RXY ( )h( )
(4.94)
Igualmente,
RY X ( 2 )h(2 )d2
RY Y ( ) =
(4.95)
= RY X ( ) h( )
(4.96)
Ejemplo
Con los datos del ejemplo anterior, se encontrara las correlaciones cruzadas RXY ( ) y RY X ( ).
RXX ( )h()d
RXY ( ) =
Z
(N0 /2)( )h()d
= (N0 /2)h( )

ALEATORIA157
RXX ( )h()d
RY X ( ) =
Z
(N0 /2)( )h()d
= (N0 /2)h( )
= RXY ( )
4.13.5.
Caractersticas espectrales de la respuesta del

sistema
Puesto que la transformada de Fourier de una funcion de correlacion (autocorrelacion o correlacion cruzada) es un espectro de potencia para procesos
estacionarios en sentido amplio, pareciera que si RXX ( ) es conocida para el
proceso de entrada, se puede hallar RY Y ( ), RXY ( ) y RY X ( ) como se ha
descrito anteriormente, para luego obtener espectros de potencia por transformacion. Este enfoque es conceptualmente valido. Sin embargo, desde un
punto de vista practico las integrales involucradas pueden ser difciles de
evaluar.
Un enfoque alternativo se da donde el espectro de potencia deseado involucrando la respuesta del sistema, se relaciona con el espectro de potencia
de entrada. En cualquier caso, el proceso de entrada X(t) se supone que es
estacionario en sentido amplio, lo que implica, como se vio anteriormente,
que Y (t) y X(t) son estacionarios conjuntamente en sentido amplio.
Espectro de densidad de potencia de la respuesta
Escrbase SY Y () como la transformada de Fourier de la autocorrelacion
de salida

158
RY Y ( )ej d
SY Y () =
(4.97)
Si se sustituye ahora la integral para RY Y ( ),
SY Y () =
h(1 )
RXX ( + 1 2 )ej d d2 d1
h(2 )
Si se hace ahora el cambio de variable = + 1 2 , d = d , se tiene:
SY Y () =
j1
h(1 )e
j2
d1
h(2 )e
d2
RXX ()ej d
Las anteriores tres integrales se reconocen como H (), H() y SXX (),
respectivamente.
SY Y () = H ()H()SXX () = SXX ()|H()|2
(4.98)
|H()|2 se llama la funcion de transferencia de potencia del sistema.

La potencia promedio, denotada por PY Y , en la respuesta del sistema se
encuentra calculando:
PY Y
1
=
2
SXX ()|H()|2 d
(4.99)
Ejemplo
Un circuito electrico esta caracterizado por la siguiente funcion de transferencia:
H() =
1
1 + (jL/R)
Tiene como entrada un proceso estocastico X(t) tipo ruido blanco con un
espectro de potencia dado por:

ALEATORIA159
SXX () = N0 /2
Se pide calcular el espectro de potencia y la potencia promedio de la respuesta del circuito.
Si se hace uso de la informacion suministrada, se encuentra que:
1
1 + (L/R)2
SY Y () = SXX ()|H()|2
N0 /2
=
1 + (L/R)2
|H()|2 =
La potencia promedio en Y (t) es
PY Y
1
=
2
N0
SY Y ()d =
4
d
1 + (L/R)2
Si se usa el siguiente resultado:

Z
1
dx
=
arctan
a2 + b 2 x 2
ab
bx
a
se encuentra finalmente que:
PY Y =
4.13.6.
N0 R
4L
Espectros de densidad de potencia cruzada de

entrada y salida
Puede demostrarse que las transformadas de Fourier de las correlaciones

cruzadas pueden escribirse como:
160
SXY () = SXX ()H()
(4.100)
SY X () = SXX ()H()
(4.101)
Captulo 5
Cadenas de Markov
161
CAPITULO 5. CADENAS DE MARKOV
162
5.1.
Pre
ambulo
Las cadenas de Markov hallan uso en m

ultiples aplicaciones. Se estudiara los procesos de nacimiento y muerte como ejemplo de las cadenas de
Markov en tiempo continuo.
5.2.
Conceptos introductorios
Se estudio el proceso de Poisson en el que la variable aleatoria X(t) (contadora de eventos) iguala al n
umero de arribos en [0, t]. X(t) siempre se
incrementa con el tiempo: X(t) = X(s) para t = s. Hay situaciones en las
que el estado del sistema fluct
ua, arriba y abajo; una de las mas importantes
aplicaciones es la teora de colas, en donde el estado del sistema en el tiempo
t es la longitud de una lnea de espera de clientes.
Es importante revisar en este momento la teora concerniente a la distribucion exponencial. Si T es el tiempo de vida de un componente que esta exponencialmente distribuido con parametro , entonces T tiene densidad

fT (t) =
0 t<0
e
t>0
t
(5.1)
La media de T es el recproco del parametro : E(T ) = 1 .

La variable aleatoria T tiene la propiedad de envejecimiento o de falta
de memoria: las variables aleatorias exponencialmente distribuidas son las
u
nicas variables aleatorias continuas concentradas en [0, +[ que la tienen.
Esta propiedad establece que no importa lo viejo el componente es, este opera
como si fuera nuevo; matematicamente,
P (T > t + s|T > t) = P (T > s)
(5.2)
5.2. CONCEPTOS INTRODUCTORIOS
163
para tiempos t, s = 0. Tambien se tiene que

P (T > t) = et
(5.3)
para t = 0.
Dos hechos fundamentales derivados de la distribucion exponencial se van
a utilizar en el analisis del tema de las cadenas de Markov. A continuacion
se justificara cada uno de ellos.
5.2.1.
Primer hecho: densidad de la variable mnima

de un conjunto de variables aleatorias
Supongase que T1 , T2 , . . . , TN son variables aleatorias independientes, cada una distribuida exponencialmente pero posiblemente con diferentes parametros. Supongase que Ti tiene parametro i . Suponga N componentes que se
conectan al tiempo t = 0; Ti es el tiempo de vida del i -esimo componente. Sea
M el mnimo de todos los tiempos Ti s de los componentes. M es el tiempo
en que el primer componente falla. M es una variable aleatoria. Sea t = 0.
Entonces M = min{T1 , . . . , TN } es mas grande que t si y solo si todo Ti > t.
P (M > t) = P (min{T1 , T2 , . . . , TN } > t)

= P (T1 > t, T2 > t, . . . , TN > t)
= e1 t e2 t eN t
= e(1 +2 +...+N )t
(5.4)
De modo que M esta exponencialmente distribuida con parametro 1 +

2 + . . . + N y valor medio 1/(1 + 2 + . . . + N ).
Ejemplo
164
Suponga que una maquina necesita tres componentes, que deben operar
simultaneamente. Cada uno tiene un tiempo de vida exponencialmente distribuido con media 2 das. La maquina llega con tres componentes instalados
mas uno de repuesto. Cual es el tiempo esperado en que el repuesto necesitara ser instalado? Cual es el tiempo esperado en que la maquina parara
por falta de repuestos?
El tiempo de vida del equipo antes de la falla es el mnimo de tres variables
aleatorias exponencialmente distribuidas cada una con parametro 1/2. Por
lo tanto, el tiempo de vida del equipo esta exponencialmente ditribuido con
parametro 1/2 + 1/2 + 1/2 = 3/2 y media 2/3. Esto es el tiempo medio hasta
que el repuesto necesita ser instalado. Una vez que el repuesto es instalado,
debido a la propiedad de la falta de memoria, los dos originales operan como
nuevos. De modo que el tiempo hasta que uno de los tres termine su vida u
til
(los dos originales y el repuesto) es otra vez exponencialmente distribuido con
media 2/3. As, el tiempo de vida esperado de la maquina es 2 2/3 = 4/3
(2/3 para instalar el repuesto, mas 2/3 para que falle de nuevo).
5.2.2.
Segundo hecho: probabilidad de que un componente dado sea el que falle
Cual es la probabilidad de que cuando el primer fallo se de, sea el componente j -esimo? Se esta preguntando aqu por la probabilidad de que entre
los N Ti s, el mnimo sea Tj . Tal probabilidad esta dada por la expresion
P (Tj = min{T1 , T2 , . . . , TN }) =
j
1 + 2 + + N
(5.5)
A continuacion se probara esta expresion.

Supongase que T1 y T2 son independientes y distribuidos exponencialmente con parametros respectivos y . La funcion de densidad conjunta es el
5.2. CONCEPTOS INTRODUCTORIOS
165
producto
fT1 ,T2 (t1 , t2 ) = et1 et2
para t1 , t2 > 0. Con t1 y t2 correspondientes respectivamente a T1 y T2 , se
puede escribir:
P (T1 = min{T1 , T2 }) = P (T1 < T2 )

ZZ
=
fT1 ,T2 (t1 , t2 )dt1 dt2
Z Z t2
=
et1 et2 dt1 dt2
Z0 0
=
(1 et2 )et2 dt2
0
= 1
=
Lo anterior prueba la ecuacion 5.5 para N = 2. El caso general no involucra mas formulas: suponga que hay N variables aleatorias independientes
T1 , T2 , . . . , TN . Entonces M = min{T2 , . . . , TN } es una variable exponencialmente distribuida con parametro 2 + 3 + + N ; M es tambien independiente de T1 . Por consiguiente, por el resultado que se acaba de demostrar,
P (T1 = min{T1 , . . . , TN ) = P (T1 = min{T1 , M })

1
=
1 + 2 + + N
Si se usa un j arbitrario en vez de j = 1, la ecuacion 5.5 queda probada.
Ejemplo
166
Considere un sistema consistente en dos componentes; el primero tiene

tiempo de vida media de 2 meses, el segundo de 7 meses. Si operan independientemente y tienen sus vidas medias una distribucion exponencial, cual es
la probabilidad de que el segundo falle antes del primero?
T1 tiene parametro 1/2 y T2 tiene parametro 1/7. Se pregunta por la
probabilidad de que T2 < T1 , es decir, que T2 sea el mnimo de los dos.
P (T2 < T1 ) = P (T2 = min{T1 , T2 })

1/7
=
1/2 + 1/7
2
=
9
Ejemplo
Llamadas entrantes a un negocio forman una corriente Poisson. Supongase que las llamadas correctas llegan a una razon de 1.5 por minuto, pero
las llamadas equivocadas a una razon de 1 por media hora, en el promedio.
Cual es la probabilidad de que la primera llamada despues del medioda sea
un n
umero equivocado?
El tiempo T1 hasta el primer n
umero correcto esta exponencialmente distribuido con parametro 1.5. El tiempo T2 hasta el primer n
umero equivocado
esta tambien exponencialmente distribuido; el parametro es 1/30 en terminos
de minutos.
P ({primer llamada despues de medioda es n

umero equivocado}) =
P (T2 = min{T1 , T2 }) =
1/30
1
=
1,5 + 1/30
46
5.3. EL PROCESO DE NACIMIENTO Y MUERTE EN TIEMPO CONTINUO167
5.3.
El proceso de nacimiento y muerte en

tiempo continuo
Considerese una maquina que puede estar en cualquiera de varios estados

en cada instante de tiempo t = 0. El conjunto de estados posibles, el espacio
de estados S, sera siempre discreto. S se tomara como {0, 1, 2, . . . , N } si bien
S = {0, 1, 2, . . .} para algunos casos importantes. Al tiempo t, el estado de
la maquina es denotado por Xt .
Por ejemplo, Xt podra denotar el n
umero de animales en una poza para
beber. Aqu, la maquina consiste de la poza junto con los animales. El estado
de la maquina es el n
umero Xt de animales al tiempo t. As, Xt {0, 1, 2, . . .}
para cada t = 0. El arribo de un animal en tiempo t0 incrementara Xt por 1
en t0 ; la partida de un animal disminuira Xt .
El proceso estocastico {Xt }
ecord completo de los estados ocut=0 es un r
pados por la maquina para todos los tiempos t = 0. Estas son las dos suposiciones basicas de un proceso de nacimiento y muerte: la primera es si
al tiempo t la maquina esta en el estado i, permanece en ese estado por un
tiempo aleatorio que es exponencialmente distribuido con parametro i ; as,
el tiempo de espera promedio en el estado i es el recproco 1/i . i depende
del estado i, pero no depende de otras caractersticas; por ejemplo, i no
depende de si la maquina estaba en estado k o estado j. El estado i pudiera
ser absorbente: esto significa que una vez que la maquina entra al estado i,
permanecera siempre ah. Si esto u
ltimo es as, entonces i = 0; es decir, el
tiempo de espera promedio es 1/i = .
La segunda suposicion de un proceso de nacimiento y muerte es que cuando la maquina sale del estado i, cambia al estado i + 1 o al estado i 1, con
probabilidades que no dependen de que tan largo la maquina estuvo en el estado i o de otros detalles tales como el tiempo t o del estado de la maquina
168
antes de que cambiara al estado i. Sea
pi = P ({proximo estado es i + 1|
ultimo estado es i})
(5.6)
qi = 1 pi
= P ({proximo estado es i 1|
ultimo estado es i})
(5.7)
La segunda suposicion mencionada siignifica que pi y qi dependen solamente del estado i y no de otros detalles del proceso.
Las dos suposiciones constituyen una generalizacion de la propiedad de
la falta de memoria. Dado el presente estado Xt del sistema al tiempo t,
los estados futuros de la maquina no dependen de los estados pasados. En
particular, si el estado al tiempo t es Xt = i, entonces es completamente
irrelevante si ha estado en el estado i por varios a
nos o si acaba de cambiar
al estado i, para predecir cuando se mudara del estado i. Esto se da puesto
que los tiempos gastados en cada estado estan exponencialmente distribuidos. Dado que la distribucion exponencial sigue la propiedad de la falta de
memoria, la maquina se comporta como si acabara de moverse al estado i
a pesar de que tan largo hubiera realmente ocupado el estado i. La distribucion exponencial es la u
nica distribucion continua concentrada en [0, [
para los tiempos de espera que tiene esta propiedad. La suposicion de que
dado el estado presente, el futuro del proceso es independiente del pasado es
denominada la suposicion de Markov.
Notese que si i = 0 para el estado i, entonces los valores de pi , qi son
innecesarios de especificar dado que la maquina no puede cambiar del estado
i una vez en el.
En resumen, un proceso de nacimiento y muerte en tiempo continuo consiste de una maquina que puede cambiar entre estados en un espacio de
5.3. EL PROCESO DE NACIMIENTO Y MUERTE EN TIEMPO CONTINUO169

estados S. Xt denota el estado ocupado al tiempo t para t = 0. La maquina
permanece en el estado i por un periodo de tiempo (el tiempo de espera o
permanencia) que es exponencialmente distribuido con parametro i (tiempo
de espera promedio 1/i ). Cuando la maquina cambia, cambia a los estados
i + 1, i 1 con probabilidades respectivas pi , qi = 1 pi .
Ejemplo
El ejemplo mas simple de un proceso de nacimiento y muerte en tiempo continuo es de hecho definido por la distribucion exponencial. Supongase
que T denota el tiempo de vida de un componente que es exponencialmente
distribuido con parametro . Sea S = {0, 1}. El estado de la maquina es 1
en tanto el componente sea operacional. Una vez que el componente falla, la
maquina pasa al estado 0, para permanecer ah siempre. De esta forma,
0 = 0 1 = p1 = 0 q1 = 1
El estado 0 es absorbente. Notese que p1 debe ser cero; de otra forma,
habra una probabilidad positiva de cambiar al estado 2.
Ejemplo
El proceso de Poisson puede verse como un ejemplo de un proceso de
nacimiento y muerte. Sea Xt el n
umero de arribos en el intervalo [0, t]. Recordando que Xt es distribuida de acuerdo a Poisson con parametro t y que
los intervalos entre arribos estan distribuidos exponencialmente con el mismo
parametro ,
(t)i t
e
i!
P ({tiempo entre arribos > s}) = es
P (Xt = i) =
La maquina esta en estado i en el tiempo t si Xt = i (si han llegado i
170
llamadas en [0, t]). Tan pronto como otra llamada llegue, la maquina cambia
al estado i + 1. As, el tiempo de espera en el estado i es el tiempo entre
arribos, entre el arribo i-esimo y el (i + 1)-esimo; este esta exponencialmente
distribuido con parametro . Por lo tanto,
i = pi = 1 qi = 0
para todo i en el espacio de estados S = {0, 1, 2, . . .}. Este es un proceso
de nacimiento puro dado que la maquina nunca puede moverse hacia abajo:
pi = 1 para todo i.
Ejemplo: El dispositivo de dos estados
La maquina esta encendida o es operacional por un tiempo que esta exponencialmente distribuido con parametro (tiempo de vida media 1/) y
apagada o detenida por un tiempo que esta exponencialmente distribuido
con parametro (tiempo de reparacion medio igual a 1/). Por ejemplo,
la maquina necesita un componente que tiene un tiempo de vida exponencialmente distribuido; una vez que se acaba, el tiempo de reparacion es el
tiempo requerido para instalar un nuevo componente. El espacio de estados
es S = {0, 1} con 0, 1 correspondientes a apagado, encendido. Entonces,
0 = p0 = 1 q0 = 0
1 = p1 = 0 q1 = 1
5.4.
Colas
Colas son una subclase muy importante de procesos de nacimiento y

muerte. La maquina consiste de clientes y servidores (eg.: carros que llegan
a casetillas de peaje, clientes en una caja de supermercado, ni
nos que hacen
fila para juegos de video, aviones que sobrevuelan un aeropuerto esperando
5.4. COLAS
171
aterrizar). Puede haber uno o mas servidores. Clientes arriban de acuerdo a

una corriente Poisson con parametro . clientes arriban, en el promedio,
por unidad de tiempo. Los tiempos de servicio son aleatorios, pero se supone
que estan exponencialmente distribuidos con parametro . El tiempo medio
de servicio es 1/. Xt es la longitud de la cola en el tiempo t; es el n
umero
de clientes incluyendo a aquel (o aquellos si hay mas de un servidor) que son
servidos en el tiempo t. Entonces el proceso estocastico {Xt }
t=0 es un proceso
de nacimiento y muerte. Tanto la corriente de llegada de clientes as como la
corriente de salida de clientes que han sido servidos obedecen la propiedad
de la carencia de memoria. Si alg
un otro cliente se une a la cola, es un hecho
que es independiente del n
umero de clientes en fila u otros detalles pasados
acerca de la cola; dado que los tiempos de servicio son exponencialmente distribuidos, el hecho de que un cliente termine de ser servido en cierto periodo
de tiempo es independiente de detalles de la historia de la cola, incluyendo
lo largo que el cliente ha recibido servicio.
Ejemplo: La cola de un servidor
Supongase que hay una cajera en el supermercado y que los clientes que
arriban forman una corriente de Poisson con parametro y el tiempo de
servicio esta exponencialmente distribuido con parametro . El estado Xt en
el tiempo t es la longitud de la cola. As, S = {0, 1, 2, . . .}. Un movimiento
de 0 a 1 cliente ocurre en un tiempo aleatorio exponencialmente distribuido
con parametro . De esta forma,
0 = p0 = 1
Si el estado al tiempo t es Xt = i = 1, un movimiento a un estado i 1
o i + 1 puede ocurrir. Sea T el tiempo de arribo del proximo cliente y S sea el
tiempo de servicio del cliente que es servido en el instante presente. Entonces
172
T y S son independientes y cada uno esta exponencialmente distribuido con

los respectivos parametros y . Un movimiento ocurre fuera del estado i en
un tiempo igual al min{T, S}. La variable aleatoria min{T, S} esta exponencialmente distribuida con parametro + . Un movimiento ocurre al estado
i + 1 si T = min{T, S}; esto ocurre con una probabilidad igual a /( + ).
Similarmente, el movimiento hacia (i 1) clientes ocurre si S = min{T, S},
lo que se da con una probabilidad /( + ). Para resumir, para la cola de
un servidor y para i = 1,
0 =
p0 = 1
i = + pi = +
qi =
Ejemplo: La cola con infinito n

umero de servidores
Supongase ahora que los clientes llegan de acuerdo a una corriente de
Poisson con parametro como en el ejemplo anterior, pero esta vez cada cliente recibe servicio instantaneo, si bien el tiempo de servicio es a
un
exponencialmente distribuido con parametro . Hay un infinito n
umero de
cajeras en el supermercado. Mas realsticamente, los clientes se sirven solos; por ejemplo, paseantes que llegan a un parque p
ublico tipo La Sabana,
a la razon de por hora; permanecen una duracion aleatoria de tiempo y
luego se van. Como en la cola de un servidor, 0 = . Si hay i clientes
en el tiempo t, cada uno esta recibiendo servicio. Sea sus respectivos tiempos de servicio S1 , S2 , . . . , Si . Sea T el tiempo de arribo del proximo cliente.
Entonces un movimiento fuera del estado i ocurre en un tiempo igual al
min{S1 , S2 , . . . , Si , T }. Dado que cada Sj esta exponencialmente distribuido con parametro y T esta exponencialmente distribuido con parametro
, el tiempo para moverse del estado i esta exponencialmente distribuido con
parametro igual a la suma + + + = i + . El movimiento sera a i + 1
clientes si T = min{S1 , S2 , . . . , Si , T }. La probabilidad de esto es /(i + ).
5.4. COLAS
173
El movimiento sera para i 1 clientes si cualquiera de los i clientes termina

de ser servido. La probabilidad de que el cliente j-esimo termine antes de los
otros y tambien antes de un arribo es /(i + ). Cualquiera de los i-clientes
podra finalizar para que el movimiento fuera hacia (i 1) clientes. As, la
probabilidad de un movimiento a (i 1) es i/(i + ) (esto u
ltimo tambien
puede obtenerse como 1 /(i + )).
Para la cola con infinito n
umero de servidores y para i = 1
0 =
p0 = 1
qi =
i = i + pi = i+
i
i+
Ejemplo
Una oficina de negocios tiene un telefono con un boton de retencion.
Suponga que las llamadas entrantes forman una corriente de Poisson con
parametro . Tambien suponga que cada llamada toma un tiempo exponencialmente distribuido con un promedio de 1/ minutos. Si una llamada llega
durante un tiempo en que el telefono esta ocupado, es colocada en retencion.
Si otra llamada llega, recibe un tono de ocupado y debe colgar. Sea el estado
del sistema el n
umero de llamadas que reciben servicio o estan retenidas.
Cuales son los parametros i y las probabilidades de transicion pi , qi ?
El espacio de estados es S = {0, 1, 2}. Cambio del estado 0 al estado 1
ocurre con la llegada de una llamada. De esta forma,
0 = p0 = 1
Si el estado es 2, un movimiento ocurre al estado 1 tan pronto como la
llamada que es servida termina. De esta forma,
2 = q 2 = 1
174
Si el estado es 1, un movimiento ocurre si, ya sea una llamada llega

(exponencialmente distribuida con parametro , o si la llamada que es servida
termina (exponencialmente distribuida con parametro ).
1 = + p1 =
q1 =
+
+
Ejemplo: Continuaci
on del anterior
Supongase que la oficina tiene dos telefonos ninguno de los cuales tiene un
boton de retencion. Si una llamada llega mientras un telefono esta ocupado,
la llamada es respondida por el otro telefono. El estado es el n
umero de
telefonos ocupados en el momento. Ahora, cuales son los parametros i y
las probabilidades de transicion pi , qi ?
0 , p0 , 1 , p1 y q1 son los mismos como en el ejemplo previo. Si el estado es 2, ambas lneas estan ocupadas. Hay un cambio al estado 1 con la
finalizacion de una de las dos llamadas. Este tiempo es el mnimo de los
dos tiempos de servicio. Dado que cada uno esta exponencialmente distribuido con parametro , esto implica que el mnimo esta exponencialmente
distribuido con parametro + = 2. De esta manera,
2 = 2 q2 = 1
Es posible definir un procedimiento general para los problemas de colas
de la siguiente manera.
Primero, representese el tiempo de espera en el estado i como min{S, T, . . .}
donde S, T, U, . . . son independientes, cada uno distribuido exponencialmente
(tales variables son ya sea tiempos de arribo o tiempos de servicio). Entonces:
i : suma de todos los parametros
pi : suma de los parametros de tiempo de arribo divididos por i
5.4. COLAS
175
qi : suma de los parametros de tiempo de servicio divididos por i

Ejemplo: La cola de dos servidores
Los arribos forman una corriente Poisson con parametro . Hay una cola
formada, pero dos servidores. Cada tiempo de servicio esta exponencialmente distribuido con parametro . Cuando un cliente completa el servicio, un
cliente de la fila empieza a ser servido y la cola decrece de tama
no por una
unidad. Cuales son S, i , pi , qi ?
S es el n
umero de clientes en fila o recibiendo servicio. De esta forma,
S = {0, 1, 2, . . .}. Sea i 2.. Entonces ambos servidores estan ocupados y
el tiempo de espera en el estado i es min{S1 , S2 , T }, donde S1 , S2 son los
respectivos tiempos de servicio para los servidores 1, 2; T es el tiempo de
arribo para un nuevo cliente. S1 , S2 , T son exponencialmente distribuidos con
parametros , , . Por el procedimiento mencionado arriba y para i 2,
i = 2 + pi =
2
qi =
2 +
2 +
Si i = 1, el tiempo de espera en el estado i = 1 es min{S, T } donde S es

el tiempo de servicio del cliente que es servido. As,
1 = + p1 =
q1 =
+
+
Finalmente, el tiempo de espera en el estado 0 es el tiempo T de arribo;

de esta forma,
0 = p0 = 1
Hay que enfatizar que en una cola solamente un cambio ocurre a la vez.
Por ejemplo, en la cola con infinito n
umero de servidores, si hay 100 clientes
176
al presente recibiendo servicio, un desplazamiento a 101 clientes o a 99 clientes solamente ocurre uno a la vez. Para visualizar esto, sea S1 , , S100 los
tiempos de servicio respectivos de los clientes y sea T el tiempo de arribo del
proximo cliente. Dado que cada Sj y T estan exponencialmente distribuidos,
ellos son variables aleatorias continuas. La probabilidad de que cualesquiera
dos de ellas tengan el mismo valor es cero. Pero esto debera ser el caso para
que ocurra mas de un movimiento al mismo tiempo. En una cola, solamente
un movimiento o cambio de estado ocurre a la vez.
5.5.
El vector de probabilidad de estado estable
Despues de que el proceso de nacimiento y muerte evoluciona por alg

un
tiempo, se llega a la estabilidad. Esto significa que el estado del proceso se
vuelve menos y menos dependiente de su estado inicial X0 en el tiempo 0. El
proceso seguira cambiando estados pero habra una probabilidad bien definida
i con la que el proceso estara en el estado i.
Se supondra que el espacio de estados S es o el conjunto finito S =
{0, 1, 2, . . . , N } o el conjunto enumerablemente infinito S = {0, 1, 2, . . .}. En
tiempo 0, el proceso de nacimiento y muerte empieza en un cierto estado X0 .
X0 puede estar completamente determinado o puede conocerse solamente
hasta algunas probabilidades. Sea i = P (X0 = i) para todo i S. Si X0 se
sabe que es alg
un estado especfico k, entonces k = 1 y i = 0 para todo
i 6= k.
Un vector de probabilidad = (0 , 1 , 2 , . . .) en el espacio de estados S
satisface las siguientes dos condiciones:
1. 0 i 1 para todo i S
5.5. EL VECTOR DE PROBABILIDAD DE ESTADO ESTABLE

2.
iS
177
i = 1
La segunda condicion debe ser valida para un vector de probabilidad

inicial con i = P (X0 = i) dado que el proceso debe comenzar en alg
un
estado en el tiempo 0.
Matematicamente, el estado estable significa que: no importando el vector
de probabilidad inicial en tiempo 0,
P (Xt = i|vector inicial ) i
conforme t para cada estado i. Esto significa que el proceso se estabiliza en los diferentes estados con probabilidades dadas por el vector
= (0 , 1 , . . . , N ). El significado del vector de probabilidad de estado
estable se puede apreciar mediante el siguiente ejemplo: durante los primeros
minutos despues de abierta la pulpera, el hecho de que las cajas registradoras
esten vacas a las 6:00 es importante para predecir el n
umero de clientes en
fila, pero conforme el da avanza, este hecho tiene menos y menos influencia
sobre la cantidad de clientes en fila. Intuitivamente, uno espera una cierta
probabilidad i de i clientes para instantes tarde en el da no obstante el
n
umero en fila al comienzo.
En general, es un vector de probabilidades que especifica que tan probable
el proceso permanecera en los diversos estados cuando todas las particularidades del vector de probabilidad inicial en el tiempo 0 han sido ocultadas
por los efectos de la aleatoriedad conforme el proceso evoluciona en el tiempo.
Hay de hecho procesos de nacimiento y muerte que no tienen o alcanzan un estado estable de probabilidades. Pero supongase que existe y se
encontrara formulas que debe satisfacer.
El tiempo de espera o de permanencia en el estado i esta exponencialmente distribuido con parametro i . Sea fi (t) = i ei t para t > 0, la densidad
178
para este tiempo de espera. Por lo tanto, el proceso se movera del estado i
en un intervalo de tiempo de longitud t con probabilidad
P (moverse de i en [t, t + t]|en estado i al tiempo t) =

P (moverse de i en [0, t]|en estado i al tiempo 0) =
Z t
fi (t)dt =
0
1 ei t

=
2
(i t)
1 1 i t +
+
'
2!
i t
para un peque
no t. La primera igualdad usa la propiedad de carencia de
memoria de la distribucion exponencial. La tercera igualdad es una integracion directa. La pen
ultima igualdad usa la expansion en series de Taylor de la
funcion exponencial. La probabilidad de que el proceso se movera del estado
i durante el proximo t es aproximadamente i t para t ' 0.
Supongase que hay un n
umero grande de procesos cada uno moviendose
entre estados de acuerdo a los mismos parametros i y probabilidades de
transicion pi , qi para i S. Supongase que ni de estos procesos estan en el
estado i. Entonces aproximadamente ni i t se moveran del estado i durante
el proximo t. Hacia donde se moveran? Una fraccion pi se movera al estado
i + 1 y otra fraccion qi a i 1. De esta forma, el aproximado n
umero de
procesos que se mueven del estado i al estado i 1 en el tiempo t durante el
proximo t es ni i tqi . En estado estable, este n
umero debe ser balanceado
por un n
umero equivalente de procesos moviendose del estado i 1 al estado
i. Esto debe ser el caso, dado que de otra forma un sinn
umero de procesos
se acumularan de un lado o del otro del estado i. Por razones similares, el
n
umero de procesos moviendose del estado i 1 al i durante el proximo t
179
es ni1 i1 tpi1 . En el estado estable entonces,

ni i tqi ' ni1 i1 tpi1
umero grande n de procesos. La probabilidad de
que uno de ellos este en el estado i es ni /n = i . Dividiendo la ecuacion
anterior por n y cancelando t implica que las probabilidades i de estado
estable satisfacen, para i = 1, 2, . . .
i i qi = i1 i1 pi1
(5.8)
Ejemplo
Considere el dispositivo de dos estados de un ejemplo anterior. Para i = 1,
la ecuacion 5.8 se escribe como:
1 1 q1 = 0 0 p0
1 = 0
Esta es una ecuacion con dos incognitas, 0 y 1 . La otra ecuacion es la
normalizacion que debe ser satisfecha por cualquier vector de probabilidad.
1 = 0 + 1 = 0 (1 + /)
De esta forma finalmente,
0 = /( + )
1 = /( + )
Se puede seguir un procedimiento general para resolver problemas relacionados con el vector de probabilidad de estado estable: suponga que el
180
espacio de estados es S = {0, 1, . . . , N } o S = {0, 1, 2, . . .}. Suponga ademas

que ning
un estado es absorbente y que es posible alcanzar cualquier estado
desde otro estado; es decir, suponga que:
p0 = 1, 0 < pi < 1 para i S, i > 0
qN = 1 si S = {0, . . . , N }
i > 0 para i S
Se usa la formula recursiva:
i1 pi1
i1
(5.9)
i qi
para i = 1, 2, . . . para expresar cada i en terminos de 0 . Entonces se usa la
i =
normalizacion
X
i = 1
(5.10)
Ejemplo
Encuentre las probabilidades de estado estable 0 , 1 , 2 para el telefono
con un boton de retencion de un ejemplo anterior. Encuentre el n
umero esperado de personas en la lnea o en espera en estado estable.
Si se usa la formula recursiva con los valores de los parametros i y las
probabilidades de transicion pi , qi para i = 0, 1, 2 se obtiene:
1 =
0 p0
1
0 =
0 = 0
1 q1
( + )/( + )
1 p1
( + )/( + )
2 =
1 =
1 = 1 =
2 q2
1
2
181
Se usa a continuacion normalizacion:
1+ +
1 = 0 + 1 + 2 = 0
2 !
2 + + 2
= 0
Por consiguiente:
2
2
1 =
2 =
0 =
C
C
C
donde C = (2 + + 2 ). Hay i personas con probabilidad i en estado
estable. As, el n
umero esperado de personas en espera en estado estable es:
0 0 + 1 1 + 2 2 =
+ 22
C
Ejemplo
Encuentre el vector de probabilidad de estado estable para la cola de un
servidor.
Usando los valores de i , pi , qi de tal ejemplo,
i1 pi1 = i qi =
para todo i 1. De esta forma,
i =
i1 pi1
i1 = i1
i qi
con lo que
i = i1 =
2
i
i2 = =
0
para i = 0, 1, 2, . . .. La normalizacion implica que
1=
X
i=0
i = 0
i
X
i=0
"
= 0
1
1
182
para
< 1. Si
1, la condicion de normalizacion no se satisface. Esto
significa que no hay vector de probabilidad de estado estable dado que la cola
tiende a hacerse mas y mas grande sin alcanzar tal estado. Es posible que en
este u
ltimo caso, la cola se vuelva mas y mas larga pero no necesariamente en
forma uniforme; podra haber periodos en los que la cola se haga mas peque
na
pero eventualmente la cola se volvera mas larga que cualquier longitud preespecificada. Para que exista un estado estable, la tasa de partidas debe ser
mayor que la de llegadas .
Ejemplo
Para la cola de un servidor con < , encuentre la longitud esperada de
la cola en estado estable.
En el estado estable, la longitud L de la cola es i con probabilidad i para
i = 0, 1, 2, . . .. Notese que la variable aleatoria X = L + 1 esta geometricamente distribuida. Para j 1,
P (X = j) = P (L = j 1) = j1 = (1 q)q j1
donde q = /. De esta forma
E[X] =
j(1 q)q j1 =
j=0
1
jq j1
j=0
jq j =
j=0
Se est
a usando el resultado
jxj1 =
j=0
1
(1 x)2
para 1 < x < 1. Tambien se usa la ecuacion
X
j=0
para 1 < x < 1.
jxj =
x
(1 x)2
1
q
1
=
(1 q)2 (1 q)2
1q
E[X] =
183
E[L] = E[X 1] = E[X] 1 =
La longitud esperada de la cola de un servidor para < es /( ).

Ejemplo
Encuentre el vector de probabilidad de estado estable para la cola con
infinito n
umero de servidores.
Si se usa los valores de i , pi , qi de tal ejemplo,
i1 pi1 =
i qi =
((i 1) + )
=
(i 1) +
(i + )i
= i
i +
Por consiguiente,
i =
i1 pi1
i1 = i1
i qi
i
para i = 1, 2, . . .. Si se usa esta u

ltima relacion de manera recursiva,
i1
i
=
i2
i (i 1)
..
.
i
1
=
0
i!
i =
Si se usa normalizacion,
184
1=
i = 0
i=0
/
Por lo tanto, 0 = e
X
(/)i
i=0
i!
= 0 e/
. En conclusion, para la cola con infinito n

umero
de servidores, las probabilidades de estado estable son:

i =
(/)i /
e
i!
para i = 0, 1, 2, . . ..
Las probabilidades en estado estable para la cola con infinito n
umero de
servidores estan distribuidas de acuerdo a Poisson con parametro /. Consecuentemente, la longitud esperada de la cola con infinito n
umero de servidores es /. En este ejemplo, el estado estable siempre existe; esto tiene
sentido porque hay un infinito n
umero de servidores.
Ejemplo
Para la cola con infinito n
umero de servidores con tasa de arribo y
tiempo medio de servicio 1/, encuentre el n
umero N mas peque
no de modo
que 90 % del tiempo habra N o menos clientes en el estado estable.
En el estado estable la probabilidad de i clientes es:
(/)i /
e
i!
N es el entero mas peque
no que satisface
i =
0 + 1 + + N 0,90
N
X
(/)i
0,90e/
i!
i=0
Notese que el valor de N depende solamente de la razon /. Se muestra
el Cuadro 5.1 con valores de / contra N . El resultado es interesante: el
185
n
umero esperado de clientes para la cola con infinito n
umero de servidores es
/, pero solamente un poco mas que este n
umero de clientes estara presente
10 % del tiempo.
/
0.5
1
5
10
20
50
100
N
1
2
8
14
26
59
113
Cuadro 5.1: N
umero N mas peque
no para que el 90 % del tiempo haya N o
menos clientes en el estado estable.
El siguiente teorema muestra el significado del vector de estado estable.
Teorema del lmite Suponga que
1. p0 = 1
2. 0 < pi < 1 para i = 1, 2, . . .
3. qN = 1 si S = {0, 1, 2, . . . , N }
4. i > 0 para i S
para el proceso de nacimiento y muerte. Suponga que es un vector de
probabilidad que satisface

i =
para i = 1, 2, . . .. Entonces:
i1 pi1
i qi

i1
186
1. Dado cualquier vector de probabilidad inicial ,
P (Xt = i|vector inicial ) i

cuando t para cada i S.
2. Si el vector de probabilidad inicial es = , entonces
P (Xt = i|vector inicial ) = i

para todo t 0 para i S.
El primer resultado del teorema establece que no obstante el estado inicial
en el tiempo t = 0, el proceso se hallara en el estado i con probabilidad i
conforme t se hace grande. El segundo resultado establece que si se usa como el vector inicial de probabilidad, entonces sera el vector de probabilidad
para todo tiempo t 0. Las condiciones del teorema sobre i , pi , qi son esenciales. Garantizan que ning
un estado es absorbente y que cualquier estado
puede alcanzarse desde cualquier otro estado. Por ejemplo, si S = {0, 1, 2, 3}
y p2 = 1, q1 = 1 el proceso se descompondra: si el proceso empezara en los
estados 0 o 1, permanecera ah por siempre, pero si empezara en los estados
2 o 3, permanecera en estos estados por siempre.
5.6.
Cadenas de Markov de tiempo discreto
Considerese un sistema que puede estar en cualquiera de varios estados. El

conjunto de estados es denominado el espacio de estados S y se supondra en
general que S = {0, 1, 2, . . . , N }, si bien en ocasiones otros espacios de estados
pueden usarse, como por ejemplo, S = {1, 2, . . . , N } o el espacio de estados
5.6. CADENAS DE MARKOV DE TIEMPO DISCRETO
187
infinito S = {0, 1, 2, . . .}. Supongase ahora que una partcula es libre de saltar
entre los estados del espacio de estados S; su localizacion al tiempo t es Xt .
De esta forma se tiene un proceso estocastico {Xt }
on Xt se
t=0 . La localizaci
mide solamente en los tiempos discretos t = 0, 1, 2, . . .. X0 es la localizacion
principiante en el tiempo 0.
Las siguientes suposiciones caracterizan a una cadena de Markov:
1. Suponga que la partcula esta en el estado i en el tiempo t. Luego,
no obstante su historia antes del tiempo t, la probabilidad que brinque a otro estado j depende solamente de i. Matematicamente, sea
i, j, it1 , . . . , i0 S. Entonces para cualquier tiempo t:
P (Xt+1 = j|Xt = i, Xt1 = it1 , . . . , X0 = i0 ) = P (Xt+1 = j|Xt = i)

Es decir, el futuro (tiempo t + 1), dado el presente (tiempo t), es independiente del pasado (tiempos t 1, . . . , 0). La probabilidad anterior
es la probabilidad de transicion o de salto del estado i al estado j.
2. No solamente son las probabilidades de transicion independientes de los
estados pasados de la partcula una vez que se conoce donde la partcula
esta ahora, sino que las probabilidades de transicion son independientes
de t:
P (Xt+1 = j|Xt = i) = i,j

Esta u
ltima suposicion se denomina homogeneidad en el tiempo.
Definici
on Una cadena de Markov de tiempo discreto (homogenea) consiste de una partcula que salta en cada unidad de tiempo entre estados en
188
un espacio de estados S. Xt denota el estado ocupado en el tiempo t para

t = 0, 1, 2, . . .. Si la partcula esta en el estado i al tiempo t, estara en el
estado j en el tiempo t + 1 no obstante los estados ocupados antes del tiempo
t con probabilidad
i,j = P (Xt+1 = j|Xt = i)
(5.11)
Ejemplo 1: Cadena de Markov de tiempo discreto
Figura 5.1: Ejemplo 1. Cadena de Markov de tiempo discreto.
Sea S = {0, 1} con probabilidades de transicion dadas por:

0,0 = 1/3 0,1 = 2/3 1,0 = 1/4 1,1 = 3/4
(5.12)
En la Figura 5.1 se muestra un diagrama que puede usarse para representar la informacion dada en la ecuacion 5.12. Tambien se suele representar
la misma informacion en forma matricial:

=
1/3 2/3
1/4 3/4

(5.13)
Hay una manera estandar de escribir las probabilidades de salto i,j como
una matriz, a la que se le llama la matriz de transicion . El elemento en su
189
i-esima fila y j-esima columna es i,j , la probabilidad que la partcula salte

de i a j.
0,0
1,0
..
.
0,1
1,1
..
.
N,0 N,1
0,2
1,2
..
..
.
.
N,2
0,N
1,N
..
.
(5.14)
N,N
Notese que la i-esima fila de la matriz muestra las probabilidades de

salto del estado i; la j-esima columna muestra las probabilidades de salto al
estado j. Por ejemplo, si la tercera columna consistiera de solamente 0s, o
sea, si
i,3 = 0
para todos los estados i en el espacio de estados S, la partcula nunca podra
entrar al estado 3. Esto u
ltimo es as dado que si la partcula saltara de alg
un
estado i0 al estado 3, entonces debera ocurrir que i0 ,3 > 0.
Sea una matriz de transicion de una cadena de Markov. Entonces,
1. 0 6 i,j 6 1 para todo i, j en el espacio de estados S.
2. tiene filas que suman 1:
N
X
j=0
i,j =
N
X
P (Xt+1 = j|Xt = i) = 1
(5.15)
j=0
Ejemplo 2
En una cadena de Markov hay 3 estados, con lo que S = {0, 1, 2}. Del
estado 0 la partcula salta a los estados 1 o 2 con una identica probabilidad
de 1/2. Del estado 2, la partcula debe saltar al estado 1. El estado 1 es
190
Figura 5.2: Ejemplo 2. Cadena de Markov de tiempo discreto.
absorbente: una vez que la partcula entre al estado 1, no puede salirse. Dibuje
el diagrama y escriba la matriz de transicion.
En la Figura 5.2 se muestra el diagrama correspondiente y las probabilidades de transicion. La primera fila de la matriz de transicion consiste
de las probabilidades de salto del estado 0 y similarmente para las otras dos
filas.
0 1/2 1/2
0
= 0 1
0 1
0
Definici
on El estado i es absorbente si i,i = 1.
Ejemplo 3: Un paseo aleatorio sobre S = {0, 1, 2, . . . , N }
De cualquiera de los estados interiores 1, 2, . . . , N 1, la partcula salta
a la derecha al estado i + 1 con probabilidad p y hacia la izquierda al estado
i 1 con probabilidad q = 1 p. Es decir, para 1 6 i 6 N 1,
i,i+1 = p,
i,i1 = q, i,j = 0 para j 6= i 1
Esto corresponde en el lenguaje del azar al siguiente juego: tire una moneda; si sale cruz, entonces gana un colon; si sale corona, entonces pierde un
191
colon. En cada tiro se salta al estado i + 1 con probabilidad p o al estado

i 1 con probabilidad q, con la suposicion basica de que al presente se tiene
i colones. Pueden considerarse tres casos diferentes acerca de la conducta de
la partcula en los estados frontera 0 y N .
Caso 1 Ambos estados frontera podran ser absorbentes, en cuyo caso se
tendra,
0,0 = 1 N,N = 1
Esto corresponde a las situaciones en que el juego acabo dado que se
quedo sin dinero o si se ha ganado el dinero de los oponentes. La correspondiente matriz de transicion estara dada por,
1
q
0
0
0
0
0
q
0
0
0
p
0
0
0
0
0
p
0
0
0
0
0
p
1
Caso 2 Ambos estados frontera podran ser reflectores, en cuyo caso,
0,1 = 1 N,N 1 = 1
Esto corresponde al caso cuando mi oponente me da uno de sus colones
cuando me quedo con los bolsillos vacos, o inversamente.
Caso 3 Los estados frontera podran ser parcialmente reflectores, en cuyo
caso,
0,0 = r 0,1 = 1 r N,N = s N,N 1 = 1 s

La correspondiente matriz de transicion estara dada por,
192
r 1r
q
0
0
q
0
0
0
0
0
p
0
0
0
0
0
p
0
0
0
0
0
0
0
q
0
1s
0
0
p
s
Figura 5.3: Ejemplo 3. Paseo aleatorio sobre S = {0, 1, 2, . . . , N }.
El caso 3 incluye los dos casos anteriores para valores particulares de r y

s.
Ejemplo 4: Proceso de renovaci
on
Considerese un componente cuya edad puede ser 0 o 1 o 2 o . . .. Edad
0 significa acabado de instalar. Supongase que no importa que tan viejo el
componente es, se quemara durante el proximo intervalo de tiempo con probabilidad q o continuara operando con probabilidad p = 1 q. As, el componente sigue la propiedad de la carencia de memoria. El espacio de estados es
S = {0, 1, 2, . . .} y el estado del sistema es la edad del componente instalado.
Suponga que tan pronto como el componente se queme, es reemplazado instantaneamente y entonces el estado del sistema se vuelve cero. La transicion
del estado 0 al estado 0 ocurre si el componente recien instalado se quema
inmediatamente.
193
q p 0 0
q 0 p 0 0
=
q 0 0 p 0

Vease que el espacio de estados S, en este caso, si bien discreto, tiene infinitamente muchos estados. Este modelo recibe tambien el nombre de modelo
de nacimiento o de desastre. Algunas aplicaciones son evidentes: tiempos de
vida de componentes. Hay una que no es tan obvia: las noticias se apilan en
una pizarra de avisos a una razon mas o menos constante hasta que alguien
decide tirarlas todas. El estado del sistema es el n
umero de das desde la
u
ltima vez que la pizarra fue limpiada. Si la limpieza de la pizarra se hace
aleatoriamente, independiente de cuantas noticias haya o del tiempo desde
la u
ltima limpieza, la pizarra sera limpiada en la proxima unidad de tiempo
con una probabilidad constante q.
5.6.1.
La matriz de transici
on de orden t
La matriz de transicion muestra las probabilidades de transicion i,j .

Supongase que se necesita encontrar probabilidades tales como
P (Xt+3 = j|Xt = i)
de que la partcula estara en estado j tres saltos desde el estado actual. Las
probabilidades de un paso i,j son las entradas de la matriz . De estas,
como puede encontrarse las probabilidades de tres pasos, y mas generalmente, las probabilidades de t-pasos?
Definici
on La matriz de transicion de orden t es t , cuya entrada (i, j)
es
ti,j = P (Xt = j|X0 = i)
194
que es la probabilidad de saltar de i a j en t pasos.

La homogeneidad en el tiempo (el hecho de que las probabilidades de
transicion no dependan de t) implica que no obstante el tiempo 0,
P (Xt+ = j|X = i) = ti,j
(5.16)
O sea, las probabilidades de transicion de t-pasos dependen solamente

de la diferencia de tiempo. Un algoritmo general se necesita para hallar la
matriz de transicion t de orden t para cualquier matriz de una cadena
de Markov dada.
Para hallar la matriz de transicion de orden t + 1 de la de orden t, se usa
las suposiciones de Markov basicas. Supongase que la partcula empieza en
estado i en el tiempo 0. Para que la partcula este en el estado j en el tiempo
t + 1, debe haber atravesado alg
un estado k en el tiempo intermedio t. Por
consiguiente, donde la partcula estaba en el tiempo t particiona el evento en
el estado j en el tiempo t + 1 dado un principio en el estado i en el tiempo 0.
t+1
= P (Xt+1 = j|X0 = i)
i,j
=
N
X
k=0
N
X
P (Xt+1 = j y Xt = k|X0 = i)
P (Xt+1 = j|Xt = k y X0 = i)P (Xt = k|X0 = i)
k=0
N
X
k=0
N
X
k=0
N
X
k=0
P (Xt+1 = j|Xt = k)P (Xt = k|X0 = i)

k,j ti,k
ti,k k,j
195
La segunda igualdad viene de particionar donde la partcula estaba en el

tiempo t. La tercera igualdad viene de
P (A B|C) = P (A|B C)P (B|C)
que se sigue de la definicion de probabilidad condicional. La cuarta igualdad usa la suposicion de la cadena de Markov que la probabilidad de que la
partcula este en j en t + 1 dado que estaba en k en el tiempo t, es independiente del hecho de que estaba en i en el tiempo 0.
Ecuaciones de Chapman-Kolmogorov Sea los tiempos t, s 0. Entonces para todos los estados i, j:
t+s
i,j =
N
X
ti,k sk,j
(5.17)
k=0
con t+s = t s .
Para que la partcula que comienza en i en el tiempo 0 este en j en el
tiempo t + s, debe estar en alg
un estado k en el tiempo intermedio t.
Ejemplo 5
Convierta el diagrama de salto de probabilidades de la Figura 5.4 en la correspondiente cadena de Markov y encuentre la probabilidad de que la partcula estara en el estado 1 despues de tres saltos dado que empezara en el estado
1.
Si se pasa la informacion dada por el diagrama de saltos a la correspondiente matriz de transicion, se encuentra que:
0 0,1 0,9
= 0,8 0 0,2
0,7 0,3 0
Con la ayuda de la matriz anterior, se encuentra que:
196
Figura 5.4: Ejemplo 5. De un diagrama de salto a la matriz de transicion.
0,71 0,27 0,02

2 = 1 1 = 0,14 0,14 0,72
0,24 0,07 0,69
0,230 0,077 0,693

3 = 2 = 0,616 0,230 0,154
0,539 0,231 0,230
Para responder a la pregunta hecha,
P (X3 = 1|X0 = 1) = 31,1 = 0,230
5.6.2.
El vector de probabilidad t
Se ha aprendido a calcular probabilidades condicionales de la forma P (Xt =

j|X0 = i). Pero supongase que la partcula comenzo en el estado i0 en el
tiempo 0. Entonces, cual sera P (Xt = j)? Mas en general, suponga que la
partcula empieza en el estado i con probabilidad pi en el tiempo t = 0. Se
197
desea responder la pregunta: con las probabilidades iniciales 0 , 1 , . . . , N ,

cual sera P (Xt = j) para cualquier estado j?
Sea el vector de probabilidad inicial definido por
= (0 , 1 , 2 , . . . , N )
Notese que 0 6 i 6 1 para todos los estados i en el espacio de estados
S y 0 + 1 + + N = 1, dado que la partcula debe comenzar en alguna
parte en el tiempo 0. El vector de probabilidad en el tiempo t se define como
t = (t0 , t1 , t2 , . . . , tN )
donde
tj = P (Xt = j|vector de probabilidad inicial sea )
Es decir, tj es la probabilidad de que la partcula se encontrara en el
estado j dado que en el tiempo 0 hubiera comenzado en los estados diversos
con probabilidad i para i = 0, 1, . . . , N . Notese que 0 = , y
N
X
j=0
tj =
N
X
P (Xt = j) = 1
j=0
Es decir, para cada t, es un vector de probabilidad.

Definici
on Un vector de probabilidad = (0 , 1 , . . . , N ) satisface
1. 0 6 i 6 1 para cada i = 0, 1, 2, . . . , N .
2. 0 + 1 + . . . + N = 1
Hay un metodo directo para obtener el vector de probabilidad t en el
tiempo t dado el vector de probabilidad inicial 0 en el tiempo 0 y la matriz
de transicion t de orden t:
198
tj =
N
X
i ti,j
i=0
El vector de probabilidad en el tiempo t es

t = t = 0 t
Para probar el resultado, se calcula lo siguiente:
tj = P (Xt = j)
=
N
X
P (Xt = j|X0 = i)P (X0 = i)
i=0
N
X
ti,j i
i=0
donde la primera y segunda igualdades son las definiciones de t , t y . La

segunda igualdad constituye una aplicacion de la ley de probabilidad total.
Ejemplo 6
Figura 5.5: Ejemplo 6. Vector de probabilidad t .
Para la cadena de Markov de la Figura 5.5, encuentre la probabilidad de
199
que la partcula estara en el estado 0 en el tiempo 3 si comenzo en el estado

0 con probabilidad 1/3 y en el estado 1 con probabilidad 2/3 en el tiempo 0.
Primero se encuentra la matriz de transicion a partir del diagrama de
salto y el vector de probabilidad en el tiempo 0 a partir de la informacion
dada en el enunciado:
1/4 3/4
=
1
0
= (1/3, 2/3)
Toca a continuacion calcular las matrices de transicion de orden 2 y de

orden 3, para finalmente calcular el vector de probabilidad de orden 3:
2
13/16 3/16
1/4
3/4
25/64 39/64
13/16 3/16
==
= =
3 = 3 = (1/3, 2/3)3 = (129/192, 63/192)

De esto u
ltimo se concluye que P (X3 = 0) = 30 = 129/192. Fin del
ejemplo.
Supongase que la partcula empieza en el tiempo t = 0 en el estado i. En
la terminologa de los vectores de probabilidad, esto significa que:
0 = (0, . . . , 0, 1, 0, . . . , 0)
El n
umero 1 en el anterior vector esta en la i-esima entrada. Por consiguiente, el vector de probabilidad en el tiempo t es:
200
t = (0, . . . , 0, 1, 0, . . . , 0)t
= (ti,o , ti,1 , ti,2 , . . . , ti,N )
lo que implica que dado que la partcula comenzo en el estado i,
P (Xt = j) = tj = ti,j
que confirma lo que ya se sabe: la entrada (i, j) de la matriz t es la probabilidad de estar en el estado j en el tiempo t dado que estaba en el estado i
en el tiempo 0.
5.6.3.
El vector de probabilidad de estado estable

umero grande N de partculas, cada una que salta
de estado a estado entre los estados de S guiados por la matriz de transicion
de probabilidades de saltos. Si todas las N partculas empiezan en el estado
0 en el tiempo t = 0, entonces despues de un salto algunas permaneceran en
el estado 0 (si 0,0 > 0) y otras saltaran a otros estados. Se puede esperar
N 0,j partculas en el estado j despues de un salto. Por otro lado, supongase
que se distribuyen las N partculas de modo que Nj empiezan en el estado j
en el tiempo 0 para j = 0, 1, 2, . . . , N . Dado que Nj j,i de aquellas partculas
que empiezan en j puede esperarse que salten al estado i, el n
umero total de
partculas que puede esperarse que esten en el estado i despues de un salto
es
N
X
Nj j,i
j=0
Pudiera suceder que este n

umero es el mismo n
umero Ni de partculas que
empezaron en el estado i en el tiempo 0. Cada una de las partculas podra
201
cambiar estados, pero el n

umero completo en el estado i permanecera constante. Si esto fuera cierto para cada estado i S, el sistema entero de N
partculas estara en estado estable: por cada partcula que deja un estado,
una la reemplazara proveniente de otro estado.
Ni =
N
X
Nj j,i
j=0
En vez del n
umero Ni absoluto de partculas en estado i, reestablezcase
la ecuacion en terminos del n
umero relativo Ni /N de partculas en estado i;
esta es la probabilidad de que cualquier partcula ocupe el estado i.
Ni /N =
N
X
(Nj /N ) j,i
j=0
Si este fuera el caso, el sistema entero de N partculas estara en el estado

estable.
Un vector de probabilidad representa el estado estable si
i =
N
X
j j,i
(5.18)
j=0
o sea, si 1 = = . De esta forma, la probabilidad de que una partcula

este en el estado i es la misma en el tiempo 1 como en el tiempo 0. Notese
que si tiene esta propiedad de reproducirse a s mismo despues de un salto,
esto se cumplira para todos los tiempos t:
1 = =
lo que implica
2 = 1 = =
(5.19)
202
3 = 2 = =
y, en general,
t = t1
=
=
Cualquier vector de probabilidad con la propiedad = es denominado
un vector de probabilidad de estado estable. Si la partcula empieza en el
estado i con probabilidad i por cada estado i, entonces en todo tiempo t,
estara en el estado i con probabilidad i .
Procedimiento para hallar el vector de probabilidad de estado
estable Consta de dos pasos:
1. Establezca y resuelva estas ecuaciones:
j =
N
X
i i,j
i=0
para j = 0, 1, 2, . . . , N o alternativamente, en notacion matricial, =

.
2. Normalice por medio de la ecuacion
N
X
i=0
i = 1
203
El paso 1 anterior involucra la solucion de N + 1 ecuaciones para N + 1

incognitas 0 , 1 , 2 , . . . , N . Siempre habra redundancia: una de las ecuaciones sera una combinacion lineal de las otras. La ecuacion del paso 2 es
realmente la (N + 1)-esima. En otras palabras: el primer paso, aunque define un sistema de N + 1 ecuaciones, solamente N de ellas son linealmente
independientes, por lo que se necesita del paso 2 para proveer la (N + 1)esima ecuacion para poder encontrar las N + 1 incognitas, que definiran los
componentes del vector de probabilidad de estado estable.
Ejemplo 7: Vector de probabilidad de estado estable.
Figura 5.6: Ejemplo 7. Vector de probabilidad de estado estable.
Encuentre el vector de probabilidad de estado estable de la cadena de

Markov mostrado en la Figura 5.6.
=
(0 , 1 ) = (0 , 1 )

= (0 , 1 )
1
0 + 1
2
1
=
0
2
0 =
1
1
2
1
2
1 0
204
Las dos u
ltimas ecuaciones son realmente la misma: 1 = 12 0 . A continuacion se usa la condicion de normalizacion:
1
3
1 = 0 + 1 = 0 + 0 = 0
2
2
De esta forma se concluye que 0 = 2/3, 1 = 1/3. Por consiguiente, dos
terceras partes del tiempo, la partcula se encontrara en el estado 1; una
tercera parte del tiempo se encontrara en el estado 2. Fin del ejemplo
Ejemplo 8: Vector de probabilidad de estado estable.
Figura 5.7: Ejemplo 8. Vector de probabilidad de estado estable.
Considere la cadena de Markov de la Figura 5.7. Encuentre el vector de

probabilidad de estado estable .
Se construye primero la matriz de transicion :
= 0
1
3
1
2
2
3
2
3
1
2
1
3
(0 , 1 , 2 ) = (0 , 1 , 2 ) 0
1
3
1
2
3
1
=
0 +
2
1
=
0 +
2
1
2
2
3
2
3
1
2
1
3
205
0 =
1
2
2
2
1 + 2
3
3
1
1
3
lo cual genera,
30 + 2 = 0
30 21 + 42 = 0
30 + 21 62 = 0
Si se suma la segunda y la tercera ecuaciones, resulta en 60 22 = 0,
que es esencialmente la misma primera ecuacion, de donde se puede decir que
la tercera ecuacion es redundante. De las primeras dos ecuaciones se tiene
que,
2 = 30
15
0
1 =
2
Toca ahora usar la condicion de normalizacion:

1 = 0 + 1 + 2 =
Por consiguiente, 0 =
2
, 1
23

23
15
1+
+ 3 0 = 0
2
2
15
, 2
23
6
.
23
Fin del ejemplo.
206
Figura 5.8: Ejemplo 9. Proceso cclico.
Ejemplo 9. Proceso c
clico.
Considere el proceso cclico de la Figura 5.8. Hay N +1 estados 0, 1, 2, . . . , N .
Para cada estado i, 0 < qi < 1. La partcula permanece en el estado i con
probabilidad qi , o salta al estado i + 1 con probabilidad pi = 1 qi . Si i = N ,
entonces i + 1 sera el estado 0; hay un enrollamiento del estado N al estado
0. Encuentre el vector de probabilidad de estado estable.
Se comienza por caracterizar la matriz de transicion, a partir del diagrama
de saltos.
q0 p0 0
0 q1 p1 0
0 0 q2 p2

pN 0
La ecuacion = implica que:
0
0
0

0 qN
(0 , 1 , . . . , N )
(0 , 1 , . . . , N )
q0 0 + pN N
p0 0 + q1 1
p1 1 + q2 2
207
lo que nos lleva a:
p0 0
pN N
p1 1
p0 0
p2 2
p1 1

Se resuelve sucesivamente para cada i en terminos de 0 comenzando
con la segunda ecuacion:
(p0 /p1 )0
(p0 /p2 )0
(p0 /p3 )0
(p0 /pN )0
Ahora se usa la condicion de normalizacion,
208
1 = 0 + 1 + + N
= (1 + p0 /p1 + p0 /p2 + + p0 /pN ) 0
= (1/p0 + 1/p1 + 1/p2 + + 1/pN ) p0 0
De esto u
ltimo se obtiene que 1 = Cp0 0 , lo que determina 0 . Para el
P
proceso cclico se obtiene finalmente que i = 1/Cpi , donde C = N
j=0 1/pj .
Fin del ejemplo.
Las cadenas de Markov en los u
ltimos tres ejemplos tienen vectores de
probabilidad de estado estable u
nicos. Este no es siempre el caso.
Ejemplo 10. Caso con dos vectores de probabilidad de estado estable.
Sea
1/2 1/2 0
0
1/2 1/2 0
0
=
0 1/3 1/3 1/3
0
0
0
1
Hay dos vectores de probabilidad de estado estable distinguibles:

1 1
=
, , 0, 0
2 2
= (0, 0, 0, 1)

Esto se verifica simplemente chequeando = , = . Fin del

ejemplo.
Ejemplo 11. Paseo aleatorio sobre los enteros positivos.
Considerese un paseo aleatorio sobre los enteros positivos S = {0, 1, 2, . . .}
en el que las transiciones son solamente hacia la derecha; suponga que 0 <
p < 1 y q = 1 p. Vease la Figura 5.9. Esta cadena es similar al proceso
209
Figura 5.9: Ejemplo 11. Paseo aleatorio sobre los enteros positivos.
cclico. Aqu pi = p es constante y N = . La correspondiente matriz de

transicion esta dada por:
q
0
=
0
p
q
0
0
p
q
0
0
p
0
0
0
= implica que
q0
p0 + q1
p1 + q2

Dado que 0 < p, q < 1, la primera, la segunda, la tercera, y demas ecuaciones implican 0 = 0, 1 = 0, 2 = 0, . . .. Por consiguiente, no hay estado
estable. Fin del ejemplo.
En el Ejemplo 10, se vio que, dependiendo de la cadena de Markov, pudiera no haber un vector de probabilidad de estado estable u
nico. Para ese
ejemplo, si la partcula empezara en los estados 0 o 1, permanece en estos
estados por siempre. Si empezara en el estado 3, permanecera ah siempre.
210
Si empezara en el estado 2, tarde o temprano saltara al estado 3 o a la combinacion de los estados 0 y 1. Por consiguiente, la cadena entera se parte en
dos piezas separadas, cada una con su propio estado estable. En ese caso, la
cadena se dice que es descomponible.
En el Ejemplo 11, la partcula tiene un desplazamiento hacia la derecha.
Por consiguiente, no hay estado estable. Se puede comenzar con un millon
de partculas y eventualmente ellas estaran muy hacia la derecha del estado
0.
Captulo 6
Bibliografa
211
212
CAPITULO 6. BIBLIOGRAFIA
Bibliografa
[1] Cooper, G. y McGillem, C. Probabilistic Methods of Signal and System
Analysis. Tercera edicion. New York: Oxford University Press, 1998.
[2] Bertsekas, D. y Tsitsiklis, J. Introduction to Probability. Segunda edicion.
Boston: Athena Scientific, 2008.
[3] Peebles, Jr., P. Z. Probability, Random Variables, and Random Signal
Principles. Cuarta edicion. New York: McGraw-Hill, 2001.
[4] Kay, S. M. Intuitive Probability and Random Processes Using MATLAB.
Segunda impresion. New York: Springer, 2005.
[5] Rong Li, X. Probability, Random Signals, and Statistics. Boca Raton:
CRC Press, 1999.
[6] Papoulis, A. Probability, Random Variables and Stochastic Processes.
Segunda edicion. New York: McGraw-Hill, 1984.
[7] Solomon, F. Probability and Stochastic Processes. Englewood Cliffs, New
Jersey: Prentice-Hall, 1987.
[8] Davenport Jr., W. B. y Root, W. L. An Introduction to the Theory of
Random Signals and Noise. New York: IEEE Press, 1987.
213
BIBLIOGRAFIA
214
[9] Shanmugan, K. S. y Breipohl, A. M. Random Signals: Detection, Estimation and Data Analysis. New York: John Wiley and Sons Inc., 1988.
[10] Levin, B. R. Fundamentos de Radiotecnia Estadstica. Barcelona: Marcombo Boixareu Editores, 1984.
[11] Kazakos, D. y Papantoni-Kazakos, P. Detection and Estimation. New
York: Computer Science Press (W. H. Freeman and Company), 1990.
[12] Van Trees, H. L. Detection, Estimation, and Modulation Theory. Part I:
Detection, Estimation, and Linear Modulation Theory. New York: John
Wiley and Sons Inc., 2001.
[13] Gray, R. M. y Davisson, L. D. An Introduction to Statistical Signal Processing. New York: Cambridge University Press, 2011.
[14] Melsa, J. L. y Sage, A. P. An Introduction to Probability and Stochastic
Processes. Mineola, New York: Dover Publications, Inc., 2013.
[15] Lopez, J. y Martos, E. Se
nales aleatorias: Teora y ejercicios resueltos.
Mexico: Alfaomega, 2013.
[16] Wax, N. (editor). Selected Papers on Noise and Stochastic Processes.
Mineola, New York: Dover Publications, Inc., 1954.
[17] Porat, B. Digital Processing of Random Signals: Theory and Methods.
Mineola, New York: Dover Publications, Inc., 2008.
[18] Rosenthal, J. S. A First Look at Rigorous Probability Theory. Segunda
edicion. Singapur: World Scientific Publishing Co. Pte. Ltd., 2010.

Apuntes IE 0405 Jorge Arturo Romero Chacon

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Apuntes IE 0405 Jorge Arturo Romero Chacon

Uploaded by

Copyright:

Available Formats

Modelos probabilsticos de senales y sistemas

Jorge Arturo Romero Chacon

2.9.2. Momentos centrales . . . . . . . . . . . . . . . . . . . .

1. Cadena de Markov de tiempo discreto . . . . . . .

Existen varios enfoques para la definicion y discusion de la probabilidad.

Un conjunto se especifica por el contenido de dos llaves: {}.

metodo tabular los elementos son enumerados explcitamente. En el metodo

Si por lo menos hay un elemento de B que no esta en A, entonces es un

El conjunto vaco (nulo) es claramente un subconjunto de todo conjunto.

Dos conjuntos, A y B, se llaman disjuntos o mutuamente excluyentes si

Para cualquier conjunto universal con N elementos, hay 2N subconjuntos

Operaciones con conjuntos

CAPITULO 1. TEORIA BASICA

A B = {1, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12}

1.3. LOS CONCEPTOS DE LA PROBABILIDAD

Los conceptos de la Probabilidad

Para cada evento definido sobre un espacio de muestras S, se asignara un

1.3. LOS CONCEPTOS DE LA PROBABILIDAD

P (A) para denotar la probabilidad del evento A.

El primer axioma indica el deseo de trabajar con n

si Am An = para todo m 6= n = 1, 2, . . . , N con N que puede ser infinito.

CAPITULO 1. TEORIA BASICA

lo que satisface el axioma 3.

1.3. LOS CONCEPTOS DE LA PROBABILIDAD

1 pueda que no ocurran. Un ejemplo para el experimento de la rueda de la

Un experimento real dentro del contexto de nuestro estudio, se define

Un experimento consiste en observar la suma de los n

fila y j representa la columna, que localizan un resultado particular posible en

Probabilidad condicional y conjunta

1.3. LOS CONCEPTOS DE LA PROBABILIDAD

P (A B) = P (A) + P (B)P (A B) 6 P (A) + P (B)

La probabilidad de la union de dos eventos nunca excede la suma de las

Esta probabilidad refleja el hecho de que la probabilidad de un evento A

CAPITULO 1. TEORIA BASICA

Las probabilidades conjuntas son:

Las probabilidades condicionales son:

1.3. LOS CONCEPTOS DE LA PROBABILIDAD

Supongase que estan definidos N eventos mutuamente excluyentes Bn , n =

Los eventos A Bn son mutuamente excluyentes. Si se aplica el axioma

que se conoce como la probabilidad total del evento A.

si P (Bn ) 6= 0. Una forma del teorema de Bayes se obtiene igualando estas

Una ecuacion equivalente (y mas conocida) se obtiene de una sustitucion

1.3. LOS CONCEPTOS DE LA PROBABILIDAD

s del canal es uno y el

P (A1 ) = P (A1 | B1 )P (B1 ) + P (A1 | B2 )P (B2 )

1.3. LOS CONCEPTOS DE LA PROBABILIDAD

para eventos estadsticamente independientes. Asimismo,

para eventos estadsticamente independientes. La independencia estadstica

Si los dos eventos tienen probabilidades no nulas de ocurrir, entonces al

P (A1 A2 ) = P (A1 )P (A2 )

P (Ai Aj ) = P (Ai )P (Aj )

1.3. LOS CONCEPTOS DE LA PROBABILIDAD

Considerese retirar cuatro cartas de un juego ordinario de 52 cartas. Sean

El segundo caso es cuando se retiene la carta despues de escogida. Se

P (A1 A2 A3 A4 ) = P (A1 )P (A2 A3 A4 | A1 )

P [A1 (A2 A3 )] = P (A1 )P (A2 )P (A3 ) = P (A1 )P (A2 A3 ) (1.20)

P [A1 (A2 A3 )] = P (A1 )P (A2 A3 )

Pruebas de Bernoulli o pruebas repetidas

Las pruebas de Bernoulli consisten en un tipo de experimento para el

1.3. LOS CONCEPTOS DE LA PROBABILIDAD

P (A)P (A) P (A) P (A)P (A) P (A) = pk (1 p)N k

Claramente, hay otras secuencias particulares que dan k eventos A y N k

se conoce como coeficiente binomial.

P {hundir un barco} = P {dos o mas aciertos de torpedos}