Apuntes de Probabilidad

Modelos probabilsticos de senales y sistemas
Jorge Arturo Romero Chacon
Enero 2016
ii
Prefacio
iii
iv PREFACIO
Estas notas de clase representan un esfuerzo realizado con el fin de satis-

facer los objetivos planteados cuando el curso IE-0405 Modelos probabilsticos
de senales y sistemas fue presentado ante la Asamblea de Escuela de Inge-
niera Electrica para su aprobacion e inclusion dentro del plan de estudios
del bachillerato.
Tales objetivos fueron divididos en generales y especficos. Los objetivos
generales originales fueron planteados como sigue:
1. Familiarizarse con los conceptos fundamentales de la probabilidad.
2. Comprender el concepto de variable aleatoria discreta y continua y de

las funciones de densidad probabilstica.
3. Saber definir un proceso estocastico y conceptos elementales asociados.
4. Conocer los elementos basicos de la estadstica tal y como son emplea-

dos en la Ingeniera.
Los objetivos especficos originales fueron planteados de la siguiente ma-

nera. Al finalizar el curso el estudiante estara en capacidad de:
1. Definir en lenguaje comun los conceptos de probabilidad, probabilidad

conjunta, probabilidad condicional, independencia estadstica, varia-
ble aleatoria, proceso estocastico, valor esperado, varianza, correlacion,
densidad espectral de potencia, estacionaridad, ergodicidad, deteccion
de senales, estimacion de parametros, intervalos de confianza, test de
hipotesis, regresion lineal y cadenas de Markov, utilizando a lo mas dos
lneas de escritura.
2. Aplicar los conceptos anteriores en aplicaciones basicas en Ingeniera

Electrica y resolver tales problemas sin recurrir a notas de clase o refe-
rencias.
3. Calcular probabilidades de eventos y los valores esperados de variables

aleatorias para problemas elementales, usando para ello la definicion
correspondiente o tablas de probabilidad.
4. Dada una situacion donde ha sido aplicado un muestreo, formular una

hipotesis y llevar a cabo tests apropiados para probar su aceptabilidad.
v
La practica docente ha demostrado que un semestre es suficiente para

cubrir la materia que se presenta en estas notas. Por consiguiente, forzosa-
mente se ha tenido que dejar por fuera de consideracion algunos conceptos
propios de la estadstica a los que se hace alusion en los objetivos anteriores.
No obstante, es opinion de quien ha preparado estas notas que la persona que
llegue a mostrar un dominio medianamente regular de los conceptos presen-
tados, esta en plena capacidad de estudiar por cuenta propia tales conceptos
y saber aplicarlos cuando la necesidad as lo plantee.
Por el momento, se presentan las notas con ejemplos acompanantes por
captulo. Eventualmente, se iran agregando mas ejercicios por el autor paula-
tinamente, de tal forma que se tenga a mano suficientes ejercicios representa-
tivos que sirvan de practica a la persona interesada. Tales ejercicios estaran
provistos de un desarrollo explicativo y de la correspondiente solucion. Cabe
aclarar que siempre habra mas de una forma de resolver un ejercicio, por lo
que simplemente se estara proponiendo una posible solucion.
vi PREFACIO
Indice general
Prefacio III
1. Teora basica de la probabilidad 1

1.1. Preambulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Definiciones basicas de la teora de conjuntos . . . . . . . . . . 2
1.2.1. Operaciones con conjuntos . . . . . . . . . . . . . . . . 5
1.3. Los conceptos de la Probabilidad . . . . . . . . . . . . . . . . 9
1.3.1. Definicion y axiomas de la probabilidad . . . . . . . . . 10
1.3.2. Modelo matematico de experimentos . . . . . . . . . . 13
1.3.3. Probabilidad condicional y conjunta . . . . . . . . . . . 14
1.3.4. Eventos independientes . . . . . . . . . . . . . . . . . . 21
1.3.5. Pruebas de Bernoulli o pruebas repetidas . . . . . . . . 24
2. Variables aleatorias 31
2.1. Preambulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2. Concepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.1. Variables aleatorias discretas y continuas . . . . . . . . 34
2.3. La funcion de distribucion . . . . . . . . . . . . . . . . . . . . 35
2.4. Funcion de densidad probabilstica . . . . . . . . . . . . . . . 37
2.4.1. Algunas funciones de densidad probabilstica . . . . . . 40
2.5. Densidad y distribucion condicionales . . . . . . . . . . . . . . 46
2.5.1. Funcion de distribucion condicional . . . . . . . . . . . 46
2.5.2. Funcion de densidad condicional . . . . . . . . . . . . . 47
2.6. Valor esperado de una variable aleatoria . . . . . . . . . . . . 53
2.7. Valor esperado de una funcion g(X) . . . . . . . . . . . . . . . 54
2.8. Valor esperado condicional . . . . . . . . . . . . . . . . . . . . 56
2.9. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.9.1. Momentos alrededor del origen . . . . . . . . . . . . . 56
vii
viii INDICE GENERAL
2.9.2. Momentos centrales . . . . . . . . . . . . . . . . . . . . 57

2.9.3. Varianza e inclinacion . . . . . . . . . . . . . . . . . . 57
2.10. Funciones que dan momentos . . . . . . . . . . . . . . . . . . 58
2.10.1. Funcion caracterstica . . . . . . . . . . . . . . . . . . 58
2.10.2. Funcion generadora de momentos . . . . . . . . . . . . 59
2.11. Transformaciones de una variable aleatoria . . . . . . . . . . . 61
2.11.1. Transformaciones monotonicas de una V. A. continua . 62
2.11.2. Transformaciones no monotonicas de una V. A. continua 65
2.11.3. Transformacion de una variable aleatoria discreta . . . 67
3. Variables aleatorias multiples 69

3.1. Preambulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.2. Conceptos introductorios . . . . . . . . . . . . . . . . . . . . . 70
3.3. Propiedades de la distribucion conjunta . . . . . . . . . . . . . 71
3.4. Densidad conjunta y sus propiedades . . . . . . . . . . . . . . 72
3.5. Densidad y distribucion condicional . . . . . . . . . . . . . . . 75
3.5.1. Condicionamiento puntual . . . . . . . . . . . . . . . . 75
3.5.2. Condicionamiento por intervalo . . . . . . . . . . . . . 78
3.6. Independencia estadstica . . . . . . . . . . . . . . . . . . . . . 79
3.7. Distribucion y densidad de una suma de variables aleatorias . 80
3.7.1. Suma de dos variables aleatorias . . . . . . . . . . . . . 81
3.7.2. Suma de varias variables aleatorias . . . . . . . . . . . 83
3.8. Teorema del lmite central . . . . . . . . . . . . . . . . . . . . 84
3.8.1. El teorema del lmite central para sumas . . . . . . . . 85
3.8.2. El teorema del lmite central para medias de muestras . 89
3.9. Desigualdad de Chebyshev y ley de los grandes numeros . . . 91
3.9.1. Desigualdad de Chebyshev . . . . . . . . . . . . . . . . 91
3.9.2. Ley de los grandes numeros . . . . . . . . . . . . . . . 94
3.10. Operaciones con variables aleatorias multiples . . . . . . . . . 96
3.10.1. Valor esperado de una funcion de variables aleatorias . 96
3.10.2. Momentos conjuntos alrededor del origen . . . . . . . . 98
3.10.3. Momentos centrales conjuntos . . . . . . . . . . . . . . 100
3.10.4. Funciones caractersticas conjuntas . . . . . . . . . . . 103
3.11. Variables aleatorias conjuntamente gaussianas . . . . . . . . . 106
3.12. Transformaciones de variables aleatorias multiples . . . . . . . 109
INDICE GENERAL ix
4. Procesos estocasticos 113

4.1. Preambulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.2. Conceptos basicos . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.2.1. Concepto de un proceso aleatorio . . . . . . . . . . . . 114
4.2.2. Clasificacion de procesos . . . . . . . . . . . . . . . . . 116
4.3. Funciones de distribucion y de densidad . . . . . . . . . . . . 118
4.4. Independencia estadstica . . . . . . . . . . . . . . . . . . . . . 119
4.5. Procesos estacionarios de primer orden . . . . . . . . . . . . . 119
4.6. Estacionaridad de segundo orden y de sentido amplio . . . . . 121
4.7. Estacionaridad en sentido estricto y a orden N . . . . . . . . . 123
4.8. Promedios en el tiempo y ergodicidad . . . . . . . . . . . . . . 123
4.9. Funciones de correlacion . . . . . . . . . . . . . . . . . . . . . 125
4.9.1. Funcion de autocorrelacion y sus propiedades . . . . . 125
4.9.2. Funcion de correlacion cruzada y sus propiedades . . . 127
4.9.3. Funciones de covarianza . . . . . . . . . . . . . . . . . 130
4.10. Proceso aleatorio de Poisson . . . . . . . . . . . . . . . . . . . 131
4.10.1. Funcion de densidad probabilstica . . . . . . . . . . . 132
4.10.2. Densidad probabilstica conjunta . . . . . . . . . . . . 133
4.11. Caractersticas espectrales de procesos estocasticos . . . . . . 135
4.11.1. Espectro de densidad de potencia y sus propiedades . . 135
4.11.2. Propiedades del espectro de densidad de potencia . . . 140
4.11.3. Ancho de banda del espectro de densidad de potencia . 141
4.11.4. Relacion entre el espectro de potencia y la autocorre-
lacion . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
4.11.5. Espectro de densidad de potencia cruzada y sus pro-
piedades . . . . . . . . . . . . . . . . . . . . . . . . . . 146
4.12. Algunas definiciones de ruido . . . . . . . . . . . . . . . . . . 149
4.13. Respuesta de sistemas lineales a una senal aleatoria . . . . . . 152
4.13.1. Respuesta del sistema: convolucion . . . . . . . . . . . 152
4.13.2. Valor medio y cuadratico medio de la respuesta del
sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
4.13.3. Autocorrelacion de la respuesta . . . . . . . . . . . . . 154
4.13.4. Correlacion cruzada de entrada y salida . . . . . . . . . 155
4.13.5. Caractersticas espectrales de la respuesta del sistema . 157
4.13.6. Espectros de densidad de potencia cruzada de entrada
y salida . . . . . . . . . . . . . . . . . . . . . . . . . . 159
x INDICE GENERAL
5. Cadenas de Markov 161

5.1. Preambulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.2. Conceptos introductorios . . . . . . . . . . . . . . . . . . . . . 162
5.2.1. Primer hecho: densidad de la variable mnima de un
conjunto de variables aleatorias . . . . . . . . . . . . . 163
5.2.2. Segundo hecho: probabilidad de que un componente
dado sea el que falle . . . . . . . . . . . . . . . . . . . 164
5.3. El proceso de nacimiento y muerte en tiempo continuo . . . . 167
5.4. Colas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
5.5. El vector de probabilidad de estado estable . . . . . . . . . . . 176
5.6. Cadenas de Markov de tiempo discreto . . . . . . . . . . . . . 186
5.6.1. La matriz de transicion de orden t . . . . . . . . . . . . 193
5.6.2. El vector de probabilidad t . . . . . . . . . . . . . . . 196
5.6.3. El vector de probabilidad de estado estable . . . . . . . 200
6. Bibliografa 211
Indice de figuras
5.1. Ejemplo 1. Cadena de Markov de tiempo discreto . . . . . . . 188

5.2. Ejemplo 2. Cadena de Markov de tiempo discreto . . . . . . . 190
5.3. Ejemplo 3. Paseo aleatorio sobre S = {0, 1, 2, . . . , N }. . . . . . 192
5.4. Ejemplo 5. De un diagrama de salto a la matriz de transicion. 196
5.5. Ejemplo 6. Vector de probabilidad t . . . . . . . . . . . . . . . 198
5.6. Ejemplo 7. Vector de probabilidad de estado estable. . . . . . 203
5.7. Ejemplo 8. Vector de probabilidad de estado estable. . . . . . 204
5.8. Ejemplo 9. Proceso cclico. . . . . . . . . . . . . . . . . . . . . 206
5.9. Ejemplo 11. Paseo aleatorio sobre los enteros positivos. . . . . 209
xi
xii INDICE DE FIGURAS
Indice de cuadros
1.1. Distribucion de valores de las resistencias en la caja. . . . . . . 15
5.1. Numero N mas pequeno para que el 90 % del tiempo haya N

o menos clientes en el estado estable. . . . . . . . . . . . . . . 185
xiii
xiv INDICE DE CUADROS
Captulo 1
Teora basica de la probabilidad
1
2 CAPITULO 1. TEORIA BASICA DE LA PROBABILIDAD
1.1. Preambulo
Existen varios enfoques para la definicion y discusion de la probabilidad.
Vale la pena considerar dos de ellos. El primero emplea la definicion de fre-
cuencia relativa de probabilidad. Es principalmente util al tratar topicos que
no se relacionan con la teora de probabilidad misma.
El segundo enfoque emplea la definicion axiomatica. Este proporciona las
bases matematicas mas firmes y es el que se estudiara en este libro.
El enfoque axiomatico requiere del enunciado de los axiomas de la proba-
bilidad. Antes de hacerlo se hara un breve repaso de la teora de conjuntos.
1.2. Definiciones basicas de la teora de con-

juntos
Un conjunto es una coleccion de objetos. Los objetos se denominan ele-
mentos del conjunto, y pueden ser cualquier cosa. Se puede tener un conjunto
de voltajes, un conjunto de aeroplanos, un conjunto de sillas, o aun un conjun-
to de conjuntos, denominado una clase de conjuntos. Un conjunto se denota
por una letra mayuscula, mientras que un elemento por una letra minuscula.
De esta forma, si a es un elemento del conjunto A, se escribe,
aA (1.1)
Si no lo es,
a 6 A (1.2)
Un conjunto se especifica por el contenido de dos llaves: {}.

Existen dos metodos para especificar el contenido de un conjunto, el meto-
do tabular (explcito) y el metodo de la regla (implcito o cualitativo). En el
1.2. DEFINICIONES BASICAS DE LA TEORIA DE CONJUNTOS 3
metodo tabular los elementos son enumerados explcitamente. En el metodo

de la regla, el contenido de un conjunto esta determinado por alguna regla.
Este metodo es mas conveniente usarlo cuando el conjunto es grande.
Ejemplo
El conjunto de todos los enteros entre 5 y 10 se escribira, con el metodo
tabular, de la forma: {6, 7, 8, 9}. Por el metodo de la regla, se escribira,
{enteros mayores que 5 pero menores que 10}.
Un conjunto se dice ser enumerable si sus elementos pueden ponerse en

una correspondencia con los numeros naturales, que son los enteros 1, 2, 3, . . ..
Si el conjunto no ofrece tal posibilidad, no es enumerable. Un conjunto se dice
ser vaco si no tiene elementos, y se le representa por . Tambien se le suele
llamar el conjunto nulo.
Un conjunto finito es uno que es o vaco o tiene elementos que pueden
contarse, con un proceso de conteo que finaliza. En otras palabras, tiene un
numero finito de elementos. Si el conjunto no es finito, es infinito.
Un conjunto infinito con elementos enumerables es denominado enume-
rablemente infinito.
Si todo elemento de un conjunto A es tambien un elemento en otro con-
junto B, A se dice estar contenido en B. A es un subconjunto de B:
AB (1.3)
Si por lo menos hay un elemento de B que no esta en A, entonces es un

subconjunto propio de B:
AB (1.4)
El conjunto vaco (nulo) es claramente un subconjunto de todo conjunto.

Dos conjuntos, A y B, se llaman disjuntos o mutuamente excluyentes si

no tienen elementos comunes.
Ejemplo:
A = {1, 3, 5, 7} D = {0,0}
B = {1, 2, 3, . . .} E = {2, 4, 6, 8, 10, 12, 14}
C = {0,5 c 8,5} F = {5,0 < f 12,0}
El conjunto A esta tabularmente especificado, es enumerable, y es finito.
B esta tambien tabularmente especificado y es enumerable, pero es infinito.
El conjunto C esta especificado por regla, no es enumerable e infinito, dado
que contiene todos los numeros mayores que 0,5 pero que no exceden 8,5.
Similarmente, los conjuntos D y E son finitos enumerablemente, mientras
que el conjunto F es infinito y no enumerable. D no es el conjunto nulo,
tiene un elemento, el numero cero. El conjunto A esta contenido en B, C y
F . Similarmente, C F , D F , y E B. Los conjuntos B y F no son
subconjuntos de algun otro de los conjuntos o uno del otro. Los conjuntos A,
D y E son mutuamente excluyentes uno del otro.
El conjunto mas grande o abarcador de objetos bajo discusion en una

situacion dada se denomina conjunto universal, denotado por S. Todos los
conjuntos (dentro de un contexto bajo estudio) son subconjuntos del conjunto
universal.
Ejemplo
Considerese el problema de tirar un dado. Solamente los numeros que
se muestran en la cara superior son de interes. Aqu el conjunto universal
es S = {1, 2, 3, 4, 5, 6}. En un juego de azar, la persona gana si el numero
esta en el conjunto A = {1, 3, 5}. Otra persona podra ganar si el numero
que aparece es cuatro o menor, es decir, por cualquier numero en el conjunto
B = {1, 2, 3, 4}. Tanto A como B son subconjuntos de S.
Para cualquier conjunto universal con N elementos, hay 2N subconjuntos

posibles de S. Para el ejemplo anterior, N = 6 y 2N = 64.
1.2.1. Operaciones con conjuntos
Se suele usar una representacion geometrica que nos permite asociar una
imagen fsica con un conjunto. Tal representacion es el diagrama de Venn.
Los conjuntos son representados por figuras planas cerradas. Los elementos
de los conjuntos son representados por los puntos encerrados (es decir, por el
area encerrada). El conjunto universal S es representado por un rectangulo
que encierra a todas las figuras planas cerradas.
Igualdad y diferencia
A = B si y solo si A B y B A.
A B es el conjunto que contiene a los elementos de A que no estan
en B. Por ejemplo, con A = {0, 6 < a 6 1, 6} y B = {1, 0 < b 6 2, 5},
entonces A B = {0, 6 < c < 1, 0} o B A = {1, 6 < d 6 2, 5}. Notese que
A B 6= B A.
Union e interseccion
La union de dos conjuntos A y B es un conjunto nuevo C constituido por

elementos que estan en A o estan en B.
C =AB
La interseccion de dos conjuntos A y B es un conjunto nuevo D consti-

tuido por elementos que pertenecen tanto al conjunto A como al conjunto
B.
D =AB
Dos conjuntos A y B son mutuamente excluyentes si A B = .

La union e interseccion de N conjuntos An , n = 1, 2, . . . , N se escribe,
C = A1 A2 . . . AN
N
[
= An
n=1
D = A1 A2 . . . AN
N
\
= An
n=1
Complemento
El complemento de un conjunto A, denotado por A, es el conjunto de

todos los elementos que no estan en A:
A=SA
Las siguientes igualdades, concernientes al concepto de complemento de

un conjunto, se satisfacen:
= S
S =
AA = S
AA =
Ejemplo
Considerese los siguientes conjuntos:
S = {1 6 enteros 6 12}
B = {2, 6, 7, 8, 9, 10, 11}
A = {1, 3, 5, 12}
C = {1, 3, 4, 6, 7, 8}
Sobre tales conjuntos, se pueden ejecutar las siguientes operaciones:
A B = {1, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12}

AB =
A C = {1, 3, 4, 5, 6, 7, 8, 12}
A C = {1, 3}
B C = {1, 2, 3, 4, 6, 7, 8, 9, 10, 11}
B C = {6, 7, 8}
A = {2, 4, 6, 7, 8, 9, 10, 11}
B = {1, 3, 4, 5, 12}
C = {2, 5, 9, 10, 11, 12}
Algebra de conjuntos
Todos los subconjuntos del conjunto universal forman un sistema alge-

braico para el que cierto numero de teoremas y de propiedades pueden esta-
blecerse.
Ley conmutativa
AB = BA
AB = BA
Ley distributiva
A (B C) = (A B) (A C)
A (B C) = (A B) (A C)
Ley asociativa
(A B) C = A (B C)
= ABC
(A B) C = A (B C)
= ABC
Leyes de De Morgan
AB = AB
AB = AB
Principio de la dualidad
Si en una identidad se reemplazara uniones por intersecciones, intersec-
ciones por uniones, S por y por S, la identidad se mantendra.
Ejemplo
Considerese la identidad
1.3. LOS CONCEPTOS DE LA PROBABILIDAD 9
A (B C) = (A B) (A C)
Si se aplica el principio de la dualidad, queda entonces como
A (B C) = (A B) (A C)
lo cual es una identidad cierta.
1.3. Los conceptos de la Probabilidad

La nocion de experimento fsico es importante en la teora de la probabi-
lidad. Un experimento podra consistir en hacer rodar un dado y observar el
numero que sale. Cada ejecucion del experimento recibe el nombre de prueba
para el que hay un resultado. Al rodar el dado, hay seis numeros que pueden
salir y entre todos constituyen todos los posibles resultados del experimen-
to. Si el dado no esta cargado, la intuicion nos dice que cada resultado es
igualmente probable que ocurra, y la probabilidad de que cada uno ocurra es
1/6. Este experimento pareciera verse gobernado por dos conjuntos. Uno es
el conjunto de todos los posibles resultados, y el otro es el conjunto de las
probabilidades de los resultados. Cada conjunto tiene seis elementos. Por el
momento se considera solo el conjunto de resultados.
Al conjunto de todos los posibles resultados se le llama espacio de mues-
tras y se le asigna el smbolo S. El espacio de muestras es un conjunto
universal para el experimento dado.
En el ejemplo de tirar el dado, S fue un conjunto finito de 6 elementos. Tal
tipo de espacios de muestra son discretos y finitos. Tambien los hay discretos
e infinitos: S en el experimento escoger aleatoriamente un entero positivo es
el conjunto enumerablemente infinito {1, 2, 3, . . .}.
Algunos experimentos tienen un espacio de muestras no enumerable e in-

finito, como en el experimento definido por obtener un numero moviendo un
puntero sobre una rueda de la fortuna numerada de 0 a 12 ; en este experi-
mento cualquier numero s entre 0 y 12 puede aparecer y S = {0 6 s 6 12}.
Tal espacio de muestras se describe como continuo.
En la mayora de las veces, se esta interesado en alguna caracterstica
de los resultados del experimento en vez de estarlo en los mismos resulta-
dos. Esto lleva a la definicion de un evento. Un evento se define como un
subconjunto del espacio S de muestras.
Dado que un evento es un conjunto, todos las definiciones y nociones
dadas para conjuntos, se aplican a un evento. Si por ejemplo dos eventos no
tienen resultados comunes, son mutuamente excluyentes.
En un experimento con naipes, 13 de los 52 posibles resultados son es-
padas. Dado que cada resultado de obtener una espada satisface el evento
obtener una espada, este evento es un conjunto con 13 elementos. En este
ejemplo, puede haber hasta 2N = 252 4,5(10)15 eventos.
Los eventos pueden ser discretos o continuos. Un ejemplo de un even-
to discreto y enumerablemente infinito sera escoger un entero impar en el
experimento escoger al azar un entero, positivo.
Los eventos definidos en espacios de muestras continuos son usualmente
continuos, pero tambien puede definirse eventos discretos sobre espacios de
muestras continuos.
1.3.1. Definicion y axiomas de la probabilidad
Para cada evento definido sobre un espacio de muestras S, se asignara un

numero no-negativo llamado probabilidad.
La probabilidad es una funcion de los eventos definidos. Se usa la notacion
P (A) para denotar la probabilidad del evento A.

Las probabilidades que se asignan se escogen para satisfacer tres axio-
mas. Sea A un evento definido sobre un espacio de muestras S. Entonces los
primeros dos axiomas son:
Axioma 1: P (A) 0 (1.5)

Axioma 2: P (S) = 1 (1.6)
El primer axioma indica el deseo de trabajar con numeros no-negativos.

El segundo axioma reconoce que el espacio de muestras mismo es un evento,
y dado que es el evento que los incluye a todos, debera tener la probabilidad
mas grande posible, que se escoge como 1. Por esta razon, S es conocido
como el evento seguro. Por otro lado, el conjunto nulo es un evento sin
elementos; es conocido como el evento imposible y su probabilidad es 0.
El tercer axioma aplica a N eventos An , n = 1, 2, ....., N donde N puede
ser infinito, definido sobre un espacio de muestras S, con la propiedad Am
An = para todo m 6= n.
N
! N
[ X
Axioma 3: P An = P (An ) (1.7)
n=1 n=1
si Am An = para todo m 6= n = 1, 2, . . . , N con N que puede ser infinito.

El axioma establece que la probabilidad del evento igual a la union de cual-
quier numero de eventos mutuamente excluyentes es igual a la suma de las
probabilidades de los eventos individuales.
Ejemplo
Aqu se analiza la situacion que puede ocurrir cuando se define un evento
discreto sobre un espacio continuo de muestras.
Considerese el experimento que consiste en obtener un numero x al dar

vuelta a una aguja inserta en una rueda de la fortuna (en buen estado) que
tiene una marcacion con numeros de 0 a 100. El espacio de muestras es
S = {0 < x 6 100}.
La probabilidad de que el puntero caiga entre dos numeros x1 , x2 con
x2 x1
x1 6 x2 , podra pensarse que habra de ser puesto que la rueda no
100
esta alterada. Se puede ver que el evento A = {x1 < x 6 x2 } satisface el
axioma 1 para todo x1 y x2 y el axioma 2 cuando x2 = 100 y x1 = 0.
Si ahora se parte la periferia de la rueda en N segmentos contiguos An
de tal forma que An = {xn1 < x 6 xn }, xn = n(100)/N , n = 1, 2, . . . , N
con x0 = 0 entonces, de acuerdo con el parrafo anterior, P (An ) = 1/N y,
para cualquier N ,
N
! N N
[ X X 1
P An = P (An ) = = 1 = P (S)
n=1 n=1 n=1
N
lo que satisface el axioma 3.
Si en este ejemplo se hace que xn xn1 0, la probabilidad P (An )
P (xn ); es decir, P (An ) deviene la probabilidad del puntero que cae directa-
mente en el punto xn . Puesto que N en esta situacion, P (An ) 0.
As, la probabilidad de un evento discreto definido sobre un espacio continuo
de muestras es 0. Esto es cierto en general.
Una consecuencia de la deduccion anterior es que ciertos eventos pueden

ocurrir aun si su probabilidad es 0. Intuitivamente, puede obtenerse cualquier
numero de la rueda de la fortuna, pero tal numero exacto pueda que no ocurra
otra vez. El espacio infinito de muestras tiene solo un resultado que satisface
tal evento discreto, por lo que su probabilidad es 0. Tales eventos no son los
mismos como el evento imposible que no tiene elementos y no puede ocurrir.
La situacion inversa puede tambien suceder donde eventos con probabilidad
1 pueda que no ocurran. Un ejemplo para el experimento de la rueda de la

fortuna sera el evento A = {todos los numeros excepto el numero xn }. Los
eventos con probabilidad 1, que puedan no ocurrir, no son los mismos que el
evento seguro que debe ocurrir.
1.3.2. Modelo matematico de experimentos

Un experimento real dentro del contexto de nuestro estudio, se define
matematicamente mediante tres caractersticas: (1) asignacion de un espacio
de muestras llamado tambien espacio de probabilidad; (2) definicion de los
eventos de interes y, (3) asignacion de probabilidad a los eventos tal que se
satisfagan los axiomas.
Ejemplo
(1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)

(2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)
(3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)
(1.8)
(4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)
(5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6)
(6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)
Un experimento consiste en observar la suma de los numeros que se mues-
tran cuando dos dados se lanzan. Se desarrolla un modelo para este experi-
mento. En este modelo, se construye una matriz con 36 puntos consistentes
en los pares ordenados que resultan de acomodar los resultados obtenidos al
lanzar los dos dados.
Cada posible resultado corresponde a una suma con valores de 2 a 12.
Supongase que estamos interesados en tres eventos definidos por A =
{suma = 7}, B = {8 < suma 6 11} y C = {10 < suma}. Para asignar
probabilidades a estos eventos, es conveniente primero definir 36 eventos ele-
mentales Aij = {suma para resultado (i, j) = i + j}, donde i representa la
fila y j representa la columna, que localizan un resultado particular posible en

la matriz anterior. Un evento elemental tiene solo un elemento.
Para la asignacion de probabilidades, la intuicion indica que cada posible
resultado tiene la misma posibilidad de ocurrir si los dados no estan cargados,
por lo que P (Aij ) = 1/36. Dado que los eventos Ai,j , i, j = 1, 2, . . . , N = 6,
son mutuamente excluyentes, deben satisfacer el axioma 3. Dado que los even-
tos A, B, C son simplemente las uniones de eventos elementales apropiados,
sus probabilidades se derivan del axioma 3.
6
! 6
[ X 1 1
P (A) = P Ai,7i = P (Ai,7i ) = 6 =
i=1 i=1
36 6

1 1 1 1
P (B) = 9 = P (C) = 3 =
36 4 36 12
Adicionalmente,

1 1 10 5
P (B C) = 2 = P (B C) = =
36 18 36 18
1.3.3. Probabilidad condicional y conjunta

Puede ser que haya algunos eventos que no sean mutuamente excluyentes
debido a elementos comunes en el espacio de probabilidad. Estos elementos
corresponden a la ocurrencia simultanea o conjunta de los eventos no ex-
cluyentes. Para dos eventos A y B, los elementos comunes forman el evento
AB
Probabilidad conjunta
La probabilidad P (A B) se llama la probabilidad conjunta para dos

eventos A y B que se intersecan en el espacio de muestras. El estudio de un
diagrama de Venn mostrara que
P (A B) = P (B) + P (A)P (A B) (1.9)
Equivalentemente,
P (A B) = P (A) + P (B)P (A B) 6 P (A) + P (B) (1.10)
La probabilidad de la union de dos eventos nunca excede la suma de las

probabilidades de los eventos. La igualdad solo ocurre para eventos mutua-
mente excluyentes.
Probabilidad condicional
Dado algun evento B con una probabilidad P (B) > 0 y no nula, se define
la probabilidad condicional de un evento A dado B, por
P (A B)
P (A | B) = (1.11)
P (B)
Esta probabilidad refleja el hecho de que la probabilidad de un evento A
depende de un segundo evento B. Si A y B son mutuamente excluyentes,
A B = , con lo que P (A | B) = 0.
Ejemplo
Tolerancia
Resistencia () 5 % 10 % Total
22 10 14 24
47 28 16 44
100 24 8 32
Total 62 38 100
Cuadro 1.1: Distribucion de valores de las resistencias en la caja.

En una caja hay 100 resistencias, cuyos valores se distribuyen de acuerdo

con el Cuadro 1.1. Escojase una resistencia de la caja y suponga que cada re-
sistencia tiene la misma probabilidad de ser escogida. Tres eventos se definen:
A es el evento escoger una resistencia de 47 ohmios, B es el evento
escoger una resistencia con 5 % de tolerancia y C es el evento
escoger una resistencia de 100 ohmios. De la tabla, las probabilidades
aplicables son:
44
P (A) =
100
62
P (B) =
100
32
P (C) =
100
Las probabilidades conjuntas son:
28
P (A B) =
100
P (A C) = 0
24
P (B C) =
100
Las probabilidades condicionales son:
P (AB)
P (A | B) = P (B)
= 28
62
P (AC)
P (A | C) = P (C)
= 0
P (BC)
P (B | C) = P (C)
= 24
32
Probabilidad total
La probabilidad P (A) de cualquier evento A definido sobre un espacio S

de muestras puede expresarse en terminos de probabilidades condicionales.
Supongase que estan definidos N eventos mutuamente excluyentes Bn , n =

1, 2, . . . , N cuya union iguala S.
Los anteriores eventos Bn satisfacen
N
[
Bn = S Bm Bn =
n=1
para todo m 6= n.
Se tiene que,
A = AS !
N
[
= A Bn
n=1
N
[
= (A Bn )
n=1
Los eventos A Bn son mutuamente excluyentes. Si se aplica el axioma

3 a estos eventos,
P (A) = P (A S)
"N #
[
= P (A Bn )
n=1
N
X
= P (A Bn )
n=1
XN
= P (A | Bn )P (Bn )
n=1
que se conoce como la probabilidad total del evento A.

Teorema de Bayes
La definicion de probabilidad condicional, aplica a cualesquiera dos even-

tos. En particular, sea Bn .
P (Bn A)
P (Bn | A) = (1.12)
P (A)
si P (A) 6= 0, o tambien,
P (A Bn
P (A | Bn ) = (1.13)
P (Bn )
si P (Bn ) 6= 0. Una forma del teorema de Bayes se obtiene igualando estas
dos dos ultimas expresiones:
P (A | Bn )P (Bn )
P (Bn | A) = (1.14)
P (A)
Una ecuacion equivalente (y mas conocida) se obtiene de una sustitucion
de P (A) en terminos de una probabilidad total:
P (A | Bn )P (Bn )
P (Bn | A) = (1.15)
P (A | B1 )P (B1 ) + + P (A | BN )P (BN )
para n = 1, 2, . . . , N .
Ejemplo
Un sistema de comunicaciones binario elemental consiste de un transmi-
sor que enva uno de dos posibles smbolos (un uno o un cero) sobre un canal
a un receptor. El canal ocasiona errores de modo que un uno aparece en el
receptor como un cero, y viceversa.
El espacio de muestras tiene dos elementos ( cero o uno). Se denota
por Bi , i = 1, 2, los eventos el smbolo antes del canal es uno y el
smbolo antes del canal es cero, respectivamente. Ademas, defina Ai ,
i = 1, 2 como los eventos el smbolo despues del canal es uno y el

smbolo despues del canal es cero, respectivamente. Las probabilidades
que los smbolos uno y cero sean escogidos para transmision se suponen que
son
P (B1 ) = 0,6 P (B2 ) = 0,4
Las probabilidades condicionales describen el efecto que el canal tiene so-

bre los smbolos transmitidos. Las probabilidades de recepcion dado que un
uno haya sido transmitido se supone que son
P (A1 | B1 ) = 0,9 P (A2 | B1 ) = 0,1
El canal afecta a los ceros de la manera como se indica a continuacion:
P (A1 | B2 ) = 0,1 P (A2 | B2 ) = 0,9
En cualquier caso, P (A1 | Bi ) + P (A2 | Bi ) = 1 porque A1 y A2 son mu-

tuamente excluyentes y son los unicos eventos que pasan del lado del receptor
(otro que los eventos poco interesantes S y ).
De la definicion de probabilidad total se obtiene las probabilidades de
smbolo recibido:
P (A1 ) = P (A1 | B1 )P (B1 ) + P (A1 | B2 )P (B2 )

= (0,9)(0,6) + (0,1)(0,4)
= 0,58
P (A2 ) = P (A2 | B1 )P (B1 ) + P (A2 | B2 )P (B2 )
= (0,1)(0,6) + (0,9)(0,4)
= 0,42
Se tiene ademas:
P (A1 B1 ) P (A1 | B1 )P (B1 ) (0,9)(0,6) 0,54

P (B1 | A1 ) = = = = = 0,931
P (A1 ) P (A1 ) 0,58 0,58
P (A2 B2 ) P (A2 | B2 )P (B2 ) (0,9)(0,4) 0,36

P (B2 | A2 ) = = = = = 0,857
P (A2 ) P (A2 ) 0,42 0,42
P (B1 A2 ) P (A2 | B1 )P (B1 ) (0,1)(0,6) 0,06

P (B1 | A2 ) = = = = = 0,143
P (A2 ) P (A2 ) 0,42 0,42
P (A1 B2 ) P (A1 | B2 )P (B2 ) (0,1)(0,4) 0,04

P (B2 | A1 ) = = = = = 0,069
P (A1 ) P (A1 ) 0,58 0,58
Estos ultimos dos numeros son probabilidades de error del siste-

ma, mientras que P (B1 | A1 ) y P (B2 | A2 ) son probabilidades de transmision
correcta de los smbolos.
En el teorema de Bayes, las probabilidades P (Bn ) se conocen usualmente

como probabilidades a priori, dado que se aplican a los eventos Bn
antes de la ejecucion del experimento. Similarmente, las probabilidades P (A |
Bn ) son numeros tpicamente conocidos antes de ejecutar el experimento.
Las probabilidades condicionales a menudo se llaman probabilidades de
transicion en el contexto de la teora de telecomunicaciones. Por otro lado,
las probabilidades P (Bn | A) se llaman probabilidades a posteriori
dado que se aplican despues de la ejecucion del experimento cuando se obtiene
un evento A.
1.3.4. Eventos independientes
Caso de dos eventos Sean A y B dos eventos con probabilidades no nu-

las de ocurrencia, P (A) 6= 0 6= P (B). Estos eventos son llamados
estadsticamente independientes si la probabilidad de ocurren-
cia de un evento no es afectada por la ocurrencia del otro
evento. Matematicamente,
P (A | B) = P (A) (1.16)
para eventos estadsticamente independientes. Asimismo,
P (B | A) = P (B) (1.17)
para eventos estadsticamente independientes. La independencia estadstica

de dos eventos implica tambien que
P (A B) = P (A)P (B) (1.18)
Las ecuaciones 1.16 y 1.18 son condiciones tanto necesarias como suficien-
tes. En consecuencia, la ecuacion 1.18 puede servir como test de independen-
cia.
Se ha establecido que la probabilidad conjunta de dos eventos mutuamen-
te excluyentes es 0:
P (A B) = 0 (1.19)
Si los dos eventos tienen probabilidades no nulas de ocurrir, entonces al

comparar las ecuaciones 1.18 y 1.19, se deduce que dos eventos no pueden ser
tanto mutuamente excluyentes como estadsticamente independientes. Por lo
tanto, para que dos eventos sean independientes deben tener una interseccion
A B 6= .
Si un problema involucra mas de dos eventos que satisfacen ya sea 1.16
o 1.18, se dice que tales eventos son independientes por parejas.
Caso de eventos multiples Cuando hay mas de dos eventos involucrados,
la independencia por parejas no es suficiente para establecer los eventos como
estadsticamente independientes.
Para el caso de tres eventos A1 , A2 , A3 , se dice que son independientes si
y solo si, son independientes por parejas todos y son tambien independientes
como tro, es decir, deben satisfacer las cuatro ecuaciones siguientes:
P (A1 A2 ) = P (A1 )P (A2 )

P (A1 A3 ) = P (A1 )P (A3 )
P (A2 A3 ) = P (A2 )P (A3 )
P (A1 A2 A3 ) = P (A1 )P (A2 )P (A3 )
Mas generalmente, para que N eventos A1 , A2 , . . . , AN sean estadstica-

mente independientes, se requiere que todas las condiciones siguientes se
satisfagan:
P (Ai Aj ) = P (Ai )P (Aj )

P (Ai Aj Ak ) = P (Ai )P (Aj )P (Ak )
..
.
P (A1 A2 . . . AN ) = P (A1 )P (A2 ) . . . P (AN )
para todo 1 6 i < j < k < . . . 6 N . Hay 2N N 1 de estas condiciones.
Ejemplo
Considerese retirar cuatro cartas de un juego ordinario de 52 cartas. Sean

A1 , A2 , A3 , A4 eventos definidos al escoger un as en el primer intento, otro
en el segundo, otro en el tercero y otro en el cuarto respectivamente. Con-
siderese dos casos. El primer caso es escoger los ases asumiendo que cada
carta se reemplaza despues de escogida. En este caso, la intuicion nos dice
que los eventos son independientes de modo que P (A1 A2 A3 A4 ) =
4 4
P (A1 )P (A2 )P (A3 )P (A4 ) = ( 52 ) 3,50(105 ).
El segundo caso es cuando se retiene la carta despues de escogida. Se
espera ahora que los eventos no son independientes. En el caso general, se
escribe:
P (A1 A2 A3 A4 ) = P (A1 )P (A2 A3 A4 | A1 )

= P (A1 )P (A2 | A1 )P (A3 A4 | A1 A2 )
= P (A1 )P (A2 | A1 )P (A3 | A1 A2 )
P (A4 | A1 A2 A3 )

4 3 2 1
=
52 51 50 49
6
= 3,69(10 )
De esta forma, se tiene aproximadamente 9,5 veces un mejor chance de

escoger cuatro ases cuando se restituyen las cartas que cuando no. Este es
un resultado intuitivamente correcto puesto que al reemplazar la carta sube
la probabilidad de sacar un as en la proxima escogencia.
Propiedades de eventos independientes
Muchas propiedades de eventos independientes se sumarizan en el siguien-

te resultado: si N eventos A1 , A2 , A3 , . . . , AN son independientes, entonces
cualquiera de ellos es independiente de cualquier evento formado por unio-

nes, intersecciones, y complementos de los otros. Algunos ejemplos de la
aplicacion de este enunciado son los siguientes:
1. Para dos eventos independientes A1 y A2 , A1 es independiente de A2 ,

A1 es independiente de A2 , y A1 es independiente de A2 .
2. Para tres eventos independientes A1 , A2 y A3 , cualquiera de ellos es

independiente de la ocurrencia conjunta de los otros dos. Por ejemplo:
P [A1 (A2 A3 )] = P (A1 )P (A2 )P (A3 ) = P (A1 )P (A2 A3 ) (1.20)
con expresiones similares posibles para los otros casos A2 (A1 A3 )

y A3 (A1 A2 ). Cualquiera de los eventos es tambien independiente
de la union de los otros dos. Por ejemplo:
P [A1 (A2 A3 )] = P (A1 )P (A2 A3 ) (1.21)
Las ecuaciones 1.20 y 1.21 no son validas si solo los eventos son inde-
pendientes por parejas.
1.3.5. Pruebas de Bernoulli o pruebas repetidas

Las pruebas de Bernoulli consisten en un tipo de experimento para el
que solo hay dos resultados posibles en cualquier prueba. Ejemplos de tales
experimentos son numerosos: tirar una moneda, acertar o fallar un objetivo
en artillera, aprobar o perder un examen, recibir un uno o un cero en un
tren de bits de computador, o ganar o perder en un juego de azar.
Para este tipo de experimento, sea A el evento elemental que tiene uno de
los dos resultados posibles como su elemento. A es el otro posible (y unico)
evento elemental. Se repetira el experimento basico N veces, y se calculara la
probabilidad de que A acaezca k veces en las N veces. De aqu le viene el
nombre de pruebas repetidas o ensayos de Bernoulli.
Supongase que los eventos elementales son estadsticamente independien-
tes por cada ensayo. El evento A ocurre en cualquier ensayo con probabilidad
P (A) = p. El evento A entonces tiene probabilidad P (A) = 1 p.
Despues de N ensayos del experimento basico, una secuencia particular
de resultados tiene el evento A ocurriendo k veces, seguido por el evento A
ocurriendo N k veces. Puesto que se asumio la independencia estadstica
de los ensayos, la probabilidad de esta secuencia particular es:
P (A)P (A) P (A) P (A)P (A) P (A) = pk (1 p)N k (1.22)

| {z }| {z }
k terminos N k terminos
Claramente, hay otras secuencias particulares que dan k eventos A y N k

eventos A. La probabilidad de cada una de estas secuencias esta dada por la
ecuacion 1.22. Dado que la suma de tales probabilidades sera la probabilidad
deseada de A ocurriendo exactamente k veces en N ensayos, es necesario
encontrar la cantidad de tales secuencias. Tal cantidad es igual al numero de
maneras de tomar k objetos de una vez de una coleccion de N objetos. Del
analisis combinatorio, este numero se sabe que es:

N N!
= = {N
k (1.23)
k k!(N k)!
N

La cantidad k
se conoce como coeficiente binomial.
Se obtiene finalmente:

N k
P {A ocurre exactamente k veces} = p (1 p)N k (1.24)
k
Ejemplo
Un submarino intenta hundir un portaaviones. Sera exitoso solamente si
dos o mas torpedos aciertan en el barco. Si el submarino dispara tres torpedos
y la probabilidad de un acierto es 0,4 por cada torpedo, cual es la probabilidad
de que el barco sea hundido?
Defina el evento A = {aciertos de torpedo}. Entonces P (A) = 0,4, N =
3. Las probabilidades se hallan como sigue:

3
P {ningun acierto} = (0,4)0 (1 0,4)3 = 0,216
0

3
P {exactamente un acierto} = (0,4)1 (1 0,4)2 = 0,432
1

3
P {exactamente dos aciertos} = (0,4)2 (1 0,4)1 = 0,288
2

3
P {exactamente tres aciertos} = (0,4)3 (1 0,4)0 = 0,064
3
La respuesta que se busca es:
P {hundir un barco} = P {dos o mas aciertos de torpedos}

= P {exactamente dos aciertos} + P {exactamente tres aciertos}
= 0,288 + 0,064
= 0,352
Ejemplo
En un cultivo usado para investigacion biologica el crecimiento de bacte-
rias (lo cual es inevitable) ocasionalmente altera los resultados de un experi-
mento que requiere a lo menos 3 de cuatro cultivos sin alterar para obtener
un punto dato. La experiencia ha demostrado que alrededor de 6 sobre 100
cultivos son alterados por las bacterias. Si el experimento requiere de tres
puntos datos inalterados y simultaneamente obtenidos para que sea exitoso,
se encontrara la probabilidad de exito por cada conjunto dado de 12 cultivos
(tres puntos datos a partir de cuatro cultivos cada uno).
Para resolver este problema, se calculara primero la probabilidad de en-
contrar un punto dato valido a partir de cuatro cultivos. Por consiguiente, se
tiene un problema de ensayo Bernoulli con N = 4 y p = P {buen cultivo} =
94
100
= 0,94.
P {punto dato valido} = P {3 cultivos buenos} + P {4 cultivos buenos}

4 3 4
= (0,94) (1 0,94) + (0,94)4 (1 0,94)0
3 4
= 0,98
Como se tiene la probabilidad de obtener un punto dato y lo que se busca es

la probabilidad de exito por cada conjunto dado de 12 cultivos, se debe buscar
la probabilidad de conseguir tres puntos dato validos. Se tiene entonces un
problema de ensayo Bernoulli con N = 3 y p = P {punto dato valido} = 0,98.
P {experimento exitoso} = P {3 puntos datos validos}

3
= (0,98)3 (1 0,98)0
3
= 0,941
El experimento dado sera exitoso cerca del 94,1 por ciento del tiempo.
Aproximaciones
Cuando N , k y (N k) son grandes, los factoriales presentes en la ecua-

cion 1.24 son difciles de evaluar, por lo que se emplea formulas de aproxi-
macion. Una de ellas es la formula de Stirling descrita por
1
m! (2m) 2 mm em (1.25)
para m grande. Al aplicar esta formula a los factoriales junto con otras apro-
ximaciones, se obtiene
(k N p)2

N k N k 1
p (1 p) p exp (1.26)
k 2N p(1 p) 2N p(1 p)
Esta ecuacion, llamada aproximacion de De Moivre-Laplace, vale para N ,

k, (N k) grandes, k cerca de N p tales que sus desviaciones de N p (mas
arriba o mas abajo) son pequenas en magnitud relativas tanto a N p como a
N (1 p).
Ejemplo
Supongase que cierta ametralladora dispara balas durante tres segundos a
una tasa de 2400 por minuto, y la probabilidad de que una bala acierte en un
objetivo grande es 0,4. Encuentrese la probabilidad de que exactamente 50 de
las balas acierten en el objetivo.
Aqu N = 3( 2400
60
) = 120, k = 50, p = 0,4, N p = 120(0,4) = 48 y
N (1 p) = 120(0,6) = 72. As, puesto que N , k, (N k) = 70 son grandes
en tanto que k esta cerca de N p y la desviacion de k de N p (50 48 = 2) es
mucho mas pequena que N p = 48 y N (1 p) = 72, se puede usar la formula
de aproximacion anterior:
(50 120(0,4))2

120 50 12050 1
0,4 (0,6) p exp
50 2120(0,4)(0,6) 2(120)(0,4)(0,6)
= 0,0693
La aproximacion de De Moivre-Laplace deja de ser precisa cuando N se

vuelve muy grande mientras que p es muy pequena. Para estas condiciones,
se usa la aproximacion de Poisson:
(N p)k eN p

N k
p (1 p)N k (1.27)
k k!
para N grande y p pequena.
Captulo 2
Variables aleatorias
31
32 CAPITULO 2. VARIABLES ALEATORIAS
2.1. Preambulo
El concepto de variable aleatoria es muy importante dentro de la teora
general de los procesos estocasticos. De hecho, es el concepto fundamental
que soporta tal teora.
Es conveniente prestarle mucha atencion pues, una vez comprendido, la
presentacion de la materia relevante se hace muy comprensible.
2.2. Concepto
Una variable aleatoria real (las hay tambien complejas) es una funcion
real de los elementos de un espacio de muestras S. Una variable aleatoria se
representara por una letra mayuscula (W, X, Y) y cualquier valor particular
de la variable aleatoria por una letra minuscula (w, x, y). De esta forma, dado
un experimento definido por un espacio de muestras S con elementos s, se
asigna a todo s un numero real X(s) de acuerdo con alguna regla especfica,
y a X(s) se le llama variable aleatoria.
Una variable aleatoria X puede verse como una funcion que mapea todos
los elementos del espacio S a puntos sobre la recta real o sobre algunos
segmentos de ella.
Ejemplo
Un experimento consiste en tirar un dado y voltear una moneda. El espa-
cio de muestras consiste de doce elementos:
(C, 6) (E, 6)
(C, 5) (E, 5)
(C, 4) (E, 4)
(C, 3) (E, 3)
(C, 2) (E, 2)
(C, 1) (E, 1)
2.2. CONCEPTO 33
Sea X una variable aleatoria definida como: (1) un resultado escudo co-
rresponde a valores positivos de X que son iguales a los numeros que se
muestran en el dado y, (2) un resultado corona corresponde a valores nega-
tivos de X que son iguales en magnitud a dos veces el numero aparecido en
el dado. X mapea S a doce valores entre 12 y 6.
Ejemplo
Considerese una rueda con numeros marcados en su circunferencia, nu-
merados de 1 a 12, imitando un reloj, con la diferencia de que hay un pun-
tero en lugar de las dos manecillas del reloj. De esta forma, si se da vuelta
al puntero, este senalara un numero localizado en el intervalo ]0, 12]. El ex-
perimento fsico a considerar en este caso es girar el puntero y producir un
numero dentro del intervalo dado. S consiste de los numeros en el conjunto
{0 < s 6 12}. Se define una variable aleatoria por la funcion X = X(s) = s2 .
Los puntos de S mapean a la recta real como el conjunto {0 < x 6 144}.
Como se ve de estos dos ejemplos, una variable aleatoria es una funcion

que mapea cada punto en S a algun punto de la recta real. No es necesario
que los puntos del espacio de muestras mapeen en forma unica, en el sentido
de que mas de un punto en S puede mapear a un solo valor de X. Por ejemplo,
en un caso extremo, se mapea todos los 6 puntos en el espacio de muestras
del experimento tirar un dado y observar el numero que aparece al punto
unico X = 2.
Condiciones para que una funcion sea una variable aleatoria
Una variable aleatoria puede ser cualquier funcion que se desee, excepto
que no puede ser multivaluada. Es decir, todo punto en S debe corresponder
a solamente un valor de la variable aleatoria. Dos condiciones adicionales
deben ser satisfechas por una funcion X para que sea una variable aleatoria.
1. El conjunto {X 6 x} sera un evento para cualquier numero real x. Es-

te conjunto corresponde a aquellos puntos s en el espacio de muestras
para los que la variable aleatoria X(s) no excede el numero x. La pro-
babilidad de este evento, denotado por P {X 6 x}, es igual a la suma
de las probabilidades de todos los eventos elementales correspondientes
a {X 6 x}.
2. Las probabilidades de los eventos {X = } y {X = } han de ser

cero:
P {X = } = 0 P {X = } = 0
La segunda condicion no previene a X de ser ya sea o para algunos

valores de s; la condicion pide tan solo que la probabilidad del conjunto de
estos s sea cero.
2.2.1. Variables aleatorias discretas y continuas

Una variable aleatoria discreta es una que toma solamente valores discre-
tos. El espacio de probabilidad para una variable aleatoria discreta puede ser
discreto, continuo o una mezcla de puntos discretos y continuos.
Una variable aleatoria continua es una que tiene un ambito continuo de
valores. No puede originarse de un espacio de muestras discreto debido al
requisito de que toda variable aleatoria sea una funcion univaluada de todos
los puntos del espacio de muestras. De manera similar, una variable aleatoria
continua no puede resultar de un espacio de muestras mixto debido a la
presencia de la porcion discreta del espacio de probabilidad.
Variable aleatoria mixta
Una variable aleatoria mixta es una para la que algunos de sus valores
son discretos y algunos son continuos. Este caso es de los menos importantes,
2.3. LA FUNCION DE DISTRIBUCION 35
pero ocurre en algunos problemas de importancia practica.
2.3. La funcion de distribucion

La probabilidad P {X 6 x} es la probabilidad del evento {X 6 x}. Es un
numero que depende de x; es decir, es una funcion de x. A esta funcion se le
llama funcion de distribucion de probabilidad acumulativa (funcion de dis-
tribucion probabilstica acumulativa) de la variable aleatoria X. Se le denota
de la siguiente forma:
FX (x) = P {X 6 x} (2.1)
Esta funcion sera a menudo llamada simplemente funcion de distribucion

de X. El argumento x es cualquier numero real entre y .
La funcion de distribucion presenta las siguientes propiedades, derivadas
del hecho de que FX (x) es una probabilidad.
1. FX () = 0
2. FX () = 1
3. 0 6 FX (x) 6 1
4. FX (x1 ) 6 FX (x2 ) si x1 < x2
5. P {x1 < X 6 x2 } = FX (x2 ) FX (x1 )
6. FX (x+ ) = FX (x) donde x+ significa x + donde > 0 es infinitesimal-

mente pequeno; es decir, 0.
La cuarta condicion establece que FX (x) es una funcion no-decreciente de

x. La quinta condicion establece que la probabilidad de que X tenga valores
mas grandes que algun numero x1 pero que no exceda otro numero x2 , es igual
a la diferencia en FX (x) evaluada en tales puntos. Esto viene del hecho de
que los eventos {X 6 x1 } y {x1 < X 6 x2 } son mutuamente excluyentes de
modo que, la probabilidad del evento {X 6 x2 } = {X 6 x1 }{x1 < X 6 x2 }
es la suma de las probabilidades P {X 6 x1 } y P {x1 < X 6 x2 }. La sexta
propiedad establece que FX (x) es una funcion continua desde la derecha.
Las propiedades 1, 2, 4 y 6 pueden usarse como temes en una prueba
para probar si una funcion dada es una funcion de distribucion valida. Las
cuatro propiedades deben ser satisfechas.
Si X es una variable aleatoria discreta, FX (x) debe tener una forma es-
calonada. La amplitud de un escalon igualara la probabilidad de ocurrencia
del valor de X donde el escalon ocurre. Si los valores de X se denotan xi ,
FX (x) se escribe como:
N
X
FX (x) = P {X = xi }u(x xi ) (2.2)
i=1
donde u( ) es la funcion escalon unitario y N puede ser infinito para algunas

variables aleatorias. Si se introduce la notacion abreviada:
P (xi ) = P {X = xi }
se puede reescribir,
N
X
FX (x) = P (xi )u(x xi ) (2.3)
i=1
Ejemplo
X tiene los valores discretos {1; 0,5; 0,7; 1,5; 3}. Las probabilidades co-
rrespondientes son {0,1; 0,2; 0,1; 0,4; 0,2}. Ahora, P {X < 1} = 0 dado que
no hay puntos del espacio de muestra en el conjunto {X < 1}. Solamente
2.4. FUNCION DE DENSIDAD PROBABILISTICA 37
cuando X = 1 se obtiene un resultado y hay un salto inmediato en probabi-

lidad de 0,1 en la funcion FX (x) en el punto x = 1. Para 1 < x < 0,5,
no hay puntos del espacio de muestra adicionales de modo que FX (x) per-
manece constante en el valor 0,1. En x = 0,5, hay otro salto de 0,2 en
FX (x). Este proceso continua hasta que se incluye todos los puntos. Despues
del ultimo punto, FX (x) iguala 1,0.
Una variable aleatoria continua tendra una funcion de distribucion con-

tinua.
La funcion de distribucion de una variable aleatoria mixta es una suma
de dos partes, una en forma escalonada, la otra continua.
2.4. Funcion de densidad probabilstica

La funcion de densidad probabilstica, denotada por fX (x), esta definida
por la derivada de la funcion de distribucion:
dFX (x)
fX (x) = (2.4)
dx
A fX (x) a menudo se le llama simplemente funcion de densidad.
Para una variable aleatoria discreta, despues de derivar FX (x):
N
X
fX (x) = P (xi )(x xi ) (2.5)
i=1
La funcion de densidad para una variable aleatoria discreta existe en el

sentido que se usa funciones impulso para describir la derivada de FX (x) en
sus puntos de escalon.
Una interpretacion fsica de 2.5 es la siguiente: la probabilidad de X para
tener un valor particular xi es P (xi ). Si este numero se asigna al punto xi
entonces la densidad de probabilidad es infinita dado que un punto no tiene
ancho en el eje X. La amplitud infinita de la funcion impulso describe tal

densidad infinita. El tamano de la densidad de probabilidad en x = xi es
indicada por el factor de escala P (xi ) dando P (xi )(x xi ) para la densidad
en el punto x = xi .
Las funciones de densidad presentan las siguientes propiedades:
1. fX (x) > 0 para todo x.

Z
2. fX (x)dx = 1.

Z x
3. FX (x) = fX ()d.

Z x2
4. P {x1 < X 6 x2 } = fX (x)dx.
x1
Las dos primeras propiedades requieren que la funcion de densidad sea

no-negativa y tenga un area unidad. Estas dos propiedades pueden usarse
como pruebas para ver si una funcion gX (x) puede ser una valida funcion de
densidad probabilstica. La tercera propiedad sirve de eslabon entre fX (x) y
FX (x). La cuarta propiedad relaciona la probabilidad de que X tenga valores
entre x1 y x2 , con la funcion de densidad.
Ejemplo
Se tiene una funcion gX (x) definida por:

0 x0 > x > x0 +

1
2
(x x0 + ) x0 6 x < x0
gX (x) =

1 1
(x x0 ) x0 6 x < x0 +

2
Se trata de una funcion triangular, con una area determinada por el pro-
ducto a. Para que sea una funcion de densidad, se debe tener que a = 1,
con lo que a = 1/. Si a toma este valor, entonces la funcion de distribu-

cion correspondiente, de acuerdo con la tercera propiedad de las funciones de
densidad expuesta anteriormente, estara descrita por:

0 x0 > x

2
(xx20 +) x0 6 x < x0

2
GX (x) =
1
+ 1 (x x0 ) 1
(x x0 )2 x0 6 x < x0 +

2 22

1 x0 + 6 x
Ejemplo
Suponga que una variable aleatoria tiene la densidad de probabilidad trian-
1
gular del ejemplo anterior con x0 = 8, = 5 y a =
= 51 . Por el trabajo
hecho anteriormente,

0 3 > x > 13

(x3)
fX (x) = 25
36x<8

(x8)
0,2

25
8 6 x < 13
Se va a buscar la probabilidad de que X tenga valores mayores que 4,5
pero menores que 6,7. De acuerdo con la cuarta propiedad de las funciones
de densidad, expuesta anteriormente:
6,7
(x 3)
Z
P {4,5 < X 6 6,7} = dx
4,5 25
6,7
1 x2

= 3x
25 2 4,5
= 0,2288
2.4.1. Algunas funciones de densidad probabilstica

Funcion de densidad gaussiana Una variable aleatoria X es llamada
gaussiana si su funcion de densidad tiene la forma:
(x aX )2

1
fX (x) = p exp 2
(2.6)
2
2X 2X
donde X > 0 y < aX < son constantes reales. Su valor maximo
p
2
1/ 2X ocurre en x = aX . Su dispersion (es decir, la forma particular en
que se distribuyen los valores de la funcion) alrededor de x = aX esta relacio-
nado con X . La funcion disminuye a 0,607 veces su maximo en x = aX + X
y en x = aX X .
La respectiva funcion de distribucion es:
x
( aX )2
Z
1
FX (x) = p exp 2
d (2.7)
2
2X 2X
La integral anterior no puede resolverse en forma cerrada, por lo que para
su evaluacion, se debe utilizar metodos numericos de aproximacion. Dado que
la variable aleatoria gaussiana es muy usada para modelar el comportamiento
de numerosas variables fsicas, se ha escogido evaluar la integral 2.7 para el
caso normalizado de aX = 0 y X = 1, para as construir una tabla unica
que pueda usarse para todos los valores arbitrarios de aX y X .
Para utilizar la tabla mencionada anteriormente, se utiliza una transfor-
macion que se justifica mediante el siguiente procedimiento.
Considerese el caso normalizado donde aX = 0 y X = 1.
x
2
Z
1
F (x) = exp d (2.8)
2 2
Se trata de una funcion que depende solamente de x. Usualmente, las
tablas construidas para el caso normalizado se tabulan para x > 0. Para un
valor negativo de x, se utiliza la siguiente relacion:
F (x) = 1 F (x) (2.9)
Para demostrar que la ecuacion 2.7 puede hallarse en terminos de F (x),

se hace el cambio de variables:
( aX )
u= (2.10)
X
de donde se obtiene d = X du y,
Z (xaX )/X
1 1 2
FX (x) = exp u du (2.11)
2 2
Esta expresion es equivalente a:

x aX
FX (x) = F (2.12)
X
Ejemplo
Encuentre la probabilidad del evento {X 6 5,5} para una variable aleato-
ria gaussiana con aX = 3 y X = 2.
Se tiene aqu que:
(x aX ) (5,5 3)
= = 1,25
X 2
Con lo que entonces:
P {X 6 5,5} = FX (5,5) = F (1,25) = 0,8944
Ejemplo
Suponga que la altura de las nubes arriba de la tierra en cierto lugar
es una variable aleatoria gaussiana X con aX = 1830 metros y X = 460
metros. Encuentre la probabilidad de que las nubes estaran mas altas que
2750 metros.
P {X > 2750} = 1 P {X 6 2750}

= 1 FX (2750)

2750 1830
= 1F
460
= 1 F (2,0)
= 0,0228
Funcion de densidad binomial Sea 0 < p < 1 y N = 1, 2, . . ., entonces

la funcion
N
X N
fX (x) = pk (1 p)N k (x k) (2.13)
k=0
k
N

se llama la funcion de densidad binomial. La cantidad k
es el coeficiente
binomial

N N!
= (2.14)
k k!(N k)!
La densidad binomial se aplica al experimento de las pruebas de Bernoulli,
como asimismo a muchos juegos de azar, problemas de deteccion en radar
y sonar, y muchos experimentos con solamente dos posibles resultados en
cualquier prueba.
La correspondiente funcion de distribucion binomial es
N
X N
FX (x) = pk (1 p)N k u(x k) (2.15)
k=0
k
Funcion de densidad Poisson La variable aleatoria de Poisson X tiene
una densidad y distribucion dadas por

b
X bk
fX (x) = e (x k) (2.16)
k=0
k!

X bk
FX (x) = eb u(x k) (2.17)
k=0
k!
donde b > 0 es una constante real. Cuando son graficadas, estas funciones
parecen similares a la variable aleatoria binomial. De hecho, si N y
p 0 para el caso binomial de tal manera que N p = b, una constante,
entonces resulta la funcion de densidad de Poisson.
La variable aleatoria de Poisson se aplica a una amplia variedad de apli-
caciones que incluyen conteo. Describe el numero de unidades defectuosas
en una muestra tomada de una lnea de produccion, el numero de llamadas
telefonicas hechas durante un periodo de tiempo, el numero de electrones emi-
tidos desde una pequena seccion de un catodo en un intervalo dado, etcetera.
Si el intervalo de interes tiene duracion T y los eventos que se cuentan se sa-
be que ocurren a una tasa promedio y siguen una distribucion de Poisson,
entonces b esta dado por
b = T (2.18)
Ejemplo
Suponga que las llegadas de automoviles a una estacion de gasolina siguen
la distribucion de Poisson y ocurren a una tasa promedio de 50/hora. La
estacion tiene una sola bomba de gasolina. Si todos los carros se supone que
requieren de un minuto para cargar, cual es la probabilidad de que una fila
de espera ocurra en la bomba?
Una fila de espera ocurrira si dos o mas carros llegan en cualquier interva-
lo de un minuto. La probabilidad de este evento es uno menos la probabilidad
de que ninguno o solamente un carro llegue. Con = 50/60 carros/minuto

y T = 1 minuto, se tiene b = 5/6.
Probabilidad de una fila de espera = 1 FX (1)

5/6 5
= 1e 1+
6
= 0,2032
El resultado anterior se interpreta como que habra una fila en la bomba

cerca del 20,32 % del tiempo.
Funcion de densidad uniforme Las funciones de distribucion y de

densidad probabilstica uniforme estan definidas por:
1

ba
a6x6b
fX (x) = (2.19)
0 para otros valores de x

0 x<a
(xa)
FX (x) = (ba)
a6x a.
La funcion de densidad uniforme halla un sinnumero de usos practicos.
Una aplicacion particularmente importante es en la cuantizacion de las mues-
tras de senal antes de su codificacion en sistemas de comunicaciones digitales.
La cuantizacion involucra el redondeo de la muestra real al mas cercano de
un numero grande de niveles discretos cuanticos. Los errores producidos en
el proceso de redondeo estan uniformemente distribuidos.
Funcion de densidad exponencial Las funciones de distribucion y de
densidad exponencial son:
1 xa

b
exp b
x>a
fX (x) = (2.21)
0 x<a
xa

1 exp b
x>a
FX (x) = (2.22)
0 x<a
para numeros reales < a < y b > 0.
La funcion de densidad exponencial es util para describir los tamanos de
las gotas cuando se hace un gran numero de mediciones de lluvia. Tambien
describe aproximadamente las fluctuaciones en la fuerza de la senal recibida
por radar de ciertos aviones.
Ejemplo
La potencia reflejada de un avion de estructura compleja que es recibida
por un radar puede describirse por una variable aleatoria exponencial P . La
funcion de densidad de P es por lo tanto,
( h i
1
P0
exp Pp0 p>0
fP (p) =
0 p<0
donde P0 es la cantidad promedio de potencia recibida. A algun tiempo dado
P puede haber un valor diferente de su valor promedio y se puede hacer la
pregunta: cual es la probabilidad de que la potencia recibida sea mayor que
la potencia recibida en el promedio?
Se debe hallar P {P > P0 }:
P {P > P0 } = 1 P {P 6 P0 }
= 1 FP (P0 )

P0
= 1 1 exp
P0
1
= e 0,368
En otras palabras, la potencia recibida es mayor que su valor promedio

cerca del 36,8 % del tiempo.
Funcion de densidad Rayleigh Las funciones de distribucion y de

densidad Rayleigh son:
( h 2
i
2
b
(x a) exp (xa)
b
x>a
fX (x) = (2.23)
0 x<a
( h 2
i
1 exp (xa)
b
x>a
FX (x) = (2.24)
0 x<a
para constantes reales < a < y b > 0.
La densidad de Rayleigh describe la envolvente de un tipo de ruido cuando
se pasa por un filtro pasabanda. Es tambien importante en analisis de errores
en varios sistemas de medicion.
Hay otras funciones de densidad que describen variables aleatorias dis-
cretas, aparte de las mencionadas anteriormente. Entre ellas, se puede men-
cionar la funcion de densidad de Pascal y la de Bernoulli. En lo que toca
a variables aleatorias continuas, se puede mencionar las funciones de densi-
dad arcseno, beta, Cauchy, chi-cuadrado con N grados de libertad, Erlang,
gamma, Laplace, log-normal, Rice y Weibull.
2.5. Densidad y distribucion condicionales

2.5.1. Funcion de distribucion condicional
Sea A el evento {X 6 x} referido a la variable aleatoria X. La proba-
bilidad resultante P {X 6 x | B} se define como la funcion de distribucion
condicional de X, que se denota FX (x | B). De esta forma,
FX (x | B) = P {X 6 x | B} (2.25)
P {{X 6 x} B}
=
P (B)
2.5. DENSIDAD Y DISTRIBUCION CONDICIONALES 47
(2.26)
El evento conjunto {X 6 x} B consiste de todos los resultados s tales

que:
X(s) 6 x y s B
Esta funcion de distribucion condicional es aplicable a variables aleatorias

discretas, continuas o mixtas.
Propiedades de una funcion de distribucion condicional
Todas las propiedades de las funciones de distribucion ordinarias se apli-

can a FX (x | B):
1. FX ( | B) = 0
2. FX ( | B) = 1
3. 0 6 FX (x | B) 6 1
4. FX (x1 | B) 6 FX (x2 | B) si x1 < x2
5. P {x1 < X 6 x2 | B} = FX (x2 | B) FX (x1 | B)
6. FX (x+ | B) = FX (x | B)
2.5.2. Funcion de densidad condicional

De manera similar a la funcion de densidad ordinaria,
d
fX (x | B) = FX (x | B) (2.27)
dx
Si FX (x | B) contiene discontinuidades tipo escalon, como cuando X

es una variable aleatoria discreta o mixta, se supone que funciones impulso
estan presentes en fX (x | B) para dar cuenta de las derivadas en las discon-
tinuidades.
Propiedades de una funcion de densidad condicional
1. fX (x | B) > 0
Z
2. fX (x | B)dx = 1

Z x
3. FX (x | B) = fX (v | B)dv

Z x2
4. P {x1 < X 6 x2 | B} = fX (x | B)dx
x1
Ejemplo
Dos cajas tienen bolas rojas, verdes y azules; el numero de bolas de cada
color en cada caja se da en la tabla siguiente.
xi Color de bola Caja 1 Caja 2 Totales

1 Roja 5 80 85
2 Verde 35 60 95
3 Azul 60 10 70
Totales 100 150 250
El experimento consiste en seleccionar una caja y luego una bola de la caja

escogida. Una caja (la numero 2) es ligeramente mayor que la otra, haciendo
que sea escogida mas frecuentemente. Sea B2 el evento escoger la caja mas
grande mientras que sea B1 el evento escoger la caja mas pequena. Supongase
P (B1 ) = 2/10 y P (B2 ) = 8/10. (B1 y B2 son mutuamente excluyentes y
B1 B2 es el evento seguro, puesto que alguna caja debe ser escogida; por lo
tanto, P (B1 ) + P (B2 ) debe igualar 1).
Defina una variable aleatoria discreta X con valores x1 = 1, x2 = 2 y

x3 = 3 cuando una bola roja, verde o azul se escoge, y sea B un evento igual
a B1 o B2 .
5 80
P (X = 1 | B = B1 ) = P (X = 1 | B = B2 ) =
100 150
35 60
P (X = 2 | B = B1 ) = P (X = 2 | B = B2 ) =
100 150
60 10
P (X = 3 | B = B1 ) = P (X = 3 | B = B2 ) =
100 150
La funcion de densidad probabilstica condicional fX (x | B1 ) es
5 35 60
fX (x | B1 ) = (x 1) + (x 2) + (x 3)
100 100 100
Por integracion directa de fX (x | B1 )
5 35 60
FX (x | B1 ) = u(x 1) + u(x 2) + u(x 3)
100 100 100
Para comparacion, se puede encontrar la densidad y distribucion de X

determinando las probabilidades P (X = 1), P (X = 2), P (X = 3). Estas se
encuentran del teorema de probabilidad total.
P (X = 1) = P (X = 1 | B1 )P (B1 ) + P (X = 1 | B2 )P (B2 )

5 2 80 8
= +
100 10 150 10
= 0,437
P (X = 2) = P (X = 2 | B1 )P (B1 ) + P (X = 2 | B2 )P (B2 )

35 2 60 8
= +
100 10 150 10
= 0,390
P (X = 3) = P (X = 3 | B1 )P (B1 ) + P (X = 3 | B2 )P (B2 )

60 2 10 8
= +
100 10 150 10
= 0,173
Finalmente,
fX (x) = 0,437(x 1) + 0,390(x 2) + 0,173(x 3)

FX (x) = 0,437u(x 1) + 0,390u(x 2) + 0,173u(x 3)
El ejemplo anterior ilustra la manera como el evento condicionante B

puede definirse de alguna caracterstica del experimento fsico. Hay otras
maneras de definir B: una, es definirlo en terminos de la variable aleatoria
X; otra, en terminos de alguna otra variable que no fuera X.
Considerese el caso siguiente. Sea B = {X 6 b}, donde b es algun numero
real b y la otra donde X < b. Si b 6 x, el evento {X 6 b} es un subconjunto
del evento X 6 x, de modo que {X 6 x} {X 6 b} = {X 6 b}. Luego,
P {{X 6 x} {X 6 b}}
FX (x | X 6 b) =
P {X 6 b}
P {X 6 b}
=
P {X 6 b}
= 1
para x > b. Cuando x < b, el evento {X 6 x} es un subconjunto del evento

X 6 b, de modo que {X 6 x} {X 6 b} = {X 6 x}, por lo que
P {{X 6 x} {X 6 b}}
FX (x | X 6 b) =
P {X 6 b}
FX (x)
=
FX (b)
para x < b. Si se resume las dos ultimas expresiones,

FX (x)
xb

La funcion de densidad condicional se obtiene de la respectiva derivada:
fX (x) fX (x)

F (b) = R b xb
De la suposicion inicial de que el evento condicionante tiene probabilidad
diferente de cero, se tiene que 0 < FX (b) 6 1, con lo que la funcion de
distribucion condicional nunca es mas pequena que la funcion de distribucion

ordinaria:
FX (x | X 6 b) > FX (x) (2.28)
Un enunciado similar vale para la funcion de densidad condicional en

tanto no sea cero:
fX (x | X 6 b) > fX (x) para x < b (2.29)
Estos resultados pueden extenderse al evento mas general B = {a < X 6

b}.
Ejemplo
La distancia de yerro radial de aterrizajes por paracadas medida desde el

centro del blanco, es una variable aleatoria Rayleigh con b = 800 m2 y a = 0.
x2

FX (x) = 1 exp u(x)
800
El blanco es un crculo de radio 50 metros con un ojo de buey de radio

10 metros. Encuentrese la probabilidad de que un paracaidista acierte en el
ojo del buey si el aterrizaje es dentro del blanco.
La probabilidad buscada es:

2.6. VALOR ESPERADO DE UNA VARIABLE ALEATORIA 53
P (dar en el ojo de buey | aterrizaje da en el blanco) =

P ({X 6 10} | {X 6 50}) =
P ({X 6 10} {X 6 50}) P ({X 6 10})
=
P ({X 6 50}) P ({X 6 50})
FX (10)
=
FX (50)
1 e100/800
=
1 e2500/800
= 0,1229
La precision del paracaidista es tal que cerca de un 12,29 % de aterrizajes

que dan en el blanco, seran dentro del ojo de buey.
2.6. Valor esperado de una variable aleatoria
El valor esperado de cualquier variable aleatoria X esta definido por
E[X] = X (2.30)
Z
= xfX (x)dx (2.31)

Se le conoce tambien como la esperanza matematica, el valor medio, la

media o el promedio estadstico de X.
Si X es una variable aleatoria discreta con N posibles valores xi con
probabilidades P (xi ) de ocurrencia, entonces
Z N
X
E [X] = x P (xi )(x xi )dx
i=1
N
X Z
= P (xi ) x(x xi )dx
i=1
XN
= xi P (xi ) (2.32)
i=1
Para algunas variables aleatorias, N puede ser infinito.

Si la densidad de una variable aleatoria es simetrica alrededor de una
recta x = a, entonces E[X] = a; es decir,
E [X] = a si fX (x + a) = fX (x + a)
2.7. Valor esperado de una funcion g(X)

Para una funcion real g(x) de una variable aleatoria X, que se denota por
g(X)1 , su valor esperado esta dado por
Z
E [g(X)] = g(x)fX (x)dx (2.33)

Notese que la notacion utilizada para el valor esperado de una variable

aleatoria utiliza la version de letra mayuscula para la variable aleatoria de la
que se este tratando. Dentro del signo integral, se utiliza la version minuscula
de la letra que representa a la variable aleatoria, pues se trata de valores de
esa variable aleatoria.
Si X es una variable aleatoria discreta,
1
Cabe aclarar aqu, que cualquier funcion de una variable aleatoria, es a su vez, una
variable aleatoria.
2.7. VALOR ESPERADO DE UNA FUNCION G(X) 55
N
X
E [g(X)] = g(xi )P (xi ) (2.34)
i=1
donde N puede ser infinito para algunas variables aleatorias.
Ejemplo
Se sabe que un voltaje aleatorio particular puede representarse como una
variable aleatoria Rayleigh V con una funcion de densidad dada por a = 0 y
b = 5. El voltaje se aplica a un dispositivo que genera una salida Y = g(V ) =
V 2 , que es igual numericamente a la potencia de V (sobre una resistencia de
1 ).
La potencia promedio de V se encuentra como
E [g(V )] = E V 2

Z 2
2 2 v
= v v exp dv
0 5 5
Z 2
2 3 v
= v exp dv
0 5 5
Z
= 5e d
0
= 5
v2
En el desarrollo inmediato anterior, se utilizo la sustitucion = 5
y
luego se utilizo la tecnica de integracion por partes.
Si g(X) es una suma de N funciones gn (X), n = 1, . . . , N entonces el
valor esperado de la suma de N funciones de una variable aleatoria X es la
suma de los N valores esperados de las funciones individuales de la variable
aleatoria.
2.8. Valor esperado condicional

El valor esperado condicional de X, denotado por E [X | B], es
Z
E [X | B] = xfX (x | B)dx (2.35)

Si B = {X 6 b} con b
Sustituyendo se tiene entonces,
Z
E [X | {X 6 b}] = xfX (x | B)dx

Z " #
fX (x)
= x Rb dx

X
f (x)dx
R
xfX (x)dx
= R
b
(2.37)
f (x)dx
X
que es el valor medio de X cuando X esta restringido al conjunto {X 6 b}.
2.9. Momentos
2.9.1. Momentos alrededor del origen
La funcion g(X) = X n , n = 0, 1, 2, . . ., da los momentos alrededor del
origen de la variable aleatoria X.
mn = E [X n ] (2.38)
Z
= xn fX (x)dx (2.39)

2.9. MOMENTOS 57
El valor m0 = 1 es el area de la funcion fX (x), en tanto que m1 = X es

el valor esperado de X.
2.9.2. Momentos centrales

Los momentos alrededor del valor medio de X se llaman momentos centra-
les y se denotan por n . Son el valor esperado de la funcion g(X) = (X X)n ,
= 0, 1, 2, . . ..
n
n = E X X (2.40)
Z
n
= x X fX (x)dx (2.41)

El valor 0 = 1 es el area de fX (x), mientras que 1 = 0.
2.9.3. Varianza e inclinacion

Al segundo momento central 2 se le da el nombre varianza y tiene la
2
notacion X .
h 2 i
2
X = E X X (2.42)
Z
= (x X)2 fX (x)dx (2.43)

h 2
i
= E X 2 2XX + X
2
= E[X 2 ] 2 (E[X])2 + X
2
= E[X 2 ] X (2.44)
= m2 m21 (2.45)
La raz cuadrada positiva de la varianza, X , se denomina la desviacion

estandar de X. Es una medida de la dispersion de la funcion fX (x) alrededor

de la media.

El tercer momento central 3 = E (X X)3 es una medida de la asi-
metra de fX (x) alrededor de su valor medio. Se le llama la inclinacion (skew )
de la funcion de densidad. Si una densidad es simetrica alrededor de x = X,
tiene cero inclinacion. De hecho, n = 0 para valores impares de n. El ter-
3
cer momento central normalizado 3 /X es conocido como el coeficiente de
inclinacion de la funcion de densidad.
2.10. Funciones que dan momentos

2.10.1. Funcion caracterstica
La funcion caracterstica de una variable aleatoria X esta definida por
X () = E ejX

(2.46)

donde j = 1. Esta es una funcion del numero real < < y es la
transformada de Fourier (con el signo de cambiado) de fX (x):
Z
X () = fX (x)ejx dx (2.47)

Este detalle de la funcion caracterstica permite usar las tablas de la

transformada de Fourier as como la teora respectiva. Por otro lado, si X ()
es conocida, fX (x) puede calcularse de la transformada inversa de Fourier
(con el signo de x cambiado)
Z
1
fX (x) = X ()ejx d (2.48)
2
Con la derivacion formal de 2.47 n veces con respecto a y poniendo

= 0 en la derivada, se puede demostrar que el n-esimo momento de X
2.10. FUNCIONES QUE DAN MOMENTOS 59
esta dado por
n

nd X ()
mn = (j) (2.49)
d n =0
Una gran ventaja de usar X () para hallar momentos es que X ()
existe siempre, de modo que los momentos pueden encontrarse si X () es
conocida, siempre que sus momentos y derivadas existan.
Puede demostrarse que la magnitud maxima de una funcion caracterstica
es uno y ocurre en = 0; es decir,
|X ()| 6 X (0) = 1 (2.50)
2.10.2. Funcion generadora de momentos

La funcion generadora de momentos esta definida por
MX () = E [ex ] (2.51)
Z
= fX (x)ex dx (2.52)

donde es un numero real con < < .

Los momentos estan relacionados con MX () por la expresion
dn MX ()

mn = (2.53)
d n =0
La principal desventaja de la funcion generadora de momentos, de manera
contraria a como sucede con la funcion caracterstica, es que puede no existir
para todas las variables aleatorias y todos los valores de . No obstante, si
MX () existe para todos los valores de en un vecindario de = 0, los
momentos estan dados por la ecuacion 2.53.
Ejemplo
Considerese la variable aleatoria exponencialmente distribuida X con fun-
cion de densidad
1
e(xa)/b x > a

b
fX (x) =
0 x<a

Encuentrese la funcion caracterstica y su primer momento. Luego, contraste-

se el desarrollo realizado con el hecho con base en la funcion generadora de
momentos.
Z
1 (xa)/b jx
X () = e e dx
a b
a/b Z
e 1
= exp j x dx
b a b
a/b (1/bj)x
e e
=
b (1/b j) a
eja
=
1 jb
La derivada de X () es
dX () jaeja (1 jb) (jb)eja

=
d (1 jb)2

dX ()
= ja + jb
d =0

dX ()
m1 = (j)
d =0
= a+b
Si se considera ahora la funcion generadora de momentos:

2.11. TRANSFORMACIONES DE UNA VARIABLE ALEATORIA 61
Z
1 (xa)/b x
MX () = e e dx
a b
a/b Z
e 1
= e( b )x dx
b a
a/b ( 1 )x
e e b
= 1

b b
a
a/b ( 1 )a
e e b
= 1

b b

ea
=
1 b
De la ultima expresion se puede obtener el primer momento:

dMX ()
m1 =
d =0
aea (1 b) (b)ea

=
(1 b)2
=0
= a+b
Este ultimo resultado coincide con el obtenido usando la funcion carac-

terstica.
2.11. Transformaciones de una variable alea-

toria
En ocasiones se desea transformar una variable aleatoria X en una nueva
variable aleatoria Y mediante una transformacion
Y = T (X) (2.54)
La funcion de densidad fX (x) o de distribucion FX (x) es conocida, y el

problema consiste en determinar FY (y) o fY (y).
X puede ser discreta, continua o mixta. A su vez, T puede ser lineal,
nolineal, segmentada, escalonada, etcetera. Hay muchos casos que pueden
considerarse, dependiendo de la forma de X y de T . Se vera tres de tales casos:
(a) X continua y T continua (ya sea creciente o decreciente monotonicamente
con X); (b) X continua y T continua pero no monotonica; (c) X discreta y T
continua. La transformacion es supuesta continua en los tres casos a analizar.
2.11.1. Transformaciones monotonicas de una V. A.

continua
Una2 transformacion T se llama monotonicamente creciente si T (x1 ) <
T (x2 ) para cualquier x1 < x2 . Es monotonicamente decreciente si T (x1 ) >
T (x2 ) para cualquier x1 < x2 .
Considerese primero la transformacion creciente. Supongase que T es con-
tinua y diferenciable en todo valor de x para el que fX (x) 6= 0. Se tiene que
y0 = T (x0 ) o x0 = T 1 (y0 )
donde T 1 representa el inverso de la transformacion T . La probabilidad del

evento {Y 6 y0 } debe igualar la probabilidad del evento {X 6 x0 } debido a
la correspondencia una-a-una (inyectiva) entre X e Y . As,
FY (y0 ) = P {Y 6 y0 } = P {X 6 x0 } = FX (x0 )
Z y0 Z x0 =T 1 (y0 )
fY (y)dy = fX (x)dx (2.55)

2
V. A.: variable aleatoria.
En este punto, es conveniente recordar el enunciado de la regla de Leib-

niz 3 : Si H(x, u) es continua en las variables x y u, y
Z (u)
G(u) = H(x, u)dx
(u)
entonces la derivada de la integral respecto al parametro u es:
Z (u)
dG(u) d(u) d(u) H(x, u)
= H [(u), u] H [(u), u] + dx (2.56)
du du du (u) u
Con base en la regla de Leibniz, se deriva la ecuacion 2.55 y se obtiene:
dT 1 (y0 )
fY (y0 ) = fX T 1 (y0 )

(2.57)
dy0
Como la ecuacion anterior aplica para cualquier y0 , se puede eliminar el
subndice y escribir:
dT 1 (y)
fY (y) = fX T 1 (y)
dy
dx
= fX (x) (2.58)
dy
Si se considera ahora el caso de la transformacion decreciente, se puede

escribir entonces:
FY (y0 ) = P {Y 6 y0 } = P {X > x0 } = 1 FX (x0 )
Si se sigue el mismo razonamiento usado para obtener la ecuacion 2.58,

se obtendra el mismo resultado pero con un signo negativo:
3
Gottfried Wilhelm von Leibniz, 1 de julio de 1646-14 de noviembre de 1716: diplomati-
co, filosofo, matematico y fsico aleman, quien constituye una gloriosa excepcion al viejo
dicho de quien mucho abarca, poco aprieta.
dT 1 (y)
fY (y) = fX T 1 (y)
dy
dx
= fX (x) (2.59)
dy
No obstante, dado que la pendiente de T 1 (y) es negativa pues la transfor-
macion es decreciente, se concluye que, para cualquier tipo de transformacion
monotonica:
1 dT 1 (y)

fY (y) = fX T (y)
dy

dx
= fX (x) (2.60)
dy
Este ultimo resultado nos da la funcion de densidad probabilstica de
la nueva variable aleatoria Y, por lo que tal expresion debe siempre quedar
en terminos de la variable y. Por consiguiente, al lado derecho de la ultima
ecuacion, todo debe quedar escrito en terminos de tal variable.
Ejemplo
Si Y = T (X) = aX+b, donde a, b R, entonces X = T 1 (Y ) = (Y b)/a
y dx/dy = 1/a.

(y b) 1
fY (y) = fX
a a
Si X es gaussiana, la funcion de densidad de Y quedara como:
h i2
(yb)
1 a aX
1
fY (y) = p exp 2

2X2
2 X a

( )
1 [y (aaX + b)]2
= p exp 2
2
2a2 X 2a2 X
que es la funcion de densidad de otra variable aleatoria gaussiana con media

y varianza dadas a partir de la media y varianza de X
aY = aaX + b y Y2 = a2 X
2
Este ultimo ejemplo nos indica que una transformacion lineal de una
variable aleatoria gaussiana produce otra variable aleatoria gaussiana. En
el mundo practico, un amplificador lineal con un voltaje aleatorio X a su
entrada es un ejemplo de una transformacion lineal.
2.11.2. Transformaciones no monotonicas de una V. A.

continua
En general, puede ser que haya mas de un intervalo de valores de X que
correspondan al evento {Y 6 y0 }. Puede darse el caso que, para un dado
y0 , el evento {Y 6 y0 } corresponde al evento {X 6 x1 , x2 6 X < x3 }.
As, la probabilidad del evento {Y 6 y0 } iguala la probabilidad del evento
{valores de x que dan Y 6 y0 } que se escribira como {x | Y 6 y0 }. En otras
palabras,
Z
FY (y0 ) = P {Y 6 y0 } = P {x | Y 6 y0 } = fX (x)dx
{x|Y 6y0 }
Se puede derivar formalmente el resultado anterior para obtener la den-

sidad de Y :
Z
d
fY (y0 ) = fX (x)dx (2.61)
dy0 {x|Y 6y0 }
La funcion de densidad esta dada tambien por 4 :

4
Athanasios Papoulis, Probability, Random Variables, and Stochastic Processes. Segun-
da edicion. New York: McGraw-Hill Book Company, 1984. Pagina 95.
X f (x )
fY (y) = X n (2.62)
dT (x)
n
dx x=xn
donde la suma incluye todas las races xn , n = 1, 2, . . . , que son las soluciones
reales de la ecuacion y = T (x). Si y = T (x) no tiene races reales para un
valor dado de y, fY (y) = 0.
Ejemplo
Encuentrese fY (y) para la transformacion de ley cuadrada Y = T (X) =
cX 2 , donde c > 0 R.
Para la solucion, se utilizara dos metodos.
p p
Metodo 1: El evento {Y 6 y} ocurre cuando { y/c 6 x 6 y/c} =
{x | Y 6 y}, con lo que
Z y/c
FY (y) = fX (x)dx
y/c
Z y/c
d
fY (y) = fX (x)dx
dy y/c
Se aplica ahora la regla de Leibniz:

p 1 1 p 1 1
fY (y) = fX ( y/c) fX ( y/c)
c 2 y c 2 y
p p
fX ( y/c) + fX ( y/c)
= y>0
2 yc
Metodo 2: Si se despeja X de la ecuacion Y = cX 2 se encuentra:
Y
= X2
c p
X = Y /c
dT (x)
p p
de modo que x1 = y/c, x2 = y/c. Ademas, dx
= 2xc, con lo que
r
dT (x) y
= 2c = 2 yc
dx x=x1 c
r
dT (x) y
= 2c = 2 yc
dx x=x2 c
Finalmente,
p p
fX ( y/c) fX ( y/c)
fY (y) = +
|2 cy| |2 yc|
p p
fX ( y/c) + fX ( y/c)
= y>0
2 yc
2.11.3. Transformacion de una variable aleatoria dis-

creta
Si X es una variable aleatoria discreta mientras que Y = T (X) es una
transformacion continua, el problema de encontrar la nueva funcion de den-
sidad es simple de resolver. Se puede escribir que,
X
fX (x) = P (xn )(x xn ) (2.63)
n
X
FX (x) = P (xn )u(x xn ) (2.64)
n
donde la suma se aplica sobre todos los valores posibles xn , n = 1, 2, . . . , de

X.
Si la transformacion es monotona, hay una correspondencia una-a-una
entre X y Y de modo que un conjunto {yn } corresponde al conjunto {xn }
mediante la ecuacion yn = T (xn ). La probabilidad P (yn ) iguala P (xn ). As,
X
fY (y) = P (yn )(y yn ) (2.65)
n
X
FY (y) = P (yn )u(y yn ) (2.66)
n
donde yn = T (xn ), P (yn ) = P (xn ).

Si T no es monotona, el procedimiento anterior mantiene su validez con la
excepcion de que existe la posibilidad de que mas de un valor xn corresponde
a un valor yn . En este caso, P (yn ) igualara la suma de las probabilidades de
los diversos xn para los que yn = T (xn ).
Captulo 3
Variables aleatorias multiples
69
70 CAPITULO 3. VARIABLES ALEATORIAS MULTIPLES
3.1. Preambulo
A pesar del ttulo de este captulo, nuestro estudio hara enfasis sobre la
teora de dos variables aleatorias.
Si bien el estudio sera restringido a dos variables aleatorias, la generaliza-
cion a tres o mas variables sera evidente y podra llevarse a cabo sin dificultad.
3.2. Conceptos introductorios

Supongase que dos variables aleatorias X e Y estan definidas sobre un
espacio S de muestras, donde valores especficos de X e Y se denotan por
x e y, respectivamente. Cualquier par ordenado de numeros (x, y) puede
considerarse un punto aleatorio en el plano xy. El punto puede tomarse como
un valor especfico de un vector aleatorio.
El plano de todos los puntos (x, y) en los intervalos de X e Y puede
considerarse un nuevo espacio de muestras. Es un espacio vectorial donde los
componentes de cualquier vector son los valores de las variables aleatorias X
e Y . Se le puede llamar al espacio de muestras resultante espacio producto
bidimensional, y se le da el smbolo SJ .
Como en el caso de una variable aleatoria, defnase los eventos A y B por
A = {X 6 x} B = {Y 6 y}
El evento A B definido en S corresponde al evento conjunto {X 6

x e Y 6 y} definido en SJ , el cual se escribe {X 6 x, Y 6 y}.
En el caso mas general, donde N variables aleatorias X1 , X2 , X3 , . . . , XN
estan definidas sobre un espacio de muestras S, pueden verse como compo-
nentes de un vector aleatorio N -dimensional o variable aleatoria N -dimensional.
El espacio de muestras conjunto SJ es ahora N -dimensional.
3.3. PROPIEDADES DE LA DISTRIBUCION CONJUNTA 71
La probabilidad del evento conjunto {X 6 x, Y 6 y}, funcion de los

numeros x e y, es una funcion de distribucion de probabilidad conjunta de-
notada por
FX,Y (x, y) = P {X 6 x, Y 6 y} (3.1)
Es claro que P {X 6 x, Y 6 y} = P (A B), donde el evento conjunto

A B esta definido en S.
La funcion de distribucion conjunta para dos variables aleatorias discretas
generales X (N posibles valores xn ) e Y (M posibles valores ym ), puede
escribirse como
N X
X M
FX,Y (x, y) = P (xn , ym )u(x xn )u(y ym ) (3.2)
n=1 m=1
donde P (xn , ym ) es la probabilidad del evento conjunto {X = xn , Y = ym } y

u( ) es la funcion escalon unitario.
Para N variables aleatorias Xn , n = 1, 2, . . . , N la generalizacion es di-
recta.
FX1 ,X2 ,...,XN (x1 , x2 , . . . , xN ) = P {X1 6 x1 , X2 6 x2 , . . . , XN 6 xN } (3.3)
3.3. Propiedades de la distribucion conjunta

Una funcion de distribucion conjunta para dos variables aleatorias X e Y
tiene varias propiedades.
1. FX,Y (, ) = 0 FX,Y (, y) = 0 FX,Y (x, ) = 0.
2. FX,Y (, ) = 1.
3. 0 6 FX,Y (x, y) 6 1.
4. FX,Y (x, y) es un funcion no-decreciente tanto de x como de y.
5. FX,Y (x2 , y2 )+FX,Y (x1 , y1 )FX,Y (x1 , y2 )FX,Y (x2 , y1 ) = P {x1 < X1 6
x2 , y1 < Y 6 y2 } > 0.
6. FX,Y (x, ) = FX (x) FX,Y (, y) = FY (y).
La ultima propiedad establece que la funcion de distribucion de una va-

riable aleatoria se obtiene poniendo el valor de la otra variable a infinito
en FX,Y (x, y). Las funciones Fx (x) y Fy (y) obtenidas de esta manera se
llaman funciones de distribucion marginales. Con respecto a esto, observe-
se que FX,Y (x, y) = P {X 6 x, Y 6 y} = P (A B). Si se hace que
y = , esto equivale a hacer B = {Y 6 y} el evento cierto; es decir,
B = {Y 6 } = S. Ademas, dado que A B = A S = A, entonces se
tiene FX,Y (x, ) = P (A S) = P (A) = P {X 6 x} = FX (x), Una prueba
similar puede establecerse para FY (y).
De una funcion de distribucion conjunta N -dimensional se puede obtener
una funcion de distribucion marginal K-dimensional, para cualquier grupo
escogido de K de las N variables aleatorias, con fijar los valores de las otras
N K variables aleatorias a infinito. Aqu K puede ser cualquier entero
1, 2, 3, . . . , N 1.
3.4. Densidad conjunta y sus propiedades

Para dos variables aleatorias X e Y , la funcion de densidad probabilstica
conjunta, fX,Y (x, y), esta definida por la segunda derivada de la funcion de
distribucion conjunta dondequiera que esta exista,
3.4. DENSIDAD CONJUNTA Y SUS PROPIEDADES 73
2 FX,Y (x, y)
fX,Y (x, y) = (3.4)
xy
Se le conoce tambien como funcion de densidad conjunta.
La funcion de densidad conjunta para dos variables aleatorias discretas
estara dada por:
N X
X M
fX,Y (x, y) = P (xn , ym )(x xn )(y ym ) (3.5)
n=1 m=1
Cuando N variables aleatorias X1 , X2 , . . . , XN estan involucradas, la fun-
cion de densidad conjunta se convierte en la N -esima derivada parcial de la
funcion de distribucion N -dimensional
N FX1 ,X2 ,...,XN (x1 , x2 , . . . , xN )

fX1 ,X2 ,...,XN (x1 , x2 , . . . , xN ) = (3.6)
x1 x2 xN
Por integracion directa este resultado es equivalente a:
Z xN Z x1
FX1 ,...,XN (x1 , . . . , xN ) = fX1 ,...,XN (v1 , . . . , vN )dv1 dvN

Las siguientes son propiedades de la funcion de densidad conjunta:
(1) fX,Y (x, y) > 0

Z Z
(2) fX,Y (x, y)dxdy = 1

Z y Z x
(3) FX,Y (x, y) = fX,Y (v1 , v2 )dv1 dv2

Z x Z
(4a) FX (x) = fX,Y (v1 , v2 )dv2 dv1

Z y Z
(4b) FY (y) = fX,Y (v1 , v2 )dv1 dv2

Z y2 Z x2
(5) P {x1 < X 6 x2 , y1 < Y 6 y2 } = fX,Y (x, y)dxdy
y1 x1
Z
(6a) fX (x) = fX,Y (x, y)dy

Z
(6b) fY (y) = fX,Y (x, y)dx

Las funciones fX (x) y fY (y) se llaman funciones de densidad probabilsti-

ca marginal o, simplemente, funciones de densidad marginal.
dFX (x)
fX (x) =
dx
dFY (y)
fY (y) =
dy
Ejemplo
Encuentre fX (x) y fY (y) cuando la funcion de densidad conjunta es
fX,Y (x, y) = u(x)u(y)xex(y+1)
Para la solucion, se debe tomar la funcion de densidad conjunta e integrar

primero sobre todo el ambito de valores de la variable aleatoria Y, para obtener
la funcion de densidad de X. Luego, se toma la funcion de densidad conjunta
y se integra sobre todo el ambito de valores de la variable aleatoria X, para
obtener la funcion de densidad de Y.
Z
fX (x) = u(x)u(y)xex(y+1) dy
0
Z
x
= u(x)xe exy dy
0 xy
e
= xex u(x)

x 0
= ex u(x)
3.5. DENSIDAD Y DISTRIBUCION CONDICIONAL 75
Z
fY (y) = u(x)u(y)xex(y+1) dx
0
Z
= u(y) xex(y+1) dx
0
x(y+1)
xex(y+1)

e
= u(y)
y+1
0 (y + 1)2 0
u(y)
=
(y + 1)2
En el calculo de la funcion de densidad de Y , se utilizo la tecnica de la
integracion por partes.
Para N variables aleatorias X1 , X2 , . . . , XN la funcion de densidad mar-

ginal K-dimensional esta definida como la derivada parcial K-esima de la
funcion de distribucion marginal K-dimensional. Puede hallarse de la funcion
de densidad conjunta integrando todas las variables excepto las K variables
de interes X1 , X2 , X3 , . . . , XK :
Z Z
fX1 ,...,XK (x1 , . . . , xK ) = fX1 ,...,XN (x1 , . . . , xN )dxK+1 dxN

(3.7)
3.5. Densidad y distribucion condicional

3.5.1. Condicionamiento puntual
En algunos problemas practicos se esta interesado en la funcion de dis-
tribucion de una variable aleatoria X condicionada por el hecho de que una
segunda variable aleatoria Y tiene algun valor especfico y. Esto se llama con-
dicionamiento puntual y esto se maneja definiendo un evento condicionante
B por
B = {y y < Y 6 y + y}
donde y es una pequena cantidad que eventualmente puede aproximar 0.

Se escribe:
R y+y R x
yy
f (v1 , v2 )dv1 dv2
X,Y
FX (x|y y < Y 6 y + y) = R y+y (3.8)
yy Y
f (v)dv
Considere dos casos para la formula anterior.
1. Suponga que X e Y son ambas variables aleatorias discretas con valores

xi , i = 1, 2, . . . , N e yi , i = 1, 2, . . . , M, respectivamente, con probabili-
dades P (xi ), P (yi ). Se tiene que
M
X
fY (y) = P (yj )(y yj )
j=1
N X
X M
fX.Y (x, y) = P (xi , yj )(x xi )(y yj )
i=1 j=1
Suponga que el valor especfico de y de interes es yk . Se puede demostrar

que
N
X P (xi , yk )
FX (x|Y = yk ) = u(x xi ) (3.9)
i=1
P (yk )
Despues de derivar,
N
X P (xi , yk )
fX (x|Y = yk ) = (x xi ) (3.10)
i=1
P (yk )
3.5. DENSIDAD Y DISTRIBUCION CONDICIONAL 77
2. Si X, Y son ambas variables aleatorias continuas,
Rx

fX,Y (v, y)dv
FX (x|Y = y) = (3.11)
fY (y)
para todo y tal que fY (y) 6= 0. Despues de diferenciar ambos lados con
respecto a x:
fX,Y (x, y)
fX (x|Y = y) = (3.12)
fY (y)
Cuando no haya confusion con respecto al significado,
fX,Y (x, y)
fX (x|y) = (3.13)
fY (y)
Puede tambien demostrarse que:
fX,Y (x, y)
fY (y|x) = (3.14)
fX (x)
Ejemplo
Encuentre fY (y|x) para las funciones de densidad del ejemplo anterior.
Dado que:

fX (x) = u(x)ex
no son nulas para x > 0, y > 0, fY (y|x) no es nulo solamente para y > 0
y x > 0.
fY (y|x) = u(x)u(y)xexy
3.5.2. Condicionamiento por intervalo
Defina B = {ya < Y 6 yb } donde ya , yb son numeros reales y se supone

P (B) 6= 0. Con esta definicion se puede constatar que:
FX,Y (x, yb ) FX,Y (x, ya )

FX (x|ya < Y 6 yb } = (3.15)
F (y ) FY (ya )
R yb R xY b
y
f (v, y)dvdy
X,Y
= R yab R (3.16)
ya X,Y
f (x, y)dxdy
R yb
f (x, y)dy
ya X,Y
fX (x|ya < Y 6 yb ) = R yb R (3.17)
ya X,Y
f (x, y)dxdy
Estas ultimas dos expresiones son validas para X e Y variables aleatorias

discretas o continuas.
Ejemplo
Encuentre fX (x|Y 6 y) de la funcion de densidad conjunta del ejemplo
anterior.
Puesto que se ha definido B = {Y 6 y}, entonces ya = e yb = y.
Ademas, dado que fX,Y (x, y) es no nula para x > 0 e y > 0, se necesita
solamente considerar esta region de x e y para hallar la funcion de densidad
condicional. El denominador de la formula anterior es
y y y
y
1
Z Z Z
u(v)dv dv y
fY (v)dv = = = = y>0
(v + 1)2 0 (v + 1)2 (v + 1) 0 y + 1

y es cero para y < 0. El numerador se convierte en:

3.6. INDEPENDENCIA ESTADISTICA 79
Z y Z y
fX,Y (x, v)dv = u(x)xex(v+1) dv
0
Z y
x
= xu(x)e exv dv
0 xv y
e
xu(x)ex

=
x 0
u(x)ex exy 1

=
1 exy u(x)ex y > 0

=
y cero para y < 0.
(1 exy )u(x)ex u(y)

fX (x|Y 6 y) =
y/(y + 1)
(y + 1)(1 exy )u(x)u(y)ex
=
y

y+1
= (1 exy )ex u(x)u(y)
y
3.6. Independencia estadstica

Dos variables aleatorias son estadsticamente independientes si y solo si
P {X 6 x, Y 6 y} = P {X 6 x}P {Y 6 y} (3.18)
Lo anterior implica que
FX,Y (x, y) = FX (x)FY (y) (3.19)
fX,Y (x, y) = fX (x)fY (y) (3.20)

Si X, Y son estadsticamente independientes
P {X 6 x, Y 6 y}
FX (x|Y 6 y) = (3.21)
P {Y 6 y}
FX,Y (x, y)
= (3.22)
FY (y)
= FX (x) (3.23)
Lo mismo sucede con FY (y|X 6 x). Ademas, si se mantiene la misma

condicion de independencia estadstica para X, Y :
fX (x|Y 6 y) = fX (x) (3.24)

fY (y|X 6 x) = fY (y) (3.25)
Ejemplo
Para las densidades de los ejemplos anteriores,
En tanto que,
ex
fX (x)fY (y) = u(x)u(y)
(y + 1)2
Como fX,Y (x, y) 6= fX (x)fY (y), las variables aleatorias X e Y no son
independientes.
3.7. Distribucion y densidad de una suma de

variables aleatorias
Se va a analizar el problema de hallar las funciones de densidad y distribu-
cion para una suma de variables aleatorias estadsticamente independientes.
3.7. DISTRIBUCION Y DENSIDAD DE UNA SUMA DE VARIABLES ALEATORIAS81
3.7.1. Suma de dos variables aleatorias

Sea W una variable aleatoria igual a la suma de dos variables aleatorias
independientes X e Y :
W =X +Y (3.26)
Este es un problema muy practico porque X pudiera representar una

senal aleatoria de tension e Y pudiera representar ruido aleatorio. La suma
W pudiera representar entonces un voltaje de senal mas ruido disponible
para algun receptor.
La funcion de distribucion de probabilidad que se busca esta definida por:
FW (w) = P {W 6 w} = P {X + Y 6 w} (3.27)
Se puede hacer un dibujo para ilustrar la region en el plano XY donde

x + y 6 w. La probabilidad correspondiente a un area elemental dxdy en el
plano XY localizado en el punto (x, y) es fX,Y dxdy. Si se suma todas las
probabilidades sobre la region donde x + y 6 w se obtendra FW (w). As,
Z Z wy
FW (w) = fX,Y (x, y)dxdy (3.28)
x=
Como X, Y son independientes
Z Z wy
FW (w) = fY (y) fX (x)dxdy (3.29)
x=
Despues de derivar, usando la regla de Leibniz, se obtiene la funcion de

densidad deseada:
Z
fW (w) = fY (y)fX (w y)dy (3.30)

La anterior expresion describe una integral de convolucion. La funcion de

densidad de la suma de dos variables aleatorias estadsticamente indepen-
dientes es la convolucion de sus funciones de densidad individuales.
Ejemplo
Encuentre la funcion de densidad de W = X + Y donde las densidades
respectivas son:

1
fX (x) = [u(x) u(x a)]
a

1
fY (y) = [u(y) u(y b)]
b
con 0 < a < b.

Este ejercicio se puede resolver mediante la integral de convolucion o
mediante el metodo de la transformada de Laplace. Se escoge este ultimo
metodo al notarse que ambas funciones de densidad estan definidas a partir
del origen, lo cual facilita un manejo algebraico del problema.
Se tiene entonces:
Z a
1 sx
L{fX (x)} = e dx
0 a
sx a
1 e
=
a s 0

1
1 eas

=
as

1
1 ebs

L{fY (y)} =
bs
La transformada de Laplace de una integral de convolucion es igual al

producto de las transformadas de Laplace de las funciones que conforman el
3.7. DISTRIBUCION Y DENSIDAD DE UNA SUMA DE VARIABLES ALEATORIAS83
integrando de tal integral. El proximo paso es entonces encontrar el produc-

to de las dos transformadas de Laplace calculadas para luego encontrar la
transformada de Laplace inversa y as hallar la nueva funcion de densidad,
correspondiente a la nueva variable aleatoria W .

1 1
1 ebs eas + e(a+b)s

L{fX (x)}L{fY (y)} =
ab s2
Lo que sigue ahora es encontrar la transformada de Laplace inversa, para
lo que es importante recordar la siguiente transformada:
n!
L{tn } =
sn +1
Se obtiene entonces:

11 as bs (a+b)s

fW (w) = L 1e e +e
abs2
1 1 1
= wu(w) (w a)u(w a) (w b)u(w b)
ab ab ab
1
+ (w a b)u(w a b)
ab
Notese que se ha hecho cambios de variable para emplear correctamente
la transformada de Laplace. Finalmente, dado que el resultado debe ser una
funcion de densidad, una prueba que se puede hacer para probar si el resultado
es correcto, es comprobar que el area bajo la curva de la nueva funcion es en
efecto igual a la unidad.
3.7.2. Suma de varias variables aleatorias

La funcion de densidad de Y = X1 + X2 + + XN , donde las Xi son va-
riables aleatorias estadsticamente independientes entre s, es la convolucion
de las N funciones de densidad individuales:
fY (y) = fXN (xN ) fXN 1 (xN 1 ) fX1 (x1 ) (3.31)
3.8. Teorema del lmite central
El teorema del lmite central establece, expresado en terminos generales,

que la funcion de distribucion probabilstica de la suma de un numero grande
de variables aleatorias aproxima a una distribucion gaussiana.
Si bien se sabe que el teorema es aplicable a algunos casos de variables
aleatorias estadsticamente dependientes, la mayora de las aplicaciones y
el cuerpo mas amplio de conocimiento, se dirigen hacia variables aleatorias
estadsticamente independientes.
Considerese una muestra aleatoria de medicion {Xi }N
i=1 . Entonces el he-
cho de que los Xi esten distribuidas identicamente implica que tienen una
distribucion comun - la distribucion de poblacion. Si la distribucion de pobla-
cion es normal o gaussiana, entonces la media de la muestra X esta tambien
distribuida normalmente. El teorema del lmite central establece que si bien
la distribucion de la poblacion pueda estar lejos de ser normal, aun para un
tamano N grande de la muestra, la distribucion de la media de la muestra X
es aproximadamente normal, con una aproximacion que mejora conforme au-
menta N . El teorema del lmite central permite el calculo de probabilidades
que involucran a X aun cuando las Xi individuales tienen una distribucion
desconocida y muy complicada. Solamente la media de la poblacion y la
desviacion estandar son necesarias para obtener la distribucion aproximada
de X.
El teorema del lmite central sera enunciado dos veces, una vez para sumas
y luego para las medias de muestra.
3.8. TEOREMA DEL LIMITE CENTRAL 85
3.8.1. El teorema del lmite central para sumas
Considerese X1 , . . . , XN variables aleatorias independientes e identica-

mente distribuidas, con media comun y desviacion estandar . Sea
S N = X1 + + XN (3.32)
Entonces la distribucion de
SN N
Z= (3.33)
N
aproxima la distribucion N (0, 1) conforme N .1

As, Z tendra una distribucion que es aproximadamente N (0, 1) para N
grandes. El valor optimo de N depende de las distribuciones individuales
de los Xi as como de la exactitud requerida. Entre mas cercana este la
distribucion de Xi a la distribucion gaussiana, mas pequeno sera N para
dar una buena aproximacion. En general, sorprendentemente, con N > 20
bastara para obtener una aproximacion razonable.
La ecuacion 3.33 nos recuerda la formula 2.10 que se emplea para transfor-
mar una variable aleatoria gaussiana de cualquier media y cualquier varianza,
en una variable aleatoria gaussiana de media cero y varianza 1. Por esta razon
se puede interpretar que, en la ecuacion 3.33 se nos indica que la variable
aleatoria SN , formada a partir de la suma de las variables Xi , tiene media

N y desviacion estandar N . Esta ultima asercion se puede probar como
sigue.
Con respecto a la media de SN ,
1
La notacion N (0, 1) se refiere a una funcion de densidad gaussiana de media 0 y
varianza 1.
E [SN ] = E [X1 + X2 + + XN ]
= + + +
= N
Lo anterior se justifica porque E[Xi ] = . Con respecto a la varianza,
h 2 i
2
SN = E SN SN
= E SN (E [SN ])2
2
De la ultima identidad, se conoce el restando, que es la media de SN al

cuadrado. Con respecto al primer factor,
E SN 2 = E (X1 + X2 + + XN )2

= E [(X1 + X2 + + XN )(X1 + X2 + + XN )]
= E X12 + X1 X2 + X1 X3 + X1 XN + + . . .

. . . + XN X1 + XN X2 + + XN XN 1 + XN2

N
X N
X
= E[Xi2 ] + E[Xi ]E[Xj ]
i=1 i=1,i6=j
= N ( + ) + N (N 1)2
2 2
= N 2 + N 2 + N 2 2 N 2
= N 2 + N 2 2
Finalmente,
SN 2 = E SN 2 (E [SN ])2

= N 2 + N 2 2 N 2 2
= N 2

de donde se obtiene que SN = N .
Ejemplo
Se instala sucesivamente bombillos en un plafon. Suponga que cada uno
tiene una vida media de 2 meses con una desviacion estandar de 1/4 de mes.
Encuentre la probabilidad P {40 bombillos duran por lo menos 7 anos}.
Sea Xi el tiempo de vida del bombillo i-esimo instalado. Entonces N bom-
billos duran un tiempo total de SN = X1 + + XN . Con N = 40, = 2,
= 1/4,
S40 40 2

0,25 40
es una variable aleatoria distribuida aproximadamente de la forma N (0, 1),
suponiendo que N = 40 es suficientemente grande.

S40 80 84 80
P {S40 > 7 12 meses} = P >
0,25 40 0,25 40
= P {Z > 2,53}
= 1 P {Z < 2,53}
= P {Z < 2,53}
= 0,0057
Ejemplo
Con respecto al ejemplo anterior, cuantos bombillos N deberan com-

prarse de modo que se pueda estar 95 % seguro que el abastecimiento de N
durara 5 anos?
Notese que N = 30 bombillos tienen una vida esperada de 30 2 = 60
meses (5 anos). Para un N general, la vida total SN tiene

E [SN ] = 2N SN = 0,25 N
Se busca aquel valor de N , usando el teorema del lmite central, de modo

que
0,95 = P {SN > 60}

SN 2N 60 2N
= P >
0,25 N 0,25 N

60 2N
= P Z>
0,25 N

60 2N
= 1P Z <
0,25 N

60 2N
= P Z<
0,25 N

60 2N
0,05 = P Z <
0,25 N
de donde
60 2N
= 1,645
0,25 N
Lo anterior lleva a una ecuacion cuadratica sobre la raz de N:

N 0,20565 N 30 = 0
Hay dos soluciones:

p p
N1 = 5,581 o N2 = 5,375
Se escoge el valor positivo, con lo que N = 31,14. Como respuesta a la

pregunta, se debe decir que se debera comprar 32 bombillos.
Para el ejemplo inmediato anterior, el numero 32 es razonablemente gran-
de, por lo que el teorema del lmite central puede aplicarse. Tan solamente
sobre la base del numero 32 calculado por medio del teorema del lmite cen-
tral es como se justifica a posteriori el empleo del mismo teorema. La logica
es extrana, pero sin embargo valida.
3.8.2. El teorema del lmite central para medias de

muestras
El teorema del lmite central puede reescribirse en terminos de la media
de la muestra en vez de la suma SN . Vease que si SN = X1 + X2 + + XN ,
X = SN /N . Por consiguiente,
SN N X
=
N / N
Sean X1 , . . . , XN variables aleatorias independientes e identicamente dis-
tribuidas con media comun , desviacion estandar y media de la muestra
X. Entonces la distribucion de la variable aleatoria definida por
X
Z=
/ N
aproxima N (0, 1) conforme N .
Ejemplo
Sea S la vida promedio de una caja de 25 bombillos de luz.
(a) Encuentre P {S > 1,9 meses}.

(b) Encuentre tambien un intervalo [2 c, 2 + c] alrededor de la media

= 2 de modo que se puede estar 95 % seguro que la vida promedio S
caera dentro de este intervalo.
Para la parte (a), si se aplica el teorema del lmite central,
S2
Z=
0,25/5
es aproximadamente N (0, 1). As,

1,9 2
P {S > 1,9} = P Z >
0,25/5
= P {Z > 2}
= 1 P {Z < 2}
= 1 0,0228
= 0,9772
Para la parte (b), para hallar c, notese que
0,95 = P {2 c < S < 2 + c}

c c
= P <Z<
0,25/5 0,25/5
Por consiguiente, c debe satisfacer
c
= 1,96
0,25/5
con lo que c = 0,098. De esta manera, 95 % de los paquetes con 25 bom-
billos tendra vida promedio en [1,902 2,098].
3.9. DESIGUALDAD DE CHEBYSHEV Y LEY DE LOS GRANDES NUMEROS91
3.9. Desigualdad de Chebyshev y ley de los

grandes numeros
3.9.1. Desigualdad de Chebyshev
De menor aplicabilidad computacional que el teorema del lmite central,

pero de tanto interes teorico, es la ley de los grandes numeros, que usa una
herramienta tecnica llamada desigualdad de Chebyshev.
Sea W una variable aleatoria con media 0. Si bien la media de W es
0, cualquier realizacion simple de W puede estar bastante alejada de 0. La
varianza mide cuan lejos los valores de W se dispersan de 0. Entre mayor el
valor de la varianza de W, mas se alejara el valor de W de 0. La desigualdad
de Chebyshev hace esta idea precisa: dada la varianza 2 , que tan cercanos
a = 0 los valores de W podran estar?
Para responder esta ultima pregunta, fjese un numero > 0 y busquese la
probabilidad de que W esta mas alejada que de su media = 0. De hecho,
cabra esperar que esta probabilidad P (|W | > ) debera hacerse mas grande
conforme 2 se hace mas grande, puesto que los valores de W se dispersaran
sobre un intervalo mayor. Supongase2 que W tiene una funcion de densidad
f . Entonces, para un numero fijo > 0,
Z
P (|W | > ) = f (x)dx
|x|>
2
Z
= f (x)dx
x2 >2 2
Por el ambito de valores sobre los que la integracion anterior se realiza,

se cumple que:
2
Una deduccion similar se aplica cuando W es discreta en vez de ser continua.
2 x2
Z Z
f (x)dx 6 f (x)dx
x2 >2 2 x2 >2 2
Z 2
x
6 f (x)dx
2
1 2
Z
= 2 x f (x)dx

E[W 2 ]
=
2
2

= 2

Notese que la primera desigualdad viene del hecho que el intervalo de
integracion lo constituye los puntos x donde x2 > 2 y, por lo tanto, el
integrando sera mas grande si 2 se reemplaza por x2 en el numerador. La
segunda desigualdad viene de aumentar el intervalo de integracion de los
puntos x donde x2 > 2 , a la recta numerica de a +.
Por consiguiente, se ha demostrado que si E[W ] = 0 y dado cualquier
numero positivo , el evento que W difiera en por lo menos de cero, esta aco-
tado:
2
P (|W | > ) 6
2
Supongase ahora que X es cualquier variable aleatoria y sea = E[X].
Entonces W = X tiene E[W ] = 0, por lo que el desarrollo anterior aplica
a W . Se puede entonces afirmar lo siguiente:
Desigualdad de Chebyshev: Sea X una variable aleatoria con media finita
y varianza finita 2 . Entonces para > 0 un numero fijo, la probabilidad
que X difiera en a lo menos de su media, esta acotada:
2
P (|X | > ) 6
2
En terminos del evento complementario,
2
P (|X | < ) > 1
2
Ejemplo
Cajas de cerrajes tienen un promedio de 100 cerrajes con una desviacion

estandar de 3. Encuentre la probabilidad que el numero de cerrajes en la caja
que se compra esta entre 95 y 105.
Este ejemplo se trabajara mediante dos enfoques. En el primer enfoque,

sea X el numero de cerrajes en la caja. Entonces = 100, = 3. Por lo
tanto, si se usa la desigualdad de Chebyshev con la informacion provista,
32 16
P (95 < X < 105) = P (|X 100| < 5) > 1 2
= = 0,64
5 25
Con una probabilidad de al menos 0,64 la caja contiene entre 95 y 105

cerrajes.
Con un segundo enfoque, se puede usar el teorema del lmite central. Si

se supone que el teorema del lmite central aplica a la variable aleatoria X
(que X sea debida a muchas pequenas causas), entonces X esta distribuida
aproximadamente por N (100, 9). Por lo tanto,

95 100 105 100
P (95 < X < 105) = P <Z<
3 3

5 5
= P <Z<
3 3
= P (1,67 < Z < 1,67)
= F (1,67) F (1,67)
= 1 F (1,67) F (1,67)
= 1 2(0,0475)
= 0,905
Para un tamano de muestra grande, la probabilidad es mejor aproximada

usando el teorema del lmite central que usando la desigualdad de Chebyshev.
Esto es as dado que la desigualdad de Chebyshev es un resultado general
valido para toda distribucion con la misma media y varianza. Si empero, la
distribucion se sabe que es aproximadamente normal, entonces puede usarse
los detalles especficos de tal distribucion.
3.9.2. Ley de los grandes numeros

Sea {Xi }N
i=1 una muestra aleatoria. Los Xi son variables aleatorias identi-
camente distribuidas e independientes con media comun y varianza 2 . Se

espera intuitivamente que la media de la muestra, X, debera ser cercana a
la media de la poblacion para N grande. Esto se expresa matematicamente
como
SN
lm X = lm =
N N N
donde SN = X1 + . . . + XN es la suma. Se demostrara que la probabilidad

que X difiera por cualquier cantidad no nula de tiende a cero conforme N
se hace grande.
Sea > 0 un numero fijo. Por la independencia de la secuencia X1 , . . . , XN
en la muestra aleatoria, se cumple que:
E[SN ] = N
S2 N = N 2
La desigualdad de Chebyshev aplicada a SN establece que:
S2 N N 2 2
P (|SN N | > N ) 6 = =
(N )2 N 2 2 N 2
En terminos de la media X de la muestra,

SN
P (|X | > ) = P N >

= P (|SN N | > N )
2
6
N 2
Ahora, hagase N . Entonces la cota de la derecha en la ultima
ecuacion tiende a 0 y la siguiente conclusion se obtiene:
(Ley de los grandes numeros) Sea {Xi }N
i=1 una muestra aleatoria con me-
dia comun y varianza 2 . Sea
SN = X1 + + XN
Entonces

SN
P N > 0

conforme N para cada > 0 fijo.

La ley de los grandes numeros establece lo siguiente: se realiza un expe-

rimento aleatorio y se mide X1 , luego se repite el experimento y se mide X2 ,
y as a continuacion. Con SN = X1 + + XN , SN /N es el promedio de
muestra de los Xi sobre los primeros N experimentos. La ley de los grandes
numeros dice que para N grande, se puede estar tan seguro como se desee
que SN /N esta cerca de . Es decir, si se fija un error , la probabilidad que
SN /N difiera de por mas que el error cae a cero conforme N . O,
dicho e otra manera, la probabilidad que SN /N esta cerca de una cantidad
tiende a 1 conforme N .
Si cada repeticion del experimento aleatorio toma 1 minuto, entonces
SN /N es el promedio de los valores Xi sobre el curso de los primeros N
minutos. As, el promedio temporal SN /N aproxima el promedio de la
poblacion conforme el tiempo tiende a .
3.10. Operaciones con variables aleatorias multi-

ples
3.10.1. Valor esperado de una funcion de variables alea-

torias
Si g(X, Y ) es alguna funcion de dos variables aleatorias X e Y, el valor

esperado de g(X, Y ) esta dado por:
Z Z
g = E[g(X, Y )] = g(x, y)fX,Y (x, y)dxdy (3.34)

Para N variables aleatorias X1 , X2 , . . . , XN y alguna funcion de estas

variables, denotada g(X1 , X2 , . . . , XN ), el valor esperado de la funcion es:
3.10. OPERACIONES CON VARIABLES ALEATORIAS MULTIPLES 97
g = E[g(X1 , X2 , . . . , XN )] (3.35)
Z Z
= g(x1 , . . . , xN )fX1 ,...,XN (x1 , . . . , xN )dx1 dxN (3.36)

As, el valor esperado involucra N integraciones cuando hay N variables

aleatorias involucradas.
Ejemplo
Encuentre la media de una suma de N variables aleatorias pesadas:
N
X
g(X1 , X2 , , XN ) = i Xi
i=1
Los pesos de la suma son las constantes i . El valor medio de la suma

pesada es:
" N #
X
E[g(X1 , , XN )] = E i Xi
i=1
" N
#
Z Z X
= i Xi fX1 ,...,XN (x1 , . . . , xN )dx1 . . . dxN
i=1
N Z
X Z
= i xi fX1 ,...,XN (x1 , . . . , xN )dx1 . . . dxN
i=1
Los terminos en la suma todos se reducen a la forma:

Z
i xi fXi (xi )dxi = E[i Xi ] = i E[Xi ]

de modo que
" N
# N
X X
E i Xi = i E[Xi ]
i=1 i=1
con lo que el valor medio de una suma pesada de variables aleatorias

iguala la suma pesada de valores medios.
3.10.2. Momentos conjuntos alrededor del origen

Los momentos conjuntos se denotan por mnk y se definen por:
mnk = E X n Y k

(3.37)
Z Z
= xn y k fX,Y (x, y)dxdy (3.38)

para el caso de dos variables aleatorias X e Y . Claramente, mn0 = E[X n ] son

los momentos mn de X, mientras que m0k = E[Y k ] son los momentos de Y .
La suma n + k es el orden de los momentos. m02 , m20 , m11 son los momentos
de segundo orden de X e Y . Los momentos de primer orden m01 = E[Y ] =
Y y m10 = E[X] = X son los momentos esperados de Y y X, y son las
coordenadas del centro de gravedad de la funcion fXY (x, y).
El momento de segundo orden m11 = E[XY ] es denominado la correlacion
de X e Y . Recibe el smbolo especial RXY por su importancia. Se tiene
entonces,
Z Z
RXY = m11 = E[XY ] = xyfX,Y (x, y)dxdy (3.39)

Si la correlacion puede escribirse en la forma:
RXY = E[X]E[Y ]
entonces X e Y se dice que no estan correlacionadas. La independencia es-

tadstica de X e Y es suficiente para garantizar que no estan correlacionadas.
El recproco de esta ultima frase, que X e Y son independientes si X e Y
3.10. OPERACIONES CON VARIABLES ALEATORIAS MULTIPLES 99
no estan correlacionadas, no es necesariamente cierto en general, con la sola

excepcion de las variables aleatorias gaussianas no correlacionadas, de las
que se sabe son tambien independientes.
Si RXY = 0 para dos variables aleatorias X e Y, estas se denominan
ortogonales.
Ejemplo
Sea X una variable aleatoria que tiene un valor medio X = E[X] = 3 y
2
varianza X = 2. El segundo momento de X alrededor del origen se calcula
de:
2
X = E[X 2 ] (E[X])2
E[X 2 ] = X
2
+ (E[X])2
= 11
Sea Y = 6X + 22. De aqu:
E[Y ] = 6E[X] + 22
= 6(3) + 22
= 4
RXY = E[XY ]
= E[X(6X + 22)]
= E[6X 2 + 22X]
= 6E[X 2 ] + 22E[X]
= 6(11) + 22(3)
= 0
De donde X e Y son ortogonales. Por otro lado, RXY 6= E[X]E[Y ] = 12.

Con esto ultimo se prueba que dos variables aleatorias pueden ser ortogonales
aun cuando una de ellas, Y , esta relacionada con la otra, X, por una funcion
lineal Y = aX + b.
Para N variables aleatorias X1 , X2 , . . . , XN , los momentos conjuntos de
orden n1 + n2 + + nN estan definidos por:
mn1 n2 nN = E [X1n1 X2n2 XNnN ] (3.40)

Z Z
= xn1 1 xnNN fX1 ,...,XN (x1 , . . . , xN )dx1 dxN

donde n1 , n2 , . . . , nN son todos enteros e iguales a 0, 1, 2, . . ..
3.10.3. Momentos centrales conjuntos

Para dos variables aleatorias X e Y , estos momentos estan dados por:
nk = E (X X)n (Y Y )k

(3.41)
Z Z
= (x X)n (y Y )k fX,Y (x, y)dxdy (3.42)

Los momentos centrales de segundo orden
20 = E[(X X)2 ] = X
2
02 = E[(Y Y )2 ] = Y2
son las varianzas de X e Y, respectivamente.

El momento conjunto de segundo orden 11 es la covarianza de X e Y, y
se le da el smbolo CXY . Por lo tanto,
3.10. OPERACIONES CON VARIABLES ALEATORIAS MULTIPLES101
CXY = E[(X X)(Y Y )] (3.43)

Z Z
= (x X)(y Y )fX,Y (x, y)dxdy (3.44)

= E[XY XY XY + X Y ]
= E[XY ] E[X]E[Y ] (3.45)
CXY = RXY E[X]E[Y ] (3.46)
Si X, Y son independientes o no estan correlacionadas, entonces CXY = 0,

como puede corroborarse facilmente.
Si X, Y son ortogonales, CXY = E[X]E[Y ]. En este ultimo caso, si X
o Y (o ambas) tienen valor medio cero, entonces CXY = 0.
El momento de segundo orden normalizado
11 CXY
= = (3.47)
20 02 X Y
dado por
E[(X X)(Y Y )]
= (3.48)
X Y

(X X) (Y Y )
= E (3.49)
X Y
se conoce como el coeficiente de correlacion de X e Y, con 1 6 6 1.
Para N variables aleatorias X1 , X2 , , XN el momento central conjunto
de orden n1 + n2 + + nN esta definido por:
n1 n2 nN = E (X1 X1 )n1 (X2 X2 )n2 (XN XN )nN

(3.50)
Z Z
= (x1 X1 )n1 (xN XN )nN fX1 XN (x1 , . . . , xN )dx1 dxN

Ejemplo
Sea X una suma pesada de N variables aleatorias Xi :
N
X
X= i X i
i=1
Encuentre la varianza de X.
N
X
X = i X i
i=1
XN
X X = i (Xi Xi )
i=1
2
X = E[(X X)2 ]
" N N
#
X X
= E i (Xi Xi ) j (Xj Xj )
i=1 j=1
N X
X N
= i j E[(Xi Xi )(Xj Xj )]
i=1 j=1
N X
X N
= i j CXi Xj
i=1 j=1
De esta forma, la varianza de una suma pesada de N variables aleatorias

Xi (con pesos i iguala la suma pesada de todas sus covarianzas CXi Xj (con
pesos i j ). Para el caso especial de variables aleatorias no correlacionadas,
donde

0 i 6= j
CXi Xj = 2
Xi i = j
se cumple, se tiene
N
X
2
X = i2 X
2
i
i=1
Con base en esto ultimo, se concluye que la varianza de una suma pesada
de variables aleatorias no correlacionadas (con pesos i ) iguala a la suma
pesada de las varianzas de las variables aleatorias (con pesos i2 ).
3.10.4. Funciones caractersticas conjuntas

La funcion caracterstica conjunta de dos variables aleatorias X e Y
esta definida por:
X,Y (1 , 2 ) = E ej1 X+j2 Y

(3.51)
donde 1 , 2 son numeros reales. Una forma equivalente es:
Z Z
X,Y (1 , 2 ) = fX,Y (x, y)ej1 x+j2 y dxdy (3.52)

Lo anterior es la transformada bidimensional de Fourier (con signos cam-

biados para 1 , 2 ) de la funcion de densidad conjunta. De la transformada
inversa de Fourier se tiene:
Z Z
1
fX,Y (x, y) = X,Y (1 , 2 )ej1 xj2 y d1 d2 (3.53)
(2)2
Con poner 2 = 0 u 1 = 0, se obtiene las funciones caractersticas de X

o Y , de X,Y (1 , 2 ). Estas se llaman funciones caractersticas marginales:
X (1 ) = X,Y (1 , 0) (3.54)
Y (2 ) = X,Y (0, 2 ) (3.55)
Los momentos conjuntos mnk pueden hallarse de la funcion caracterstica

conjunta como sigue:
n+k

X,Y ( 1 , 2 )
mnk = (j)n+k (3.56)
1n 2k
1 =0,2 =0
Ejemplo
Dos variables aleatorias X e Y tienen la funcion caracterstica conjunta:
X,Y (1 , 2 ) = exp 212 822

Demuestre que X, Y tienen media cero y que no estan correlacionadas.
X = m10
X,Y (1 , 2 )
= j
1
=0, =0
1 2 2 2
= (j)(41 ) exp 21 82 |1 =0,2 =0
= 0
Y = m01
= (j)(162 ) exp 212 822 1 =0,2 =0

= 0
RXY = m11
2

2
2

2
= (j) exp 21 82
1 2 1 =0,2 =0
2 2

= (41 )(162 ) exp 21 82 1 =0,2 =0
= 0
Puesto que las medias son cero, CXY = RXY . Por lo tanto, CXY = 0 y
las variables aleatorias no estan correlacionadas.
La funcion caracterstica conjunta para N variables aleatorias X1 , X2 , . . . , XN
esta definida por:
X1 ,X2 ,...,XN (1 , 2 , . . . , N ) = E ej1 X1 +j2 X2 ++jN XN

(3.57)
Los momentos conjuntos se obtienen de:
R

R X1 ,X2 ,...,XN (1 , 2 , . . . , N )
mn1 n2 ...nN = (j) nN
(3.58)
1n1 2n2 N
todo i =0
donde R = n1 + n2 + + nN .
La funcion caracterstica conjunta es util particularmente en ciertos pro-
blemas practicos donde la funcion de densidad probabilstica se necesita para
la variable aleatoria resultante de la suma de N estadsticamente indepen-
dientes variables aleatorias.
Ejemplo
Sea Y = X1 +X2 + +XN la suma de N estadsticamente independientes
variables aleatorias Xi , i = 1, 2, . . . , N. Denotese las funciones de densidad
probabilstica y funciones caractersticas respectivas por fXi (xi ) y Xi (i ).
Debido a la independencia estadstica, la funcion de densidad probabilstica
conjunta es el producto de todas las funciones de densidad, por lo que la
funcion caracterstica conjunta esta dada por:
Z Z "Y
N
# ( N
X
)
X1 ,...,XN (1 , . . . , N ) = fXi (xi ) exp ji xi dx1 dxN
i=1 i=1
N Z
Y
= fXi (xi )eji xi dxi
i=1
YN
= Xi (i )
i=1
Se escribe ahora la funcion caracterstica de Y a partir de la definicion:

Y () = E[ejY ]
" ( N )#
X
= E exp jXi
i=1
= X1 ,...,XN (, . . . , )
N
Y
= Xi ()
i=1
La funcion caracterstica de Y es similar a la funcion caracterstica con-

junta, definida en la ecuacion 3.57, con i = , para todo i. La funcion de
densidad probabilstica de Y se obtiene de la version particular de la trans-
formada de Fourier inversa aplicada sobre la funcion caracterstica corres-
pondiente:
" N
#
Z
1 Y
fY (y) = Xi () ejy d
2 i=1
Si las Xi se distribuyen estadsticamente de manera identica de tal forma

que Xi () = X (), para todo i, el ultimo resultado final se reduce a:
Z
1
fY (y) = [X ()]N ejy d
2
3.11. Variables aleatorias conjuntamente gaus-

sianas
Se vera el caso particular de dos variables aleatorias.
Dos variables aleatorias X e Y se dice que son gaussianas conjuntamente
si su funcion de densidad conjunta es de la forma
3.11. VARIABLES ALEATORIAS CONJUNTAMENTE GAUSSIANAS107
(x X)2

1 1
fX,Y (x, y) = p exp 2
2X Y 1 2 2(1 2 ) X
2(x X)(y Y ) (y Y )2

+ (3.59)
X Y Y2
expresion que a veces recibe el nombre de densidad gaussiana bivariada. El

significado de las constantes que aparecen en la expresion anterior es como
2
sigue: X = E[X], Y = E[Y ], X = E[(X X)2 ], Y2 = E[(Y Y )2 ], =
E[(X X)(Y Y )]/(X Y ).
Cuando = 0, que es el caso cuando X, Y no estan correlacionadas, se
puede escribir:
fX,Y (x, y) = fX (x)fY (y) (3.60)
donde fX (x) y fY (y) son las densidades marginales de X e Y .
(x X)2

1
fX (x) = p exp 2
2X2 2X
(y Y )2

1
fX (x) = p exp
2Y2 2Y2
Por lo visto, X e Y son estadsticamente independientes. Se concluye que

cualesquiera variables aleatorias gaussianas no correlacionadas son estadsti-
camente independientes.
Como resultado especial, se tiene que una rotacion de coordenadas (trans-
formacion lineal de X e Y ) mediante un angulo

1 2X Y
= arctan 2 (3.61)
2 X Y2
es suficiente para convertir variables aleatorias correlacionadas X e Y , con

2
varianzas X , Y2 , coeficiente de correlacion , y con densidad conjunta biva-
riada, en dos variables aleatorias gaussianas estadsticamente independientes.
Ejemplo
La transformacion 3.61 es aplicable tanto a variables aleatorias gaussia-
nas como a variables aleatorias arbitrarias. Considere variables aleatorias
Y1 e Y2 relacionadas con las variables aleatorias arbitrarias X e Y por la
rotacion de coordenadas:
Y1 = X cos + Y sen
Y2 = Xsen + Y cos
Si X e Y son las medias de X e Y , las medias de Y1 e Y2 son Y1 =

X cos + Y sen, Y2 = Xsen + Y cos . La covarianza de Y1 e Y2 es:
CY1 Y2 = E[(Y1 Y1 )(Y2 Y2 )]

= E {(X X) cos + (Y Y )sen}{(X X)sen + (Y Y ) cos }

1 2 1 2
= E (X X) sen2 + (X X)(Y Y ) cos 2 + (Y Y ) sen2
2 2
1 2 1 2
= X sen2 + CXY cos 2 + Y sen2
2 2
sen2
= (Y2 X
2
) + CXY cos 2
2
Recuerdese que CXY = E[(X X)(Y Y )] = X Y . Si se quiere que

Y1 e Y2 no esten correlacionadas, se debe tener CY1 Y2 = 0.
3.12. TRANSFORMACIONES DE VARIABLES ALEATORIAS MULTIPLES109
sen2 2 2
(Y X ) + cos 2CXY = 0
2
sen2 2 2
(Y X ) + cos 2X Y = 0
2
sen2 2
(X Y2 ) = 2 cos 2X Y
2
2X Y
tan 2 = 2
X Y2

1 2X Y
= arctan 2
2 (X Y2 )
Este ultimo resultado comprueba la ecuacion 3.61.
3.12. Transformaciones de variables aleatorias

multiples
Al calcular el valor esperado de una expresion de una variable aleatoria,
no fue necesario determinar la densidad de la nueva variable aleatoria de-
finida por esa expresion. Sin embargo, la determinacion de tal densidad se
considerara a continuacion dado que puede ser necesaria en algunos casos.
Considerese el caso de hallar la densidad conjunta para un conjunto de
nuevas variables aleatorias Yi :
Yi = Ti (X1 , X2 , . . . , XN ) i = 1, 2, . . . , N (3.62)
definidas por transformaciones funcionales Ti . Xi puede ser continua, discre-

ta o mixta, mientras las funciones Ti pueden ser lineales o no, continuas,
segmentadas, etcetera. Solamente se discutira un caso representativo a con-
tinuacion.
Supongase que las nuevas variables aleatorias Yi son producidas por fun-
ciones univaluadas continuas Ti con derivadas parciales continuas en todas
partes. Supongase asimismo que existe un conjunto de funciones inversas

continuas Tj1 tal que las viejas variables puedan expresarse como funciones
continuas univaluadas de las variables nuevas:
Xj = Tj1 (Y1 , Y2 , . . . , YN ) j = 1, 2, . . . , N (3.63)
Estas suposiciones implican que un punto en el espacio de muestras con-

junto de las Xi mapea en un solo punto en el espacio de las nuevas variables
Yj .
Sea RX una region cerrada de puntos en el espacio de las Xi , y RY sea la
region correspondiente de puntos mapeados en el espacio de las Yj . Entonces,
la probabilidad que un punto caiga en RX iguala a la probabilidad que su
punto mapeado caiga en RY . Estas probabilidades, en terminos de densidades
conjuntas, estan dadas por:
Z Z Z Z
fX1 ,...,XN (x1 , . . . , xN )dx1 dxN = fY1 ,...,YN (y1 , . . . , yN )
| {z } | {z }
sobre RX sobre RY
dy1 . . . dyN (3.64)
La anterior ecuacion puede resolverse para fY1 ,...,YN (y1 , . . . , yN ) tratandola

como una integral multiple donde se hace un cambio de variables. Las varia-
bles xi se cambian a nuevas variables yi por medio de tal cambio. El inte-
grando se cambia por sustitucion funcional directa. Los lmites cambian de la
region RX a la region RY . Finalmente, el diferencial de volumen dx1 . . . dxN
cambiara al valor |J|dy1 . . . dyN , donde |J| es la magnitud del jacobiano J
de las transformaciones. El jacobiano es el determinante de una matriz de
derivadas, definido por:
3.12. TRANSFORMACIONES DE VARIABLES ALEATORIAS MULTIPLES111
T11 T11

Y1 YN

J = .. .. ..
(3.65)
. . .

1 1
TN TN

Y1
YN

El lado izquierdo de la ecuacion 3.64 se convierte en:
Z Z
fX1 ,...,XN (x1 , . . . , xN )dx1 dxN =
| {z }
sobre RX
Z Z
fX1 ,...,XN (x1 = T11 , . . . , xN = TN1 )|J|dy1 dyN (3.66)
| {z }
sobre RY
Dado que este resultado debe igualar el lado derecho de la ecuacion 3.64,
entonces:
fY1 ,...,YN (y1 , . . . , yN ) = fX1 ,...,XN (x1 = T11 , . . . , xN = TN1 )|J| (3.67)
Ejemplo
Considerese las siguientes transformaciones lineales:
Y1 = aX1 + bX2
Y2 = cX1 + dX2
donde a, b, c, d son constantes reales. Las funciones inversas se obtienen re-

solviendo estas dos ecuaciones para las dos variables X1 y X2 . Si se usa la
regla de Cramer para ello:

Y1 b

Y2 d dY1 bY2
X1 = =
a
b ad bc
c d

a Y1

c Y2 cY1 + aY2
X2 = =
a
b ad bc
c d
El jacobiano de la transformacion estara dado por:
X1 X1 d b

Y1 Y2

adbc adbc
1
J =
X2 X2
=
c a
=
ad bc
Y1 Y2 adbc adbc
Se supone ad bc 6= 0. Finalmente, la funcion de densidad conjunta de

las nuevas variables aleatorias Y1 e Y2 sera:

dy1 by2 cy1 + ay2
fY1 ,Y2 (y1 , y2 ) = fX1 ,X2 , |J|
ad bc ad bc

dy1 by2 cy1 + ay2 1
= fX1 ,X2 ,
ad bc ad bc |ad bc|
Captulo 4
Procesos estocasticos
113
114 CAPITULO 4. PROCESOS ESTOCASTICOS
4.1. Preambulo
Los procesos estocasticos constituyen una generalizacion del concepto de
variables aleatorias al campo de las funciones dependientes del tiempo. Se
conocera funciones que contienen cantidades que son estadsticas en su na-
turaleza esencial y otras que dependeran del tiempo directamente; sobre las
estadsticas, es donde se aplicara los conceptos aprendidos de las variables
aleatorias, en tanto que se considerara como constante aquellas cantidades
dependientes del tiempo.
4.2. Conceptos basicos

En el mundo de la Ingeniera y de la ciencia, es necesario que se trate
con senales dependientes del tiempo. Frecuentemente, se encuentra ondas de
tiempo aleatorias en sistemas practicos. Es comun que una senal deseada en
algun sistema sea aleatoria. El flujo de bits en un sistema de comunicaciones
binario es un mensaje aleatorio porque cada bit en el flujo ocurre aleatoria-
mente. Por otro lado, una senal deseada es a menudo acompanada por una
onda aleatoria indeseable, ruido. El ruido interfiere con el mensaje y limita
el funcionamiento del sistema. As, cualquier esperanza que se tenga de de-
terminar el funcionamiento de sistemas con ondas aleatorias depende de la
capacidad para describir y tratar con tales ondas.
4.2.1. Concepto de un proceso aleatorio
El concepto de un proceso aleatorio esta basado en la extension del con-

cepto de una variable aleatoria para incluir el tiempo. Dado que una variable
aleatoria X es una funcion de los posibles resultados s de un experimento, se
convierte en una funcion tanto de s como del tiempo. Se asigna, de acuerdo
4.2. CONCEPTOS BASICOS 115
a una regla, una funcion del tiempo
x(t, s)
a todo resultado s. La familia de todas estas funciones, denotada X(t, s), es

denominada un proceso aleatorio o procesos estocastico. Como con variables
aleatorias donde x denota un valor especfico de la variable aleatoria X,
se usara a menudo la notacion abreviada x(t), para representar una onda
especfica de un proceso aleatorio denotado por X(t).
Un proceso aleatorio X(t, s) representa una familia o agregado de funcio-
nes del tiempo cuando t y s son variables.
Cada una de las funciones del tiempo, miembro del proceso estocastico, se
llama una funcion muestra, miembro del agregado o, a veces, una realizacion
del proceso. As, un proceso aleatorio tambien representa una simple funcion
del tiempo cuando t es una variable y s esta fijo en un valor especfico.
Un proceso aleatorio representa una variable aleatoria cuando t es fijo y s
es una variable. Por ejemplo, la variable aleatoria X(t1 , s) = X(t1 ) se obtiene
del proceso cuando el tiempo se congela al valor t1 . A menudo se usa la nota-
cion X1 para denotar la variable aleatoria asociada con el proceso X(t) en el
tiempo t1 . X1 corresponde a una tajada vertical por el agregado en el tiempo
t1 . Las propiedades estadsticas de X1 = X(t1 ) describen las propiedades
estadsticas del proceso aleatorio en el tiempo t1 . El valor esperado de X1 es
denominado el promedio del agregado as como el valor medio o esperado del
proceso aleatorio (en el tiempo t1 ). Dado que t1 puede tener varios valores, el
valor medio de un proceso puede no ser constante; en general, es una funcion
del tiempo. Se visualiza facilmente cualquier numero de variables aleatorias
Xi derivadas de un proceso aleatorio X(t) en tiempos ti , i = 1, 2, . . . , como
Xi = X(ti , s) = X(ti )
Un proceso aleatorio representa un simple numero cuando t y s son ambos

fijos.
4.2.2. Clasificacion de procesos
Si X es un proceso continuo y t toma un continuo de valores, entonces

X(t) se llama un proceso aleatorio continuo. Ruido termico generado por
cualquier red realizable es un ejemplo practico de una onda que es modelada
como una funcion muestra de un proceso aleatorio continuo. En este ejemplo,
la red es el resultado en el experimento aleatorio subyacente de seleccionar
una red (la suposicion es que hay muchas redes disponibles de donde escoger;
esto no podra ser el caso en el mundo real, pero no previene esto de imaginar
una lnea de produccion produciendo un sinnumero de redes similares). Cada
red establece una funcion muestra y todas las funciones muestra forman el
proceso.
Una segunda clase de proceso aleatorio, denominado proceso aleatorio
discreto, corresponde a la variable aleatoria X que toma solamente valores
discretos mientras que t es continuo.
Un proceso aleatorio para el que X es continuo pero el tiempo tiene
solamente valores discretos se llama una secuencia aleatoria continua. Tal
secuencia se forma al muestrear periodicamente los miembros del agregado
de un proceso aleatorio continuo.
Una cuarta clase de procesos aleatorios, denominada secuencia aleato-
ria discreta, corresponde al caso de variables aleatorias discretas y tiempo
discreto.
4.2. CONCEPTOS BASICOS 117
Procesos determinsticos y no determinsticos
Ademas de las clases descritas anteriormente, un proceso aleatorio pue-

de describirse por la forma de sus funciones muestra. Si valores futuros de
cualquier funcion muestra no pueden ser predichos exactamente de valores
observados pasados, el proceso se denomina no determinstico.
Un proceso se llama determinstico si los valores futuros de cualquier
funcion muestra pueden ser predichos de valores pasados. Un ejemplo es el
proceso aleatorio definido por:
X(t) = A cos (0 t + ) (4.1)
Aqu A, u 0 (o todos) pueden ser variables aleatorias. Cualquier fun-

cion muestra corresponde a la ecuacion 4.1 con valores particulares de estas
variables aleatorias. Por consiguiente, el conocimiento de la funcion muestra
con anterioridad a cualquier instante del tiempo, permite automaticamente
la prediccion de los valores futuros de la funcion muestra porque su forma es
conocida.
Estacionaridad e independencia
Un proceso aleatorio se convierte en una variable aleatoria cuando el tiem-

po se fija en un valor particular. La variable aleatoria poseera propiedades
estadsticas, tales como valor medio, momentos, varianza, etcetera, relacio-
nados con su funcion de densidad. Si dos variables aleatorias se obtienen del
proceso para dos instantes del tiempo, tendran propiedades estadsticas (me-
dias, varianzas, momentos conjuntos, etcetera) relacionados con su funcion de
densidad conjunta. En general, N variables aleatorias poseeran propiedades
estadsticas relacionadas con su funcion de densidad conjunta N -dimensional.
Hablando ampliamente, un proceso aleatorio se dice que es estacionario
si todas sus propiedades estadsticas no cambian con el tiempo. Otros pro-

cesos son denominados no-estacionarios. Estas ultimas definiciones no se
comprenden como definiciones de estacionaridad sino que simplemente por-
tan un significado general. De hecho, hay varios niveles de estacionaridad y
todos dependen de las funciones de densidad de las variables aleatorias del
proceso.
4.3. Funciones de distribucion y de densidad

Para un tiempo particular t1 , la funcion de distribucion asociada con la
variable aleatoria X1 = X(t1 ), sera denotada FX (x1 ; t1 ) y es conocida mas
precisamente como la funcion de distribucion de primer orden del proceso
X(t). Se le define como
FX (x1 ; t1 ) = P {X(t1 ) 6 x1 } (4.2)
para cualquier numero real x1 .

Para dos variables aleatorias X1 = X(t1 ) y X2 = X(t2 ), la funcion de
distribucion conjunta de segundo orden es la extension bidimensional de la
formula anterior:
FX (x1 , x2 ; t1 , t2 ) = P {X(t1 ) 6 x1 , X(t2 ) 6 x2 } (4.3)
De manera similar, para N variables aleatorias Xi = X(ti ), i = 1, 2, . . . , N ,

la funcion de distribucion conjunta de orden N es
FX (x1 , . . . , xN ; t1 , . . . , tN ) = P {X(t1 ) 6 x1 , . . . , X(tN ) 6 xN } (4.4)
Las funciones de densidad conjunta de interes se encuentran de las deri-

vadas apropiadas de las tres formulas anteriores:
4.4. INDEPENDENCIA ESTADISTICA 119
dFX (x1 ; t1 )
fX (x1 ; t1 ) = (4.5)
dx1
2
FX (x1 , x2 ; t1 , t2 )
fX (x1 , x2 ; t1 , t2 ) = (4.6)
x1 x2
N
FX (x1 , . . . , xN ; t1 , . . . , tN )
fX (x1 , . . . , xN ; t1 , . . . , tN ) = (4.7)
x1 xN
4.4. Independencia estadstica

Dos procesos X(t) e Y (t) son estadsticamente independientes si el grupo
de variables aleatorias X(t1 ), X(t2 ), . . . , X(tN ) es independiente del grupo
Y (t01 ), Y (t02 ), . . . , Y (t0M ) para cualquier escogencia de tiempos t1 , t2 , . . . , tN ,
t01 , t02 , . . . , t0M . La independencia requiere que la densidad conjunta sea facto-
rable por grupos:
fX,Y (x1 , . . . , xN , y1 , . . . , yM ; t1 , . . . , tN , t01 , . . . , t0M ) =

fX (x1 , . . . , xN ; t1 , . . . , tN )fY (y1 , . . . , yM ; t01 , . . . , t0M ) (4.8)
4.5. Procesos estacionarios de primer orden

Un proceso aleatorio es llamado estacionario a orden uno si su funcion de
densidad de primer orden no cambia con un desplazamiento en el origen del
tiempo. En otras palabras,
fX (x1 ; t1 ) = fX (x1 ; t1 + ) (4.9)
debe ser cierto para cualquier t1 y cualquier numero real si X(t) es un

proceso estacionario de primer orden.
Consecuencias de la ecuacion 4.9 son que fX (x1 ; t1 ) es independiente de

t1 y el valor medio del proceso E[X(t)] es una constante:
E[X(t)] = X = constante (4.10)
Para probar lo anterior se encuentra los valores medios de las variables

aleatorias X1 = X(t1 ) y X2 = X(t2 ). Para X1 :
Z
E[X1 ] = E[X(t1 )] = x1 fX (x1 ; t1 )dx1 (4.11)

Para X2 :
Z
E[X2 ] = E[X(t2 )] = x1 fX (x1 ; t2 )dx1 (4.12)

La variable x2 de integracion ha sido reemplazada por la variable alter-

nativa x1 por conveniencia. Si se pone ahora t2 = t1 + en la ecuacion 4.12,
Z
E[X2 ] = E[X(t2 )] = x1 fX (x1 ; t1 + )dx1 = E[X(t1 + )]

Z
= x1 fX (x1 ; t1 )dx1 = E[X(t1 )] = E[X1 ]

Se concluye finalmente
E[X(t1 + )] = E[X(t1 )]
que debe ser constante porque t1 y son arbitrarios.

4.6. ESTACIONARIDAD DE SEGUNDO ORDEN Y DE SENTIDO AMPLIO121
4.6. Estacionaridad de segundo orden y de

sentido amplio
Un proceso se llama estacionario a orden dos si su funcion de densidad
de segundo orden
fX (x1 , x2 ; t1 , t2 ) = fX (x1 , x2 ; t1 + , t2 + ) (4.13)
para todo t1 , t2 y . La formula anterior es una funcion de diferencias tem-

porales t2 t1 y no del tiempo absoluto. Un proceso estacionario de segundo
orden es tambien estacionario de primer orden porque la funcion de densidad
de segundo orden determina la densidad de primer orden inferior.
La cantidad
RXX (t1 , t2 ) = E[X1 X2 ] = E[X(t1 )X(t2 )] (4.14)
recibe el nombre de autocorrelacion de un proceso aleatorio X(t) y

sera en general una funcion de t1 y t2 . Una consecuencia de la ecuacion 4.13
es que la autocorrelacion de un proceso estacionario de segundo orden es una
funcion solamente de las diferencias temporales y no del tiempo absoluto; es
decir, si = t2 t1 , entonces
RXX (t1 , t1 + ) = E[X(t1 )X(t1 + )] = RXX ( ) (4.15)
Muchos problemas practicos requieren que se trate con la funcion de au-

tocorrelacion y el valor medio de un proceso aleatorio. Las soluciones se
simplifican mucho si tales cantidades no dependieran del tiempo absoluto.
La estacionaridad de segundo orden es suficiente para garantizar estas carac-
tersticas. Empero, es a menudo mas restrictivo que necesario y es deseable
una forma mas relajada de estacionaridad. La forma mas util es el proceso

estacionario en sentido amplio, definido como aquel en donde
E[X(t)] = X (constante) (4.16)

E[X(t)X(t + )] = RXX ( ) (4.17)
Un proceso estacionario a orden 2 es claramente estacionario en sentido

amplio. No obstante, el recproco no es necesariamente cierto.
Ejemplo
Se demostrara que el proceso aleatorio
X(t) = A cos (0 t + )
es estacionario en sentido amplio si se supone que A y 0 son constantes y

es una variable aleatoria diistribuida uniformemente en el intervalo [0, 2].
El valor medio es
Z 2
1
E[X(t)] = A cos(0 t + ) d
0 2
= 0
La funcion de autocorrelacion con t1 = t y t2 = t + se convierte en
RXX (t, t + ) = E [A cos(0 t + )A cos(0 t + 0 + )]

A2
= E [cos(0 ) + cos(20 t + 0 + 2)]
2
A2
= cos(0 )
2
La funcion de autocorrelacion depende solamente de y el valor medio
es una constante, por lo que X(t) es estacionario en sentido amplio.
4.7. ESTACIONARIDAD EN SENTIDO ESTRICTO Y A ORDEN N 123
Dos procesos aleatorios X(t), Y (t) son conjuntamente estacionarios en

sentido amplio si cada uno es estacionario en sentido amplio y su funcion de
correlacion cruzada (crosscorrelation)
RXY (t1 , t2 ) = E[X(t1 )Y (t2 )] (4.18)
es una funcion solamente de la diferencia temporal = t2 t1 y no del tiempo

absoluto, es decir,
RXY (t, t + ) = E[X(t)Y (t + )] (4.19)

= RXY ( ) (4.20)
4.7. Estacionaridad en sentido estricto y a or-

den N
Un proceso aleatorio es estacionario a orden N si su funcion de densidad
de orden N es invariante ante un desplazamiento en el origen temporal; es
decir, si
fX (x1 , . . . , xN ; t1 , . . . , tN ) = fX (x1 , . . . , xN ; t1 + , . . . , tN + ) (4.21)
para todo t1 , . . . , tN y . La estacionaridad de orden N implica estaciona-

ridad a todos los ordenes k 6 N . Un proceso estacionario a todo orden
N = 1, 2, . . . , es denominado estacionario en sentido estricto.
4.8. Promedios en el tiempo y ergodicidad

El promedio temporal de una cantidad esta definida como
Z T
1
A [ ] = lm [ ] dt (4.22)
T 2T T
El operador A se usa para denotar promedio temporal de una manera
analoga al operador E para el promedio estadstico. El promedio temporal se
toma sobre todo el tiempo, porque al ser aplicado sobre procesos aleatorios,
las funciones muestra de los procesos se supone que existen por todo tiempo.
Promedios especficos de interes son el valor medio x = A[x(t)] de una fun-
cion muestra (una letra minuscula se usa para denotar una funcion muestra) y
la funcion de autocorrelacion temporal, denotada RXX ( ) = A[x(t)x(t + )].
Estas funciones estan definidas por
x = A[x(t)] (4.23)
Z T
1
= lm x(t)dt (4.24)
T 2T T
RXX ( ) = A[x(t)x(t + )] (4.25)

Z T
1
= lm x(t)x(t + )dt (4.26)
T 2T T
Para cualesquiera funcion muestra del proceso X(t), estas dos ultimas
integrales simplemente producen dos numeros (para un valor fijo de ). Sin
embargo, cuando se consideran todas las funciones muestra, x y RXX ( ) son
realmente variables aleatorias. Tomando el valor esperado a ambos lados de
las definiciones, suponiendo que la operacion matematica de la esperanza
puede llevarse al interior de la integral y suponiendo que X(t) es un proceso
estacionario,
E[x] = X
E[RXX ( )] = RXX ( )
4.9. FUNCIONES DE CORRELACION 125
Si se supone que x y RXX ( ) tienen varianzas nulas, es decir, que son

constantes, se escribe entonces,
x = X
RXX ( ) = RXX ( )
Los promedios temporales x y RXX ( ) igualan a los promedios estadsti-

cos. Los procesos para los que los promedios temporales igualan a los es-
tadsticos se denominan ergodicos.
Ergodicidad es una forma muy restrictiva de estacionaridad y puede ser
difcil probar que constituye una suposicion razonable para cualquier situa-
cion fsica. Sin embargo, se asumira que un proceso es ergodico a veces para
simplificar problemas.
Dos procesos aleatorios son llamados conjuntamente ergodicos si son in-
dividualmente ergodicos y tambien tienen una funcion de correlacion cruzada
temporal que iguala la funcion de correlacion cruzada estadstica:
Z T
1
RXY ( ) = lm x(t)y(t + )dt = RXY ( ) (4.27)
T 2T T
4.9. Funciones de correlacion

4.9.1. Funcion de autocorrelacion y sus propiedades
La autocorrelacion de un proceso aleatorio X(t) es la correlacion E[X1 X2 ]
de dos variables aleatorias X1 = X(t1 ) y X2 = X(t2 ) definidas por el proceso
en tiempos t1 y t2 .
RXX (t1 , t2 ) = E[X(t1 )X(t2 )] (4.28)

Con t1 = t y t2 = t1 +
RXX (t, t + ) = E[X(t)X(t + )] (4.29)
Si X(t) es estacionario en sentido amplio, RXX (t, t + ) es funcion uni-

camente de la diferencia = t2 t1 . Para procesos estacionarios en sentido
amplio,
RXX ( ) = E[X(t)X(t + )] (4.30)
Para tales procesos la funcion de autocorrelacion tiene las siguientes pro-

piedades:
1. |RXX ( )| 6 RXX (0)
2. RXX ( ) = RXX ( )
3. RXX (0) = E[X 2 (t)]
La primera propiedad dice que RXX ( ) esta acotada por su valor en

el origen, mientras que la tercera establece que tal cota es igual al
valor cuadratico medio llamado la potencia del proceso. La segunda
propiedad indica que la autocorrelacion tiene simetra par.
4. Si E[X(t)] = X 6= 0 y X(t) es ergodico sin componentes periodicos

entonces
2
lm RXX ( ) = X
| |
5. Si X(t) tiene un componente periodico, entonces RXX ( ) tendra un

componente periodico con el mismo periodo.
6. Si X(t) es ergodico, con media cero y no tiene componente periodico,

entonces
lm RXX ( ) = 0
| |
7. RXX ( ) no puede tener una forma arbitraria. O en otras palabras, cual-

quier funcion arbitraria no puede ser una funcion de autocorrelacion.
Ejemplo
Para un proceso estacionario ergodico sin componentes periodicos,
4
RXX ( ) = 25 +
1 + 6 2
Encuentre el valor medio y la varianza del proceso.
De la cuarta propiedad anterior,

E[X(t)] = X = 25 = 5
Notese que tal propiedad solamente da la magnitud de X y no su signo.

La varianza esta dada por:
2
X = E[X 2 (t)] [E[X(t)]]2
= RXX (0) 25
= 4
4.9.2. Funcion de correlacion cruzada y sus propieda-

des
La funcion de correlacion cruzada esta definida por
RXY (t, t + ) = E [X(t)Y (t + )] (4.31)
Si X(t) y Y (t) son a lo menos conjuntamente estacionarios en sentido

amplio, RXY (t, t + ) sera independiente del tiempo absoluto:
RXY ( ) = E [X(t)Y (t + )] (4.32)
Si RXY (t, t + ) = 0, entonces X(t) e Y (t) son procesos ortogonales. Si los

dos procesos son estadsticamente independientes, la funcion de correlacion
cruzada se convierte en:
RXY (t, t + ) = E[X(t)]E[Y (t + )] (4.33)
Si ademas de ser independientes, X(t) e Y (t) son a lo menos estacionarios

en sentido amplio,
RXY ( ) = X Y (4.34)
que es una constante.

Si los procesos son a lo menos estacionarios en el sentido amplio:
1. RXY ( ) = RY X ( )
p
2. |RXY ( )| 6 RXX (0)RY Y (0)
3. |RXY ( )| 6 21 [RXX (0) + RY Y (0)]
La segunda propiedad anterior se prueba expandiendo la desigualdad:
E[{Y (t + ) + X(t)}2 ] > 0

donde es un numero real. Las propiedades segunda y tercera constituyen

ambas cotas sobre la magnitud de RXY ( ), siendo la cota de la segunda
propiedad la mas ajustada puesto que la media geometrica de dos numeros
positivos no puede exceder su media aritmetica; es decir,
p 1
RXX (0)RY Y (0) 6 [RXX (0) + RY Y (0)]
2
Ejemplo
Sea dos procesos estocasticos X(t) y Y (t) definidos por:
X(t) = A cos(0 t) + Bsen(0 t)

Y (t) = B cos(0 t) Asen(0 t)
donde A y B son variables aleatorias y 0 es una constante. Se puede demos-

trar que X(t) es estacionario en sentido amplio si A y B no estan correlacio-
nadas, son variables aleatorias de media cero con la misma varianza (pueden
tener diferentes funciones de densidad, empero). Con estos constrenimientos
en A y B, Y (t) es tambien estacionario en sentido amplio. Se encontrara a
continuacion la correlacion cruzada RXY (t, t + ) y se demostrara que X(t)
e Y (t) son conjuntamente estacionarios en sentido amplio.
RXY (t, t + ) = E[X(t)Y (t + )]

= E AB cos(0 t) cos(0 t + 0 ) + B 2 sen(0 t) cos(0 t + 0 )

A2 cos(0 t)sen(0 t + 0 ) ABsen(0 t)sen(0 t + 0 )

= E[AB] cos(20 t + 0 ) + E[B 2 ]sen(0 t) cos(0 t + 0 )

E[A2 ] cos(0 t)sen(0 t + 0 )
Como A y B se supone que tienen media cero y que no estan correla-

cionadas, E[AB] = 0. Tambien, dado que A y B se supone que tienen igual
varianza, E[A2 ] = E[B 2 ] = 2 , con lo que se obtiene:
RXY (t, t + ) = 2 sen(0 ) = 2 sen(0 )
As, X(t) y Y (t) son conjuntamente estacionarios en sentido amplio por-

que RXY (t, t + ) depende solamente de y no del tiempo absoluto.
Las funciones de correlacion cruzada no son necesariamente funciones
pares de con el maximo en = 0, como es el caso con las funciones de
autocorrelacion.
4.9.3. Funciones de covarianza

La funcion de autocovarianza de un proceso estocastico esta definida por:
CXX (t, t + ) = E [{X(t) E[X(t)]} {X(t + ) E[X(t + )}] (4.35)
que puede ponerse tambien en la forma:
CXX (t, t + ) = RXX (t, t + ) E[X(t)]E[X(t + )] (4.36)
La funcion de covarianza cruzada para dos procesos X(t) y Y (t) esta de-
finida por:
CXY (t, t + ) = E [{X(t) E[X(t)]} {Y (t + ) E[Y (t + )]}] (4.37)
o, alternativamente,
CXY (t, t + ) = RXY (t, t + ) E[X(t)]E[Y (t + )] (4.38)

4.10. PROCESO ALEATORIO DE POISSON 131
Para procesos que son a lo menos conjuntamente estacionarios en sentido

amplio, las dos igualdades anteriores se reducen a:
2
CXX ( ) = RXX ( ) X (4.39)
CXY ( ) = RXY ( ) X Y (4.40)
La varianza de un proceso aleatorio esta dada por la autocovarianza con

= 0. Para un proceso estacionario en sentido amplio, la varianza no depende
del tiempo y esta dada por la ecuacion 4.39 con = 0:
2 2
X = E[{X(t) E[X(t)]}2 ] = RXX (0) X (4.41)
Para dos procesos aleatorios, si
CXY (t, t + ) = 0 (4.42)
entonces estan no-correlacionados. Esto significa que
RXY (t, t + ) = E[X(t)] E[Y (t + )] (4.43)
Se concluye de la ultima igualdad, que procesos independientes son no-

correlacionados. El recproco no es cierto aunque s lo es para procesos con-
juntamente gaussianos.
4.10. Proceso aleatorio de Poisson

Se considerara un ejemplo importante de un proceso aleatorio discreto
conocido como el proceso de Poisson. Describe el numero de veces que algun
evento ha ocurrido como una funcion del tiempo, donde los eventos ocurren
en instantes al azar. El evento puede ser la llegada de un cliente a un banco
o caja de supermercado, la ocurrencia de la cada de un rayo dentro de un

area prescrita, la falla de un componente en un sistema, o la emision de un
electron desde la superficie de un material sensible a la luz (fotodetector).
En cada uno de estos ejemplos un evento ocurre en un instante al azar y el
proceso se reduce a contar el numero de tales ocurrencias con el tiempo. Por
esta razon, el proceso tambien se conoce como proceso contador de Poisson.
Para visualizar al proceso de Poisson, sea X(t) el numero de ocurrencias
del evento con el tiempo (el proceso); entonces X(t) consiste en funciones
de valores enteros no-decrecientes. Tales son sus funciones muestra. Por con-
veniencia, se toma X(t) = 0 en t = 0; para t > 0, X(t) es el numero de
ocurrencias en el intervalo [0, t]; para t < 0, X(t) es el negativo del nume-
ro de ocurrencias en el intervalo [t, 0]. En muchas situaciones solamente la
conducta del proceso para t > 0 es de interes, por lo que se supondra que
esta definido solamente para t > 0 (y es cero para t < 0).
Para definir el proceso de Poisson se requerira dos condiciones. La primera
es que un evento ocurra solamente a la vez. Esta condicion no previene que los
tiempos de ocurrencia de los eventos esten muy cerca unos de otros, solamen-
te que no coincidan. Segundo, los tiempos de ocurrencia son estadsticamente
independientes de modo que el numero de ellos que ocurra en cualquier in-
tervalo dado es independiente del numero en cualquier otro intervalo; esta
independencia es valida a pesar del numero de intervalos de interes. Una con-
secuencia de las dos condiciones es que el numero de ocurrencias de eventos
en cualquier intervalo finito de tiempo esta descrito por la distribucion de
Poisson donde la tasa promedio de ocurrencias se denota por .
4.10.1. Funcion de densidad probabilstica
La probabilidad de exactamente k ocurrencias sobre un intervalo [0, t] es

4.10. PROCESO ALEATORIO DE POISSON 133
(t)k et
P [X(t) = k] = k = 0, 1, 2, . . . (4.44)
k!
y la densidad de probabilidad del numero de ocurrencias es

X (t)k et
fX (x) = (x k) (4.45)
k=0
k!
La media y la varianza de una variable aleatoria de Poisson son am-
bas iguales a t. El segundo momento se sabe que es E[X 2 (t)] = X
2
+
{E[X(t)]}2 = t + 2 t2 . Esto se usa para establecer ecuaciones utiles compu-
tando formalmente la media y el segundo momento:

(t)k et
Z Z X
E[X(t)] = xfX (x)dx = x (x k)dx
k=0
k!

X k(t)k et
= = t
k=0
k!

k 2 (t)k et
Z X
2 2
E[X (t)] = x fX (x)dx = = t[1 + t]
k=0
k!
4.10.2. Densidad probabilstica conjunta

Para determinar la funcion de densidad probabilstica conjunta para el
proceso de Poisson en los tiempos 0 < t1 < t2 , primero observese que la
probabilidad de k1 ocurrencias de eventos sobre [0, t1 ] es:
(t1 )k1 et1

P [X(t1 ) = k1 ] = k1 = 0, 1, 2, . . . (4.46)
k1 !
Ahora, la probabilidad condicional de k2 ocurrencias sobre [0, t2 ] dado
que k1 eventos ocurran sobre [0, t1 ], es la probabilidad que k2 k1 eventos
ocurran sobre [t1 , t2 ] la cual es
[(t2 t1 )]k2 k1 e(t2 t1 )

P [X(t2 ) = k2 |X(t1 ) = k1 ] =
(k2 k1 )!
para k2 > k1 . La probabilidad conjunta de k2 ocurrencias al tiempo t2 y k1
ocurrencias al tiempo t1 es el producto de los dos ultimos resultados:
P (k1 , k2 ) = P [X(t2 ) = k2 |X(t1 ) = k1 ] P [X(t1 ) = k1 ]

(t1 )k1 [(t2 t1 )]k2 k1 et2
= k2 > k1 (4.47)
k1 !(k2 k1 )!
La densidad conjunta es
X
X
fX (x1 , x2 ) = P (k1 , k2 )(x1 k1 )(x2 k2 ) (4.48)
k1 =0 k2 =k1
para las variables aleatorias del proceso X(t1 ) = X1 y X(t2 ) = X2 .
Ejemplo
Tomese ahora el caso de tres variables aleatorias definidas en los tiempos
0 < t1 < t2 < t3 , para k1 6 k2 6 k3 ocurrencias a los tiempos respectivos. Se
tiene entonces:
P (k1 , k2 , k3 ) = P [X(t3 ) = k3 |X(t2 ) = k2 , X(t1 ) = k1 ]

P [X(t2 ) = k2 |X(t1 ) = k1 ] P [X(t1 ) = k1 ]
[(t3 t2 )]k3 k2 e(t3 t2 ) [(t2 t1 )]k2 k1 e(t2 t1 )
=
(k3 k2 )! (k2 k1 )!
k1 t1
(t1 ) e

k1 !
(t1 ) [(t2 t1 )]k2 k1 [(t3 t2 )]k3 k2 et3
k1
=
k1 !(k2 k1 )!(k3 k2 )!
y
4.11. CARACTERISTICAS ESPECTRALES DE PROCESOS ESTOCASTICOS135
X
X
X
fX (x1 , x2 , x3 ) = P (k1 , k2 , k3 )(x1 k1 )(x2 k2 )(x3 k3 )
k1 =0 k2 =k1 k3 =k2
4.11. Caractersticas espectrales de procesos

estocasticos
4.11.1. Espectro de densidad de potencia y sus propie-
dades
Para un proceso estocastico X(t), sea xT (t) aquella porcion de una funcion
muestra x(t) que existe entre T y T ; es decir,

x(t) T < t < T
xT (t) = (4.49)
0 fuera del intervalo
En tanto T sea finito, se supone que xT (t) satisfara
Z T
|xT (t)|dt <
T
y tendra una transformada de Fourier que se denota XT (), dada por

Z T Z T
jt
XT () = xT (t)e dt = x(t)ejt dt (4.50)
T T
La energa contenida en x(t) en el intervalo [T, T ] es

Z T Z T
E(T ) = x2T (t)dt = x2 (t)dt (4.51)
T T
Como xT (t) es transformable por Fourier, su energa debe estar relacio-

nada con XT () por el teorema de Parseval. As,
Z T Z
2 1
E(T ) = x (t)dt = |XT ()|2 d (4.52)
T 2
Si se divide ambas expresiones por 2T , se obtiene la potencia promedio

P (T ) en x(t) sobre el intervalo [T, T ]:
T
|XT ()|2
Z Z
1 2 1
P (T ) = x (t)dt = d (4.53)
2T T 2 2T
|XT ()|2
Se observa que 2T
es un espectro de densidad de potencia porque de
la integracion sale la potencia. Empero, no es una funcion que sea utiil para
describir las propiedades espectrales de un proceso estocastico, por dos razo-
nes: (1) no representa la potencia de una funcion muestra completa (se podra
hacer T arbitrariamente grande para incluir toda la potencia en la funcion
muestra) y, (2) tal expresion es la potencia en una sola funcion muestra y
no representa al proceso. En otras palabras, P (T ) es realmente una variable
aleatoria con respecto al proceso aleatorio. Si se toma el valor esperado de la
funcion, se obtiene una potencia promedio PXX para el proceso aleatorio.
De la discusion anterior, es claro que se debe tomar el lmite T y el
valor esperado para obtener un espectro de densidad de potencia adecuado
para el proceso estocastico. Es importante que la operacion lmite se haga de
ultimo:
Z T
1
PXX = lm E[X 2 (t)]dt (4.54)
T 2T T
Z
1 E[|XT ()|2 ]
= lm d (4.55)
2 T 2T
Las dos ecuaciones anteriores establecen dos hechos importantes. El pri-

mer hecho es que la potencia promedio PXX de un proceso estocastico esta da-
da por el promedio temporal de su segundo momento:
Z T
1
PXX = lm E[X 2 (t)]dt = A{E[X 2 (t)]} (4.56)
T 2T T
Para un proceso que es a lo menos estacionario en sentido amplio E[X 2 (t)] =

X 2 , una constante, con lo que PXX = X 2 . El segundo hecho es que PXX pue-
de obtenerse mediante una integracion en el dominio de la frecuencia. Si se
define el espectro de densidad de potencia para el proceso estocastico por
E[|XT ()|2 ]
SXX () = lm (4.57)
T 2T
la integral aplicable es
Z
1
PXX = SXX ()d (4.58)
2
Ejemplo
Considere el proceso aleatorio
X(t) = A cos (0 t + )
donde A y 0 son constantes reales y es una variable aleatoria uniforme-

mente distribuida en el intervalo [0, 2 ]. Se encontrara la potencia promedio
PXX en X(t). El valor cuadratico medio es:
E[X 2 (t)] = E[A2 cos2 (0 t + )]

2
A2

A
= E + cos (20 t + 2)
2 2
Z
A2 A2 2 2
= + cos (20 t + 2) d
2 2 0

A2
2
A 2 sen(20 t + 2) 2
= +
2 2 2
0
A2 A2 sen(20 t + ) sen(20 t)

= +
2 2 2
2 2

A A 2sen(20 t)
= +
2 2
2 2
A A
= sen(20 t)
2
Este proceso no es estacionario en sentido amplio, puesto que la funcion

anterior es dependiente del tiempo. El promedio temporal de la funcion an-
terior es:
T
A2 A2
Z
1
A E[X 2 (t)] =

lm sen(20 t) dt
T 2T T 2
( T )
A2
2
1 A cos(20 t)
= lm (2T ) +
T 2T 2 20
T
2 2
1 A 1 A
= lm 2T + [cos(20 T ) cos(20 T )]
T 2T 2 2T 20
A2
PXX =
2
Ejemplo
Reconsiderese el proceso del ejemplo anterior para encontrar SXX () y
potencia promedio PXX mediante el uso de las definiciones respectivas.
Primero se encuentra XT ():
Z T
XT () = A cos(0 t + )ejt dt
T
A j T j(0 )t A j T j(0 +)t
Z Z
= e e dt + e e dt
2 T 2 T
sen[( 0 )T ] sen[( + 0 )T ]
= AT ej + AT ej
( 0 )T ( + 0 )T
Ahora se determina |XT ()|2 = XT ()XT () para luego hallar su valor

esperado:
sen2 [( 0 )T ]

sen[( 0 )T ] sen[( + 0 )T ]
XT ()XT () = (AT ) 2
2
+ ej2
[( 0 )T ] ( 0 )T ( + 0 )T
2 #
sen[( + 0 )T ] sen[( 0 )T ] sen[( + 0 )T ]
+ ej2 +
( + 0 )T ( 0 )T ( + 0 )T
( 2
sen[( 0 )T ] sen[( 0 )T ] sen[( + 0 )T ]
= (AT )2 + 2 cos(2)
[( 0 )T ] ( 0 )T ( + 0 )T
2 )
sen[( + 0 )T ]
+
[( + 0 )T ]
Como
Z
2 2
E[cos(2)] = cos(2)d
0

2 sen(2) 2
=
2 0
= 0
entonces
" 2 2 #
sen[( 0 )T ]
sen[( + 0 )T ]
E[|XT ()|2 ] = (AT )2 +
( 0 )T ( + 0 )T
E[|XT ()|2 ] A2 T sen2 [( 0 )T ] T sen2 [( + 0 )T ]

= +
2T 2 [( 0 )T ]2 [( + 0 )T ]2
Como
2
T sen(T )
lm = ()
T T
entonces
A2
SXX () = {( 0 ) + ( + 0 )}
2
con lo que

A2
Z
1
PXX = {( 0 ) + ( + 0 )} d
2 2
A2
=
2
lo que concuerda con el resultado del ejemplo anterior.
4.11.2. Propiedades del espectro de densidad de po-

tencia
1. SXX () > 0
2. SXX () = SXX (), X(t) real.
3. SXX () es real.
1
R
4. 2
SXX ()d = A{E[X 2 (t)]}
dX
5. SX X () = 2 SXX () donde X = dt
6. En esta propiedad, se establece que el espectro de densidad de potencia

y el promedio temporal de la autocorrelacion forman un par transfor-
mada de Fourier.
Z
1
SXX ()ej d = A[RXX (t, t + )] (4.59)
2
Z
SXX () = A[RXX (t, t + )]ej d (4.60)

Si X(t) es estacionario en sentido amplio, A[RXX (t, t + )] = RXX ( ),

con lo que el espectro de potencia y la autocorrelacion forman un par
transformado (ecuaciones de Wiener-Khinchin).
Z
SXX () = RXX ( )ej d (4.61)

Z
1
RXX ( ) = SXX ()ej d (4.62)
2
para un proceso estacionario en sentido amplio.
4.11.3. Ancho de banda del espectro de densidad de

potencia
Suponga que X(t) es un proceso pasabajo, donde los componentes espec-
trales estan congregados cerca de = 0, y tienen magnitudes decrecientes
a frecuencias mas elevadas. Excepto por el hecho de que el area de SXX ()
no es necesariamente unidad, SXX () tiene caractersticas similares a una
funcion de densidad probabilstica (es no-negativa y real). De hecho, si se
divide SXX () por su area, se forma una nueva funcion con area unidad que
es analoga a una funcion de densidad.
Recuerdese que la desviacion estandar es una medida de la dispersion en

una funcion de densidad. La cantidad analoga para el espectro de potencia
normalizado es una medida de su dispersion, que se denomina ancho de banda
RMS, que se denota WRM S rad/s. Como SXX () es una funcion par para
un proceso real, su valor medio es cero y su desviacion estandar es la raz
cuadrada de su segundo momento. As, despues de la normalizacion, el ancho
de banda RMS es:
R
2
2 SXX ()d
WRM S =
R (4.63)

SXX ()d
Ejemplo
Encuentre WRM S para el espectro de potencia:
10
SXX () = h i2 (4.64)
2
1+ 10
donde el ancho de banda de 6 dB es 10 rad/s.

1
Con la ayuda de tablas de integrales se puede llegar a los resultados:
a3 x a2
Z
adx x
2 i2 = + arctan
2(a2 + x2 ) 2 a
h
1 + xa
x2 dx a4 x a3
Z x
2 i2 = + arctan
2(a2 + x2 ) 2 a
h
1 + xa
Se omite la constante de integracion por economa. Si se evalua las inte-
grales definidas, queda entonces:
Z
SXX ()d = 50 arctan = 50

10

1
Se puede consultar el libro: Dwight, H. B. Tables of Integrals and Other Mathematical
Data. Cuarta edicion. New York: Macmillan, 1961.
Z
2 SXX ()d = 5000 arctan = 5000

10

r
5000
WRM S = = 10 rad/s
50
Si bien WRM S y el ancho de banda de 6 dB de SXX () son iguales en
este caso, no lo son en general.
El concepto de WRM S puede extenderse a un proceso que tiene una for-
ma pasabanda de espectro de potencia, es decir, sus componentes espectrales
significativos se congregan cerca de algunas frecuencias 0 y 0 . Si se su-
pone que el proceso X(t) es real, SXX () sera real y tendra simetra par
alrededor de = 0. Con esta suposicion se define una frecuencia media 0 y
el correspondiente ancho de banda RMS por:
R
SXX ()d
0 = R0 (4.65)
SXX ()d
R0
2 4 0 ( 0 )2 SXX ()d
WRM S = R (4.66)
0
SXX ()d
4.11.4. Relacion entre el espectro de potencia y la au-

tocorrelacion
Se establecio anteriormente que la transformada de Fourier inversa del

espectro de densidad de potencia es el promedio temporal de la autocorrela-
cion:
Z
1
SXX ()ej d = A [RXX (t, t + )] (4.67)
2
Esta ultima expresion sera ahora probada a continuacion.

Si se usa la definicion de XT () en la ecuacion para el espectro de poten-

cia, se tiene
Z T Z T
1 jt1 jt2
SXX () = lm E X(t1 )e dt1 X(t2 )e dt2
T 2T T T
Z T Z T
1
= lm E[X(t1 )X(t2 )]ej(t2 t1 ) dt2 dt1
T 2T T T
Se usa X(t) en vez de x(t), para indicar que las operaciones realizadas
tienen lugar sobre el proceso en vez de una sola funcion muestra.
La esperanza matematica dentro del integrando es la autocorrelacion de
X(t):
E[X(t1 )X(t2 )] = RXX (t1 , t2 ) T < t1 , t2 < T
As,
Z T Z T
1
SXX () = lm RXX (t1 , t2 )ej(t2 t1 ) dt1 dt2
T 2T T T
Se hace ahora el cambio de variables t = t1 con lo que dt = dt1 y, =

t2 t1 = t2 t con lo que d = dt2 . Con esto,
Z T t Z T
SXX () = lm RXX (t, t + )dtej d
T T t T
Si se toma el lmite con respecto a la integral de primero, esto permi-

tira intercambiar el lmite y la integral para obtener:
Z Z T
1
SXX () = lm RXX (t, t + )dt ej d
T 2T T
La cantidad dentro de las llaves se reconoce como el promedio temporal

de la autocorrelacion del proceso:
Z T
1
A[RXX (t, t + )] = lm RXX (t, t + )dt
T 2T T
con lo que
Z
SXX () = A[RXX (t, t + )]ej d

lo que muestra que SXX () y A[RXX (t, t + )] forman un par transformada

de Fourier: SXX () A[RXX (t, t + )]. Esta ultima expresion implica la que
se buscaba demostrar.
Cuando X(t) es a lo menos estacionario en sentido amplio, A[RXX (t, t +
)] = RXX ( ), por lo que se obtiene
Z
SXX () = RXX ( )ej d (4.68)

Z
1
RXX ( ) = SXX ()ej d (4.69)
2
RXX ( ) SXX () (4.70)
Las dos penultimas expresiones se llaman las ecuaciones de Wiener-Khin-

chin. Forman el enlace basico entre la descipcion en el dominio del tiempo
(funciones de correlacion) de procesos y su descripcion en el dominio de la
frecuencia (espectro de potencia).
Es claro que el conocimiento del espectro de potencia de un proceso per-
mite recuperacion completa de la autocorrelacion cuando X(t) es a lo menos
estacionario en sentido amplio; para un proceso no-estacionario, solamente
el promedio temporal de la autocorrelacion es recuperable.
Ejemplo
Se encontrara el espectro de potencia para el proceso aleatorio X(t) con
la autocorrelacion
A2

RXX ( ) = cos(0 )
2
Se tiene que
A2

1
ej0 + ej0

RXX ( ) =
2 2
A2
ej0 + ej0

=
4
F{RXX ( )} = SXX ()
A2
= [2( 0 ) + 2( + 0 )]
4
A2
= [( 0 ) + ( + 0 )]
2
4.11.5. Espectro de densidad de potencia cruzada y sus

propiedades
Considerese un proceso estocastico real W (t) dado por la suma de dos
procesos reales X(t) y Y (t):
W (t) = X(t) + Y (t) (4.71)
La autocorrelacion de W (t) es:
RW W (t, t + ) = E[W (t)W (t + )]

= E [(X(t) + Y (t)) (X(t + ) + Y (t + ))]
= RXX (t, t + ) + RY Y (t, t + ) + RXY (t, t + )
+ RY X (t, t + )
Si se toma el promedio temporal de ambos lados de la ecuacion y se

transforma por Fourier:
SW W () = SXX () + SY Y () + F{A[RXY (t, t + )]}

+ F{A[RY X (t, t + )]} (4.72)
El lado izquierdo es el espectro de potencia de W (t). Los dos primeros

terminos de la derecha son los espectros de potencia de X(t) y Y (t). Los otros
dos terminos son espectros de densidad de potencia cruzada. Por definicion
se tiene que:
E[XT ()YT ()]

SXY () = lm (4.73)
T 2T
As,
Z
1
PXY = SXY ()d (4.74)
2
El otro espectro de densidad de potencia cruzada sera entonces, por

definicion,
E[YT ()XT ()]

SY X () = lm (4.75)
T
Z 2T
1
PY X = SY X ()d (4.76)
2
La potencia total cruzada PXY + PY X puede interpretarse como la po-

tencia adicional dos procesos son capaces de generar, sobre y arriba de sus
potencias individuales, debido al hecho de que son correlacionados.
Propiedades del espectro de densidad de potencia cruzada
Algunas propiedades del espectro de potencia cruzada de procesos alea-

torios reales X(t) y Y (t) se dan a continuacion.
1. SXY () = SY X () = SY X ()
2. Re[SXY ()] y Re[SY X ()] son funciones pares de .
3. Im[SXY ()] e Im[SY X ()] son funciones impares de .
4. SXY () = 0 y SY X () = 0 si X(t) e Y (t) son ortogonales.
5. Si X(t) e Y (t) son no-correlacionados y tienen medias constantes X e

Y,
SXY () = SY X () = 2X Y ()
6.
A[RXY (t, t + )] SXY ()

A[RY X (t, t + )] SY X ()
En la ultima propiedad, para el caso de procesos estacionarios conjunta-

mente en sentido amplio, las siguientes relaciones son especialmente utiles:
R R
SXY () =
RXY ( )ej d SY X () =
RY X ( )ej d
1
R 1
R
RXY ( ) = 2
S ()ej d RY X ( ) =
XY 2
SY X ()ej d
Ejemplo
Se tiene un espectro de potencia cruzado definido por
(jb)

a+ W < < W
SXY () = W
0 || > W
donde W > 0, a y b son constantes reales. Encuentrese la correlacion cruza-
da.
4.12. ALGUNAS DEFINICIONES DE RUIDO 149
Z W
1 jb j
RXY ( ) = a+ e d
2 W W
Z W Z W
a j jb
= e d + ej d
2 W 2W W
" # ( W )
j W

a e jb j 1
= + e
2 j W 2W j (j )2 W

1
= [(aW b)sen(W ) + bW cos(W )]
W 2
4.12. Algunas definiciones de ruido

Una funcion muestra n(t) de un proceso aleatorio N (t) de ruido estacio-
nario en sentido amplio, se llama ruido blanco si el espectro de densidad de
potencia de N (t) es una constante en todas las frecuencias. As, se define
N0
SN N () = (4.77)
2
para ruido blanco, donde N0 es una constante positiva real. Por la transfor-
macion inversa de Fourier, la autocorrelacion de N (t) es

N0
RN N ( ) = ( ) (4.78)
2
El ruido blanco deriva su nombre por analoga con la luz blanca, que
contiene todas las frecuencias de luz visible en su espectro.
El ruido blanco no es realizable puesto que posee potencia promedio in-
finita:
Z
1
SN N ()d =
2
No obstante, un tipo de ruido real aproxima al ruido blanco. El ruido

termico generado por la agitacion termica de electrones en cualquier conduc-
tor electrico tiene un espectro de potencia que es constante hasta muy altas
frecuencias y luego disminuye.
Por ejemplo, una resistencia a temperatura T (en grados Kelvin) produce
un voltaje de ruido a traves de sus terminales en circuito abierto con un
espectro de potencia:
(N0 /2)(||/T )
SN N () = (4.79)
e||/T 1
donde = 7,64(1012 ) Kelvin-segundos es una 2
constante. A una tempe-
ratura de T = 290 K (usualmente llamada temperatura ambiente si bien
corresponde a una temperatura de 17 C), tal funcion permanece arriba de
0,9(N0 /2) para frecuencias hasta de 1012 Hz, o 1000 GHz. As, el ruido termi-
co tiene un espectro casi plano en aquellas frecuencias que son usadas en
sistemas de radio, microondas u ondas milimetricas.
El ruido que tiene un espectro de potencia constante y no nulo sobre
una banda de frecuencia finita y cero fuera de ella, se llama ruido blanco de
banda limitada. As, un ruido descrito por el siguiente espectro de potencia
constituye un ejemplo:
P

W < < W
SN N () = W
0 || > W
La transformacion inversa da la autocorrelacion correspondiente:
sen(W )
RN N ( ) = P
W
La constante P es la potencia del ruido.
2
Las unidades de SN N () son voltios cuadrados por hercio. De acuerdo a la convencion,
se obtiene watts/hertz suponiendo que el voltaje se da por una resistencia de 1 .
4.12. ALGUNAS DEFINICIONES DE RUIDO 151
El ruido blanco de banda limitada puede tambien ser pasabanda como el

descrito por el siguiente espectro de potencia y respectiva funcion de auto-
correlacion:
P

0 (W/2) < || < 0 + (W/2)
SN N () = W
0 fuera de la banda
sen(W /2)
RN N ( ) = P cos(0 )
(W /2)
con 0 , W constantes y P la potencia en el ruido.
Por analoga con luz coloreada con solamente una porcion de las frecuen-
cias de luz visible en su espectro, se define ruido coloreado como cualquier
ruido que no es blanco.
Ejemplo
Un proceso N (t) de ruido estacionario en sentido amplio tiene una auto-
correlacion dada por:
RN N ( ) = P e3| |
donde P es una constante. Se encontrara su espectro de potencia.
Z
SN N () = P e3| | ej d

Z Z 0
(3+j)
= P e d + P e(3j) d
0
P P
= +
3 + j 3 j
6P
=
9 + 2
4.13. Respuesta de sistemas lineales a una

senal aleatoria
4.13.1. Respuesta del sistema: convolucion
Aun cuando x(t) sea una senal aleatoria, la respuesta de cualquier red
electrica, denotada por y(t), esta dada por la integral de convolucion
Z Z
y(t) = x()h(t )d = h()x(t )d (4.80)

donde h(t) es la respuesta al impulso de la red. Se esta suponiendo un sistema

lineal e invariante con el tiempo.
Se puede visualizar la ecuacion 4.80 como una operacion sobre un miem-
bro x(t) del agregado del proceso estocastico X(t) que produce un miembro
del agregado de un nuevo proceso Y (t). Desde este punto de vista, se puede
decir que tal ecuacion define el proceso Y (t) en terminos del proceso X(t):
Z
Y (t) = h()X(t )d (4.81)

De esta forma, se puede decir que el sistema acepta al proceso aleatorio
X(t) como entrada y responde con el nuevo proceso Y (t).
4.13.2. Valor medio y cuadratico medio de la respuesta

del sistema
Si se supone que X(t) es estacionario en sentido amplio, se tiene:
Z Z
E[Y (t)] = E h()X(t )d = h()E[X(t )]d (4.82)

Z
E[Y (t)] = X h()d = Y (constante) (4.83)

4.13. RESPUESTA DE SISTEMAS LINEALES A UNA SENAL ALEATORIA153
Esta expresion indica que el valor medio de Y (t) iguala al valor medio
de X(t) veces el area bajo la curva de la respuesta al impulso si X(t) es
estacionario en sentido amplio.
Para el valor cuadratico medio de Y (t), se calcula
Z Z
2
E[Y (t)] = E h(1 )X(t 1 )d1 h(2 )X(t 2 )d2

Z Z
= E[X(t 1 )X(t 2 )]h(1 )h(2 )d1 d2 (4.84)

Si se supone 3 que la entrada es estacionaria en sentido amplio, entonces:
E[X(t 1 )X(t 2 )] = RXX (1 2 )
con lo que la ecuacion 4.84 se vuelve independiente de t:
Y 2 = E[Y 2 (t)] (4.85)

Z Z
= RXX (1 2 )h(1 )h(2 )d1 d2 (4.86)

Si bien esta expresion da la potencia en Y (t), es tedioso calcularla la

mayora de las veces.
3
Se supondra que las operaciones de integracion y de esperanza matematica son inter-
cambiables cuandoquiera que se necesiten. Si
Z t2
E[|W (t)|]|h(t)|dt <
t1
donde t1 , t2 son constantes reales que pueden ser infinitas, la operacion

Z t2 Z t2
E W (t)h(t)dt = E[W (t)]h(t)dt
t1 t1
es valida, donde W (t) es alguna funcion acotada de un proceso aleatorio (sobre el intervalo
[t1 , t2 ]) y h(t) es una funcion del tiempo no-aleatoria.
Ejemplo
Se encontrara Y 2 para un sistema con ruido blanco en su entrada. Aqu:
RXX (1 2 ) = (N0 /2)(1 2 )
donde N0 es una constante real positiva. Luego,
Z Z
Y2 = (N0 /2)(1 2 )h(1 )d1 h(2 )d2

Z
= (N0 /2) h2 (2 )d2

La potencia de salida se vuelve proporcional al area bajo el cuadrado de la

curva de h(t), en este ejemplo.
4.13.3. Autocorrelacion de la respuesta

Sea X(t) estacionario en sentido amplio. La autocorrelacion de Y (t) es:
RY Y (t, t + ) = E[Y (t)Y (t + )]

Z Z
= E h(1 )X(t 1 )d1 h(2 )X(t + 2 )d2

Z Z
= E[X(t 1 )X(t + 2 )]h(1 )h(2 )d1 d2

que se reduce a:
Z Z
RY Y ( ) = RXX ( + 1 2 )h(1 )h(2 )d1 d2 (4.87)

pues X(t) se supone que es estacionario en sentido amplio. Se puede concluir

que:
1. Y (t) es estacionario en sentido amplio si X(t) es estacionario en sentido

amplio porque RY Y ( ) no depende de t y E[Y (t)] es constante.
2. RY Y ( ) es la doble convolucion de la autocorrelacion de entrada con la

respuesta al impulso del sistema; es decir:
RY Y ( ) = RXX ( ) h( ) h( ) (4.88)
4.13.4. Correlacion cruzada de entrada y salida

La correlacion cruzada de X(t) e Y (t) es
RXY (t, t + ) = E[X(t)Y (t + )]

Z
= E X(t) h()X(t + )d

Z
= E[X(t)X(t + )]h()d

Si X(t) es estacionario en sentido amplio,
Z
RXY ( ) = RXX ( )h()d (4.89)

que es la convolucion de RXX ( ) con h( ):
RXY ( ) = RXX ( ) h( ) (4.90)
Un desarrollo similar muestra que:
Z
RY X ( ) = RXX ( )h()d (4.91)

= RXX ( ) h( ) (4.92)
Es claro que la correlacion cruzada depende de y no del tiempo absoluto

t. Como consecuencia de este hecho, X(t) y Y (t) son conjuntamente estacio-
narios en sentido amplio si X(t) es estacionario en sentido amplio (esto se
concluye puesto que se demostro anteriormente que Y (t) es estacionario en
sentido amplio).
La autocorrelacion y la correlacion cruzada estan relacionados entre s:
Z
RY Y ( ) = RXY ( + 1 )h(1 )d1 (4.93)

= RXY ( )h( ) (4.94)
Igualmente,
Z
RY Y ( ) = RY X ( 2 )h(2 )d2 (4.95)

= RY X ( ) h( ) (4.96)
Ejemplo
Con los datos del ejemplo anterior, se encontrara las correlaciones cru-
zadas RXY ( ) y RY X ( ).
Z
RXY ( ) = RXX ( )h()d
Z

= (N0 /2)( )h()d

= (N0 /2)h( )
Z
RY X ( ) = RXX ( )h()d
Z

= (N0 /2)( )h()d

= (N0 /2)h( )
= RXY ( )
4.13.5. Caractersticas espectrales de la respuesta del

sistema
Puesto que la transformada de Fourier de una funcion de correlacion (au-

tocorrelacion o correlacion cruzada) es un espectro de potencia para procesos
estacionarios en sentido amplio, pareciera que si RXX ( ) es conocida para el
proceso de entrada, se puede hallar RY Y ( ), RXY ( ) y RY X ( ) como se ha
descrito anteriormente, para luego obtener espectros de potencia por trans-
formacion. Este enfoque es conceptualmente valido. Sin embargo, desde un
punto de vista practico las integrales involucradas pueden ser difciles de
evaluar.
Un enfoque alternativo se da donde el espectro de potencia deseado in-
volucrando la respuesta del sistema, se relaciona con el espectro de potencia
de entrada. En cualquier caso, el proceso de entrada X(t) se supone que es
estacionario en sentido amplio, lo que implica, como se vio anteriormente,
que Y (t) y X(t) son estacionarios conjuntamente en sentido amplio.
Espectro de densidad de potencia de la respuesta
Escrbase SY Y () como la transformada de Fourier de la autocorrelacion

de salida
Z
SY Y () = RY Y ( )ej d (4.97)

Si se sustituye ahora la integral para RY Y ( ),
Z Z Z
SY Y () = h(1 ) h(2 ) RXX ( + 1 2 )ej d d2 d1

Si se hace ahora el cambio de variable = + 1 2 , d = d , se tiene:
Z Z Z
j2
SY Y () = h(1 )e j1
d1 h(2 )e d2 RXX ()ej d

Las anteriores tres integrales se reconocen como H (), H() y SXX (),
respectivamente.
SY Y () = H ()H()SXX () = SXX ()|H()|2 (4.98)
|H()|2 se llama la funcion de transferencia de potencia del sistema.

La potencia promedio, denotada por PY Y , en la respuesta del sistema se
encuentra calculando:
Z
1
PY Y = SXX ()|H()|2 d (4.99)
2
Ejemplo
Un circuito electrico esta caracterizado por la siguiente funcion de trans-
ferencia:
1
H() =
1 + (jL/R)
Tiene como entrada un proceso estocastico X(t) tipo ruido blanco con un
espectro de potencia dado por:
SXX () = N0 /2
Se pide calcular el espectro de potencia y la potencia promedio de la res-

puesta del circuito.
Si se hace uso de la informacion suministrada, se encuentra que:
1
|H()|2 =
1 + (L/R)2
SY Y () = SXX ()|H()|2
N0 /2
=
1 + (L/R)2
La potencia promedio en Y (t) es

N0
Z Z
1 d
PY Y = SY Y ()d =
2 4 1 + (L/R)2
Si se usa el siguiente resultado:
Z
dx 1 bx
= arctan
a2 + b 2 x 2 ab a
se encuentra finalmente que:
N0 R
PY Y =
4L
4.13.6. Espectros de densidad de potencia cruzada de

entrada y salida
Puede demostrarse que las transformadas de Fourier de las correlaciones

cruzadas pueden escribirse como:
SXY () = SXX ()H() (4.100)

SY X () = SXX ()H() (4.101)
Captulo 5
Cadenas de Markov
161
162 CAPITULO 5. CADENAS DE MARKOV
5.1. Preambulo
Las cadenas de Markov hallan uso en multiples aplicaciones. Se estu-
diara los procesos de nacimiento y muerte como ejemplo de las cadenas de
Markov en tiempo continuo.
5.2. Conceptos introductorios

Se estudio el proceso de Poisson en el que la variable aleatoria X(t) (con-
tadora de eventos) iguala al numero de arribos en [0, t]. X(t) siempre se
incrementa con el tiempo: X(t) = X(s) para t = s. Hay situaciones en las
que el estado del sistema fluctua, arriba y abajo; una de las mas importantes
aplicaciones es la teora de colas, en donde el estado del sistema en el tiempo
t es la longitud de una lnea de espera de clientes.
Es importante revisar en este momento la teora concerniente a la distri-
bucion exponencial. Si T es el tiempo de vida de un componente que esta ex-
ponencialmente distribuido con parametro , entonces T tiene densidad

0 t<0
fT (t) = t (5.1)
e t>0
La media de T es el recproco del parametro : E(T ) = 1 .

La variable aleatoria T tiene la propiedad de envejecimiento o de falta
de memoria: las variables aleatorias exponencialmente distribuidas son las
unicas variables aleatorias continuas concentradas en [0, +[ que la tienen.
Esta propiedad establece que no importa lo viejo el componente es, este opera
como si fuera nuevo; matematicamente,
P (T > t + s|T > t) = P (T > s) (5.2)

5.2. CONCEPTOS INTRODUCTORIOS 163
para tiempos t, s = 0. Tambien se tiene que
P (T > t) = et (5.3)
para t = 0.
Dos hechos fundamentales derivados de la distribucion exponencial se van
a utilizar en el analisis del tema de las cadenas de Markov. A continuacion
se justificara cada uno de ellos.
5.2.1. Primer hecho: densidad de la variable mnima

de un conjunto de variables aleatorias
Supongase que T1 , T2 , . . . , TN son variables aleatorias independientes, ca-
da una distribuida exponencialmente pero posiblemente con diferentes parame-
tros. Supongase que Ti tiene parametro i . Suponga N componentes que se
conectan al tiempo t = 0; Ti es el tiempo de vida del i -esimo componente. Sea
M el mnimo de todos los tiempos Ti s de los componentes. M es el tiempo
en que el primer componente falla. M es una variable aleatoria. Sea t = 0.
Entonces M = min{T1 , . . . , TN } es mas grande que t si y solo si todo Ti > t.
P (M > t) = P (min{T1 , T2 , . . . , TN } > t)

= P (T1 > t, T2 > t, . . . , TN > t)
= e1 t e2 t eN t
= e(1 +2 +...+N )t (5.4)
De modo que M esta exponencialmente distribuida con parametro 1 +

2 + . . . + N y valor medio 1/(1 + 2 + . . . + N ).
Ejemplo
Suponga que una maquina necesita tres componentes, que deben operar
simultaneamente. Cada uno tiene un tiempo de vida exponencialmente dis-
tribuido con media 2 das. La maquina llega con tres componentes instalados
mas uno de repuesto. Cual es el tiempo esperado en que el repuesto necesi-
tara ser instalado? Cual es el tiempo esperado en que la maquina parara
por falta de repuestos?
El tiempo de vida del equipo antes de la falla es el mnimo de tres variables
aleatorias exponencialmente distribuidas cada una con parametro 1/2. Por
lo tanto, el tiempo de vida del equipo esta exponencialmente ditribuido con
parametro 1/2 + 1/2 + 1/2 = 3/2 y media 2/3. Esto es el tiempo medio hasta
que el repuesto necesita ser instalado. Una vez que el repuesto es instalado,
debido a la propiedad de la falta de memoria, los dos originales operan como
nuevos. De modo que el tiempo hasta que uno de los tres termine su vida util
(los dos originales y el repuesto) es otra vez exponencialmente distribuido con
media 2/3. As, el tiempo de vida esperado de la maquina es 2 2/3 = 4/3
(2/3 para instalar el repuesto, mas 2/3 para que falle de nuevo).
5.2.2. Segundo hecho: probabilidad de que un compo-

nente dado sea el que falle
Cual es la probabilidad de que cuando el primer fallo se de, sea el com-

ponente j -esimo? Se esta preguntando aqu por la probabilidad de que entre
los N Ti s, el mnimo sea Tj . Tal probabilidad esta dada por la expresion
j
P (Tj = min{T1 , T2 , . . . , TN }) = (5.5)
1 + 2 + + N
A continuacion se probara esta expresion.
Supongase que T1 y T2 son independientes y distribuidos exponencialmen-
te con parametros respectivos y . La funcion de densidad conjunta es el
5.2. CONCEPTOS INTRODUCTORIOS 165
producto
fT1 ,T2 (t1 , t2 ) = et1 et2
para t1 , t2 > 0. Con t1 y t2 correspondientes respectivamente a T1 y T2 , se

puede escribir:
P (T1 = min{T1 , T2 }) = P (T1 < T2 )

ZZ
= fT1 ,T2 (t1 , t2 )dt1 dt2
Z Z t2
= et1 et2 dt1 dt2
Z0 0
= (1 et2 )et2 dt2
0

= 1
+

=
+
Lo anterior prueba la ecuacion 5.5 para N = 2. El caso general no invo-

lucra mas formulas: suponga que hay N variables aleatorias independientes
T1 , T2 , . . . , TN . Entonces M = min{T2 , . . . , TN } es una variable exponencial-
mente distribuida con parametro 2 + 3 + + N ; M es tambien indepen-
diente de T1 . Por consiguiente, por el resultado que se acaba de demostrar,
P (T1 = min{T1 , . . . , TN ) = P (T1 = min{T1 , M })

1
=
1 + 2 + + N
Si se usa un j arbitrario en vez de j = 1, la ecuacion 5.5 queda probada.
Ejemplo
Considere un sistema consistente en dos componentes; el primero tiene

tiempo de vida media de 2 meses, el segundo de 7 meses. Si operan indepen-
dientemente y tienen sus vidas medias una distribucion exponencial, cual es
la probabilidad de que el segundo falle antes del primero?
T1 tiene parametro 1/2 y T2 tiene parametro 1/7. Se pregunta por la
probabilidad de que T2 < T1 , es decir, que T2 sea el mnimo de los dos.
P (T2 < T1 ) = P (T2 = min{T1 , T2 })

1/7
=
1/2 + 1/7
2
=
9
Ejemplo
Llamadas entrantes a un negocio forman una corriente Poisson. Suponga-
se que las llamadas correctas llegan a una razon de 1.5 por minuto, pero
las llamadas equivocadas a una razon de 1 por media hora, en el promedio.
Cual es la probabilidad de que la primera llamada despues del medioda sea
un numero equivocado?
El tiempo T1 hasta el primer numero correcto esta exponencialmente dis-
tribuido con parametro 1.5. El tiempo T2 hasta el primer numero equivocado
esta tambien exponencialmente distribuido; el parametro es 1/30 en terminos
de minutos.
P ({primer llamada despues de medioda es numero equivocado}) =

P (T2 = min{T1 , T2 }) =
1/30 1
=
1,5 + 1/30 46
5.3. EL PROCESO DE NACIMIENTO Y MUERTE EN TIEMPO CONTINUO167
5.3. El proceso de nacimiento y muerte en

tiempo continuo
Considerese una maquina que puede estar en cualquiera de varios estados
en cada instante de tiempo t = 0. El conjunto de estados posibles, el espacio
de estados S, sera siempre discreto. S se tomara como {0, 1, 2, . . . , N } si bien
S = {0, 1, 2, . . .} para algunos casos importantes. Al tiempo t, el estado de
la maquina es denotado por Xt .
Por ejemplo, Xt podra denotar el numero de animales en una poza para
beber. Aqu, la maquina consiste de la poza junto con los animales. El estado
de la maquina es el numero Xt de animales al tiempo t. As, Xt {0, 1, 2, . . .}
para cada t = 0. El arribo de un animal en tiempo t0 incrementara Xt por 1
en t0 ; la partida de un animal disminuira Xt .
El proceso estocastico {Xt }
t=0 es un record completo de los estados ocu-
pados por la maquina para todos los tiempos t = 0. Estas son las dos su-
posiciones basicas de un proceso de nacimiento y muerte: la primera es si
al tiempo t la maquina esta en el estado i, permanece en ese estado por un
tiempo aleatorio que es exponencialmente distribuido con parametro i ; as,
el tiempo de espera promedio en el estado i es el recproco 1/i . i depende
del estado i, pero no depende de otras caractersticas; por ejemplo, i no
depende de si la maquina estaba en estado k o estado j. El estado i pudiera
ser absorbente: esto significa que una vez que la maquina entra al estado i,
permanecera siempre ah. Si esto ultimo es as, entonces i = 0; es decir, el
tiempo de espera promedio es 1/i = .
La segunda suposicion de un proceso de nacimiento y muerte es que cuan-
do la maquina sale del estado i, cambia al estado i + 1 o al estado i 1, con
probabilidades que no dependen de que tan largo la maquina estuvo en el es-
tado i o de otros detalles tales como el tiempo t o del estado de la maquina
antes de que cambiara al estado i. Sea
pi = P ({proximo estado es i + 1|ultimo estado es i}) (5.6)

qi = 1 pi
= P ({proximo estado es i 1|ultimo estado es i}) (5.7)
La segunda suposicion mencionada siignifica que pi y qi dependen sola-

mente del estado i y no de otros detalles del proceso.
Las dos suposiciones constituyen una generalizacion de la propiedad de
la falta de memoria. Dado el presente estado Xt del sistema al tiempo t,
los estados futuros de la maquina no dependen de los estados pasados. En
particular, si el estado al tiempo t es Xt = i, entonces es completamente
irrelevante si ha estado en el estado i por varios anos o si acaba de cambiar
al estado i, para predecir cuando se mudara del estado i. Esto se da puesto
que los tiempos gastados en cada estado estan exponencialmente distribui-
dos. Dado que la distribucion exponencial sigue la propiedad de la falta de
memoria, la maquina se comporta como si acabara de moverse al estado i
a pesar de que tan largo hubiera realmente ocupado el estado i. La distri-
bucion exponencial es la unica distribucion continua concentrada en [0, [
para los tiempos de espera que tiene esta propiedad. La suposicion de que
dado el estado presente, el futuro del proceso es independiente del pasado es
denominada la suposicion de Markov.
Notese que si i = 0 para el estado i, entonces los valores de pi , qi son
innecesarios de especificar dado que la maquina no puede cambiar del estado
i una vez en el.
En resumen, un proceso de nacimiento y muerte en tiempo continuo con-
siste de una maquina que puede cambiar entre estados en un espacio de
5.3. EL PROCESO DE NACIMIENTO Y MUERTE EN TIEMPO CONTINUO169
estados S. Xt denota el estado ocupado al tiempo t para t = 0. La maquina

permanece en el estado i por un periodo de tiempo (el tiempo de espera o
permanencia) que es exponencialmente distribuido con parametro i (tiempo
de espera promedio 1/i ). Cuando la maquina cambia, cambia a los estados
i + 1, i 1 con probabilidades respectivas pi , qi = 1 pi .
Ejemplo
El ejemplo mas simple de un proceso de nacimiento y muerte en tiem-
po continuo es de hecho definido por la distribucion exponencial. Supongase
que T denota el tiempo de vida de un componente que es exponencialmente
distribuido con parametro . Sea S = {0, 1}. El estado de la maquina es 1
en tanto el componente sea operacional. Una vez que el componente falla, la
maquina pasa al estado 0, para permanecer ah siempre. De esta forma,
0 = 0 1 = p1 = 0 q1 = 1
El estado 0 es absorbente. Notese que p1 debe ser cero; de otra forma,

habra una probabilidad positiva de cambiar al estado 2.
Ejemplo
El proceso de Poisson puede verse como un ejemplo de un proceso de
nacimiento y muerte. Sea Xt el numero de arribos en el intervalo [0, t]. Re-
cordando que Xt es distribuida de acuerdo a Poisson con parametro t y que
los intervalos entre arribos estan distribuidos exponencialmente con el mismo
parametro ,
(t)i t
P (Xt = i) = e
i!
P ({tiempo entre arribos > s}) = es
La maquina esta en estado i en el tiempo t si Xt = i (si han llegado i

llamadas en [0, t]). Tan pronto como otra llamada llegue, la maquina cambia
al estado i + 1. As, el tiempo de espera en el estado i es el tiempo entre
arribos, entre el arribo i-esimo y el (i + 1)-esimo; este esta exponencialmente
distribuido con parametro . Por lo tanto,
i = pi = 1 qi = 0
para todo i en el espacio de estados S = {0, 1, 2, . . .}. Este es un proceso

de nacimiento puro dado que la maquina nunca puede moverse hacia abajo:
pi = 1 para todo i.
Ejemplo: El dispositivo de dos estados

La maquina esta encendida o es operacional por un tiempo que esta ex-
ponencialmente distribuido con parametro (tiempo de vida media 1/) y
apagada o detenida por un tiempo que esta exponencialmente distribuido
con parametro (tiempo de reparacion medio igual a 1/). Por ejemplo,
la maquina necesita un componente que tiene un tiempo de vida exponen-
cialmente distribuido; una vez que se acaba, el tiempo de reparacion es el
tiempo requerido para instalar un nuevo componente. El espacio de estados
es S = {0, 1} con 0, 1 correspondientes a apagado, encendido. Entonces,
0 = p0 = 1 q0 = 0
1 = p1 = 0 q1 = 1
5.4. Colas
Colas son una subclase muy importante de procesos de nacimiento y
muerte. La maquina consiste de clientes y servidores (eg.: carros que llegan
a casetillas de peaje, clientes en una caja de supermercado, ninos que hacen
fila para juegos de video, aviones que sobrevuelan un aeropuerto esperando
5.4. COLAS 171
aterrizar). Puede haber uno o mas servidores. Clientes arriban de acuerdo a

una corriente Poisson con parametro . clientes arriban, en el promedio,
por unidad de tiempo. Los tiempos de servicio son aleatorios, pero se supone
que estan exponencialmente distribuidos con parametro . El tiempo medio
de servicio es 1/. Xt es la longitud de la cola en el tiempo t; es el numero
de clientes incluyendo a aquel (o aquellos si hay mas de un servidor) que son
servidos en el tiempo t. Entonces el proceso estocastico {Xt }
t=0 es un proceso
de nacimiento y muerte. Tanto la corriente de llegada de clientes as como la

corriente de salida de clientes que han sido servidos obedecen la propiedad
de la carencia de memoria. Si algun otro cliente se une a la cola, es un hecho
que es independiente del numero de clientes en fila u otros detalles pasados
acerca de la cola; dado que los tiempos de servicio son exponencialmente dis-
tribuidos, el hecho de que un cliente termine de ser servido en cierto periodo
de tiempo es independiente de detalles de la historia de la cola, incluyendo
lo largo que el cliente ha recibido servicio.
Ejemplo: La cola de un servidor
Supongase que hay una cajera en el supermercado y que los clientes que
arriban forman una corriente de Poisson con parametro y el tiempo de
servicio esta exponencialmente distribuido con parametro . El estado Xt en
el tiempo t es la longitud de la cola. As, S = {0, 1, 2, . . .}. Un movimiento
de 0 a 1 cliente ocurre en un tiempo aleatorio exponencialmente distribuido
con parametro . De esta forma,
0 = p0 = 1
Si el estado al tiempo t es Xt = i = 1, un movimiento a un estado i 1

o i + 1 puede ocurrir. Sea T el tiempo de arribo del proximo cliente y S sea el
tiempo de servicio del cliente que es servido en el instante presente. Entonces
T y S son independientes y cada uno esta exponencialmente distribuido con

los respectivos parametros y . Un movimiento ocurre fuera del estado i en
un tiempo igual al min{T, S}. La variable aleatoria min{T, S} esta exponen-
cialmente distribuida con parametro + . Un movimiento ocurre al estado
i + 1 si T = min{T, S}; esto ocurre con una probabilidad igual a /( + ).
Similarmente, el movimiento hacia (i 1) clientes ocurre si S = min{T, S},
lo que se da con una probabilidad /( + ). Para resumir, para la cola de
un servidor y para i = 1,
0 = p0 = 1

i = + pi = + qi = +
Ejemplo: La cola con infinito numero de servidores

Supongase ahora que los clientes llegan de acuerdo a una corriente de
Poisson con parametro como en el ejemplo anterior, pero esta vez ca-
da cliente recibe servicio instantaneo, si bien el tiempo de servicio es aun
exponencialmente distribuido con parametro . Hay un infinito numero de
cajeras en el supermercado. Mas realsticamente, los clientes se sirven so-
los; por ejemplo, paseantes que llegan a un parque publico tipo La Sabana,
a la razon de por hora; permanecen una duracion aleatoria de tiempo y
luego se van. Como en la cola de un servidor, 0 = . Si hay i clientes
en el tiempo t, cada uno esta recibiendo servicio. Sea sus respectivos tiem-
pos de servicio S1 , S2 , . . . , Si . Sea T el tiempo de arribo del proximo cliente.
Entonces un movimiento fuera del estado i ocurre en un tiempo igual al
min{S1 , S2 , . . . , Si , T }. Dado que cada Sj esta exponencialmente distribui-
do con parametro y T esta exponencialmente distribuido con parametro
, el tiempo para moverse del estado i esta exponencialmente distribuido con
parametro igual a la suma + + + = i + . El movimiento sera a i + 1
clientes si T = min{S1 , S2 , . . . , Si , T }. La probabilidad de esto es /(i + ).
5.4. COLAS 173
El movimiento sera para i 1 clientes si cualquiera de los i clientes termina

de ser servido. La probabilidad de que el cliente j-esimo termine antes de los
otros y tambien antes de un arribo es /(i + ). Cualquiera de los i-clientes
podra finalizar para que el movimiento fuera hacia (i 1) clientes. As, la
probabilidad de un movimiento a (i 1) es i/(i + ) (esto ultimo tambien
puede obtenerse como 1 /(i + )).
Para la cola con infinito numero de servidores y para i = 1
0 = p0 = 1
i
i = i + pi = i+ qi = i+
Ejemplo
Una oficina de negocios tiene un telefono con un boton de retencion.
Suponga que las llamadas entrantes forman una corriente de Poisson con
parametro . Tambien suponga que cada llamada toma un tiempo exponen-
cialmente distribuido con un promedio de 1/ minutos. Si una llamada llega
durante un tiempo en que el telefono esta ocupado, es colocada en retencion.
Si otra llamada llega, recibe un tono de ocupado y debe colgar. Sea el estado
del sistema el numero de llamadas que reciben servicio o estan retenidas.
Cuales son los parametros i y las probabilidades de transicion pi , qi ?
El espacio de estados es S = {0, 1, 2}. Cambio del estado 0 al estado 1
ocurre con la llegada de una llamada. De esta forma,
0 = p0 = 1
Si el estado es 2, un movimiento ocurre al estado 1 tan pronto como la

llamada que es servida termina. De esta forma,
2 = q 2 = 1
Si el estado es 1, un movimiento ocurre si, ya sea una llamada llega

(exponencialmente distribuida con parametro , o si la llamada que es servida
termina (exponencialmente distribuida con parametro ).

1 = + p1 = q1 =
+ +
Ejemplo: Continuacion del anterior
Supongase que la oficina tiene dos telefonos ninguno de los cuales tiene un
boton de retencion. Si una llamada llega mientras un telefono esta ocupado,
la llamada es respondida por el otro telefono. El estado es el numero de
telefonos ocupados en el momento. Ahora, cuales son los parametros i y
las probabilidades de transicion pi , qi ?
0 , p0 , 1 , p1 y q1 son los mismos como en el ejemplo previo. Si el es-
tado es 2, ambas lneas estan ocupadas. Hay un cambio al estado 1 con la
finalizacion de una de las dos llamadas. Este tiempo es el mnimo de los
dos tiempos de servicio. Dado que cada uno esta exponencialmente distri-
buido con parametro , esto implica que el mnimo esta exponencialmente
distribuido con parametro + = 2. De esta manera,
2 = 2 q2 = 1
Es posible definir un procedimiento general para los problemas de colas

de la siguiente manera.
Primero, representese el tiempo de espera en el estado i como min{S, T, . . .}
donde S, T, U, . . . son independientes, cada uno distribuido exponencialmente
(tales variables son ya sea tiempos de arribo o tiempos de servicio). Entonces:
i : suma de todos los parametros
pi : suma de los parametros de tiempo de arribo divididos por i

5.4. COLAS 175
qi : suma de los parametros de tiempo de servicio divididos por i
Ejemplo: La cola de dos servidores

Los arribos forman una corriente Poisson con parametro . Hay una cola
formada, pero dos servidores. Cada tiempo de servicio esta exponencialmen-
te distribuido con parametro . Cuando un cliente completa el servicio, un
cliente de la fila empieza a ser servido y la cola decrece de tamano por una
unidad. Cuales son S, i , pi , qi ?
S es el numero de clientes en fila o recibiendo servicio. De esta forma,
S = {0, 1, 2, . . .}. Sea i 2.. Entonces ambos servidores estan ocupados y
el tiempo de espera en el estado i es min{S1 , S2 , T }, donde S1 , S2 son los
respectivos tiempos de servicio para los servidores 1, 2; T es el tiempo de
arribo para un nuevo cliente. S1 , S2 , T son exponencialmente distribuidos con
parametros , , . Por el procedimiento mencionado arriba y para i 2,
2
i = 2 + pi = qi =
2 + 2 +
Si i = 1, el tiempo de espera en el estado i = 1 es min{S, T } donde S es
el tiempo de servicio del cliente que es servido. As,

1 = + p1 = q1 =
+ +
Finalmente, el tiempo de espera en el estado 0 es el tiempo T de arribo;
de esta forma,
0 = p0 = 1
Hay que enfatizar que en una cola solamente un cambio ocurre a la vez.
Por ejemplo, en la cola con infinito numero de servidores, si hay 100 clientes
al presente recibiendo servicio, un desplazamiento a 101 clientes o a 99 clien-

tes solamente ocurre uno a la vez. Para visualizar esto, sea S1 , , S100 los
tiempos de servicio respectivos de los clientes y sea T el tiempo de arribo del
proximo cliente. Dado que cada Sj y T estan exponencialmente distribuidos,
ellos son variables aleatorias continuas. La probabilidad de que cualesquiera
dos de ellas tengan el mismo valor es cero. Pero esto debera ser el caso para
que ocurra mas de un movimiento al mismo tiempo. En una cola, solamente
un movimiento o cambio de estado ocurre a la vez.
5.5. El vector de probabilidad de estado es-

table
Despues de que el proceso de nacimiento y muerte evoluciona por algun
tiempo, se llega a la estabilidad. Esto significa que el estado del proceso se
vuelve menos y menos dependiente de su estado inicial X0 en el tiempo 0. El
proceso seguira cambiando estados pero habra una probabilidad bien definida
i con la que el proceso estara en el estado i.
Se supondra que el espacio de estados S es o el conjunto finito S =
{0, 1, 2, . . . , N } o el conjunto enumerablemente infinito S = {0, 1, 2, . . .}. En
tiempo 0, el proceso de nacimiento y muerte empieza en un cierto estado X0 .
X0 puede estar completamente determinado o puede conocerse solamente
hasta algunas probabilidades. Sea i = P (X0 = i) para todo i S. Si X0 se
sabe que es algun estado especfico k, entonces k = 1 y i = 0 para todo
i 6= k.
Un vector de probabilidad = (0 , 1 , 2 , . . .) en el espacio de estados S
satisface las siguientes dos condiciones:
1. 0 i 1 para todo i S
5.5. EL VECTOR DE PROBABILIDAD DE ESTADO ESTABLE 177
P
2. iS i = 1
La segunda condicion debe ser valida para un vector de probabilidad

inicial con i = P (X0 = i) dado que el proceso debe comenzar en algun
estado en el tiempo 0.
Matematicamente, el estado estable significa que: no importando el vector
de probabilidad inicial en tiempo 0,
P (Xt = i|vector inicial ) i
conforme t para cada estado i. Esto significa que el proceso se es-

tabiliza en los diferentes estados con probabilidades dadas por el vector
= (0 , 1 , . . . , N ). El significado del vector de probabilidad de estado
estable se puede apreciar mediante el siguiente ejemplo: durante los primeros
minutos despues de abierta la pulpera, el hecho de que las cajas registradoras
esten vacas a las 6:00 es importante para predecir el numero de clientes en
fila, pero conforme el da avanza, este hecho tiene menos y menos influencia
sobre la cantidad de clientes en fila. Intuitivamente, uno espera una cierta
probabilidad i de i clientes para instantes tarde en el da no obstante el
numero en fila al comienzo.
En general, es un vector de probabilidades que especifica que tan probable
el proceso permanecera en los diversos estados cuando todas las particulari-
dades del vector de probabilidad inicial en el tiempo 0 han sido ocultadas
por los efectos de la aleatoriedad conforme el proceso evoluciona en el tiempo.
Hay de hecho procesos de nacimiento y muerte que no tienen o alcan-
zan un estado estable de probabilidades. Pero supongase que existe y se
encontrara formulas que debe satisfacer.
El tiempo de espera o de permanencia en el estado i esta exponencialmen-
te distribuido con parametro i . Sea fi (t) = i ei t para t > 0, la densidad
para este tiempo de espera. Por lo tanto, el proceso se movera del estado i
en un intervalo de tiempo de longitud t con probabilidad
P (moverse de i en [t, t + t]|en estado i al tiempo t) =

P (moverse de i en [0, t]|en estado i al tiempo 0) =
Z t
fi (t)dt =
0
1 ei t
=
2

(i t)
1 1 i t + + '
2!
i t
para un pequeno t. La primera igualdad usa la propiedad de carencia de

memoria de la distribucion exponencial. La tercera igualdad es una integra-
cion directa. La penultima igualdad usa la expansion en series de Taylor de la
funcion exponencial. La probabilidad de que el proceso se movera del estado
i durante el proximo t es aproximadamente i t para t ' 0.
Supongase que hay un numero grande de procesos cada uno moviendose
entre estados de acuerdo a los mismos parametros i y probabilidades de
transicion pi , qi para i S. Supongase que ni de estos procesos estan en el
estado i. Entonces aproximadamente ni i t se moveran del estado i durante
el proximo t. Hacia donde se moveran? Una fraccion pi se movera al estado
i + 1 y otra fraccion qi a i 1. De esta forma, el aproximado numero de
procesos que se mueven del estado i al estado i 1 en el tiempo t durante el
proximo t es ni i tqi . En estado estable, este numero debe ser balanceado
por un numero equivalente de procesos moviendose del estado i 1 al estado
i. Esto debe ser el caso, dado que de otra forma un sinnumero de procesos
se acumularan de un lado o del otro del estado i. Por razones similares, el
numero de procesos moviendose del estado i 1 al i durante el proximo t
es ni1 i1 tpi1 . En el estado estable entonces,
ni i tqi ' ni1 i1 tpi1
Supongase que hay un numero grande n de procesos. La probabilidad de

que uno de ellos este en el estado i es ni /n = i . Dividiendo la ecuacion
anterior por n y cancelando t implica que las probabilidades i de estado
estable satisfacen, para i = 1, 2, . . .
i i qi = i1 i1 pi1 (5.8)
Ejemplo
Considere el dispositivo de dos estados de un ejemplo anterior. Para i = 1,
la ecuacion 5.8 se escribe como:
1 1 q1 = 0 0 p0
1 = 0
Esta es una ecuacion con dos incognitas, 0 y 1 . La otra ecuacion es la

normalizacion que debe ser satisfecha por cualquier vector de probabilidad.
1 = 0 + 1 = 0 (1 + /)
De esta forma finalmente,
0 = /( + )
1 = /( + )
Se puede seguir un procedimiento general para resolver problemas rela-

cionados con el vector de probabilidad de estado estable: suponga que el
espacio de estados es S = {0, 1, . . . , N } o S = {0, 1, 2, . . .}. Suponga ademas

que ningun estado es absorbente y que es posible alcanzar cualquier estado
desde otro estado; es decir, suponga que:
p0 = 1, 0 < pi < 1 para i S, i > 0
qN = 1 si S = {0, . . . , N }
i > 0 para i S
Se usa la formula recursiva:
i1 pi1
i = i1 (5.9)
i qi
para i = 1, 2, . . . para expresar cada i en terminos de 0 . Entonces se usa la
normalizacion
X
i = 1 (5.10)
i
Ejemplo
Encuentre las probabilidades de estado estable 0 , 1 , 2 para el telefono
con un boton de retencion de un ejemplo anterior. Encuentre el numero es-
perado de personas en la lnea o en espera en estado estable.
Si se usa la formula recursiva con los valores de los parametros i y las
probabilidades de transicion pi , qi para i = 0, 1, 2 se obtiene:
0 p0 1
1 = 0 = 0 = 0
1 q1 ( + )/( + )
2
1 p1 ( + )/( + )
2 = 1 = 1 = 1 = 0
2 q2 1
Se usa a continuacion normalizacion:
2 !
2 + + 2
1 = 0 + 1 + 2 = 0 1+ + = 0
2
Por consiguiente:
2 2
0 = 1 = 2 =
C C C
donde C = (2 + + 2 ). Hay i personas con probabilidad i en estado
estable. As, el numero esperado de personas en espera en estado estable es:
+ 22
0 0 + 1 1 + 2 2 =
C
Ejemplo
Encuentre el vector de probabilidad de estado estable para la cola de un
servidor.
Usando los valores de i , pi , qi de tal ejemplo,
i1 pi1 = i qi =
para todo i 1. De esta forma,
i1 pi1
i = i1 = i1
i qi
con lo que
2 i

i = i1 = i2 = = 0

para i = 0, 1, 2, . . .. La normalizacion implica que
i
" #
X X 1
1= i = 0 = 0
i=0 i=0
1

para
< 1. Si
1, la condicion de normalizacion no se satisface. Esto
significa que no hay vector de probabilidad de estado estable dado que la cola
tiende a hacerse mas y mas grande sin alcanzar tal estado. Es posible que en
este ultimo caso, la cola se vuelva mas y mas larga pero no necesariamente en
forma uniforme; podra haber periodos en los que la cola se haga mas pequena
pero eventualmente la cola se volvera mas larga que cualquier longitud pre-
especificada. Para que exista un estado estable, la tasa de partidas debe ser
mayor que la de llegadas .
Ejemplo
Para la cola de un servidor con < , encuentre la longitud esperada de
la cola en estado estable.
En el estado estable, la longitud L de la cola es i con probabilidad i para
i = 0, 1, 2, . . .. Notese que la variable aleatoria X = L + 1 esta geometrica-
mente distribuida. Para j 1,
P (X = j) = P (L = j 1) = j1 = (1 q)q j1
1
donde q = /. De esta forma

X X X 1 q 1
E[X] = j(1 q)q j1 = jq j1 jq j = =
j=0 j=0 j=0
(1 q)2 (1 q)2 1q
1
Se esta usando el resultado

X 1
jxj1 =
j=0
(1 x)2
para 1 < x < 1. Tambien se usa la ecuacion

X x
jxj =
j=0
(1 x)2
para 1 < x < 1.


E[X] =

E[L] = E[X 1] = E[X] 1 =

La longitud esperada de la cola de un servidor para < es /( ).
Ejemplo
Encuentre el vector de probabilidad de estado estable para la cola con
infinito numero de servidores.
Si se usa los valores de i , pi , qi de tal ejemplo,
((i 1) + )
i1 pi1 = =
(i 1) +
(i + )i
i qi = = i
i +
Por consiguiente,
i1 pi1
i = i1 = i1
i qi i
para i = 1, 2, . . .. Si se usa esta ultima relacion de manera recursiva,

i = i1
i

= i2
i (i 1)
..
.
i
1
= 0
i!
Si se usa normalizacion,

X X (/)i
1= i = 0 = 0 e/
i=0 i=0
i!
/
Por lo tanto, 0 = e . En conclusion, para la cola con infinito numero
de servidores, las probabilidades de estado estable son:
(/)i /
i = e
i!
para i = 0, 1, 2, . . ..
Las probabilidades en estado estable para la cola con infinito numero de
servidores estan distribuidas de acuerdo a Poisson con parametro /. Con-
secuentemente, la longitud esperada de la cola con infinito numero de ser-
vidores es /. En este ejemplo, el estado estable siempre existe; esto tiene
sentido porque hay un infinito numero de servidores.
Ejemplo
Para la cola con infinito numero de servidores con tasa de arribo y
tiempo medio de servicio 1/, encuentre el numero N mas pequeno de modo
que 90 % del tiempo habra N o menos clientes en el estado estable.
En el estado estable la probabilidad de i clientes es:
(/)i /
i =e
i!
N es el entero mas pequeno que satisface
0 + 1 + + N 0,90
N
X (/)i
0,90e/
i=0
i!
Notese que el valor de N depende solamente de la razon /. Se muestra

el Cuadro 5.1 con valores de / contra N . El resultado es interesante: el
numero esperado de clientes para la cola con infinito numero de servidores es

/, pero solamente un poco mas que este numero de clientes estara presente
10 % del tiempo.
/ N
0.5 1
1 2
5 8
10 14
20 26
50 59
100 113
Cuadro 5.1: Numero N mas pequeno para que el 90 % del tiempo haya N o
menos clientes en el estado estable.
El siguiente teorema muestra el significado del vector de estado estable.

Teorema del lmite Suponga que
1. p0 = 1
2. 0 < pi < 1 para i = 1, 2, . . .
3. qN = 1 si S = {0, 1, 2, . . . , N }
4. i > 0 para i S
para el proceso de nacimiento y muerte. Suponga que es un vector de

probabilidad que satisface

i1 pi1
i = i1
i qi
para i = 1, 2, . . .. Entonces:
1. Dado cualquier vector de probabilidad inicial ,
P (Xt = i|vector inicial ) i
cuando t para cada i S.
2. Si el vector de probabilidad inicial es = , entonces
P (Xt = i|vector inicial ) = i
para todo t 0 para i S.
El primer resultado del teorema establece que no obstante el estado inicial

en el tiempo t = 0, el proceso se hallara en el estado i con probabilidad i
conforme t se hace grande. El segundo resultado establece que si se usa co-
mo el vector inicial de probabilidad, entonces sera el vector de probabilidad
para todo tiempo t 0. Las condiciones del teorema sobre i , pi , qi son esen-
ciales. Garantizan que ningun estado es absorbente y que cualquier estado
puede alcanzarse desde cualquier otro estado. Por ejemplo, si S = {0, 1, 2, 3}
y p2 = 1, q1 = 1 el proceso se descompondra: si el proceso empezara en los
estados 0 o 1, permanecera ah por siempre, pero si empezara en los estados
2 o 3, permanecera en estos estados por siempre.
5.6. Cadenas de Markov de tiempo discreto

Considerese un sistema que puede estar en cualquiera de varios estados. El
conjunto de estados es denominado el espacio de estados S y se supondra en
general que S = {0, 1, 2, . . . , N }, si bien en ocasiones otros espacios de estados
pueden usarse, como por ejemplo, S = {1, 2, . . . , N } o el espacio de estados
5.6. CADENAS DE MARKOV DE TIEMPO DISCRETO 187
infinito S = {0, 1, 2, . . .}. Supongase ahora que una partcula es libre de saltar
entre los estados del espacio de estados S; su localizacion al tiempo t es Xt .
De esta forma se tiene un proceso estocastico {Xt }
t=0 . La localizacion Xt se
mide solamente en los tiempos discretos t = 0, 1, 2, . . .. X0 es la localizacion

principiante en el tiempo 0.
Las siguientes suposiciones caracterizan a una cadena de Markov:
1. Suponga que la partcula esta en el estado i en el tiempo t. Luego,

no obstante su historia antes del tiempo t, la probabilidad que brin-
que a otro estado j depende solamente de i. Matematicamente, sea
i, j, it1 , . . . , i0 S. Entonces para cualquier tiempo t:
P (Xt+1 = j|Xt = i, Xt1 = it1 , . . . , X0 = i0 ) = P (Xt+1 = j|Xt = i)
Es decir, el futuro (tiempo t + 1), dado el presente (tiempo t), es inde-

pendiente del pasado (tiempos t 1, . . . , 0). La probabilidad anterior
es la probabilidad de transicion o de salto del estado i al estado j.
2. No solamente son las probabilidades de transicion independientes de los

estados pasados de la partcula una vez que se conoce donde la partcula
esta ahora, sino que las probabilidades de transicion son independientes
de t:
P (Xt+1 = j|Xt = i) = i,j
Esta ultima suposicion se denomina homogeneidad en el tiempo.
Definicion Una cadena de Markov de tiempo discreto (homogenea) con-

siste de una partcula que salta en cada unidad de tiempo entre estados en
un espacio de estados S. Xt denota el estado ocupado en el tiempo t para

t = 0, 1, 2, . . .. Si la partcula esta en el estado i al tiempo t, estara en el
estado j en el tiempo t + 1 no obstante los estados ocupados antes del tiempo
t con probabilidad
i,j = P (Xt+1 = j|Xt = i) (5.11)
Ejemplo 1: Cadena de Markov de tiempo discreto
Figura 5.1: Ejemplo 1. Cadena de Markov de tiempo discreto.
Sea S = {0, 1} con probabilidades de transicion dadas por:
0,0 = 1/3 0,1 = 2/3 1,0 = 1/4 1,1 = 3/4 (5.12)
En la Figura 5.1 se muestra un diagrama que puede usarse para represen-

tar la informacion dada en la ecuacion 5.12. Tambien se suele representar
la misma informacion en forma matricial:

1/3 2/3
= (5.13)
1/4 3/4
Hay una manera estandar de escribir las probabilidades de salto i,j como
una matriz, a la que se le llama la matriz de transicion . El elemento en su
i-esima fila y j-esima columna es i,j , la probabilidad que la partcula salte

de i a j.

0,0 0,1 0,2 0,N
1,0 1,1 1,2 1,N
= (5.14)

.. .. .. .. ..
. . . . .
N,0 N,1 N,2 N,N
Notese que la i-esima fila de la matriz muestra las probabilidades de
salto del estado i; la j-esima columna muestra las probabilidades de salto al
estado j. Por ejemplo, si la tercera columna consistiera de solamente 0s, o
sea, si
i,3 = 0
para todos los estados i en el espacio de estados S, la partcula nunca podra

entrar al estado 3. Esto ultimo es as dado que si la partcula saltara de algun
estado i0 al estado 3, entonces debera ocurrir que i0 ,3 > 0.
Sea una matriz de transicion de una cadena de Markov. Entonces,
1. 0 6 i,j 6 1 para todo i, j en el espacio de estados S.
2. tiene filas que suman 1:
N
X N
X
i,j = P (Xt+1 = j|Xt = i) = 1 (5.15)
j=0 j=0
Ejemplo 2
En una cadena de Markov hay 3 estados, con lo que S = {0, 1, 2}. Del
estado 0 la partcula salta a los estados 1 o 2 con una identica probabilidad
de 1/2. Del estado 2, la partcula debe saltar al estado 1. El estado 1 es
Figura 5.2: Ejemplo 2. Cadena de Markov de tiempo discreto.
absorbente: una vez que la partcula entre al estado 1, no puede salirse. Dibuje
el diagrama y escriba la matriz de transicion.
En la Figura 5.2 se muestra el diagrama correspondiente y las probabi-
lidades de transicion. La primera fila de la matriz de transicion consiste
de las probabilidades de salto del estado 0 y similarmente para las otras dos
filas.

0 1/2 1/2
= 0 1 0
0 1 0
Definicion El estado i es absorbente si i,i = 1.
Ejemplo 3: Un paseo aleatorio sobre S = {0, 1, 2, . . . , N }

De cualquiera de los estados interiores 1, 2, . . . , N 1, la partcula salta
a la derecha al estado i + 1 con probabilidad p y hacia la izquierda al estado
i 1 con probabilidad q = 1 p. Es decir, para 1 6 i 6 N 1,
i,i+1 = p, i,i1 = q, i,j = 0 para j 6= i 1
Esto corresponde en el lenguaje del azar al siguiente juego: tire una mo-
neda; si sale cruz, entonces gana un colon; si sale corona, entonces pierde un
colon. En cada tiro se salta al estado i + 1 con probabilidad p o al estado

i 1 con probabilidad q, con la suposicion basica de que al presente se tiene
i colones. Pueden considerarse tres casos diferentes acerca de la conducta de
la partcula en los estados frontera 0 y N .
Caso 1 Ambos estados frontera podran ser absorbentes, en cuyo caso se
tendra,
0,0 = 1 N,N = 1
Esto corresponde a las situaciones en que el juego acabo dado que se

quedo sin dinero o si se ha ganado el dinero de los oponentes. La correspon-
diente matriz de transicion estara dada por,

1 0 0 0 0

q 0 p 0 0

0 q 0 p 0
=

0 0 0 0 q 0 p
0 0 0 0 1
Caso 2 Ambos estados frontera podran ser reflectores, en cuyo caso,
0,1 = 1 N,N 1 = 1
Esto corresponde al caso cuando mi oponente me da uno de sus colones

cuando me quedo con los bolsillos vacos, o inversamente.
Caso 3 Los estados frontera podran ser parcialmente reflectores, en cuyo
caso,
0,0 = r 0,1 = 1 r N,N = s N,N 1 = 1 s
La correspondiente matriz de transicion estara dada por,


r 1r 0 0 0 0

q 0 p 0 0 0

0 q 0 p 0
=

0 0 0 0 0 q 0 p
0 0 0 0 0 1s s
Figura 5.3: Ejemplo 3. Paseo aleatorio sobre S = {0, 1, 2, . . . , N }.
El caso 3 incluye los dos casos anteriores para valores particulares de r y

s.
Ejemplo 4: Proceso de renovacion

Considerese un componente cuya edad puede ser 0 o 1 o 2 o . . .. Edad
0 significa acabado de instalar. Supongase que no importa que tan viejo el
componente es, se quemara durante el proximo intervalo de tiempo con pro-
babilidad q o continuara operando con probabilidad p = 1 q. As, el compo-
nente sigue la propiedad de la carencia de memoria. El espacio de estados es
S = {0, 1, 2, . . .} y el estado del sistema es la edad del componente instalado.
Suponga que tan pronto como el componente se queme, es reemplazado ins-
tantaneamente y entonces el estado del sistema se vuelve cero. La transicion
del estado 0 al estado 0 ocurre si el componente recien instalado se quema
inmediatamente.

q p 0 0
q 0 p 0 0
= q 0 0 p 0

Vease que el espacio de estados S, en este caso, si bien discreto, tiene infi-
nitamente muchos estados. Este modelo recibe tambien el nombre de modelo
de nacimiento o de desastre. Algunas aplicaciones son evidentes: tiempos de
vida de componentes. Hay una que no es tan obvia: las noticias se apilan en
una pizarra de avisos a una razon mas o menos constante hasta que alguien
decide tirarlas todas. El estado del sistema es el numero de das desde la
ultima vez que la pizarra fue limpiada. Si la limpieza de la pizarra se hace
aleatoriamente, independiente de cuantas noticias haya o del tiempo desde
la ultima limpieza, la pizarra sera limpiada en la proxima unidad de tiempo
con una probabilidad constante q.
5.6.1. La matriz de transicion de orden t

La matriz de transicion muestra las probabilidades de transicion i,j .
Supongase que se necesita encontrar probabilidades tales como
P (Xt+3 = j|Xt = i)
de que la partcula estara en estado j tres saltos desde el estado actual. Las
probabilidades de un paso i,j son las entradas de la matriz . De estas,
como puede encontrarse las probabilidades de tres pasos, y mas general-
mente, las probabilidades de t-pasos?
Definicion La matriz de transicion de orden t es t , cuya entrada (i, j)
es
ti,j = P (Xt = j|X0 = i)

que es la probabilidad de saltar de i a j en t pasos.

La homogeneidad en el tiempo (el hecho de que las probabilidades de
transicion no dependan de t) implica que no obstante el tiempo 0,
P (Xt+ = j|X = i) = ti,j (5.16)
O sea, las probabilidades de transicion de t-pasos dependen solamente

de la diferencia de tiempo. Un algoritmo general se necesita para hallar la
matriz de transicion t de orden t para cualquier matriz de una cadena
de Markov dada.
Para hallar la matriz de transicion de orden t + 1 de la de orden t, se usa
las suposiciones de Markov basicas. Supongase que la partcula empieza en
estado i en el tiempo 0. Para que la partcula este en el estado j en el tiempo
t + 1, debe haber atravesado algun estado k en el tiempo intermedio t. Por
consiguiente, donde la partcula estaba en el tiempo t particiona el evento en
el estado j en el tiempo t + 1 dado un principio en el estado i en el tiempo 0.
t+1
i,j = P (Xt+1 = j|X0 = i)
N
X
= P (Xt+1 = j y Xt = k|X0 = i)
k=0
XN
= P (Xt+1 = j|Xt = k y X0 = i)P (Xt = k|X0 = i)
k=0
N
X
= P (Xt+1 = j|Xt = k)P (Xt = k|X0 = i)
k=0
XN
= k,j ti,k
k=0
XN
= ti,k k,j
k=0
La segunda igualdad viene de particionar donde la partcula estaba en el

tiempo t. La tercera igualdad viene de
P (A B|C) = P (A|B C)P (B|C)
que se sigue de la definicion de probabilidad condicional. La cuarta igual-

dad usa la suposicion de la cadena de Markov que la probabilidad de que la
partcula este en j en t + 1 dado que estaba en k en el tiempo t, es indepen-
diente del hecho de que estaba en i en el tiempo 0.
Ecuaciones de Chapman-Kolmogorov Sea los tiempos t, s 0. En-
tonces para todos los estados i, j:
N
X
t+s
i,j = ti,k sk,j (5.17)
k=0
con t+s = t s .
Para que la partcula que comienza en i en el tiempo 0 este en j en el
tiempo t + s, debe estar en algun estado k en el tiempo intermedio t.
Ejemplo 5
Convierta el diagrama de salto de probabilidades de la Figura 5.4 en la co-
rrespondiente cadena de Markov y encuentre la probabilidad de que la partcu-
la estara en el estado 1 despues de tres saltos dado que empezara en el estado
1.
Si se pasa la informacion dada por el diagrama de saltos a la correspon-
diente matriz de transicion, se encuentra que:

0 0,1 0,9
= 0,8 0 0,2
0,7 0,3 0
Con la ayuda de la matriz anterior, se encuentra que:
Figura 5.4: Ejemplo 5. De un diagrama de salto a la matriz de transicion.

0,71 0,27 0,02
2 = 1 1 = 0,14 0,14 0,72
0,24 0,07 0,69

0,230 0,077 0,693
3 = 2 = 0,616 0,230 0,154
0,539 0,231 0,230
Para responder a la pregunta hecha,
P (X3 = 1|X0 = 1) = 31,1 = 0,230
5.6.2. El vector de probabilidad t
Se ha aprendido a calcular probabilidades condicionales de la forma P (Xt =

j|X0 = i). Pero supongase que la partcula comenzo en el estado i0 en el
tiempo 0. Entonces, cual sera P (Xt = j)? Mas en general, suponga que la
partcula empieza en el estado i con probabilidad pi en el tiempo t = 0. Se
desea responder la pregunta: con las probabilidades iniciales 0 , 1 , . . . , N ,

cual sera P (Xt = j) para cualquier estado j?
Sea el vector de probabilidad inicial definido por
= (0 , 1 , 2 , . . . , N )
Notese que 0 6 i 6 1 para todos los estados i en el espacio de estados

S y 0 + 1 + + N = 1, dado que la partcula debe comenzar en alguna
parte en el tiempo 0. El vector de probabilidad en el tiempo t se define como
t = (t0 , t1 , t2 , . . . , tN )
donde
tj = P (Xt = j|vector de probabilidad inicial sea )
Es decir, tj es la probabilidad de que la partcula se encontrara en el

estado j dado que en el tiempo 0 hubiera comenzado en los estados diversos
con probabilidad i para i = 0, 1, . . . , N . Notese que 0 = , y
N
X N
X
tj = P (Xt = j) = 1
j=0 j=0
t
Es decir, para cada t, es un vector de probabilidad.
Definicion Un vector de probabilidad = (0 , 1 , . . . , N ) satisface
1. 0 6 i 6 1 para cada i = 0, 1, 2, . . . , N .
2. 0 + 1 + . . . + N = 1
Hay un metodo directo para obtener el vector de probabilidad t en el

tiempo t dado el vector de probabilidad inicial 0 en el tiempo 0 y la matriz
de transicion t de orden t:
N
X
tj = i ti,j
i=0
El vector de probabilidad en el tiempo t es
t = t = 0 t
Para probar el resultado, se calcula lo siguiente:
tj = P (Xt = j)
N
X
= P (Xt = j|X0 = i)P (X0 = i)
i=0
N
X
= ti,j i
i=0
donde la primera y segunda igualdades son las definiciones de t , t y . La

segunda igualdad constituye una aplicacion de la ley de probabilidad total.
Ejemplo 6
Figura 5.5: Ejemplo 6. Vector de probabilidad t .
Para la cadena de Markov de la Figura 5.5, encuentre la probabilidad de

que la partcula estara en el estado 0 en el tiempo 3 si comenzo en el estado

0 con probabilidad 1/3 y en el estado 1 con probabilidad 2/3 en el tiempo 0.
Primero se encuentra la matriz de transicion a partir del diagrama de
salto y el vector de probabilidad en el tiempo 0 a partir de la informacion
dada en el enunciado:

1/4 3/4
=
1 0
= (1/3, 2/3)
Toca a continuacion calcular las matrices de transicion de orden 2 y de

orden 3, para finalmente calcular el vector de probabilidad de orden 3:

2 13/16 3/16
==
1/4 3/4

3 2 25/64 39/64
= =
13/16 3/16
3 = 3 = (1/3, 2/3)3 = (129/192, 63/192)
De esto ultimo se concluye que P (X3 = 0) = 30 = 129/192. Fin del

ejemplo.
Supongase que la partcula empieza en el tiempo t = 0 en el estado i. En
la terminologa de los vectores de probabilidad, esto significa que:
0 = (0, . . . , 0, 1, 0, . . . , 0)
El numero 1 en el anterior vector esta en la i-esima entrada. Por consi-

guiente, el vector de probabilidad en el tiempo t es:
t = (0, . . . , 0, 1, 0, . . . , 0)t
= (ti,o , ti,1 , ti,2 , . . . , ti,N )
lo que implica que dado que la partcula comenzo en el estado i,
P (Xt = j) = tj = ti,j
que confirma lo que ya se sabe: la entrada (i, j) de la matriz t es la proba-

bilidad de estar en el estado j en el tiempo t dado que estaba en el estado i
en el tiempo 0.
5.6.3. El vector de probabilidad de estado estable

Supongase que hay un numero grande N de partculas, cada una que salta
de estado a estado entre los estados de S guiados por la matriz de transicion
de probabilidades de saltos. Si todas las N partculas empiezan en el estado
0 en el tiempo t = 0, entonces despues de un salto algunas permaneceran en
el estado 0 (si 0,0 > 0) y otras saltaran a otros estados. Se puede esperar
N 0,j partculas en el estado j despues de un salto. Por otro lado, supongase
que se distribuyen las N partculas de modo que Nj empiezan en el estado j
en el tiempo 0 para j = 0, 1, 2, . . . , N . Dado que Nj j,i de aquellas partculas
que empiezan en j puede esperarse que salten al estado i, el numero total de
partculas que puede esperarse que esten en el estado i despues de un salto
es
N
X
Nj j,i
j=0
Pudiera suceder que este numero es el mismo numero Ni de partculas que

empezaron en el estado i en el tiempo 0. Cada una de las partculas podra
cambiar estados, pero el numero completo en el estado i permanecera cons-

tante. Si esto fuera cierto para cada estado i S, el sistema entero de N
partculas estara en estado estable: por cada partcula que deja un estado,
una la reemplazara proveniente de otro estado.
N
X
Ni = Nj j,i
j=0
En vez del numero Ni absoluto de partculas en estado i, reestablezcase

la ecuacion en terminos del numero relativo Ni /N de partculas en estado i;
esta es la probabilidad de que cualquier partcula ocupe el estado i.
N
X
Ni /N = (Nj /N ) j,i
j=0
Si este fuera el caso, el sistema entero de N partculas estara en el estado

estable.
Un vector de probabilidad representa el estado estable si
N
X
i = j j,i (5.18)
j=0
o sea, si 1 = = . De esta forma, la probabilidad de que una partcula

este en el estado i es la misma en el tiempo 1 como en el tiempo 0. Notese
que si tiene esta propiedad de reproducirse a s mismo despues de un salto,
esto se cumplira para todos los tiempos t:
1 = = (5.19)
lo que implica
2 = 1 = =
3 = 2 = =
y, en general,
t = t1
=
=
Cualquier vector de probabilidad con la propiedad = es denominado

un vector de probabilidad de estado estable. Si la partcula empieza en el
estado i con probabilidad i por cada estado i, entonces en todo tiempo t,
estara en el estado i con probabilidad i .
Procedimiento para hallar el vector de probabilidad de estado
estable Consta de dos pasos:
1. Establezca y resuelva estas ecuaciones:
N
X
j = i i,j
i=0
para j = 0, 1, 2, . . . , N o alternativamente, en notacion matricial, =

.
2. Normalice por medio de la ecuacion
N
X
i = 1
i=0
El paso 1 anterior involucra la solucion de N + 1 ecuaciones para N + 1

incognitas 0 , 1 , 2 , . . . , N . Siempre habra redundancia: una de las ecua-
ciones sera una combinacion lineal de las otras. La ecuacion del paso 2 es
realmente la (N + 1)-esima. En otras palabras: el primer paso, aunque de-
fine un sistema de N + 1 ecuaciones, solamente N de ellas son linealmente
independientes, por lo que se necesita del paso 2 para proveer la (N + 1)-
esima ecuacion para poder encontrar las N + 1 incognitas, que definiran los
componentes del vector de probabilidad de estado estable.
Ejemplo 7: Vector de probabilidad de estado estable.
Figura 5.6: Ejemplo 7. Vector de probabilidad de estado estable.
Encuentre el vector de probabilidad de estado estable de la cadena de

Markov mostrado en la Figura 5.6.
=
(0 , 1 ) = (0 , 1 )
1 1

= (0 , 1 ) 2 2
1 0
1
0 = 0 + 1
2
1
1 = 0
2
Las dos ultimas ecuaciones son realmente la misma: 1 = 12 0 . A conti-

nuacion se usa la condicion de normalizacion:
1 3
1 = 0 + 1 = 0 + 0 = 0
2 2
De esta forma se concluye que 0 = 2/3, 1 = 1/3. Por consiguiente, dos

terceras partes del tiempo, la partcula se encontrara en el estado 1; una
tercera parte del tiempo se encontrara en el estado 2. Fin del ejemplo
Ejemplo 8: Vector de probabilidad de estado estable.
Figura 5.7: Ejemplo 8. Vector de probabilidad de estado estable.
Considere la cadena de Markov de la Figura 5.7. Encuentre el vector de

probabilidad de estado estable .
Se construye primero la matriz de transicion :
1 1

0 2 2
2 1
= 0

3 3

1 2
3 3
0
1 1

0 2 2
2 1
(0 , 1 , 2 ) = (0 , 1 , 2 ) 0

3 3

1 2
3 3
0
1
0 = 2
3
1 2 2
1 = 0 + 1 + 2
2 3 3
1 1
2 = 0 + 1
2 3
lo cual genera,
30 + 2 = 0
30 21 + 42 = 0
30 + 21 62 = 0
Si se suma la segunda y la tercera ecuaciones, resulta en 60 22 = 0,

que es esencialmente la misma primera ecuacion, de donde se puede decir que
la tercera ecuacion es redundante. De las primeras dos ecuaciones se tiene
que,
2 = 30
15
1 = 0
2
Toca ahora usar la condicion de normalizacion:

15 23
1 = 0 + 1 + 2 = 1+ + 3 0 = 0
2 2
2 15 6
Por consiguiente, 0 = 23
, 1 = 23
, 2 = 23
. Fin del ejemplo.
Figura 5.8: Ejemplo 9. Proceso cclico.
Ejemplo 9. Proceso cclico.
Considere el proceso cclico de la Figura 5.8. Hay N +1 estados 0, 1, 2, . . . , N .

Para cada estado i, 0 < qi < 1. La partcula permanece en el estado i con
probabilidad qi , o salta al estado i + 1 con probabilidad pi = 1 qi . Si i = N ,
entonces i + 1 sera el estado 0; hay un enrollamiento del estado N al estado
0. Encuentre el vector de probabilidad de estado estable.
Se comienza por caracterizar la matriz de transicion, a partir del diagrama

de saltos.

q0 p0 0 0

0 q1 p1 0 0

=
0 0 q2 p2 0

pN 0 0 qN
La ecuacion = implica que:

(0 , 1 , . . . , N ) = (0 , 1 , . . . , N )
0 = q0 0 + pN N
1 = p0 0 + q1 1
2 = p1 1 + q2 2

lo que nos lleva a:
p0 0 = pN N
p1 1 = p0 0
p2 2 = p1 1

Se resuelve sucesivamente para cada i en terminos de 0 comenzando

con la segunda ecuacion:
1 = (p0 /p1 )0
2 = (p0 /p2 )0
3 = (p0 /p3 )0

N = (p0 /pN )0
Ahora se usa la condicion de normalizacion,

1 = 0 + 1 + + N
= (1 + p0 /p1 + p0 /p2 + + p0 /pN ) 0
= (1/p0 + 1/p1 + 1/p2 + + 1/pN ) p0 0
De esto ultimo se obtiene que 1 = Cp0 0 , lo que determina 0 . Para el

proceso cclico se obtiene finalmente que i = 1/Cpi , donde C = N
P
j=0 1/pj .
Fin del ejemplo.

Las cadenas de Markov en los ultimos tres ejemplos tienen vectores de
probabilidad de estado estable unicos. Este no es siempre el caso.
Ejemplo 10. Caso con dos vectores de probabilidad de estado estable.

Sea

1/2 1/2 0 0
1/2 1/2 0 0
=
0 1/3 1/3 1/3
0 0 0 1
Hay dos vectores de probabilidad de estado estable distinguibles:

1 1
= , , 0, 0
2 2
= (0, 0, 0, 1)
Esto se verifica simplemente chequeando = , = . Fin del

ejemplo.
Ejemplo 11. Paseo aleatorio sobre los enteros positivos.
Considerese un paseo aleatorio sobre los enteros positivos S = {0, 1, 2, . . .}
en el que las transiciones son solamente hacia la derecha; suponga que 0 <
p < 1 y q = 1 p. Vease la Figura 5.9. Esta cadena es similar al proceso
Figura 5.9: Ejemplo 11. Paseo aleatorio sobre los enteros positivos.
cclico. Aqu pi = p es constante y N = . La correspondiente matriz de

transicion esta dada por:

q p 0 0 0
0 q p 0 0
=
0 0 q p 0

= implica que
q0 = 0
p0 + q1 = 1
p1 + q2 = 2

Dado que 0 < p, q < 1, la primera, la segunda, la tercera, y demas ecua-

ciones implican 0 = 0, 1 = 0, 2 = 0, . . .. Por consiguiente, no hay estado
estable. Fin del ejemplo.
En el Ejemplo 10, se vio que, dependiendo de la cadena de Markov, pu-
diera no haber un vector de probabilidad de estado estable unico. Para ese
ejemplo, si la partcula empezara en los estados 0 o 1, permanece en estos
estados por siempre. Si empezara en el estado 3, permanecera ah siempre.
Si empezara en el estado 2, tarde o temprano saltara al estado 3 o a la com-

binacion de los estados 0 y 1. Por consiguiente, la cadena entera se parte en
dos piezas separadas, cada una con su propio estado estable. En ese caso, la
cadena se dice que es descomponible.
En el Ejemplo 11, la partcula tiene un desplazamiento hacia la derecha.
Por consiguiente, no hay estado estable. Se puede comenzar con un millon
de partculas y eventualmente ellas estaran muy hacia la derecha del estado
0.
Captulo 6
Bibliografa
211
212 CAPITULO 6. BIBLIOGRAFIA
Bibliografa
[1] Cooper, G. y McGillem, C. Probabilistic Methods of Signal and System

Analysis. Tercera edicion. New York: Oxford University Press, 1998.
[2] Bertsekas, D. y Tsitsiklis, J. Introduction to Probability. Segunda edicion.

Boston: Athena Scientific, 2008.
[3] Peebles, Jr., P. Z. Probability, Random Variables, and Random Signal

Principles. Cuarta edicion. New York: McGraw-Hill, 2001.
[4] Kay, S. M. Intuitive Probability and Random Processes Using MATLAB.

Segunda impresion. New York: Springer, 2005.
[5] Rong Li, X. Probability, Random Signals, and Statistics. Boca Raton:
CRC Press, 1999.
[6] Papoulis, A. Probability, Random Variables and Stochastic Processes.

Segunda edicion. New York: McGraw-Hill, 1984.
[7] Solomon, F. Probability and Stochastic Processes. Englewood Cliffs, New

Jersey: Prentice-Hall, 1987.
[8] Davenport Jr., W. B. y Root, W. L. An Introduction to the Theory of

Random Signals and Noise. New York: IEEE Press, 1987.
213
214 BIBLIOGRAFIA
[9] Shanmugan, K. S. y Breipohl, A. M. Random Signals: Detection, Esti-

mation and Data Analysis. New York: John Wiley and Sons Inc., 1988.
[10] Levin, B. R. Fundamentos de Radiotecnia Estadstica. Barcelona: Mar-

combo Boixareu Editores, 1984.
[11] Kazakos, D. y Papantoni-Kazakos, P. Detection and Estimation. New

York: Computer Science Press (W. H. Freeman and Company), 1990.
[12] Van Trees, H. L. Detection, Estimation, and Modulation Theory. Part I:

Detection, Estimation, and Linear Modulation Theory. New York: John
Wiley and Sons Inc., 2001.
[13] Gray, R. M. y Davisson, L. D. An Introduction to Statistical Signal Pro-

cessing. New York: Cambridge University Press, 2011.
[14] Melsa, J. L. y Sage, A. P. An Introduction to Probability and Stochastic

Processes. Mineola, New York: Dover Publications, Inc., 2013.
[15] Lopez, J. y Martos, E. Senales aleatorias: Teora y ejercicios resueltos.

Mexico: Alfaomega, 2013.
[16] Wax, N. (editor). Selected Papers on Noise and Stochastic Processes.

Mineola, New York: Dover Publications, Inc., 1954.
[17] Porat, B. Digital Processing of Random Signals: Theory and Methods.

Mineola, New York: Dover Publications, Inc., 2008.
[18] Rosenthal, J. S. A First Look at Rigorous Probability Theory. Segunda

edicion. Singapur: World Scientific Publishing Co. Pte. Ltd., 2010.

Apuntes de Probabilidad

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Apuntes de Probabilidad

Uploaded by

Copyright:

Available Formats

Modelos probabilsticos de senales y sistemas

Jorge Arturo Romero Chacon

Estas notas de clase representan un esfuerzo realizado con el fin de satis-

1. Familiarizarse con los conceptos fundamentales de la probabilidad.

2. Comprender el concepto de variable aleatoria discreta y continua y de

3. Saber definir un proceso estocastico y conceptos elementales asociados.

4. Conocer los elementos basicos de la estadstica tal y como son emplea-

Los objetivos especficos originales fueron planteados de la siguiente ma-

1. Definir en lenguaje comun los conceptos de probabilidad, probabilidad

2. Aplicar los conceptos anteriores en aplicaciones basicas en Ingeniera

3. Calcular probabilidades de eventos y los valores esperados de variables

4. Dada una situacion donde ha sido aplicado un muestreo, formular una

La practica docente ha demostrado que un semestre es suficiente para

1. Teora basica de la probabilidad 1

2.9.2. Momentos centrales . . . . . . . . . . . . . . . . . . . . 57

3. Variables aleatorias multiples 69

4. Procesos estocasticos 113

5. Cadenas de Markov 161

5.1. Ejemplo 1. Cadena de Markov de tiempo discreto . . . . . . . 188

1.1. Distribucion de valores de las resistencias en la caja. . . . . . . 15

5.1. Numero N mas pequeno para que el 90 % del tiempo haya N

Teora basica de la probabilidad

1.2. Definiciones basicas de la teora de con-

Un conjunto se especifica por el contenido de dos llaves: {}.

metodo tabular los elementos son enumerados explcitamente. En el metodo

Un conjunto se dice ser enumerable si sus elementos pueden ponerse en

Si por lo menos hay un elemento de B que no esta en A, entonces es un

El conjunto vaco (nulo) es claramente un subconjunto de todo conjunto.

Dos conjuntos, A y B, se llaman disjuntos o mutuamente excluyentes si

El conjunto mas grande o abarcador de objetos bajo discusion en una

Para cualquier conjunto universal con N elementos, hay 2N subconjuntos

1.2.1. Operaciones con conjuntos

La union de dos conjuntos A y B es un conjunto nuevo C constituido por

La interseccion de dos conjuntos A y B es un conjunto nuevo D consti-

Dos conjuntos A y B son mutuamente excluyentes si A B = .

El complemento de un conjunto A, denotado por A, es el conjunto de

Las siguientes igualdades, concernientes al concepto de complemento de

Sobre tales conjuntos, se pueden ejecutar las siguientes operaciones:

A B = {1, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12}

Todos los subconjuntos del conjunto universal forman un sistema alge-

Si se aplica el principio de la dualidad, queda entonces como

lo cual es una identidad cierta.

1.3. Los conceptos de la Probabilidad

Algunos experimentos tienen un espacio de muestras no enumerable e in-

1.3.1. Definicion y axiomas de la probabilidad

Para cada evento definido sobre un espacio de muestras S, se asignara un

P (A) para denotar la probabilidad del evento A.

Axioma 1: P (A) 0 (1.5)

El primer axioma indica el deseo de trabajar con numeros no-negativos.

si Am An = para todo m 6= n = 1, 2, . . . , N con N que puede ser infinito.

Considerese el experimento que consiste en obtener un numero x al dar

Una consecuencia de la deduccion anterior es que ciertos eventos pueden

1 pueda que no ocurran. Un ejemplo para el experimento de la rueda de la

1.3.2. Modelo matematico de experimentos

(1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)

fila y j representa la columna, que localizan un resultado particular posible en

1.3.3. Probabilidad condicional y conjunta

La probabilidad P (A B) se llama la probabilidad conjunta para dos

P (A B) = P (B) + P (A)P (A B) (1.9)

P (A B) = P (A) + P (B)P (A B) 6 P (A) + P (B) (1.10)

La probabilidad de la union de dos eventos nunca excede la suma de las

Cuadro 1.1: Distribucion de valores de las resistencias en la caja.

En una caja hay 100 resistencias, cuyos valores se distribuyen de acuerdo

La probabilidad P (A) de cualquier evento A definido sobre un espacio S

6. FX (x+ ) = FX (x) donde x+ significa x + donde > 0 es infinitesimal-