You are on page 1of 10

12.

Procesos Estocásticos y Cadenas de Markov

12. Procesos estocásticos y cadenas de


Markov
n Procesos estocásticos
n Cadenas de Markov
n Clasificación de estados en una cadena de Markov
n Probabilidades en estado estacionario
n Análisis de estado transitorio
n Proceso de decisión markoviano

Procesos estocásticos.
n Un poceso estocástico de tiempo discreto es una descripción de la
relación entre las variables aleatorias X0,X1,...que representan alguna
característica de un sistema en puntos discretos en el tiempo.
n Ejemplo: ruina del jugador: inicialmente tengo 2€, en los tiempos 1,2,...
participo en un juego en el que apuesto 1€ que gano con probabilidad p y
pierdo con probabilidad 1-p. Dejo de jugar cuando mi capital es 4€ o he
perdido todo mi capital. Si Xi es la cantidad de dinero que tengo en el
tiempo i, X0,X1,... es un proceso estocástico.
n Un proceso estocástico de tiempo continuo es un proceso estocástico en
el que el estado del tiempo se puede examinar en cualquier tiempo.
n Ejemplo: número de personas en un supermercado a los t minutos de abrir

Carmen Mª García López


Francisco R. Villatoro 1
12. Procesos Estocásticos y Cadenas de Markov

Cadenas de Markov.
n Cadena de Markov: proceso estocástico de tiempo discreto que para
t=0,1,2,... y todos los estados verifica
P(Xt+1=it+1 | Xt=it, Xt-1=it-1, ..., X1=i1, X0=i0)=P(Xt+1=it+1|Xt=it)
§ Hipótesis de estabilidad: P(Xt+1=j|Xt=i)=pij (no depende de t)
§ Probabilidades de transición: pij
 p11 p12 L p1s 
p p L p2s 
§ Matriz de probabilidades de transición: P =  21 22
 M M O M 
 
 s1
p p s2 L pss 
s

§ Se debe verificar: ∑p
j =1
ij =1

Cadenas de Markov.

§ Las cadenas de Markov que cumplen la hipótesis de estabilidad se


llaman cadenas estacionarias de Markov.
§ Distribución inicial de probabilidad de una cadena de Markov:
q=[q1,...,qs] donde qi=P(X0=i)

Carmen Mª García López


Francisco R. Villatoro 2
12. Procesos Estocásticos y Cadenas de Markov

Cadenas de Markov.
§ Ejemplo: la ruina del jugador es una cadena de Markov estacionaria
§ Estados: 0, 1, 2, 3, 4
§ Matriz de transición
 1 0 0 0 0
1− p 0 p 0 0


P = 0 1− p 0 p 0
 
 0 0 1− p 0 p
 0 0 0 0 1
§ La matriz de transición se puede representar con un grafo en el que cada
nodo representa un estado y cada arco la probabilidad de transición entre
estados.
1-p 1-p 1-p

1 0 1 2 3 4 1

p p p

Probabilidades después de n pasos.


n Si una cadena de Markov estacionaria está en el estado i en el tiempo
m, ¿cuál es la probabilidad de que n períodos después la cadena esté
en el estado j?
P(Xm+n=j|Xm=i)=P(Xn=j|X0=i)=Pij(n)
§ Pij(n) es la probabilidad en la etapa n de una transición del estado i al
estado j s

Pij(1)=pij, Pij (2 ) = ∑ p ik p kj P ij(n)= elemento ij-ésimo de Pn


k =1

§ Probabilidad de estar en el estado j en el tiempo n =


s

∑q i Pij (n )
i =1

Carmen Mª García López


Francisco R. Villatoro 3
12. Procesos Estocásticos y Cadenas de Markov

Clasificación de estados en una cadena


de Markov.
n Dados dos estados i y j, la trayectoria de i a j es la sucesión de
transiciones que comienza en i y termina en j, de forma que cada
transición de la secuencia tenga probabilidad positiva.
n Un estado j es alcanzable desde un estado i si hay una trayectoria de
i a j.
n Dos estados i y j se comunican si i es alcanzable desde j y j es
alcanzable desde i.
n Un conjunto de estados S en una cadena de Markov es cerrado
(constituyen una clase de la cadena) sin ningún estado fuera de S es
alcanzable desde un estado en S.
n Un estado i es absorbente si pii=1

Clasificación de estados en una cadena


de Markov.
n Un estado i es transitorio si hay un estado j alcanzable desde i,pero el
estado i no es alcanzable desde j.
n Un estado es recurrente si no es transitorio.
n Un estado i es periódico con periodo k>1 si k es el menor número tal
que todas las trayectorias que parten del estado i y regresan al
estado i tienen una longitud múltiplo de k.
n Si un estado recurrente no es periódico es aperiódico.
n Si todos los estado de una cadena son recurrentes, aperiódicos y se
comunican entre sí, la cadena es ergódica.

Carmen Mª García López


Francisco R. Villatoro 4
12. Procesos Estocásticos y Cadenas de Markov

Probabilidades en estado estacionario.


n Si P es la matriz de transición de una cadena ergódica de s estados
entonces existe un vectorπ = [π1 π 2 Kπ s ] tal que

π 1 π 2 L πs
π π L π s 
lim P n =  1 2
n →∞ M M O M
 
π
 1 π 2 L πs

Es decir,
lim Pij (n ) = π j
n
n→∞

n A π se le llama distribución de estado estable o de equilibrio para la


cadena de Markov

Probabilidades en estado estacionario.


s
n π se puede determinar a partir de la ecuación: π j = ∑π k pkj
k =1
n En forma matricial π = πP
n Este sistema tiene un número infinito de soluciones porque el rango
de P siempre resulta ser menor o igual que s-1
n También se debe verificar:
π1 + π 2 + K+ π s = 1

Carmen Mª García López


Francisco R. Villatoro 5
12. Procesos Estocásticos y Cadenas de Markov

Interpretación intuitiva de las


probabilidades de estado estable.
π j (1− p jj ) = ∑π k pkj
k≠ j
n Probabilidad de que una transición determinada deje el estado j =
probabilidad de que una transición determinada entre al estado j.
n Probabilidad de que una transición determinada deje el estado j =
π j (1 − p jj )

n Probabilidad de que una transición determinada entre al estado j=


∑π
k≠ j
k p kj

n En el estado estable el flujo de probabilidad hacia cada estado debe


ser igual al flujo de probabilidad que sale de cada estado:
probabilidades de equilibrio

Análisis de estado transitorio


n El comportamiento de una cadena de Markov antes de alcanzar el
estado estable se llama comportamiento transitorio.
n Para su estudio se utilizan las fórmulas dadas anteriormente para
Pij(n).

Carmen Mª García López


Francisco R. Villatoro 6
12. Procesos Estocásticos y Cadenas de Markov

Proceso de decisión markoviano


n Aplicación de la programación dinámica a un proceso de decisión
estocástico
n Las probabilidades de transición entre estado están descritas por una
cadena de Markov.
n La estructura de recompensas del proceso está descrita por una
matriz cuyos elementos individuales son el coste o el beneficio de
moverse de un estado a otro.
n Las matrices de transición y de recompensas dependen de las
alternativas de decisión.
n Objetivo: determinar la política óptima que maximice el ingreso
esperado en un número finito o infinito de etapas.

Proceso de decisión markoviano


Modelo de etapas finitas
n Objetivo: optimizar ingreso esperado al final de un período de tamaño
N
n Pk=[pijk] y Rk=[rijk] matrices de transición y recompensa para la
alternativa k
n fn(i)= ingreso esperado óptimo de las etapas n, n+1,...,N si el estado
del sistema al inicio de la etapa n es i
 m 
[ ]
f n (i ) = max  ∑ p ijk rijk + f n +1 ( j ) , n = 1, 2 , K , N ,
k
 j =1 
f N +1 ( j ) = 0 , j = 1, 2 , K , m

Carmen Mª García López


Francisco R. Villatoro 7
12. Procesos Estocásticos y Cadenas de Markov

Proceso de decisión markoviano


Modelo de etapas infinitas
n Nos interesan políticas para las que existan soluciones de estado
estable
n Métodos:
n Enumeración exhaustiva: se evalúan todas las políticas estacionarias
posibles del problema de decisión
n Iteración de política: determina la política óptima de forma iterativa

Proceso de decisión markoviano


Enumeración exhaustiva
n Problema de decisión con S políticas estacionarias
n Pasos del método
n Calcular el ingreso de una etapa esperado de la política s dado el estado
i, i=1,2,...,m: m
v is = ∑p
j =1
s s
r
ij ij

n Calcular las probabilidades estacionarias de largo plazo de la matriz de


transición asociada a la política s
n Determinar el ingreso esperado de la política s por paso de transición:
m
E s = ∑ π is vis

{ }
i =1
n La política óptima s* se determina de forma que E s* = max E s
s

Carmen Mª García López


Francisco R. Villatoro 8
12. Procesos Estocásticos y Cadenas de Markov

Proceso de decisión markoviano


Iteración de políticas
n Problema de decisión con S políticas estacionarias
n Para una política específica:
n Rendimiento total esperado en la etapa n:
m
f n (i ) = v i + ∑ p ij f n +1 ( j ), i = 1, 2 , K , m
j =1

n η número de etapas que faltan por considerar:


m
f η (i ) = v i + ∑ p ij f η −1 ( j ), i = 1, 2 , K , m
j =1

n El comportamiento asintótico del proceso se estudia haciendo η→∞

Proceso de decisión markoviano


Iteración de políticas

n Ingreso esperado por etapa: E=π1v1 + π2v2 + ...+ πmvm

n Para η grande f η (i ) = η E + f (i )donde f(i) es un término constante que


representa el efecto sobre el ingreso de comenzar en el estado i.

n Sustituyendo en la ecuación recursiva y simplificando


m
E = v i + ∑ p ij f ( j ) − f (i ), i = 1, 2 , K , m
j =1

que es un sistema de m ecuaciones y m+1 incógnitas: E, f(1),...,f(m).

Carmen Mª García López


Francisco R. Villatoro 9
12. Procesos Estocásticos y Cadenas de Markov

Proceso de decisión markoviano


Iteración de políticas
n Para determinar el valor máximo de E se sigue un proceso iterativo que termina
cuando dos políticas sucesivas son idénticas:
n Paso de determinación del valor: se elige una política arbitraria s. Suponiendo fs(m)=0 se
resuelven las ecuaciones:
m
E s = v is + ∑ p ijs f s
( j)− f s
(i ), i = 1, 2 , K , m
j =1
n Paso de mejoramiento de política: Para cada estado i determina la política k que produce
 m 
max  v ki + ∑ p ijk f s
( j ), i = 1, 2 , K , m
k
 j =1 
n Las decisiones óptimas que resultan para los estados 1,2,...,m constituyen la nueva
política t. Si s y t son idénticas, t es óptima. Si no es así, se repite el proceso con s=t.

Carmen Mª García López


Francisco R. Villatoro 10

You might also like