Tema12 PDF

12.
Procesos Estocásticos y Cadenas de Markov
12. Procesos estocásticos y cadenas de

Markov
n Procesos estocásticos
n Cadenas de Markov
n Clasificación de estados en una cadena de Markov
n Probabilidades en estado estacionario
n Análisis de estado transitorio
n Proceso de decisión markoviano
Procesos estocásticos.
n Un poceso estocástico de tiempo discreto es una descripción de la
relación entre las variables aleatorias X0,X1,...que representan alguna
característica de un sistema en puntos discretos en el tiempo.
n Ejemplo: ruina del jugador: inicialmente tengo 2€, en los tiempos 1,2,...
participo en un juego en el que apuesto 1€ que gano con probabilidad p y
pierdo con probabilidad 1-p. Dejo de jugar cuando mi capital es 4€ o he
perdido todo mi capital. Si Xi es la cantidad de dinero que tengo en el
tiempo i, X0,X1,... es un proceso estocástico.
n Un proceso estocástico de tiempo continuo es un proceso estocástico en
el que el estado del tiempo se puede examinar en cualquier tiempo.
n Ejemplo: número de personas en un supermercado a los t minutos de abrir
Carmen Mª García López

Francisco R. Villatoro 1
12. Procesos Estocásticos y Cadenas de Markov
Cadenas de Markov.
n Cadena de Markov: proceso estocástico de tiempo discreto que para
t=0,1,2,... y todos los estados verifica
P(Xt+1=it+1 | Xt=it, Xt-1=it-1, ..., X1=i1, X0=i0)=P(Xt+1=it+1|Xt=it)
§ Hipótesis de estabilidad: P(Xt+1=j|Xt=i)=pij (no depende de t)
§ Probabilidades de transición: pij
 p11 p12 L p1s 
p p L p2s 
§ Matriz de probabilidades de transición: P =  21 22
 M M O M 
 
 s1
p p s2 L pss 
s
§ Se debe verificar: ∑p
j =1
ij =1
Cadenas de Markov.
§ Las cadenas de Markov que cumplen la hipótesis de estabilidad se

llaman cadenas estacionarias de Markov.
§ Distribución inicial de probabilidad de una cadena de Markov:
q=[q1,...,qs] donde qi=P(X0=i)

Cadenas de Markov.
§ Ejemplo: la ruina del jugador es una cadena de Markov estacionaria
§ Estados: 0, 1, 2, 3, 4
§ Matriz de transición
 1 0 0 0 0
1− p 0 p 0 0


P = 0 1− p 0 p 0
 
 0 0 1− p 0 p
 0 0 0 0 1
§ La matriz de transición se puede representar con un grafo en el que cada
nodo representa un estado y cada arco la probabilidad de transición entre
estados.
1-p 1-p 1-p
1 0 1 2 3 4 1
p p p
Probabilidades después de n pasos.

n Si una cadena de Markov estacionaria está en el estado i en el tiempo
m, ¿cuál es la probabilidad de que n períodos después la cadena esté
en el estado j?
P(Xm+n=j|Xm=i)=P(Xn=j|X0=i)=Pij(n)
§ Pij(n) es la probabilidad en la etapa n de una transición del estado i al
estado j s
Pij(1)=pij, Pij (2 ) = ∑ p ik p kj P ij(n)= elemento ij-ésimo de Pn

k =1
§ Probabilidad de estar en el estado j en el tiempo n =

s
∑q i Pij (n )
i =1

Clasificación de estados en una cadena

de Markov.
n Dados dos estados i y j, la trayectoria de i a j es la sucesión de
transiciones que comienza en i y termina en j, de forma que cada
transición de la secuencia tenga probabilidad positiva.
n Un estado j es alcanzable desde un estado i si hay una trayectoria de
i a j.
n Dos estados i y j se comunican si i es alcanzable desde j y j es
alcanzable desde i.
n Un conjunto de estados S en una cadena de Markov es cerrado
(constituyen una clase de la cadena) sin ningún estado fuera de S es
alcanzable desde un estado en S.
n Un estado i es absorbente si pii=1
Clasificación de estados en una cadena

de Markov.
n Un estado i es transitorio si hay un estado j alcanzable desde i,pero el
estado i no es alcanzable desde j.
n Un estado es recurrente si no es transitorio.
n Un estado i es periódico con periodo k>1 si k es el menor número tal
que todas las trayectorias que parten del estado i y regresan al
estado i tienen una longitud múltiplo de k.
n Si un estado recurrente no es periódico es aperiódico.
n Si todos los estado de una cadena son recurrentes, aperiódicos y se
comunican entre sí, la cadena es ergódica.

Probabilidades en estado estacionario.

n Si P es la matriz de transición de una cadena ergódica de s estados
entonces existe un vectorπ = [π1 π 2 Kπ s ] tal que
π 1 π 2 L πs
π π L π s 
lim P n =  1 2
n →∞ M M O M
 
π
 1 π 2 L πs
Es decir,
lim Pij (n ) = π j
n
n→∞
n A π se le llama distribución de estado estable o de equilibrio para la

cadena de Markov
Probabilidades en estado estacionario.

s
n π se puede determinar a partir de la ecuación: π j = ∑π k pkj
k =1
n En forma matricial π = πP
n Este sistema tiene un número infinito de soluciones porque el rango
de P siempre resulta ser menor o igual que s-1
n También se debe verificar:
π1 + π 2 + K+ π s = 1

Interpretación intuitiva de las

probabilidades de estado estable.
π j (1− p jj ) = ∑π k pkj
k≠ j
n Probabilidad de que una transición determinada deje el estado j =
probabilidad de que una transición determinada entre al estado j.
n Probabilidad de que una transición determinada deje el estado j =
π j (1 − p jj )
n Probabilidad de que una transición determinada entre al estado j=

∑π
k≠ j
k p kj
n En el estado estable el flujo de probabilidad hacia cada estado debe

ser igual al flujo de probabilidad que sale de cada estado:
probabilidades de equilibrio
Análisis de estado transitorio

n El comportamiento de una cadena de Markov antes de alcanzar el
estado estable se llama comportamiento transitorio.
n Para su estudio se utilizan las fórmulas dadas anteriormente para
Pij(n).

Proceso de decisión markoviano

n Aplicación de la programación dinámica a un proceso de decisión
estocástico
n Las probabilidades de transición entre estado están descritas por una
cadena de Markov.
n La estructura de recompensas del proceso está descrita por una
matriz cuyos elementos individuales son el coste o el beneficio de
moverse de un estado a otro.
n Las matrices de transición y de recompensas dependen de las
alternativas de decisión.
n Objetivo: determinar la política óptima que maximice el ingreso
esperado en un número finito o infinito de etapas.

Modelo de etapas finitas
n Objetivo: optimizar ingreso esperado al final de un período de tamaño
N
n Pk=[pijk] y Rk=[rijk] matrices de transición y recompensa para la
alternativa k
n fn(i)= ingreso esperado óptimo de las etapas n, n+1,...,N si el estado
del sistema al inicio de la etapa n es i
 m 
[ ]
f n (i ) = max  ∑ p ijk rijk + f n +1 ( j ) , n = 1, 2 , K , N ,
k
 j =1 
f N +1 ( j ) = 0 , j = 1, 2 , K , m


Modelo de etapas infinitas
n Nos interesan políticas para las que existan soluciones de estado
estable
n Métodos:
n Enumeración exhaustiva: se evalúan todas las políticas estacionarias
posibles del problema de decisión
n Iteración de política: determina la política óptima de forma iterativa

Enumeración exhaustiva
n Problema de decisión con S políticas estacionarias
n Pasos del método
n Calcular el ingreso de una etapa esperado de la política s dado el estado
i, i=1,2,...,m: m
v is = ∑p
j =1
s s
r
ij ij
n Calcular las probabilidades estacionarias de largo plazo de la matriz de

transición asociada a la política s
n Determinar el ingreso esperado de la política s por paso de transición:
m
E s = ∑ π is vis
{ }
i =1
n La política óptima s* se determina de forma que E s* = max E s
s


Iteración de políticas
n Problema de decisión con S políticas estacionarias
n Para una política específica:
n Rendimiento total esperado en la etapa n:
m
f n (i ) = v i + ∑ p ij f n +1 ( j ), i = 1, 2 , K , m
j =1
n η número de etapas que faltan por considerar:

m
f η (i ) = v i + ∑ p ij f η −1 ( j ), i = 1, 2 , K , m
j =1
n El comportamiento asintótico del proceso se estudia haciendo η→∞

n Ingreso esperado por etapa: E=π1v1 + π2v2 + ...+ πmvm
n Para η grande f η (i ) = η E + f (i )donde f(i) es un término constante que

representa el efecto sobre el ingreso de comenzar en el estado i.
n Sustituyendo en la ecuación recursiva y simplificando

m
E = v i + ∑ p ij f ( j ) − f (i ), i = 1, 2 , K , m
j =1
que es un sistema de m ecuaciones y m+1 incógnitas: E, f(1),...,f(m).


n Para determinar el valor máximo de E se sigue un proceso iterativo que termina
cuando dos políticas sucesivas son idénticas:
n Paso de determinación del valor: se elige una política arbitraria s. Suponiendo fs(m)=0 se
resuelven las ecuaciones:
m
E s = v is + ∑ p ijs f s
( j)− f s
(i ), i = 1, 2 , K , m
j =1
n Paso de mejoramiento de política: Para cada estado i determina la política k que produce
 m 
max  v ki + ∑ p ijk f s
( j ), i = 1, 2 , K , m
k
 j =1 
n Las decisiones óptimas que resultan para los estados 1,2,...,m constituyen la nueva
política t. Si s y t son idénticas, t es óptima. Si no es así, se repite el proceso con s=t.


Tema12 PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tema12 PDF

Uploaded by

Copyright:

Available Formats

12.

Procesos Estocásticos y Cadenas de Markov

12. Procesos estocásticos y cadenas de

Carmen Mª García López

§ Las cadenas de Markov que cumplen la hipótesis de estabilidad se

Carmen Mª García López

Probabilidades después de n pasos.

Pij(1)=pij, Pij (2 ) = ∑ p ik p kj P ij(n)= elemento ij-ésimo de Pn

§ Probabilidad de estar en el estado j en el tiempo n =

Carmen Mª García López

Clasificación de estados en una cadena

Clasificación de estados en una cadena

Carmen Mª García López

Probabilidades en estado estacionario.

n A π se le llama distribución de estado estable o de equilibrio para la

Probabilidades en estado estacionario.

Carmen Mª García López

Interpretación intuitiva de las

n Probabilidad de que una transición determinada entre al estado j=

n En el estado estable el flujo de probabilidad hacia cada estado debe

Análisis de estado transitorio

Carmen Mª García López

Proceso de decisión markoviano

Proceso de decisión markoviano

Carmen Mª García López

Proceso de decisión markoviano

Proceso de decisión markoviano

n Calcular las probabilidades estacionarias de largo plazo de la matriz de

Carmen Mª García López

Proceso de decisión markoviano

n η número de etapas que faltan por considerar:

n El comportamiento asintótico del proceso se estudia haciendo η→∞

Proceso de decisión markoviano

n Ingreso esperado por etapa: E=π1v1 + π2v2 + ...+ πmvm

n Para η grande f η (i ) = η E + f (i )donde f(i) es un término constante que

n Sustituyendo en la ecuación recursiva y simplificando

que es un sistema de m ecuaciones y m+1 incógnitas: E, f(1),...,f(m).

Carmen Mª García López

Proceso de decisión markoviano

Carmen Mª García López

You might also like