Professional Documents
Culture Documents
N N
0 xi X
i 1,2,..., N
Solucin
Etc.
vk ( x ) max{rk ( xk ) vk 1 ( x xk 1 )} xk 0,1,..., x
Y la solucin es: v1 ( x)
Ejemplo numrico
Sea X=6 y N=3
m=
0 0
1 1
2 2
3 3
4 4
5 0
5 1
ans =
0 0 0
3 2 1
6 4 3
9 6 5
12 9 8
16 12 12
18 14 13
Procesos de Markov con recompensa
Un MRP es un proceso de Markov que se forma mediante
una cadena de Markov y una Matriz de recompensas
es la recompensa
inmediata obtenida
cuando falten n
transiciones por
efectuarse
es el estado actual
Definiendo:
Sustituyendo:
Procesos de decisin de Markov
Son una extensin de los MRP y a la vez de la Programacin
dinmica
Un tomador de decisiones o agente puede influenciar el
estado del sistema realizando una secuencia de acciones que
logran que el sistema optimice su desempeo de acuerdo a
algn criterio.
El agente observa el estado del sistema en momentos
especficos y rene la informacin necesaria para tomar
acciones.
Cada accin realizada por el agente tiene un costo o una
recompensa
Las acciones afectan el estado del sistema e influyen entonces
en decisiones futuras
En conclusin, al realizar una accin, el agente incurre en un
costo inmediato y el sistema cambia de estado de acuerdo a
una distribucin de probabilidades de transicin entre
estados
El costo inmediato depende del estado y de la accin
seleccionada
Procesos de decisin de Markov
T.- Conjunto de momentos de decisin
Por un lado deseamos bajo costo inmediato y por otro lado
deseamos bajo costo de largo plazo (Horizonte)
Una poltica establece que accin se debe tomar en cada
momento de decisin.
Ej de poltica estacionaria: Apostar $2 cada vez que se obtenga cara y $1 cada vez que
salga cruz (los estados corresponden con el resultado obtenido al arrojar una moneda)
En una poltica no estacionaria, se pueden tomar diferentes acciones al estar en cierto estado
En diferentes momentos de decisin (dado que el horizonte es diferente)
Procesos de decisin de Markov
Un MDP es un tuple (S , A, R, P)
donde S es el conjunto de N estados
A es el conjunto de K acciones
R es la matriz de recompensas la cual depende de la accin
tomada. La recompensa asociada con la transicin del estado i
al estado j cuando se toma la accin a
ri , j (a)
P Es la matriz de probabilidad de transicin entre estados la
cual depende de la accin . La probabilidad de que el
proceso cambie del estado i al j cuando se toma la accin a
pi , j (a)
Procesos de decisin de Markov
Para estos sistemas se cumple:
donde:
El problema de determinar la poltica
ptima
Poltica 1
Poltica 2
Poltica 3
Solucin
Asumamos que los costos son ganancias negativas y
expresemos las ganancias en unidades de $500
Para la poltica d la distribucin de transicin entre
estados es P(d), la matriz de recompensas es R(d) y el
valor esperado de recompensa inmediata es Q(d)
v2 (1,1) q1 (1) p1,1 (1)v1 (1) p1, 2 (1)v1 (2) p1,3 (1)v1 (3)
v2 (1,1) 1.4 (0.6)(1.4) (0.3)(0.5) (0.1)( 2) 2.19
v2 (2,1) q2 (1) p2,1 (1)v1 (1) p2, 2 (1)v1 (2) p2,3 (1)v1 (3)
v2 (2,1) 0.2 (0)(1.4) (0.6)(0.5) (0.4)( 2) 0.3
v2 (3,1) q3 (1) p3,1 (1)v1 (1) p3, 2 (1)v1 (2) p3,3 (1)v1 (3)
v2 (3,1) 2 (1)(1.4) (0)(0.5) (0)( 2) 0.6
Etapa 3
Etapa 4
En Matlab
a2 GO( X 2 )
Supongamos que se recibe ahora la observacin o4
Si despus de tomar la accin a 2 se recibe la observacin o4
Repetimos el procedimiento
Hay que determinar el nuevo
belief b
a1 GO( X 1 )
Supongamos que se recibe ahora la observacin o1
Si despus de tomar la accin a1 se recibe la observacin o1
Repetimos el procedimiento
Hay que determinar el nuevo
belief b
a2 GO( X 2 )
Supongamos que se recibe ahora la observacin o4
Si despus de tomar la accin a 2 se recibe la observacin o4
Repetimos el procedimiento
Hay que determinar el nuevo
belief b
a2 GO( X 2 )
Fin del ejemplo
En este ejemplo solo hay dos estados, b es un vector de solo dos elementos
positivos que suman uno, por tanto se puede representar por uno solo de ellos
Funcin valor para 3 estados
Para 3 Edos, b es un vector de 3 elems positivos que suman
1 por lo que se puede representar por solo dos de ellos
El belief space es un tringulo con vrtices (0,0), (1,0) y(0,1)
El valor, asociado con un rbol del poltica especfico es un
plano en 3D
La funcin de valor ptimo tiene forma de un tazn hecho
con muchas caras planas