Proceso Sesto Cast I Cos

Procesos controlados de Markov
Jos Antonio Camarena Ibarrola

Procesos controlados de Markov
Son una clase de procesos que tratan con el problema
de toma de decisiones bajo incertidumbre
Esta clase incluye a los Procesos de decisin de Markov
(MDP); a los Procesos de decisin semi-markovianos
(SMDP); y a los procesos de decisin de Markov
parcialmente observables (POMDP)
Son modelos matemticos utilizados para encontrar
estrategias ptimas que un tomador de decisiones
debe seguir cuando debe tomar una secuencia de
decisiones en el tiempo y cuyos resultados son
inciertos.
Programacin Dinmica
Tcnica de optimizacin para problemas de decisin multi-etapa, en
los cuales en cada etapa se debe optimizar una variable.
Un algoritmo recursivo liga los clculos de las diferentes etapas y la
solucin final del problema se obtiene cuando se alcanza la ltima
etapa
En cada etapa se toma una decisin (Se realiza una accin)
Una secuencia de decisiones es una Poltica
Cada etapa tiene uno o varios estados asociados a ella
Un estado representa una condicin en la que puede estar el
sistema asociado con el problema se puede encontrar en alguna
etapa
El efecto de una decisin en cierta etapa es cambiar de un estado
relacionado con la etapa actual a algn estado relacionado con la
siguiente etapa.
Introduccin
Usualmente, se obtiene un resultado en la
forma de un costo o de un beneficio cada vez
que se toma una decisin.
El objetivo es encontrar una poltica ptima,
es decir aquella que obtiene el mayor
beneficio.
Principio de optimalidad de Bellman
(1957)
Cualquiera que sea el estado inicial y la decisin inicial,
las decisiones restantes deben conformar una poltica
ptima respecto al estado resultante de la primera
decisin
Esto implica que la poltica ptima para las etpas
restantes es independiente de la poltica utilizada en
las etapas anteriores
El conocimiento del estado actual del sistema encierra
toda la informacin acerca del comportamiento pasado
que se requiere para determinar una poltica ptima de
ah en adelante.
Es la propiedad de Markov
El principo de Bellman en accin
En base a este principio, se debe comenzar
por encontrar las poltica ptima para cada
estado de la ltima etapa y despus moverse
hacia atrs etapa por etapa de modo que en
cada etapa se encuentre la mejor poltica de
abandonar cada uno de los estados de la
etapa en turno.
Ejemplo
Se cuenta con un recurso de X unidades a ser repartidas en N actividades,
Por ejemplo, $X Se debe distribuir en N proyectos
Una tabla ri (x) indica el beneficio obtenido al dedicar x unidades al proyecto i
N N
Queremos maximizar ri ( xi ) sujeto a xi X

i 1 i 1
0 xi X
i 1,2,..., N
Solucin
Para usar el principio de optimalidad, podemos ver la asignacin del recurso

a cada proyecto como una etapa.
Entonces, hay N etapas
Etapa 1: Asignar x1 unidades al proyecto 1

Etapa 2: Asignar x x1 unidades al proyecto 2
Etc.
vk (x ) .- Funcin de valor ptimo, es el beneficio mximo que se puede obtener

a partir de la actividad k hacia la actividad N dado que restan x unidades
por asignarse
Solucin (continuacin)
Del principio de optimalidad obtenemos la recurrencia:
vk ( x ) max{rk ( xk ) vk 1 ( x xk 1 )} xk 0,1,..., x
La condicin de frontera es: v N ( x) rN ( x)
Y la solucin es: v1 ( x)
Ejemplo numrico
Sea X=6 y N=3
Las condiciones de frontera son:
Que son esencialmente los valores de
Sea el valor de que maximiza

Entonces, usando la recurrencia obtenemos:
Ejemplo numrico (continuacin)
Ejemplo numrico (continuacin)
Como iniciamos con 6 unidades, solo necesitamos calcular
Entonces, el beneficio mximo que se puede obtener es de 18, las

asignaciones que se deben hacer son:
Asignar 5 unidades al proyecto 1 ya que
Asignar 1 unidad al proyecto 2 ya que
No asignar ninguna unidad al proyecto 3
Se puede corroborar que

En Matlab:
En Matlab (salida)
>> futureRewardDP
m=
0 0
1 1
2 2
3 3
4 4
5 0
5 1
ans =
0 0 0
3 2 1
6 4 3
9 6 5
12 9 8
16 12 12
18 14 13
Procesos de Markov con recompensa
Un MRP es un proceso de Markov que se forma mediante
una cadena de Markov y una Matriz de recompensas
es la recompensa inmediata que recibe el proceso cuando estando en el estado i,

haga una transicin al estado j, la recompensa puede ser positiva o negativa
Procesos de Markov con recompensa
Sea el valor esperado de ingresos que se obtendrn en las prximas n
transiciones dado que actualmente se encuentra en el estado i.
es la recompensa
inmediata obtenida
cuando falten n
transiciones por
efectuarse
es el estado actual
Definiendo:
Sustituyendo:
Procesos de decisin de Markov
Son una extensin de los MRP y a la vez de la Programacin
dinmica
Un tomador de decisiones o agente puede influenciar el
estado del sistema realizando una secuencia de acciones que
logran que el sistema optimice su desempeo de acuerdo a
algn criterio.
El agente observa el estado del sistema en momentos
especficos y rene la informacin necesaria para tomar
acciones.
Cada accin realizada por el agente tiene un costo o una
recompensa
Las acciones afectan el estado del sistema e influyen entonces
en decisiones futuras
En conclusin, al realizar una accin, el agente incurre en un
costo inmediato y el sistema cambia de estado de acuerdo a
una distribucin de probabilidades de transicin entre
estados
El costo inmediato depende del estado y de la accin
seleccionada
T.- Conjunto de momentos de decisin
Por un lado deseamos bajo costo inmediato y por otro lado
deseamos bajo costo de largo plazo (Horizonte)
Una poltica establece que accin se debe tomar en cada
momento de decisin.
Una poltica es donde es la accin que se debe

tomar en el momento de
decisin
Las polticas pueden ser estacionarias o no-estacionarias
Ej de poltica estacionaria: Apostar $2 cada vez que se obtenga cara y $1 cada vez que
salga cruz (los estados corresponden con el resultado obtenido al arrojar una moneda)
En una poltica no estacionaria, se pueden tomar diferentes acciones al estar en cierto estado
En diferentes momentos de decisin (dado que el horizonte es diferente)
Un MDP es un tuple (S , A, R, P)
donde S es el conjunto de N estados
A es el conjunto de K acciones
R es la matriz de recompensas la cual depende de la accin
tomada. La recompensa asociada con la transicin del estado i
al estado j cuando se toma la accin a
ri , j (a)
P Es la matriz de probabilidad de transicin entre estados la
cual depende de la accin . La probabilidad de que el
proceso cambie del estado i al j cuando se toma la accin a
pi , j (a)
Para estos sistemas se cumple:
Las funciones de probabilidad de transicin y de recompensa dependen

solo del ltimo estado y de la accin
Para cada estado i y accin a A

Poltica
Una poltica especifica la accin que se debe
tomar en cada estado
Una Poltica D es un mapeo de S a A
El objetivo es maximizar el valor esperado de
la suma de recompensas a largo plazo
Definimos una poltica ptima como aquella
que maximiza el valor esperado de
recompensa total partiendo de un estado i
para cierto nmero de transiciones n
La funcin valor
Sea la recompensa total esperada para los prximos n estados dado que
el proceso est en el estado i y se utiliza la poltica d
a se le conoce como la funcin valor
donde:
El problema de determinar la poltica
ptima
Aplicando el principio de optimalidad de Bellman, la recompensa ptima obtenida

despues de n transiciones partiendo del estado i es:
MDP con descuento
En economa como en muchas reas de la ingeniera, un monto obtenido
en el momento vale mas que el mismo monto a obtenerse en el futuro,
para modelar esto se utiliza un factor de descuento
Mtodos de solucin
Solucionar un MDP equivale a encontrar una secuencia de
acciones que maximizan la funcin valor
El mtodo valor-iteracin se utiliza para resolver el
problema para un horizonte finito
El mtodo poltica-iteracin se utiliza para problemas de
horizonte infinito
El mtodo de programacin lineal tambin sirve para
problemas de horizonte infinito
Al mtodo de valor-iteracin tambin se le conoce como de
aproximaciones sucesivas
A diferencia de los mtodos de poltica-iteracin y de
programacin lineal, el mtodo de valor-iteracin no
requiere solucionar un sistema de ecuaciones simultneas
en cada iteracin por lo que se considera el mtodo mas
veloz y simple.
El mtodo valor-iteracin
Este mtodo calcula recursivamente una secuencia de funciones
valor aproximando sucesivamente el valor ptimo. Es una extensin
de la tcnica utilizada para resolver el problema determinista de
programacin dinmica y usa la relacin recursiva:
El mtodo valor-iteracin
Inicializacin:
Ahora que ya se cuenta con la recompensa esperada en la etapa 1

(cuando falta solo una transicin), para cada estado i, podemos obtener
la recompensa total esperada en la etapa 2 (cuando falten 2
transiciones):
El proceso contina y la solucin al problema la tendremos en

Ejemplo
Una compaa realiza inspeccin diaria de su equipo, al final del da
el cual puede estar en estado Bueno, Aceptable y Malo.
Si su estado es bueno, al da siguiente su estado continuar siendo
bueno con probabilidad de 0.6, aceptable con probabilidad de 0.3 y
malo de 0.1
Si el estado es Aceptable, al da siguiente el estado ser aceptable
o malo con probabilidades de 0.6 y 0.4 respectivamente
Si el estado es malo al da siguiente continuar en el mismo estado
Las posibles acciones son:
1. No hacer nada
2. Dar mantenimiento, lo cual har que el equipo al da siguiente
en buen estado o en estado aceptable con probabilidad igual,
el costo del mantenimiento es de $500
3. Reemplazar el equipo con lo cual el equipo estar en buen
estado, el costo del equipo es de $2,000
Cuando el equipo est en buen estado la compaa gana $1000
diarios, si el equipo est en estado aceptable gana $500 diarios y si
est en mal estado pierde $500 diarios
Ejemplo
Solo se considerarn las siguientes polticas
1. Reemplazar el equipo solo si est en mal estado
2. Reemplazar el equipo cuando est en mal estado
y darle mantenimiento cuando est en estado
aceptable
3. Reemplazar el equipo si est en mal estado o en
estado aceptable
El problema es determinar el costo ptimo de
operacin del equipo para T=4
Solucin
Sean los estados: 1=Bueno; 2=Aceptable: 3=Malo
Poltica 1
Poltica 2
Poltica 3
Solucin
Asumamos que los costos son ganancias negativas y
expresemos las ganancias en unidades de $500
Para la poltica d la distribucin de transicin entre
estados es P(d), la matriz de recompensas es R(d) y el
valor esperado de recompensa inmediata es Q(d)
0.6 0.3 0.1 2 1 1 1.4

P(3) 1 0 0 R(3) 2 0 0 Q(3) 2
1 0 0 2 0 0 2
Etapa 1
Comenzamos con v 0 (i , d ) 0
Por lo tanto v1 (i, d ) qi (d )
Etapa 2
v2 (1,1) q1 (1) p1,1 (1)v1 (1) p1, 2 (1)v1 (2) p1,3 (1)v1 (3)
v2 (1,1) 1.4 (0.6)(1.4) (0.3)(0.5) (0.1)( 2) 2.19
v2 (2,1) q2 (1) p2,1 (1)v1 (1) p2, 2 (1)v1 (2) p2,3 (1)v1 (3)
v2 (2,1) 0.2 (0)(1.4) (0.6)(0.5) (0.4)( 2) 0.3
v2 (3,1) q3 (1) p3,1 (1)v1 (1) p3, 2 (1)v1 (2) p3,3 (1)v1 (3)
v2 (3,1) 2 (1)(1.4) (0)(0.5) (0)( 2) 0.6
Etapa 3
Etapa 4
En Matlab
P= [0.6 0.3 0.1; for i=1:3 for t=2:4 % 4 etapas

0 0.6 0.4; for d=1:3 for d=1:3
1 0 0]; q(i,d)=sum(P(i,:,d).*R(i,:,d)); for i=1:3
P(:,:,2)=[0.6 0.3 0.1; end suma=0;
0.5 0.5 0; end for j=1:3
1 0 0]; V=zeros(3,3); suma=suma+P(i,j,d)*v(j);
P(:,:,3)=[0.6 0.3 0.1; for i=1:3 %3 estados end
1 0 0; for d=1:3 %3 politicas V(i,d)=q(i,d)+suma;
1 0 0]; V(i,d)=q(i,d); end
R= [ 2 1 -1; end end
0 1 -1; end V
-2 0 0]; for i=1:3 for i=1:3
R(:,:,2)=[ 2 1 -1; v(i)=max(V(i,:)); v(i)=max(V(i,:));
10 0; end end
-2 0 0]; v v
R(:,:,3)=[ 2 1 -1;
end
-2 0 0;
% 1 0 0;
-2 0 0];
POMDP
Es un tuple
donde
S,A, P y R describen un proceso de decisin de Markov
es un conjunto finito de observaciones que el agente
puede experimentar acerca del mundo
es la funcin de observaciones que por cada accin y estado
resultante entrega una distribucin de probabilidades de
observaciones
POMDP
Es un MDP en el cual el agente no puede
observar el estado actual, pero en lugar de eso
puede ver una observacin basada en la
accin y en el estado resultante
El objetivo del agente sigue siendo maximizar
la recompensa futura esperada con descuento
POMDP
El agente de un POMDP se puede descomponer en un

estimador de estados y una poltica
El control de un POMDP
El agente tiene un estimador de estado que es
responsable de mantener el belief state b
basndose en la ltima accin, la observacin
actual y el b previo
La poltica es responsable de generar acciones
solo que es funcin de b en lugar del estado
del mundo
Qu es el belief state?
Una opcin hubiera sido el estado con mayor
probabilidad. Pero entonces el agente no estara
tomando en cuenta la incertidumbre
Le llamamos belief state a la distribucin de
probabilidades de estados.
Provee una base para actuar bajo incertidumbre
Asegura una estadstica suficiente acerca del
pasado hasta el belief state inicial
El proceso se puede considerar markoviano
respecto a los belief sates
Ejemplo
Cuatro estados, dos posibles observaciones, una en el estado 3 y la

otra en los otros estados. Dos acciones (Izquierda o Derecha). Las
acciones son exitosas con probabilidad 0.9 y cuando fallan el
movimiento se da en la direccin opuesta. Si el movimiento no es
posible, el agente no se mueve. Inicialmente el agente se encuentra
con la misma probabilidad en los estados 1,2 o 4
b=[0.333 0.333 0.000 0.333]
Si el agente ejecuta la accin Derecha y no observa la estrella,
entonces :
b=[0.100 0.450 0.000 0.450]
Otra vez (accin Derecha y no observa estrella)
b=[0.100 0.164 0.000 0.736]
Calculando el belief state
El denominador puede considerarse como un factor de normalizacin

La funcin de actualizacion del belief
state
Dado un belief state podemos determinar el
belief state sucesor para una determinada
accin y una determinada observacin
Solucin de un POMDP
Un POMDP puede considerarse un MDP definido sobre el espacio del belief state.
En particular, la recompensa asociada con la accin a y belief state b es:
Determinando la poltica ptima
Una poltica es una secuencia de decisiones
La poltica ptima es la que maximiza el valor esperado de
recompensa a futuro con descuento
La poltica ptima estar dada por:
Ejemplo. Robot de vigilancia
Estados
S {s1 (0,0, X 1 ), s2 (0,1, X 1 ), s3 (1,0, X 1 ), s4 (1,1, X 1 ),
s5 (0,0, X 2 ), s6(0,1, X 2 ), s7 (1,0, X 2 ), s8 (1,1, X 2 )}
Formato de estados ( f1 , f 2 ... f n , X l )
f i Variable booleana que indica fuego en el rea X i
X l rea en la que se encuentra el robot
Estado Inicial. s1 (0,0, X 1 )
Acciones a1 GO( X1 ) a2 GO( X 2 )
Observaciones
{o1 ( f1 0), o2 ( f1 1), o3 ( f2 0), o4 ( f2 1)}
Transiciones T : S A (S )
Recompensas
Funcin de observaciones
O S A ( )
{o1 ( f1 0), o2 ( f1 1), o3 ( f2 0), o4 ( f2 1)}
S {s1 (0,0, X 1 ), s2 (0,1, X 1 ), s3 (1,0, X 1 ), s4 (1,1, X 1 ),

s5 (0,0, X 2 ), s6 (0,1, X 2 ), s7 (1,0, X 2 ), s8 (1,1, X 2 )}
En este ejemplo en particular no importa la accin, la probabilidad de ver una

observacin depende solo del estado
Horizonte de 1
El robot comienza con b( s1 ) 1
R(s1 , a1 ) 0.5 R(s1 , a2 ) 0.8

Por lo cual la accin elegida primero es a 2
Suponga que la observacin recibida es o3
Calculemos ahora el nuevo belief b
P( s' | b, a2 ) T ( s,a2 , s' )b( s)
s S
P( s1 | b, a2 ) T ( s,a2 , s1 )b( s)
s S
P( s1 | b, a2 ) T ( s1 , a2 , s1 )b( s1 ) T ( s2 , a2 , s1 )b( s2 ) ... T ( s8 , a2 , s1 )b( s8 )

Calculamos el nuevo belief
Con esta tabla y la funcin de

observaciones podemos
determinar
De donde podemos finalmente obtener el nuevo belief mediante

Decidir la siguiente accin a tomar
Determinamos la recompensa esperada para las posibles acciones
De ah que el robot se decidir por la accin:
a2 GO( X 2 )
Supongamos que se recibe ahora la observacin o4
Si despus de tomar la accin a 2 se recibe la observacin o4
Repetimos el procedimiento
Hay que determinar el nuevo
belief b
P ( s ' | b ' , a2 ) T ( s,a2 , s' )b' ( s)

s S
Calculando el nuevo belief (b)
O( s' , a2 , o4 ) P( s' | b' , a2 )

b' ' ( s ' )
P(o4 | b' , a2 )
a1 GO( X 1 )
Si despus de tomar la accin a1 se recibe la observacin o1
belief b
P( s' | b' ' , a1 ) T ( s,a1 , s' )b' ' ( s)

s S
P(o | b' ' , a1 ) O( s' , a1 , o) P( s' | b' ' , a1 )

s' S
O( s' , a1 , o1 ) P( s' | b' ' , a1 )

b' ' ' ( s ' )
P(o1 | b' ' , a1 )
a2 GO( X 2 )
Si despus de tomar la accin a 2 se recibe la observacin o4
belief b
P ( s ' | b ' ' ' , a2 ) T ( s,a2 , s' )b' ' ' ( s)

s S
P (o | b ' ' ' , a 2 ) O ( s ' , a2 , o ) P ( s ' | b ' ' ' , a2 )

s' S
O( s' , a2 , o4 ) P( s' | b' ' ' , a2 )

b' ' ' ' ( s ' )
P(o4 | b' ' ' , a2 )
a2 GO( X 2 )
Fin del ejemplo
A pesar de todas las operaciones involucradas, en realidad solo

se tomo un horizonte de 1
Para resolver POMDPs si el horizonte
es mayor de 1
La funcin de actualizacin del belief state si no se conoce la
osbervacin, por ejemplo para observaciones futuras
La funcin de recompensas sobre estados credos
Aparentemente el agente es recompensado solo por creer que

est en un estado bueno, esto no es as, esta funcin representa
la recompensa esperada dado que el belief state tiene la
probabilidad de cada estado de ser el estado correcto.
Funcin de valor ptimo
Tal como en los MDPs, si podemos determinar
la funcin de valor ptimo, podemos usarla
para determinar la poltica ptima
Hay varios enfoques para encontrar la funcin
de valor ptimo
El ms simple es el de valor-iteracin
Arboles de poltica
En el ltimo paso (Ya en el horizonte) simplmente se
tomar una accin.
En el penltimo paso se tomar una accin, se
esperar una observacin y luego se tomar otra
accin que depender de la observacin
Cuando falten t pasos se tomarn una secuencia de
decisiones (a lo cual llamamos poltica)
Una poltica no estacionaria se puede representar
mediante un rbol de poltica
La raz del rbol indica cual accin se debe tomar
primero.
Dependiendo de la observacin se desciende en el
rbol para saber cual es la siguiente accin a tomar, etc
Arboles de poltica
Valor esperado al ejecutar el rbol de poltica p
Depende del verdadero estado del mundo cuando

comienza el proceso
En el caso ms simple, el rbol tiene altura 1 (solo la
raz con una accin), el valor de ejecutar dicha accin
donde a(p) es la accin especificada en la raz del rbol p

Valor esperado al ejecutar el rbol de poltica p
es el subrbol de poltica de (t-1) niveles asociado con la observacin

a la raz del rbol de poltica p
El valor esperado es la recompensa inmediata esperada cuando se
ejecuta la accin especificada en la raz del rbol mas el valor
esperado que se obtendr considerando todos los posibles
estados calculando por cada estado el valor esperado tomando en
cuenta todas las posibles observaciones
El valor ptimo de un belief
Como el agente no conoce el verdadero
estado del mundo, deber determinar el valor
esperado al ejecutar la poltica p teniendo
para ello solo el belief state
En forma compacta, si
entonces
Para encontrar una poltica ptima no
estacionaria debemos ser capaces de ejecutar
diferentes rboles de poltica desde diferentes
beliefs es el conjunto finito de rboles
de poltica de t pasos
El valor ptimo correspondiente b es el valor
de ejecutar el mejor rbol de poltica desde b
PWLC
A cada rbol de poltica p le corresponde una funcin
de valor Vp que es lineal en b
Vt es el techo de dicha coleccin de funciones
Por tanto Vt es PWLC (Piecewise linear and convex)
En este ejemplo solo hay dos estados, b es un vector de solo dos elementos
positivos que suman uno, por tanto se puede representar por uno solo de ellos
Funcin valor para 3 estados
Para 3 Edos, b es un vector de 3 elems positivos que suman
1 por lo que se puede representar por solo dos de ellos
El belief space es un tringulo con vrtices (0,0), (1,0) y(0,1)
El valor, asociado con un rbol del poltica especfico es un
plano en 3D
La funcin de valor ptimo tiene forma de un tazn hecho
con muchas caras planas
Para mayor nmero de

estados, el valor
asociado a cada poltica
es un hiperplano y la
funcin valor tiene el
mayor valor de todos
los hiperplanos
La funcin valor es convexa
En los extremos del espacio b el agente tiene gran confianza
respecto al estado real en que se encuentra el mundo y puede
tomar decisiones buenas que le retribuyen mucho
En la parte central del espacio b, el agente est muy confundido
acerca del estado real del mundo y no suele tomar decisiones
adecuadas
b es una distribucin por lo que sabemos si estamos en el centro
del espacio b calculando su entropa
Alta entropa significa que estamos en una parte del centro y el
agente tiene poca informacin
Baja entropa significa que estamos cerca de un extremo y el
agente tiene mucha informacin
En lugares donde el agente tiene poca informacin debe pagar
un costo para moverse a lugares donde tendr mas informacin
El agente paga por el valor de la informacin
Solo debe pagar si la diferencia de valor entre los dos estados
excede al valor de la informacin
Regiones de decisin
Dada una funcin de valor ptimo (sabemos que es PWLC)
y el conjunto de rboles de poltica de donde se obtuvo,
podemos hacer un mapeo situacin-accin
Proyectamos la funcin valor ptimo en el espacio de b (de
donde originalmente se obtuvo)
Esto produce una particin del espacio b en regiones
polidricas
Dentro de cada regin hay un solo rbol de poltica p tal
que es ptimo para toda la regin y la accin
ptima es a(p)
Incluso se podra ejecutar el

rbol de decisin completo
tomando decisiones solamente
basndose en las futuras
observaciones sin necesidad de
actualizar el belief
Algunos rboles pueden ignorarse
Es posible que cada uno de los rboles de poltica contribuya en
algn punto del espacio de b a la determinacin de la funcin de
valor ptimo
Afortunadamente ese no es el caso, para muchos rboles, sus
funciones de valor son totalmente dominadas por funciones de
valor asociadas a otros rboles
Pd est totalmente dominado por Pb y por Pc
Pc est totalmente dominado por Pa y Pb combinados
Dado un conjunto de
rboles se puede
obtener un subconjunto
mnimo que represente
la misma funcin de
valor ptimo.
Decimos que un rbol es
til si es miembro de
este conjunto mnimo
Ejemplo, El problema del tigre
Un agente tiene dos puertas cerradas frente a s
Detrs de una puerta hay un tigre
Detrs de la otra puerta hay una recompensa enorme
Si abre la puerta del tigre recibir un fuerte castigo (Ej
perder un brazo)
En lugar de abrir una puerta el agente puede escuchar
para ganar informacin
Escuchar no es gratis
Escuchar no es tan confiable, existe la posibilidad de
escuchar al tigre en la puerta izquierda cuando el tigre
realmente est en la puerta derecha y vicebersa
El problema del tigre
Nos referiremos al verdadero estado del mundo cuando el
tigre est en la puerta izquierda como sl y si est en la
puerta derecha como sr
Las accines son: LEFT, RIGHT, y LISTEN
La recompensa por abrir la puerta correcta es de +10 y de -
100 por abrir la puerta erronea
El costo por escuchar es -1
Hay dos observaciones: TL es escuchar el tigre a la izquierda
y TR es escuchar al tigre a la derecha
Inmediatamente despus de abrir una puerta y recibir por
ello un castigo o una recompensa el tigre se reubica
aleatoriamente detrs de alguna de las dos puertas
El problema del tigre
La accin LISTEN no cambia el verdadero estado del mundo
Las acciones LEFT y RIGHT provocan una transicin al
estado sl con probabilidad 0.5 y al estado sr con
probabilidad 0.5
Cuando el tigre est en la puerta izquierda, la accin LISTEN
resulta en la observacin TL con probabilidad 0.85 y en la
observacin TR con probabilidad 0.15
Cuando el tigre est en la puerta derecha, la accin LISTEN
resulta en la observacin TL con probabilidad 0.15 y en la
observacin TR con probabilidad 0.85
Sin importar el verdadero estado del mundo, las acciones
LEFT y RIGHT provocan la observacin TR con probabilidad
0.5 y la observacin TL con probabilidad 0.5
Para t=1
Para t=1 el agente solo tiene que tomar una decisin.
Si el agente cree que es muy probable que el tigre est detrs de la
puerta izquierda, la mejor accin ser RIGHT (abrir la puerta
derecha)
Si cree que es muy probable que est detrs de la puerta derecha
abrir la puerta izquierda (LEFT)
Si el agente tiene demasiada incertidumbre acerca de la ubicacin
del tigre la mejor accin ser LISTEN
Se muestran 3 rboles de poltica con altura de 1 (un solo nodo), la
accin y el intervalo de b donde la poltica predomina
Por ejemplo si el b=(0.5 0.5), la recompensa esperada es de
(-100+10)/2=-45 y como escuchar vale -1 que es mayor entonces
prefiere escuchar
t=2
La formar los rboles de poltica para t=2 comenzamos por el siguiente
mapeo situacin accin
Sorprendentemente siempre opta por escuchar, esto se debe a que si abre
una puerta en el siguiente paso el tigre se reubicar aleatoriamente detrs
de cualquiera de las dos puertas, por tanto, despus de abrir una puerta
se quedar sin informacin para el siguiente paso y como vimos con
b=(0.5,0.5) lo mejor es escuchar
Si escucha estar mejor informado para tomar una decisin en el siguiente
paso
Hay muchas polticas con la misma accin por que hay muchos rboles de
poltica diferentes pero que tienen en la raz la misma accin
Esto implica que la funcin valor no es lineal sino que est formada de 5
regiones lineales
Relacin entre las regiones de decisin
para t=2 y para t=1
Cuando un b especifico dentro de alguna de las
regiones de decisin para t=2 es actualizado va
SE(b,a,o), el b resultante cae dentro de alguna de
las regiones de decisin para t=1
t=3
Las polticas no estacionarias para t=3 estn
formadas solamente de rboles de poltica
que tienen en la raz a la accin LISTEN
Esto se debe a que escuchar una sola vez no
cambia lo suficiente el belief state para hacer
que la recompensa esperada al abrir una
puerta sea mayor que la de escuchar.
t=4
Algunos nodos de la
tercera etapa no tienen
flechas dirigidas hacia
ellos porque ningn
belief de ninguna regin
de decisin de la etapa
anterior podra ser
actualizado para
convertirse en un belief
que corresponda a la
regin de decisin
correspondiente a esos
nodos
Este grafo puede
interpretarse como una
representacin
compacta de todos los
rboles de poltica
tiles para cada nivel
Horizonte infinito
Al incluir un factor de descuento, la estructura de la funcin valor
cambia ligeramente
A medida que el horizonte t aumenta la recompensa recibida en los
ltimo pases tiene menor influencia en como se hace el mapeo
situacin-accin de los pasos iniciales y la funcin valor comienza a
converger
Las regiones de decisin de una etapa a la siguiente difieren muy poco a
partir de t=56. A partir de t=105 la precisin no permite diferencia una
etapa de la que sigue
Grafos de planes
Una desventaja del enfoque del POMDP es que el
agente debe mantener el belief state y usarlo
para elegir la accin ptima en cada paso
Si el espacio de estados es grande, estos
cmputos pueden ser excesivamente costosos
En muchos casos es posible codificar la poltica en
un grafo que puede ser usado para elegir
acciones sin necesidad de una representacin
explcita del belief state
Estos grafos se denominan Grafos plan
Grafo plan para el problema del tigre
con horizonte infinito
Como el mapeo situacin-accin tiene la misma estructura
para las diferentes etapas se puede fcilmente convertir la
poltica dinmica en una poltica esttica
Mejorando en grafo plan
Algunos nodos no sern revisitados una vez que una puerta
se ha abierto pues el belief regresa a (0.5,0.5)
La interpretacin de este grafo es Sigue escuchando hasta
que hayas escuchado el doble de veces que el tigre se
encuentra de un lado respecto al numero de veces que has
escuchado que se encuentra del otro lado
Mejorando el grafo plan
Dado que el belief inicial es (0.5,0.5) se
pueden eliminar algunos nodos del grafo plan
Mas requerimiento de memoria si la
credibilidad de la observacin es 0.65
El agente debe escuchar 5 veces al tigre de un lado

respecto al nmero de veces que lo escuch del otro
lado
Notas finales respecto al grafo plan
Un grafo plan es esencialmente el controlador de
una mquina de estados finita
Utiliza muy poca memoria para actuar de manera
ptima en un ambiente parcialmente observable
Comenzamos con un problema discreto, lo
reformulamos en trminos de un espacio belief
continuo y al final lo mapeamos de regreso en un
controlador discreto
La determinacin del controlador se puede
automatizar a partir de dos funciones valor
sucesivas que sean iguales

Proceso Sesto Cast I Cos

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Proceso Sesto Cast I Cos

Uploaded by

Copyright:

Available Formats

Procesos controlados de Markov

Jos Antonio Camarena Ibarrola

Una tabla ri (x) indica el beneficio obtenido al dedicar x unidades al proyecto i

Queremos maximizar ri ( xi ) sujeto a xi X

Para usar el principio de optimalidad, podemos ver la asignacin del recurso

Entonces, hay N etapas

Etapa 1: Asignar x1 unidades al proyecto 1

vk (x ) .- Funcin de valor ptimo, es el beneficio mximo que se puede obtener

Del principio de optimalidad obtenemos la recurrencia:

La condicin de frontera es: v N ( x) rN ( x)

Las condiciones de frontera son:

Que son esencialmente los valores de

Sea el valor de que maximiza

Como iniciamos con 6 unidades, solo necesitamos calcular

Entonces, el beneficio mximo que se puede obtener es de 18, las

Se puede corroborar que

es la recompensa inmediata que recibe el proceso cuando estando en el estado i,

Una poltica es donde es la accin que se debe

Las polticas pueden ser estacionarias o no-estacionarias

Las funciones de probabilidad de transicin y de recompensa dependen

Para cada estado i y accin a A

Aplicando el principio de optimalidad de Bellman, la recompensa ptima obtenida

Ahora que ya se cuenta con la recompensa esperada en la etapa 1

El proceso contina y la solucin al problema la tendremos en

0.6 0.3 0.1 2 1 1 1.4

P= [0.6 0.3 0.1; for i=1:3 for t=2:4 % 4 etapas

El agente de un POMDP se puede descomponer en un

Cuatro estados, dos posibles observaciones, una en el estado 3 y la

El denominador puede considerarse como un factor de normalizacin

{o1 ( f1 0), o2 ( f1 1), o3 ( f2 0), o4 ( f2 1)}

S {s1 (0,0, X 1 ), s2 (0,1, X 1 ), s3 (1,0, X 1 ), s4 (1,1, X 1 ),

En este ejemplo en particular no importa la accin, la probabilidad de ver una

R(s1 , a1 ) 0.5 R(s1 , a2 ) 0.8

P( s1 | b, a2 ) T ( s1 , a2 , s1 )b( s1 ) T ( s2 , a2 , s1 )b( s2 ) ... T ( s8 , a2 , s1 )b( s8 )

Con esta tabla y la funcin de

De donde podemos finalmente obtener el nuevo belief mediante

De ah que el robot se decidir por la accin:

P ( s ' | b ' , a2 ) T ( s,a2 , s' )b' ( s)

O( s' , a2 , o4 ) P( s' | b' , a2 )

De ah que el robot se decidir por la accin:

P( s' | b' ' , a1 ) T ( s,a1 , s' )b' ' ( s)

P(o | b' ' , a1 ) O( s' , a1 , o) P( s' | b' ' , a1 )

O( s' , a1 , o1 ) P( s' | b' ' , a1 )

De ah que el robot se decidir por la accin:

P ( s ' | b ' ' ' , a2 ) T ( s,a2 , s' )b' ' ' ( s)

P (o | b ' ' ' , a 2 ) O ( s ' , a2 , o ) P ( s ' | b ' ' ' , a2 )

O( s' , a2 , o4 ) P( s' | b' ' ' , a2 )

De ah que el robot se decidir por la accin:

A pesar de todas las operaciones involucradas, en realidad solo

La funcin de recompensas sobre estados credos

Aparentemente el agente es recompensado solo por creer que

Depende del verdadero estado del mundo cuando

donde a(p) es la accin especificada en la raz del rbol p

es el subrbol de poltica de (t-1) niveles asociado con la observacin

Para mayor nmero de

Incluso se podra ejecutar el

El agente debe escuchar 5 veces al tigre de un lado

You might also like