Professional Documents
Culture Documents
Solucin de problemas en los que se deben tomar decisiones en etapas sucesivas, con el
objetivo final de minimizar el coste total de dichas decisiones.
Las consecuencias de las decisiones pueden no ser completamente predecibles.
Un aspecto fundamental de este tipo de problemas es que al tomar una opcin en una
de las etapas, no tenemos que valorar slo el coste actual de dicha decisin sino los
costes futuros en que incurriremos por causa de ella.
La idea clave en la bsqueda de la opcin de menor coste en una toma de decisiones
dividida en varias etapas es que conocida la solucin ptima global, cualquier solucin
parcial que involucre slo a una parte de las etapas, tambin es una solucin ptima.
Resea Histrica
Fue desarrollada por Richard Bellman y G B Dantzing. Sus importantes contribuciones sobre esta
tcnica cuantitativa de toma de decisiones se publicaron en 1957 en un libro del primer autor
denominado Dynamic Programming.
Inicialmente se le denomin programacin lineal estocstica o problemas de programacin lineal
con incertidumbre. La PD determina la solucin ptima de un problema de n variables
descomponindola en n etapas, con cada etapa incluyendo un sub-problema de una sola
variable. La principal contribucin es el principio de optimalidad, el cual establece que una
poltica ptima consiste de sub-polticas ptimas, un marco de referencia para descomponer el
problema en etapas. La programacin dinmica es una tcnica que se puede aplicar para
resolver muchos problemas de optimizacin.
La mayor parte de las veces, la programacin dinmica obtiene soluciones con un avance en
reversa, desde el final de un problema hacia el principio con lo que un problema grande y
engorroso se convierte en una serie de problemas ms pequeos y ms tratables. As, se puede
definir como una tcnica matemtica til que resuelve una serie de decisiones secuenciales,
cada una de las cuales afecta las decisiones futuras. Proporciona un procedimiento sistemtico
para determinar la combinacin de decisiones que maximiza la efectividad total.
Definicin
La PDP Se caracteriza porque el valor asociado a los arcos es un valor probable, y por lo
tanto el valor de las rutas posibles desde el estado inicial hasta el estado final iene un
valor asociado a la probabilidad de ocurrencia de ella. Estando en un estado S
cualquiera en cualquiera de las etapas del problema, los arcos que de ese estado S
tienen una probabilidad de ocurrencia, que puede ser igual para todos o tener valores
diferentes.
Aplicaciones de la PD
Dado un estado, la poltica ptima para las siguientes etapas no depende de la poltica
tomada en las etapas anteriores. La decisin de ptima inmediata slo depende del
estado en el que se est, no de cmo se lleg hasta l. Toda la informacin sobre el
pasado se resume en el estado en que se encuentra. Una vez conocida la solucin
ptima global, cualquier solucin parcial que involucre slo una parte de las etapas es
tambin una solucin ptima. Todo subconjunto de una solucin ptima es a su vez una
solucin ptima para un problema parcial.
Relacin recursiva
A 12
Suponga que se desea seleccionar la
ruta ms corta entre las ciudades O y T. D
7 8 9
La red que se presenta a continuacin
muestra las rutas posibles entre ambas 8
ciudades, las cuales cruzan por las O B T
9
ciudades intermedias A-E.
5 7
6
C E
13
Programacin Dinmica
Determinista vs Estocstica
Las perturbaciones WK que actan sobre Las perturbaciones WK que actan sobre
el sistema son perfectamente el sistema se consideran variables
predecibles. aleatorias.
No se conoce el valor exacto de WK,
pero si su funcin de distribucin.
En este caso la decisin ptima es la que
minimiza el coste esperado.
Programacin Dinmica Probabilstica
(PDP)
Un juego aleatorio
Problema de inversin
Maximizacin del evento de lograr una meta
Juego Aleatorio
Es una variacin del juego de la ruleta rusa, se hace girar una rueda con marcas de n
nros. consecutivos: 1 a n en su superficie. La probabilidad de que la rueda se detenga en
el nro. i despus de un giro es de Pi. Un jugador para una cantidad por el privilegio de
hacer girar la rueda un Max de m giros. La recompensa para el jugador se repite una
cantidad razonablemente grande de veces, propone una estrategia optima para el
jugador.
Se puede formular el problema modelo como un modelo de PDP donde:
La etapa i corresponde a la i-esima vuelta de la rueda, i=1, 2, , m
En cada etapa hay dos alternativas: se gira la rueda una vez mas o se termina el juego
El estado j del sistema en la etapa i es el nro. que se obtuvo de la ultima vez que se gir la rueda, el cual
est entre 1 y n