Professional Documents
Culture Documents
Elaborado por:
Hernandez Simons, Constanza Emperatriz
CI. V-19.814.035
1
INTRODUCCION
Generalmente en estadística los modelos aleatorios se usan para simular fenómenos que
poseen algún componente aleatorio.
La simulación de Monte Carlo también fue creada para resolver integrales que no se
pueden resolver por métodos analíticos, para solucionar estas integrales se usaron números
aleatorios. Posteriormente se utilizó para cualquier esquema que emplee números
aleatorios, usando variables aleatorias con distribuciones de probabilidad conocida, el cual
es usado para resolver ciertos problemas estocásticos y determinísticos, donde el tiempo no
juega un papel importante.
La simulación de Monte Carlo es una técnica que combina conceptos estadísticos (muestreo
aleatorio) con la capacidad que tienen los ordenadores para generar números pseudo‐
aleatorios y automatizar cálculos.
El método fue llamado así por el principado de Mónaco por ser ``la capital del juego de
azar'', al tomar una ruleta como un generador simple de números aleatorios. El nombre y el
desarrollo sistemático de los métodos de Monte Carlo datan aproximadamente de 1944 con
el desarrollo de la computadora. Sin embargo hay varias instancias (aisladas y no
desarrolladas) en muchas ocasiones anteriores.
El uso real de los métodos de Monte Carlo como una herramienta de investigación,
proviene del trabajo de la bomba atómica durante la Segunda Guerra Mundial. Este trabajo
involucraba la simulación directa de problemas probabilísticos de hidrodinámica
concernientes a la difusión de neutrones aleatorios en material de fusión.
Por otro lado, Una cadena de Markov es una serie de eventos, en la cual la probabilidad de
que ocurra un evento depende del evento inmediato anterior. En efecto, las cadenas de este
tipo tienen memoria, "Recuerdan" el último evento y esto condiciona las posibilidades de
los eventos futuros. Esta dependencia del evento anterior distingue a las cadenas de Markov
de las series de eventos independientes, como tirar una moneda al aire o un dado. En los
negocios, las cadenas de Markov se han utilizado para analizar los patrones de compra, los
deudores morosos, para planear las necesidades de personal y para analizar el reemplazo de
2
equipo. El análisis de Markov, llamado así en honor de un matemático ruso que desarrollo
el método en 1907, permite encontrar la probabilidad de que un sistema se encuentre en un
estado en particular en un momento dado. Algo más importante aún, es que permite
encontrar el promedio a la larga o las probabilidades de estado estable para cada estado.
Con esta información se puede predecir el comportamiento del sistema a través del tiempo.
La tarea más difícil es reconocer cuándo puede aplicarse. La característica más importante
que hay que buscar en la memoria de un evento a otro.
Los métodos MCMC (Markov Chain Monte Carlo) surgen de la necesidad de simular el
comportamiento de variables aleatorias y de estimar parámetros de las funciones de
densidad/probabilidad de las mismas. El gran impulso a estas técnicas se las da
mayormente (pero no únicamente) el enfoque estadístico bayesiano, donde la inferencia se
realiza sobre lo que se denomina una función a posteriori, que denominaremos π(θ|x). Las
siglas MCMC vienen marcadas por las cadenas de Markov y por la integración Monte
Carlo. La inferencia bayesiana, en multitud de ocasiones necesita integrar sobre
distribuciones de dimensión muy elevada (en muchas ocasiones, con cientos de
parámetros).
Existen métodos numéricos aproximados que producen buenas soluciones, pero que no
escalan bien con la dimensión, siendo en muchos casos, computacionalmente intratables.
Por ello, la importancia de estudiarlos y así dar soluciones computacionalmente tratables.
3
INTEGRACIÓN MONTE CARLO
El método de Monte Carlo usando las siguientes distribuciones posteriores para tasas de
natalidad de mujeres sin y con títulos de licenciatura, respectivamente:
4
Hay una variedad de formas de calcular esta integral. Se puede hacer con lápiz y papel
usando los resultados del cálculo, y se puede calcular numéricamente en muchos
paquetes de software matemáticos. Sin embargo, la viabilidad de estos métodos de
integración depende en gran medida de los detalles particulares de este modelo,
distribución previa y la declaración de probabilidad que estamos tratando de calcular.
Como alternativa, en este texto utilizaremos un método de integración para que los
principios y procedimientos generales permanecen relativamente constantes una amplia
clase de problemas El método, conocido como aproximación de Monte Carlo se basa en
un muestreo aleatorio y su implementación no requiere conocimiento profundo de
cálculo o análisis numérico.
Sea θ un parámetro de interés y deje y1,. . . , yn sean los valores numéricos de una
muestra de una distribución p (y1, ..., yn | θ). Supongamos que podemos probar algunos
número S de valores θ aleatorios independientes de la distribución posterior p (θ | y1, ...,
yn):
5
R tiene funciones incorporadas para simular i.i.d. muestras de la mayor parte de la
distribución que usaremos.
6
Casi cualquier aspecto de una distribución posterior que nos pueda interesar puede
aproximarse arbitrariamente exactamente con una muestra Monte Carlo lo
suficientemente grande.
Evaluación Numérica
de natalidad, (a = 2, b = 1) y
7
Los resultados variarán dependiendo de la semilla del generador de números aleatorios.
Probabilidades: la probabilidad posterior de que {θ <1.75} se pueda obtener a alto grado de
precisión en R con el comando pgamma (1.75, a + sy, b + n), que rinde 0.8998. Usando los
valores simulados de θ desde arriba, las correspondientes aproximaciones de Monte Carlo
que respondieron fueron:
Quantiles: se puede obtener una región de confianza basada en cuantiles del 95% con
qgamma (c (.025, .975), a + sy, b + n), dando un intervalo de (1.173,1.891).
Aproximadamente se puede obtener 95% de confianza en la región desde las muestras de
Monte Carlo:
8
La figura 4.2 muestra la convergencia de las estimaciones de Monte Carlo con los valores
correctos expresados gráficamente, sobre la base de las estimaciones acumuladas de una
secuencia de S = 1000 muestras de la distribución gamma (68,45). Tales tramas pueden
ayudar a indicar cuando se han hecho suficientes muestras de Monte Carlo.
Adicionalmente, se pueden obtener los errores estándar de Monte Carlo para evaluar la
9
que 0.01 con alta probabilidad, necesitaría aumentar su tamaño de muestra Monte Carlo
para que
CADENAS DE MARKOV
Una cadena de Markov es simplemente una secuencia estocástica de números donde cada
valor de la secuencia depende solo de la última (Gilks et al., 1996). Podríamos etiquetar la
secuencia θ0, θ1, θ2, etc., donde el valor para θ0 se elige de alguna distribución de inicio
arbitraria. En general, si queremos simular una cadena de Markov, generamos el nuevo
estado de la cadena, digamos θk + 1, a partir de cierta densidad, que depende solo de θk:
10
Para nuestros propósitos, π (θ) ≡ π (θ | x) (es decir, la distribución estacionaria será la
distribución posterior de interés). La combinación de las cadenas de Markov con la
integración de Monte Carlo da como resultado la cadena de Markov Monte Carlo (MCMC).
MCMC
seguros es que
11
dnorm (θ, μδ, σδ), donde (μ1, μ2, μ3) = (-3, 0, 3) y (σ12, σ22, σ32) = (1/3, 1/3, 1/3). Esta es
una mezcla de tres densidades normales, donde podríamos pensar que δ es una membresía
2
grupal variable y (μδ, σ δ ) como la media poblacional y la varianza para el grupo δ. Una
Fig. 6.4. Una mezcla de densidades normales y una aproximación Monte Carlo.
Un histograma de 1,000 valores de Monte Carlo son generados de esta manera como se
muestra en Figura 6.4. La distribución empírica de las muestras de Monte Carlo parece
mucho como p (θ).
También es sencillo construir una muestra de Gibbs para φ = (δ, θ). La muestra de Gibbs
alternativamente muestrearía valores de θ y δ de su condición condicional completa
12
distribuciones. La distribución condicional completa de θ ya se proporciona, y usando la
regla de Bayes podemos mostrar que la distribución condicional completa de δ es dado por
¿Qué salió mal? Un gráfico de los valores versus versus el número de iteración en el
segundo el panel de la figura cuenta la historia. Los valores get se "atascan" en ciertas
regiones, y rara vez se mueven entre las tres regiones representadas por los tres valores de
μ. El término técnico para esta "pegajosidad" es autocorrelación o correlación entre valores
consecutivos de la cadena. En esta muestra de Gibbs, si tenemos un valor de θ cerca de 0,
por ejemplo, entonces el siguiente valor de δ es probable que sea 2. Si δ es 2, entonces el
próximo valor de θ es probable que sea cercano a 0, lo que resulta en un alto grado de
correlación positiva entre valores consecutive consecutivos en la cadena.
13
Fig. 6.5. Histograma y traceplot de 1,000 muestras de Gibbs.
En el caso de un parámetro genérico φ y una distribución objetivo p (φ), es útil para pensar
en la secuencia {φ(1),. . . , φ (S)} como la trayectoria de una partícula φ moverse por el
espacio de parámetros. En términos de MCMC integral, lo más importante es que la
cantidad de tiempo que la partícula pasa en un dado conjunto A es proporcional a la
probabilidad objetivo .
14
Ahora supongamos que A1, A2 y A3 son tres subconjuntos disjuntos del parámetro espacio,
con Pr (A2) <Pr (A1) ≈ Pr (A3) (estos podrían ser, por ejemplo, el de regiones cercanas a
los tres modos de la distribución de mezcla normal anterior). En términos de la
aproximación integral, esto significa que queremos que la partícula pasa poco tiempo en
A2, y aproximadamente la misma cantidad de tiempo en A1 que en A3. Dado que, en
general, no conocemos p (φ) (de lo contrario, no estaríamos intentando aproximarlo), es
posible que comencemos accidentalmente nuestro Markov cadena en A2. En este caso, es
crítico que el número de iteraciones S sea grande suficiente para que la partícula tenga la
oportunidad de
1. salir de A2 y entrar en regiones de mayor probabilidad, y
2. moverse entre A1 y A3, y cualquier otro conjunto de alta probabilidad.
El término técnico para lograr el ítem 1 es decir que la cadena ha logrado estacionariedad o
ha convergido. Si su cadena de Markov comienza en una región de el espacio de
parámetros que tiene alta probabilidad, entonces la convergencia generalmente no es un
gran problema. Si no sabes si estás comenzando en una buena región, la evaluación de la
convergencia está plagada de problemas epistemológicos. En general, no puedes saber con
certeza si tu cadena ha convergido. Pero a veces tu Puede saber si su cadena no ha
convergido, por lo que al menos verificar esta posibilidad. Una cosa para comprobar es la
estacionalidad, o que las muestras tomadas en una parte de la cadena tiene una distribución
similar a las muestras tomadas en otros partes. Para el modelo normal con semiconjugate
distribuciones previas de la sección anterior, la estacionalidad se logra bastante rápido y no
es un gran problema. Sin embargo, para algunos modelos altamente parametrizados que
veremos más adelante, la autocorrelación en la cadena es alta, los buenos valores iniciales
pueden ser difíciles de encontrar y puede llevar mucho tiempo llegar a la estacionariedad.
En estos casos, necesitamos ejecutar la muestra de MCMC durante mucho tiempo.
El punto 2 anterior se refiere a la rapidez con que la partícula se mueve alrededor del
parámetro espacio, que a veces se denomina velocidad de mezcla. Un independiente La
muestra MC tiene una mezcla perfecta: tiene cero autocorrelación y puede saltar entre
diferentes regiones del espacio de parámetros en un solo paso. Como hemos visto en el
15
ejemplo anterior, una muestra de MCMC podría tener una mezcla deficiente, tomar un
largo tiempo entre saltos a diferentes partes del espacio de parámetros y tener un alto grado
de autocorrelación.
WinBUGS es un software estadístico para el análisis bayesiano que utiliza los métodos de
la cadena de Markov Monte Carlo (MCMCMC) basado en la inferencia bayesiana BUGS
(Bayesian inference Using Gibbs Sampling) y que funciona bajo Microsoft Windows,
aunque también puede ser ejecutado en Linux utilizando Wine, desarrollado por el BUGS
Project, un equipo de investigadores del Reino Unido en la Universidad de Cambridge y el
Imperial College de Londres.
ALGORITMO DE METRÓPOLIS-HASTINGS
Con estas condiciones, y se acepta con probabilidad α (Xt ,Y), donde este último término
es:
16
Si se acepta este valor, y pasa a ser el siguiente estado de la cadena Xt+1. En caso contrario,
Xt+1 = Xt.
MUESTREO GIBBS
En tales casos, se puede hacer una aproximación posterior con los Gibbs sampler, un
algoritmo iterativo que construye una secuencia dependiente de parámetros valores cuya
distribución converge a la distribución posterior de la articulación diana.
El muestreador de Gibbs cobra especial importancia justo después de este último apartado.
El mismo nos proporciona una manera general y sencilla de actualizar los componentes del
vector de parámetros mencionado utilizando distribuciones totalmente condicionadas.
Utilizar Metrópolis-Hastings para cada componente tiene la desventaja evidente de que
17
tenemos que buscar h densidades propuesta, una para cada uno de los componentes. El
muestreador de Gibbs propone lo siguiente: bajo las mismas condiciones que antes, la
distribución propuesta de cada uno de los componentes será:
Ejemplos:
18
Cuando la dimensión de θ es alta, es difícil encontrar una densidad propuesta. En este caso,
se puede dividir en bloques, θ = (θ1,...,θk), y definir un algoritmo MH por bloques.
Supongamos que se divide θ = (θ1,θ2,θ3) y se definen tres densidades propuestas, q1,q2 y
q3. Partiendo de (θ1,0,θ2,0,θ3,0), se repite:
19
CONCLUSION
20
En términos generales, las técnicas aquí discutidas serán más eficientes y darán resultados
más precisos en la medida en que la aproximación normal asintótica a la distribución final
sea más adecuada. Es por esta razón que en la mayoría de los casos resulta conveniente
trabajar en términos de una reparametrización del modelo, de manera que cada uno de los
nuevos parámetros tome valores en todo R y su distribución final sea aproximadamente
normal. En el caso de algunos procedimientos, tales como las reglas cartesianas de
integración numérica o el muestreo de Gibbs, también es importante que la correlación final
entre los nuevos parámetros no sea muy alta.
Finalmente, cabe señalar que el advenimiento de nuevas técnicas como las de Monte Carlo
vía cadenas de Markov ha permitido el desarrollo de software Bayesiano para analizar
modelos cada vez más complejos. La mayoría de estos programas, aún se encuentran en
etapa experimental y no están disponibles comercialmente.
21
BIBLIOGRAFÍA
Ghassan Hamra, Richard MacLehose y David Richardson. “Markov chain monte carlo: An
introduction for epidemiologists”. En: International Journal of Epidemiology 42 (2013),
páginas 627-634
22