You are on page 1of 22

Universidad Central de Venezuela

Facultad de Ciencias Económicas y Sociales


Escuela de Estadística y Ciencias Actuariales
Teoría Matemática del Riesgo II
Profesor Enrique Guzmán

Cadenas de Markov Monte Carlo: MCMC


Teoría Matemática del Riesgo

Elaborado por:
Hernandez Simons, Constanza Emperatriz
CI. V-19.814.035

Caracas, Febrero 2018

1
INTRODUCCION

A menudo usamos probabilidades de manera informal para expresar nuestra información y


creencias sobre cantidades desconocidas. Sin embargo, el uso de probabilidades para
expresar información puede hacerse formal: en un sentido matemático preciso, se puede
mostrar que las probabilidades pueden representar numéricamente un conjunto de creencias
racionales, que es una relación entre probabilidad e información, y esas reglas proporcionan
un método racional para actualizar las creencias a la luz de nueva información.

Generalmente en estadística los modelos aleatorios se usan para simular fenómenos que
poseen algún componente aleatorio.

La simulación de Monte Carlo también fue creada para resolver integrales que no se
pueden resolver por métodos analíticos, para solucionar estas integrales se usaron números
aleatorios. Posteriormente se utilizó para cualquier esquema que emplee números
aleatorios, usando variables aleatorias con distribuciones de probabilidad conocida, el cual
es usado para resolver ciertos problemas estocásticos y determinísticos, donde el tiempo no
juega un papel importante.

La simulación de Monte Carlo es una técnica que combina conceptos estadísticos (muestreo
aleatorio) con la capacidad que tienen los ordenadores para generar números pseudo‐
aleatorios y automatizar cálculos.

El método fue llamado así por el principado de Mónaco por ser ``la capital del juego de
azar'', al tomar una ruleta como un generador simple de números aleatorios. El nombre y el
desarrollo sistemático de los métodos de Monte Carlo datan aproximadamente de 1944 con
el desarrollo de la computadora. Sin embargo hay varias instancias (aisladas y no
desarrolladas) en muchas ocasiones anteriores.

El uso real de los métodos de Monte Carlo como una herramienta de investigación,
proviene del trabajo de la bomba atómica durante la Segunda Guerra Mundial. Este trabajo
involucraba la simulación directa de problemas probabilísticos de hidrodinámica
concernientes a la difusión de neutrones aleatorios en material de fusión.

Por otro lado, Una cadena de Markov es una serie de eventos, en la cual la probabilidad de
que ocurra un evento depende del evento inmediato anterior. En efecto, las cadenas de este
tipo tienen memoria, "Recuerdan" el último evento y esto condiciona las posibilidades de
los eventos futuros. Esta dependencia del evento anterior distingue a las cadenas de Markov
de las series de eventos independientes, como tirar una moneda al aire o un dado. En los
negocios, las cadenas de Markov se han utilizado para analizar los patrones de compra, los
deudores morosos, para planear las necesidades de personal y para analizar el reemplazo de

2
equipo. El análisis de Markov, llamado así en honor de un matemático ruso que desarrollo
el método en 1907, permite encontrar la probabilidad de que un sistema se encuentre en un
estado en particular en un momento dado. Algo más importante aún, es que permite
encontrar el promedio a la larga o las probabilidades de estado estable para cada estado.
Con esta información se puede predecir el comportamiento del sistema a través del tiempo.
La tarea más difícil es reconocer cuándo puede aplicarse. La característica más importante
que hay que buscar en la memoria de un evento a otro.

Los métodos MCMC (Markov Chain Monte Carlo) surgen de la necesidad de simular el
comportamiento de variables aleatorias y de estimar parámetros de las funciones de
densidad/probabilidad de las mismas. El gran impulso a estas técnicas se las da
mayormente (pero no únicamente) el enfoque estadístico bayesiano, donde la inferencia se
realiza sobre lo que se denomina una función a posteriori, que denominaremos π(θ|x). Las
siglas MCMC vienen marcadas por las cadenas de Markov y por la integración Monte
Carlo. La inferencia bayesiana, en multitud de ocasiones necesita integrar sobre
distribuciones de dimensión muy elevada (en muchas ocasiones, con cientos de
parámetros).

Existen métodos numéricos aproximados que producen buenas soluciones, pero que no
escalan bien con la dimensión, siendo en muchos casos, computacionalmente intratables.
Por ello, la importancia de estudiarlos y así dar soluciones computacionalmente tratables.

3
INTEGRACIÓN MONTE CARLO

Al comparar dos o más poblaciones podemos estar interesados en la distribución


posterior de | θ1 - θ2 |, θ1 / θ2, o max {θ1,. . . , θm}, las cuales son funciones de más de
un solo parámetro; la obtención de valores exactos para estas cantidades posteriores
puede ser difícil o imposible, pero si podemos generar valores de muestra aleatorios de
los parámetros de sus distribuciones posteriores, luego todos estos posteriores las
cantidades de interés se pueden aproximar a un grado arbitrario de precisión usando el
método de Monte Carlo.

El método de Monte Carlo usando las siguientes distribuciones posteriores para tasas de
natalidad de mujeres sin y con títulos de licenciatura, respectivamente:

Además, modelamos θ1 y θ2 como condicionalmente independientes dado los datos. Se


afirmó que Pr (θ1> θ2 | PYi, 1 = 217, PYi, 2 = 66) = 0,97. Cómo fue esta probabilidad
calculada?
Tomando un ejemplo relacionado con lo mencionado en el apartado anterior tenemos:

4
Hay una variedad de formas de calcular esta integral. Se puede hacer con lápiz y papel
usando los resultados del cálculo, y se puede calcular numéricamente en muchos
paquetes de software matemáticos. Sin embargo, la viabilidad de estos métodos de
integración depende en gran medida de los detalles particulares de este modelo,
distribución previa y la declaración de probabilidad que estamos tratando de calcular.
Como alternativa, en este texto utilizaremos un método de integración para que los
principios y procedimientos generales permanecen relativamente constantes una amplia
clase de problemas El método, conocido como aproximación de Monte Carlo se basa en
un muestreo aleatorio y su implementación no requiere conocimiento profundo de
cálculo o análisis numérico.

Se verá así que el método de simulación es, de hecho, exactamente equivalente a un


método de observación de los valores reales que aparecen en algún experimento y la
construcción de la estimación estadística de la función de distribución. Ningún
experimento físico es en realidad llevado pero en cambio es 'jugado' o 'simulado' por
medio de números. Este método se ha utilizado cada vez más en conexión con varios
proyectos de investigación durante los últimos años, particularmente en casos en los
que el cálculo directo de las funciones de distribución es demasiado complicado.
También se puede aplicar de forma útil en el campo de teoría del riesgo.

Sea θ un parámetro de interés y deje y1,. . . , yn sean los valores numéricos de una
muestra de una distribución p (y1, ..., yn | θ). Supongamos que podemos probar algunos
número S de valores θ aleatorios independientes de la distribución posterior p (θ | y1, ...,
yn):

Luego, la distribución empírica de las muestras {θ (1),. . . , θ (S)} sería


aproximadamente p (θ | y1, ..., yn), con la aproximación mejorando al aumentar S.

La distribución empírica de {θ (1),. . . , θ (S)} se conoce como una aplicación de Monte


Carlo aproxima a p (θ | y1, ..., yn). Muchos lenguajes de computación y computación
los entornos tienen procedimientos para simular este proceso de muestreo. Por ejemplo,

5
R tiene funciones incorporadas para simular i.i.d. muestras de la mayor parte de la
distribución que usaremos.

La figura muestra las aproximaciones sucesivas de Monte Carlo a la densidad de la


distribución gamma (68, 45), junto con la función de densidad real para comparación.
Como vemos, la distribución empírica de las muestras de Monte Carlo proporciona una
aproximación cada vez más cercana a la densidad verdadera a medida que S obtiene
más grande. Además, deje que g (θ) sea (casi) cualquier función. La ley de los grandes
números dice que si θ

(1),. . . , θ (S) son i.i.d. muestras de p (θ | y1, ..., yn), luego

Fig. 4.1. Histogramas y estimaciones de la densidad del grano de las aproximaciones de


Monte Carlo a la distribución gamma (68,45), con la densidad real en gris.

6
Casi cualquier aspecto de una distribución posterior que nos pueda interesar puede
aproximarse arbitrariamente exactamente con una muestra Monte Carlo lo
suficientemente grande.

Evaluación Numérica

Primero obtendremos cierta familiaridad y confianza con el programa de Monte Carlo


comparando sus aproximaciones a unas pocas cantidades posteriores que podemos
calcular exactamente (o casi) por otros métodos. Supongamos que modelamos Y1,. . . ,
Yn | θ como i.i.d. Poisson (θ), y tienen una distribución previa gamma (a, b) para θ.
Habiendo observado Y1 = y1,. . . , Yn = yn, la distribución posterior es gamma

Para la población con educación universitaria en el ejemplo de la tasa

de natalidad, (a = 2, b = 1) y

Expectativa: La media posterior es Monte Carlo


aproxima esto para S ∈ {10, 100, 1000} se pueden obtener en R como sigue:

7
Los resultados variarán dependiendo de la semilla del generador de números aleatorios.
Probabilidades: la probabilidad posterior de que {θ <1.75} se pueda obtener a alto grado de
precisión en R con el comando pgamma (1.75, a + sy, b + n), que rinde 0.8998. Usando los
valores simulados de θ desde arriba, las correspondientes aproximaciones de Monte Carlo
que respondieron fueron:

Quantiles: se puede obtener una región de confianza basada en cuantiles del 95% con
qgamma (c (.025, .975), a + sy, b + n), dando un intervalo de (1.173,1.891).
Aproximadamente se puede obtener 95% de confianza en la región desde las muestras de
Monte Carlo:

8
La figura 4.2 muestra la convergencia de las estimaciones de Monte Carlo con los valores
correctos expresados gráficamente, sobre la base de las estimaciones acumuladas de una
secuencia de S = 1000 muestras de la distribución gamma (68,45). Tales tramas pueden
ayudar a indicar cuando se han hecho suficientes muestras de Monte Carlo.
Adicionalmente, se pueden obtener los errores estándar de Monte Carlo para evaluar la

precisión de aproximación: sea la media muestral de las


muestras de Monte Carlo, el Teorema del Límite Central dice que ̄ θ es aproximadamente
distribuido normalmente con expectativa E [θ | y1,. . . , yn] y desviación estándar igual a

El error estándar de Monte Carlo es la aproximación de esta

desviación estándar: sea la estimación de

Monte Carlo de Var [θ | y1,. . . , yn], el estándar de Monte Carlo error es Un


intervalo aproximado de confianza de Monte Carlo del 95% para la media posterior de θ es

La práctica estándar es elegir S para ser lo suficientemente grande para


que el error estándar de Monte Carlo sea menor que la precisión con la que desea informar
E [θ | y1,. . . , yn]. Por ejemplo, supongamos que había generado una muestra de Monte
Carlo de tamaño S = 100 para la cual la estimación de Var [θ | y1,. . . , yn] fue 0.024. El

error estándar aproximado de Monte Carlo entonces sería Si


quisiera la diferencia entre E [θ | y1,. . . , yn] y su estimación de Monte Carlo a ser menor

9
que 0.01 con alta probabilidad, necesitaría aumentar su tamaño de muestra Monte Carlo

para que

El método de Monte Carlo es óptimo si n es pequeño. Si es muy bueno se requiere


precisión, por ejemplo; si el error no es superior a 0 · 0001, el método se vuelve costoso.
Afortunadamente, desde un punto práctico de ver, rara vez se requiere una gran precisión.
Cabe señalar que el método de Monte Carlo también se puede aplicar si P (N) no es una
función de Poisson, siempre que se obtenga en de una forma u otra en una forma que sea
adecuada para la entrada de la computadora.

CADENAS DE MARKOV

Una cadena de Markov es simplemente una secuencia estocástica de números donde cada
valor de la secuencia depende solo de la última (Gilks et al., 1996). Podríamos etiquetar la
secuencia θ0, θ1, θ2, etc., donde el valor para θ0 se elige de alguna distribución de inicio
arbitraria. En general, si queremos simular una cadena de Markov, generamos el nuevo
estado de la cadena, digamos θk + 1, a partir de cierta densidad, que depende solo de θk:

Llamamos a K el núcleo de transición de la cadena. El núcleo de transición describe de


manera única la dinámica de la cadena. Bajo ciertas condiciones, que la cadena es
aperiódica e irreductible, la distribución sobre los estados de la cadena de Markov
convergerá a una distribución estacionaria. Tenga en cuenta que siempre asumiremos que se
cumplen estas condiciones. Supongamos que tenemos una cadena de Markov con
distribución estacionaria π (θ). El Teorema de Ergodic afirma que,

10
Para nuestros propósitos, π (θ) ≡ π (θ | x) (es decir, la distribución estacionaria será la
distribución posterior de interés). La combinación de las cadenas de Markov con la
integración de Monte Carlo da como resultado la cadena de Markov Monte Carlo (MCMC).
MCMC

El propósito de la aproximación de Monte Carlo de la cadena Monte Carlo o Markov es


para obtener una secuencia de valores de parámetros {φ (1),. . . , φ (S)} tal que

, para cualquier función g de interés. En otras palabras,


queremos el promedio empírico de {g (φ (1)),. . . , g (φ (S) )} para aproximar el valor
esperado de g (φ) bajo un distribución de probabilidad objetivo p (φ) (en inferencia
bayesiana, la distribución objetivo usualmente es la distribución posterior). Para que esto
sea bueno aproximación para una amplia gama de funciones g, necesitamos la distribución
empírica de la secuencia simulada {φ (1),. . . , φ (S)} para parecerse al objetivo distribución
p (φ). Monte Carlo y la cadena de Markov Monte Carlo son dos maneras de generar tal
secuencia.

La simulación de Monte Carlo, en la que generamos muestras independientes de la


distribución objetivo, es en cierto sentido el "Patrón oro". Las muestras de MC
independientes crean automáticamente una secuencia eso es representativo de p (φ): la
probabilidad de que φ (s) ∈ A para cualquier conjunto A es R UN p (φ) dφ. Esto es cierto
para cada s ∈ {1,. . . , S} y condicional o incondicionalmente en los otros valores en la
secuencia. Esto no es verdad para MCMC muestras, en cuyo caso de lo que estamos

seguros es que

Exploremos las diferencias entre MC y MCMC con un ejemplo simple. Nuestra


distribución objetivo será la distribución de probabilidad conjunta de dos variables: una
variable discreta δ ∈ {1, 2, 3} y una variable continua θ ∈ R. La densidad objetivo para este
ejemplo se definirá como {Pr (δ = 1), Pr (δ = 2), Pr (δ = 3)} = (.45, .10, .45) y p (θ | δ) =

11
dnorm (θ, μδ, σδ), donde (μ1, μ2, μ3) = (-3, 0, 3) y (σ12, σ22, σ32) = (1/3, 1/3, 1/3). Esta es
una mezcla de tres densidades normales, donde podríamos pensar que δ es una membresía
2
grupal variable y (μδ, σ δ ) como la media poblacional y la varianza para el grupo δ. Una

gráfica de la densidad marginal exacta de θ, p (θ) = aparece en las líneas


negras de la Figura 6.4. Tenga en cuenta que hay tres modos que representan los tres grupos
diferentes significan

Fig. 6.4. Una mezcla de densidades normales y una aproximación Monte Carlo.

Es muy fácil obtener muestras de Monte Carlo independientes de la junta distribución de φ


= (δ, θ). En primer lugar, un valor de δ se muestrea desde su marginal distribución,
entonces el valor se conecta a p (θ | δ), desde el cual se obtiene un valor de θ se muestrea El
par muestreado (δ, θ) representa una muestra de la distribución conjunta de p (δ, θ) = p (δ)
p (θ | δ). La distribución empírica de las muestras θ proporciona una aproximación a la

distribución marginal p (θ) =

Un histograma de 1,000 valores de Monte Carlo son generados de esta manera como se
muestra en Figura 6.4. La distribución empírica de las muestras de Monte Carlo parece
mucho como p (θ).

También es sencillo construir una muestra de Gibbs para φ = (δ, θ). La muestra de Gibbs
alternativamente muestrearía valores de θ y δ de su condición condicional completa

12
distribuciones. La distribución condicional completa de θ ya se proporciona, y usando la
regla de Bayes podemos mostrar que la distribución condicional completa de δ es dado por

El primer panel de la figura 6.5 muestra un histograma de 1.000 valores MCMC de θ


generado con la muestra de Gibbs. Observe que la distribución empírica de las muestras de
MCMC dan una pobre aproximación a p (θ). Valores de θ cerca de -3 están
subrepresentadas, mientras que los valores cercanos a cero y +3 están sobrerrepresentados.

¿Qué salió mal? Un gráfico de los valores versus versus el número de iteración en el
segundo el panel de la figura cuenta la historia. Los valores get se "atascan" en ciertas
regiones, y rara vez se mueven entre las tres regiones representadas por los tres valores de
μ. El término técnico para esta "pegajosidad" es autocorrelación o correlación entre valores
consecutivos de la cadena. En esta muestra de Gibbs, si tenemos un valor de θ cerca de 0,
por ejemplo, entonces el siguiente valor de δ es probable que sea 2. Si δ es 2, entonces el
próximo valor de θ es probable que sea cercano a 0, lo que resulta en un alto grado de
correlación positiva entre valores consecutive consecutivos en la cadena.

¿No se garantiza la muestra de Gibbs para eventualmente proporcionar una buena


aproximación a p (θ)? Lo es, pero "eventualmente" puede ser un tiempo muy largo en
algunas situaciones. El primer panel de la Figura 6.6 indica que nuestra aproximación ha
mejorado enormemente después de usar 10,000 iteraciones de la muestra de Gibbs, aunque
todavía es algo inadecuado.

13
Fig. 6.5. Histograma y traceplot de 1,000 muestras de Gibbs.

Fig. 6.6. Histograma y traceplot de 10,000 muestras de Gibbs

En el caso de un parámetro genérico φ y una distribución objetivo p (φ), es útil para pensar
en la secuencia {φ(1),. . . , φ (S)} como la trayectoria de una partícula φ moverse por el
espacio de parámetros. En términos de MCMC integral, lo más importante es que la
cantidad de tiempo que la partícula pasa en un dado conjunto A es proporcional a la

probabilidad objetivo .

14
Ahora supongamos que A1, A2 y A3 son tres subconjuntos disjuntos del parámetro espacio,
con Pr (A2) <Pr (A1) ≈ Pr (A3) (estos podrían ser, por ejemplo, el de regiones cercanas a
los tres modos de la distribución de mezcla normal anterior). En términos de la
aproximación integral, esto significa que queremos que la partícula pasa poco tiempo en
A2, y aproximadamente la misma cantidad de tiempo en A1 que en A3. Dado que, en
general, no conocemos p (φ) (de lo contrario, no estaríamos intentando aproximarlo), es
posible que comencemos accidentalmente nuestro Markov cadena en A2. En este caso, es
crítico que el número de iteraciones S sea grande suficiente para que la partícula tenga la
oportunidad de
1. salir de A2 y entrar en regiones de mayor probabilidad, y
2. moverse entre A1 y A3, y cualquier otro conjunto de alta probabilidad.

El término técnico para lograr el ítem 1 es decir que la cadena ha logrado estacionariedad o
ha convergido. Si su cadena de Markov comienza en una región de el espacio de
parámetros que tiene alta probabilidad, entonces la convergencia generalmente no es un
gran problema. Si no sabes si estás comenzando en una buena región, la evaluación de la
convergencia está plagada de problemas epistemológicos. En general, no puedes saber con
certeza si tu cadena ha convergido. Pero a veces tu Puede saber si su cadena no ha
convergido, por lo que al menos verificar esta posibilidad. Una cosa para comprobar es la
estacionalidad, o que las muestras tomadas en una parte de la cadena tiene una distribución
similar a las muestras tomadas en otros partes. Para el modelo normal con semiconjugate
distribuciones previas de la sección anterior, la estacionalidad se logra bastante rápido y no
es un gran problema. Sin embargo, para algunos modelos altamente parametrizados que
veremos más adelante, la autocorrelación en la cadena es alta, los buenos valores iniciales
pueden ser difíciles de encontrar y puede llevar mucho tiempo llegar a la estacionariedad.
En estos casos, necesitamos ejecutar la muestra de MCMC durante mucho tiempo.

El punto 2 anterior se refiere a la rapidez con que la partícula se mueve alrededor del
parámetro espacio, que a veces se denomina velocidad de mezcla. Un independiente La
muestra MC tiene una mezcla perfecta: tiene cero autocorrelación y puede saltar entre
diferentes regiones del espacio de parámetros en un solo paso. Como hemos visto en el

15
ejemplo anterior, una muestra de MCMC podría tener una mezcla deficiente, tomar un
largo tiempo entre saltos a diferentes partes del espacio de parámetros y tener un alto grado
de autocorrelación.

LENGUAJE DE PROGRAMACIÓN BUGS Y WINBUGS

WinBUGS es un software estadístico para el análisis bayesiano que utiliza los métodos de
la cadena de Markov Monte Carlo (MCMCMC) basado en la inferencia bayesiana BUGS
(Bayesian inference Using Gibbs Sampling) y que funciona bajo Microsoft Windows,
aunque también puede ser ejecutado en Linux utilizando Wine, desarrollado por el BUGS
Project, un equipo de investigadores del Reino Unido en la Universidad de Cambridge y el
Imperial College de Londres.

El software Winbugs se basa en construcciones de algoritmos de tipo Gibbs sampling en la


que las distribuciones a posteriori condicionales se simulan mediante refinamientos del
método de rechazo, conocidos como algoritmos ARS y ARMS.

ALGORITMO DE METRÓPOLIS-HASTINGS

El algoritmo de Metrópolis-Hastings es un muestreo por rechazo generalizado, donde los


valores aleatorios se toman de distribuciones escogidas razonablemente y corregidas de tal
manera que se comporten asintóticamente como valores de la distribución objetivo. El
algoritmo de Metrópolis-Hastings funciona de la siguiente manera: supongamos que
tenemos una cadena de Markov en un estado Xt y queremos actualizar al valor Xt+1. Para
ello utilizamos una distribución candidata q(.|Xt), que genera un valor aleatorio propuesto
que denotaremos y. Es importante notar que esta distribución puede depender del estado
actual de la cadena.

Con estas condiciones, y se acepta con probabilidad α (Xt ,Y), donde este último término
es:

16
Si se acepta este valor, y pasa a ser el siguiente estado de la cadena Xt+1. En caso contrario,
Xt+1 = Xt.

La distribución q(.|.) puede tener cualquier forma y la cadena proporcionada por el


algoritmo convergerá a la distribución estacionaria π(x). Si bien esta condición es
suficiente, la distribución proposición debe tener la misma dimensión que la estacionaria, y
ser capaz de generar valores que se acepten. En otro caso la cadena puede pasar periodos
largos de tiempo en un mismo estado. Nótese que en el momento que Xt ya pertenezca a la
distribución estacionaria, todos los valores siguientes Xt+1,Xt+2,... pertenecerán
igualmente a la misma distribución.

MUESTREO GIBBS

Para muchos modelos de multiparámetros, la distribución posterior conjunta no es estándar


y difícil de probar directamente. Sin embargo, a menudo es el caso que es fácil tomar
muestras de la distribución condicional completa de cada parámetro.

En tales casos, se puede hacer una aproximación posterior con los Gibbs sampler, un
algoritmo iterativo que construye una secuencia dependiente de parámetros valores cuya
distribución converge a la distribución posterior de la articulación diana.

En este capítulo esbozamos la muestra de Gibbs en el contexto de la modelo normal con


una distribución previa semiconjugado, y discutir qué tan bien el método es capaz de
aproximarse a la distribución posterior.

El muestreador de Gibbs cobra especial importancia justo después de este último apartado.
El mismo nos proporciona una manera general y sencilla de actualizar los componentes del
vector de parámetros mencionado utilizando distribuciones totalmente condicionadas.
Utilizar Metrópolis-Hastings para cada componente tiene la desventaja evidente de que

17
tenemos que buscar h densidades propuesta, una para cada uno de los componentes. El
muestreador de Gibbs propone lo siguiente: bajo las mismas condiciones que antes, la
distribución propuesta de cada uno de los componentes será:

Es decir, se propone utilizar la distribución totalmente condicionada de un parámetro al


resto de parámetros (valga la redundancia) como distribución propuesta. Esto, como hemos
dicho antes pasa por fijar el resto de parámetros y tratarlos como constantes (valores
iniciales o los de la iteración anterior). Finalmente, actualizamos la densidad resultante
(univariante, esta vez) con el método que más convenga, ya sea Metrópolis-Hastings u otro.

Ejemplos:

Considerar una muestra de tamaño n de una distribución Cauchy, X | θ ∼ C(θ,1).


Asumiendo una distribución a priori impropia π(θ) ∝ 1, obtener una muestra de la
distribución a posteriori:

1. Usando un algoritmo RWMH con una densidad propuesta Cauchy, ˜ θ | θ ∼ C(θt,σ),


ajustando el parámetro de escala, σ, para obtener una tasa razonable de valores
aceptados.
2. Usando un algoritmo MH de independencia con una densidad propuesta Cauchy, ˜ θ
∼ C(m,τ), ajustando el parámetro de escala, τ, para obtener una tasa razonable de
valores aceptados.
La función de densidad de una distribución Cauchy, θ ∼ C(m,τ) es:

18
Cuando la dimensión de θ es alta, es difícil encontrar una densidad propuesta. En este caso,
se puede dividir en bloques, θ = (θ1,...,θk), y definir un algoritmo MH por bloques.
Supongamos que se divide θ = (θ1,θ2,θ3) y se definen tres densidades propuestas, q1,q2 y
q3. Partiendo de (θ1,0,θ2,0,θ3,0), se repite:

19
CONCLUSION

En este proyecto hemos estudiado diferentes metodologías de generación de números


aleatorios. Después de un estudio previo de la bibliografía sobre métodos de muestreo
aleatorio, nos hemos concentrado sobre la que actualmente son las técnicas más potentes y
más utilizadas en la práctica: los algoritmos MCMC. Los métodos MCMC se basan en el
diseño de una adecuadacadena de Markov. Bajo ciertas condiciones, estas cadenas
convergen a una densidad estacionaria invariante en el tiempo. La idea fundamental de los
métodos MCMC es la generación de una cadena de Markov cuya densidad estacionaria
coincida con la densidad que se quiere muestrear. Las cadenas de Markov son procesos
estocásticos en el que la probabilidad de que ocurra un evento depende del evento
inmediatamente anterior. Por lo tanto, los métodos MCMC producen números aleatorios
correlacionados entre sí. Las técnicas MCMC pueden ser aplicadas teóricamente (y de
manera fácil e inmediata, sin estudios analíticos previos) a cualquier densidad de
probabilidad. Esta característica los hace particularmente interesantes en la práctica. De
hecho, no sólo se han multiplicado las aplicaciones en las últimas décadas sino que, a través
de pequeñas variaciones, se han diseñado algoritmos parecidos para problemas de
optimización estocástica y otros campos diferentes al muestreo.

En este trabajo hemos analizado en profundidad el algoritmo MCMC más famoso: el


algoritmo Metropolis-Hastings. Aunque sea un método muy potente, tiene una serie de
debilidades: 1. Las muestras están correlacionadas y en algunos casos repetidas (es decir, la
correlación puede ser muy alta). En general, para la totalidad de las aplicaciones posibles es
preferible que las muestras tengan una correlación muy baja entre ellas y si es posible que
seanindependientes.

20
En términos generales, las técnicas aquí discutidas serán más eficientes y darán resultados
más precisos en la medida en que la aproximación normal asintótica a la distribución final
sea más adecuada. Es por esta razón que en la mayoría de los casos resulta conveniente
trabajar en términos de una reparametrización del modelo, de manera que cada uno de los
nuevos parámetros tome valores en todo R y su distribución final sea aproximadamente
normal. En el caso de algunos procedimientos, tales como las reglas cartesianas de
integración numérica o el muestreo de Gibbs, también es importante que la correlación final
entre los nuevos parámetros no sea muy alta.

Finalmente, cabe señalar que el advenimiento de nuevas técnicas como las de Monte Carlo
vía cadenas de Markov ha permitido el desarrollo de software Bayesiano para analizar
modelos cada vez más complejos. La mayoría de estos programas, aún se encuentran en
etapa experimental y no están disponibles comercialmente.

21
BIBLIOGRAFÍA

P.D. Hoff, A First Course in Bayesian Statistical Methods,


Springer Texts in Statistics, DOI 10.1007/978-0-387-92407-6 4,
c Springer Science+Business Media, LLC 2009

SEGERDAHL, c.·o., (1948), 'Some Properties of the Ruin Function in


the Collective Theory of Risk', SA.

MONOGRAPHS ON APPLIED PROBABILITY AND STATISTICS


General Editor8: M. S. BARTLETT, F.R.S. and D. R. COX, F.R.S. RISK THEORY The
Stochastic Basis of Insurance. R. E. BEARD, O.B.E., F.I.A., F.I.M.A. London, England T.
PENTIKAINEN, Phil. Dr. Helsinki, Finland E. PESONEN, Phil. Dr. Helsinki, Finland
SECOND EDITION

Ghassan Hamra, Richard MacLehose y David Richardson. “Markov chain monte carlo: An
introduction for epidemiologists”. En: International Journal of Epidemiology 42 (2013),
páginas 627-634

22

You might also like