You are on page 1of 9

En las estadsticas y en fsica estadstica, muestreo de Gibbs o un muestreador de Gibbs es una cadena de Markov Monte Carlo algoritmo para

la obtencin de una secuencia de observaciones que son aproximadamente de una distribucin de probabilidad multivariante especificado, cuando el muestreo directo es difcil. Esta secuencia se puede utilizar para aproximar la distribucin conjunta; para aproximar la distribucin marginal de una de las variables, o algn subconjunto de las variables, o para calcular una integral. Tpicamente, algunas de las variables corresponden a observaciones cuyos valores son conocidos, y por lo tanto no necesitan ser muestreados. El muestreo de Gibbs se utiliza comnmente como un medio de la inferencia estadstica, especialmente inferencia bayesiana. Se trata de un algoritmo aleatorio, y es una alternativa a los algoritmos determinsticos para la inferencia estadstica tales como variacional de Bayes o el algoritmo de expectacin-maximizacin. Al igual que con otros algoritmos MCMC, Gibbs de muestreo genera una cadena de Markov de muestras, cada una de las cuales se correlaciona con las muestras cercanas. Como resultado de ello, se debe tener cuidado si se desean muestras independientes. Adems, las muestras desde el principio de la cadena no se pueden representar con precisin la distribucin deseada. Muestreo Gibbs es nombrado en honor del fsico JW Gibbs, en referencia a una analoga entre el algoritmo de toma de muestras y la fsica estadstica. El algoritmo fue descrito por los hermanos Stuart y Donald Geman en 1984, unas ocho dcadas despus de la muerte de Gibbs. En su versin bsica, el muestreo Gibbs es un caso especial del algoritmo de MetropolisHastings. Sin embargo, en sus versiones extendidas, se puede considerar un marco general para la toma de muestras de un gran conjunto de variables mediante el muestreo de cada variable, a su vez, y puede incorporar el algoritmo de Metropolis-Hastings a poner en prctica una o ms de las etapas de muestreo. El muestreo de Gibbs es aplicable cuando la distribucin conjunta no se conoce de manera explcita o es difcil de probar de forma directa, pero se conoce la distribucin condicional de cada variable y es fcil de muestrear de. El algoritmo de muestreo de Gibbs genera una instancia de la distribucin de cada variable, a su vez, condicionada a los valores actuales de las otras variables. Se puede demostrar que la secuencia de muestras constituye una cadena de Markov, y la distribucin estacionaria de que la cadena de Markov es slo la distribucin buscada conjunta. Muestreo Gibbs est particularmente bien adaptado para el muestreo de la distribucin posterior de una red bayesiana, ya que las redes bayesianas se especifican normalmente como un conjunto de distribuciones condicionales.

Implementacin
Muestreo Gibbs, en su versin bsica, es un caso especial del algoritmo de MetropolisHastings. El punto de muestreo Gibbs es que dada una distribucin multivariante es ms simple muestra de una distribucin condicional de marginar al integrar ms de una distribucin conjunta. Supongamos que queremos obtener muestras de una distribucin conjunta. Denotan el siglo muestra mediante. Se procede de la siguiente manera: Comenzamos con un cierto valor inicial para cada variable. Para cada muestra, muestra de cada variable de la distribucin condicional. Es decir, muestrear cada variable de la distribucin de esa variable acondicionado en todas las dems variables, haciendo uso de los valores ms recientes y la actualizacin de la variable con su nuevo valor tan pronto como se han tomado muestras. Las muestras luego aproximar la distribucin conjunta de todas las variables. Por otra parte, la distribucin marginal de cualquier subconjunto de las variables puede ser aproximada por simple examen de las muestras para ese subconjunto de variables, ignorando el resto. Adems, el valor esperado de cualquier variable se puede aproximar por un promedio de ms de todas las muestras.

Los valores iniciales de las variables se pueden determinar al azar o por algn otro algoritmo, tales como expectativa de maximizacin. En realidad no es necesario determinar un valor inicial para la primera variable en la muestra. Es comn a ignorar algunos nmero de muestras al principio, y luego considerar slo cada sima muestra al promediar los valores para calcular una expectativa. Por ejemplo, las primeras 1000 muestras pueden ser ignorados, y luego cada muestra 100a promedio, tirar todo el resto. La razn de esto es que las muestras sucesivas no son independientes entre s, sino que forman una cadena de Markov con una cierta cantidad de correlacin; la distribucin estacionaria de la cadena de Markov es la distribucin conjunta deseada sobre las variables, pero se puede tomar un tiempo para que los aparatos fijos distribucin a ser alcanzado. A veces, los algoritmos pueden ser usados para determinar la cantidad de autocorrelacin entre las muestras y el valor de calculado de esto, pero en la prctica hay una buena cantidad de "magia negro" que participan. El proceso de recocido simulado se utiliza a menudo para reducir el comportamiento "paseo aleatorio" en la primera parte del proceso de muestreo. Otras tcnicas que pueden reducir la autocorrelacin se contraen muestreo Gibbs, bloqueado muestreo Gibbs, y orden sobrerelajacin, vase ms adelante.

Relacin de la distribucin condicional y distribucin conjunta


Por otra parte, la distribucin condicional de una variable dada todas las dems es proporcional a la distribucin conjunta:

"Proporcional a" en este caso significa que el denominador no es una funcin de y por lo tanto es el mismo para todos los valores de, y forma parte de la constante de la distribucin a travs de la normalizacin. En la prctica, para determinar la naturaleza de la distribucin condicional de un factor, que es ms fcil de factorizar la distribucin conjunta de acuerdo con las distribuciones condicionales individuales definidos por el modelo grfico sobre las variables, ignorar todos los factores que no son funciones de y, a continuacin, restablecer la constante de normalizacin en el extremo, segn sea necesario. En la prctica, esto significa hacer una de tres cosas: Si la distribucin es discreta, las probabilidades individuales de todos los valores posibles de se calculan, y suman entonces para encontrar la constante de normalizacin. Si la distribucin es continua y de una forma conocida, tambin se conoce la constante de normalizacin. En otros casos, la constante de normalizacin por lo general puede ser ignorado, ya que la mayora de los mtodos de muestreo no lo requieren.

Inferencia
Muestreo Gibbs es de uso general para la inferencia estadstica. La idea es que los datos observados se incorpora en el proceso de muestreo mediante la creacin de variables separadas para cada pieza de los datos observados y la fijacin de las variables en cuestin a sus valores observados, en lugar de toma de muestras de esas variables. La distribucin de las variables restantes es entonces efectivamente una distribucin posterior condicionado a los datos observados. El valor ms probable de un parmetro deseado puede ser seleccionado a continuacin, simplemente por la eleccin del valor de la muestra que se presenta ms comnmente, lo que es esencialmente equivalente a un mximo de estimacin a posteriori de un parmetro. Ms comnmente, sin embargo, se elige el valor esperado de los valores incluidos en la muestra, lo que es un estimador de Bayes que se aprovecha de los datos adicionales acerca de la distribucin completa que est disponible a partir del muestreo bayesiano, mientras que un algoritmo de maximizacin de la expectativa de maximizacin como es capaz de slo devolver un solo punto de la distribucin. Por ejemplo, para una distribucin unimodal de la media es por lo general similar al modo, pero si la distribucin est sesgada en una direccin, la media se mover en esa direccin, lo que efectivamente representa la masa de probabilidad adicional en esa direccin. Aunque algunas de las variables tpicamente corresponden a los parmetros de inters, otros son interesantes variables introducidas en el modelo de expresar adecuadamente las relaciones entre las variables. Aunque los valores muestreados representan la distribucin conjunta sobre todas las variables, las variables molestas simplemente se pueden ignorar al calcular los valores esperados o modos, lo que es equivalente a marginar sobre las variables molestas. Cuando se desea un valor para mltiples variables, el valor esperado se calcula slo sobre cada variable por separado.

El aprendizaje supervisado, no supervisado de aprendizaje y el aprendizaje semisupervisado todo se puede manejar con slo la fijacin de los valores de todas las variables cuyos valores son conocidos, y el muestreo del resto. Para los datos observados, no habr una variable para cada observacin - en lugar de, por ejemplo, una variable que corresponde a la media de la muestra o muestra de varianza de un conjunto de observaciones. De hecho, generalmente habr ninguna variable en absoluto correspondiente a conceptos tales como "media de la muestra" o "varianza de la muestra". En su lugar, en tal caso no habr variables que representan la media y la varianza verdadera verdadera desconocida, y la determinacin de los valores de la muestra para estas variables da lugar automticamente a partir de la operacin del muestreador de Gibbs. Modelos lineales generalizados a veces pueden ser manejados por muestreo Gibbs tambin. Por ejemplo, regresin probit para determinar la probabilidad de una eleccin binaria dada, con antecedentes distribuidos normalmente colocados sobre los coeficientes de regresin, se puede implementar con el muestreo de Gibbs, ya que es posible aadir variables adicionales y tomar ventaja de conjugacin. Sin embargo, la regresin logstica no puede ser manejado de esta manera. Una posibilidad es la aproximacin de la funcin logstica con una mezcla de distribuciones normales. Ms comnmente, sin embargo, MetropolisHastings se utiliza en lugar de muestreo de Gibbs.

Formacin matemtica
Supongamos que se toma una muestra de una distribucin en funcin de un vector de parmetros de longitud, con distribucin a priori. Puede ser que es muy grande y que la integracin numrica para encontrar las densidades marginales de la sera costoso computacionalmente. A continuacin, un mtodo alternativo de clculo de las densidades marginales es crear una cadena de Markov en el espacio mediante la repeticin de estos dos pasos: Elige un ndice al azar Elige un nuevo valor para el acuerdo con Estos pasos definen una cadena de Markov reversible con la distribucin invariante deseada. Esto puede demostrarse de la siguiente manera. Definir si para todos y dejar que denota la probabilidad de un salto de a. Entonces, las probabilidades de transicin son As ya que es una relacin de equivalencia. As, las ecuaciones de balance detallados estn satisfechos, lo que implica la cadena es reversible y tiene distribucin invariante. En la prctica, el sufijo no es elegido al azar, y los ciclos de la cadena a travs de los sufijos en orden. En general, esto da un proceso de Markov no estacionario, pero cada paso individual ser todava ser reversible, y el proceso en general todava tendr la distribucin estacionaria deseada.

Variaciones y extensiones
Existen numerosas variaciones del muestreador bsica Gibbs. El objetivo de estas variaciones es reducir la autocorrelacin entre las muestras suficientemente para superar los costes computacionales aadido.

Bloqueado muestreador de Gibbs

A bloqueados Gibbs sampler grupos de dos o ms variables juntas y muestras de su distribucin conjunta condicionadas a que todas las dems variables, en lugar de una muestra de cada uno de ellos individualmente. Por ejemplo, en un modelo oculto de Markov, un muestreador Gibbs bloqueado puede degustar de todas las variables latentes que componen la cadena de Markov de una sola vez, mediante el algoritmo de adelante-atrs.

Collapsed muestreador de Gibbs

Un muestreador de Gibbs colapsado integra a cabo una o ms variables cuando se toman muestras para alguna otra variable. Por ejemplo, imaginemos que un modelo consiste en tres variables A, B, y C. Un simple muestreo de Gibbs se muestra a partir de p, entonces p, entonces p. Un muestreador de Gibbs colapsado podra reemplazar el paso de muestreo para A con una muestra tomada de la distribucin marginal de p, con B variable de integrarse a cabo en este caso. Por otra parte, la variable B podra ser derrumbado por completo, alternativamente muestras de p y p y no probar ms de B en absoluto. La distribucin de ms de una variable A que surge cuando el colapso de una variable primaria B se llama una distribucin compuesto; muestreo de esta distribucin es generalmente tratable cuando B es el conjugado antes para A, particularmente cuando A y B son miembros de la familia exponencial. Para obtener ms informacin, vea el artculo sobre la distribucin de compuestos o Liu.

La implementacin de un muestreador Gibbs colapsado Colapso distribucin Dirichlet En los modelos jerrquicos bayesianos con las variables categricas, como la asignacin de Dirichlet latente y varios otros modelos utilizados en el procesamiento del lenguaje natural, es bastante comn para colapsar las distribuciones de Dirichlet que se utilizan tpicamente como distribuciones previas sobre las variables categricas. El resultado de este colapso introduce dependencias entre todas las variables categricas que dependen de un dado antes de Dirichlet, y la distribucin conjunta de estas variables despus de colapsar es una distribucin de Dirichlet-multinomial. La distribucin condicional de una variable categrica dada en esta distribucin, condicionada a los otros, asume una forma muy simple que hace el muestreo Gibbs incluso ms fcil que si el colapso no se haba hecho. Las reglas son las siguientes:

Colapso un nodo antes de Dirichlet slo afecta a los padres y los nodos secundarios de la anterior. Dado que los padres a menudo es una constante, es por lo general slo a los nios que tenemos que preocuparnos. Colapso un antes Dirichlet introduce dependencias entre todos los hijos dependientes categricas que antes - pero sin dependencias adicionales entre los ms hijos categricas. Tras el colapso, la distribucin condicional de uno los hijos a cargo de los dems supone una forma muy simple: La probabilidad de ver a un valor dado es proporcional a la suma de la hyperprior correspondiente a este valor, y el recuento de todos los otros nodos que dependen de asumir el mismo valor. Los nodos que no dependen de la misma antes no deben ser contados. Tenga en cuenta que la misma regla se aplica en otros mtodos de inferencia iterativos, como variacional Bayes o la maximizacin de la expectativa, sin embargo, si el mtodo consiste en mantener los recuentos parciales, a continuacin, los cargos parciales para el valor en cuestin deben ser resumidas en todos los dems nodos dependientes. A veces, este recuento parcial resumido se denomina el recuento esperado o similar. Tenga en cuenta tambin que la probabilidad es proporcional al valor resultante; la probabilidad real debe ser determinada mediante la normalizacin a travs de todos los valores posibles que la variable categrica puede tomar. Si un nodo categrica dada tiene hijos a su cargo, el valor calculado en el paso anterior debe ser multiplicado por las probabilidades condicionales reales de todos los nios que recibieron sus padres. Ver el artculo sobre la distribucin Dirichlet-multinomial para una discusin detallada. En el caso en el que la pertenencia al grupo de los nodos dependientes en un dado antes de Dirichlet puede cambiar dinmicamente dependiendo de alguna otra variable, los mismos recuentos esperados se calcularon todava, pero necesitan ser hecho cuidadosamente de modo que se incluye el conjunto correcto de las variables. Ver el artculo sobre la distribucin Dirichlet-multinomial para ms debate, incluso en el contexto de un modelo de tema. Colapso otros priores conjugadas En general, todo conjugado con anterioridad puede ser derrumbado a cabo, si sus hijos nicos tienen distribuciones conjugan a la misma. La matemtica correspondiente se discute en el artculo sobre las distribuciones compuestas. Si slo hay un nodo secundario, el resultado ser a menudo suponen una distribucin conocida. Por ejemplo, el colapso de la varianza inversa-gamma-distribuido de una red con un solo nio Gauss rendir distribucin t de Student. Si hay varios nodos secundarios, todos se vuelven dependientes, como en el caso Dirichletcategrica. La distribucin conjunta resultante tendr una forma cerrada que se asemeja en cierto modo la distribucin de compuesto, a pesar de que tendr un producto de un nmero de factores, uno para cada nodo hijo, en ella. Adems, y lo ms importante, la distribucin condicional que resulta de uno de los nodos secundarios dados los otros tendr la misma densidad que la distribucin posterior de prediccin de todos los nodos secundarios restantes. Por otra parte, la distribucin posterior de prediccin tiene la misma densidad que la distribucin compuesto bsico de un solo nodo, aunque con diferentes parmetros. La frmula general es dado en el artculo sobre distribuciones compuestas.

Por ejemplo, dada una red de Bayes con un conjunto de nodos de Gauss-condicionalmente independientes distribuidas idnticamente distribuidas con distribuciones previas conjugadas colocados en la media y la varianza, la distribucin condicional de un nodo dado los otros despus de la composicin a cabo tanto la media y la varianza ser un distribucin t de Student. Del mismo modo, el resultado de la composicin a cabo la gamma antes de un nmero de nodos de Poisson-distribuidos hace que la distribucin condicional de un nodo dado los otros a asumir una distribucin binomial negativa. En estos casos en los que produce una distribucin de composicin conocida, a menudo existen procedimientos de muestreo eficientes, y su uso a menudo ser ms eficiente que no colapso, y en lugar de toma de muestras tanto nodos secundarios antes y por separado. Sin embargo, en el caso en el que no es bien conocida la distribucin compuesto, que puede no ser fcil de la muestra a partir, ya que generalmente no pertenecen a la familia exponencial y por lo general no ser log-cncava. En el caso de que los nodos secundarios de los nodos se derrumb su vez tienen hijos, la distribucin condicional de uno de estos nodos secundarios dados todos los otros nodos en el grfico se han de tener en cuenta la distribucin de estos nios y nias de segundo nivel. En particular, la distribucin condicional resultante ser proporcional a un producto de la distribucin del compuesto como se ha definido anteriormente, y las distribuciones condicionales de todos los nodos secundarios dados sus padres. Esto se deduce del hecho de que la distribucin condicional completa es proporcional a la distribucin conjunta. Si los nodos secundarios de los nodos colapsados son continuas, esta distribucin generalmente no ser de una forma conocida, y puede ser bien difcil de muestra a partir del hecho de que a pesar de la forma cerrada se puede escribir, por las mismas razones, como se describe anteriormente para no -bien conocido distribuciones compuestas. Sin embargo, en el caso particular de que los nodos secundarios son discretos, el muestreo es factible, independientemente de si los hijos de estos nodos secundarios son continua o discreta. De hecho, el principio implicado aqu se describe con detalle justo en el artculo sobre la distribucin Dirichlet-multinomial.

Gibbs sampler con sobrerelajacin ordenado

Un muestreador de Gibbs con muestras sobrerelajacin ordenados un nmero determinado impar de valores candidatos para en cualquier paso dado y los clasifica, junto con el valor nico de acuerdo con algn bien definido pedido. Si es la ms pequea sth en la lista ordenada, entonces el se ha seleccionado como el ms grande sth en la lista ordenada. Para obtener ms informacin, consulte Neal.

Otras extensiones
Tambin es posible extender el muestreo de Gibbs de diversas maneras. Por ejemplo, en el caso de variables cuya distribucin condicional no es fcil de muestrear a partir de, una nica iteracin de muestreo rebanada o el algoritmo de Metropolis-Hastings se puede utilizar para tomar muestras de las variables en cuestin. Tambin es posible incorporar variables que no son variables aleatorias, pero cuyo valor se determinista calculado a partir

de otras variables. Modelos lineales generalizados, por ejemplo, regresin logstica, se puede incorporar de esta manera.

Modos de fallo
Hay dos maneras de que el muestreo Gibbs puede fallar. La primera es cuando hay islas de los estados de alta probabilidad, sin caminos entre ellos. Por ejemplo, considere una distribucin de probabilidad sobre vectores de 2 bits, donde los vectores y cada uno tienen probabilidad, pero los otros dos vectores y tienen probabilidad cero. El muestreo de Gibbs se convertir atrapado en uno de los dos vectores de alta probabilidad, y nunca llegar a la otra. Ms en general, para cualquier distribucin de los vectores de alta dimensin, con valores reales, si dos elementos particulares del vector estn perfectamente correlacionados, los dos elementos se volvern atrapados, y el muestreo Gibbs nunca sern capaces de cambiarlos. El segundo problema puede ocurrir incluso cuando todos los estados tienen probabilidad distinta de cero y no hay una sola isla de los estados de alta probabilidad. Por ejemplo, considere una distribucin de probabilidad sobre vectores de 100 bits, en donde el vector de todos ceros se produce con una probabilidad, y todos los otros vectores son igualmente probables, y as tener una probabilidad de cada uno. Si desea calcular la probabilidad de que el vector cero, sera suficiente para tener 100 o 1000 muestras de la verdadera distribucin. Eso sera muy probable que se requiera una respuesta muy cerca. Pero probablemente tendra que tomar ms de las muestras de Gibbs de muestreo para obtener el mismo resultado. Ningn ordenador puede hacer esto en la vida. Este problema se produce independientemente de la duracin del periodo de rodaje es. Esto es porque en la verdadera distribucin, el vector cero se produce la mitad del tiempo, y esos sucesos se mezclan al azar con los vectores distintos de cero. Incluso una pequea muestra ver ambos vectores cero y distinto de cero. Pero muestreo Gibbs se alternar entre volver slo el vector cero durante largos perodos, a continuacin, slo vectores distintos de cero durante largos perodos. As, la convergencia a la verdadera distribucin es extremadamente lento, que requiere mucho ms que los pasos; tomar esta cantidad de pasos no es computacionalmente factible en un perodo de tiempo razonable. La convergencia lenta aqu puede ser visto como una consecuencia de la maldicin de la dimensionalidad. Tenga en cuenta que un problema como este puede ser resuelto por el bloque de toma de muestras del vector de 100 bits completo de una vez.

Software
El software OpenBUGS hace un anlisis bayesiano de modelos estadsticos complejos utilizando la cadena de Markov Monte Carlo. PUNTAS es un programa GPL para el anlisis de los modelos jerrquicos bayesianos utilizando Markov Chain Monte Carlo.

Iglesia es un software libre para la realizacin de Gibbs inferencia sobre distribuciones arbitrarias que se especifican como programas probabilsticos.

You might also like