You are on page 1of 11

Tema 8: Inferencia Bayesiana de filogenias Curso Fundamental de Inferencia Filogenética

Molecular. Junio 2007, Cuernavaca Mor. México,
http://www.ccg.unam.mx/~vinuesa/Cursos2RMBF
Inferencia bayesiana de filogenias moleculares Protocolo básico para un análisis filogenético de
secuencias moleculares

Pablo Vinuesa (vinuesa@ccg.unam.mx) Colección de secuencias homólogas
• BLAST y FASTA
Progama de Ingeniería Genómica, CCG, UNAM
Alineamiento múltiple de secuencias
http://www.ccg.unam.mx/~vinuesa/
• Clustal, T-Coffee ...
Tutor: PDCBM, Ciencias Biológicas, PDCBioq. y
Profesor de la Lic. Ciencias Genómicas y posgrado Análisis evolutivo del alineamiento y selección del modelo de sustitución más ajustado

• tests de saturación, modeltest, ...

Estima filogenética
Tema 8:
-5800

-5900 • NJ, ME, MP, ML, Bayes ...
-6000 Inferencia
-6100 Bayesiana de Pruebas de confiabilidad de la topología inferida
-6200 filogenias
• proporciones de bootstrap
-6300
probabilidad posterior ...
-6400

-6500
Interpretación evolutiva y aplicación de las filogenias
0 500000 1000000 1500000 2000000 2500000 3000000

Inferencia filogenética molecular – Métodos de reconstrucción filogenética –
clasificacón de métodos
La alteranativa bayesiana
Podemos clasificar a los métodos de reconstrucción filogenética en base a:

1. el tipo de datos que emplean (caracteres discretos vs. distancias) • Aproximaciones tradicionales (ML, MP ...)
2. En base al método de reconstrucción de la topología.
método algorítmico vs. un criterio de optimización 1.- la búsqueda tiene por objetivo encontrar la topología óptima (estima puntual)

Tipo de datos MLE
El cálculo de la función
global de verosimilitud LH
caracteres
distancias discretos LH puede tardar días o meses
si el problema de inferencia
Método de reconstrucción

LH = Pr(D|H) = Pr(D|τυφ) es muy complejo:
agrupamiento
algoritmo de

UPGMA (muchos OTUs, patrón
complejo de sustituciones
Neighbour “espacio” de topologías
y modelo rico en parámetros)
joining

MP 2. no pueden establecer el soporte relativo de las biparticiones a partir de una
optimización

única búsqueda
criterio de

Evolución
ML (MV)
mínima
- requerimos hacer análisis de bootstrap o jackniffing para obtener una
bayesiana medida de soporte de los clados

© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx,
http://www.ccg.unam.mx/~vinuesa/index.html 1

no busca una sola topología óptima sino una población de árboles muestreados en función de su propabilidad posterior (pP) .6) © Pablo Vinuesa 2007. Cuernavaca Mor. bayesianas en estadística .el teorema de Bayes .6 • Pr(D) = prob. asegurando que la sumatoria de pP = 1 Pr(H|D) = Pr(urna A|sacamos bola negra) = = 1/3 = 0.el teorema de Bayes • Teorema de Bayes generalizado por Laplace (1763) .unam.un ejemplo sencillo en un marco de datos discretos Cada urna cuenta con millones de bolas blancas y negras Urna A Urna B Pr(H) Pr(D|H) A = datos = D 40% 80% D = 1 bola negra.unam. condicional de uno de los eventos Pr(τi) Pr(X|τi) pP intervalo pP(τi |X) = B(s) dado el otro (A dado B. http://www.67 (0.mx/~vinuesa/index.5)(0. Funciona como constante nor. anterior de cada urna = 0.5 Pr(D)=Pr(bola negra) = (0.Tema 8: Inferencia Bayesiana de filogenias Curso Fundamental de Inferencia Filogenética Molecular.ccg. A y B.8 • Aproximación bayesiana: nos permite seleccionar una prob. México.8)=0. que puede ser obtenida usando la ley de la prob.6) (0.5)(0.unam. posterior. incondicional de H dos urnas: la prob. de A y B = a la prob. multiplicado por la probabilidad de la condición) de confianza ∑j=1 Pr(τi) Pr(X|τi) del 95% probabilidad de los Pr(A.5)(0. calculando ∑H P(H) P(D|H). total. de bolas blancas y negras en las • Pr(H) = probabilidad anterior.B) = Pr(A) Pr(B|A) = Pr(B) Pr(A|B) “espacio” de topologías (τi ) datos (= constante normalizadora) dividiendo por Pr(A) Pr(B) Pr(A|B) . PB = 0.mx. vinuesa@ccg. H2: proviene de B Teorema de Bayes: Pr(H|D) = B = hipótesis o parámetro = H bolas bolas Pr(D) negras negras ¿Cuál es la probabilidad de que la bola haya salido de la urna A ó B? • Pr(D|H) = prob.33 Pr(D) (0. la prob. incondicional de los D. http://www.4.mx/~vinuesa/Cursos2RMBF Métodos de reconstrucción filogenética – Inferencia bayesiana • Thomas Bayes (1702-1761) La alteranativa bayesiana . es la prob.ccg.Esta interrelación viene dada por el teorema de Bayes. H1: proviene de A.4) + (0.html 2 . conj. probabilidad de H (o valor del parámetro).La inferencia bayesiana se basa la interrelación cuantitativa entre la • Aproximación bayesiana función de verosimilitud y las distribuciones anteriores y posteriores de probabilidad . el cual permite calcular la probabilidad posterior a partir de la verosimilitud y probabilidad probabilidad verosimilitud anterior de los datos. dados D (¡¡Esto es la VEROSIMILITUD DE LOS DATOS!!) • Aproximación frecuentista: PA = 0.4) malizadora.la muestra de árboles obtenidos (τi ) en una sola sesión de “búsqueda” Teorema de Bayes: Pr(B|A) = es usada para valorar el soporte de cada split en términos de pP A = datos Pr(A) B = hipótesis o parámetro Inferencia bayesiana Perspectivas frecuentistas vs. Junio 2007. anterior que refleje por ejemplo nuestra ignorancia acerca de la distrib. está basada en la definición de probabilidades conjuntas: anterior (prior) (Para dos eventos. Pr(H) Pr(D|H) (0.5)(0. ó B dado A).8) Pr(urna B|sacamos bola negra) = = 2/3 = 0.

La probabilidad o información anterior pude estar basada en datos experimentales previos. se considera la evidencia en favor de determinados valores de parámetros (θ ) • Una crítica a las aproximaciones bayesianas radica en la subjetividad de los priors .4) bolas bolas Pr(urna A|sacamos bola negra) = = 0. bayesianas . Resultados extremos del valor observado se toman como evidencia en contra de H0. Cuernavaca Mor.mx/~vinuesa/Cursos2RMBF Perspectivas frecuentistas vs.conclusiones estadísticas • En la estadística bayesiana.52 Pr(D) Urna A Urna B . al tiempo prior decrece a medida que incrementa la cantidad de datos (la función de que toma en cuenta la incertidumbre en la estima de los parámetros “fastidiosos” verosimilitud “pesa más” en el análisis. vinuesa@ccg. que es lo que queremos por lo general ⇒ rechazo H0 con P< 0.3)(0. en cambio.para evaluar la evidencia en contra de H0. es decir.67 (0.8) = 0.ccg.7)(0. Urna A Urna B Pr(urna A|sacamos bola negra) = = 1/3 = 0. filogenias de ML vs. pero difíciles de interpretar.unam. 0.67) Pr(θ) Pr(D|θ) Pr(θ |D) = Pr(D)=Pr(bola negra) = (0.67) es la versión actualizada de la .generalmente se asume una H0 de no diferencia entre dos cantidades.ccg.3)(0. de hecho el efecto del . México.5)(0.nótese que en el ejemplo de las 2 urnas y la bola negra (con un solo dato) sería necesario la distribución condicional de θ en base a los datos.05 del 95% Perspectivas frecuentistas vs. http://www. 0. bayesianas .4) intervalo de confianza (ambos son declaraciones de frecuencia a largo plazo).5)(0.¿Se trata de una moneda corriente? • Una de las grandes ventajas de la aproximación bayesiana sobre la frecuentista radica en el hecho de calcular probabilidades para las hipótesis (o valores de los parámetros) de interés.unam.6) .6) .En muchos casos la aproximación bayesiana permiten abordar las preguntas de manera . las conclusiones no son generalmente muy sensibles al prior. 40% 80% (0. Las verosimilitudes son útiles.html 3 . . distribución anterior (0. según el teorema de Bayes (0.Además.33 40% 80% (0. La aproximación bayesiana permite estimar la proba.52) .8) negras negras Pr(urna B|sacamos bola negra) = = 2/3 = 0.54 en consideraciones teóricas o de otra índole. Junio 2007. De los datos bolas bolas experimentales se calcula el valor muestral de un estadístico adecuado (0. se compara el valor muestral para el estadís- tico con su distribución bajo H0.es importante distinguir entre información anterior (prior) de los parámetros de interés y parámetros “fastidiosos” (requeridos para definir un problema o modelo) .mx.52) la información de los datos analizados para generar la distribución posterior (actualizada) negras negras de los parámetros.unam.5. Ej. H0: la moneda no está trucada • La distribución posterior se puede concebir como una versión actualizada de la distribución beta para H0 distribución anterior (después de haber visto los datos) • Ej: lanzo una moneda 100 veces • En nuestro caso la distribución posterior (0. bayesianas en estadística Perspectivas frecuentistas vs. .la inferencia se basa en la distribución posterior del parámetro Pr (θ|D). 0. bayesianas Perspectivas frecuentistas vs. ya que representan la probabi- lidad de los datos dada la hipótesis.mx/~vinuesa/index. la subjetividad inherente al prior es explícita y por tanto ha de ser defendible © Pablo Vinuesa 2007.un ejemplo sencillo en un marco de datos discretos .Aunque la distribución posterior siempre cambia cuando lo hace la probabilidad anterior.el marco bayesiano permite hacer inferencias sobre el parámetro de interés. según el teorema de Bayes estipular un probabilidad anterior > 2/3 para la urna A para hacer “empatar o revertir” el resultado anterior (0.7)(0.conclusiones estadísticas .33.46 (0.Tema 8: Inferencia Bayesiana de filogenias Curso Fundamental de Inferencia Filogenética Molecular.12 confianza bilidad de la hipótesis dados los datos. Esta información previa es combinada con (0.De ahí que los análisis bayesianos generalmente comienzen con priors vagos más directa que los métodos clásicos.4) + (0.8) Pr(urna B|sacamos bola negra) = = 0. bayesianas .observo 12 veces sol. intervalo de dato observado = 0. o en un (0.5). La evidencia para actualizar la distribución fue el evento de haber sacado una bola negra . http://www.conclusiones estadísticas • Las conclusiones estadísticas en un marco frecuentista se basan en un valor de P.33.

la probabilidad posterior de un árbol. Junio 2007.55 de obtener soles . si es < R se acepta el nuevo estado muchísimas más dimensiones que explorar y no se pueden representar gráficamente 6. Se calcula el cociente de probabilidades R (o funciones de densidad probabilística) 3-dimensional. dicho árbol o clado sea correcto mientras que muchos de los parámetros de interés (ν. se usó el programa Bayesian coin-tosser de P.la cadena visita estados (árboles) proporcionalmente a su pP © Pablo Vinuesa 2007.θ) f(X|τi. 2001.2 (s . http://www.θ) dνdθ B(s) (beta 1. Se utilizaron dos priors. la densidad posterior se torna en una superficie en un espacio multidimensional (una dimensión más que paráme- 1. para cada árbol. Si R ≥ 1 se acepta el nuevo estado (es decir.. hace falta visualizar la distribución posterior para hacer inferencias de ella . en la que p = altura de las mujeres y q = altura de los hombres.ν.mx/~vinuesa/Cursos2RMBF Inferencia bayesiana con parámetros (hipótesis) contínuos Estima bayesiana de filogenias . no enraiz.νi.) son contínuos. Si R < 1 se toma un numero aleatorio entre 0 y 1. aleatorio es > R se rechaza Tj como nuevo estado y se continua con Ti . valores mejores de pP siempre se aceptan) .MCMC Estima bayesiana de filogenias MCMC crea una cadena de Markov cuyo espacio es la hipótesis de interes (τ.existen métodos numéricos que permiten aproximar la probabilidad posterior de un Distribuciones de densidad anteriores y posteriores del parámetro p (probabilidad de árbol (o de cualquier otra hipótesis compleja).esto no representa un problema ya que no 7. Parte de un estado inicial aleatorio (Ti = pP del árbol i ) tros a estimar) 2. vinuesa@ccg. ej. Lewis) representa la distribución de densidad probabilística posterior para inferencias complejas Reconstrucción filogenética bayesiana .Tema 8: Inferencia Bayesiana de filogenias Curso Fundamental de Inferencia Filogenética Molecular. http://www. aunque fácil de formular.3)!/2s .se trata de una cadena de Markov ya que se trata de un proceso estocástico en el que el siguiente estado depende sólo del estado actual y no del anterior . pero el teorema de Bayes sigue siendo aplicable Pr(D) .es imposible estimar dicha pP analíticamente ni siquiera para el caso más simple de 4 OTUs ( (2s . México. Cuernavaca Mor.unam. tendríamos una distribu- R = f(Tj)/f(Ti) = ción posterior normal bivariada 4.mx. implica la sumatoria densidad de probabilidad densidad de probabilidad posterior posterior sobre todos los árboles (τ) y.cadenas markovianas de Monte Carlo distribución estacionaria (equilibrio) es la distribución deseada (pP).ccg.para problemas filogenéticos tendríamos 5.unam. y es en ello en lo que MCMC nos salva . de rama.νi.la probabilidad posterior de un árbol puede interpretarse como la probabilidad de que • En filogenética las topologías y caracteres ancestrales representan carcteres discretos. Pasos de la cadena según el algoritmo de Metropolos-Hastings (M-H): • Para el experimento de lanzado de una moneda se podía representar la densidad posterior como una curva en un espacio 2-dimensional. Se propone un nuevo estado próximo al anterior (Tj) - (i. Para ellos las Pr(Arbol) Pr(D|Arbol) funciones de densidad probabilística reemplazan las probabilidades de las hipótesis Pr(Arbol |D) = discretas. Si el no. .cadenas markovianas de Monte Carlo .mx/~vinuesa/index..MCMC se basa en el muestreo de una distribución simulada en vez de calcular dicha distribución mediante integración.e. α. Así es posible aproximar el área bajo la curva que (Ejemplo adaptado de Lewis. El más útil es el de las cadenas soles) de un experimento de lanzado de monedas (10 repeticiones) con 6 soles como markovianas de Monte Carlo (MCMC). puede explorar todo el espacio del parámetro). para arb. mostrándose el efecto que tienen sobre la Hastings probabilidad posterior de que obtengamos valores entre 0.2) ∑j=1 f(τi) f(X| τi) . un problema sencillo de 2 parámetros como el de hacer inferencias sobre la altura de mujeres y hombres en una población implica una superficie de densidad 3.funciones de densidad probabilística . con varianzas conocidas. implementado en algoritmos como el de Metropolis- resultado. θ) y cuya .2)! topologías y 2n-3 long. la integración sobre todas las posibles combinaciones de longitudes de rama (ν) y parámetros (θ) del modelo de sustitución prior no prior f(τi) f(X|τi) informativo informativo f(τi|X) = f(X|τi) = ∫ ν ∫ θ f(τi.así p.1) (beta 2. entre Tj y Ti Asumiendo una distribución normal. Se vuelve al paso 2 => la cadena no tiene fin.html 4 .lo que necesitamos es poder calcular los volúmenes bajo ella.unam.45 y 0.) p p .ccg. Con más de 1 parámetro. Κ .

Así si de 106 muestras (τi ) un clado es recuperado filogenias es MrBayes 3.cuanto más tiempo se le dé al robot para “pasear” por el espacio paramétrico. mejor será para las simulaciones la aproximación al volumen real se usó el programa . usando el (esp. México.unam.Tema 8: Inferencia Bayesiana de filogenias Curso Fundamental de Inferencia Filogenética Molecular. sólo hay que contar n = 2000 el número de pasos dados dentro de dicho círculo y dividirlos por el no.net © Pablo Vinuesa 2007. 86 los puntos del espacio de (esp. ext. Bioinformatics 17:754-755 Para modelos de múltiples parámetros (filogenia) MCMC puede actualizar los estados de esos . 2001. Huelsenbeck JP (2003) Bioinformatics 19:1572-1574 parámetros simultánea o individualmente.Huelsenbeck. Evol.unam. B. J. BAMBE. 1996. Lewis % dentro circ.Larget.mrbayes. http://www. S. and Simon. University of Wisconsin. Lewis Métodos de reconstrucción filogenética Estima bayesiana de filogenias usando . P. Duquesne Univ. L. B.1 (Ronquist and Huelsenbeck. 2005) en 975676 de ellas => que dicho clado tiene una pP ≈ 0.la alteranativa bayesiana MrBayes 3. Mol.unam.6 Nota: ejemplo de una MCMC en acción. Columbus propabilidad posterior (pP) .Simon. 16:750-759 “espacio” de topologías (τi ) http://www. B. Z. Madison . Esto vale para estimar el volumen bajo cualquier porción especificada del espacio . and Larget. Cuernavaca Mor. 475. Molec. 223) programa MCRobot escrito por P. 430) parámetros son muestreados proporcionalmente a su • Dado el algoritmo de MH se demuestra que el “robot” visita puntos proporcionalmente a su valor de densidad posterior altura.si se descartan los ptos. 43:304-311 Pr(τi) Pr(X|τi) pP(τi |X) = B(s) ∑j=1 Pr(τi) Pr(X|τi) • El primer programa que implementaba eficientemente algoritmos de MCMC para la infe- pP intervalo rencia bayesiana de filogenias fue puesto en el dominio público en 1998 de confianza del 95% .html La proporción de veces que la cadena visita un cierto estado es una aproximación valida de la • El programa actualmente más versátil y completo para la inferencia bayesiana de pP de ese estado (e. 1998. D. árbol filogenetico). B. and Yang.edu/larget/bambe. Ohio State University. la cadena está visitando estados MCRobot de en proporción a su densidad probabilística P. int: 44.. 2003) • Aproximación bayesiana • Los métodos bayesianos fueron introducidos al campo de la filogenética en 1996 .1. PhD thesis.1. Pittsburgh . obs. D. para aproximar el volumen dentro del círculo interno.html 5 .cadenas markovianas de Monte Carlo exploración de una distribución posterior normal bivariada n = 500 95% 50% puntos muestreados: 500 n = 1000 % dentro circ.ccg.ccg. 250. Biol. fuera de los círculos (“burnin”).duq.Mau. http://www. Junio 2007. vinuesa@ccg.O. J. obs.mx/~vinuesa/index.Li.g. F. PhD thesis.se muestrea una población de árboles en función de su .mx/~vinuesa/Cursos2RMBF Estima bayesiana de filogenias cadenas markovianas de Monte Carlo - .1 (publicado bajo GNU license.mx.. and Ronquist.98 . www.maths.Rannala.por lo tanto. total de pasos dados. que equivale a la densidad de probabilidad posterior de un problema bayesiano . Evol.Ronquist F. 1999.

[dimensiones de la matriz] • Además de la computadora y el programa necesitamos: bloque format datatype=DNA interleave=yes gap=.Un modelo probab. 3.. o modelos morfológicos end.. de nt o aas. preferiblemente 512 o mejor aún 1 Mb) si se pretenden analizar matrices de datos > 20 OTUs begin data.2 savebrlens=yes.Los datos (X): secuencias (nt y aa) u otros caracteres discretos (morfológicos BC_C1 CCGACTCCGAACTTGCGCGG CAAAACTCAGATCAAGGAAT . 6 tasas Nopresencesites All Parsmodel No/Yes No © Pablo Vinuesa 2007. de bases: πA= πC=πG= πT distinta frec..los datos y un bloque de comandos sencillo • Los datos (X): se presentan en una variante del formato NEXUS (como el que usan PAUP* • MrBayes3 está escrito para diversas plataformas (UNIX. o modelos de sust. basados en matrices empíricas (JTT.. ti and tv..freq. α≠β Nbetacat <number> 5 Omegavar Equal/Ny98/M3 Equal Hasegawa-Kishino-Yano (HKY85). sitios invariantes . 2.html 6 .. que es ignorado por MrBayes] (CPU de alto rendimiento. [modelo GTR+I+G] de . México.modelos de sust. <parameter>=<option> igual frecuencia de bases: πA= πC=πG= πT todas las sustituciones tienen igual tasa α=β . α) mcmc ngen=3000000 printfreq=5000 samplefreq=100 comandos nchains=4 temp=0. de nt (4X4) • Lset • Modelos de evolución de DNA de la familia GTR o REV implementados en MrBayes3.missing=?..Tema 8: Inferencia Bayesiana de filogenias Curso Fundamental de Inferencia Filogenética Molecular.unam.. Cuernavaca Mor. bases acomodan sesgo tasas sust. http://www. Su uso es: Jukes-Cantor (JC69) lset <parameter>=<option> .modelos de sust.1 .1 MrBayes 3. y 6 tasas de sust.1 Es el comando que activa los parámetros del modelo de verosimilitud.mx. Junio 2007. ti/tv Ploidy Haploid/Diploid Diploid Rates Equal/Gamma/Propinv/Invgamma/Adgamma Equal distintas frecs.heterogeneidad de tasas (I.mx/~vinuesa/Cursos2RMBF Estima bayesiana de filogenias usando Estima bayesiana de filogenias usando MrBayes 3. MrBayes • Para ver las opciones de comandos en MrBayes usar el comando <help> ó <help comando> quit Estima bayesiana de filogenias usando MrBayes 3. http://www. tasas relativas de sust. de aa. [formato de la matriz] matrix de 1. WAG.unam.topología.1.. vinuesa@ccg. dimensions ntax=38 nchar=1104. α=β Nst 1/2/6 1 Code Universal/Vertmt/Mycoplasma/ Yeast/Ciliates/Metmt Universal acomodan ≠ frec. distribución gamma de variación de tasas entre sitios y prop..1 Estima bayesiana de filogenias usando MrBayes 3.) BC_P14 ??GACTCCGAACTTGCGCGG CAAAACACAGATCAAGGAAT .. [detalles de la cadena de MCMC] de end. de bases: πA≠ πC≠πG≠ πT Nucmodel 4by4/Doublet/Codon 4by4 distintas tasas de sustitución ti y tv. datos sitios de restricción etc. 2. α≠β igual tasa de sustitución ti y tv. PIV) y con al menos 256 Mb de RAM.por ejemplo.mx/~vinuesa/index.) BC_P6 CCGACACCGAATTTGCGCGG CAAAACTCAGATCAAGGAAT .ccg.. de nt (4X4) .1.Probabilidades anteriores para todos los parámetros del modelo: . "lset nst=6 rates=gamma" para especificar el modelo GTR+G acomodan sesgo ti/tv acomodan distintas frecuencias de bases Default model settings: Parameter Options Current Setting Kimura 2 parameter (K2P) Felsenstein (F81) ------------------------------------------------------------------ igual frec.) BC_C2 CCGACTCCGAACTTGCGCGG CAAAACTCAGATCAAGGAAT . bloque .. Lset nst=6 rates=invgamma Ngammacat=6. bases: πA ≠ πC ≠ πG ≠ πT Ngammacat <number> 4 distintas tasas de sust.unam.ccg.1 (Ronquist and Huelsenbeck. 2 tasas Covarion No/Yes No ó Coding All/Variable/Noabsencesites/ General time reversible (GTR). Windows y Macintosh) y MacClade) y se maneja de igual manera en las tres plataformas a nivel de línea de comandos #NEXUS • Para correrlo eficientemente se necesita una computadora razonablemente rápida [En corchetes puede ir cualquir comentario.. de evolución (modelos de la familia GTR (1. 2003) . BLOSUM .. longitudes de rama (2n-3) begin mrbayes.

N-1 de las cuales son cadena caliente”) cadenas “calentadas” por un factor B = 1 / (1 + temp Xi). México. o MCMCMC o MC3 en el que se corren N cadenas. http://www. todas las topologías tienen igual probabilidad y la cadena visita los árboles libremente.1 . se seleccionan dos caída cadenas al azar y se intenta cambiar los estados (la prob. Junio 2007.2. Se emplea generalmente MC3 ya que se produce un mejor “mezclado” que el obtenido me- diante MCMC. Además se puede correr un análisis de Metropolis-coupled Markov (“explorador en chain Monte Carlo".2 pasos normales quean cortos que ejecuta un análisis de MCMCMC con 4 cadenas y la temperatura (factor de calenta. MrBayes comienza su exploración partiendo de una topología y • Se construye una cadena estocástica de Markov que tiene por su estado espacial los longitudes de ramas aleatorias. Cuernavaca Mor.1 . Después de que todas las cadenas han terminado un ciclo. usando estrategias de MCMC similares a las empleadas por el programa MCRobot probabilidad probabilidad siempre depende del valor del parámetro de P(Tj) P(D|Tj) tasa de aceptación R = P(Ti) P(D|Ti) θ θ espacio paramétrico espacio paramétrico • En un análisis estándar.mx/~vinuesa/Cursos2RMBF Estima bayesiana de filogenias usando MrBayes 3. Cuando B = 0.análisis de MCMC ..html 7 . Después de cada genera- distribución posterior de probabilidad de los parámetros ción calcula el valor de la densidad posterior conjunta para la combinación actual de parámetros.mx/~vinuesa/index.el principio de Metropolis-coupled MCMC (MC3) • MCMC Este comando inicia el análisis de MCMC para aproximar la probabilidad posterior del árbol • las cadenas calientes hacen las veces de exploradores del espacio de parámetros filogenético (y parámetros del modelo de sustitución) mediante el muestreo de árboles de la para la cadena fría distribución posterior.ccg. acepta) el uso correcto del comando es: mcmc <parameter> = <value> . • Para una cadena de Markov adecuadamente construída y corrida durante suficientes vo estado tiene una mayor pP. Esto permite a la cadena “saltar” valles profundos. pasos largos sugeridos por el miento puesto en 0.unam. B es la potencia a la que se eleva la probabilidad posterior. del cambio viene determinada por caída pequeña la ecuación de Metropolis et al. http://www. B = 1 es la cadena “fría” (la distribución de interés).Tema 8: Inferencia Bayesiana de filogenias Curso Fundamental de Inferencia Filogenética Molecular. comparándola con la del estado previo. <parameter> = <value> por ejemplo: mcmc ngen=100000 nchains=4 temp=0.1 Estima bayesiana de filogenias usando MrBayes 3. pero con frecuencia cada vez menor a medida que es más ciclos resulta que la proporción de tiempo que cualquier topología particular es visitada bajo el valor de pP del nuevo estado (acorde a las reglas del algoritmo de M-H) representa una buena aproximación a la probabilidad posterior de dicho árbol Estima bayesiana de filogenias usando MrBayes 3.unam. Da el paso automáticamente si el nue.). Entonces comienza a dar pasos (generaciones) en las que parámetros del modelo estadístico y una distribución estacionaria que representa la varía modestamente el valor de uno o unos pocos parámetros.exploración del espacio paramétrico mediante MCMC .1 Estima bayesiana de filogenias usando MrBayes 3. Las grande (se acepta con frecuencia) cadenas secuencialmente calentadas “ven” un espacio paramétrico proporcinalmente más (no se suave (valles menos profundos entre picos).ccg.unam. vinuesa@ccg. ramas y parámetros del modelo de sustitución..exploración del espacio paramétrico mediante MCMC p (θ )l ( X | θ ) • MrBayes3 explora un espacio filogenético cuyas dimensiones vienen p (θ )l ( X | θ ) dadas por el número de topologías.mx. Las cadenas se corren por 100000 de generaciones “explorador” © Pablo Vinuesa 2007.

unam.00 v 0.mx/~vinuesa/Cursos2RMBF Estima bayesiana de filogenias usando MrBayes 3. vinuesa@ccg. México.el principio de Metropolis-coupled MCMC (MC3) Metropolis-coupled MCMC (MC3) • las cadenas fría y caliente intercambian sus estados (“chain swapping”) • las cadenas calientes hacen las veces de exploradores del espacio de parámetros para la cadena fría paisaje frío: picos separados por valles profundos paisaje caliente: picos separados por valles poco profundos MrBayes 3.1 Swapfreq Nswaps <number> <number> 1 1 A B C probabilidad Samplefreq <number> 100 1.mx/~vinuesa/index.unam.0 Printfreq <number> 100 Printall Yes/No Yes Printmax <number> 8 distribución anterior Mcmcdiagn Yes/No Yes Diagnfreq <number> 1000 Minpartfreq <number> 0.exploración del espacio pararmétrico mediante .10 Allchains Yes/No No Allcomps Yes/No No Relburnin Yes/No Yes Datos Burnin Burninfrac <number> <number> 0 0.0 Stopval <number> 0.ccg. Cuernavaca Mor.html 8 .<number> 0.1 Estima bayesiana de filogenias usando MrBayes 3.MCMC Seed <number> 1116367232 Distribuciones anteriores y posteriores en la inferencia bayesiana Swapseed <number> 1116367232 Ngen <number> 1000000 Nruns <number> 2 • Opciones por defecto Nchains <number> 4 del comando MCMC Temp <number> 0.00 ^ ∑j=1 Pr(τi) Pr(X|τi) en MrBayes3.ccg. Junio 2007.01 Filename <name> temp.mx.out.Tema 8: Inferencia Bayesiana de filogenias Curso Fundamental de Inferencia Filogenética Molecular.<p/t> Startingtree Random/User Random distribución posterior Nperts <number> 0 Savebrlens Yes/No Yes Ordertaxa Yes/No No © Pablo Vinuesa 2007.unam.1 Parameter Options Current Setting Estima bayesiana de filogenias usando MrBayes 3. http://www.200000 Pr(τi) Pr(X|τi) pP(τi |X) = B(s) (o MCMCP) Reweight <number>.25 (observaciones) probabilidad Stoprule Yes/No No 1.1 ----------------------------------------------------- .1 . http://www.

0. -6000 plot generacinal de –lnL para tres Lset nst=6 rates=invgamma Ngammacat=6.0.0) distintos settings de priors para cada partición.0) Este comando permite manipular los supuestos sobre los priors.ccg.50. Ny98omega3pr Uniform/Exponential/Fixed Exponential(1.mx/~vinuesa/Cursos2RMBF Estima bayesiana de filogenias usando MrBayes 3.1. México.0.0. -6100 cadenas MC3 independientes mcmc ngen=3000000 printfreq=5000 samplefreq=300 -6200 nchains=4 temp=0.0) Ratecorrpr Uniform/Fixed Uniform(-1.0.2) statefreqs=fixed(equal) (para JC y K2P) Brlenspr Unconstrained/Clock Unconstrained:Exp(10.0) Speciationpr Uniform/Exponential/Fixed Uniform(0.0.0..0) Symdirihyperpr Uniform/Exponential/Fixed Fixed(Infinity) Topologypr Uniform/Constraints Uniform prset applyto=(1.mx/~vinuesa/index.1.1) (para F81.unam.0) parámetro del modelo de verosimilitud (topología.0.1 Estima bayesiana de filogenias usando MrBayes 3..unam.1.1.100.0. de rama. long. Estos priors representan las ideas o hipótesis sobre la distribución de los Omegapr Dirichlet/Fixed Dirichlet(1.1 (priors) .0) Sampleprob <number> 1.1. http://www.definición de distribuciones de probabilidad anterior (priors) .1. 2 & 3 -ln of marginal likelihood begin mrbayes.mx. sólo la cadena fría es muestreada burnin • La distribución marginal de cualquier parámetro se puede obtener de esta muestra -5800 -5900 of Markov chains 1.10. HKY y GTR) Extinctionpr Uniform/Exponential/Fixed Uniform(0.. Ny98omega1pr Beta/Fixed Beta(1.1..0) parámetros previas a la observación de los datos.0. podemos definir Pinvarpr Uniform/Fixed Uniform(0.muestreo de la cadena estocástica de Markov .0) prset applyto=(3) statefreqs=dirichlet(1.0.1.muestreo de la cadena estocástica de Markov • ¿Cuantas generaciones he de correr la cadena (ngen=X)? • Tomar un árbol (posición del robot) cada 100-1000 ciclos de MCMC (adelgazamiento) Esto se controla con el el parámetro samplefreq del comando mcmc . end.2 savebrlens=yes.0.1.1.) • Conviene adelgazar la cadena para reducir el nivel de autocorrelación de las muestras .html 9 .definición de distribuciones de probabilidad anterior • Opciones por defecto del comando Prset • Prset Parameter Options Current Setting ------------------------------------------------------------------ Este comando especifica los priors del modelo filogenético.básicamente hasta que se alcance la estacionariedad y un mezclado adecuado de la cadena y se hayan colectado suficientes muestras (a veces limitado por disponibilidad de RAM .1.1. Covswitchpr Uniform/Exponential/Fixed Uniform(0.0.0) que determine de manera decisiva el resultado de un análisis Statefreqpr Dirichlet/Fixed Dirichlet Treeheightpr Exponential/Gamma Exponential(1. parámetros del modelo de Aamodelpr Fixed/Mixed Fixed(Poisson) Aarevmatpr Dirichlet/Fixed Dirichlet(1.1.1. http://www.0. -6400 -6500 0 500000 1000000 1500000 2000000 2500000 3000000 • los comandos sump y sumt nos dan un resumen del muestreo de parámetros y árboles de un análisis Generations • el parámetro burnin de los comandos mcmc o sump y sumt nos permiten determinar la cantidad de muestras a desechar (burnin = 300) © Pablo Vinuesa 2007. Junio 2007. Recuerden que en un análsis Tratiopr Beta/Fixed Beta(1.0.1.. vinuesa@ccg.ccg.0.0.Tema 8: Inferencia Bayesiana de filogenias Curso Fundamental de Inferencia Filogenética Molecular.0.0. -6300 .0) bayesiano hay que especificar una distribución de probabilidad anterior para cada Revmatpr Dirichlet/Fixed Dirichlet(1.prset applyto Shapepr Uniform/Exponential/Fixed Uniform(0.0) Estima bayesiana de filogenias usando MrBayes 3.idealmente debemos al menos repetir X2 un análsis para confirmar la convergencia • Si se usa MC3.1 Estima bayesiana de filogenias usando MrBayes 3.10.1 .unam.0) En el caso de un análisis complejo con múltiples particiones.00 Thetapr Uniform/Exponential/Fixed Uniform(0.0) M3omegapr Exponential/Fixed Exponential -En muchos casos se usan priors no informativos para que sea la función de verosimilitud la Codoncatfreqs Dirichlet/Fixed Dirichlet(1. Cuernavaca Mor.) sustitución).0) Ratepr Fixed/Variable=Dirichlet Fixed .10.

México. Microbiol.unam. Bollback JP (2001) Bayesian inference of phylogeny and its begin mrbayes. El objetivo es aproximar la pP usando un método MCMC como . Ronquist F. Alfaro ME. Britton T. Nieves-Aldrey JL (2004) Bayesian phylogenetic analysis of nchains=4 temp=0.MCMC .Abrimos el archivo de ayuda para ver los comandos disponibles phylogenetic confidence.unam. 20:248-254 MrBayes > help Lset 4. Martínez-Romero E (2005) Population genetics and phylogenetic y guardamos el archivo como primates_F81. Doolittle WF.Tema 8: Inferencia Bayesiana de filogenias Curso Fundamental de Inferencia Filogenética Molecular. 20:255-266 2. Syst. longitudes de rama y parámetros del modelo de sustitución: . Ronquist F. 2005.Markov Chain Monte Carlo (MCMC): toma muestras dependientes de la distribución de interés. Douzery EJ (2003) Comparison of Bayesian and maximum likelihood bootstrap measures of phylogenetic reliability. and their use in the classifi- cation of Sesbania microsymbionts from Venezuelan wetlands.Abrimos el archivo primates incluído en el directorio MrBayes y pegamos el 6.. Hemos visto que la verosimilitud de un set de datos de secuencias depende de del estado muestreado en el intervalo presente (Xt). 9. la pP para esta compleja distribución posterior conjunta no se puede resolver Metropolis-Hastings (MH) o MH-Green (MHG) analíticamente: hemos de aproximarla mediante MCMC Estima bayesiana de filogenias Estima bayesiana de filogenias usando MrBayes 3. Huelsenbeck JP. MCMC ha revolucionado la BI → permite tratar complejos problemas estadísticos de otro modo intratables (e. Nylander JA. Werner D. Inferencia Bayesiana en cambio se basa en la P posterior de la hipótesis => calcular la distribucion de la pP conjunta de todos los parametros del modelo como ML. PAML. Phylogenet.referencias recomendadas . Molecular systematics of rhizobia based on maximum likelihood and Bayesian phylogenies inferred from rrs. Science 294:2310-2314 mcmcp ngen=50000 printfreq=500 samplefreq=100 8. Buckley TR (2002) Model misspecification and probabilistic tests of topology: evidence from empirical MrBayes > help data sets. Biol. dado un set de datos: f(τi) f(X|τi) Algoritmos MCMC f(τi|X) = B(s) Habitualmente la distribución de la pP no puede ser analíticamente calculada porque no se ∑j=1 f(τi) f(X| τi) puede integrar. 53:47-67 end. filogenético. Mol. Huelsenbeck JP. grandes filogenias) y de un modo mucho más eficiente y tan preciso 2. Nielsen R.mx/~vinuesa/Cursos2RMBF Métodos de reconstrucción filogenética Reconstrucción filogenética bayesiana . impact on evolutionary biology. Nat. Boucher Y. 51:509-523 3. Erixon P. Svennblad B. PHYLIP. Syst. Huelsenbeck JP. Biol.html 10 . 52:665-673 5.unam.1 . etc.g. Silva C. 34:29-54 3.la alteranativa bayesiana Recapitulación: . la estima de pP se puede aproximar adecuadamente . vinuesa@ccg. Vinuesa P. Ronquist F (2002) Potential applications and pitfalls of Bayesian siguiente bloque de comandos al final del bloque de datos: inference of phylogeny.uso práctico del programa 1..Ejecutamos el archivo primates_F81. El método de ML trata de estimar estos parámetros buscando los valores que (Ley de los grandes numeros). atpD. P. Oxelman B (2003) Reliability of Bayesian posterior probabilities and MrBayes > help mcmc bootstrap frequencies in phylogenetics. y no en el anterior (cadena de Markov) los siguientes parámetros desconocidos: topología.mx. http://www. combined data. Miller RE.. Mol. Junio 2007. Bioinformatics 19:1572-1574 10. Silva.nex con los comandos: 11. Larget B. MrBayes > execute primates_F81. recA and nifH sequences.. 4:275-284 2. Delsuc F. Genet. Ronquist F. 28..Aunque las muestras son dependientes se puede demostrar que si el número de LH = Pr(D|H) = Pr(D|τυφ) muestras es elevado (cadena larga). Evol. Huelsenbeck JP (2003) MrBAYES 3:Bayesian phylogenetic inference under mixed models. Biol. Biol. Syst. Douady CJ. Biol. maximizan la función de verosimilitud (estima puntual) dada una topología y un modelo estocástico de sustitución (PAUP. Evol. Biol.ccg. C. Holder M.nex inference in bacterial molecular systematics: the roles of migration and recombination in Bradyrhizobium species cohesion and delineation. http://www. Evol. Lewis PO (2003) Phylogeny estimation: traditional and Bayesian approaches. Vinuesa. de modo que el estado muestreado en el próximo intervalo (Xt+1) depende sólo 1. Zoller S. Rev.ccg. Cuernavaca Mor. et al. Lutzoni F (2003) Bayes or bootstrap? A simulation study comparing the performance of Bayesian Markov chain Monte Carlo sampling and bootstrapping in assessing 1. Appl. 51:673-688 7.mx/~vinuesa/index.nex MrBayes > mcmc © Pablo Vinuesa 2007.2 savebrlens=yes. Mol. Syst. 702-716.). Syst.

ccg.ccg. Creen que la cadena de Markov ya ha llegado a su fase estacionaria? 2.1 Estima bayesiana de filogenias usando MrBayes 3.unam. Corre un análisis bajo el modelo HKY y otro bajo el modelo GTR.1 . Obtenemos un resumen de los parámetros del modelo de sustitución empleado usando el comando Recuerden que podemos ver opciones del comando sump con ejecutando el comando MrBayes > showmodel 7.Tema 8: Inferencia Bayesiana de filogenias Curso Fundamental de Inferencia Filogenética Molecular. vinuesa@ccg.unam.html 11 . Cuernavaca Mor. http://www. Obtenemos un resumen de los árboles muestreados con el comando 4.uso práctico del programa 5.mx. Junio 2007. Usando el modelo escogido en el apartado anterior. Obtenemos un resumen de los parámetros del modelo markoviano con el comando MrBayes > sumt MrBayes > sump Recuerden que podemos ver opciones del comando sump con ejecutando el comando PREGUNTAS: MrBayes > help sumt 1.mx/~vinuesa/Cursos2RMBF Estima bayesiana de filogenias usando MrBayes 3. México. Cual es el valor del parámetro alpha de la distribución gamma? Crees que la estima de este parámetro es fidedigna? Ha mejorado significativamente el valor de pP global de la filogenia bajo el nuevo modelo? © Pablo Vinuesa 2007. Cual es el valor de burnin? 6. Qué modelo es el MrBayes > help sump que se ajusta significativamente mejor a los datos? Existen diferencias en el nivel de incertidumbre de estima de los parámetros del modelo de sustitución? 8.unam. http://www.uso práctico del programa . corre otro análisis incluyendo una distribución gamma para modelar la heterogeneidad de tasas de sustitución entre sitios 9.mx/~vinuesa/index.