Professional Documents
Culture Documents
rvores Filogenticas
1 Introduo todos os fundamentos da biologia moderna esto associados teoria da evoluo de Darwin. de aspectos de anatomia, passando por comportamento e chegando gentica, toda a metodologia de anlise requer uma apreciao das mudanas nos organismos com o tempo. impossvel analisar as relaes entre seqncias de genes sem considerar, direta ou indiretamente, o modo como estas seqncias sofreram modificaes ao longo do tempo.
2 Taxonomia a disponibilidade de seqncias de atributos, que descrevem parte das (no confunda com todas as!) caractersticas de organismos, nos remetem s seguintes questes:
Y os atributos correspondentes esto devidamente alinhados (sequence
alignment)?
Y uma vez alinhadas, como estas seqncias esto relacionadas? Y e de um modo geral, uma vez alinhadas, como os organismos dos quais estas
seqncias foram obtidas esto relacionados? o estudo dos relacionamentos entre grupos de organismos chamada taxonomia (ou taxinomia), a qual representa um dos ramos mais antigos da biologia clssica. em outras palavras, a taxonomia envolve a classificao de objetos em grupos, uma atividade que sempre foi exercida pelos homens de todos os tempos e foi estabelecida como um ramo cientfico por Carolus Linnaeus (1707-1778).
Tpico 6: rvores Filogenticas
a filogenia ou histria evolutiva das espcies est fundamentada em um conceito da teoria da evoluo que afirma que grupos com organismos que apresentam atributos similares descendem de um ancestral comum. a sistemtica filogentica , portanto, um mtodo de classificao taxonmica baseado na histria evolutiva, tendo sido desenvolvida em 1950 por um entomologista alemo chamado Willi Hennig. as relaes evolutivas so representadas na forma de rvores filogenticas, que descrevem os relacionamentos entre as seqncias.
2.1 Metodologias para reconstruo de rvores filogenticas
histria evolutiva, ou seja, a dinmica dos passos intermedirios. A rvore que melhor explica os relacionamentos entre as seqncias de atributos denominada fenograma.
Y mtodos cladsticos ou baseados em modelo evolutivo: so aqueles que
consideram as possibilidades de resultado de um processo evolutivo, importando a dinmica dos passos intermedirios, e adotam a rvore que melhor explica os relacionamentos entre as seqncias de atributos resultantes, sempre com base em uma hiptese evolutiva. Esta hiptese evolutiva pode estar baseada em algum modelo evolutivo ou em algum critrio de otimalidade. A rvore que melhor explica os relacionamentos entre as seqncias de atributos denominada cladograma. Na rvore adotada, o comprimento dos ramos pode ser informativo (quando a hiptese est baseada em um modelo evolutivo), resultando em um filograma.
FILOGRAMA
algoritmos computacionais baseados na metodologia fentica empregam clculo de distncia para reconstruir as rvores a partir de uma seqncia de atributos. So, portanto, enormementente influenciados pelo papel de cada atributo da seqncia. adotar o mesmo papel para cada atributo um procedimento altamente questionvel, mas muito utilizado. Ele se justifica na ausncia de informao para se tomar outras atitudes. os algoritmos baseados na metodologia fentica conduzem a tcnicas computacionais extremamente eficientes e com propriedades estatsticas desejveis. a metodologia fentica supera a metodologia cladstica quando os atributos presentes das seqncias so extremamente objetivos. no entanto, na presena de atributos menos objetivos, como aqueles que envolvem aspectos de morfologia, e na existncia de mltiplos objetivos a serem satisfeitos, a metodologia cladstica seguramente superior.
estes atributos podem, portanto, assumir valores discretos ou contnuos, havendo medidas de similaridade especficas para cada caso. por exemplo, em uma seqncia de DNA, existem 4 valores possveis para cada atributo, cada um correspondendo a um nucleotdeo.
de distncia, mas tambm levando-se em conta a natureza da divergncia: substituio de nucleotdeos, inseres/delees ou rearranjo de genoma. desvantagens associadas ao uso de DNA como unidade taxonmica:
Y necessidade de aplicao de tcnicas de alinhamento de seqncias; Y dificuldade de atribuir funcionalidade (grau de importncia) a cada atributo.
A B C D
aat tcg ctt cta gga atc tgc cta atc ctg ... ..a ..g ..c .t. ... ... t.. ... ..a ... ..a ..c ..c ... ..t ... ... ... t.a ... ..a ..a ..g ..g ..t ... t.t ..t t..
9
supondo a capacidade de atribuir funcionalidade s seqncias, por exemplo, delimitando genes, h um entendimento intuitivo de que organismos evolutivamente mais prximos devem apresentar seqncias mais similares, enquanto que indivduos evolutivamente mais distantes devem apresentar seqncias mais dissimilares. dado um conjunto de seqncias de bases, ou melhor ainda, um conjunto de seqncias de genes, possvel reconstruir um relacionamento evolutivo entre estas seqncias, ou genes. possvel estender esta hiptese aos organismos de onde os atributos foram extrados? nem sempre, pois os genes no necessariamente tiveram a mesma histria evolutiva que aquela apresentada pela espcie em que ele est contido. a probabilidade de se estimar uma topologia equivocada para a rvore diretamente proporcional correlao entre as seqncias de atributos.
10
11
a aplicao de pacotes de software distintos a um conjunto de seqncia de atributos muito provvel que produza respostas distintas. alteraes mnimas nos dados podem tambm conduzir a mudanas significativas nos resultados. supondo que os dados so confiveis, que um algoritmo adequado foi escolhido e nenhuma outra hiptese foi violada, possvel determinar a rvore correta e demonstrar sua validade cientfica? a resposta negativa, pois nenhuma resposta ser suficientemente conclusiva. a taxonomia est constantemente em reviso, conforme novos dados so obtidos e ferramentas de anlise mais poderosas so empregadas.
12
3 A exploso combinatria de possibilidades quantidade de rvores distintas para o caso de 3 seqncias de atributos:
13
14
(2n 3)! 2 (n 2 )!
n 2
15
a 3a folha, ao ser inserida, pode se combinar com os outros ns de trs formas diferentes:
a 4a folha, ao ser inserida, pode se combinar com os outros ns de cinco formas diferentes, e assim sucessivamente, at a ensima folha, que poder se combinar com os demais ns de 2n3 maneiras diferentes. Assim, a frmula para n folhas fica: 1 3 5 ... (2n 3) = (2i 3)
i =2 n
n 1
resulta
Tpico 6: rvores Filogenticas
16
1 2 3 4 5 6 ... (2n 6) (2n 5) (2n 4 ) (2n 3) 2 4 6 ... (2n 6) (2n 4 ) dividindo todos os n2 fatores no denominador por 2, o nmero de rvores pode finalmente ser apresentado na forma:
(2n 3)! 2 (n 2 )!
n 2
uma rvore com raiz T pode ser representada por um par ordenado T = (N, f), onde: N um conjunto de ns da rvore, sendo um deles o n-raiz; f uma funo que associa a cada n i N, com exceo do n raiz, um nico n f(i), denominado antecessor imediato ou pai de i. Cada associao de
Tpico 6: rvores Filogenticas
17
antecedncia imediata entre dois ns, realizada pela funo f, representa um arco da rvore; dado que um caminho (percurso pela rvore) uma seqncia sem repetio de arcos em que o segundo n de cada arco coincide com o primeiro n do arco seguinte, ento, para quaisquer pares de ns, existe um caminho nico que leva de um destes ns ao outro. dada a rvore da figura 1, ento temos: N = {A, B, C, D, E, F, G}, sendo D o n raiz; f(A) = B; f(C) = B; f(B) = D; f(F) = E; f(G) = E; f(E) = D. f(D) no est definido, pois o n-raiz no apresenta antecessor imediato; no possvel afirmar que f(A) = D, pois embora D seja antecessor de A, D no antecessor imediato de A, papel que cabe ao n B. No entanto, f(f(A)) = D; dado que um antecessor imediato tambm denominado de n-pai, todos os ns que so antecedidos por ele so denominados ns-filhos.
18
Figura 1: Exemplo que rvore, sendo D o n raiz ns-filhos que tm o mesmo n-pai so denominados de ns-irmos, sendo que o nmero de ns-irmos associados a um dado n-pai denominado grau do n-pai. os ns ligados raiz por arcos formam sub-rvores, que tm estes ns (no caso da figura 1, so B e E) como sub-razes. Tomando cada sub-rvore como uma nova rvore, esta tambm pode ser sub-dividida adotando-se o mesmo procedimento. um n de grau zero chamado folha ou n terminal;
19
o nvel de um n dado pela sua distncia at a raiz, ou seja, pelo nmero de arcos que devem ser percorridos. O nvel pode ser dado tambm pelo nmero de aplicaes recursivas da funo f. Tomando o exemplo da figura 1, dado que f(f(A)) = D, ento o n A dito ter nvel 2; a altura de uma rvore dada pelo nvel mximo das folhas daquela rvore; quando o grau de qualquer n que no seja n terminal definido como sendo igual a k, ento a rvore chamada de rvore k-ria. dentre as rvores ordenadas de grau limitado destaca-se a rvore binria, onde cada n no-terminal tem dois ns-filhos. Neste caso, dizemos que um filho corresponde sub-rvore da direita e o outro sub-rvore da esquerda; a caminhada por uma rvore binria a principal operao bsica. Atravs dela pode-se percorrer todos os ns seqencialmente e ter acesso a um n especfico. Trs formas de caminhada freqentemente utilizadas so:
20
caminho pr-fixado: raiz sub-rvore da esquerda sub-rvore da direita. O caminho pr-fixado na rvore da figura 1 produz a seqncia D, B, A, C, E, F, G; caminho central: sub-rvore da esquerda raiz sub-rvore da direita. O caminho central na rvore da figura 1 produz a seqncia A, B, C, D, F, E, G; caminho ps-fixado: sub-rvore da esquerda sub-rvore da direita raiz. O caminho ps-fixado na rvore da figura 1 produz a seqncia A, C, B, F, G, E, D.
5 Referncias bibliogrficas
BROWN, S.M. Molecular Phylogenetics: Computing Evolution, New York University, School of Medicine, Notas de Aula. DAY, W.H.E. Computational complexity of inferring phylogenies from dissimilarity matrices, Bull. Math. Biol, 49:461-467, 1987. PRADO, O.G. Computao Evolutiva Empregada na Reconstruo de rvores Filogenticas, Dissertao de Mestrado, Faculdade de Engenharia Eltrica e de Computao (FEEC/Unicamp), Dezembro de 2001.
21