You are on page 1of 292

Capa

Hugo Verli (Org.)

1a edio
So Paulo, 2014

Hugo Verli Organizador

Bioinformtica:
da Biologia Flexibilidade
Molecular

1a Edio

So Paulo
Sociedade Brasileira de Bioqumica e Biologia Molecular - SBBq
2014

Ficha catalogrfica elaborada por Rosalia Pomar Camargo CRB 856/10

B615

Bioinformtica da Biologia flexibilidade

molecular / organizao de Hugo Verli.

- 1. ed. - So Paulo : SBBq, 2014.

282 p. : il.

1. Bioinformtica 2. Biologia Molecular

CDU 575.112
ISBN 978-85-69288-00-8

Esta obra foi licenciada sob uma Licena


Creative Commons Atribuio-No Comercial-Sem Derivados 3.0 No Adaptada.

Elaborao de imagens
Pablo Ricardo Arantes
pablitoarantes@gmail.com

Reviso de texto
Liana Guimares Sachett
lianasachett@gmail.com

Contedos
Apresentao ............................................................................................................. vii
Autores ........................................................................................................................ ix
Agradecimentos ........................................................................................................

Captulo 1: O que bioinformtica? ..................................................................... 1


Captulo 2: Nveis de informao biolgica ......................................................... 13
Captulo 3: Alinhamentos ........................................................................................ 38
Captulo 4: Projetos genoma .................................................................................. 62
Captulo 5: Filogenia ................................................................................................ 80
Captulo 6: Biologia de sistemas ............................................................................ 115
Captulo 7: Modelos tridimensionais ..................................................................... 147
Captulo 8: Dinmica molecular ............................................................................. 172
Captulo 9: Atracamento .......................................................................................... 188
Captulo 10: Dicroismo circular .............................................................................. 209
Captulo 11: Infravermelho ..................................................................................... 220
Captulo 12: RMN ...................................................................................................... 236
Captulo 13: Cristalografia ...................................................................................... 251

Apresentao
A ideia deste livro surgiu a partir da minha experincia pessoal com duas disciplinas
em bioinformtica, uma para o curso de graduao em Biomedicina e uma para o
Programa de Ps-Graduao em Biologia Celular e Molecular do Centro de
Biotecnologia, ambos na Universidade Federal do Rio Grande do Sul.
Tanto para formao em nvel de graduao quanto ps-graduao, desde cedo me
deparei com uma ausncia quase total de materiais didticos em portugus (e nacionais!), de perfil mais geral, aplicvel a cursos de graduao, com poucas e
importantes excesses, que devem ser mencionadas pelo seu papel pioneiro, dentre
as quais destaco:
MORGON, Nelson H.; COUTINHO, K. Mtodos de Qumica Terica e Modelagem Molecular. So
Paulo: Editora Livraria da Fsica, 2007.
MIR, Luis Genmica. So Paulo: Atheneu, 2004.

primeira vista, qumica terica e bioinformtica so assuntos sem correlao. E,


de fato, as pesquisas nestas reas "puras" frequentemente apresentam pouca ou
nenhuma sobreposio. De um lado, temos o estudo das propriedades estruturais e
eletrnicas de molculas e, de outro, o estudo de sequncias de nucleotdeos, aminocidos e a busca por assinalamento de funes a estas sequncias. H, assim,
uma aparente separao entre, por exemplo, campos de fora e rvores Bayesianas. Contudo, esta separao apenas aparente, tendo em vista que a manifestao da funo gnica passa por estruturas tridimensionais de biomolculas. Um
polimorfismo de nucleotdeo nico acarreta em uma mudana na conformao e dinmica de uma protena, o que por sua vez pode interferir em sua funo. Por outro
lado, a flexibilidade de regies de protenas pode muitas vezes ser relacionada a
eventos evolutivos, ampliando nosso entendimento do sistema em estudo e permitindo, assim, a realizao de extrapolaes a sistemas ortlogos ou parlogos.
Assim, Bioinformtica: da Biologia Flexibilidade Molecular emprega uma
definio
abrangente
para
bioinformtica,
envolvendo
qualquer
tcnica
computacional aplicada ao estudo de sistemas biolgicos (como o prprio nome
sugere). Busca, por conseguinte, oferecer uma percepo multidisciplinar (ou talvez
j estejamos beirando a transdisciplinaridade?) da rea, abordando tanto aspectos
relacionados a sequncias de nucleotdeos e aminocidos quanto a estrutura e
dinmica de protenas. Adicionalmente, considerando que tcnicas experimentais
baseadas no uso de computadores devem, idealmente, ter seus resultados
comparados a tcnicas experimentais no-computacionais, este livro tambm inclui
captulos com algumas das tcnicas experimentais mais frequentemente
empregadas na validao dos nmeros que os programas nos oferecem.
Nesta viso, de certa forma holstica, buscamos abordar no somente cidos nucleicos e protenas, mas carboidratos e membranas biolgicas. exceo do ltimo,
todos so agrupados como biopolmeros buscando facilitar a construo de relaes
entre monmeros formadores, suas conexes e as caractersticas dos polmeros resultantes. Afinal de contas, todas as clulas possuem membranas, e 2/3 das prote-

nas de eucariotos so glicosiladas. Assim, busca-se oferecer ao leitor uma percepo mais prxima da importncia de todas estas biomolculas para a vida e, em
muitos casos, sua participao em processos patolgicos.
A linguagem escolhida para este material foi focada nas reas biolgicas e da sade,
tendo em vista que estas compreendem talvez o maior volume de problemas alvo
abordados por estas tcnicas. Adicionalmente, destaque foi dado na aplicao das
ferramentas em detrimento do esmiuamento de teoria, cdigos, metodologias e
implementaes, para as quais um grande nmero de livros mais avanados e
especficos est disponvel. Em contrapartida, esta linguagem pode contribuir para
que alunos de cursos de reas no-biolgicas visualizem o problema por um foco
distinto, aproximando-os assim do problema alvo.
Cada captulo foi portanto organizado com um foco principal na formao em
Bioinformtica para cursos de graduao. H, contudo, diversas inseres ao longo
do texto, em vermelho e fonte diferente, que buscam oferecer detalhes mais avanados,
potencialmente teis a alunos de ps-graduao. Ao final, a definio dos conceitos-chave de cada captulo foi includa. Tal foco na graduao nos levou a maximizar
a traduo de expresses do ingls para o portugus, mencionando sempre a expresso inglesa original, para fins de referncia. Contudo, em vrios casos, a amplitude do uso de expresses originadas no ingls nos levou a mant-las no texto, pois
a traduo no teria eco nas demais fontes de leitura na rea. Outra escolha envolveu a omisso de endereos na web, em decorrncia de sua frequente modificao.
Contudo, a partir do nome das ferramentas, no deve haver dificuldades para que
os leitores identifiquem-nas pelos buscadores comuns na internet.
Embora tenhamos nos dedicado a empregar uma linguagem geral e acessvel, creio
que este esforo estivesse fadado a ser incompleto desde seu incio em decorrncia
da amplitude de reas que compe a bioinformtica. Assim, alguns captulos sero
de leitura mais fcil para alunos de cursos com maior formao em bioqumica, outros em biologia molecular, ou ainda em programao. Vejo este esforo de construo de uma linguagem comum para a rea como uma obra em constante
desenvolvimento e, caso o material seja de proveito para vocs, certamente nos
dedicaremos a evolu-lo em uma prxima edio.
Todo o livro foi organizado para ser aproveitado de forma digital, principalmente em
tablets. Fontes maiores foram empregadas para que a leitura fosse mais fcil e menos cansativa nestas telas. E a distribuio do material, gratuita, para um acesso o
mais democrtico possvel entre os estudantes.
Por fim, ao esperar que estes megabytes de texto e fotos possam lhe ser teis,
contribuindo para sua aproximao bioinformtica, qui incentive-os a se aprofundarem na rea, agradeo a todos os que contribuiram para a elaborao deste
material. Sem eles, seu tempo, dedicao, excelncia e experincia, todo este esforo no seria possvel.

Hugo Verli

Autores
Bruno Csar Feltes

Ivarne L. S. Tersariol

Centro de Biotecnologia, UFRGS

Departamento de Bioqumica, Unifesp

Camila S. de Magalhes

Joo Renato C. Muniz

Plo de Xerm, UFRJ

Grupo de Biotecnologia Molecular, IFSC - USP

Charley Christian Staats

Joice de Faria Poloni

Centro de Biotecnologia, UFRGS

Centro de Biotecnologia, UFRGS

Dennis Maletich Junqueira

Laurent E. Dardenne

Depto Gentica, UFRGS

Laboratrio Nacional de Computao Cientfica

Diego Bonatto

Lus Maurcio T. R. Lima

Centro de Biotecnologia, UFRGS

Faculdade de Farmcia, UFRJ

Edwin A. Yates

Marcelo A. Lima

Instituto de Biologia Integrativa, Universidade de

Departamento de Bioqumica, Unifesp

Liverpool

Fabio Lima Custdio

Marcius da Silva Almeida


Instituto de Bioqumica Mdica, UFRJ

Laboratrio Nacional de Computao Cientfica

Fernanda Rabaioli da Silva

Priscila V. S. Z. Capriles
PPG Modelagem Computacional, UFJF

Centro de Biotecnologia, UFRGS

Fernando V. Maluf

Raphael Trevizani
Laboratrio Nacional de Computao Cientfica

Centro de Inovao em Biodiversidade e Frmacos,


IFSC - USP

Rafael V. C. Guido
Centro de Inovao em Biodiversidade e Frmacos,

Glaucius Oliva

IFSC - USP

Centro de Inovao em Biodiversidade e Frmacos,


IFSC - USP

Rodrigo Ligabue Braun


Centro de Biotecnologia, UFRGS

Gregrio K. Rocha
Laboratrio Nacional de Computao Cientfica

Rogrio Margis
Centro de Biotecnologia, UFRGS

Guilherme Loss de Morais


Laboratrio Nacional de Computao Cientfica

Yraima Cordeiro
Faculdade de Farmcia, UFRJ

Helena B. Nader
Departamento de Bioqumica, Unifesp

Hugo Verli
Centro de Biotecnologia, UFRGS

Isabella A. Guedes
Laboratrio Nacional de Computao Cientfica

Agradecimentos

O esforo de elaborao deste livro no seria possvel sem a dedicao de todos os


autores. Por isso agradeo inicialmente a todos que contriburam para este material
e acreditaram na proposta de um material gratuito e digital, em sua origem. Tal
esforo implicou em meses de trabalho gratuito, para o benefcio dos alunos.
Agradeo especificamente ao Pablo, Rodrigo e Liana que, gastaram incontveis
horas na elaborao de figuras e reviso do texto.
Este livro fruto da excelncia acadmica de seus autores, originada de anos
dedicados atividade cientfica no mais alto nvel. E tal atividade s foi possvel
atravs do fomento de rgo como CNPq, CAPES, FAPERGS, FAPESP e FAPERJ aos
quais, em nome de todos os autores, agradeo.
Este reconhecimento se estende s Universidades e Institutos de Pesquisa nas quais
os autores esto sediados, com seus apoios fsicos, logsticos, administrativos e financeiros. Nominalmente, estas instituies incluem: UFRGS, UFRJ, Universidade de
Liverpool, LNCC, Unifesp, IFSC-USP e UFJF.

1. O que Bioinformtica?

O todo sem a parte no todo,


A parte sem o todo no parte,
Mas se a parte o faz todo, sendo parte,
No se diga, que parte, sendo todo.

Hugo Verli

Gregrio de Matos Guerra (1636-1696)

protena codificada. Esta estrutura ento


empregada para guiar o planejamento racional de novos compostos, como se um chaveiro construsse uma chave (o frmaco) a partir
da fechadura. Por mais que a analogia seja
simples, ainda serve como base para algumas
das mais frequentes estratgias de planejamento de frmacos. E, embora a ideia de que
este processo flexvel, e no rgido (mais
como uma mo encaixando em uma luva,
sendo a mo o frmaco e a luva o receptor)
date da dcada de 1960, so processos to
complexos que demoramos em torno de 15
anos para lanar um novo frmaco no mercado (e este tempo no est diminuindo).
Assim, ao invs de procurar definies
restritivas, este livro se prope a empregar
definies amplas, que sirvam de suporte para um entendimendo da grande gama de potencialidades e aplicaes da bioinformtica,
buscando suportar inclusive futuras aplicaes da metodologia, ainda em desenvolvimento ou por serem desenvolvidas.
Ao mesmo tempo que sequncias codificantes geram seus efeitos biolgicos como
estruturas tridimensionais, o estudo destas
pode e muito se beneficiar do estudo de sequncias de protenas relacionadas (por
exemplo, alas flexveis tendem a apresentar
uma elevada variabilidade filogentica). Mesmo o estudo de sequncias no codificantes
pode se beneficiar do conhecimento de estruturas tridimensionais, visto que a regulao
de sua expresso realizada por fatores de
transcrio proteicos. Assim, h uma retroalimentao entre as informaes originadas
em sequncias biolgicas e em suas respectivas estruturas 3D.
Em linhas gerais, este livro parte do entendimento de que a bioinformtica se refere

1.1. Introduo
1.2. Origens
1.3. Problemas alvo
1.4. Tendncias e desafios
1.1. Introduo
Gregrio de Matos, poeta brasileiro que
viveu no sculo XVII, h quase 400 anos
apresentou, na frase de epgrafe deste captulo, seu entendimento sobre a indissociabilidade das partes para compreenso do todo.
No nosso caso, o todo a bioinformtica. As
partes, contudo, no so to bvias quanto se
possa imaginar em um primeiro momento.
Tampouco h consenso sobre estas. Assim,
nossa discusso sobre o que bioinformtica
no pretende estabelecer definies rgidas,
mas guias para que o leitor entenda o quo
complexa e dinmica esta jovem cincia.
Esta complexidade usualmente nos
passa despercebida. Por exemplo, quando
pensamos no impacto do projeto genoma humano, uma das principais implicaes a melhoria dos processos teraputicos acessveis
populao. Mas a identificao de um novo
gene ou mutao em um gene conhecido, por
mais que seja associado a um processo patolgico, est a uma grande distncia de um novo frmaco. A partir da sequncia, o
paradigma mais moderno para desenvolvimento de novos frmacos passa pela caracterizao da estrutura tridimensional da

1. O que Bioinformtica?

ao emprego de ferramentas computacionais


no estudo de problemas e questes biolgicas, abrangendo tambm as aplicaes relacionadas sade humana como o
planejamento de novos frmacos.
Neste caminho, da sequncia de nucleotdeos at estruturas proteicas, alcanando
por fim frmacos, diversas reas do conhecimento esto envolvidas. Biologia molecular,
biologia celular, bioqumica, qumica, fsica e
computao so talvez as principais grandes
reas do saber envolvidas nesse processo,
cada uma contribuindo com diversas especialidades.

1.2. Origens
O que apresentaremos neste livro como
bioinformtica pode ser separado em duas
grandes vertentes:
i) a bioinformtica tradicional, ou clssica (pela primazia do nome bioinformtica), que aborda principalmente
problemas relacionados a sequncias de
nucleotdeos e aminocidos, e
ii)
a bioinformtica estrutural, que aborda questes biolgicas de um ponto
de vista tridimensional, abrangendo a
maior parte das tcnicas compreendidas
pela qumica computacional ou modelagem molecular.
Podemos traar como momento chave
para ambas as vertentes da bioinformtica o
incio da dcada de 1950, quando a revista
Nature publicou o trabalho clssico sobre a
estrutura em hlice da molcula de DNA por
James Watson e Francis Crick (Figura 1-1).
Neste momento, as bases moleculares para o
entendimento estrutural da replicao e traduo do material gentico foram apresentadas, permitindo-nos entender como aquela
"sequncia de letras" (as bases do DNA) se
organizam tridimensionalmente.
Este trabalho, contudo, deve ser visto
como parte de um momento histrico, composto por diversas contribuies fundamentais para o nosso entendimento de molculas
biolgicas e suas funes. Dentre estas des-

Figura 1-1: Watson e Crick em frente a um


modelo da hlice de DNA. Cavendish
Laboratory, Universidade de Cambridge, 1953,
reproduzida sob licena.
tacam-se os trabalhos de Linus Pauling e
Robert Corey, no incio da dcada de 1950, e
de Gopalasamudram N. Ramachandran, no
incio da dcada de 1960, que ofereceram as
bases para a compreenso da estrutura tridimensional de protenas.
Desde estes trabalhos at a primeira
vez em que se relatou o uso de programas de
computadores para visualizar estruturas tridimensionais de molculas passaram-se mais
de 10 anos quando, em 1966, Cyrus Levinthal
publica na revista Scientific American o trabalho desenvolvido no Massachusetts
Institute of Technology por John Ward e
Robert Stotz.
Ainda nesta dcada se d o primeiro esforo de sistematizao do conhecimento
acerca da estrutura tridimensional dos efetores da informao gentica, as protenas, em
1965, com o Atlas of Protein Sequence and
Structure, organizado por diversos autores,
dentre os quais destacaremos Margaret
Dayhoff.
Este destaque se deve ao fato do papelchave exercido pela Dra. Dayhoff na formao das razes do que entendemos hoje por

1. O que Bioinformtica?

bioinformtica, tanto em sua faceta voltada


para sequncias quanto para estruturas. Foi
uma das pioneiras no uso de computadores
para o estudo de biomolculas, incluindo tanto cidos nucleicos quanto protenas. Por
exemplo, ela que inicia o uso da representao de uma nica letra para descrever cada
aminocido (Tabela 1-1), ao invs das usuais
trs letras, em uma poca em que os dados
eram armazenados em cartes perfurados
(Figura 2-1). Desenvolveu as primeiras matrizes de substituio e fez importantes contribuies no desenvolvimento dos estudos
filogenticos. Tambm teve participao importante no desenvolvimento de mtodos
para o estudo de molculas por cristalografia
de raios-X (como veremos no captulo 13).
Com o desenvolvimento de computadores mais poderosos e com o avano no entendimento dos determinantes da estrutura e
da dinmica proteica, tornam-se possveis os
primeiros estudos acerca da dinmica e do
enovelamento de protenas por simulaes de
dinmica molecular por Michael Levitt e Arieh
Warshel, nos anos de 1970, estudos estes
agraciados com o prmio Nobel de Qumica
em 2013 (Figura 3-1).
A partir dos trabalhos destes e de outros pesquisadores, diversos avanos foram
feitos progressivamente nos anos que se seguiram, tanto no entendimento de biomolculas quanto no emprego de tcnicas
computacionais para retroalimentar este entendimento. Por exemplo, o aumento na obteno de informaes de alta qualidade
sobre a estrutura 3D de biomolculas vem
servindo de suporte para o desenvolvimento
de campos de fora cada vez mais precisos,
enquanto novas abordagens vm possibilitando o alinhamento de sequncias cada vez
mais distantes evolutivamente.
Contudo talvez possamos afirmar que, a
partir destas bases, os maiores impactos da
rea na cincia estejam se delineando neste
exato perodo da histria, em que dois importantes fatores se manifestam: o avano (e
barateamento) no poder computacional e os
projetos genoma.
Computadores cada vez mais rpidos e

Tabela 1-1: Nomes dos 20 aminocidos codificadores de protenas junto a suas representaes em 1 e 3 letras.
Aminocido

Representao Representao
de 3 letras
de 1 letra

Alanina

Ala

Cistena

Cys

c. asprtico

Asp

c. glutmico

Glu

Fenilalanina

Phe

Glicina

Gly

Histidina

His

Isoleucina

Ile

Lisina

Lys

Leucina

Leu

Metionina

Met

Asparagina

Asn

Prolina

Pro

Glutamina

Gln

Arginina
Serina

Arg
Ser

R
S

Treonina

Thr

Valina

Val

Triptofano

Trp

Tirosina

Tyr

mais baratos nos permitem abordar problemas, literalmente, inimaginveis h poucos


anos. Os mtodos e a dimenso dos problemas abordados por um aluno de iniciao cientfica sero, em sua maioria, totalmente
obsoletos ao final de seu doutoramento
(considerado o mesmo nvel de impacto dos
veculos de divulgao). A cada ano que passa
podemos abordar problemas mais complexos, de forma mais completa, e mais pesquisadores com menos recursos podem
trabalhar nestas reas de pesquisa, o que
torna a bioinformtica uma das reas do conhecimento mais acessveis para pesquisadores em incio de carreira.
Em contrapartida, esta situao acarreta na necessidade de atualizao e renovao
dos procedimentos computacionais constantemente para nos mantermos competitivos
na comunidade cientfica da rea. O trabalho

1. O que Bioinformtica?

Figura 2-1: IBM 7090, computador que Margaret Dayhoff utilizou no incio de seus
trabalhos (NASA Ames Resarch Center, 1961).
que algum tenha publicado com simulaes
por dinmica molecular (captulo 8) alguns
anos atrs, com uma simulao de, digamos,
10 ns, hoje estaria totalmente desatualizado,
exigindo no mnimo uma ordem de grandeza a
mais (idealmente, com replicatas e/ou condies adicionais como controle). Como consequncia, as concluses obtidas em um
trabalho no necessariamente se manteriam
em um novo trabalho. Similarmente, uma rvore filogentica obtida a partir de um determinado alinhamento e matriz de pontuao h
20 anos poderia ser diferente hoje, com ferramentas mais robustas de alinhamento (como ser visto no captulo 3). Esta uma
situao bastante desafiadora, assim como
uma grande oportunidade, para os futuros bioinformatas.
Mas esta situao por si no suficiente
para o aumento explosivo do emprego de estratgias computacionais no estudo de sistemas biolgicos, o que principalmente devido
ao projeto Genoma Humano. A partir deste, e
da popularizao de outros projetos genoma
(captulo 4), criou-se um gigantesco e crescente volume de sequncias de genes cujas
relaes evolutivas e funcionais precisam ser
elucidadas, como ponto de partida para novos
desenvolvimentos teraputicos. Hoje, possvel identificar um novo candidato a receptor
alvo de novos frmacos a partir de organismos muito distantes evolutivamente de ns,
como leveduras, bactrias ou mesmo plantas.

Figura 3-1: Agraciados pelo prmio Nobel de


qumica de 2013, os Professores Martin
Karplus, Michael Levitt e Arieh Warshel.
O crescimento deste volume de informaes ainda est longe de cessar. Estudos
de transcriptoma, metaboloma ou glicoma
ainda tm muito a agregar no nosso conhecimento do funcionamento de sistemas biolgicos, potencializando tanto aplicaes
teraputicas quanto biotecnolgicas. Contudo,
isto exigir cada vez mais avanos da bioinformtica, seja em hardware, software ou em
estratgias de anlise de dados e construo
de modelos.
Um exemplo neste sentido envolve a gigantesca defasagem entre nossa capacidade
de lidar com sequncias e com estruturas 3D.
Enquanto em um computador pessoal simples podemos realizar alinhamentos com algumas centenas de sequncias sem maiores
dificuldades, localmente ou na web, dependendo do mtodo, e recebendo a resposta
quase que imediatamente, para realizar uma
simulao por dinmica molecular de uma
nica protena precisaramos, neste mesmo
computador, de alguns meses.
Um ltimo aspecto importante nesta
contextualizao inicial da bioinformtica,
dentro da proposta apresentada por este livro, diz respeito importncia relativa das diferentes biomolculas na manifestao da
informao gentica, mantendo a homeostasia e servindo como alvo de modulao far-

1. O que Bioinformtica?

macolgica ou emprego biotecnolgico. Tradicionalmente, os cidos nucleicos e as protenas receberam a maior ateno enquanto
alvos da bioinformtica, os primeiros como
repositrios da informao biolgica e as ltimas como efetores desta informao. Esta
percepo, contudo, vem sendo progressivamente relativizada. Membranas e carboidratos, a despeito de no estarem codificados
diretamente no genoma (no h um cdon
para um fosfolipdeo ou para um monossacardeo), so fundamentais homeostasia da
grande maioria dos organismos em todos os
domnios da vida. E entender estes papis
vem se tornando um importante alvo da bioinformtica.

1.3. Problemas alvo


Considerando o tipo de informao manipulada, os problemas e questes abordados
pela bioinformtica podem ser agrupados entre aqueles relacionados a sequncias de biomolculas e aqueles relacionados estrutura
de biomolculas (Figura 4-1). primeira vista,
considerando que de forma geral estruturas
de protenas so determinadas por seus genes, poderamos imaginar que lidar com estruturas 3D seria redundante a manipular
sequncias, conjuntos de informaes 1D. Esta
percepo limitada e no se configura como
verdade para diversas questes. Na verdade,
existem aspectos nicos em cada conjunto de
informao, no diretamente transferveis
para o outro.
Inicialmente, como veremos adiante
(item 1.4 e captulo 2), o enovelamento de
protenas um fenmeno extremamente
complexo e ainda no totalmente compreendido, de forma que no somos capazes de
transformar uma sequncia linear de aminocidos (codificada por seu gene) em uma estrutura 3D (salvo para algumas situaes
especficas, que sero vistas ao longo do livro).
Outro aspecto importante que o enovelamento de protenas, em muitas situaes,
depende de mais do que sua sequncia de
aminocidos, envolvendo aspectos como o

ambiente e o local onde a protena estar na


clula ou organismo, a ocorrncia de modificao co- ou ps-traducionais e a sua interao com chaperonas. Para ilustrar o quanto
este fenmeno complexo, embora diversas
sequncias com identidade mnima possam
ter estruturas 3D extremamente parecidas,
em alguns casos a troca de um ou poucos resduos de aminocidos pode modificar totalmente a funo, chegando at a interferir na
forma tridimensional que uma protena adota.
Em contrapartida, algumas informaes
presentes em sequncias gnicas ou mesmo
peptdicas no so necessariamente observveis em estruturas tridimensionais. Por
exemplo, regies promotoras ou reguladoras
da expresso gnica so facilmente descritas
como informaes 1D, e peptdeos sinal ou ntrons esto normalmente ausentes nas formas nativas de protenas, sendo mais
facilmente observveis por sequncias das
biomolculas em questo.
Adicionalmente, estruturas 3D de molculas so formas muito mais complexas de
serem manipuladas que sequncias 1D, o que
agrega uma srie de dificuldades nos estudos
de bioinformtica. Assim, diversas tarefas
tendem a ser muito simplificadas (ou mesmo
de outra forma no seriam possveis atualmente) quando trabalhamos com sequncias
em vez de estruturas. Por exemplo, a identificao de uma assinatura para modificao
ps-traducional muito mais gil em uma
sequncia do que em um conjunto de milhares
de tomos distribudos em um espao tridimensional.
Por fim, talvez o motivo mais prtico
para separarmos as duas abordagens se refere facilidade de obteno das informaes. Os mtodos experimentais para
sequenciamento de cidos nucleicos esto
muito mais avanados do que os mtodos
para determinao da estrutura 3D de biomolculas. A diferena de capacidade de determinao dos dois conjuntos de dados de
ordens de grandeza.

Questes relacionadas a sequncias

1. O que Bioinformtica?

Figura 4-1: Representao de algumas das principais reas da bioinformtica. As metodologias


que lidam majoritariamente com estruturas 3D esto representadas em laranja, enquanto as
metodologias envolvidas principalmente com sequncias esto representadas em verde.
Devemos lembrar, contudo, que esta separao imperfeita. Por exemplo, a modelagem
comparativa parte de sequncias, a funo de um gene pode ser determinada pela estrutura da
protena associada.
A manipulao de sequncias menos
custosa computacionalmente, nos possibilitando lidar com genomas inteiros. Isto permite realizar anlises em indivduos ou mesmo
populaes de indivduos, nos aproximando do
entendimendo dos organismos em sua complexidade biolgica. Podemos traar a histria
evolutiva de um conjunto de organismos ou
construir redes de interao entre centenas
ou milhares de molculas de um determinado
organismo, tecido ou tipo celular. Em linhas
gerais, os objetos de estudo relacionados a
sequncias de biomolculas incluem:
i)
comparaes entre sequncias (alinhamento);
ii)
identificao de padres em sequncias (assinaturas);
iii) caracterizao de relaes evolutivas (filogenia);
iv)
construo e anotao de genomas;
v)
construo de redes (biologia de
sistemas).

Vale destacar que estas anlises podem receber a


contribuio de estudos envolvendo a estrutura das biomolculas de interesse ou mesmo ser validadas por
estas. Por exemplo, resduos conservados evolutivamente possuem grande chance de possurem papel
funcional (como atuando na catlise) ou estrutural
(estabilizando a estutura proteica). Assim, comparar
um alinhamento estrutura 3D pode tanto explicar
quanto oferecer novas abordagens e consideraes ao
significado de conservaes de resduos maiores ou
menores em conjuntos de sequncias.

Questes relacionadas a estruturas


Ao contrrio da manipulao de sequncias, estruturas exigem um maior poder
de processamento para serem manipuladas.
Na prtica, podemos manipular uma ou um
pequeno punhado de estruturas simultaneamente (embora este nmero venha crescendo
progressivamente). Neste caso, o foco costuma ser o entendimento de molculas e dos
eventos mediados por estas, individualmente,
incluindo:

1. O que Bioinformtica?

i)
obteno de modelos 3D para protenas e outras biomolculas (por
exemplo, modelagem comparativa);
ii) identificao do modo de interao
de molculas (atracamento);
iii) seleo de compostos com maior
potencial de inibio (atracamento);
iv) caracterizao da flexibilidade molecular (dinmica molecular);
v) avaliao do efeito de mudanas na
estrutura e ambiente molecular na dinmica e funo de biomolculas (dinmica molecular).
O uso de sequncias para alimentar estudos estruturais mais comum na construo de modelos tridimensionais de protenas a partir de suas sequncias
codificadoras, no mtodo denominado modelagem
comparativa (captulo 7). Contudo, outras relaes extremamente teis podem ser estabelecidas. Por exemplo, por serem estruturas usualmente flexveis, alas
tendem a possuir uma maior capacidade de acomodar
mutaes ao longo da evoluo. Isto permite uma
comparao entre resultados de alinhamentos e, por
exemplo, perfis de flexibilidade observveis atravs de
simulaes por dinmica molecular.

1.4. Tendncias e desfios


Como uma rea em rpido desenvolvimento, a bioinformtica exige de seu praticante uma constante ateno a novas
abordagens, mtodos, requerimentos e tendncias. Programas podem se tornar rapidamente ineficientes comparados a novas
ferramentas ou mesmo obsoletos. Avanos
de hardware podem (e na verdade vem fazendo isso) catapultar o nvel de exigncia
metodolgica pelas revistas de ponta. E h
algumas reas em especfico nas quais a comunidade cientfica vem concentrando esforos. So por conseguinte reas de grande
impacto potencial e grande competio na literatura cientfica, dentre as quais destacaremos algumas abaixo.

Processamento em CPU e GPU


CPUs (Central Processing Units ou uni-

dades de processamento central) ou simplesmente processadores (ou ainda microprocessadores) so partes dos computadores
responsveis pela execuo das instrues
estabelecidas pelos programas. Desde seu
surgimento em torno da metade do sculo
XX, as CPUs tornaram-se progressivamente
mais complexas, confiveis, rpidas e baratas.
Esse processo foi previsto pioneiramente por
Gordon E. Moore, no que ficou sendo conhecido desde ento como a lei de Moore. Segundo
esta lei, o nmero de transistores em um
processador (na verdade em qualquer circuito
integrado) dobra aproximadamente a cada 2
anos (Figura 5-1). O impacto do fenmeno
descrito nesta observao na vida moderna
enorme, envolvendo desde nossos computadores, celulares e cmeras digitais at a preciso de estudos climticos (com impacto na
preveno de catstrofes e na agricultura),
medicina, engenharia, indstria blica e aeroespacial. Com o aumento da velocidade e barateamento das CPUs, podemos a cada ano
construir modelos mais precisos de fenmenos biolgicos progressivamente mais complexos. Na prtica, o avano da bioinformtica
est ligado intrinsecamente lei de Moore.
Em uma CPU podemos encontrar no
somente um microprocessador, mas mais de
um, o que chamado multi-processamento e
estas CPUs de processadores de mltiplos
ncleos (multi-core processing). Hoje, a grande maioria dos processadores empregados
em computadores, notebooks e celulares j
possui mltiplos ncleos. Se o programa que
estamos utilizando for adaptado para este tipo de processamento, o clculo poder ser
distribudo pelos ncleos de processamento,
tornando o clculo significativamente mais
rpido. A grande maioria dos aplicativos em
bioinformtica j possui verses compatveis
com processamento em mltiplos ncleos, e
devemos estar atentos escolha destas verses e instalao de forma que essa caracterstica esteja funcional, sob pena de
subutilizao da CPU.
J GPUs (Graphical Processing Units ou
unidades de processamento grfico) so microprocessadores desenvolvidos inicialmente

1. O que Bioinformtica?

Figura 5-1: Representao da lei de Moore, indicando o aumento no nmero de transistores


em microprocessadores no perodo de 1971 a
2011. Adaptada de William Wegman, 2011
(Creative Commons).
como unidades especializadas na manipulao
de representaes grficas em computadores. Esto, assim, normalmente localizadas
nas placas de vdeo de nossos computadores.
O termo GPU foi popularizado a partir de 1999
com o lanamento da placa de vdeo
GeForce256, comercializada pela Nvidia.
O desenvolvimento das GPUs remonta
ao incio dos anos de 1990, com o aumento do
emprego de grficos em 3D nos computadores e videogames. De fato, alguns dos primeiros exemplos de hardware dedicado ao
processamento em 3D esto associados a
consoles como PlayStation e Nintendo 64.
Atualmente, enquanto CPUs possuem at em
torno de uma dezena de ncleos de processamento, GPUs podem facilmente alcanar
centenas ou mesmo milhares de ncleos de
processamento, permitindo uma grande acelerao na manipulao de polgonos e formas geomtricas, encontradas em aplicaes
3D (como os jogos) e sua renderizao (Figura
6-1). Tal aumento de performance ao dividir a
carga de trabalho em um grande nmero de
ncleos de processamento abriu um grande
horizonte de possibilidades em computao
cientfica, implicando em grande aumento na
velocidade de manipulao de dados.
Diversos aplicativos em bioinformtica
vm sendo portados para trabalhar com

GPUs. Desde o alinhamento de sequncias


filogenia, do atracamento molecular dinmica molecular, mltiplos pacotes esto disponveis, tanto pagos quanto gratuitos,
capazes de explorar a computao em GPU, e
este nmero vem crescendo a cada ano,
apontando para uma nova tendncia na rea.
O usurio deve, contudo, observar seu problema alvo, pois a acelerao fornecida pela
GPU depender das caractersticas do problema em questo e da eficincia e portabilidade do cdigo empregado.
A combinao de CPUs e GPUs com
mltiplos ncleos fez com que a capacidade
de processamento de alguns supercomputadores de h alguns anos j esteja disponvel
para computadores pessoais, nos chamados
supercomputadores pessoais.

Predies a partir de sequncias


Quando estudamos uma sequncia de
nucleotdeos de DNA desconhecida importante determinar seu papel funcional, por
exemplo, se codificante de protenas ou no.
E, sendo codificante, qual protena produzida
ao final da traduo e qual sua funo. Tais
predies so realizadas a partir de algoritmos construdos a partir de bancos de dados

Figura 6-1: Representao dos ncleos de


processamento em CPUs e GPUs. O grande
nmero de ncleos em GPUs permite a realizao de clculos complexos rapidamente.

1. O que Bioinformtica?

existentes, relacionando determinada sequncia a caractersticas e propriedades especficas. Contudo, somente uma pequena
quantidade de organismos teve seu genoma
sequenciado at o momento e, destes, somente uma pequena parte de genes teve sua
funo determinada experimentalmente. Devemos, portanto, lembrar que as predies
destes modelos esto relacionadas a quo
completos foram os bancos de dados que os
basearam. E que estes esto em contnuo
avano (ou seja, uma predio feita h 5 anos
no necessariamente ser igual a uma predio hoje que, por sua vez, pode ser diferente
de uma predio de funo gnica daqui a 5
anos - discutiremos no captulo 3 alguns indicadores da qualidade dessas associaes).

Predio de energia livre


Os fenmenos moleculares so regidos
pela termodinmica, tanto para reaes qumicas na sntese de um novo frmaco quanto
ao da DNA polimerase ou ao enovelamento de protenas. Entender termos como
entropia, entalpia e energia livre torna-se, assim, fundamental na adequada descrio
destes fenmenos e, a partir desta, sua previso computacional. Quando a medida destas
variveis se tornar precisa o bastante, poderemos esperar a substituio de diversos experimentos em bancada por clculos em
computadores mas, infelizmente, ainda no
chegamos neste momento.
Predies de energia livre tem impacto
direto na identificao da estrutura 2ria de
molculas de RNA, na localizao de regies
do DNA para ligao de reguladores da
transcrio, para a especificidade de enzimas
por substratos e receptores por ligantes ou
moduladores (fisiolgicos ou teraputicos, isto , frmacos). Assim, diversos mtodos foram desenvolvidos para a obteno destas
medidas, tais como a perturbao da energia
livre, a integrao termodinmica, a energia
de interao linear, a metadinmica e diversas
estratgias empricas voltadas ao pareamento de nucleotdeos ou atracamento molecular.

A despeito desta diversidade de estratgias, a predio da energia livre em processos moleculares continua sendo um grande
desafio. Em decorrncia do elevado custo
computacional associado a estes clculos, diferentes tipos de simplificaes e generalizaes
precisam
ser
realizadas,
comprometendo nossa capacidade de empreg-los de forma ampla e fidedigna.

Enovelamento de protenas
Como veremos adiante no livro, o enovelamento de protenas um dos processos
mais complexos conhecidos pelo ser humano.
O nmero de estados conformacionais possveis para uma protena pequena gigantesco,
dos quais um ou alguns poucos sero observveis em soluo em condies nativas. Os
mtodos experimentais usualmente empregados para tal, a cristalografia de raios-X e a
ressonncia magntica nuclear, so mtodos
caros e ainda possuem algumas limitaes
importantes em determinadas situaes,
apontando para a Bioinformtica um potencial
e importante papel na determinao da estrutura de biomolculas.
Mas para que precisamos saber como
a estrutura tridimensional de uma determinada biomolcula? Esta pergunta possui muitas respostas, incluindo a compreenso de
como a natureza evoluiu, como os organismos funcionam, como os processos patolgicos se desenvolvem (e podem ser tratados) e
como as enzimas exercem suas funes catalticas. Tomemos este ltimo caso como
exemplo.
Com o entendimento de como protenas
se enovelam, ser possvel construir novas
protenas, capazes de adotar formas que a
natureza no previu at o momento, enzimas
aptas a catalizar reaes de importncia econmica, com menor toxicidade, o que ter por
si impacto ambiental. Ainda, abre-se a possibilidade de planejamento racional de enzimas
e protenas envolvidas na detoxificao de
reas. Esta linha de pesquisa est em seu incio, e o nmero de grupos de pesquisa dedicados ao redor do mundo para trabalhar na

1. O que Bioinformtica?

engenharia de protenas vem aumentando


gradativamente. Mas, infelizmente, ainda no
possuimos uma base terica que nos permita
entender e prever, com preciso e de forma
ampla, a estrutura 3D de protenas.
Contudo, esta problemtica vem sendo
abordada a cada ano com maior sucesso. Para protenas com no mnimo em torno de
30% de identidade com outras protenas de
estrutura 3D j determinada, podem ser obtidos modelos de qualidade prxima quela de
mtodos experimentais. Em outros casos,
estruturas cristalogrficas podem ser refinadas por mtodos computacionais, agregando
explicitamente informaes ausentes nos experimentos (como a flexibilidade molecular).
Outro exemplo a construo de alas flexveis, de difcil observao experimental mas
que podem ser abordadas por diferentes mtodos computacionais.
Para cidos nucleicos, a construo
computacional de estruturas 3D de molculas
de DNA tarefa relativamente simples, que
usualmente no requer os custos associados
a experimentos de cristalografia e ressonncia magntica. Para molculas de RNA, contudo, a elevada flexibilidade traz consigo
desafios adicionais. Mesmo assim, em diversos casos as estratgias computacionais
possuem vantagens em lidar com molculas
muito flexveis. Talvez o caso mais emblemtico neste sentido sejam as membranas biolgicas. Estas macromolculas biolgicas no
so observveis nos experimentos usuais capazes de determinar estruturas com resoluo atmica, embora atravs de simulaes
por dinmica molecular tenham suas estruturas descritas com elevada fidelidade.
Outro caso em que os mtodos computacionais parecem possuir vantagens em relao aos experimentais envolve os
carboidratos. Embora sejam molculas em
vrios aspectos mais complexos que protenas, carboidratos biolgicos no parecem sofrer enovelamento nem adotar tipos de
estrutura 2ria em soluo (embora o faam
em ambiente cristalino), o que os torna na
prtica um problema estrutural mais simples
que protenas. De fato, vem sendo possvel

prever a estrutura de glicanas com graus variados de complexidade com grande preciso,
um campo no qual os mtodos experimentais
possuem grandes dificuldades em abordar.

Validao experimental
Em linhas gerais, mtodos computacionais devem ser comparados a dados experimentais para validao. Esta afirmao,
embora tomada geralmente como um axioma, bastante simplista, e no expressa claramente a complexidade e desafio nesta
tarefa. Alguns pontos especficos incluem:
i) nem sempre h dados experimentais
disponveis para validar os clculos e simulaes realizados. Por exemplo, este
o caso com frequncia para alinhamentos de sequncias, para relaes filogenticas, para predies ab initio da
estrutura de protenas e para a descrio da flexibilidade de biomolculas obtidas por dinmica molecular. Nem
sempre h fsseis ou outras evidncias
arqueolgicas para validar antepassados evidenciados por estudos filogenticos. Por outro lado, no h mtodos
experimentais com resoluo atmica e
temporal, de forma que a validao de
simulaes por dinmica molecular
em grande medida indireta (uma estrutura obtida por cristalografia nica,
sem variao temporal, enquanto os
modelos oriundos de ressonncia magntica nuclear correspondem a mdias
durante o perodo de coleta do dado);
ii) os dados experimentais devem ser
adequados ao estudo computacional
empregado. Assim, se estamos estudando a formao de um complexo frmaco-receptor, resultados in vivo
devem ser evitados, enquanto os experimentos in vitro preferidos. Se administramos um determinado frmaco por
via oral a um camundongo, este frmaco passar por diversos processos farmacocinticos (absoro, distribuio,
metabolizao e excreo) que muito
provavelmente iro interferir na ao

1. O que Bioinformtica?

frente ao receptor alvo. Portanto, para


estudos de atracamento, dados in vivo
devem ser evitados;
iii) a margem de erro do dado experimental deve ser considerada quando
comparada aos dados computacionais.
Frequentemente a margem de erro para
experimentos na bancada maior que
para aqueles realizados em computadores, limitando a extenso da validao. Usando novamente o exemplo de
estudos de atracamento, se a afinidade
experimental de um frmaco por seu
receptor de 0,11 0,04 M, valores
tericos de 97 nM a 105 nM estaro
corretos. Por outro lado, frequentemente os resultados experimentais so
expressos como a menor dose testada,
por exemplo, > 5 M. Assim, qualquer
valor maior que 5 M ser validado pelo
dado experimental, o que cria uma
grande dificuldade de validao (como
comparar 5 a, digamos, 1.000?);
iv) as condies nas quais os experimentos foram realizadas devem ser
observadas com estrito cuidado. Temperatura, contaminantes, sais e concentraes
diferentes
daquelas
no
ambiente nativo so frequentemente
requeridas por alguns mtodos experimentais, e podem interferir nos resultados. Por exemplo, a melitina (principal
componente do veneno da abelha Apis
mellifera) aparece como uma hlice em
estudos cristalogrficos mas desenovelada no plasma humano, como pode
ser confirmado por experimentos de dicroismo circular com fora inica compatvel com o plasma.
Assim, a despeito do axioma da exigncia de validao experimental para estudos
computacionais, no infrequente que um
dado computacional apresente maior preciso que um dado obtido na bancada. Na realidade,
um
modelo
computacional,
frequentemente chamado de terico em oposio aos mtodos ditos experimentais, no
nada alm de um experimento computacional

que, infelizmente, nem sempre tem contraparte em experimentos de "bancada". E esses


adjetivos no carregam consigo qualificaes
quanto confiabilidade dos resultados gerados.

1.5. Leitura recomendada


KHATRI, Purvesh; DRAGHICI, Sorin. Ontological
Analysis of Gene Expression Data: Current
Tools, Limitations, and Open Problems.
Bioinformatics, 21, 3587-3593, 2005.
MORGON, Nelson H.; COUTINHO, K. Mtodos
de Qumica Terica e Modelagem Molecular. So Paulo: Editora Livraria da Fsica, 2007.
MIR, Luis. Genmica. So Paulo: Atheneu,
2004.

2. Nveis de Informao Biolgica

Hugo Verli

Representao do fluxo de informao em sistemas


biolgicos.

2.1. Introduo
2.2. Macromolculas biolgicas
2.3. Nveis de organizao
2.4. Descritores de forma
2.5. Formas de visualizao
2.6. Conceitos-chave
2.1. Introduo
Por mais que possam apresentar enormes diferenas em suas caractersticas os
seres vivos, desde bactrias a mamferos,
passando por plantas e fungos, so compostos aproximadamente pelos mesmos tipos de
molculas. Estes compostos incluem protenas, cidos nucleicos, lipdeos e carboidratos,
molculas nas quais a vida como conhecemos
baseada.
Cada uma destas classes de biomolculas apresenta, contudo, enormes variaes de
forma, estrutura e funo na natureza, o que
possibilita a gigantesca variedade e complexidade de manifestaes da vida em nosso planeta. Mesmo em estruturas que no so
normalmente consideradas vivas, como o
caso dos vrus, estas biomolculas so tambm encontradas e se mostram essenciais
execuo de suas funes, sejam estas patolgicas ou no.
Independentemente da forma pela qual

a vida se manifesta, a informao que a rege


est armazenada nas molculas de DNA.
Contudo, tais dados no so usados diretamente, mas atravs de uma molcula intermediria, o RNA (mais precisamente o
RNAm), sintetizado por um processo denominado transcrio (uma molcula de cido
nucleico transcrita em outra molcula de
cido nucleico). Esta molcula de RNAm ir
servir como molde para a sntese de protenas, em um processo chamado de traduo
(uma molcula de cido nucleico traduzida
em uma molcula de protena). As protenas,
assim expressas, iro reger a maioria dos fenmenos relacionados funo dos organismos e perpetuao da vida (embora
diversos outros processos sejam modulados
por outras biomolculas). Esta informao
segue um sentido to conservado na natureza
que foi convencionado denomin-lo como
dogma central da biologia molecular (Figura
1-2).
A importncia do dogma central no entendimento da informao e funo biolgicas
pode ser exemplificada no fato de que ele
aborda os trs tipos mais comuns de molculas estudadas por tcnicas de bioinformtica, o DNA, o RNA e as protenas,
estabelecendo um fluxo de informao universal vida como conhecemos. Adicionalmente, a efetivao da informao gentica,
atravs das protenas, acarreta na construo
e manuteno de outras biomolculas, igualmente essenciais ao desenvolvimento da vida,
como carboidratos e lipdeos. Em decorrncia
de sua elevada massa molecular, protenas,
cidos nucleicos, lipdeos agregados em
membranas e carboidratos complexos so
chamados de macromolculas.
Embora carboidratos e lipdeos no estejam explici-

2. Nveis de Informao Biolgica

muitos destes usados at hoje como frmacos. Desta


forma, se a bioinformtica se dedica ao estudo, por
ferramentas computacionais, dos fenmenos relacionados vida, o estudo de micromolculas tambm
torna-se foco da bioinformtica ao abordar compostos
relacionados manuteno fisiolgica ou teraputica
(neste caso, no planejamento de novos candidatos a
agentes teraputicos).

Figura 1-2: Representao do dogma central


da biologia molecular, no qual o fluxo de
informao em sistemas biolgicos
descrito, desde seu armazenamento no DNA
at a manifestao da funo biolgica. O esquema tradicional sofreu a adio do processo de enovelamento de de reconhecimento
molecular devido ao seu carter fundamental
para a manifestao da funo gnica.
Adaptado de Hup, 2012.
tamente inseridos no dogma central, no devemos minimizar sua importncia. Apesar de por muito tempo
estes compostos terem sido reconhecidos simplesmente por papis energticos e estruturais, ambos
vm sendo demonstrados como envolvidos em inmeros fenmenos biolgicos, como na glicosilao de
protenas e na formao de jangadas lipdicas. Estes,
por sua vez, podem interferir diretamente na execuo
da funo de protenas e na homeostasia dos organismos.
No somente macromolculas so importantes biologicamente. Protenas sintetizam uma infinidade de
compostos de baixa massa molecular, ou micromolculas, que atuam como neurotransmissores, sinalizadores e moduladores dos mais variados tipos
representando, portanto, diferentes tipos de informao em sistemas biolgicos. Por exemplo, a infeco
do nosso organismo por bactrias desencadeia um
processo inflamatrio mediado por derivados lipdicos
denominados prostaglandinas. Para combater micro-organismos competidores, fungos e bactrias produzem pequenos compostos com atividade antibitica,

As tcnicas modernas de bioinformtica


so capazes de lidar com todas estas biomolculas que, contudo, possuem particularidades derivadas de suas diferenas qumicas.
Tais aspectos devem ser conhecidos de forma
a permitir a construo de modelos computacionais mais precisos e adequados ao estudo dos mais diversos aspectos relacionados
vida.
No h uma forma nica de representar
as diferentes molculas biolgicas. Cada estratgia de representao possui suas vantagens e desvantagens, que devem ser
avaliadas de acordo com o estudo em andamento. Estratgias com menor volume de informao associado possuem menor custo
computacional e, portanto, nos permitem
avaliar rapidamente grandes quantidades de
dados, por exemplo, genomas inteiros de diferentes organismos, cada um contendo dezenas de milhares de protenas. Por outro
lado, estratgias com maior volume de informao associado acarretam em custo computacional gigantesco nos limitando a, por
exemplo, um punhado de protenas, de dois ou
trs organismos. O trnsito por tal disparidade um dos grandes desafios atuais para o
profissional que trabalha com bioinformtica.

2.2. Macromolculas biolgicas


As biomolculas descritas no dogma
central da biologia molecular, protenas, DNA
e RNA, so o que chamamos de biopolmeros,
isto , polmeros produzidos pelos seres vivos. Somam-se a este grupo de molculas os
carboidratos, que tambm podem ser encontrados como polmeros em meio biolgico.
As propriedades de um polmero tornam-se consequncia das propriedades de
suas unidades monomricas constituintes. No

2. Nveis de Informao Biolgica

caso dos biopolmeros, os monmeros podem


ser aminocidos, nucleotdeos e monossacardeos. Assim, o conhecimento destas unidades bsicas ir auxiliar diretamente no estudo
de suas formas polimricas e, por conseguinte, das funes biolgicas destes polmeros
sintetizados na natureza.

cidos nucleicos
Os compostos denominados cidos
nucleicos so polmeros sintetizados a partir
de unidades denominadas nucleotdeos. Os
nucleotdeos so formados por trs partes
constituintes: uma base nitrogenada, um carboidrato e um grupo fosfato. A base nitrogenada pode ser adenina (A), guanina (G),
citosina (C), uracila (U) ou timina (T), enquanto
a parte sacardica poder ser -D-ribose (frequentemente abreviada simplesmente como
ribose, para o RNA) ou a 2-desoxi--D-ribose
(usualmente abreviada como desoxirribose,
para o DNA) (Figura 2-2). Nas molculas de
cidos nucleicos, os nucleotdeos so ligados
atravs da denominada ligao fosfodister
(ver adiante).
Quando a base nitrogenada est ligada
ao carboidrato, na ausncia do grupo fosfato,
os compostos gerados so denominados nucleosdeos. Formados por ligao de diferentes nucleotdeos -D-ribose temos a

Figura 2-2: Representao esquemtica de


um nucleotdeo e suas variaes na base nitrogenada e no carboidrato.

adenosina, a guanosina, a citidina, a uridina e a


timidina. A estes compostos podem ainda se
ligar diferentes nmeros de grupos fosfato.
Assim, a adenosina pode se apresentar monofosfatada (AMP, do ingls adenosine
monophosphate), difosfatada (ADP, do ingls
adenosine diphosphate) ou ainda trifosfatada
(ATP, do ingls adenosine triphosphate).
Conforme veremos adiante, carboidratos apresentam caractersticas conformacionais especficas, como
sua capacidade de deformar seu anel em diferentes
estados conformacionais. Esta caracterstica se soma
grande flexibilidade da ligao fostodister na criao
de um esqueleto bastante flexvel para cidos
nucleicos. Em contrapartida a esta flexibilidade da parte sacardica dos nucleotdeos, cada base nitrogenada
essencialmente planar, uma vez que constituem-se de
anis aromticos, e portanto apresentam flexibilidade
bastante reduzida.

Protenas
As protenas so polmeros sintetizados
pelas clulas a partir de aminocidos. So
talvez as biomolculas mais versteis na natureza, sendo capazes de adotar uma gigantesca
possibilidade
de
arranjos
tridimensionais, no encontrada nos demais
biopolmeros. No por acaso, constituem-se
no principal produto direto da informao gentica, a partir da traduo do RNAm.
O genoma codifica diretamente 20 aminocidos (22 contando selenocistena e pirrolisina, que so codificadas por codons de
parada) para composio de protenas (Figura
3-2), embora outros resduos de aminocidos,
no codificados no genoma (Figura 4-2), possam ser sintetizados a partir destes e exercer
funes bastante especficas, como o cido amino butrico (GABA), um neurotransmissor
inibitrio no sistema nervoso central, ou como o resduo cido -carbxi glutmico (GLA),
constituinte de diversas protenas plasmticas e fundamental na hemostasia.
Os aminocidos codificados no genoma
apresentam algumas caractersticas bem definidas e compartilhadas entre si. Todos os
resduos apresentam uma regio comum, independente do resduo. Esta regio denomi-

2. Nveis de Informao Biolgica

Figura 3-2: Estrutura dos aminocidos codificados no genoma, organizados segundo as propriedades de suas cadeias laterais. No topo o esqueleto peptdico representado como encontrado dentro de uma protena, tanto em sua forma 2D quanto 3D. Nesta ltima, o grupo R (cadeia
lateral) est apresentado como uma esfera amarela, enquanto a continuao da cadeia polipeptdica como esferas verde-escuras. As cadeias laterais esto apresentadas em sua ionizao
mais comum, plasmtica.
nada esqueleto peptdico, e composta pelo
grupo amino, pelo grupo cido carboxlico e
pelo tomo de carbono que liga estes dois
grupos, denominado carbono (C). A diferena entre estes resduos est no grupamento ligado ao C, chamado cadeia lateral
(Figura 3-2).
Enantimeros so compostos que, diferindo somente no arranjo de seus tomos no espao (como no
caso de L-Ser e D-Ser), correspondem um imagem
especular do outro (isto , uma o reflexo em um es-

pelho da outra).
exceo da glicina, todos os aminocidos so quirais, em decorrncia da presena de quatro substiuintes diferentes ligados ao C. Salvo casos especficos,
todos os aminocidos quirais so encontrados em somente uma forma enantiomrica, L. Como consequncia, todas as protenas so quirais, e isto tem
implicaes importantes em fenmenos bioqumicos e
na prtica teraputica.
Dois enantimeros interagem de forma idntica
com compostos que no sejam quirais. Por exemplo, a

2. Nveis de Informao Biolgica

fluenciadas pelo pH do meio circundante. De acordo


com sua acidez ou basicidade, a carga dos resduos pode ser modificada e, por conseguinte, algumas propriedades da protena. Assim, dependendo do
compartimento celular, uma mesma protena pode
apresentar ionizao distinta de seus resduos de aminocidos e, por conseguinte, propriedades eletrostticas diferentes. Tais caractersticas destacam a
importncia de uma avaliao adequada do estado de
ionizao dos resduos de aminocidos das protenas
em estudo, principalmente o resduo de histidina.

Figura 4-2: Exemplos de aminocidos encontrados em nosso organismo mas no codificados no genoma humano.
interao de L-Ser e D-Ser com a gua idntica. Em
contrapartida, compostos quirais interagem diferentemente com cada enantimero. Assim, a interao de LSer e D-Ser com uma dada protena seria diferente.
Assim, se tivermos um frmaco quiral, uma de suas
formas enantiomricas ser ativa e a outra provavelmente inativa, menos ativa ou mesmo txica.
O esqueleto peptdico de aminocidos apresenta um
grupo do tipo cido carboxlico somente em aminocidos livres, monomricos, ou na posio terminal da
protena, denominada regio C-terminal (o final da sequncia polipeptdica). Da mesma forma, s encontramos o grupo amino na regio demominada N-terminal
(o incio da sequncia polipeptdica). exceo destas
extremidades, os grupos amino e carboxlico reagem,
dando origem a um grupo amida. Assim, dentro de
uma protena, cada aminocido contribui com um um
tomo de nitrognio e com uma carbonila para a formao de uma amida contida no esqueleto peptdico.

Os aminocidos frequentemente so
agrupados de acordo com as propriedades de
suas cadeias laterais (Figura 3-2). Inicialmente, podem ser separados em resduos polares
e apolares. Os resduos polares incluem aminocidos no-carregados e carregados (com
carga positiva ou negativa), enquanto os resduos apolares incluem aminocidos aromticos e alifticos (no aromticos).
As propriedades dos aminocidos so altamente in-

Durante a sntese proteica, os aminocidos so conectados atravs da denominada


ligao peptdica (ver adiante). Neste processo, o grupo carboxilato de um resduo e o o
grupo amino de outro resduo de aminocido
reagem, dando origem a um grupo amida que
compe a ligao peptdica.

Carboidratos
Carboidratos compem um terceiro
grupo de biomolculas. So compostos que,
ao contrrio das protenas, no esto codificados diretamente no genoma. Enquanto a
sntese de protenas guiada por um molde (a
molcula de RNAm), a sntese de carboidratos no segue uma referncia direta, mas um
processo complexo e menos especfico.
Embora o genoma no codifique a sequncia oligossacardica, ele determina a expresso de diversas
enzimas que sintetizam carboidratos, ligam-os a outras
estruturas polissacardicas ou ainda modificam os resduos monossacardicos, adicionando ou removendo
grupamentos substituintes nos anis furanosdicos ou
piranosdicos (Figura 5-2). Todo este processo bastante especfico, envolvendo tipos de monossacardeos
ou ainda posies especficas dentro destas molculas.
Uma das principais famlias de enzimas envolvidas neste processo so as denominadas glicosil transferases.

Esta famlia de biomolculas apresenta


uma grande variedade de formas (e, por conseguinte, funes), desde suas formas monomricas at grandes polmeros com
centenas de unidades monossacardicas. So
encontrados ligados a protenas, formando as
chamadas glicoprotenas; sulfatados, dando
origem aos glicosaminoglicanos; ligados a lipdeos em membranas celulares (os glicolip-

2. Nveis de Informao Biolgica

Figura 5-2: Os dois principais grupos de carboidratos envolvem monossacardeos compostos


por anis de 5 (furanoses) e 6 membros (piranoses). So apresentados 3 tipos de visualizao
para estas molculas, duas 2D e uma 3D.
deos) e como exopolissacardeos da parede
celular de fungos, dentro outros.
A forma majoritria de monossacardeos biolgicos em soluo um ciclo, mais comumente composto por 5 ou 6 tomos. Os
carboidratos com anis de 5 membros so
denominados furanoses (como a ribose e a
desoxirribose), por semelhana ao composto
furano, enquanto os carboidratos com anis
de 6 membros so denominados piranoses
(como a glicose, a manose e a galactose), pela sua similaridade com o composto pirano
(Figura 5-2).
Estes anis apresentam caractersticas conformacionais importantes. No caso das furanoses, podem ser
as formas em envelope e torcida. No caso das piranoses, podem ser as formas em cadeira e bote torcido
(Figura 6-2). Cada uma destas formas pode apresentar
ainda variaes, especficas para cada carboidrato em
soluo. Esta transio entre diversos estados conformacionais de monossacardeos denominada de equilbrio pseudo-rotacional.

Os carboidratos possuem algumas diferenas importantes em relao aos aminocidos. So, em geral, compostos mais
polares, o que indica que iro interagir fortemente com a gua. Outra diferena importante se refere sua diversidade. Em
comparao aos 20 aminocidos codificados
no genoma, mais de 100 possveis unidades

monossacardicas j foram observadas como


presentes em biomolculas (Figura 7-2).
Em analogia ligao peptdica, carboidratos so ligados entre si (ou a outras molculas) atravs da denominada ligao
glicosdica. Contudo, aminocidos possuem
somente um grupo amino e um grupo cido
carboxlico em seu esqueleto peptdico, de
forma que somente um tipo de ligao peptdica possvel entre dois resduos (o mesmo
se d com nucleotdeos). Como a ligao glicosdica entre dois monossacardeos formada pela reao entre dois grupos
hidroximetileno (CHOH), e cada monossacardeo possui vrios destes grupos, mltiplas ligaes
entre
dois
monossacardeos
consecutivos tornam-se possveis. Cria-se,
assim, um complexo espectro de possveis ligaes entre os mesmos dois monossacardeos.
O tomo de carbono na posio 1 (C1) de um monossacardeo apresenta propriedades especficas, sen-

Figura 6-2: Equilbrio conformacional entre a


forma de cadeira e bote torcido para o resduo de cido idurnico, componente da heparina.

2. Nveis de Informao Biolgica

Figura 7-2: Exemplo da complexidade de possveis monossacardeos encontrados na natureza.


do denominado carbono anomrico. Para um mesmo
monossacardeo, o carbono anomrico pode ser encontrado em duas possveis configuraes, e (Figura 5-2). Assim, uma ligao glicosdica entre o carbono
anomrico (C1) de uma manose e o tomo C3 de outra
manose poderia ocorrer de duas formas, -Man-(13)Man ou -Man-(13)-Man. No caso de glicoprotenas,
contudo, a forma aquela usualmente encontrada
para o resduo de manose (para outros resduos, a forma anomrica preferencial pode ser diferente).
Tomando como exemplo o tetrassacardeo -Man(12)--Man-(12)--Man-(13)-Man,
comumente
encontrado em glicoprotenas do tipo oligomanose, o
primeiro resduo de manose (denominada extremidade
no-redutora) possui seu carbono anomrico ocupado
na ligao glicosdica, tendo sua configurao (neste
exemplo ) fixa. Em contrapartida, o quarto resduo de
manose possui seu carbono anomrico livre. Esta poro denominada redutora, e tem a configurao do
carbono anomrico varivel, isto , pode estar tanto na
forma quanto .

Membranas
Diferentemente dos cidos nucleicos,
protenas e carboidratos, membranas no se

constituem em polmeros biolgicos, mas em


agregados moleculares de lipdeos anfipticos
organizando uma bicamada (Figura 8-2).
Apresentam papel fundamental vida, compartimentalizando a clula, definindo seus limites, propriedades e organizando estruturas
celulares.
importante ter em mente que membranas so muito mais do que simples "paredes"
delimitadoras
da
clula.
Os
componentes de membranas so variados,
includos diferentes tipos de lipdeos, protenas e carboidratos. A presena e localizao
destes componentes pode ser modulada de
forma dinmica em funo de necessidades
da clula, tecido ou organismo, sinalizando e
modulando cadeias de eventos e definindo
regies da clula com propriedades especficas (a chamada polaridade celular).
Molculas anfipticas apresentam como
caracterstica a presena simultnea de uma
regio polar, tambm chamada de cabea polar (hidroflica ou lipofbica) e de uma regio
apolar, tambm chamada de cauda hidrofbica (hidrofbica ou lipoflica). Assim, membranas celulares possuem superfcies polares e

2. Nveis de Informao Biolgica

Figura 8-2: Representao de uma membrana


POPE (palmitoil oleil fosfatidil etanolamina)
contendo a enzima PglB (oligossacaril
transferase) de Campylobacter lari. Os
tomos de oxignio esto representados em
vermelho, os tomos de carbono em verde,
os tomos de hidrognio em branco e
nitrognios em azul. A enzima est
representada como cartoon verde.
interiores apolares. As caractersticas destas
duas regies, contudo, podem variar bastante
em funo da composio dos lipdeos, interferindo na carga, espessura e fluidez da
membrana (e, por conseguinte, na sua capacidade de modular fenmenos biolgicos).

"Micromolculas" biolgicas
Quando pensamos nos efetores da informao gentica natural que a primeira
famlia de biomolculas que venha a nossa
mente seja a das protenas, codificadas diretamente no genoma. Contudo, como vimos
anteriormente, outros tipos de biomolculas
so fundamentais ao funcionamento dos organismos, mesmo que estas no estejam codificadas diretamente no DNA.
Da mesma forma como no h um conjunto de bases nitrogenadas que codifique
monossacardeos ou lipdeos, diversos compostos de baixa massa molecular (por isso
muitas vezes chamados de micromolculas,
em oposio s macromolculas, compostos
de elevada massa molecular) no possuem
codificao direta no genoma, mas so produzidos a partir de enzimas que, estas sim,
tm suas sequncias de aminocidos definidas pela molcula de DNA. Neurotransmisso-

res, hormnios, metablitos primrios e secundrios em plantas e uma infinidade de


compostos, em decorrncia de sua importncia biolgica (e teraputica), so potenciais
alvos de estudos computacionais. Contudo,
justamente em decorrncia de sua grande
variedade qumica, torna-se difcil estabelecer
padres ou referncias estruturais, como o
caso das biomacromolculas vistas anteriormente. Frequentemente, esta caracterstica
cria uma srie de dificuldades e desafios no
emprego de ferramentas computacionais no
estudo de micromolculas. Dentre estas dificuldades destaca-se a necessidade de desenvolvimento de parmetros especficos para
cada molcula (como veremos no captulo 8).

2.3. Nveis de organizao


A classificao da estrutura de biomacromolculas envolve, didaticamente, quatro
diferentes nveis de complexidade. Esta separao facilita o nosso entendimento do como
e do porqu macromolculas adotarem determinadas formas em meio biolgico e, a
partir destas, desempenharem funes especficas. Adicionalmente, cada nvel traz volume e tipos de informao diferentes, exigindo
poder computacional e abordagens distintas,
como veremos adiante.
Em princpio, estes nveis apresentam
um componente hierrquico, ou seja, a informao de um nvel importante ou necessria para o nvel de complexidade seguinte.
Contudo, outros fatores podem participar
neste processo.
Por exemplo, no caso das protenas, embora normalmente consideremos que a informao contida na
estrutura 1ria (isto , a sua sequncia de aminocidos)
seja determinante para a sua estrutura 2ria, ela no o
nico determinante. Concesses podem ser realizadas
para permitir uma estrutra 3ria ou mesmo 4ria mais
estvel.
Assim, uma determinada regio em hlice pode ser
parcialmente desestruturada para facilitar a formao
de um determinado domnio (ver adiante). Este tipo de
considerao importante na validao de modelos
tericos para a estrutura de protenas, como veremos
no captulo 7.

2. Nveis de Informao Biolgica

Adicionalmente, fatores externos prpria sequncia proteica podem interferir nestes nveis de organizao. Um dos fatores mais comuns a glicosilao de
protenas, que frequentemente estabiliza partes da
mesma e, assim como as chaperonas, pode interferir
na forma proteica tridimensional existente em meio biolgico.

Estrutura 1ria
O nvel inicial de complexidade, a estrutura 1ria, consiste num padro de letras (ou
pequenos conjuntos de letras) que representa
a composio do biopolmero. Esta sequncia
de letras representa uma informao de natureza unidimensional (1D), em que a nica dimenso descrita a ordem de aparecimento
dos monmeros.
Para cidos nucleicos, a estrutura 1ria
consiste numa sequncia de nucleotdeos, enquanto para protenas em uma sequncia de
aminocidos e, para carboidratos, em uma
sequncia de monossacardeos (Figura 9-2).
Este ltimo caso o nico para o qual no h
uma descrio de uma nica letra para cada
monmero, principalmente em face do elevado nmero de possveis monmeros encontrados na natureza, maior que o nmero de
letras no alfabeto.
Embora de menor complexidade, a estrutura 1ria nos oferece um grande volume de
informaes sobre a forma nativa da biomolcula e, por conseguinte, sobre suas funes.
Tais informaes advm principalmente da
comparao de sequncias de biomolculas
(aminocidos ou nucleotdeos) em busca de
padres especficos associados a determinadas caractersticas ou funes. Uma vez
identificados, esses padres ou assinaturas
podem ser usados na busca das mesmas caractersticas em outras protenas, desconhecidas. Estas comparaes ainda nos permitem
estudar a evoluo destas biomolculas e de
seus organismos, contribuindo no entendimento de como a vida se desenvolveu e atingiu o seu estgio atual de complexidade (ver
captulo 5).

DNA:
GGTATAGGCGCTGTTCTTAAGGTGCTAACAACGGGGT
TACCCGCGTTGATCTCGTGGATAAAACGCAAACGCCA
ACAG
RNA:
GGUAUAGGCGCUGUUCUUAAGGUGCUAACAACGGG
GUUACCCGCGUUGAUCUCGUGGAUAAAACGCAAAC
GCCAACAG
Aminocidos:
GIGAVLKVLTTGLPALISWIKRKRQQ
Sequncia sacardica:
-D-GlcNAc,6S-(13)--D-GlcA-(14)--DGlcNS,3S,6S-(14)--L-IdoA,2S-(14)--DGlcNS,6S

Figura 9-2: Representao da estrutura 1ria


de diferentes biomacromolculas: DNA, RNA,
protena (estas trs representando o peptdeo
melitina, componente do veneno da abelha
Apis mellifera) e carboidratos (representando
uma sequncia repetitiva de heparina). A letra
S na sequncia oligossacardica indica
sulfatao.

Estrutura 2ria
A partir da sequncia de monmeros
descritos, em uma determinada ordem especfica, na estutura 1ria surgem interaes entre monmeros vizinhos e com as molculas
de solvente circundantes. Por exemplo, enquanto dois nucleotdeos vizinhos tendem a
"empilhar" os anis das bases, uma cadeia lateral de um aminocido polar vai se expor
gua, maximizando interaes por ligao de
hidrognio com este solvente. De forma semelhante, uma cadeia apolar ir se expor aos
lipdeos em uma membrana, maximizando interaes hidrofbicas com este outro solvente.
Estas interaes entre monmeros
acabam por dar origem a padres repetitivos
de organizao espacial, denominados de estrutura 2ria (Figura 10-2). Estes padres ou
elementos aparecem em nmero relativa-

2. Nveis de Informao Biolgica

mente pequeno de tipos, de forma que a estrutura tridimensional de biomolculas pode


ser descrita como uma combinao de conjuntos destes elementos.
Diferentes composies de estrutura
ria
1 podem gerar um mesmo tipo de estrutura
2ria. No por acaso, as propriedades destas
estruturas 2rias, mesmo que formadas por
sequncias diferentes, apresentam semelhanas. Por exemplo, uma ala em protenas
frequentemente uma estrutura 2ria bastante flexvel, enquanto folhas e hlices tendem
a ser mais rgidas.
As estuturas 2rias mais frequentemente
lembradas so aquelas relacionadas a protenas. Incluem trs grupos de elementos principais: as alas, as hlices e as folhas .
As alas ou voltas so elementos envolvidos na conexo entre hlices e folhas.
Tendem a ser, portanto, estruturas flexveis
para acomodar as mais variadas orientaes
que estas hlices e fitas podem adotar entre
si. Embora alas pequenas possam ser bastante rgidas, suas flexibilidades tendem a aumentar conforme o tamanho da ala aumenta
(Tabela 1-2). Justamente em funo desta
elevada flexibilidade, alas so mais susceptveis evolutivamente a sofrerem mutaes
(salvo se estiverem sob alguma presso evolutiva, determinada por alguma funo especfica). Em outras palavras, a troca de um
resduo por outro de propriedades distintas
pode ser mais facilmente acomodada nesta
estrutra flexvel do que nos outros tipos de
estrutura 2ria, mais rgidos.
Enquanto hlices e folhas apresentam periodicidade
ao longo de suas estruturas (semelhana nos pares de
ngulos e a cada aminocido, ver adiante), alas se
distinguem por no apresentarem periodicidade. Ainda,
embora alas sejam frequentemente consideradas como elementos sem estrutura definida (as chamadas
random coils), ou mesmo com estrutura aleatria, isto
no sempre verdade. Alas podem adotar formas
mais definidas, dependendo de seu tamanho e composio.
De forma semelhante, equivocado subestimar a
importncia das alas, considerando somente seu papel como elemento de conexo. Alas apresentam diversos impactos funcionais importantes em protenas.

Tabela 1-2: Tipos de alas


encontrados em protenas.
Tipo

mais

comuns

Tamanho
(n de resduos)
o

voltas

voltas

voltas

voltas

alas

6-16a

alas

6-16a

A despeito de tamanhos semelhantes, as formas

destas alas se aproximam das letras que as


denominam. Na volta os resduos das extremidades
da ala esto prximos, e na volta observa-se uma
distoro na geometria.

Por exemplo, sua flexibilidade permite que atuem como


tampas ou abas, cobrindo stios ativos e regulando o
acesso de moduladores ou substratos. De forma ainda
mais direta, alas so frequentemente os elementos de
estrutura 2ria mais expostos ao solvente. Assim, muitas vezes envolvem-se em contatos protena-protena
(ou com outras biomolculas), os quais podem ser determinantes para a funo proteica. Assim, embora
mais susceptveis evolutivamente a mutaes, no so
incomuns alas com resduos conservados, fundamentais para suas respectivas funes biolgicas.

A hlice e as folhas foram inicialmente descritos por Linus Pauling e Robert B.


Corey em 1951, embora as primeiras propostas para as estruturas em folhas datem de
dcadas mais cedo, em 1933, por Astbury e
Bell. As folhas so formadas por sequncias de aminocidos (cada sequncia denominada de fita) quase completamente
extendidas. Estas fitas, quase lineares, interagem lado a lado ao longo de seus eixos longitudinais, atravs de uma srie de ligaes de
hidrognio entre o grupamento N-H de uma
fita e o grupamento C=O da fita vizinha (Figura
10-2). Para que esta organizao seja possvel, os tomos de C adotam orientao intercalada, acima e abaixo do plano da folha.
Esta organizao se assemelha a uma srie
de dobraduras em uma folha de papel, de
forma que este tipo de estrutura 2ria tam-

2. Nveis de Informao Biolgica

bm denominado de folhas pregueadas (Figura 10-2).


A forma pregueada de folhas tambm acompanhada pelas cadeias laterais dos resduos de aminocidos, ora acima do plano da folha, ora abaixo. Contudo,
resduos em fitas vizinhas orientam suas cadeias laterais para o mesmo lado, frequentemente de forma justaposta (Figura 10-2). Isto permite, por exemplo, que
uma face da folha seja hidrofbica e a outra hidroflica.

A organizao das fitas em folhas pode


seguir duas orientaes possveis: i) a poro
N-terminal de uma fita interagindo com a
poro N-terminal da fita vizinha (e, consequentemente, o C-terminal interagindo com o
C-terminal), ou ii) a poro N-terminal de uma
fita interagindo com a poro C-terminal da
fita vizinha. Estas duas possibilidades de interaes de fitas do origem a dois tipos de folhas : as paralelas e as antiparalelas.
As folhas paralelas e antiparalelas diferem em outras caractersticas. Esta organizao diferenciada das fitas acarreta, por
exemplo, em um padro distinto de ligaes
de hidrognio. Enquanto nas folhas antiparalelas as ligaes de hidrognio formam um
ngulo de 90o com as fitas, nas folhas paralelas estes ngulos se tornam maiores (e as
interaes mais fracas) (Figura 10-2).
As folhas podem ser encontradas em formas puras, paralelas ou antiparalelas, ou mistas, em que folhas paralelas pareiam com folhas antiparalelas.
Contudo, folhas paralelas tendem a ser menos estveis conformacionalmente que folhas antiparalelas.
Esta diferena pode ser bastante significativa, suficiente para acarretar na desnaturao de protenas por
seus inibidores, como foi proposto na ao de serpinas
sob suas proteses alvo.

O trabalho pioneiro de Pauling e Corey


no incio dos anos 50 do sculo XX identificou
no somente as folhas, mas tambm hlices
em sequncias polipeptdicas. A formao da
hlice, de forma similar s folhas, tambm
envolve a realizao de ligaes de hidrognio
entre grupos N-H e C=O vizinhos no espao
(mas no na sequncia) (Figura 10-2). Contudo, enquanto nas folhas estas interaes se
do com resduos em fitas vizinhas, nas hlices estas interaes acontecem com resduos
mais prximos na sequncia, entre as voltas

da hlice.
Diversos tipos de hlices podem ser encontrados em protenas (Tabela 2-2). A hlice
mais comum, denominada de hlice , apresenta 3,6 resduos de aminocidos por volta
da hlice, e cada aminocido (n) realiza ligao
de hidrognio com o quarto resduo seguinte
(n + 4), que perfaz (aproximadamente) uma
volta completa da hlice. Outro tipo de hlice
comum em alguns tipos de protena a hlice
de poli-prolina II encontrada, por exemplo, em
protenas de parede celular de plantas e no
colgeno. Neste tipo de hlice, contudo, como
o tomo de nitrognio da prolina est ligado a
trs tomos de carbono, no h formao de
ligao de hidrognio durante a organizao
da hlice.
Existem, ainda, outros tipos de hlice, menos comuns, como a hlice e a hlice 310 (Tabela 2-2). Quanto nomenclatura, a hlice 310 foge ao padro de uso
de letras gregas das hlices e . O nmero 3 representa o nmero de resduos por volta da hlice, enquanto o nmero 10 reflete o nmero de tomos entre
duas ligaes de hidrognio vizinhas dentro da hlice.
Assim, segundo esta nomenclatura, a hlice seria
chamada de 3,613 e a hlice de 4,416. Tais nomenclaturas, contudo, no so normalmente empregadas.

No so s as protenas que que apresentam estruturas 2rias. cidos nucleicos e


carboidratos tambm podem apresentar padres repetitivos de organizao espacial,
definidos pela sequncia de monmeros que
os constituem.
A molcula de DNA pode adotar trs tipos de estrutura 2ria, denominados A, B e Z
(Figura 11-2), embora a forma B seja a estrutura mais comum e a partir dela sejam definidas as fendas maior e menor do DNA (Tabela
3-2). A transio entre estas formas determinada pela hidratao, tipos de ctions e da
prpria sequncia de nucleotdeos. Contudo, a
dificuldade em mimetizar as interaes biolgicas, envolvidas no DNA e em complexos
DNA-protenas, durante a determinao de
estruturas 3D dificulta associaes mais claras de cada tipo de estrutura 2ria a fenmenos especficos in vivo.
Diferentes tipos de estrutura 2ria acarretam em diferentes propriedades estruturais

2. Nveis de Informao Biolgica

Figura 10-2: Representao dos tipos mais comuns de estrutura 2ria encontrados em protenas.
Em verde esto as hlices (A), em azul as hlices 310 (B), em salmo as hlices (C), em ciano
as folhas paralelas (D) e roxo as antiparalelas (E). As ligaes de hidrognio entre tomos do
esqueleto peptdico esto apresentadas como linhas tracejadas em marrom. As estruturas so
partes que compe as protenas descritas pelos cdigos PDB 18D8, 1ABB, 2QD1, 1EE6 e 1PC0, e
para cada uma duas diferentes orientaes so apresentadas. Note que as cadeias laterais
apontam para fora do eixo das hlices e, para as folhas, para cima e para baixo do plano
definido pelas fitas.
na molcula de DNA, como na largura e profundidade das fendas maior e menor e na disposio e orientao dos grupos fosfato,
propriedades estas que, por sua vez, esto

diretamente relacionadas especificidade da


interao do DNA com protenas e frmacos.
A forma B do DNA pode assumir dois sub-estados,
denominados BI e BII, definidos por diferenas em tor-

2. Nveis de Informao Biolgica

Tabela 2-2: Tipos de hlices encontrados em protenas.


Tipo de hlice

Resduos /
volta

Ligao de
hidrognio

Elevao /
resduo ()

Elevao /
volta ()

Direo mais
comum

hlice

3,6

n+4

1,5

5,4

direita

hlice 310

n+3

2,0

6,0

direita

hlice
poli-Pro I
poli-Pro II

4,4
3,3
3

n+5

1,2
1,7
3,1

5,3
5,6
9,3

direita
direita
esquerda

es na parte sacardica e no grupo fosfato (ver adiante). Essa regio, formada por carboidrato e fosfato,
tambm denominada de esqueleto do DNA, em analogia ao esqueleto peptdico. A lgica a mesma: o esqueleto composto pela regio comum a todos os
monmeros formadores do biopolmero. Adicionalmente, outras formas de DNA j foram identificadas
(alguns autores afirmam inclusive que poucas letras
do alfabeto sobram para nomear novas formas de
DNA que por ventura venham a ser identificadas), embora muitas ainda no tenham papel biolgico claro.
A maioria dos genomas eucariticos est sujeita a
um fenmeno de metilao do DNA, que consiste na
adio de um grupo metila no tomo de carbono na
posio 5 dos resduos de citosina. Como uma modificao estrutural epigentica envolvida na regulao do
potencial regulatrio e transcricional do DNA, deve-se
estar atento necessidade de incluir tal modificao na
descrio deste cido nucleico.

No somente o DNA, mas tambm o


RNA possui estrutura 2ria. Contudo, ao contrrio do DNA, que uma molcula contendo
duas ftas de cidos nucleicos, na maioria das
situaes o RNA uma molcula composta
por uma nica fita. Assim, enquanto no DNA
os pareamentos entre bases que do origem
estrutura 2ria surgem da interao de molculas (fitas) diferentes e complementares,
no RNA a estutura 2ria surge de interaes
na prpria fita, que dobra-se sobre si mesma.
As estruturas 2rias de RNA incluem regies de bases pareadas, alas de grampos,
alas internas, bojos (do ingls bulge) e junes. Quando o RNA se dobra sobre si, ele
forma pareamentos entre bases complementares de forma anloga quelas vistas no
DNA. Quando uma das fitas no RNA pareado
apresenta bases que no possuem uma con-

trapartida para formar um par A-U ou C-G,


forma-se uma protuberncia ou bojo.
Estes bojos, isto , bases no pareadas em uma dupla-fita, tambm podem ser encontradas em folhas .
Neste caso, resduos de aminocidos de uma fita deixam de interagir com a fita vizinha, dando origem a este outro tipo de estrutura 2ria de protenas.

As alas de grampos em molculas de


RNA so anlogas s voltas observadas em
protenas, conectando duas fitas por um
pequeno segmento de poucos resduos. No
RNA, quando a fita dobra-se sobre si mesma,
deixa alguns resduos (no mnimo 4) projetados para fora, formando uma ala. Neste tipo
de estrutura 2ria, a ala est vizinha a somente uma regio de pareamento de bases,
enquanto que h duas regies, a cada lado do
bojo, de bases pareadas.
As alas internas podem ser entendidas
como uma dupla fita de DNA em que, no seu
meio, as bases no so complementares e,
por isso, no pareiam. Assim, ambas as fitas
apresentam bases que no esto pareadas, o
que a diferencia do bojo. Por fim, as junes
conectam 3 ou mais regies de bases pareadas.
O terceiro tipo de biopolmero constituinte de biomacromolculas, os carboidratos
podem, similarmente a protenas e cidos
nucleicos, adotar padres repetitivos de organizao de suas unidades formadoras, monossacardeos, isto , em elementos de
estrutura 2ria.
Polissacardeos lineares desenvolvem
estruturas de hlices, similarmente protenas e cidos nucleicos. No caso destas molculas,
contudo,
a
variabilidade
de
organizaes possveis muito maior, de for-

2. Nveis de Informao Biolgica

Figura 11-2: Representao dos tipos mais comuns de estrutura 2ria encontrados no DNA, ilustradas para sequncias de 12 nucleotdeos. Em vermelho esto as hlices B (A), em azul as
hlices A (B) e em magenta as hlices Z (C). As estruturas pelos cdigos PDB 3BSE, 3V9D e
279D. Para cada uma duas diferentes orientaes so apresentadas, e o esqueleto das
molculas de DNA est representado como fitas.
ma que no h definio especfica para um
ou alguns tipos de hlices, como vimos anteriormente. Ao invs disto, cada tipo de polissacardeo apresentar um nmero de
resduos por volta, elevao por resduo e
elevao por volta, assim como seu sentido
para a direita ou para a esquerda (vide tabela
2-3).
Estas caractersticas, contudo, so normalmente
determinadas experimentalmente atravs de difrao
de raios-X, na qual a amostra est na fase cristalina.
Esta uma condio adequada descrio, por exemplo, da quitina, polissacardeo encontrado na natureza
em condies semelhantes. Contudo, quando estes polissacardeos so transpostos para solues biolgicas,
estas molculas adotam uma elevada flexibilidade e,
por conseguinte, grande variao conformacional. No
raramente, perdemos a capacidade de identificar for-

mas repetitivas, e a denominao de alas desordenadas pode tambm ser aplicada a polissacardeos.
Adicionalmente, carboidratos no se apresentam
somente como polissacardeos lineares, mas como oligo- ou polissacardeos ramificados. Esta ramificao
agrega um grau adicional de complexidade na descrio da forma destes compostos. Mesmo assim, ainda
possvel descrever a forma destes compostos, caso a
caso, como veremos adiante.

Estrutura 3ria
A importncia do conhecimento da estrutura 2ria de biomolculas reside, principalmente, no fato de que estes elementos se
organizam no espao tridimensional, dando

2. Nveis de Informao Biolgica

Tabela 2-3: Tipos de hlices encontrados em cidos nucleicos.


Tipo de
hlice

pb /
volta

Elevao / Elevao /
Fenda maior ()
Fenda menor ()
pb ()
volta () Largura Profundidade Largura Profundidade

DNA A

11

2,9

32

2,7

13,5

11,0

2,8

direita

DNA B

10

3,4

34

11,7

8,5

5,7

7,5

direita

DNA Z

12

3,8

45

convexa

esquerda

origem ao que chamamos de estrutura 3ria.


Em outras palavras, a estrutura 3ria de uma
dada biomolcula corresponde montagem
dos seus elementos de estrutura 2ria. Por
outro lado, a estrutura 3ria (ou a 4ria, que
veremos a seguir) que ir exercer a funo
biolgica da molcula em questo.
Os diversos elementos de estrutura 2ria
de uma dada molcula se organizam em uma
estrutura 3ria atravs de um fenmeno denominado enovelamento (tambm chamado
em portugus de dobramento, do termo em
ingls folding). Neste processo, uma combinao de foras converge para que a biomolcula adote uma conformao mais estvel
no meio biolgico alvo.
O termo conformao usado para descrever a
forma de uma dada molcula, como j empregado
neste captulo. Contudo, deve-se adotar uma distino
entre conformao e estrutura, importante para o entendimento de propriedades moleculares. Estrutura se
refere a uma nica forma, bem definida e conhecida.
Conformao se refere a uma forma dentre mltiplas
possveis, em um determinado meio ou ambiente molecular. Assim, comum nos referirmos a estrutura
cristalina de uma dada protena, pois no cristal temos
uma nica forma 3D, como uma foto nica que compe
um filme. Em soluo, contudo, h diversas formas simultaneamente co-existindo. Neste caso, cada forma
pode ser denominada de conformao. Podemos, de
forma mais precisa, dizer que a forma de uma biomolcula, determinada por cristalografia de raios-X,
uma conformao cristalogrfica.

O processo de enovelamento mais estudado para protenas, biopolmeros que


apresentam uma versatilidade de estrutura
3ria que nenhuma outra biomolcula possui.
Isso faz todo o sentido, tendo em vista que
so as protenas os principais efetores da informao gnica. Em protenas, o enovelamento envolve a aproximao mtua de
resduos hidrofbicos, que buscam se escon-

Direo

der da gua (tambm chamado de colapso


hidrofbico), ocasionando a expulso deste
solvente da regio central da protena.
Simultaneamente, os resduos polares
so expostos ao solvente, e interaes interresduo so estabelecidas. Assim, a estrutura
enovelada, nativa, ter uma quantidade mnima de molculas de gua em seu interior e
um nmero mximo de contatos inter-resduo
(Figura 12-2).
A ideia de ambiente molecular para o enovelamento
ou para que uma dada biomolcula exera sua funo
mais complexa do que parece primeira vista. Embora
a ideia usual seja de que o meio aquoso seja predominante, diversos tipos de ambientes aquosos podem ser
encontrados dentro de um organismo, tecido ou clula.
Por exemplo, o pH pode apresentar grandes variaes
entre vacolos lisossomais, citoplasma, plasma, secreo gstrica ou duodenal. Por outro lado, a fora
inica da soluo pode mudar drasticamente na proximidade de membranas com diferentes cargas.
Outro tipo de ambiente molecular que deve ser
destacado definido pelas membranas biolgicas.
Membranas so fluidos, e molculas inseridas em
membranas esto solvatados pelas molculas de fosfolipdeos. Assim, sendo o interior de membranas apolar (ou seja, lipoflico), o colapso hidrofbico pode
acontecer ao inverso, com a exposio de resduos
apolares para o solvente (neste caso, a membrana).
Ambientes mais especficos para o enovelamento de
protenas podem ainda ser criados por outras protenas, denominadas chaperonas. Como um barril, chaperonas podem isolar uma protena do meio aquoso,
levando a formao de interaes inter-resduo que
no seriam observveis de forma significativa em sua
ausncia. Por conseguinte, podem contribuir diretamente na formao de estruturas 3rias.

Alm de interaes no covalentes entre os resduos de aminocidos de uma dada


protena (ou as bases de um cido nucleico e
os monossacardeos de um polissacardeo) e
destes com o solvente, o enovelamento de

2. Nveis de Informao Biolgica

protenas tambm influenciado por intera-

comumente resduos de asparagina ou serina, embora


tambm possam participar resduos de treonina, hidroxiprolina, tirosina, arginina, triptofano e cistena. Dependendo do aminocido, a parte sacardica pode estar
ligada a tomos de nitrognio, oxignio, carbono ou enxofre, dando origem s glicosilaes chamadas de N-,
O-, P-, C- ou S-ligadas.

Estrutura 4ria

Figura
12-2:
Representao
2D
do
enovelamento de uma protena hipottica,
com
o
direcionamento
de
resduos
hidrofbicos (crculos pretos) para o interior
da protena e dos resduos hidroflicos para
sua superfcie (crculos brancos). Reproduzida
de Tomixdf, 2008 (Creative Commons).
es covalentes, associadas a modificaes
co- ou ps-traducionais.
Durante ou aps a sntese proteica (traduo), podem ser formadas ligaes dissulfeto entre grupamentos sulfidrila (SH) de
resduos de cistena, cofatores como o grupamento heme podem ser adicionados ou
mesmo processos reversveis podem ocorrer,
nos quais reaes como N-acetilao ou fosforilao podem ser observadas de forma
transiente. Mas o tipo mais abundante de modificao co- ou ps-traducional na natureza
a glicosilao de protenas, ou seja, a adio
de uma estrutura oligossacardica a um determinado aminocido. Assim, a adio destas
ligaes covalentes e grupamentos altera no
somente a forma 3D da protena, mas sua
flexibilidade e mltiplas propriedades fisicoqumicas, enzimticas e, por fim, pode tambm exercer papel importante em suas funes biolgicas.
A glicosilao de protenas ocorre em mais de 70%
das protenas de eucariotos. Diversos aminocidos podem estar envolvidos na ligao a carboidratos, mais

A despeito da funo de um gene ser


exercida por uma protena com estrutura 3D,
envolvendo a transmisso de informao de
uma estrutura 1ria para uma estrutura 3ria,
ainda h um quarto e ltimo nvel de organizao de biomacromolculas, denominado de
estrutura 4ria. Nem todas as biomolculas,
contudo, apresentam este grau de organizao.
A estrutura 4ria constituda por agregados macromoleculares, principalmente de
protenas. Estas biomolculas podem adotar
estados oligomricos, sejam estes compostos
por 2 (dmeros), 3 (trmeros), 4 (tetrmeros),
5 (pentmeros), 6 (hexmeros) ou mais subunidades necessrias realizao de determinada funo em condies nativas. No caso
de cidos nucleicos, a estrutura 4ria tambm
pode ser observada, por exemplo, em complexos entre DNA e protenas, como histonas.
No porque uma protena se mostra como um
oligmero em ambiente cristalino que em soluo a
mesma organizao, necessariamente, ser observada.
Mesmo in vivo, diferentes ambientes fisiolgicos podem acarretar em mudanas no estado oligomrico de
uma protena. Por exemplo, um peptdeo que se mostra
como monmero no plasma pode formar tetrmeros
quando inserido em membranas.
Portanto, assim como no caso da estrutura 3ria, a
estrutura 4ria frequentemente se constitui em uma
complexa combinao de mltiplas possibilidades que
podem ser modificadas ou reguladas em funo de
inmeras variveis qumicas e biolgicas. Reproduzir
com preciso este comportamento dinmico um dos
principais desafios para a bioinformtica.

2.4. Descritores de forma


O uso dos conceitos de nveis hierr-

2. Nveis de Informao Biolgica

quicos nos permite entender as organizaes


bsicas da estrutura 3D de macromolculas.
Estes nveis, contudo, nos oferecem definies qualitativas, gerais, que no abordam
nuances ou variaes dentro dos nveis. Por
exemplo, definir uma regio da protena como
uma hlice no nos informa se esta hlice
apresenta ou no algum grau de deformao.
Similarmente, podemos saber que uma determinada sequncia de nucleotdeos de DNA
assume uma hlice do tipo B, mas esta classificao simplemsente no avalia a deformao provocada nesta hlice por um
frmaco intercalador do DNA.
Portanto, em acrscimo aos nveis hierrquicos de classificao da estrutura de
macromolculas, h a necessidade de introduzir medidas quantitativas da forma destes
compostos. Podemos, assim, calcular precisamente formas associadas a determinados
eventos biolgicos (como a regulao da expresso de um gene) e, por conseguinte, interferir nestes processos de forma racional
(como no desenho de novos frmacos capazes de inibirem a expresso deste gene).
Considerando que protenas, carboidratos e cidos nucleicos so biopolmeros, suas
formas tridimensionais so definidas, basicamente, pelas conectividades entre seus monmeros constituintes (isto , aminocidos,
monossacardeos e bases nitrogenadas, respectivamente).
Esta forma de compreender a estrutura
de biomacromolculas foi proposta inicialmente em 1963 por Gopalasamudram
Narayan Ramachandran. Neste trabalho, G. N.
Ramachandran descreve a forma de dois
aminocidos vizinhos como fruto dos ngulos
de toro ao redor do C (Figura 13-2), denominados e . Assim, em funo das cadeias
laterais de cada aminocido, algumas combinaes de ngulos e seriam favorecidas,
enquanto outras proibidas. As combinaes
favorecidas correspondem s estruturas 2rias
de protenas que ns conhecemos e oferecem, assim, uma medida quantitativa para
definir hlices, fitas, alas e voltas. O grfico
que combina os valores de ngulos e para
um determinado dipeptdeo ficou assim sendo

conhecido como mapa de Ramachandran (Figura 13-2).


O uso de ngulos de toro para descrever a estrutura e a conformao molecular no se limita somente
a protenas, mas tambm pode ser aplicado a cidos
nucleicos e carboidratos. Em cada caso, o nmero de
ngulos de toro definido pelas caractersticas das
ligaes entre os monmeros, isto , se uma ligao
peptdica, glicosdica ou fosfodister.
Para a descrio da forma de uma ligao peptdica
em uma protena so empregados trs ngulos: , e
. Os ngulos e so aqueles descritos no mapa de
Ramachandran, localizando-se antes e depois do C
(pores N- e C- terminais da ligao, respectivamente). O ngulo , por sua vez, corresponde ao grupamento amida, ou seja, a ligao entre os grupamentos
N-H e C=O (Figura 14-2).
A ligao glicosdica pode ser descrita por dois ou
trs ngulos torcionais. Em analogia ligao peptdica, podem ser empregados os ngulos e (poro
no-redutora e poro redutora, respectivamente). A
exceo quando descrevem-se ligaes envolvendo o
tomo de carbono na posio 6 de piranoses (como
glicose, manose, fucose e etc.) e na posio 5 de furanoses (como na ribose e na desoxirribose). Nestes casos, h a necessidade de se considerar um terceiro
ngulo torsional, denominado .
O terceiro caso de biopolmeros usualmente descritos por ngulos torcionais, os cidos nucleicos, consistem em um caso parte. Como podemos observar
na Figura 14-2, o grupamento fosfato agrega grande
flexibilidade cadeia, exigindo assim sete ngulos torsionais para sua adequada caracterizao, a saber: , ,
(na regio 5'), (entre os tomos 3' e 4' da pentose),
e (na poro 3'). H, ainda, o ngulo , formado entre
o carbono 1' da pentose e a base nitrogenada.

ngulos torsionais no so, contudo, a


nica forma de descrever e avaliar a forma de
biomacromolculas. A despeito de serem biopolmeros, protenas, carboidratos e cidos
nucleicos apresentam suas particularidades,
exigindo assim descritores especficos, capazes de lidar com as propriedades fisico-qumicas particulares de cada tipo de monmero
(e, por conseguinte, em lidar com as diferentes propriedades biolgicas resultantes).
Como mencionado anteriormente, biomolculas em
condies biolgicas apresentam no somente uma,
mas mltiplas conformaes que coexistem, simulta-

2. Nveis de Informao Biolgica

Figura 13-2: Mapas de Ramachandran para casos gerais (resduos que no sejam prolina ou
glicina), para resduos de glicina e para resduos de prolina. Os pontos correspondem s
distribuies de ngulos e de cerca de 100 mil resduos componentes de 500 estruturas
proteicas obtidas em alta resoluo. As regies onde se localizam as estruturas secundrias
tpicas esto destacadas nos mapas. [Figura baseada em LOVELL, Simon C. et al. Structure
Validation by C Geometry: , and C Deviation. Proteins, 50, 437-450, 2003; e Hollingsworth,
Scott A. & Karplus, P. Andrew. A fresh look at the Ramachandran plot and the occurrence of
standard structures in proteins. Biomol. Concepts, 1, 271283, 2010].
neamente. Assim, os valores de ngulos torsionais devem ser considerados como mdias, referncias geomtricas em torno das quais o comportamento da
molcula em questo ir variar em soluo.

cidos nucleicos
Em acrscimo aos ngulos torcionais os
cidos nucleicos, ao formarem pares de bases, definem quase duas dezenas de parmetros geomtricos distintos, importantes para
uma cartacterizao precisa da estrutura
destas biomolculas (Figura 15-2). Isto ocorre
em decorrncia de movimentos de translao
ou rotao que cada base ou par de bases
pode sofrer dentro da regio pareada. Assim,
molculas ou regies de cidos nucleicos no

pareadas no so descritas por estes parmetros.


Considerando um espao cartesiano definido pelos
eixos x, y e z, sendo z o eixo maior da regio de pareamento e bases (Figura 15-2), os parmetros geomtricos oriundos da translao de bases em uma dupla fita
envolvem: i) o deslocamento do par de bases ao longo
do eixo x ou do eixo y; ii) o deslocamento de uma base
em relao outra, seja como uma distenso ao longo
do eixo y (do ingls stretch), seja como cisalhamento
ao longo do eixo x (do ingls shear), ou ainda um escalonamento acima ou abaixo do plano xy (do ingls
stagger); iii) o deslocamento de um par de base em
relao a outro par de base, seja como uma elevao
ao longo do eixo z (do ingls rise), seja como um deslizamento ao longo do eixo y (do ingls slide) ou ao longo
do eixo x (chamada em ingls de shift).

2. Nveis de Informao Biolgica

Figura 14-2: ngulos torsionais para


protenas, carboidratos e cidos nucleicos
ilustrados
para,
respectivamente,
um
tripeptdeo,
um
trissacardeo
e
um
trinucleotdeo.
Os parmetros originados da rotao de bases ou
pares de bases entre si produzem diferentes tipos de
inclinao (definidas em ingls como tip, inclination, roll
e tilt), dependendo do vrtice e do eixo ao longo dos
quais ocorre o movimento do par de bases. Pares de
bases podem ainda sofrer modificaes caracterizando-os como: i) torcidos (chamadas em ingls de twist,
propeller twist ou buckle), e ii) abertos (definida em ingls como opening).

Protenas
Considerando os 20 aminocidos codificados no genoma, poderamos imaginar que
teramos 20n possveis protenas diferentes,
sendo n o nmero de aminocidos. A situao,
felizmente, no to complexa por uma srie
de motivos.
Um primeiro aspecto a ser observado
que, quando uma sequncia de aminocidos
se enovela para adotar uma determinada estrutura 3ria, alguns aminocidos se localizam
em pontos chave para a estabilizao da estrutura 3D. Assim, sua modificao poderia
desestabilizar total ou parcialmente a conformao nativa da protena. Como conse-

quncia, algumas posies na sequncia de


aminocidos tornam-se conservadas evolutivamente como decorrncia de determinantes
estruturais. Ao mesmo tempo, podem haver
determinantes funcionais para a conservao
de posies na sequncia ao longo da evoluo.
Em contrapartida, como os aminocidos
podem ser agrupados de acordo com a semelhana em suas propriedades fisico-qumicas, diferentes combinaes de resduos
podem levar a uma mesma estrutura 3D. De
fato, sabe-se que a estrutura 3ria de protenas mais conservada ao longo da evoluo
que a estrutura 1ria. Em outras palavras, protenas com identidade muito baixa entre suas
sequncias podem possuir estruturas 3rias
muito semelhantes.
Conclui-se, assim, que sequncias de
aminocidos podem arranjar-se em um conjunto de formas 3D mais ou menos definidos
e finitos. Estas formas so denominadas motivos (ou no ingls fold), e possuem diversas
classificaes a partir de suas caractersticas
(Figura 16-2). Dada a relao entre forma e
funo, o conhecimento do motivo de uma
dada protena (diretamente por mtodos experimentais como cristalografia de raios-X,
ver captulo 13, ou por inferncia a partir de
similaridade de sequncia, ver captulo 3)
um passo importante para a elucidao de
seu mecanismo de ao em nvel molecular.
Por exemplo, um barril- um motivo
que se assemelha a um barri, onde as tiras de
madeira correspondem a fitas (Figura 16-2).
Define, assim, uma cavidade central que pode
tanto servir como carreador de substncias,
como no caso das nitroforinas, ou como poro,
como no caso das porinas. Embora o nmero
de fitas possa mudar (8 no caso das nitroforinas e 16 no caso das porinas), a caracterstica geral do motivo se mantm. Essas
relaes so ilustradas visualmente de forma
muito elegante na "tabela peridica" de protenas, desenvolvida pelos professores
Richard Garratt e Christine Orengo. Para
acessar as classificaes dos diferentes motivos j identificados, os bancos de dados
CATH e SCOP so as fontes mais completas

2. Nveis de Informao Biolgica

Figura 15-2: Parmetros geomtricos empregados como descritores da geometria de cidos


nucleicos.
de informaes.
Um outro conceito, que se confunde e
em vrios momentos usado como sinnimo
de motivo, o de domnio proteico. Um domnio uma parte da sequncia polipeptdica de
enovelamento independente (e, potencialmente, de funo tambm independente). Assim, se um domnio for recortado de um gene
e expresso separadamente ele deve, em princpio, manter suas caractersticas estruturais.
Um domnio proteico pode ser composto por mais de um motivo intrinsecamente
associado. Por outro lado, um mesmo motivo
pode ser encontrado e mais de um domnio de
uma mesma protena.

Membranas
No temos falado muito de membranas
at este momento por alguns motivos. Primeiramente, membranas no so biopolmeros, mas agregados de mltiplas molculas, o

que tira de cena a ideia de anlise de uma


molcula a partir de suas sub-unidades formadoras. Segundo, estes agregados apresentam-se como um fluido, diferentemente
das outras biomolculas que vimos. Assim,
no faz sentido analisar cada molcula de lipdeo individualmente em uma membrana,
mas o seu comportamento como um todo ou
como uma mdia ao longo de mltiplos lipdeos.
Contudo, a despeito da natureza fluida
de membranas e da sua capacidade de adotar
mltiplas formas, os lipdeos (e tambm protenas) no se distribuem homogeneamente
ao longo das membranas, podendo formar
regies ou domnios enriquecidos em um determinado componente. Assim, para o estudo
das propriedades de membranas biolgicas
torna-se necessrio caracteriz-las estruturalmente. Isto pode ser feito atravs de diversas medidas, tais como a rea por lipdeo,
espessura da membrana e coeficientes de difuso lateral de lipdeos ou protenas embebidas na membrana, dentre outros (Figura

2. Nveis de Informao Biolgica

8-2).
A rea por lipdeo nos oferece informaes acerca
do grau de compactao das molculas que constituem uma membrana, ou seja, uma rea menor indica
uma membrana mais compacta. Isto, por sua vez, sugere uma interao mais intensa entre os componentes
da membrana.
Embora protenas inseridas em membranas adap-

tem-se a este meio, so as membranas que fazem a


maior parte do ajuste em sua estrutura para receber
as protenas (esse processo est relacionado s diferenas de compressibilidade entre estas biomolculas).
Como consequncia, a insero de protenas em membranas biolgicas promove uma perturbao na organizao da bicamada lipdica, podendo tanto aumentar
quanto reduzir a espessura desta na regio ao redor da

Figura 16-2: Exemplos de motivos proteicos, coloridos por cada elemento de estrutura 2ria. So
apresentados barris compostos por fitas-, em A a protena verde fluorescente (do ingls green
fluorescent protein, GFP, cdigo PDB 1EMG), em D a porina OMP32 (cdigo PDB 2FGQ) e em G o
transportador FECA (cdigo PDB 1KMO); feixes de hlices , em B a bacteriorodopsina (cdigo
PDB 1AP9), em E a protena SERCA1 (cdigo PDB 1WPG) e em H parte do sistema fotossinttico
de uma cianobactria (cdigo PDB 1JB0); e ferraduras compostas por hlices , em C um inibidor
de crescimento tumoral (cdigo PDB 1BD8), em F uma repetio rica em resduos de leucina,
associada fixao de nitrognio (cdigo PDB 1LRV) e em H a lipovitelina (cdigo PDB 1LSH).
Partes das estruturas foram omitidas buscando maior clareza na imagem. Imagem construda
usando o programa Pymol, a partir de organizao proposta em "The Protein Chart", de Richard
C. Garratt e Christine A. Orengo, 2008, Wiley-VCH.

2. Nveis de Informao Biolgica

protena.

2.5. Formas de visualizao


O corolrio uma imagem fala mais do
que mil palavras tambm se aplica ao estudo
de molculas. E, de fato, o desafio de representar graficamente protenas vem acompanhando os pesquisadores desde o incio dos
estudos da estrutura destas molculas. Os
primeiros relatos do uso de representaes
em cartoon para protenas datam da dcada
de 1960. Atualmente, mltiplas representaes esto nossa disposio, com qualidade
grfica a cada momento superior, e gerados
atravs de ferramentas gratuitas (Figura 172).
Podemos definir hlices de protenas
por suas caractersticas geomtricas, nomes
ou pelos pares de ngulos e . Mas visualizar uma hlice proteica, tridimensionalmente,
no deixa dvidas quanto ao seu significado.
Portanto, o cuidado com a maneira pela qual
iremos apresentar, visualmente, os aspectos
estruturais que estudamos e tenhamos relacionados a alguma funo biolgica, uma
parte fundamental no trabalho do bioinformata.
Formas de visualizao, contudo, so representaes muitas vezes incapazes de descreverem detalhes
sobre a molcula em estudo. difcil distinguir visualmente uma hlice de uma hlice 310 ou de uma hlice
. Por outro lado, estas hlices podem apresentar deformaes importantes, tambm de difcil visualizao.
Assim, a combinao de representaes visuais, qualitativas, com medidas precisas, quantitativas, da estrutra molecular uma estratgia bastante til no estudo
de macromolculas.
A ideia de combinar mltiplas estratgias na apresentao de um determinado aspecto molecular no
se limita somente s formas de descrever visualmente
ou numericamente a estrutura molecular. Embora a visualizao de estruturas 1rias, isto , de sequncias de
nucleotdeos, aminocidos ou monossacardeos no
nos oferea muitos artifcios visuais, devemos nos
lembrar que as formas apresentadas na Figura 17-2
no informam o leitor facilmente sobre quais resduos
compe a nossa macromolcula. difcil distinguir, em
representaes de arames, bastes ou esferas, uma Ile

de uma Leu, e mesmo impossvel em cartoon ou superfcie. Portanto, pode ser muito til combinar estas
representaes tridimensionais a alinhamentos de sequncias da regio de interesse.
O mesmo vale para a apresentao de sequncias
isoladas de estruturas. Enquanto uma mutao em um
nico nucleotdeo pode interferir na funo proteica, isso no feito pela troca de uma letra por outra na sequncia, mas por mudanas que esta troca acarretam
na estrutura da protena. O entendimento deste processo pode depender simplesmente da nossa imaginao ou da visualizao da respectiva mudana na
protena.

Existem diversas formas de apresentar


estruturas tridimensionais de macromolculas, e escolher entre estas formas envolve
tanto escolhas metodolgicas quanto pessoais. Algumas propriedades so mais facilmente observadas em alguns tipos de
visualizao. Por exemplo, o volume da cadeia lateral de um resduo de Val muito mais
facilmente observvel enquanto seus tomos
so apresentados como esferas do que como
bastes ou arames (Figura 17-2). Diferentes
tipos de molculas, similarmente, se beneficiam de algumas formas de visualizao. Por
exemplo, a forma de cartoon a mais comum
para descrever protenas, mas pouco til na

Figura 17-2: Exemplo das formas de


visualizao mais comumente empregadas na
descrio de biomolculas, aplicadas a uma
protena.

2. Nveis de Informao Biolgica

descrio de carboidratos ou membranas.


Em muitos casos poderemos empregar
combinaes destas formas, como na descrio por cartoon de uma protena e de sua estrutura de glicosilao como bastes.

2.6. Conceitos-chave
Anfipatia: propriedade de molculas que possuem tanto regies hidroflicas quanto hidrofbicas.

tura tridimensional nativa, isto , equivalente quela observada em seu local biolgico de ao e funcional. Tambm
chamado por alguns autores de dobramento.
Equilbrio pseudo-rotacional: processo de interconverso entre as diferentes conformaes adotadas por carboidratos.

Cadeia lateral: regio varivel dos aminocidos


codificados no genoma, responsvel pela
variao de suas propriedades.

Esqueleto do DNA: parte da molcula de DNA


composta pelas partes comuns a todos os
nucleotdeos, isto , o carboidrato e o
grupo fosfato (ou seja, so excludas as
regies das bases nitrogenadas).

Carbono anomrico: tomo de carbono numerado como 1 em carboidratos. A mudana


em sua estereoqumica d origem s formas anomricas e em carboidratos.

Esqueleto peptdico: estrutura de peptdeos ou


protenas sem as cadeias laterais dos
aminocidos (ou seja, somente as regies
comuns aos aminocidos).

Carbono : tomo de carbono do esqueleto


peptdico no qual a cadeia lateral de cada
aminocido est ligada (referindo-se aos
20 aminocidos codificados no genoma
para sntese proteica). o primeiro tomo
de carbono vizinho ao grupo carbonila.

Estrutura 1ria: sequncia de letras que compe


biomolculas (principalmente DNA, RNA e
protenas, mas tambm carboidratos).

Conformao em bote torcido: forma adotada


pelo anel de alguns monossacardeos.
Conformao em cadeira: forma adotada pelo
anel de alguns monossacardeos, semelhante a uma cadeira quanto vista de lado.
Conformao em envelope: forma adotada pelo
anel de alguns monossacardeos, destacadamente as furanoses.
Dogma central da biologia molecular: representao do fluxo de informao em sistemas
biolgicos, comeando na molcula de
DNA e culminando na sntese proteica mas no no sentido oposto. Envolve principalmente os fenmenos de replicao,
transcrio e traduo.
Enovelamento: processo segundo o qual uma
sequncia polipeptdica adquire sua estru-

Estrutura 2ria: padres estruturais definidos pela organizao das unidades monomricas
(isto , nucleotdeos, aminocidos e monossacardeos) de cada biomolcula em
formas tridimensionais. Estes padres podem classificados segundo suas diferentes
formas.
Estrutura 3ria: estrutura 3D completamente
enovelada.
Estrutura 4ria: organizao definida pela agregao de mltiplas estruturas 3rias.
Furanoses: monossacardeos cujo anel composto por 5 tomos, quatro de carbono e
um de oxignio. O nome vem da semelhana deste anel com o composto furano.
Ligao fosfodister: ligao formada entre dois
nucleotdeos, atravs de seus grupos fosfato.
Ligao glicosdica: ligao formada entre dois

2. Nveis de Informao Biolgica

monossacardeos.
Ligao peptdica: ligao formada entre dois
aminocidos, atravs do grupo amino de
um resduo e do grupo carboxila do outro,
dando origem a uma funo amida.
Mapa de Ramachandran: um grfico que descreve a variao da energia em funo da
rotao dos ngulos de diedro e , ao
redor do C.
Nucleosdeo: molcula formada por uma base
nitrogenada ligada a um carboidrato (ribose ou desoxirribose), sem o grupo fosfato.
Nucleotdeo: molcula formada por uma base
nitrogenada ligada a um carboidrato (ribose ou desoxirribose) e a um grupo fosfato.
Piranoses: monossacardeos cujo anel composto por 6 tomos, cinco de carbono e
um de oxignio. O nome vem da semelhana deste anel com o composto pirano.

2.7. Leitura recomendada


ALBERTS, Bruce; et al. Biologia Molecular da
Clula. 5.ed. Porto Alegre: Artmed, 2010.
BLOOMFIELD, Victor A.; CROTHERS, Donald M.;
TINOCO, JR., Ignacio. Nucleic Acids
Structure, Properties, and Functions.
Sausalito: University Science Books, 2000.
GARRATT, Richard C., ORENGO, Christine A. The
Protein Chart. Nova Iorque: Wiley-VCH,
2008.
PETSKO, Gregory A.; RINGE, D. Protein
Structure and Function. New York:
Oxford University Press, 2009.

3. Alinhamentos

Dennis Maletich Junqueira


Rodrigo Ligabue Braun
Hugo Verli

Alinhamento de mltiplas sequncias.

3.1. Introduo
3.2. Alinhando sequncias
3.3. Tipos de alinhamento
3.4. Alinhamento simples
3.5. Alinhamento mltiplo global
3.6. Alinhamento mltiplo local
3.7. BLAST
3.8. Significncia estatstica
3.9. Alinhamento de 2 estruturas
3.10. Alinhamento de >2 estruturas
3.11. Alinhamento flexvel
3.12. Conceitos-chave
3.1. Introduo
O avano nas tcnicas de sequenciamento do DNA tem permitido um crescente
aumento no nmero de genomas disponveis
em bancos de dados pblicos. Esta maior disponibilidade exigiu um grande aumento na capacidade computacional de armazenamento e
no investimento em desenvolvimento de tcnicas de processamento adequadas para a
anlise destes dados. Algoritmos de anlise
tiveram de ser criados e aperfeioados e,

dentre estes, as tcnicas de alinhamento de


sequncias tornaram-se ferramentas essenciais e primordiais na anlise de sequncias
biolgicas. Atualmente, diversos programas
online, ou mesmo de instalao local, so capazes de alinhar centenas de sequncias em
poucos minutos.
Devido extenso de suas aplicaes, o
alinhamento de sequncias biolgicas um
processo de fundamental importncia para a
bioinformtica. Conceitualmente, os alinhamentos so tcnicas de comparao entre
duas ou mais sequncias biolgicas, que buscam sries de caracteres individuais que se
encontram na mesma ordem nas sequncias
analisadas.
Em geral, as molculas consideradas
por estes programas, sejam elas formadas
por nucleotdeos (DNA ou RNA) ou aminocidos (peptdeos e protenas), so polmeros
representados por uma srie de caracteres, e
a comparao entre as molculas depende
apenas da comparao entre as respectivas
letras. Apesar da facilidade e da aparente
simplicidade do processo, a anlise de similaridade das sequncias uma tarefa complexa
e uma etapa decisiva para grande parte dos
mtodos de bioinformtica que fazem uso de
sequncias biolgicas.
Durante o alinhamento, as sequncias
so organizadas em linhas e os caracteres
biolgicos integram as colunas do alinhamento (Figura 1-3). Seguido organizao inicial, algoritmos especficos buscaro a
melhor correspondncia para as sequncias
em questo, permitindo a criao de espaos
entre estes caracteres para que, ao final, todas as sequncias tenham o mesmo comprimento. Isto possibilita uma fcil visualizao
da similaridade, permitindo que caracteres

3. Alinhamentos

Figura 1-3: Alinhamento de quatro sequncias de nucleotdeos envolvendo 55 caracteres. a)


Grupo de sequncias no alinhadas, cada sequncia ocupando uma linha individual. b) Grupo de
sequncias alinhadas, onde caracteres idnticos so dispostos em uma mesma coluna e estas
so identificadas por asteriscos (dispostos na parte inferior do alinhamento). Nucleotdeos
ausentes em determinadas sequncias so substitudos por hifens para identificar eventos de
insero/deleo.
idnticos ou similares em cada uma das sequncias integrem a mesma coluna. A ideia
central destes algoritmos minimizar as diferenas entre as sequncias, buscando um alinhamento timo. Comumente, a similaridade
entre as sequncias envolvidas expressa
pelo termo identidade, que quantifica a porcentagem de caracteres idnticos entre duas
sequncias.
A relevncia e abrangncia do uso do
mtodo tornam os procedimentos de alinhamento o cerne para diferentes campos dentro
da grande rea da bioinformtica. Alm de
fundamentais em pesquisas de filogentica e
anlise evolutiva, os alinhamentos so exigidos em estudos de inferncia estrutural e
funcional de protenas, anlises de similaridade e identificao de sequncias e em estudos
aplicados ao campo da genmica.
Atravs dos mtodos de alinhamento,
possvel obter informaes a respeito da relao evolutiva entre organismos, indivduos,
genes ou entre sequncias diversas (Figura
2a-3). Se duas sequncias distintas podem
ser alinhadas com certo grau de similaridade,
possvel inicialmente assumir que elas compartilharam, em algum momento do tempo
passado, um ancestral comum e, por isso,
so evolutivamente relacionadas. A partir da
separao destas sequncias de seu ancestral comum, individualmente cada uma delas

acumulou diferentes variaes ao longo do


processo evolutivo. O termo homologia utilizado frequentemente para definir estes
eventos onde, atravs da relao de ancestralidade, dois indivduos distintos possuem
regies em seu DNA (incluindo regies codificantes) herdadas de um ancestral comum.
Neste caso, a similaridade deve-se descendncia comum e, portanto, as sequncias envolvidas na anlise so ditas homlogas.
Cabe ressaltar que a homologia no requer necessariamente alta identidade de caracteres entre as sequncias, uma vez que a
maior ou menor identidade entre elas depender da taxa de evoluo do organismo ou da
espcie (consultar captulo 5). Ainda, a similaridade entre sequncias pode ser gerada
no somente por descendncia, mas por
presso seletiva de um determinado ambiente. Nestes casos, teremos regies similares
na sequncia de nucleotdeos (ou aminocidos) que surgiram de maneira independente,
sem qualquer relao de descendncia, e
evoluram por convergncia, no sendo portanto homlogas. Assim, no possvel
quantificar a homologia entre as sequncias
envolvidas, somente dizer se h ou no.
Quando identificamos quantos caracteres se
repetem nas mesmas posies entre duas ou
mais sequncias estamos, de fato, verificando
a identidade entre estas, e no a homologia.

3. Alinhamentos

Figura 2-3: Aplicaes dos mtodos de alinhamento de sequncias biolgicas. a) Inferncia


filogentica a partir do alinhamento de quatro sequncias de nucleotdeos. b) Inferncia da
estrutura de uma protena alvo (Desconhecida) a partir do alinhamento com uma sequncia de
aminocidos cuja estrutura tridimensional conhecida (Conhecida). c) Inferncia da funo de
um domnio proteico a partir da comparao de sequncias de aminocidos. d) Comparao de
sequncias de uma poro de determinado gene de indivduos afetados e no afetados por uma
doena gentica. Os asteriscos identificam colunas com total similaridade dos caracteres.
As tcnicas de alinhamento vm se
mostrando fundamentais na construo de
algoritmos que visam comparar a informao
de diversas sequncias biolgicas. exemplo
do programa BLAST, estes algoritmos permitem comparar uma sequncia alvo com milhares de dados disponveis em grandes
bancos de armazenamento, fornecendo um
valor de significncia estatstica associada a
esta comparao de similaridade. Devido
facilidade de acesso e rapidez no processamento de dados, estes programas vm cada
vez mais ampliando as possibilidades e opes para o tipo de comparao ou pesquisa a
ser realizada.
Os mtodos de alinhamento podem ainda ser necessrios para fornecer informaes a respeito da funo e da estrutura de
sequncias biolgicas, particularmente nos
alinhamentos de ribonucleotdeos e aminocidos (Figura 2-3). Nestes casos, a similaridade
entre duas ou mais sequncias (dada em por-

centagem) revela padres referentes composio


qumica
e
podem
fornecer
embasamento para a definio de um arranjo
tridimensional semelhante, principalmente no
caso de protenas (Figura 2b-3). A mesma
relao feita para inferir a funo de domnios de uma protena recm-descoberta, ainda sem funo definida. Sabendo que sua
forma est diretamente relacionada sua
funo, atravs da comparao com outras
protenas com estrutura e funo j estabelecidas, possvel inferir a funo realizada
por determinado domnio da protena sob investigao (Figura 2c-3). Nestes casos, as
sequncias envolvidas no alinhamento no
so necessariamente homlogas. Atravs do
fenmeno da evoluo convergente, diferentes regies codificantes do DNA podem gerar
produtos proteicos com funes similares,
sem obrigatoriamente compartilharem um
ancestral comum.
Finalmente, as tcnicas de alinhamento

3. Alinhamentos

tm grande importncia para a anlise de genes e genomas. Com o aumento da disponibilidade de sequncias nucleotdicas de
genomas completos, e mesmo com o surgimento de modernas tcnicas de biologia molecular, como o microarray e deep
sequencing, os mtodos de comparao permitiram o entendimento a respeito da variabilidade gentica de indivduos e populaes.
A comparao entre genomas de diferentes espcies, ou at mesmo de indivduos
da mesma espcie, possibilita a anlise de variaes (mutaes ou polimorfismos) nas sequncias e, em alguns casos, permite a
identificao de relaes entre variaes no
DNA e susceptibilidade a determinadas doenas, beneficiando o campo da gentica e reas
relacionadas. Adicionalmente, como um recurso para a caracterizao de eventos evolutivos, os alinhamentos permitem anlises
comparativas entre genomas. A abrangncia
e importncia evolutiva dos eventos de quebra e reparo de DNA, ou mesmo dos eventos
de recombinao, inverses e translocaes,
tem sido desvendados, primariamente, atravs dos mtodos de alinhamento.
Alm do alinhamento de sequncias, o
alinhamento de estruturas constitui outra importante ferramenta em estudos de bioinformtica. A metodologia bastante diferente
daquela empregada em alinhamentos de sequncias, pois passamos de um problema unidimensional
para
um
problema
tridimensional. Sua utilizao passou a ser difundida a partir de 1978, com o trabalho de
Rossmann e Argos, comparando os stios ativos de enzimas cujas estruturas eram conhecidas at aquele momento. Os mtodos de
sobreposio simples de estruturas esto
disponveis h mais tempo, tendo sido propostos a partir da dcada de 1970, enquanto
os mtodos de comparao e alinhamento se
desenvolveram posteriormente, principalmente a partir da dcada de 1990.
A comparao de estruturas se refere
anlise de similaridades e diferenas entre
duas ou mais estruturas, enquanto o alinhamento de estruturas se refere determinao de quais aminocidos seriam equivalentes

entre tais estruturas. importante destacar


tambm a diferena entre alinhamento e sobreposio de estruturas. Apesar desses termos ainda serem empregados na literatura
como sinnimos, eles se referem a procedimentos diferentes. Conforme mencionado
acima, enquanto o alinhamento de estruturas
busca identificar equivalncias entre pares de
aminocidos nas estruturas a serem sobrepostas, a sobreposio necessita desse conhecimento prvio sobre as equivalncias.
Sendo assim, a sobreposio estrutural busca solucionar um problema muito mais simples, ou seja, minimizar a distncia entre dois resduos j reconhecidos
como equivalentes. Isso se d por encontrar transformaes que satisfazem o menor desvio mdio quadrtico (RMSD) ou as equivalncias mximas dentro de um
valor limite para o RMSD.

Considerando que a estrutura das protenas mais conservada que a sequncia, o


alinhamento de estruturas confere maior especificidade ao alinhamento de sequncias
quando comparado ao alinhamento de sequncias independente de estrutura. A maioria dos mtodos de sobreposio de
estruturas adequado para identificar similaridades entre estruturas proteicas. O alinhamento de duas ou mais estruturas,
porm, constitui uma tarefa mais difcil, e sua
preciso depende tanto do mtodo usado
quanto do objetivo do usurio.

3.2. Alinhando sequncias


primeira vista, o processo de alinhamento entre diferentes sequncias parece
simples e no sujeito a qualquer tipo de erro.
No entanto, esta afirmativa s verdadeira
em casos onde os organismos envolvidos
possuem uma baixa taxa evolutiva (Figura 3a3). Quando consideramos sequncias homlogas amostradas de organismos com alta
taxa evolutiva, ou at mesmo sequncias similares, porm no homlogas, nos deparamos com casos particulares que tornam o
processo de alinhamento complexo e, muitas
vezes, sujeito a uma interpretao especialmente subjetiva por parte do usurio (Figura
3b-3).

3. Alinhamentos

A comparao de sequncias homlogas de organismos evolutivamente distantes


um desafio para os programas de alinhamento. As diferentes presses seletivas moldam os genomas de maneira imprevisvel e,
muitas vezes, acarretam a perda ou ganho de
nucleotdeos ao longo do processo evolutivo.
Para estes casos, a adio de lacunas (gaps)
em matrizes de alinhamento, representadas
por -, possvel e muitas vezes necessria.
As lacunas representam um ou mais eventos
de insero ou deleo de nucleotdeos. Estes
eventos, comumente chamados de indels (in
para insero, e del para deleo), so fruto
de processos mutagnicos (espontneos ou
induzidos) e, dependendo da regio atingida,
podem ser expressos nas molculas de RNA

e nas protenas, onde podero gerar consequncias moleculares. Erros de replicao


gerados pela DNA-polimerase durante a replicao do DNA, ou mesmo os eventos de
recombinao, so os principais fatores atrelados gerao destes indels nos genomas.
Em regies codificadoras, estes eventos podem acarretar mudanas no quadro de leitura
da protena e torn-la no funcional.
Em termos analticos, a insero de lacunas dificulta o processo de alinhamento e
exige interpretaes cautelosas. Para determinados casos, especialmente em anlises
evolutivas e filogeogrficas, comum que
regies do alinhamento com determinado nvel de incerteza, especialmente regies com
grande nmero de lacunas, sejam eliminadas

Figura 3-3: Alinhamentos de nucleotdeos. a) Duas sequncias homlogas originadas de


organismos com baixa taxa de evoluo so dadas e seu alinhamento proposto. b) Duas
sequncias homlogas amostradas de organismos com alta taxa de evoluo so dadas e
diferentes alinhamentos so propostos. Os hifens representam eventos de insero ou deleo
nicos na sequncia. Os asteriscos identificam colunas com total similaridade dos caracteres.

3. Alinhamentos

da anlise. Contudo, at o momento no existem programas capazes de lidar com as lacunas de forma coerentemente biolgica.
Apesar de sabermos que se tratam de eventos evolutivos comuns e bem caracterizados,
as incertezas sobre o nmero de eventos e
sua intensidade tornam as lacunas, em grande parte dos casos, um fator de confuso para anlises de alinhamento.
Conforme mostrado na Figura 3-3, diferentes alinhamentos so possveis para um
mesmo grupo de sequncias. A pergunta que
se segue : como reconhecer o melhor resultado quando nos deparamos com diversos
alinhamentos possveis para um mesmo conjunto de dados? Buscou-se resolver este problema atravs da criao de um sistema de
pontuao para comparar os resultados de
diferentes alinhamentos. Caracteres idnticos
em sequncias diferentes representam igualdades ou correspondncias (matches) e, por
serem resultados preferenciais durante o
processo de alinhamento, so pontuados positivamente. Pelo contrrio, caracteres no
idnticos que ocupam a mesma coluna so
chamados de desigualdades, ou mismatches,
e recebem atribuies negativas. Como resultado, o melhor alinhamento possvel para duas sequncias aquele que maximiza a
pontuao total, somando os valores de
matches e debitando os valores de
mismatches.
Do ponto de vista biolgico, as mudanas entre as bases nitrogenadas nas sequncias de nucleotdeos no ocorrem com a
mesma probabilidade (Figura 4a-3). Sendo
assim,
podemos
atribuir
valores
de
mismatches diferentes s transies (trocas
de purinas por purinas ou pirimidinas por pirimidinas) e s transverses (trocas de purinas
por pirimidinas ou pirimidinas por purinas).
Para sequncias de aminocidos, necessrio
escolher ativamente uma matriz de pontuao especfica. Essas matrizes so resultados
diretos de estudos de variao proteica e esto diretamente relacionadas probabilidade
de substituio de um aminocido por outro
(matrizes BLOSUM e PAM). Atualmente, as
matrizes BLOSUM so as mais disseminadas

e aplicadas para os mais diversos casos de


comparao entre sequncias de aminocidos
(Figura 4b-3).

Figura 4-3: Matrizes de custo utilizadas no


clculo de pontuao dos alinhamentos. a)
Matriz de custo exemplo utilizada para
clculos de pontuao em alinhamentos de
nucleotdeos. b) Matriz de custo BLOSUM62
utilizada para clculo da pontuao em
alinhamentos de aminocidos.
Ainda, necessrio que as lacunas de
alinhamentos recebam determinadas pontuaes, pois so frequentemente encontradas
em alinhamentos de dados biolgicos. Se lacunas podem ser adicionadas em qualquer
posio sem qualquer restrio, tanto nas
extremidades quanto no interior das sequncias, possvel gerar alinhamentos com mais
lacunas do que propriamente caracteres a
serem comparados (Figura 3b-3, alinhamento
2). Com o intuito de prevenir insero excessiva, a adio de lacunas penalizada durante
a atribuio da pontuao de uma sequncia,
conforme um conjunto de parmetros, chamado de penalidades por lacuna (gap
penalties, PL). A abrangncia da lacuna
pontuada pelo respectivo nmero de indels
presentes no alinhamento. A frmula mais
comum para clculo destas penalizaes segue abaixo:
PL = g + e (L 1)
onde L o tamanho da lacuna (nmero de
indels presentes na lacuna), g a penalidade
pela abertura da lacuna (necessria para evitar que os alinhamentos contenham lacunas
desnecessrias) e e a penalidade atribuda a

3. Alinhamentos

cada indel (novamente para evitar grandes


lacunas sem necessidade). Os valores de penalidade por lacuna so desenhados para reduzir a pontuao de um alinhamento quando
este possui uma quantidade de indels desnecessria. Apesar da disseminao deste conceito, no h qualquer relao matemtica ou
biolgica sustentando este clculo. importante destacar que, atravs da propriedade de
alinhamento livre de colunas em branco (ou
seja, gaps no so alinhados), as penalizaes
ainda impedem o alinhamento de indels entre
as sequncias envolvidas na anlise. Assim, o
melhor alinhamento entre as sequncias ser
dado por um valor que resulta da soma dos
valores associados a cada um dos matches,
mismatches e lacunas, de acordo com um
critrio pr-definido (Figura 5-3).
O mtodo de pontuao foi a soluo
encontrada para avaliar e classificar diferentes alinhamentos em busca da melhor explicao para a relao evolutiva entre as
sequncias. O prximo problema encontrado
foi enumerar todas as possibilidades de alinhamentos para um grupo de dados. Assumindo-se duas sequncias com tamanho de
100 caracteres cada, poderamos enumerar
at 1077 possveis alinhamentos, diferentes
entre si. A extenso de possibilidades inviabiliza a enumerao de todos os casos devido
ao tempo e ao requerimento de enorme processamento destes dados. Apesar da exigncia computacional, alguns algoritmos so
capazes de realizar tal tarefa e ainda aplicar o
mtodo de pontuao para cada um dos casos, em busca do melhor resultado. No entanto, estes algoritmos no so capazes de
lidar com sequncias que contenham mais
que algumas dezenas de caracteres. Em virtude da capacidade de explorar todas as solues do problema, o processo realizado por
estes algoritmos chamado de alinhamento
timo.
Contudo, em virtude da inerente demora
do processo, foi necessrio desenvolver algoritmos que acelerassem a busca de um alinhamento capaz de explicar de maneira tima
os processos evolutivos para um determinado grupo de sequncias sem, no entanto,

enumerar todas as possibilidades. Os alinhamentos gerados por estes programas so


chamados heursticos, e compreendem mtodos aproximados de busca pelo resultado
timo. Diferentes mtodos foram criados para diferentes tipos de alinhamento (Figura 63). Entre estes, devido eficincia e rapidez
de processamento das informaes de um
alinhamento, incluindo o clculo de pontuao, os algoritmos de programao dinmica
so, atualmente, os mais utilizados para este
fim, tanto em alinhamentos simples como integrado aos algoritmos de alinhamentos
mltiplos.
fundamental assumirmos, para a maior parte dos problemas em bioinformtica, o
alinhamento como um modelo de relao
evolutiva entre as sequncias envolvidas. E
como modelo, est sujeito presena de certos problemas na explicao dos eventos
evolutivos reais. Portanto, os alinhamentos
devem ser avaliados com extrema cautela. A
facilidade e a aparente simplicidade na anlise
dos programas tornam o processo mecnico
e desvinculado de anlises crticas pela maior
parte dos usurios. A associao dos mtodos de alinhamento a outras anlises de bioinformtica tende a desvincular a real
importncia desta tcnica e a coloca apenas
como um procedimento, e no formalmente
como uma tcnica sujeita anlise crtica. Isto
pode ocasionar na obteno de modelos incorretos ou mesmo de falsos positivos.

3.3. Tipos de alinhamento


Em estudos de bioinformtica, comum
compararmos molculas de dois ou mais indivduos, sejam eles da mesma espcie ou de
espcies diferentes. Quanto maior o nmero
de sequncias comparadas, maior o tempo
exigido para concluso do alinhamento e, dependendo das sequncias envolvidas, maior a
dificuldade dos algoritmos em encontrar o
melhor resultado. Conforme a quantidade de
sequncias envolvidas, podemos dividir os
alinhamentos em dois tipos: alinhamentos
simples, ou par-a-par, e alinhamentos mltiplos, ou de mltiplas sequncias (Figura 7-3).

3. Alinhamentos

Figura 5-3: Esquema de pontuao para avaliao de alinhamentos. a) Duas sequncias de


desoxirribonucleotdeos no alinhadas. b) Proposio de um alinhamento para as sequncias
dadas em a. O alinhamento possui 24 colunas de matches, 4 colunas de mismatches e duas
lacunas com 3 e 4 indels. A pontuao total para o alinhamento desta sequncia -7. c)
Proposio de um segundo alinhamento para as sequncias dadas em a. O alinhamento possui
24 colunas de matches, 4 colunas de mismatches e trs lacunas com 1, 2 e 4 indels. A
pontuao total para o alinhamento desta sequncia -8. A partir deste exemplo, o
alinhamento com a maior pontuao o mostrado em b. Os valores de pontuao utilizados
neste exemplo so especificados na parte inferior da figura.
Os alinhamentos simples descrevem especificamente a relao de similaridade entre duas
sequncias quaisquer. J os alinhamentos
mltiplos incluem trs ou mais sequncias na
anlise de similaridade e, dependendo do objetivo do usurio, podem envolver at centenas de sequncias.
Conceitualmente, ainda podemos dividir
os alinhamentos, tanto simples, como mltiplos, em dois grandes tipos. Os alinhamentos
que levam em considerao toda a extenso
das sequncias so conhecidos como globais,
enquanto aqueles que buscam pequenas regies de similaridade so chamados de locais

(Figura 7-3). Em algoritmos que buscam o


alinhamento global de duas sequncias, refora-se a busca do alinhamento completo
das sequncias envolvidas, procurando incluir
o maior nmero de matches do incio ao final
das sequncias. Quando necessrio, estes algoritmos permitem a insero de lacunas para que as sequncias tenham o mesmo
tamanho no resultado do alinhamento (Figura
7b-3).
Graficamente, os stios com caracteres
idnticos so representados ligados por barras verticais, enquanto os stios que possuem
caracteres diferentes nas duas sequncias, ou

3. Alinhamentos

Figura 6-3: Tipos de alinhamento e os


algoritmos aplicados bioinformtica.
mesmo a presena de uma lacuna em uma
delas, permanecem sem qualquer notao
(Figura 7-3). O principal algoritmo envolvido
no processamento de alinhamentos globais
aquele desenvolvido por Needleman e
Wunsch durante a dcada de 1970. Alm de
ter uma notvel importncia metodolgica,
este algoritmo tem grande importncia na
histria do alinhamento, pois foi o primeiro
algoritmo a aplicar o mtodo de programao
dinmica para a comparao de sequncias
biolgicas.
Em seu incio, os mtodos de alinhamento eram utilizados especialmente para a
comparao par-a-par de sequncias de protenas inteiras. No entanto, com a ampliao

da disponibilidade de sequncias completas


de protenas, foi necessrio buscar mtodos
de alinhamento que privilegiassem a busca de
similaridade, no entre sequncias completas,
mas apenas entre pores isoladas destas
sequncias. Durante a dcada de 1980 iniciouse o desenvolvimento de novos algoritmos de
alinhamento, j que os desenvolvidos at
aquele momento no eram aplicveis para
esta particularidade. Entre estes novos algoritmos, o desenvolvido por Smith e
Waterman, em 1981, ganhou maior destaque
e atualmente o principal algoritmo utilizado
por programas para realizao de alinhamentos locais. Nestes casos, privilegia-se o alinhamento de partes da sequncia, buscando
apenas as regies com a maior similaridade
(Figura 7c-3). Em algoritmos para busca local, o alinhamento pra no final das regies
de alta similaridade e substitui as regies excludas por hifens (lacunas) no resultado final
(Figura 7c-3).

3.4. Alinhamento simples


Para entender como se processa um
alinhamento par-a-par e como o grau de si-

Figura 7-3: Diferenas entre alinhamento local e global. a) Duas sequncias de nucleotdeos de
tamanhos diversos so amostradas e alinhadas por algoritmos diferentes. b) No alinhamento
local, a prioridade encontrar as regies altamente similares, independentemente do tamanho
desta regio. Neste caso, pores da sequncia que no foram alinhadas com alta similaridade
foram excludas do resultado final. c) No alinhamento global, as duas sequncias so alinhadas
por completo, independentemente do nmero de lacunas que tenham que ser inseridas.

3. Alinhamentos

milaridade entre elas pode ser computado,


apresentamos trs dos principais algoritmos
desenvolvidos para este fim: algoritmos de
programao dinmica, anlise de matriz de
pontos (dot matrix) e mtodo de palavra ou ktuple.
A programao dinmica , atualmente,
o mtodo mais utilizado por programas para
realizar o alinhamento de sequncias. Em casos simples (par-a-par), capaz de encontrar
o melhor alinhamento para duas sequncias
atravs da aplicao da pontuao de similaridades. , portanto, um mtodo de execuo
relativamente rpida nos computadores modernos, requerendo um tempo e memria de
processamento proporcional ao produto do
tamanho das duas sequncias envolvidas.
O mtodo baseado no princpio de otimizao de Bellmann, e prope a soluo de
problemas complexos atravs da resoluo
dos seus diversos subproblemas. Os subproblemas so resolvidos e seus resultados so
armazenados pelo algoritmo. A vantagem
funcional da resoluo em partes que, geralmente, problemas complexos combinam
uma srie de subproblemas. Como o algoritmo acumula os resultados dos diferentes
subproblemas, acelera a resoluo do problema complexo. Assim, a designao programao nada tem a ver com programao
de computadores, mas com a organizao
dos resultados j solucionados para resoluo de um problema maior.
Conforme discutimos anteriormente, em
determinados casos, duas sequncias podem
apresentar diferentes alinhamentos. Se no
h indels e as sequncias so similares, o alinhamento rpido e no deixa dvidas. No
entanto, quando existe certa diversidade entre as sequncias envolvidas e uma quantidade suficiente de indels, a soluo para o
alinhamento menos bvia visualmente.
Nestes casos, os algoritmos de programao
dinmica buscaro solucionar os subproblemas envolvidos e fornecero o melhor resultado.
Para clculo do melhor alinhamento entre duas sequncias, o algoritmo de programao dinmica necessita da especificao de

um esquema de pontuao, seja ele referente


a nucleotdeos ou aminocidos. Da mesma
forma, necessrio fornecer um valor de penalidade para a abertura e extenso das lacunas. A partir destas informaes, o
algoritmo calcular uma relao entre todos
os caracteres das sequncias e fornecer o
melhor alinhamento como resultado final.
Como exemplo, consideraremos a Figura 8-3. So dadas duas sequncias, sequncia
1 e sequncia 2, um esquema de pontuao e,
para facilitar o entendimento do clculo, um
valor nico de penalidade por lacuna de -8. O
algoritmo toma as sequncias e transforma a
relao entre elas em uma tabela, onde as linhas so definidas pelos caracteres da sequncia 01, e as colunas pelos caracteres da
sequncia 02. A fim de permitir lacunas no
incio do alinhamento, o algoritmo impe a insero de uma coluna e de uma linha iniciais
contendo o smbolo de indel. A partir deste
ponto, para cada um dos elementos da matriz, o algoritmo calcular a melhor pontuao dos subcaminhos associados ao
alinhamento: uma substituio, uma insero
na sequncia 01 ou uma insero na sequncia
2. Assim, o melhor subcaminho ser calculado segundo uma funo de pontuao, conforme abaixo:

A partir do elemento (1,1) da matriz e ao


longo da primeira linha, apenas a terceira
condio satisfeita (valor da clula esquerda + valor da penalidade por lacuna). Na
primeira coluna, apenas a segunda condio
satisfeita. Para outros elementos, as trs
condies devem ser calculadas e aquela que
resultar no maior valor escolhida para formar a matriz. Alm disso, os procedimentos
dos algoritmos de programao dinmica podem ser representados por pequenas setas
para indicar qual subcaminho obteve o melhor
valor (Figura 8-3).
Outro mtodo importante na rea de
alinhamento de sequncias a anlise de matriz de pontos ou matriz dot. um mtodo
simples e bastante eficiente em anlises de

3. Alinhamentos

Figura 8-3: Alinhamento de duas sequncias de nucleotdeos atravs do mtodo de


programao dinmica. a) As sequncias a serem alinhadas so dispostas em uma tabela onde
o nmero de colunas corresponde ao nmero de caracteres da sequncia 1 mais um (devido
adio de uma coluna para uma lacuna) e o nmero de linhas corresponde ao nmero de
caracteres da sequncia 2 mais um. O caractere atribudo primeira linha e primeira coluna ,
por definio, o smbolo -, atribudo a uma lacuna. Atravs da matriz de penalidades calculamse os valores para as trs possibilidades F(i,j), buscando a equao que resulte no maior valor.
O valor arbitrrio de penalidade por lacuna (PL) de -8. Em virtude de a primeira linha no
possuir valores de comparao na diagonal superior esquerda e acima, considera-se apenas a
terceira equao. b) O valor demarcado em verde o primeiro a ser calculado aps o
preenchimento da primeira linha e primeira coluna, representando o menor valor encontrado no
clculo para F(i,j). Alm do clculo, o algoritmo de programao dinmica insere informaes a
respeito da direo da informao. Como o valor 1 foi o maior valor encontrado e representa o
clculo utilizando a informao situada na diagonal superior esquerda, demarcada em verde,
insere-se uma seta nesta direo. c) O preenchimento completo da tabela e as respectivas setas
ilustrando a direo da informao. Algumas casas esto demarcadas com duas setas, pois
apresentaram dois valores mximos idnticos na resoluo das equaes. Ao final dos clculos,
iniciando pelo canto inferior direito, seguem-se as setas em busca dos maiores valores. d)
Relacionando os dados da tabela com a simbologia apresentada, chega-se ao alinhamento final
entre as sequncias 1 e 2.

3. Alinhamentos

delees/inseres e para detectar repeties


diretas ou inversas, especialmente em sequncias de nucleotdeos. Alm disso, vem
sendo utilizado para buscar regies de pareamentos intra-cadeia capazes de formar estruturas 2rias em molculas de RNA. Este
mtodo permite a visualizao grfica das
regies de similaridade entre sequncias
atravs da construo de uma matriz de
identidade. O nmero de linhas desta matriz
definido pelo nmero de caracteres de uma
das sequncias, e o nmero de colunas definido pelo nmero de caracteres da outra
sequncia a ser comparada (Figura 9-3).
primariamente um mtodo visual, e no fornece o alinhamento propriamente dito como
resultado final, embora seja frequentemente
utilizado quando se deseja visualizar as regies de similaridade entre duas sequncias.

Figura 9-3: Anlise de matriz de pontos de


duas sequncias de DNA. Os pontos
assinalados em cinza representam a
concordncia de caracteres entre a sequncia
1 e a sequncia 2. A partir da diagonal direita
inferior, so traadas diferentes retas. Aquela
que atingir o maior nmero de pontos
assinalados deve ser escolhida como
resultado para o alinhamento entre as duas
sequncias. A linha contnua representa a
possibilidade mais adequada a esta anlise e
as
linhas
tracejadas
representam
possibilidades de insucesso.
Neste mtodo, inicialmente, uma das

sequncias disposta na vertical e a outra na


horizontal (Figura 9-3). Regies do grfico
que possuam o mesmo caractere tanto na
sequncia disposta na horizontal, quanto na
sequncia disposta na vertical, sero assinalados. Esta marcao representa os possveis
correspondncias (matches) entre uma sequncia e outra.
Qualquer regio de similaridade entre as
duas sequncias ser evidenciada por uma linha diagonal de assinalaes. Pontos no dispostos
na
diagonal
representam
correspondncias aleatrias que no esto
relacionadas com a similaridade entre as sequncias. A deteco de regies de alta similaridade pode ser beneficiada, em alguns
casos, atravs da comparao de dois ou
mais caracteres ao mesmo tempo. Nestes
casos, necessrio escolher um nmero de
caracteres como janela.
Alm disso, arbitrariamente, um nmero
de correspondncias deve ser escolhido. Por
exemplo, para comparar duas sequncias
com 100.000 caracteres, podemos escolher
uma janela de 15 caracteres e 10 correspondncias requeridas. O algoritmo varrer a
matriz de 15 em 15 caracteres e, quando, entre estes quinze caracteres, existirem 10 formando correspondncias entre as duas
sequncias, o algoritmo inserir uma marcao de similaridade. Geralmente, esta variao do mtodo utilizada para a comparao
de longas sequncias de DNA.
Por ltimo, outro algoritmo bastante
comum no alinhamento par-a-par de dados
biolgicos o k-tuple, ou mtodo de palavras.
Este mtodo geralmente mais rpido que o
mtodo de programao dinmica, embora
no garanta o melhor alinhamento como resultado. Este tipo de algoritmo especialmente til em casos onde se busca
similaridade de uma nica sequncia contra
um grande conjunto de dados. Para isso, o algoritmo dividir uma sequncia alvo em pequenas sequncias, geralmente conjuntos de
dois a seis caracteres, chamados de palavras.
Da mesma forma, o conjunto total de sequncias do banco de dados ter cada uma
das sequncias subdivida em pequenas pala-

3. Alinhamentos

vras. As palavras da sequncia alvo sero


comparadas s palavras oriundas do banco
de dados. Aps a busca de identidade, o algoritmo alinhar as duas sequncias completas
(sequncia oriunda do banco de dados que teve uma palavra similar com umas das palavras da sequncia alvo e a prpria sequncia
alvo) a partir das palavras similares e estender a anlise de similaridade para as regies
vizinhas, antes e depois da palavra similar.
Atravs de uma matriz de penalidade, o algoritmo calcular o alinhamento que teve o
maior valor de pontuao. comum, para esta segunda etapa dos clculos de similaridade, a utilizao de algoritmos de programao
dinmica.

3.5. Alinhamento mltiplo global


Da mesma forma que no caso dos alinhamentos simples, o mtodo de programao dinmica usualmente utilizado para lidar
com mltiplas sequncias. Nestes casos, utiliza-se o conceito de soma ponderada dos pares (weighted sum of pairs, WSP). Atravs
deste conceito, para qualquer alinhamento
mltiplo de sequncias, uma pontuao para
cada par possvel formado por estas sequncias ser calculada (Figura 8-3) e, ao final, os
valores de similaridade para cada um dos pares sero somados. Apesar de conceitualmente simples, este mtodo exige grande
capacidade computacional e, dependendo da
quantidade de sequncias envolvidas, pode
requerer longo tempo para processamento.
Mtodos alternativos tiveram que ser
criados para acelerar os clculos para alinhamento de sequncias, incluindo-se: alinhamento progressivo, pontuao baseada em
consistncia (consistency-based scoring),
mtodos iterativos de refinamento, algoritmos genticos e modelos ocultos de Markov.
Cabe ressaltar que todos estes mtodos realizam buscas aproximadas pelo resultado timo e, portanto, se tratam de mtodos
heursticos.

Alinhamento progressivo
Leva em considerao a relao evolutiva entre as sequncias. Os algoritmos utilizam as relaes filogenticas para gerar o
resultado de alinhamento. Inicialmente, so
realizados alinhamentos par-a-par de todos
os possveis pares. Nesta comparao, verifica-se apenas o nmero de caracteres diferentes entre as duas sequncias (verificar o
conceito de distncia evolutiva observada no
captulo 6). Estas distncias sero utilizadas
para a construo de uma filogenia (geralmente atravs do mtodo de neighborjoining). A partir desta filogenia o alinhamento
ser construdo progressivamente, dependendo da relao entre as sequncias sendo,
por isso, chamado de alinhamento progressivo.
Tomemos como exemplo um ramo de
uma dada filogenia que inclui duas sequncias.
O algoritmo construir um alinhamento atravs de programao dinmica para estas duas sequncias. A partir deste primeiro
alinhamento, estas duas sequncias sero
agora tratadas como uma, e sero alinhadas
prxima sequncia filogeneticamente relacionada. Devemos notar que todo o restante
das sequncias ser alinhado baseando-se
neste primeiro par. um mtodo rpido e
amplamente utilizado para alinhar um grande
nmero de sequncias. Atualmente, os programas mais populares de alinhamento progressivo so o CLUSTALW e CLUSTALX.

Pontuao baseada em consistncia


Baseado no algoritmo de alinhamento
progressivo, no leva em considerao apenas o primeiro par de sequncias alinhadas.
Durante a realizao do clculo, realiza outros
alinhamentos par-a-par para aperfeioar as
comparaes entre as sequncias. O principal
programa a utilizar este algoritmo o TCOFFEE.

Mtodos iterativos de refinamento


Funcionam como os algoritmos de ali-

3. Alinhamentos

nhamento progressivo, mas os grupos de sequncias so realinhados constantemente ao


longo das anlises, garantindo que o alinhamento inicial no defina o resultado final. O
principal programa a utilizar este algoritmo
como base para os clculos de alinhamento
o MUSCLE.

Algoritmos genticos
Estes algoritmos buscam simular o
processo evolutivo no conjunto de sequncias
a serem alinhadas, aplicando conceito de seleo e recombinao. ainda um mtodo
lento e, devido aleatoriedade do processo,
no garante o mesmo resultado para diferentes alinhamentos do mesmo conjunto de
dados. O programa SAGA um dos poucos a
implementar algoritmos genticos.

Modelos ocultos de Markov


Modelo baseado em probabilidades estatsticas, destacando os eventos de substituio e insero ou deleo de caracteres.

3.6. Alinhamento mltiplo local


Na busca por regies localizadas de similaridade entre diferentes sequncias, so
aplicados principalmente os seguintes algoritmos: anlise de perfis, anlise de blocos e
anlise de motivos.

Anlise de perfis
A partir de um alinhamento primrio de
todas as sequncias envolvidas na anlise e
utilizando uma matriz de custo padro, o algoritmo seleciona as regies altamente conservadas e produz uma nova matriz de
pontuao (matriz de custo), chamada de
perfil. A construo deste perfil pode ser realizada atravs de dois mtodos diferentes
(mtodo das mdias e mtodo evolutivo) e
inclui pontuaes para matches, mismatches
e lacunas. Assim que produzido, este perfil
pode ser utilizado para alinhar sequncias entre si utilizando as pontuaes calculadas pa-

ra avaliar a probabilidade em cada posio ou


para buscar sequncias com o mesmo padro
em um banco de dados.
A desvantagem do mtodo de perfis
est na especificidade da nova matriz de custo
obtida. Se o alinhamento inicial contiver poucas sequncias, pode no representar adequadamente a variabilidade de caracteres em
uma determinada posio e prejudicar o algoritmo na busca por similaridade com outras
sequncias. Este mtodo principalmente
utilizado para alinhamentos de aminocidos.

Anlise de blocos
Assim como a anlise de perfis este
mtodo requer, inicialmente, a seleo da regio de maior similaridade de um alinhamento
mltiplo. Estas regies podem ser chamadas
de blocos e diferem dos perfis por no acomodarem indels, que sero automaticamente
eliminados das anlises. Este mtodo tambm capaz de realizar a busca de pequenas
regies de similaridade entre sequncias, de
maneira semelhante ao mtodo de palavras.

Anlise de motivos
Este mtodo especialmente utilizado
na busca por motivos proteicos em sequncias de aminocidos. O mtodo foi desenvolvido
atravs do alinhamento de milhares de sequncias de aminocidos extradas de grandes bancos de dados de protenas. A partir
deste alinhamento, analisou-se cada uma das
colunas para buscar um padro de substituio entre os aminocidos. Estes padres de
mudana refletem uma maior probabilidade
de substituio. Para proceder ao alinhamento, os algoritmos que aplicam a anlise de
motivos iniciam o processo por uma anlise
de blocos. As regies de alta similaridade so
ento analisadas para buscar os padres de
substituio descritos inicialmente. O conjunto
de padres resultante da anlise das colunas
chamado de motivo. A probabilidade de
existncia de cada motivo em uma sequncia
de protena estimada atravs do banco de
dados do SwissProt.

3. Alinhamentos

3.7. BLAST
O BLAST, ou Ferramenta de Busca por
Alinhamento Local Bsico (Basic Local
Alignment Search Tool) um algoritmo capaz
de realizar buscas baseadas em alinhamento
que, apesar de no serem exatas, so confiveis e muito rpidas, sendo estas suas vantagens em relao a outros mtodos. Ele um
dos programas mais usados em Bioinformtica devido velocidade em que consegue
responder a um problema fundamental em
biologia celular e molecular: comparar uma
sequncia desconhecida com aquelas depositadas em bancos de dados.
O algoritmo do BLAST aumenta a velocidade do alinhamento de sequncias ao buscar primeiro por palavras comuns (ou
k-tuples) na sequncia de busca e em cada
sequncia do banco de dados. Em vez de buscar todas as palavras de mesmo tamanho, o
BLAST limita a busca quelas palavras que
so mais significantes. O tamanho de palavra
fixado em 3 caracteres para sequncias de
aminocidos e em 11 para sequncias de nucleotdeos (3 se as sequncias forem traduzidas nos 6 quadros de leitura possveis). Esses
so os tamanhos mnimos para obter uma
pontuao por palavras que seja alta o suficiente para ser significativa sem perder fragmentos menores, mas importantes, de
sequncia.

Funcionamento do algoritmo BLAST


Para funcionar, o BLAST necessita de
uma sequncia de busca (query) e de sequncias alvo. Comumente, as sequncias alvos
so o conjunto de sequncias depositadas em
um banco de dados, local ou na web. Um dos
conceitos principais empregados pelo BLAST
de que alinhamentos estatisticamente significantes contm pares de segmentos de alta
pontuao (HSP, high-scoring segment pairs),
e so esses HSPs que o algoritmo busca entre
a sequncia sendo analisada e aquelas depositadas no banco de dados.
As principais etapas do funcionamento
do algoritmo BLAST, para uma sequncia

proteica genrica incluem:


i. Remoo de repeties ou regies de
baixa complexidade na sequncia de
busca.
Uma regio de baixa complexidade definida como
uma regio composta por poucos tipos de elementos.
Essas regies normalmente apresentam pontuaes
altas que podem confundir o programa em sua busca
por sequncias com similaridade significativa. Por esse
motivo, tais regies so identificadas antes da prxima
etapa e ignoradas.

ii.
Estabelecer uma lista de palavras
com k-letras.

Sendo este um caso envolvendo sequncias proteicas, k = 3, ou seja, cada palavra tem tamanho 3. Como
mostrado na Figura 10-3, so listadas palavras com
comprimento de 3 caracteres, sequencialmente, at
que a ltima letra da sequncia de busca seja includa.

Figura 10-3: Exemplo de lista de palavras


geradas pelo BLAST.
iii. Listar as possveis palavras correspondentes.
Diferente de outros algoritmos (como o FASTA), o
BLAST considera apenas as palavras de maior pontuao. As pontuaes so estabelecidas por comparao
das palavras listadas na etapa ii com todas as outras
palavras de 3 letras. Uma matriz de substituio
(BLOSUM62) usada para pontuar as comparaes
entre pares de resduos. Existem 203 possveis pontuaes de correspondncia considerando uma palavra de
3 letras. Como exemplo, a comparao das palavras
PQG e PEG tem pontuao de 15, enquanto a comparao de PQG com PQA pontua como 12. A seguir, um limiar T para pontuao de palavras vizinhas usado
para reduzir o nmero de possveis palavras correspondentes. As palavras cujas pontuaes forem maiores que o limiar T sero mantidas na lista de possveis
correspondncias, enquanto aquelas cujas pontuaes

3. Alinhamentos

forem menores sero descartadas. Considerando o exemplo anterior, se T = 13, PEG ser mantida, enquanto
PQA ser abandonada.

iv. Organizar as palavras de alta pontuao.

As palavras remanescentes, com alta pontuao,


so organizadas em uma rvore de busca. Isso permite
que o programa compare as palavras com as sequncias do banco de dados de maneira rpida.

regies de correspondncia exata com distncia menor


que A na mesma diagonal sero unidas como uma nova
regio, mais extensa. Posteriormente, essas regies
so estendidas da mesma maneira como ocorre no
BLAST original, com os HSPs sendo pontuados com
base em uma matriz de substituio.

v. Repetir os passos iii e iv para cada


palavra de k-letras originadas da sequncia de busca.
vi. Varrer as sequncias do banco de
dados em busca de correspondncias
com as palavras remanescentes.

O BLAST realiza uma varredura das sequncias depositadas no banco de dados, buscando pelas palavras
de alta pontuao (como PEG, no exemplo anterior). Se
uma correspondncia exata for encontrada, ela ser
empregada para nuclear um possvel alinhamento sem
lacunas (gaps) entre a sequncia de busca e a depositada no banco de dados.

vii. Estender as correspondncias exatas entre pares de segmentos de alta


pontuao.

A verso original do BLAST estende o alinhamento


para a esquerda e para a direita de onde ocorre uma
correspondncia exata. A extenso parada apenas
quando a pontuao acumulada pelo HSP comea a diminuir (um exemplo pode ser visto na Figura 11-3).

Figura 12-3: Esquema da extenso de zonas


de
correspondncia
entre
sequncias
identificadas pelo BLAST.
viii. Listar todos os HSPs do banco de
dados cuja pontuao seja alta o suficiente.
Nessa etapa so listados todos os pares de segmentos cuja pontuao seja maior que um determinado ponto de corte S. A distribuio de pontuaes
obtidas por alinhamento de sequncias aleatrias a
base para determinao desse ponto de corte.

ix. Avaliar a significncia da pontuao


dos HSPs.

Figura 11-3: Exemplo do esquema


pontuao empregado pelo BLAST.

de

Para acelerar o processo, a verso atual do BLAST


(BLAST2 ou Gapped BLAST) emprega um limiar mais
baixo para a vizinhana das palavras, mantendo a sensibilidade na deteco de similaridade de sequncias.
Assim, a lista de possveis correspondncias obtidas na
etapa iii maior. Como observado na Figura 12-3, as

A avaliao estatstica de cada par de segmentos de


alta pontuao explora a Distribuio de Valores Extremos de Gumbel. O valor de confiana estatstica e
apresentado pelo BLAST, chamado de valor de expectativa, reflete o nmero de vezes que uma sequncia
no relacionada presente no banco de dados pode obter, ao acaso, um valor maior que S (ponto de corte).
Ou seja, o e reflete o nmero de falsos positivos entre
os resultados de similaridade encontrados. Para p < 0,1,
o valor e se aproxima da distribuio de Poisson (ver
item 4.8).

x. Transformar duas ou mais regies de


HSP em um alinhamento maior.

Em alguns casos, duas ou mais regies de HSP podem ser combinadas em um trecho maior de alinhamento (uma evidncia adicional da relao entre a

3. Alinhamentos

sequncia de busca e a encontrada no banco de dados).


Existem dois mtodos para comparar a significncia
das novas regies ligadas. Se, por exemplo, forem encontradas duas regies de HSP combinadas com pares
de pontuao (67 e 41) e (53 e 45), cada mtodo se
comportar de maneira diferente. O mtodo de Poisson
conferir maior significncia ao conjunto com valor mnimo maior (45 em vez de 41). O mtodo de soma dos
pontos, ao contrrio, dar preferncia ao primeiro conjunto, pois 108 (67+41) maior que 98 (53+45). O
BLAST original usa o primeiro mtodo, enquanto o
BLAST2 emprega o segundo.

xi. Exibir os alinhamentos locais entre a


sequncia de busca e cada uma das
correspondncias no banco de dados.

O BLAST original produz apenas alinhamentos sem


lacunas (gaps), incluindo cada um dos HSPs encontrados inicialmente, mesmo que mais de uma regio de
correspondncia seja encontrada numa mesma sequncia do banco de dados. O BLAST2 produz um nico
alinhamento com lacunas, podendo incluir todas as regies de HSP encontradas. importante destacar que o
clculo da pontuao e do valor e leva em conta as penalidades por abertura de lacunas no alinhamento.

xii. Registrar as correspondncias encontradas.

Quando o valor e dos alinhamentos encontrados


entre a sequncia de busca e as do banco de dados satisfazem o ponto de corte estabelecido pelo usurio, a
correspondncia registrada. Os resultados da busca
so apresentados de forma grfica, seguidos por uma
lista de correspondncias organizada pela pontuao e
pelo valor e, e finalizam com os alinhamentos. A Figura
13-3 traz um exemplo de resultado obtido pelo BLAST.

Diferentes tipos de BLAST


O BLAST constitui uma famlia de programas, que podem ser usados para diferentes fins, dependendo das necessidades do
usurio. Esses programas variam quanto ao
tipo de sequncia de busca, o banco de dados
a ser empregado, e o tipo de comparao a
ser realizada. As diferentes aplicaes disponveis pelo BLAST incluem:
i.
blastn: BLAST nucleotdeo-nucleotdeo. Usando uma sequncia de DNA como entrada, d como resultado as
sequncias de DNA mais similares pre-

sentes no banco de dados especificado


pelo usurio.
ii.
blastp: BLAST protena-protena.
Usando uma sequncia proteica como
entrada, d como resultado as sequncias proteicas mais similares presentes
no banco de dados especificado pelo
usurio.
iii. blastpgp: BLAST iterativo com especificidade de posio (PSI-BLAST). Usado
para encontrar protenas distantemente
relacionadas. Nesse caso, uma lista de
protenas proximamente relacionadas
criada. Essa lista serve de base para a
criao de uma sequncia mdia, que
resume as caractersticas importantes
do conjunto de sequncias. A sequncia
mdia usada para buscar sequncias
similares no banco de dados e um grupo
maior de protenas encontrado. O grupo maior usado na construo de uma
nova sequncia mdia e o processo
repetido. Ao incluir protenas relacionadas na busca, o PSI-BLAST muito mais
sensvel na percepo de relaes evolutivas distantes que o BLAST protenaprotena tradicional.
iv. blastx: traduo de nucleotdeos em
6 quadros-protena. Compara os produtos de traduo conceitual nos 6 quadros de leitura de uma sequncia de
nucleotdeos contra o banco de dados
de sequncias proteicas.
v. tblastx: traduo de nucleotdeos em
6 quadros-traduo de nucleotdeos em
6 quadros. O mais lento dos programas
BLAST, tem por objetivo encontrar relaes distantes entre sequncias de nucleotdeos. Ele traduz a sequncia de
nucleotdeo nos 6 possveis quadros de
leitura e compara os resultados contra a
traduo nos 6 quadros de leitura das
sequncias de nucleotdeos depositadas
no banco de dados.
vi. tblastn: protena-traduo de nucleotdeos em 6 quadros. Compara uma
sequncia de protena contra a traduo
nos 6 quadros de leitura das sequncias
de nucleotdeos depositadas no banco

3. Alinhamentos

Figura 13-3: Exemplo de um resultado de busca realizada pelo BLAST. Diferentes informaes
so apresentadas: 1) representao grfica de domnios conservados identificados na
sequncia; 2) representao grfica de matches, indicando qualidade do alinhamento e
cobertura das sequncias identificadas; 3) informaes estatsticas dos resultados encontrados,
incluindo identidade e valor e; 4) alinhamento de cada sequncia encontrada com a sequncia de
busca (query).
de dados.
vii. megablast: para empregar um grande nmero de sequncias de busca.
Quando se compara um grande nmero
de sequncias de busca (especialmente
no BLAST por linha de comando), o
megablast muito mais rpido que o
BLAST executado por vrias vezes seguidas. Ele agrupa muitas sequncias de
busca, formando uma grande sequncia,
antes de realizar a busca no banco de

dados. Os resultados so ps-analisados em busca de alinhamentos individuais.

3.8. Significncia estatstica


Em determinados casos, especialmente
para buscar evidncia de homologia entre sequncias, o alinhamento analisado sob o
ponto de vista estatstico. Nessa ptica, podemos calcular quo bom pode ser um ali-

3. Alinhamentos

nhamento simplesmente levando em considerao as razes de chance de alinhamento


entre nucleotdeos quaisquer. Para isso, sequncias de nucleotdeos ou aminocidos so
geradas aleatoriamente, alinhadas em conjunto e avaliadas, segundo um determinado
esquema de pontuao. Para alinhamentos
globais, pouco se sabe a respeito destas distribuies randmicas. No entanto, felizmente, estas tcnicas so bem entendidas para
casos de alinhamentos locais e, atualmente,
so amplamente utilizadas para a avaliao
de similaridade, especialmente em bancos de
dados que comportam grande quantidade de
sequncias.
Para analisar a probabilidade associada
a determinado alinhamento necessrio, inicialmente, gerar um modelo aleatrio das sequncias
em
anlise.
Esses
novos
alinhamentos sero pontuados seguindo um
determinado esquema de pontuao. Neste
contexto, ser calculada a probabilidade de se
obter aleatoriamente uma pontuao pelo
menos igual pontuao do alinhamento original. O valor associado aos mltiplos testes
realizados chamado de valor e (e-value).
Para banco de dados, este valor corresponde
ao nmero de distintos alinhamentos, com
uma pontuao igual ou melhor, que so esperados ocorrer na busca por sequncias similares simplesmente por razes de chance
(aleatrios). Estes clculos estatsticos levam
em considerao a pontuao do alinhamento
e o tamanho do banco de dados. Quanto menor o valor e, menor o nmero de chances de
uma determinada sequncia ser alinhada aleatoriamente com outras e, portanto, mais
significante o resultado. Por exemplo, um
valor e de 1e-3 (1x10-3 ou 0,001) significa que
h a chance de 0,001 de que a sequncia alvo
seja alinhada com uma sequncia aleatria do
banco de dados. Por exemplo, em um banco
de dados que contm 10.000 sequncias,
neste caso, esperaramos encontrar at 10
outras sequncias que alinharo significativamente com a sequncia alvo. importante
ressaltar que o fato de encontrarmos um valor e prximo de zero na comparao entre
duas sequncias no necessariamente denota

a homologia destas sequncias, dado que sequncias no relacionadas podem conter similaridades devido evoluo convergente.

3.9. Alinhamento de 2 estruturas


O alinhamento de estruturas um problema matematicamente complexo que s
pode ser resolvido por algoritmos heursticos.
A Figura 14-3 apresenta um exemplo de alinhamento estrutural simples. Diferentes algoritmos oferecem resultados diferentes
para o alinhamento, e algumas vezes essas
diferenas so grandes. Por esse motivo
importante testar diferentes programas de
alinhamento estrutural. Cada um deles tem
pontos fortes e fracos, que podem ser explorados a partir da leitura dos artigos que os
propuseram originalmente.

Figura 14-3: Exemplo de alinhamento de duas


estruturas proteicas, oriundas de diferentes
organismos:
hemoglobina
humana
e
mioglobina de elefante-asitico.
Existem trs etapas essenciais para as
diferentes estratgias de alinhamento estrutural: a representao, a otimizao e a pontuao. A representao se refere s
maneiras de representar as estruturas de
uma forma que no seja dependente de coordenadas espaciais e que seja adequada ao ali-

3. Alinhamentos

nhamento. A otimizao lida com a amostragem do espao de possveis solues para o


alinhamento entre as estruturas. A pontuao
lida com a classificao dos resultados obtidos e com sua significncia estatstica. A seguir
apresentamos
as
caractersticas
especficas de alguns dos mtodos mais utilizados para o alinhamento de duas estruturas.
DALI: emprega matrizes de distncias para representar as estruturas, transformando as estruturas 3D
em conjuntos 2D de distncias entre C. Se imaginarmos a sobreposio das matrizes, as regies de sobreposio na diagonal representam similaridades na
estrutura 2ria (similaridades no esqueleto polipeptdico), e similaridades fora da diagonal representam similaridades na estrutura 3ria. As matrizes so ento
divididas em matrizes menores, de tamanho fixo, com
base nas similaridades encontradas. Cada submatriz
unida a outras que sejam adjacentes para obter a matriz de sobreposio com maior abrangncia. A significncia estatstica do alinhamento calculada com base
na distribuio encontrada em uma comparao de
centenas de estruturas de baixa identidade. A pontuao apresentada como nmero de desvios-padro
em relao a tal distribuio.
SSAP: cria vetores ligando resduos a partir dos C,
representando a estrutura em duas dimenses, considerando posio e direo. Um algoritmo de programao dinmica identifica similaridades entre as
matrizes de vetores, gerando uma nova matriz que
posteriormente recalculada considerando as diferenas entre cada posio de similaridade encontrada na
primeira etapa em relao s outras posies de similaridade, at que uma matriz tima seja atingida. A
pontuao do SSAP no estatstica, mas foi calibrada
em relao ao banco de dados CATH. Assim, uma pontuao maior que 70 indica similaridade entre as estruturas comparadas.
VAST: cria vetores a partir de elementos de estrutura 2ria cujo tipo, direo e conexo esto relacionados com a topologia da protena. Esses elementos
(fragmentos) de estrutura 2ria so alinhados e comparados com alinhamentos gerados aleatoriamente. Alinhamentos com boa pontuao so agrupados e
depois realinhados usando um procedimento de otimizao por Monte Carlo. A significncia estatstica dada pelo valor p (assim como ocorre no BLAST). O valor
p proporcional probabilidade de se obter o alinhamento ao acaso.

SARF2: transforma as coordenadas em um conjunto de elementos de estrutura 2ria. Posteriormente,


avalia pares desses elementos comparando o ngulo
entre eles, a menor distncia entre seus eixos e as distncias mnimas e mximas entre cada elemento e a linha mdia. Um otimizador baseado em grafos
empregado para obter o maior nmero de conjuntos
mutuamente compatveis, e ento o alinhamento final
calculado por adio de mais resduos at que um valor
mnimo de RMSD, definido pelo usurio, seja atingido. A
pontuao final do alinhamento calculada como funo do RMSD e do nmero de C pareados entre as estruturas. A significncia estatstica obtida por
comparao distribuio de pontuaes obtidas pelo
alinhamento da protena leghemoglobina a centenas de
estruturas no redundantes.
CE: representa as protenas como conjuntos de distncias entre C de oito resduos consecutivos na estrutura. Primeiramente, so identificados todos os
pares de octmeros compatveis entre as estruturas.
Posteriormente, um algoritmo de extenso combinatria identifica e combina os pares mais similares entre
as estruturas, adicionando mais pares a cada etapa do
clculo at a obteno do melhor alinhamento. A significncia estatstica dada por comparao s pontuaes obtidas em um conjunto de alinhamentos entre
estruturas com menos de 25% de identidade de sequncia.
MAMMOTH: transforma as coordenadas da protena
em um conjunto de vetores unitrios a partir dos C de
heptmeros consecutivos. A similaridade entre heptmeros calculada pela sobreposio de seus vetores,
a matriz de similaridade tima identificada e ento o
melhor alinhamento local entre estruturas identificado dentro de um valor de RMSD pr-definido. A significncia estatstica dada pelo valor p, baseado na
comparao com a pontuao de alinhamentos obtidos
aleatoriamente.
SALIGN: representa as protenas por um conjunto
de propriedades ou caractersticas calculadas a partir
da sequncia e da estrutura ou definidas arbitrariamente pelo usurio. Tais propriedades incluem tipo de
resduo, distncia entre resduos, acessibilidade da cadeia lateral, estrutura 2ria, conformao local da estrutura e caracterstica a ser definida pelo usurio. O
programa calcula uma matriz de dissimilaridade entre
propriedades equivalentes, e a pontuao da dissimilaridade calculada pela soma das matrizes de cada caracterstica. A melhor sobreposio de matrizes

3. Alinhamentos

obtida por um algoritmo baseado em programao dinmica. A significncia estatstica no calculada pelo
SALIGN e o usurio obtm apenas os valores da pontuao de dissimilaridade. O programa fornece, entretanto, um valor adicional de qualidade, apresentado
como porcentagem de C cuja distncia menor que
3,5 entre os pares de estruturas alinhadas.

3.10. Alinhamento de >2 estruturas


A maior parte dos mtodos disponveis
para o alinhamento mltiplo de estruturas
inicia-se estabelecendo todos os alinhamentos
entre pares de estruturas e, ento, empregaos para estabelecer um alinhamento consenso entre todas as estruturas. A Figura 15-3
apresenta um exemplo de alinhamento estrutural mltiplo. Os mtodos para obter o alinhamento consenso variam entre os
programas de alinhamento. A seguir apresentamos as caractersticas especficas de
alguns dos mtodos mais utilizados para o
alinhamento de estruturas mltiplo.

Figura 15-3: Exemplo de alinhamento de


mltiplas estruturas proteicas, oriundas de
diferentes organismos (histonas H3 de
levedura, mosca-da-fruta, homem, frango,
sapo-de-garras).

CE-MC: realiza o refinamento de um conjunto de alinhamentos de pares de estruturas empregando uma


tcnica de otimizao de Monte Carlo. O algoritmo modifica o alinhamento mltiplo aleatoriamente, e as modificaes so aceitas se houver melhoria na
pontuao do alinhamento. O processo encerra quando
o alinhamento mltiplo no puder mais ser melhorado
por modificaes aleatrias.
MAMMOTH-Mult: essa extenso do MAMMOTH gera
inicialmente todos os alinhamentos de estruturas aos
pares. Um procedimento de organizao por mdias
empregado para agrupar as estruturas com base em
suas similaridades aos pares, gerando uma rvore. O
alinhamento mltiplo gerado por reorganizao dessa rvore, onde ramos similares vo sendo agrupados
aos pares, iterativamente.
SALIGN: pode realizar alinhamentos mltiplos de
duas maneiras, baseado em uma rvore ou por alinhamento progressivo. O primeiro caso muito similar ao
MAMMOTH-Mult. No alinhamento progressivo, as estruturas so alinhadas na ordem em que so fornecidas para o programa. A vantagem desse mtodo o
de seu custo computacional ser menor que o do mtodo baseado em uma rvore.

3.11. Alinhamento flexvel


O alinhamento de estruturas considerando sua flexibilidade est se tornando cada
vez mais importante devido melhor compreenso do enovelamento proteico. Cada vez
mais, percebe-se que no existem enovelamentos estanques, mas sim um gradiente
densamente populado por variantes conformacionais. Desta forma, torna-se mais difcil
definir domnios proteicos, sendo mais adequado descrever as estruturas como conjuntos de estruturas supra-secundrias. Com
base nessa proposta, a diferena entre protenas relacionadas reside na orientao relativa
desses subdomnios. A Figura 16-3 demonstra
as diferenas que podem ser observadas ao
alinhar um par de estruturas de maneira rgida ou flexvel. A seguir apresentamos as caractersticas especficas de alguns dos
mtodos mais utilizados para este tipo de alinhamento de estruturas.
FATCAT: o algoritmo adiciona tores entre pares
de fragmentos proteicos alinhados, que so tratados

3. Alinhamentos

3.12. Conceitos-chave
Algoritmo: sequncia lgica de instrues necessrias para executar uma tarefa.
Alinhamento: mtodo de organizao de sequncias ou estruturas biolgicas para
evidenciar regies similares e dissimilares.
Estes mtodos esto geralmente atrelados
a inferncias funcionais ou evolutivas.
Alinhamento Mltiplo: alinhamento que envolve
mais de duas sequncias ou estruturas

Figura 16-3: Comparao entre alinhamento


estrutural rgido e flexvel. A estrutura da
protena HasA (um captador bacteriano de
grupamentos heme) foi obtida para suas
formas intra- e extra-celular. Observe que o
alinhamento rgido identifica similaridade
parcial entre as estruturas, enquanto o
alinhamento flexvel detecta o rearranjo
espacial de parte da protena, evidenciando
sua identidade.
como corpos rgidos. De maneira geral, o programa
permite a incluso dessas tores quando elas diminuem o valor final do RMSD, refletindo em um melhor
alinhamento estrutural. O alinhamento final obtido
por programao dinmica e se baseia na matriz de similaridade entre os fragmentos pareados, obtidos na
primeira etapa do clculo.
FLEXPROT: mantm uma das protenas rgida, enquanto a outra pode sofrer alteraes em busca de
maior similaridade estrutural. As regies potencialmente flexveis da protena so detectadas automaticamente
e
empregadas
nas
alteraes
conformacionais.
ALADYN: alinha pares de estruturas com base em
sua dinmica interna e similaridade entre seus movimentos de grande escala. O posicionamento timo entre as protenas encontrado ao maximizar as
similaridades entre os padres de flutuao estrutural,
que so calculados pelo modelo de redes elsticas.
POSA: uma variante do FATCAT para o alinhamento
mltiplo flexvel de estruturas. Emprega uma metodologia combinada, introduzindo grafos de ordem parcial
para visualizar e agrupar regies similares entre as estruturas.

Alinhamento Simples: alinhamento que envolve


apenas duas sequncias ou estruturas.
BLAST: Basic Local Alignment Search Tool (Ferramenta de Busca por Alinhamento Local
Bsico), empregado para buscar sequncias em bancos de dados com base em
sua similaridade.
Homologia: um termo essencialmente qualitativo que denota uma ancestralidade comum de determinada sequncia.
HSP: pares de segmentos de alta pontuao
(high-scoring segment pairs), zonas de
similaridade entre sequncias identificadas
pelo BLAST.
Identidade: Porcentagem de caracteres similares
entre duas sequncias (excluindo-se as
lacunas).
Indels: identifica inseres e delees de caracteres ao longo do processo evolutivo.
Lacunas: regies identificadas por hifens que
representam a insero/deleo de caracteres ao longo do processo evolutivo.
Matches: regies que apresentam caracteres
idnticos entre diferentes sequncias.
Mismatches: regies que apresentam caracteres
no idnticos entre diferentes sequncias.

3. Alinhamentos

Penalidades por lacuna (PL): conjunto de parmetros necessrios para atribuir a pontuao para uma lacuna em um sistema de
alinhamento por pontuao.
RMSD: desvio mdio quadrtico.
Traduo: traduo (in silico) de uma sequncia
de mRNA em sua possvel sequncia proteica correspondente

3.13. Leitura recomendada


BOGUSKI, Mark S. A molecular biologist visits
Jurassic Park. Biotechniques, 12, 668669, 1992.
CARUGO, Oliviero. Recent progress in measuring
structural similarity between proteins.
Curr. Protein. Pept. Sci., 8, 219-241,
2007.
MADDEN, Tom. The BLAST sequence analysis
tool. In: McENTYRE, Jo; OSTELL, Jim
(Org.). The NCBI Handbook. Bethesda:
National
Center
for
Biotechnology
Information, 2002.
MARTI-RENOM, Marc A.; et al. Structure
comparison and alignment. In: GU, Jenny;
BOURNE, Philip E. (Org.). Structural
Bioinformatics. 2.ed. Hoboken: John
Wiley & Sons, 2009.
MAYR, Gabriele; DOMINGUES, Francisco S.;
LACKNER, Peter. Comparative analysis of
protein structure alignments. BMC Struct.
Biol., 7, 50, 2007.
MOUNT, David W. Bioinformatics: Sequence
and Genome Analysis. 2.ed. Cold Spring
Harbor: Cold Spring Harbor Laboratory
Press, 2004.
ROSSMANN, Michael G.; ARGOS, Patrick. The
taxonomy of binding sites in proteins.
Mol. Cell. Biochem., 21, 161-182, 1978.

4. Projetos Genoma

Charley Christian Staats


Guilherme Loss de Morais
Rogrio Margis

Representao da montagem de genomas.

4.1. Introduo
4.2. Montagem de genomas
4.3. Montagem de transcriptomas
4.4. Identificao/anotao gnica
4.5. Identificao/anotao RNAnc
4.6. Conceitos-chave
4.1. Introduo
A anlise in silico das sequncias nucleotdicas de cromossomo(s) de um dado organismo, ou simplesmente genoma, constitui
uma da mais importantes aplicaes da bioinformtica. Tem como objetivo desenvolver e
utilizar ferramentas para identificar e caracterizar genes, elementos genticos mveis e
outros elementos presentes em um determinado genoma, assim como fazer intercorrelaes entre diferentes genomas com o
intuitodebuscaraspectosevolutivoscomuns.
O primeiro organismo a ter a sequncia
de nucleotdeos de seu genoma determinado
foi a bactria Gram negativa Haemophilus
influenzae, em um projeto liderado por J.
Craig Venter. Desde 1995, ano de publicao
desta anlise genmica, as sequncias de milhares de genomas de outros organismos j
foram determinadas e analisadas, no apenas
de espcies, mas tambm de variedades de
espcies, raas e linhagens, entre outros.
Com a grande disseminao de estrat-

gias de sequenciamento cada vez menos onerosas, muito tem se investido na gerao de
algoritmos e programas para analisar as sequncias genmicas geradas. Previamente s
anlises do genoma de H. influenzae, programas para montagem de genomas j existiam,
tendo sido desenvolvidos para anlise de volumes de sequncias relativamente pequenos,
como os dos fagos e CMV, com tamanhos
de aproximadamente 48.000 pares de bases
(pb) e 229.000 pb, respectivamente. Para
genomas maiores, novos programas tiveram
que ser desenvolvidos em virtude da maior
complexidade e quantidade das sequncias
analisadas. Neste captulo, sero abordados
os conceitos bsicos e as principais ferramentas para montagem e anotao de genomas, assim como alguns programas para a
sua anlise.

4.2. Montagem de genomas


Nos primeiros anos da era genmica, o
sequenciamento de genomas era baseado na
metodologia de Sanger, ou mtodo didexi.
Para obteno da sequncia dos genomas, os
fragmentos de DNA gerados aps fragmentao qumica, fsica ou enzimtica eram subclonados em vetores plasmidiais. Esta estratgia, denominada sequenciamento shotgun,
baseada na fragmentao aleatria dos cromossomos em fragmentos de DNA com tamanho
relativamente
pequeno.
Estes
fragmentos, cujo tamanho geralmente variava de 2.000 a 5.000 pb, eram submetidos ao
sequenciamento. As sequncias obtidas a
partir de cada clone (chamadas de reads),
com tamanho mdio de 600 a 800 pb, eram
submetidos a um processamento para retirada de sequncias de baixa qualidade e, ento,

4. Projetos Genoma

utilizadas na montagem de contigs e genomas


(ver abaixo).
Com o advento das metodologias denominadas next-generation sequencing NGS
(pirossequenciamento, Illumina, SOLiD, dentre
outros), tambm ocorre fragmentao aleatria do DNA genmico, mas geralmente no
so necessrios os passos de clonagem.
Comparativamente, estes novos mtodos
permitem a obteno de reads de maneira
muito mais rpida. Entretanto, o tamanho dos
reads menor, variando de algumas dezenas
a poucas centenas de pares de base, dependendo da metodologia. Assim como no sequenciamento por Sanger, os reads obtidos
passam por um controle de qualidade e ento
podem ser utilizados na montagem de genomas.
Independente da metodologia de sequenciamento utilizada, como resultado se
tem uma grande lista de sequncias nucleotdicas - os reads - de tamanhos que podem
variar de 50 a 800 pb. Para montagem das
sequncias genmicas a partir destes reads,
diferentes estratgias so utilizadas, dependendo da metodologia empregada. Para o sequenciamento convencional (Sanger), cada

um destes reads alinhado entre si na procura de regies de identidade ou de sobreposio, de maneira a construir fragmentos
contguos (contigs), os quais podem ser definidos como a unio de duas ou mais sequncias (reads) formadas por sobreposio de
elementos comuns a pelo menos duas sequncias (Figura 1-4).
Os primeiros algoritmos para montagem de genomas se baseavam no alinhamento dos reads e na concatenao de sequncias obtidas dos reads com os
maiores alinhamentos. O processo se dava de forma
cclica, concatenando as sequncias com o maior alinhamento at que todos estes alinhamentos fossem
utilizados. Esta montagem de genomas a partir de
reads tem como base os seguintes passos:
i) clculo de alinhamentos aos pares de todos os
fragmentos;
ii) escolha de dois fragmentos com a maior sobreposio;
iii) fuso dos dois fragmentos;
iv) repetio dos passos anteriores at obteno
de uma nica sequncia.
Para as novas metodologias de sequenciamento,
devido ao tamanho relativamente menor dos fragmentos, algoritmos diferentes foram desenvolvidos. Os

Figura 1-4: Montagem de genomas utilizando a estratgia de sequenciamento de genomas por


shotgun. O painel esquerda ilustra um esquema utilizado para genomas de menor tamanho e
reduzido contedo de sequncias repetitivas. O painel direita ilustra uma estratgia mais
complexa, usado para organismos com genoma maior.

4. Projetos Genoma

programas de montagem atuais utilizam grafos de sobreposio ou grafos de Bruijn. Estes grafos identificam reads com possibilidade de compartilharem
trechos de sobreposio entre si utilizando uma estratgia baseada no alinhamento em sementes.
Com esta abordagem, pequenos fragmentos de
comprimento fixo obtido de cada read, os k-mers, so
usados como um ndice, e apenas pares de leituras que
partilham uma semente so posteriormente avaliados.
Os grafos de Bruiijn baseiam-se na decomposio de
reads em k-mers (por exemplo dodecmeros, ou seja
fragmentos de 12 nucleotdeos), os quais so utilizados
como nodos destes grafos. Uma ligao direta entre os
nodos indica que estes k-mers ocorrem consecutivamente em um ou mais reads.

Uma srie de programas foram desenvolvidos para a montagem de genomas, utilizando diferentes algoritmos (Tabela 1-4). No
caso de sequenciamento de genomas procariticos, ao final do processo esperada a
obteno de uma sequncia nica, a qual representa toda a sequncia nucleotdica do
cromossomo. Sabe-se, todavia, que plasmdeos podem ser encontrados em diversos
micro-organismos. Assim o nmero de
contigs ser dependente do nmero de plasmdeos e, em casos menos frequentes, do
nmero de cromossomos presentes naquela
bactria.
Ao ser analisado o genoma de organismos eucariotos, nos quais se encontra uma
grande variao no nmero de cromossomos,
um nmero maior de contigs esperado. Teoricamente, cada cromossomo deveria ser
representado por um contig. Entretanto, nos
passos iniciais de montagem de genomas so
observados dezenas a centenas de contigs,
dependendo da complexidade do organismo
cujo genoma esta sendo sequenciado. Os genomas de eucariotos, em especial de eucariotos superiores, possuem pelo menos duas
caractersticas que tornam o processo de
montagem mais complexo:
i) uma quantidade considervel de sequncias repetitivas que dificulta o processo
de
montagem
devido
a
alinhamentos de alto escore com diversas sequncias;
ii) o seu tamanho, podendo chegar a

Tabela 1-4: Principais programas utilizados na


montagem de genomas e transcriptomas.
Nome

Anlise

ABySS

grandes genomas

ALLPATHS-LG

grandes genomas

Celera WGS Assembler


CLC Genomics
Workbench

grandes genomas
genomas e
trancriptomas
genomas

Geneious
Newbler
Phrap
SOAPdenovo
Staden gap4 package
Trans-ABySS
Velvet

genomas e
transcriptomas
genomas e
transcriptomas
genomas e
transcriptomas
genomas pequenos e
transcriptomas
transcriptomas
genomas pequenos e
transcriptomas

mais de 3 bilhes de pares de base (caso do genoma humano).


Para sobrepujar estas dificuldades, passos intermedirios se tornam necessrios,
como a construo de sub-bibliotecas genmicas. Cada uma destas sub-bibliotecas sequenciada, de forma a gerar contigs. O
conjunto de diferentes contigs oriundos de diferentes sub-bibliotecas ser utilizado para a
gerao de scaffolds (Figura 1-4). Geralmente, so necessrios passos adicionais de clonagens de regies especficas do genoma e
posterior sequenciamento destas para o fechamento do genoma.
Um dos maiores desafios, entretanto, para o sequenciamento de genomas reside na adequada montagem de regies repetitivas. No genoma humano, por
exemplo, existem pelo menos seis classes de sequncias repetitivas:
i) minissatlites, microssatlites ou satlites;
ii) SINEs (elementos nucleares pequenos intercalados);
iii) LINEs (elementos nucleares longos intercalados);
iv) transposons;

4. Projetos Genoma

v) retrotransposons;
vi) clusters de genes DNAr (genes responsveis
pela sntese dos RNA ribossmicos RNAr).
Estas diferentes classes, cujos tamanhos podem
variar de centenas de pares de base, caso de microssatlites e SINEs, a dezenas de milhares de pares de
base, observado em clusters de genes DNAr, podem
constituir mais de 50 % do tamanho de cada cromossomo humano.
O grande desafio na montagem de sequncias genmicas com alto contedo de elementos repetitivos
se refere a correta quantificao e localizao destes
elementos nos cromossomos. Desta forma, o desafio
central da montagem de genomas reside na resoluo
destas sequncias repetitivas, estando este desafio diretamente associado metodologia de sequenciamento utilizada. Por exemplo, se forem obtidos reads de
tamanho menor que uma unidade de repetio, todos
estes reads sero utilizados para formar um contig que
contm apenas a sequncia de repetio. Entretanto,
ao serem obtidos reads com tamanho maior que a unidade de repetio, os mesmos podem ser utilizados na
resoluo da localizao destas sequncias repetitivas
em um determinado cromossomo.
Alguns programas permitem montar genomas
complexos com repeties baseados em reads maiores (como os obtidos pela metodologia de Sanger ou
pirosequenciamento). Para tal, estes programas realizam a montagem em duas ou mais fases distintas, nas
quais as sequncias repetitivas so processadas separadamente. Em um primeira fase do processo de montagem, reads contendo sobreposio de sequncias
no ambguas so agrupados em contigs, cujas extremidades contm as regies limtrofes das sequncias
de repetio. A segunda fase se caracteriza pela montagem de contigs no ambguos em sequncias maiores, usando dados de reads mate-pair.
Dados de sequenciamento paired-end oferecem a
possibilidade da determinao exata de sequncias que
flanqueiam uma determinada sequncia de repetio.
Em experimentos tradicionais associados ao sequenciamento de Sanger, um protocolo paired-end inicia-se
com longos fragmentos de DNA clonados em vetores
para sua replicao em Escherichia coli. As extremidades destes fragmentos poderiam assim ser facilmente
determinadas por sequenciamento. Protocolos pairedend para as estratgias de sequenciamento atuais no
requerem passos de clonagem em E. coli. Entretanto,

os mesmos se baseiam na circularizao do fragmento


de DNA do tamanho desejado, sendo as extremidades
posteriormente reconhecidas devido etiqueta (tag)
utilizada para propiciar a circularizao por meio da ligao. Com a determinao das sequncias flanqueadoras de uma repetio, h maior chance de conseguir
determinar a sua localizao em um genoma.

A qualidade de montagem do genoma


pode ser acompanhado por alguns ndices. A
cobertura reflete a quantidade de reads associados a um determinado fragmento de
DNA. Por exemplo, uma cobertura de 10X indica que, para o genoma sendo avaliado, cada
nucleotdeo foi encontrado em pelo menos 10
reads.
Outro valor importante refere-se ao
N50. Trata-se de uma medida estatstica muito utilizada para avaliar a qualidade da montagem, visto que revela o quanto de um
genoma coberto por contigs grandes. Um
valor de N50 igual a n significa que 50% dos
reads esto montados em um contig de tamanho n ou maior. Por exemplo, na montagem do genoma de co domstico,
depositado no NCBI sob o nmero de acesso
AAEX03, o sequenciamento dos 40 cromossomos, com uma sequncia total de
2.410.976.875 bases gerou 27.106 contigs
com um N50 de 267.678. Isto significa que
mais de 50% dos reads esto associados a
contigs de 267.678 bases ou maiores.

4.3. Montagem de transcriptomas


Em anlises de novos genomas, um
ponto importante se refere identificao de
transcritos. Alm de fornecer indcios sobre
quais genes esto sendo expressos em uma
determinada situao fisiolgica a qual as clulas ou tecidos esto sendo expostos, o sequenciamento de transcritos tem uma
aplicao importante na procura de sequncias codificantes em genomas. Esta estratgia
tem uma aplicabilidade muito grande em organismos em que o contedo de ntrons por
gene grande, como em eucariotos mais
complexos.
Ao contrrio de genomas, em transcriptomas o material de partida geralmente

4. Projetos Genoma

cDNA, obtido a partir de transcrio reversa


de RNA. A grande maioria dos trabalhos se d
em torno de RNAm mas, cada vez mais, RNAs
no codificantes, com possvel papel regulatrio, esto sendo avaliados por esta metodologia (ver abaixo). O pool de cDNAs pode
ento ser subclonado e ser submetido ao sequenciamento pela metodologia de Sanger ou
diretamente fragmentado e ser submetido ao
sequenciamento NGS. Uma grande lista de
reads ento obtida, os quais podem ser utilizados para realizar a montagem do transcriptoma de novo ou ser ancorados a
sequncia de um genoma para ajudar na
identificao de sequncias codificantes e de
extremidades xon/ntron.
No caso da montagem de novo, os
reads so alinhados e aqueles que apresentam alinhamento positivo so fusionados,
dando origem a contigs. Entretanto, diferentemente da anlise de genomas, muitos
contigs so gerados, cada um possivelmente
representando um mRNA maduro.
Adicionalmente, alguns programas podem, alm de realizar a montagem de transcriptomas ou alinhamento a genomas, fazer
uma anlise da representatividade de cada
transcrito dentro do conjunto total de RNA
analisado, por meio do clculo da frequncia
relativa de cada transcrito identificado. Com
estes clculos possvel realizar anlises de
expresso diferencial de genes. Dentre os pacotes de programas utilizados, podem ser citados Cufflinks-Cuffdiff, DegSeq, DESeq,
EdgeR, entre outros.
A anlise desta expresso relativa de transcritos
pode ser realizada com base em duas estratgias principais:
i) mapeamento a uma sequncia genmica previamente conhecida;
ii) anlise de novo, independente da sequncia
genmica e baseada na montagem dos transcritos diretamente a partir dos reads.
Na primeira estratgia, os reads so mapeados ao
genoma, ou seja, as regies de identidade nucleotdica
so ancoradas sequncia genmica, sendo identificadas por metodologias de sequenciamento que levam
em considerao o nmero de reads mapeados em re-

lao poro do genoma que contm um gene. Alguns dos programas para este tipo de mapeamento incluem Bowtie, Tophat e SOAP, dentre outros. Como
resultado, uma determinada sequncia do genoma
representada por um grande nmero de reads, no caso
de genes mais expressos, ou um baixo nmero de
reads, no caso de genes menos expressos.
Deve ser levado em considerao, entretanto, que
quanto maior o tamanho do gene mais se espera encontrar reads associados a este gene. Desta forma, a
maneira mais comum para se calcular a expresso relativa de um determinado gene o RPKM (reads per kilobase of transcript per million mapped reads reads
por kilobase de transcrito por milhes de reads mapeados). Esta abordagem permite uma anlise comparativa baseada em uma srie de anlises estatsticas para
comparao de transcritos com diferentes RPKMs de
diferentes amostras biolgicas ou diferentes tempos
de tratamento, por exemplo.
Quando so considerados organismos cujo genoma
ainda no foi determinado, uma construo do transcriptoma a partir de dados de RNAseq realizada (de
novo). A partir das sequncias dos transcritos gerados,
possvel ento fazer o clculo do RPKM de cada
transcrito identificado.

4.4. Identificao/anotao gnica


A anotao de genomas o passo seguinte montagem dos genomas. Trata-se de
um conjunto de protocolos e fluxos de trabalho utilizados para delimitar, em uma determinada sequncia genmica, possveis genes
e predizer a sua funo com base na similaridade com sequncias conservadas. Basicamente, existem dois grande grupos de genes
avaliados nestas metodologias. O primeiro
grupo se refere queles cujo produto reconhecido pelos ribossomos e dar origem a
uma protena (ou seja, RNAm). J o segundo
engloba os genes cujo produto ter funes
estruturais e funcionais dependentes da prpria molcula de RNA, como RNAt e RNAr. Diferentes abordagens so utilizadas para
identificar as sequncias de cada um destes
grupos de genes, como ser visto abaixo.

4. Projetos Genoma

tes

Identificao de regies codifican-

O mecanismo de delimitao da sequncia gnica drasticamente influenciado


pelo Domnio ao qual pertence o organismo
cuja sequncia genmica foi determinada. Isto
se deve ao fato de que existe uma grande diferena nas estruturas de genes procariticos
e eucariticos.
Genes procariticos codificantes de
protenas so colineares com seus produtos
gnicos. Esta caracterstica permite inferir
que toda regio delimitada por um cdon de
inico e um cdon de trmino, regio esta denominada de ORF (Open Reading Frame), potencialmente constitui uma regio codificante
de uma protena em um genoma procaritico.
Por sua vez, genes eucariticos codificantes de protenas so mais complexos, geralmente sendo caracterizados pela presena
de sequncias intervenientes ou ntrons. At
pouco tempo, acreditava-se que ntrons constituam um produto da evoluo que povoou
as sequncias gnicas com o chamado DNA
lixo, de modo que uma mutao que eventualmente viesse a acontecer tivesse maior
possibilidade de ocorrer em regies do gene
que no tm capacidade codificante. Recente-

mente, contudo, determinou-se que os ntrons


exercem um importante papel regulatrio na
expresso gnica.
ntrons so elementos gnicos que, durante o processo de expresso gnica, so
excisados durante o processamento do RNA,
em um grande complexo de reaes denominado splicing. Os ntrons podem variar em
nmero e tamanho, dependendo da complexidade do organismo. Assim, em organismos
mais simples, como leveduras e fungos filamentosos, o nmero de ntrons por gene
pequeno (geralmente de 1 a 4 por gene), assim como o seu tamanho (geralmente girando
em torno de 50 pb).
Ao contrrio, em organismos mais
complexos como humanos e plantas, tanto o
nmero de ntrons por gene quanto o seu tamanho aumentam significativamente, de forma que grande parte do gene constitudo
por ntrons (mais de 90%, dependendo do
organismo). Um comparativo entre as estruturas bsicas de genes codificantes de protenas procariticos e eucariticos, assim como
os seus respectivos processos de expresso,
apresentado na Figura 2-4.
Associado ao grande nmero de ntrons,
genes de organismos eucariticos mais complexos geralmente so caracterizados pelo

Figura 2-4: Esquema representando os elementos encontrados em genes procariticos (quadro


superior) e eucariticos (quadro inferior). Os genes esto representados no sentido 5-3 e
podem ser notadas as principais diferenas entre estas classes de genes, como a presena de
ntrons e regies regulatrias mais complexas em eucariotos.

4. Projetos Genoma

splicing alternativo. Este processo caracterizado pela incorporao diferencial de ntrons


e xons no RNAm maduro, de forma a produzir diferentes protenas a partir do mesmo
gene.
Diferentes estratgias para procura de
genes em genomas foram desenvolvidas
considerando estas caractersticas diferenciais na estrutura de genes procariticos e eucariticos. A procura de ORFs em genomas
procariticos constitui uma estratgia simples
e direta. Entretanto, uma estratgia sujeita a
uma diversidade de erros.
Nestas predies, no so considerados
elementos cannicos clssicos presentes na
estrutura de genes (isto , sequncias conservadas para ligao do fator sigma, regio
de ligao do ribossomo, stio de incio de traduo e stio de trmino de traduo) e operons, os quais poderiam auxiliar na procura ab
initio (ou seja, diretamente a partir de sequncia, sem informaes experimentais diretas sobre o produto gnico) de genes em
genomas procariticos. Assim, a procura de
genes baseada apenas na identificao de
ORFs geralmente leva a um nmero grande
de resultados falsos positivos e falsos negativos (Figura 3-4).
Para sobrepujar estas limitaes, mecanismos de delimitao das sequncias gnicas em genomas procariticos foram ento
desenvolvidos e se baseiam em algoritmos
caractersticos para detectar, na sequncia de
DNA, dois tipos fundamentais de informaes:
sinais e contedo. Estes mecanismos foram
ento expandidos para procura de genes em

organismos eucariticos.
Os detectores de sinais procuram por
caracteres funcionais especficos de genes,
tanto associados transcrio quanto traduo. Sinais transcricionais incluem sequncias cannicas conservadas que delimitam as
regies necessrias para que se inicie o processo de transcrio. Os sinais mais comumente descritos em procariotos so as
regies -35 e -10 e as sequncias de associao com a RNA Polimerase. J os sinais procurados
em
sequncias
eucariticas
geralmente constituem a regio TATA box,
assim como o stio de clivagem e poliadenilao, que caracteriza o terminador.
Os sinais traducionais, por sua vez, se
referem basicamente s regies importantes
para recrutamento de ribossomos, como o
RBS (ribosome binding site, ou sitio de ligao
a ribossomos) em procariotos. Como este
mecanismo diferente em organismos eucariticos, uma regio conservada, denominada
sequncia de Kozak, utilizada como sinal
traducional em eucariotos. Estas duas regies
se localizam imediatamente a montante
(upstream) aos respectivos cdons de incio, e
desempenham um papel importante nos mecanismos de delimitao de genes.
Adicionalmente, a deteco de sinais
que delimitam os ntrons tambm so utilizados pois, como abordado anteriormente, os
genes de eucariotos so amplamente povoados por ntrons. Desta forma, a correta predio da posio de ntrons fundamental para
correta anotao do gene, sendo que os
principais sinais a serem avaliados so os nu-

Figura 3-4: A simples procura de ORFs pode gerar resultados falso positivos na procura de
genes em organismos procariticos. Como exemplo, uma sequncia de DNA de 2357 pb da
bactria E. coli HS (nucleotdeos 3027764 ao 3030120 Cdigo de Acesso junto ao NCBI
NC_009800.1), o qual contm o gene xdhA, foi avaliada quanto presena de ORFs com mais
de 150 pb com o programa ORF Finder. A sequncia anotada do gene encontra-se em vermelho,
ao passo que as possveis ORFs esto demarcadas em azul.

4. Projetos Genoma

cleotdeos que compem as extremidades


conservadas 5 e 3 do ntron, mais comumente GT e AG (ver abaixo).
J os detectores de contedo classificam a sequncia de DNA em codificante e
no-codificante. Como regio no-codificante
entendem-se ntrons, regies intergnicas e
regies no traduzidas dos genes. Os detectores de contedo podem ainda ser subdivididos em detectores extrnsecos e detectores
intrnsecos. Os detectores de contedo extrnsecos se baseiam no fato de que regies
codificantes so mais conservadas em relao s no-codificantes propiciando, desta
forma, a identificao de xons conservados
com base em procuras por homologia.
O mecanismo bsico desta busca
atravs do programa BLAST (ver captulo 3).
Contudo, uma limitao nesta metodologia se
refere avaliao adequada da presena de
ortlogos diretos. Desta forma, a distncia filogentica (isto , evolutiva, ver captulo 5)
entre o organismo cujo genoma est sendo
analisado e aqueles organismos cujas sequncias esto depositadas nos bancos de
dados pode influenciar diretamente no resultado.
Detectores de contedo intrnseco, por
sua vez, tem como foco principal algumas
caractersticas inatas do DNA, as quais permitem a predio do potencial de uma sequncia codificar ou no uma protena. Como
exemplos de caractersticas avaliadas em detectores intrnsecos podem ser citados:
i) em muitos organismos h uma preferncia das bases G ou C em relao s
bases A ou T na terceira posio do cdon;
ii) a utilizao diferencial de cdons sinnimos, ou seja, diferentes cdons que
codificam para o mesmo aminocido;
iii) frequncia de distintas sequncias
nucleotdicas hexamricas;
iv) a periodicidade de ocorrncia de bases, dentre outros.
Estes caracteres so utilizados, por
exemplo, em modelos de Markov para a
construo de modelos capazes de reconhe-

cer sequncias codificantes. Com base nos


mecanismos discutidos acima, dois principais
sistemas para procura de genes em genomas
de eucariotos foram construdos, denominados emprico e ab initio.

Procura emprica de genes


A predio emprica ou baseada em evidncia leva em considerao buscas por similaridade com outros bancos de dados
(genmicos, transcritmicos ou protemicos)
para identificar e delimitar as sequncias gnicas. Mtodos de identificao de genes baseados em similaridade so considerados de
alta confiabilidade para localizar e construir
modelos gnicos, desde que existam relatos
prvios de estruturas gnicas do prprio organismo (como, por exemplo, sequncias de
RNAm) ou baseado em anlises de conservao provenientes de alinhamentos de genomas
de
espcies
filogeneticamente
relacionadas.
Especialmente para o caso de organismos eucariticos, alinhamentos de sequncias
oriundas de bancos de dados de protenas ou
de transcritos contra o genoma em anotao
permitem aferir que, geralmente, os gaps
constituem os ntrons. Esta premissa frequentemente acompanhada pela observao
de que as sequncias limtrofes dos ntrons
identificados constituem os dinucleotdeos
consenso GT e AG, caractersticos stios 5 e
3 dos ntrons. Estes alinhamentos geram
forte evidncia dos componentes das estruturas dos genes, muitas vezes definindo
completamente a localizao de cada xon e
cada ntron (Figura 4-4).

Procura ab initio de genes


A predio ab initio, por sua vez, depende tanto da informao de detectores de sinais quanto de contedo para delimitar a
sequncia gnica. Para tal, os algoritmos que
se valem desta estratgia utilizam redes neurais, transformadas de Fourier e, mais comumente, modelos de Markov. Para realizar
estas deteces, os algoritmos so treinados

4. Projetos Genoma

com sequncias conhecidas do genoma em


questo. Por exemplo, a Figura 5-4 ilustra o
grau de conservao dos nucleotdeos presentes na sequncia de Kozak de Drosophila
melanogaster, perfil este que pode ser utilizado na predio de novas sequncias codificantes neste organismo. Outro exemplo pode
ser observado no grau de conservao das
regies 5 e 3 provenientes de ntrons de genes humanos (Figura 6-4).
Dentre as limitaes da predio ab
initio est o fato de que, usualmente, o resultado obtido se refere s regies codificantes,
sem informaes sobre regies no traduzidas ou transcritos provenientes de splicing
alternativo.
Assim, para sobrepujar estas limitaes
a combinao das duas estratgias parece ser
a mais eficaz nos fluxos de trabalho utilizados
para predio de genes em genomas sequenciados. Para tanto, alguns destes algoritmos
so treinados com modelos gnicos j conhecidos, de organismos filogeneticamente prximos e, assim, provavelmente possuem uma
estrutura gnica muito parecida com a do organismo que est em anlise.

Anotao de regies codificantes


O passo seguinte identificao de sequncias que possivelmente constituem genes a sua anotao. A anotao manual foi
bastante utilizada na anlise dos primeiros
genomas. Entretanto, devido complexidade

e ao alto nmero de sequncias genmicas


disponibilizadas a cada dia, h um consenso
de que a anotao automtica est se tornando indispensvel.
A forma mais simples de anotao automtica se d pela anlise de uma srie de
diferentes mecanismos de predio e delimitao de sequncias gnicas e, ento, utilizao de um algoritmo de seleo, tambm
denominado de combiner. Este algoritmo tem
a funo de selecionar a predio que melhor
represente os modelos gnicos frente os algoritmos utilizados. Para tanto, os combiners
estimam os tipos e as frequncias de erros
oriundos de cada programa de predio, escolhendo posteriormente as combinaes de
evidncias que minimizam tais erros. Aps as
predies ab initio e baseados em evidncia,
alguns dos combiners devem ser treinados
com sequncias no previamente utilizadas
nos programas de predies de genes.
Os combiners mais atuais utilizam tcnicas que combinam evidncias no estocsticas ponderadas (nonstochastic weighted
evidence) que computam tanto o tipo quanto
a abundncia de uma evidncia para o clculo
da sequncia gnica consenso. Uma lista dos
algoritmos mais utilizados para confeco de
fluxos de trabalho para identificao de genes est disponvel na Tabela 2-4.
A anotao da funo de genes um
processo basicamente comparativo, sendo
utilizados bancos de dados de protenas, como o NCBI ou o UniProt (trEMBL + Swiss-Prot)

Figura 4-4: Identificao de genes baseada em evidncia. Utilizando BLASTn com base em dados
de transcritoma (cDNA, em azul), pode ser alcanada uma aproximao da sequncia do gene
(vermelho), inclusive permitindo a delimitao de xons e ntrons. As regies de identidade
esto delimitadas por traos verticais. Com base na sequncia de ntrons (quadros na poro
inferior), possvel construir modelos para sua predio. Modelo construdo com base no gene
F10E9.5 de Caenorhabditis elegans (cdigo de acesso NCBI NC_003281).

4. Projetos Genoma

Figura 5-4: Padro de conservao de


nucleotdeos da sequncia de Kozak, baseado
no alinhamento de 30 sequncias de cDNA
obtidas de D. melanogaster e analisados junto
ao servidor WebLogo. A medida de
conservao refletida pela altura da base.
Os nmeros abaixo representam o cdon de
incio de traduo (1 a 3), o segundo cdon do
mRNA (4 a 6) e a regio a montante (-8 a -1).
ou de domnios proteicos (PFAM, NCBI CDD,
Interpro). Uma das vantagens da utilizao do
Swiss-Prot como banco de dados para identificao dos produtos gnicos se refere ao fato deste ser um banco de dados
manualmente curado, ou seja, inspecionado
contra possveis erros decorrentes da anotao automtica. Com base nestas anlises,
quatro grupos distintos de anotaes podem
ser realizadas:
i) a existncia de um ortlogo direto
previamente caracterizado, revelado
por BLAST, gerar a anotao com base
no nome do ortlogo;
ii) a inexistncia de um ortlogo direto,
mas a presena de um domnio proteico
conservado, revelado por anlises em
PFAM ou Interpro, gerar a anotao
domain containing protein ou protena
contendo o domnio;
iii) a inexistncia de ortlogos diretos
previamente caracterizados ou domnios
conservados confere as anotaes protena predita (predicted protein) ou protena hipottica (hypothetical protein);
iv) quando um gene codificante de protena hipottica possui ortlogos diretos,
eles so denominados codificadores de
protena
hipottica
conservada
(conserved hypothetical protein).
Outro passo na anotao da funo de

Figura 6-4: Padro de conservao de


nucleotdeos nas regies 5 (painel superior) e
3 (painel inferior) de ntrons humanos.
Resultado obtido pelo alinhamento de 100
sequncias intrnicas e analisados junto ao
servidor WebLogo. A medida de conservao
refletida pela altura da base. Os nmeros
abaixo de cada esquema indicam o incio e o
fim do ntron (0 e 1 no esquema superior; -2 e
-1 no esquema inferior), assim como as
regies adjacentes.
genes se refere predio da localizao da
protena codificada por este gene. Por exemplo, se uma protena possui muitas regies hidrofbicas, compatveis com sua insero em
membrana, possivelmente esta ser uma
protena integral de membrana. Adicionalmente, protenas secretadas ou endereadas
a alguma organela geralmente apresentam
uma sequncia sinal.
Diversas ferramentas esto disponveis
para localizao de domnios transmembrana
(TMHMM, TMPred, HMMTOp), baseando-se
em mtodos estatsticos para aferio da
presena destes domnios. Mtodos mais robustos para determinar a localizao celular
de um produto gnico foram desenvolvidos e
se baseiam em uma diversidade de mtodos
estatsticos, geralmente treinados com sequncias proteicas conhecidamente pertencentes a algum sub-compartimento celular
(Tabela 3-4). De uma maneira geral, todas
estas ferramentas so utilizadas na constru-

4. Projetos Genoma

Tabela 2-4: Principais algoritmos utilizados na predio de genes e a sua funcionalidade.


Algoritmo

Descrio

Aplicao

Predies ab initio e baseados em evidncia


Augustus

Aceita evidncias baseadas em transcriptomas e banco de dados de


protenas

Eucariotos

FGNESH

Arquivos para treino derivados de anlise do fabricante

Eucariotos

fgenesB

Predio de genes e operons em bactrias baseadas em padres e


cadeias de Markov

Procariotos

Genemark

Arquitetura de busca baseada em self-training

Twinscan

Extenso do algoritmo Genscan que utiliza homologia entre dois


genomas para guiar a predio de genes
Extenso do algoritmo Genscan que utiliza BLASTx para guiar a
predio de genes

Procariotos e
eucariotos
Eucariotos

GenomeScan
Glimmer

Utiliza modelos de Markov interpolados

Eucariotos
Procariotos

Combiners
Evidence Modeler Tem como resultado um modelo gnico pela combinao de
Eucariotos
evidncias obtidas a partir de alinhamento de dados transcriptmicos
e protemicos com predies ab initio
Evigan
Eucariotos
Algoritmo de evidncias probabilsticas que usa redes Bayesianas
para pontuar e integrar predies ab initio e baseadas em evidncia
para produzir modelos gnicos.

o de fluxos de trabalho que integram diferentes ferramentas para analisar o resultado


da predio de cada gene, conferindo uma
anotao geral (Figura 7-4).

4.5. Identificao/anotao RNAnc


Considerando o dogma central da biologia molecular, no processo de sntese proteica
(traduo) h a participao direta de pelo
menos trs classes distintas de RNAs:
i) o RNA mensageiro, que servir de
molde para sntese da protena;
ii) o RNA ribossmico que, como indica o
nome, um componente estrutural e
funcional dos ribossomos;
iii) o RNA transportador, que funciona
como adaptador, carreando aminocidos para serem incorporados na cadeia
nascente da protena durante o processo de traduo.
A anotao de genes de RNAs no codi-

ficantes - RNAnc (RNAt, RNAr, dentre outros)


ainda no apresenta um grande nmero de
programas quando comparada s estratgias
disponveis para anotao de genes codificantes de protenas. Isto se deve, principalmente,
grande heterogeneidade e pequena conservao dos RNAnc quando comparados a
sequncias de protenas. Ao contrrio de genes codificantes de protenas, RNAnc geralmente no apresentam conservao de
sequncia 1ria, dificultando a deteco destes
genes.
Um dos mecanismos mais utilizados na
busca de RNAt em genomas o tRNAscan-SE.
Este algoritmo se baseia em uma srie de
clculos estatsticos que avaliam, entre outros parmetros, o potencial local para formao das estruturas 2rias tpicas de tRNAs
em forma de trevo, assim como a presena
de bases invariantes que definem regies
conservadas presentes nos promotores destes genes. Outro mecanismo de busca de
RNAts se refere ao algoritmo ARAGORN. A

4. Projetos Genoma

Tabela 3-4: Principais algoritmos utilizados na predio da localizao celular de protenas.


Algoritmo

Descrio

Aplicao

BaCelLo

Com base na composio de aminocidos e sequncias de treino,


prediz em 5 localizaes (secretada, citoplasmtica, nuclear,
mitocondrial e cloroplstica)

Plantas, animais e
fungos

LOCtree

Com base na sequncia N-terminal, prediz a localizao em


secretada, citoplasmtica, nuclear, mitocondrial, cloroplstica e
organelar.

Eucariotos e
procariotos

TARGETp

Com base na sequncia N-terminal, prediz a localizao como


secretada, mitocondrial e cloroplstica, dentre outras.

Eucariotos e
procariotos

Wolf PSORT

Com base na sequncia N-terminal e regras empricas, classifica o Animais, fungos e


endereamento em cloroplstico, citoslico, citosesqueleto,
plantas
retculo endoplasmtico, extracelular, golgi, lisossmico,
mitocondrial, nuclear, peroxissomal, membrana plasmtica e
membrana vacuolar. Permite localizao mltipla.

Cell-PLoc

Permite realizar a localizao de protenas em mais de 25


diferentes locais, baseados em treino com sequncias cuja
protena tem localizao conhecida.

estratgia deste programa para a procura de


tRNAs em sequncias nucleotdicas se baseia
em algoritmos heursticos para a predio da
estrutura do tRNA baseada na homologia com
sequncias conservadas, assim como a potencialidade de formar estruturas 2rias tpicas
do tRNA. Por fim, o tRNAfinder se baseia em
clculos para deteco da estrutura 2ria do
RNA predito para identificar genes de tRNA.
J a predio de RNArs baseada em
conservao de sequncias. Ao passo que organismos procariticos possuem geralmente
trs molculas de RNAr (23S, 16S e 5S) completamente maduras e funcionais, eucariotos
possuem quatro (28S, 18S, 5.8S e 5S). Cada
uma destas sequncias apresenta grande
grau de conservao com os ortlogos de diferentes organismos. Desta forma, ferramentas baseadas em Modelos Ocultos de
Markov, como o RNAmmer, foram construdas para delineamento dos genes responsveis pelos RNArs. Adicionalmente, um grande
banco de dados com famlias de RNA foi
construdo, e a cada ano novas adies de sequncias de RNAs so feitas ao RFam. Estas
famlias podem ser classificadas em trs
grandes grupos:
i) RNAs no codificantes (RNAnc);

Eucariotos,
procariotos e vrus

ii) elementos estruturais regulatrios


em cis, caractersticos de alguns RNAm
que desempenham funo de regulao
da expresso gnica principalmente por
meio da formao de estruturas 2rias;
iii) RNAs que podem sofrer o processo
de auto-splicing.
Cada uma destas famlias representada por alinhamentos mltiplos, consensos de
estruturas 2rias e modelos de covarincia. Por
meio de comparao de sequncias com os
consensos obtidos para os modelos de cada
famlia, possvel identificar genes responsveis pelos rRNAs, tais como os snoRNAs, que
so componentes do spliceossomo. Existe
ainda, contudo, uma grande gama de outros
RNAnc que no apresentam grau de conservao necessrio para formar uma famlia.

Identificao de pequenos RNAs


O termo pequeno RNA , conceitualmente, muito vago e acaba englobando diferentes classes destes, como microRNAs,
siRNAs, TAS-siRNAs, tRFs, entre outras. Contudo, existem caractersticas dos pequenos
RNAs que podem ser utilizadas para identifi-

4. Projetos Genoma

car as classes distintas: no codificam protenas (apesar de alguns serem originados de


regies codificadoras), possuem tamanho variando entre poucas dezenas de nucleotdeos,
suas rotas de biognese e seus papis funcionais.
Os pequenos RNAs fazem parte de um
grupo de pequenas molculas, sendo conhecidos h dcadas, e inicial e erroneamente
creditados como produtos de degradao de
RNA, no possuindo um papel biolgico especfico. Com a identificao do fenmeno de silenciamento gnico (RNAi) foi observado que
pequenos RNAs poderiam, de fato, desempe-

Figura 7-4: Um fluxo de trabalho genrico


para anotao de genes.

nhar um papel funcional, regulando a expresso gnica em vrios nveis. Devido ao papel
de forte regulador da expresso gnica, muita
ateno tem sido dada aos pequenos RNAs,
com um nmero crescente de trabalhos sendo feitos relacionando estes com patologias e
controlando processos bsicos do desenvolvimento.
O RNAi, algumas vezes denominado de
silenciamento gnico, um mecanismo que
induz a diminuio da expresso gnica de um
transcrito alvo atravs da clivagem do transcrito alvo e sua posterior degradao, ou
atravs da represso da maquinaria de traduo. Estes mecanismos so denominados
tambm de Silenciamento Gnico Ps-Transcricional (PTGS no ingls) (Figura 8-4). Existem adicionalmente alguns pequenos RNAs
que induzem silenciamento gnico em nvel
transcricional, ligando-se em regies de DNA,
impedindo sua transcrio. Este mecanismo
denominado de Silenciamento Gnico Transcricional (TGS no ingls).
As metodologias de sequenciamento de
alta eficincia tem auxiliado de maneira contundente na caracterizao de pequenos
RNAs, sendo que variaes de protocolos
tambm possibilitaram validar alvos (tcnica
de degradoma) e identificar pequenos RNAs
associados com protenas especficas (sequenciamento de cidos nucleicos associados
a protenas imunoprecipitadas).
Existe uma grande diversidade de pequenos RNAs em clulas eucariticas, sendo
os principais listados na Tabela 4-4. Dentre
estas, os microRNAs so a classe de pequenos RNAs melhor descrita. Caracterizam-se
por serem transcritos a partir de genes MIR,
geralmente intergnicos, por uma RNA polimerase II, resultando em um pri-miRNA, o
qual recebe um 5'-CAP e um 3'-poli-A. Este
pri-miRNA processado por um complexo
proteico, denominado D-body, o qual orquestrado por uma enzima classicamente denominada DICER ou DROSHA (RNAses classe
III), resultando na liberao do pr-miRNA.
Este apresenta estrutura em forma de grampo devido alta complementaridade que suas
extremidades 5' e 3' possuem. O pr-miRNA

4. Projetos Genoma

novamente processado por uma enzima


DICER, liberando o microRNA maduro, duplafita, de aproximadamente 20 nucleotdeos de
comprimento, o qual reconhecido por uma
enzima ARGONAUTA e direcionado ao PTGS
(Figura 9-4).
Outra classe bastante estudada se refere aos siRNA (small interfering RNAs), os
quais tem a biognese bastante variada, podendo ser derivados de regies de sobreposio de genes em orientao inversa
natsiRNAs
(natural
anti-sense
small
interfering RNAs). A transcrio de ambos
transcritos resulta em uma regio de duplafita complementar, a qual reconhecida por
uma enzima DICER que cliva o natsiRNA, resultando na sua forma madura (aproximandamente 24 nt).
Existem tambm os tasiRNA (transacting small interfering RNAs), derivados do
processamento do transcrito alvo de um microRNAs. Para a sntese de tasiRNA, neces-

srio uma RNA polimerase dependente de


RNA, a qual utiliza o microRNA como iniciador
da transcrio e a sequncia transcrito alvo
como molde. O longo RNA dupla-fita resultante reconhecido tambm por uma enzima
DICER, a qual cliva o tasiRNA, resultando na
sua forma madura (aproximadamente 20 nt).
Os siRNAs so reconhecidos por enzimas argonautas e podem tanto induzir o silenciamento gnico por PTGS, mas tambm o
remodelamento de cromatina, controlando a
expresso gnica em nvel trancricional (TGS).
A interao entre microRNAs e transcrito alvo
a melhor caracterizada, no sendo necessrio uma complementariedade perfeita entre
o microRNA e transcrito alvo, apesar disto ser
mais comum em plantas. Em animais existe
uma regio de maior complementariedade
denominada seed a qual se localiza entre a 2a
e 7a bases no microRNA, e est relacionada
especificidade do microRNA com seu transcrito alvo. Outra caracterstica o fato de ha-

Figura 8-4: Mecanismo de PTGS. A) clivagem: 1, uma protena argonauta reconhece uma fita do
pequeno RNA; 2, O microRNA associado com uma argonauta reconhece um transcrito alvo; 3,
ocorre a clivagem do transcrito alvo na posio medial do microRNA; 4, degradao do
transcrito alvo clivado por nucleases. B) represso da traduo: 1, uma protena argonauta
reconhece uma fita do pequeno RNA; 2, o microRNA associado com uma argonauta reconhece
um transcrito alvo; 3, ocorre represso da maquinaria de traduo.

4. Projetos Genoma

Tabela 4-4: Principais classes de pequenos RNAs com funo regulatria.


Classe

Tamanho (nt)

Funo
biolgica

Mecanismo de ao

Origem

Organismos

microRNA
ou miRNA

21-24

PTGS

Clivagem e represso
da maquinaria de
traduo

Intergnica e ntrons

Plantas, animais,
fungos e vrus

siRNA

21-24

Intergnica, xons e
ntrons

Plantas, animais,
fungos e vrus

tasiRNA

21-22

PTGS

Clivagem

Transcritos alvo de
microRNAs

Plantas, animais
e fungos

natsiRNA

21-22

PTGS

Clivagem

Transcritos
convergentes
parcialmente
sobrepostos

Plantas

PTGS, TGS Clivagem, represso da


maquinaria de traduo
e metilao de DNA

ver pareamento guanina uracila (G-U), tambm denominado de wobble entre o transcrito alvo e o microRNA (Figura 9-4).
Existem dois desafios principais no emprego da bioinformtica a pequenos RNAs. O
primeiro relativo identificao da regio,
ou precursor, que d origem ao pequeno RNA.
O segundo envolve a identificao dos genes
alvos regulados por estes. As metodologias
de identificao da regio que resulta no pequeno RNA variam com a classe de pequenos
RNAs e esto intimamente relacionadas s
suas biogneses.
Os microRNAs so a classe melhor caracterizada, de forma que h uma maior disponibilidade de ferramentas para identificao
destes, como os algoritmos miRTools,
miRDeep, miRExpress, miRAnalyser e miRCat.
A funcionalidade geral destes programas se
baseia na anlise de reads de sequenciamento
de bibliotecas de pequenos RNAs e na delimitao das regies de ancoramento com o genoma. Com base no conjunto de sequncias
ancoradas, so realizados clculos para avaliao da estabilidade da possvel estrutura
em forma de grampo gerado pelo transcrito.
Para as demais classes, no existe uma
metodologia padro, sendo que variaes da
ferramenta BLAST so geralmente utilizadas.
Para a identificar siRNAs, por exemplo, podese empregar a ferramenta SiLoCo. Mas

bastante comum laboratrios que pesquisam


pequenos RNAs desenvolverem suas prprias
ferramentas.
J os programas de predio de alvos de
microRNAs e siRNAs podem ser baseadas em
ferramentas como o BLAST, procurando regies complementares ao pequeno RNA. O
problema que esta tcnica gera um nmero
muito grande de falsos-positivos. Com isso,
algumas ferramentas comearam a utilizar
outros aspectos envolvidos na interao entre
pequenos RNAs e transcritos alvos, tais como
caractersticas energticas, a presena da regio seed (em humanos), o pareamento perfeito entre 10-11 pares de base do microRNA
(vlido somente para PTGS, por clivagem) e a
conservao de microRNAs e transcritos alvo
em organismos diferentes.
Mesmo assumindo estas regras, existem muitas interaes entre microRNA e
transcrito alvo que so excludas, e muitas
falsas que so includas, fazendo como que
seja necessrio a validao experimental
desta interao. Especialmente para organismos modelo, existem bancos de dados prprios que disponibilizam, baseados em
ferramentas de predio, os possveis alvos
para um determinado miRNA. Um importante
banco de dados o microRNA.org, cujas predies foram realizadas pelo algoritmo
miRanda.

4. Projetos Genoma

estatsticos ou em conservao de sequncia. Compreendem detectores extrnsecos e intrnsecos.


Detectores de sinais: sistemas para delimitao
de regies codificantes baseados em caracteres funcionais de genes, como elementos
cannicos
necessrios

transcrio ou traduo.
N50: ndice associado qualidade de montagem
de um sequenciamento. Um valor de N50
igual a N significa que 50% dos reads esto montados em um contig de tamanho N
ou maior.
ORF: open reading frame ou fase aberta de leitura. Refere-se a toda sequncia nucleotdica delimitada por um cdon de incio e
um cdon de trmino de traduo.
Predio baseada em evidncia: identificao de
sequncias codificantes baseada em experimentos prvios, como transcriptomas.

Figura 9-4: Modelo simplificado da biognese


de microRNAs. A partir de um gene MIR, um
pr-miRNA transcrito e processado num Dbody, por uma enzima DICER, liberando o prmiRNA, o qual processado novamente por
uma enzima DICER, liberando a forma madura
do miRNA. Este reconhecido por uma
enzima argonauta e direcionado ao transcrito
alvo, induzindo o silenciamento gnico.

4.6. Conceitos-chave
Anotao funcional: conjunto de abordagens que
predizem a funo e classificam uma protena codificada por um genoma.
Contig: conjunto de segmentos de DNA com sobreposio de sequncia que, conjuntamente,
representam
uma
sequncia
consenso de DNA
Detectores de contedo: sistemas para delimitao de regies codificantes baseados na
classificao da sequncia em codificante
ou no codificantes, baseada em clculos

Predio ab initio: identificao de sequncias


codificantes baseada unicamente em clculos estatsticos.
Reads: resultado obtido do sequenciamento de
um determinado clone ou fragmento de
DNA/cDNA.
Sequenciamento por Shotgun: metodologia de
sequenciamento caracterizado por fragmentao aleatria de um grande segmento de DNA, determinao individual da
sequncia de cada um dos fragmentos e
agrupamento dos reads obtidos em
contigs.
Sinais transcricionais: sequncias conservadas
associadas ao processo de transcrio,
como por exemplo TATA box, Stios de clivagem e poliadenilao, etc.
Sinais traducionais: sequncias conservadas associadas ao processo de traduo, como a
sequncia de Kozak, cdon de incio de

4. Projetos Genoma

traduo, stio de ligao de ribossomo,


etc.
Transcriptoma: sequenciamento e avaliao geral de transcritos de uma clula/tecido
com o intuito de descrever os RNAs presentes naquele momento. Alm de trazer
informaes sobre a situao fisiolgica
daquele conjunto de clulas, permite
construir modelos para procura de genes
baseados em evidncia.

4.7. Leitura recomendada


GARBER, M. et al. Computational methods for
transcriptome
annotation
and
quantification
using
RNA-seq.
Nat.
Methods, 8, 469-477, 2011.
RICHARDSON, E. J.; WATSON, M. The automatic
annotation of prokaryotic genomes. Brief.
Bioinform., 14, 36-45, 2013.
SLEATOR, R. D. An overview of the current
status of eukaryotic prediction strategies.
Gene, 461, 1-10, 2010.
WILLIANSON, V. et al. Detecting miRNAs in
deep-sequencing
data:
a
software
performance comparison and evaluation.
Brief Bioinform., 14, 36-45, 2013.
YANDELL, M.; ENCE, D. A beginners guide to
eukaryotic genome annotation. Nat. Rev.
Genet., 13, 329-342, 2012.

5. Filogenia Molecular

Rodrigo Ligabue Braun


Dennis Maletich Junqueira
Hugo Verli

Estabelecimento de relaes evolutivas a partir de


sequncias de aminocidos ou nucleotdeos.

5.1. Introduo
5.2. Aplicaes
5.3. Representao de rvores
5.4. Distncia gentica
5.5. Inferncia filogentica
5.6. Abordagens quantitativas
5.7. Abordagens qualitativas
5.8. Confiabilidade
5.9. Interpretao de filogenias
5.10. Conceitos-chave
5.1. Introduo
Desde seus primrdios, a humanidade
se mostrou inclinada a organizar e classificar
o mundo sua volta com o objetivo de facilitar o entendimento e a comunicao. Em relao ao mundo natural, diferentes sistemas
foram empregados para compor mtodos de
organizao e classificar os organismos, utilizando critrios naturais ou artificiais.
Um dos sistemas de maior influncia no
perodo pr-Darwiniano foi a Escala Natural
de Plato. Neste sistema, do fogo ao ser humano, diferentes nveis eram organizados
maneira de uma escada. A ideia de ascenso

estava associada perfeio, representada


em sua forma plena pelo homem. O sistema
classificatrio de Lineu, por sua vez, se baseava em caractersticas visveis, arbitrariamente selecionadas para classificar os seres
vivos (por exemplo, nmero de patas ou de
ptalas), sendo o ser humano o organismo do
topo da cadeia. Sistemas como este so considerados sistemas artificiais, pois esto sujeitos tendncia de seu autor em considerar
um caractere em detrimento de outro(s),
conforme sua vontade ou necessidade. Entretanto, como o prprio Lineu reconheceu,
tais sistemas foram absolutamente necessrios para a fase inicial (descritiva) da biologia,
servindo de base para o sistema natural de
classificao e para as hipteses de similaridade que surgiriam a seguir.
Ao final do sculo XVIII e incio do sculo
XIX, surgem os sistemas naturais de classificao. Estes buscavam refletir sobre a ordem
natural dos seres vivos atravs de poucas
caractersticas intrnsecas, geralmente associadas forma. No entanto, com o objetivo de
tornar a classificao mais racional, tomaram
lugar debates sobre a real necessidade de
haver um sistema hierrquico de organizao
dos organismos. Opositores da ideia consideravam que a classificao era, muitas vezes,
inadequada e desnecessria, e que no deveria ser um fim em si mesma, seno um mtodo para o levantamento de novas perguntas
Biologia.
Em 1818, a introduo do conceito de
homologia por E.G. Saint-Hillaire causa uma
revoluo nas cincias biolgicas. Para ele e
seus colegas, partes homlogas correspondiam s partes de animais diferentes com
uma estrutura essencialmente semelhante,
mesmo com forma ou funo distintas. Por

5. Filogenia Molecular

exemplo, as asas de um morceWilli Hennig. Na proposta de


go, as nadadeiras de uma baleia e
Hennig (1950), organismos que
os braos de um macaco, seguncompartilhassem
caracterstido esta lgica, so considerados
cas derivadas (apomrficas)
rgos homlogos e podem serpoderiam ser considerados
vir como critrio para agrupar
descendentes do organismo
morcegos, baleias e macacos em
ancestral, na qual a caractersum mesmo grupo. Assim, a hotica em seu estado primitivo (ou
mologia serviria como critrio
plesiomrfico) passou para o
principal para uma classificao
estado derivado.
natural dos organismos.
Desde a origem dos sisteA primeira rvore filogentica
A partir da famosa publi- moderna (esboo de Darwin
mas de classificao at a Clacao de Darwin, A Origem das no manuscrito de A Origem
dstica,
os
mtodos
Espcies, em 1859, a classifica- das Espcies)
baseavam-se
essencialmente
o dos organismos passou a ser
no fentipo dos organismos, ou
no apenas natural, mas tambm a apresen- seja, em suas caractersticas fsicas claratar uma condio essencial de ancestralidade
mente discernveis. Entretanto, com o advencomum. Segundo este pensamento, os orga- to dos mtodos de sequenciamento, tanto
nismos so derivados uns dos outros, desde
protico quanto genmico, cada vez mais os
o surgimento da vida na terra. Darwin repre- dados moleculares foram se tornando imsentou este padro atravs de um esquema
portantes nas anlises evolutivas de ancesde ramificao, onde os galhos representam
tralidade. Neste sentido, a cincia passa de
o tempo entre o organismo ancestral e o no- um ponto de vista macroscpico a um ponto
vo organismo, e os ns representam os pr- de vista molecular de anlise.
prios organismos. Mais tarde, esta viria a ser
O mtodo de sequenciamento de amia primeira rvore filogentica utilizada para
nocidos, iniciado por Sanger em 1954, abriu
representar processos evolutivos.
caminho para que protenas de uma mesma
Com influncia direta da teoria evolutiva
classe, em diferentes organismos, pudessem
de Darwin (e colaboraes de Wallace e
ser comparadas quanto s suas origens evoLamarck), desenvolve-se a Taxonomia Evolu- lutivas. Da mesma forma, ao decodificar a
tiva. Este sistema de classificao incorporou
primeira longa sequncia de DNA, em 1977,
o vetor tempo (carter temporal normal- Sanger deu incio exploso do sequenciamente inferido por meio de fsseis) e, alm
mento de cidos nucleicos, permitindo a
disto, adicionou uma quantificao da diver- comparao de genes em larga escala. imgncia estrutural entre os grupos (a chamada
portante destacar que as sequncias molecudistncia patrstica). J em meados do sculo
lares podem tanto ser comparadas entre si,
XX, inicia-se a Fentica (taxonomia numrica
buscando conhecer a histria evolutiva de um
ou neodansoniana). Esta escola buscava in- gene ou protena (por exemplo, relaes entre
cluir na classificao dos organismos o mxi- hemoglobinas de diferentes mamferos),
mo
possvel
de
caractersticas, quanto podem ser associadas a outros dados
atribuindo-lhes o mesmo peso na tentativa de
na reconstruo da histria evolutiva de oreliminar qualquer subjetividade ou arbitrarie- ganismos (por exemplo, associando as reladade. Seu impacto, entretanto, foi limitado
es obtidas por comparao de DNA
devido s dificuldades em traduzir os ndices
ribossomal de aves com datao de fsseis,
(valores) obtidos em informaes relevantes
buscando estabelecer relaes de ancestralido ponto de vista biolgico (como a separa- dade).
o de espcies, por exemplo). Na mesma
No entanto, ao lidar com sequncias
poca, surge a Cladstica (ou sistemtica filo- moleculares, diferentes questes podem
gentica), liderada pelo entomlogo alemo
surgir. Por exemplo, o conceito de gene di-

5. Filogenia Molecular

nmico e mudou muito desde sua primeira


definio. Alm disso, genes podem sofrer diferentes processos evolutivos que alteram
sua estrutura e/ou funo, como mutaes e
rearranjos, ou ainda duplicaes e perdas de
funo. Esses fatores fazem com que a relao 1:1 entre gene e organismo seja perdida.
Por exemplo, uma mesma leguminosa pode
possuir duas cpias do gene para a protena
leghemoglobina (genes parlogos). Alm disso, muitas sequncias do genoma no chegam etapa de traduo, podendo conter
elementos regulatrios ou transponveis. Tais
variaes aumentam a complexidade e dificultam a interpretao das relaes de descendncia.

5.2. Aplicaes
Ao classificarmos os organismos, atribumo-lhes uma histria evolutiva. Essa histria,
entretanto,

frequentemente
desconhecida. Sendo assim, necessrio inferir a sequncia de mudanas que levaram
ao surgimento de um novo organismo ou protena. Contudo, existe apenas uma histria
verdadeira, que talvez jamais seja conhecida.
Assim, ao empregarmos as tcnicas filogenticas, o objetivo coletar e analisar dados capazes de fornecer a melhor estimativa para
chegarmos filogenia verdadeira. De certa
forma, a obteno de filogenias lembra a atuao de um historiador. Baseando-se em dados disponveis no presente (tais como
organismos vivos, fsseis e sequncias moleculares), tenta-se obter uma imagem de como teria sido o passado.
Quando analisamos sequncias de nucleotdeos ou aminocidos para inferir uma filogenia, utilizamos informaes derivadas das
taxas evolutivas para determinar a sequncia
de eventos que levaram ao surgimento de novos organismos. A taxa de evoluo molecular refere-se velocidade na qual os
organismos acumulam diferenas genticas
ao longo do tempo. Essa taxa frequentemente definida pelo nmero de substituies
por stio (ou posio no alinhamento de sequncias) por unidade de tempo e, portanto,

so usadas para descrever a dinmica das


mudanas em uma linhagem ao longo de vrias geraes.
As taxas evolutivas so empregadas
quando se buscam estimativas temporais para datao de eventos evolutivos. Normalmente, se assume que as mudanas nas
sequncias se acumulam a uma taxa mais ou
menos constante ao longo do tempo. Esse
conceito chamado de Hiptese do Relgio
Molecular. Entretanto, conhecido que as taxas evolutivas so dependentes de vrios fatores, tais como o tempo de gerao, o
tamanho da populao e do prprio metabolismo, o que normalmente viola o modelo estrito de relgio molecular. Com base nestas
informaes, diversos modelos foram propostos para lidar com desvios no comportamento temporal de diferentes linhagens
moleculares e, hoje em dia, so referidos como relgios moleculares relaxados.
Atualmente, a inferncia filogentica
um campo de pesquisa parte das outras cincias. Tornou-se uma ferramenta complementar para diversas reas e indispensvel
para outras. Apesar de ter sido idealizada para desvendar apenas as relaes evolutivas
entre organismos, atualmente a filogentica
molecular aplicada a problemas muito mais
diversos que este. Com o advento do relgio
molecular estrito, foi possvel aplicar a estimativa de tempo s filogenias e datar surgimento de espcies, disseminao de
organismos e, at mesmo, entender grandes
eventos biolgicos que ocorreram no passado. Com a abordagem relaxada do relgio
molecular, iniciou-se a utilizao de modelos
de dinmica populacional que comportam os
eventos coletivos de grupos especficos. Ainda, com o avano da capacidade de processamento computacional, vem sendo possvel
criar algoritmos capazes de reconstruir genomas ancestrais. Tambm a partir da filogentica molecular desenvolveu-se o campo da
filogeografia. Segundo esta rea do conhecimento, as filogenias podem ser utilizadas para verificar a distribuio geogrfica de
indivduos. Neste contexto, outras tcnicas,
alm das filogenias, so incorporadas s an-

5. Filogenia Molecular

lises, incluindo a estruturao de genes, as


anlises de redes e as anlises de hapltipos.
A filogenia molecular busca inferir a histria evolutiva de organismos ou outras entidades biolgicas (como protenas e genes) a
partir de sequncias de cidos nucleicos ou
aminocidos. Ao investigar as relaes entre
diferentes espcies, anlises de genes ribossomais so comumente empregadas, pois independentemente da espcie ou do
organismo, os indivduos possuiro genes codificantes de RNA ribossmico. Em contrapartida, quando se busca compreender as
relaes entre diferentes enzimas de uma
mesma famlia necessrio utilizar sequncias de aminocidos, e no de nucleotdeos. Em
determinadas situaes, o genoma completo
pode ainda ser utilizado para inferir a filogenia. Este o caso de diversos vrus, especialmente quando se busca compreender a
origem de novas variantes ou a disseminao
de uma cepa. O alvo de estudo (isto , sequncia de nucleotdeos ou aminocidos, gene
ou genoma) depende, exclusivamente, do objetivo da anlise e um dos principais fatores
a ser definido primariamente pelo pesquisador.
Atualmente, as filogenias funcionam como importantes ferramentas para diferentes
reas do conhecimento, incluindo as reas de
evoluo, gentica, epidemiologia, microbiologia, virologia, parasitologia, botnica e zoologia, dentre outras. Adicionalmente, de
maneira indita, a inferncia filogentica foi
utilizada como evidncia para a resoluo de
crime e principal prova durante um impasse
internacional envolvendo diferentes pases.
Em resumo, dependendo do objetivo, os mtodos de construo de filogenias (inferncia
filogentica) so a base para diversas reas e
importantes objetos para o avano computacional na anlise de dados biolgicos.

quncias de nucleotdeos ou aminocidos. As


hipteses sobre a histria evolutiva so o resultado dos estudos filogenticos e se chamam Filogenia.
As filogenias ou rvores filogenticas
representam o contexto evolutivo dos organismos de forma grfica. So formadas por
ns (pontos) ligados por diversos ramos (linhas) (Figura 1-5). Os ns terminais, mais externos na filogenia, identificam os indivduos,
genes ou protenas que foram amostrados e
includos na anlise filogentica. Geralmente
representam o alvo de estudo do pesquisador
e esto ligados aos ns mais internos na filogenia atravs de traos horizontais, chamados de ramos terminais (Figura 1-5).
Os ns internos, pelo contrrio, representam indivduos no amostrados. Eles
identificam uma inferncia evolutiva do ancestral comum mais recente dos ramos derivados daquele n e se ligam a ns cada vez
mais internos, atravs dos ramos internos.
Por exemplo, na Figura 1-5, os grupos de ns
terminais representados em verde possuem
como ancestral comum o n laranja, mais interno, enquanto os ns terminais azuis possuem como ancestral comum o n lils. Da
mesma forma, o n vermelho a representao do indivduo, gene ou protena mais ancestral da filogenia que, atravs de processos
evolutivos, deu origem aos ns laranja e lils.
O tamanho dos ramos horizontais pode
ter diferentes significados, dependendo do
mtodo para inferncia da filogenia, conforme

5.3. Representao de rvores


A Filogentica (termo obtido por unio
dos termos gregos para tribo e origem) a
cincia que busca reconstruir a histria evolutiva dos organismos, levando em conta as se-

Figura 1-5: Nomenclatura associada a rvores


filogenticas.

5. Filogenia Molecular

veremos a seguir. No entanto, os ramos representados na vertical (Figura 1-5) no expressam qualquer significado, e seu tamanho
no altera em nada a idia filogentica. Como
a anlise pode ser feita em diferentes nveis,
utilizando dados moleculares de genes, protenas, indivduos, espcies, gneros, famlias,
ou qualquer outro taxon, os ns terminais so
amplamente denominados OTUs (operational
taxonomical units), ou unidades taxonmicas
operacionais (tambm chamados de folhas,
Figura 2-5). A ordem e disposio exata das
OTUs em uma filogenia denominada topologia.

Partindo do princpio de derivao evolutiva, onde um organismo d origem a outro


(ou outros), podemos reconhecer dois principais processos na representao de filogenias: derivao dicotmica e derivao
politmica. No primeiro caso, cada n interno
d origem a apenas dois ramos. Para espcies, por exemplo, a ramificao de um ancestral comum em dois ramos evidencia o
processo de especiao. No segundo caso,
trs ou mais ramos surgem de um mesmo n
interno.

Figura 2-5: rvore dicotmica dos grupos de


vertebrados. As OTUs (ns terminais) esto
representadas
por
cones
(peixes
pulmonados, anfbios, mamferos, tartarugas,
lagartos e serpentes, crocodilos e aves).
Observe que o grupo dos rpteis
parafiltico (destacado em vermelho). O
grupo seria considerado monofiltico se
inclusse as aves.

Assim, ao agruparmos as OTUs segundo a sua ancestralidade, podemos reconhecer


diferentes padres: grupos monofilticos, parafilticos e polifilticos (Figura 2-5). Os grupos monofilticos incluem todos os membros
descendentes de um nico ancestral, assim
como o prprio ancestral. Na Figura 2-5, por
exemplo, as aves e os crocodilos so considerados um grupo monofiltico, pois compartilham o mesmo ancestral comum. Da
mesma forma, as aves, os crocodilos e os lagartos tambm podem ser considerados um
grupo monofiltico, pois se originaram de um
mesmo ancestral. A anlise das relaes entre os grupos, neste caso, depender do objetivo do pesquisador. Adicionalmente, os
grupos monofilticos podem ser denominados clados por agruparem duas ou mais sequncias que so descendentes de um
mesmo ancestral (Figura 3-5a e b). A organizao da topologia em que um clado est
contido em outro comumente chamada de
clados aninhados ou clados embutidos (Figura 3-5c).
Os grupos parafilticos, por sua vez, se

Alm da forma grfica, as rvores filogenticas podem tambm ser descritas na forma textual. Em vez
do diagrama com linhas e pontos, as relaes evolutivas so representadas por notaes com parnteses.
A estrutura da rvore da Figura 2-5, por exemplo, pode ser descrita linearmente como (Peixes pulmonados,
(Anfbios, (Mamferos, (Tartarugas, (Lagartos, (Crocodilos, Aves)))))) ou (Peixes pulmonados + (Anfbios +
(Mamferos + (Tartarugas + (Lagartos + (Crocodilos +
Aves)))))). Estas notaes foram desenvolvidas para
utilizao computacional da informao filogentica.
Algoritmos e programas que realizam anlises moleculares necessitam da informao na forma textual e,
quando necessrio, fornecem a sada para o usurio na
forma grfica.

Apesar de rvores dicotmicas serem mais comuns


e normalmente esperadas, em alguns casos, como a
disperso explosiva do HIV e do HCV, rvores politmicas representam melhor o processo evolutivo. Casos
como estes, onde um ancestral comum origina simultaneamente vrias linhagens descendentes, so chamadas de politomias verdadeiras (hard polytomies).
Por outro lado, as politomias falsas (soft polytomies)
so casos onde a topologia no foi bem resolvida por
no haver certeza do padro de ancestralidade, tornando mltipla uma diviso que se esperaria ser formada por uma srie de divises dicotmicas.

5. Filogenia Molecular

Figura 3-5: (a) Exemplos de clados


destacados em verde. (b) Exemplos de
organizaes
da
topologia
que
no
caracterizam a existncia de um clado,
destacados em laranja. (c) Diferentes nveis
de clados que podem estar embutidos em um
clado de maior ordem. Observe que os clados
de diferentes ordens, quando embutidos,
formam clados monofilticos.
originam de um nico ancestral, mas nem todos os organismos derivados deste ancestral
fazem parte do grupo. Na Figura 2-5, os rpteis so um grupo formado pelas tartarugas,
lagartos e crocodilos, e seu ancestral comum
est na base do ramo que d origem s tartarugas. No entanto, este ancestral comum
tambm deu origem s aves e, por isso, os
rpteis no podem ser considerados um grupo monofiltico, mas um grupo parafiltico.
Finalmente, os grupos polifilticos provm de dois ou mais ancestrais diferentes.
Nestas relaes se encontram OTUs que
apresentam caractersticas comuns, mas que
possuem diferentes ancestrais comuns. Por
exemplo, a condio endotrmica (animais
que mantm a sua temperatura corporal
constante) apenas apresentada por aves e
mamferos. Por este critrio, poderamos
agrupar estes dois grandes grupos sem, no
entanto, compartilharem o mesmo ancestral
comum direto (Figura 2-5). A organizao

destes grupos permite descrever caractersticas resultantes de convergncia evolutiva,


pois uma mesma caracterstica se desenvolveu independentemente em diferentes grupos.
Sabendo das relaes evolutivas entre
os txons e da existncia de ancestrais comuns, as rvores podem ser representadas
de maneira a evidenciar o ancestral mais antigo (rvore com raiz ou enraizada), ou apenas
destacar as relaes evolutivas entre os txons, sem destacar qual a OTU mais ancestral (rvore sem raiz ou no enraizada)
(Figura 4-5).
A raiz da filogenia a espcie ou sequncia ancestral a todo o grupo que est sob
anlise. Quando presente, a raiz aplica uma
direo temporal rvore, permitindo observar o sentido das mudanas evolutivas da raiz
(mais antigo) aos ramos terminais (mais modernos). Uma rvore no enraizada, pelo
contrrio, reflete apenas a topologia estabelecida entre as OTUs, sem indicar o ancestral
do grupo. rvores no enraizadas podem ser
confusas, e sua interpretao requer mais
cuidado devido facilidade em cometer erros
de anlise (Figura 4-5).

Figura 4-5: Comparao de rvores (a)


enraizadas e (b) no enraizadas. No primeiro
caso, possvel definir a direo das
mudanas evolutivas, devido presena do
vetor tempo dado pela presena da raiz.

5. Filogenia Molecular

A identificao de uma raiz nas filogenias geralmente requer a incluso de uma ou


diversas OTUs que representem grupos externos. Os grupos externos devem ser ancestrais comuns das OTUs em estudo, j
conhecidos, que indicaro caracteres presentes em organismos mais prximos aos ancestrais, provendo um direcionamento para a
interpretao dos processos evolutivos. Para
o caso do estudo de HIV, por exemplo, comum que os vrus da imunodeficincia de smios (SIV) sejam utilizados como grupo
externo nas filogenias, pois sabidamente estes vrus deram origem ao HIV.
A adio de grupos externos aumenta o nmero de
topologias diferentes que uma filogenia pode assumir.
O nmero de rvores possveis varia com o nmero de
OTUs e com a presena ou ausncia de raiz. Para mais
de duas OTUs, a quantidade de possveis rvores com
raiz sempre maior que o nmero de rvores sem raiz.
A possibilidade de inferncia de diferentes topologias
para os mesmos dados moleculares ressalta a extrema variabilidade de cenrios possveis na busca do
verdadeiro evento evolutivo. importante tambm
ressaltar que, assim como a complexidade, o tempo
computacional envolvido na construo das filogenias
aumenta exponencialmente com o aumento de OTUs.

Em relao topologia das rvores, a


inverso de ramos derivados de um mesmo
n no altera a relao evolutiva apresentada
pela rvore (Figura 5-5). Nesse sentido, a rvore filogentica pode ser comparada a um
mbile: cada pea suspensa livre para girar
em seu eixo, ficando mais prxima ou mais
distante espacialmente das outras peas, sem
alterar a estrutura geral do objeto. Independentemente da posio destas OTUs, aps o
giro dos ramos, o mesmo ancestral comum
ser identificado e, por isso, no h qualquer
alterao no significado da filogenia.
Quanto nomenclatura de rvores filogenticas, diferentes termos so empregados, tais como cladogramas, filogramas e
dendrogramas (Figura 6-5). Um cladograma
uma rvore simples, que retrata as relaes
entre os ns terminais. Pelo contrrio, uma
rvore aditiva (rvore mtrica ou filograma)
apresenta informaes adicionais, pois o
comprimento dos ramos proporcional a al-

Figura 5-5: A poro terminal da rvore dos


vertebrados (representada na Figura 2-5) foi
rearranjada de diferentes maneiras (as setas
indicam o ponto de rotao). Conforme a
analogia de um mbile, todas elas
representam a mesma relao evolutiva.
gum atributo, como quantidade de mudana.
Por sua vez, uma rvore ultramtrica (ou
dendrograma) constitui um tipo especial de
filogenia devido aos seus ramos serem equidistantes da raiz. Os dendrogramas podem,
desta forma, retratar o tempo evolutivo.
importante ressaltar que alguns autores denominam qualquer filogenia como cladograma, o que pode ser confuso.

5. Filogenia Molecular

Figura 6-5: Nomenclatura de rvores


filogenticas. Observe que os cladogramas a
e b so equivalentes, mas o filograma c e o
dendrograma d no o so.
O tipo de dado molecular a ser empregado nas anlises tambm deve ser levado
em conta. Sequncias de aminocidos so
mais conservadas que sequncias de cidos
nucleotdeos em decorrncia da degenerao
do cdigo gentico. So, portanto, teis em
anlises de produtos de genes ou espcies
que visam entender fenmenos que aconteceram h amplos perodos de tempo evolutivo. Alm disso, por formarem um conjunto de
pelo menos 20 membros (contra quatro
membros presentes em DNA ou RNA), sua
variao pode ser mais significativa.
A despeito desta diferena no volume
de informao, com a popularizao do sequenciamento de cidos nucleicos, especialmente DNA, sequncias de nucleotdeos
passaram a ser as mais empregadas em estudos de filogenia. cidos nucleicos so mais
propensos a alteraes, podendo sofrer transies (quando ocorre a troca de uma purina
por outra purina, ou de uma pirimidina por
outra pirimidina) e transverses (quando
ocorre a troca de uma purina por uma pirimidina ou vice-versa), alm de inseres ou delees de pares de base que interferem no
quadro de leitura. Essa variabilidade pode ser
interessante no estudo de eventos mais re-

centes do ponto de vista evolutivo.


preciso, assim, conhecer o caso de
estudo e o tipo de pergunta que se busca
responder com cada filogenia. Ao lidarmos
com genes de diferentes espcies, por exemplo, importante saber da existncia e disposio de ntrons, da necessidade de lidar com
o gene inteiro ou apenas parte dele ou da necessidade de incluir regies regulatrias para
a anlise.
Um exemplo recente da aplicao de
anlises filogenticas est no caso da identificao da origem da linhagem do vrus influenza H1N1, envolvido no surto de gripe de
2009. Para tanto, Smith e colaboradores
empregaram genomas completos de influenza isolados de diferentes localidades e hospedeiros, e construram rvores filogenticas
para cada uma das oito regies do genoma
buscando identificar a fonte de cada rearranjo
presente no vrus envolvido no surto. Por
meio das rvores obtidas, foi possvel rastrear a contribuio gentica dos vrus isolados
de aves, sunos e humanos (Figura 7-5). Assim, o emprego da filogenia neste trabalho
permitiu no apenas caracterizar o vrus do
ponto de vista molecular, como tambm reconstruir a histria evolutiva do agente etiolgico de uma pandemia.

5.4. Distncia gentica


A formulao de modelos evolutivos
uma maneira de descrever matematicamente
os processos que moldam as mudanas nas
sequncias de nucleotdeos ou aminocidos
dos organismos ao longo do tempo. Do ponto
de vista molecular, estas mudanas podem
ser resultado de diferentes foras evolutivas
que reorganizam a sequncia e a prpria estrutura dos genes.
Um modelo geral para descrever de
maneira eficaz estas alteraes evolutivas
deveria considerar os processos de substituio, insero, deleo e duplicao, bem como ocorrncia de transposio ou at mesmo
de retrotransposio. Contudo, apesar de estes fenmenos serem claros agentes na modelagem dos genomas, matematicamente

5. Filogenia Molecular

Figura 7-5: Representao esquemtica das recombinaes que originaram o vrus Influenza
envolvido no surto de gripe suna em 2009. Diferentes linhas representam diferentes regies
do genoma do vrus. Observe a interao entre vrus de origens aviria, suna e humana em
eventos que datam, pelo menos, desde 1990. Os eventos de recombinao e as anlises
temporais foram baseadas em anlises filogenticas (Adaptado de Smith e colaboradores,
Origins and evolutionary genomics of the 2009 swine-origin H1N1 influenza A epidemic. Nature,
459, 1122-1125, 2009).
ainda no factvel coloc-los como componentes de modelos que expliquem inteiramente o processo evolutivo.
Assim, devido grande relevncia dos
mecanismos de substituio para a evoluo
dos genomas em diferentes organismos e da
disponibilidade de modelos de probabilidade
estatstica que expliquem este processo, as
trocas tm sido o principal alvo para o desenvolvimento de modelos matemticos e
compem a base de diversos mtodos de inferncia filogentica.
Aps a divergncia de duas sequncias a
partir de seu ancestral comum, de forma dicotmica, fenmenos evolutivos garantiro

as mudanas nas sequncias de nucleotdeos


de forma independente (Figura 8-5). Uma
medida tradicional para expressar o nmero
de substituies de nucleotdeos que se acumularam nas sequncias desde a divergncia
chamada de distncia gentica. Esta informao uma medida quantitativa da dissimilaridade gentica entre diferentes OTUs, e
permite estabelecer uma estimativa relativa
da quantidade de mudanas que ocorreram
desde a divergncia.
A distncia tambm um importante
conceito na construo de filogenias, pois est
diretamente relacionada com a relao evolutiva entre duas OTUs: uma menor distncia

5. Filogenia Molecular

Figura 8-5: Aps a divergncia de dois


organismos a partir de seu ancestral comum,
seus genomas acumularo diferenas
independentemente. (a) A medida da
dissimilaridade
gentica
entre
duas
sequncias homlogas ao longo do tempo
chamada de distncia gentica, e a relao
temporal entre duas sequncias divergentes
dada por 2t. (b) A ocorrncia de mltiplas
substituies ao longo do tempo na
divergncia de sequncias homlogas pode
mascarar as verdadeiras diferenas entre as
sequncias. Apesar de ocorrerem dois
eventos de mutao na sequncia derivada 1,
apenas o ltimo evento observado, pois
ocorreram no mesmo stio. Os quadrados em
vermelho evidenciam as diferenas em
relao s sequncias ancestrais.
gentica indica uma relao evolutiva mais
prxima, enquanto que um valor maior sugere
uma derivao evolutiva proporcionalmente
maior. Tipicamente, a informao da distncia
gentica incorporada inferncia filogentica na definio do tamanho dos ramos. No
entanto, alm desta informao necessria
uma escala de distncia que especifique o nmero de mudanas que ocorreram ao longo
do ramo.
O mtodo mais simplista para avaliar a
distncia gentica entre duas sequncias
conhecido como distncia p. Este mtodo
baseado na contagem das diferenas dividida
pelo nmero total de stios do alinhamento.
Se oito stios so diferentes entre duas se-

quncias homlogas com tamanho de 100pb,


a distncia p obtida ser 0,08. Este resultado
reflete a porcentagem de stios diferentes em
relao ao tamanho total da sequncia, e geralmente utilizado na especificao da escala de distncia das filogenias (Figura 8-5).
A variao gentica em um determinado
stio pode decorrer de diferentes processos e
resultar em mais de uma substituio. As
mltiplas substituies, ou multiple hits,
ocorrem naturalmente e podem subestimar o
verdadeiro nmero de mudanas no clculo
da distncia p, j que escondem as diversas
trocas de nucleotdeos ou aminocidos. Na
Figura 8-5b, por exemplo, apesar de ocorrerem duas substituies no mesmo stio ao
longo de um dos ramos, aparentemente a sequncia derivada parece ter sofrido somente
um evento evolutivo. Sendo assim, a relao
entre as diferenas nas sequncias e o tempo
decorrido da divergncia nem sempre linear,
especialmente devido ocorrncia das mltiplas substituies em um mesmo stio.
Devido ineficcia da distncia p em
efetivamente estimar a distncia gentica entre duas sequncias, diferentes modelos probabilsticos
foram
desenvolvidos
para
descrever as mudanas entre os nucleotdeos
e corrigir a distncia observada. Tais modelos
implicam no uso de diversas suposies simples a respeito das probabilidades de substituio de um nucleotdeo por outro, mas
garantem uma aproximao da realidade
quando sustentadas por uma taxa de mutao fidedigna.
Estas tcnicas de correo so comumente conhecidas por modelos de substituio (ou matrizes de substituio), e garantem
a converso da distncia observada em medidas de distncias evolutivas prximas da realidade, permitindo reconstruir a histria
evolutiva dos organismos.
Diversos modelos de substituio foram propostos
para explicar as trocas de nucleotdeos em sequncias
de DNA, reduzindo a complexidade do processo evolutivo a um padro de mudana simples que consegue
ser explicado atravs de poucos parmetros. Todos
estes modelos, no entanto, de alguma forma so interrelacionados, diferindo principalmente no nmero de

5. Filogenia Molecular

parmetros utilizados para explicar estas substituies. Devido influncia do modelo de substituio na
inferncia de filogenias, a escolha de um mtodo particular deve ser justificada. A estratgia mais simples
utilizar os modelos que comportam o maior nmero de
variveis, embora a complexidade no esteja diretamente relacionada melhor qualidade de anlise das
sequncias. Com o aumento de parmetros, o sistema
se torna mais complexo, aumentando a probabilidade
de erro e exigindo um maior processamento computacional. Assim, necessrio verificar os alinhamentos
caso-a-caso para atribuir o melhor modelo de substituio na inferncia filogentica.
A substituio de nucleotdeos ou aminocidos em
uma sequncia usualmente modelada sob a forma de
um processo quase aleatrio. Devido ao carter dinmico desta aleatoriedade, necessrio enquadrar as
substituies, seguindo certos pressupostos. Assim, as
substituies so descritas por um processo de Markov homogneo, onde a probabilidade de substituio
de um nucleotdeo X pelo Y no depende do estado
prvio do nucleotdeo X.
As probabilidades de mudana de um nucleotdeo
para outro (ou de um aminocido para outro) so especificadas atravs de uma matriz 4x4 das taxas de
substituio (ou 20x20 no caso dos aminocidos) que
especificam com qual taxa cada um dos nucleotdeos
ou aminocidos poder mudar para outro. necessrio
assumir tambm que os eventos de substituio sejam
independentes ao longo dos stios das sequncias, e
ainda, possuam um carter reversvel. Alm disso, devem especificar a frequncia estacionria dos nucleotdeos, ou frequncia de equilbrio, onde ser atribuda a
provvel proporo de cada um dos caracteres na sequncia.
Para sequncias de nucleotdeos, o modelo de
substituio mais simples foi proposto por Jukes e
Cantor em 1969 (JC69). Segundo este modelo, as mudanas entre os nucleotdeos podem ocorrer com a
mesma probabilidade, assumindo uma frequncia estacionria igual para todos (cada nucleotdeo tem 25%
de chance de ocorrer na sequncia).
Com o advento da publicao das primeiras sequncias de genoma mitocondrial, na dcada de 1980,
se observou que as transies eram muito mais comuns que as transverses. Devido uniformidade do
mtodo proposto por Jukes e Cantor, foi necessrio
criar um modelo que acomodasse essas diferenas.
Assim, o modelo proposto por Kimura (K80 ou K2P)

cria as variveis e para representar, respectivamente, as taxas de transio e de transverso. Apesar


da incluso de dois parmetros, as frequncias de
equilbrio se mantm constantes em para cada nucleotdeo. Em 1981, Kimura adiciona um terceiro parmetro () ao modelo j proposto, passando a ser
identificado como K3P. A atualizao do modelo permitiu dividir as taxas de transverso em duas variveis.
Alguns genomas apresentam uma grande quantidade de guaninas e citosinas em relao a timinas e
adeninas. Se algumas bases so mais frequentes que
outras, ser esperado que algumas substituies
ocorram com mais frequncia que outras. O modelo
criado por Felseinstein (F81) acomoda essas observaes e permite que as propores individuais de cada
nucleotdeo (frequncia estacionria) sejam diferentes
de . importante ressaltar que este modelo considerar a mesma proporo de bases em todas as sequncias envolvidas no alinhamento. Se diferentes
sequncias possuem diferente composio de bases, a
pressuposio principal do modelo ser violada.
O modelo HKY85, proposto por Hasegawa, Kishino
e Yano, essencialmente mistura os modelos K2P e F81.
Alm de supor que a frequncia das bases varivel,
este modelo permite que transies e transverses
ocorram com taxas diferentes.
Posteriormente, o modelo GTR (generalised timereversible), o mais complexo dos modelos aqui apresentados, foi desenvolvido a partir do HKY85 com o intuito de acomodar diferentes taxas de substituio e
diferentes frequncias de bases. Este modelo requer
seis parmetros para taxa de substituio e quatro parmetros para a frequncia das bases, misturando todos os modelos aqui descritos.
Atualmente, alm destes mais de 200 modelos de
substituio podem ser aplicados a alinhamentos de
nucleotdeos. Alguns programas, como Modeltest e
Jmodeltest, so capazes de selecionar o modelo de
substituio que melhor se ajusta a um dado alinhamento.
Uma importante extenso desses modelos de
substituio incorpora a possibilidade de variao nas
taxas evolutivas entre os stios, permitindo ao modelo
mais realismo. Assim, para cada stio no DNA ser atribuda uma probabilidade de evoluo a uma taxa contida em um intervalo discreto de probabilidades. O
mtodo que garante a heterogeneidade de taxas evolutivas modelado atravs de uma distribuio gama
(), que considera um nmero especfico de taxas de

5. Filogenia Molecular

evoluo para os stios do DNA.


A aplicabilidade deste modelo nas inferncias filogenticas facilitada pela simplicidade do mtodo, j
que apenas um nico parmetro () controla a forma
da distribuio gama. Quando < 1, existe um grande
nmero de taxas de evoluo entre os stios das sequncias em anlise, ou seja, quanto maior , menor a
heterogeneidade. Algumas vezes, uma proporo de
stios invariveis (I), no qual uma determinada proporo de stios assumida como incapaz de sofrer substituio, pode tambm ser usada para modelar a
heterogeneidade entre os stios.
Ao contrrio dos modelos de substituio de nucleotdeos, os modelos que explicam as trocas de aminocidos so tradicionalmente empricos. A partir da
anlise de alinhamentos de protenas com identidade
mnima de 85% Dayhoff, em 1970, desenvolveu uma
srie de matrizes de probabilidade que explicavam as
mudanas de aminocidos ao longo do tempo.
As matrizes PAM, como ficaram conhecidas, correspondem a modelos de evoluo nos quais os aminocidos
so
substitudos
aleatoriamente
e
independentemente, de acordo com uma probabilidade
predefinida que depende do prprio aminocido.
Em 1992, um novo modelo de substituio de aminocidos criado por Henikoff e Henikoff. A anlise de
sequncias de protenas distantes evolutivamente,
possibilitada pelo modelo de Henikoff-Henikoff, estabeleceu as bases para a criao das matrizes BLOSUM.
As matrizes desta srie foram identificadas por nmeros (por exemplo, BLOSUM62) que se referem porcentagem mnima de identidade dos blocos dos
aminocidos utilizados para construir o alinhamento.
Matrizes similares, como GONNET e JTT, surgiram na
mesma poca.
Em 1996, foi proposto um modelo de substituio
especfico para protenas codificadas pelo DNA mitocondrial, onde foi observado desvio de transies entre
aminocidos em relao s protenas codificadas pelo
material gentico nuclear. Essa matriz, criada por
Adachi e Hasegawa, foi chamada de mtREV.
Finalmente, em 2001, Whelan e Goldman propem
a matriz WAG, baseada em combinao e ampliao de
vrios modelos de substituio anteriores. Tal matriz
considerada superior s suas antecessoras para descrever filogenias de protenas globulares.

5.5. Inferncia filogentica


A reconstruo filogentica, ou seja, a
reconstruo da histria evolutiva de organismos, um complexo processo que envolve
uma srie de etapas. O alinhamento, alm de
ser o primeiro passo, um importante ponto
para a inferncia de filogenias (ver captulo 3).
Um alinhamento preciso, alm de garantir
maior confiabilidade nas anlises posteriores,
requerido por todos os mtodos de inferncia filogentica para construo da rvore.
Depois que o alinhamento foi proposto,
diversos mtodos podem ser usados para
estimar a filogenia das sequncias estudadas.
Podemos dividir estes mtodos em dois principais grupos: mtodos quantitativos e mtodos qualitativos (Tabela 1-5). Estes grupos
diferem na forma como os dados so tratados, refletindo diretamente como os dados do
alinhamento sero inicialmente processados.
Os mtodos quantitativos se baseiam na
quantidade de diferenas entre as sequncias
do alinhamento para calcular uma rvore final. J os mtodos qualitativos constroem diversas filogenias que so classificadas
seguindo uma determinada qualidade (critrio). A filogenia que obtiver o maior valor associado tal qualidade ser a filogenia
resultante.
Os mtodos quantitativos compreendem os mtodos de distncia. Estes mtodos
convertem o alinhamento em matrizes de
distncia par-a-par para todas as sequncias
includas. Dentro destes algoritmos destacam-se dois mtodos principais: UPGMA e
aproximao dos vizinhos. Devido grande
eficincia computacional, estes mtodos geralmente so utilizados para construo de
uma filogenia inicial, que posteriormente
submetida a algum mtodo do grupo qualitativo. Como principal ponto negativo, estes
mtodos apresentam apenas uma filogenia
como resultado final (ver adiante).
Idealmente, todas as possveis rvores
para um dado alinhamento deveriam ser analisadas para garantir a escolha da melhor filogenia. Para isso, necessrio atribuir certos
parmetros que avaliem, dentre todas as r-

5. Filogenia Molecular

Tabela 1-5: Comparao entre os tipos de mtodos para inferncia de filogenias.


Tipo

Mtodo
UPGMA

Mtodos
Quantitativos

Busca a rvore com a menor


soma total de ramos

Aproximao dos vizinhos

Mxima Parcimnia

Mtodos
Qualitativos

Princpio
Agrupa sequencialmente as OTUs com
menor distncia evolutiva entre si

Programa
Geneious
MEGA
MEGA
Geneious
HyPhy

PAUP
Busca a filogenia com menor nmero de
MEGA
eventos evolutivos
Mesquite

PAUP
Busca a rvore com o valor de maior
Mxima Verossimilhana verossimilhana entre todas as filogenias PAML
phyML
construdas
MEGA
Estatstica Bayesiana

Amostra um nmero representativo de Mr. Bayes


filogenias a partir do espao amostral total BEAST
BAMBE
de rvores e busca a mais provvel

vores, aquela que explica as relaes evolutivas de forma mais precisa.


Assim, os mtodos qualitativos envolvem algoritmos que atribuem um critrio de
otimizao para escolher a melhor filogenia.
Nestes mtodos, diversas filogenias so
construdas e, seguindo um critrio definido
pelo algoritmo utilizado, uma filogenia ser
identificada como a que melhor explica a relao evolutiva entre os OTUs. O critrio
utilizado para atribuir um valor a cada filogenia e orden-las segundo este valor.
Estes mtodos tm a vantagem de requerer uma funo explcita para escolha das
filogenias, sendo portanto independente da
escolha do operador. No entanto, devido ao
carter de sua anlise, so mtodos mais refinados e intrinsecamente mais demorados
computacionalmente. Trs critrios de otimizao so tradicionalmente empregados na
inferncia de filogenias: (a) Mxima Parcimnia, (b) Mxima Verossimilhana e (c) Inferncia Bayesiana.
Por se tratarem de mtodos que buscam uma nica
filogenia entre diversas rvores, os mtodos qualitativos exigem algoritmos que vasculhem o maior nmero
possvel de filogenias em busca da melhor rvore. Dois
grupos de algoritmos so destacados: os algoritmos
exatos e os algoritmos heursticos. Atualmente, devido

ao tempo e exigncia computacional, os mtodos


heursticos so preferidos aos exatos. No entanto,
qualquer um deles pode ser aplicado aos mtodos
qualitativos de inferncia filogentica. Como desvantagem dos mtodos qualitativos, repetidos processos de
procura em um mesmo conjunto de sequncias podem
levar a resultados diferentes, dependendo da rvore
que construda inicialmente pelo algoritmo.
Os mtodos exatos buscam todas as filogenias
possveis para um grupo de sequncias. O funcionamento destes mtodos geralmente envolve a seleo
aleatria inicial de trs OTUs para a construo de uma
rvore filogentica no enraizada. Por tentativa, um a
um, novas OTUs, tambm tomadas aleatoriamente do
alinhamento, so inseridas em diferentes posies na
rvore. Esse procedimento repetido at todos os txons serem inseridos, garantindo que todas as filogenias possveis para o alinhamento dado sejam geradas.
A partir da aplicao de um critrio de otimizao
(dado pelo mtodo qualitativo) para classificar as filogenias e orden-las segundo este valor, possvel organizar um espao virtual que contm todas as
filogenias possveis para o alinhamento empregado.
importante lembrar que, tomando poucas sequncias,
milhes de rvores podem ser geradas. Este conjunto
total de filogenias comumente chamado de espao
amostral. Como exemplo, podemos organizar o espao
amostral de filogenias originadas a partir de um alinhamento de dez sequncias em um grfico bidimensi-

5. Filogenia Molecular

onal baseado no valor atribudo pelo critrio de otimizao a cada rvore (Figura 9-5). Nestas condies,
ser possvel observar que algumas rvores possuem
valores maiores que outras, formando picos que agrupam as melhores filogenias. Da mesma forma, entre
diferentes picos existem vales representados por rvores com valores menores e, portanto, menos consistentes.

Figura 9-5: Descrio de parte do espao


amostral das possveis filogenias para um
determinado sistema, ordenadas segundo um
valor atribudo pelo critrio de otimizao.
Cada ponto no grfico representa uma
topologia diferente inferida a partir de um
conjunto de dez sequncias homlogas. O
espao amostral, neste caso, definido por
2.027.025 filogenias e apresenta, segundo o
critrio de otimizao, dois mximos locais e
um mximo global, que contm as melhores
filogenias. Em destaque, algumas filogenias
exemplificando as possibilidades de arranjo
dos ramos. A seta indica a mudana de
topologia da filogenia e o consequente
aumento de seu valor dado pelo critrio de
otimizao.
Os mtodos de busca exaustiva construiro um espao amostral de rvores atravs de mtodos especficos de modificao das filogenias. Por acumularem
um grande nmero de resultados, estes mtodos exigem um tempo computacional muito elevado, por vezes tornando-se proibitivos.
Os algoritmos de busca heurstica procuram pela
melhor filogenia em um subconjunto de todas as filogenias possveis. Apesar de serem muito mais rpidos

computacionalmente, estes mtodos no garantem


que a filogenia correta seja encontrada, pois apenas algumas rvores do espao amostral total sero consideradas. Ainda assim, estes mtodos tem mostrado
grande eficincia.
Atualmente, os principais mtodos qualitativos de
inferncia filogentica incorporam algoritmos de busca
heurstica para amostrar as filogenias do espao
amostral virtual. Usualmente, estes algoritmos de
busca so executados em dois passos. Primeiramente,
diferentes rvores so construdas e, aps encontrar a
melhor rvore guiada por um critrio de otimizao,
aplica-se um algoritmo para modificar aleatoriamente
o arranjo dos ramos. Este mtodo permite testar se
outros arranjos so ou no mais consistentes.

Devido ao grande nmero de mtodos


para inferncia filogentica, a deciso quanto
ao uso de cada um de grande importncia
para a interpretao do resultado final: a filogenia. Ao escolher um mtodo, fundamental
verificar o poder (tamanho e quantidade de
sequncias necessria para resolver a filogenia), a eficincia (habilidade de estimar a filogenia correta com um nmero limitado de
dados), a consistncia (habilidade de estimar a
filogenia correta com um nmero de dados
ilimitado) e a robustez (habilidade de estimar
a filogenia correta quando certos pressupostos da anlise so violados).
At o momento, no existe um mtodo
que apresente todas estas caractersticas simultaneamente e garanta a reconstruo filogentica correta. importante, sobretudo,
conhecer a biologia do organismo (ou dos organismos) em questo para que a escolha do
mtodo tenha, alm de tudo, uma justificativa
biolgica.

5.6. Abordagens quantitativas


UPGMA
O mtodo baseado em distncias
UPGMA (unweighted pair-group method using
arithmetic averages, ou mtodo de agrupamento par a par usando mdias aritmticas
no ponderadas) foi proposto por Sneath e
Sokal, em 1973, e o mtodo mais simples
para reconstruo filogentica. O UPGMA

5. Filogenia Molecular

parte do pressuposto de que todas as linhagens evoluem a uma taxa constante (hiptese
do relgio molecular).
No UPGMA, uma medida de distncia
evolutiva computada para todos os pares de
sequncias utilizando um modelo evolutivo.
Aps, estas distncias so organizadas na
forma de uma matriz, conforme ilustrado
abaixo:
Sequncias

d1,2

d1,3

d2,3

d1,4

d2,4

d3,4

d1,5

d2,5

d3,5

d4,5

O agrupamento das sequncias iniciado pelo par com menor distncia. Supondo
que d1,2 seja a menor distncia no exemplo
acima, as sequncias 1 e 2 so agrupadas
com um ponto de ramificao na metade
dessa distncia (d1,2/2). As sequncias 1 e 2 so
ento combinadas em uma entidade composta, agora denominada y, e a distncia entre
esta entidade y e as outras sequncias
computada (observe abaixo).
Sequncias

y(1,2)

dy,3

dy,4

d3,4

dy,5

d3,5

uma nova sequncia composta. O mesmo


procedimento repetido at que existam
apenas duas sequncias a serem agrupadas
(comumente, uma sequncia simples e uma
entidade composta).
Ao empregar sequncias de DNA ou
protena proximamente relacionadas, o
UPGMA pode construir duas ou mais rvores
empatadas (tie trees). Essas rvores surgem
quando dois ou mais valores de distncia na
matriz se mostram idnticos. possvel representar todas as rvores empatadas, mas
essa abordagem pouco til, uma vez que
tais rvores so muito semelhantes e surgem
por erros de estimativa das distncias. Para
tais casos, sugere-se apresentar uma nica
rvore, geralmente a rvore consenso do
bootstrap (ver seo 5.8).
Por se basear na hiptese do relgio
molecular, o UPGMA pode levar obteno de
topologias falsas quando tal hiptese no for
satisfeita pelos dados. Sabe-se que o mtodo
muito sensvel a variaes nas taxas evolutivas entre linhagens, fato este que levou a
proposio de mtodos onde as variaes so
ajustadas para a obteno de sequncias que
satisfaam o relgio molecular. Apesar disso,
devido ao surgimento de mtodos mais robustos e mais eficientes em lidar com dados
no uniformes, o UPGMA encontra-se praticamente abandonado como alternativa para
reconstruo filogentica.

Aproximao dos Vizinhos


d4,5

Supondo que dy,3 seja a menor distncia,


y e 3 so combinados em uma nova entidade
composta, digamos, z. Seu ponto de ramificao calculado levando em conta a distncia
de cada membro de y (1 e 2) em relao a 3 e
dividindo por 2, ou seja, (d1,3+d2,3)/2. O mesmo
procedimento se repete, calculando a menor
distncia entre z e outra sequncia (suponhamos que seja a sequncia 4). Calculam-se a
distncia de cada membro de z at 4, divide-se
o somatrio das distncias por dois e cria-se

O mtodo de aproximao dos vizinhos


(neighbor joining ou NJ) foi proposto por
Saitou e Nei em 1987. Este mtodo se baseia
em um aceleramento dos algoritmos de evoluo mnima que existiam at ento. Em sua
verso original, estes algoritmos buscavam a
rvore com menor soma total de ramos, de
maneira que todas as rvores possveis precisavam ser construdas para que se verificasse qual delas apresentava a menor soma.
O algoritmo de NJ facilitou esse processo,
tendo o princpio de evoluo mnima implcito
no processo e produzindo apenas uma rvore
final.

5. Filogenia Molecular

Para construir a filogenia, o NJ comea


por uma rvore totalmente no resolvida (topologia em estrela) (Figura 10-5). Tendo como
base uma matriz de distncias (semelhante
matriz inicial construda pelo mtodo de
UPGMA) entre todos os pares de sequncias,
construda a partir da aplicao de um modelo
de substituio (conforme descrito na seo
5.4), o par que apresentar a menor distncia
identificado, unido por um n (que representar o ancestral comum deste par de sequncias) e incorporado na rvore (na Figura
10-5, f e g so unidos pelo n u). As distncias
de cada sequncia do par so recalculadas
em relao ao novo n u, assim como as distncias de todas as outras sequncias so recalculadas em relao ao novo n u. O
algoritmo reinicia, substituindo o par de vizinhos unidos pelo novo n e usando as distncias calculadas no passo anterior.
Quando duas somatrias de ramos so
iguais, a deciso sobre quais ramos unir depende do programa empregado. Alguns optam pela primeira sequncia apresentada no
arquivo de dados, enquanto outros escolhem
aleatoriamente qual dos pares deve ser unido
primeiro. rvores empatadas (tie trees) so
raras com o uso de NJ, e recomenda-se o
emprego da rvore consenso do bootstrap
(ver seo 5.8) para evit-las. Uma variao
do algoritmo NJ, o BIONJ tem se mostrado ligeiramente melhor que o NJ em casos pontuais; no entanto, conserva o mesmo princpio
do algoritmo.

5.7. Abordagens qualitativas


Parcimnia
O princpio de parcimnia foi proposto
por Guilherme de Occam (ou William of
Ockham) no sculo XVII. Occam defendia que
a natureza por si s econmica e opta por
caminhos mais simples. O pensamento se espalhou por diversas reas do conhecimento e,
atualmente, seu princpio conhecido como
Navalha de Occam.
Historicamente, a parcimnia teve um
papel muito importante no estabelecimento
da disciplina de filogentica molecular. Desde
1970, foi o critrio de otimizao mais utilizado para inferncia de filogenias.
Contudo, atualmente a mxima parcimnia foi substituda por outros mtodos,
como mxima verossimilhana e inferncia
Bayesiana devido, principalmente, s simplificaes nos processos evolutivos assumidas
pelo mtodo e, sobretudo, nas limitaes de
seu uso. Apesar disso, a mxima parcimnia
ainda est integrada ao campo da inferncia
filogentica por ser um mtodo rpido e, em
alguns casos, muito efetivo.
A aplicao do princpio de mxima parcimnia nas reconstrues filogenticas
conceitualmente simples: dentro de um conjunto de filogenias, aquela filogenia que apresentar o menor nmero de eventos evolutivos
(substituies) deve ser a mais provvel para
explicar os dados do alinhamento.

Figura 10-5: Comeando com uma rvore em estrela (a), a matriz de distncias calculada para
identificar o par de ns a ser unido (nesse caso, f e g). Estes so unidos ao novo n u (b). A
poro em vermelho fixada e no ser mais alterada. As distncias do n u at os ns a-e so
calculadas e usadas para unir o prximo vizinho. No caso, u e e so unidos ao recm criado n v
(c). Mais duas etapas de clculo levam rvore em (d) e ento rvore em (e), que est
totalmente resolvida, encerrando o algoritmo.

5. Filogenia Molecular

Metodologicamente, o critrio de parcimnia deve determinar a quantidade total de


mudanas na filogenia, descrevendo o tamanho dos ramos. Adicionalmente, a parcimnia
guia a busca, entre todas as rvores possveis, daquela filogenia que minimiza os passos
evolutivos de forma mxima sendo, portanto,
a filogenia de mxima parcimnia.
Assim que uma determinada filogenia
proposta, o mtodo calcular as probabilidades de mudanas dos nucleotdeos desde os
ramos terminais at os ramos mais ancestrais da rvore. Por se tratar de um mtodo
qualitativo, a parcimnia considera cada stio
do alinhamento individualmente e calcula as
probabilidades de ocorrncia dos quatro nucleotdeos nos txons ancestrais.
Devido ao carter probabilstico do mtodo, necessrio que certas pressuposies
sejam estabelecidas para especificar o custo
de substituio dos nucleotdeos. A forma
mais simples do mtodo (Parcimnia de
Wagner) assume que as substituies de nucleotdeos tem custo 1, enquanto que a no
alterao no penalizada (Figura 11-5a). No
entanto, esquemas um pouco mais complexos
que levam em considerao as questes biolgicas envolvidas no processo evolutivo foram propostas. Um esquema comum de
matriz com custo desigual, proposto para especificar as transies e as transverses, leva
em considerao a diferena na probabilidade
de mudana entre purinas e pirimidinas (Figura 11-5b). Comumente, a matriz especificada
sem que constem os respectivos nucleotdeos, no entanto, por conveno so atribudos
nas linhas e colunas em ordem alfabtica (A,
C, G e T).
Para o mtodo de parcimnia, apenas
stios variveis so considerados informativos. Estes stios devem apresentar dois caracteres diferentes presentes em, no mnimo,
dois indivduos (Figura 12-5b). Aqueles stios
que no apresentam variao ou apresentam
autapomorfias (caracter diferente presente
em apenas um indivduo) sero descartados
automaticamente das anlises.
Devido ao tamanho dos alinhamentos e ao nmero
de OTUs includas para a inferncia de filogenias, foi

Figura 11-5: Matrizes de custo aplicadas ao


mtodo de mxima parcimnia para penalizar
as substituies de um nucleotdeo por outro.
(a) Matriz de custos iguais para todas as
mudanas entre nucleotdeos. (b) Matriz de
custo desigual, considerando a maior
probabilidade de ocorrncia de transies em
relao s transverses ao longo do
processo evolutivo.
necessrio que algoritmos fossem desenvolvidos para
acelerar os clculos na busca pela rvore de mxima
parcimnia. Algoritmos de programao dinmica so
capazes de lidar com a atribuio de custos e realizar
os devidos clculos para escolha da filogenia com o
menor custo. Diversos algoritmos foram desenvolvidos, embora a parcimnia de Sankoff, desenvolvida em
1975, tenha se tornado uma das mais populares.

Aps a atribuio de uma matriz de


custo e a proposio de uma filogenia, o algoritmo utilizar cada um dos stios informativos do alinhamento independentemente
para clculo dos custos (Figura 11-5).
Considere a matriz desigual da Figura 115b e a filogenia inicialmente proposta na Figura 12-5a. O esquema demonstra que para
cada stio informativo ser construda uma filogenia com a mesma topologia da rvore
proposta em 12-5a (ver adiante).
Tomando, por exemplo, o stio 28, identificamos a presena de trs ancestrais no
amostrados que, no entanto, para o clculo
dos custos, tero que ter seus caracteres inferidos. Segundo o algoritmo de Sankoff, os
clculos devem iniciar tomando os clados
mais derivados (isto , mais recentes). Em 12-

5. Filogenia Molecular

Figura 12-5: Determinao dos custos de substituio pelo mtodo de parcimnia para um stio
do alinhamento de nucleotdeos. (a) Topologia da filogenia proposta para quatro txons (ver
adiante). (b) Alinhamento de nucleotdeos de quatro sequncias homlogas. Destacados em
cinza esto os stios informativos para o mtodo de parcimnia. Os demais stios so
considerados no informativos e sero descartados durante os clculos. (c) Clculo dos custos
para os dois clados presentes na filogenia proposta em a. O mtodo supe que a posio Y
possa ser ocupada por qualquer um dos quatro nucleotdeos. (d) Exemplo do procedimento
adotado pelo mtodo, supondo que a posio X na filogenia foi ocupada pelo nucleotdeo A.
necessrio considerar todas as possibilidades de caracteres nos stios ancestrais e calcular os
respectivos custos. (e) Arranjo de menor custo para a posio 28 do alinhamento de
nucleotdeos.
5c, a posio Y da filogenia necessariamente foi ocupada por um dos quatro nucleotdeos. Em cada uma das proposies (A, C, G ou
T), o custo associado substituio consultado na matriz. No primeiro caso, a hiptese
para ocupao da posio Y A. O custo da
substituio em cada um dos ramos deve ser
verificado e somado. Por exemplo, a substituio de A por T possui custo 4. Como a
mesma substituio ocorreu em dois ramos
diferentes, somamos o custo total, que tota-

liza 8. O mesmo procedimento ser repetido


considerando os outros trs nucleotdeos na
posio Y.
Aps o clculo dos custos para as posies Y e Z, necessrio verificar os custos de substituio de X para Y e X para
Z. A Figura 12-5d apresenta a primeira hiptese para ocupao da posio X: o nucleotdeo A. Aqui, o algoritmo somar os
custos de substituio de todos os ramos,
novamente considerando cada um dos quatro

5. Filogenia Molecular

nucleotdeos na posio X, mas tambm


considerando a variao nas posies Y e
Z. A Figura 12-5e identifica a filogenia com o
menor custo para o stio 28. Note que o caractere mais ancestral pode ser tanto o nucleotdeo T quanto C. Os mesmos clculos
sero realizados para todos os stios do alinhamento, tomando a topologia dada em 125a e, ao final, os menores custos para cada
stio sero somados para encontrar o tamanho dos ramos da rvore. A rvore que possuir os ramos mais parcimoniosos ser
tomada como a rvore de mxima parcimnia.
Computacionalmente, o clculo dos tamanhos de ramos mais parcimoniosos no
um problema. O desafio da maioria dos mtodos de reconstruo filogentica est na inferncia da topologia. Assim como no mtodo
de mxima verossimilhana, discutido a seguir, o mtodo de mxima parcimnia contar
com algoritmos heursticos para arranjo das
topologias. A filogenia ento proposta pelo
algoritmo, e o critrio de parcimnia avalia a
rvore. A partir de perturbaes realizadas
nesta topologia, uma nova topologia proposta e novamente o critrio qualifica a filogenia.
Apesar de velozes, os mtodos de parcimnia falham ao estimar a relao evolutiva
entre um grande nmero de txons, especialmente se diferentes linhagens possuem taxas
evolutivas variveis ou taxas evolutivas muito
rpidas. Nestes casos, comum que o mtodo agrupe incorretamente os txons com
maiores taxas de evoluo, levando inferncia da filogenia errada (atrao de ramos
longos).
Ainda, por no ter um modelo de substituio especificado, o mtodo de parcimnia
incapaz de considerar mutaes reversas ou
mltiplas substituies. Mtodos que geram
diferentes hipteses a partir do alinhamento,
considerando as observaes biolgicas na
seleo do modo de substituio dos nucleotdeos e, assim, lidam com eventos aleatrios
de probabilidade, substituram o uso da mxima parcimnia e, atualmente, so os principais mtodos utilizados para a inferncia de

filogenias.

Mxima Verossimilhana
Idealmente, os mtodos de inferncia
filogentica devem resgatar o mximo de informaes contidas em um dado conjunto de
sequncias homlogas, buscando desvendar a
verdadeira histria evolutiva dos organismos.
Quando um grande nmero de mudanas evolutivas em diferentes linhagens demasiadamente desigual, o mtodo de mxima
parcimnia tende a inferir filogenias inconsistentes, proporcionalmente convergindo rvore errada quanto maior o nmero de
sequncias no alinhamento. Assim, abre-se
espao para uma tcnica de inferncia filogentica mais robusta, que alie as informaes
do alinhamento a um modelo estatstico capaz de lidar com a probabilidade de mudana
de um nucleotdeo para outro de maneira
mais completa.
Dentro do campo da filogentica computacional, o mtodo de mxima verossimilhana primeiramente ocupou este espao e,
desde ento, tem sido amplamente utilizado
devido qualidade da abordagem estatstica
empregada.
A implementao de uma concepo
estatstica para a mxima verossimilhana,
originalmente desenvolvida para estimar parmetros desconhecidos em modelos probabilsticos, se deu entre 1912 e 1922 atravs
dos trabalhos de A. R. Fisher.
Apesar de utilizado para dados moleculares na dcada de 1970, o mtodo de mxima verossimilhana s se tornou popular na
rea da filogentica a partir de 1981, com o
desenvolvimento de um algoritmo para estimar filogenias baseadas no alinhamento de
nucleotdeos. Atualmente, diversos programas implementam este mtodo para realizar
a inferncia filogentica, incluindo PAUP, MEGA, PHYLIP, fastDNAml, IQPNNI e METAPIGA,
dentre outros (Tabela 1-5).
O objetivo principal do mtodo da mxima verossimilhana inferir a histria evolutiva mais consistente com relao aos dados
fornecidos pelo conjunto de sequncias. Neste

5. Filogenia Molecular

modelo, a hiptese (topologia da rvore, modelo de substituio e comprimento dos ramos) avaliada pela capacidade de predizer
os dados observados (alinhamento de sequncias homlogas). Sendo assim, a verossimilhana de uma rvore proporcional
probabilidade de explicar os dados do alinhamento. Aquela rvore que com maior probabilidade, entre as outras rvores possveis,
produz o conjunto de sequncias do alinhamento, a rvore que reflete a histria evolutiva mais prxima da realidade, mais
verossmil e, por isso, de mxima verossimilhana.
importante ressaltar que diferentes
filogenias podem explicar um determinado
conjunto de sequncias, algumas com maior
probabilidade e, outras, com menor probabilidade. No entanto, a soma das verossimilhanas de todas as rvores possveis para
um determinado conjunto de sequncias nunca resultar em 1, pois no estamos lidando
com as probabilidades de que estas filogenias
estejam corretas, mas avaliando a probabilidade de explicarem o alinhamento que foi
fornecido.
Se, por exemplo, aplicssemos o mtodo de mxima verossimilhana para inferir a
rvore filogentica de um grupo de sequncias homlogas que incluem pores recombinantes,
encontraramos
uma
rvore
filogentica com um determinado valor de
verossimilhana. A utilizao do mtodo, por
si s, garantiria como resultado a inferncia
de uma filogenia. No entanto, sabemos que
esta rvore, apesar de ser a mais plausvel
para explicar o alinhamento dado, no tem
qualquer relao com a realidade evolutiva do
organismo, j que eventos de recombinao
aconteceram no decorrer do tempo e impedem a explicao sob a forma dicotmica de
uma filogenia.
A aplicao do mtodo de mxima verossimilhana exige a construo de uma filogenia inicial, geralmente obtida por mtodos
quantitativos. Como exemplo, considere a rvore filogentica proposta inicialmente e o
respectivo alinhamento de nucleotdeos da
Figura 13-5. Para calcularmos a verossimi-

lhana desta filogenia ser necessrio utilizar


um modelo evolutivo, que ser importante
para atribuir valores e parmetros s substituies e ajudar no clculo da probabilidade
de que uma sequncia X mude para uma sequncia Y ao longo de um segmento da rvore.
Dado um determinado modelo evolutivo
(JC69, K2P, F81, HKY ou GTR, por exemplo), e
assumindo que cada stio do alinhamento
evolui de maneira independente dos demais,
podemos calcular o valor de verossimilhana
para cada um destes stios e, posteriormente,
multiplicar os valores de cada stio para encontrar a verossimilhana da rvore dada (Figura 13-5 e a Figura 14-5). Stios que
apresentam delees sero eliminados da
anlise.
Como os ns internos destas rvores,
geradas a partir de cada stio do alinhamento,
so a representao de OTUs no amostrados (isto , ancestrais) e, por conseguinte, no
se conhecem suas sequncias de nucleotdeos, ser necessrio considerar a ocorrncia
de todos os nucleotdeos (A, T, C e G) nestas
posies da rvore (Figura 13-5c).
Por certo, alguns cenrios so mais
provveis que outros; no entanto, todos devem ser considerados durante os clculos de
verossimilhana, pois apresentam alguma
probabilidade de terem gerado as sequncias
dadas no alinhamento. Adicionalmente, alm
de calcular a probabilidade de todas as mudanas possveis para cada um dos stios do
alinhamento (Figura 13-5c), a expresso matemtica da verossimilhana ainda incluir o
tamanho dos ramos, dentre outros elementos
do modelo de substituio, como um fator
determinante para o clculo (Figura 13-5d).
A probabilidade de ocorrncia de cada um dos quatro nucleotdeos no n mais interno da rvore ser
igual respectiva frequncia estacionria dada pelo
modelo de substituio, j que este parmetro especifica a proporo esperada de cada um dos quatro nucleotdeos. No modelo de Jukes e Cantor, por exemplo,
assume-se que os quatro nucleotdeos ocorrem em
propores iguais de 25%.
Conforme o exemplo da Figura 13-5d, a equao
utilizada para calcular a verossimilhana da filogenia

5. Filogenia Molecular

proposta no stio 28, inicialmente, leva em considerao a frequncia estacionria do nucleotdeo G, j que
este o nucleotdeo que est sendo considerado como
presente no n mais ancestral da rvore. A probabilidade de este G ser substitudo por um A (PGA), ou permanecer G (PGG) ser dada pelo modelo de substituio
escolhido. Da mesma forma, sero os casos PGT, PAC
(repetido duas vezes cada pelo fato de existirem dois
ramos terminais com o mesmo nucleotdeo).
O tamanho dos ramos entre dois ns ser multiplicado pelas probabilidades de substituio dos nucleotdeos, levando em conta variaes em parmetros do
modelo de substituio. Apesar da dificuldade de cl-

culo computacional, os algoritmos aplicados inferncia filogentica (baseados no princpio de Pulley) automaticamente estimaro o tamanho de cada ramo de
modo que este maximize o valor da verossimilhana da
rvore filogentica em construo. Nestes casos, o algoritmo atribui diversos valores de distncia para um
ramo e, a cada valor, verifica a verossimilhana da rvore, buscando aqueles valores que resultam na filogenia com a maior verossimilhana.
A probabilidade de observar os dados em um stio
particular a soma das probabilidades de todos os
possveis nucleotdeos que poderiam ser observados
nos ns internos da rvore (Figura 13-5c). O nmero de

Figura 13-5: Esquema do clculo da verossimilhana para uma filogenia e seu respectivo
alinhamento de nucleotdeos. (a) rvore filogentica proposta inicialmente para o alinhamento
em b. (b) Para cada posio do alinhamento destacada a organizao dos quatro stios do
alinhamento na rvore proposta em a. Como exemplo, apenas o stio do alinhamento
destacado em cinza ser considerado para o clculo da verossimilhana. Os quadrados pretos,
azuis, verdes e vermelhos nos ramos terminais das filogenias representam, respectivamente,
os nucleotdeos guanina, citosina, adenina e timina. (c) Probabilidade de cada uma das 64
possveis combinaes de nucleotdeos nos ns internos da rvore, j que estes representam os
stios de txons ancestrais no amostrados (PXY, PYT, PXZ, PZC). (d) O esquema para o clculo da
mxima verossimilhana leva em conta a multiplicao do tamanho dos ramos (t1, t2, t3, t4, t5 e t6)
pelas respectivas probabilidades de transio (PGG, PGT, PGA e PAC), alm da frequncia
estacionria dos quatro nucleotdeos no n mais ancestral (X).

5. Filogenia Molecular

ns internos rapidamente se torna muito grande com o


aumento do nmero de OTUs. Felizmente, atravs de
um algoritmo criado por Felseinstein (algoritmo de
poda), que se aproveita da prpria topologia da filogenia, esses clculos podem ser realizados de uma
maneira computacionalmente eficiente.
Neste processo, prope-se que os clculos da verossimilhana de uma determinada rvore sejam feitos
a partir de sub-rvores dos ramos terminais em direo aos ns internos, semelhante ao algoritmo usado
para o clculo da parcimnia. No entanto, quando aplicado este mtodo inferncia por mxima verossimilhana necessrio garantir que os modelos de
substituio, no presentes no mtodo de mxima
parcimnia, sejam reversveis, ou seja, que a probabilidade de mudana de A para T (PAT) seja a mesma que T
para A (PTA). A introduo deste mtodo permitiu que
as anlises de verossimilhana pudessem ser aplicadas
a grandes conjuntos de sequncias, de forma mais rpida e efetiva.
Ao final, multiplicamos os valores de verossimilhana de todos os stios e encontramos o valor de verossimilhana da rvore (Figura 14-5):
A expresso matemtica acima indica que a verossimilhana (L) igual multiplicao () das probabilidades de cada stio i (Di, calculado conforme Figura
13-5), dada a rvore filogentica (topologia, modelo
evolutivo e tamanho dos ramos). Aquela rvore que tiver o maior valor de verossimilhana entre todas as
rvores possveis para um determinado alinhamento
de sequncias ser a rvore que melhor explica o alinhamento e, por isso, a rvore de mxima verossimilhana. Por fim, importante ressaltar que, apesar de
estarmos avaliando nucleotdeos neste exemplo, o
mesmo raciocnio poderia ser aplicado para a inferncia
filogentica para um alinhamento de aminocidos.

At o momento vimos, em linhas gerais,


como realizar o clculo de verossimilhana
para uma dada filogenia (Figura 13-5). No entanto, outra funo importante dos mtodos
computacionais de inferncia filogentica
apontar a topologia e encontrar a rvore de
mxima verossimilhana entre todas as rvores possveis para o conjunto de dados. Infelizmente, no existem algoritmos que
garantam a localizao da rvore real devido
ao grande espao amostral de rvores possveis (Figura 9-5).
Aps uma rvore ser construda, ne-

Figura
14-5:
Clculo
da
mxima
verossimilhana de uma dada filogenia,
considerando seu respectivo alinhamento de
nucleotdeos contendo quatro txons e 30
bases (Figura 13-5b). Para cada stio (L01, L02,
..., L30) ser calculado um valor de
probabilidade que envolve a considerao de
todos os quatro nucleotdeos em cada um
dos ramos ancestrais da filogenia. Posteriormente, os valores de verossimilhana
de cada stio sero multiplicados para
encontrar a verossimilhana total da filogenia.
cessrio calcular sua verossimilhana e comparar este valor com todas as rvores j
construdas. Como impossvel testar a verossimilhana para todas as filogenias possveis,
os
algoritmos
de
mxima
verossimilhana incluiro buscas heursticas
para solucionar este problema (estes mtodos construiro diferentes filogenias a partir
do mesmo conjunto de dados do alinhamento).
Na problemtica das filogenias, diferentes programas tm proposto as mais diversas alternativas para avaliar o maior nmero
de rvores do espao amostral total e encontrar aquela com o maior valor de verossimilhana. No entanto, como regra geral, a
maioria dos programas de mxima verossimilhana segue alguns passos comuns:
i) Uma filogenia preliminar com determinada topologia construda (geralmente
so
utilizadas
rvores
construdas pelo mtodo de aproxima-

5. Filogenia Molecular

o de vizinhos);
ii) Os parmetros para esta rvore so
modificados buscando maximizar a verossimilhana (em alguns casos, a filogenia vai sendo construda pela adio
de novos txons aleatoriamente). Para a
modificao da filogenia, os algoritmos
podem implementar tcnicas de rearranjos de ramos, conforme descrito em
5.4;
iii) O valor de mxima verossimilhana
para esta rvore armazenado;
iv) Outras topologias so construdas e
seus parmetros tambm so avaliados;
v) Finalmente, a filogenia que possuir o
valor de mxima verossimilhana ser a
melhor estimativa evolutiva para o dado
conjunto de sequncias.
Embora estes processos simplifiquem
os verdadeiros fenmenos biolgicos que governam a evoluo de uma sequncia, apresentando assim dificuldades em identificar a
rvore com o maior valor de verossimilhana,
eles so normalmente robustos o bastante
para estimar as relaes evolutivas entre txons.
Como estes mtodos implicam em encontrar a rvore com o valor mximo de verossimilhana entre todas as rvores
amostradas, o resultado final sempre fornecer apenas uma filogenia, ao contrrio dos
mtodos Bayesianos que sero vistos a seguir. Cabe ressaltar que, devido ao uso de diferentes algoritmos, na prtica, um mesmo
conjunto de sequncias submetido a diferentes programas para inferncia filogentica
por mxima verossimilhana dificilmente resultar na mesma rvore. Por isso, necessrio ser cauteloso ao interpretar rvores
geradas pelo mtodo de mxima verossimilhana.

Anlises Bayesianas
A estatstica Bayesiana nasceu com a
publicao de um ensaio matemtico do reverendo Thomas Bayes, em 1793. Nesta pu-

blicao, o reverendo apresenta o desenvolvimento de um mtodo formal para incorporar evidncias prvias no clculo da
probabilidade de acontecimento de determinados eventos.
Inicialmente, este mtodo foi aplicado
apenas no campo da matemtica e, s a partir
de 1973, passa a ser incorporado no pensamento biolgico e na inferncia filogentica.
Com o advento de diversos programas de
acesso livre para realizar a inferncia de filogenias por estatstica Bayesiana, o mtodo se
difundiu e, atualmente, tornou-se um campo
de estudo especfico dentro da filogentica
computacional.
A inferncia Bayesiana engloba o mtodo de mxima verossimilhana (Tabela 2-5)
mas, adicionalmente, inclui o uso de informaes dadas a priori. Estas informaes refletem caractersticas a respeito da filogenia, do
alinhamento ou dos txons, que o pesquisador sabe de antemo.
Entre os principais parmetros que podem ser conhecidos antes da reconstruo
filogentica pode-se destacar a taxa evolutiva, tipo de relgio molecular, parmetros do
modelo de substituio, datas de coleta das
amostras, datas para calibrao da filogenia
(achados fsseis, datao por carbono-14,
aproximaes arqueolgicas, etc.), distribuio geogrfica, organizao monofiltica de
um grupo de indivduos ou, at mesmo, parmetros de dinmica populacional.
Os valores atribudos a priori so incorporados estatstica Bayesiana na forma de
probabilidades e comporo o termo chamado
de probabilidade anterior (prior probability).
Se sabemos de antemo que um determinado
grupo de organismos ancestral em relao
a outro, podemos atribuir uma maior probabilidade quelas filogenias que relacionam
estes organismos da maneira como sabemos
a priori.
Qualquer informao til, que fornecida pelo pesquisador antes da prpria reconstruo da filogenia, poder ser convertida em
uma probabilidade anterior para ser inserida
nas anlises de inferncia Bayesiana. No entanto, as informaes cedidas a priori devem

5. Filogenia Molecular

Tabela 2-5: Comparao entre os mtodos de mxima verossimilhana e inferncia Bayesiana.


Mtodo
Mxima
Verossimilhana
Estatstica
Bayesiana

Desvantagens

Vantagens

Captura totalmente a informao dos stios Comparativamente ao mtodo Bayesiano, o


algoritmo para reconstruo por mxima
do alinhamento para construo das
verossimilhana mais lento
filogenias
Tem grande ligao com a mxima
verossimilhana, sendo, no entanto,
geralmente mais rpida. Modelos
populacionais podem ser includos para
inferncia das filogenias

ser distribuies de nmeros provveis (mnimo e mximo), e no nmeros exatos. Quando estes valores no so conhecidos ou
quando, por exemplo, no se quer atribuir
maior probabilidade a uma determinada topologia, o parmetro ter uma distribuio
uniforme de probabilidades.
Na maioria dos aplicativos que lidam
com inferncia Bayesiana existem distribuies uniformes associadas s probabilidades
anteriores que assumem que todos os valores possveis so dados pela mesma probabilidade.
Alm das probabilidades anteriores, a
inferncia Bayesiana baseada nas probabilidades posteriores de um parmetro como,
por exemplo, a topologia. Atravs da probabilidade posterior possvel verificar a probabilidade de cada uma das hipteses
(rvores filogenticas). Sendo assim, ao final
das anlises, possvel estabelecer uma estimativa da probabilidade dos eventos retratados por uma determinada filogenia, ou seja, a
probabilidade de cada filogenia. As probabilidades posteriores so calculadas utilizando a
frmula de Bayes:

O termo L(H | D) chamado de distribuio de probabilidades posteriores, e dado pela probabilidade da


hiptese (topologia da rvore, modelo de substituio e
comprimento dos ramos) a partir dos dados disponveis (alinhamento de sequncias). O termo L(D | H)
descreve o clculo de mxima verossimilhana, enquanto o multiplicador L(H) a probabilidade anterior.
Para o termo que envolve a funo de mxima verossi-

Os parmetros para as probabilidades


anteriores devem ser especificados e pode
ser difcil especificar quando as anlises
so satisfatrias

milhana, ainda necessrio considerar tambm todos


os tpicos j discutidos na seo anterior. O denominador L(D) uma integrao sobre todas as possibilidades de topologias, tamanhos de ramo e valores para os
parmetros do modelo evolutivo, o que garante que a
soma da probabilidade posterior para todos eles seja 1.
O denominador atuar como um normalizador para o
numerador. Reescrevendo, temos:

onde o termo filogenia descreve a topologia da rvore,


o modelo de substituio e o comprimento dos ramos.
Assim, atravs da multiplicao das probabilidades anteriores pela verossimilhana, divididos pelo fator de
normalizao, o mtodo busca a hiptese (topologia da
rvore, o modelo de substituio e o comprimento dos
ramos) em que a probabilidade posterior mxima.

O objetivo da inferncia Bayesiana calcular a probabilidade posterior para cada filogenia proposta. No entanto, para cada
rvore diversos parmetros devem ser especificados pelo usurio, incluindo topologia, tamanho dos ramos, parmetros do modelo de
substituio, parmetros populacionais, relgio molecular, taxa evolutiva, etc. Dada uma
filogenia, todos os parmetros tero sua probabilidade posterior calculada. Se dadas 1000
filogenias, teremos 1000 valores de probabilidade posterior para cada parmetro.
Devido impossibilidade de construo
de todas as filogenias possveis para a maioria
dos alinhamentos, a anlise Bayesiana se
aproveita de tcnicas de amostragem para
estimar os valores esperados de cada parmetro.
Neste sentido, os mtodos de inferncia

5. Filogenia Molecular

Bayesiana utilizam as Cadeias de Markov


Monte Carlo (MCMC, Monte Carlo Markov
Chain) para aproximar as distribuies probabilsticas em uma grande variedade de contextos. Esta abordagem permite realizar
amostragens a partir do conjunto total de filogenias, relacionando cada filogenia a um
valor probabilstico. Sem a aplicao de um
mtodo que obtenha amostras do espao de
possveis filogenias, como o modelo de MCMC,
a estimativa de todos os parmetros se tornaria analiticamente impossvel nos atuais
computadores.
Um dos mtodos de MCMC mais usados
na inferncia filogentica uma modificao
do algoritmo Metropolis, chamado de Metropolis-Hastings. A ideia central deste mtodo
causar pequenas mudanas em uma filogenia
(topologia, tamanho dos ramos, parmetros
do modelo de substituio, etc.) e, aps a
modificao, aceitar ou rejeitar a nova hiptese de acordo com o clculo de razo das probabilidades. Este mtodo garante que
diversas rvores sejam amostradas do espao total de filogenias, amostrando filogenias
com probabilidade posterior mais alta (Figura
15-5):
i) Inicialmente, o algoritmo MCMC gera
uma filogenia aleatria X, arbitrariamente escolhendo o tamanho dos ramos para dar incio cadeia;
ii) O valor de probabilidade associado a
esta filogenia calculado (probabilidade
posterior calculada atravs da frmula
de Bayes);
iii) Perturbaes aleatrias so realizadas nesta filogenia inicial X (mudanas
na topologia, no tamanho dos ramos,
nos parmetros do modelo de substituio, etc.) e geram uma filogenia Y;
iv) A probabilidade posterior calculada
para a filogenia Y;
v) A filogenia Y tomada ou rejeitada
para o prximo passo baseado na razo
R (probabilidade posterior de Y dividida
pela probabilidade posterior de X). Se R
maior que 1, a filogenia Y tomada
como base para o prximo passo. Se R
menor que 1, um nmero entre 0 e 1

tomado aleatoriamente. Se R maior


que o nmero aleatrio gerado, a filogenia ser tomada, no entanto se for
menor, a filogenia Y rejeitada;
vi) Se a nova proposta Y for rejeitada,
retorna-se ao estado X e novas modificaes sero realizadas nesta filogenia;
vii) Supondo que a proposta Y tenha sido aceita, ela sofrer uma nova perturbao a fim de gerar uma nova filogenia;
viii) Todas as rvores amostradas so
armazenadas para posterior comparao. Os pontos visitados formam uma

Figura 15-5: Esquema de amostragens MCMC


aplicada inferncia filogentica pelo mtodo
Bayesiano utilizando o algoritmo de
Metropolis-Hastings. (a) Aps a proposio de
uma filogenia inicial X, perturbaes
aleatrias so realizadas para gerar a
filogenia Y. Devido razo R>1, a nova
filogenia aceita. Nova perturbao
realizada para gerar a filogenia W e, devido a
razo de probabilidades R resultar em um
nmero menor que 1, um nmero aleatrio N
sorteado. Sendo R<N, a nova proposio
rejeitada e a cadeia retorna filogenia Y. (b)
Andamento da cadeia na amostragem de
filogenias. Cada crculo destaca uma nova
filogenia que proposta aps a perturbao.
As linhas conectando os crculos evidenciam a
direo do andamento da cadeia. Apesar de a
cadeia percorrer muitos passos, apenas
alguns sero registrados para anlise final
(crculos pretos). Os crculos em vermelho
so aqueles evidenciados em (a).

5. Filogenia Molecular

espcie de cadeia ao longo do espao


amostral total de filogenias.
O principal objetivo da cadeia amostrar filogenias com probabilidades crescentes.
No entanto, importante que o algoritmo utilizado para tal permita que algumas rvores
com menor probabilidade sejam amostradas
para evitar que a cadeia fique presa em picos de mximo local (Figura 9-5).
Sendo assim, o clculo da razo R considerando um valor aleatrio entre 0 e 1 garantir que, em determinados momentos,
uma filogenia com menor probabilidade seja
aceita. Por este mtodo, possvel amostrar
filogenias da regio de um vale passando, por
exemplo, de um pico de timo local para o pico de timo global (Figura 9-5).
A proposta de novas rvores na cadeia
de Markov uma etapa crucial para uma boa
amostragem de filogenias. Na abordagem
Bayesiana, uma boa amostragem inclui um
grande nmero de filogenias, suficientemente
diferentes entre si. Se filogenias muito diferentes so propostas, sero rejeitadas com
muita frequncia, pois provvel que tenham
menor probabilidade posterior. Pelo contrrio,
se filogenias muito similares forem geradas, o
espao amostral no ser varrido adequadamente e a cadeia dever correr por muitos
passos (amostrar um maior nmero de filogenias), aumentando o tamanho da cadeia e o
tempo computacional.
Estimar o quanto a cadeia deve percorrer para amostrar um nmero suficiente de
filogenias para as sequncias dadas (espao
de rvores) um fator fundamental para obter bons resultados em uma anlise Bayesiana. Na maioria dos programas que utilizam
estatstica Bayesiana para inferir filogenias, o
usurio deve especificar o tamanho da cadeia.
Esse nmero de grande subjetividade, e depende diretamente da distribuio das probabilidades anteriores, do nmero de txons
includos na filogenia e da relao evolutiva
entre eles.
A Figura 16-5 exemplifica o andamento
da amostragem da MCMC em um espao de
filogenias. Supondo que os quadrados em a, b

e c representam um espao amostral de filogenias, semelhante ao apresentado na Figura


15-5b, e que os pontos pretos sejam as filogenias que vo sendo amostradas com o desenvolvimento da MCMC vemos que, ao final
do processo, depois de empregados 100 mil
passos (Figura 16-5c), um grande nmero de
filogenias foi amostrado.
Ainda, na regio delimitada por um crculo, assumimos que esto as filogenias com
maior probabilidade de explicar a histria
evolutiva de um grupo de organismos, ou seja, as filogenias reais. Note que quanto maior
o nmero de passos percorridos pela cadeia,
maior a amostragem do espao de filogenias
e maior o nmero de amostras dentro da regio com filogenias de alta probabilidade.
Ao final, aps o trmino da cadeia, a
distribuio das probabilidades posteriores de
todos os parmetros deve ser verificada. No

Figura 16-5: Espao de possveis rvores


analisadas pela MCMC. Considerando que os
quadrados descrevem o espao amostral de
todas as filogenias possveis para um dado
conjunto de sequencias, os pontos pretos
representam as filogenias que foram
amostradas ao longo da cadeia. Os crculos
presentes no canto esquerdo inferior
representam a regio de mximo global (isto
, maior probabilidade) neste espao
amostral. O andamento da cadeia neste
exemplo o mesmo apresentado na Figura
15-5b (a) cento e trinta passos percorridos
pela cadeia; (b) trinta mil passos percorridos
pela cadeia; (c) cem mil passos percorridos
pela cadeia. Nota-se que quanto maior o
nmero de passos percorridos, maior a
amostragem de filogenias no espao. Da
mesma forma, aumenta a probabilidade de a
cadeia amostrar aquelas filogenias de
mximo global.

5. Filogenia Molecular

entanto, as amostras tomadas no incio da


cadeia so tipicamente descartadas, pois esto sob forte influncia do local de incio da
cadeia. As filogenias do incio da cadeia esto
muito longe de pontos mximos no espao
amostral e, por isso, provvel que todas as
novas filogenias sugeridas subsequentemente
sejam tomadas para o prximo passo (qualquer rvore proposta ser mais provvel que
as rvores iniciais semelhantes quela gerada
aleatoriamente).
Esta fase inicial conhecida como perodo de burn in (Figura 17-5). Conforme a cadeia avana, espera-se que a probabilidade
das rvores amostradas aumente e, quando
um nmero suficiente de filogenias for amostrado, chegue a uma distribuio estacionria.
Em termos Bayesianos, espera-se que a cadeia atinja a convergncia.
Um dos primeiros indicativos de que a
cadeia convergiu para a distribuio correta
est na estabilidade dos valores de probabilidade dos parmetros da cadeia (cada parmetro da filogenia poder ter uma
distribuio independente). Portanto, a representao grfica dos valores das probabilidades e dos respectivos passos da cadeia (trace
plot) uma importante ferramenta para monitorar o desempenho da MCMC (Figura 17-5).
Devido ao aumento brusco de probabilidade das filogenias que so visitadas pelo andamento
da
cadeia,
os
grficos
necessariamente incluiro os valores medidos
em escala logartmica (ln L, Figura 17-5). Em
estatstica Bayesiana, comum que seja atribudo um intervalo de credibilidade de 95%
para os parmetros amostrados. Estes valores so obtidos atravs da eliminao de
2,5% dos valores mais baixos e de 2,5% dos
valores mais altos para um determinado parmetro. Um intervalo de credibilidade contm o valor correto com 95% de
probabilidade; no entanto, no se trata de um
intervalo de confiana.
Adicionalmente, outros mtodos so teis para diagnosticar a convergncia da cadeia, tais como o exame do tamanho amostral efetivo (ESS) e a comparao
de amostras resultantes de diferentes cadeias (vrias
cadeias de MCMC so aplicadas para o mesmo conjunto

Figura 17-5: Representao grfica das


probabilidades das filogenias na cadeia ao
longo de 300 milhes de amostragens. O
esquema demonstra duas visualizaes
possveis: esquerda, so mostrados apenas
os pontos referentes s amostras tomadas
ao longo da cadeia e, direita, as
amostragens sucessivas so ligadas umas as
outras para facilitar a visualizao do
comportamento da cadeia. Em cinza, a fase
inicial de burn in da Cadeia de Markov Monte
Carlo.
de dados). Apesar de ser computacionalmente intensiva, a ltima alternativa parece ser a mais confivel para verificar a convergncia. Contudo, o exame de ESS ,
ainda hoje, o mtodo mais utilizado. O tamanho amostral efetivo uma estimativa para verificar o nmero
de amostras independentes existentes na cadeia, ou
seja, quantas amostras no similares foram tomadas.
Atualmente, um ESS maior que 200 um indicativo de
que a cadeia convergiu adequadamente.
A tcnica de Metropolis Coupling, conhecida como
MCMCMC ou (MC), atravs da introduo da corrida simultnea de duas cadeias, pode ajudar na amostragem
de mximos globais e beneficiar na convergncia da
cadeia. Nesta tcnica uma cadeia, chamada de quente
(hot chain), permite aproximar os valores de mxima e
mnima probabilidade das amostras para que a cadeia
possa, de forma mais rpida, saltar entre picos de
probabilidade, especialmente de mximos locais para
mximos globais. O aquecimento da cadeia dado pelo
parmetro e visa diminuir a altura dos picos locais no
espao amostral. Uma segunda cadeia simultnea,
chamada de fria (cold chain), utiliza as informaes
destes saltos da cadeia quente para melhorar a sua

5. Filogenia Molecular

amostragem e garantir a convergncia.


Os mtodos Bayesianos de inferncia filogentica
ainda tm a vantagem de aplicar modelos que envolvem diferentes tipos de relgios moleculares.
As distncias genticas, depois de tratadas pelos
modelos de substituio, no tem qualquer significado
sozinhas quando se deseja estimar, por exemplo, a idade do ancestral comum mais recente de duas OTUs.
Esta e outras questes podem ser avaliadas quando
aplicamos uma medida de tempo nas inferncias, a fim
de calibrar as taxas evolutivas. Sequenciamentos de
amostras isoladas em diferentes pocas podem fornecer a calibrao adequada para inferncias temporais,
pois se assume uma taxa evolutiva constante ao longo
de um tempo t para todos os ramos de uma filogenia
(relgio molecular estrito).
As taxas evolutivas dependem de diversos fatores
e podem variar, nem sempre seguindo a constncia
proposta por este modelo. Aps a introduo de um tipo especfico de relgio molecular relaxado, as taxas
de evoluo podem variar ao longo da rvore para diferentes grupos e no so correlacionadas, ou seja,
grupos evolutivamente prximos no necessariamente
tero taxas de evoluo semelhantes (relgio molecular relaxado no correlacionado).

Complexos modelos de dinmica populacional podem ser analisados sob uma perspectiva Bayesiana. Quando o conjunto de
sequncias submetido s analises so isolados de uma populao homognea, os parmetros de histria demogrfica podem ser
usados para modelar as mudanas populacionais ao longo do tempo. Desta forma, atravs da estatstica Bayesiana possvel, alm
da inferncia filogentica, refinar as anlises e
datar filogenias e ramos especficos (Figura
18-5), inferir caracteres ancestrais e analisar
a dinmica populacional sob uma tica evolutiva.

5.8. Confiabilidade
O papel principal das tcnicas de inferncia filogentica desvendar as relaes
evolutivas reais atravs de dados moleculares, buscando garantir que esta reconstruo
seja fidedigna. Alm da inferncia das relaes evolutivas entre os txons, igualmente
importante que a filogenia possua preciso.

Figura 18-5: rvore filogentica consenso


gerada por inferncia Bayesiana para 70
sequncias de nucleotdeos. As cores nos
ramos representam diferentes clados (B-H).
O grupo externo est identificado como clado
A. O Clado H foi agrupado para facilitar a
representao. Nos ns esto especificados
os valores de probabilidade posterior acima
de 70. Abaixo, apresentada a escala
temporal inferida a partir da utilizao de um
relgio molecular relaxado.
Esta caracterstica est relacionada ao nmero de filogenias que podem ser excludas, a
partir do conjunto total de filogenias, por no
serem verdadeiras. Quanto maior o nmero
de filogenias excludas neste processo, mais
preciso o mtodo.
Em geral, na maioria dos casos de reconstruo filogentica, a falta de preciso
das filogenias est relacionada ao conjunto de
dados que est sendo fornecido no alinha-

5. Filogenia Molecular

mento. O gene considerado, o tamanho das


sequncias, o nmero de indivduos e o grupo
externo so atribuies fundamentais para
uma reconstruo filogentica precisa e dependem, especialmente, do objetivo do estudo e da prpria disponibilidade de informao.
Em muitos casos, o pesquisador ainda
dependente do nmero de amostras e do sucesso de coleta em campo, sobretudo, quando seu objeto de estudo se trata de uma
espcie rara ou de indivduos de difcil amostragem. No entanto, apesar de toda a informao relacionada ao conjunto de dados, a
dificuldade de amostragem de indivduos parece ser, sem dvida, o principal problema
relacionado a preciso das filogenias, pois a
falta de dados de variabilidade gentica compromete a inferncia de histria evolutiva coerente.
Como possvel saber se a amostragem
foi suficiente e a filogenia confivel? Usualmente, a resposta para esta questo consiste
na reamostragem de dados. Se novas amostras forem tomadas e a mesma filogenia for
reproduzida, a filogenia proposta tem seu valor reforado. No entanto, na maioria dos casos, a reamostragem de dados da forma
usual (coletas de novos espcimes, reamostragens em campo, achado fssil diferente,
etc) no factvel. Assim, algoritmos que
produzem diferentes amostragens utilizando
o mesmo conjunto de dados foram desenvolvidos para possibilitar a verificao da confiabilidade nos clados das filogenias. Destaca-se
entre estes algoritmos o mtodo de
bootstrap.
Bootstrap um mtodo de reamostragem utilizado para realizar comparaes da
variabilidade das hipteses filogenticas, oferecendo medidas de confiabilidade aos clados
propostos. A reamostragem realizada a
partir do mesmo conjunto de dados, e novas
amostras fictcias com o mesmo tamanho
sero geradas.
Segundo este mtodo, cada stio do alinhamento ser tratado de forma independente. Conforme a Figura 19-5, inicialmente o
algoritmo reconstruir a filogenia a partir do
alinhamento dado e, posteriormente, diversas

replicatas sero reconstrudas. As colunas,


representando os stios do alinhamento, sero aleatoriamente tomadas (amostradas)
pelo algoritmo e, em seguida, sero agrupadas uma ao lado da outra de maneira a formar um novo alinhamento (com o mesmo
nmero de stios do alinhamento original, Figura 19-5).
Por este mtodo, possvel que um
mesmo stio seja amostrado mais de uma vez
e, portanto, alguns stios no sero selecionados para o novo alinhamento. Um nmero
fornecido pelo usurio especificar o nmero
de pseudoreplicatas (novos alinhamentos)
que sero construdas. Assim que uma pseudoreplicata for criada, o algoritmo constri a
filogenia correspondente.

Figura 19-5: Mtodo de boostrap para


filogenias. A partir do alinhamento original, as
colunas que representam os stios sero
aleatoriamente amostradas para construir
pseudoreplicatas (um mesmo stio pode ser
sorteado diversas vezes). Estas, por sua vez,
sero utilizadas para a inferncia de
filogenias, da mesma forma que o
alinhamento original.

5. Filogenia Molecular

importante ressaltar que a inferncia


destas filogenias ser realizada pelo mtodo
de construo especificado pelo usurio, seja
aproximao de vizinhos, mxima parcimnia
ou mxima verossimilhana (para rvores
bayesianas, veja adiante). Ao final, o algoritmo analisar os clados e automaticamente
verificar a presena de determinados agrupamentos em todas as filogenias construdas.
Se, por exemplo, encontramos as sequncias
1 e 2 formando um clado em 70% das filogenias construdas, atribuiremos a confiabilidade
de 70 ao clado formado por estas duas sequncias. Comumente, o valor de confiabilidade dos clados colocado prximo ao
ancestral comum do clado (Figura 18-5).
A partir dos resultados de confiabilidade
dos clados possvel tambm construir filogenias baseando-se na rvore consenso gerada pela regra da maioria (majority-rule
consensus tree). Neste mtodo, o algoritmo
tabular todos os clados formados em todas
as replicatas geradas. Aqueles clados que
mais aparecerem serviro para montar a filogenia consenso.
Ao contrrio dos mtodos de aproximao de vizinhos, mxima parcimnia e mxima
verossimilhana, a confiabilidade de filogenias
construdas atravs de estatstica Bayesiana
inerente ao processo. Como diversas filogenias so amostradas ao longo do desempenho
da Cadeia de Markov, no necessrio nenhum mtodo para simular reamostragens do
mesmo conjunto de dados. As amostras sero resumidas a partir da distribuio posterior de filogenias como frequncia de clados
individuais e sero identificadas por um nmero prximo ao ancestral comum daqueles
clados (Figura 18-5). Portanto, o valor de
probabilidade posterior de um clado representa uma inferncia a respeito da probabilidade daquele clado.
A comparao dos valores de bootstrap
e de probabilidade posterior dos clados para
filogenias construdas a partir do mesmo alinhamento utilizando mxima verossimilhana
e o mtodo Bayesiano, respectivamente, leva
a concluso de que o mtodo Bayesiano superestima a confiana aos clados. A confiana

atribuda pela probabilidade posterior geralmente maior que aquela atribuda pelo
mtodo de bootstrap. Por isso, enquanto uma
confiana acima de 70 considerada sustentada para o bootstrap, apenas valores acima
de 90 podem ser considerados relevantes
para os mtodos Bayesianos.

5.9. Interpretao de filogenias


rvores filogenticas so diagramas
que denotam a histria evolutiva de diferentes
OTUs a partir de seu ancestral comum. Mais
do que isso, as filogenias moleculares so
ferramentas que ajudam no entendimento
dos diversos processos evolutivos que moldam o genoma dos organismos. Desta forma,
a interpretao das implicaes evolutivas
associadas a um, ou a um conjunto de txons,
est diretamente relacionada disposio dos
ramos internos e externos de uma rvore. Independentemente do mtodo de inferncia,
ou da forma como a rvore apresentada, a
interpretao dos resultados ser baseada
nos mesmos pressupostos, ainda que mtodos diferentes possam originar filogenias diferentes.
Inicialmente, necessrio observar a
presena de uma raiz. Como j discutido, o
mtodo de enraizamento pelo grupo externo
o mais comum e utiliza organismos sabidamente relacionados ao grupo em evidncia,
servindo para orientar o algoritmo em relao s caractersticas mais ancestrais do
grupo. O grupo externo ajudar a evidenciar o
tempo evolutivo. Na Figura 20-5, por exemplo, o grupo externo dado pelo orangotango,
pois este compartilha o mesmo ancestral comum que o restante do grupo. No caso de filogenias sem raiz, necessrio ter cautela
nas interpretaes, pois este tipo de diagrama
apenas revela a relao entre os txons.
Depois de encontrada a raiz da filogenia,
preciso avaliar os ramos. Dependendo do
mtodo, os ramos podem ter significados diferentes. Na Figura 18-5, os ramos evidenciam o tempo real, apresentando OTUs
amostradas no passado. Pelo contrrio, na
Figura 20-5, os ramos evidenciam apenas um

5. Filogenia Molecular

Figura 20-5: Diferentes representaes da


filogenia dos primatas.
tempo evolutivo representado pelo nmero
de modificaes genmicas, desde o organismo ancestral at os ramos terminais. Alm
disso, deve-se perceber a escala na qual os
ramos foram representados, pois estes indicam o nmero de substituies que provavelmente ocorreram ao longo do processo
evolutivo e podem ajudar na interpretao
das taxas evolutivas.
Concluses evolutivas baseadas em rvores filogenticas devem ser sustentadas
em rvore confiveis e, por isso, a medida de
confiabilidade dos ramos deve ser denotada.
Inicialmente, necessrio verificar o mtodo
utilizado para reconstruo da filogenia e,
quando necessrio, verificar o algoritmo utilizado para gerar a confiabilidade dos clados.
Ramos com maiores valores de confiabilidade
geraro concluses mais confiveis, enquanto
que clados com baixos valores devero ser
interpretados com maior cuidado. No entanto,
no necessrio negar totalmente concluses baseadas em filogenias com baixa confi-

abilidade nos ramos. O tipo de mtodo, a forma de amostragem e o nmero de OTUs podem ser fatores de interferncia e, assim,
podem prejudicar a valorizao dos ramos.
O padro de organizao dos ramos de
uma filogenia denota o padro de ancestralidade. As filogenias no so escadas, onde alguns organismos so mais evoludos que
outros, mas uma representao da histria da
derivao de OTUs. Na Figura 18-5, por exemplo, possvel observar que os clados B,
C, D, E, F e G possuem um ancestral comum
que compartilha um outro ancestral com o
clado A. J o clado H, representado por um
tringulo para evidenciar um grande nmero
de txons naquele ponto da filogenia, teve um
ancestral comum dentro do clado G. Este padro sugere que o clado H se originou a partir
do clado G. Da mesma forma, podemos observar a disposio do clado G em relao ao
F e concluir que o primeiro se originou a partir
do segundo.
No caso da Figura 20-5, observamos
que humanos e chimpanzs tiveram um mesmo ancestral comum. Com base nestes dados, incorreto pensarmos que humanos so
derivados de chimpanzs, ou que humanos
so mais evoludos que chimpanzs. Estes
organismos esto apenas formando um
mesmo clado dentro da filogenia dos primatas.
Por ltimo, fundamental saber o objetivo do estudo filogentico a ser realizado.
rvores filogenticas devem ser construdas
para responder uma determinada questo,
que pode envolver apenas um, ou diversos
organismos.
Quando possvel, importante reconstruir a filogenia utilizando diferentes mtodos
de inferncia e compar-las entre si. A concluso desta forma ser melhor sustentada.
Alm disso, atualmente, a histria retratada
em uma filogenia no por si s satisfatria.
Outras ferramentas podem ser utilizadas para complementar e sustentar a interpretao
de uma filogenia, incluindo anlises de recombinao, presso seletiva e estruturao
populacional, verificao de coespeciao,
construo de redes filogeogrficas, compa-

5. Filogenia Molecular

rao com dados de fsseis, eventos geolgicos, dados histricos e, at mesmo, anlises
de dados comportamentais.
Um exemplo da combinao de anlises
filogenticas com dados histricos veio na
confirmao da origem e disseminao humana a partir da frica. Atravs da utilizao
de dados histrico-antropolgicos (como
vestgios materiais de homindeos ancestrais),
fsseis de homindeos e anlises de DNA mitocondrial de representantes de diferentes
etnias, os pesquisadores puderam traar as
rotas de disseminao humana a partir da
frica.
Outro exemplo est na soluo de um
enigma que perturbou zologos por um longo
perodo: a posio taxnomica do panda-gigante entre os mamferos carnvoros. Apesar
de esta espcie ser fisicamente muito similar
a um urso, outras caractersticas, como dentio e anatomia das patas, levaram proposio de uma hiptese antes no imaginada.
Tal hiptese propunha que o panda-gigante (Ailuropoda melanoleuca) seria proximamente relacionado ao o panda-vermelho
(Ailurus fulgens), um mamfero de pequeno

porte, semelhante ao guaxinim. Com o emprego de diferentes dados, incluindo fsseis,


anatomia de mamferos atuais, distribuio
geogrfica, sequncias de DNA de diferentes
pores do genoma, sequncias de aminocidos de diferentes protenas e mapeamento
cromossmico, foi possvel estabelecer uma
histria evolutiva plausvel, capaz de descrever a origem evolutiva do panda-gigante (Figura 21-5).
Por meio dessa anlise combinada de
dados, se props que o panda-gigante, um
urso, derivou do ancestral comum dos ursos
h cerca de 24 milhes de anos, muito antes
das derivaes que originaram todos os outros ursos existentes hoje. Alm disso, observou-se que os ursos e os prociondeos
(grupo que inclui o guaxinim e o panda-vermelho) possuem um ancestral comum que
deu origem s duas linhagens h aproximadamente 30 milhes de anos.
A filogenia molecular uma ferramenta
til quando empregada isoladamente, mas
que pode se beneficiar de diferentes tipos de
dados para propor uma histria evolutiva. Em
ltima anlise, a deciso sobre que tipos de

Figura 21-5: Posio filogentica do panda-gigante, baseada na combinao de diferentes tipos


de dados. Baseado em BININDA-EMONDS, Olaf R.P. Phylogenetic position of the giant panda. Em:
LINDBURG, D.G. & Baragona, K. Giant pandas: Biology and conservation. Berkeley: University of
California Press, 2004; e em EIZIRIK, Eduardo e colaboradores: Pattern and timing of
diversification of the mammalian order Carnivora inferred from multiple nuclear gene
sequences. Mol Phylogenet Evol, 56, 49, 2010.

5. Filogenia Molecular

dados (alm dos moleculares) sero empregados na anlise filogentica depender da


pergunta a ser respondida com essa tcnica.
No existem regras pr-estabelecidas, e as
estratgias analticas precisam ser propostas
caso a caso.

5.10. Conceitos-chave
Ancestral: organismo ou sequncia que originou
novo(s) organismo(s) ou sequncia(s). Em
alguns casos pode ser considerado o mesmo que primitivo.
Apomrfico: refere-se a um caractere novo adquirido ao longo do processo evolutivo,
uma inovao. Uma apomorfia pode servir
de diagnstico para separao de clados.
Aproximao dos vizinhos: neighbor joining
(NJ), mtodo de inferncia filogentica
quantitativo baseado em distncia gentica.
Autapomorfias: apomorfias especficas e restritas a um clado.
Bootstrap: mtodo de reamostragem que permite verificar a confiabilidade dos ramos
de uma filogenia.
Cadeias de Markov Monte Carlo: mtodo utilizado pela estatstica Bayesiana para amostrar as probabilidades de distribuio de
diferentes parmetros das filogenias.
Clado: grupo formado por um ancestral e todos
seus descendentes, um ramo nico em
uma rvore filogentica.
Derivado: que se originou de um ancestral e
mais recente no tempo evolutivo (nota:
deve-se evitar o termo mais evoludo e,
em seu lugar, empregar derivado).
Distncia Gentica: medida quantitativa da divergncia gentica entre organismos.
Espao Amostral de Filogenias: espao terico

que inclui todas as filogenias possveis


(com raiz ou sem raiz) para um determinado alinhamento.
Frequncia de equilbrio: ponto em que no
existe mais alterao nas frequncias dos
alelos.
Grupos irmos: clados que dividem um ancestral
comum.
Homologia: similaridade originada por ancestralidade comum.
Inferncia filogentica Bayesiana: mtodo qualitativo de inferncia filogentica baseado
na estatstica Bayesiana. Atravs da Cadeia de Markov Monte Carlo este mtodo
buscar as rvores mais provveis dentro
das filogenias amostradas.
Mxima Parcimnia: mtodo qualitativo de inferncia filogentica que busca a rvore que
minimiza o nmero total de substituio
de nucleotdeos.
Mxima Verossimilhana: mtodo qualitativo de
inferncia filogentica que busca a rvore
com a mxima verossimilhana.
Monofilia: associao entre o ancestral comum e
todos os seus descendentes, formando um
clado monofiltico.
Mltiplas Substituies: eventos mltiplos de
substituio de nucleotdeo localizado em
um mesmo stio do DNA.
Modelos de Substituio: modelos matemticos
utilizados para descrever o processo evolutivo ao longo do tempo, podendo ser
aplicados ao alinhamento de nucleotdeos
ou aminocidos.
Ortlogo: genes homlogos em diferentes organismos e que mantm a mesma funo.
OTU: unidade taxonmica operacional, folha ou
n terminal em uma rvore filogentica.

5. Filogenia Molecular

Parafilia: associao entre o ancestral comum e


apenas parte de seus descendentes, formando um clado parafiltico.
Parlogo: genes homlogos de um mesmo organismo que divergiram aps duplicao.
Plesiomrfico: dotado de caractersticas do ancestral que so conservadas nos descendentes.
Polifilia: associao entre diferentes OTUs sem a
necessidade de um nico ancestral comum, frequentemente originada por convergncia evolutiva.
Primitivo: diz-se de caractersticas ou organismos ancestrais, anteriores no tempo evolutivo a organismos ou caractersticas mais
recentes.
Probabilidades Anteriores: distribuio dos valores de um parmetro filogentico que
sabido de antemo pelo pesquisador.
Probabilidades Posteriores: conjunto da distribuio dos valores de parmetros filogenticos
resultantes
do
mtodo
de
inferncia Bayesiana.
Sistemtica: estudo da diversificao das formas
vivas e suas relaes ao longo do tempo.
Taxonomia: estudo que busca agrupar os organismos com base em suas caractersticas e
nomear os grupos obtidos, classificandoos em alguma escala.
Taxon: grupo (de qualquer nvel hierrquico)
proposto pela taxonomia.
Topologia: descreve a ordem e a disposio
exata das OTUs em uma filogenia.
UPGMA: unweighted pair-group method using
arithmetic average, mtodo de inferncia
filogentica quantitativo baseado em distncia.

5.11. Leitura recomendada


FELSENSTEIN, Joseph. Inferring Phylogenies.
Sunderland: Sinauer, 2004.
GREGORY,
T.
Ryan:
Understanding
Evolutionary Trees. Evo. Edu. Outreach,
2008, 1,121-137.
LEMEY, Philippe; SALEMI, Marco; Vandamme,
Anne-Mieke (Org.). The Phylogenetic
Handbook. 2.ed. Cambridge: Cambridge
University Press, 2009.
MATIOLI, Sergio Russo; FERNANDES, Flora M.C.
(Org.). Biologia Molecular e Evoluo.
2.ed. Ribeiro Preto: Holos, 2012.
NEI,

Masatoshi; KUMAR, Sudhir. Molecular


Evolution and Phylogenetics. Nova
Iorque: Oxford University Press, 2000.

PABN-MORA, Natalia; GONZLEZ, Favio. A


classificao biolgica: de espcies a genes. In: ABRANTES, Paulo C. (Org.), Filosofia da Biologia. Porto Alegre: Artmed,
2011.
SCHNEIDER, Horacio. Mtodos de Anlise Filogentica: Um Guia Prtico. 3.ed. Ribeiro Preto: Holos, 2007.

6. Biologia de Sistemas

"Pensar a complexidade esse o maior


desafio do pensamento contemporneo, que
necessita de uma reforma no nosso modo
de pensar."

Joice de Faria Poloni


Bruno Csar Feltes
Fernanda Rabaioli da Silva
Diego Bonatto

Edgar Morin & Jean-Louis Le Moigne

for necessrio para resolv-lo de maneira


mais parcimoniosa.
neste contexto que emerge a diviso
disciplinar no estudo da natureza. Desde os
tempos da escola at a universidade, o conhecimento a ser ensinado manifesta-se na
separao das disciplinas. Por exemplo, no
meio acadmico observamos a biologia compartimentada em botnica, zoologia, ecologia,
gentica, biologia celular e essas, por sua vez,
subdivididas em outras reas. Como aspecto
positivo, o estudo das partes forma especialistas e divide o trabalho, facilitando o entendimento de suas partes componentes.
Contudo, neste processo tem-se uma reduo
da complexidade caracterstica dos fenmenos naturais, o que pode comprometer nossa
capacidade de entend-los.
De fato, a complexidade inerente biologia, ao funcionamento do nosso organismo
e natureza. H a necessidade, assim, da
construo de uma abordagem que inclua esta complexidade, de forma sistmica;
que
interligue
as
diversas interaes presentes e
que, ao confront-las, consiga
encontrar relaes mais informativas e completas.
A partir desta premissa,
emergem na dcada de 1950 as
primeiras concepes sobre a
Biologia de Sistemas (BS). Essa
rea, pautada nos conceitos de
sistema e de complexidade, envolve um estudo sistemtico de
interaes em um sistema biolgico.
O conceito de sistema entendido como
um conjunto de partes ou elementos que
possuem relaes entre si, relaes estas

6.1. Introduo
6.2. Biologia de Sistemas
6.3. Estrutura de redes
6.4. Propriedades de rede
6.5. Tipos de redes
6.6. Perturbao de conectores
6.7. Conceitos-chave
6.1. Introduo
Uma das posturas metodolgicas mais
significativas do pensamento cientfico contemporneo consiste em reduzir
o todo a suas partes componentes. Por exemplo, entendemos o
funcionamento de um organismo
como fruto da ao de rgos.
Estes por sua vez, so compostos por tecidos, que so compostos por clulas. As clulas
tm como componentes molculas que, por fim, so compostas por tomos.
Esta abordagem, especialmente importante e difundida na
rea biolgica, fruto das idias
introduzidas pelo filsofo Ren
Descartes em meados do sculo XVII, indicando que cada problema encontrado deve ser
dividido em tantas pequenas partes quanto

6. Biologia de Sistemas

que diferem-se daquelas realizadas com outros elementos, fora do sistema. J a idia de
complexidade definida como a condio de
elementos de um sistema e a relao entre
esses elementos em um determinado momento.
Um sistema complexo, por conseguinte,
um sistema composto de partes interconectadas que, como um todo, exibe uma ou
mais propriedades que no seriam observadas a partir das propriedades dos componentes individuais, possibilitando assim a
observao de novos fenmenos. Portanto, a
BS um campo que investiga as interaes
entre os componentes de um sistema biolgico, buscando contribuir no entendimento de
como estas interaes influenciam a funo e
o comportamento do sistema.
A busca da compreenso da biologia em
nvel de sistema um tema recorrente na comunidade cientfica. Norbert Wiener, em
1948, foi um dos proponentes da abordagem
sistemtica que levou ao nascimento da ciberntica, ou biociberntica, consolidada com
os estudos do mdico neurologista, William
Ross Ashby (1903-1972). A partir de 1959,
Robert Rosen, sob orientao do professor
Nicolas Rashevsky, props uma metodologia
baseada na biologia relacional, onde o mais
importante na biologia era o estudo da vida
em si. Aps 20 anos, Ludwig von Bertalanffy
(1901-1972) criou a teoria geral dos sistemas,
tornando-se o precursor da BS. Em 1966 foi
formalizado o estudo da BS, com o lanamento da disciplina Teoria e Biologia de Sistemas pelo terico de sistemas Mihajlo
Mesarovic (1928).
A partir do trabalho destes pesquisadores, a teoria geral dos sistemas pode ser definida como a rea que estuda a organizao
abstrata de fenmenos, investigando todos
os princpios comuns a todas as entidades
complexas (no somente biolgicas) e os modelos que podem ser utilizados para a sua
descrio.
Com o avano da biologia molecular nas
dcadas que se seguiram, juntamente com o
nascimento da genmica funcional, grandes
quantidades de dados tornaram-se dispon-

veis e os bancos de dados e ferramentas de


anlise adaptaram-se ao volume crescente de
informaes, permitindo construir modelos
mais amplos, capazes de lidar com aspectos
e fenmenos inacessveis at ento. Assim
em 2000, quando o Instituto de Biologia de
Sistemas foi fundado, a biologia de sistemas
emergiu como um campo prprio, estimulado
pelo aumento de dados micos e pelos
avanos da parte experimental e da bioinformtica visando o entendimento sistemtico
da biologia. Desde ento, grupos de pesquisas
dedicados BS tm sido formados em todo o
mundo.
Para tal, a BS depende de ferramentas
interdisciplinares para obter, integrar e analisar diversos tipos de dados, exemplificados
na Tabela 1-6. Essa abordagem requer novas
tcnicas de anlise, ferramentas de informtica, mtodos experimentais e uma nova postura metodolgica, articulando partes
normalmente estudadas separadamente.

6.2. Biologia de Sistemas


Em suas anlises, a BS relaciona partes
individuais de um sistema como representaes grficas de conjuntos de ns ou vrtices
(V), conectados entre si por conectores ou
arestas (E, do ingls edge). Os ns podem representar indivduos, protenas ou mesmo lugares,
enquanto
que
os
conectores
representam a conexo que est presente
entre cada par de ns. Esta representao
grfica denominada de rede.
Muitos exemplos de rede podem ser citados, como redes de cadeia alimentar, amplamente aplicadas na ecologia, redes neurais
e de interao proteica usadas na biologia e
cincias mdicas, alm da prpria World Wide
Web, que representa uma das maiores redes
funcionais no mundo da comunicao e informtica.
A anlise matemtica de redes denominada de teoria de grafos, e consiste em um
dos principais objetos de estudo da matemtica discreta. Desta forma, o termo rede
representa as interaes funcionais de um
sistema, enquanto que o termo grafo enfa-

6. Biologia de Sistemas

Tabela 1-6: Ferramentas utilizadas no estudo da BS.


Bioinformtica

Funes biolgicas por meio de ferramentas da informtica

Genmica

Sequncias de DNA

Transcriptmica

Transcritos

Protemica

Protenas

Interatmica

Interaes proteicas

Interfermica/
microRNmica

RNAi/miRNA

Epigenmica

Modificaes na cromatina e no DNA

Metabolmica

Metablitos

Fluxmica

Alteraes dinmicas de molculas dentro de uma clula ao longo do tempo

Bimica

Bioma

Glicmica

Totalidade de carboidratos

Farmacogenmica

Genes que definem o comportamento da droga

Nutrigenmica

Relao entre a dieta e os genes individuais

Toxicogenmica

Estrutura e atividade do genoma e os efeitos biolgicos adversos na


exposio a xenobiticos

Imunmica

Funo molecular associada aos transcritos de RNAm relacionados


resposta imune

tiza as anlises matemticas deste sistema.


Neste captulo, contudo, usaremos ambos os
termos como sinnimos.
Historicamente, a teoria de grafos foi
desenvolvida em 1736 pelo matemtico suo
Leonard Euler na resoluo do problema das
sete pontes de Knigsberg, atualmente conhecida como Kaliningrado, na Rssia. A cidade de Knigsberg atravessada pelo Rio
Pregel e consiste de duas grandes ilhas que
eram conectadas entre si e com as margens
opostas por sete pontes (Figura 1A-6). O problema apresentado a Euler consistia em descobrir
como
caminhar
pela
cidade
atravessando cada ponte apenas uma vez. A
tcnica desenvolvida pelo matemtico suo
foi adaptar o mapa de Knigsberg, transformando as margens e ilhas em ns e as pontes
em conectores (Figura 1B-6). Euler submeteu
a rede que desenvolveu a anlises matemti-

cas, porm no encontrou soluo para o


problema. Contudo, a metodologia de anlise
de Euler foi um marco histrico na anlise de
problemas combinatrios, alm de estabelecer o conceito de topologia que usado em
BS (ver adiante).
O emprego da teoria de grafos e suas
aplicaes tm apresentado um crescimento
explosivo devido a sua multidisciplinaridade e
ao seu conceito de modelo que permite estudar um objeto especfico sem negligenciar o
meio em que este objeto se encontra. Por
exemplo, possvel estudar determinado
frmaco considerando a atividade que diversos compostos e enzimas poderiam exercer
sobre ele. Nesses estudos pode-se construir
uma rede onde os ns representam compostos e enzimas e os conectores representam
se h ou no relao entre eles, permitindo
analisar:

6. Biologia de Sistemas

quentemente empregados em BS.


Uma rede (ou grafo) G = (V, E) representa uma combinao de ns (V) e conectores (E) que ligam os ns. Em uma rede, o
conjunto de seus ns denotado por V(G),
enquanto o conjunto de seus conectores por
E(G). Dessa forma, o nmero total de ns em
G representado por n, e o nmero total de
conectores representado por m:
n(G) = |V(G)| e m(G) = |E(G)|
Adicionalmente, conforme apresentado
na Figura 2A-6, um conector E deve apresentar suas extremidades ligadas aos ns a e b (a
V e b V), sendo chamado eab, E(a, b) ou
apenas ab. Este conector pode ser representado da seguinte forma:
E = {(a, b) | a, b V}
As redes podem apresentar conectores
diretos, ou seja, um conector orientado em
determinada direo (exemplo ab, bc),
sendo assim chamadas de redes direcionadas
Figura 1-6: (A) Representao parcial do mapa
de Knigsberg e suas setes pontes. (B)
Ilustrao da rede desenvolvida por Euler.
i) a conectividade dos compostos ou enzimas, ou seja, que tipo de relao duas
molculas aleatrias podem apresentar
na rede;
ii) a centralidade, que caracteriza as
molculas que apresentam maior influncia sob a ao do frmaco em
questo.

Conceitos bsicos de grafos


Considerando-se a estreita relao entre a BS e a teoria de grafos, alguns conceitos
matemticos podem nos ajudar a entender e
empregar esta rea do conhecimento com
maior domnio e propriedade. Assim, prosseguiremos com uma breve introduo sobre
teoria de grafos e estrutura de rede, apresentando alguns descritores matemticos fre-

Figura 2-6: Em (A) a representao da


interao de dois ns vizinhos (V = a, b)
conectados pelo conector E(a, b). Em (B) a
rede pode ser descrita como V = {a, b, c, d, e}
e E = {ab, bc, cd, de}, com n = 5 (5 ns de a a
e) e m = 4 (4 conectores de 1 a 4).

6. Biologia de Sistemas

Figura 3-6: (A) Rede direta; (B) Representao da via de degradao ubiquitina-proteassoma, um
dos inmeros tipos de redes direcionadas encontradas em sistemas biolgicos.
ou dgrafos (Figura 3A-6). Nos conectores E =
(a, b) e E = (b, c), podemos dizer que a antecessor a b, e b antecessor a c. Da mesma
forma, b sucessor de a e c sucessor de b.
Um dgrafo definido por G = (V, E, f), sendo f
uma funo que associa cada elemento E a
um par ordenado de ns em V. Uma rede representando os mecanismos de degradao
ubiquitina-proteassoma de uma determinada
protena pode ser um exemplo de rede direta
aps o reconhecimento da protena ubiquitina-

da por proteassomas, uma vez que no


possvel reverter a degradao da protena
(Figura 3B-6).
Podem tambm existir redes no direcionadas (Figura 4A-6), que apresentam conectores orientados em ambas as direes
(ab, bc), no sendo possvel assim estabelecer antecessor ou sucessor. Um exemplo
tpico seria a reao reversvel de um substrato A para um substrato B em uma via metablica como, por exemplo, a formao de

Figura 4-6: (A) Rede no direcionada; (B) Reao reversa de fosforilao e desfosforilao de
adenosina difosfato, representando um exemplo de redes no direcionadas em sistemas
biolgicos.

6. Biologia de Sistemas

diferentes molculas fosforiladas de adenosina conforme a reao AMPADPATP (Figura 4B-6).


Em alguns casos, podem existir dois ou
mais conectores que ligam os mesmos ns
na rede. Esse tipo de interao chamado
multiconector, onde diferentes informaes
so representadas por cada conector, caracterizando assim um multidgrafo (Figura 5-6).

Ao analisarmos uma matriz devemos considerar


cada n como uma coluna e uma linha distinta. Na anlise da primeira matriz iremos interpor o n representado na linha 1 (n a) com o n representado na coluna
1 (n a) da mesma forma que as tabelas representadas
na Figura 6-6, e como no h interao de a com a, nos
referimos como 0. Da mesma forma, se consideramos
a linha 1 (n a) e a coluna 2 (n b), h conexo, sendo
representado por 1. Perceba que as matrizes so diferentes na rede direcionada e no direcionada devido
atribuio de uma conexo direcionada. Na matriz direcionada, tanto b est conectado a c quanto c est conectado a b. Contudo, na matriz no direcionada,
somente c est conectado a b.
Tambm podemos definir uma rede como completa
se E(G) = V(G)(2), isto , se dois ns selecionados aleatoriamente na rede G so adjacentes. Assim, uma rede
completa tem n ns e representada por Kn, sendo o
nmero de conectores em Kn representado por
.

Figura 5-6: Multidgrafo G = (V, E), onde V = {a,


b, c, d} e E = {ab, ac, ca, cb, cd}.
Observa-se, assim, que as redes apresentam interaes entre os ns e que essas interaes so delimitadas pelos conectores. Portanto, se E = (a, b), logo os
ns a e b so vizinhos ou adjacentes, e E(a, b) incidente aos ns a e b, lembrando que E(a, b) se refere ao
conector.
Uma das formas de representar e descrever tais interaes entre os ns de uma determinada rede envolve o uso de matrizes. Assim, se considerarmos uma
rede G contendo os ns va, ... vn a matriz que descreve
os elementos adjacentes em G dada por:

As tabelas representadas na Figura 6-6 so um


mecanismo visual para compreender como a matriz de
uma rede elaborada, tanto para redes no direcionadas (Figura 6A-6) quanto direcionadas (Figura 6B-6).
Para as redes no direcionada (Figura 6A-6) e direcionada (Figura 6B-6), as matrizes so representadas
abaixo:

Figura 6-6: (A) Rede no direcionada G = (V,


E), onde V = {a, b, c, d} e E = {ab, bc, cd} ou E =
{ba, cb, dc}, representados tambm na tabela
pelo nmero 1, que indica a presena de um
conector entre dois ns, exemplo E = {ab, ba}
= 1. A ausncia do conector entre dois ns
representada por 0. (B) Rede direcionada G =
(V, E), onde V = {a, b, c, d} e E = {ca, cb, dc}.
Neste caso, a tabela de interaes muda
devido ao direcionamento das conexes, por
exemplo E = {ca} = 1, mas E = {ac} = 0.

6. Biologia de Sistemas

O conjunto de ns e conectores de uma


rede pode ser apresentado em uma representao mais complexa e informativa, agregando pesos (atributos) associados aos ns e
conectores (Figura 7-6). Redes que apresentam ns e conectores com atributos so chamadas de redes ponderadas (G,w), onde G =
(V,E) e w = V, E R, sendo R o conjunto dos
nmeros reais e w correspondente funo
atributo. Por exemplo, pode-se representar
uma rede neural onde o atributo indica a distncia que um sinal neural deve percorrer em
relao ao local de origem. Assim, se P uma
trajetria na rede, w(P) considerada a extenso de P. Redes ponderadas so amplamente usadas na bioinformtica, onde
G,w(a,b) pode representar a quantidade e a fidelidade de informaes armazenadas em
bancos de dados a respeito da interao entre
a e b (Figura 7-6).
Tambm podemos nos referir a uma rede como bipartida (Figura 8-6) onde, em G =
(V, E), V pode ser dividido em Vx e Vy. Assim,
cada n de Vx adjacente aos vrtices de Vy.
Desta forma, se consideramos E (a, b) signifi-

ca que a Vx, enquanto que b Vy ou a Vy e


b Vx. A aplicao de redes bipartidas na
modelagem de redes biolgicas pode ser vista
em vrios contextos, desde a anlise de gentipos e SNPs (single-nucleotide polymorphism) em diferentes populaes at a
representao de conexes ecolgicas e reaes enzimticas em vias metablicas.
O modelo de redes visto at agora, na
qual um conector se liga a dois ns, apesar de
amplamente utilizado na avaliao da conectividade de redes biolgicas, pode ser uma
representao simplista quando se trata de
redes metablicas. A organizao biolgica
que caracteriza as redes metablicas em um
contexto bioqumico consiste de complexas
interaes, frequentemente envolvendo diversos substratos e produtos. Para melhor
representar a complexidade de reaes bioqumicas, usam-se redes conhecidas como
hipergrafos (Figura 9-6).
Os hipergrafos so caracterizados pela
presena de hipervrtices, que conectam mais
de dois ns com propriedades distintas (Figu-

Figura 7-6: Representao de uma rede


ponderada descrevendo: i) diferentes tipos de
ns, onde cada cor representa diferentes
famlias de protenas (por exemplo, os ns
verdes representam serina/treonina cinases,
ns azuis representam cinases dependentes
de ciclinas e ns laranjas representam as
tirosina cinases); ii) diferentes tamanhos de
ns, com atributo w(a), representando o
nmero de artigos w que citam a protena a; e
iii) a espessura do conector y, representando
a fidelidade w da interao entre duas
protenas distintas.

Figura 8-6: Representao de uma rede


bipartida, onde os ns cinzas e brancos
representam diferentes grupos de uma
anlise. Por exemplo, cada grupo pode
representar duas linhagens diferentes de E.
coli.
Para
avaliar
a
eficincia
de
transformao das linhagens, estas foram
divididas em quatro amostras (representadas
pelos ns) e cada amostra foi incubada com
diferentes
plasmdeos.
Os
conectores
apresentam os plasmdeos que obtiveram
sucesso na transformao e so comuns
entre as duas linhagens.

6. Biologia de Sistemas

E) nada mais so que uma rede G1 = (V1, E1),


onde V1 V e E1 E.

6.3. Estrutura de redes

Figura 9-6: Representao de um hipergrafo.


As regies destacadas em vrias cores
caracterizam as diferentes propriedades ou
atividades bioqumicas representadas na rede.
Assim, cada cor estaria representando
diferentes vias metablicas (A, B e C). Os ns
da rede indicam componentes presentes em
cada uma das vias metablicas e/ou
participando de vias distintas nas regies
intersectadas.
ra 9-6). Assim, os hipergrafos so frequentemente usados em organizaes bioqumicas,
devido interseco de componentes com
atividades em diferentes rotas metablicas.
Geralmente, as redes biolgicas so extensas, apresentando um grande nmero de ns.
Contudo, anlises estatsticas indicam que,
dentro de uma rede maior (Figura 10A-6), podem existir redes menores que participam da
composio geral e possuem maior conectividade entre si quando comparados rede maior (Figura 10B-6). Essas subredes de G = (V,

Uma das caractersticas de uma rede


sua conectividade (tambm referida como
grau de n), sendo a conectividade total de
uma rede definida por C = E / N (N - 1), onde E
representa o nmero de conectores e N o nmero total de ns.
Considere os ns Va e Ve de uma rede.
Representamos como um dos possveis caminhos de Va a Ve os vrtices Vb, Vc e Vd, formando um conector a cada dois vrtices
sucessivos, caracterizados por E1, E8, E4, E7
(Figura 11-6). O n que originou o caminho
chamado de n inicial, enquanto que o ltimo
n do caminho chamado de n final. Um caminho onde o n inicial coincide com o n final,
sem
repeties
de
conexes
intermedirias, chamado de circuito. Usando
a mesma rede da Figura 11-6, <d, b, c, e, d>
formam um circuito. O comprimento de um
caminho ou circuito consiste do nmero de
conectores que pertencem ao caminho (ou
circuito) ou, no caso de uma rede ponderada,
pela soma dos atributos (ou pesos) dos conectores.

Figura 11-6: Esquema representando uma


rede, onde V = {a, b, c, d, e} e E = {E1, E2, E3, E4,
E5, E6, E7, E8}.

Figura 10-6: (A) Rede de interaes protenaprotena representando em laranja a subrede,


o qual foi destacada em (B).

Um caminho de comprimento k tem exatamente k +


1 ns, enquanto que um circuito de comprimento k tem
k = v ns. Se calcularmos o comprimento de Va a Ve,
com caminho E1, E8, E4, E7 temos k = 4 conectores com
4 + 1 ns. Para o circuito <d, b, c, e, d> que tem como
caminho E6, E8, E3, E7 temos k = 4 conectores, com
quatro ns diferentes.

6. Biologia de Sistemas

Uma importante anlise em uma rede


consiste em caracteriz-la conforme sua distribuio de caminhos geodsicos. Um caminho geodsico definido como a via mais
curta dentro de uma rede entre dois ns
quaisquer (i e j), sendo representado por (i,
j) em G. Um bom exemplo disso o experimento realizado por Stanley Milgram em
1960, onde cartas foram enviadas a indivduos aleatoriamente. A misso de cada indivduo
era enviar a sua carta a algum que considerasse capaz de fazer com que as cartas chegassem ao seu destino final.
Essa experincia relativamente simples
conclui que existem aproximadamente seis
graus de separao entre dois indivduos
quaisquer no mundo. Da mesma forma, esse
experimento foi a primeira demonstrao
significativa do efeito "mundo pequeno" (ou
do ingls, small world), que estabelece que as
redes apresentam ns conectados entre si
formando um caminho mais curto entre todos os ns.

suas propriedades, como veremos adiante.


Por exemplo, ao analisarmos a rede de interao de uma doena contagiosa, a possibilidade desta doena at ento controlada
tornar-se uma epidemia depende principalmente de duas variveis: o tipo de agente infeccioso e a alta densidade de conexes (rotas
de transmisso). O procedimento de quarentena (isolamento) quando um determinado
indivduo apresenta os sintomas da doena
justamente reduzir a conectividade da rede de
transmisso.
Alguns modelos de rede (como as redes
de livre escala e hierrquica, discutidas adiante no item 6.5.) podem apresentar clusterizao, isto , os ns tendem a se agrupar.
Isso significa que se um n A se liga ao n B, e
o n B se liga ao n C, ento h grandes
chances de A se ligar a C tambm. Assim, a
rede composta de centenas de tringulos,
ou seja, grupos de trs ns conectados entre
si, onde cada lateral de um tringulo pode
pertencer a outro tringulo.

O comprimento mdio de caminhos entre os ns (i,


j) definido pelo valor mdio de conectores entre os
ns e pode ser calculado por:

Podemos quantificar a frao de triplos ns que


apresentam um terceiro conector preenchendo um tringulo pelo coeficiente de clusterizao:

assumindo-se que min (i, j) o caminho mais curto entre os ns i e j, sendo N o nmero total de ns. Adicionalmente, o dimetro da rede definido como:

Na equao, o nmero trs presente no numerador


devido ao fato que cada lateral de um tringulo contribui com outros trs triplos ns, alm de garantir que
C seja 0 C 1. Dessa forma, o coeficiente de clusterizao avalia a probabilidade dos ns i e j serem vizinhos, j que ambos so vizinhos do n h. Assim, o
coeficiente de clusterizao local de um n i pode ser
determinado por:

e representa o maior comprimento entre dois ns. Estudos recentes tm revelado que redes biomoleculares, sociais e tecnolgicas apresentam valores de
comprimento mdio de caminhos e dimetro relativamente pequenos se comparados ao tamanho da rede,
apresentando ordem de grandeza log (n) ou menor
quando o tamanho da rede n. Da mesma forma, a
densidade de uma rede calculada com base no nmero de conexes que cada n possui, sendo definida
como:

Avaliar a densidade de uma rede representa avaliar o nvel de conectividade, tornando-se muito importante na definio de

onde um n i tem k vizinhos com e conexes entre eles.


Contudo, pode-se tambm atribuir o coeficiente de
clusterizao mdia para a rede total, sendo definido
por:

Ao analisarmos uma rede de processos biolgicos,


notamos que esta apresenta um maior coeficiente de
clusterizao mdia quando comparado a uma rede
aleatria. Isso possivelmente se deve ao fato de pro-

6. Biologia de Sistemas

cessos celulares ocorrerem de forma dependente da


organizao de diversos subconjuntos (clusters) de biomolculas.
Em uma rede consideramos como sendo o grau de
um n o nmero de conectores k que incidem a este
n. Assim, a distribuio do grau P(k) definida por ser
uma frao de ns com grau k dentro de uma rede.
Ento sendo k = 0, 1, 2,... P(k) indica a probabilidade de
determinado n ter grau k. A distribuio de grau definida por:

onde temos n ns na totalidade da rede e nk representa


a quantidade de ns com grau k.
Uma rede aleatria que apresenta n ns conectados
ou no com probabilidade p, tem uma distribuio binominal de grau com parmetros N - 1 e p:

Outras redes, no entanto, tem distribuio de grau


bem diferente. Redes de livre escala (como a maioria
das redes biolgicas) apresentam distribuio do grau
que segue uma Lei de Potncia P(k) ~k-, >1 (ver adiante).
Outra estimativa numrica pode ser feita, a funo
de distribuio cumulativa avalia a probabilidade de
um n ter um grau maior do que k:

Agora, o que aconteceria se, por acaso,


resolvessemos excluir alguns poucos ns da
rede? Certamente iramos alterar o comprimento de alguns caminhos e circuitos da rede
de forma pouco significativa. Contudo, se
formos excluindo mais ns, progressivamente, veremos que a comunicao da rede fica
cada vez mais esparsa, at se tornar desconectada. A capacidade de uma rede de tolerar
a deleo de ns chamada de resilincia.
Em 2000, um estudo conduzido por Albert-Lszl Barabsi e colaboradores mostrou que a Internet pode ser altamente
resiliente na remoo de ns aleatrios. Isso
se deve ao fato de que a quantidade de ns
com baixo grau de interao maior em uma
rede do que ns com alto grau de interao.
Em compensao, se a remoo iniciar a partir dos ns com mais alto grau de interao, a

alterao ser brusca. Neste caso, observase um aumento da distncia entre os ns, de
forma que apenas poucos ns precisam ser
removidos para destruir a comunicao da
rede. Assim, fica claro que a Internet apresenta baixa resilincia na remoo de ns
com alto grau, tornando-se vulnervel a ataques de hackers.
Outro exemplo seriam as redes de interao protena-protena. Estas redes geralmente apresentam muitas protenas com
poucas interaes e algumas protenas possuindo muitas interaes (chamadas de hubs,
ver adiante). Desta forma, redes de interao
protena-protena so resilientes deleo de
ns aleatrios, porm extremamente vulnerveis a ataques em protenas hubs.
Os ns de uma determinada rede podem apresentar tendncias de conexo. Em
outras palavras, duas redes completamente
diferentes topologicamente podem apresentar a mesma distribuio do grau. Assim, em
uma rede preciso considerar o padro de
correlao do grau dos ns, onde a conectividade de um n reflete nas suas possibilidades
de ligao.
A tendncia de conexo que uma rede
apresenta pode ser chamada de assortatividade e desassortatividade. A assortatividade
significa que os ns de uma rede apresentam
uma tendncia a interagirem com outros ns
semelhantes, por exemplo, ns do tipo A interagem preferencialmente com ns tambm
do tipo A (Figura 12A-6). Vrtices com alto
grau tendem a interagir com vrtices que
tambm apresentam alto grau. No entanto,
chamamos de desassortatividade se os ns
de uma rede interagem preferencialmente
com ns diferentes dele mesmo, por exemplo, ns do tipo A tendem a interagir com ns
do tipo B. Neste caso, um n com alto grau
tem tendncia a interagir com ns que apresentem baixo grau (Figura 12B-6).
A correlao de grau dos ns i e j feita por distribuio de probabilidade conjunta P(ki, kj) = P(ki) P(kj).
Podemos ainda calcular a assortatividade ou desassortatividade da rede como um todo, considerando:

6. Biologia de Sistemas

Se r = 1 a rede considerada assortativa, enquanto


que se r = -1, a rede completamente desassortativa.

Caracteristicamente, redes assortativas


so mais resilientes e apresentam hubs bem
conectados, enquanto que redes desassortativas so redes mais vulnerveis com ns conexos a hubs esparsos (Figura 12-6).
A conectividade de uma rede tambm
pode ser avaliada pela teoria da percolao.
Essa teoria tem por objetivo estudar a conectividade da rede pela avaliao de sua arquitetura, caracterizando a distribuio do
tamanho dos clusters e descrevendo como
ocorre a transferncia de informaes, por
exemplo, de A para B.
Redes aleatrias caracteristicamente
apresentam baixa tendncia em possuir pequenos clusters isolados e uma grande probabilidade em formar um componente
conectado gigante. Como visto anteriormente,
determinadas redes so altamente resilentes
deleo aleatria de ns. A variao na frao dos ns no maior componente da rede
(componente gigante) a forma mais fcil de

calcular a resilincia. Imagine dois ns conectados na rede. Se estes ns pertencem a um


componente gigante, h grande probabilidade
de se comunicarem com uma extensa proporo de ns da rede. No entanto, ns que
participam de pequenos componentes comunicam-se apenas com uma parte reduzida da
rede. Essa capacidade de comunicao responsvel pela forma como a informao
transferida de um ponto a outro. Assim, associamos a resilincia com a percolao local
(refere-se aos ns), enquanto que a percolao de ligao (refere-se aos conectores) est relacionada ao processo de disperso
(Figura 13A-6).
Tambm podemos considerar os ns de
uma rede como ocupados (funcionais) ou desocupados (falhos), dependendo da sua funcionalidade. A probabilidade de um n estar
ou no ocupado pode ser uniforme ou pode
depender do grau do n, sendo que os ns
funcionais da rede formam o componente gigante em um modelo de percolao. Assim,
os ns ou conectores falhos no participam
da transferncia de informao, e igualmente,
no participam do componente gigante (Figura 13B-6). Dessa forma, ao observar a propri-

Figura 12-6: Ilustrao representando em (A) uma rede assortativa com ns bem conectados
que apresentam conexes com outros ns tambm fortemente conectados. Em (B), uma rede
desassortativa, onde os poucos ns que apresentam mais conexes interagem com ns menos
conectados, resultando em uma rede menos densa.

6. Biologia de Sistemas

Levando em conta este modelo, o incio de


uma epidemia representa a transio de percolao.
Apesar de ter sido originalmente desenvolvida com o objetivo de responder s
perguntas em qumica orgnica, os modelos
de percolao tm sido usados com sucesso
para estudar diversos fenmenos, como
transferncia de sinal em neurnios e condutividade eltrica. Em 1987, Robert H. Gardner
foi um dos primeiros pesquisadores a usar a
teoria de percolao na Ecologia da Paisagem,
sendo til tambm na avaliao de corredores ecolgicos e redes de incndios florestais.

Figura 13-6: (A) Redes de percolao local e


de ligao, onde os ns slidos esto
ocupados ou funcionais, enquanto que os ns
brancos so desocupados ou falhos. (B)
Representao do componente gigante. Aps
o surgimento de ns e conectores falhos, sua
proporo alterada e, por conseguinte, as
possibilidades
de
transferncia
de
informaes.
edade de percolao de um cluster, considerando uma probabilidade de ocupao varivel, podemos determinar que isso afeta
diretamente a conectividade de uma rede,
tornando-a altamente resiliente ou no. Porm, ao combinarmos a percolao local e de
ligao, teremos um modelo robusto contra
falhas de ns ou conectores.
Os modelos de percolao so utilizados
em muitas redes, porm um dos modelos
mais interessante o da disperso de uma
doena. Nesse modelo, cada n representa o
hospedeiro e os conectores representam a
capacidade de transmisso da doena entre
um hospedeiro e outro. O n (indivduo hospedeiro) est ocupado se for suscetvel doena, enquanto que um n que representa um
indivduo que tomou a vacina seria considerado como desocupado. Da mesma forma, os
conectores so considerados ocupados se h
possibilidade de transmisso (Figura 14-6).

Figura 14-6: Modelo simplificado de disperso


de uma doena considerando um grupo de
trabalho em uma empresa. Suponhamos que
o indivduo central contraiu uma doena viral
de fcil transmisso, como a gripe simples.
Assim, todos os indivduos com os quais ele
entrou em contato neste perodo tambm
contraram a doena (ns azuis), com exceo
daqueles que foram vacinados (ns brancos).
Neste caso, alm de no contrarem a doena,
tambm no a dispersaram. Os conectores
pontilhados indicam que no houve interao
fsica durante o perodo passvel de contrair a
doena entre o indivduo saudvel com o
contaminado. Desta maneira, os indivduos
representados pelo n verde claro, apesar de
no terem sido vacinados, no contraram a
doena por no entrarem em contato com
indivduos contaminados.

6. Biologia de Sistemas

6.4. Propriedades de rede


Diversas propriedades so regularmente empregadas na anlise de redes biolgicas,
cada uma fornecendo informao sobre as
interaes e/ou componentes de um determinado sistema. Estas propriedades podem
ser referentes a ns individuais, isto , grau de
n ou node degree, ou podem contemplar a
rede como um todo como , por exemplo, o
caso da modularizao e do dimetro da rede.
Em uma anlise de biologia de sistemas,
a anlise estatstica destas propriedades possui papel crtico na gerao de dados conclusivos e confiveis, constituindo-se assim em
redes capazes de descrever com alto grau de
fidelidade um determinado modelo biolgico,
de identificar alvos proteicos crticos na rede
ou no desenvolvimento de caminhos moleculares.

Modularidade
Uma das principais caractersticas
quando nos referimos a propriedades da topologia de redes a chamada modularidade
ou clusterizao. O conceito de modularidade
antigo e j amplamente usado em outras
reas do conhecimento, como nas cincias
sociais. Dentro das cincias biolgicas, um
conceito comum nas reas da biologia evolutiva, biologia molecular, biologia de sistemas e
biologia do desenvolvimento.
Todas as ideias de modularidade giram
em torno do conceito de padres de conectividade, onde seus elementos constituintes
esto agrupados em subconjuntos altamente
conectados. De forma geral, a modularidade
um princpio de unio entre diferentes tipos de
elementos e conexes naturalmente formadas no meio biolgico, como na interao entre indivduos de mesma espcie. Um exemplo
a Pollenia rudis, uma espcie de mosca conhecida como cluster fly em decorrncia de
seu hbito de se agrupar com indivduos da
mesma espcie.
Este princpio visto em todos os lugares, seja na nossa tendncia de formar sociedades e grupos preferenciais de interao

interpessoais ou na nossa tendncia de organizar objetos por seu tipo, funo e cores,
dentre outros. Em nvel molecular visto, por
exemplo, em elementos que atuam num
mesmo processo biolgico, como conjuntos
de molculas de RNA responsveis pela degradao e sntese de cidos nucleicos ou
grupos de protenas que atuam num mesmo
processo biolgico como a replicao de DNA
e a transcrio gnica.
Existem dois tipos distintos de mdulos:
i) Mdulo Variacional: apresenta caractersticas que variam entre seus componentes
e
so
relativamente
independentes de outros mdulos, porm possuem um nmero considervel
de ligaes com outros mdulos;
ii) Mdulo Funcional: possui elementos
que normalmente atuam juntos em alguma funo fisiolgica distinta e so
semiautnomos (quasi-autonomous) de
outros mdulos. Esses mdulos compreendem a maioria dos mdulos vistos
em redes biolgicas.
Mdulos variacionais podem ser exemplificados na Figura 15B-6 e C, representando
a formao de uma mandbula de rato. Apesar de se tratar da diferenciao de um tecido, podemos us-la como modelo variacional
devido ao fato de diferentes protenas e genes
serem responsveis pela formao de uma
unidade estrutural nica (o ramo ascendente
e da regio alveolar). Desta maneira, uma
unidade estrutural (um nico osso) que se
origina de diferentes mdulos. Assim, o mdulo variacional consiste numa integrao de
vrios de genes que dividem efeitos pleiotrpicos entre si e que possuem poucos efeitos
pleiotrpicos com outros clusters, sendo
praticamente independente.
Mdulos de genes de desenvolvimento
embrionrio, relacionados diferenciao ou
formao de padres corporais, tendem a ser
quase independentes de outros mdulos, uma
vez que erros na sua expresso ou atuao
podem ser letais para o embrio. Por isso,
esses mdulos de desenvolvimento tendem a
depender de elementos dentro do prprio

6. Biologia de Sistemas

grupo para sua expresso. Podemos visualizar um exemplo de um mdulo funcional na


Figura 15A-6.

tra-mdulo), ou seja, ligadas no mesmo


tempo e/ou espao,
ii) date hubs, que so hubs que se ligam
a diferentes protenas em diferentes
mdulos (inter-mdulo), ou seja, diferentes tempo e/ou espaos, consequentemente apresentando um papel
global na rede (Figura 16-6). Estes termos podem ainda receber denominaes especficas no contexto do
conceito de centralidades (ver adiante).

Figura 15-6: Exemplos de uma rede com


diferentes mdulos representados. Os
mdulos variacionais B (azul) e C (verde) se
encontram praticamente independentes do
mdulo A (vermelho), porm possuem
protenas em comuns entre si. Contudo, o
mdulo A pode ser considerado funcional,
uma vez que possui apenas uma conexo com
cada outro mdulo, sendo praticamente
independente.
Ao determinarmos a quantidade e o tipo
de mdulos presentes em uma rede devemos
levar em considerao o coeficiente de agrupamento (Ci) ou clusterizao. O coeficiente
analisa a tendncia de um n de se associar
com seus vizinhos (cliquishness), onde "clique definido como um grafo maximamente
conectado.
Como mencionado anteriormente, a clusterizao
dada pela frmula Ci=2n/ki(ki-1), onde ki o tamanho da
vizinhana de vrtices (ns) do vrtice i, e n o nmero
de conectores na vizinhana. Assim, quanto maior o
coeficiente de clusterizao, mais conectado o cluster. Evolutivamente, as protenas que compem mdulos altamente agrupados tendem a ser conservadas ou
perdidas juntamente, caso haja uma variao dentro do
grupo.

Outro conceito essencial para entender


a formao de um cluster em um sistema biolgico a presena de hubs. Os hubs podem
ser classificados em dois grupos:
i) party hubs, protenas altamente ligadas dentro do seu prprio mdulo (in-

Figura 16-6: Diferentes tipos de centralidade


em uma rede biolgica. Em verde so apresentadas protenas envolvidas em party hubs
e encontradas em mdulos. Em amarelo
encontram-se as protenas no-hub/nogargalo, que so aquelas que no possuem
alto valor de grau de n ou betweenness,
sendo consideradas componentes funcionais
dos mdulos. Em azul esto as protenas hubgargalo (date-hub) que possuem alto valor de
grau de n e de betweenness, sendo
consideradas
fundamentais
para
o
funcionamento de redes. Em vermelho esto
identificadas as protenas do tipo gargalo,
com alto valor de betweenness e essenciais
na ligao entre mdulos e processos
biolgicos.
Os party hubs so componentes clssicos de mdulos funcionais, uma vez que estes
so quase independentes de outros mdulos,
enquanto date hubs so fundamentais para
mdulos variacionais, pois estes se ligam a

6. Biologia de Sistemas

outros mdulos.
Assim, uma mutao em um party hub
vai afetar principalmente as protenas referentes ao seu prprio mdulo, enquanto a
mutao em um date hub (Figura 16-6) pode
afetar vrios mdulos. Contudo, no existe
diferena de importncia entre party ou date
hub. A deleo de um hub em um mdulo
funcional pode ser to letal quanto a deleo
em um mdulo variacional.
Baseado em dados estruturais, os hubs
podem ser ainda classificados em singlish
(com uma ou duas interfaces) e multi-interface (com mais de duas interfaces). Hubs com
interface singlish somente se ligam a outras
protenas de maneira alternada e transitria,
enquanto hubs multi-interface se ligam a diferentes protenas concomitantemente.

Ontologias Gnicas
Nos ltimos anos, o desenvolvimento e
uso de tcnicas de anlise como microarranjos, ChIP-chip e espectrometria de massas e
suas aplicaes no estudo de cada vez mais
organismos gerou um grande acmulo de dados genmicos e protemicos. A leitura e interpretao simples e concisa destes vem
requerendo o desenvolvimento de novas
abordagens, contexto no qual, em 1990, foi
criado o chamado Gene Ontology Project.
Ontologia gnica refere-se ao produto
de um determinado gene e funo que ele
desempenha na maquinaria celular. So classificadas em trs nveis hierrquicos:
i) Componente celular, descrevendo a
localizao da protena na clula;
ii) Processo biolgico, referindo-se
srie de eventos realizados por uma ou
mais funes celulares;
iii) Funo molecular, descrevendo a
atividade que uma dada protena desempenha no meio celular.
Essas informaes so guardadas em
forma de anotaes ontolgicas, onde cada
uma possui um nmero de identificao e se
encontram disponveis em bancos de dados
como www.geneontology.org.

Da mesma forma, essas anotaes no


so restritas a humanos, mas abrangem diversos organismos modelo como Mus
musculus, Gallus gallus, Saccharomyces
cerevisiae,
Caenohabditis
elegans
e
Escherichia coli, alm de outros organismos
no-modelo mas que j possuem alguma
anotao.
De um modo geral, a ontologia gnica
tem como funo, em uma rede de interao
protena-protena, agrupar protenas que faam parte de um mesmo processo biolgico.
Em biologia de sistemas o emprego de ontologias gnicas pode se mostrar muito til para direcionar a anlise da rede, possibilitando
a verificao dos tipos de processos biolgicos existentes na rede e das protenas presentes. Um modelo hipottico de como uma
rede poderia se apresentar em termos de ontologias gnicas se encontra na Figura 17-6,
onde diferentes ns poderiam estar relacionados a diversos processos.

Figura 17-6: Modelo hipottico da presena de


ontologias gnicas em uma rede. Na figura
acima, cada cor representa um processo
identificado. importante ressaltar que uma
protena pode estar presente em mais de uma
ontologia. Da mesma forma, uma ontologia
pode estar dentro de outra. Como por
exemplo, o quadrado amarelo poderia
significar transcrio, enquanto o quadrado
azul claro (inserido no amarelo) poderia
significar apenas o complexo de iniciao da
RNA polimerase II.
A Figura 18-6 mostra um exemplo de
aplicao de ontologias gnicas em uma rede
biolgica. Nessa anlise foi utilizado o programa Biological Network Gene Ontology

6. Biologia de Sistemas

(BiNGO) 2.44, um plug-in do programa


Cytoscape. possvel, assim, identificar protenas ou genes com efeitos pleiotrpicos, a
saber: a protena Tp53, a protena breast cancer 1 (BRCA1) e a protena bloom syndrome
protein (BLM), as quais se encontram nas trs
ontologias da rede (reparo de DNA, regulao
positiva da transcrio e ciclo celular).

Figura 18-6: Exemplo de uma rede analisada


pelo plugin BiNGO 2.44, o qual analisa as
principais ontologias gnicas. A rede mostra
trs processos biolgicos (GOs): i) Regulao
do ciclo celular (ns de cor laranja); ii)
Regulao positiva da transcrio (ns de
formato quadrado); iii) Resposta a dano de
DNA (ns com a linha azul). possvel
observar que mais de um n compe
diferentes GOs.

Centralidades para ns
Como vimos at ento, a grande vantagem da biologia de sistemas permitir a visualizao dos componentes moleculares de
um sistema biolgico de forma dinmica e
global. Contudo, quando falamos de uma rede, temos que levar em considerao todas
suas estruturas, como hubs e mdulos. Deste
modo, o objetivo da anlise de centralidades
procurar o elementos mais importantes na
topologia geral da rede.

Grau de n
Um dos parmetros bsicos de anlise
topolgica o parmetro de grau de n (ou
node degree), referente quantidade de ns
adjacentes (diretamente conectados) a outro
determinado n. Esses ns que apresentam
uma grande quantidade de conexes so chamados de hubs, os quais so conectados a
outros hubs ou ns com menos conexes (Figura 16-6). Como veremos posteriormente,
uma rede de livre escala definida por uma
lei de potenciao, o que significa que essa
rede ter poucos ns altamente conectados.
O grau de n referente ao valor distribuio
de n, P(k), que informa a probabilidade de um
n ter k conexes, conforme visto em Estrutura de redes.
Numa viso biolgica, podemos exemplificar um hub como uma protena que se liga
a vrias outras e acaba possuindo uma funo
regulatria importante na rede. Normalmente, protenas consideradas apenas hubs se
encontram dentro de mdulos. A perda de
conexes de uma protena hub pode lhe tirar
esta condio modular. Sua deleo em uma
rede de interao protena-protena poderia
afetar a ao de diversas protenas vizinhas e
at mesmo na formao de mdulos.

Betweenness
O parmetro denominado betweenness
definido como o nmero de caminhos mais
curtos que passam por um nico n, estimando a relao entre eles. Por exemplo, para calcular o valor de betweenness de um n
n calculado o nmero de caminhos mais
curtos entre i e j, e a frao deste caminhos
que passam pelo n n. Deste modo, um n n
pode ser atravessado por diversos caminhos
alternativos, que ligam i e j.
Matematicamente, o valor de betweenness dado
pela seguinte frmula:

onde ij representam caminhos geodsicos entre os


ns i e j, e ij(n) o total destes caminhos mais curtos

6. Biologia de Sistemas

que passam por n.

Por exemplo, uma protena com alto


valor de betweenness apresentaria uma elevada capacidade de interao e/ou sinalizao
com outras protenas, processos biolgicos
ou clusters. Uma protena com tais caractersticas chamada de bottleneck ou gargalo.
Na Figura 16-6, temos dois exemplos de uma
protena com alto valor de betweenness.
No existe uma maneira bvia de se encontrar protenas gargalo. Porm, possvel
que rotas de sinalizao possuam grande incidncia de protenas gargalo, uma vez que
so necessrias para sinalizao entre compartimentos e processos biolgicos distintos.
Contudo, protenas gargalo no necessariamente possuem um grande nmero de interaes com outras protenas.

Closeness
O valor de closeness pode ser entendido
como o caminho mais curto entre um n n e
todos os outros ns da rede, uma tendncia
de aproximao ou isolamento de um n (Figura 19-6). Um alto valor de closeness indica
que todos os outros ns esto prximos do
n n, enquanto que um baixo valor indicaria
que os outros ns encontram-se distantes.

Figura 19-6: Caracterizao de ns com


diferentes valores hipotticos de closeness.
Os ns em roxo, dadas as suas maiores
conectividades com a rede no geral, possuem
um valor maior de closeness, enquanto que
os ns em verde, por possurem poucas
conexes com a rede, apresentam baixo valor
de closeness.
Este parmetro dado pela frmula:

onde o valor de closeness de um n v [Clo(v)] determinado atravs do clculo e somatrio dos caminhos
mais curtos entre um n v e todos outros ns w
[dist(v,w)] dentro da rede.

Uma protena com alto valor de


closeness poderia ser considerada relevante
para muitas protenas, porm irrelevante para
outras. Em termos biolgicos, ela seria importante na regulao de muitas protenas,
porm sua atividade pode no influenciar outras. Ao compararmos essas informaes
com mdulos podemos dizer que uma rede
com uma mdia de closeness alta mais provvel de estar organizada como um mdulo
funcional, enquanto uma com baixo valor de
closeness mais provvel de estar organizada como um mdulo variacional.

Dimetro
O dimetro pode ser considerado um
dos primeiros parmetros referentes
compactao, isto , proximidade dos ns
da rede. Ele indica a distncia entre os dois
ns mais afastados entre si de uma rede.
Sendo assim, definimos que uma rede possui
um alto dimetro quando a distncia geral
entre os ns muito ampla. Quando a distncia entre os ns pequena, ento o dimetro
baixo. Deste modo, uma rede com baixo dimetro considerada mais completa, uma
vez que suas protenas esto mais interligadas entre si.
Um baixo dimetro pode indicar que as
protenas de uma determinada rede possuem
uma maior facilidade de se comunicar e/ou
influenciar umas as outras, apontando para
uma relao funcional co-evolutiva (Figura
20-6).
Os parmetros de centralidades podem
ser alterados com a adio ou deleo de ns
ou conexes na rede (Figura 21-6). Como j
mencionado, em um sistema molecular, a
perda de uma conexo pode ser considerada a
mudana de um domnio, impedindo a ligao

6. Biologia de Sistemas

Figura 20-6: Em (A) uma rede com alto


dimetro e em (B) rede com baixo dimetro.
Pelo fato dos ns da figura A estarem mais
interligados entre si, a rede considerada
mais compacta, pois seus ns mais
facilmente podem influenciar uns aos outros.
Entretanto, em B, a rede possui muito menos
conexes, portanto a deleo de um n ir
afetar a rede de um modo mais sutil.
de duas protenas ou a mudana de um produto gnico, criando protenas anormais que
no mais faro as mesmas conexes. Contudo, mudanas topolgicas nas redes biolgicas so processos normais durante a
evoluo. A deleo e a duplicao de um gene, assim como a perda de interaes, sejam
pela mudana estrutural ou de funo, so
processos muitas vezes selecionados e necessrios para sobrevivncia celular.

Centralidade para conectores


Os elementos mais informativos de uma
rede de interao podem ser avaliados atravs da anlise da centralidade. Dentre as
possveis
centralidades
avaliadas,
o
betweenness de um conector pode medir a
influncia de certos conectores no fluxo de
informaes entre os componentes da rede.
O betweenness de um conector e simplesmente o nmero de caminhos mais curtos entre pares de ns que percorrem e. Se
uma rede contm mdulos que so conectados por poucos conectores intermodulares,
ento os caminhos mais curtos entre os diferentes mdulos devem passar por estes poucos conectores. Assim, os conectores unindo
mdulos
tero
altos
valores
de
edgebetweenness (Figura 22-6).
Neste caso, os pares de ns unidos pelos conectores sero de diferentes mdulos.
Se o valor de edgebetweenness de um co-

Figura 21-6: Modificaes na topologia de


rede podem alterar as centralidades. Devido
perda de conexes com ns fora do mdulo,
os ns marcados pelos quadrados foram
transformados em party-hubs (ns verdes),
deixando de ser hubs-gargalos (ns azuis).
Porm, marcados pelos quadrados pontilhados, h ns que alm de ganharem conexes,
passaram a se ligar a outros mdulos, saindo
do estado de no-hub/no-gargalo para hubgargalo (ns amarelos). Marcados por crculos, os ns antes gargalos (ns vermelhos),
agora pela perda de uma conexo, se tornam
no-hubs/no-gargalos. Por fim, os ns
marcados pelos crculos pontilhados, devido
perda de muitas conexes (n central) e ao
ganho de uma conexo (n acima), se tornam
gargalos, perdendo os status de hub-gargalo
e de no-hub/no-gargalo respectivamente.
nector baixo, esse conector provavelmente
far parte do mdulo, uma vez que dentro do
mdulo os ns so mais interligados entre si.
Portanto, edgebetweenness a frequncia de
um conector que se coloca sobre os caminhos
mais curtos entre todos os pares de ns. Em

6. Biologia de Sistemas

Figura
22-6:
Representao
de
edgebetweenness. Conectores em vermelho
apresentam valores altos de betweenness,
pois representam o caminho mais curto do
fluxo de informao entre os trs mdulos
representados.
uma rede proteica, um conector com alto valor de betweenness provavelmente representa o caminho mais curto de comunicao
entre dois processos biolgicos.
Como conectores com altos valores de
betweenness so mais provveis por posicionarem-se entre mdulos, a remoo sucessiva destes conectores pode eventualmente
isolar estes mesmos mdulos. Essa desordem na rede, conforme ser visto adiante,
conhecida como perturbao de conector.

6.5. Tipos de redes


Rede Aleatria
Os matemticos Paul Erds e Alfrd
Rnyi iniciaram seus estudos sobre redes aleatrias em 1960. Este modelo de rede tem
impulsionado o interesse de diversos cientistas ao longo dos anos por ser um dos primeiros modelos de rede descoberto. Porm,
apesar de amplamente estudadas, redes aleatrias no capturam a realidade de um sistema biolgico (Figura 23-6).
Essas redes consistem de N ns, com
cada par de ns conectados (ou no) com

Figura 23-6: Ilustrao de uma rede aleatria


consistindo em 109 protenas. A rede
apresenta P(k) 3,8. Observe que as conexes
de cada n so valores prximos a 4, o que
est de acordo com k <k>.
probabilidade p, gerando uma rede de conexes aleatrias com aproximadamente pN . (N
- 1) 2. Dessa forma, o grau dos ns segue
uma distribuio de Poisson com mxima em
<k> e a maioria dos ns apresentando aproximadamente o mesmo nmero de conexes k
<k>, com grau prximo ao da mdia da rede.
Raramente surgem ns que apresentam mais
ou menos conexes que <k>. Adicionalmente,
redes aleatrias apresentam a propriedade
mundo pequeno e distribuio de grau exponencial, sendo estatisticamente homogneas.

Rede de livre escala


O modelo de rede de livre escala foi introduzido por Barabsi e Albert em 1999 onde
se observa que redes complexas, como as
redes de citaes de artigos cientficos, redes
metablicas, redes socais e a World Wide
Web apresentam distribuio de grau que segue uma lei de potncia P(k) ~k-, >1. Essas
redes so consideradas como livres de escala
(Figura 24-6) pois a lei de potncia no permite uma escala caracterstica.

6. Biologia de Sistemas

cia-se como uma pequena rede, sendo que a cada instante de tempo um novo n com m conexes adicionado, onde a probabilidade do novo n se conectar ao
n i que est previamente presente depende de ki (grau
de i):

Esse crescimento gera uma rede de livre escala


com expoente de grau = 3. Aps t instantes de tempo,
temos uma rede com N = t + m0 e mt conectores.

Figura 24-6: Ilustrao de uma rede de livre


escala consistindo de 109 protenas, na qual o
grau de distribuio segue uma lei de
potncia. Neste tipo de rede, as protenas
hubs (ns laranjas) tem papel essencial na
manuteno da integridade da rede.
Diferentemente da rede aleatria que
apresenta um nmero fixo de N ns, as redes
de livre escala apresentam uma ordem dinmica de estruturao que permite o crescimento da rede pela adio de novos ns.
Assim, a rede aleatria consiste de um sistema aberto que inicia com um pequeno grupo
de ns e aumenta de tamanho exponencialmente no tempo devido insero de novos
ns. A probabilidade deste novo n se conectar a ns com grande nmero de conexes
maior, sendo chamada de conexo preferencial. Por exemplo, imagine que voc est buscando um artigo sobre determinado assunto
na Internet. Certamente os artigos que voc
encontrar mais facilmente sero publicaes
com alto grau de conexo por serem mais
conhecidos e bem citados quando comparadas a publicaes pouco citadas e, consequentemente, menos conhecidas.
Estes dois mecanismos, crescimento da rede e conexo preferencial originaram o algoritmo do modelo
Barabsi-Albert, que estabelece que o crescimento ini-

As caractersticas da rede de livre escala a tornam uma rede que apresenta um pequeno nmero de ns altamente conectados
(hubs), o que frequentemente determina suas
propriedades. Como j mencionado, falhas na
rede (ou remoo de ns aleatrios) apresentam poucas consequncias, enquanto que
o ataque aos ns altamente conectados tornar a rede fragmentada. Em sistemas biolgicos, uma rede bioqumica apresenta alta
resilincia contra mutaes aleatrias, enquanto que os hubs podem ser usados como
candidatos importantes para alvo de frmacos. Um exemplo disso seria a protena EF-Tu.
Esta protena tem papel essencial durante a
elongao da sntese proteica, sendo inibida
pelo antibitico quirromicina, que impede que
o complexo EF-Tu-GDP seja liberado do ribossomo.

Rede Hierrquica
Como j vimos anteriormente, uma rede
pode ser avaliada pelo grau de agrupamento
(clusterizao) de seus ns. Na maioria das
redes baseadas em um sistema real (chamadas de redes reais), como por exemplo, parte
de uma via metablica, o coeficiente de clusterizao significativamente maior se comparado a redes aleatrias. Da mesma forma,
ocorre a coexistncia da propriedade de livre
escala e clusterizao nas redes reais, como
redes metablicas e de interao proteica.
Contudo, grande parte dos modelos propostos para representar estas redes no consegue descrever a livre escala e a clusterizao
simultaneamente.
Adicionalmente, muitas redes reais

6. Biologia de Sistemas

apresentam mdulos, ou seja, a rede composta de subredes funcionalmente separveis.


Esses
componentes
separveis
apresentam densa conectividade entre os
seus prprios ns, com conectividade mais
dispersa em relao a componentes de outros mdulos. Isso ocorre porque cada mdulo apresenta a capacidade de executar uma
tarefa identificvel, diferente de outro mdulo. Contudo, essa separao de tarefas no
significa que um mdulo independente de
outro, mas sim que tem funes distintas.
Dessa forma, necessrio combinar a
propriedade de livre escala, o alto grau de
agrupamento e a modularidade de uma forma
interativa, gerando a rede hierrquica. A estrutura hierrquica convencionalmente representada por um dendrograma ou uma
rvore e atua relacionando os ns mais prximos na rede, conforme Figura 25-6. Essas
redes podem ser formadas basicamente pela
duplicao de clusters e repetidas indefinidamente, integrando uma topologia livre de escala com alta modularidade, resultando em
um coeficiente de clusterizao independentes do tamanho do sistema. Muitas vezes, em
redes reais, a modularidade no apresenta
um limite claro, sendo reconhecida principalmente por ns altamente conectados entre si
e conectados a outros mdulos.

Figura 25-6: Ilustrao de uma rede


hierrquica consistindo de 55 protenas em
modelo de dendrograma onde possvel
observar sua modularidade intrnseca.
A principal caracterstica dessas redes
que no compartilhada por redes aleatrias
ou de livre escala a hierarquia intrnseca,
sendo representada tambm na sua arquitetura. Essa caracterstica hierrquica pode ser,
ainda, analisada quantitativamente, como observado por Dorogovtsev e colaboradores em

2002, que construram um grfico de livre


escala determinstico, na qual o coeficiente de
clusterizao de um n que possui k conexes
segue a lei de escala C(k) ~k-1. Portanto, o
modelo de rede hierrquico integra uma topologia livre de escala com alta modularidade, resultando em um coeficiente de
clusterizao independente do tamanho do
sistema.

6.6. Perturbao e conectores


Como visto anteriormente, um grafo
consiste de um conjunto de ns e um conjunto
de conectores que conectam esses ns. Portanto, os ns so as entidades de interesse e
os conectores representam as relaes entre
as entidades.
Quando tratamos de sistemas biolgicos, podemos levar em considerao diferentes entidades como, por exemplo, DNA, RNA,
metablitos, pequenas molculas e/ou protenas. Estes componentes biolgicos no atuam isoladamente, mas sim dependem da
interao com outros componentes. Para que
ocorra essa interao (comunicao) necessria a presena de conectores.
Conectores podem ser interaes fsicas, bioqumicas ou funcionais. Por exemplo,
em redes metablicas, conectores podem ser
reaes que convertem um metablito em
outro ou enzimas que catalisam essas reaes; em redes de regulao gnica, conectores podem representar a ligao fsica de um
fator de transcrio nos elementos regulatrios; em redes de doenas, conectores podem
representar as mutaes genticas associadas doena; e em redes proteicas, os conectores podem ser ligaes fsicas entre as
protenas.
Como apresentado anteriormente, as
redes podem ser direcionadas e no direcionadas. Esse comportamento da rede depende
da natureza da interao e, obviamente, da
direcionalidade dos conectores (Figura 26-6).
Em redes direcionadas, a interao entre dois
ns tem uma direo bem definida que representa, por exemplo, a direo do fluxo do
substrato ao produto em uma rede metabli-

6. Biologia de Sistemas

ca. Em redes no direcionadas, a ligao no


tem uma direo definida, tal como a interaao fsica entre protenas.

Figura 26-6: Representao de um conector


no direcionado e um direcionado.
Na abordagem da biologia de sistemas
to importante quanto conhecer os ns que
interagem entre si em uma rede compreender, por exemplo, que tipo de interao pode
ocorrer na rede em questo, quais conectores
so mais relevantes rede e qual o impacto
da perturbao de um conector. Nesta seo
iremos discutir os tipos de conectores entre
diferentes componentes de uma rede envolvendo protenas e as consequncias da ruptura nestas conexes.

Interao protena-protena
A interao protena-protena comum
e crucial a vrios processos celulares, tais
como na ligao enzima-inibidor e na interao antgeno-anticorpo. Os diferentes tipos de
complexos proteicos tm sido definidos na literatura como obrigatrios e no obrigatrios. No complexo obrigatrio, as protenas no
podem funcionar separadamente, diferindo do
complexo no obrigatrio onde as protenas
associam-se e dissociam-se dependendo de
fatores externos, podendo tambm exercer
funes fora do complexo.
De acordo com a estabilidade e o meca-

nismo de formao do complexo, incluindo o


tipo de conexo entre as protenas, as interaes podem ser conceitualmente separadas
em dois grupos: aquelas que so permanentes e aquelas que so temporrias. E, embora
no exista um limite bem definido para essa
separao, tendncias tm sido observadas
em relao a suas propriedades biolgicas
(Figura 27-6).
Em relao estrutura, por exemplo,
interaes temporrias so caracterizadas
por interfaces proteicas pequenas, enquanto
que as interfaces de protenas interagindo
permanentemente so maiores. Consequentemente, complexos proteicos com interfaces
maiores tendem a apresentar um maior grau
de mudana conformacional aps a ligao.
Alm disso, componentes de complexos permanentes tendem a ser co-expressos e mais
estveis. Esta estabilidade gera uma presso
seletiva maior e em funo disso, uma taxa
evolutiva mais lenta.
Como ser discutido adiante, interao
transitria tende a ser date, isto , as protenas podem se conectar em diferentes tempos
e a interao permanente tende a ser party,
isto , conexo proteica forte e constante.
As protenas com conectores permanentes existem somente em sua forma complexada e so muito estveis, enquanto
aquelas com conectores transitrios possuem a capacidade de associao e dissociao
in vivo. Dentre as protenas com conectores
transitrios, h aquelas em que a associao/dissociao resultante de uma conexo
com baixa afinidade, porm constante (interaes temporrias fracas) e aquelas em que
a associao/dissociao desencadeada por
um processo ativo (interaes temporrias
fortes) como, por exemplo, uma mudana
conformacional ocorrida em consequncia de
um fator ligante.
A diferena entre as interaes acima
citadas distinguida puramente pelas propriedades da estrutura da interface proteica, isto
, da superfcie de contato das protenas. Essas propriedades conferem afinidade e especificidade, e so determinadas principalmente
por foras intermoleculares como comple-

6. Biologia de Sistemas

Figura 27-6: Modelo esquemtico representando os diferentes tipos de interaes protenaprotena e as propriedades biolgicas relacionadas. Quanto maior o tamanho da base e a
intensidade da cor do tringulo, maior a relao entre o modo de interao proteica e a
propriedade biolgica.
mentaridade estrica, fora eletrosttica, interao hidrofbica e ligaes de hidrognio.
A complementaridade estrica otimiza
as interaes de van der Waals entre o complexo. Normalmente, estas interaes de fraca energia ocorrem em funo da polarizao
transiente de ligaes carbono-hidrognio ou
carbono-carbono e, apesar de fracas, so extremamente importantes para o processo de
reconhecimento intermolecular pois crescem
em intensidade com a rea de interao.
Complexos com conexes permanentes exibem alta complementaridade estrica nas
protenas em contato, enquanto complexos
com conexes temporrias demonstram baixa complementaridade.
Como as interaes de van der Waals,
as interaes hidrofbicas so pontualmente

fracas e ocorrem em funo da interao entre cadeias ou subunidades apolares. Os


complexos com conexes permanentes normalmente persistem no estado ligado, sendo
a fora hidrofbica mais significativa. J em
conectores transitrios, a alta hidrofobicidade
se torna desfavorvel, pois esses complexos
permanecem ligados por menos tempo.
As foras de atrao eletrostticas so
aquelas resultantes da interao entre dipolos e/ou ons de cargas opostas e representam
fora
significativa
na
interao
protena-protena, podendo definir o tempo de
vida do complexo.
Dentre as foras intermoleculares discutidas acima, o fator dominante da interao
permanente entre protenas consiste nas interaes hidrofbicas, enquanto vrias foras

6. Biologia de Sistemas

participam de interaes temporrias entre


protenas. Alm disso, protenas interagindo
de forma temporria possuem interfaces que
so menores em tamanho do que as interfaces de protenas permanentes, os aminocidos que compem a interface e a proporo
de resduos hidrofbicos no diferem drasticamente do resto da superfcie proteica e as
interfaces so levemente ricas em grupos
polares neutros e em gua.
O tipo de interao tambm confere
graus diferentes de restrio (presso seletiva) na evoluo da protena. Protenas com
interao permanente tendem a evoluir em
uma velocidade menor comparada a protenas que formam complexos temporrios,
bem como possuir presso seletiva maior e
menor plasticidade em sua sequncia.
Evidncias sugerem que o modelo duplicao-divergncia aplica-se evoluo das redes proteicas. Uma das predies que na
duplicao das protenas algumas ou todas as
conexes podem ser herdadas da protena
ancestral. Consistente com esta hiptese,
protenas parlogas tendem a compartilhar
padres de interao em uma frequncia
maior do que a esperada ao acaso. No entanto, tem sido proposto que depois que a duplicao gnica ocorre, as interaes entre as
protenas so rapidamente perdidas. Portanto, duplicaes recentes so mais provveis
de compartilhar interaes, comparadas a
duplicaes mais ancestrais.
Outra distino acerca da interao
proteica refere-se interao funcional e interao fsica. A interao funcional pode ou
no corresponder a uma interao fsica direta em algum processo biolgico. Assim, na
interao fsica, a protena A conecta-se a
protena B e, na interao funcional, a protena
A atua com a protena B. Como exemplo de
interao funcional podemos imaginar dois
produtos gnicos que interagem em uma
mesma via em um processo biolgico, mas
no se conectam fisicamente.
O tipo de interao tem um papel importante na determinao do comportamento
das protenas. Como j vimos, hubs so protenas envolvidas em um grande nmero de

interaes (altamente conectadas) dentro de


uma rede proteica. Algumas protenas hub
so altamente co-expressas com outras protenas do mdulo, o que implica na existncia
de complexos estveis (permanentes). Outras
protenas possuem expresso independente,
sugerindo a ligao com protenas em diferentes tempos, de modo transitrio. Esses
hubs so classificados como party e date
hubs, respectivamente.
Na construo de redes proteicas, a diferenciao entre complexos permanentes e
transitrios tem importantes implicaes. Por
exemplo, na prospeco de novos frmacos, a
alterao do padro de interao entre protenas temporrias por modulao farmacolgica
ocorre
mais
facilmente
em
comparao a protenas que formam complexos permanentes. Portanto, uma rede de
interao proteica no um processo esttico, mas sim corresponde a um constante fluxo de informaes. Por conseguinte, na
anlise de dados de interao protena-protena a discriminao das caractersticas da
interao e/ou o uso de centralidades de conectores fundamental para obter modelos
mais realsticos.

Interao protena-cidos nucleicos


Protenas que se ligam a cidos
nucleicos tm um papel central em todos os
processos regulatrios que controlam o fluxo
de informao gentica. Por exemplo, protenas podem inibir, ativar e coordenar a transcrio do DNA, auxiliar e manter o
empacotamento e o rearranjo do DNA e o
processamento do RNA, coordenar a replicao do DNA, promover a sntese de protenas
e sinalizar o reparo do DNA, entre outros.
Esses possveis papis fisiolgicos so
determinados pela afinidade e especificidade
da interao DNA-protena, que a habilidade
da protena em distinguir seu stio de ligao
do restante do DNA. Estas propriedades dependem de interaes precisas entre a sequncia de aminocidos da protena e os
nucleotdeos do stio especfico de ligao do
DNA.

6. Biologia de Sistemas

As protenas que se ligam a cidos


nucleicos podem ser, de forma simplificada
separadas em trs grupos de acordo com a
funo:
i) enzimas, onde a principal funo da
protena modificar a organizao do
cido nucleico, como no caso das endonucleases, glicosiltransferases, glicosilases,
helicases,
ligases,
metiltransferases, nucleases, polimerases,
recombinases, topoisomerases, translocases e transposases, entre outras;
ii) fatores de transcrio, onde a principal funo da protena regular a
transcrio e a expresso gnica como
por exemplo, TFIIA, TFIIB, TFB, entre
outros;
iii) protenas estruturais que ligam-se
ao DNA, que tm como principal funo
suportar a estrutura e a flexibilidade do
DNA ou agregar outras protenas, por
exemplo, protenas centromricas, protenas envolvidas no empacotamento e
na manuteno/proteo do DNA, protenas de reparo, protena envolvidas na
replicao e protenas telomricas, entre outras.
A interao protena-protena tambm
necessria para uma eficiente interao entre
protenas e cidos nucleicos. A interao protena-protena com o DNA pode ocorrer de
trs modos de acordo com a direo e o eixo
da dupla hlice do DNA (Figura 28-6):

i) a direo da interao entre as protenas e o eixo da dupla hlice perpendicular;


ii) a direo da interao da protena
paralela ao eixo da dupla hlice;
iii) ambos os modos de interao so
observados ao mesmo tempo.
Assim como na formao de complexos
proteicos, discutido anteriormente, a formao de complexos DNA-protena ou RNA-protena
tambm
envolve
foras
intermoleculares, tais como van der Walls,
fora eletrosttica, interao hidrofbica e ligaes de hidrognio.
A regio da protena que reconhece a
sequncia do cido nucleico denominada
motivo. Os motivos hlice-volta-hlice, dedo
de zinco e zper de leucina so os mais comuns encontrados nas protenas que interagem com cidos nucleicos.
O motivo hlice-volta-hlice um dos elementos
normalmente encontrados nos fatores de transcrio
e nas enzimas de procariotos e eucariotos, sendo formado por duas hlices conectadas por uma volta. O
motivo liga-se a cavidade maior do DNA e, em muitos
complexos, o contato direto feito entre a cadeia de
aminocido e a sequncia de bases do cido nucleico.
J o motivo dedo de zinco encontrado principalmente em fatores de transcrio de eucariotos. Um
dedo de zinco composto por duas folhas antiparalelas e uma hlice , sendo o on zinco fundamental para garantir a estabilidade deste tipo de domnio.
Subunidades proteicas contm mltiplos dedos de zin-

Figura 28-6: Modos de interao protena-protena com a dupla hlice do DNA. A) perpendicular;
B) paralela e C) ambas as direes so observadas.

6. Biologia de Sistemas

co que se enrolam no DNA formando uma espiral, inserindo a hlice na cavidade maior do DNA.
Fatores de transcrio de eucariotos e procariotos
tambm podem conter o motivo zper de leucina, encontrado em protenas regulatrias. Esse motivo
formado por duas hlices paralelas, unidas por resduos de leucina.
A estrutura do zper de leucina pode ser dividida em
duas partes: a regio de dimerizao e a regio de ligao ao DNA. A dimerizao mediada pela formao
de uma estrutura enrolada na regio carboxi-terminal
de cada hlice com sete resduos de leucina. A regio
que se liga ao DNA, tambm conhecida como regio
bsica, encontrada na regio amino-terminal da hlice que se projeta na cavidade maior do DNA. Embora
motivos de diferentes famlias de DNA sejam similares
estruturalmente, pouca homologia observada fora do
motivo. H baixa identidade entre motivos de diferentes
famlias de protenas e esta variao permite, portanto,
o reconhecimento de diferentes conjuntos de sequncias de DNA. Alm disso, a posio do domnio dentro
da cavidade maior do DNA tambm varia, refletindo a
necessidade funcional e estrutural de cada protena.

A afinidade e a especificidade na ligao


de protenas ao DNA no podem ser endereados somente a alguns resduos de aminocidos, mas o envolvimento de toda a protena
deve ser considerado. Por exemplo, a maioria
das protenas que se ligam ao DNA possuem
domnios desordenados que contribuem para
o reconhecimento do DNA em vrios nveis.
Protenas com domnios desordenados so protenas que no apresentam estrutura 2ria e 3ria sob condies fisiolgicas e na ausncia de ligantes naturais.
Essas protenas possuem alta especificidade e baixa
afinidade na interao, so capazes de interagir com
mais de uma protena e alvos de modificaes ps-traducionais, possuindo a capacidade de manter sua funo mesmo em ambientes extremos. Na interao com
o DNA, o domnio desordenado da protena no crucial formao do complexo, mas pode influenciar o reconhecimento da sequncia do DNA, conferindo
seletividade e afinidade de ligao.

Alm da caracterstica das cavidades na


molcula de DNA, da presena de motivos
especficos nas protenas ou ainda da ocorrncia de domnios desordenados, outros fatores podem influenciar a interao do
DNA-protena, tais como a flexibilidade e a

afinidade da protena pelo DNA e presena de


gua no meio.
Muitas protenas so flexveis ao ponto
de alterar sua conformao quando se ligam
ao DNA, enquanto outras so conhecidas por
alterar a conformao do DNA aps a ligao.
A afinidade da interao entre o DNA e uma
protena tende a estar relacionada relevncia funcional da protena. Por exemplo, a afinidade de um fator de transcrio por seu
stio de ligao proporcional ativao que
ele exerce. Ainda, alguns contatos mediados
por gua foram observados entre protenas e
o DNA, participando de redes de ligaes de
hidrognio que conferem estabilidade ao
complexo.

Interao entre protenas e pequenos compostos


Considerando-se que a interao protena-protena normalmente envolve superfcies
relativamente grandes, pode-se imaginar que
molculas menores no seriam efetivas na
modulao da ligao dos complexos por
apresentarem reas menores e, por conseguinte, interaes menos intensas. Contudo,
ao empregarmos estruturas qumicas diferentes de aminocidos, podemos no s
compensar esta reduo na rea de contato
mas produzir molculas com afinidade maior
do que os prprios ligantes fisiolgicos envolvidos do processo de interesse.
Adicionalmente, estas molculas de
baixa massa molecular tendem a apresentar
muitas vantagens teraputicas em relao a
protenas, dentre as quais se destaca sua
maior estabilidade metablica e consequente
maior biodisponibilidade. Podem atuar diretamente via inibio da interface protenaprotena ou indiretamente via ligao a um
stio alostrico que induz uma mudana conformacional do alvo da protena ou da molcula associada.
A busca de novos frmacos deve levar
em conta o tipo de complexo proteico alvo. A
formao de complexos permanentes pode
ser considerada uma continuao do enovelamento da protena, sendo o dobramento fi-

6. Biologia de Sistemas

nal das subunidades parte deste processo.


Assim, esse tipo de complexo menos propenso modulao farmacolgica, sendo
mais interessante explorar o processo de dobramento em si como alvo de pequenos
compostos. J as interfaces das protenas de
complexos temporrios so alvos efetivos ao
planejamento de novos moduladores teraputicos.
Para que pequenas molculas modulem
a interao proteica, estratgias tm sido estabelecidas e dois principais mecanismos do
controle regulatrio tm sido utilizados: a inibio e a estabilizao (Figura 29-6). Das estratgias mais exploradas, destaca-se a
inibio da interao protena-protena.

meiro, um estabilizador pode ligar-se a uma


nica protena, na qual aumenta a afinidade de
ligao mtua das protenas do complexo de
um modo alostrico. Segundo, a molcula estabilizadora liga-se superfcie do complexo
proteico, fazendo contato com ambas as protenas ligantes e aumentando a afinidade de
ligao mtua entre elas. Assim, a inibio
estabilizadora pode ser denominada alostrica (ligada a uma protena) ou direta (ligada ao
menos a duas protenas).
A ativao por pequenos compostos , normalmente, um processo mais intrincado pois, alm da ligao, necessrio o correto desencadeamento da
cascata de ativao. Compostos que induzem a interao proteica so chamados de dimerizadores. Inmeras vias de sinalizao celular iniciam a partir da
dimerizao protena-protena. A principal ideia do uso
de dimerizadores a induo de interao entre duas
protenas por pequenas molculas que levam ativao da via de sinalizao celular. Na literatura cientfica
foi observado que dimerizadores podem induzir proliferao celular, transcrio e apoptose.

Perturbao dos conectores


Figura 29-6: Dois principais mecanismos de
modulao da interao protena-protena
utilizando pequenos compostos. Diferentes
protenas so apresentadas em preto e
amarelo.
Pequenos
compostos
so
apresentados em vermelho.
O modo de ao da maioria dos inibidores de interao proteica baseado na ligao
direta de uma pequena molcula superfcie
de interao da protena ligante, interferindo
diretamente nos hot spots crticos da interface e competindo com a protena original. Esse
tipo de inibio conhecido como ortostrica.
Na inibio alostrica, pequenos compostos
ligam-se a stios diferentes, causando mudana conformacional suficiente para interferir na ligao da protena ligante (Figura
29-6).
Pequenas molculas estabilizadoras da
interao protena-protena tambm demonstram dois modos gerais de ao. Pri-

Perturbaes podem ocorrer em todos


os sistemas, e em sistemas biolgicos no
diferente. Nos interatomas, essas perturbaes podem variar desde a remoo de um ou
mais ns at a remoo de conectores. Desta
forma, as consequncias na estrutura e na
funo do sistema iro diferir drasticamente
dependendo do tipo de perturbao ao qual a
rede foi exposta. Como exemplo, podemos
imaginar uma rede de protenas que confere
um fentipo especfico (Figura 30-6).
A remoo do n no somente incapacita a funo deste, mas tambm a de outros
ns, causando a ruptura nas vias de todos os
ns vizinhos. Uma perturbao no conector,
que remove uma ou poucas interaes mas
deixa o restante da rede intacta e funcionando, pode ter efeitos mais sutis no sistema,
no necessariamente alterando o fentipo.
Contudo, a consequncia do desarranjo da rede aps a remoo de ns ou de conectores
depende da importncia do n e do conector
rede. Essas informaes de conectores e ns

6. Biologia de Sistemas

Figura 30-6: Rede hipottica de protenas relacionada a um fentipo especfico representando


diferentes tipos de perturbao e suas consequncias. Neste exemplo o n 5 e o conector entre
os ns 5 e 1 so essenciais manuteno do fentipo selvagem.
mais informativos de uma rede podem ser
obtidas, por exemplo, pela anlise da resilincia e percolao da rede, vista anteriormente.
A distino entre modelos de remoo
de n e perturbao de conectores - alterao interao-especfica e conector-especfica
(edge-specific ou edgetic), respectivamente
- pode providenciar novas pistas nos mecanismos bsicos de doenas humanas, tais como diferentes classes de mutaes que
levariam a modos dominantes ou recessivos
de herana gentica.
Em uma rede proteica, a remoo de
um n pode representar a remoo de uma
protena, causado por uma mutao crtica no
gene que desestabiliza a estrutura da protena. J a remoo de um conector pode representar uma mudana especfica em distintas
interaes bioqumicas e biofsicas, preservando certos domnios da protena.
Em relao a genes envolvidos em mltiplas doenas, foi demonstrado que alelos
edgetic responsveis por diferentes doenas
consistem em distintas perturbaes edgetic
que, por sua vez, tendem a estar localizados
em diferentes domnios de interao proteica,
conferindo fentipos diferenciados.
Pesquisadores analisaram cerca de 50.000 alelos
mendelianos associados a doenas genticas hereditrias e observaram que aproximadamente a metade foi
potencialmente edgetic. Nesta anlise foram consideradas delees e mutaes truncadas dentro dos do-

mnios da protena que grosseiramente desestabilizaram a estrutura da protena, como remoo de n,


mutaes com alterao em quadro de leitura que
afetaram stios de ligao especficos e mutaes
truncadas que preservaram certos domnios da protena como perturbao edgetic. Alelos truncados foram
menos propensos a expressar protenas estveis em
comparao a alelos que alteraram o quadro de leitura,
podendo diferir doenas hereditrias mendelianas envolvendo remoo de n versus perturbao edgetic.
Um alelo edgetic pode ser identificado pela falta de
um subconjunto de interaes, quando possuem defeitos nas interaes provavelmente devido a mudanas
especficas dentro ou prximo a stios de ligao da
protena ou quando fentipos in vivo diferem daqueles
causados por perturbaes nulas (gentipos nulos).

Dependendo da rede, o fenmeno de


perturbao de um nico conector pode ser
mais provvel do que da remoo de um n.
Dependendo do conector rompido, o impacto
rede pode ser maior, pois diferentes conectores (interaes) tm diferentes nveis de
importncia (vulnerabilidade). Conectores
com alto valor de edgebetweenness podem
causar fragmentao da rede em componentes desconectados, caso sejam rompidos, como por exemplo no caso de conectores entre
clusters. Esse tipo de conector assim chamado de cut-edge. J conectores com baixo
valor de edgebetweenness, quando eliminados da rede, podem ser substitudos por vias
alternativas, como por exemplo no caso de

6. Biologia de Sistemas

conectores dentro de clusters. Assim, conectores interclusters tendem a ser mais vulnerveis quando comparados aos conectores
intraclusters em uma determinada rede.

6.7. Conceitos-chave
Assortatividade: tendncia de ns interagirem
com ns similares a eles mesmos.
Betweenness: parmetro que estima a relao
entre dois ns, ou seja, leva em considerao a quantidade de caminhos mais
curtos que passam entre eles.
Biologia de sistemas: rea da bioinformtica que
estuda sistemas moleculares complexos e
como as molculas interagem entre si.
Caminho: sequncia consecutiva de ns em um
grafo sem repeties, estando cada n
adjacente interligado por um conector.
Caminho geodsico: definido pela via mais curta
dentro de uma rede entre dois ns quaisquer.
Circuito: sequncia de ns sem repetio com
um conector entre cada par de ns adjacentes na sequncia, onde o n inicial coincide com o n final.
Clique: definido como um grafo com alta conectividade entre seus elementos integrantes. Sendo assim, clique tambm
considerado um sinnimo de cluster.
Closeness: valor que indica os caminhos mais
curtos entre um n n e todos os outros ns
da rede, uma tendncia de aproximao
ou isolamento de um n.
Complexo proteico: grupo de protenas formado
pela associao de duas ou mais cadeias
polipeptdicas.
Comprimento do caminho: definido pelo nmero
de conectores que definem o caminho, ou
ento, pelo nmero de ns da sequncia

menos um.
Conector Cut-edge: conector que quando rompido causa fragmentao da rede.
Date hubs: so hubs que se ligam a diferentes
protenas em diferentes mdulos (intermdulo), ou seja, diferente tempo e/ou
espao, consequentemente, apresentado
um papel global na rede.
Desassortatividade: tendncia de ns interagirem com ns diferentes deles mesmos.
Dimetro: indica a distncia entre os dois ns
mais afastados entre si de uma rede.
Sendo assim, definimos que uma rede
possui um alto dimetro quando a distncia geral entre os ns muito ampla.
Quando a distncia entre os ns pequena, ento o dimetro baixo.
Dimerizao: corresponde unio de dois monmeros, formando um dmero. Ou seja,
a formao de uma molcula a partir de
duas molculas menores.
Dimerizadores: compostos que induzem a dimerizao, neste caso a interao proteica.
Distribuio de Poisson: distribuio aplicada a
probabilidade de ocorrncia de um evento
em determinado intervalo de tempo.
Edgebetweenness: parmetro que indica o nmero de caminhos mais curtos entre pares
de ns que percorrem um determinado
conector.
Edgetic: perturbao causada em um conector
especfico, portanto em uma interao especfica na rede.
Foras intermoleculares: foras que mantm as
molculas unidas durante a interao.
Gargalo (bottleneck): protena que apresenta
alto grau de betweenness.

6. Biologia de Sistemas

Grau de n (node degree): parmetro referente


quantidade de ns adjacentes (diretamente conectados) a outro determinado
n.
Hipergrafo: rede caracterizada pela presena de
hipervrtices.
Hipervrtices: Conectores que interligam ns
que apresentam propriedades distintas
nos hipergrafos.
Hot spot proteico: locais essenciais da interface
com alta afinidade de ligao.
Inibio alostrica de uma protena: na inibio
alostrica, pequenos compostos ligam-se
a stios diferentes, causando mudana
conformacional suficiente para interferir na
ligao da protena ligante.

funo, em uma rede de interao protena-protena, agrupar protenas que faam


parte de um mesmo processo biolgico.
Party hubs: protenas altamente ligadas dentro
do seu prprio mdulo (intra-mdulo), ou
seja, ligao no mesmo tempo e/ou espao.
Pleiotrpico, efeito: protenas pleiotrpicas so
aquelas que apresentam mltiplos efeitos
em um sistemas biolgico.
Rede: representao grfica da interao entre
ns por meio de vrtices.
Rede bipartida: existe uma partio da rede, por
exemplo, partio A e partio B, sendo os
ns presentes na partio A adjacentes
apenas a ns da partio B, e vice-versa.

Inibio ortostrica de uma protena: inibio


causada pela ligao direta de uma pequena molcula superfcie de interao
da protena ligante, interferindo diretamente nos hot spots crticos da interface e
competindo com a protena original.

Rede direcionada: apresentam conectores que


orientam o fluxo da informao em uma
direo.

Interface proteica: rea atravs da qual as macromolculas se comunicam e exercem


sua funcionalidade.

Rede ponderada: so redes que se caracterizam


pela presena de atributos associados a
conectores e ns.

Modularidade (clusterizao): padres de conectividade, onde seus elementos constituintes esto agrupados em subconjuntos
altamente conectados.

Resilincia: capacidade de uma rede a tolerar a


deleo de seus ns por falha ou ataque.

Multiconector, interaes: quando h dois ou


mais conectores ligando os mesmos ns
na rede em redes direcionadas.
Multidgrafo: rede direcionada com a presena
de multiconectores.
Mundo pequeno, efeito: define que existe um
caminho mnimo entre um n de origem e
um n de destino.
Ontologia gnica: tipo de anlise que tem como

Rede no direcionada: os conectores desta rede


no apresentam uma direo orientada.

Taxa evolutiva: medida das mudanas ocorridas


numa entidade (gene, protena, organismo, populao) evolutiva ao longo do
tempo.
Teoria da Percolao: tem por objetivo investigar
o comportamento das propriedades de
conectividade de uma rede.
Topologia de redes: estrutura e disposio de
conexes entre os ns.
Vulnerabilidade do conector: grau de importncia do conector.

6. Biologia de Sistemas

6.8. Leitura recomendada


BARABSI, Albert-Lszl; OLTVAI, Zoltn N.
Network biology: understanding the cell's
functional
organization.
Nat.
Rev.
Genetics. 5, 101-113, 2004.
GURSOY, Attila; KESKIN, Ozlem; NUSSINOV,
Ruth. Topological Properties of Protein
Interaction Networks from a Structural
Perspective. Biochem. Soc. Trans. 36,
1398-1403, 2008.
LEVY, Emmanuel D.; PEREIRA-LEAL, Jose B.
Evolution and Dynamics of Protein
Interactions and Networks. Cur. Op.
Struct. Biol. 18, 19, 2008.
MASON, Oliver; VERWOERD, Mark. Graph theory
and networks in Biology. IET Systems
Biol. 1, 89-119, 2007.
NEWMAN, Mark E. J. The structure and function
of complex networks. SIAM Rev. 45, 167256, 2003.
YU,

Haiyuan; et al. The Importance of


Bottlenecks
in
Protein
Networks:
Correlation with Gene Essentiality and
Expression Dynamics. PLoS Comp. Biol.
3, e59, 2007.

WAGNER, Gnter P.; PAVLICEV, Mihaela;


CHEVERUD, James M. The road to
modularity. Nat. Rev. Genetics. 12, 921931, 2007.

7. Modelos Tridimensionais

Priscila V. S. Z. Capriles
Raphael Trevizani
Gregrio K. Rocha
Laurent E. Dardenne
Fabio Lima Custdio
Gerao de mltiplos modelos para a estrutura de
uma determinada sequncia de aminocidos.

7.1. Introduo
7.2. Estrutura 3D de protenas
7.3. Enovelamento de protenas
7.4. Predio da estrutura
7.5. Modelagem comparativa
7.6. Predio de enovelamento
7.7. Mtodos de novo
7.8. Primeiros princpios
7.9. Escolhendo o modelo
7.10. Anlise da qualidade
7.11. Refinamento do modelo
7.12. Aplicaes de modelos
7.13. Conceitos-chave
7.1. Introduo
O rpido avano na computao cientfica verificado na ltima dcada, principalmente quanto ao aumento da capacidade de
processamento dos computadores a custos
relativamente baixos, tem permitido que classes importantes de problemas cientficos na
rea da bioinformtica, no estudo de biomol-

culas e sistemas biolgicos, possam ser


abordadas com cada vez mais sucesso. Dentre estas reas, a predio de estruturas tridimensionais de protenas destaca-se pela
sua importncia, o que tem atrado um grande nmero de pesquisadores ao redor do
mundo. Um exemplo deste interesse est na
criao de um encontro bianual de carter
mundial,
intitulado
CASP
Critical
Assessment of Protein Structure Prediction,
com o objetivo de avaliar o estado da arte da
capacidade de predio de diferentes metodologias desenvolvidas.
A predio de estruturas tridimensionais
de protenas se caracteriza por possuir aplicaes prticas de grande impacto teraputico e biotecnolgico. Est diretamente
relacionada a mltiplas reas da bioinformtica e modelagem molecular, tais como o
atracamento protena-ligante (ver captulo 9),
aplicado ao desenho racional de frmacos
baseado em estruturas, o desenho de novas
protenas com funes especficas (nanotecnologia e engenharia de protenas) e a prpria
elucidao de estruturas a partir de dados
experimentais, por exemplo, de ressonncia
magntica nuclear (RMN). Avanos tericos e
metodolgicos implicariam em impactos diretos na sade e no bem estar da sociedade.
No entanto, apesar dos avanos realizados
nos ltimos anos, o desenvolvimento de metodologias capazes de alcanar um elevado
grau de previsibilidade e acurcia continua
sendo um importante desafio.

7.2. Estrutura 3D de protenas


Protenas
A funo de uma protena est intima-

7. Modelos Tridimensionais

mente associada sua estrutura tridimensional. Essa a afirmativa fundamental que inspira todas as buscas por um mtodo que seja
capaz de prever a estrutura nativa de uma
protena a partir da sua sequncia de aminocidos. Tal mtodo poderia ajudar na compreenso e no melhor aproveitamento do
potencial contido na grande quantidade de informao biolgica, na forma de sequncias,
que vem sendo gerada graas ao sucesso dos
projetos genoma.
As informaes sobre a estrutura de
uma protena esto armazenadas em uma sequncia codificada nos genes de um organismo. Assim diz um dos principais paradigmas
da biologia, postulado por Anfinsen em 1973.
A sequncia traduzida atravs de um complexo aparato celular em uma estrutura tridimensional funcional. Entender todos os
mecanismos e foras por traz desse processo seria um enorme avano cientfico que influenciaria praticamente todas as reas das
cincias da vida. Esse produto funcional da
traduo, chamado de estrutura nativa,
uma macromolcula estvel, em condies
fisiolgicas, formada por ligaes peptdicas
entre os aminocidos.
Apesar de estvel, a estrutura nativa
est longe de ser uma molcula esttica. Trata-se de uma estrutura flexvel, com movimentos especficos, muitos dos quais so
diretamente responsveis pela funo da protena. Por esse motivo, consideramos o estado nativo de uma protena no como uma
estrutura esttica, mas como um conjunto de
conformaes (tambm chamadas de configuraes) de baixa energia livre e biologicamente relevantes que a cadeia assume
regularmente no meio no qual exerce suas
funes.

Determinao experimental
As principais tcnicas para a determinao experimental da estrutura tridimensional
de macromolculas biolgicas sero apresentadas nos captulos 12 e 13. Brevemente, o
processo para a obteno da estrutura tridimensional de uma protena via tcnica de

cristalografia por difrao de raios-X composto basicamente pela produo e purificao da protena alvo, cristalizao, coleta e
processamento dos dados, resoluo da estrutura (empregando informaes sobre a
sequncia de aminocidos e diferentes programas) e refinamento da estrutura.
A tcnica de RMN tambm requer o conhecimento da sequncia de aminocidos.
Contudo, no necessrio que a protena esteja em um estado de cristal ordenado. A
vantagem da RMN que a estrutura a ser determinada pode estar em soluo, apesar de
requerer que a protena solubilizada esteja em
altas concentraes. Infelizmente, esta tcnica ainda est limitada a protenas de tamanhos pequenos a mdios, limitao no
observada para a cristalografia. Mesmo assim, a RMN destaca-se ao revelar informaes sobre o comportamento dinmico das
estruturas, incluindo mudanas conformacionais e interaes com outras molculas.
Na RMN, um forte campo magntico alinha os momentos magnticos dos ncleos atmicos de istopos
que possuem spin nuclear diferente de zero (tais como
1
H, 13C, 15N, 9F e 31P). Uma fonte de radiofrequncia de
energia varivel emitida, podendo ser absorvida pelos
ncleos atmicos invertendo o alinhamento do spin
nuclear em relao ao campo magntico externo aplicado. Neste momento, parte da energia absorvida e o
espectro de absoro resultante fornece a informao
sobre a identidade do ncleo e seu ambiente qumico
na vizinhana. Dados de sucessivos experimentos so
coletados e um espectro de RMN gerado contendo as
informaes sobre todos os deslocamentos qumicos
de todos os istopos analisados na protena.

7.3. Enovelamento de protenas


O enovelamento de protenas objeto
de grande interesse de diversas reas do conhecimento, como mencionado acima. Dada a
presena marcante das protenas em inmeros processos biolgicos, surpreendente
que ainda hoje se saiba to pouco de como o
enovelamento ocorre, permitindo que as protenas adotem sua estrutura nativa. Estudos
sobre o enovelamento de protenas tratam do
processo pelo qual a cadeia peptdica sinteti-

7. Modelos Tridimensionais

zada adota a sua estrutura tridimensional nativa. Eles diferem dos estudos de predio de
estrutura de protenas (PSP Protein
Structure Prediction) por estarem mais interessados no "como" e no no produto final do
processo de enovelamento. Mas justamente
este como" que nos permite conhecer mais
detalhes sobre o enovelamento e, a partir
destas informaes, desenvolver novos mtodos de predio de estruturas. De fato, a
maioria dos mtodos de predio inspirada
em um ou mais aspectos das teorias de enovelamento.

O postulado de Anfinsen e a hiptese termodinmica


O trabalho laureado de Christian Anfinsen sobre a enzima ribonuclease demonstrou
a relao entre a sequncia de aminocidos
de uma protena e sua conformao. A ribonuclease uma protena constituda de 124
aminocidos cuja atividade cataltica a clivagem de molculas de RNA. Ela possui em sua
estrutura nativa quatro pontes dissulfeto.
Sendo estas ligaes oriundas da oxidao de
resduos de cistena espacialmente prximos,
podem ser clivadas reversivelmente por um
agente redutor.
Anfinsen e seus colaboradores, usaram
o reagente denominado -mercaptoetanol
(que forma dissulfetos mistos cistina--mercaptoetanol). Em grandes quantidades, este
reagente provoca a reduo completa de todos os resduos de cistena. Contudo, eles notaram que a protena no podia ser
prontamente reduzida a menos que estivesse
parcialmente desenovelada por agentes tais
como ureia e cloridrato de guanidina. Embora
o mecanismo no seja completamente compreendido, esses agentes perturbam as interaes no covalentes que estabilizam a
estrutura da protena, provocando o seu desenovelamento.
Quando uma soluo da protena ribonuclease foi incubada com ureia a 8 M e mercaptoetanol, observou-se que ela perdia
totalmente a sua atividade cataltica. Em outras palavras, a ribonuclease era desnatura-

da. Isso confirmou a observao de que para


que uma protena exera a sua funo, ela
deve estar em sua conformao nativa.
Anfinsen fez ento a observao crtica
de que a ribonuclease desnaturada, uma vez
livre da ureia e do -mercaptoetanol, por dilise, recuperava lentamente a atividade enzimtica. Ele imediatamente percebeu o
significado deste achado: os resduos de cistena da cadeia eram oxidados pelo ar e a enzima espontaneamente se enovelava para a
forma cataliticamente ativa. As experincias
de Anfinsen e seus colaboradores mostraram
que a informao necessria para especificar
a complexa estrutura tridimensional da ribonuclease estava contida em sua sequncia de
aminocidos. Estudos posteriores estabeleceram a generalidade desse importante princpio da biologia molecular: a sequncia um
importante determinante da conformao
proteica.
Em resumo, o postulado de Anfinsen,
tambm conhecido como a hiptese termodinmica, afirma que, pelo menos para pequenas protenas globulares, a estrutura nativa
determinada unicamente pela sequncia de
aminocidos. Isso equivale a dizer que, nas
condies do ambiente (isto , temperatura,
presso e constituio do solvente) em que o
enovelamento ocorre, a estrutura nativa possui trs propriedades:
i)
A estrutura deve ser nica, isto ,
uma dada sequncia no deve possuir
outras conformaes com energia livre
comparvel com a do estado nativo;
ii) A estrutura deve ser estvel, isto ,
pequenas mudanas no ambiente ao seu
redor no devem causar mudanas no
enovelamento. Isso leva imagem de
que, pelo menos perto do mnimo global, o enovelamento de protenas segue
um formato de funil, que implicaria na
estabilidade do estado nativo;
iii) A estrutura deve ser cineticamente
acessvel, isto , o processo pelo qual a
forma nativa de uma dada protena seja
atingida deve ocorrer em um tempo
compatvel com fenmenos biolgicos.
Protenas de um nico domnio se eno-

7. Modelos Tridimensionais

velam em uma escala de tempo da ordem de microssegundo at segundos.


Para satisfazer esses critrios, durante
o enovelamento, a estrutura no deve
sofrer mudanas muito bruscas na sua
conformao, isto , movimentos que
implicam em barreiras energticas muito grandes.
Sequncias muito diferentes podem adotar estruturas muito parecidas. Ainda, o enovelamento frequentemente
influenciado
ou
mesmo
totalmente
dependente de modificaes co- ou ps-traducionais,
alm do ambiente molecular de destino e da participao de chaperonas. Ainda, observou-se que o enovelamento de protenas em clulas nem sempre termina
na forma nativa, o que levou ao surgimento, durante a
evoluo, de mecanismos de controle de qualidade do
enovelamento proteico.

Origem da estabilidade estrutural


Podemos dizer que as protenas so estabilizadas pela combinao de interaes
no covalentes oriundas da interao entre
diferentes regies da cadeia. Nesse contexto,
estabilidade se refere tendncia em manter
uma conformao nativa. Uma cadeia polipeptdica, em teoria, pode assumir um nmero muito grande de configuraes e, por isso,
o estado desenovelado (tambm chamado de
desnaturado) caracterizado por uma alta
entropia conformacional. Essa entropia, juntamente com as interaes (por ligaes de
hidrognio) com o solvente, leva estabilizao do estado desenovelado.
As interaes que contribuem para neutralizar esses efeitos e estabilizar o estado
nativo so, alm das pontes dissulfeto, interaes como ligaes de hidrognio intramoleculares e interaes de van der Waals. Note
que, para se quebrar uma ligao covalente,
necessrio muito mais energia do que para se
romper interaes no covalentes (aproximadamente 100 vezes mais). E, embora mais
fracas, essas interaes so muito mais numerosas do que o principal tipo de ligao covalente (pontes dissulfeto) que, em algumas
protenas, estabiliza a estrutura 3ria. Assim,

em geral, a conformao com o maior nmero dessas interaes fracas a configurao


de menor energia livre.
Por conseguinte, a estabilidade de uma
protena no proveniente da simples soma
das energias de suas interaes no covalentes. Em soluo, cada grupo formador de ligaes de hidrognio na cadeia peptdica
estava interagindo com molculas de gua
antes da estrutura se enovelar. Ento, para
cada nova ligao de hidrognio intramolecular formada quando a estrutura se enovela,
uma ligao equivalente com o solvente
desfeita. Na prtica, um dos principais fatores
que impulsionam o enovelamento de uma
protena o chamado efeito hidrofbico. Resumidamente, o efeito hidrofbico pode ser
entendido como a tendncia de resduos de
aminocidos hidrofbicos se agruparem no
interior da protena (que se torna portanto
apolar) e dos resduos hidroflicos se exporem
na superfcie da mesma (que se torna portanto polar).
Em solues aquosas existe uma rede de ligaes
de hidrognio entre as molculas de gua. Molculas
do soluto tendem a romper ou atrapalhar a formao
dessa rede. Esse efeito mais pronunciado ao redor de
molculas hidrofbicas, onde formada a camada de
solvatao (regio onde as molculas de gua esto
altamente organizadas em um padro timo de formao de ligaes de hidrognio). O aumento da ordenao das molculas de gua na camada de
solvatao, ao redor de solutos hidrofbicos (no-polares) resulta em uma diminuio desfavorvel da entropia do solvente. Quando molculas (ou partes de
molculas) no polares so agrupadas, o tamanho da
camada de solvatao menor, uma vez que nem todas esto expondo toda a sua superfcie molecular ao
solvente (menor superfcie acessvel ao solvente). O
resultado disso um aumento favorvel na entropia.
Consequentemente, aminocidos hidrofbicos tendem
a se agrupar no interior de uma protena, mantendo-se
afastados da gua.

A maior parte da variao da energia livre que ocorre quando as interaes intramoleculares so formadas devido ao
aumento da entropia na soluo aquosa resultante da formao do ncleo hidrofbico.
Isso supera a grande perda em entropia con-

7. Modelos Tridimensionais

formacional decorrente do processo de enovelamento da protena em sua estrutura nativa (Figura 1-7).

Figura 1-7: A energia livre do enovelamento


resultado de um balano delicado de foras.
As interaes intramoleculares (H) e a
entropia do solvente (efeito hidrofbico, TS)
so favorveis ao enovelamento, enquanto a
entropia
conformacional
(TS)

desfavorvel.

7.4. Predio da estrutura


A determinao experimental ainda
considerada o melhor processo para se obter
a estrutura tridimensional de uma protena.
Entretanto estas tcnicas, alm de serem financeiramente custosas, podem levar anos e,
em alguns casos, a estrutura final pode no
chegar a ser obtida. Portanto, o desenvolvimento de mtodos computacionais tanto
uma alternativa mais barata quanto, em alguns casos, a nica possibilidade de obteno
de modelos estruturais para algumas protenas.
A complexidade do estudo das conformaes adotadas por uma protena durante o
seu enovelamento at a conformao nativa
pode ser ilustrada no chamado de paradoxo
de Levinthal. Esse paradoxo diz que o nmero
de possveis conformaes para uma dada
sequncia de aminocidos astronmico exigindo, mesmo considerando os computadores mais poderosos disponveis, um tempo
comparvel idade do universo para o clculo da energia de todas estas conformaes.

Entretanto, o tempo de enovelamento de


uma protena est na escala de microssegundos e, portanto, o processo de enovelamento
no pode ocorrer atravs de uma busca aleatria por todas as conformaes possveis.
De fato, o que ocorre a reteno de estruturas que so energeticamente mais estveis,
isto , a cadeia peptdica percorre um caminho
de enovelamento.
Percebe-se, atravs do paradoxo de
Levinthal, porque determinar a estrutura 3D
nativa a partir da sequncia de aminocidos
permanece como um dos maiores problemas
da cincia moderna, tratando-se de uma
questo profundamente multidisciplinar e
abrangendo diversas reas da cincia como
engenharias, biologia, fsica, qumica e computao cientfica.
Os primeiros mtodos desenvolvidos
para a predio da estrutura de protenas
eram organizados segundo 3 grupos principais: mtodos de modelagem comparativa, de
predio de enovelamento (ou threading) e
predio por primeiros princpios (ou ab
initio). Essas categorias diferem quanto ao
uso das informaes disponveis nos bancos
de dados de estruturas tridimensionais de
protenas resolvidas experimentalmente. A
modelagem comparativa a metodologia
mais dependente dessas informaes, sendo
a ab initio totalmente independente (Figura 27).

Figura 2-7: Relao entre mtodos de


predio de estrutura tridimensional de
protenas e o uso de estruturas resolvidas
experimentalmente. Cada tcnica aplicvel
a partir de um certo grau de similaridade, o
qual medido pela taxa de identidade entre
os aminocidos da sequncia alvo e
sequncias de estruturas conhecidas (a
serem usadas como moldes).

7. Modelos Tridimensionais

Com os recentes avanos na rea, contudo, pode-se notar que a separao entre
entes mtodos cada vez mais tnue. Alm
disso, uma rpida consulta aos ltimos CASP
mostra que muitos dos mtodos podem ser
includos em mais de uma categoria. Por
exemplo, a separao entre predio do enovelamento e modelagem comparativa cada
vez mais difcil, e o uso de algum tipo de informao estrutural/experimental amplamente observado, mesmo em metodologias
ditas de primeiros princpios. Assim, hoje se
usa uma classificao mais ampla que til
quando se deseja avaliar e comparar os mtodos objetivamente:
i) Mtodos independentes de estruturas
molde (tambm chamados de mtodos
template free). Incluem a predio ab
initio e a predio de novo;
ii) Mtodos baseados em estruturas
molde (tambm chamados de template
based). Incluem threading e modelagem
comparativa.
Com esta nova classificao, os mtodos ditos de novo so aqueles que utilizam algum tipo de informao estrutural, tais como
fragmentos de protenas, predio de estrutura 2ria e potenciais estatsticos, oriundas de
protenas no homlogas sequncia alvo.
O que vai ditar a escolha do mtodo a
ser aplicado a presena ou no de estruturas resolvidas experimentalmente, e depositadas em bancos de estruturas como o PDB
(Protein Data Bank), que possam ser usadas
como molde (ou template) para a modelagem
da sequncia alvo. A escolha do mtodo est
intrinsecamente relacionada com a taxa de
identidade obtida a partir do alinhamento entre a sequncia alvo e possveis candidatos a
molde (Figura 3-7).
O enovelamento da protena pode ser visto, em ltima instncia, como resultado das foras fsicas atuando sobre os tomos da protena. Sendo assim, a
formulao mais acurada para se estudar o enovelamento ou predizer a estrutura de protena baseada
em representaes com todos os tomos explcitos
(tambm chamados de all-atom, ver captulo 8). O
problema de tal representao o nvel de complexi-

dade introduzida, que torna o problema muito difcil de


ser tratado com a capacidade computacional disponvel atualmente. Por razes prticas, a maioria dos mtodos de predio faz uso de representaes
simplificadas da protena, assim limitando o nmero de
conformaes a serem avaliadas (o chamado espao
conformacional), e adotam funes de energia empricas (ou semi-empricas) ou baseadas em conhecimento
(knowledge-based) que capturam as foras mais importantes que impulsionam e estabilizam o enovelamento.

As conformaes que esto associadas


ao mnimo global da funo de energia so
consideradas as provveis conformaes nativas que a protena adota em condies fisiolgicas. Dessa forma, os mtodos de
predio de estrutura de protenas apresentam, nas suas metodologias, as seguintes caractersticas em comum:
i) Uma representao da estrutura da
protena e um conjunto de graus de liberdade que define o espao de conformaes;
ii) Funes de energia compatveis com
a representao;
iii) Algoritmos para realizar a busca no
espao de conformaes.

Representao da estrutura e do
espao de conformaes
A representao tridimensional de uma
molcula pode ser dada pela posio geomtrica de seus tomos em um sistema de coordenadas cartesianas (x, y, z) ou pelas
chamadas coordenadas internas (Figura 4-7).
Nesta ltima, para cada tomo so fornecidas
informaes relativas ao comprimento de ligao, ngulo de ligao e ngulo de toro
(ou ngulo diedral).
A representao computacional de uma
protena pode ser feita baseada em todos os
seus tomos (modelos all-atom), em tomos unidos (alguns tomos de hidrognio
so considerados implicitamente), e em
agrupamentos de tomos (ou coarse-grained)
(ver captulo 8). Independentemente da estratgia, as formas de definio so equivalentes.

7. Modelos Tridimensionais

Figura 3-7: Fluxograma para a predio da estrutura tridimensional de uma protena. O valor de
25% apenas uma referncia e depende de outros fatores, tais como a cobertura com a
sequncia alvo.

7. Modelos Tridimensionais

Figura 4-7: Exemplo de representaes de uma molcula de etano. Em ambos os sistemas, cada
linha representa um tomo. Em A, temos ainda a definio do nmero de tomos (NATM), do
tipo do tomo (ATM), do nome do resduo (RES), do rtulo da cadeia (CAD), do nmero do
resduo (NRES) e das coordenadas em si (COORDX, COORDY, COORDZ). Para definio das
propriedades descritas em OCUP e BETA, ver captulo 13. Em B, temos definido o elemento
qumico (ATM), o comprimento da ligao (BOND), o nmero do tomo com o qual h a ligao
(REF1, por exemplo, o tomo 7 est ligado ao tomo 1, distando deste 1,0 ), o valor do ngulo
de ligao (ANG), o nmero do tomo com o qual h a formao do ngulo (REF2, por exemplo,
o tomo 8 est ligado ao 2 e faz um ngulo de 109,5o com o tomo 1), o valor do ngulo de
diedro (TORC) e, por fim, o nmero do tomo com o qual est definida a toro.
Outro aspecto a ser definido nessa etapa so os graus de liberdade que iro definir o
espao de conformaes, isto , de que forma ser definida a flexibilidade estrutural que
ir permitir construir diversas estruturas para as sequncias alvo. Tipicamente, os mtodos de PSP adotam geometrias de ligao
rgidas, isto , o comprimento das ligaes
fixo em um valor de referncia, assim como
os ngulos entre as ligaes.
Usando uma representao em coordenadas internas, os graus de liberdade para
modificao da estrutura so os ngulos de
toro, mais especificamente os ngulos diedrais do esqueleto peptdico: , e (Figura
5-7, ver tambm captulo 2) alm dos ngulos
diedrais das cadeias laterais: 1 at 4 (Figura
6-7). A definio desses ngulos suficiente

para construir uma estrutura muito prxima


estrutura nativa de protenas, de forma muito
mais simples do que lidar com o sistema de
coordenadas cartesianas.

Figura 5-7: ngulos de toro (diedrais) da


cadeia principal da protena.

7. Modelos Tridimensionais

energtico, consideramos a estrutura nativa


de uma protena como sendo a estrutura de
menor energia total. Idealmente, a funo
aplicada deve ser capaz de separar estruturas
nativas de no nativas e, alm disso, de avaliar o quanto uma estrutura est mais prxima
da nativa em relao outra atravs da comparao das energias. Tendo em vista esse
quadro ideal, a definio da funo de energia
um dos aspectos mais difceis em PSP.

Figura 6-7: ngulos de toro (diedrais) da


cadeia lateral do aminocido lisina. At
quatro ngulos de toro definem a
conformao da cadeia lateral de qualquer
aminocido.

Funes de energia
As conformaes geradas pelo algoritmo de predio de estrutura 3D de protenas
devem ser avaliadas seguindo um critrio de
qualidade. Geralmente, esse critrio dado
pela energia total da estrutura. Essa energia
pode ser calculada considerando diversos aspectos fsico-qumicos e diferentes nveis de
simplificaes. Os parmetros desta funo
so usualmente retirados de campos de fora
clssicos (ver captulo 8) e, de maneira geral,
uma funo dependente da posio dos
tomos (ou grupos de tomos) em relao
aos seus vizinhos. Nestas funes, a energia
total determinada pela posio dos tomos,
e dada pela combinao das energias
fornecidas pelos potenciais diedral prprio,
Lennard-Jones e Coulomb (ver captulo 8).
Algumas abordagens usam funes de energia potencial ad hoc, que refletem caractersticas gerais das
protenas, e potenciais estatsticos parametrizados a
partir de bancos de dados de estruturas conhecidas.
Alguns mtodos lanam uso de funes efetivas de
solvatao que modelam as interaes entre a protena
e o solvente (implcito).

De maneira geral, do ponto de vista

Frequentemente, deve-se decidir entre aumentar a


complexidade da funo de energia (o que nem sempre
garante aumento de preciso) ou usar um modelo mais
simplificado para manter um custo computacional que
torne o clculo exequvel dentro da infraestrutura
computacional disponvel. O uso de funes com potenciais estatsticos parametrizados por estruturas conhecidas uma tentativa de sanar essas dificuldades.
No entanto, isso acaba introduzindo outros problemas,
como a alta dependncia da parametrizao e at
mesmo a perda de generalidade na aplicao, ou seja,
um potencial parametrizado para uma classe de protenas ir apresentar resultados imprecisos quando
aplicado a outra classe.

Algoritmos de busca
O algoritmo de busca o componente
responsvel por gerar a conformao inicial,
avaliar sua qualidade usando a funo de
energia, gerar novas conformaes e avalilas em um processo iterativo at que algum
critrio de parada esteja satisfeito. O problema de predio de estrutura de protenas ,
geralmente, definido como um problema de
minimizao. Assim, a busca feita pela conformao que minimize a funo de energia, a
qual se espera que seja a conformao nativa.
O problema de otimizao possui algumas caractersticas que o tornam extremamente complexo. Por
exemplo, a funo de energia apresenta uma multimodalidade massiva (ou seja, possuem um nmero muito
grande de mnimos locais), degenerescncia de mnimos e grandes regies de conformaes invlidas.
Alm disso, o problema est associado a um nmero
muito grande de graus de liberdade com grande interdependncia.
As abordagens empregadas na resoluo desse
problema frequentemente fazem uso de mtodos de-

7. Modelos Tridimensionais

nominados metaheuristicos (Figura 7-7). Estes mtodos constituem-se em tcnicas iterativas de otimizao
nas quais uma soluo candidata vai sendo melhorada
seguindo uma medida de qualidade. Esses mtodos
no fazem uso de informaes sobre a funo de avaliao ou mesmo sobre o problema, no entanto no h
garantias de se encontrar a soluo tima. Os mtodos
metaheursticos mais comuns incluem aqueles denominados Monte Carlo e Algoritmos Genticos. No entanto, alguns mtodos usam metaheursticas
combinadas a mtodos determinsticos baseados no
gradiente da funo, tais como o mtodo do mximo
declive (steepest descent). Esses ltimos so geralmente aplicados em etapas de refinamento e apenas
com funes de energia derivveis.

tena similar tem de possuir estrutura 3D resolvida experimentalmente, e as coordenadas


cartesianas de seus tomos devem estar depositadas em banco de dados de estruturas
como o PDB.
A modelagem comparativa o mtodo
empregado mais frequentemente, e seu limite
de predio est intrinsecamente relacionado
com o grau de similaridade entre as estruturas alvo e molde. Geralmente, consideram-se
como limites mnimos de aplicabilidade do
mtodo valores de 25 a 30% de identidade,
obtidos atravs do alinhamento entre a estrutura 1ria da protena alvo e de uma ou mais
protenas molde. A modelagem comparativa
pode ser dividida em cinco etapas descritas a
seguir e resumidas na Figura 8-7.

Identificao de referncias

Figura 7-7: Esquema de uma busca usando


metaheurstica para predio de estrutura de
protena. A estrutura inicial modificada a
cada passo e vai sendo avaliada segundo um
critrio energtico at que se obtenha uma
estrutura de mnimo. Idealmente, deseja-se
uma estrutura de mnimo global (rea em
verde) e no uma de mnimo local (rea em
vermelho).

7.5. Modelagem comparativa


No mtodo de modelagem comparativa,
tambm chamada de modelagem por homologia, a protena de interesse (alvo) ter sua
estrutura 3D predita usando como referncia
a estrutura 3D de outra protena similar
(tambm chamada de molde, e na maioria das
vezes evolutivamente relacionada). Essa pro-

Tem por objetivo identificar sequncias


de aminocidos de protenas resolvidas experimentalmente que possuam similaridade
com a sequncia da protena de interesse (sequncia alvo), cujas estruturas sero empregadas posteriormente como moldes. Essa
identificao pode ser feita atravs de algoritmos de alinhamento, sendo selecionadas
como referncias as protenas que possurem
os maiores ndices de similaridade e identidade (suficientes para se inferir homologia entre
as sequncias), menores ndices de gaps e a
maior cobertura da sequncia (relao entre a
quantidade de aminocidos alinhados entre as
duas sequncias e o tamanho total da sequncia alvo).

Seleo dos moldes


Dentre as referncias, necessrio escolher uma ou mais estruturas que serviro
de molde para a construo do modelo 3D final. Nesta etapa, imprescindvel a anlise do
papel biolgico da protena de interesse. Os
critrios de seleo podem incluir:
i) a protena de interesse e o possvel
molde pertencem a uma mesma famlia
de protenas;
ii) ambas desempenham preferencial-

7. Modelos Tridimensionais

Figura 8-7: Etapas de predio de estrutura tridimensional de protenas usando o mtodo de


Modelagem Comparativa.

7. Modelos Tridimensionais

mente a mesma funo ou tenham funes correlacionadas;


iii) as estruturas resolvidas experimentalmente possuam alta qualidade (por
exemplo, resoluo 2 , fator R <
20%);
iv) em tratando-se de uma enzima, recomendado o uso de um molde cuja estrutura j tenha sido resolvida
experimentalmente com seu substrato,
ligante ou modulador.
Na escolha de mais de uma estrutura
molde, importante realizar o alinhamento
estrutural entre estas de forma a identificar
regies conservadas, stios de ligao, guas
estruturais e ligaes dissulfeto conservadas.

Alinhamento entre as sequncias


Uma vez escolhida(s) a(s) estrutura(s)
molde, necessrio realizar alinhamento entre as sequncias alvo e molde de forma a
garantir que toda a protena de interesse seja
modelada (agora empregando programas
como Clustal, T-Coffee e Muscle). Um alinhamento com mais de 40% de identidade o
suficiente para gerar um modelo confivel.
Entretanto, importante lembrar que o modelo final ser uma representao desse alinhamento gerado. Portanto, regies sem
alinhamento significativo com o molde so
preditas tridimensionalmente (quando preditas) sem grande confiabilidade, usando geralmente dados estatsticos gerais sobre
estruturas de protenas.
Para as regies sem alinhamento, deve-se considerar:
i) a posio dessa regio na sequncia de aminocidos, verificando-se possveis stios de clivagem (principalmente em pores N- e
C-terminal);
ii) o tamanho dessa poro, considerando-se a
possibilidade de formao de um novo domnio
at ento no identificado nessa famlia;
iii) se so pores transmembranares, sejam
preditas in silico (por exemplo, atravs das ferramentas TMHMM, HMMTOP, TMPred) ou j descritas em literatura porm ausentes nas

estruturas molde;
iv) o tipo de estrutura 2ria predita in silico por mais
de uma ferramenta (tais como PSIPRED, PHYRE, JUFO e
PORTER), usando as regies de consenso entre elas
como informao de restrio de tipo de estrutura 2ria
durante a etapa de construo do modelo.

Alternativamente, mtodos hbridos podem ser aplicados para a predio de pores


sem alinhamento. Para essas regies, aplicam-se os mtodos de predio de enovelamento ou primeiros princpios e usa-se a
melhor estrutura predita como mais um molde para o mtodo de modelagem comparativa.

Construo do modelo
A partir do alinhamento global entre as
sequncias alvo e molde, algoritmos especficos para PSP via modelagem comparativa
iro transferir as informaes extradas da
estrutura 3D da protena molde para o modelo. As tcnicas mais aplicadas so as de
construo usando corpos rgidos e por satisfao de restries espaciais.
A tcnica de construo usando corpos rgidos
constri um modelo por partes, baseando-se na conservao de estruturas entre protenas homlogas ou
com grau significativo de identidade. As regies estruturalmente conservadas da protena de interesse so
definidas atravs de predio de estruturas 2rias. Essas regies so alinhadas com o molde, considerandose a mdia das posies dos C das sequncias de aminocidos das regies estruturalmente conservadas.
As regies que no satisfazem as exigncias so
chamadas de regies variveis. Essas compreendem,
geralmente, pores de alas que conectam as regies
conservadas. A cadeia principal dessas regies pode
ser obtida em bancos de dados especficos de estruturas, que apresentam conjuntos de alas classificados
pelo nmero de aminocidos e pelo tipo de estruturas
2rias que conectam.
Aps a insero das regies de alas, um modelo
inicial do esqueleto peptdico estar pronto, restando
apenas a insero das cadeias laterais dos aminocidos
atravs de busca em bibliotecas de rotmeros. Como
exemplo de programa baseado nesta tcnica, pode-se
mencionar o portal Swiss-Model.

7. Modelos Tridimensionais

A segunda tcnica mais comum, a construo por


satisfao de restries espaciais, inicia-se pelo alinhamento entre as sequncias alvo e molde, extraindo-se
desse molde suas restries espaciais (distncias e ngulos) e transferindo-as para o modelo. Por exemplo, o
tamanho das ligaes e seus ngulos preferenciais so
obtidos de campos de fora. Dessa forma, possvel
limitar o nmero de possveis conformaes que o
modelo pode assumir.
A principal caracterstica dessa tcnica a obteno emprica das restries espaciais, expressas por
funes de probabilidade, a partir de bancos de dados
contendo informaes sobre alinhamentos entre estruturas proteicas de alta resoluo. As restries espaciais e os termos de energia so combinados em
uma funo objetivo, sendo submetida a mtodos de
otimizao por gradiente conjugado e recozimento simulado, visando a minimizao das violaes das restries espaciais. Como exemplo de emprego desta
tcnica, pode-se citar o programa Modeller.

Validao do modelo
Aps a construo do modelo, necessrio identificar possveis erros relacionados
aos mtodos empregados, escolha das referncias e ao alinhamento entre as sequncias alvo e molde. Caso o modelo seja
caracterizado como de m qualidade, todo o
protocolo anterior deve ser revisto no intuito
de se melhorar o alinhamento, escolher outros moldes ou at mesmo decidir-se pelo
uso de outros mtodos. Os principais mtodos de validao de um modelo sero descritos adiante (item 7.10).
Por ser dependente de uma estrutura
3D resolvida experimentalmente, a tcnica de
modelagem comparativa possui certas limitaes, tais como:
i) nem sempre se consegue uma estrutura molde para a protena de interesse;
ii) o grau de similaridade conseguido
entre as sequncias alvo e molde pode
ser pequeno (<30% de identidade),
mesmo em regies do stio ativo, inviabilizando o emprego desta tcnica;
iii) por vezes, as sequncias que podem
servir como moldes possuem qualidade
insuficiente para a construo de um

modelo adequado.
Nesses casos, como citado anteriormente, o uso adicional de informaes, como
a identificao de regies transmembranares,
a predio de regies de peptdeo sinal, a
predio de tipo de estrutura 2ria, a predio
do tipo de enovelamento e a verificao da
existncia de dados tericos e experimentais
quanto existncia, quantidade e localizao
de pores transmembranares, ligantes e
nmero e tipo de cadeias podem contribuir
tanto na construo de modelos tridimensionais como na anotao funcional de sequncias.
No caso de anlises em larga escala de conjuntos
de protenas, e at mesmo de genomas inteiros, todo
esse processo deve ser realizado para cada protena de
interesse. Considerando o tempo gasto em cada uma
dessas etapas, interessante o uso de mtodos automatizados que podem ser empregados como um filtro
inicial para a deteco de quais protenas podem ser
modeladas por modelagem comparativa e para a obteno de um modelo inicial para cada uma dessas
protenas, a ser otimizado individualmente. Como
exemplo de programa usado para a anlise em larga
escala de sequncias de protenas, citamos o programa MHOLline.

7.6. Predio do enovelamento


O mtodo de predio do enovelamento
ou threading parte da ideia de observaes de
que a estrutura 3D mais conservada que a
sequncia, de forma que mesmo sequncias
com pouca similaridade podem possuir estruturas muito semelhantes, o que limita o
nmero de enovelamentos que protenas podem assumir. Atualmente, mais de 1.000 tipos de enovelamento j foram registrados, e
acredita-se que esse valor no ultrapasse a
previso mxima de 7.000 tipos.
Nesse mtodo, tambm so usadas
protenas com estruturas 3D conhecidas e
depositadas no PDB, de onde as informaes
sobre os tipos de enovelamento so extradas
e armazenadas em bancos de dados de tipos
de enovelamentos. Como exemplo, citamos o
CATH
(Class,
Architecture,
Topology,

7. Modelos Tridimensionais

Homology) e o SCOP (Structural Classification


of Proteins).
O mtodo de predio do enovelamento
assim menos dependente da proximidade
evolutiva entre a sequncia de aminocidos da
protena de interesse e seus possveis moldes,
ou seja, as sequncias podem apresentar baixa identidade. O mtodo portanto aplicvel
quando o alinhamento entre a estrutura 1ria
da protena de interesse e de uma ou mais
protenas de referncia (moldes) apresentam
uma identidade entre 20% e 30%.
No problema de PSP via predio do enovelamento
tenta-se ajustar a estrutura 1ria da protena de interesse aos tipos de enovelamentos de protenas conhecidos, analisando principalmente as conservaes de
estruturas 2rias. Esse mtodo pode ser dividido nas
seguintes etapas:
i) Reconhecimento do tipo de enovelamento pela
anlise das principais propriedades da protena
de interesse (tais como estrutura 2ria, polaridade de cadeias laterais e hidrofobicidade);
ii) Construo do melhor alinhamento possvel
entre a sequncia de aminocidos da protena de
interesse e estruturas depositadas em bancos de
dados. Alguns mtodos baseiam-se na construo de modelos simplificados (como modelos
baseados em C) da protena de interesse a partir da estrutura 3D de possveis moldes, e avaliam a qualidade do modelo atravs da otimizao
de funes objetivo (geralmente no-lineares).
Essas funes podem considerar, por exemplo,
resultados de alinhamentos mltiplos de sequncias e de estruturas 2rias, matrizes de
substituio para cada aminocido dentro de
uma famlia especfica de protenas e penalizao
de gaps;
iii) Escolha do(s) melhor(es) molde(s) para a
construo da estrutura 3D da protena de interesse, geralmente baseada em funes de predio de erro/qualidade entre os possveis
modelos simplificados e seu(s) molde(s) (por
exemplo, a funo TM-score). A escolha dos
melhores moldes por vezes baseada em bibliotecas de fragmentos;
iv) Construo do modelo 3D atravs de tcnicas
similares s empregadas na modelagem comparativa, por vezes valendo-se de ferramentas
acopladas aos programas Swiss-Model ou Mo-

deller. Alguns programas empregam, para as


regies sem molde, mtodos por primeiros princpios. Como exemplo de programas para PSP
via predio do enovelamento pode-se citar os
programas HH-Pred e I-TASSER.

As limitaes dos mtodos de predio


do enovelamento vm de dois pontos principais. O primeiro similar ao observado para a
modelagem comparativa, isto , se a identidade entre a sequncia alvo e as protenas
utilizadas na construo do banco de enovelamentos for muito baixa, possvel que o
enovelamento daquela sequncia simplesmente no esteja representado no banco. Assim, o mtodo pode construir um modelo
completamente errado. A outra limitao
que os modelos apresentam uma resoluo
relativamente baixa, dificultando seu uso em
estudos que exigem posicionamento preciso
dos tomos como no caso do atracamento
(ver captulo 9).

7.7. Mtodos de novo


Embora a modelagem comparativa e a
predio do enovelamento permitam a obteno de modelos satisfatrios, tais tcnicas
so invlidas se protenas de referncia, com
estruturas determinadas experimentalmente,
no se encontrarem disponveis. De forma a
manter a independncia de moldes de protenas homlogas, foram desenvolvidos mtodos que usam informaes provenientes de
bancos de estruturas de protenas determinadas empiricamente, sem a necessidade de
haver identidade com a sequncia alvo, resultando na predio chamada de novo. Dentre
as principais tcnicas usadas pela predio de
novo destacam-se o uso da predio de estruturas 2rias, uso de fragmentos de protenas, e modificao da funo de energia.

Predio de estruturas 2rias


A predio de estruturas 2rias envolve o
conjunto de tcnicas que visam reconhecer as
categorias de estruturas 2as (tipicamente hlices e folhas) associadas a cada regio de

7. Modelos Tridimensionais

uma protena a partir apenas de sua sequncia. Por 30 anos, o cenrio de tcnicas de
predio de estruturas 2rias foi composto por
mtodos que se baseavam na propenso de
um resduo pertencer a uma determinada estrutura 2ria. Na dcada de 1990, uma nova
gerao de mtodos que considerava os efeitos trazidos pelos resduos adjacentes surgiu,
contemplando os efeitos de interaes locais
na predio, o que alou a preciso das predies a um patamar acima de 60%.
O crescimento de bancos de dados de
protenas em combinao a algoritmos mais
sofisticados permitiu a incluso de informaes relacionadas ao enovelamento da protena nestas predies, principalmente
aquelas relacionadas aos efeitos de interaes de longo alcance. Esses novos mtodos
baseiam-se em alinhamentos mltiplos e sua
consequente informao evolutiva. Em sua
maioria, esses mtodos valem-se do PSIBLAST (ver captulo 3). Os atuais mtodos de
predio de estruturas 2rias possuem desempenho em torno de 80% de preciso,
dentre os quais destacam-se PSIPRED, DSC,
GOR IV, Predator, Prof, PROFphd e SSpro.

Fragmentos de protenas
A determinao da estrutura da RBP
(Retinol Binding Protein) em 1986, em particular de seu stio ativo, se mostrou desafiadora por sua estrutura no se parecer com
nenhuma at ento conhecida (Figura 9-7).
Diante das dificuldades de se concluir tal trabalho de determinao, os pesquisadores resolveram buscar informaes em todo o
banco do PDB (na poca contava com apenas
213 entradas), procurando por quaisquer estruturas (ou regies/segmentos destas) semelhantes que pudesse substituir o stio em
estudo. Nessa busca, os autores perceberam
que a segmentao das protenas em pequenos fragmentos resultava em uma surpreendente redundncia estrutural, ou seja,
pequenos fragmentos com estruturas similares apresentavam similaridade de sequncia
(localmente).
Isso permitiu a construo de um mo-

Figura 9-7: Retinol Binding Protein com o


retinol no stio ativo, cdigo PDB: 1RBP.
delo da RBP a partir de fragmentos de outras
protenas, sem qualquer grau de similaridade
global, e previu-se que se tratava de uma
protena organizada em uma srie de oito fitas antiparalelas, constituindo um barril-
que encapsula a molcula de retinol. A facilidade com que uma estrutura, ento considerada incomum, foi prevista usando-se
estruturas parciais de muitas protenas diferentes levou os autores a questionarem se
haveria alguma estrutura de protena que pudesse de fato ser considerada nica, e a proposta desta tcnica de modelagem por meio
de fragmentos proteicos cujas estruturas tivessem sido determinadas experimentalmente (ou seja, empiricamente).
A preservao de certo grau de similaridade estrutural entre trechos curtos de sequncias semelhantes a chave para a
predio na ausncia de moldes (templatefree) de estruturas de protenas. Quando no
h qualquer protena homloga disponvel para ser usada como molde, possvel usar um
conjunto de pequenos fragmentos que se
correlacione localmente com a estrutura da
protena alvo (Figura 10-7).
Entretanto, deve-se perceber que por
maior que seja a similaridade entre duas sequncias de fragmentos, a similaridade estrutural apenas parcial. Como cada
fragmento, sendo proveniente de uma protena diferente, encontra-se imerso em um ambiente fsico-qumico prprio, o conjunto de

7. Modelos Tridimensionais

interaes que agem sobre esses fragmentos


podem conferir-lhes estruturas diferentes
(Figura 11-7).

Figura 10-7: Fragmentos estruturalmente


semelhantes, mas que possuem sequncias
de resduos diferentes.
Duas caractersticas devem ser levadas
em considerao para se trabalhar com fragmentos de protenas na predio de estruturas: a primeira que uma mesma sequncia
pode levar a estruturas diferentes, e a segunda que duas sequncias diferentes podem
levar mesma estrutura. Dessa forma, se faz
necessrio a construo de uma lista de fragmentos candidatos a reproduzir uma dada regio da protena alvo.

O primeiro desafio para a predio de


estruturas usando fragmentos montar uma
biblioteca de fragmentos que rena as melhores estruturas candidatas a reproduzir a
regio da sequncia alvo, a partir de um banco
de protenas determinadas empiricamente.
Como discutido anteriormente, pode-se usar a
similaridade entre as sequncias dos fragmentos retirados das protenas do banco e a
regio de interesse da protena alvo. Os programas Rosetta e QUARK usam o PSI-BLAST
para reconhecer o quo similares so as sequncias de um fragmento e da respectiva
regio da protena.
Como exemplo da gerao de uma biblioteca de fragmentos podemos citar o programa Protein Fragment Generator Profrager. Nele, os fragmentos so extrados
de uma verso do PDB filtrada para eliminar
as diversas redundncias existentes entre as
estruturas. Cada fragmento iniciado em um
resduo da protena e se estende pelo comprimento desejado. Uma biblioteca de fragmentos, por exemplo de 6 resduos, compreende
os resduos das posies 1 a 6, 2 a 7, 3 a 8 e
assim sucessivamente. De posse dos frag-

Figura 11-7: Fragmentos de protenas com a mesma sequncia de resduos que possuem
estruturas diferentes. Acima, as protenas de cdigo PDB 1F8E (fragmento destacado entre os
resduos 243 e 247) e 1BGP (resduos 63 a 67); abaixo, 1LM5 (2800 a 2804) e 1XS5 (121 a 125).

7. Modelos Tridimensionais

mentos extrados do banco, o problema torna-se ento escolher os melhores para reproduzir cada regio.
Na Figura 12-7 est representada uma
biblioteca com fragmentos de 6 resduos para
uma dada protena. O primeiro fragmento do
banco alinhado primeira posio da protena. Os resduos do fragmento so comparados com as entradas da matriz BLOSUM62.
Nesse exemplo, o valor da substituio de
uma valina por uma asparagina -3, e a
substituio de um glutamato por uma lisina
+1. Somando os valores da comparao entre
todos os resduos do fragmento com os da
respectiva regio da sequncia alvo, temos
uma pontuao total de -8 para esse fragmento. O segundo fragmento do banco tomado, e o processo de comparao
resduo-resduo entre o fragmento e a sequncia alvo repetido. Nesse exemplo, temse uma pontuao total de +11 para o segundo
fragmento. O processo ilustrado para a atribuio da pontuao repetido para todos os
fragmentos do banco, sempre para uma janela de leitura de 6 resduos. Ou seja, deslocase um resduo para a direita e reinicia-se o
processo, formando uma nova lista de fragmentos para esta nova posio.
Uma lista de candidatos a reproduzir a
sequncia alvo montada de acordo com
uma pontuao. Parte dessa pontuao o
grau de similaridade entre a sequncia do
fragmento e da regio correspondente da sequncia alvo. A outra parte da pontuao a
concordncia da estrutura 2ria do fragmento
com a estrutura 2ria predita pelo PSIPRED
para a sequncia alvo. Ao final, a biblioteca de

fragmentos conter os fragmentos que possuem as maiores pontuaes, logo, os fragmentos mais provveis para a reproduo da
estrutura local.
Se o uso de um fragmento de uma protena conhecida elimina a necessidade de se modelar a regio localmente, o problema torna-se escolher a melhor
estrutura para cada regio. De posse de uma biblioteca
de fragmentos, o trabalho torna-se um problema de
otimizao, abordado por um algoritmo de busca, onde
se procura reconstruir a protena usando as informaes trazidas pelos fragmentos, validando-se a estrutura gerada usando uma determinada funo de
energia.

importante notar que, embora sejam


dependentes de bancos de estruturas, os
fragmentos no precisam ser provenientes de
protenas com grau elevado de identidade, o
que permite a modelagem de estruturas inditas. Modelos obtidos com o uso de fragmentos
demonstram
utilidade
para
inspiraes biolgicas e tm obtido sucesso
nas demais reas da modelagem de protenas, tais como predio de stios ativos e
identificao de padres de enovelamento,
atracamento protena-protena, modelagem
de voltas e at mesmo desenho de novas
protenas.
As limitaes dos mtodos de novo so
praticamente as mesmas dos mtodos por
primeiros princpios. Sua aplicao , em geral, limitada a sequncias mais curtas (<150
resduos), e alguns dos mtodos podem estar
sujeitos a artefatos se a parametrizao das
funes estatsticas no for feita com cuidado.

Figura 12-7: Gerao de um fragmento de seis resduos.

7. Modelos Tridimensionais

Campos de fora estatsticos


Campos de fora clssicos (ver captulo
8) so comumente empregados para a representao de interaes intramoleculares
da estrutura de protenas, como ngulos e
comprimentos de ligao, ngulos diedrais,
foras de van der Waals e eletrostticas. Entretanto, os mtodos de maior sucesso nos
ltimos anos para predio da estrutura de
protenas empregam termos estatsticos derivados de protenas cujas estruturas j so
conhecidas, seja de forma exclusiva ou combinados com termos de campos de fora
clssicos. Isso culmina nos chamados campos
de foras estatsticos, cujo desenvolvimento
se tornou amplamente disseminado.
Uma das formas de representar o universo de conformaes que uma determinada
sequncia polipeptdica pode adotar atravs
de uma superfcie, onde cada ponto representa uma dada conformao. Nesta superfcie, a altura de cada ponto representa a
energia da conformao, de forma que conformaes de menor energia estaro no fundo da superfcie, e conformaes de maior
energia em seu topo.
Assim, os termos de campos de fora
estatsticos so derivados usando-se um
conjunto de protenas teste com a inteno de
suavizar a superfcie de energia, garantindo
que a conformao de menor energia (ou mnimo global) corresponda conformao nativa, e os mnimos locais sejam pouco
frequentes e com valores de energia distantes
do mnimo global. A configurao ideal de
uma funo de energia faz com que as barreiras entre os mnimos sejam menores, permitindo ao algoritmo de busca a passagem de
um mnimo local a outro, facilitando a busca
pelo mnimo global (Figura 13-7).
Tomemos como exemplo um dos termos mais comuns nas funes de energia, as
ligaes de hidrognio. Alguns autores descreveram que possvel gerar todas as estruturas contidas no PDB a partir de um
conjunto de representaes de ligaes de hidrognio, o que torna interessante um termo
do campo de fora exclusivamente dedicado

ao tratamento dessas ligaes. J se verificou


que os termos usados em campos de fora
clssicos no so capazes de representar todas as ligaes de hidrognio em suas orientaes corretas. Assim, um termo estatstico
exclusivo para ligaes de hidrognio se
mostra fundamental para a predio de novo.

Figura 13-7: Efeito de suavizao da superfcie


de energia.
Este termo contribui na avaliao da propenso de
formao de estruturas 2rias (ver captulo 2), usando o
valor da probabilidade de um par de resduos P(aiaj)
possuir uma ligao de hidrognio. A probabilidade pode ser calculada de acordo com a equao abaixo:
P(aiaj) = -log[F0(aiaj)/Fe(aiaj)]
onde aiaj o par de resduos, F0(aiaj) a frequncia observada para as ligaes de hidrognio entre os resduos avaliados e Fe(aiaj) a frequncia estimada a
partir de um conjunto de estruturas enoveladas incorretamente.
Um exemplo de aplicao destes termos estatsticos o programa QUARK, um dos mtodos de maior
sucesso no CASP. relatado que sua capacidade de refinar estruturas devida parametrizao de seu
campo de fora, puramente estatstico. A correlao
entre a energia e a similaridade estrutural com a conformao nativa segundo o QUARK de 0,7 (sendo 0,0
a pior correlao possvel e 1,0 uma correlao perfeita).

7.8. Primeiros princpios


A predio por primeiros princpios ou

7. Modelos Tridimensionais

ab initio se destaca como sendo a tentativa


mais ambiciosa para a resoluo do problema
de predio de estrutura de protenas. Essa
abordagem difere-se das demais por no usar
informaes de estruturas conhecidas, relacionadas com a sequncia alvo, e por usar
funes de energia contendo somente termos
de significado fsico. Tal estratgia baseada
em dois pressupostos: todas as informaes
necessrias sobre a estrutura de uma protena esto contidas em sua sequncia de aminocidos, e acredita-se que as protenas
enovelam-se para um estado nativo, ou um
conjunto de estados nativos, que se encontra
no (ou prximo ao) mnimo global de energia
livre.
Alm de prever a estrutura tridimensional, os mtodos por primeiros princpios podem contribuir na compreenso dos princpios
fsicos do processo de enovelamento. Adicionalmente, podem ser aplicados na correo
ou refinamento de estruturas modeladas por
outras metodologias ou mesmo na predio
de protenas desordenadas. O sucesso dos
mtodos destas predies depende, principalmente, de uma funo de energia acurada,
na qual o estado nativo da protena corresponda ao estado termodinamicamente mais
estvel, e de um algoritmo eficiente capaz de
varrer a superfcie de energia (ou seja, gerar
diversas novas conformaes).
O enovelamento de uma protena pode
ser visto, em ltima instncia, como resultado
das foras fsicas atuando sobre os tomos
da protena. O campo de fora deve capturar,
ao menos, informaes qualitativas essenciais
das caractersticas fsicas e qumicas que impulsionam e estabilizam o enovelamento,
descrevendo as interaes intramoleculares
da protena e desta com as molculas de solvente. Normalmente, usam-se campos de
fora empricos, muitas vezes complementados por um termo de solvatao implcita
(ver captulo 8). Tais funes de energia invariavelmente sofrem aproximaes que resultam em artefatos nos modelos, tais como o
favorecimento excessivo de estruturas 2rias
em hlices em relao a outros tipos de estruturas.

Apesar do alto grau de complexidade, a


formulao mais realista para se estudar o
enovelamento ou prever a estrutura de protenas seria baseada em representaes com
todos os tomos explcitos (ver captulo 8).
Contudo, a predio por primeiros princpios
implica em altssimo custo computacional, e o
nmero de conformaes possveis para uma
sequncia de aminocidos muito grande para ser exaustivamente amostrado. Por isso,
parte destes mtodos faz uso de modelos de
energia e representaes simplificadas, tais
como modelos coarse-grained (ver captulo
8), acelerando a busca conformacional.
Os algoritmos de busca mais usados so aqueles
que envolvem abordagens heursticas, com destaque
para os algoritmos genticos. H, tambm, estudos de
predio por primeiros princpios envolvendo o uso de
simulaes por dinmica molecular (ver captulo 8)
com campos de fora clssicos, apesar de essa tcnica
ser mais aplicada a estudos do enovelamento proteico.
O primeiro marco na tentativa da predio por primeiros princpios atravs de simulaes por dinmica
molecular foi, provavelmente, nos trabalhos de Duan e
Kollman, em 1998, com a simulao da protena villin
headpiece (36 resduos) em solvente explcito, a qual
envolveu seis meses de computao paralela em larga
escala (projeto Folding@home).

A predio por primeiros princpios ainda


um problema no resolvido na biologia
computacional. Ela representa a abordagem
mais complexa e difcil dentre os mtodos de
predio e ainda est defasada, em termos de
velocidade e acurcia, quando comparada
com os demais mtodos. Atualmente, seu
sucesso limitado a protenas pequenas, com
menos de 100 resduos de aminocidos (Figura 14-7).
Uma grande variedade de mtodos vem
sendo proposta com dois focos importantes:
rapidez e acurcia. A maioria busca o equilbrio entre esses dois fatores. As diferenas
entre esses mtodos (Tabela 1-7) se encontram no tipo de representao (ou seja, todos
os tomos ou modelos coarse-grained), no
mtodo de busca e na funo de energia.

7. Modelos Tridimensionais

7.9. Escolhendo o modelo

Figura 14-7: Resultados obtidos com o


protocolo ab initio do programa GAPF. (A)
Trp-cage (PDB1L2Y) com 29 aminocidos. O
modelo na esquerda apresenta um RMSD (do
esqueleto peptdico) de 3,04 em relao
estrutura experimental na direita. (B) Villin
headpiece (PDB1VII) com 36 aminocidos. O
modelo na esquerda apresenta um RMSD de
3,38 (do esqueleto peptdico) em relao
estrutura experimental na direita.
Tabela 1-7: Exemplo de mtodos de predio
ab initio de estrutura de protenas.
Mtodo

Algoritmo de
busca

Funo de
energia

GAPF

Algoritmo
gentico

GROMOS96 e
GAPF-CG

Profet

Algoritmo
evolucionrio

OPLSAA,
AMBER94,
AMBER96,
ECEPP e FLEX

ProtPred

Algoritmo
evolucionrio

CHARMM (v.27)

Nicosia

Algoritmo
evolucionrio
multiobjetivo
Algoritmo
evolucionrio
multiobjetivo
multitabelas

CHARMM (v.27)

MEAMT

CHARMM (v.27)

Tanto os mtodos de novo (baseados ou


no em moldes) quanto os por primeiros
princpios tm em comum a grande quantidade de modelos gerados. Devido natureza
estocstica dos algoritmos de busca (e tambm s imprecises das funes de energia),
os procotolos mais usados em PSP consistem
em executar o algoritmo um grande nmero
de vezes com diferentes sementes para o gerador de nmeros aleatrios. Para efeitos de
ilustrao, um protocolo tpico considerado
prprio para publicao do mtodo Rosetta
consiste em, no mnimo, 10.000 execues
independentes. Dessa forma, cada execuo
ir percorrer uma trajetria diferente no espao de conformaes e poder terminar em
uma conformao diferente.
As estruturas resultantes dessa grande
amostragem so chamadas de decoys, e um
problema em aberto na PSP a filtragem de
decoys. Atualmente, os protocolos seguem
alguns passos para a escolha do modelo a ser
selecionado dentre as milhares de conformaes geradas. Os dois principais passos so:
i) Filtragem dos decoys: feita sobre o
valor de energia total retornado pela
funo usada pelo mtodo.
A maioria dessas funes j carrega de forma implcita (ou explcita) medidas sobre a qualidade estereoqumica da estrutura. Dessa forma, um primeiro filtro
razovel investigar apenas os decoys com energia
semelhante (at certo valor limite) em relao ao
decoy de menor energia (o melhor segundo o critrio
energtico).

ii) Agrupamento (clustering) dos


decoys: a comparao entre as estruturas resultantes do passo anterior e o
seu agrupamento de acordo com um
critrio de similaridade, por exemplo,
estruturas com at 3 de RMSD so
colocadas em um mesmo grupo. Assim,
o pesquisador pode investigar apenas a
estrutura mais representativa de cada
grupo.

Esse passo tem o potencial de reduzir consideravelmente o nmero de modelos a ser investigado, embora em alguns casos o nmero de conformaes a

7. Modelos Tridimensionais

ser analisado possa ainda ser grande demais. Nesses


casos, faz-se uso da noo de que, sendo o estado nativo cineticamente acessvel, espera-se que esse seja
atingido com mais frequncia, salvo em trajetrias que
terminem em mnimos locais muito profundos. Sendo
assim, realizando um nmero grande de trajetrias,
aquele grupo que contm a estrutura nativa , provavelmente, o maior grupo (ou seja, aquele que contm o
maior nmero de conformaes aps o agrupamento).
importante ressaltar que esta hiptese s estaria teoricamente bem fundamentada caso usasse uma funo de energia realstica e representativa da energtica
do processo de enovelamento.

Os pacotes de PSP disponibilizam suas


prprias ferramentas de agrupamento. Podese, ainda, usar outros programas externos
com resultados semelhantes, como o
maxcluster e o programa de agrupamento
contido no pacote GROMACS (g_cluster).
Um terceiro passo a inspeo manual
por um operador humano de cada modelo
resultante do segundo passo. Com a anlise
de especialistas treinados, possvel detectar
possveis erros no enovelamento e at mesmo sugerir modificaes em regies especficas dos modelos. Essa etapa opcional ainda
no automatizvel sendo, de certa forma, a
mais custosa.

7.10. Anlise de qualidade


A qualidade de um modelo determinada por um conjunto de fatores, tais como
comprimentos de ligao, planaridade das ligaes peptdicas, planaridade dos anis e
ngulos de toro nas cadeias principal (ou
seja, esqueleto peptdico) e laterais, quiralidade, impedimento estrico, energia e funcional. Adicionalmente, nos mtodos baseados
no uso de estruturas moldes resolvidas experimentalmente, para um modelo ser considerado de boa qualidade recomendado que
o valor de RMSD obtido pela sobreposio da
cadeia peptdica de regies conservadas do
modelo gerado e da estrutura molde esteja
entre 1 e 2 . Dentre as anlises a serem
feitas, recomenda-se as seguintes:
i) Estereoqumica: consiste em analisar

os aspectos tridimensionais de uma


molcula, a fim de se verificar a estabilidade conformacional da mesma. Nesta
anlise, so detectadas regies de tenso angular e torcional, impedimentos
estricos e quiralidades. Alm destes,
com a anlise do grfico de Ramachandran possvel identificar, atravs da
correlao entre os ngulos e , quais
resduos encontram-se fora das regies
energeticamente favorveis, possibilitando uma melhora no modelo final.
Exemplos de programas que realizam
estas anlises incluem os programas
Procheck e Molprobity.
ii) Energia: so mtodos baseados em
minimizao de funes de energia. A
anlise dos valores normalizados da
funo (como o DOPE normalizado do
Modeller) ajuda a avaliar (ao menos estatisticamente) quo prximo o modelo
gerado est de protenas que possuem
um mesmo perfil molecular ou at o
mesmo tipo de enovelamento. Esses
mtodos podem considerar a relao
entre a estrutura 1D-3D, ponderar a
propenso de cada aminocido estar em
um tipo de estrutura 2ria, a probabilidade de dois resduos estarem em contato
e at mesmo o tipo de funo que a
protena desempenha. Alguns programas bastante usados para estas anlises incluem Verify3D, ProSa, QMEAN e
PROVE.
iii) Funcional: envolve a comparao do
modelo obtido com aspectos funcionais
ou mesmo estruturais (sem resoluo
atomstica) determinados por mtodos
experimentais. Por exemplo, diversas
famlias de protenas possuem resduos
especficos associados funo (como a
trade cataltica em serino proteases ou
resduos ligadores de metais em metaloprotenas). Assim, o modelo gerado
deve apresentar tais resduos nas suas
localizaes especficas para explicar
dados experimentais prvios. Ainda,
mtodos como dicroismo circular (captulo 10), infravermelho (captulo 11) e

7. Modelos Tridimensionais

RMN (captulo 12) podem oferecer informaes importantes sobre o estado


conformacional da protena em meio biolgico, validando o modelo obtido.
Mesmo que as estratgias de anlise
anteriores indiquem um modelo de elevada qualidade, se o mesmo no for capaz
de
apresentar
ou
explicar
caractersticas conhecidas previamente,
no poder ser considerado totalmente
vlido.
Durante o CASP a anlise de qualidade dos modelos
assume um carter diferente, uma vez que os avaliadores conhecem a estrutura nativa. Nesse caso, a mtrica empregada para comparar a estrutura nativa com
os modelos gerados pelos diferentes mtodos o Global Distance Test GDT. Trata-se de uma medida potencialmente mais acurada, uma vez que menos
sensvel a discrepncias muito grandes, oriundas de
regies de voltas que so naturalmente flexveis.

7.11. Refinamento do modelo


Aps a anlise do modelo, caso a qualidade no tenha sido satisfatria, algumas estratgias de refinamento no melhor modelo
obtido podem ser suficientes para a obteno
de um modelo final de boa qualidade. Dentre
os principais tipos de refinamento podemos
citar:
i) Local: atravs da anlise estereoqumica pode-se identificar qual resduo
est violando seus valores limites dentro de sua vizinhana, o que geralmente
resolvido com o reposicionamento de
sua cadeia lateral. Em alguns casos,
necessrio realizar etapas de otimizao
somente de regies de alas, principalmente de regies ricas em glicina.
sempre importante observar violaes
causadas por prolinas nas extremidades
de regies de estruturas em hlice ou
folha.
ii) Imposio de restries: aps a anlise de resultados de mtodos de predio de estrutura 2ria, pode-se verificar
no modelo gerado quais regies no
possuem ou possuem uma baixa simila-

ridade de sequncia com o(s) molde(s)


usado(s), ou no obedecem ao tipo correto de estrutura 2ria predita. Para corrigir isso, necessrio refazer o modelo
3D impondo ao algoritmo de construo
o uso de restries de tipo de estrutura
2ria para essas regies.
iii) Dinmica molecular: Os mtodos de
simulao por dinmica molecular (ver
captulo 8) tm sido empregados na
melhora de modelos gerados tanto por
tcnicas baseadas em modelagem
comparativa quanto por primeiros princpios. Simulaes em solvente explcito
ajudam a acomodar a estrutura 3D do
modelo melhorando, principalmente, os
ngulos e de resduos em regies
desfavorveis no grfico de Ramachandran. O tempo de simulao varivel
de acordo com a complexidade do sistema e com o grau de refinamento que
se deseja obter. importante destacar
que simulaes por dinmica molecular
para estruturas transmembranares,
apesar de bastante recomendado, necessitam especial ateno, pois se deve
considerar o modelo de membrana a
ser empregado, a forma de insero do
modelo 3D da protena na membrana e
o tempo de equilibrao do sistema
costuma ser maior que em protenas simuladas apenas em solvente.

7.12. Aplicaes de modelos


A aplicabilidade de um modelo 3D est
diretamente relacionada com a acurcia com
que este foi gerado. Esta acurcia pode ser
avaliada pelo grau de similaridade entre as
estruturas 3D da protena predita e da protena molde, atravs do clculo do desvio mdio
quadrtico (RMSD), que mede as distncias
interatmicas. De acordo com sua acurcia,
os modelos 3D gerados por mtodos tericos
podem ser aplicados em:
i) Estudos de predio funcional e busca
por novos alvos moleculares em organismos patognicos;
ii) Planejamento racional de frmacos

7. Modelos Tridimensionais

baseado na estrutura do receptor biolgico;


iii) Estudos de variao conformacional
por dinmica molecular;
iv) Planejamento de experimentos de
mutagnese stio-dirigida, fornecendo
informaes sobre possveis mutaes
para testar hipteses funcionais;
v) Simulaes de interaes entre protenas;
vi) Auxiliar no refinamento de estruturas
resolvidas por cristalografia de raios-X e
por experimentos de RMN.

7.13. Conceitos-chave
Bibliotecas de fragmentos: As bibliotecas de
fragmentos so construdas a partir de
estruturas tridimensionais determinadas
experimentalmente, e so especficas para
cada sequncia alvo. Possuem tamanhos
variados uma vez que os fragmentos devem apresentar alta similaridade local com
a sequncia alvo.
Campos de fora: Referem-se forma e aos
parmetros (ajustveis) de funes matemticas usadas para descrever a energia
potencial de um sistema de partculas
(molculas e tomos). As funes e seus
parmetros so derivados de estudos experimentais e de clculos advindos da
mecnica quntica, e que tentam descrever fenmenos atmicos como conformao (e.g. diedros) e interaes de curto e
longo alcance de diferentes classes de
molculas.
Decoy: So modelos gerados pelos diversos
mtodos de predio de estrutura tridimensional de protenas. Uma vez que os
mtodos empregados so no determinsticos, cada execuo pode resultar em um
modelo diferente. Dentre os decoys, encontra-se o modelo que melhor representa
o que se supe ser a estrutura nativa da
sequncia alvo, porm, para sua identificao faz-se necessrio realizar uma filtragem.

Estrutura nativa: a estrutura tridimensional


adotada por uma protena em seu ambiente fisiolgico de ao. a conformao
que desempenha o papel biolgico da
protena.
Funo de energia: Funo pela qual se avalia o
estado conformacional de uma protena. A
avaliao feita baseada no valor de
energia total do sistema em estudo, que
pode ser composta de termos de energia
potencial e cintica. O funcional especfico para cada programa e seus termos
so baseados em Campos de Fora.
Metaheuristica: um processo iterativo que otimiza uma soluo candidata segundo um
critrio de avaliao, geralmente baseada
na minimizao da Funo de Energia.
comum o uso de mtodos de otimizao
no determinsticos, como por exemplo,
algoritmos
genticos
e
simulated
annealing.
Modelagem comparativa: uma classe de mtodos de predio de estrutura tridimensional de protenas. A estrutura da
sequncia alvo construda a partir de
outras estruturas resolvidas experimentalmente (estruturas molde) e que possuem mais de 25% de identidade (ou ditas
homlogas) em relao sequncia de
aminocidos da protena alvo.
Molde ou template: a estrutura tridimensional
de uma protena determinada experimentalmente e que usada como base para
fornecer informaes estruturais aos algoritmos de predio de estrutura de protenas. Seu uso dependente do nvel de
identidade/similaridade entre sua sequncia de aminocidos e a da sequncia alvo
(sequncia que se deseja modelar).
Predio ab initio: uma classe de mtodos
usada para prever a estrutura tridimensional de uma protena alvo sem o uso de
informaes estruturais de quaisquer outras protenas resolvidas experimental-

7. Modelos Tridimensionais

mente.
Predio de estruturas de protenas: a arte de
prever para uma sequncia de aminocidos, atravs de mtodos computacionais,
sua estrutura tridimensional mais prxima
do que se supe ser sua estrutura nativa.
Predio de novo: uma classe de mtodos
usada para prever a estrutura tridimensional de uma protena alvo, a partir de informaes
estruturais
de
protenas
resolvidas experimentalmente (estruturas
molde) e sem qualquer parentesco com a
protena alvo. Usam, por exemplo, bibliotecas de fragmentos.
Rotmeros: So as conformaes preferenciais
da cadeia lateral de um resduo de aminocido. Podem ser combinados em bibliotecas para cada tipo de aminocido.
Threading: uma classe de mtodos usada na
predio de estrutura tridimensional de
protenas e que busca descobrir qual o
tipo de enovelamento mais provvel que
uma sequncia alvo dever adotar. Esse
processo baseado em estruturas resolvidas experimentalmente (estruturas molde)
que
no
so
necessariamente
homlogos protena alvo.

7.14. Leitura recomendada


CUSTDIO, Fbio Lima. Algoritmos Genticos
para Predio Ab Initio de Estrutura
de Protenas. Tese de Doutorado, Laboratrio Nacional de Computao Cientfica:
Rio de Janeiro, 2008.
CAPRILES, Priscila Vanessa da Silva Zabala. Desenvolvimento e Implementao de
um Modelo Coarse-Grained para Predio de Estruturas de Protenas. Tese
de Doutorado, Laboratrio Nacional de
Computao Cientfica: Rio de Janeiro,
2011.
TREVIZANI,

Raphael.

Bibliotecas

de

frag-

mentos para a predio de estruturas


de protenas. Tese de Mestrado, Laboratrio Nacional de Computao Cientfica:
Rio de Janeiro, 2008.
LEACH, Andrew R. Molecular Modelling
Principles and Applications. 2.ed.
Essex: Pearson Education Limited, 2001.
WEBSTER, Davird M. Protein Structure
Prediction: Methods and Protocols.
Totowa: Humana Press Inc., 2000.
RANGWALA,
Huzefa;
KARYPIS,
George.
Introduction to Protein Structure
Prediction: Methods and Algorithms.
Hoboken: John Wiley & Sons, 2011

8. Dinmica Molecular

Hugo Verli

Flexibilidade da enzima trombina evidenciada atravs


de simulao por dinmica molecular.

8.1. Introduo
8.2. Campos de fora
8.3. Minimizao de energia
8.4. Simulaes por DM
8.5. Estratgias de anlise
8.6. Limitaes atuais da DM
8.7. E outras biomolculas?

8.1. Introduo

Figura 1-8: Variao do contedo de estrutura


secundria da melitina, peptdeo da abelha
Apis mellifera, como funo do tempo. A forma inicial encontrada no ambiente cristalino, enquanto a final observada em
condies prximas s plasmticas.

Segundo a IUPAC (International Union of


Pure and Applied Chemistry), a dinmica molecular um procedimento de simulao que
consiste na computao do movimento dos
tomos em uma molcula ou de tomos individuais ou molculas em slidos, lquidos e
gases, de acordo com as leis de movimento
de Newton. Em outras palavras, a dinmica
molecular (DM) descreve a variao do comportamento molecular como funo do tempo (Figura 1-8).
Quando mencionamos comportamento
molecular, nos referimos a quaisquer propriedades de uma molcula em estudo, tais como seu contedo de estrutura 2ria,
orientao de cadeias laterais, conformao
de alas e a energia de interao entre dife-

rentes molculas (enzima e substrato, protena e protena, protena e DNA ou frmaco e


receptor). Por outro lado, a ideia de que estas
propriedades variam como funo do tempo
indica que as mesmas no so estticas, mas
se modificam em solues biolgicas. Isto
aproxima em muito a DM de mtodos experimentais como a Ressonncia Magntica Nuclear (RMN, Captulo 12), que geram medidas
representando, de fato, mdias temporais,
colhidas durante a realizao do experimento.
Assim, ao final de uma simulao de DM,
buscamos estas propriedades mdias,
representativas de comportamentos biolgicos medidos experimentalmente.
A descrio conformacional oferecida
pela DM, para uma determinada molcula ou

8.8. Conceitos-chave

8. Dinmica Molecular

conjunto de molculas, baseia-se na soluo da 2a Lei de Newton, onde Fxi a fora aplicada
ao tomo i na posio x, t o
tempo, v a velocidade e ai a
acelerao do tomo i. Por ser
baseada na fsica desenvolvida
por Sir. Isaac Newton, a DM faz
parte dos mtodos denominados
Clssicos (tambm chamados de
mtodos de mecnica molecular), em oposio aos mtodos
baseados na fsica quntica (que
deram origem aos denominados
mtodos de mecnica quntica).

8.2. Campos de fora


Como visto no item anterior, para descrever a variao
da posio x de um tomo i
como funo do tempo precisamos conhecer o valor da
massa de cada tomo, mi (essa
fcil, vem da tabela peridica)
e a fora (Fxi) sobre cada tomo
i em uma determinada posio
x. A temperatura fornece energia para que os tomos sofram
uma acelerao, mudando suas
posies no espao. Contudo,

Sir Isaac Newton

Tabela 1-8: Alguns dos principais programas


disponveis para simulaes por DM.
Assim, a DM nos possibilita obter
modelos de molculas muito mais prximos
da realidade biolgica, pois inclui diretamente
caractersticas como a flexibilidade molecular
(atravs
da
variao
temporal
de
propriedades) e a temperatura (atravs da
acelerao dos tomos). A maioria dos
fenmenos biolgicos esto associados
flexibilidade de biomolculas, como a catlise
e a modulao de canais inicos e de receptores acoplados protena G. De fato,
muitos destes processos vm sendo
descritos com sucesso por simulaes de DM
ao longo dos anos.
Outros tipos de simulao esto
disponveis, tais como o Mtodo de Monte
Carlo, a Dinmica Estocstica e a Dinmica
Browniana. Iremos, contudo, nos ater DM
em decorrncia de seu maior uso, nos ltimos
anos, no estudo de biomolculas.
Muitos programas (Tabela 1-8) esto
disponveis para a realizao de simulaes
por DM diferindo, por exemplo, quanto a seu
acesso
(gratuito
ou
pago),
custo
computacional (isto , tempo necessrio para
a execuo de um mesmo clculo) e tipos de
campos de fora disponveis (ver adiante).

Programa

Distribuio

Abalone

Gratuito

ADUN

Gratuito

AMBER

Pago

Ascalaph Designer

Gratuito

CHARMM

Pago

Discovery Studio

Pago

GROMACS

Gratuito

GROMOS

Pago

GULP

Gratuito

LAMMPS

Gratuito

MDynaMix

Gratuito

MOE

Pago

MOIL

Gratuito

MOLDY

Gratuito

NAMD

Gratuito

RedMD

Gratuito

TeraQuem

Pago

TINKER

Gratuito

YASARA

Pago

8. Dinmica Molecular

como os tomos no esto isolados, mas ligados a outros tomos formando molculas
que, por sua vez, interagem com outras molculas, eles esto sujeitos a foras interatmicas e inter-moleculares. O clculo
destas foras realizado por uma outra
funo matemtica, denominada campo de
fora.
O campo de fora, seguindo a definio
da IUPAC, pode ser descrito brevemente
como um conjunto de funes e
parametrizao usadas em clculos de
mecnica molecular. Cada campo de fora
estabelece um conjunto de equaes
matemticas dedicadas a reproduzir aspectos
do comportamento molecular, como o
estiramento de ligaes qumicas, a
deformao de um ngulo de ligao ou a
toro de um diedro, como podemos
observar em um espectro de infravermelho.
Estas equaes, por sua vez, so calibradas
(ou seja, parametrizadas) para reproduzir o
comportamento dos compostos de interesse
(Figura 2-8).
Equaes e parametrizaes diferentes
podem ser empregadas, dando origem a
campos de fora diferentes, com vantagens e

tambm limitaes. Por exemplo, enquanto


um tipo de campo de fora pode descrever
com elevada fidelidade protenas, ele pode ser
bastante limitado na reproduo da geometria de carboidratos ou cidos nucleicos.
Desta forma, ao iniciarmos um estudo por
DM, devemos ter em mente qual o tipo de
molcula com o qual pretendemos trabalhar
e qual o melhor campo de fora para descrev-la.
A escolha de um campo de fora no , contudo,
baseada somente no tipo de molcula com o qual
queremos lidar. Diversos outros aspectos podem
influenciar esta escolha. Existem, por exemplo,
diferentes nveis de simplificao na descrio dos
tomos (Figura 3-8). O campo de fora pode descrever
todos os tomos do sistema (em ingls so
denominados campos de fora all atom), mas isto
implica em um maior custo computacional, o que pode
se tornar proibitivo no estudo de grandes sistemas
moleculares se no temos acesso a grandes
estruturas de processamento em paralelo (os
chamados clusters).
Como o elemento encontrado em maior quantidade
o tomo de hidrognio, uma primeira simplificao
denominada de tomo unido (em ingls so
denominados campos de fora united atom). Neste

Figura 2-8: Representao de alguns termos que compem o campo de fora GROMOS96. Termos semelhantes so tambm encontrados em diversos outros campos de fora.

8. Dinmica Molecular

Figura 3-8: Representao dos 20 aminocidos, codificados no genoma para sntese proteica,
em um campo de fora descrevendo todos os tomos, em um campo de fora de tomo unido e
coarse-grained.
caso, os tomos de hidrognio apolares, ou seja,
aqueles ligados a tomos de carbono, so unidos a
este elemento, dando origem a um pseudotomo
representando as propriedades de grupos CH, CH2 ou
CH3. Exceo se d para o grupo CH de anis
aromticos, que tem os tomos de hidrognio
descritos explicitamente nos campos de fora de
tomo unido mais modernos, como o GROMOS96.
H, por fim, um terceiro nvel de simplificao,
denominado coarse-grained (CG). Neste campo de
fora, vrios tomos podem ser agregados em uma
nica partcula, anloga ao pseudotomo do modelo de
tomo unido. Por exemplo, todo um aminocido pode
ser considerado como uma nica partcula, como o
caso da alanina e da glicina no campo de fora
MARTINI. Em outros resduos, este campo de fora
considera o esqueleto peptdico como uma partcula e
a cadeia lateral de uma (como na cistena, treonina e
serina) a trs (histidina e fenilalanina) ou quatro
(triptofano) partculas.
Quanto maior a simplificao, menor custo
computacional do clculo. Em outras palavras,
podemos simular sistemas com maior nmero de
tomos por mais tempo em computadores mais
baratos. Infelizmente, estas simplificaes trazem
consigo algumas limitaes. No caso do CG, perde-se a

capacidade de descrever elementos de estrutura 2ria,


mantendo-se somente a forma global da molcula em
estudo. Assim, em estudos onde so esperadas
mudanas no contedo de estrutura 2ria o mtodo de
CG no indicado. Mas, por ser muito rpido, pode
descrever movimentos entre diferentes domnios de
uma dada protena, o que difcil de ser observado,
usualmente, nos demais campos de fora. Por outro
lado, o caso dos modelos de tomo unido traz
limitaes como a dificuldade em se utilizar estes
campos de fora na obteno e refinamento de
modelos 3D de macromolculas a partir de dados de
RMN (Captulo 12).

Outra diferena entre os campos de


fora diz respeito descrio das molculas
de gua, o principal solvente de biomolculas
(Tabela 2-8). De fato, uma das grandes
vantagens do mtodo de DM a capacidade
de incluir a presena de molculas de gua
nos modelos gerados, descrevendo as suas
interaes, como funo do tempo, com os
compostos em estudo. Da mesma forma que
visto para os campos de fora, existem
diversos modelos para descrio de
molculas de gua, por vezes com mais de
uma opo para um mesmo campo de fora.

8. Dinmica Molecular

Estes organizam-se em dois grandes grupos:


os modelos explcitos e os implcitos.
Tabela 2-8: Alguns dos modelos de gua mais
comumente empregados em simulaes por
DMa.
Modelo

SPC
SPC/E

Campos de fora
onde so empregados

Tipo

AMBER, GROMOS,
OPLS

TIP3P
TIP4P

AMBER, CHARMM,
OPLS

TIP5P

MARTINI

Martini

Uma reviso mais completa pode ser encontrada no


site: www1.lsbu.ac.uk/water/models.html
a

Enquanto os modelos explcitos incluem os tomos


da molcula de gua, fisicamente, na simulao, os
modelos implcitos (tambm chamados de modelos
contnuos ou continuum models) no incluem estas
molculas diretamente, mas indiretamente, atravs da
representao das propriedades dieltricas do
solvente. Os tomos que compem a gua no
participam das simulaes, tornando o clculo
extremamente rpido (usualmente, a grande maioria
dos tomos em um sistema a ser simulado por DM se
refere ao solvente). Infelizmente, enquanto estes
modelos implcitos so bastante eficientes no estudo
de protenas e cidos nucleicos, o mesmo no vem se
mostrando para carboidratos, compostos altamente
polares que interagem intensamente com o solvente.

Embora os principais campos de fora


empregados atualmente (AMBER, CHARMM,
OPLS e GROMOS) sejam compostos por
equaes bastante semelhantes (ver a

seguir), cada um foi construdo a partir de


decises metodolgicas distintas apresentando, portanto, particularidades importantes. Como consequncia, normalmente
os parmetros de um campo de fora no
so transferveis para outro campo de fora.
A importncia de conhecermos estas
caractersticas, reconhecendo cada campo de
fora como entidade nica, reside no fato de
que um grande nmero de compostos de
interesse biolgico no descrito nos
parmetros atuais, o que pode limitar o seu
estudo
computacional.
Dentre
estes
compostos com carncias de parmetros
podemos citar aminocidos modificados
(alm dos 20 codificados no genoma),
neurotransmissores,
hormnios,
fosfolipdeos, carboidratos, produtos naturais e,
por fim, frmacos. Como simulaes por DM
podem ser clculos extremamente demorados, deixar para descobrir no meio do
trabalho que seu modulador de interesse no
tem parmetros no campo de fora escolhido
pode lhe custar alguns meses de trabalho.
Em linhas gerais, tanto a distncia entre 2 tomos
ligados quanto o ngulo entre 3 tomos consecutivos
descrita a partir de Vligao/ngulo = Kn [n no]2, onde V a
energia, n a distncia ou ngulo em um dado
momento, no a distncia ou ngulo de referncia e Kn
a constante de fora da mola que mantm esses
valores ao redor dos valores de referncia (Figura 28).
Para diedros, a funo mais usualmente empregada
baseada em Vdiedro = K [1 + cos(n - )], sendo V a
energia, o valor do diedro e K a altura da barreira de
energia entre diferentes estados conformacionais.
Estes estados surgem porque um diedro pode rodar
360o e, ao longo desta rotao, apresentar mltiplos
mnimos de energia. Assim no h, necessariamente,
uma nica geometria de referncia. O perfil rotacional
dos diedros tem a adio do parmetro n, que
descreve a multiplicidade do diedro (ou seja, o nmero
de mnimos de energia) e , que diz respeito mudana
de fase e localizao do mximo de energia ao longo
do perfil da rotao do diedro.
Apesar da semelhana nesses termos, existem
diferenas importantes que devem ser consideradas. O
CHARMM, por exemplo, emprega uma equao
adicional na descrio dos ngulos de ligao, chamada

8. Dinmica Molecular

Urey-Bradley, que busca preservar a distncia entre o


primeiro e o terceiro tomos de um ngulo. Outra
diferena se refere aos termos que descrevem a
planaridade ou quiralidade em um conjunto de quatro
tomos, o que usualmente chamado de diedro
imprprio (Figura 2-8). Enquanto AMBER e OPLS os
descrevem da mesma forma que os demais diedros
(tambm chamados de diedros prprios), CHARMM e
GROMOS aplicam uma equao diferente, que se
assemelha quela empregada para distncias e
ngulos.

Abordar
com
profundidade
a
construo de parmetros para campos de
fora est alm do objetivo deste livro. Mas
em muitos casos h uma soluo um pouco
mais simples para o problema. Uma
caracterstica importante de campos de fora
a chamada transferabilidade. Isto significa
que grupos qumicos semelhantes possuem
propriedades semelhantes que podem, assim,
serem transferidas de uma molcula para
outra. Por exemplo, o grupo hidroxila de um
resduo de Ser equivalente ao grupo
hidroxila de um resduo de Thr. Assim, h uma
reduo
enorme
na
necessidade
de
construo de parmetros para novos
compostos, se respeitarmos a semelhana
qumica entre eles.

8.3. Minimizao de energia


Quando iniciamos um estudo baseado
em simulaes por DM, podemos empregar
estruturas de partida de diferentes origens,
como modelos tericos (ver captulo 7) ou
ainda dados experimentais de cristalografia

Figura 4-8: Exploso em uma simulao por DM.

de raios-X (ver captulo 13) ou de RMN (ver


captulo 12). Independente de sua origem
estas estruturas, ao serem solvatadas, criam
interaes
soluto-solvente
at
ento
inexistentes (seja pelo dado ser terico obtido
no vcuo, em ambiente cristalino ou como
uma mdia de diferentes conformaes). Mas
o solvente precisa se adaptar ao redor de seu
soluto, e isto precisa ser corrigido antes que a
simulao por DM se inicie. Por exemplo,
quando o programa insere uma molcula de
gua, esta pode ter seu hidrognio apontando
para um tomo de hidrognio da cadeia
lateral de uma arginina, promovendo uma
repulso eletrosttica pela proximidade de
duas cargas de sinais iguais. Se isto no for
corrigido antes do incio da DM, a liberao
desta energia na simulao pode gerar uma
exploso da simulao (Figura 4-8) ou, de
forma mais sutil (mas nem por isso menos
perigosa para o estudo), promover mudanas
conformacionais na protena, ou mesmo
desnaturaes. Em outros casos, como na
obteno de modelos tericos para a
estrutura 3D de protenas, a construo de
cadeias laterais de aminocidos pode
aproxim-las
artificialmente
(e
excessivamente) de outros resduos.
Assim, uma das principais formas de
tentar eliminar estes problemas reside no
clculo de minimizao de energia (Figura 58). Durante este clculo, a energia global do
sistema reduzida, alcanando por fim uma
conformao mais estvel para o sistema em
estudo (ou seja, um estado de mnimo de
energia).

8. Dinmica Molecular

Figura 5-8: Exemplo da evoluo de propriedades moleculares no decorrer de uma minimizao de energia. A cada passo, a energia
do sistema diminui, com a reduo de contatos desfavorveis e a formao de interaes
intra- e inter-moleculares como ligaes de
hidrognio.

8.4. Simulaes por DM


Alm da escolha do campo de fora e
do modelo de gua, o preparo e a anlise de
uma simulao por DM deve considerar alguns aspectos metodolgicos importantes,
dentre os quais destacaremos as condies
peridicas de contorno, a equilibrao, a
amostragem, o tempo de integrao e o clculo de interaes no ligadas. Uma escolha
inadequada destas propriedades pode significar desde um maior custo computacional (isto , uma simulao demorando mais do que
precisaria) a resultados que no representam
situaes reais.

Condies peridicas de contorno


Quanto maior o nmero de molculas

includas em uma simulao, maior ser o


tempo necessrio para realizar o clculo. Por
isso, buscamos sempre incluir o menor
nmero de molculas possvel capaz de
descrever as condies experimentais ou
fisiolgicas de referncia. No caso da
protena, estamos na maioria das vezes ainda
limitados a simulao de uma nica molcula
(salvo no caso de oligmeros). Contudo, a
protena no costuma ser a parte mais cara
computacionalmente do clculo, mas sim a
incluso do solvente (explcito). Uma
otimizao no nmero de molculas de gua
pode representar uma grande otimizao no
tempo de mquina para concluso da
simulao (o que permite aumentar o
tamanho da amostragem do estudo, ver
adiante).
Uma forma de controlar o nmero de
molculas de gua controlando o tipo de
"caixa" onde o sistema ser simulado. Por
caixa entendemos o espao tridimensional
onde soluto (biomolcula) e solvente
(normalmente gua) so colocados. O
tamanho e a forma desta caixa, usualmente
centralizada no soluto, definir a quantidade
de solvente a ser inserida.
Atualmente, no comum definir a forma da caixa
como uma esfera, por motivos que explicaremos a
seguir. As formas mais comuns so cbica, octadrica
e dodecadrica. A forma de um octaedro apresenta
77% do volume de um cubo, enquanto que o
dodecaedro 71%, representando a forma mais prxima
de uma esfera. Contudo, como a forma de protenas e
outras biomolculas varia muito, devemos avaliar qual
caixa se adequa melhor ao sistema em estudo. Por
exemplo, a simulao de membranas normalmente
realizada em um cubo ou uma forma retangular, que
pode ser uma boa alternativa tambm para protenas
em forma de basto.
O uso de uma caixa em forma de esfera ao redor da
protena de interesse nos levaria a um aproveitamento
do espao tridimensional melhor do que o dodecaedro,
economizando mais molculas de gua e, assim,
liberando custo computacional. Contudo, as molculas
em uma simulao por DM podem se difundir ao longo
da caixa. Como alm da caixa de simulao temos
condies de vcuo, o solvente iria progressivamente
evaporar, a partir da face da esfera. A forma de

8. Dinmica Molecular

impedir isso criar uma fora que impea as


molculas do sistema de ultrapassarem os limites
desta esfera, o que representa a incluso de foras
artificiais, no observveis em condies biolgicas.

As formas geomtricas empregadas


mais frequentemente em em simulaes por
DM esto relacionadas a uma estratgia
denominada condies peridicas de contorno
(Figura 6-8). Estas formas permitem que
uma caixa de simulao seja replicada em
todas as suas dimenses, de forma peridica.
Estas rplicas so idnticas caixa
construda, de forma que um movimento
molecular em uma ser idntico ao
movimento da mesma molcula na outra.
Mas, agora, a face da caixa no est em contato com o vcuo, mas com solvente. E, caso
uma molcula saia da caixa central, uma de
suas imagens entrar pela face oposta,
mantendo o nmero de molculas constante.
Isto representa uma continuidade da soluo,
nos aproximando de condies experimentais.

Figura 6-8: Representao das condies peridicas de contorno em uma simulao por
DM. Somente a caixa central simulada, enquanto que as rplicas garantem a continuidade do sistema, isto , ausncia de contato
das molculas com o vcuo.
Devemos, contudo, tomar cuidado para no definir
uma caixa excessivamente pequena, buscando

economizar custo computacional ao reduzir a


quantidade de solvente excessivamente. Se a caixa for
pequena demais, a protena pode interagir com suas
imagens, geradas pelas condies peridicas de
contorno, criando uma situao artificial que
provavelmente ir deturpar os resultados obtidos.
importante, assim, avaliar se o corte das interaes
no ligadas (ver adiante) menor que a distncia da
protena s suas imagens.

Equilibrao
A ideia de equilibrao de uma
simulao por DM se refere estabilizao de
suas propriedades, ou seja, que estas alcancem um estado de equilbrio. Considera-se
que, antes de estarem equilibradas, as
propriedades
em
estudo
apresentam
variaes
ou
comportamentos
no
representativos das situaes de interesse.
Assim, necessrio que o tempo de
simulao seja suficientemente longo (tamanho da amostragem, ver adiante) para que as
propriedades em estudo estejam adequadamente equilibradas. Na Figura 1-8, por
exemplo, a simulao de um monmero de
melitina demora em torno de 4 ns para se
equilibrar.
Um dos motivos mais comuns para a necessidade
de equilibrao devido ao uso de estruturas 3D
derivadas de ambientes cristalinos, isto , aquelas
obtidas por cristalografia de raios-X. Este ambiente
apresenta concentrao de protenas muito maior do
que aquela observada, usualmente, nas condies biolgicas de interesse, por vezes em estados
oligomricos no observados em condies biolgicas. Assim, a remoo destes contatos e sua
substituio por molculas de gua, acarretar em
uma instabilidade inicial na simulao, envolvendo: 1) a
perda de contatos cristalogrficos, e 2) a formao de
interaes com molculas de gua.
Infelizmente, a busca por tempos de simulao
"suficientemente longos" para equilibrao das
propriedades de interesse pode ser desafiadora, pois
nem todas as propriedades moleculares equilibram a
uma mesma velocidade. Por exemplo, a interao de
uma protena com o solvente equilibra usualmente
mais rapidamente do que a perda ou a formao de
estrutura 2ria. Estas, por sua vez, equilibram mais

8. Dinmica Molecular

rapidamente que o movimento de domnios em uma


dada protena.

Amostragem
A amostragem de uma simulao por
DM se refere a quo bem ela capaz de descrever o comportamento do sistema molecular em estudo. Idealmente, a amostragem de
uma simulao deve ser longa o bastante para descrever os fenmenos de interesse.
Contudo, a simulao de sistemas complexos
como aqueles envolvendo biomolculas frequentemente esbarra em amostragens ainda
inalcanveis em decorrncia de seu elevado
custo computacional.
A maneira mais simples de se entender a amostragem considerando o tamanho da simulao em uma
escala de tempo. Um maior tempo de simulao implica em uma maior amostragem. Contudo, diversos aspectos podem interferir neste entendimento. O
aumento do nmero de molculas e tomos no sistema aumenta o nmero de possveis conformaes a
serem adotadas. Por outro lado, o uso de campos de
fora do tipo tomo unido ou ainda coarse-grained,
ao reduzir o nmero de tomos, reduz o nmero de
possveis estados conformacionais a serem adotados
pelo sistema, tornando assim a amostragem maior em
uma mesma escala de tempo.

Tempo de integrao
O clculo de uma simulao por DM no
gera informaes contnuas, mas sim dividida em pequenos passos, usualmente na escala de femtossegundos (fs). A sucesso
destes passos dar origem ao nosso entendimento de trajetria, isto , evoluo temporal do comportamento molecular na
simulao realizada. O tamanho destas partes
o que chamamos de tempo de integrao
(Figura 7-8).
A definio de um valor apropriado para
o tempo de integrao est diretamente relacionada ao tamanho da amostragem da simulao e, por conseguinte, ao custo
computacional da mesma. Conforme ilustrado na Figura 7-8, a descrio de uma determinada propriedade tempo-tempendente

Figura 7-8: Representao do efeito de diferentes tempos de integrao na amostragem


de uma simulao por DM. Valores muito pequenos (0,5fs) descrevem fenmenos com
maiores detalhes, mas mais lentamente. Valores muito grandes (4,0fs) apresentam menores custos computacionais, mas podem dar
origem a instabilidades.
pode ser feita empregando-se diferentes valores de tempo de integrao. Quanto maior
este valor, menos passos de clculo sero
necessrios descrio do fenmeno e, por
conseguinte, menor ser o custo computacional associado. Quanto menor este valor,

8. Dinmica Molecular

mais passos sero necessrios e, assim, maior o custo computacional. Infelizmente, o uso
de tempos de integrao muito elevados pode
gerar instabilidades na trajetria, de forma
que valores intermedirios so usualmente
empregados, no caso da Figura 7-8, 2fs.
Os valores de tempo de integrao mais frequentemente empregados em simulaes baseadas em campos de fora atomsticos (isto , todos os tomos so
descritos) ou de tomo unido so 1fs, 2fs ou 5fs. O uso
de 1fs realizado quando as molculas e suas ligaes
so tratadas como flexveis durante a simulao, enquanto 2fs requerem o tratamento das ligaes qumicas como rgidas. J para o uso de 5fs, toda a molcula
tratada como rgida (ou seja, ngulos e diedros no
podem ser modificados), uma alternativa pouco utilizada no estudo de sistemas biolgicos. Em algumas situaes podem ser empregados tempos de integrao
menores que 1fs, mantida toda a flexiblidade da molcula. Em outros casos, como em simulaes do tipo
coarse-grained, tempos de integrao de at 40fs.

putacional, tendo em vista que nenhuma interao de


Coulomb seria avaliada a partir desta distncia. J o uso
do corte b traria um maior custo computacional, incluindo as interaes entre o soluto e as molculas na
faixa cinza da figura. Contudo, ao reduzir o custo computacional, o corte a potencialmente implicar na perda de informaes importantes, por ser muito prximo
do soluto. Assim, a distncia b seria prefervel.

Clculo de interaes no ligadas


Uma das partes mais custosas computacionalmente em simulaes por DM envolve
o clculo das interaes no ligadas, isto ,
interaes eletrostticas (calculadas por termos de Coulomb) e de van der Waals (calculadas pelo potencial de Lennard-Jones). Para
se ter uma ideia, enquanto o nmero de termos ligados (isto , ligaes, ngulos e diedros) proporcional ao nmero de tomos, o
nmero de interaes no ligadas aumenta
como funo do quadrado do nmero de tomos do sistema. Assim, economizar custo
computacional no clculo destas interaes
representa uma significativa reduo no custo
da simulao como um todo. Como estas interaes decrescem rapidamente em intensidade conforme dois tomos se distanciam no
espao, possvel realizar cortes nestas interaes (cut-off). Em outras palavras, a partir
da distncia definida por estes cortes, nenhuma interao no ligada ser calculada (Figura 8-8).
Por exemplo, consideremos dois possveis raios de
corte na simulao do soluto apresentado na Figura 88. O uso do raio a representaria um menor custo com-

Figura 8-8: Representao de regies de corte, a e b, a partir de um soluto, para clculo


de interaes no ligadas.
A eliminao repentina da avaliao das interaes
no ligadas atravs de um cut-off pode gerar instabilidades ou erros na amostragem da simulao. Desta
forma, estas interaes a longas distncias costumam
ser descritas por outros tipos de mtodos, como PME,
Ewald ou Campo de Reao (Reaction-Field), dentre
outros. Este tratamento usualmente aplicado somente s interaes de Coulomb, mais sensveis a efeitos originados de cortes nas interaes.

8.5. Estratgias de anlise


Um dos maiores desafios em um estudo
baseado em DM frequentemente reside mais
na anlise e interpretao dos resultados obtidos do que no preparo do sistema. De fato,
simulaes de protenas em gua podem gerar facilmente muitas dezenas de gigabytes
de dados. Como retirar informaes destas
trajetrias, quais informaes retirar e como
interpretar estas informaes, no contexto do

8. Dinmica Molecular

assunto em estudo, envolvem muitas vezes


mais tempo do que a simulao computacional em si.
Os tipos de anlises a serem empregadas estaro intrinsecamente relacionados
natureza do problema em estudo. Por
exemplo, se estamos estudando uma protena
tentando mimetizar o ambiente nativo da
mesma, em princpio, ela no pode se desnaturar durante a simulao. Por outro lado, o
estudo de membranas elimina esta preocupao mas nos traz a necessidade de avaliar
as propriedades dos lipdeos enquanto imersos num fluido. Adicionalmente, dados prvios sobre caractersticas estruturais e/ou
funcionais das molculas em estudo, obtidos
tanto por mtodos computacionais quanto
por outras ferramentas experimentais so
fundamentais na concepo, preparo, execuo e anlise de estudos por DM. Esta , fundamentalmente, a razo pela qual este livro
traz em si diversos mtodos experimentais.
Neste momento, a adequao da amostragem s propriedades em estudo assume
importncia fundamental. Se buscamos estudar o movimento de domnios de uma protena, simulaes de dezenas de nanossegundos
no sero suficientes, requerendo potencialmente tempos prximos de microssegundos,
possivelmente inviabilizando o estudo por DM.
De forma semelhante, a observao do enovelamento de protenas por DM impraticvel
na grande maioria dos casos, salvo em pequenas protenas ou peptdeos, de qualquer
forma, requerendo no mnimo centenas de
nanossegundos. Por outro lado, reorientao
ou refinamento de cadeias laderais de resduos de aminocidos ou de ligantes em complexos frmaco-receptor podem ser observados
frequentemente em algumas dezenas de nanossegundos.
As anlises de simulaes por DM devem, preferencialmente, ser realizadas observando propriedades de complexidade
crescente (o que costuma estar associado ao
tempo requerido equilibrao desta propriedade). Assim, as primeiras propriedades a
serem avaliadas so normalmente a presso
(no caso de simulaes NPT, mais comuns em

sistemas biolgicos), o volume (no caso de


simulaes NVT), a densidade e a energia total do sistema. Todas estas propriedades devem alcanar um patamar estvel, paralelo
ao eixo x (tempo). Pode-se observar alguma
variao no incio da simulao mas, em seguida, devem atingir este patamar e se manter neste nvel ao longo da simulao. Estas
costumam ser propriedades de rpida equilibrao em simulaes por DM.
Garantidas estas propriedades, podemos passar anlise de aspectos mais complexos, como do comportamento da estrutura
proteica ao longo da simulao. Neste grupo,
as ferramentas mais comumente empregadas incluem o RMSD, o RMSF, o raio de giro,
distncias entre tomos ou grupamentos e a
evoluo do contedo de estrutura 2ria como
funo do tempo.
O RMSD (do ingls root mean square deviation ou
desvio quadrtico mdio) uma das principais estratgias de anlise empregadas no estudo por DM de protenas (Figura 9-8A). Indica o quanto a estrutura da
protena de interesse se modifica ao longo de uma simulao, em relao estrutura de partida, normalmente cristalogrfica. Assim, usual que haja um
aumento progressivo no RMSD de uma protena, partindo de 0, at um patamar, o que pode indicar a equilibrao do sistema. Este patamar pode variar em
funo das caractersticas da protena mas, como um
ponto de partida, podemos considerar um valor em
torno de 3 quando todos os tomos do sistema so
empregados na medida. Valores acima deste podem
sugerir movimentos maiores de alas, em relao ao
cristal, ou perda de estrutura 2ria, enquanto valores
menores tendem a indicar sistemas mais semelhantes
referncia cristalogrfica.
Uma considerao importante quando realizamos
anlises de RMSD se refere ao fato de que esta anlise
oferece uma medida mdia de um conjunto de tomos,
selecionados para a anlise. Se todos os tomos de
uma protena so considerados, como no exemplo acima, os valores observados trazem consido influncias
de diferentes regies da protena. Por exemplo, normalmente conjuntos de hlices se modificam menos
durante uma simulao do que regies de alas. Caso
faamos uma anlise de RMSD separada para estas
regies, veremos hlices com valores menores e alas com valores maiores do que aqueles considerando

8. Dinmica Molecular

flexibilidade do sistema (Figura 9-8B). Valores maiores


de RMSF sero, portanto, usualmente observados para
alas, e valores menores para hlices . Por outro lado,
regies de hlices apresentando valores elevados de
RMSF podem estar passando, durante a simulao, por
perda de sua estrutura 2ria.
Enquanto o RMSD apresenta um valor mdio, a cada
passo da simulao, para todos os tomos do sistema,
o RMSF apresenta um valor mdio, para cada tomo ou
resduo (usualmente mais til para protenas), ao longo
de todos os passos da simulao. Assim, valores de
RMSF para toda a trajetria podem diferir, por
exemplo, daqueles observados no incio e/ou no final
da simulao (Figura 9-8B).

Figura 9-8: A) Helipticidade (vermelho) e


RMSD, e B) RMSF para a melitina. O RMSD foi
calculado para toda a protena (azul) e para o
esqueleto peptdico (verde). J o RMSF foi
medido como mdia para toda a trajetria
(preto), para os primeiros 3 ns (roxo) e para
os ltimos 5 ns (laranja).
ambas regies juntas. Processo similar ocorre caso
consideremos todos os tomos do sistema (maior
RMSD) ou simplesmente o esqueleto peptdico (menor
RMSD) (Figura 9-8A).
Na anlise por RMSD, todo resultado obtido ir depender da geometria de partida da simulao, usualmente cristalogrfica. O RMSF (do ingls root mean
square fluctuation ou flutuao quadrtica mdia), em
contrapartida, no apresenta esta dependncia, mas
descreve a variao da posio dos tomos (ou resduos de aminocidos) durante a simulao, indicando a

Ainda, ao observarmos o quanto uma


protena muda sua forma 3D em relao ao
cristal ou a flexibilidade de cada resduo ao
longo da simulao, no temos informaes
diretas sobre o comportamento dos elementos de estrutura 2ria da protena. Um valor de
RMSD elevado pode tanto sugerir a desnaturao de uma hlice quanto uma reorientao
da mesma que, contudo, pode se manter
enovelada. Da mesma maneira, um resduo
muito flexvel (conforme observado pelo
RMSF) no necessariamente ser encontrado
somente em alas. Para tal, devemos empregar anlises especficas capazes de indicar
como a estrutura 2ria da protena se comporta na simulao por DM.
Conforme observado no Captulo 2, a definio da
estutura 2ria no algo to simples e direto como
possa parecer. Existe mais de uma forma de definir hlices e folhas, e diferentes estratgias podem oferecer
resultados distintos. Por exemplo, o programa DSSP
descreve a estrutura 2ria a partir do padro de ligaes de hidrognio na sequncia polipeptdica. informao relacionada a interaes por ligao de
hidrognio o programa STRIDE adiciona parmetros
torsionais relacionados ao esqueleto peptdico.
Outro aspecto importante quanto anlise do
comportamento da estrutura 2ria diz respeito escala
de tempo na qual hlices e fitas se enovelam. Enquanto
hlices usualmente se enovelam numa escala de
tempo de centenas de nanossegundos, simulaes de
poucas dezenas de nanossegundos tero dificuldades
em prever estes fenmenos. O caso de fitas ainda
mais complexo, exigindo escalas de tempo uma ordem
de grandeza superiores.

8. Dinmica Molecular

Uso de estatstica
Embora seja prtica corriqueira, mesmo obrigatria, na grande maioria dos mtodos experimentais empregados no estudo de sistemas biolgios, o uso de
mtodos estatsticos no , ainda, comum na anlise de
resultados obtidos em simulaes por DM. Isto se deve
ao fato de que, em uma mesma simulao, so normalmente gerados centenas de milhares ou mesmo
milhes de dados para uma mesma varivel (tamanho
da simulao dividido pelo tempo de integrao). O
grande n assim obtido tender a tornar estatisticamente significativa mesmo variaes bem pequenas
nas propriedades de interesse.
Com a reduo no custo dos computadores e aumento em sua velocidade, assim como na melhoria dos
programas disponveis, uma nova abordagem vem se
apresentando, aproximando a anlise de simulaes
por DM de estudos experimentais convencionais. Trata-se da realizao de mltiplas simulaes para um
mesmo sistema. Assim, a informao a ser empregada
nas anlises a mdia da informao gerada nas diversas simulaes.

8.6. Limitaes atuais da DM


Como toda tcnica experimental,
simulaes por DM possuem limitaes
importantes que devem ser conhecidas pelos
seus usurios de forma a reduzir a chance de
interpretaes equivocadas dos resultados
obtidos.
Uma consequncia direta da realizao
de clculos baseados na mecnica molecular,
ou seja, empregando campos de fora, a
ausncia de eltrons. Este tipo de clculo no
considera os eltrons e, por conseguinte, os
resultados obtidos apresentam limitaes em
lidar com fenmenos envolvendo eltrons
diretamente. Assim, simulaes por DM no
so capazes, por exemplo, de descrever
reaes qumicas, como as observadas na
ao de enzimas ou em processos de
oxidao e reduo. Uma alternativa recente
para esta limitao envolve mtodos
denominados hbridos entre a mecnica
molecular e a mecnica quntica.
Simulaes por DM apresentam grande
dificuldade em descrever a energia livre de

Gibbs associada a eventos moleculares.


Portanto, informaes sobre constantes de
equilbrio, constantes catalticas ou afinidades
entre molculas no so usualmente
acessveis, com preciso, atravs destas
tcnicas. Embora diversas tcnicas gerem
estimativas de energia livre associadas DM,
como a perturbao da energia livre, o linear
interaction energy e a metadinmica, cada
uma possui suas prprias limitaes, dificultando seu uso amplo em estudos por DM.
Por fim, e no menos importante, temos
a dificuldade em obter amostragens
compatveis com fenmenos observveis em
experimentos ou fisiologicamente. Mesmo
nos maiores centros de supercomputao do
mundo, ainda no chegamos, na grande
maioria dos casos, em escalas de tempo
compatveis com o comportamento de
protenas em solues biolgicas. Por isso,
devemos ter em mente que os resultados
obtidos, por mais confiveis e corretos que
sejam, no necessariamente representam,
estatisticamente, fenmenos medidos em
soluo.

8.7. E outras biomolculas?


A maior parte da literatura, seja em livros seja em artigos, se refere ao estudo de
protenas. cidos nucleicos, membranas e
carboidratos vm sendo estudados com menos frequncia, comparativamente, ao longo
dos anos. Embora possa se justificar esta diferena em decorrncia do fato de que as
protenas so as molculas efetoras da informao gentica, esta no a nica justificativa, tampouco protenas so os nicos
compostos biolgicos importantes para a
manuteno da vida.
O estudo de molculas de DNA, por
exemplo, vem ganhando importncia com o
desenvolvimento de compostos capazes de
interagir, seletivamente, com regies especficas do DNA, como o caso dos agentes antineoplsicos. Enquanto molculas de DNA
apresentam estruturas mais ou menos bem
definidas, molculas de RNA so extremamente versteis e complexas conformacio-

8. Dinmica Molecular

nalmente, a cada momento se mostrando como capazes de atuarem em mais fenmenos


biolgicos. Valorizao semelhante vem sendo observada para membranas e carboidratos que, progressivamente, deixam de ter
papis passivos, simplesmente estruturais,
passando a desempenhar papis ativos, sinalizando diretamente mltiplas respostas em
organismos.
Assim, a construo de modelos computacionais
para o estudo de biomolculas deve incluir o mximo
de propriedades importantes ao desenvolvimento normal de suas funes, em condies nativas. Uma protena inserida em membrana ir exigir a incluso da
membrana nas simulaes, da mesma maneira que
uma glicoprotena ir demandar a incluso da parte sacardica em seu estudo.

Do ponto de vista da disponibilidade de


parmetros de campos de fora, diferentes
classes de biomolculas apresentam diferentes disponibilidades de parmetros. Por isso,
importante considerar todos os componentes do sistema molecular quando da escolha
do campo de fora a ser empregado. Se a
nossa molcula em estudo uma glicoprotena, no adianta empregar um campo de fora
excelente para carboidratos se o mesmo no
possui parmetros para o estudo de protenas.
Atualmente, os principais campos de fora so
capazes de descrever a grande maioria das classes de
biomolculas. Originalmente, no entanto, o campo de
fora AMBER foi desenvolvido para o estudo de cidos
nucleicos e protenas, o CHARMM para protenas, o
GROMOS para lipdeos e o OPLS para lquidos e
solventes. Com o passar do tempo, cada um desses
parmetros foi sendo aprimorado focando em
diferentes biomolculas, de forma que, hoje, alguns
so empregados com maior freqncia para
determinados sistemas por melhor descreverem suas
propriedades (estruturais, conformacionais ou fsicoqumicas).
No caso especfico de protenas, os campos de
fora citados acima descrevem de forma semelhante
sua estrutura, conformao e dinmica. No caso de
lipdeos, a maior parte dos estudos envolve os campos
de fora CHARMM e GROMOS, embora o ltimo oferea
um ganho de velocidade de at nove vezes devido a sua
natureza de tomo unido.

Para cidos nucleicos, os campos de fora mais


amplamente utilizados so o AMBER e o CHARMM,
tanto para DNA quanto para RNA.
A parametrizao de carboidratos, por sua vez,
est imersa em desafios devido sua elevada
complexidade estrutural e conformacional, de forma
que uma sucesso de novos parmetros vm sendo
desenvolvida.

Por fim, o grupo de compostos mais


desafiadores com relao disponibilidade
prvia de parmetros envolve os frmacos ou
moduladores da funo proteica que no esto sob uso teraputico (genericamente chamados de ligantes). Em decorrncia de sua
variedade e originalidade qumica, extremamente difcil ter, de antemo, parmetros
prprios sua descrio. Assim, frequente a
necessidade de parametrizao dos ligantes
em estudo, seguindo as caractersticas do
campo de fora em uso.
Embora os quatro campos de fora citados
possuam parmetros para um amplo espectro de
grupamentos funcionais, para casos especficos
ferramentas como o servidor PRODRG (para o
GROMOS) e o GAFF (para o AMBER) so capazes de
gerar parmetros, com graus variados de preciso, que
podem ser empregados no estudo de compostos
orgnicos em geral.

8.8. Conceitos-chave
Amostragem: refere-se descrio do comportamento conformacional de uma dada
molcula em uma simulao.
Campo de fora: conjunto de equaes que
descreve o comportamento molecular em
clculos de mecnica molecular. ajustado para cada tipo de molcula a ser estudado.
Campo de fora all atom (todos os tomos):
considera todos os tomos do sistema explicitamente.
Campo de fora united atom (tomo unido):
transforma grupos CH, CH2 e CH3 em uma
nica partcula ou pseudotomo, reduzindo o nmero de tomos a ser descrito.

8. Dinmica Molecular

Grupos CH de anis aromticos so descritos explicitamente.

comportamento molecular descrito a


partir das equaes da mecnica quntica.

Campo de fora coarse-grained: transforma


grupos de tomos em partculas, reduzindo o custo computacional ainda mais do
que campos de tomo unido.

Minimizao de energia: tipo de clculo em que


a energia do sistema reduzida atravs
da otimizao das posies atmicas.

Condies peridicas de contorno: condio


empregada em simulaes por DM que
impede o contato das molculas do sistema com o vcuo, representando o sistema
de forma peridica.
Cut-off: representa um corte no clculo de interaes no ligadas, reduzindo o custo
computacional do clculo. A partir da distncia definida, estas interaes no so
mais calculadas.
Diedro prprio: ngulo formado por quatro tomos ligados em sequncia. Os primeiros
trs tomos definem um plano, enquanto
os ltimos trs definem outro plano. O
ngulo formado por estes dois planos o
diedro.

Modelo de gua explcito: modelo no qual as


molculas de gua so descritas pela presena fsica de seus tomos.
Modelo de gua implcito: modelo no qual as
molculas de gua so descritas sem a
presena fsica de seus tomos.
NPT: condio de simulao na qual o nmero
de partculas, a presso e a temperatura
permanecem constantes.
NVT: condio de simulao na qual o nmero
de partculas, o volume e a temperatura
permanecem constantes.
Tempo de integrao: tamanho do passo empregado em clculos de DM.

Diedro imprprio: ngulo formado por quatro


tomos que no esto ligados em
sequncia. empregado para garantir, por
exemplo, a quiralidade de tomos e a planaridade de anis.

Transferabilidade: em um campo de fora, se


refere manuteno das propriedades de
um grupamento funcional em diferentes
molculas. Assim, uma hidroxila alcolica
de um resduo de serina ter os mesmos
parmetros que a mesma hidroxila em
uma treonina.

Dinmica molecular: tipo de clculo em que as


coordenadas dos tomos variam como
funo do tempo.

8.9. Leitura recomendada

Equilibrao: perodo em que propriedades de


uma simulao de DM demoram para
atingir um patamar estvel. Diferentes
propriedades podem requerer tempos diferentes para equilibrar.
Mecnica molecular: tipo de clculo em que o
comportamento molecular descrito a
partir das equaes da mecnica clssica
ou de Newton.
Mecnica quntica: tipo de clculo em que o

MORGON, Nelson H.; COUTINHO, K. Mtodos


de Qumica Terica e Modelagem Molecular. So Paulo: Editora Livraria da Fsica, 2007.
LEACH, Andrew R. Molecular Modelling Principles and Applications. 2.ed. Essex:
Pearson Education Limited, 2001.
SANT'ANNA, Carlos Maurcio R. Glossrio de
termos usados no planejamento de
farmacos (recomendaes da IUPAC para
1997). Quim. Nova, 25, 505-512, 2002.

9. Atracamento Molecular

Isabella A. Guedes
Camila S. de Magalhes
Laurent E. Dardenne

Predio do modo de ligao do GTP no stio de ligao da protena c-H-ras p21.

9.1. Introduo
9.2. Reconhecimento molecular
9.3. Mtodos de atracamento
9.4. Triagem em larga escala
9.5. Consideraes finais
9.6. Conceitos-chave
9.1. Introduo
Para se compreender a maioria dos mecanismos e processos celulares necessrio
determinar e compreender o modo de interao entre macromolculas (principalmente
protenas e cidos nucleicos) ou entre uma
macromolcula e uma pequena molcula ligante, que pode atuar como agonista/antagonista ou substrato/inibidor em determinado
processo fisiolgico.
Complexos macromoleculares podem
envolver dezenas ou centenas de componentes, tais como na formao dos poros nucleares, formao de ribossomos, formao de
chaperonas como a GroEL e na formao de
capsdeos de vrus (Figura 1-9). Quais protenas interagem e o modo de interao so informaes de fundamental importncia para
a compreenso do funcionamento de processos biomoleculares.
Por outro lado, o conhecimento do modo de interao entre pequenas molculas li-

Figura 1-9: Exemplos de complexos


moleculares: (A) chaperona GroEL (PDB ID
1AON), (B) complexo DNA com protena DMT1
(PDB ID 3PT6) e (C) complexo da enzima HIV-1
protease com o inibidor indinavir (PDB ID
1HSG). As verses menores em B e C esto
em escala com A.
gantes e protenas alvo, com um papel crucial
em processos fisiopatolgicos, de grande
importncia para o planejamento racional de
frmacos. Neste sentido a tcnica computacional denominada atracamento molecular
(molecular docking, em ingls), dedicada
previso do modo de ligao e dos detalhes
do reconhecimento molecular protena-protena e receptor-ligante (Figura 2-9), assume
cada vez mais papel de destaque em pesquisa
associadas sade e biotecnologia.

Figura 2-9: Emprego do mtodo de


atracamento molecular na predio do modo
de ligao do GTP ao seu stio de ligao na
protena c-H-ras p21.

9. Atracamento Molecular

Os mtodos de atracamento molecular


envolvem desafios terico-computacionais
formidveis, e se dividem em duas classes de
mtodos distintos: receptor-ligante e receptor-protena. Embora protenas sejam os
receptores mais comuns, outras biomolculas tambm podem exercer este papel.
Diversos frmacos, por exemplo, modulam
diretamente o DNA que, assim, passa a ser o
receptor alvo. Adicionalmente, frmacos
podem atuar modificando propriedades
fsico-qumica da clula, sem necessariamente envolver um processo de atracamento, como na modulao da fluidez de
membranas plasmticas. Neste captulo, ser
dada mais nfase aos mtodos de atracamento protena-ligante, contextualizados dentro da rea de planejamento racional de
frmacos baseado em estruturas.

9.2. Reconhecimento molecular


As metodologias computacionais de
atracamento protena-ligante esto baseadas
no modelo chave-fechadura, proposto por
Emil Fischer em 1894. Neste modelo, o receptor proteico associado uma fechadu-

ra, e seu stio de ligao ou stio receptor


considerado como o buraco da fechadura. A
possvel chave da fechadura o ligante, e a
interao entre o ligante e a protena est relacionada a uma das possveis aes de abrir
ou trancar a porta.
O modelo chave-fechadura, contudo, induz a uma interpretao de que a fechadura, representada pela molcula receptora,
rgida. Entretanto, no meio biolgico, tanto o
ligante quanto a protena so flexveis, podendo modificar a sua conformao durante
o processo de formao do complexo receptor-ligante. Uma viso mais adequada deste
processo denominada de encaixe induzido,
onde tanto o ligante quanto a protena se
adaptam um ao outro durante o processo de
reconhecimento molecular (Figura 3-9). De
fato, a flexibilidade de uma protena est diretamente associada sua atividade, seja na
catlise de reaes enzimticas, na transduo de sinais, no transporte atravs de protenas de membrana, ou em mudanas
conformacionais associadas a formas ativas e
no ativas de protenas.
Uma viso mais moderna do atracamento protenaligante descreve uma protena como um conjunto de

Figura 3-9: Graus de flexibilidade do receptor: (A) mobilidade do esqueleto peptdico da enzima
protease do HIV-1, (B) diversas conformaes de ala no stio de ligao do ATP enzima MAP
cinase p38, e (C) mudana conformacional da cadeia lateral de resduo na enzima cinase JNK3,
influenciada por diferentes inibidores.

9. Atracamento Molecular

estados conformacionais, com estruturas similares e


energeticamente equivalentes. Nesta viso, ao interagir
com determinada protena, um ligante seleciona uma
determinada conformao entre as preexistentes (com
a qual possui maior afinidade) e desloca o equilbrio
qumico de tal forma que esta conformao tenha a
sua proporo aumentada na populao total de estados. importante ressaltar que estudos experimentais
sugerem que estes dois mecanismos, encaixe induzido
e seleo conformacional, podem coexistir em um
mesmo sistema ligante-receptor. Estas vises so
muito importantes para direcionar as metodologias de
atracamento protena-ligante no sentido de fornecer
um tratamento adequado do problema da flexibilidade
intrnseca do receptor proteico.
A introduo da flexibilidade do receptor proteico
um dos maiores desafios das metodologias de atracamento protena-ligante. Em parte, isto se deve ao fato
de que determinadas mudanas conformacionais importantes para a funo de protenas so difceis de
serem caracterizadas experimentalmente e/ou computacionalmente por envolverem milhares de graus de
liberdade. Tal complexidade leva estes processos a
ocorrerem em escalas de tempo desde microssegundos a vrios minutos, envolvendo amplitudes de deslocamento de at dezenas de angstroms (1 = 10-10 m).

O reconhecimento molecular protenaligante est baseado na complementaridade


de caractersticas fsico-qumicas e estruturais das molculas interagentes. As caractersticas fsico-qumicas definem o grau de
afinidade e de especificidade do ligante pela
protena, e esto relacionadas com as interaes intermoleculares existentes no complexo. Estas interaes incluem as ligaes de
hidrognio, as interaes provenientes do
efeito hidrofbico, as interaes de van der
Waals, as interaes eletrostticas e as ligaes covalentes que possam ser formadas
durante o processo de interao receptor-ligante. As caractersticas estruturais, por sua
vez, esto associadas aos arranjos espaciais
moleculares, dados por variaes na orientao, posicionamento espacial e rotaes de ligaes qumicas das molculas interagentes.
Ligantes e protenas que possuem uma
alta afinidade um pelo outro exibem as seguintes caractersticas:
i) alto nvel de complementaridade es-

trica, ou seja, a protena e o ligante


possuem uma alta porcentagem de suas
superfcies de contato moleculares, definidas pelos raios de van der Waals
atmicos, em contato prximo;
ii) alta complementaridade de propriedades associadas s superfcies de contato moleculares (esta complementaridade pode ser tanto eletrosttica,
onde grupos polares/carregados do ligante ficam perto de grupos da protena
com polaridade/carga complementar,
quanto relacionada complementaridade de regies hidrofbicas);
iii) o ligante geralmente se liga em uma
conformao energeticamente favorvel, e
iv) interaes repulsivas entre ligante e
protenas so minimizadas.

Interaes protena-ligante
Os principais tipos de interaes intermoleculares envolvidas no reconhecimento
molecular protena-ligante incluem:
i)
ligaes de hidrognio;
ii) interaes de van der Waals;
iii) interaes inicas;
iv) interaes hidrofbicas;
v) interaes do tipo ction-;
vi) interaes envolvendo anis aromticos do tipo - e empilhamento-T, e
vii) coordenao com ons metlicos.
O efeito hidrofbico origina-se do fato
de que partes apolares do ligante e do stio
ativo interagem com o solvente, sendo que
estas se encontram solvatadas por camadas
de molculas de gua mais organizadas. A
aproximao destas partes apolares, durante
a interao protena-ligante, liberam e desorganizam as molculas de gua, aumentando a
entropia do sistema e consequentemente favorecem a formao do complexo protenaligante. O aumento na entropia do solvente
associado ao ocultamento das superfcies
apolares chamado de efeito hidrofbico.
Este efeito destaca o papel fundamental
do solvente aquoso no processo de reconhe-

9. Atracamento Molecular

cimento molecular protena-ligante. Em algumas situaes, as molculas de gua assumem tal importncia que sua presena
considerada estrutural, sendo por isso denominadas molculas de gua estruturais.
Estas molculas esto ligadas fortemente ao stio ativo, e geralmente so conservadas em stios de ligao de protenas
homlogas. A presena destas molculas nos
stios receptores de protenas podem interferir no acesso do ligante ao stio ativo e modificar o perfil de formao de ligaes de
hidrognio, contribuindo portanto diretamente
no sucesso das metodologias de atracamento
protena-ligante.
Durante a formao do complexo ocorre a perda de
entropia rotacional e translacional do ligante, alm de
variaes na sua entropia vibracional e conformacional
devido s restries de comprimento de ligao, deformao angular e ngulos diedrais. Estas tambm so
contribuies entrpicas importantes que ocorrem durante o processo de reconhecimento molecular.

O processo de reconhecimento molecular protena-ligante dirigido por uma combinao de efeitos entlpicos e entrpicos.
Estes efeitos podem ser estimados atravs
da energia livre de ligao de Gibbs que, por
sua vez, est diretamente relacionada constante de equilbrio de ligao Keq, a qual pode
ser medida experimentalmente.
Glig = H - TS = -RT ln Keq
onde H a variao de entalpia, T a temperatura absoluta, S a variao de entropia
e R a constante universal dos gases.
A constante de equilbrio de ligao Keq
determinada experimentalmente com relao a um estado de referncia (usualmente,
para sistemas biolgicos, utilizando uma concentrao de 1 M e 25 C). Esta constante de
equilbrio pode ser representada pela constante de dissociao (Kd) ou de associao
(Ka), as quais dependem da representao da
reao qumica sendo uma o inverso da outra.
Kd = ([R][L])/[RL]

Ka = [RL]/([R][L])

onde [R], [L] e [RL] so as concentraes de

receptor, do ligante e do complexo receptorligante respectivamente.


A determinao destas constantes depende fortemente da temperatura, presso,
pH e fora inica da soluo. Para comparar a
afinidade de molculas distintas por um mesmo receptor obtidas por grupos de pesquisa
distintos necessrio que os experimentos
tenham sido realizados sob as mesmas condies.
Tanto as contribuies entlpicas quanto entrpicas
so importantes para a interao receptor-ligante.
Muitas vezes, h uma compensao entre estas duas
contribuies, podendo a ligao ser determinada principalmente pela contribuio entlpica (compensando
uma perda entrpica) ou pela contribuio entrpica
(compensando uma variao de entalpia positiva).

A energia livre de ligao de Gibbs pode


ser obtida atravs de mtodos tericos, embora a obteno de estimativas mais precisas
envolva um custo computacional muitas vezes proibitivo para estudos de atracamento
molecular em larga escala envolvendo dezenas, centenas ou milhares de ligantes. Alguns
dos mtodos mais comumente utilizados para
clculo da energia livre incluem o mtodo de
perturbao da energia livre (PEL) e o mtodo
de integrao termodinmica (IT), que procuram calcular diferenas entre as energias livres de ligao entre ligantes similares.
Embora esses mtodos sejam precisos, com erros
de aproximadamente 1 kcal/mol, o alto custo computacional envolvido limita a sua utilizao. Esses mtodos necessitam do conhecimento prvio da estrutura
de um complexo onde a protena est associada com
um ligante com estrutura similar ao que se quer estudar. Alm disso, tendem a ter um pior desempenho
quando os compostos envolvidos diferem de muitos
tomos e/ou promovem mudanas conformacionais
significativas no receptor. Mtodos ainda mais poderosos (conhecidos na literatura como Absolute Binding
Free Energies Methods), e com custos computacionais
mais elevados, procuram calcular os valores das energias livres de ligao sem a necessidade de se ter previamente como referncia o conhecimento da energia
livre de ligao de um ligante similar.

Uma metodologia mais simples e bastante utilizada para a obteno de energias livres de ligao a chamada Energia de

9. Atracamento Molecular

Interao Linear (LIE, do ingls Linear Interaction Energy), a qual trata de estimar as energias livres a partir de simulaes de dinmica
molecular utilizando um campo de fora molecular clssico. Os clculos de energia livre
com esta metodologia envolvem simulaes
somente nos estados inicial (ligante em soluo) e final (complexo receptor/ligante), podendo reduzir desta maneira os problemas de
convergncia e custo computacionais associados s tcnicas PEL e IT. A ideia principal
considerar as contribuies polares e no polares separadamente. A parte polar ou eletrosttica pode ser tratada usando a
aproximao de resposta linear, enquanto que
a no polar calculada usando uma frmula
emprica calibrada sobre um conjunto de dados experimentais:
Glig= VLJ

lig

- VLJ

livre

+ Vel

lig

- Vel

livre

onde o fator emprico que surge das interaes no polares e o correspondente s


interaes eletrostticas. V representa os valores mdios da energia de interao entre o
ligante e o meio circundante, tanto para o termo eletrosttico (el) como para o de LennardJones (LJ). O mtodo de Energia de Interao
Linear tem sido aplicado com sucesso em sistemas complexos, o que o torna um mtodo
eficiente e mais rpido para a determinao
de energias livres de ligao, mas com um
custo computacional suficientemente grande
para torn-lo praticamente invivel para estudos envolvendo vrias dezenas ou centenas
de ligantes.
Outro mtodo utilizado para se obter melhores
predies para as energias livres de ligao o MMPBSA (Molecular Mechanics Poisson-Boltzmann
Surface Area) e MM-GBSA (Molecular Mechanics
Generalized-Born Surface Area). Estes mtodos utilizam simulaes de dinmica molecular do ligante/protena livres e do complexo como base para os clculos
da energia potencial mdia e de solvatao.

A obteno de uma descrio suficientemente acurada e vivel computacionalmente do papel das molculas de gua no
processo de reconhecimento molecular e a
quantificao correta das variaes entrpi-

cas conformacionais das molculas interagentes so alguns dos maiores desafios para
o desenvolvimento das metodologias de
atracamento molecular.

9.3. Mtodos de atracamento


O problema de atracamento molecular
pode ser dividido em duas partes principais:
i)
investigao e predio da conformao e orientao de uma molcula
ligante no seu stio de complexao;
ii) predio da afinidade em um complexo receptor-ligante, isto , a energia
livre de ligao (normalmente chamado
na literatura de funo scoring).
Atualmente existem diversos programas de atracamento molecular disponveis
(Tabela 1-9), distinguindo-se principalmente
pelo mtodo de busca e pela funo de avaliao de afinidade empregada. Podem ainda
diferir quanto possibilidade de serem utilizados atravs de portais ou localmente, de
utilizao gratuita ou paga, na necessidade de
registro e na integrao com bancos de ligantes e protenas.
Tabela 1-9: Portais de acesso para alguns
programas de atracamento molecular.
Portal
SwissDock

Programa de
atracamento
EADock DSS

DockingServer

AutoDock

DockThor Portal

DockThor

1-Click Docking

AutoDock Vina

DOCK Blaster

DOCK

Docking At UTMB

AutoDock Vina

ParDOCK

Mtodo de Monte Carlo

PATCHDOCK

PatchDock

MEDock

MEDock

Preparao do sistema
Uma etapa muito importante para um
estudo de reconhecimento molecular prote-

9. Atracamento Molecular

na-ligante a preparao do sistema. O primeiro passo nesta etapa a obteno das coordenadas das estruturas tridimensionais das
molculas interagentes. Com relao protena, o Protein Data Bank atualmente a
maior fonte pblica de estruturas de protenas e cidos nucleicos resolvidos experimentalmente
atravs,
principalmente,
das
tcnicas de difrao de raios-X e RMN. Na ausncia de dados experimentais, estruturas tridimensionais de protenas podem ser obtidas
utilizando-se tcnicas de predio de estruturas baseadas em modelagem comparativa ou
outros mtodos, tais como tcnicas baseadas
em fragmentos e tcnicas baseadas em primeiros princpios.
As estruturas de ligantes podem ser
obtidas de vrios bancos de dados contendo
milhares a milhes de ligantes no formato 1D
(smi,
simplified-molecular
input-entry
system, tambm chamado de formato
SMILES) ou 2D (sdf, structure-data file
format, tambm suporta formato 3D). A gerao de uma estrutura 3D de um ligante a
partir de uma representao 1D ou 2D (Figura
4-9) pode ser feita atravs de vrios programas tais como, CORINA, CONCORD, OMEGA,
Balloon e Multiconf-DOCK.
Uma vez que as estruturas 3D das molculas tenham sido obtidas, vrios cuidados
devem ser tomados durante a preparao
dos arquivos de entrada para a realizao de
clculos de atracamento molecular. Com relao ao stio de ligao em uma protena alvo, necessrio primeiramente que se tenha
a informao da localizao do mesmo. Em
um segundo momento, muito importante
realizar um estudo das caractersticas fsicoqumicas e estruturais deste stio. No caso de
enzimas, um estudo (incluindo uma pesquisa
bibliogrfica) para obter o mximo de informaes sobre a reao enzimtica envolvida
tambm deve ser realizado.
Como a localizao do stio receptor de
uma protena nem sempre conhecida, mtodos computacionais podem ser utilizados para prever os possveis stios de ligao. Estes
mtodos podem se basear em anlises geomtricas e de volume para identificar cavida-

Figura 4-9: Principais etapas de preparao


do ligante.
des (tais como FINDSITE, SURFNET e LIGSITE),
em energias de interao (Q-SITEFINDER e
GRID) e no uso de propriedades de stios de ligao conhecidos para efetuar uma busca
por padres (webPDBinder).
Mesmo quando se tem uma estrutura
tridimensional determinada experimentalmente, importante que se faa uma investigao minuciosa da estrutura na regio do
stio ativo procura de erros (programas como WHAT_IF, MOLPROBITY e PROCHECK podem ser utilizados para checar a qualidade da
estrutura e corrigir alguns tipos de erros).
Alguns dos possveis problemas que podem
ser encontrados so:
i) ausncia de tomos e/ou resduos;
ii)
mal posicionamento de cadeias laterais, particularmente importante para
os resduos de asparagina, glutamina e
histidina, onde as cadeias laterais podem apresentar inverses, tais como a
inverso entre os tomos OG e ND na
asparagina;
iii) presena de duas ou mais conformaes para um resduo ou conjunto de
resduos representando configuraes
alternativas para a mesma protena;
iv) conformaes no nativas, seja de
uma cadeia lateral ou de uma estrutura
2ria, devido a efeitos de empacotamen-

9. Atracamento Molecular

to das protenas no cristal.


Um segundo aspecto de grande relevncia na preparao do stio receptor estabelecer o estado de protonao correto dos
resduos que participam da interao com o
ligante (Figura 5-9). muito comum que resduos como cistena, glutamato, aspartato e
histidina tenham estados de protonao no
usuais, influenciados e estabilizados pelo ambiente eletrosttico do stio ativo. Este problema pode ser tratado utilizando estratgias
complementares, tais como:
i) anlise de diferentes complexos (muitas vezes de protenas homlogas) com
distintos ligantes;
ii) estudo da literatura a respeito do
mecanismo de reao enzimtica;
iii) uso de programas para prever o
pKa de cada resduo do stio ativo/receptor (por exemplo, atravs do programa PROPKA).
Com relao ao ligante, a etapa de preparao envolve diversos cuidados, tais como
a determinao do seu estado de protonao,
estado tautomrico, forma enantiomrica
ativa biologicamente (Figura 4-9), a identificao das suas ligaes qumicas flexveis
(Figura 6-9) e, a partir destas, a gerao de
mltiplas conformaes.
A determinao do estado de protonao do ligante uma tarefa no trivial, pois
envolve no s o pH mas tambm a interao
com o stio de ligao. Para tentar minimizar
este problema, muitas vezes o atracamento
feito levando-se em conta os vrios estados
de protonao do ligante.
A gerao de vrias conformaes para
o ligante importante no caso de metodologias de atracamento que no levam em conta
a flexibilidade do mesmo e fazem o atracamento do ligante rgido para cada conformao representativa. Um caso especfico est
relacionado a estruturas cclicas, cuja flexibilidade geralmente no levada em considerao durante o processo de atracamento.
Ligantes contendo estruturas cclicas
no aromticas podem exibir mudanas con-

Figura 5-9: Diferentes estados de protonao


dos aspartatos catalticos na estrutura da
HIV-1 Protease complexada com o inibidor
KNI-272. Estrutura determinada por difrao
de neutrons.
formacionais relevantes no processo de reconhecimento molecular. Para estes casos, a
gerao de um conjunto de estruturas representativas das mudanas conformacionais e a
utilizao destas em mltiplos estudos de
atracamento a soluo indicada. LIGPREP
um exemplo de programa que gera tautmeros, diferentes conformaes de estruturas
cclicas, diferentes estados de protonao de
acordo com o pH e diferentes estereoismeros para um determinado ligante.
importante ressaltar que dificilmente
metodologia de busca ou funo avaliao
capaz de corrigir ou superar os problemas
causados por uma m caracterizao do estado de protonao de um ligante ou de resduos de aminocidos importantes presentes
no stio de ligao. A correta preparao das
estruturas 3D do ligante e da protena, juntamente com a correta determinao das molculas de gua estruturais, so etapas
cruciais para obter sucesso na utilizao das
metodologias de atracamento receptor-ligante.
Algumas metodologias de atracamento

9. Atracamento Molecular

Figura 6-9: Graus de liberdade conformacionais do indinavir, representados por setas.


mais sofisticadas procuram avaliar os diferentes estados de protonao do ligante e
das cadeias laterais dos resduos durante a
execuo do algoritmo. eHiTS um exemplo
de programa que utiliza este tipo de estratgia.

Mtodos de busca
A explorao das diferentes orientaes
e conformaes possveis para um ligante no
stio de ligao do receptor alvo pelo programa de atracamento deve ser feita de tal forma a se encontrar a soluo tima, ou seja, o
mnimo global de energia. Se os efeitos entrpicos e entlpicos associados termodinmica do sistema (ou seja, a energia livre do
sistema) forem corretamente modelados pela funo de energia, ento o mnimo global
de energia da superfcie investigada vai estar
associado ao modo de ligao receptor-ligante encontrado experimentalmente. Infelizmente, devido s aproximaes introduzidas
no modelo de interao molecular, nem sempre o mnimo global satisfaz este importante
requisito.
Um ligante pode variar sua orientao
dentro do stio de ligao atravs de movimentos de translao e rotao (os chamados graus de liberdade translacionais e
rotacionais). Alm destas modificaes, a
presena de ngulos diedrais rotacionveis
(isto , ligaes qumicas simples) do ligante
correspondem aos graus de liberdade conformacionais. Na Figura 6-9 so mostrados os

graus de liberdade conformacionais do indinavir, inibidor da protease do HIV-1.


A flexibilidade das molculas interagentes considerada de maneira variada pelos
diversos mtodos de atracamento molecular.
Trs principais estratgias so utilizadas:
i)
a protena considerada rgida, e
apenas os graus de liberdade translacionais e rotacionais do ligante so considerados, ou seja, o ligante fixado em
uma conformao rgida;
ii) a protena considerada rgida, mas
todos os graus de liberdade do ligante
(translacionais, rotacionais e conformacionais) so levados em conta;
iii) a protena considerada totalmente
ou parcialmente flexvel, e todos os
graus de liberdade do ligante tambm
so considerados.
Nas metodologias que utilizam a estratgia i possvel considerar a flexibilidade do
ligante atravs da construo prvia de um
conjunto de conformaes representativas e
a subsequente realizao de vrios clculos
de atracamento molecular do tipo receptorrgido. De modo anlogo, com relao segunda estratgia, possvel considerar a flexibilidade da protena em atracamentos do
tipo receptor-rgido atravs da gerao de um
conjunto de conformaes representativo da
flexibilidade do receptor proteico.
Os mtodos de busca dos programas de
atracamento ligante-receptor podem ser
classificados basicamente em trs categorias:
mtodos de busca sistemtica, mtodos de
busca determinstica e mtodos de busca estocstica. Alguns programas utilizam em
conjunto algumas destas diferentes abordagens.
Nos mtodos de busca sistemtica, um
conjunto de valores estabelecido para cada
grau de liberdade. O objetivo explorar de
forma combinatria todos os graus de liberdade da molcula durante a busca.
Um dos principais exemplos de mtodos de busca
sistemtica so os algoritmos de construo incremental, um tipo de abordagem baseada em fragmentos. Nestes algoritmos, o ligante dividido em

9. Atracamento Molecular

pequenos fragmentos rgidos. Em um primeiro momento, um fragmento-base ancorado no stio receptor e, posteriormente, todos os outros fragmentos so
adicionados de forma incremental, at a reconstruo
total do ligante. Cada fragmento adicionado possui uma
ligao qumica rotacionvel com o fragmento base. A
juno dos fragmentos feita com base em uma busca
conformacional, a partir de um banco de valores de
ngulos diedrais, de maneira a investigar sistematicamente a flexibilidade associada a este ngulo especfico. Exemplos de programas de atracamento que
utilizam construo incremental so DOCK, FlexX, Glide, EUDOC e Surflex.

Nos mtodos de busca determinstica,


dado um mesmo estado inicial de entrada,
obtido sempre o mesmo resultado de sada.
Mtodos de simulao por dinmica molecular e mtodos clssicos de minimizao de
energia so exemplos de mtodos de busca
determinstica utilizados por programas de
atracamento molecular.
Uma das grandes vantagens dos mtodos de atracamento baseados em dinmica molecular que tanto
a influncia do solvente explcito quanto de todos os
graus de liberdade do complexo protena-ligante so
explorados de forma mais natural. Entretanto, estes
mtodos possuem um custo computacional elevado e,
dependendo da altura das barreiras de energia encontradas, podem ficar presos em configuraes associadas a mnimos locais do sistema.
Para tentar superar esta limitao, possvel utilizar algumas estratgias como, por exemplo, aumentar
a temperatura de simulao, suavizar a superfcie de
energia potencial e simular diferentes partes do sistema protena-ligante com diferentes temperaturas,
alm de iniciar os clculos de dinmica molecular com
o ligante em distintas conformaes. O programa
CDOCKER um exemplo de programa que utiliza DM
em conjunto com a gerao de vrias configuraes do
ligante para serem utilizadas como pontos de partida
em simulaes com altas temperaturas e potenciais
suavizados.
Ainda, uma tcnica que tem sido utilizada com bastante sucesso no estudo de interaes ligante-receptor
a metadinmica. Nesta tcnica, uma fora adicional
calculada durante a simulao de DM. Esta fora depende do prprio histrico da simulao, e tem a funo de facilitar a amostragem do espao
configuracional do sistema, tentando diminuir a proba-

bilidade de que configuraes j visitadas venham a ser


amostradas novamente.
Os mtodos baseados em DM podem ser utilizados
em uma estratgia conjunta com outros tipos de mtodos de busca. Nesta estratgia, mtodos sistemticos/incrementais/estocsticos so utilizados para
gerar um conjunto de configuraes protena-ligante
provveis. Nesta etapa, muito mais rpida, so introduzidas restries associadas flexibilidade do ligante
e da protena, e quanto descrio do efeito solvente
(uso da aproximao de solvente implcito). Na etapa
seguinte, muito mais custosa, simulaes de DM com
solvente explcito e considerando flexibilidade total do
receptor e do ligante so realizadas tomando-se como
ponto de partida as melhores configuraes geradas
na etapa anterior.

Nos mtodos de busca estocstica o


processo de otimizao envolve movimentos
aleatrios associados aos graus de liberdade.
Este fato implica na possibilidade de se obter
diferentes resultados como sada para um
mesmo estado inicial de entrada. A maioria
dos mtodos desta classe no possui garantia
de convergncia. Portanto, em estudos de
atracamento molecular, vrias execues independentes do algoritmo so necessrias
para se realizar uma boa investigao do sistema. Monte Carlo, Recozimento Simulado
(Simulated Annealing) e Algoritmos Evolucionistas so exemplos de mtodos de busca
estocstica mais comumente utilizados por
programas de atracamento receptor-ligante.
Glide, ICM, Prodock, AutoDock e LigandFit so
exemplos de programas que utilizam os mtodos estocsticos de Monte Carlo e Simulated Annealing.
No mtodo de Monte Carlo padro (MC) gerada
aleatoriamente uma conformao inicial do ligante e,
em seguida, tomando esta configurao como referncia, gerada uma nova configurao. Se a configurao gerada possuir energia menor que a
configurao de referncia (V<0), a nova configurao
imediatamente aceita e tomada como referncia para
a prxima iterao. Caso contrrio (V0), o critrio de
Metroplis utilizado para decidir se a nova configurao ser aceita ou no. Esse processo repetido at
que o nmero desejado de configuraes seja obtido.
O critrio de Metroplis consiste em se gerar um
nmero aleatrio entre 0 e 1 e compar-lo com o fator

9. Atracamento Molecular

de Boltzmann, exp(-V/kBT), considerando uma determinada temperatura absoluta T. Se o fator de


Boltzman for maior que o nmero aleatrio gerado a
nova conformao aceita. O mtodo de Simulated
Annealing (SA) pode ser considerado uma variao do
mtodo de Monte Carlo, onde o primeiro ciclo da simulao realizado em uma alta temperatura, sendo que
esta decai para temperaturas menores durante os ciclos seguintes. Diferentes variantes de SA utilizam distintas estratgias para o decaimento da temperatura.
O programa MCDOCK utiliza o mtodo SA, o qual
tambm foi utilizado nas primeiras verses do programa Autodock. Prodock e ICM so exemplos de programas de atracamento que utilizam o mtodo de MC com
minimizao. Neste caso, aps um movimento aleatrio, a conformao otimizada por um mtodo baseado em otimizao de energia antes que o critrio de
Metrpolis seja aplicado.

Uma das classes de algoritmos estocsticos mais utilizadas por programas de


atracamento molecular protena-ligante a
de Algoritmos Evolucionistas (AE). Estes algoritmos so inspirados no processo biolgico
de evoluo de populaes. Esses algoritmos
pertencem rea de Computao Evolucionista (CE), que abrange vrios tipos de algoritmos, tais como Algoritmos Genticos (AG),
Estratgias de Evoluo (EE), Evoluo Diferencial (ED), Otimizao por Colnia de Formigas (OCF), Busca Tabu (BT) e Enxame de
Partculas (EP). Dentre esses, diversas variantes de Algorimos Genticos tm sido implementadas para o atracamento de ligantes
flexveis.
AGs so baseados no princpio de sobrevivncia do mais adaptado, proposto pela
teoria da evoluo de Darwin. Ao contrrio
dos mtodos MC e de outros mtodos estocsticos que requerem uma nica configurao inicial, AGs trabalham com uma
populao de indivduos, onde cada indivduo
representa uma possvel soluo para o problema a ser resolvido. A cada gerao, novos
indivduos so gerados atravs da troca de
genes entre dois indivduos pais (recombinao) e de mudanas aleatrias nos valores
dos genes (mutao). Este processo repetido de maneira que a populao evolua
para melhores solues, at que um critrio

de parada predeterminado seja encontrado.


O primeiro programa de atracamento utilizando AG
foi implementado por Judson e colaboradores em
1994, seguido por uma implementao no programa
DOCK. O programa de atracamento molecular GOLD
utiliza um AG para evoluir mltiplas subpopulaes de
ligantes, onde a migrao entre as populaes permitida. O programa AutoDock tambm possui implementado um AG convencional e um AG Lamarckiano
(AGL). O AGL um AG hbrido com um mtodo de busca local (BL). A cada gerao, uma porcentagem
predefinida da populao aleatoriamente escolhida
para aplicao da BL. O indivduo resultante da BL
substitui o indivduo original, em uma aluso teoria de
Lamarck, sobre a hereditariedade de caractersticas
adquiridas durante o tempo de vida de um indivduo.

No h garantia de que os algoritmos


evolucionistas encontrem o mnimo global da
superfcie de energia e, frequentemente, as
melhores solues encontradas ficam presas
em mnimos locais. Mltiplas execues do
algoritmo so uma sada bvia para se tentar
uma explorao mais satisfatria do espao
de configuraes associado aos modos de
atracamento ligante-receptor. Porm, estes
problemas tendem a se tornar ainda mais importantes e difceis de enfrentar quando se lida com ligantes altamente flexveis (com
mais de 10 ligaes qumicas rotacionveis)
e/ou se considera a flexibilidade da protena
em algum nvel.
O programa DockThor (disponvel atravs de portal
web www.dockthor.lncc.br) tenta minimizar este problema atravs do uso de um AG que procura preservar
e obter em uma nica execuo do algoritmo uma
multiplicidade de modos de ligao protena-ligante.
Devido alta complexidade e modalidade (presena de
muitos mnimos locais na superfcie de energia) desta
busca, principalmente para ligantes altamente flexveis, uma questo crtica a preservao de diversidade til na populao. O objetivo permitir a
investigao de mltiplas regies de alta aptido (nichos) em paralelo, de tal forma a se reduzir as chances
de convergncia para timos locais de baixa qualidade.
Para a preservao de mltiplas solues na populao foi proposto o mtodo MRTS (Modified Restricted
Tournament Selection), baseado no mtodo de seleo
por torneio restrito (RTS). O mtodo MRTS possui a
vantagem de priorizar a preservao de diversidade

9. Atracamento Molecular

til na populao, ou seja, incentiva a preservao de


mltiplas solues de alta aptido na populao ao
mesmo tempo em que aumenta a probabilidade de se
encontrar o mnimo global.
Os programas MolDock, PRO_LEADS, SODOCK,
PSO@Autodock, FIPSDOCK e Autodock Vina so
exemplos de programas de atracamento que utilizam
estratgias de otimizao estocstica. O MolDock utiliza um algoritmo de evoluo diferencial. Os programas
SODOCK, PSO@Autodock e FIPSDock utilizam variantes
do algoritmo de otimizao por enxame de partculas
(particle swarm). O PRO_LEADS utiliza um algoritmo
de busca Tabu. O programa AutoDock Vina implementa
um algoritmo similar ao utilizado pelo programa de
atracamento ICM. Neste algoritmo, uma sucesso de
passos consistindo de mutao e busca local so efetuados, onde o resultado de cada passo aceito ou no
de acordo com o critrio de Metrpolis.

Funes de avaliao
Os mtodos de busca geram uma grande quantidade de conformaes do ligante
durante o atracamento molecular. As funes
de avaliao so combinadas aos mtodos de
busca para avaliar a qualidade destas conformaes de forma a orden-las de acordo com
a sua afinidade pelo receptor. Uma funo de
avaliao deve ser capaz de distinguir o modo
de ligao experimental dos outros encontrados pelo mtodo de busca (ou seja, previso
do modo de ligao). Tambm deve ser capaz
de ordenar corretamente uma lista de ligantes com relao s suas afinidades pela macromolcula receptora (triagem virtual) e
prever as respectivas energias livres de ligao (predio de afinidade). Sendo assim, o
desempenho de uma funo de avaliao est
diretamente relacionado sua capacidade de
predio do correto modo de interao do ligante e da sua afinidade pelo receptor alvo.
Estas funes so modelos matemticos, geralmente lineares, formados por diferentes termos relacionados s propriedades
fsico-qumicas envolvidas na interao de
uma pequena molcula ligante com seu stio
de ligao a um receptor. De acordo com o
objetivo e a etapa do estudo de atracamento
molecular, podem ser utilizadas diferentes

funes de avaliao, que variam principalmente no nmero e tipo de termos, na sua


complexidade matemtica e na forma de parametrizao. Para reduzir o custo computacional, uma funo mais simples costuma ser
utilizada durante a avaliao das conformaes geradas pelo mtodo de busca. J nas
etapas finais do atracamento molecular, uma
funo de avaliao mais complexa e sofisticada empregada de forma a obter uma
maior acurcia na predio do correto modo
de ligao e na predio da afinidade do ligante pelo receptor. As funes de avaliao
mais utilizadas no atracamento molecular receptor-ligante podem ser classificadas em
trs tipos: baseadas em campo de fora, empricas e baseadas em conhecimento.
Funes de avaliao baseadas em
campos de fora constituem-se em uma soma de termos advindos de algum campo de
fora molecular clssico, cuja parametrizao
pode ser feita utilizando dados experimentais
ou provenientes de clculos qunticos (podendo tambm ser a combinao de ambos).
Os termos de energia so divididos em termos no-ligados (associados a interaes de
van der Waals, eletrostticas e ligaes de hidrognio) e termos ligados (representando
normalmente a energia associada toro de
ligaes qumicas). Outros termos so normalmente utilizados para tentar incorporar
efeitos adicionais, tais como energia de solvatao e interaes hidrofbicas. Exemplos
de campos de fora moleculares clssicos
so GROMOS, AMBER, CHARMM e MMFF94.
As funes empricas so aquelas desenvolvidas utilizando complexos receptor-ligante com estruturas tridimensionais e
afinidades conhecidas. A partir destes dados,
seus termos so automaticamente ajustados
de forma a reproduzir os dados experimentais
de afinidade de ligao com a maior acurcia
possvel. Neste sentido, estas funes se baseiam na ideia de que a energia livre de ligao pode ser relacionada atravs do
somatrio de variveis no correlacionadas.
Cada varivel possui um fator relativo de escalonamento, parametrizado de forma a maximizar a correlao com os dados

9. Atracamento Molecular

experimentais. A representao geral de uma


funo emprica
G =

Wi . Gi

em que Wi o coeficiente de cada termo Gi


referente determinada propriedade qumica
considerada. A parametrizao de uma funo emprica tem como objetivo encontrar os
valores de Wi que maximizam a correlao da
energia de ligao total (G) com os dados
experimentais de afinidade de um conjunto de
complexos receptor-ligante que treinam o
modelo (chamado conjunto de treinamento).
Cada funo emprica se diferencia no nmero
e nos tipos de termos utilizados, bem como
na forma e no conjunto de treinamento utilizado para a sua parametrizao. So
exemplos de funes empricas ChemScore,
X-Score e GlideScore.
Outro grupo de funes de avaliao
so as baseadas em conhecimento. A inspirao para este tipo de funo provm da mecnica estatstica em sistemas de fluidos
simples, que empregam potenciais de fora
mdia (potentials of mean force, PMF), sendo
posteriormente modificadas para serem empregadas em estudos de predio de estruturas de protenas e estimao de constante de
afinidade receptor-ligante.
Estas funes so construdas a partir
de anlises estatsticas entre os pares de
tomos dos complexos receptor-ligante resolvidos experimentalmente. Seus termos
so derivados a partir das frequncias observadas de interaes especficas pr-definidas
entre os pares de tomos de cada complexo.
Com isto, as funes baseadas em conhecimento tendem a capturar efeitos de interaes mais especficas e de modelagem mais
complexa. Da mesma forma que as funes
empricas, estas funes se diferenciam pelo
tamanho do conjunto de treinamento e no tipo
de interaes receptor-ligante consideradas
durante a parametrizao. Uma desvantagem
das funes baseadas em conhecimentos
que dependem de um conjunto de treinamento bastante amplo para a parametrizao.
Alm disso, as interaes necessrias para

construo de uma funo baseada em conhecimento podem estar mal representadas


no conjunto de treinamento utilizado ou ainda
mal parametrizadas, tornando o uso destas
funes restrito. Uma vantagem deste tipo de
funo que, devido relativa simplicidade de
seus termos, elas conseguem ser to rpidas
quanto as funes empricas. Alguns
exemplos de funes baseadas em conhecimento so DrugScore, RF-Score e PMF.
importante notar que no existe uma
funo de avaliao universal, assim como
uma classe de funo no necessariamente
melhor que outra ou geral o suficiente para
ser utilizada com sucesso em qualquer estudo de atracamento. Para obter maior eficincia e confiabilidade, o ideal utilizar a funo
de avaliao que mais se adequa ao problema
a ser pesquisado. Por exemplo, necessrio
saber se todos os tipos de tomos do receptor e do ligante em estudo so definidos na
funo de avaliao escolhida. Ainda, se a
funo de avaliao foi parametrizada e testada para a classe do receptor e do ligante
estudado. Assim, para estudo de carboidratos, o ideal utilizar uma funo que tenha
includo ligantes desta classe no conjunto de
treinamento utilizado na parametrizao. Realizar estudos tentando reproduzir complexos
determinados experimentalmente (o chamado redocking) tambm auxilia a diagnosticar
se a funo de avaliao escolhida capaz de
reproduzir os dados experimentais do complexo receptor-ligante (mais frequentemente
protena-ligante).
Estimar a constante de afinidade, como
dito anteriormente, ainda um desafio importante na rea da modelagem molecular.
Em estudos de triagem virtual, por exemplo,
interessante utilizar mais de uma funo de
avaliao e comparar os resultados obtidos
para chegar a um consenso. Entretanto, a
anlise qualitativa dos modos de ligao encontrados, tais como a presena de interaes intermoleculares consideradas essenciais para o alvo estudado, de grande
importncia na deteco de falso-positivos.

9. Atracamento Molecular

Flexibilidade da Protena
A introduo da flexibilidade da protena
pelos algoritmos de atracamento molecular
atualmente um dos principais desafios desta
rea de pesquisa. Isto se deve ao grande nmero de graus de liberdade a serem considerados, principalmente relacionados aos graus
de liberdade dos movimentos do esqueleto
peptdico e das cadeias laterais dos resduos
de aminocidos da protena.
Nos ltimos anos, vrias metodologias
que procuram incorporar este efeito tm sido
propostas e descritas na literatura, impulsionadas por dois importantes fatores. O primeiro que o tratamento da flexibilidade da
protena cada vez mais reconhecido como
um aspecto de extrema relevncia em estudos de planejamento racional de frmacos
baseado na estrutura do seu receptor biolgico. So crescentes as evidncias de que alvos moleculares de grande interesse para a
indstria farmacutica passam por importantes mudanas conformacionais quando interagindo com ligantes. O segundo fator foi o
grande crescimento do poder de processamento dos computadores ocorrido nos ltimos anos, o que tornou possvel o
desenvolvimento de novas metodologias, algoritmos e abordagens, que seriam inviveis
em estudos de planejamento de frmacos h
poucos anos.
A flexibilidade da protena pode estar
associada a diferentes tipos de movimentos,
tais como movimentos locais (como o movimento de cadeias laterais de resduos de
aminocidos localizados no stio de ligao),
movimentos de mdia escala (como o rearranjo de alas ou reposicionamento de hlices) e movimentos de grande escala,
associados a movimentos de domnios da
protena (Figura 3-9). Dependendo dos tipos
de movimentos que se quer incorporar, diferentes tipos de metodologias so passveis de
serem utilizadas para um tratamento adequado. De maneira geral, as metodologias
existentes podem ser divididas em trs categorias, associadas aos trs mecanismos de
encaixe ligante-protena mencionados anteri-

ormente:
i) mtodos associados ao mecanismo
de encaixe induzido, onde so considerados os movimentos locais da protena;
ii) mtodos associados ao mecanismo
de conjunto de conformaes (ensemble
docking em ingls), em que so considerados movimentos de grande e larga
escala; e
iii) mtodos hbridos, que levam os dois
tipos de mecanismos e procuram considerar um amplo espectro de movimentos da protena.
Uma das estratgias mais simples de introduzir a
flexibilidade local da protena a de suavizar o potencial repulsivo entre tomos do ligante e da protena, isto
, suavizar o termo de r-12 do potencial de Lennard-Jones, tcnica esta conhecida na literatura como Receptor Soft-Docking. Na prtica, isto permite que os
ligantes possam se acomodar mais facilmente nas regies de interao, levando em conta a flexibilidade
inerente da protena. Do ponto de vista da superfcie de
energia isto corresponde a alargar as regies de mnimo, evitando assim que um eventual posicionamento
incorreto de um tomo da protena (dentro da aproximao de atracamento com a protena rgida) possa
fazer explodir a energia de interao protena-ligante,
mesmo que esta esteja muito prxima da observada
experimentalmente.
Esta tcnica tambm utilizada para acelerar a
convergncia da busca conformacional. Normalmente,
a intensidade da suavizao utilizada de forma decrescente, permitindo que no incio do processo de
busca possa haver certa sobreposio entre os tomos
do ligante e da protena. Muitos programas de atracamento utilizam esta suavizao embutida na sua funo de avaliao. Uma das desvantagens deste mtodo
que ele no capaz de levar em considerao mudanas conformacionais mais significativas do receptor. Outra desvantagem a possibilidade de se
introduzir erros na avaliao da energia de interao ligante-protena e de levar muitas vezes obteno de
falsos positivos e/ou a um conjunto de solues possveis cujas energias encontram-se muito prximas, no
sendo possvel discrimin-las energeticamente.

Os mtodos de atracamento mais sofisticados que procuram incorporar a flexibilidade local da protena simulando um

9. Atracamento Molecular

processo de encaixe induzido fazem isso gerando diversas conformaes da protena


concomitantemente com o processo de busca
conformacional do ligante dentro do stio de
ligao. Essa abordagem implica em selecionar graus de liberdade adicionais que sejam
representativos da flexibilidade da protena
durante o processo de encaixe-induzido. Normalmente, so selecionados graus de liberdade associados a cadeias laterais de
resduos importantes no stio receptor e, em
alguns casos, a regies especficas do esqueleto peptdico da protena, tais como alas
flexveis que estejam prximas do stio e que
possam interagir diretamente com os ligantes.
O problema com esta abordagem que
a complexidade do processo de busca cresce
a cada grau de liberdade adicionado, aumentando o custo computacional e diminuindo a
probabilidade do algoritmo encontrar o mnimo global da superfcie de energia. necessrio que o modelador faa uma escolha
criteriosa de quais cadeias laterais deve considerar flexveis. No caso de cadeias laterais
de resduos de aminocidos, a busca conformacional pode ser feita pela investigao
exaustiva dos ngulos torcionveis da cadeia
ou atravs de uma busca discreta entre conformaes preferenciais atravs da utilizao
do uso de bibliotecas de rotmeros. importante ressaltar que mesmo com a utilizao
destas bibliotecas, a incluso da flexibilidade
de vrias cadeias laterais pode facilmente levar a uma exploso combinatorial que prejudica o desempenho dos algoritmos de
atracamento.
Outra estratgia comumente utilizada
para introduzir certa acomodao protena-ligante no processo de atracamento envolve o
emprego de um algoritmo de otimizao local, tais como aqueles baseados na minimizao do gradiente ou em Monte Carlo, para
reinvestigar as configuraes ligante-protena
geradas durante o processo de busca. O programa Prodock um exemplo que utiliza a
minimizao por gradiente durante o processo de busca para incorporar a flexibilidade em
regies da cadeia principal da protena. O pro-

grama ICM/IFREDA utiliza o mtodo de Monte


Carlo seguido de minimizao de energia para
otimizar cadeias laterais e/ou partes flexveis
do esqueleto peptdico. Os programas
AutoDock4 e GOLD utilizam algoritmos genticos para introduzir flexibilidade nas cadeias
laterais
de
resduos.
O
programa
ROSETTALIGAND utiliza um mtodo de Monte
Carlo para explorar simultaneamente os
graus de liberdade associados ao ligante, s
cadeias laterais dos resduos e ao esqueleto
peptdico da protena.
Os mtodos que se baseiam no mecanismo de conjunto-de-conformaes fazem
uso de um nmero discreto de conformaes
representativas da flexibilidade da protena ao
invs de considerar a flexibilidade da protena
explicitamente durante o processo de atracamento molecular (Figura 7-9). Estas conformaes podem ser obtidas de distintos
experimentos, utilizando as tcnicas de difrao de raios-X e/ou RMN. Tambm podem ser
obtidas a partir de modelos gerados por tcnicas de predio de estruturas de protenas,
a partir de simulaes de dinmica molecular
ou utilizando a tcnica de modos normais. H
evidncias significativas na literatura de que o
uso de mltiplas conformaes aumenta significativamente a probabilidade de obter sucesso em estudos de atracamento molecular.
Trs questes importantes que se colocam a respeito destas abordagens e que diferenciam os diversos mtodos descritos na
literatura: i) como utilizar as diversas conformaes da protena; ii) como gerar e selecionar as conformaes da protena; e iii) como
ordenar os compostos considerando os atracamentos dos ligantes nas diversas conformaes da protena.
Com relao ao modo de utilizao das
conformaes, a forma mais simples e usual
considerar cada conformao da protena
como rgida e realizar um estudo de atracamento molecular para cada conformao selecionada, embora o custo computacional
cresa proporcionalmente ao nmero de
conformaes da protena selecionadas. Uma
metodologia de pr-seleo das conformaes que reduza significativamente o seu n-

9. Atracamento Molecular

mero, sem grande perda da informao sobre


a flexibilidade do receptor (por exemplo,
atravs de agrupamento por semelhana ou
construo de clusters), algo extremamente desejvel.
Outra forma possvel o uso de grades de energia
(Figura 8-9) combinadas. Os mtodos de grade de
energia combinada consistem na combinao ou juno
de diversas estruturas/conformaes rgidas de uma
mesma protena, em uma nica grade de energia. A
combinao das grades de energia pode ser realizada
de vrias maneiras. Geralmente, a mdia ou a mdia
ponderada entre estas grades calculada, gerando
uma nica grade. O programa DOCK foi o primeiro a
implementar conjuntos de grades de energia para a incluso da flexibilidade da molcula receptora.
Osterberg e colaboradores compararam vrios
mtodos de grade combinada no programa AutoDock.
Um deles utilizava a mdia entre as grades, outro o valor mnimo e os outros dois utilizavam mdias ponderadas. Os resultados obtidos demonstram que a
utilizao de mdias ponderadas melhor do que a utilizao da mdia e do mnimo. O programa FlexE apresenta um mtodo semelhante, onde a principal
diferena reside na forma de tratamento das regies
dissimilares das estruturas do receptor. Os resultados
obtidos pelo programa FlexE so de qualidade similar

melhor soluo encontrada nos experimentos de atracamento onde cada ligante atracado em cada uma
das conformaes representativas da flexibilidade da
protena.
A metodologia de grade uma estratgia utilizada
para aproximar o clculo das energias eletrostticas e
de van der Waals (outros termos da funo energia
tambm podem ser utilizados), reduzindo drasticamente o custo computacional do clculo da energia de
interao intermolecular protena-ligante. Uma grade
de energia pode ser representada como uma malha de
pontos tridimensional, em que cada ponto armazena o
potencial total eletrosttico e de van der Waals. Os valores da energia so obtidos atravs da interpolao
dos valores armazenados nos oito pontos que definem
uma clula cbica da grade. O espaamento entre os
pontos da grade (discretizao, ) determina o nvel da
aproximao: quanto maior a discretizao, menor a
preciso no clculo da energia de interao intermolecular. O tamanho e formato da grade de energia dado
em funo das suas trs dimenses ( ,
e
). O
centro da grade de energia pode ser definido de diversas formas, como por exemplo centralizar no tomo
de um resduo de aminocido especfico do stio ativo
ou de um ligante de referncia. Exemplos de programa
que utilizam grade de energia so GOLD, Glide,
AutoDock Vina e DockThor.

Figura 7-9: Atracamento molecular utilizando conjunto de conformaes (adaptado de Guedes e


colaboradores, 2013).

9. Atracamento Molecular

Figura 8-9: Representao de uma grade de energia cbica centrada no stio de ligao do
inibidor indinavir da protease do HIV-1, com as dimenses de cada eixo ( ,
e
). Em
destaque est representada a indexao dos oito pontos de uma clula e a discretizao da
grade (r). As energias de interao so obtidas da interpolao dos valores, de cada termo da
energia, pr-armazenados nos oitos pontos da clula cbica que contm um determinado
tomo do ligante.
Com relao gerao das conformaes, as tcnicas de simulao de dinmica
molecular e modos normais so as mais utilizadas. Associada ao uso destas tcnicas, est
a importante questo de qual a amplitude de
movimentos do receptor proteico necessria considerar. Ou seja, se estamos tratando
da flexibilidade local de um receptor (como o
movimento de uma ala) ou de movimentos
de mais larga escala (como movimentos de
domnios da protena). Esta importante questo est diretamente relacionada com a capacidade de amostragem do espao de
configuraes do receptor por parte da tcnica de simulao utilizada.
Um exemplo de metodologia que usa a tcnica de
dinmica molecular o Relaxed Complex Scheme, que
utiliza simulaes longas de dinmica molecular considerando todos os tomos do sistema ligante-protenasolvente. A escala de tempo das simulaes variam de
2 ns a 0,5 s. Uma questo importante a respeito desta tcnica se as simulaes devem ser realizadas
com a protena na sua forma apo (no complexada a

um ligante) ou na sua forma holo (complexada a um ligante). Resultados descritos na literatura indicam que
simulaes na forma holo produzem resultados melhores, dando uma descrio mais adequada do stio de
ligao. Na realidade, para no se obter um vis para
um determinado modo de ligao de um ligante especfico, a estratgia recomendada a de se realizar vrias simulaes com ligantes distintos. Estes modos de
ligao podem ser obtidos de resultados experimentais
ou a partir de resultados obtidos de simulaes de
atracamento molecular considerando vrios ligantes e
o receptor rgido.

A questo do nmero de conformaes


e de como selecionar aquelas representativas
do processo em estudo ainda uma questo
em aberto e possivelmente dependente do tipo de sistema avaliado. Uma das metodologias mais populares busca capturar a
diversidade estrutural presente na simulao
utilizando o agrupamento de configuraes a
partir do valor de RMSD (Root-Mean-Square
Deviation). importante ressaltar que, neste
processo, ao invs de se utilizar a estrutura

9. Atracamento Molecular

de toda a protena, so normalmente utilizadas as informaes relativas a alguns resduos chave no stio de ligao da protena.
Normalmente, por questes associadas ao
custo computacional, procura-se selecionar
um conjunto entre 5-10 conformaes.
A questo de como ordenar os compostos levando-se em conta os atracamentos
do ligante nas diversas conformaes da
protena tambm no uma questo fcil de
ser respondida. Uma soluo simplesmente
utilizar a mdia das energias dos ligantes com
relao s mltiplas conformaes da protena. Outra possibilidade considerar a melhor/menor energia obtida por um ligante ao
interagir com determinada conformao.
Existem estudos na literatura que mostram a
importncia de se considerar ligantes que se
ligam fortemente a um conjunto especfico (e
muitas vezes de baixa probabilidade de ocorrncia) de configuraes da protena. So justamente estes casos os mais interessantes,
pois abrem oportunidades de desenvolvimento de novos frmacos associados a modos de
ligao no usuais.
Outra abordagem utilizada a reavaliao da energia de ligao utilizando metodologias mais sofisticadas. Um dos grandes
problemas com esta tcnica o custo computacional das simulaes de dinmica molecular. Este problema se torna ainda mais
importante quando esto envolvidos movimentos de larga escala da protena. Nestes
casos possvel que tcnicas como DM acelerada, tais como Replica Exchange, metadinmica e DM utilizando a aproximao para
solvente implcito possam ser utilizadas para
se obter uma melhor amostragem do espao
das configuraes.
O uso das tcnicas de Anlise de Modos
Normais e Anlise de Componentes Principais
(PCA, Principal Component Analysis) para investigar movimentos de larga escala de protenas talvez sejam as melhores opes para
obter uma boa amostragem de conformaes
em estudos de atracamento envolvendo a
tcnica de conjunto de conformaes.
A tcnica de Anlise de Modos Normais procura caracterizar os modos de vibrao de baixa frequncia,

os quais se espera estarem associados aos movimentos funcionais de larga escala da protena. A partir da
diagonalizao da matriz Hessiana, obtida das derivadas segundas da funo energia potencial associada a
um campo de fora clssico, obtm-se as direes de
movimento dos tomos (associadas aos autovetores
da matriz) e as frequncias de vibrao (associadas aos
respectivos autovalores). Verses mais simplificadas
da tcnica de modos normais tm sido desenvolvidas
nos sentido de permitir o uso da tcnica em sistemas
muito grandes. O mtodo conhecido como Elastic
Normal Mode simplifica o sistema molecular de tal
modo que apenas os carbonos alfa da protena, conectados por potenciais harmnicos, sejam considerados.
J a tcnica PCA utiliza as configuraes geradas
por uma DM para identificar os graus de liberdade coletivos da protena. Esta tcnica tambm implica na diagonalizao de uma matriz, nesta caso, a matriz de
correlao dos movimentos dos tomos da protena,
sendo que os autovetores associados aos maiores autovalores se referem aos movimentos de mais larga
escala.

Dependendo do sistema em estudo


desejvel que seja feita uma combinao das
tcnicas anteriormente descritas. Neste sentido, conformaes geradas utilizando a tcnica de Modos Normais para refletir
movimentos amplos da protena podem servir
de base para estudos de DM relativamente
curtas. Estas iro refletir o arranjo local das
cadeias laterais associado quela regio do
espao de configuraes.
Estas configuraes utilizadas no contexto da tcnica de conjunto de conformaes
podem ser investigadas com mtodos de
atracamento baseados no mecanismo de encaixe induzido ou em uma abordagem utilizando grades de energia combinada.

9.4. Triagem em larga escala


Cada vez mais as indstrias farmacuticas e os grupos de pesquisa que trabalham na
busca de molculas candidatas a novos frmacos necessitam de metodologias mais rpidas, eficazes e de baixo custo. Neste
cenrio, a triagem virtual (virtual screening,
em ingls) tem se destacado como uma importante ferramenta na busca de compostos

9. Atracamento Molecular

promissores. A triagem virtual consiste em


analisar computacionalmente uma grande
quantidade de ligantes com o objetivo de selecionar, de acordo com algum critrio predefinido, compostos provavelmente mais ativos frente a determinado alvo farmacolgico
(ou seja, um receptor). Esta abordagem pode
ser empregada para complementar os resultados obtidos pela triagem experimental
(high-throughput screening, em ingls).
A busca dos ligantes para o estudo de
triagem virtual pode ser feita em bancos de
estruturas de compostos disponveis atravs
de portais online, tais como ZINC, BindingDB,
PubChem, SuperNatural e ChEMBL. Nestes
bancos, a busca pode ser feita utilizando propriedades fsico-qumicas definidas pelo
usurio, como nmero de ligaes rotacionveis e logP ou, em alguns deles, desenhar o
fragmento desejvel na estrutura dos ligantes. Estes filtros so comumente utilizados
com o objetivo de reduzir o nmero de compostos a serem analisados pela triagem virtual, especificando o perfil desejado para
estes ligantes. Aps selecionar a lista de ligantes para serem extrados, geralmente o
banco fornece uma tabela com as principais
propriedades qumicas dos compostos. Caso
seja necessrio, como no caso da construo
de uma biblioteca de ligantes prpria do
usurio, possvel usar programas que filtram e quantificam tais propriedades, como o
FAF-Drugs.
A triagem virtual pode ser feita utilizando diversas metodologias que, de forma geral, agrupam-se naquelas baseadas na
estrutura do receptor (structure-based) e naquelas baseadas na estrutura do ligante
(ligand-based). O mtodo baseado na estrutura mais utilizado quando a estrutura tridimensional da molcula receptora est
disponvel com boa qualidade. Nesta metodologia, realizado um estudo de atracamento
molecular de todos os ligantes previamente
selecionados, ao invs de apenas uma molcula. possvel, assim como no estudo de
atracamento molecular tradicional, considerar a flexibilidade do receptor diretamente
pelo programa de atracamento ou utilizar um

conjunto de conformaes da molcula receptora (ensemble docking). Entretanto, o


custo computacional aumenta significativamente ao se incluir a flexibilidade do receptor
em estudos de triagem virtual.
Quando no possvel obter a estrutura
tridimensional do receptor, ainda que por tcnicas sofisticadas de predio de estruturas
de macromolculas, ento o mtodo baseado
na estrutura do ligante empregado. Esta
abordagem consiste na anlise de similaridade de propriedades estruturais e fsico-qumicas de compostos ativos e inativos. Duas
abordagens importantes incluem o estudo da
relao
estrutura-atividade
(SAR,
structureactivity relationship ou QSAR,
quantitative structureactivity relationship) e
a modelagem farmacofrica.
Apesar de a triagem virtual baseada em
estrutura ser uma tcnica amplamente utilizada, o protocolo escolhido pelo pesquisador
necessita ser validado para aumentar a confiabilidade dos resultados. Primeiramente,
preciso avaliar se o mtodo de busca e a funo de avaliao escolhidos so capazes de
reproduzir o modo de ligao experimental de
compostos originalmente complexados com o
receptor alvo.
Outra anlise que deve ser feita a capacidade de o protocolo diferenciar as molculas ativas das inativas, conhecidas como
casos falso-positivos. Esta validao de
grande importncia na triagem virtual, uma
vez que auxilia a reduzir o nmero de molculas inativas, limitando assim o nmero de
falsos-positivos.
O clculo da proporo de molculas ativas frente
ao nmero de inativas presentes em um conjunto de ligantes com dados de atividade experimental previamente conhecidos pode ser feito pelo fator de
enriquecimento (Enrichment Factor, EF). As molculas
presumidamente inativas (decoys) possuem propriedades fsicas similares (tais como massa molecular,
nmero de ligaes rotacionveis, logP, nmero de
aceptores/doadores de ligaes de hidrognio) s ativas, entretanto distintas topologicamente (ou seja, exibem diferentes estruturas qumicas). Para validar a
funo de avaliao, utiliza-se um conjunto de ligantes
formado por essas molculas inativas e por um nme-

9. Atracamento Molecular

ro geralmente pequeno de compostos ativos conhecidos. O estudo de atracamento molecular realizado, e


ento o EF usado para medir a capacidade da funo
ordenar, nas primeiras posies, determinada frao
de compostos ativos frente aos inativos.
O desempenho dos diferentes protocolos de atracamento molecular varia significativamente entre os
estudos de validao realizados, sendo influenciado diretamente pela metodologia empregada bem como
pela composio do conjunto de de dados utilizado
(classe dos receptores e perfil dos ligantes includos).
Quando o nmero de compostos ativos e inativos similar, o mtodo AUC (area under the receiver operating
characteristic) mais apropriado para avaliar o desempenho do protocolo de triagem virtual.

Os compostos selecionados, conhecidos


como hits, so encaminhados para as etapas
de sntese qumica (no caso de compostos
apenas planejados ou no disponveis para
compra) e estudos de atividade farmacolgica
(testes in vitro e in vivo).

9.5. Consideraes finais


A descoberta e planejamento de novos
frmacos um processo muito caro e muito
demorado. Para levar um novo frmaco ao
mercado so necessrios de 10 a 20 anos e o
custo estimado de cerca de 800 milhes de
dlares. Abordagens in silico que possam reduzir estes custos e acelerar o processo de
descoberta e planejamento de novos frmacos so extremamente bem vindas e necessrias. importante ressaltar que j existem
diversos exemplos de molculas que foram
descobertas/otimizadas utilizando tcnicas
computacionais e que esto na fase de ensaios clnicos ou que j foram aprovadas para
uso teraputico.
possvel prever que, no futuro, metodologias computacionais mais sofisticadas
tero um papel cada vez mais destacado em
estratgias de planejamento racional de frmacos. Neste sentido, alguns aspectos associados s metodologias de atracamento
molecular discutidas neste captulo necessitam de avanos terico/metodolgicos para
que se consiga obter uma melhor previso
das constantes de afinidade receptor-ligante.

Alguns destes aspectos so a considerao


da rugosidade e forma da superfcie de energia associada ao complexo receptor-ligante, a
estimativa das entropias associadas ao processo de ligao, a considerao no s de
mltiplas conformaes (flexibilidade) do receptor mas tambm de mltiplos modos de
ligao do ligante, a considerao das mudanas na estruturao das molculas de
gua no stio receptor e da solvatao/desolvatao do ligante e a considerao de
efeitos de mudana de estados de protonao
de resduos do stio receptor durante o processo atracamento ligante-receptor.

9.6. Conceitos-chave
Algoritmo:
conjunto ordenado de instrues
para resolver determinado problema.
Atracamento: mtodo para prever o modo de ligao e a afinidade de ligao de uma
macromolcula receptora com outra molcula ligante (seja uma outra macromolcula ou uma molcula ligante pequena).
Desenho racional de frmacos baseado em estrutura: rea de pesquisa que abrange os
mtodos computacionais que utilizam informaes da estrutura tridimensional da
molcula receptora para descoberta e/ou
desenvolvimento de novos frmacos.
Encaixe induzido: modelo que sugere a existncia de mudanas conformacionais na molcula receptora e no ligante devido
formao do complexo receptor-ligante.
Funo de avaliao: funo de pontuao que
tem por objetivo quantificar a qualidade
das solues obtidas no atracamento molecular.
Ligante: molcula que interage no stio de ligao de uma macromolcula para formar
um complexo, podendo induzir ou bloquear determinada resposta biolgica.
Mtodo de busca: algoritmo utilizado pelo atra-

9. Atracamento Molecular

camento molecular para encontrar os modos de ligao do ligante no stio receptor.


Explora os graus de liberdade translacionais, rotacionais e conformacionais.
pKa: logaritmo negativo da constante de acidez
ou constante de dissociao cida (pKa =
-logKa). Mede a fora de um cido em soluo.
Receptor: macromolcula que possui um stio de
ligao de interesse.
Reconhecimento molecular: mecanismo pelo
qual uma molcula se liga a outra com
perfil complementar, formando um complexo.
Triagem virtual: metodologia de atracamento
molecular em larga escala, atravs da qual
dezenas, centenas ou milhares de ligantes
so avaliados no stio de ligao de um
receptor.

9.7. Leitura recomendada


KITCHEN, Douglas B.; et al. Docking and scoring
in virtual screening for drug discovery:
methods and applications. Nat. Rev.
Drug Discov., 3, 935949, 2004.
MOBLEY, David L.; DILL, Ken A. Binding of
Small-Molecule Ligands to Proteins: What
You See Is Not Always What You Get.
Structure, 17, 489498, 2009.
GUEDES, Isabela A.; MAGALHES, Camila S.;
DARDENNE, Laurent E. Receptorligand
molecular docking. Biophys. Rev., 2013.
BROOIJMANS, Natasja; KUNTZ, Irwin D. Molecular recognition and docking algorithms.
Annu. Rev. Biophys. Biomol. Struct.,
32, 335373, 2003.
SPERANDIO, Olivier; et al. Receptor-based
computational screening of compound
databases: the main docking-scoring
engines. Curr. Protein Pept. Sci., 7,

369393, 2006.
TAYLOR, R. D.; JEWSBURY, P. J.; ESSEX, J. W. A
review of protein-small molecule docking
methods. J. Comput. Aided Mol. Des.
16, 151166, 2002.
TALELE, T. T.; KHEDKAR, S. A.; RIGBY,
Successful applications of computer
drug discovery: moving drugs
concept to the clinic. Curr. Top.
Chem. 10, 127141, 2010.

A. C.
aided
from
Med.

10. Dicroismo Circular

Marcelo A. Lima
Edwin A. Yates
Ivarne L. S. Tersariol
Helena B. Nader

Representao das curvas de CD associadas a hlices


e folhas .

10.1. Introduo
10.2. Luz polarizada
10.3. Quiralidade
10.4. Instrumentao
10.5. Aplicaes a biomolculas
10.6. Situaes prticas
10.7. Conceitos-chave
10.1. Introduo
O dicroismo circular (CD) uma tcnica
espectroscpica utilizada para estudar uma
grande variedade de molculas quirais, tais
como frmacos, polmeros e biopolmeros,
em soluo. Particularmente no caso das
protenas o CD, juntamente cristalografia de
raios-X (captulo 13), o RMN (captulo 12), o infravermelho (captulo 11) e mtodos como a
modelagem comparativa (captulo 7) e a dinmica molecular (captulo 8), exerce importante papel na busca pelo conhecimento da
estrutura e funo nucleicas. Tais informaes, por sua vez, so essenciais na busca
por novos compostos com potencial teraputico.
Para sistemas enovelados e estruturados tridimensionalmente, como enzimas e
protenas globulares, o CD uma tcnica de
baixa resoluo quando comparado RMN e
210

cristalografia de raios-X. Isto ocorre porque o


CD, ao contrrio destes mtodos, no possui
resoluo atomstica, ou seja, no capaz de
identificar tomos especficos das molculas
em estudo.
No entanto, enquanto estruturas desordenadas (ou seja, desenoveladas, forma adotada por aproximadamente a metade das
protenas de mamferos) tornam-se em
grande medida imprprias para estudos de
RMN e cristalografia de raios-X, o CD ainda
capaz de lidar com suas estruturas. Alm
disso, estudos de CD podem ser realizados
em soluo, em condies bem prximas das
fisiolgicas, fazendo deste mtodo uma ferramenta ideal para investigar as interaes
entre molculas envolvidas nos mais diversos
processos biolgicos.
Por definio, espectroscopia nada mais
do que o levantamento de dados fsico-qumicos de um determinado sistema atravs da
transmisso, absoro ou reflexo da energia
radiante incidente. No caso do CD, a energia
incidente a ultravioleta comumente na faixa
do UV prximo, 380 a 200 nm. Assim, o espectro de CD gerado pela diferena na capacidade de absoro dos componentes
esquerdo e direito da luz circularmente polarizada (mais detalhes adiante) por molculas
quirais que possuem tomos de carbono assimtricos e, consequentemente, diferentes
atividades pticas.
Esta capacidade de absoro de molculas quirais est diretamente ligada s diferenas nos seus coeficientes de absorbncia.
Assim, diferentes molculas ou partes delas
possuem CD em regies especficas do espectro.
Em instrumentos de laboratrio, espectros de CD so normalmente registados no

10. Dicroismo Circular

ultravioleta (UV), tipicamente em comprimentos de onda variando de 180 a 260 nm. Alm
desta regio, vrias fontes de radiao sncrotron esto disponveis e possibilitam a obteno de espectros de CD com intervalos de
comprimento de onda consideravelmente
maiores. Luz sncrotron a radiao eletromagntica produzida por eltrons de alta
energia atravs de um acelerador de partculas. Essa luz abrange uma ampla faixa do espectro eletromagntico, incluindo os raios-X,
luz ultravioleta e infravermelha, alm da luz
visvel.
De maneira geral, os espectros de CD
podem ser utilizados para diversos tipos de
estudos, incluindo-se: 1) enovelamento e estrutura 2ria de protenas; 2) estrutura de protenas de membrana inseridas em bicamadas
lipdicas; 3) interao entre molculas; 4) interaes entre macromolculas, destacadamente protenas, cidos nucleicos e
carboidratos; 5) monitoramento da integridade estrutural de molculas sob aquecimento;
6) quantificao de alteraes conformacionais; 7) caracterizao de domnios de protenas, a qual pode ser empregada em
comparaes com modelos gerados computacionalmente; 8) anlise de carboidratos; 9)
cintica rpida de enovelamento de protenas
e montagem de complexos macromoleculares, dentre outros.
Alm do CD convencional (tambm chamado de eletrnico, aquele que ocorre na faixa do UV), tambm existem fenmenos de
dicrosmo circular que ocorrem na regio do
infravermelho, sendo este tipo de fenmeno
chamado de dicroismo circular vibracional
(VCD). Ele ocorre normalmente entre 3300 e
800 cm-1, e uma de suas principais vantagens
em relao ao CD que, embora as transies eletrnicas tenham uma pequena diferena entre o estado fundamental e o nvel
excitado, nas transies vibracionais esta diferena bem maior do que nos espectros
contnuos, que possuem sinais distribudos
continuamente em uma certa faixa espectral.
Assim, sinais com valores (comprimento de
onda) distintos so observados.
O benefcio experimental do VCD que
211

ligantes, como alguns carboidratos, possuem


um sinal de CD muito menor quando comparado aos provenientes de uma protena. Assim, o VCD pode ser utilizado para
monitorizar a interao de protenas com
acares diretamente e sem a necessidade de
manipulao matemtica dos espectros.

10.2. Luz polarizada


Para o estudo do CD, um importante
conceito que devemos ter em mente o da
luz polarizada. A luz convencional, como a luz
solar e a luz de lmpadas residenciais, so
exemplos de luz no polarizada, j que elas
emitem radiao que se propaga em todos os
planos. Isso ocorre porque a luz branca
composta por ondas eletromagnticas que
vibram em diversos planos perpendiculares
direo da propagao da luz (Figura 1A-10).
Por outro lado, a luz polarizada aquela que
possui vibrao em apenas um plano (Figura
1B-10).
No caso do CD, a luz utilizada circularmente polarizada (Figura 2-10), o que nada
mais do que a combinao de duas ondas
linearmente polarizadas, uma vertical e outra
horizontal, de mesma amplitude.
A diferena de absoro da luz circularmente polarizada direita e esquerda d
origem ao espectro de CD. Assim, temos que
CD = AD AE, onde AD representa a absoro
da luz circularmente polariza direita e AE a
absoro da luz circularmente polariza esquerda.

Figura 1-10: Representao planar da luz no


polarizada (A) e polarizada (B).

10. Dicroismo Circular

Figura 2-10: Representao planar da luz


circularmente polarizada.

10.3. Quiralidade
A quiralidade significa a no sobreposio de sua prpria imagem com aquela projetada em um espelho ou, em outras palvras,
so imagens que no admitem plano de simetria. Um exemplo clssico de quiralidade a
nossa mo: se colocarmos uma delas diante
de um espelho, ela produzir uma imagem diferente dela prpria. A imagem gerada da
mo direita ser a da mo esquerda e viceversa. Contudo, as mos no so sobreponveis, ou seja, quando sobrepostas no se tornam equivalentes (Figura 3-10). Esta
caracterstica apresentadas por algumas
molculas, que so chamadas assim de ismeros pticos ou enantimeros (ver captulo
2).
No CD, quando a luz polarizada passa
atravs de uma substncia quiral, seus componentes podem ser resolvidos e absorvidos
com intensidades diferentes. A diferena da
absorbncia, A, entre a luz polarizada para a
direita e para a esquerda, A = AD - AE, est
relacionada com seus respectivos coeficientes de absorbncia, = D - E, onde D e E
so os coeficientes molares de adsoro da
luz circularmente polarizada direita e es-

Figura 3-10: Representao da imagem


especular (A) de dois enantimeros do
aminocido alanina (B).
212

querda, respectivamente.
Adicionalmente, sabemos pela lei de
Lambert-Beer que A = cl, onde c representa a concentrao da amostra e l o comprimento do percurso ptico. Assim, a
resultante de todas essas caractersticas daro origem ao espectro de CD de uma dada
molcula.

10.4. Instrumentao
Um espectofotmetro de CD pode ser
esquematizado segundo apresentado na Figura 4-10. A luz da fonte (L) dispersa no
monocromador (MC), produzindo uma banda
estreita de comprimentos de onda que passa
atravs de um polarizador linear (PL).

Figura 4-10: Representao esquemtica de


um espectrofotmetro de CD. Fonte de luz
(L); Monocromador (MC); Polarizador linear
(PL); Modulador fotoelstico (MF); Amostra
(A); Fotomultiplicador (FM). Figura adaptada
da Internet.
O polarizador divide o feixe monocromtico no polarizado em dois feixes linearmente polarizados. Assim, um dos dois feixes
linearmente polarizado passa pelo modulador
fotoelstico (MF), que consiste de uma placa
transparente e opticamente isotrpica, ou
seja, de mesmo ndice de refrao, ligada a
um cristal de quartzo. Quando um campo
eltrico alternado aplicado, a luz que emerge a partir dos interruptores do MF volta com
a frequncia do campo eltrico aplicado.
Se a amostra (A) possui sinal de CD, a
quantidade de luz absorvida varia periodicamente com a polarizao da luz incidente e,
portanto, a intensidade de luz que atinge o fotomultiplicador (FM) apresenta variaes de
intensidade sinusoidal na frequncia do campo aplicado ao MF. Portanto, o sinal de sada
do fotomultiplicador constitudo por um sinal de corrente eltrica alternada sobreposto

10. Dicroismo Circular

a um sinal de corrente eltrica contnua.


Posteriormente, o componente de corrente alternada filtrado e amplificado. A relao entre a corrente alternada e o
componente de corrente contnua diretamente proporcional ao dicrosmo circular da
amostra, sendo esta relao registada em
funo do comprimento de onda.

10.5. Aplicaes a biomolculas


Protenas
Na faixa do UV distante, os sinais (ou
bandas) relacionadas ligao peptdica dominam o espectro de CD de protenas. Este
cromforo apresenta duas transies eletrnicas na faixa do UV distante:
i) transies n*, por volta de 220
nm;
ii) transies *, por volta de 190 nm
para amidas secundrias (ligao peptdica para todos os aminocidos, exceto
a prolina), e em torno de 200 nm para
amidas tercirias (ligao peptdica envolvendo prolina).
A transio n* possui coeficiente de
absoro fraco, embora d origem a bandas
fortes de CD. J a transio * est associada elevada absorbncia e fortes bandas de
CD. Devido ao forte momento dipolar de transio eletrnica, as transies * em ligaes peptdicas vizinhas interagem umas com
as outras, dando origem a duas ou mais bandas de CD.
As cadeias laterais aromticas dos resduos de fenilalanina, tirosina e triptofano possuem fortes bandas de absorbncia no UV
distante, contribuindo para o espectro de CD
de protenas. Na maioria dos casos, tal contribuio pequena em comparao com as dos
aminocidos mais numerosos. Porm, para
algumas protenas, as faixas do CD aromtico
so claramente discernveis.
No UV prximo, o espectro de CD de
protenas dominado pelas transies eletrnicas dos grupos aromticos e ligaes dissulfeto. As bandas das cadeias laterais
213

aromticas so relativamente bem definidas,


e possuem uma estrutura caracterstica devido a efeitos vibracionais. Em protenas com
um pequeno nmero de cadeias laterais aromticas, as bandas so frequentemente atribudas a um dos trs tipos de resduos
aromticos e, em alguns casos, atravs de
mutagnese stio dirigida, a resduos especficos da sequncia proteica. A histidina, apesar
de ser um aminocido aromtico, possui um
grupamento imidazlico que apresenta sinal
de CD abaixo de 220nm e que, em grandes
concentraes pode at atrapalhar as medies.
As faixas de CD das ligaes dissulfeto so normalmente distinguveis das faixas de CD aromticas, j
que so menos definidas. Em protenas que no possuem aminocidos aromticos, no h bandas de CD em
comprimentos de onda acima de 300 nm. Muitos grupos prostticos, coenzimas, ons de metais de transio e outros ligantes apresentam bandas de
absorbncia nesta faixa de comprimento de onda, e
estas esto associadas a bandas de CD em complexos
com protenas.

Os diferentes tipos de estrutura 2ria de


protenas (ver captulo 2) possuem espectros
de CD caractersticos, estabelecidos a partir
de modelos de oligo- e polipeptdios com estrutura 2ria conhecida. A Figura 5-10 apresenta os espectros de CD de hlices , folhas
e estruturas irregulares (desordenadas).
Hlices apresentam o espectro de CD
mais distinto e mais forte, com duas bandas
negativas de grandeza comparvel por volta
de 222 e 208 nm, alm de uma forte banda
positiva com sua mxima em torno de 190
nm.
A banda em torno de 222 nm resulta
das transies n* do grupo amida, enquanto que as bandas por volta de 208 e 190
nm surgem das transies * do mesmo
grupo. Estas transies * esto relacionadas a grupos amida mantidos em uma geometria helicoidal bem definida.
As interaes entre os momentos dipolares de transio em um arranjo helicoidal
do origem s trs bandas de absorbncia,
uma a 208 nm, polarizada paralelamente ao
eixo da hlice, e duas bandas a 190 nm, pola-

10. Dicroismo Circular

200 nm (Figura 5-10). Porm, alguns possuem uma banda positiva em comprimentos de
onda maiores e outras um ombro negativo
tambm em comprimentos de onda maiores.

Carboidratos

Figura 5-10: Espectros de CD de estruturas


do tipo -hlices, folhas- e estruturas
irregulares.
rizadas em duas direes perpendiculares ao
eixo da hlice. Para a hlice direita, a banda
paralela est associada a uma banda de CD
negativa a 208 nm, e as bandas perpendiculares com a uma banda positiva a 190 nm.
O CD de uma hlice , em sua maioria,
independente do solvente e da sequncia de
aminocidos. Resduos aromticos (Phe, Tyr e
Trp) podem modificar o espectro de CD de
uma hlice , especialmente se eles constituem uma frao considervel dos resduos da
protena. Em homopolmeros de aminocidos
aromticos, o espectro de CD de uma hlice
to distinto que se torna irreconhecvel.
O CD de folhas bem distinto daquele
observado para hlices , apresentando apenas uma banda negativa de mxima absorbncia em 217 nm e uma banda positiva na
regio entre 195-200 nm como caractersticas (Figura 5-10).
O valor absoluto da razo entre a elipticidade do
mximo positivo a 197 nm e o mximo negativo a 217
nm amplia-se com o aumento de toro da folha, e
maior para folhas paralelas do que para as folhas antiparalelas torcidas.

Todos os modelos de polipeptdios com


estruturas irregulares (desordenadas) possuem uma forte banda negativa por volta de
214

O CD tem aplicaes importantes no


estudo de carboidratos, embora estes sejam
mais limitadas do que para as protenas e
cidos nucleicos. Dos cromforos comuns
aos carboidratos, apenas o grupo amida (
acares N-acetilados) e grupos carboxila (
cidos urnicos) possuem bandas de CD acima de 200 nm. Grupamentos ter, hidroxila,
acetal e cetal apresentam suas bandas de CD
prximas do limite de deteco dos espectrofotmetros de CD convencionais, em torno
de 190 nm. Transies de alta energia so estudadas apenas em instrumentos vcuo,
mas sofrem fortes interferncias dos solventes, fazendo com que tais estudos sejam limitados a filmes finos de slidos.
Monossacardeos tm sido extensivamente investigados, e algumas correlaes
conformacionais dos anis podem ser extradas em regies do espectro de CD por volta
de 170 nm. Mais uma vez, tais medies so
limitadas, j que normalmente s podem ser
feitas em CDs ligados a luz de sncrotron e
tambm devido a interferncia dos solventes.
O CD tambm tem sido bastante utilizado para estudo de carboidratos complexos
como glicosaminoglicanos, heteropolissacardeos compostos por um acar aminado (Dglicosamina ou D-galactosamina) unido por
ligao glicosdica a um cido urnico (D-glicurnico ou L-idurnico). Espectros de CD para diferentes glicosaminoglicanos podem ser
observados na Figura 6-10.
As caractersticas de espectros de glicosaminoglicanos provm predominantemente das transies eletrnicas n* dos
carboxilatos dos resduos de cido urnico e
transies * dos cromforos N-acetila
dos resduos de glicosamina. Em ambos os
casos, a principal contribuio para as transies vem dos eltrons dos tomos de oxignio. Para o cido urnico, envolvem a funo

10. Dicroismo Circular

da e/ou N-sulfatada (ligao ).

cidos nucleicos

Figura 6-10: Espectro de CD de diferentes


glicosaminoglicanos. C4S, condroitina 4sulfatada; C6S, condroitina 6-sulfatada; DS,
dermatam sulfato e heparina.
ter, a ligao glicosdica e as hidroxilas, produzindo uma banda positiva com valores mximos em torno de 190 nm. Para o grupo
N-acetila e carboxilato, tem-se uma banda
negativa com mximo em torno de 210 nm.
Como dito anteriormente, o CD pode ser
utilizado para estudar a conformao de carboidratos e, no caso de glicosaminoglicanos,
os resduos de cido urnico (-D-glicurnico
e -L-idurnico) possuem bandas no espectro
de CD de sinais opostos. Podem-se observar
na Figura 6-10 os espectros de CD para DS,
C4S e C6S, glicosaminoglicanos que contm
principalmente o cido glicurnico.
Os espectros destes glicosaminoglicanos so peculiares, apresentando apenas uma
larga banda negativa de mxima em torno de
210 nm. DS tem sua banda negativa ligeiramente deslocada esquerda, com mxima
em torno de 207 nm. Tal fenmeno pode ser
explicado pelo fato de que ele tambm contm cido idurnico. Alm disso, a ausncia
da banda positiva de mxima em 190 nm pode
refletir diferenas nas ligaes glicosdicas j
que DS, C4S e C6S apresentam -D-galactosamina N-acetilada (ligao ), enquanto que
a heparina contm -D-glicosamina N-acetila215

As bases purnicas e pirimidnicas de


DNA e RNA so, em grande parte, responsveis pelo espectro de CD de cidos nucleicos
na faixa de comprimento de onda normalmente estuda por espectrofotmetros convencionais, uma vez que os carboidratos e
grupos fosfato no absorvem significativamente acima de 200 e 180 nm, respectivamente.
Neste tipo de macromolcula, o CD
empregado principalmente no estudo da manuteno da geometria relativa das bases,
pois cada uma possui um conjunto caracterstico de transies * entre 180 e 300
nm.
Todas as cinco bases tm uma ou duas
bandas de intensidade moderada, por volta de
260 nm, e vrias bandas mais intensas, entre
180 e 200 nm. Alm disso, cada base possui
vrias transies n* entre 180 e 300 nm,
porm de pequena absorbncia. Embora potencialmente fortes no CD, as faixas de n*
no foram totalmente identificadas, sendo os
espectros de CD de nucleosdeos, nucleotdeos e polinucleotdeos dominados pelas contribuies *.
A estrutura 2ria do DNA tambm pode
ser estudada por CD (ver captulo 2). A conformao B-DNA, encontrada normalmente
em soluo aquosa, tem uma banda positiva
prximo 275 nm e uma banda negativa de
magnitude similar perto de 245 nm (Figura
7A-10). J a conformao A-DNA favorecida
pela adio de solventes orgnicos, geralmente etanol. No UV prximo, a transio B
A marcada por um aumento significativo
na banda positiva e diminuio na amplitude
da banda de mxima em 245 nm. Outra caracterstica a presena de uma forte banda
negativa em torno de nm 210 (Figura 7B-10).
O C-DNA, por sua vez, apresenta banda intensa negativa por volta de 240 nm (Figura 7C10).
Com base no espectro de CD, atribuies a um dos grupos de estrutura 2ria po-

10. Dicroismo Circular

10.6. Situaes prticas


Deconvoluo espectral

Figura 7-10: Representao esquemtica dos


espectros de CD para as diferentes
estruturas secundrias de DNA.
dem ser feitas. Contudo, devido ao nmero
considervel de subgrupos de estrutura 2ria e
dependncia desta da sequncia de nucleotdeos, informaes detalhadas sobre a conformao do DNA no podem ser extradas
unicamente baseadas no espectro de CD.

Lipdeos
Aplicaes de CD no estudo de lipdeos
so raras, sendo sua mais frequente aplicao no estudo de protenas de membrana em
seu ambiente nativo, ou seja, inseridas na
membrana. Porm, dois tipos de artefatos
devem ser evitados. Suspenses de fragmentos de membrana podem induzir fortes
efeitos de espalhamento de luz. Adicionalmente, eles podem apresentar espalhamento
preferencial da luz circularmente polarizada
esquerda e direita. Tal fenmeno se comporta como um sinal de CD, distorcendo o
verdadeiro CD da protena.
Ainda, fragmentos de membrana tambm distorcem os sinais de CD devido a um
efeito conhecido como Duysens flattening.
Este efeito ocorre em amostras com uma
distribuio no homognea de cromforos
que esto associados com a fomao de micelas. Alguns mtodos foram desenvolvidos
buscando evitar tais dificuldades. Requerem,
contudo, que a protena de membrana seja
transferida da sua membrana nativa para vesculas unilamelares que possuam, em mdia,
apenas uma protena por vescula. Tais artefatos tambm podem ser evitados atravs da
solubilizao das protenas em detergente
no inico, manobra esta que, contudo, pode
induzir alteraes conformacionais na protena.
216

A deconvoluo espectral utilizada


para a resoluo e/ou decomposio de um
conjunto de sinais sobrepostos nos seus
componentes separados atravs de algoritmos de ajuste de curva. Para a determinao
da estrutura 2ria de protenas, o espectro
original decomposto nos componentes hlice , folhas e estruturas irregulares e comparado a um banco de dados de protenas
com estrutura 2rias conhecidas.
No exemplo abaixo, o espectro de CD da
albumina humana (Figura 8-10A) decomposto nas suas estruturas 2rias componentes
(Figura 8-10B) e, a partir destes, a proporo
de cada tipo de estrutura calculada, totalizando 72% hlices , 16% de folhas e 12%
de estruturas irregulares.

Interao protena-ligante
Mudanas conformacionais sofridas por
uma dada protena aps sua complexao a
um determinado composto tambm podem
ser determinadas por CD. Alteraes na estrutura 2ria da protena, promovidas por esta
complexao, iro mudar o espectro de CD,
de forma que algumas mudanas conformacionais podem ser detectadas.
importante ressaltar que espectros de
CD devero ser coletados para todos os
componentes do sistema em estudo, isto ,
para a protena e para o ligante em suas formas livres e para o complexo protena-ligante. A partir destas medidas pode-se realizar
subtraes espectrais, isto , CDprotena-ligante CDligante. A partir destes dados possvel, por
exemplo, comparar a capacidade de diferentes ligantes em modificarem o contedo de
estrutura 2ria de uma determinada protena
receptora. Os espectros da protena e da
subtrao sero deconvoludos como descrito no item anterior.
No exemplo abaixo (Figura 9-10), podese observar o espectro da antitrombina humana livre e complexada a um composto

10. Dicroismo Circular

Figura 8-10: Deconvoluo espectral esquemtica da albumina srica humana.


pentassacardico, anlogo da heparina de alta
massa molecular empregada terapeuticamente. Aps as devidas subtraes espectrais podemos determinar as mudanas
induzidas pela ligao do pentassacardeo
antitrombina, resultando em um aumento de
6,6% no contedo de hlices e uma diminuio de 2% no contedo de folhas e 2,5% no
contedo de estruturas desordenadas.

CD e PCA
A anlise de componentes principais
(PCA, Principal Component Analysis) um
mtodo matemtico empregado para desvendar padres em um conjunto complexo de
dados (neste caso espectros de CD) e extrair
informaes cruciais, eliminando assim possveis fontes de rudo.
A combinao linear que extrai a varincia mxima dos dados denominada de componente principal. Uma vez que ela
encontrada, removida e o processo repetido
para identificar o prximo componente principal. Isso se repete at que toda a varincia
dos dados seja explicada, fato que na prtica
no ocorre devido ao rudo residual.
Na anlise de PCA, os componentes representam as dimenses subjacentes que resumem ou explicam um conjunto original de
dados observados. Component loadings so
217

os coeficientes de correlao entre as variveis e os fatores. Os components loadings ao


quadrado indicam a percentagem de varincia
da varivel original. Component scores representam uma medida composta criada para
cada observao em cada fator extrado da
anlise fatorial.
A Figura 10-10 mostra que a anlise
matemtica dos espectros de CD eficaz na
diferenciao de glicosaminoglicanos, heparina e seus derivados. As caractersticas estruturais que so introduzidas nas heparinas de

Figura 9-10: Espectro de CD da antitrombina


humana (linha preta) e do complexo
antitrombina:pentassacardeo (linha azul).

10. Dicroismo Circular

Figura 10-10: Anlise matemtica dos espectros de CD de glicosaminoglicanos. (a e d) Loading


plot. (b e e) Anlise de cluster. (c e f) Matriz de correlao. U, heparina no-fracionada; E,
enoxaparina; T, tinzaparina, N, nadroparina, G, gammaparina; DS, dermatam sulfato, C4S,
condroitina 4-sulfatada; C6S, condroitina 6-sulfatada; r, coeficiente de correlao. Imagem
extrada com permisso de Lima e colaboradores, Low molecular weight heparins: Structural
differentiation by spectroscopic and multivariate approaches, Carbohydr. Polymers, 2011, 85,
903-909, 10.1016/j.carbpol.2011.04.021.
baixo peso molecular ao longo das reaes de
despolimerizao qumica e enzimtica, bem
como diferenas nos tipos de ligao glicosdica, N-acetilao, padro de N- e O-sulfatao e composio monossacardica resultam
em caractersticas especificas nos seus espectros de CD que so facilmente diferenciadas pela anlise matemtica dos dados.

Aquisio de um espectro de CD
i) Evitar tampes quirais e que possuem
forte absoro no UV, principalmente na
faixa entre 180-260 nm;
ii) Filtrar todas as solues, inclusive a
amostra a ser estudada, evitando assim
218

a presena de partculas causadoras de


espalhamento de luz;
iii) Antes de coletar o espectro para a
amostra em estudo importante coletar um branco que nada mais que o
espectro do tampo;
iv) Em experimentos comparativos, usar
sempre as mesmas condies experimentais, tais como temperatura, tampo
utilizado,
concentrao
dos
componentes, comprimento do caminho
ptico e resoluo (ou seja, frequncia
de intervalos, em nm, na qual feita a
aquisio dos dados);
v) Para protenas, importante coletar
espectros em diferentes concentraes

10. Dicroismo Circular

e observar se h mudana nos sinais.


Havendo mudanas, a protena em estudo est agregando;
vi) Para acares, importante mantlos na mesma forma catinica, uma vez
que diferentes contra-ons produziro
espectros distintos.

10.7. Conceitos-chave
Anlise de componentes principais: ferramenta
matemtica que desvenda padres em um
conjunto de dados complexos.
Coeficiente de absorbncia: capacidade de um
mol de uma dada substncia em absorver
luz em um determinado comprimento de
onda.
Dicroismo circular: a medida da absorbncia
diferencial entre as duas rotaes de luz
circularmente polarizada por uma molcula assimtrica.
Duysens flattening: distribuio no homognea
de cromforos em uma dada molcula.
Enantimeros: imagens especulares (isto , geradas a partir da reflexo em um espelho),
no sobreponveis, de uma determinada
molcula, que assim apresenta a propriedade de quiralidade.
Lei de Lambert-Beer: uma relao, determinada empiricamente, entre a luz absorvida
por um determinado material e propriedades intrnsecas a este material.
Quiralidade: propriedade de uma molcula no
ser sobreponvel a sua imagem especular.
Vesculas unilamelares: Formas lipossomais
constitudas por apenas uma bicamada
fosfolipdica.

10.8. Leitura recomendada


PURDIE, Neil; BRITTAIN, Harry G (Org.).
Analytical Applications of Circular

219

Dichroism. Amsterdam: Elsevier Science


Limited, 1994.
FASMAN, Gerald D. (Org.) Circular Dichroism
and the Conformational Analysis of
Biomolecules. New York: Plenum Press,
1996.
WALLACE, B. A. Conformational changes by
synchrotron radiation circular dichroism
spectroscopy. Nat. Struct. Biol. 7,
708709, 2000.
RODGERS, David S. Circular Dichroism:
Theory and Spectroscopy. Hauppauge:
Nova Science Publishers, 2011.

11. Infravermelho

Yraima Cordeiro
Lus Maurcio T. R. Lima

Estrutura 3D da protena prion de camundongo e seu


espectro de infravermelho na regio da amida I.

11.1. Introduo
11.2. Instrumentao

mos IV prximo ao IV distante, respectivamente. Adicionalmente, a regio compreendida entre 4.000 e 400 cm-1 (2.500 a
25.000 nm) denominada IV mdio, e possui
destaque nos estudos da estrutura 2ria de
protenas.

11.3. Vibraes de H2O e 2H2O


11.4. Realizando medidas de IV
11.5. Espectros de IV de protenas
11.6. IV e estrutura 2ria
11.7. Informaes quantitativas
11.8. Desvio de 1H para 2H
11.9. Vantagens e limitaes
11.10. Conceitos-chave
11.1. Introduo
O espectro eletromagntico composto
por diferentes tipos de radiaes, dos raios
gama (maior energia) s ondas de rdio (menor energia, Figura 1-11). Entre estes extremos de radiaes, diversos tipos de ondas
possuem aplicaes ao estudo de biomolculas, como os raios-X (ver captulo 13), o ultravioleta (ver captulo 10) e o infravermelho,
assunto deste captulo.
A regio do infravermelho (IV) no espectro eletromagntico (Figura 1-11) est
compreendida
entre
aproximadamente
-1
-1
14.000 cm e 200 cm , indo do que chama-

Figura 1-11: Esquema das diferentes regies


do espectro eletromagntico. Quanto maior o
comprimento de onda, menor a energia da
radiao.
Medidas empregando IV vm sendo
aplicadas h dcadas na anlise e caracterizao de pequenos compostos orgnicos e,
para tal, existem diversos livros texto disponveis. Este captulo se dedica, contudo, a
aplicaes mais recentes, focadas no estudo
de biomacromolculas. Mesmo que o princpio da tcnica seja o mesmo, as diferenas
em ordens de grandeza no nmero de tomos
envolvidos trazem tona uma srie de particularidades, que veremos em seguida.
Quando incidimos uma determinada radiao sobre a amostra em estudo, as molculas ali contidas absorvem energia. Esta
energia promove a passagem dos eltrons de
um estado fundamental (E0) a um estado de
maior energia (E1). Aps o desligamento da
fonte de luz, os eltrons retornam a E0 depois
de alguns segundos, liberando a energia absorvida. Esta energia, por exemplo, pode estar na regio do ultravioleta permitindo, por
exemplo, medies de dicroismo circular (ver
captulo 10) e de fluorescncia.
Entretanto, a absoro de energia radi-

11. Infra-vermelho

ante no envolve somente transies eletrnicas, mas a energia total da molcula (Etotal).
Esta energia pode ser representada pelo somatrio das energias associadas a: 1) rotao
da molcula na soluo (ER), 2) movimento
dos tomos dentro da molcula, constituindo
a energia vibracional (EV), e 3) movimento
dos eltrons ao redor do ncleo, a chamada
energia eletrnica (EE). Assim, podemos representar Etotal = ER + EV + EE. Dependendo do
nvel de energia da radiao incidente, quando
a molcula retorna de seu estado excitado
para o estado fundamental, tambm h perda
nas energias de vibrao (EV) e rotao (ER).
Assim, nos comprimentos de onda abaixo de 25 m (400 cm-1), ou seja, em torno da
regio do IV mdio, a radiao tem energia
suficiente para provocar modificaes nos nveis de energia vibracional (EV) da molcula, e
estas modificaes so acompanhadas por
alteraes nos nveis de energia rotacional
(ER). Isto ocorre quando a luz no IV coincide
com a energia necessria para que ocorra
uma determinada vibrao molecular.
Ao estudar as mudanas no comportamento molecular aps a incidncia de radiao IV, podemos caracterizar os diferentes
modos de vibrao e rotao de uma molcula, os quais constituem o espectro de infravermelho.
Anlises na regio do IV permitem descrever o arranjo espacial dos tomos nas
molculas do composto em estudo, ou seja,
como a sua estrutura qumica; fornecem informaes sobre comprimento e a fora de
ligaes qumicas; fornecem evidncias para
o comportamento qumico ou fsico relativo
de uma molcula (estado redox, catlise enzimtica e fosforilao, dentre outras), alm de
permitirem a anlise qualitativa e quantitativa
de uma determinada molcula.
Para compreendermos como o espectro de IV pode fornecer informaes sobre o
arranjo molecular de um determinado composto e sobre a interao deste com o ambiente, devemos definir a frequncia de
vibrao de um oscilador diatmico. Esta
frequncia (v) pode ser representada por:

v = (k/mr)0,5/2
onde k a constante de fora entre os
dois tomos e mr a massa reduzida.
De forma simplificada, a massa reduzida (mr) um
termo utilizado em mecnica Newtoniana ao se estudar um sistema diatmico (ou seja, no qual h interao entre dois tomos). A mr engloba a massa do
primeiro e do segundo tomos, simplificando um sistema de dois componentes em um sistema de um
componente.

Esta equao nos diz que a frequncia


de vibrao aumenta quanto maior for a fora
de interao entre os dois tomos (isto , a
fora da ligao qumica). Em outras palavras, quando aumenta a densidade eletrnica
na ligao entre os dois tomos (de uma ligao simples para uma ligao dupla e para
uma ligao tripla) aumenta a frequncia de
vibrao. Dessa forma, qualquer fator interou intramolecular que altere a densidade eletrnica nas ligaes (como o tipo de tomo)
ir afetar o espectro vibracional obtido por IV.
E quanto maior for a massa dos tomos, mais
lenta ser a vibrao (menor frequncia).
Se pensarmos em ligaes O-H e N-H,
embora sejam ambas ligaes simples, o
tomo de oxignio mais eletronegativo que
o tomo de nitrognio. Assim, a ligao O-H
mais polar que a ligao N-H, resultando em
uma fora de interao diferente entre os
tomos e, por conseguinte, uma vibrao diferente. Adicionalmente, como veremos adiante, o espectro de IV no definido somente
por caractersticas intramoleculares do composto em estudo, mas tambm de interaes
com outras molculas.
Com a absoro da luz no IV as ligaes
atmicas vibram, promovendo deformaes
axiais (estiramentos) ou angulares (dobras).
Estiramentos so alongamentos da ligao
qumica, enquanto deformaes angulares
so dobras nesta ligao qumica. Os estiramentos e deformaes podem ser simtricos
ou assimtricos, como representado na Figura 2-11 para a molcula de gua. As deformaes angulares simtricas que ocorrem no
plano so chamadas de deformao em tesoura, enquanto que as deformaes assi-

11. Infra-vermelho

Figura 2-11: Modos vibracionais da H2O. As


setas vermelhas indicam em A, estiramento
simtrico; B, estiramento assimtrico; C,
deformao angular no plano (em tesoura).
mtricas no plano so chamadas de vibraes em balano ou rotao.
Existem tambm deformaes que
ocorrem fora do plano, que podem ser denominadas como deformaes em balano (simtrico) ou em toro (assimtrico, saindo
ou entrando da tela deste computador, por
exemplo). Na literatura, muitas vezes estas
deformaes so representadas como v (deformao axial) e (deformao angular).
Como representado na Figura 3-11,
possvel notar que espectros de IV podem ser
extremamente complexos, visto a quantidade
de estiramentos e deformaes angulares
que podem estar presentes em uma molcula
relativamente pequena. Tomemos como um
exemplo a molcula de ureia que, embora tenha somente trs ligaes qumicas diferentes (isto , C=O, N-H e C-N), apresenta mais de
7 picos em seu espectro IV (Figura 3-11).
Alm do nmero de picos (ou bandas)
em um espectro de IV, a intensidade de cada
banda varia de acordo com a quantidade de
luz absorvida por determinada ligao na frequncia observada. Dessa forma, h picos ou
bandas fracos (baixa intensidade) e picos ou
bandas fortes (alta intensidade) em espectros
de IV da maioria das molculas (ver picos no
espectro IV da molcula de ureia, Figura 3-11).
Como podemos verificar na Figura 4-11,
as frequncias vibracionais de ligaes qumicas presentes em protenas esto presentes
em diversas regies do espectro de IV. Para
pequenos compostos, a anlise dos espectros
de IV pode fornecer informaes sobre o arranjo espacial dos tomos envolvidos.
Entretanto, para macromolculas, que
so o foco deste captulo, h obviamente uma

Figura 3-11: Espectro de infravermelho da


ureia.
grande sobreposio de frequncias vibracionais. Dessa forma, no possvel determinar
a estrutura molecular de uma protena por IV.
Podemos, contudo, obter informaes sobre
seus componentes de estrutura 2ria e seu
grau de enovelamento.
A anlise de estrutura 2ria de protenas
e de outras macromolculas biolgicas por
infravermelho teve incio na dcada de 1970.
Com o advento de espectrofotmetros de IV
no-dispersivos (FTIR) e novos detectores,
houve uma melhoria significativa na qualidade
e contedo de informao a ser obtido de espectros de infravermelho de protenas.

11.2. Instrumentao
A notao mais utilizada para anlise no
IV dada em nmeros de onda. Esta notao
uma grandeza fsica diretamente proporcional energia da radiao eletromagntica e,
portanto, inversamente proporcional ao
comprimento de onda em nanmetros. A unidade da notao em nmeros de onda centmetros recprocos ou cm-1.
O nmero de onda pode ser definido
como o nmero de ondas da radiao eletromagntica que so comportados dentro de
um espao de 1 cm (Figura 5-11). Por exemplo,
uma radiao com comprimento de onda de
300 nm equivale a 33,333 cm-1, e uma radiao com comprimento de onda de 500 nm

11. Infra-vermelho

Figura 4-11: Frequncias de absoro no IV de algumas ligaes qumicas. Esto representadas


frequncias vibracionais resultantes de estiramentos (azul), dobras ou deformaes em
tesoura (vermelho) e em balano (verde) da ligao.
(menos energtica do que a primeira) possui
um comprimento de onda de 2.000 nm. Assim, como o nmero de onda diretamente
proporcional energia e, portanto, frequncia, quanto maior o valor em nmeros de onda, mais alta ser a frequncia daquela
radiao eletromagntica.
A energia da radiao eletromagntica definida
por:
E = hv = hc/
onde h a constante de Planck (6,6261 x 10-34 J), c a
velocidade da luz no vcuo (2,99792 x 108 m/s), v a
frequncia da radiao (dada por v = hc/) e o comprimento de onda em nanmetros.
Para converso da notao de frequncias de absoro no IV entre nanmetros e nmeros de onda,
considerando-se que 1 cm = 10.000.000 nm (107), ento:

captar a luz transmitida. A fonte geradora de


IV , em geral, composta por xidos de terras
raras (por exemplo, carbeto de silcio), que
emitem radiaes na regio do IV quando
aquecidos a altas temperaturas (1.000 a
1.800 oC).
Espectrmetros de IV por transformada
de Fourier contm um dispositivo chamado de
interfermetro. O interfermetro um sistema ptico capaz de fornecer uma radiao
aproximadamente monocromtica na regio
de 2,5 m a 15 m ou at 50 m. O interfermetro permite a separao e depois a recombinao do feixe de infravermelho, a
partir da passagem da luz pelo separador do
feixe (beam splitter) e a incidncia de cada

nmero de onda = 1/.107

Antes de discutirmos sobre a anlise de


espectros de IV de protenas, faremos uma
breve explicao sobre a instrumentao empregada nestes estudos. O equipamento bsico consiste em uma fonte geradora de luz no
IV, de espelhos organizados para direcionar a
luz para a amostra e de um detector para

Figura 5-11: Representao esquemtica de


uma onda eletromagntica.

11. Infra-vermelho

feixe resultante sobre um espelho fixo e um


espelho mvel. O sinal de sada chamado de
interferograma (Figura 6-11).
O funcionamento de um interfermetro
consiste na passagem do feixe luminoso pelo
separador de feixe (B), e parte do feixe refletido pelo espelho mvel (EM) e retorna ao
separador. O outro feixe refletido do separador e, ento, pelo espelho fixo (EF), retorna
a B. O feixe recombinado sai do interfermetro, passa atravs da amostra (A) e viaja at o
detector (D) (Figura 6-11). O sinal captado a
intervalos precisos, correspondentes a passos iguais na diferena de caminho ptico (ou
seja, a distncia da trajetria da luz pela
amostra), resultando em um sinal combinado
de interferncia destrutiva e construtiva em
funo das diferenas de fases (ver abaixo), o
que origina o nome do dispositivo e do sinal
obtido. O interferograma resultante do registro do sinal no detector em funo da diferena de caminho entre os dois feixes. Como
referncia, utilizado um laser de hlio-nenio, e sua radiao monocromtica de 632,8
nm atravessa o mesmo caminho ptico do
feixe de IV.
A varredura em FTIR corresponde ao
deslocamento mecnico do espelho mvel
(EM). Quando a distncia B - EM igual dis-

tncia B - EF, os dois feixes refletidos percorrem a mesma distncia, estando totalmente
em fase (ver adiante). Como resultado, os
dois feixes interferem construtivamente, e o
detector observa um mximo de intensidade.
Esta posio do espelho mvel chamada de
diferena zero de caminho ptico (zero path
difference ou ZPD). Neste caso 2.(B - EM) =
2.(B - EF). medida que EM afasta-se do ZPD,
a distncia B - EM aumenta em relao distncia B - EF. Quando os dois feixes estiverem
180o fora de fase, e a interferncia ser destrutiva, provocando um mnimo na resposta
do detector.
O espectro resultante (dados no domnio de frequncia) a soluo de Fourier para
o sinal do interferograma (dados no domnio
de tempo). Espectrmetros FTIR permitem
medidas mais rpidas do que os antigos espectrmetros, denominados dispersivos (Tabela 1-11).
Para entendermos o significado de diferena de fase vamos tomar como exemplo duas radiaes (isto ,
ondas eletromagnticas) que apresentam a mesma
frequncia e, portanto, a mesma energia. Se ambas
esto trafegando ao mesmo tempo no espao, estas
ondas esto em fase e h um somatrio de suas amplitudes (ver Figura 7-11).
Se h um retardo de uma das frequncias em relao outra, estas ondas esto agora fora de fase. Se
as ondas esto 180o fora de fase a interferncia destrutiva, pois o somatrio das ondas resulta em 0. Em
contrapartida, se esto em fase a interferncia construtiva. Esta mesma definio pode ser aplicada para a
vibrao das ligaes qumicas presentes em uma dada molcula, as quais podem estar vibrando em fase
ou fora de fase

11.3. Vibraes de H2O e 2H2O


Figura 6-11: Esquema de um interfermetro.
A luz no IV, gerada pela fonte, trafega at o
separador do feixe (B), que separado e
incide sobre o espelho fixo (EF) e sobre o
espelho mvel (EM). O feixe recombinado
em B, atravessa a amostra (A) e chega ao
detector (D).

gua no estado lquido e vapor de gua


interferem de forma intensa em espectros de
IV de protenas. As principais frequncias vibracionais da gua (Tabela 2-11) se sobrepem regio da amida I, principal banda no
IV que d informaes sobre a estrutura 2ria
de protenas.
Sendo assim, para se realizar medidas
de protenas em soluo, as amostras so

11. Infra-vermelho

Tabela 1-11: Diferenas entre espectrmetros


por transformada de Fourier (FTIR) e
espectrmetros dispersivos.
IR dispersivo

FTIR

Somente 1 espelho se
movimenta durante
coleta
Todos os valores de v
Pequena frao de v
so detectadas
detectada por unidade
simultaneamente.
de tempo. Varredura
completa em 10 15 min Espectro coletado < 1 s
Partes mveis: desgaste
e tolerncia mecnica

Baixa velocidade de
Rpida velocidade de
varredura
varredura: cintica
Uso de He-Ne: sistema
No h referncia
de calibrao interno
interna para verificar a
exatido de v, exigindo com exatido e preciso
na faixa de 0,01 cm-1
calibrao com
espectros referncia
Amostra localizada
Amostra localizada
prximo fonte,
longe da fonte
gerando possveis
problemas trmicos

usualmente diludas em D2O (2H2O), ou xido


de deutrio. Como o deutrio apresenta massa maior do que o hidrognio, sua frequncia
vibracional menor do que a da H2O, no havendo mais sobreposio na regio da amida
I, onde so vistas hlices e estruturas desordenadas (ver a seguir). Assim, quando temos 2H ao invs de 1H, as principais bandas
vibracionais da gua lquida so deslocadas
para frequncias mais baixas.
O espectro de IV da gua no estado lquido sofre alteraes dependentes das ligaes de hidrognio o que, por sua vez, no
ocorre no espectro IV da gua em vapor (onde estas interaes esto ausentes). Para a
gua no estado lquido, com o aumento da
fora das ligaes de hidrognio observa-se o
deslocamento das deformaes axiais e das
deformaes angulares para menores e maiores frequncias, respectivamente. Estas variaes na intensidade das ligaes de
hidrognio podem ocorrer, por exemplo, devido a mudanas na temperatura. Neste caso,
um aumento na temperatura enfraquece as
ligaes de hidrognio, fortalecendo a ligao

Figura 7-11: Exemplo esquemtico de duas


ondas em fase (A) e duas ondas 180o fora de
fase (B).
covalente O-H que passa a vibrar em frequncias maiores.

11.4. Realizando medidas de IV


Como vimos acima, h uma grande sobreposio entre vibraes da molcula de
gua com a regio do espectro de IV empregada no assinalamento das estruturas 2rias
de protenas. Assim, precisamos reduzir ao
mximo o contedo de H2O da amostra a ser
analisada.
Para medidas em soluo, uma alternativa realizar todas as etapas de obteno da
protena de interesse em 2H2O. Entretanto,
esta alternativa no usualmente vivel devido ao alto custo da 2H2O e, ainda, por este
se hidratar rapidamente.
Uma abordagem alternativa e amplamente utilizada obter a protena normalmente (estratgia de purificao normal, em
solvente aquoso), remover toda a H2O por
secagem (sublimao da gua por liofilizao
ou outra tcnica de escolha), ressuspender o
material seco em 2H2O, secar a amostra novamente para permitir a troca de 1H por 2H e
ressuspender a amostra em 2H2O em uma
concentrao maior que 1% massa/volume
para a realizao da medida. A amostra em
soluo aplicada entre duas janelas (duas
"fatias") formadas por material transparente
ao IV mdio, como fluoreto de clcio (CaF2),
por exemplo, que so montadas em um porta-amostras (Figura 8-11).
Caso no se deseje realizar medidas em

11. Infra-vermelho

Tabela 2-11: Principais vibraes de 1H2O e 2H2O (D2O) na regio do IV.


Vibrao
Dobra
Combinao de dobra e oscilao
Estiramentos simtricos e assimtricos
a

H2O lquida (25 C)


v (cm-1)a
E0 (M-1.cm-1)b

D2O lquido (25 C)


v (cm-1)a
E0 (M-1.cm-1)b

1.643,5
2.127,5
3.404,0

1.209,4
1.555,0
2.504,0

21,8
3,50
99,9

17,4
1,91
71,5

v, frequncia vibracional; b Eo, coeficiente de extino molar.

soluo, possvel analisar a amostra seca na


forma de pastilha com brometo de potssio
(KBr). KBr transparente na regio do infravermelho mdio, e tambm o componente
do separador do feixe no interfermetro. Em
linhas gerais, mistura-se a amostra de interesse a 1% com KBr (1 mg da amostra para
100 mg de KBr, por exemplo) em um gral com
um pistilo de quartzo e, por presso mecnica, gera-se um disco da amostra com espessura de 10 mm que acondicionado ao
porta-amostras do equipamento para realizao da leitura. importante realizar uma macerao eficiente da amostra com KBr, para
resultar em uma distribuio uniforme da sua
amostra com o p.
Para a amostra seca, ainda possvel
realizar medidas empregando tcnica de reflectncia total atenuada (attenuated total
reflectance, ATR). Nesta tcnica, a amostra
slida depositada sobre um cristal de ndice
de refrao maior que a amostra e comprimida sobre esta superfcie, de modo a impedir
a presena de ar e gua que poderiam atrapalhar a medida. A luz IV ento refletida sobre esta superfcie. O feixe emerge do cristal
(neste caso, chamado de onda evanescente)
e incide sobre a amostra, havendo absoro,
refletindo de volta e sendo por fim redirecionada ao detector. Existe grande popularidade
neste mtodo devido vantagem de no demandar pastilhamento e requerer apenas alguns microgramas de amostra seca.
Aps o preparo da amostra, coleta-se
inicialmente um espectro base (background)
na ausncia de amostra. Este espectro base
normalmente chamado de espectro de feixe
nico (single-beam), pois reflete a resposta
em todas as frequncias da regio do IV m-

dio (que gerada pela maioria dos equipamentos de IV) sem nenhuma correo. Um
espectro de feixe nico de uma amostra pode
ser corrigido pelo espectro base, o que ir
gerar o espectro final de IV.
Contudo, medidas envolvendo protenas
requerem instrumentao com sensibilidade
maior do que aquela empregada para pequenas molculas, visto que o sinal da amida
mais fraco (baixa intensidade) devido baixa
absoro de luz no IV mdio.
Antes de iniciarmos a coleta de um espectro de IV, devemos resfriar o detector com
nitrognio lquido (-196 oC). Detectores MCT
(mercrio, cdmio e telureto) apresentam alta sensibilidade e so a escolha para anlise
de protenas. Estes detectores semicondutores de ftons no IV so refrigerados para reduzir o rudo e o vazamento de corrente
resultante dos processos de gerao trmica.
Detectores MCT operam a temperaturas de
80 a 200 K.
Mesmo para amostras medidas no es-

Figura 8-11: Janelas de fluoreto de clcio


(esquerda)
e
porta-amostra
(direita).
Dimenses tpicas das janelas de CaF2: 32
mm de dimetro e 3 mm de espessura.

11. Infra-vermelho

tado slido (sem gua lquida), deve-se efetuar a purga da regio do porta-amostras com
N2 ou ar seco, pois vapor de gua tambm
absorve na regio do IV mdio e pode comprometer a anlise da banda amida I (ver adiante).
Para realizar medidas de espectroscopia
de IV por transformada de Fourier (FTIR) o
ideal coletar o maior nmero de varreduras
possveis, com resoluo alta (de 1 a 2 cm-1).
O espectro resultante pode ser na escala de
transmitncia ou absorbncia (Figura 9-11).
Caso o espectro contenha muito rudo,
aconselhvel diminuir a resoluo da medida
(por exemplo, 4 cm-1) e/ou aumentar a quantidade de amostra analisada (aumentar a massa, caso depositada em cristal de ATR, ou
aumentar a concentrao, caso esteja medindo protena em soluo).

11.5. Espectros de IV de protenas


A anlise de estrutura 2ria de protenas
a partir de seu espectro vibracional vem sendo realizada desde o incio da dcada de 1980.
possvel inferir se a protena adota uma estrutura rica em hlices , folhas , ou se no
apresenta estrutura 2ria definida (ver captulo
2), a partir da anlise da banda amdica I de
protenas na regio do IV mdio. Alm da amida I, o espectro vibracional de protenas apresenta outros componentes que sero
apresentados a seguir.
Como j descrito no captulo 2, o estabelecimento de redes de ligao de hidrognio
entre resduos de aminocidos um dos fatores que distingue os tipos de estrutura 2ria
adotadas por sequncias polipeptdicas. Cada
tipo de estrutura 2ria, por sua vez, implicar
na adoo de valores para os ngulos e
ao redor da ligao peptdica. Estas interaes afetam a frequncia vibracional de ligaes ente tomos, e isso ser refletido no
espectro de IV da protena estudada. Dessa
forma, possvel inferir que tipo de estrutura
2ria a protena analisada apresenta.

Figura 9-11: Absoro de poliestireno


(estrutura no grfico direita) em filme na
regio do infravermelho mdio. Na esquerda
est o espectro em unidades de transmitncia
e, na direita, o mesmo espectro em unidades
de absorbncia.

Regies vibracionais de protenas


Parte do estudo das vibraes no IV da
ligao peptdica (ou ligao amdica) foi baseado na anlise dos componentes vibracionais da N-metil acetamida (NMA, Figura 10-11).
Esta molcula utilizada como composto
modelo para definio de componentes vibracionais em protenas, j que a menor estrutura que contm um grupamento peptdico
em E (ligaes peptdicas em trans, as quais
ocorrem na quase totalidade das protenas).
As diferentes regies vibracionais de
protenas no espectro de IV so chamadas de
bandas amdicas ou amidas, pois resultam
das diferentes interaes realizadas pelos
tomos que compem a ligao amdica (ligao peptdica) com molculas do solvente e
com tomos da prpria protena, sejam estes
da cadeia lateral ou do esqueleto polipeptdico (Figura 11-11). Por exemplo, como vimos no
captulo 2, a estrutura 2ria de protenas
mantida principalmente por ligaes de hidrognio entre os grupamentos N-H e C=O da
cadeia polipeptdica com os mesmos grupamentos na volta seguinte da hlice ou na fita
vizinha da folha.
Alm das vibraes da cadeia polipeptdica (que informam sobre a estrutura 2ria da
protena), vibraes das cadeias laterais de
resduos de aminocidos tambm contribuem
para o espectro de IV de protenas. Entretanto, h uma grande sobreposio das vibraes de cadeias laterais, e algumas absorvem

11. Infra-vermelho

Figura 10-11: Estrutura da N-metil acetamida


(NMA).
fracamente a luz IV. Portanto, difcil identific-las isoladamente. A seguir sero apresentadas as principais regies vibracionais de
protenas e quais informaes podem ser obtidas de cada uma destas regies.

Amidas A e B
Estas bandas so resultantes do estiramento da ligao N-H e esto presentes na
faixa de 3.300 e 3.170 cm-1. Esta regio
insensvel conformao da cadeia polipeptdica, e sua frequncia depende da fora da ligao
de
hidrognio
realizada
pelo
grupamento.

Amida I
Esta a principal banda vibracional de
protenas, pois fornece informaes sobre a
estrutura 2ria destas macromolculas. A
frequncia mdia da amida I ocorre em torno
de 1.650 cm-1, e resulta principalmente do estiramento simtrico da carbonila (vC=O), com
pequenas contribuies da vibrao C-N fora
de fase, da deformao C-C-N e da toro N-H
no plano. A estrutura do esqueleto polipeptdico ir determinar como as vrias coordenadas internas iro contribuir para a vibrao
desta banda. A despeito de ser influenciada
pela estrutura 2ria, esta vibrao muito
pouco afetada pela natureza das cadeias laterais.

Amida II
A absoro da banda amida II ocorre em
1.550 cm-1 quando o solvente utilizado no
experimento de IV H2O. Esta vibrao a
combinao fora de fase da toro N-H no

Figura 11-11: Espectro de absoro no IV mdio


de uma amostra proteica. Observe as regies
de amida I (1.700 a 1.600 cm-1) e amida II
(1.600 a 1.450 cm-1).
plano e do estiramento da ligao C-N, com
poucas contribuies da toro C-O no plano
e das vibraes de C-C e N-C. Como para a
amida I, esta vibrao pouco afetada pelas
vibraes das cadeias laterais, mas a correlao entre estrutura 2ria e frequncia, nesse
caso, menos direta do que para a vibrao
amdica I.
Entretanto, a anlise desta banda vibracional fornece informaes a respeito do
enovelamento proteico e sua dinmica conformacional em experimentos de troca de 1H
por 2H (troca hidrognio deutrio), pois h
um desvio da amida II para 1.450 cm-1 quando
a protena diluda em 2H2O. Sendo assim,
possvel acompanhar a troca de hidrognios
lbeis (como hidrognios da ligao N-H da
cadeia polipeptdica) por deutrio durante
tratamento trmico da protena, interao
com algum ligante e aumento na presso,
dentre outras variveis. tomos de hidrognio
em regies mais protegidas da protena iro
demorar mais para trocar por deutrio do que
tomos de hidrognio em regies expostas
H ainda uma terceira banda relacionada
ligao peptdica, a chamada banda de amida III. Esta banda, no NMA, a combinao em

11. Infra-vermelho

fase da dobra da ligao N-H e do estiramento da ligao C-N, principalmente. Em polipeptdeos, a composio dessa banda mais
complexa, pois depende da estrutura das cadeias laterais e a dobra do N-H contribui para
vrias bandas na regio de 1.400 a 1.200 cm-1.
Como essas contribuies variam bastante,
esta vibrao de pouca utilidade para anlise de estrutura 2ria.

Vibrao do esqueleto peptdico


Esta vibrao ocorre de 1.200 a 880
cm e resulta do estiramento das trs ligaes do esqueleto polipeptdico. Para o composto modelo NMA, estas vibraes geram
duas bandas bastante definidas, mas com absoro fraca no IV: uma vibrao vN-C, predominante em 1.096 cm-1, e um modo misto a
881 cm-1.
-1

Vibrao de cadeias laterais


As cadeias laterais de resduos de aminocidos de protenas absorvem luz no IV.
Entretanto, a identificao de resduos especficos dificultada para alta sobreposio
das suas frequncias vibracionais.
Dentre os diferentes grupamentos presentes em cadeias laterais, h dois tipos particulares que absorvem em regies espectrais
livres de sobreposio por outros grupos e
que podem, dessa forma, ser assinalados. O
primeiro grupamento a sulfidrila das cistenas, com absoro entre 2.550 e 2.600 cm-1,
e o segundo a carbonila (C=O) de grupamentos carboxlicos protonados, com absoro entre 1.710 e 1.790 cm-1. A anlise destas
regies pode fornecer informaes tais como
eventos de (des)protonao.
Por exemplo, os resduos Asp e Glu protonados apresentam duas bandas fortes entre 1.550 e 1.580 cm-1 e prximos a 1.400
cm-1. Essas bandas, contudo, so deslocadas
na presena de quelantes de ctions dependendo do tipo de coordenao (importante
para o estudo de protenas que ligam ons
clcio).
Por outro lado, a absoro da cadeia la-

teral de resduos de Arg, que ocorre em 1.635


e 1.673 cm-1, sobreposta absoro da
amida I. Contudo, a troca de 1H por 2H gera
desvios a -50 e -70 cm-1, respectivamente
(desvio para frequncias menores), o que
permite a visualizao destas bandas.
H ainda uma vibrao de Tyr que frequentemente visualizada em espectros de IV
de protenas a 1.517 cm-1. Esta frequncia vibracional deslocada para 1.500 cm-1 quando ocorre desprotonao da cadeia lateral do
resduo de Tyr.

11.6. IV e estrutura 2ria


Como descrito na seo anterior, protenas apresentam bandas vibracionais caractersticas no IV mdio. A banda da amida I a
regio que fornece informao sobre a estrutura 2ria destas macromolculas.
A frequncia exata da primeira vibrao
(estiramento C=O) depende:
i) da natureza das ligaes de hidrognio
que envolvem o grupamento amdico, o
que determinado pela estrutura 2ria
particular adotada pela protena;
ii) da orientao e distncia dos dipolos
que interagem, o que fornece informao sobre arranjo geomtrico de grupamentos peptdicos em uma cadeia
polipeptdica.
O termo dipolo se refere a dois plos. Em fsica, um
dipolo eltrico envolve a separao de cargas positivas
e negativas (polo positivo e polo negativo). Em molculas polares, como a gua, por exemplo, um dipolo
formado devido a uma distribuio desigual de cargas
(eltrons) na ligao covalente (O-H), gerando uma regio de carga parcial positiva (hidrognios) e outra de
carga parcial negativa (oxignios).
Dipolos induzidos so formados quando um on ou
uma molcula dipolar (que apresenta um dipolo permanente) induz a formao de um dipolo em um tomo
ou molcula que antes no apresentava uma distribuio de cargas. Quando o oxignio molecular (O2, no
apresenta um dipolo) interage com uma molcula de
gua (dipolo permanente), esta ltima induz um dipolo
no O2.

A aplicao de FTIR para determinao

11. Infra-vermelho

de contedo de estrutura 2ria em protenas


se mostrou vivel aps a anlise experimental
do espectro de IV de protenas com estrutura
j resolvida por difrao de raios-X, assim como a comparao com outros parmetros
experimentais, como experimentos de dicroismo circular (ver captulo 10) e cristalogrficos (distncias entre ligaes, ngulos de
ligao e de diedro). Dessa forma, foi possvel
estabelecer correlaes estruturais-espectrais e, assim, validar a metodologia de FTIR
para identificao de componentes de estrutura 2ria em protenas.
De qualquer modo, importante ressaltar que no h hoje mtodo capaz de descrever as caractersticas conformacionais de
protenas de forma absoluta. Um dos motivos
para isto reside na dificuldade em reproduzir,
durante os experimentos, as condies do
meio nas quais a protena exerce sua funo
fisiologicamente, tais como tampo, pH, presena de ons, moduladores, etc, uma vez que
as caractersticas conformacionais da protena variam como funo destes fatores.
Neste momento, importante ressaltar
que as frequncias vibracionais na amida I sero deslocadas para valores menores quando
a protena est diluda em 2H2O (Tabela 3-11), o
que ir ocorrer quando estamos avaliando
estrutura 2ria de protenas em soluo.
A Tabela 3-11 indica as regies na amida I
que so assinaladas aos diferentes componentes de estrutura 2ria. Podemos perceber
que h sobreposio entre algumas regies, o
que implica na necessidade de um processamento matemtico posterior coleta do espectro de IV de protenas, como veremos a
seguir. A Figura 12-11 mostra espectros representativos de protenas ricas em hlices
e em folhas (vermelho).
Em geral, a vibrao das hlices ocorre a 1.650 cm-1, e a de estruturas desordenadas a 1.645 cm-1, proximidade esta que
dificulta a avaliao direta do contedo de cada um destes componentes na estrutura proteica. As folhas , por sua vez, apresentam
mais de uma regio vibracional para a amida I,
com bandas de alta (entre 1.670 e 1.690 cm-1)
e baixa frequncias (de 1.620 a 1.640 cm-1).

Figura 12-11: Exemplo da regio amida I de


protenas com estrutura secundria rica em
hlices (azul) e folhas (vermelho). Os
espectros foram obtidos para protenas
diludas em 2H2O.
Voltas so assinaladas nas regies de frequncia entre 1.660 e 1.680 cm-1.
A anlise de folhas apresenta um desafio particular, pois ainda h incerteza sobre
a possibilidade de distino de folhas paralelas e antiparalelas por FTIR. O que geralmente se observa uma separao da amida I
em protenas com alto contedo de folhas
antiparalelas. Sendo assim, possvel diferenciar folhas paralelas de antiparalelas,
porque as paralelas absorvem somente em
baixos nmeros de onda (banda principal a
1.630 cm-1) e no possuem o componente
em 1.680 cm-1 das folhas antiparalelas.
Alm disso, em alguns casos possvel
distinguir entre folhas antiparalelas intra- e
intermoleculares, ou seja, protenas que formam folhas quando agregadas. Esta agregao
promoveria
uma
absoro
em
-1
frequncias altas (1.685 cm ) e baixas
(1.615 cm-1) (Figura 13-11).

11.7. Informaes quantitativas


Como vimos acima, h uma grande sobreposio de componentes vibracionais ao
longo da banda amida I. Sendo assim, para o
assinalamento e quantificao (ou seja, clculo aproximado da porcentagem dos componentes de estrutura 2ria de uma dada

11. Infra-vermelho

Tabela 3-11. Assinalamento dos componentes de estrutura secundria de protenas a partir da


anlise da amida I. Valores coletados por Byler & Susi (1986) e compilados por Barth & Zcherp
(2002).
Estrutura 2ria

Posio do pico na presena


de 1H2O (cm-1)

Posio do pico na presena


de 2H2O (cm-1)

Mdia

Variao

Mdia

Variao

hlice

1654

1648 a 1657

1652

1642 a 1660

Folhas (baixa frequncia)

1633

1623 a 1641

1630

1615 a 1639

Folhas (alta frequncia)

1684

1674 a 1695

1675

1671 a 1694

Voltas

1672

1662 a 1686

1671

1660 a 1694

Estruturas desordenadas

1654

1642 a 1657

1645

1639 a 1654

protena), necessrio realizar um processamento do espectro original, na regio desta


banda.
Iremos agora abordar como possvel
determinar a composio de estrutura 2ria de
protenas a partir da anlise da banda amida I
(de 1.700 a 1.600 cm-1). Como podemos observar na Figura 14-11, somente com uma
inspeo visual da amida I, no possvel
identificarmos todos os componentes de estrutura 2ria (com suas diferentes frequncias,
como mostrado na Tabela 3-11) que formam a

Figura 13-11: Espectro de infravermelho


(regio amida I) representativo de uma
protena que sofreu agregao induzida por
temperatura. As linhas tracejadas indicam
componentes de folha de alta (esquerda) e
baixa (direita) frequncias.

protena em questo. Sendo assim, de forma


geral, necessrio empregar abordagens
matemticas para separar as frequncias vibracionais na banda amida I para o posterior
assinalamento dos diferentes componentes
(diferentes frequncias) de estrutura 2ria. A
separao dos diferentes componentes pode
ser feita por decomposio da amida I empregando:
i) clculo da segunda derivada do espectro (Figura 15-11). A largura da banda
da derivada assim obtida menor que a
largura da banda original. Assim, a segunda derivada pode ser utilizada para
resolver bandas sobrepostas;
ii) realizar uma auto-deconvoluo
(FSD, Fourier self-deconvolution). O
princpio de estreitamento de linha da
auto-deconvoluo a multiplicao da
transformada de Fourier do espectro
original por uma funo dependente da
forma da linha que aumenta com o aumento da distncia a partir do pico central. No caso de deconvoluo de linhas
lorentzianas, se usa uma funo exponencial. Dessa forma, as regies da
transformada de Fourier que codificam
para estruturas finas no espectro original levam um peso mais forte. Aps
transformao de volta em um espectro de IV, os componentes do espectro
que mudaram mais ao longo do nmero
de onda (ou da frequncia) so amplifi-

11. Infra-vermelho

Figura 14-11: Espectro de IV (regio amida I)


no
processado
(vermelho)
e
aps
processamento matemtico (FSD) da protena
lisozima em 2H2O.
cados e as bandas ento aparecem mais
definidas. Para a amplificao, deve-se
definir um valor de FWHH (no geral de
13 a 25 cm-1, dependendo da resoluo
espectral e da relao sinal/rudo) e um
fator de incremento, que ser multiplicado ao sinal total da amida I;
iii) uma terceira abordagem de incremento de fine-structure; uma verso
suavizada do espectro original multiplicada por um fator pouco menor que 1
e, subsequentemente, subtrada do espectro original, aumentando a estrutura
fina do espectro, similarmente a uma
FSD.
Existem diversos problemas para a
predio de estrutura 2ria por FTIR, independentemente do mtodo aplicado. No h um
nico espectro de IV para um tipo de estrutura 2ria, e o espectro obtido tambm depende
de detalhes estruturais como deformaes
na hlice ou o nmero de fitas adjacentes em
uma folha . Alm disso, outro problema a
absoro por cadeias laterais nesta regio.
estimado que de 10 a 30 % da absoro total
da amida I derivada de cadeias laterais.
Aps a separao dos diferentes componentes (frequncias) da amida I, utilizando
alguma das abordagens apresentadas acima,

Figura 15-11: Espectro na regio da amida I de


uma protena em soluo (2H2O) (vermelho).
Em azul est representada a segunda
derivada do espectro original e, em preto, o
espectro resultante do somatrio dos
diferentes componentes (verde) deduzidos a
partir da segunda derivada.
possvel identificar (ver Tabela 3-11) e calcular a frao de cada componente de estrutura
2ria presente na protena. O percentual de
cada tipo de estrutura 2ria ento calculado
a partir da rea de cada banda correspondente a um determinado tipo de estrutura 2ria
em comparao com a rea do espectro total
na amida I (que apresenta o valor de 100%).

11.8. Desvio de 1H para 2H


Como vimos anteriormente, os espectros de IV de protenas em soluo so obtidos a partir de amostras diludas em 2H2O. A
troca 1H/2H leva a pequenos desvios nos
componentes da amida I (denominada amida I
quando a protena est dissolvida em 2H2O).
Esses desvios de frequncia so causados
pela pequena contribuio da dobra N-H para
esta banda de vibrao.
Para protenas, a grandeza do desvio
depende do tipo de estrutura 2ria. Em geral,
ocorre um desvio de 15 cm-1 para componentes de baixa frequncia de folhas e voltas. Estruturas desordenadas sofrem desvio
de 10 cm-1, enquanto que para as outras bandas o desvio menor. A magnitude do desvio
vai depender da extenso da contribuio da
vN-H para a banda amida I.
Outra causa para este desvio no ser

11. Infra-vermelho

homogneo entre todas as protenas a troca


incompleta de 1H por 2H, principalmente em
regies de estrutura 2ria ordenada que apresentam um pequeno desvio. Sendo assim,
essencial o conhecimento do solvente utilizado (se H2O ou 2H2O) para interpretao de espectros de IV de protenas.

11.9. Vantagens e limitaes


Como principais vantagens da tcnica,
podemos citar:
i) As medidas de FTIR de protenas podem ser realizadas rapidamente;
ii) Usualmente, os espectros de FTIR
apresentam elevada resoluo mesmo
com sinal baixo;
iii) Pode ser aplicada em amostras em
soluo ou secas;
iv) Pode ser aplicado a amostras insolveis, o que usualmente limita as medidas
em
outras
tcnicas
espectroscpicas;
v) Meios opticamente turvos podem ser
utilizados, o que amplia a diversidade de
ambientes em que a macromolcula
pode ser estudada;
vi) Permite a avaliao da estrutura de
protenas inseridas em membrana e
agregados proteicos, alm de outros
sistemas pouco estudados por outros
mtodos espectroscpicos;
vii) Grande quantidade de informao
obtida;
viii) Tcnica no-destrutiva, ou seja, h a
possibilidade de recuperao da amostra aps a medida.
As limitaes e cuidados a serem tomados incluem:
i) A quantidade de protena necessria
elevada (de 1 a 4 wt%);
ii) A troca 1H2O 2H2O requer liofilizao da amostra;
iii) Avaliao quantitativa ainda limitada
devido falta de modelos acurados;
iv) A deconvoluo nem sempre ir representar a estrutura correta final em
funo do elevado nmero de bandas

sobreponveis. Amplificao do rudo


aps FSD.
v) Exige manipulao matemtica extensa dos dados experimentais obtidos;
vi) Sofre interferncia de contaminantes
que absorvam no IV mdio, como o TFA,
solvente utilizado na purificao de
peptdeos sintticos, que absorve a
1.673 cm-1.

11.10. Conceitos-chave
Caminho ptico: espessura da soluo atravessada por um feixe de luz.
Interferograma: Padro de interferncia gerado
por um interfermetro, a partir da recombinao da luz gerada a partir de duas
fontes diferentes.
FWHH (full bandwidth at half height): largura
mxima da banda na metade da altura
(intensidade total).
Beam splitter: separador do feixe de infravermelho, presente no interfermetro.
FSD: Fourier self-deconvolution. Deconvoluo
de uma regio do espectro de IV (Amida I,
no caso), a partir de estreitamento de
banda e da utilizao de um fator de incremento (de 1.5 a 2.5), que multiplicado pelo sinal da Amida I obtida.
N-metil acetamida (NMA): Menor molcula que
contm um grupamento peptdico em
trans. Utilizado como modelo para anlise
dos modos vibracionais da cadeia polipeptdica.
Transformada de Fourier: uma transformada
reversvel de uma funo em outra funo.
A segunda funo, chamada de transformada de Fourier fornece os coeficientes de
funes senoidais (suas frequncias) que
podem ser recombinadas para obter a
funo original.
Massa reduzida (): Quantidade que permite

11. Infra-vermelho

que o problema de dois corpos na mecnica Newtoniana seja resolvido como um


problema de um corpo somente, pois:
= m1 x m2/m1 + m2, onde m1 a massa do
corpo 1 e m2 a massa do corpo 2.

11.11. Leitura recomendada


BARTH, Andreas; ZSCHERP, Christian. What
vibrations tell us about proteins. Q. Rev.
Biophys. 35, 369-430, 2002.
BYLER, D. M.; SUSI, H. Examination of the
secondary structure of proteins by
deconvolved FTIR spectra. Biopolymers.
25, 469-87, 1986.
SILVERSTEIN, R. M.; WEBSTER, F. X.; KIEMLE,
D.
J.
Infrared
Spectrometry.
In:
Spectrometric identification of organic
compounds. 7a.ed. John Wiley & Sons,
2005.
SUREWICZ, W. K.; MANTSCH, H. H.; CHAPMAN,
D. Determination of protein secondary
structure by Fourier transform infrared
spectroscopy:
a
critical
assessment.
Biochemistry. 32, 389-94, 1993.

12. Ressonncia Magntica Nuclear

Marcius da Silva Almeida

Estrutura 3D da protena Psd1 determinada por RMN.

12.1. Introduo
12.2. Fundamentos
12.3. Deslocamento qumico
12.4. Acoplamento escalar
12.5. Efeito Overhauser nuclear
12.6. Estrutura de protenas
12.7. Anlise dos espectros de RMN
12.8. Clculo da estrutura
12.9. Conceitos-chave
12.1. Introduo
Os concomitantes avanos em biologia
molecular e em espectroscopia por Ressonncia Magntica Nuclear (RMN) multidimensional tiveram como reflexo um aumento
explosivo na utilizao da espectroscopia por
RMN a fim de obter informaes estruturais e
dinmicas em macromolculas biolgicas, incluindo cidos nucleicos, carboidratos e protenas.
A espectroscopia por RMN em soluo e
a cristalografia por raios-X so, essencialmente, as nicas tcnicas experimentais capazes de fornecer informaes da estrutura
tridimensional de uma macromolcula com
resoluo atmica. Aproximadamente 97%
das estruturas depositadas no banco de da-

dos Protein Data Bank (PDB) resultam da


aplicao de uma destas tcnicas. As demais
estruturas provm, essencialmente, de modelos tericos. O nmero de estruturas resolvidas por cristalografia excede em 5
vezes as resolvidas por RMN, em grande parte devido a um limite no tamanho da protena
passvel de ter sua estrutura determinada por
RMN (em torno de 6 kDa por tcnicas bidimensionais e 40 kDa por tcnicas de trs ou
mais dimenses). Em contrapartida, a cristalografia limitada, principalmente, pela dificuldade na obteno de monocristais.
A primeira estrutura 3D determinada
atravs de RMN foi do inibidor de -amilase
tendamistat, em 1986, por Kline e colaboradores, ao passo que a primeira estrutura 3D
de protena determinada com alta resoluo
atravs de RMN foi da interleucina 1, em
1991, por Clore e colaboradores.

12.2. Fundamentos
Uma das caractersticas de um ncleo atmico
sua rotao em torno do seu prprio eixo, um fenmeno denominado de spin. Os ncleos com spin possuem
momento angular p que varia de forma quntica. O
nmero mximo das componentes do momento angular de um ncleo denominado de nmero quntico de
spin (I). Um ncleo possui 2I +1 estados de magnetizao, onde o componente do magnetismo nuclear
possui valores I, I 1, I 2, ..., -I.
Em protenas, os ncleos atmicos mais importantes (devido a propriedades intrnsecas que levam a gerao de um sinal plausvel de ser identificado por
espectroscopia de RMN) so o 1H (abundncia natural
de 99,98%), o 13C (abundncia natural de 1,11%) e o 15N
(abundncia natural de 0,36%). O nmero quntico de
spin destes ncleos 1/2. Desta forma, estes ncleos
possuem dois estados de spin (-1/2 e +1/2).

12. Ressonncia Magntica Nuclear

O spin de ncleos carregados cria um campo magntico orientado paralelamente ao eixo do spin, que pode ser representado por uma quantidade vetorial .
Este momento magntico diretamente proporcional
ao momento angular e constante giromagntica ()
do ncleo. Consequentemente, os diferentes estados
do spin dos ncleos supracitados resultam em dois estados de magnetizao, representadas pelo nmero
quntico magntico m, igual +1/2 e 1/2.
Para se obter um sinal de RMN destes ncleos em
um espectrmetro moderno, inicialmente induzida a
orientao do vetor ao longo do vetor de um campo
magntico forte gerado por um magneto (vetor B0). O
vetor poder estar alinhado tanto no mesmo sentido
como no sentido contrrio ao vetor B0, sendo que a
quantidade de energia que envolve a transio de um
ncleo entre estes dois estados dada pela equao
E = ( /2)B0
onde a constante de Planck.
Como em outras tcnicas de espectroscopia, a
transio entre estes dois estados pode ser conseguida atravs da absoro ou da emisso de radiao eletromagntica, em uma frequncia v0 (frequncia de
Larmor) que corresponde, em energia, diferena E.
Atravs da equao
v0 = B0/2
torna-se claro que a frequncia da radiao envolvida
na transio dos estados energticos dos spins depende diretamente da fora do campo magntico externo
e do ncleo estudado. Os espectrmetros de RMN so,
em geral, classificados de acordo com a frequncia de
Larmor do 1H sob a fora do campo magntico gerado
pelo magneto de tal equipamento. Por exemplo, sob a
influncia de um campo magntico de 14,1 T, a frequncia de Larmor do 1H ser de 600 MHz, e desta forma
tem-se um espectrmetro de 600 MHz.
Um fato importante que os ncleos se distribuem
desigualmente entre estes dois estados energticos,
de tal forma que existe um excesso de ncleos no estado de menor energia em relao ao de maior energia. A relao entre o nmero de ncleos distribudos
entre os dois nveis energticos dada pela equao
Nj/N0 = exp(- B0/2kT)

onde Nj o nmero de ncleos no estado de maior


energia, N0 o nmero de ncleos no estado de menor
energia, k a constante de Boltzmann e T a temperatura absoluta. No caso do 1H, por exemplo, em um
campo magntico de 14,1 T 293 K, esta relao de
0,999901, que significa um excesso de 198 ppm de
prtons no estado de menor energia. Este excesso
representado por um vetor de magnetizao resultante M (Figura 1-12).
Atravs de pulsos de magnetizao com vetor perpendicular ao vetor B0 e na mesma frequncia que a
frequncia de Larmor, induzida uma reorientao
(excitao) do vetor M.
Aps certo perodo de tempo cessa-se o pulso de
magnetizao e detecta-se o sinal ressonncia de cada
ncleo enquanto seus vetores M (para cada ncleo)
retornam condio inicial, ou seja, determina-se e
frequncia de precesso do vetor M de cada ncleo ao
passo que estes retomam o alinhamento paralelo com
o vetor B0. Tal fenmeno, que representa o sinal fun-

Figura 1-12: Manipulao dos spins para se


obter um espectro de RMN. A) inicialmente os
ncleos atmicos apresentam vetor de
campo magntico com orientao catica.
B) Atravs de um campo magntico forte B0
induzida uma orientao coerente dos vetores
, passando a precessar em torno de B0. Esta
orientao resulta no vetor M (vermelho). C)
so gerados pulsos de magnetizao
perpendiculares ao vetor B0 com a mesma
frequncia que da precesso dos spins, o que
reorienta o vetor M (que fica perpendicular ao
vetor B0 mas, dependendo da intensidade ou
durao do pulso de magnetizao, pode ter
diversas orientaes). D) aps os pulsos,
ocorre a relaxao (perda de orientao
coerente) dos spins, o que representado
pela diminuio do vetor M, assim como seu
realinhamento paralelo ao vetor B0. Neste
ultimo momento realizada a deteco do
sinal de ressonncia dos ncleos.

12. Ressonncia Magntica Nuclear

damental observado por espectroscopia de RMN, denominado de Free-Induction Decay (FID). Este sinal, representado por uma onda no domnio temporal,
processado, empregando-se o formalismo da transformada de Fourier, e o resultado um espectro no
domnio das frequncias.

Nas modernas tcnicas de RMN no se


utiliza apenas um nico pulso de excitao,
mas uma sequncia de pulsos, que manipulam os spins de uma forma complexa. A manipulao da magnetizao dos spins pode
revelar influncias externas sob um ncleo,
como a proximidade ou ligao a outros tomos, atravs de anlises da largura, intensidade e deslocamento qumico do sinal de
cada ncleo em um espectro de RMN. Desta
forma, atravs destas sequncias de pulsos,
podem-se obter vrias informaes relacionadas com a estrutura de uma molcula, que
podem por fim, serem traduzidas na forma
da estrutura tridimensional de uma protena.

12.3. Deslocamento qumico


O deslocamento qumico define a localizao de uma linha nos espectros de RMN ao
longo do eixo de frequncia. Esta grandeza
medida relativa a um composto de referncia
(geralmente um composto solvel em gua
como o 3-trimetilsililpropionato).
Nos espectros de RMN a unidade do
deslocamento qumico de um ncleo normalmente representada em ppm (partes por
milho), que uma forma de normalizar todos os espectros em funo da intensidade
do campo magntico do magneto onde se fez
o espectro de uma amostra (como citado anteriormente, a frequncia de Larmor depende
fortemente da intensidade do campo magntico).
Os ncleos atmicos esto sempre rodeados de diversos tomos e quase sempre
esto ligados a outros tomos e, assim, so
rodeados por uma nuvem eletrnica. Essa nuvem eletrnica gera campos magnticos secundrios que so os principais responsveis
pela alterao do deslocamento qumico de
um ncleo em uma macromolcula (efeito
denominado de blindagem nuclear).

Atravs de um espectro de RMN podese observar seletivamente o sinal de diferentes ncleos em diferentes ambientes qumicos, ou ainda ligados a diferentes tomos.
Como exemplificado na Tabela 1-12, no caso
da espectroscopia de protenas por RMN de
1
H, podem-se distinguir diversos grupos de
tomos de hidrognio pelo deslocamento
qumico destes. Assim, o deslocamento qumico um dos mais importantes parmetros
em estudos por RMN.

12.4. Acoplamento escalar


Um dos fatores que influencia na magnetizao de um ncleo atmico a sua ligao com outros tomos. Esta interao
conhecida por acoplamento escalar ou spinspin, sendo representada pela constante de
acoplamento nJab, onde n o nmero de ligaes covalentes separando os ncleos a e b.
Normalmente, o acoplamento escalar se estabelece entre tomos separados por at trs
ligaes qumicas.
A constante de acoplamento se maniTabela 1-12: Distino entre os tomos de
hidrognio dos aminocidos comuns pelo
deslocamento
qumico
(adaptado
de
Wthrich, 1986).
Tipo de tomo de
hidrognio

Deslocamento qumico
(ppm)

CH3

0,9 1,4

CH2 de V, I, L, E, Q, M, P,
R, K

1,6 2,3

CH2 de C, D, N, F, Y, H, W

2,7 3,3

CH2 de S, CH de T e CH

3,9 4,8

Outros CH alifticos

1,2 3,3

CH aromtico

6,5 7,7

NH de cadeia lateral de
N, Q, K, R

6,6 7,7

NH da ligao peptdica

8,0 8,8

NH indlico

10,2

12. Ressonncia Magntica Nuclear

festa em um espectro de RMN como um pico


composto denominado multipleto (sinal dividido em duas ou mais componentes) e sua
magnitude indicada pela distncia entre os
picos de um multipleto, em hertz (Hz). Um
fato importante para a determinao da estrutura de molculas por RMN que as constantes de acoplamento 3Jab dependem do
ngulo de toro entre os tomos acoplados
(maiores detalhes no tpico clculo da estrutura).

12.5. Efeito Overhauser nuclear


A influncia da magnetizao de tomos
no ligados por meio de uma ligao qumica,
porm prximos, o mais importante efeito
na magnetizao de um ncleo para a determinao da estrutura de protenas por RMN.
Tal fenmeno, denominado de efeito
Overhauser nuclear (NOE), ocorre devido ao
acoplamento dipolar (pelo espao) entre diferentes ncleos, que envolve a transferncia
de magnetizao entre os spins acoplados.
A intensidade do acoplamento dipolar
proporcional ao inverso da sexta potncia da
distncia entre os tomos, sendo que este tipo de interao normalmente detectado entre tomos distantes entre si em at 5 .

12.6. Estrutura de protenas


Um dos passos para se determinar a
estrutura tridimensional de macromolculas
por espectroscopia de RMN o assinalamento (identificao) dos picos de ressonncia.
Em protenas, devido grande quantidade de tomos, ocorre uma enorme sobreposio de sinais nos espectros de RMN, o que
torna impraticvel o assinalamento dos picos
de ressonncia. Uma forma de resolver este
problema a utilizao de espectroscopia bidimensional, atravs de uma srie de sequncias de pulsos especficas.
Os espectros bidimensionais essenciais
para a determinao da estrutura de protenas incluem o TOCSY e o NOESY, ambos de
correlao homonuclear. Espectros de correlao heteronuclear podem ser includos no

processo de determinao da estrutura de


protenas, de forma a facilitar o trabalho de
assinalamento dos sinais de ressonncia.
Neste caso esto includos o HMQC (heteronuclear multiple quantum coherence) e HSQC
(heteronuclear single quantum coherence).

TOCSY
Tambm conhecido por HOHAHA (Homonuclear Hartmann-Hahn), o experimento
de TOCSY (Total Correlated Spectroscopy)
consiste em uma sequncia de pulsos que induzem a transferncia da magnetizao entre
ncleos, como prtons ou carbono, via acoplamento escalar.
Uma vez que a transferncia via acoplamento escalar por mais de quatro ligaes
praticamente nula e que o carbono da carbonila da ligao peptdica no possui prton ligado, o 2D [1H,1H]-TOCSY de protenas
evidenciar interao somente entre prtons
de cada aminocido isoladamente (Figura 212). Neste espectro, cada pico (denominados
de picos de correlao e representados por
curvas de nvel) indica a presena da interao entre dois prtons via acoplamento escalar. O conjunto dos sinais de correlao dos
prtons de um aminocido denominado de
sistema de spin (Figura 2-12).

NOESY
O NOESY (Nucear Overhauser Effect
SpectroscopY) o espectro crucial para a
determinao da estrutura de uma protena.
Neste tipo de experimento induzida, atravs
de uma sequncia de pulso especfica, a
transferncia de magnetizao entre os ncleos via acoplamento dipolar, que depende
da proximidade entre tomos, mesmo que
no estejam ligados quimicamente.
No espectro de 2D [1H,1H]-NOESY aparecero sinais (os NOEs) que representam
prtons prximos (distncia menor do que 5
). A intensidade dos NOEs depende de vrios
fatores, dentre eles, a distncia entre os prtons acoplados (o que por uma aproximao
simplista, pode representar diferentes limites

12. Ressonncia Magntica Nuclear

Figura 2-12: Prtons em acoplamento escalar de um fragmento peptdico contendo o resduo de


cido glutmico. As setas vermelhas e azuis indicam acoplamento 3JHH e 2JHH, respectivamente,
que s podem ocorrer entre prtons de um mesmo aminocido. A cadeia lateral dos
aminocidos que precedem e sucedem o glutamato representada pela letra R. Ao lado do
fragmento polipeptdico apresentado o desenho esquemtico de um espectro bidimensional
de [1H,1H]-TOCSY, evidenciando os picos de correlao dos prtons do glutamato (crculos
vermelhos). Tal perfil representa um sistema de spin. Os picos em preto na diagonal do
espectro so os sinais de ressonncia de cada prton do glutamato.
de distncia entre os prtons). Desta forma,
pode-se fazer uma aproximao semi-quantitativa entre a intensidade dos NOEs e a distncia que separa os prtons acoplados.
NOEs intensos representam prtons separados por 1,8 a 2,7 , NOEs de intensidade mdia representam prtons separados por 1,8 a
3,4 e NOEs fracos, prtons separados por
1,8 a 5,0 .
Usando-se os dados de distncia entre
prtons de uma protena indicadas pelos
NOEs (restries de NOE), pode-se finalmente
criar um modelo estrutural desta macromolcula.

Espectros 2D heteronucleares
Nos experimentos bidimensionais heteronucleares (HMQC - Heteronuclear Multiple
Quantum Coherence ou ento HSQC - Heteronuclear Single Quantum Coherence), realizada a transferncia de magnetizao entre o
spin do prton e o spin de outro ncleo atmico, atravs de somente uma ligao qumica. Nos espectros aparecero picos de
correlao entre prton e 13C ou ento entre

prton e 15N, sendo este sinal importante para


a caracterizao geral da conformao da
protena, assim como da qualidade da amostra a ser estudada. Na Figura 3-12 so exemplificados dois espectros, um de uma protena
bem enovelada e estvel, sendo por isso passvel de ter sua estrutura determinada por
RMN em soluo, assim como um de uma
protena desordenada e agregada.

Espectros de tripla ressonncia


Em experimentos de tripla ressonncia
pode-se associar a magnetizao entre diferentes ncleos para obter um mapeamento
bem definido dos sinais de uma protena. Como por exemplo, com o espectro tridimensional (3D) de HNCO, ter-se- um sinal oriundo
da transferncia de magnetizao entre prton amdico, nitrognio amdico e carbono da
carbonila (Figura 4-12). Espectros mais complexos geralmente so usados para obter
correlaes entre os diversos ncleos de uma
protena e, assim, conseguir uma descrio
(assinalamento) o mais completa possvel da
cadeia polipeptdica. Por exemplo, pode-se

12. Ressonncia Magntica Nuclear

Figura 3-12: Espectros bidimensionais heteronucleares 2D [1H,15N]-HSQC de duas protenas,


CDNF (Cerebral Dopamine Neurotrophic Factor, contendo 162 resduos de aminocidos ou 18,4
kDa) e BEX3 (Brain Expressed X-linked, contendo 124 resduos de aminocidos ou 14,5 kDa), que
representam uma protena bem enovelada e uma protena com alto grau de desordem,
respectivamente. O espectro de uma protena bem enovelada apresenta diversos sinais bem
dispersos e bem definidos, diferente do espectro de uma protena desenovelada e com grande
tendncia de agregao, que exibe picos sobrepostos. Protenas com caratersticas espectrais
similares a CDNF normalmente podem ter suas estruturas determinadas por RMN.
fazer um espectro 6D HNCOCANH, onde a
magnetizao ser transferida entre hidrognios amdicos de aminocidos vizinhos atravs
da carbonila e do carbono alfa (Figura 5-12).
Para se determinar os sistemas de spin
de uma protena, so necessrios pelo menos
quatro espectros de tripla ressonncia (3D
HNCO, 3D HNCACB, 3D CBCA(CO)NH e 3D
HBHA(CO)NH) e dois espectros tridimensionais de TOCSY, um editado para 13C e outro
para 15N. Alternativamente, possvel usar
mtodos ainda mais modernos de determinao de estruturas de protenas por RMN, tais
como a aquisio de dois espectros de quatro
dimenses (4D e 4D) e um de cinco dimenses (5D).
Em qualquer caso, a anlise destes espectros de tripla ressonncia deve ser complementada por espectros de [1H,1H]-NOESY
tridimensionais, editados para 13C e 15N que
evidencia NOEs entre prtons, desde que um
deles esteja ligado a um 13C ou 15N, respectivamente.

12.7. Anlise dos espectros de RMN


Para qualquer estudo de protenas por
espectroscopia de RMN, cada sinal de ressonncia deve ser associado a um ncleo especfico.
Este processo denominado de
atribuio das ressonncias.
A atribuio das ressonncias de uma
protena obtida atravs da anlise em conjunto dos espectros de NOESY, TOCSY, espectros bidimensionais heteronucleares e de
tripla ressonncia, onde o intuito correlacionar cada um dos sinais de ressonncia encontrados nestes espectros com os prtons,
carbonos e nitrognios de cada um dos aminocidos da protena. Neste processo, inicialmente as ressonncias de 1H, 13C e 15N so
classificadas (em HN, H, H, C, C e CO,
dentre outros) de acordo com seus deslocamentos qumicos (Figura 6-12 e 7-12).
Os espectros so ento analisados por
regies de acordo com o tipo de grupamento
qumico esperado em cada faixa de deslocamento qumico. Apesar de serem observadas
diferenas entre os sistemas de spin de cada

12. Ressonncia Magntica Nuclear

Figura 4-12: Segmento tripeptdico de uma


protena hipottica com a indicao de alguns
caminhos de transferncia de magnetizao
obtidos atravs de dois experimentos de
tripla ressonncia (3D HNCO em azul e 3D
HN(CO)CA em vermelho). O sinal observado
conter informaes de deslocamento
qumico de cada um dos tomos indicados,
em um espectro de trs dimenses (1H, 13C e
15
N).
aminocido, podem ocorrer sobreposies de
picos de correlao nos espectros e alteraes acentuadas de deslocamento qumico de
um ncleo atmico (em uma protena bem
estruturada, cada prton poder estar localizado em um ambiente qumico particular e,
por isto, sofrer diferentes graus de blindagem
nuclear), o que dificulta a anlise dos espectros de RMN no que diz respeito identificao dos sistemas de spin.
Em vista disto, o passo seguinte identificar alguns sistemas de spin bem caractersticos nos espectros, levando-se em conta
os valores de deslocamento qumico mdio
dos prtons dos 13C e dos 15N aos quais os
prtons esto ligados, das diversas protenas
j estudadas por RMN (por exemplo, note a
diferena entre os deslocamentos qumicos
da alanina e glicina, Figura 7-12).
Os aminocidos com deslocamento qumico de 1H e 13C mais caractersticos so:
i) glicina, que possui dois H ligados a
um C com deslocamento qumico
anormalmente baixo (45 ppm contra
60 ppm dos outros C do restante dos
aminocidos);

Figura 5-12: Segmento tripeptdico de uma


protena hipottica com a indicao do
caminho de transferncia de magnetizao
obtido por um experimento de tripla
ressonncia 6D HNCOCANH. O sinal
observado
conter
informaes
de
deslocamento qumico de cada um dos
tomos indicados, em um espectro de seis
dimenses (1H, 15N, 13CO, 13C, 15N e 1H). Note
que este tipo de espectro identifica a ligao
de um sistema de spin (aminocido) a outro.
ii) treonina, que possui um nico H com
deslocamento qumico anormalmente
alto (4 ppm contra os 2,5 ppm dos H
dos outros aminocidos) e uma metila
com deslocamento qumico de H em
1,5 ppm e intensidade de sinal alta;
iii) serina que possui dois H com deslocamento qumico anormalmente alto
(4 ppm);
iv) alanina, que possui uma CH3 que resulta em um pico de H intenso com
deslocamento qumico em 1,39 ppm.
A partir da identificao destes aminocidos bem caractersticos, nos espectros,
buscam-se conectividades entre os sistemas
de spin usando diversos espectros.
Em se tratando de protenas que no
esto isotopicamente enriquecidas com 13C e
15
N, se usa espectros de NOESY para este
processo de atribuio das ressonncias associados sequncia de aminocidos da protena em estudo. O objetivo buscar NOEs
entre prtons da cadeia principal de aminocidos vizinhos que esto quase sempre a me-

12. Ressonncia Magntica Nuclear

Figura 6-12: Estrutura dos 20 aminocidos naturais encontrados em protenas. As


nomenclaturas oficiais de cada tomo so evidenciadas. A poro referente cadeia principal
s representada para a Pro, Gly e Ala. Para todos os outros aminocidos, a cadeia principal
idntica da Ala, que est circulada por uma linha tracejada. Figura extrada com permisso do
artigo Recommendations for the presentation of NMR structures of proteins and nucleic acids
(IUPAC Recommendations 1998) escrito por Markley e cols. 1998.
nos de 5 de distncia entre si (Figura 7-12).
Neste sentido, procura-se conectividade do
HN do aminocido com sistema de spin atpico
identificado (na posio i da sequncia da protena) com H, HN e, algumas vezes, H do
aminocido que o precede na sequncia polipeptdica (posio i 1), assim como conectividades do H, HN e s vezes do H do
aminocido identificado (posio i) com o HN
do aminocido que o sucede (posio i + 1)
(Figura 8-12).
Em se tratando de protenas isotopicamente enriquecidas com 13C e 15N (obtidas
normalmente quando produzidas em bactrias como Escherichia coli ou leveduras como
Pichia pastoris crescidas em meios sintticos
contendo 15NH4Cl como nica fonte de nitrognio e 13C-Glicose ou 13C-metanol como nicas fontes de carbono), as conectividades

entre sistemas de spin tambm usualmente


so obtidas por intermdio de interaes escalares, evidenciadas pelos espectros de tripla
ressonncia
discutidos
acima
(exemplificados nas Figuras 4-12 e 5-12).
Desta forma, ou usando espectros de NOESY,
obtm-se algumas sequncias tripeptdicas
atribudas ao longo da sequncia polipeptdica
da protena.
A partir da continua-se a atribuio sequencial, levando em conta algumas caractersticas dos aminocidos menos atpicos em
conjunto com a sequncia 1ria da protena. A
seguir so descritas brevemente algumas
peculiaridades dos aminocidos menos atpicos:
v) valina, s possui um H e dois CH3
com pico de H com intensidade relativamente alta;

12. Ressonncia Magntica Nuclear

Figura 7-12: Deslocamento qumico de 1H e 13C (em ppm) dos tomos dos 20 aminocidos
naturais encontrados em protenas. As nomenclaturas oficiais de cada tomo so
representadas por diferentes smbolos. Valores obtidos do Biological Magnetic Resonance Data
Bank (http://www.bmrb.wisc.edu). As barras representam os desvios padres.
vi) leucina, possui longa cadeia lateral, o
que pode resultar em uma faixa de sinais de 1H com deslocamento qumico
baixo (1,5 ppm);
vii) isoleucina, apresenta padro muito
semelhante ao da leucina, porm ao
contrrio da outra, s possui um H;
viii) cistena e aspartato, suas cadeias
laterais se restringem a dois H;
ix) asparagina, atravs do espectro de
NOESY identifica-se conexo entre HN,
H e H com os prtons amdicos da cadeia lateral (H21 e H22), diferenciando-a da cistena e do aspartato;
x) histidina, pelo espectro de NOESY
possvel ver conectividade entre HN, H
e H com H2 do anel aromtico;

xi) tirosina e fenilalanina, apresentam


NOE entre H e H do anel aromtico;
xii) triptofano, identificvel por NOEs
entre H e os H1 e H2 do anel aromtico (o ltimo prton possui deslocamento qumico atpico de 10 ppm);
xiii) metionina, o intenso pico metlico H
facilmente identificvel e sua correlao com o resto do sistema de spin se
d somente via NOEs;
xiv) glutamato, possui dois CH2 na cadeia lateral;
xv) glutamina, alm dos dois CH2 possui
conectividade via NOE entre H e prtons amdicos H21 e H22 da cadeia lateral;
xvi) arginina, identificvel atravs dos

12. Ressonncia Magntica Nuclear

atribuies erradas pelo aparecimento sbito


de grandes violaes de NOEs (restries de
distncia impostas por NOEs que no conseguem ser ajustadas em uma estrutura tridimensional calculada). Uma vez constatado
um erro de atribuio, retorna-se ao passo de
assinalamento sequencial, trocando-se os
sistemas de spin atribudos erroneamente.

12.8. Clculo da estrutura


Figura 8-12: Segmento tripeptdico de uma
protena hipottica com a indicao dos NOEs
sequenciais empregados para atribuir as
ressonncias dos trs sistemas de spin a
partir da treonina (resduo na posio i da
sequncia da protena). As cores das setas
representam os tipos de NOEs sequenciais
(azul - dN; verde - dN; vermelho dNN). A
probabilidade de uma conectividade ser
realmente sequencial de aproximadamente
66-79% para NOEs tipo dN, 76-94% para
dNN e 72-98 % para dN. Quando
encontradas duas destas conectividades, a
probabilidade delas representarem dois
resduos consecutivos de 90-99%.
picos de correlao entre CH2 e NH da
cadeia lateral em adio aos picos entre
HN, H e os CH2 da cadeia lateral;
xvii) lisina, como a leucina e a isoleucina
possui longa cadeia lateral, o que pode
resultar em uma faixa de sinais de 1H,
porm com deslocamento qumico entre
1,5 e 3,0 ppm. Alm disso, ao contrrio
dos outros dois aminocidos, este possui apenas CH2 na cadeia lateral.
Uma vez tendo todos ou quase todos
sistemas de spin identificados (normalmente
chega-se ao ponto de identificar 95% dos
sistemas de spin), segue-se com o clculo da
estrutura 3D baseada nestes sistemas e nos
sinais a serem identificados nos espectros de
NOESY e transformados em restrio de distncia pelo programa de clculo de estrutura.
No decorrer do clculo da estrutura,
pode-se identificar mais facilmente possveis

A determinao da estrutura tridimensional de macromolculas por RMN baseada, principalmente, em informaes de


distncias interprtons (os NOEs). Como citado anteriormente, atravs das intensidades
dos NOEs pode-se fazer uma aproximao da
distncia entre prtons envolvidos em acoplamento dipolar, distncia esta que varia de
1,8 5 .
Informaes adicionais, como ngulos
torcionais, podem ser bastante teis na determinao da estrutura tridimensional de
uma protena, restringindo mais ainda o espao conformacional adotado pelas estruturas
tridimensionais calculadas. Os ngulos de diedro (formado pelas ligaes entre Ci-Ci e
Ci-1-Ni ao longo da ligao entre Ci-Ni do resduo i) e 1 (formado pelas ligaes entre NiCi e Xi-Ci ao longo da ligao entre Ci-Ci
do resduo i, onde X pode ser O, C ou S) podem ser inferidos via constante de acoplamento 3JHNH e 3JHH, respectivamente (Figura
9-12).
A constante de acoplamento 3JHNH indicada atravs da distncia entre os picos do
dubleto associado correlao entre HN e H,
em Hz. A partir da convenciona-se que para
3J
HNH > 8 Hz tem-se um ngulo de aproximadamente -140o e para 3JHNH < 6 Hz tem-se
ngulo de aproximadamente -60o (estes
ngulos so caractersticos para segmentos
peptdicos em conformao de fita e hlice
, respectivamente).
Os ngulos de diedro e (este ltimo
formado pelas ligaes entre Ni+1-Ci e Ci-Ni
ao longo da ligao entre Ci-Ci do resduo i)
podem ser inferidos a partir do ndice de deslocamento qumico dos ncleos (CSI), uma vez

12. Ressonncia Magntica Nuclear

Figura 9-12: Fragmento de uma cadeia


polipeptdica evidenciando os ngulos de
diedro , e 1. As linhas pontilhadas indicam
as ligaes s quais tais ngulos torcionais se
referem. As setas vermelhas indicam a
rotao das ligaes que representam os
vrtices destes ngulos.
que o deslocamento qumico de um ncleo
sensvel ao ambiente e a geometria das ligaes qumicas.
Os deslocamentos qumicos de 13C e
1
H so os mais usados e melhor correlacionados com a presena de estruturas 2rias em
protenas. Quando o deslocamento qumico
do 13C de uma srie de pelo menos quatro
aminocidos est aumentado em relao aos
valores mdios oriundos de diversas estruturas proteicas (CSI +), sugerida a presena de
um segmento em hlice , com ngulos de
diedro e prximos de -120o e -60o, respectivamente. No caso contrrio, quando o
deslocamento qumico do 13C de uma srie
de pelo menos quatro aminocidos est diminudo (CSI -), sugerido a presena de um
segmento em fita , com ngulos de diedro
e prximos de -120o e 120o, respectivamente.
No caso do deslocamento qumico do
1
H o inverso ocorre, ou seja, quando seu
deslocamento qumico em uma srie de pelo
menos quatro aminocidos est acima dos
valores mdios (CSI +), indicao de fita e
quando est abaixo de um valor terico (CSI
-), sugerida a presena de um segmento em
hlice . O clculo do CSI, sigla para Chemical

Shift Index, pode ser feito atravs do endereo eletrnico www.bionmr.ualberta.ca/bds/software/csi/latest/csi.html.


A anlise do ngulo 1 fornece importante informao sobre a conformao da
cadeia lateral dos aminocidos, permitindo
inclusive o assinalamento estreo-especfico
dos dois prtons H (Tabela 2-12). A partir da
rotao 1 ao redor da ligao C-C, as configuraes energicamente mais favorveis
so aquelas com o ngulo 1 de 60o, 180o ou
60o. Como apresentado na Tabela 2-12, a
identificao dos rotmeros e o assinalamento estreo-especfico dos H se d a partir da
identificao das constantes de acoplamento
Tabela 2-12: Caracterizao dos trs
rotmeros possveis em torno da ligao CC. As orientaes gauche e trans so
referidas como g e t, onde os ndices 2 e 3
indicam os prtons H2 e H3. O padro de
intensidade dos NOEs indicado para cada
conformao.
Conformao
Caractersticas
g2g3

g2t3

t2g3

60o

180o

-60o

JHH2 (Hz)

2,6-5,1

2,6-5,1

11,8-14,0

JHH3 (Hz)

2,6-5,1

11,8-14,0

2,6-5,1

NOE (H, H2)

Forte

Forte

Fraco

NOE (H, H3)

Forte

Fraco

Forte

NOE (HN, H2)

Fraco

Fortemdio

Forte

NOE (HN, H3)

Fortemdio

Forte

Fraco

12. Ressonncia Magntica Nuclear

e 3JHH3 e dos NOEs dH1HN, dH2HN,


dH1H e dH2H.
Adicionalmente, a informao de ligao
de hidrognio inferida a partir da taxa de troca
de prton amdico pode ser agregada ao clculo da estrutura. As estruturas 2rias regulares estabilizadas por ligaes de hidrognio
protegem os prtons amdicos envolvidos
nestas estruturas, o que se caracteriza por
uma baixa taxa de troca destes por prtons
do solvente.
Para evidenciar tais prtons protegidos, dissolve-se a amostra a ser analisada
em 2H2O e faz-se um espectro bidimensional
de 1H. Se o prton da molcula analisada no
estiver protegido ele trocar quase que
imediatamente por deutrio, proveniente da
2
H2O, desaparecendo seu sinal nos espectros
de 1H-RMN. (o deutrio possui frequncia de
ressonncia bem distinta do seu istopo). A
identificao dos prtons com baixa taxa de
troca por deutrio permite usar restries
estruturais de pontes de hidrognio no clculo
da estrutura da macromolcula em estudo.
As restries de distncia obtidas por
NOEs, assim como de distncia entre prtons
envolvidos em ligaes de hidrognio inferidas pela taxa de troca de hidrognio por deutrio e as restries de ngulos , e 1,
inferidas pelas constantes de acoplamento e
CSI, so ento usadas em protocolos de dinmica molecular realizados por programas
especficos para ajustar a estrutura da protena a estas restries, levando em conta a
obedincia geometria ideal de ngulos e
comprimento de ligaes qumicas e dos raios
de van der Waals dos tomos.
Nestes programas, as molculas so
inicialmente submetidas a uma condio de
alta energia cintica (temperaturas de
50.000 K). Nesta situao, as molculas esto totalmente desprovidas de qualquer estrutura tridimensional predominante, porm
j agregam parmetros estruturais providos
por restries empricas (determinadas por
um campo de fora). Gradualmente, decrescida a temperatura do sistema (geralmente at 0 K), ao passo que so adicionadas
as restries experimentais.
3J
HH2

Atravs deste procedimento, o programa busca conformaes da molcula que satisfaam o mximo possvel s restries
empricas e experimentais. Finalmente permitida uma relaxao da molcula (passo
de minimizao e refinamento estrutural) em
uma temperatura ainda baixa, porm sob
menor influncia das restries de NOE e de
van der Waals, de forma a corrigir pequenas
imperfeies conformacionais da estrutura
como ligaes excessivamente torcidas.
Neste passo final, a relaxao da estrutura
evidenciada pela diminuio da energia do
sistema (energias diretamente relacionadas
com o grau e nmero de violaes das restries empricas e experimentais).
Estes passos so repetidos vrias vezes,
de forma a obter um conjunto de estruturas
(normalmente em torno de 20 estruturas)
que so avaliadas, com auxlio de programas,
quanto existncia de conformaes imprprias ou improvveis. Esta famlia de estruturas determinadas por espectroscopia de RMN
representa uma estrutura tridimensional com
pequena variao do espao conformacional,
que representada por cada uma das estruturas calculadas (exemplo na Figura 10-12).
Estruturas com alta resoluo obtidas por
RMN geralmente possuem um desvio dos
tomos da cadeia principal da protena em
relao a uma estrutura mdia de aproximadamente 0,6 .

12.9. Conceitos-chave
Constante de Boltzmann: uma constante que
relaciona energia, no nvel de partcula individual, com temperatura. Tem um valor
aproximado de 1,3806 10-23 J/K.
Constante de Planck: uma constante de proporcionalidade entre energia e frequncia.
Tem um valor aproximado de 6,6261 1034
J.s.
Constante giromagntica: a razo entre o
momento de dipolo magntico e o momento angular, sendo representada normalmente pelo smbolo gama (). Cada

12. Ressonncia Magntica Nuclear

Figura 10-12: Estrutura 3D da protena Psd1 determinada por RMN. Nesta figura mostrada uma
sobreposio de vinte estruturas obtidas como descrito acima, usando protena nativa, no
enriquecida isotopicamente. Em A, um desenho evidenciando as estruturas secundrias. Em B,
so mostrados apenas os tomos da cadeia principal (verde carbono, azul nitrognio e
vermelho oxignio). Em C, so mostrados todos os tomos (cinza hidrognio e amarelo
enxofre). As estruturas esto com o mesmo alinhamento.
ncleo atmico possui uma constante giromagntica especfica, sendo a principal
razo para que cada ncleo atmico possua uma frequncia de RMN distinta em
um mesmo campo magntico externo.
Correlao heteronuclear: se diz quando conseguida uma relao entre ncleos de tipos distintos de tomos em uma molcula.
Pode ser correlao escalar ou dipolar, ou
seja, dependente ou no dos tomos estarem associados por intermdio de ligaes qumicas.
Correlao homonuclear: se diz quando conseguida uma relao entre ncleos do
mesmo tipo atmico em uma molcula.
Pode ser correlao escalar ou dipolar, ou
seja, dependente ou no dos tomos estarem associados por intermdio de ligaes qumicas.
Projees de Newman: forma de representao
de molculas que evidencia conformaes
em relao a uma ligao carbono-carbono tida como referncia. O carbono proximal representado como um ponto e o
distal como um crculo (ver Tabela 2-12).
Rotmero: uma molcula isomrica em relao rotao ao redor de uma ligao
qumica simples, normalmente entre car-

bonos com configurao de orbital de valncia tipo sp3.


Spin: em mecnica quntica e fsica de partculas, spin uma forma de momento angular intrnseca de partculas elementares,
incluindo o ncleo atmico, quando aplicada para RMN. Em uma das formas de
representao, o spin uma quantidade
vetorial com magnitude e direo. O spin
nuclear identificado pelo nmero quntico de spin e para existir o efeito de RMN
o spin deve ser diferente de zero, condio
alcanada quando o numero de prtons
e/ou nutrons mpar.
Transformada de Fourier: uma manipulao
matemtica normalmente usada para
transformar funes temporais f(t), em
uma funo de frequncia, cuja unidade
geralmente Hertz.

14.10. Leitura recomendada


ALMEIDA, M. S.; et al. Solution structure of
Pisum sativum defensin 1 by high
resolution NMR: plant defensins, identical
backbone with different mechanisms of
action. J. Mol Biol. 315, 749-57, 2002.
SERRANO, P.; et al. The J-UNIO protocol for
automated protein structure determination

12. Ressonncia Magntica Nuclear

by NMR in solution. J. Biomol NMR. 53,


341-354, 2012.
KAY, L. E.; et al. Three-dimensional tripleresonance
NMR
spectroscopy
of
isotopically enriched proteins. J. Mag.
Res. 89, 496514, 1990.
MARKLEY, J. L.; et al. Recommendations for the
presentation of NMR structures of proteins
and nucleic acids. Pure Appl. Chem., 70,
117-142, 1998.
WISHART, D. S.; SYKES, B. D.; RICHARDS, F. M.
Relationship between nuclear magnetic
resonance chemical shift and protein
secondary structure. J. Mol. Biol. 222,
311333, 1991.
WRTHRICH, K. NMR of Proteins and Nucleic
Acids. New York: Wiley, 1986.

13. Cristalografia de Protenas

Fernando V. Maluf
Joo Renato C. Muniz
Glaucius Oliva
Rafael V. C. Guido

Topologia geral dos receptores acoplados protena


G.

13.1. Introduo
13.2. Obteno de protenas
13.3. Expresso
13.4. Purificao
13.5. Cristalizao
13.6. Coleta de dados
13.7. Refinamento, validao e usos
13.8. Conceitos-chave
13.1. Introduo
A cristalografia de raios-X uma cincia
dedicada ao estudo da estrutura molecular e
cristalina, bem como das relaes entre essa
estrutura e suas propriedades. A cristalografia de raios-X moderna apresenta aplicaes
amplas nas cincias dos materiais, qumica,
mineralogia, fsica, matemtica e biologia. Sua
aplicao para determinao da estrutura 3D
de biomolculas, com destaque para as protenas, deu origem cristalografia de protenas, caracterizada como um processo
complexo que engloba uma variedade de estratgias e mtodos tradicionais e modernos,
integrando especialidades como a fsica, qumica, biologia, bioqumica e computao.
A cristalografia de protenas determinou a criao de uma nova rea do conheci-

mento, denominada biologia estrutural. A


biologia estrutural encontra-se na interface
entre a biologia molecular, a bioqumica e a
biofsica, e tem como foco a investigao da
estrutura de macromolculas. A partir desta,
busca-se elucidar a relao entre a estrutura
e a funo de uma determinada molcula. Por
exemplo, a aplicao de mtodos cristalogrficos em macromolculas biolgicas permitiu
o conhecimento da disposio dos tomos
que constituem a estrutura 3D das molculas
de DNA, RNA e protenas. Particularmente no
caso desta ltima famlia de biomolculas,
alm do entendimento do funcionamento dos
organismos e das bases moleculares para a
vida, as informaes oriundas da cristalografia vm sendo extremamente importantes no
desenvolvimento de novos frmacos, como
no caso de inibidores da protease do HIV e de
moduladores de protenas acopladas protena G (GPCR, G protein-coupled receptor).
Os estudos cristalogrficos so componentes fundamentais para o desenvolvimento
e a aplicao de mtodos em bioinformtica,
incluindo a modelagem molecular e o planejamento de frmacos baseado na estrutura
de receptores (SBDD, structure-based drug
design). De fato, diversos mtodos em bioinformtica utilizam como pr-requisito o conhecimento 3D detalhado da macromolcula
em estudo. Essa informao geralmente
adquirida a partir de estruturas depositadas
em bases de dados pblicos, onde podem ser
acessadas livremente, dentre os quais se
destaca o PDB (Protein Data Bank).
Embora a estrutura 3D de macromolculas pode ser obtida atravs de diversos
mtodos experimentais, tais como a ressonncia magntica nuclear (RMN, ver captulo
12) e a criomicroscopia eletrnica, a cristalo-

13. Cristalografia de protenas

grafia de raios-X ocupa papel de destaque. Isto pode ser evidenciado, por exemplo, no fato
de que em janeiro de 2014 o PDB apresentava
aproximadamente 97.000 estruturas de macromolculas depositadas (includas protenas, cidos nucleicos, complexos macromoleculares e polissacardeos), dentre as quais
aproximadamente 90% tiveram sua estrutura
3D determinada pelo mtodo de cristalografia
de raios-X (Tabela 1-13).
Os mtodos e estratgias cristalogrficas para o estudo de macromolculas evoluiram significativamente nos ltimos anos.
Devido aos rpidos avanos tecnolgicos, as
coletas de dados cristalogrficos que eram
realizadas exclusivamente em fontes caseiras
(por exemplo, atravs de um nodo rotatrio)
passaram a ser executada em fontes de alto
brilho e intensidade, tais como laboratrios de
luz sncrotron. Essa evoluo tem como resultado direto um crescimento exponencial no
nmero de estruturas de macromolculas
determinadas anualmente, conforme verificado pelo nmero de estruturas depositadas
no PDB (Figura 1-13). Alm disso, esse cenrio
tem contribudo para o desenvolvimento de
duas abordagens distintas para o estudo de
macromolculas: i) tradicional e ii) larga escala.
A abordagem tradicional consiste em
resolver estruturas de um pequeno conjunto
de macromolculas e seus complexos em um
ambiente onde h ampla integrao dos es-

tudos cristalogrficos com mtodos bioqumicos, biofsicos e de qumica medicinal. Atualmente, projetos extremamente desafiadores em cristalografia tm como foco a
determinao das estruturas de vrus, protenas de membrana e complexos multimoleculares (por exemplo, envolvendo protena-protena,
protenaDNA
e
protenaRNA).
J a abordagem em larga escala consiste na elucidao do genoma estrutural atravs da determinao da estrutura 3D do
maior nmero possvel de protenas constituintes de um determinado organismo. O desenvolvimento da cristalografia em larga
escala (high-throughput crystallography) foi
substancialmente beneficiado pelo surgimento de mtodos automatizados para a cristalizao e coleta de dados, bem como pelo
desenvolvimento de fontes de luz de alto brilho e intensidade (por exemplo, sncrotrons de
3 gerao como o European Synchrotron
Radiation Facility ESRF, na Frana, o
Advanced Photon Source APS, nos EUA e o
SPring-8, no Japo).
As estruturas 3D de protenas determinadas por mtodos cristalogrficos so frequentemente o ponto de partida para a
construo de modelos moleculares que visam elucidar a estrutura e funo de protenas homlogas (como visto no captulo 7) ou
o planejamento de novas molculas bioativas
(como visto no captulo 9). Portanto, o co-

Tabela 1-13: Estruturas de macromolculas depositadas no PDB (estatsticas de janeiro/2014).


Mtodo
experimental

Protenas

c. nucleicos

Complexos
protena-DNA/RNA

Outras
macromolculas

Total

Cristalografia

79.922

1.497

4.162

85.585

RMN

8.990

1.065

197

10.259

Microscopia
eletrnica

496

51

170

717

Hbridos

55

61

Outros

153

13

176

Total

89.616

2.620

4.537

25

96.768

13. Cristalografia de protenas

Figura 1-13: Nmero de estruturas de


macromolculas depositadas no PDB (dados
19722014, http://www.rcsb.org).
nhecimento dos fundamentos, vantagens e limitaes da cristalografia de raios-X fundamental para a seleo criteriosa de
estruturas apropriadas para os estudos em
bioinformtica.
Adicionalmente, esse conhecimento nos
permite uma melhor compreenso e avaliao dos modelos 3D de macromolculas depositados nos bancos de dados. Desse modo,
o presente captulo busca oferecer uma descrio dos mtodos cristalogrficos para a
determinao da estrutura 3D de protenas,
explorando seus princpios e fundamentos,
com especial destaque para os critrios que
devem ser utilizados para a obteno de uma
estrutura por cristalografia de raios-X, bem
como para avaliao da qualidade do modelo
estrutural construdo.

13.2. Obteno de protenas


Uma das etapas fundamentais da biologia estrutural a obteno do alvo molecular
em quantidade e pureza suficiente para os
estudos cristalogrficos (em torno de miligramas de protena com teor de pureza maior

que 95%).
Para contornar este desafio, os projetos
pioneiros de cristalografia de macromolculas (por exemplo, na cristalizao da mioglobina em 1958, da hemoglobina em 1960, da
lisozima em 1965 e da insulina em 1969) utilizaram protenas extradas de fonte natural
(nos casos mencionados, msculo esqueltico
de baleia cachalote, sangue de cavalo, clara
de ovo de galinha, pncreas de porco, respectivamente). Entretanto, a utilizao de
fontes naturais para obteno da macromolcula geralmente inclui algumas limitaes,
dentre as quais destacam-se:
i) baixa concentrao: a pequena quantidade de protena produzida na clulas,
somada distribuio diferenciada nos
tecidos do organismo em estudo acarretam em baixa concentrao de protena para os estudos estruturais;
ii) isoformas e modificaes ps-traducionais: a expresso de isoformas de
uma protena, aliada aos diferentes nveis de modificaes ps-traducionais,
aumentam a heterogeneidade da amostra e dificultam a separao dos componentes
da
soluo.
Essas
caractersticas apresentam impacto
significativo na obteno de protena
com elevado teor de pureza e, consequentemente, na qualidade e formao
dos cristais.
Apesar dessas limitaes, algumas
protenas especficas continuam sendo obtidas a partir de fontes naturais, com destaque
para anticorpos, protenas de membrana e
protenas fngicas envolvidas no processo de
produo do bioetanol. Contudo, a vasta maioria das protenas investigadas por mtodos
cristalogrficos so provenientes de sistemas
heterlogos (isto , expresso realizada em
organismo hospedeiro diferente do organismo alvo) baseados em estratgias de expresso que utilizam a tecnologia do DNA
recombinante.
O avano das tcnicas de DNA recombinante e engenharia gentica, com destaque
para o desenvolvimento da reao em cadeia

13. Cristalografia de protenas

da polimerase (PCR, polymerase chain


reaction) permitiram o desenvolvimento de
mtodos de expresso heterloga altamente
eficientes para a produo de protena pura e
homognea para os estudos estruturais. O
emprego dessa tecnologia determinou mudanas significativas nos paradigmas da cristalografia de protenas, permitindo que a
investigao estrutural de protenas, anteriormente baseada em baixssima quantidades de
protena obtidas no organismo alvo ou dependentes do metabolismo celular, pudesse ser
conduzida rotineiramente. Portanto, o domnio
de tcnicas e mtodos bioqumicos e de biologia molecular tornaram-se componentes essenciais para a determinao estrutural de
macromolculas biolgicas.
Nas prximas sees sero apresentados os mtodos mais utilizados para produo de protena em sistema de expresso
heterlogo para os ensaios de cristalizao.
Contudo, importante mencionar que, embora existam protocolos disponveis para todas
as etapas envolvidas (por exemplo, clonagem, expresso, purificao e cristalizao),
adaptaes podem e devem ser realizadas
para atender as particularidades da protena
em estudo.
A montagem de um sistema de expresso heterloga necessita inicialmente do
fragmento de DNA responsvel pela codificao da protena em estudo. De modo geral, a
pesquisa minuciosa de informaes da literatura indica dados relevantes para o desenvolvimento de protocolos otimizados de
obteno da protena alvo. Nesse sentido, um
protocolo de produo de uma protena homloga pode ser adaptado e utilizado como
ponto de partida para o desenvolvimento de
um novo mtodo de obteno da protena de
interesse. Na ausncia desse tipo de informao qualificada, dados bioqumicos e moleculares como ambiente molecular da protena in
vivo, presena de parceiros fusionados, domnios estruturais, presena de regies flexveis
e peptdeos de sinalizao so extremamente
teis para o planejamento da nova construo
gentica.
Por exemplo, a descrio detalhada dos

domnios constituintes de uma protena uma


informao valiosa que contribui substancialmente para o desenvolvimento de um sistema de expresso heterlogo robusto.
Domnios proteicos, tipicamente, apresentam
capacidade de enovelamento independente,
logo construes gnicas contendo somente
um domnio podem ser estabelecidas.
Alm disso, pode-se utilizar dados moleculares para truncar um domnio em posies especficas e, assim, remover alas
flexveis que dificultariam o processo de cristalizao. Portanto, o planejamento da construo gnica deve ser realizado com base
nos conhecimentos adquiridos sobre o alvo
molecular em estudo e nos objetivos especficos que se deseja alcanar. Nesse contexto,
fortemente recomendada a utilizao de
ferramentas de bioinformtica para auxiliar o
planejamento de construes genticas de
alta eficincia.
Um exemplo de aplicao do conhecimento molecular no desenvolvimento de
construes gnicas para estudos cristalogrficos pode ser observado nos receptores
nucleares. Estes receptores so protenas
multidomnios de grande interesse cientfico,
pois exercerem funo central no controle da
expresso gnica. A complexa organizao
estrutural dos receptores nucleares, representada pelos seus diferentes domnios estruturais (Figura 2-13), exigiu uma anlise
detalhada para a obteno de construes
gnicas capazes de expressar de modo eficiente os diferentes segmentos. As construes planejadas expressaram com sucesso
os domnios isolados dos receptores nucleares, tais como o domnio de complexao ao
ligante do receptor RAR (PDB ID 3LBD) e o
domnio isolado de ligao ao DNA do receptor GR (PDB ID 3FYL), bem como a estrutura
integral do receptor PPAR (PDB ID 3DZU)
que, alm de revelar a organizao estrutural
do receptor, confirmou a integridade e relevncia dos domnios isolados.
As informaes funcionais e estruturais,
extremamente necessrias para elaborao
de construes gnicas eficientes, podem ser
usualmente obtidas atravs de mtodos de

13. Cristalografia de protenas

Figura 2-13: Distribuio representativa dos


domnios de receptores nucleares GR
(receptor de glicocorticoide, do ingls
glucocorticoid receptor), LXR (receptor
heptico X, do ingls liver X receptor) e
PPAR (receptor ativado por proliferador de
peroxissomo,
do
ingls
peroxisome
proliferator-activated receptor ). N indica o
domnio N-terminal, que contm a regio com
a funo de ativao (AF, do ingls activation
function), o domnio de ligao ao DNA (DBD,
do ingls DNA binding domain) e o domnio de
complexao ao ligante (LBD, do ingls ligand
binding domain).
bioinformtica. Por exemplo, h diversos mtodos disponveis para predio de propriedades
moleculares
importantes,
como
ria
distribuio de estrutura 2 , reconhecimento de domnios, presena de peptdeos de sinalizao,
hlices
transmembranares,
ligaes dissulfeto intramoleculares, regies
flexveis e desordenadas, dentre outras.

Construes gnicas
O planejamento e a montagem de construes gnicas para obteno de protenas
envolvem diversos mtodos de manipulao
de DNA e sistemas de expresso. Dentre as
diversas abordagens disponveis para tal, duas estratgias de clonagem sero discutidas
adiante: i) clonagem clssica em sistema de
expresso bacteriano, e ii) clonagem em sistema independente de ligao LIC (ligationindependent cloning). Adicionalmente, estes
mtodos vm sendo facilitados pela disponibilidade cada vez maior de DNA sinttico para
aquisio diretamente de empresas especializadas.
A clonagem clssica inicia-se com o planejamento dos oligonucleotdeos iniciadores

(primers) e da seleo do DNA molde. Os oligonucleotdeos iniciadores so utilizados para


a amplificao por PCR do gene de interesse a
partir do DNA molde. Geralmente, utiliza-se
DNA genmico para organismos procariticos
e bibliotecas de DNA complementar (cDNA)
para organismos eucariticos (Figura 3-13).
O sucesso na amplificao do gene
verificado atravs de anlise eletrofortica
em gel de agarose. Aps purificao, procede-se com a ligao do fragmento amplificado em vetor de clonagem (por exemplo,
TOPO Invitrogen). Vetores de clonagem
apresentam alto nmero de cpias por clula
e so utilizados para a transformao de
bactrias especficas, tais como DH5, Dh10B
e XL1blue, as quais so empregadas para
propagao do gene de interesse e fornecimento de DNA plasmidial. O fragmento de interesse excisado do material obtido atravs
da digesto com endonucleases de restrio.
Essas enzimas reconhecem sequncias de
nucleotdeos especficas, inseridas no fragmento pelos oligonucleotdeos iniciadores,
gerando terminais coesivos ou stick ends.
O fragmento isolado, obtido por separao eletrofortica, posteriormente ligado
em vetor de expresso. A famlia de vetores e
derivados do sistema pET (Novagen) esto
entre os mais utilizados para essa finalidade.
Esses vetores so previamente tratados com
as mesmas endonucleases para a criao de
terminais complementares ao fragmento, o
qual ligado ao vetor com auxlio de uma
DNA ligase. O plasmdeo elaborado ento
introduzido em bactrias de propagao e,
aps confirmao da integridade da construo gnica, os plasmdeos so utilizados para
a transformao de cepas bacterianas especficas para expresso proteica.
O mtodo clssico bastante robusto e
amplamente empregado como alternativa
atrativa na clonagem de genes. Contudo, inclui
diversas etapas e detalhes que limitam sua
aplicao em mdia e larga escala. Nesse
sentido, tendo em vista a necessidade de aumentar a taxa de sucesso na obteno de
protena expressa na forma solvel, com alta
pureza e em grande quantidade, novas estra-

13. Cristalografia de protenas

Figura 3-13: Esquema geral do mtodo de clonagem clssica para expresso heterloga de
protena.
tgias em biologia molecular, capazes de explorar diferentes possibilidades de expresso,
foram desenvolvidas.
As construes gnicas planejadas passaram ento a ser desenvolvidas em paralelo,
aumentando-se as chances de sucesso na obteno de protena com as caractersticas
adequadas para os estudos cristalogrficos
empregando o denominado sistema de clonagem independente de ligao (LIC) (Figura 413).
O sistema LIC diferencia-se do sistema
clssico pela independncia de uma etapa de
ligao com DNA ligase. Adicionalmente, em
algumas adaptaes desse sistema pode-se
evitar tambm o uso de endonucleases de
restrio. Alm disso, apresenta como vantagens: i) facilidade no planejamento do oligonucleotdeo iniciador, que inclui uma
sequncia especfica do sistema para determinado conjunto de vetores, ii) disponibilidade de um nmero significativo de vetores
preparados para este sistema, e iii) versatilidade na obteno de construes gnicas variadas, no havendo a necessidade de etapas
adicionais ou particularidades na utilizao de

um vetor determinado.
Em linhas gerais, aps a amplificao e
obteno do fragmento de interesse atravs
da reao de PCR com os oligonucleotdeos
iniciadores especficos, trata-se o fragmento
com a enzima T4 DNA polimerase na presena de um nico tipo de nucleotdeo (por
exemplo, dATP). A T4 DNA polimerase possui
atividade exonuclease 35 intrnseca, logo
esta aplicao favorece a formao de extremidades salientes ou overhangs, complementares aos vetores utilizados. Em seguida,
o fragmento adicionado ao vetor escolhido,
previamente tratado com T4 DNA polimerase
e mantido em contato a temperatura ambiente. Por fim, essa mistura utilizada na
transformao da bactria de propagao.
Devido ao nmero de bases que so emparelhadas entre vetor e fragmento, atravs de
suas salincias, no se faz necessria a utilizao da DNA ligase, sendo a ligao covalente entre vetor e fragmento estabelecida
pelo prprio sistema de reparo da bactria
transformada.

13. Cristalografia de protenas

Figura 4-13: Esquema geral do mtodo de clonagem independente de ligao (LIC) para
expresso heterloga de protena.

13.3. Expresso
Atualmente, a expresso heterloga a
fonte primria de produo de protenas.
Exemplos de organismos hospedeiros que
emprestam sua maquinaria celular para a
expresso proteica incluem bactrias, protozorios, fungos, clulas de insetos e de mamferos e sistema de expresso independente
de clula hospedeira (cell-free expression),
tambm conhecido como expresso in vitro.
Em um experimento padro de expresso heterloga de protena as clulas hospedeiras so cultivadas at atingirem uma
biomassa crtica, medida pela densidade ptica (DO) da cultura. A partir desse momento
inicia-se o procedimento de induo da expresso da protena de interesse. Nos vetores
bacterianos, um dos mecanismos para controle de induo o operon lac, de forma que
a presena de lactose ou derivados (como a
alolactose) favorece a induo da expresso
da protena atravs da ligao da alolactose
ao repressor do operon. Anlogos otimizados
da alolactose foram desenvolvido e, dentre
eles, o derivado mais utilizado o isopropil-1-

tiol--D-galactopiranosdeo (IPTG). O IPTG se


liga ao repressor lac e induz a superexpresso
da protena de interesse. Como a bactria no
capaz de metaboliz-lo, a concentrao do
agente indutor permanece constante, favorecendo a manuteno dos nveis de expresso.
Parmetros como meio de cultura, aerao, densidade ptica antes da induo, concentrao de agente
indutor, temperatura e tempo de expresso afetam
significativamente a produo de protena solvel.
Dentre eles, a temperatura e a concentrao do agente
indutor esto entre os parmetros de maior impacto
sobre a expresso e, portanto, devem ser cuidadosamente avaliados. Tipicamente, experimentos conduzidos em temperaturas mais baixas (menores que 37C)
determinam uma reduo na taxa de expresso. Contudo, favorecem a obteno de protena enovelada
corretamente.
Paralelamente, diferentes concentraes do agente
indutor devem ser testadas para a identificao das
condies ideais que determinam um nvel de expresso adequado para os estudos cristalogrficos. Entretanto, frequentemente, a protena de interesse no
obtida na forma solvel, seja pelo enovelamento incorreto ou pelo acmulo em corpos de incluso. Nesses
casos, pode-se recuperar a protena da frao insol-

13. Cristalografia de protenas

vel atravs de tcnicas de solubilizao dos corpos de


incluso, como atravs do emprego de detergentes, e
de re-enovelamento (refolding).
Por outro lado, se o enovelamento no foi atingido
com sucesso ou a protena expressa no funcional
devido ausncia de modificaes ps-traducionais,
uma alternativa a expresso em clulas eucariticas.
Para esses casos so recomendados sistemas de expresso em clulas de fungo, protozorio, mamfero
ou inseto.

A escolha do sistema de expresso (vetor + organismo de expresso) depende de


vrios fatores. Por exemplo, em relao ao
vetor de expresso, dependente do organismo de expresso, h diversas opes disponveis com estruturas moleculares similares,
mas que diferem em relao ao mecanismo
de regulao, stios de restrio, antibitico
de resistncia, presena de protenas acessrias e facilitadores de purificao.
Em relao escolha do organismo de
expresso, um dos aspectos mais importantes a ser considerado consiste na necessidade
de modificaes ps-traducionais, isto , modificaes na estrutura proteica aps sntese
como enovelamento mediado por chaperonas, formao de pontes dissulfeto, glicosilao e etc. Por exemplo, o sistema bacteriano
(procaritico) no capaz de glicosilar protenas de eucariotos. Portanto, caso seja necessria a realizao desta ou modificaes
ps-traducionais no realizadas por bactrias
deve-se optar por sistemas mais adequados
para essa finalidade.
Devemos observar que a ausncia de
modificaes ps-traducionais pode determinar a produo de uma protena no funcional
ou, at mesmo, enovelada incorretamente.
Por outro lado, estratgias de cristalizao
podem explorar caractersticas como a incapacidade do sistema bacteriano de realizar
glicosilaes como as vistas em eucariotos.
Nesse sentido, a ausncia de modificaes
ps-traducionais pode ser benfica para o
processo de cristalizao, uma vez que alteraes desse tipo aumentam a heterogeneidade intrnseca da protena em soluo, tendo
impacto direto no processo de cristalizao.

Sistema de expresso em bactrias


O sistema de expresso mais utilizado
o bacteriano, sendo a Escherichia coli o organismo de primeira escolha para expresso de
protena para estudos cristalogrficos. A E.
coli responsvel pela produo de mais de
85% das protenas depositadas no PDB (dados jan/2014), fato relacionado s caractersticas do organismo, tais como: i)
crescimento rpido; ii) baixa virulncia; iii) facilidade de manipulao; iv) elevada produo
de protenas recombinantes.
Atualmente, existe uma variedade significativa de cepas modificadas e otimizadas
para expresso bem sucedida de protenas
recombinantes, com destaque para aquelas
derivadas
da
cepa
BL21,
Rosetta

(Novagen ), Origami (Novagen ), B834


(Novagen) e cepas que apresentam o plasmdeo pLysS.
A cepa Rosetta possibilita rendimentos elevados
na produo de protenas eucariticas que apresentam
cdons raros. Essa caracterstica est relacionada
presena do plasmdeo pRARE, que suplementa a bactria com RNAs transportadores (RNAt) para esses
cdons.
A cepa Origami indicada para aumentar o rendimento de protena enovelada e funcional dependente
da formao de ligaes dissulfeto. Para tanto, possui
mutantes das protenas tiorredoxina redutase e glutationa redutase que favorecem a formao dessas ligaes no citoplasma.
A cepa B834 e similares, auxotrficas para a produo de metionina, so teis para a produo de protenas
contendo
o
aminocido
modificado
selenometionina, apresentando-se como alternativa
atrativa e relevante para a determinao estrutural de
protenas como, por exemplo, na obteno experimental de fases utilizando o sinal anmalo do tomo Se.
Por fim, as cepas que contm o plasmdeo pLysS
so adequadas para a produo de protenas txicas
para a bactria. A presena do plasmdeo determina
que os nveis de expresso basais sejam reduzidos ao
mximo, evitando-se assim danos celulares.

Sistema de expresso em fungos


As clulas fngicas tm sido ampla-

13. Cristalografia de protenas

mente empregadas como um bem sucedido


sistema de expresso alternativo para protenas de interesse cristalogrfico. Entre as cepas mais populares destacam-se as leveduras
Saccharomyces cerevisiae e Pichia pastoris,
alm dos fungos filamentosos Aspergillus
niger e Trichoderma reesei.
As principais caractersticas da utilizao das clulas fngicas para expresso consistem em: i) baixo custo para o cultivo; ii)
elevada densidade celular, embora necessite
de um tempo maior para obteno da densidade adequada quando comparado s bactrias; iii) rendimento satisfatrio, alcanando
desde mg/L at g/L de cultivo; iv) possibilidade de modificaes ps-traducionais; v) introduo de marcadores para secreo da
protena no meio de cultura.
Em geral, a cepa selecionada direciona a montagem
da construo gnica. Sendo assim o vetor, o marcador
molecular de secreo da protena de interesse e o
padro de modificaes ps-traducionais so
especficos para a cepa utilizada. Alm disso, os procedimentos e infraestrutura para o emprego desse sistema so mais sofisticados e demandam maior tempo,
havendo necessidade de avaliar os transformantes para encontrar uma cepa com nveis de expresso elevados.

Sistema de expresso em clulas de


mamferos
A produo de protena recombinante
em clulas de mamferos realizada com sucesso em alguns casos, produzindo-se protenas funcionais especialmente quando os
alvos so de origem humana. As linhagens
celulares comumente empregadas para expresso de protena so as clulas embrinicas de rim humano 293 (HEK 293, human
embryonic kidney 293), clulas do ovrio de
hamsters (CHO, chinese hamster ovary) e COS
(clula tipo fibroblastos derivadas de rim de
macaco).
A principal vantagem desse sistema de
expresso consiste na obteno de protenas
complexas enoveladas corretamente, por
exemplo, como no caso do segmento extracelular da integrina V3, PDB ID 1JV2. Dentre

as limitaes, contudo, pode-se mencionar: i)


custo elevado de produo, devido s particularidades do cultivo desse tipo celular e o
baixo rendimento obtido; ii) incapacidade de
produo de protenas txicas para o hospedeiro; iii) dificuldade de adaptao a sistemas
de triagem em larga escala (HT, highthroughput).

Sistema de expresso em clulas de


insetos
Uma alternativa para produo de protenas em clulas de mamferos a utilizao
de clulas de insetos, capazes de realizar
modificaes
ps-traducionais
similares
quelas promovidas por clulas de mamferos.
A principal linhagem celular utilizada a
Spodoptera frugiperda, sendo a expresso
mediada pela infeco das clulas por um baculovrus que funciona como o vetor de expresso. Dentre as vantagens desse sistema,
em relao s clulas de mamferos, citamse: i) maior rendimento na produo de protena recombinante; ii) pode ser adaptado para ensaios HTS; iii) possibilidade de trabalhar
com linhagens adequadas cultura em suspenso, permitindo o uso de biorreatores.

13.4. Purificao
A pureza da amostra um dos principais
fatores que influenciam o processo de cristalizao de macromolculas. Nesse sentido,
fortemente recomendvel que a protena em
estudo apresente o maior teor de pureza
possvel, sendo essa caracterstica dependente de procedimentos de purificao robustos e eficazes. Estes, por sua vez,
dependem da estratgia de clonagem e sistema de expresso da protena.
A primeira etapa do processo de purificao a lise da clula de expresso. O processo de lise celular bastante crtico pois,
dependendo das condies no qual realizado
(tais como o mtodo de lise, agente tamponante, pH, presena de cofatores, detergentes
e temperatura) a protena pode ser degrada-

13. Cristalografia de protenas

da ou acumular-se na frao insolvel. Assim,


faz-se necessrio avaliar criteriosamente as
melhores condies de lise.
Frequentemente, a etapa seguinte consiste na precipitao fracionada das protenas
na mistura proveniente da lise celular. Esse
procedimento realizado atravs da adio
de um sal, como o sulfato de amnio, ou de
um solvente orgnico, como o etanol. Com os
avanos das tcnicas e mtodos de expresso
recombinante, vetores de expresso modernos permitem a incluso de facilitadores da
purificao. Nesse sistema, as protenas so
expressas com marcadores (tags) que possibilitam o emprego de mtodos cromatogrficos (particularmente cromatografias de
afinidade) para a captura seletiva da protena
de interesse.
O tipo de mtodo cromatogrfico a ser
empregado depende do marcador vinculado
ao vetor do sistema de expresso. Esses
marcadores variam desde oliogopeptdeos,
como uma cauda de hexahistidina (6xHis), at
protenas fusionadas de elevada massa molecular, como a glutationa-S-transferase
(GST). A cromatografia de afinidade por on
metlicos imobilizados comumente utilizada
para purificao de protenas expressas com
cauda de hexahistidina.
Aps a etapa de cromatografia de afinidade deve-se decidir sobre a manuteno ou
remoo do marcador. No h evidncias claras sobre o impacto do marcador para o processo de cristalizao, contudo, geralmente
remove-se os marcadores de elevada massa
molecular e avalia-se a influncia dos de pequena massa molecular.
A remoo do marcador ou clivagem
realizada pelo tratamento da amostra com
enzimas proteolticas, como trombina, fator
Xa, enteroquinase, TEV protease e SUMO
protease. A seleo da enzima determinada
pela estratgia de clonagem e vetor utilizado,
uma vez que este contm sequncias de reconhecimento especficas para determinadas
proteases.
Nesse momento, uma segunda etapa de
cromatografia de afinidade deve ser utilizada
para separar a protena de interesse dos

marcadores e das protenas no digeridas pela protease. Subsequentemente, uma etapa


de cromatografia de excluso por tamanho,
tambm conhecida por gel filtrao, necessria para a purificao final da amostra.
O mtodo de gel filtrao permite ainda
a avaliao da homogeneidade da amostra em
relao aos estados oligomricos existentes
em soluo, o que pode ter implicaes importante na compreenso da biologia estrutural da protena em estudo. Alm disso,
pode-se empregar essa tcnica para realizar a
troca da soluo tamponante para uma mais
adequada para os ensaios de cristalizao.
importante mencionar que, alm da
cromatografia de afinidade e de gel filtrao,
outros mtodos cromatogrficos so frequentemente empregados para aumentar o
teor de pureza da protena em estudo, tais
como a cromatografia de troca inica e a
cromatografia de interao hidrofbica. Essas
tcnicas so aplicadas amostra proteica nos
casos em que a pureza obtida no tenha atingido os nveis necessrios para os estudos
cristalogrficos.
O teor de pureza recomendado para
cristalografia de protenas superior a 95%.
Contudo, faz-se necessrio esclarecer que a
cristalizao , em si, um mtodo de purificao, de forma que no h regra absoluta sobre a pureza da amostra. Comumente,
avalia-se a pureza da protena atravs de
anlise eletrofortica desnaturante em gel de
poliacrilamida (SDS-PAGE), cujo resultado
ideal a presena de uma banda nica correspondente protena de interesse na forma
pura (Figura 5-13). Mtodos alternativos como anlises eletroforticas no desnaturantes e ensaios de espalhamento dinmico de
luz (DLS, dynamic light scaterring) so frequentemente empregados para assegurar o
teor de pureza e homogeneidade da soluo
em estudo.

13.5. Cristalizao
A obteno de cristais adequados para
os experimentos de difrao de raios-X fundamental para a determinao da estrutura

13. Cristalografia de protenas

Figura 5-13: Gel representativo de anlise


eletrofortica desnaturante em SDS-PAGE
para a enolase de Plasmodium falciparum.
Da esquerda para direita esto apresentados
o marcador de massa molecular (MK), a
frao insolvel (FI), a frao solvel (FS), a
passagem livre pela coluna de afinidade (PC),
a eluio da coluna de afinidade (ECA), o
tratamento com TEV protease (TT), a eluio
da segunda coluna de afinidade (2ECA) e a
eluio da gel filtrao (GF).
tridimensional de macromolculas. O fenmeno de cristalizao ocorre quando a molcula em estudo precipita de modo lento e
ordenado, formando cristais (Figura 6-13). O
processo ocorre em condies controladas,
incluindo uma soluo supersaturada da protena de interesse, agentes precipitantes,
condies controladas de temperatura, fora
inica e em pequenos intervalos de variao
de pH.
Os cristais so caracterizados por arranjos peridicos constitudos de unidades
formadoras, que podem variar desde uma
nica molcula at grandes complexos macromoleculares, tais como ribossomos ou
ainda um capsdeo viral.
As interaes qumicas entre as molculas que constituem as unidades formadoras
de cristais proteicos so de baixa energia, tais
como interaes dipolo-dipolo, interaes por
ligao de hidrognio, interaes eletrostticas e interaes de van der Waals. Como resultado dessa rede de interaes de baixa
energia e alto contedo de solvente (~50%),
cristais de protenas mostram-se extrema-

Figura 6-13: Exemplos de cristais de protenas.


mente frgeis quando comparados a cristais
de sais inorgnicos.
O tamanho dos cristais de protena
bastante varivel, com dimenses entre 1 e
500 m. Adicionalmente, suas caractersticas
macroscpicas so, na maioria das vezes,
consequncia da ordem (ou simetria do grupo
espacial) no qual as molculas se empacotaram no retculo cristalino.
As propriedades da protena, como distribuio de cargas na superfcie, presena de
regies flexveis e distribuio de conformaes tm impacto significativo no fenmeno
de cristalizao. Esse processo ocorre a partir
de uma soluo supersaturada de protena,
sendo a velocidade com que se atinge esse
estado essencial para a formao de cristais,
microcristais ou precipitado amorfo.
A cristalizao de macromolculas biolgicas uma tcnica baseada na tentativa e
erro por se tratar de um processo complexo
e multiparamtrico. Parmetros de carter
fsico (como temperatura, presso, superfcie
da molcula e tempo) e qumico (como pH,
agente precipitante, forca inica, grau de supersaturao, pureza da amostra, estado de
agregao, ponto isoeltrico e presena/ausncia de estabilidade) interferem diretamente na formao de um cristal, de maneira que
os diversos mtodos utilizados exploram esse espao multiparamtrico com o objetivo de
examinar os efeitos de combinaes dessas

13. Cristalografia de protenas

variveis. Esses mtodos so geralmente


aplicveis maioria das protenas, DNAs,
RNAs e complexos multimoleculares.
Dentre os parmetros que podem apresentar impacto direto no processo de cristalizao merece destaque a temperatura, capaz
de alterar a curva de solubilidade da protena
e a cintica de equilbrio e nucleao. As temperaturas amplamente empregadas para
cristalizao de protenas so de 18 C e 4 C
embora, quando possvel, recomenda-se avaliar a influncia de temperaturas alternativas.
No processo de cristalizao, a vasta
maioria das interaes entre as molculas de
protenas ocorrem na superfcie das mesmas.
Portanto, a presena ou ausncia de algumas
caractersticas podem ser fundamentais para
obteno de um cristal, destacando-se a
presena de regies desordenadas ou muito
flexveis e distribuio dos resduos
superficiais que contribuem para a carga total
e entropia do sistema. A distribuio de
algumas propriedades, calculadas a partir da
sequncia de aminocidos do alvo proteico,
como nmero de aminocidos, ponto
isoeltrico, tamanho da maior regio
desordenada, estabilidade, presena de
domnios coiled coil, entre outras, tem sido
empregada na avaliao do potencial de
cristalizao
ou
cristalizabilidade.
Ferramentas
computacionais,
como
o
XtalPred, avaliam essas propriedades e as
comparam com aquelas disponveis em banco
de dados de protenas cristalizadas para
predizer a capacidade da protena de interesse
de cristalizar.
Independentemente da origem e das
particularidades da macromolcula em estudo, alguns parmetros importantes favorecem a produo de cristais adequados aos
estudos de difrao de raios-X, com destaque
para: i) a quantidade de protena, necessria
para garantir amostra suficiente durante os
experimentos, e ii) a pureza da amostra. Embora existam casos de cristalizao a partir
de extratos brutos (como o caso da lisozima, da ferritina e da mioglobina), a probabilidade de sucesso nos experimentos de
cristalizao aumenta significativamente com

o emprego de protena com elevado teor de


pureza.
A soluo de protena inicialmente empregada em ensaios de cristalizao apresenta concentrao abaixo do limite de
solubilidade, ou seja, constitui uma soluo
insaturada. Logo para que a cristalizao
ocorra necessrio que essa soluo se torne supersaturada (Figura 7-13). Nesse sentido, deve-se aumentar a concentrao da
soluo de protena atravs da remoo do
solvente e da incluso de agentes precipitantes, capazes de reduzir a solubilidade da protena. O sistema ento evoluir para um
estado mais concentrado, que ultrapassar o
limite de solubilidade e constituir uma soluo supersaturada.

Figura 7-13: Diagrama de fase mediado por


agente precipitante e concentrao proteica
para a cristalizao.
A anlise do diagrama de fase representado na Figura 7-13 revela trs regies distintas:
i) regio azul, caracterizada pela presena de soluo insaturada (protena solvel). Nessa regio no
h formao e crescimento de cristais;
ii) regio verde, caracterizada pela soluo saturada metaestvel, subdivida nas sub-regies iia e iib;
iia) abaixo da linha central verde no haver formao e crescimento de cristais devido ausncia de
ncleos cristalinos;
iib) acima da linha verde a formao de cristais torna-se favorvel, pois ocorre o fenmeno de nucleao de maneira espontnea. Nessa regio a barreira
energtica vencida, permitindo que o sistema reti-

13. Cristalografia de protenas

re protena da soluo e forme os ncleos cristalinos. Este processo acompanhado pela diminuio
da concentrao de protena em soluo, e o sistema evoluir para o equilbrio que favorece o crescimento dos cristais a partir dos ncleos formados;
iii) regio vermelha, caracterizada pela presena
de soluo hipersaturada. Nessa regio ocorre precipitao espontnea da protena de forma desordenada.
As condies favorveis para o processo de nucleao e crescimento de cristais devem ser avaliadas
cuidadosamente. Nesse contexto, podem-se identificar
condies favorveis para o crescimento do cristal que,
contudo, no so favorveis para a nucleao. Da mesma forma, pode-se obter condies favorveis para a
nucleao intensa da protena que, por sua vez, impedem o crescimento dos cristais. Existem diversas tcnicas para contornar os problemas especficos de cada
caso, buscando-se a obteno de cristais adequados
para os estudos cristalogrficos.

Processo fsico-qumico
A cristalizao pode ser descrita como um processo fsico-qumico envolvendo os seguintes componentes energticos:
Gcrist = Hcrist - T(Sprotena + Ssolvente)
O termo entlpico (Hcrist) apresenta contribuies
modestas ao processo de cristalizao, uma vez que
proveniente de um pequeno nmero de interaes moleculares de baixa intensidade, estabelecidas entre as
macromolculas para a formao do cristal.
Paralelamente, esse processo determina a perda de
liberdade de translao e rotao das macromolculas
quando comparadas s suas formas livres em soluo.
Perde-se ainda a flexibilidade de algumas alas devido
ao empacotamento estabelecido sendo, portanto, um
processo entropicamente desfavorvel (Sprotena > 0).
Por outro lado, a cristalizao da macromolcula libera uma quantidade significativa de molculas de
guas previamente ordenadas ao redor de resduos hidrofbicos e polares, o que promove um ganho entrpico considervel (Ssolvente < 0) que torna o processo de
cristalizao espontneo (Gcrist < 0).
A compreenso dos componentes energticos de
fundamental importncia para o favorecimento do

processo de cristalizao. Atualmente, altera-se a capacidade de cristalizao de protenas atravs de mutaes especficas de resduos localizados na superfcie
da macromolcula de forma a interferir nestes componentes, favorecendo a cristalizao. Exemplos
relevantes dessa estratgia incluem modificaes de
resduos de aminocidos com termo entrpico elevado,
especialmente, resduos de lisinas e cidos glutmicos.
Estes resduos possuem cadeias laterais longas e, por
sua disposio preferencial pela superfcie proteica,
normalmente caracterizam-se por elevada entropia
conformacional. Desta maneira, a troca por resduos
com menor entropia associada, como exemplo
resduos de alanina, minimizam a perda de entropia
durante o empacotamento, favorecendo ainda mais o
processo de cristalizao (Gcrist << 0).
O planejamento de mutaes com objetivo de aumentar o potencial de cristalizao de um alvo macromolecular auxiliado pela disponibilidade de
servidores gratuitos na internet. Um exemplo importante o SERp da Universidade da Califrnia (UCLA).
Esse servidor emprega o mtodo de reduo da entropia de superfcie (SER, surface entropy reduction) que,
em linhas gerais, realiza a previso de estrutura 2ria a
partir da sequncia de aminocidos e, com base nesse
resultado, estabelece o perfil entrpico da protena,
sugerindo resduos cuja mutao poderia beneficiar o
processo de cristalizao.

Mtodos de cristalizao
Uma vez obtida a protena de interesse
com teor de pureza adequado, tem-se diversas alternativas disponveis para a cristalizao. Em comum, estes mtodos envolvem a
mistura da soluo pura de protena com solues de cristalizao, contendo agentes
precipitantes variados.
Em seguida, mantm-se a mistura em
um sistema fechado e isolado para estabelecimento do equilbrio e consequente cristalizao. A seleo da estratgia de
cristalizao depende de fatores como o objetivo de aplicao (por exemplo, a triagem
inicial de condies ou a otimizao de cristais) e caractersticas do ensaio (como a facilidade de resgate dos cristais da gota de
cristalizao, o nmero de experimentos e a
possibilidade de automao, dentre outros).

13. Cristalografia de protenas

O mtodo de difuso de vapor baseia-se


no equilbrio entre duas solues atravs da
fase de vapor em sistema fechado. A soluo
menos concentrada perde seu solvente voltil
at que os potenciais qumicos das duas solues se igualem. Para se controlar a concentrao final da soluo de protena, realiza-se
o experimento de difuso de vapor com um
volume pequeno de protena contra um volume grande de soluo precipitante. Assim,
uma gota de soluo da protena a ser cristalizada adicionada soluo tampo contendo agentes precipitantes e aditivos (por
exemplo, em uma diluio 1:1). Em seguida,
essa gota equilibrada contra um reservatrio contendo uma soluo de agentes precipitantes a uma concentrao maior que a da
gota com protena. O mtodo de difuso de
vapor pode ser conduzido de duas maneiras
principais: a gota suspensa (hanging drop) e a
gota assentada (sitting drop) (Figura 8-13).
No mtodo gota suspensa, a gota contendo a protena de interesse colocada sobre uma lamnula de vidro siliconizada e,
posteriormente, vedada com o auxlio de graxa especial na parte superior do poo, como
aquele em uma placa de 24 poos, de forma
que a gota fique interna ao reservatrio (Figura 8-13).
Entre as vantagens dessa metodologia
destaca-se a facilidade e versatilidade de
aplicao. Entre as limitaes encontra-se o
custo elevado das lamnulas, a impossibilidade de automao e a dificuldade de montagem das gotas quando um dos agentes
precipitantes promove perda da tenso superficial.
No mtodo gota assentada, a soluo
contendo a protena colocada sobre um suporte fixado no centro do poo, o qual posteriormente vedado com o auxlio de fita
adesiva apropriada (Figura 8-13).
Entre as principais vantagens desse
mtodo destaca-se a capacidade para desenvolvimento de experimentos automatizados e
miniaturizados, com a utilizao de placas de
96, 384 e 1536 poos, empregando com gotas de at 50 nL. Entre suas limitaes temse o tempo de espera entre a montagem de

Figura 8-13: Mtodos de cristalizao que


utilizam a tcnica de difuso de vapor.
uma gota e a etapa de vedao da placa, que
deve ser suficientemente rpido para impedir
que a gota evapore totalmente, e a possibilidade de alguns cristais ficarem aderidos
superfcie da placa.
A escolha do mtodo est associada ao
propsito do ensaio. Assim, experimentos de
triagem de condies de cristalizao so tipicamente conduzidos com o emprego do
mtodo da gota assentada, enquanto para
etapas de reproduo de cristais e otimizao
de condies utiliza-se o mtodo da gota suspensa.
Adaptaes e estratgias diferenciadas
so frequentemente empregadas nesses mtodos, buscando modificar os estados iniciais
e finais do sistema e a cintica de equilbrio.
Por exemplo, podem ser empregadas propores distintas de soluo de cristalizao
e soluo proteica, como 1:2, 2:1 e 1:3, alm
da utilizao de leos permeveis e impermeveis sobre a soluo do reservatrio.
Mtodos alternativos de cristalizao de protenas
incluem o batch, a microdilise e a interfase livre de difuso (Figura 9-13).
O mtodo batch emprega concentraes de soluo de protena e agentes precipitantes adequadas para gerar uma nova soluo proteica supersaturada. A
soluo resultante ento coberta por leo imper-

Figura 9-13: Exemplos de mtodos de


cristalizao alternativos empregados em
cristalografia de protena.

13. Cristalografia de protenas

mevel, que dificulta a difuso de vapor e, dessa


forma, isola o sistema para que se atinja o equilbrio.
Consequentemente, favorecida a cristalizao da
macromolcula (Figura 9-13). Variantes dessa tcnica
utilizam leos permeveis, como silicones, que determinam novas condies de equilbrio para a formao
de cristais de boa qualidade.
A microdilise permite a troca do solvente e do
agente precipitante presente na soluo proteica com a
soluo do reservatrio atravs de uma membrana
semipermevel, favorecendo a reduo ou aumento
das concentraes e, consequentemente, a cristalizao.
Na interfase livre de difuso a soluo de protena e
a soluo de cristalizao so acondicionadas em capilares que permitem o contato das solues em apenas
uma pequena superfcie (interface de contato), de forma que o equilbrio atingido aps a difuso lenta de
uma soluo na outra. Nesse experimento, avalia-se o
perfil de solubilidade da protena em gradiente de concentrao para identificao da condio mais favorvel para a cristalizao.

A automatizao das etapas de montagem e observao dos cristais tem favorecido


significativamente os experimentos de cristalizao, propiciando:
i) ganho de agilidade e preciso na
montagem dos cristais, particularmente
importantes em trabalhos com protenas sensveis e instveis e na reprodutibilidade dos cristais;
ii) miniaturizao;
iii) reduo no custo e consequente
possibilidade de aumento no nmero de
ensaios realizados para o mesmo alvo;
iv) viabilizao de estudos de cristalizao para protenas cuja expresso seja
bastante reduzida ao permitir a manipulao dos pequenos volumes envolvidos.

Reagentes para cristalizao


As solues de cristalizao contm reagentes que podem ser agrupados em classes
distintas:
agentes
tamponantes
(responsveis por manter o pH adequado da
soluo de cristalizao), aditivos (facilitam
e/ou otimizam o processo de cristalizao) e

precipitantes (reduzem a solubilidade da protena).


O agente tamponante fundamental no
processo de cristalizao por manter constante o pH da soluo e, consequentemente,
estabilizar a distribuio de cargas dos resduos na superfcie da protena. Alm disso, o
agente tamponante pode alterar a solubilidade da protena favorecendo o processo de
cristalizao quanto empregados em concentrao adequada.
Os aditivos so compostos capazes de
permitir, facilitar ou aperfeioar o processo
de cristalizao como, por exemplo, cloreto
de magnsio, L-prolina, ATP e NAD. Esses
compostos apresentam propriedades distintas, que favorecem o processo de cristalizao. Por exemplo, detergentes estabilizam a
estrutura e impedem a agregao de protena, enquanto ligantes e ons metlicos podem
promover contatos intermoleculares adicionais ou ainda alterar a polaridade do meio. Diante da impossibilidade de prever o efeito de
determinado aditivo sobre a cristalizao, deve-se avaliar a influncia desses compostos
atravs de triagem sistemtica. Para tanto, h
disponveis kits comerciais j preparados para
aplicao.
Os agentes precipitantes podem ser divididos em duas classes: sais inorgnicos e
compostos orgnicos. A utilizao de sais como agentes precipitantes est relacionada a
dois fenmenos conhecidos como salting-in e
salting-out. O primeiro favorece o aumento da
solubilidade da protena atravs do acrscimo
de pequenas quantidades de sal, enquanto o
segundo favorece a diminuio da solubilidade
da protena por acrscimos de quantidades
elevadas de sal. Sais como o sulfato de amnio, cloreto de sdio e citrato de sdio esto
entre os amplamente empregados como
agentes precipitantes.
Na classe dos precipitantes orgnicos
destacam-se os polmeros de polilcoois, com
nfase para o polietilenoglicol (PEG) e polietilenoglicol monoetil ter (PEGMME), que
apresentam comprimentos de cadeias variveis, variando de 200 a 20.000 Da de massa
molecular mdia. Os representantes mais

13. Cristalografia de protenas

populares dessa classe so os PEGs 3.350,


4.000 e 8.000. O mecanismo de reduo de
solubilidade por estes compostos atribudo
competio dos substituintes hidroxilas com
os resduos da protena pelas molculas de
gua disponveis.
Adicionalmente, alguns lcoois de pequena massa molecular tm sido empregados com sucesso como agentes precipitantes.
Estes compostos so capazes de reduzir a
concentrao de protena pela alterao da
polaridade da soluo de cristalizao.
Exemplos de destaque dessa categoria incluem o isopropanol, 2-metil-2,4-pentanodiol
(MPD), 1,6-hexanodiol e glicerol.

Estratgias para cristalizao de


protenas

encontra aplicao quando a disponibilidade


de amostra restringe o nmero de ensaios
que podem ser conduzidos.
Devido s caractersticas do processo
automatizado de montagem dos experimentos de cristalizao, a estratgia mais empregada em triagens iniciais a matriz esparsa,
que apresenta aspectos semelhantes ao fatorial incompleto. Para a elaborao dessa
estratgia, um estudo estatstico que incluiu
mais de 500 protenas, 480 condies de
cristalizao e mais de 500.000 experimentos foi conduzido pelo centro de genmica
estrutural Joint Center for Structural
Genomics (JCSG San Diego, Califrnia, EUA).
Esse estudo resultou na seleo de 384 condies com maior probabilidade de sucesso
para a cristalizao de macromolculas.

Atualmente, as etapas iniciais de triagem para identificao de condies de cristalizao promissoras empregam solues de
cristalizao isoladas ou reunidas de acordo
com as caractersticas fsico-qumicas. Essas
solues so produzidas e comercializadas
por empresas especializadas, tais como
Hampton Research, Molecular Dimensions,
Qiagen e Jena Biosciences.
Dentre os formatos e estratgias disponveis destaca-se a triagem em rede (grid
screen), capaz de fornecer informaes importantes de modo rpido, sendo por isso
amplamente aplicada em triagens iniciais.
Nesse experimento, avaliam-se sistematicamente dois fatores em paralelo como, por
exemplo, variaes simultneas de pH/PEG,
pH/cloreto de sdio e pH/sulfato de amnio,
dentre outras combinaes.
Uma estratgia alternativa para identificao de condies promissoras para a cristalizao consiste na utilizao de solues
fatoriais. Nessa abordagem, busca-se balancear a ocorrncia de algumas caractersticas
principais e suas combinaes durante o processo de amostragem atravs do planejamento fatorial. A utilizao de fatoriais
incompletos reduz a quantidade de parmetros avaliados e, com isso, o nmero de experimentos realizados. Essa alternativa

Para a realizao dos ensaios de cristalizao h


necessidade de soluo de protena com a mxima pureza disponvel e concentrao adequada. A concentrao mdia utilizada para determinao das estruturas
de protenas depositadas no PDB de 14 mg/mL. No
entanto, h exemplos de estruturas cristalizadas entre
2 e 100 mg/mL. Como regra geral, emprega-se a concentrao de 10 mg/mL em ensaios iniciais de cristalizao.
Aps a montagem dos experimentos, as placas de
cristalizao devem ser acondicionadas em ambiente
adequado, com baixa vibrao e temperatura controlada, para que o sistema evolua em direo condio
de equilbrio.
Tradicionalmente, a observao das gotas realizada atravs de anlise visual com o auxlio de uma lupa.
Contudo, equipamentos modernos e programas de reconhecimento de padres tm sido desenvolvidos e
aplicados na inspeo e aquisio de imagens, onde fotos de cada uma das gotas do experimento de cristalizao so obtidas e analisadas automaticamente.
Como regra geral, observa-se o experimento imediatamente aps sua montagem (t = 0), seguida de mais 10
observaes ao longo do experimento, com intervalos
menores no incio e mais prolongados ao final.
As observaes devem ser registradas adequadamente para avaliao e identificao das condies
mais promissoras para cristalizao. Os kits comerciais
fornecem tabelas prprias com sistemas de pontuao
para facilitar a interpretao e anlise dos resultados.
Adicionalmente, programas tm sido utilizados como

13. Cristalografia de protenas

ferramentas eficientes para avaliao dos dados e


proposio de novos experimentos.

O objetivo dos experimentos de cristalizao a obteno de cristais adequados para os ensaios de difrao de raios-X. No
entanto, os resultados observados podem ser
bastante variados, incluindo-se:
i) cristais bem formados, com arestas e
faces definidas (Figura 10A-13);
ii) cristais com crescimento em duas dimenses, denominados de placas (Figura 10B-13);
iii) cristais com crescimento em apenas
uma dimenso, denominados de agulhas
(Figura 10C-13);
iv) precipitados leves e intensos (Figuras
10D-13 e 10E-13, respectivamente);
v) separaes de fase (Figura 10F-13);
vi) aglomerados de agulhas (Figura 10G13);
vii) microcristais (Figura 10H-13).
Com exceo de alguns casos nos quais os cristais
obtidos na etapa de triagem podem ser considerados
adequados para os experimentos de difrao de raiosX, a obteno de uma condio promissora seguida
por etapas de otimizao. Embora o nmero de parmetros a serem investigados nessa etapa seja elevado,
costuma-se explorar a concentrao dos reagentes iniciais (incluindo a concentrao de protena), a proporo entre a soluo de protena e a soluo de

cristalizao, o agente tamponante e o pH da soluo, a


presena de aditivos e detergentes e a cintica de equilbrio, entre outros. Essa investigao se estende at a
identificao de condies otimizadas de cristalizao,
capazes de fornecer cristais apropriados e de boa qualidade para os experimentos de difrao de raios-X.

13.6. Coleta de dados


Uma vez que cristais adequados so
produzidos, eles podem ser testados quanto
sua capacidade de difrao de raios-X e, em
seguida, serem empregados na coleta de dados cristalogrficos.
O uso da difrao de raios-X na obteno de informao sobre a estrutura de molculas baseia-se na propriedade do padro
de difrao da distribuio eletrnica dos
tomos em um objeto poder ser aproximado
pela transformada de Fourier do mesmo. Por
outro lado, a transformada inversa de Fourier
do padro de difrao a distribuio eletrnica dos tomos do cristal de protena.
O fenmeno de difrao depende da interao entre a radiao eletromagntica
com a matria do objeto e da disperso dessa
radiao ao incidir sobre este. Embora existam outros mtodos de disperso disponveis,
como a disperso de nutrons dos ncleos,
eles constituem atualmente uma frao muito pequena dos experimentos de difrao.

Figura 10-13: Resultados possveis em experimentos de cristalizao. A) cristal bem formado, B)


placas, C) agulhas, D) precipitado leve, E) precipitado intenso, F) separao de fase, G)
aglomerados de agulhas e H) microcristais.

13. Cristalografia de protenas

Em relao s protenas ou outras molculas orgnicas, os raios-X so a radiao


eletromagntica de escolha para os estudos
estruturais. O comprimento de onda tpico
dos raios-X de 0,15 nm (1,5 ), ou seja, da
mesma ordem do comprimento de uma ligao covalente entre tomos. Consequentemente, torna-se possvel detectar tais
distncias, utilizando-se a difrao de raios-X.
Em princpio, um nico objeto j capaz
de difratar raios-X. Assim, uma nica molcula seria suficiente para a realizao de experimentos de difrao de raios-X. No
entanto, a utilizao de uma nica molcula
como fonte espalhadora resulta em feixes de
radiao dispersos de baixssima intensidade,
cuja deteco praticamente impossvel pelos mtodos disponveis.
Para solucionar essa limitao, utiliza-se
uma quantidade significativa de molculas
( 1015 molculas) organizadas num padro
regular tridimensional. Este grande nmero
de molculas atua como amplificador do sinal, capaz de gerar feixes de radiao mensurveis de alta intensidade. Por conseguinte,
estruturas cristalinas so as mais adequadas
para obteno de dados de alta resoluo em
experimentos de difrao de raios-X.

te em casos nos quais as subunidades no


so idnticas (Figura 11-13).
Para a determinao das coordenadas
espaciais dos tomos da protena, responsveis pela difrao do feixe de raios-X, faz-se
necessrio identificar cada uma das reflexes
no padro de difrao (Figura 12-13). Devido
ao carter tridimensional do padro de difrao, as distncias entre as reflexes medidas,
em um detector, localizam-se prximas ou
distantes do centro do padro. Portanto, a
partir de um ponto de origem (o centro da
imagem) valores crescentes so atribudos
para todas as reflexes no padro de difrao. Esses valores, denominados ndices de
Miller, indicam reflexes prximas do centro
da imagem (ou seja, valores menores de ndices de Miller) e reflexes localizadas nas regies perifricas do padro de difrao (ou
seja, valores maiores ndices de Miller).
Os ngulos que os feixes difratados fazem com relao ao feixe incidente no cristal
determinam o nvel de informao obtido em
um experimento de difrao de raios-X. Assim, quanto maior o ngulo do feixe difratado

Padro de difrao
O padro de difrao de protenas tridimensional e reflete tanto a simetria dos arranjos cristalinos quanto a organizao da
protena na clula unitria, isto , a unidade de
repetio que constitui o cristal). Esses arranjos so definidos em termos de grupos
espaciais e de unidades assimtricas.
A unidade assimtrica a menor unidade a partir da qual uma clula unitria pode
ser construda. Alm disso, a unidade assimtrica representa o nmero mnimo de estruturas independentemente determinadas em
um cristal. Por exemplo, uma unidade assimtrica pode conter desde apenas um representante da protena em estudo at 12 ou
mais representantes. Frequentemente, esses
arranjos tornam possvel a determinao do
estado oligomrico da protena, especialmen-

Figura 11-13: Exemplo de empacotamento


cristalino, clula unitria (paralelogramo) e
unidade assimtrica (destacada nas cores
ciano, magenta e verde). Empacotamento de
vrias molculas da protena 6-piruvoiltetrahidrobiopterina-sintase humana (PTPS).
Dados processados e refinados por JRCM e
gentilmente cedidos pelo Structural Genomics
Consortium, Oxford, UK.

13. Cristalografia de protenas

maiores sero os valores dos ndices de Miller


para as reflexes observadas, e por conseguinte, maior ser a resoluo dos dados coletados (Figura 12A-13).
Informaes moleculares a alta resoluo produzem mapas de densidade eletrnica
bem definidos, que auxiliam substancialmente
a determinao precisa da posio dos tomos que constituem o cristal (Figura 12B-13).
Portanto, os detalhes e qualidade do modelo
3D da macromolcula so diretamente proporcionais resoluo dos dados coletados
nos estudos cristalogrficos.
Fundamentalmente, as caractersticas
do padro de difrao, isto , as intensidades
das reflexes e a resoluo do conjunto de
dados, determinam a qualidade do mapa de
densidade eletrnica. Nesse sentido, parmetros quantitativos so empregados para avaliao da qualidade do conjunto de dados,
dentre os quais destacam-se a intensidade
das reflexes (I), os danos causados pela radiao (Rdano), a sobreposio das reflexes
(O), o fator R (Rmerge) e a completeza (C)
(Tabela 2-13).

Intensidade (I)
As intensidades das reflexes tm impacto direto
na qualidade dos dados cristalogrficos. A intensidade
das reflexes depende de diversos fatores, tais como o
tamanho e a qualidade do cristal, o tempo de exposio ao feixe de raios-X e a intensidade do feixe de raios-X.
A relao entre a intensidade da reflexo e o plano
de fundo (background) dada pela razo sinal-rudo
I/(I). Uma vez que as protenas esto sujeitas a alteraes causadas pela interao com raios-X, causadas
por radicais livres, durante a coleta de dados cristalogrficos deve-se ponderar a relao entre o tempo de
exposio do cristal e a intensidade do feixe de modo
que se obtenham intensidades mensurveis e de boa
qualidade, sem afetar a estrutura da protena em estudo.
Tais limites de resoluo dos dados de difrao so
frequentemente definidos pelo critrio I/(I). Em geral,
utiliza-se dados que apresentam valores de I/(I) maiores que 2, isto , a intensidade medida para as reflexes duas vezes maior que o rudo observado.

Figura 12-13: (A) Padro representativo obtido


em um experimento de difrao de raios-X de
uma estrutura de altssima resoluo (1,1 ).
Os anis vermelhos indicam as camadas de
resoluo para as reflexes. As reflexes se
tornam menos intensas quanto maior a
resoluo. (B) Resoluo versus densidade
eletrnica. Mapa de densidade eletrnica para
o mesmo resduo de triptofano calculado em
4 diferentes resolues (PDB ID 3T7L). Dados
de difrao gentilmente cedidos pelo
Structural Genomics Consortium, Oxford, UK.

Rdano (R)
O valor de Rdano indica a extenso do impacto das
colises do tipo inelsticas e elsticas provenientes do
feixe de ftons incidentes na amostra cristalina. Devido
alta intensidade desses ftons a amostra sofrer
processos irreversiveis e ser "danificada.
Os danos causados pela radiao constituem um
importante fator para a qualidade dos dados cristalogrficos. Com o objetivo de amenizar tais danos, geralmente empregada uma estratgia de coleta de dados
a temperaturas "criognicas" (100 K), obtidas com o
auxlio de nitrognio lquido.
A aplicao dessa estratgia para coleta de dados
cristalogrficos exige um pr-tratamento do cristal.
Cristais de protena contm uma quantidade significativa de gua, logo seu resfriamento acarreta na formao de gelo que, por sua vez, extremamente
prejudicial para o cristal e, consequentemente, para o
experimento de difrao.
Por este motivo os cristais so usualmente pr-tratados com agentes crioprotetores, tais como PEG

13. Cristalografia de protenas

Tabela 2-13: Dados cristalogrficos representativos de uma coleta de dados de difrao de


raios-X (PDB ID 3ZRS).
Dados Cristalogrficos
Grupo espacial

P 4 21 2

Dimenses da clula () a = b = 106,24 c = 89,80


= = = 90
Resoluo ()

106,24 3,05
(3,21-3,05)*

Rmerge

0,262 (0,945)*

I / (I)

5,5 (2,0)*

Completeza (%)
Multiplicidade

99,9 (99,8)*
6,8 (6,9)*

Rmerge (Rm)
Uma vez que o padro de difrao contm os elementos de simetria do cristal, a maioria das reflexes
observada mais de uma vez. Dessa maneira, a reprodutibilidade dessas medidas uma caracterstica utilizada como parmetro de preciso.
Estatisticamente, quanto maior a frequncia com
que uma reflexo medida, e quanto mais similares
elas so entre si, melhor ser o conjunto de dados
cristalogrfico. A redundncia desses dados indicada
em termos de uma mdia geral, enquanto a reprodutibilidade das medidas avaliada por um fator residual
denominado Rmerge (ou Rsym, quando se leva em
conta a simetria das reflexes).
O valor de Rmerge obtido atravs do clculo da
mdia da intensidade de um grupo de reflexes dividido
pela mdia do desvio padro para esse mesmo grupo
de reflexoes:

*Os nmeros entre parnteses referem-se mais


alta camada de resoluo.
ou glicerol, seguidos de resfriamento rpido (flash
cooling). Este procedimento evita a formao de cristais de gelo, mantendo assim a integridade e qualidade
dos cristais de protena.

Sobreposio (O)
Alm da intensidade da reflexo, a capacidade para
discernir reflexes individuais tambm essencial. A
separao das reflexes em um padro de difrao
depende, principalmente, do tamanho da clula unitria. Nesse sentido, quanto maior as dimenses da clula unitria (parmetros a, b e c da Tabela 2-13) mais
prximas estaro as reflexes no padro de difrao e
consequentemente, maior ser a probabilidade de
ocorrer sobreposio.
Esta sobreposio de reflexes acarreta em uma
maior impreciso na determinao da intensidade de
cada reflexo. Alm disso, outros fatores como a desordem interna no cristal (mosaicidade), proveniente
do empacotamento cristalino ou de danos mecnicos
(como aqueles causados durante o resfriamento rpido) podem ocasionar alargamento significativo das reflexes
no
padro
de
difrao
produzindo
sobreposio.

importante mencionar que o fator Rmerge dependente da resoluo, logo deve ser informado para
todo o conjunto assim como para as camadas de mais
altas de resoluo (Tabela 2-13). Um conjunto de dados
de boa qualidade caracteriza-se por um valor de
Rmerge global menor que 15% e, na camada de maior
resoluo, o valor de Rmerge dever ser menor que
100%.

Completeza (C)
A completeza dos dados um fator extremamente
importante na determinao da qualidade do conjunto.
A completeza determinada pela razo entre o nmero esperado de reflexes para o grupo espacial e o tamanho da clula unitria. Uma vez que a capacidade
para medir reflexes diminui em funo da resoluo, a
completeza dos dados ser menor nas camadas de
maior resoluo. Portanto, esse parmetro deve ser
informado tanto para todo o conjunto de dados quanto
para a camada mais alta de resoluo (Tabela 2-13).

Um conjunto de dados cristalogrficos


ideal formado por camadas de baixa e alta
resoluo determinadas com relao sinal-rudo (I/(I)) global maior que 10 e maior que
2 para a camada de maior resoluo, reflexes bem separadas, valor de Rmerge global

13. Cristalografia de protenas

menor que 100% e completeza maior que


95% (em geral, aceitvel que a completeza
seja baixa somente nas camadas de maior
resoluo).
A relao entre esses parmetros determina a qualidade final do mapa de densidade eletrnica. Portanto, quanto maior a
qualidade dos dados cristalogrficos, maior
ser a probabilidade de se obter um mapa de
densidade eletrnica bem definido e interpretvel. No entanto, importante mencionar
que a anlise isolada desses parmetros no
deve ser utilizada como um substituto para o
julgamento da veracidade do modelo estrutural.
Os valores mencionados para os principais parmetros cristalogrficos devem ser
utilizados como indicativos da qualidade do
conjunto de dados coletados. A vasta maioria
dos modelos estruturais depositados no PDB
foi construdo a partir de conjuntos de dados
de excelente qualidade. Contudo, h tambm
exemplos de modelos incorretos, provenientes de conjuntos de dados de qualidade simplesmente aceitvel. Em geral, esses
modelos so resultado da interpretao inadequada dos mapas de densidade eletrnica,
construdos a partir de conjunto de dados de
menor resoluo. Portanto, quanto maior a
resoluo dos dados, menor a probabilidade
de erros no modelo estrutural da protena em
estudo.

Faseamento
A radiao eletromagntica pode ser
descrita pela equao de ondas, que definida em termos de amplitude, comprimento de
onda e fase. Em um experimento de difrao
de raios-X, os dois primeiros parmetros so
medidos diretamente, ou seja, a amplitude da
onda proporcional intensidade do feixe difratado (a amplitude igual raiz quadrada
da intensidade medida para uma reflexo) e o
comprimento de onda () definido pelo
comprimento de onda dos raios-X utilizados.
As fontes caseiras com nodo rotatrio de Cu
apresentam = 1,54178 , enquanto fontes de
luz sncrotrons apresentam = 0,82,5 .

A determinao da fase nos estudos


cristalogrficos um processo complexo, conhecido como problema das fases. uma
etapa fundamental e de grande impacto para
a obteno de mapas de densidade eletrnica
bem definidos e, por conseguinte, para a
construo de modelos estruturais de qualidade. De fato, um mapa de densidade eletrnica calculado a partir das amplitudes de uma
estrutura correta, mas com fases incorretas,
seria impossvel de se interpretar. Por outro
lado, um mapa de densidade eletrnica calculado a partir de amplitudes de estruturas aleatrias, mas com fases corretas, seria
interpretvel.
A fase corresponde ao tempo relativo
chegada da crista de uma onda especfica a
um ponto de referncia. Ondas de mesmo
comprimento e fases idnticas tero seus picos e vales em comum, somando-se em harmonia. Ondas com fases opostas tendem a
anular umas as outras, total ou parcialmente,
dependendo de suas amplitudes.
Assim, ao somarmos todas as ondas
difratadas (a sntese de Fourier) para se resolver uma estrutura de protena, torna-se
necessrio determinar as amplitudes e fases
para cada uma das ondas espalhadas, ou seja,
para cada reflexo.
Experimentalmente, a amplitude da onda difrata facilmente medida utilizando-se
detectores modernos, tais como placas de
imagem, couple charged devive (CCD) e pixel
apparatus for the SLS (PILATUS). Em um experimento de difrao, as intensidades e posies das ondas difratadas so medidas, mas
as fases so perdidas. Isto ocorre porque os
raios-X deslocam-se na velocidade da luz e,
dessa maneira, o tempo relativo de chegada
de todas as ondas espalhadas provenientes
do cristal ao detector parece ser o mesmo.
Portanto, as fases devero ser determinadas
atravs de mtodos alternativos.
O mtodo mais comum de faseamento,
especialmente para o desenvolvimento de
novos compostos bioativos, o de substituio molecular. O mtodo baseia-se em dois
fatores: 1) na disponibilidade das coordenadas
atmicas da estrutura da protena de interes-

13. Cristalografia de protenas

se ou a de uma protena homloga, e 2) na


semelhana do padro de difrao da protena de interesse com o padro de difrao da
protena homloga.
Na substituio molecular, medem-se as
amplitudes de difrao do cristal da protena
de interesse e "substituem-se" as fases desconhecidas pelas fases j calculadas a partir
de uma estrutura previamente determinada.
A questo crucial que determina o sucesso
deste mtodo o nvel de semelhana entre
as duas protenas. Por exemplo, ao determinarmos a estrutura de um complexo liganteprotena, esperamos que a interao do ligante com o stio de ligao induza apenas
alteraes locais na estrutura do stio, sem
consequncias maiores para a estrutura geral
da protena.
Nesses estudos, utilizam-se as amplitudes coletadas do cristal contendo o complexo
protena-ligante combinadas com as fases da
protena sem o ligante, previamente determinada. Esse mtodo resulta em um mapa de
densidade eletrnica para a protena e para o
ligante suficientemente adequado, permitindo
a identificao do modo de interao do candidato a frmaco no stio de ligao do alvo
macromolecular (Figura 13-13).
Alm da substituio molecular, importante mencionar que existem outros mtodos para a determinao das fases, tais
como a substituio isomrfica e o espalhamento anmalo. Esses mtodos so geralmente empregados nos casos em que a
substituio molecular no bem sucedida ou
quando no h uma estrutura relacionada.

Mapa de densidade eletrnica


O mapa de densidade eletrnica o resultado final de um experimento de difrao
de raios-X. Por definio, o mapa de densidade eletrnica a soluo da sntese de
Fourier com as amplitudes das difraes medidas e as fases experimentalmente determinadas ou calculadas para cada reflexo. A
partir deste mapa, procede-se para a etapa de
interpretao e construo do modelo estrutural.

Figura 13-13: Estrutura do receptor PPAR


complexado ao ativador NKS (PDB ID 3KDU).
(A) Mapa de densidade eletrnica (malha
verde), indicando o modo de interao do
ativador NKS. (B) Complexo NKS-PPAR, no
qual o ligante (esfera e bastes amarelos)
encontra-se modelado de acordo com o mapa
de densidade eletrnica.
H disponveis diversas operaes que
podem ser aplicadas aos dados cristalogrficos com o objetivo de melhorar os mapas de
densidade eletrnica. Uma estratgia frequentemente empregada o achatamento do
solvente (solvent flattening), que acentua as
fronteiras entre o solvente e a molcula, tendo como resultado final a otimizao do mapa
de densidade eletrnica.
Adicionalmente, quando h mais de uma
molcula na unidade assimtrica, a promediao (isto , interpolao) das suas densidades eletrnicas pode aumentar a relao
sinal-rudo, melhorando a qualidade do mapa
final.
A interpretao do mapa de densidade
eletrnica subjetiva, demandando habilidade
e experincia para que o modelo construdo
explique da melhor maneira possvel os dados
cristalogrficos. Um dos fatores que interferem nesta interpretao a resoluo, que
indica o nvel de detalhamento com o qual a
protena foi determinada.
Nveis de resoluo distintos determinam diferentes tipos de informao (Tabela 313 e Figura 12-13). O valor mdio de resoluo
dos modelos estruturais depositados no PDB
2 1 , sendo que aproximadamente 40%
das macromolculas depositadas tem resoluo entre 1,52,0 (dados de dezembro de
2012). Portanto, o mapa de densidade eletr-

13. Cristalografia de protenas

Tabela 3-13: Relao entre a informao


estrutural e a resoluo de um dado conjunto
de dados cristalogrficos.
Resoluo

Informao estrutural

5,0

Topologia da molcula e elementos


de estrutura secundria

3,5

Curso geral da cadeia polipeptdica


(trao de C)

3,0

Cadeias laterais de alguns


aminocidos so interpretveis

2,5

Cadeias laterais de todos


aminocidos so interpretveis

1,5

tomos individuais so
reconhecveis

1,0

Tipos de tomos so identificveis

nica nessa faixa de resoluo rico em informao estrutural e facilmente interpretvel e,


por conseguinte, o modelo final construdo
tende a apresentar boa qualidade.
Diversos fatores contribuem para a facilidade de
interpretao de um mapa de densidade eletrnica.
Uma vez que a densidade eletrnica uma mdia das
posies atmicas ao longo de todas as clulas unitrias que formam o cristal, um mapa de densidade eletrnica ntido depende do perfeito alinhamento entre
todas as molculas.
Um mapa de densidade eletrnica inequvoca corresponde a apenas uma molcula, resduo, modelo
peptdico ou ligante que poder ser modelado nessa
densidade eletrnica. No entanto, se a densidade eletrnica no bem definida, mas difusa, ou se houver
molculas em diferentes orientaes, a interpretao
se torna desafiadora.
Por exemplo, a cadeia lateral de um resduo de
aminocido em um peptdeo pode adotar mais de uma
conformao. Se o nmero de conformaes for pequeno, como dois rotmeros, essas conformaes so
modeladas com ocupaes fracionadas (isto , 50%
para cada uma) (Figura 14-13). Se o nmero de conformaes for significativo, com um nmero de rotmeros > 3, a densidade eletrnica para esses rotmeros
no ser distinguvel, e aparecer como rudo no mapa.

Um fenmeno semelhante observado quando um


ligante interage com apenas algumas molculas de
protena no cristal. Nesse caso, o mapa de densidade
eletrnica ser fraco para esse ligante devido ocupao parcial, sendo portanto de dificil interpretao e
modelagem. A ocupao dos tomos no cristal indicada em termos fracionrios, que variam entre 0 e 1.
A incerteza associada posio mdia dos tomos
constituintes do cristal indicada por um termo denominado fator B ou fator de temperatura. Quanto maior
o deslocamento espacial dos tomos no cristal, maior
ser o fator B. Esse termo dependente da resoluo
do conjunto de dados, apresentando valores mdios
para tomos em uma protena no intervalo de 2030
2.
A ocupao e o fator B esto relacionados entre si,
bem como a resoluo do conjunto de dados. Geralmente, em complexos ligante-protena comum a verificao de fatores B significativamente maiores para
os tomos do ligante em relao aos tomos da protena, fenmeno este que pode indicar uma ocupao
parcial para a molcula do ligante.

Mapas de densidades eletrnicas podem


ser exibidos de diversas maneiras. A representao mais comum para a interpretao
empregam os coeficientes FO FC e 2FO FC.
O mapa FO FC indica a diferena entre a den-

Figura 14-13: Exemplo de dupla conformao


do mesmo segmento de uma protena em
diferentes resolues (PDB ID 2VB1). (A)
Dupla conformao em uma estrutura
refinada na ultraresoluo de 0,65 . Nota-se
que as densidades eletrnicas adotam um
formato de elipsoides, tpico em casos de
ultraresoluo. As duplas conformaes para
os resduos de arginina e histidina foram
modeladas com preciso. (B) Mesma
estrutura resolvida a 2,0 de resoluo.
Entretanto, apesar da boa qualidade dos
dados no foi possvel modelar as duas
conformaes adotadas por esses resduos.

13. Cristalografia de protenas

sidade eletrnica observada (FO) e a calculada


a partir de um modelo (FC). Esse mapa, conhecido como mapa diferena, evidencia regies no modelo que necessitam de tomos,
isto , a diferena na densidade eletrnica
positiva, e regies no modelo que apresentam
excesso de tomos, ou seja, a diferena na
densidade eletrnica negativa.
O mapa 2FO FC apresenta a densidade
eletrnica com nfase na diferena entre a
densidade eletrnica observada (2FO) e a calculada a partir de um modelo (FC) (Figura 1513). Durante o processo de refinamento do
modelo cristalogrfico, deve-se avaliar e interpretar de forma integrada os mapas 2FO
FC, que privilegiam os fatores de estrutura
observados, e o mapa diferena FO FC, que
indica regies com excesso ou ausncia de
densidade eletrnica.

13.7. Refinamento, validao e usos


Os modelos estruturais construdos baseados em dados cristalogrficos devem ser,
idealmente, modelos precisos. Para tanto, diversos mtodos de refinamento so empregados.
Uma estratgia comum de refinamento
aplicada a modelos cristalogrficos o alinhamento correto entre o modelo estrutural
e a densidade eletrnica. Esse processo realizado de forma sistemtica e supervisionado por ciclos interativos de refinamento no
espao real e no espao recproco. Para avaliao do protocolo de refinamento, consideram-se os parmetros denominados Rfator e
Rlivre (Rfree). Os ciclos de refinamento so
conduzidos continuadamente at que ocorra
convergncia dos dados, ou seja, o processo
de refinamento estende-se at o momento
em que no se observam variaes significativas nos valores de Rfator e Rlivre.
Com o objetivo de auxiliar o refinamento, restries estereoqumicas so aplicadas
para orientar o grau de liberdade conformacional dos tomos durante as tentativas de
model-los na densidade eletrnica da protena. Desse modo, garante-se a no violao
das geometrias permitidas para os diferentes

Figura 15-13: Mapa de densidade eletrnica


2FO FC (malha azul) e FO FC (malha verde
para densidade positiva e malha vermelha
para densidade negativa). (A) O resduo de
arginina foi modelado em uma conformao
que no condiz com os dados experimentais
(densidades positivas e negativas no mapa FO
FC). (B) Rotmero modelado corretamente
para o mesmo resduo de arginina. Nota-se
que as densidades no mapa diferena
desapareceram, indicando o acerto no
posicionamento do rotmero de arginina.
Alm disso, uma nova molcula de gua (cruz
vermelha)
tambm
foi
corretamente
modelada aps seleo do rotmero correto
para o resduo.
grupos qumicos, bem como impede-se que a
molcula adote conformaes de alta energia. Essas restries so baseadas no conhecimento estrutural de pequenas molculas
elucidadas a alta resoluo e utilizadas como
subestruturas representativas da macromolcula (Figura 16-13).
O sucesso no processo de refinamento indicado
pelo parmetro Rfator, que consiste na medida de concordncia entre o modelo construdo e os dados experimentais. O valor de Rfator determina a diferena
entre as amplitudes das reflexes calculadas derivadas
a partir do modelo e os valores experimentais obtidos
a partir do experimento difrao de raios-X. Portanto, o
valor de Rfator indica a qualidade do ajuste do modelo
a densidade eletrnica, bem como a qualidade dos dados cristalogrficos.
Para protenas, os valores de Rfator observados
encontram-se no intervalo de 15 a 20% para conjuntos
de dados entre 1,8 e 2,5 de resoluo (Figura 17-13).
Esses nmeros sugerem que de 75 a 80% dos dados
de espalhamento, provenientes do cristal da protena,

13. Cristalografia de protenas

Figura 16-13: Viso geral das etapas envolvidas na determinao de uma estrutura de protena
por mtodos cristalogrficos.
podem ser representados ou explicados pelo modelo
estrutural.
importante mencionar que um modelo estrutural
de boa qualidade pode apresentar pequenas falhas,
provenientes de erros durante a aquisio dos dados
cristalogrficos, da incapacidade de se modelar regies
desordenadas na estrutura, de diferentes conformaes e de regies flexveis, principalmente regies de
alas.

Devido grande influncia das fases


calculadas (FC) sobre as amplitudes das reflexes (FO) na determinao da densidade
eletrnica final, o valor de Rfator pode ser
manipulado e levar ao sobreajuste do modelo
estrutural.
Visando-se manter a preciso e a veracidade do modelo estrutural, uma estratgia
comumente utilizada consiste no clculo do
Rfator a partir de dados que no foram utilizados no processo de refinamento e, portanto, no foram influenciados pelas fases
calculadas, o que pode ser chamado de validao externa ou Rlivre.
O Rlivre calculado a partir de 5 a 10%
das reflexes, selecionadas de modo aleatrio
e excludas do processo de refinamento. De-

vido natureza incompleta dos dados utilizados para o clculo do Rlivre, este frequentemente maior do que o valor do Rfator em
cerca de 35%, no caso de estruturas bem
refinadas. Nas etapas iniciais de refinamento,
esse nmero pode ser maior que 10%.
Uma vez que as molculas de protena
so formas irregulares, durante o processo
de formao dos cristais espaos e canais
entre as cadeias polipeptdicas so preenchidos com solvente e outros compostos provenientes
da
soluo
de
cristalizao,
incluindo-se gua, ons e agente crioprotetor,
dentre outros.
O componente mais importante do solvente so as molculas de gua ligadas
protena, encontradas em localizaes discretas e, geralmente, na superfcie da macromolcula. As molculas de gua so
modeladas de acordo com um procedimento
que envolve a identificao de caractersticas
especficas das densidades eletrnicas que
no so atribudas protena, tais como a altura do pico de densidade eletrnica e a posio da molcula de gua em relao aos
tomos da protena, com os quais poder

13. Cristalografia de protenas

Figura 17-13: Critrios sugeridos para


avaliao da qualidade de modelos de
estruturas
cristalogrficas
de
macromolculas, de adequado (verde) a inadequado (vermelho). Diferena entre o Rlivre
e Rfator > 7% indica baixa correlao entre
os dados experimentais e o modelo
estrutural. Entretanto, se essa diferena for <
2% sugere-se que o conjunto de dados esteja
demasiadamente preso. Valores de RMSD
(ver captulo 8) indicam a presena de erros
no modelo. Por outro lado, valores
excessivamente baixos de RMSD (por
exemplo, 0,004 ) indicam excesso nas
restries estereoqumicas, com maior peso
otimizao da geometria em detrimento dos
dados de difrao experimental durante os
ciclos de refinamento.
formar ligaes de hidrognio.
Frequentemente, densidades eletrnicas
prximas cadeia polipeptdica so atribudas
a ons provenientes das solues de cristalizao, como sdio, clcio e amnio. Em geral,
essas densidades apresentam caractersticas
especficas como formas, estado de coordenao ou propriedades eletrnicas que auxiliam a identificao correta do on e o seu
modo de ligao.
O nmero de molculas de guas que podem ser
identificadas e associadas a um determinado modelo
estrutural ir depender da qualidade do modelo e dos
dados cristalogrficoa (ou seja, da sua resoluo). Por
exemplo, em estruturas de mdia resoluo (2,5 a 3,0
) o nmero de molculas de gua esperado baixo,
pois apenas aquelas molculas que esto fortemente
associadas protena (usualmente localizadas no stio
ativo ou em outras regies funcionais) podem ser cor-

retamente posicionadas.
J em estruturas de alta resoluo (1,02,0 ), pode-se identificar um nmero significativo de molculas
de gua na superfcie da protena com boa preciso.
Contudo, importante mencionar que a utilizao de
molculas de gua em demasia em um modelo final
pode mascarar regies da densidade eletrnica e induzir a erros de interpretao, como a atribuio de
guas a densidades que correspondem a cadeias laterais dos resduos, outros tipos de solventes ou ligantes.
Como o Rfator pode ser interpretado como uma
medida de quanto a densidade eletrnica satisfeita,
molculas de gua mal posicionadas podem diminuir o
valor para o Rfator, porm, sem melhorar a acurcia
do modelo. Nesses casos, a comparao entre os valores de Rfator e Rlivre fundamental para avaliar a
possibilidade de sobreajuste do modelo (diferena entre Rlivre e Rfator > 7%). A Tabela 4-13 apresenta valores representativos das estatsticas de refinamento
para um bom modelo cristalogrfico.

Uma estratgia frequentemente empregada para a identificao de erros de interpretao


em
modelos
estruturais
baseia-se nas caractersticas geomtricas dos
aminocidos e das estruturas 2rias (como
distncias, ngulos de ligao e diedros e ,
ver captulo 2).
As distncias interatmicas e ngulos de
ligao dos resduos de aminocidos so bem
conhecidos e empregados como guia para
avaliao de modelos estruturais. A medida
expressa pelo valor de RMSD para todas as
distncias e ngulos de ligao na protena em
estudo.
As relaes entre os ngulos diedrais
para os tomos da cadeia principal que contm estrutura 2ria foram analisadas em termos de valores permitidos e proibidos em um
grfico conhecido como Grfico de Ramachandran (Figura 18-13, ver captulo 2).
Contudo, faz-se necessrio salientar que
alguns resduos podem localizar-se fora das
regies permitidas por diferentes razes. Por
exemplo, o resduo de glicina, devido ausncia de uma cadeia lateral volumosa, pode ser
encontrado fora das regies permitidas. Por
outro lado, o resduo de prolina pode localizar-se em regies proibidas em funo de
isomeria estrutural (isto , ismeros cis e

13. Cristalografia de protenas

Tabela 4-13: Exemplo de estatsticas de


refinamento de uma estrutura de boa
qualidade. Dados referentes aos estudos
cristalogrficos para a determinao da
estrutura celobiohidrolase I de Trichoderma
harzianum (PDB ID 2YOK).
Refinamento
Resoluo

45,3-1,67 (1,71-1,67)

Rfator/Rlivre (%)

14,6/17,3

Nmero de tomos
Protena

3193

N-acetil-D-GlcN

42

PEG

23

gua

562

Fator B (2)
Protena

10,3

N-acetil-D-GlcN

29,7

PEG

30,4

gua

24,2

RMSD
Tamanho de ligao ()
ngulo de ligao ()

0,011
1,331

trans).
Ocasionalmente, se a resoluo for alta
o suficiente para permitir uma interpretao
precisa, um resduo pode aparecer fora dos
limites aceitveis (Figura 18-13). Exemplos
como esse no so incomuns e, portanto,
fortemente recomendada a inspeo criteriosa de todos os resduos de uma protena,
principalmente aqueles indicados em regies
no favorveis no grfico de Ramachandran.

Planejamento baseado na estrutura


do receptor
Os avanos nas cincias biomdicas vem
contribuindo significativamente para a identi-

ficao e validao de novos alvos moleculares de interesse teraputico. Alm disso, iniciativas como os programas genoma e
proteoma de vrios organismos tm fornecido dados importantes para o detalhamento
das bases moleculares responsveis pela estrutura e funo de biomolculas.
Simultaneamente, o aprimoramento das
tcnicas de determinao estrutural e anlise
de molculas, como a cristalografia de raios-X, ressonncia magntica nuclear (RMN) e
a calorimetria, tm contribudo substancialmente para a melhor compreenso dos componentes energticos e espaciais que
compem as interaes entre frmacos e receptores.
Nas ltimas dcadas, os mtodos cristalogrficos ganharam enorme destaque como estratgia til para o planejamento de
frmacos. A sua aplicao vai desde os estudos em pesquisa bsica, visando elucidao
das caractersticas estruturais e funcionais de
alvos moleculares, at a pesquisa aplicada,
caracterizada pela aplicao do conhecimento
estrutural para a identificao de molculas
com atividade biolgica e otimizao de propriedades farmacodinmicas e farmacocinticas.
Atualmente, um dos maiores desafios
na rea de planejamento de novos frmacos
aumentar a taxa de sucesso na identificao
de novas entidades qumicas (NCEs, new

Figura 18-13: Grfico de Ramachandran


representativo para uma estrutura de boa
qualidade. Destaque para o resduo de serina
que, apesar de localizado em um uma regio
proibida, perfeitamente corroborado pelo
mapa de densidade eletrnica.

13. Cristalografia de protenas

chemical entities). Nesse contexto, destaca-se


a estratgia de grande impacto denominada
planejamento baseado na estrutura do receptor (SBDD, Structure Based Drug Design).
Os mtodos de SBDD se baseiam no conhecimento da informao 3D da macromolcula
alvo, que geralmente obtida de estruturas
determinadas por cristalografia de raios-X,
por RMN ou atravs de modelagem por homologia.
As estratgias de SBDD tm como princpio o entendimento do mecanismo que leva
ao aparecimento de doenas, aliado identificao de alvos moleculares que forneam
novas oportunidades para o desenvolvimento
de NCEs. O planejamento de frmacos utilizando estruturas 3D de biomolculas proporcionou o desenvolvimento de uma
importante variedade de inovaes teraputicas, trazendo benefcios notveis sade humana das mais diversas populaes mundiais.
A informao sobre o modo de ligao
de substncias bioativas, levando em conta a
complementaridade de interaes entre ligante e receptor, de grande utilidade no
planejamento de candidatos a novos frmacos. A partir da obteno e avaliao farmacolgica de sries de compostos sintticos,
pode-se estudar a relao entre as suas diferenas estruturais e as atividades medidas
(relao estrutura atividade), estabelecendo
pressupostos teis na elaborao de estratgias de modificao molecular.
Devido complexidade e quantidade
de informao gerada, mtodos de modelagem molecular (como ancoramento, modelagem comparativa e dinmica molecular, vistos
em captulos anteriores) so constantemente
empregados para caracterizar as interaes
predominantes entre ligantes e receptores
biolgicos. Os compostos bioativos mais promissores nas diversas etapas de investigao
podem ser ento submetidos a ensaios cristalogrficos, visando tanto validar os resultados computacionais quanto refinar e ampliar
o nvel de informao molecular. Um dos
principais exemplos de doenas que se beneficiaram destas tcnicas envolve o tratamento da AIDS, causada pelo vrus da

imunodeficincia humana (HIV).


Devido funo central exercida no desenvolvimento do vrus, a protease do HIV
tornou-se um alvo prioritrio de muitas indstrias farmacuticas. As primeiras investigaes para a identificao de inibidores da
protease de HIV se basearam em dados estruturais de um modelo terico construdo
com o auxlio de mtodos de modelagem
comparativa. A primeira estrutura cristalogrfica da protease de HIV foi resolvida em
sua forma nativa no final da dcada de 1980.
Subsequentemente, mais de 250 complexos
entre inibidores e esta protease foram obtidos, fornecendo bases estruturais slidas
para o desenvolvimento de uma srie de frmacos, ainda em uso teraputico.
O planejamento de inibidores da protease de HIV um dos exemplos de maior sucesso
na
aplicao
dos
mtodos
experimentais e computacionais ao desenvolvimento de novos frmacos. O desenvolvimento do peptideomimtico saquinavir
(Invirase, Roche), primeiro inibidor da protease de HIV aprovado pelo FDA (Food and Drug
Administration) nos Estados Unidos para o
tratamento da AIDS, em 1995, teve sua origem em dados cristalogrficos obtidos com
os inibidores peptdeos desta protease (Figura
19-13).
Os modelos de interao, obtidos por cristalografia,
indicavam que a substituio isostrica da ligao amdica central por um grupo hidroxietilamina estaria relacionada com o aumento de potncia e seletividade.
Isto motivou a sntese e avaliao bioqumica de uma
srie de anlogos, que confirmaram esta hiptese.
A etapa seguinte dos estudos consistiu na avaliao
do tamanho da sequncia peptdica para uma tima inibio. Estudos de modelagem molecular foram empregados para priorizar a sntese de derivados com
tamanhos distintos de cadeia. Aliados a testes biolgicos, estes experimentos mostraram que o tamanho
mnimo da cadeia peptdica deveria ser de 5 resduos de
aminocidos.
Em seguida, foi investigada a influncia da variao
das cadeias laterais nas unidades peptdicas. Vrios
anlogos foram obtidos, embora nenhum tenha apresentado melhora considervel da potncia inibitria.
Por outro lado, a substituio do resduo de prolina na

13. Cristalografia de protenas

dade cientfica. No campo da cristalografia, as


ideias genmicas foram extrapoladas procurando retornar sociedade um conjunto de
informaes representativas da biodiversidade do universo proteico, gerando estruturas
tridimensionais em nvel atmico para a maior
parte das protenas facilmente obtidas partir do conhecimento de suas sequncias de
DNA
(www.nigms.nih.gov / Initiatives /
PSI.htm).
A escala dessa abordagem estabelecida, inicialmente, na definio e seleo de sequncias de aminocidos mais susceptveis determinao estrutural,
procurando-se evitar protenas mais problemticas.

Figura 19-13: (A) Homodmero da protease de


HIV-1 em complexo com inibidor saquinavir
(PDB ID 1FB7). (B) Estrutura qumica do
saquinavir. (C) Detalhes do modo de ligao
do inibidor saquinavir no stio ativo da enzima.
molcula do inibidor por grupos piperidina ou 3-carbonil-decahidro-isoquinolina (DIQ) acarretou em uma melhora significativa da potncia inibitria.
Os modelos de interao sugeriram que a maior
potncia do derivado DIQ (saquinavir, Figura 19B-13) estaria relacionada a um menor grau de liberdade conformacional conferido por este substituinte, indicando
um favorecimento entrpico para a energia livre de ligao. Posteriormente, a anlise do complexo cristalogrfico saquinavir-protease revelou que a poro DIQ
do inibidor adotava uma conformao de energia mnima, caracterstica de grupos cclicos saturados, confirmando o modo de ligao predito (Figura 19C-13).

As informaes obtidas no desenvolvimento do saquinavir serviram de base para o


planejamento de novos inibidores da protease
de HIV, tais como ritonavir (Norvir, Abbott),
indinavir (Crixivan, Merck Sharp & Dohme) e
nelfinavir (Viracept, Agouron Phamaceuticals).

Genoma estrutural
Os sucessos conquistados pelos projetos genmicos deram um importante suporte
abordagem do tipo larga escala na ativi-

Contudo, o esforo empregado na determinao do genoma estrutural significativamente maior do que no sequenciamento.
Isto se deve grande diferena de complexidade dos mtodos envolvidos e variabilidade no comportamento dos alvos proteicos em
diferentes estgios do processo de determinao estrutural em larga escala.
Uma vez que a estrutura tridimensional
de uma protena muito mais conservada que
sua sequncia de aminocidos, o conhecimento de seu enovelamento torna-se uma
ferramenta muito valiosa para se estudar e
descobrir relaes evolucionrias imperceptveis em nvel de sequncia. Essas similaridades estruturais podem, por exemplo, sugerir
propriedades funcionais s protenas de funes ainda desconhecidas.
A contribuio mais prontamente visvel
da genmica estrutural a rpida expanso
do nmero de estruturas de protenas disponveis no PDB e, geralmente, a um custo reduzido devido eficincia e otimizao das
tcnicas desenvolvidas em centros especializados.
Uma seleo adequada de alvos fundamental para assegurar que as estruturas
resolvidas por esses centros sejam realmente
valiosas para toda a comunidade cientfica e
industrial, seja devido ao interesse intrnseco
das protenas estudadas, ou visando uma
melhoria do mapeamento do universo proteico, fornecendo modelos para novos estudos
de modelagem comparativa (Figura 20-13).
Nesse contexto, uma segunda contri-

13. Cristalografia de protenas

buio importante dos projetos de genmica


estrutural para a comunidade cientfica o
desenvolvimento de mtodos e tecnologias
para a produo eficiente de protenas e determinao estrutural, que possam ser adotados em laboratrios de pesquisa menores
contribuindo, assim, com o avano da rea ao
retor do mundo.

mo hospedeiro, o qual naturalmente no


possui este gene (ou fragmento de gene).
Luz sncrotron: acelerador de partculas poligonal que produz luz usando eletroms poderosos e ondas de radiofrequncia para
acelerar eltrons a uma velocidade prxima da luz em um anel de armazenamento.
Mapa de densidade eletrnica: Regio de maior
probabilidade de se encontrar os eltrons.
O mapa de densidade eletrnica o resultado final de um experimento de difrao de raios-X. A anlise detalhada do
mapa orienta a construo do modelo estrutural da protena.

Figura 20-13: Fluxograma representativo de


um projeto de genoma estrutural.

13.7. Conceitos-chave
Cristal: slido no qual os tomos constituintes
esto organizados num padro tridimensional bem definido, que se repete no espao, formando uma estrutura com uma
geometria especfica.

Padro de difrao: padro produzido a partir de


uma estrutura tridimensional peridica,
como tomos de um cristal, que contm
informao sobre a separao dos planos
cristalogrficos. A anlise do padro de
difrao permite que se possa deduzir a
estrutura do cristal.
PDB: banco de dados de protenas de acesso livre em http://www.rcsb.org.
Raios-X: radiao eletromagntica com comprimento de onda entre 0,01-10 nm (0,1-100
).

Cristalizao: processo de separao slido-lquido no qual h transferncia de massa


de um soluto a partir de uma soluo lquida supersaturada para uma fase slida
cristalina pura.

Refinamento: processo supervisionado de construo e ajuste do modelo estrutural aos


dados de difrao de raios-X.

Cromatografia: mtodo de separao e identificao dos componentes em uma mistura.


Ampalmente empregado para a purificao
de protenas.

Sistema de clonagem LIC: estratgia em biologia molecular para a clonagem independente de ligao capaz de aumentar a
taxa de sucesso na obteno de protena
expressa na forma solvel, com alta pureza e em grande quantidade.

Difrao: fenmeno de interao entre a radiao eletromagntica com a matria com


consequente disperso dessa radiao.
Expresso em sistema heterlogo: expresso de
um gene (ou parte dele) em um organis-

Soluo de cristalizao: soluo que favorece a


cristalizao de protenas constituda de
componentes como agentes tamponantes,
aditivos que facilitam o processo de cristalizao e agentes precipitantes.

13. Cristalografia de protenas

13.8. Leitura recomendada


BERGFORS, T. Protein Crystallization. 2nd.ed.
San Diego: International University Line,
2009.
BLUNDELL, T. L.; JOHNSON, L. N. Protein
Crystallography, 1st.ed. Academic Press,
1976.
JANSON,
J.-C.
Protein
Purification:
Principles, High Resolution Methods,
and Applications. 3rd.ed. New Jersey:
Wiley, 2011.
MCPHERSON,
A.
Introduction
to
Macromolecular
Crystallography.
Hoboken: John Wiley & Sons, 2009.
RUPP,

B. Biomolecular Crystallography:
Principles, Practice, and Application to
Structural Biology. New York: Garland
Science, 2010.

STOUT, G. H.; JENSEN, L. H. X-ray Structure


Determination: A Practical Guide. John
Wiley & Sons, 1989.
WLODAWER, A.; et al. Protein crystallography
for non-crystallographers, or how to get
the best (but not more) from published
macromolecular structures. FEBS j. 275,
121, 2008.

You might also like