Professional Documents
Culture Documents
1a edio
So Paulo, 2014
Bioinformtica:
da Biologia Flexibilidade
Molecular
1a Edio
So Paulo
Sociedade Brasileira de Bioqumica e Biologia Molecular - SBBq
2014
B615
282 p. : il.
CDU 575.112
ISBN 978-85-69288-00-8
Elaborao de imagens
Pablo Ricardo Arantes
pablitoarantes@gmail.com
Reviso de texto
Liana Guimares Sachett
lianasachett@gmail.com
Contedos
Apresentao ............................................................................................................. vii
Autores ........................................................................................................................ ix
Agradecimentos ........................................................................................................
Apresentao
A ideia deste livro surgiu a partir da minha experincia pessoal com duas disciplinas
em bioinformtica, uma para o curso de graduao em Biomedicina e uma para o
Programa de Ps-Graduao em Biologia Celular e Molecular do Centro de
Biotecnologia, ambos na Universidade Federal do Rio Grande do Sul.
Tanto para formao em nvel de graduao quanto ps-graduao, desde cedo me
deparei com uma ausncia quase total de materiais didticos em portugus (e nacionais!), de perfil mais geral, aplicvel a cursos de graduao, com poucas e
importantes excesses, que devem ser mencionadas pelo seu papel pioneiro, dentre
as quais destaco:
MORGON, Nelson H.; COUTINHO, K. Mtodos de Qumica Terica e Modelagem Molecular. So
Paulo: Editora Livraria da Fsica, 2007.
MIR, Luis Genmica. So Paulo: Atheneu, 2004.
nas de eucariotos so glicosiladas. Assim, busca-se oferecer ao leitor uma percepo mais prxima da importncia de todas estas biomolculas para a vida e, em
muitos casos, sua participao em processos patolgicos.
A linguagem escolhida para este material foi focada nas reas biolgicas e da sade,
tendo em vista que estas compreendem talvez o maior volume de problemas alvo
abordados por estas tcnicas. Adicionalmente, destaque foi dado na aplicao das
ferramentas em detrimento do esmiuamento de teoria, cdigos, metodologias e
implementaes, para as quais um grande nmero de livros mais avanados e
especficos est disponvel. Em contrapartida, esta linguagem pode contribuir para
que alunos de cursos de reas no-biolgicas visualizem o problema por um foco
distinto, aproximando-os assim do problema alvo.
Cada captulo foi portanto organizado com um foco principal na formao em
Bioinformtica para cursos de graduao. H, contudo, diversas inseres ao longo
do texto, em vermelho e fonte diferente, que buscam oferecer detalhes mais avanados,
potencialmente teis a alunos de ps-graduao. Ao final, a definio dos conceitos-chave de cada captulo foi includa. Tal foco na graduao nos levou a maximizar
a traduo de expresses do ingls para o portugus, mencionando sempre a expresso inglesa original, para fins de referncia. Contudo, em vrios casos, a amplitude do uso de expresses originadas no ingls nos levou a mant-las no texto, pois
a traduo no teria eco nas demais fontes de leitura na rea. Outra escolha envolveu a omisso de endereos na web, em decorrncia de sua frequente modificao.
Contudo, a partir do nome das ferramentas, no deve haver dificuldades para que
os leitores identifiquem-nas pelos buscadores comuns na internet.
Embora tenhamos nos dedicado a empregar uma linguagem geral e acessvel, creio
que este esforo estivesse fadado a ser incompleto desde seu incio em decorrncia
da amplitude de reas que compe a bioinformtica. Assim, alguns captulos sero
de leitura mais fcil para alunos de cursos com maior formao em bioqumica, outros em biologia molecular, ou ainda em programao. Vejo este esforo de construo de uma linguagem comum para a rea como uma obra em constante
desenvolvimento e, caso o material seja de proveito para vocs, certamente nos
dedicaremos a evolu-lo em uma prxima edio.
Todo o livro foi organizado para ser aproveitado de forma digital, principalmente em
tablets. Fontes maiores foram empregadas para que a leitura fosse mais fcil e menos cansativa nestas telas. E a distribuio do material, gratuita, para um acesso o
mais democrtico possvel entre os estudantes.
Por fim, ao esperar que estes megabytes de texto e fotos possam lhe ser teis,
contribuindo para sua aproximao bioinformtica, qui incentive-os a se aprofundarem na rea, agradeo a todos os que contribuiram para a elaborao deste
material. Sem eles, seu tempo, dedicao, excelncia e experincia, todo este esforo no seria possvel.
Hugo Verli
Autores
Bruno Csar Feltes
Ivarne L. S. Tersariol
Camila S. de Magalhes
Laurent E. Dardenne
Diego Bonatto
Edwin A. Yates
Marcelo A. Lima
Liverpool
Priscila V. S. Z. Capriles
PPG Modelagem Computacional, UFJF
Fernando V. Maluf
Raphael Trevizani
Laboratrio Nacional de Computao Cientfica
Rafael V. C. Guido
Centro de Inovao em Biodiversidade e Frmacos,
Glaucius Oliva
IFSC - USP
Gregrio K. Rocha
Laboratrio Nacional de Computao Cientfica
Rogrio Margis
Centro de Biotecnologia, UFRGS
Yraima Cordeiro
Faculdade de Farmcia, UFRJ
Helena B. Nader
Departamento de Bioqumica, Unifesp
Hugo Verli
Centro de Biotecnologia, UFRGS
Isabella A. Guedes
Laboratrio Nacional de Computao Cientfica
Agradecimentos
1. O que Bioinformtica?
Hugo Verli
1.1. Introduo
1.2. Origens
1.3. Problemas alvo
1.4. Tendncias e desafios
1.1. Introduo
Gregrio de Matos, poeta brasileiro que
viveu no sculo XVII, h quase 400 anos
apresentou, na frase de epgrafe deste captulo, seu entendimento sobre a indissociabilidade das partes para compreenso do todo.
No nosso caso, o todo a bioinformtica. As
partes, contudo, no so to bvias quanto se
possa imaginar em um primeiro momento.
Tampouco h consenso sobre estas. Assim,
nossa discusso sobre o que bioinformtica
no pretende estabelecer definies rgidas,
mas guias para que o leitor entenda o quo
complexa e dinmica esta jovem cincia.
Esta complexidade usualmente nos
passa despercebida. Por exemplo, quando
pensamos no impacto do projeto genoma humano, uma das principais implicaes a melhoria dos processos teraputicos acessveis
populao. Mas a identificao de um novo
gene ou mutao em um gene conhecido, por
mais que seja associado a um processo patolgico, est a uma grande distncia de um novo frmaco. A partir da sequncia, o
paradigma mais moderno para desenvolvimento de novos frmacos passa pela caracterizao da estrutura tridimensional da
1. O que Bioinformtica?
1.2. Origens
O que apresentaremos neste livro como
bioinformtica pode ser separado em duas
grandes vertentes:
i) a bioinformtica tradicional, ou clssica (pela primazia do nome bioinformtica), que aborda principalmente
problemas relacionados a sequncias de
nucleotdeos e aminocidos, e
ii)
a bioinformtica estrutural, que aborda questes biolgicas de um ponto
de vista tridimensional, abrangendo a
maior parte das tcnicas compreendidas
pela qumica computacional ou modelagem molecular.
Podemos traar como momento chave
para ambas as vertentes da bioinformtica o
incio da dcada de 1950, quando a revista
Nature publicou o trabalho clssico sobre a
estrutura em hlice da molcula de DNA por
James Watson e Francis Crick (Figura 1-1).
Neste momento, as bases moleculares para o
entendimento estrutural da replicao e traduo do material gentico foram apresentadas, permitindo-nos entender como aquela
"sequncia de letras" (as bases do DNA) se
organizam tridimensionalmente.
Este trabalho, contudo, deve ser visto
como parte de um momento histrico, composto por diversas contribuies fundamentais para o nosso entendimento de molculas
biolgicas e suas funes. Dentre estas des-
1. O que Bioinformtica?
Tabela 1-1: Nomes dos 20 aminocidos codificadores de protenas junto a suas representaes em 1 e 3 letras.
Aminocido
Representao Representao
de 3 letras
de 1 letra
Alanina
Ala
Cistena
Cys
c. asprtico
Asp
c. glutmico
Glu
Fenilalanina
Phe
Glicina
Gly
Histidina
His
Isoleucina
Ile
Lisina
Lys
Leucina
Leu
Metionina
Met
Asparagina
Asn
Prolina
Pro
Glutamina
Gln
Arginina
Serina
Arg
Ser
R
S
Treonina
Thr
Valina
Val
Triptofano
Trp
Tirosina
Tyr
1. O que Bioinformtica?
Figura 2-1: IBM 7090, computador que Margaret Dayhoff utilizou no incio de seus
trabalhos (NASA Ames Resarch Center, 1961).
que algum tenha publicado com simulaes
por dinmica molecular (captulo 8) alguns
anos atrs, com uma simulao de, digamos,
10 ns, hoje estaria totalmente desatualizado,
exigindo no mnimo uma ordem de grandeza a
mais (idealmente, com replicatas e/ou condies adicionais como controle). Como consequncia, as concluses obtidas em um
trabalho no necessariamente se manteriam
em um novo trabalho. Similarmente, uma rvore filogentica obtida a partir de um determinado alinhamento e matriz de pontuao h
20 anos poderia ser diferente hoje, com ferramentas mais robustas de alinhamento (como ser visto no captulo 3). Esta uma
situao bastante desafiadora, assim como
uma grande oportunidade, para os futuros bioinformatas.
Mas esta situao por si no suficiente
para o aumento explosivo do emprego de estratgias computacionais no estudo de sistemas biolgicos, o que principalmente devido
ao projeto Genoma Humano. A partir deste, e
da popularizao de outros projetos genoma
(captulo 4), criou-se um gigantesco e crescente volume de sequncias de genes cujas
relaes evolutivas e funcionais precisam ser
elucidadas, como ponto de partida para novos
desenvolvimentos teraputicos. Hoje, possvel identificar um novo candidato a receptor
alvo de novos frmacos a partir de organismos muito distantes evolutivamente de ns,
como leveduras, bactrias ou mesmo plantas.
1. O que Bioinformtica?
macolgica ou emprego biotecnolgico. Tradicionalmente, os cidos nucleicos e as protenas receberam a maior ateno enquanto
alvos da bioinformtica, os primeiros como
repositrios da informao biolgica e as ltimas como efetores desta informao. Esta
percepo, contudo, vem sendo progressivamente relativizada. Membranas e carboidratos, a despeito de no estarem codificados
diretamente no genoma (no h um cdon
para um fosfolipdeo ou para um monossacardeo), so fundamentais homeostasia da
grande maioria dos organismos em todos os
domnios da vida. E entender estes papis
vem se tornando um importante alvo da bioinformtica.
1. O que Bioinformtica?
1. O que Bioinformtica?
i)
obteno de modelos 3D para protenas e outras biomolculas (por
exemplo, modelagem comparativa);
ii) identificao do modo de interao
de molculas (atracamento);
iii) seleo de compostos com maior
potencial de inibio (atracamento);
iv) caracterizao da flexibilidade molecular (dinmica molecular);
v) avaliao do efeito de mudanas na
estrutura e ambiente molecular na dinmica e funo de biomolculas (dinmica molecular).
O uso de sequncias para alimentar estudos estruturais mais comum na construo de modelos tridimensionais de protenas a partir de suas sequncias
codificadoras, no mtodo denominado modelagem
comparativa (captulo 7). Contudo, outras relaes extremamente teis podem ser estabelecidas. Por exemplo, por serem estruturas usualmente flexveis, alas
tendem a possuir uma maior capacidade de acomodar
mutaes ao longo da evoluo. Isto permite uma
comparao entre resultados de alinhamentos e, por
exemplo, perfis de flexibilidade observveis atravs de
simulaes por dinmica molecular.
dades de processamento central) ou simplesmente processadores (ou ainda microprocessadores) so partes dos computadores
responsveis pela execuo das instrues
estabelecidas pelos programas. Desde seu
surgimento em torno da metade do sculo
XX, as CPUs tornaram-se progressivamente
mais complexas, confiveis, rpidas e baratas.
Esse processo foi previsto pioneiramente por
Gordon E. Moore, no que ficou sendo conhecido desde ento como a lei de Moore. Segundo
esta lei, o nmero de transistores em um
processador (na verdade em qualquer circuito
integrado) dobra aproximadamente a cada 2
anos (Figura 5-1). O impacto do fenmeno
descrito nesta observao na vida moderna
enorme, envolvendo desde nossos computadores, celulares e cmeras digitais at a preciso de estudos climticos (com impacto na
preveno de catstrofes e na agricultura),
medicina, engenharia, indstria blica e aeroespacial. Com o aumento da velocidade e barateamento das CPUs, podemos a cada ano
construir modelos mais precisos de fenmenos biolgicos progressivamente mais complexos. Na prtica, o avano da bioinformtica
est ligado intrinsecamente lei de Moore.
Em uma CPU podemos encontrar no
somente um microprocessador, mas mais de
um, o que chamado multi-processamento e
estas CPUs de processadores de mltiplos
ncleos (multi-core processing). Hoje, a grande maioria dos processadores empregados
em computadores, notebooks e celulares j
possui mltiplos ncleos. Se o programa que
estamos utilizando for adaptado para este tipo de processamento, o clculo poder ser
distribudo pelos ncleos de processamento,
tornando o clculo significativamente mais
rpido. A grande maioria dos aplicativos em
bioinformtica j possui verses compatveis
com processamento em mltiplos ncleos, e
devemos estar atentos escolha destas verses e instalao de forma que essa caracterstica esteja funcional, sob pena de
subutilizao da CPU.
J GPUs (Graphical Processing Units ou
unidades de processamento grfico) so microprocessadores desenvolvidos inicialmente
1. O que Bioinformtica?
1. O que Bioinformtica?
existentes, relacionando determinada sequncia a caractersticas e propriedades especficas. Contudo, somente uma pequena
quantidade de organismos teve seu genoma
sequenciado at o momento e, destes, somente uma pequena parte de genes teve sua
funo determinada experimentalmente. Devemos, portanto, lembrar que as predies
destes modelos esto relacionadas a quo
completos foram os bancos de dados que os
basearam. E que estes esto em contnuo
avano (ou seja, uma predio feita h 5 anos
no necessariamente ser igual a uma predio hoje que, por sua vez, pode ser diferente
de uma predio de funo gnica daqui a 5
anos - discutiremos no captulo 3 alguns indicadores da qualidade dessas associaes).
A despeito desta diversidade de estratgias, a predio da energia livre em processos moleculares continua sendo um grande
desafio. Em decorrncia do elevado custo
computacional associado a estes clculos, diferentes tipos de simplificaes e generalizaes
precisam
ser
realizadas,
comprometendo nossa capacidade de empreg-los de forma ampla e fidedigna.
Enovelamento de protenas
Como veremos adiante no livro, o enovelamento de protenas um dos processos
mais complexos conhecidos pelo ser humano.
O nmero de estados conformacionais possveis para uma protena pequena gigantesco,
dos quais um ou alguns poucos sero observveis em soluo em condies nativas. Os
mtodos experimentais usualmente empregados para tal, a cristalografia de raios-X e a
ressonncia magntica nuclear, so mtodos
caros e ainda possuem algumas limitaes
importantes em determinadas situaes,
apontando para a Bioinformtica um potencial
e importante papel na determinao da estrutura de biomolculas.
Mas para que precisamos saber como
a estrutura tridimensional de uma determinada biomolcula? Esta pergunta possui muitas respostas, incluindo a compreenso de
como a natureza evoluiu, como os organismos funcionam, como os processos patolgicos se desenvolvem (e podem ser tratados) e
como as enzimas exercem suas funes catalticas. Tomemos este ltimo caso como
exemplo.
Com o entendimento de como protenas
se enovelam, ser possvel construir novas
protenas, capazes de adotar formas que a
natureza no previu at o momento, enzimas
aptas a catalizar reaes de importncia econmica, com menor toxicidade, o que ter por
si impacto ambiental. Ainda, abre-se a possibilidade de planejamento racional de enzimas
e protenas envolvidas na detoxificao de
reas. Esta linha de pesquisa est em seu incio, e o nmero de grupos de pesquisa dedicados ao redor do mundo para trabalhar na
1. O que Bioinformtica?
prever a estrutura de glicanas com graus variados de complexidade com grande preciso,
um campo no qual os mtodos experimentais
possuem grandes dificuldades em abordar.
Validao experimental
Em linhas gerais, mtodos computacionais devem ser comparados a dados experimentais para validao. Esta afirmao,
embora tomada geralmente como um axioma, bastante simplista, e no expressa claramente a complexidade e desafio nesta
tarefa. Alguns pontos especficos incluem:
i) nem sempre h dados experimentais
disponveis para validar os clculos e simulaes realizados. Por exemplo, este
o caso com frequncia para alinhamentos de sequncias, para relaes filogenticas, para predies ab initio da
estrutura de protenas e para a descrio da flexibilidade de biomolculas obtidas por dinmica molecular. Nem
sempre h fsseis ou outras evidncias
arqueolgicas para validar antepassados evidenciados por estudos filogenticos. Por outro lado, no h mtodos
experimentais com resoluo atmica e
temporal, de forma que a validao de
simulaes por dinmica molecular
em grande medida indireta (uma estrutura obtida por cristalografia nica,
sem variao temporal, enquanto os
modelos oriundos de ressonncia magntica nuclear correspondem a mdias
durante o perodo de coleta do dado);
ii) os dados experimentais devem ser
adequados ao estudo computacional
empregado. Assim, se estamos estudando a formao de um complexo frmaco-receptor, resultados in vivo
devem ser evitados, enquanto os experimentos in vitro preferidos. Se administramos um determinado frmaco por
via oral a um camundongo, este frmaco passar por diversos processos farmacocinticos (absoro, distribuio,
metabolizao e excreo) que muito
provavelmente iro interferir na ao
1. O que Bioinformtica?
Hugo Verli
2.1. Introduo
2.2. Macromolculas biolgicas
2.3. Nveis de organizao
2.4. Descritores de forma
2.5. Formas de visualizao
2.6. Conceitos-chave
2.1. Introduo
Por mais que possam apresentar enormes diferenas em suas caractersticas os
seres vivos, desde bactrias a mamferos,
passando por plantas e fungos, so compostos aproximadamente pelos mesmos tipos de
molculas. Estes compostos incluem protenas, cidos nucleicos, lipdeos e carboidratos,
molculas nas quais a vida como conhecemos
baseada.
Cada uma destas classes de biomolculas apresenta, contudo, enormes variaes de
forma, estrutura e funo na natureza, o que
possibilita a gigantesca variedade e complexidade de manifestaes da vida em nosso planeta. Mesmo em estruturas que no so
normalmente consideradas vivas, como o
caso dos vrus, estas biomolculas so tambm encontradas e se mostram essenciais
execuo de suas funes, sejam estas patolgicas ou no.
Independentemente da forma pela qual
cidos nucleicos
Os compostos denominados cidos
nucleicos so polmeros sintetizados a partir
de unidades denominadas nucleotdeos. Os
nucleotdeos so formados por trs partes
constituintes: uma base nitrogenada, um carboidrato e um grupo fosfato. A base nitrogenada pode ser adenina (A), guanina (G),
citosina (C), uracila (U) ou timina (T), enquanto
a parte sacardica poder ser -D-ribose (frequentemente abreviada simplesmente como
ribose, para o RNA) ou a 2-desoxi--D-ribose
(usualmente abreviada como desoxirribose,
para o DNA) (Figura 2-2). Nas molculas de
cidos nucleicos, os nucleotdeos so ligados
atravs da denominada ligao fosfodister
(ver adiante).
Quando a base nitrogenada est ligada
ao carboidrato, na ausncia do grupo fosfato,
os compostos gerados so denominados nucleosdeos. Formados por ligao de diferentes nucleotdeos -D-ribose temos a
Protenas
As protenas so polmeros sintetizados
pelas clulas a partir de aminocidos. So
talvez as biomolculas mais versteis na natureza, sendo capazes de adotar uma gigantesca
possibilidade
de
arranjos
tridimensionais, no encontrada nos demais
biopolmeros. No por acaso, constituem-se
no principal produto direto da informao gentica, a partir da traduo do RNAm.
O genoma codifica diretamente 20 aminocidos (22 contando selenocistena e pirrolisina, que so codificadas por codons de
parada) para composio de protenas (Figura
3-2), embora outros resduos de aminocidos,
no codificados no genoma (Figura 4-2), possam ser sintetizados a partir destes e exercer
funes bastante especficas, como o cido amino butrico (GABA), um neurotransmissor
inibitrio no sistema nervoso central, ou como o resduo cido -carbxi glutmico (GLA),
constituinte de diversas protenas plasmticas e fundamental na hemostasia.
Os aminocidos codificados no genoma
apresentam algumas caractersticas bem definidas e compartilhadas entre si. Todos os
resduos apresentam uma regio comum, independente do resduo. Esta regio denomi-
Figura 3-2: Estrutura dos aminocidos codificados no genoma, organizados segundo as propriedades de suas cadeias laterais. No topo o esqueleto peptdico representado como encontrado dentro de uma protena, tanto em sua forma 2D quanto 3D. Nesta ltima, o grupo R (cadeia
lateral) est apresentado como uma esfera amarela, enquanto a continuao da cadeia polipeptdica como esferas verde-escuras. As cadeias laterais esto apresentadas em sua ionizao
mais comum, plasmtica.
nada esqueleto peptdico, e composta pelo
grupo amino, pelo grupo cido carboxlico e
pelo tomo de carbono que liga estes dois
grupos, denominado carbono (C). A diferena entre estes resduos est no grupamento ligado ao C, chamado cadeia lateral
(Figura 3-2).
Enantimeros so compostos que, diferindo somente no arranjo de seus tomos no espao (como no
caso de L-Ser e D-Ser), correspondem um imagem
especular do outro (isto , uma o reflexo em um es-
pelho da outra).
exceo da glicina, todos os aminocidos so quirais, em decorrncia da presena de quatro substiuintes diferentes ligados ao C. Salvo casos especficos,
todos os aminocidos quirais so encontrados em somente uma forma enantiomrica, L. Como consequncia, todas as protenas so quirais, e isto tem
implicaes importantes em fenmenos bioqumicos e
na prtica teraputica.
Dois enantimeros interagem de forma idntica
com compostos que no sejam quirais. Por exemplo, a
Figura 4-2: Exemplos de aminocidos encontrados em nosso organismo mas no codificados no genoma humano.
interao de L-Ser e D-Ser com a gua idntica. Em
contrapartida, compostos quirais interagem diferentemente com cada enantimero. Assim, a interao de LSer e D-Ser com uma dada protena seria diferente.
Assim, se tivermos um frmaco quiral, uma de suas
formas enantiomricas ser ativa e a outra provavelmente inativa, menos ativa ou mesmo txica.
O esqueleto peptdico de aminocidos apresenta um
grupo do tipo cido carboxlico somente em aminocidos livres, monomricos, ou na posio terminal da
protena, denominada regio C-terminal (o final da sequncia polipeptdica). Da mesma forma, s encontramos o grupo amino na regio demominada N-terminal
(o incio da sequncia polipeptdica). exceo destas
extremidades, os grupos amino e carboxlico reagem,
dando origem a um grupo amida. Assim, dentro de
uma protena, cada aminocido contribui com um um
tomo de nitrognio e com uma carbonila para a formao de uma amida contida no esqueleto peptdico.
Os aminocidos frequentemente so
agrupados de acordo com as propriedades de
suas cadeias laterais (Figura 3-2). Inicialmente, podem ser separados em resduos polares
e apolares. Os resduos polares incluem aminocidos no-carregados e carregados (com
carga positiva ou negativa), enquanto os resduos apolares incluem aminocidos aromticos e alifticos (no aromticos).
As propriedades dos aminocidos so altamente in-
Carboidratos
Carboidratos compem um terceiro
grupo de biomolculas. So compostos que,
ao contrrio das protenas, no esto codificados diretamente no genoma. Enquanto a
sntese de protenas guiada por um molde (a
molcula de RNAm), a sntese de carboidratos no segue uma referncia direta, mas um
processo complexo e menos especfico.
Embora o genoma no codifique a sequncia oligossacardica, ele determina a expresso de diversas
enzimas que sintetizam carboidratos, ligam-os a outras
estruturas polissacardicas ou ainda modificam os resduos monossacardicos, adicionando ou removendo
grupamentos substituintes nos anis furanosdicos ou
piranosdicos (Figura 5-2). Todo este processo bastante especfico, envolvendo tipos de monossacardeos
ou ainda posies especficas dentro destas molculas.
Uma das principais famlias de enzimas envolvidas neste processo so as denominadas glicosil transferases.
Os carboidratos possuem algumas diferenas importantes em relao aos aminocidos. So, em geral, compostos mais
polares, o que indica que iro interagir fortemente com a gua. Outra diferena importante se refere sua diversidade. Em
comparao aos 20 aminocidos codificados
no genoma, mais de 100 possveis unidades
Membranas
Diferentemente dos cidos nucleicos,
protenas e carboidratos, membranas no se
"Micromolculas" biolgicas
Quando pensamos nos efetores da informao gentica natural que a primeira
famlia de biomolculas que venha a nossa
mente seja a das protenas, codificadas diretamente no genoma. Contudo, como vimos
anteriormente, outros tipos de biomolculas
so fundamentais ao funcionamento dos organismos, mesmo que estas no estejam codificadas diretamente no DNA.
Da mesma forma como no h um conjunto de bases nitrogenadas que codifique
monossacardeos ou lipdeos, diversos compostos de baixa massa molecular (por isso
muitas vezes chamados de micromolculas,
em oposio s macromolculas, compostos
de elevada massa molecular) no possuem
codificao direta no genoma, mas so produzidos a partir de enzimas que, estas sim,
tm suas sequncias de aminocidos definidas pela molcula de DNA. Neurotransmisso-
Adicionalmente, fatores externos prpria sequncia proteica podem interferir nestes nveis de organizao. Um dos fatores mais comuns a glicosilao de
protenas, que frequentemente estabiliza partes da
mesma e, assim como as chaperonas, pode interferir
na forma proteica tridimensional existente em meio biolgico.
Estrutura 1ria
O nvel inicial de complexidade, a estrutura 1ria, consiste num padro de letras (ou
pequenos conjuntos de letras) que representa
a composio do biopolmero. Esta sequncia
de letras representa uma informao de natureza unidimensional (1D), em que a nica dimenso descrita a ordem de aparecimento
dos monmeros.
Para cidos nucleicos, a estrutura 1ria
consiste numa sequncia de nucleotdeos, enquanto para protenas em uma sequncia de
aminocidos e, para carboidratos, em uma
sequncia de monossacardeos (Figura 9-2).
Este ltimo caso o nico para o qual no h
uma descrio de uma nica letra para cada
monmero, principalmente em face do elevado nmero de possveis monmeros encontrados na natureza, maior que o nmero de
letras no alfabeto.
Embora de menor complexidade, a estrutura 1ria nos oferece um grande volume de
informaes sobre a forma nativa da biomolcula e, por conseguinte, sobre suas funes.
Tais informaes advm principalmente da
comparao de sequncias de biomolculas
(aminocidos ou nucleotdeos) em busca de
padres especficos associados a determinadas caractersticas ou funes. Uma vez
identificados, esses padres ou assinaturas
podem ser usados na busca das mesmas caractersticas em outras protenas, desconhecidas. Estas comparaes ainda nos permitem
estudar a evoluo destas biomolculas e de
seus organismos, contribuindo no entendimento de como a vida se desenvolveu e atingiu o seu estgio atual de complexidade (ver
captulo 5).
DNA:
GGTATAGGCGCTGTTCTTAAGGTGCTAACAACGGGGT
TACCCGCGTTGATCTCGTGGATAAAACGCAAACGCCA
ACAG
RNA:
GGUAUAGGCGCUGUUCUUAAGGUGCUAACAACGGG
GUUACCCGCGUUGAUCUCGUGGAUAAAACGCAAAC
GCCAACAG
Aminocidos:
GIGAVLKVLTTGLPALISWIKRKRQQ
Sequncia sacardica:
-D-GlcNAc,6S-(13)--D-GlcA-(14)--DGlcNS,3S,6S-(14)--L-IdoA,2S-(14)--DGlcNS,6S
Estrutura 2ria
A partir da sequncia de monmeros
descritos, em uma determinada ordem especfica, na estutura 1ria surgem interaes entre monmeros vizinhos e com as molculas
de solvente circundantes. Por exemplo, enquanto dois nucleotdeos vizinhos tendem a
"empilhar" os anis das bases, uma cadeia lateral de um aminocido polar vai se expor
gua, maximizando interaes por ligao de
hidrognio com este solvente. De forma semelhante, uma cadeia apolar ir se expor aos
lipdeos em uma membrana, maximizando interaes hidrofbicas com este outro solvente.
Estas interaes entre monmeros
acabam por dar origem a padres repetitivos
de organizao espacial, denominados de estrutura 2ria (Figura 10-2). Estes padres ou
elementos aparecem em nmero relativa-
mais
comuns
Tamanho
(n de resduos)
o
voltas
voltas
voltas
voltas
alas
6-16a
alas
6-16a
da hlice.
Diversos tipos de hlices podem ser encontrados em protenas (Tabela 2-2). A hlice
mais comum, denominada de hlice , apresenta 3,6 resduos de aminocidos por volta
da hlice, e cada aminocido (n) realiza ligao
de hidrognio com o quarto resduo seguinte
(n + 4), que perfaz (aproximadamente) uma
volta completa da hlice. Outro tipo de hlice
comum em alguns tipos de protena a hlice
de poli-prolina II encontrada, por exemplo, em
protenas de parede celular de plantas e no
colgeno. Neste tipo de hlice, contudo, como
o tomo de nitrognio da prolina est ligado a
trs tomos de carbono, no h formao de
ligao de hidrognio durante a organizao
da hlice.
Existem, ainda, outros tipos de hlice, menos comuns, como a hlice e a hlice 310 (Tabela 2-2). Quanto nomenclatura, a hlice 310 foge ao padro de uso
de letras gregas das hlices e . O nmero 3 representa o nmero de resduos por volta da hlice, enquanto o nmero 10 reflete o nmero de tomos entre
duas ligaes de hidrognio vizinhas dentro da hlice.
Assim, segundo esta nomenclatura, a hlice seria
chamada de 3,613 e a hlice de 4,416. Tais nomenclaturas, contudo, no so normalmente empregadas.
Figura 10-2: Representao dos tipos mais comuns de estrutura 2ria encontrados em protenas.
Em verde esto as hlices (A), em azul as hlices 310 (B), em salmo as hlices (C), em ciano
as folhas paralelas (D) e roxo as antiparalelas (E). As ligaes de hidrognio entre tomos do
esqueleto peptdico esto apresentadas como linhas tracejadas em marrom. As estruturas so
partes que compe as protenas descritas pelos cdigos PDB 18D8, 1ABB, 2QD1, 1EE6 e 1PC0, e
para cada uma duas diferentes orientaes so apresentadas. Note que as cadeias laterais
apontam para fora do eixo das hlices e, para as folhas, para cima e para baixo do plano
definido pelas fitas.
na molcula de DNA, como na largura e profundidade das fendas maior e menor e na disposio e orientao dos grupos fosfato,
propriedades estas que, por sua vez, esto
Resduos /
volta
Ligao de
hidrognio
Elevao /
resduo ()
Elevao /
volta ()
Direo mais
comum
hlice
3,6
n+4
1,5
5,4
direita
hlice 310
n+3
2,0
6,0
direita
hlice
poli-Pro I
poli-Pro II
4,4
3,3
3
n+5
1,2
1,7
3,1
5,3
5,6
9,3
direita
direita
esquerda
es na parte sacardica e no grupo fosfato (ver adiante). Essa regio, formada por carboidrato e fosfato,
tambm denominada de esqueleto do DNA, em analogia ao esqueleto peptdico. A lgica a mesma: o esqueleto composto pela regio comum a todos os
monmeros formadores do biopolmero. Adicionalmente, outras formas de DNA j foram identificadas
(alguns autores afirmam inclusive que poucas letras
do alfabeto sobram para nomear novas formas de
DNA que por ventura venham a ser identificadas), embora muitas ainda no tenham papel biolgico claro.
A maioria dos genomas eucariticos est sujeita a
um fenmeno de metilao do DNA, que consiste na
adio de um grupo metila no tomo de carbono na
posio 5 dos resduos de citosina. Como uma modificao estrutural epigentica envolvida na regulao do
potencial regulatrio e transcricional do DNA, deve-se
estar atento necessidade de incluir tal modificao na
descrio deste cido nucleico.
Figura 11-2: Representao dos tipos mais comuns de estrutura 2ria encontrados no DNA, ilustradas para sequncias de 12 nucleotdeos. Em vermelho esto as hlices B (A), em azul as
hlices A (B) e em magenta as hlices Z (C). As estruturas pelos cdigos PDB 3BSE, 3V9D e
279D. Para cada uma duas diferentes orientaes so apresentadas, e o esqueleto das
molculas de DNA est representado como fitas.
ma que no h definio especfica para um
ou alguns tipos de hlices, como vimos anteriormente. Ao invs disto, cada tipo de polissacardeo apresentar um nmero de
resduos por volta, elevao por resduo e
elevao por volta, assim como seu sentido
para a direita ou para a esquerda (vide tabela
2-3).
Estas caractersticas, contudo, so normalmente
determinadas experimentalmente atravs de difrao
de raios-X, na qual a amostra est na fase cristalina.
Esta uma condio adequada descrio, por exemplo, da quitina, polissacardeo encontrado na natureza
em condies semelhantes. Contudo, quando estes polissacardeos so transpostos para solues biolgicas,
estas molculas adotam uma elevada flexibilidade e,
por conseguinte, grande variao conformacional. No
raramente, perdemos a capacidade de identificar for-
mas repetitivas, e a denominao de alas desordenadas pode tambm ser aplicada a polissacardeos.
Adicionalmente, carboidratos no se apresentam
somente como polissacardeos lineares, mas como oligo- ou polissacardeos ramificados. Esta ramificao
agrega um grau adicional de complexidade na descrio da forma destes compostos. Mesmo assim, ainda
possvel descrever a forma destes compostos, caso a
caso, como veremos adiante.
Estrutura 3ria
A importncia do conhecimento da estrutura 2ria de biomolculas reside, principalmente, no fato de que estes elementos se
organizam no espao tridimensional, dando
pb /
volta
Elevao / Elevao /
Fenda maior ()
Fenda menor ()
pb ()
volta () Largura Profundidade Largura Profundidade
DNA A
11
2,9
32
2,7
13,5
11,0
2,8
direita
DNA B
10
3,4
34
11,7
8,5
5,7
7,5
direita
DNA Z
12
3,8
45
convexa
esquerda
Direo
Estrutura 4ria
Figura
12-2:
Representao
2D
do
enovelamento de uma protena hipottica,
com
o
direcionamento
de
resduos
hidrofbicos (crculos pretos) para o interior
da protena e dos resduos hidroflicos para
sua superfcie (crculos brancos). Reproduzida
de Tomixdf, 2008 (Creative Commons).
es covalentes, associadas a modificaes
co- ou ps-traducionais.
Durante ou aps a sntese proteica (traduo), podem ser formadas ligaes dissulfeto entre grupamentos sulfidrila (SH) de
resduos de cistena, cofatores como o grupamento heme podem ser adicionados ou
mesmo processos reversveis podem ocorrer,
nos quais reaes como N-acetilao ou fosforilao podem ser observadas de forma
transiente. Mas o tipo mais abundante de modificao co- ou ps-traducional na natureza
a glicosilao de protenas, ou seja, a adio
de uma estrutura oligossacardica a um determinado aminocido. Assim, a adio destas
ligaes covalentes e grupamentos altera no
somente a forma 3D da protena, mas sua
flexibilidade e mltiplas propriedades fisicoqumicas, enzimticas e, por fim, pode tambm exercer papel importante em suas funes biolgicas.
A glicosilao de protenas ocorre em mais de 70%
das protenas de eucariotos. Diversos aminocidos podem estar envolvidos na ligao a carboidratos, mais
Figura 13-2: Mapas de Ramachandran para casos gerais (resduos que no sejam prolina ou
glicina), para resduos de glicina e para resduos de prolina. Os pontos correspondem s
distribuies de ngulos e de cerca de 100 mil resduos componentes de 500 estruturas
proteicas obtidas em alta resoluo. As regies onde se localizam as estruturas secundrias
tpicas esto destacadas nos mapas. [Figura baseada em LOVELL, Simon C. et al. Structure
Validation by C Geometry: , and C Deviation. Proteins, 50, 437-450, 2003; e Hollingsworth,
Scott A. & Karplus, P. Andrew. A fresh look at the Ramachandran plot and the occurrence of
standard structures in proteins. Biomol. Concepts, 1, 271283, 2010].
neamente. Assim, os valores de ngulos torsionais devem ser considerados como mdias, referncias geomtricas em torno das quais o comportamento da
molcula em questo ir variar em soluo.
cidos nucleicos
Em acrscimo aos ngulos torcionais os
cidos nucleicos, ao formarem pares de bases, definem quase duas dezenas de parmetros geomtricos distintos, importantes para
uma cartacterizao precisa da estrutura
destas biomolculas (Figura 15-2). Isto ocorre
em decorrncia de movimentos de translao
ou rotao que cada base ou par de bases
pode sofrer dentro da regio pareada. Assim,
molculas ou regies de cidos nucleicos no
Protenas
Considerando os 20 aminocidos codificados no genoma, poderamos imaginar que
teramos 20n possveis protenas diferentes,
sendo n o nmero de aminocidos. A situao,
felizmente, no to complexa por uma srie
de motivos.
Um primeiro aspecto a ser observado
que, quando uma sequncia de aminocidos
se enovela para adotar uma determinada estrutura 3ria, alguns aminocidos se localizam
em pontos chave para a estabilizao da estrutura 3D. Assim, sua modificao poderia
desestabilizar total ou parcialmente a conformao nativa da protena. Como conse-
Membranas
No temos falado muito de membranas
at este momento por alguns motivos. Primeiramente, membranas no so biopolmeros, mas agregados de mltiplas molculas, o
8-2).
A rea por lipdeo nos oferece informaes acerca
do grau de compactao das molculas que constituem uma membrana, ou seja, uma rea menor indica
uma membrana mais compacta. Isto, por sua vez, sugere uma interao mais intensa entre os componentes
da membrana.
Embora protenas inseridas em membranas adap-
Figura 16-2: Exemplos de motivos proteicos, coloridos por cada elemento de estrutura 2ria. So
apresentados barris compostos por fitas-, em A a protena verde fluorescente (do ingls green
fluorescent protein, GFP, cdigo PDB 1EMG), em D a porina OMP32 (cdigo PDB 2FGQ) e em G o
transportador FECA (cdigo PDB 1KMO); feixes de hlices , em B a bacteriorodopsina (cdigo
PDB 1AP9), em E a protena SERCA1 (cdigo PDB 1WPG) e em H parte do sistema fotossinttico
de uma cianobactria (cdigo PDB 1JB0); e ferraduras compostas por hlices , em C um inibidor
de crescimento tumoral (cdigo PDB 1BD8), em F uma repetio rica em resduos de leucina,
associada fixao de nitrognio (cdigo PDB 1LRV) e em H a lipovitelina (cdigo PDB 1LSH).
Partes das estruturas foram omitidas buscando maior clareza na imagem. Imagem construda
usando o programa Pymol, a partir de organizao proposta em "The Protein Chart", de Richard
C. Garratt e Christine A. Orengo, 2008, Wiley-VCH.
protena.
de uma Leu, e mesmo impossvel em cartoon ou superfcie. Portanto, pode ser muito til combinar estas
representaes tridimensionais a alinhamentos de sequncias da regio de interesse.
O mesmo vale para a apresentao de sequncias
isoladas de estruturas. Enquanto uma mutao em um
nico nucleotdeo pode interferir na funo proteica, isso no feito pela troca de uma letra por outra na sequncia, mas por mudanas que esta troca acarretam
na estrutura da protena. O entendimento deste processo pode depender simplesmente da nossa imaginao ou da visualizao da respectiva mudana na
protena.
2.6. Conceitos-chave
Anfipatia: propriedade de molculas que possuem tanto regies hidroflicas quanto hidrofbicas.
tura tridimensional nativa, isto , equivalente quela observada em seu local biolgico de ao e funcional. Tambm
chamado por alguns autores de dobramento.
Equilbrio pseudo-rotacional: processo de interconverso entre as diferentes conformaes adotadas por carboidratos.
Estrutura 2ria: padres estruturais definidos pela organizao das unidades monomricas
(isto , nucleotdeos, aminocidos e monossacardeos) de cada biomolcula em
formas tridimensionais. Estes padres podem classificados segundo suas diferentes
formas.
Estrutura 3ria: estrutura 3D completamente
enovelada.
Estrutura 4ria: organizao definida pela agregao de mltiplas estruturas 3rias.
Furanoses: monossacardeos cujo anel composto por 5 tomos, quatro de carbono e
um de oxignio. O nome vem da semelhana deste anel com o composto furano.
Ligao fosfodister: ligao formada entre dois
nucleotdeos, atravs de seus grupos fosfato.
Ligao glicosdica: ligao formada entre dois
monossacardeos.
Ligao peptdica: ligao formada entre dois
aminocidos, atravs do grupo amino de
um resduo e do grupo carboxila do outro,
dando origem a uma funo amida.
Mapa de Ramachandran: um grfico que descreve a variao da energia em funo da
rotao dos ngulos de diedro e , ao
redor do C.
Nucleosdeo: molcula formada por uma base
nitrogenada ligada a um carboidrato (ribose ou desoxirribose), sem o grupo fosfato.
Nucleotdeo: molcula formada por uma base
nitrogenada ligada a um carboidrato (ribose ou desoxirribose) e a um grupo fosfato.
Piranoses: monossacardeos cujo anel composto por 6 tomos, cinco de carbono e
um de oxignio. O nome vem da semelhana deste anel com o composto pirano.
3. Alinhamentos
3.1. Introduo
3.2. Alinhando sequncias
3.3. Tipos de alinhamento
3.4. Alinhamento simples
3.5. Alinhamento mltiplo global
3.6. Alinhamento mltiplo local
3.7. BLAST
3.8. Significncia estatstica
3.9. Alinhamento de 2 estruturas
3.10. Alinhamento de >2 estruturas
3.11. Alinhamento flexvel
3.12. Conceitos-chave
3.1. Introduo
O avano nas tcnicas de sequenciamento do DNA tem permitido um crescente
aumento no nmero de genomas disponveis
em bancos de dados pblicos. Esta maior disponibilidade exigiu um grande aumento na capacidade computacional de armazenamento e
no investimento em desenvolvimento de tcnicas de processamento adequadas para a
anlise destes dados. Algoritmos de anlise
tiveram de ser criados e aperfeioados e,
3. Alinhamentos
3. Alinhamentos
3. Alinhamentos
tm grande importncia para a anlise de genes e genomas. Com o aumento da disponibilidade de sequncias nucleotdicas de
genomas completos, e mesmo com o surgimento de modernas tcnicas de biologia molecular, como o microarray e deep
sequencing, os mtodos de comparao permitiram o entendimento a respeito da variabilidade gentica de indivduos e populaes.
A comparao entre genomas de diferentes espcies, ou at mesmo de indivduos
da mesma espcie, possibilita a anlise de variaes (mutaes ou polimorfismos) nas sequncias e, em alguns casos, permite a
identificao de relaes entre variaes no
DNA e susceptibilidade a determinadas doenas, beneficiando o campo da gentica e reas
relacionadas. Adicionalmente, como um recurso para a caracterizao de eventos evolutivos, os alinhamentos permitem anlises
comparativas entre genomas. A abrangncia
e importncia evolutiva dos eventos de quebra e reparo de DNA, ou mesmo dos eventos
de recombinao, inverses e translocaes,
tem sido desvendados, primariamente, atravs dos mtodos de alinhamento.
Alm do alinhamento de sequncias, o
alinhamento de estruturas constitui outra importante ferramenta em estudos de bioinformtica. A metodologia bastante diferente
daquela empregada em alinhamentos de sequncias, pois passamos de um problema unidimensional
para
um
problema
tridimensional. Sua utilizao passou a ser difundida a partir de 1978, com o trabalho de
Rossmann e Argos, comparando os stios ativos de enzimas cujas estruturas eram conhecidas at aquele momento. Os mtodos de
sobreposio simples de estruturas esto
disponveis h mais tempo, tendo sido propostos a partir da dcada de 1970, enquanto
os mtodos de comparao e alinhamento se
desenvolveram posteriormente, principalmente a partir da dcada de 1990.
A comparao de estruturas se refere
anlise de similaridades e diferenas entre
duas ou mais estruturas, enquanto o alinhamento de estruturas se refere determinao de quais aminocidos seriam equivalentes
3. Alinhamentos
3. Alinhamentos
da anlise. Contudo, at o momento no existem programas capazes de lidar com as lacunas de forma coerentemente biolgica.
Apesar de sabermos que se tratam de eventos evolutivos comuns e bem caracterizados,
as incertezas sobre o nmero de eventos e
sua intensidade tornam as lacunas, em grande parte dos casos, um fator de confuso para anlises de alinhamento.
Conforme mostrado na Figura 3-3, diferentes alinhamentos so possveis para um
mesmo grupo de sequncias. A pergunta que
se segue : como reconhecer o melhor resultado quando nos deparamos com diversos
alinhamentos possveis para um mesmo conjunto de dados? Buscou-se resolver este problema atravs da criao de um sistema de
pontuao para comparar os resultados de
diferentes alinhamentos. Caracteres idnticos
em sequncias diferentes representam igualdades ou correspondncias (matches) e, por
serem resultados preferenciais durante o
processo de alinhamento, so pontuados positivamente. Pelo contrrio, caracteres no
idnticos que ocupam a mesma coluna so
chamados de desigualdades, ou mismatches,
e recebem atribuies negativas. Como resultado, o melhor alinhamento possvel para duas sequncias aquele que maximiza a
pontuao total, somando os valores de
matches e debitando os valores de
mismatches.
Do ponto de vista biolgico, as mudanas entre as bases nitrogenadas nas sequncias de nucleotdeos no ocorrem com a
mesma probabilidade (Figura 4a-3). Sendo
assim,
podemos
atribuir
valores
de
mismatches diferentes s transies (trocas
de purinas por purinas ou pirimidinas por pirimidinas) e s transverses (trocas de purinas
por pirimidinas ou pirimidinas por purinas).
Para sequncias de aminocidos, necessrio
escolher ativamente uma matriz de pontuao especfica. Essas matrizes so resultados
diretos de estudos de variao proteica e esto diretamente relacionadas probabilidade
de substituio de um aminocido por outro
(matrizes BLOSUM e PAM). Atualmente, as
matrizes BLOSUM so as mais disseminadas
3. Alinhamentos
3. Alinhamentos
3. Alinhamentos
Figura 7-3: Diferenas entre alinhamento local e global. a) Duas sequncias de nucleotdeos de
tamanhos diversos so amostradas e alinhadas por algoritmos diferentes. b) No alinhamento
local, a prioridade encontrar as regies altamente similares, independentemente do tamanho
desta regio. Neste caso, pores da sequncia que no foram alinhadas com alta similaridade
foram excludas do resultado final. c) No alinhamento global, as duas sequncias so alinhadas
por completo, independentemente do nmero de lacunas que tenham que ser inseridas.
3. Alinhamentos
3. Alinhamentos
3. Alinhamentos
3. Alinhamentos
Alinhamento progressivo
Leva em considerao a relao evolutiva entre as sequncias. Os algoritmos utilizam as relaes filogenticas para gerar o
resultado de alinhamento. Inicialmente, so
realizados alinhamentos par-a-par de todos
os possveis pares. Nesta comparao, verifica-se apenas o nmero de caracteres diferentes entre as duas sequncias (verificar o
conceito de distncia evolutiva observada no
captulo 6). Estas distncias sero utilizadas
para a construo de uma filogenia (geralmente atravs do mtodo de neighborjoining). A partir desta filogenia o alinhamento
ser construdo progressivamente, dependendo da relao entre as sequncias sendo,
por isso, chamado de alinhamento progressivo.
Tomemos como exemplo um ramo de
uma dada filogenia que inclui duas sequncias.
O algoritmo construir um alinhamento atravs de programao dinmica para estas duas sequncias. A partir deste primeiro
alinhamento, estas duas sequncias sero
agora tratadas como uma, e sero alinhadas
prxima sequncia filogeneticamente relacionada. Devemos notar que todo o restante
das sequncias ser alinhado baseando-se
neste primeiro par. um mtodo rpido e
amplamente utilizado para alinhar um grande
nmero de sequncias. Atualmente, os programas mais populares de alinhamento progressivo so o CLUSTALW e CLUSTALX.
3. Alinhamentos
Algoritmos genticos
Estes algoritmos buscam simular o
processo evolutivo no conjunto de sequncias
a serem alinhadas, aplicando conceito de seleo e recombinao. ainda um mtodo
lento e, devido aleatoriedade do processo,
no garante o mesmo resultado para diferentes alinhamentos do mesmo conjunto de
dados. O programa SAGA um dos poucos a
implementar algoritmos genticos.
Anlise de perfis
A partir de um alinhamento primrio de
todas as sequncias envolvidas na anlise e
utilizando uma matriz de custo padro, o algoritmo seleciona as regies altamente conservadas e produz uma nova matriz de
pontuao (matriz de custo), chamada de
perfil. A construo deste perfil pode ser realizada atravs de dois mtodos diferentes
(mtodo das mdias e mtodo evolutivo) e
inclui pontuaes para matches, mismatches
e lacunas. Assim que produzido, este perfil
pode ser utilizado para alinhar sequncias entre si utilizando as pontuaes calculadas pa-
Anlise de blocos
Assim como a anlise de perfis este
mtodo requer, inicialmente, a seleo da regio de maior similaridade de um alinhamento
mltiplo. Estas regies podem ser chamadas
de blocos e diferem dos perfis por no acomodarem indels, que sero automaticamente
eliminados das anlises. Este mtodo tambm capaz de realizar a busca de pequenas
regies de similaridade entre sequncias, de
maneira semelhante ao mtodo de palavras.
Anlise de motivos
Este mtodo especialmente utilizado
na busca por motivos proteicos em sequncias de aminocidos. O mtodo foi desenvolvido
atravs do alinhamento de milhares de sequncias de aminocidos extradas de grandes bancos de dados de protenas. A partir
deste alinhamento, analisou-se cada uma das
colunas para buscar um padro de substituio entre os aminocidos. Estes padres de
mudana refletem uma maior probabilidade
de substituio. Para proceder ao alinhamento, os algoritmos que aplicam a anlise de
motivos iniciam o processo por uma anlise
de blocos. As regies de alta similaridade so
ento analisadas para buscar os padres de
substituio descritos inicialmente. O conjunto
de padres resultante da anlise das colunas
chamado de motivo. A probabilidade de
existncia de cada motivo em uma sequncia
de protena estimada atravs do banco de
dados do SwissProt.
3. Alinhamentos
3.7. BLAST
O BLAST, ou Ferramenta de Busca por
Alinhamento Local Bsico (Basic Local
Alignment Search Tool) um algoritmo capaz
de realizar buscas baseadas em alinhamento
que, apesar de no serem exatas, so confiveis e muito rpidas, sendo estas suas vantagens em relao a outros mtodos. Ele um
dos programas mais usados em Bioinformtica devido velocidade em que consegue
responder a um problema fundamental em
biologia celular e molecular: comparar uma
sequncia desconhecida com aquelas depositadas em bancos de dados.
O algoritmo do BLAST aumenta a velocidade do alinhamento de sequncias ao buscar primeiro por palavras comuns (ou
k-tuples) na sequncia de busca e em cada
sequncia do banco de dados. Em vez de buscar todas as palavras de mesmo tamanho, o
BLAST limita a busca quelas palavras que
so mais significantes. O tamanho de palavra
fixado em 3 caracteres para sequncias de
aminocidos e em 11 para sequncias de nucleotdeos (3 se as sequncias forem traduzidas nos 6 quadros de leitura possveis). Esses
so os tamanhos mnimos para obter uma
pontuao por palavras que seja alta o suficiente para ser significativa sem perder fragmentos menores, mas importantes, de
sequncia.
ii.
Estabelecer uma lista de palavras
com k-letras.
Sendo este um caso envolvendo sequncias proteicas, k = 3, ou seja, cada palavra tem tamanho 3. Como
mostrado na Figura 10-3, so listadas palavras com
comprimento de 3 caracteres, sequencialmente, at
que a ltima letra da sequncia de busca seja includa.
3. Alinhamentos
forem menores sero descartadas. Considerando o exemplo anterior, se T = 13, PEG ser mantida, enquanto
PQA ser abandonada.
O BLAST realiza uma varredura das sequncias depositadas no banco de dados, buscando pelas palavras
de alta pontuao (como PEG, no exemplo anterior). Se
uma correspondncia exata for encontrada, ela ser
empregada para nuclear um possvel alinhamento sem
lacunas (gaps) entre a sequncia de busca e a depositada no banco de dados.
de
Em alguns casos, duas ou mais regies de HSP podem ser combinadas em um trecho maior de alinhamento (uma evidncia adicional da relao entre a
3. Alinhamentos
3. Alinhamentos
Figura 13-3: Exemplo de um resultado de busca realizada pelo BLAST. Diferentes informaes
so apresentadas: 1) representao grfica de domnios conservados identificados na
sequncia; 2) representao grfica de matches, indicando qualidade do alinhamento e
cobertura das sequncias identificadas; 3) informaes estatsticas dos resultados encontrados,
incluindo identidade e valor e; 4) alinhamento de cada sequncia encontrada com a sequncia de
busca (query).
de dados.
vii. megablast: para empregar um grande nmero de sequncias de busca.
Quando se compara um grande nmero
de sequncias de busca (especialmente
no BLAST por linha de comando), o
megablast muito mais rpido que o
BLAST executado por vrias vezes seguidas. Ele agrupa muitas sequncias de
busca, formando uma grande sequncia,
antes de realizar a busca no banco de
3. Alinhamentos
a homologia destas sequncias, dado que sequncias no relacionadas podem conter similaridades devido evoluo convergente.
3. Alinhamentos
3. Alinhamentos
obtida por um algoritmo baseado em programao dinmica. A significncia estatstica no calculada pelo
SALIGN e o usurio obtm apenas os valores da pontuao de dissimilaridade. O programa fornece, entretanto, um valor adicional de qualidade, apresentado
como porcentagem de C cuja distncia menor que
3,5 entre os pares de estruturas alinhadas.
3. Alinhamentos
3.12. Conceitos-chave
Algoritmo: sequncia lgica de instrues necessrias para executar uma tarefa.
Alinhamento: mtodo de organizao de sequncias ou estruturas biolgicas para
evidenciar regies similares e dissimilares.
Estes mtodos esto geralmente atrelados
a inferncias funcionais ou evolutivas.
Alinhamento Mltiplo: alinhamento que envolve
mais de duas sequncias ou estruturas
3. Alinhamentos
Penalidades por lacuna (PL): conjunto de parmetros necessrios para atribuir a pontuao para uma lacuna em um sistema de
alinhamento por pontuao.
RMSD: desvio mdio quadrtico.
Traduo: traduo (in silico) de uma sequncia
de mRNA em sua possvel sequncia proteica correspondente
4. Projetos Genoma
4.1. Introduo
4.2. Montagem de genomas
4.3. Montagem de transcriptomas
4.4. Identificao/anotao gnica
4.5. Identificao/anotao RNAnc
4.6. Conceitos-chave
4.1. Introduo
A anlise in silico das sequncias nucleotdicas de cromossomo(s) de um dado organismo, ou simplesmente genoma, constitui
uma da mais importantes aplicaes da bioinformtica. Tem como objetivo desenvolver e
utilizar ferramentas para identificar e caracterizar genes, elementos genticos mveis e
outros elementos presentes em um determinado genoma, assim como fazer intercorrelaes entre diferentes genomas com o
intuitodebuscaraspectosevolutivoscomuns.
O primeiro organismo a ter a sequncia
de nucleotdeos de seu genoma determinado
foi a bactria Gram negativa Haemophilus
influenzae, em um projeto liderado por J.
Craig Venter. Desde 1995, ano de publicao
desta anlise genmica, as sequncias de milhares de genomas de outros organismos j
foram determinadas e analisadas, no apenas
de espcies, mas tambm de variedades de
espcies, raas e linhagens, entre outros.
Com a grande disseminao de estrat-
gias de sequenciamento cada vez menos onerosas, muito tem se investido na gerao de
algoritmos e programas para analisar as sequncias genmicas geradas. Previamente s
anlises do genoma de H. influenzae, programas para montagem de genomas j existiam,
tendo sido desenvolvidos para anlise de volumes de sequncias relativamente pequenos,
como os dos fagos e CMV, com tamanhos
de aproximadamente 48.000 pares de bases
(pb) e 229.000 pb, respectivamente. Para
genomas maiores, novos programas tiveram
que ser desenvolvidos em virtude da maior
complexidade e quantidade das sequncias
analisadas. Neste captulo, sero abordados
os conceitos bsicos e as principais ferramentas para montagem e anotao de genomas, assim como alguns programas para a
sua anlise.
4. Projetos Genoma
um destes reads alinhado entre si na procura de regies de identidade ou de sobreposio, de maneira a construir fragmentos
contguos (contigs), os quais podem ser definidos como a unio de duas ou mais sequncias (reads) formadas por sobreposio de
elementos comuns a pelo menos duas sequncias (Figura 1-4).
Os primeiros algoritmos para montagem de genomas se baseavam no alinhamento dos reads e na concatenao de sequncias obtidas dos reads com os
maiores alinhamentos. O processo se dava de forma
cclica, concatenando as sequncias com o maior alinhamento at que todos estes alinhamentos fossem
utilizados. Esta montagem de genomas a partir de
reads tem como base os seguintes passos:
i) clculo de alinhamentos aos pares de todos os
fragmentos;
ii) escolha de dois fragmentos com a maior sobreposio;
iii) fuso dos dois fragmentos;
iv) repetio dos passos anteriores at obteno
de uma nica sequncia.
Para as novas metodologias de sequenciamento,
devido ao tamanho relativamente menor dos fragmentos, algoritmos diferentes foram desenvolvidos. Os
4. Projetos Genoma
programas de montagem atuais utilizam grafos de sobreposio ou grafos de Bruijn. Estes grafos identificam reads com possibilidade de compartilharem
trechos de sobreposio entre si utilizando uma estratgia baseada no alinhamento em sementes.
Com esta abordagem, pequenos fragmentos de
comprimento fixo obtido de cada read, os k-mers, so
usados como um ndice, e apenas pares de leituras que
partilham uma semente so posteriormente avaliados.
Os grafos de Bruiijn baseiam-se na decomposio de
reads em k-mers (por exemplo dodecmeros, ou seja
fragmentos de 12 nucleotdeos), os quais so utilizados
como nodos destes grafos. Uma ligao direta entre os
nodos indica que estes k-mers ocorrem consecutivamente em um ou mais reads.
Uma srie de programas foram desenvolvidos para a montagem de genomas, utilizando diferentes algoritmos (Tabela 1-4). No
caso de sequenciamento de genomas procariticos, ao final do processo esperada a
obteno de uma sequncia nica, a qual representa toda a sequncia nucleotdica do
cromossomo. Sabe-se, todavia, que plasmdeos podem ser encontrados em diversos
micro-organismos. Assim o nmero de
contigs ser dependente do nmero de plasmdeos e, em casos menos frequentes, do
nmero de cromossomos presentes naquela
bactria.
Ao ser analisado o genoma de organismos eucariotos, nos quais se encontra uma
grande variao no nmero de cromossomos,
um nmero maior de contigs esperado. Teoricamente, cada cromossomo deveria ser
representado por um contig. Entretanto, nos
passos iniciais de montagem de genomas so
observados dezenas a centenas de contigs,
dependendo da complexidade do organismo
cujo genoma esta sendo sequenciado. Os genomas de eucariotos, em especial de eucariotos superiores, possuem pelo menos duas
caractersticas que tornam o processo de
montagem mais complexo:
i) uma quantidade considervel de sequncias repetitivas que dificulta o processo
de
montagem
devido
a
alinhamentos de alto escore com diversas sequncias;
ii) o seu tamanho, podendo chegar a
Anlise
ABySS
grandes genomas
ALLPATHS-LG
grandes genomas
grandes genomas
genomas e
trancriptomas
genomas
Geneious
Newbler
Phrap
SOAPdenovo
Staden gap4 package
Trans-ABySS
Velvet
genomas e
transcriptomas
genomas e
transcriptomas
genomas e
transcriptomas
genomas pequenos e
transcriptomas
transcriptomas
genomas pequenos e
transcriptomas
4. Projetos Genoma
v) retrotransposons;
vi) clusters de genes DNAr (genes responsveis
pela sntese dos RNA ribossmicos RNAr).
Estas diferentes classes, cujos tamanhos podem
variar de centenas de pares de base, caso de microssatlites e SINEs, a dezenas de milhares de pares de
base, observado em clusters de genes DNAr, podem
constituir mais de 50 % do tamanho de cada cromossomo humano.
O grande desafio na montagem de sequncias genmicas com alto contedo de elementos repetitivos
se refere a correta quantificao e localizao destes
elementos nos cromossomos. Desta forma, o desafio
central da montagem de genomas reside na resoluo
destas sequncias repetitivas, estando este desafio diretamente associado metodologia de sequenciamento utilizada. Por exemplo, se forem obtidos reads de
tamanho menor que uma unidade de repetio, todos
estes reads sero utilizados para formar um contig que
contm apenas a sequncia de repetio. Entretanto,
ao serem obtidos reads com tamanho maior que a unidade de repetio, os mesmos podem ser utilizados na
resoluo da localizao destas sequncias repetitivas
em um determinado cromossomo.
Alguns programas permitem montar genomas
complexos com repeties baseados em reads maiores (como os obtidos pela metodologia de Sanger ou
pirosequenciamento). Para tal, estes programas realizam a montagem em duas ou mais fases distintas, nas
quais as sequncias repetitivas so processadas separadamente. Em um primeira fase do processo de montagem, reads contendo sobreposio de sequncias
no ambguas so agrupados em contigs, cujas extremidades contm as regies limtrofes das sequncias
de repetio. A segunda fase se caracteriza pela montagem de contigs no ambguos em sequncias maiores, usando dados de reads mate-pair.
Dados de sequenciamento paired-end oferecem a
possibilidade da determinao exata de sequncias que
flanqueiam uma determinada sequncia de repetio.
Em experimentos tradicionais associados ao sequenciamento de Sanger, um protocolo paired-end inicia-se
com longos fragmentos de DNA clonados em vetores
para sua replicao em Escherichia coli. As extremidades destes fragmentos poderiam assim ser facilmente
determinadas por sequenciamento. Protocolos pairedend para as estratgias de sequenciamento atuais no
requerem passos de clonagem em E. coli. Entretanto,
4. Projetos Genoma
lao poro do genoma que contm um gene. Alguns dos programas para este tipo de mapeamento incluem Bowtie, Tophat e SOAP, dentre outros. Como
resultado, uma determinada sequncia do genoma
representada por um grande nmero de reads, no caso
de genes mais expressos, ou um baixo nmero de
reads, no caso de genes menos expressos.
Deve ser levado em considerao, entretanto, que
quanto maior o tamanho do gene mais se espera encontrar reads associados a este gene. Desta forma, a
maneira mais comum para se calcular a expresso relativa de um determinado gene o RPKM (reads per kilobase of transcript per million mapped reads reads
por kilobase de transcrito por milhes de reads mapeados). Esta abordagem permite uma anlise comparativa baseada em uma srie de anlises estatsticas para
comparao de transcritos com diferentes RPKMs de
diferentes amostras biolgicas ou diferentes tempos
de tratamento, por exemplo.
Quando so considerados organismos cujo genoma
ainda no foi determinado, uma construo do transcriptoma a partir de dados de RNAseq realizada (de
novo). A partir das sequncias dos transcritos gerados,
possvel ento fazer o clculo do RPKM de cada
transcrito identificado.
4. Projetos Genoma
tes
4. Projetos Genoma
organismos eucariticos.
Os detectores de sinais procuram por
caracteres funcionais especficos de genes,
tanto associados transcrio quanto traduo. Sinais transcricionais incluem sequncias cannicas conservadas que delimitam as
regies necessrias para que se inicie o processo de transcrio. Os sinais mais comumente descritos em procariotos so as
regies -35 e -10 e as sequncias de associao com a RNA Polimerase. J os sinais procurados
em
sequncias
eucariticas
geralmente constituem a regio TATA box,
assim como o stio de clivagem e poliadenilao, que caracteriza o terminador.
Os sinais traducionais, por sua vez, se
referem basicamente s regies importantes
para recrutamento de ribossomos, como o
RBS (ribosome binding site, ou sitio de ligao
a ribossomos) em procariotos. Como este
mecanismo diferente em organismos eucariticos, uma regio conservada, denominada
sequncia de Kozak, utilizada como sinal
traducional em eucariotos. Estas duas regies
se localizam imediatamente a montante
(upstream) aos respectivos cdons de incio, e
desempenham um papel importante nos mecanismos de delimitao de genes.
Adicionalmente, a deteco de sinais
que delimitam os ntrons tambm so utilizados pois, como abordado anteriormente, os
genes de eucariotos so amplamente povoados por ntrons. Desta forma, a correta predio da posio de ntrons fundamental para
correta anotao do gene, sendo que os
principais sinais a serem avaliados so os nu-
Figura 3-4: A simples procura de ORFs pode gerar resultados falso positivos na procura de
genes em organismos procariticos. Como exemplo, uma sequncia de DNA de 2357 pb da
bactria E. coli HS (nucleotdeos 3027764 ao 3030120 Cdigo de Acesso junto ao NCBI
NC_009800.1), o qual contm o gene xdhA, foi avaliada quanto presena de ORFs com mais
de 150 pb com o programa ORF Finder. A sequncia anotada do gene encontra-se em vermelho,
ao passo que as possveis ORFs esto demarcadas em azul.
4. Projetos Genoma
4. Projetos Genoma
Figura 4-4: Identificao de genes baseada em evidncia. Utilizando BLASTn com base em dados
de transcritoma (cDNA, em azul), pode ser alcanada uma aproximao da sequncia do gene
(vermelho), inclusive permitindo a delimitao de xons e ntrons. As regies de identidade
esto delimitadas por traos verticais. Com base na sequncia de ntrons (quadros na poro
inferior), possvel construir modelos para sua predio. Modelo construdo com base no gene
F10E9.5 de Caenorhabditis elegans (cdigo de acesso NCBI NC_003281).
4. Projetos Genoma
4. Projetos Genoma
Descrio
Aplicao
Eucariotos
FGNESH
Eucariotos
fgenesB
Procariotos
Genemark
Twinscan
Procariotos e
eucariotos
Eucariotos
GenomeScan
Glimmer
Eucariotos
Procariotos
Combiners
Evidence Modeler Tem como resultado um modelo gnico pela combinao de
Eucariotos
evidncias obtidas a partir de alinhamento de dados transcriptmicos
e protemicos com predies ab initio
Evigan
Eucariotos
Algoritmo de evidncias probabilsticas que usa redes Bayesianas
para pontuar e integrar predies ab initio e baseadas em evidncia
para produzir modelos gnicos.
4. Projetos Genoma
Descrio
Aplicao
BaCelLo
Plantas, animais e
fungos
LOCtree
Eucariotos e
procariotos
TARGETp
Eucariotos e
procariotos
Wolf PSORT
Cell-PLoc
Eucariotos,
procariotos e vrus
4. Projetos Genoma
nhar um papel funcional, regulando a expresso gnica em vrios nveis. Devido ao papel
de forte regulador da expresso gnica, muita
ateno tem sido dada aos pequenos RNAs,
com um nmero crescente de trabalhos sendo feitos relacionando estes com patologias e
controlando processos bsicos do desenvolvimento.
O RNAi, algumas vezes denominado de
silenciamento gnico, um mecanismo que
induz a diminuio da expresso gnica de um
transcrito alvo atravs da clivagem do transcrito alvo e sua posterior degradao, ou
atravs da represso da maquinaria de traduo. Estes mecanismos so denominados
tambm de Silenciamento Gnico Ps-Transcricional (PTGS no ingls) (Figura 8-4). Existem adicionalmente alguns pequenos RNAs
que induzem silenciamento gnico em nvel
transcricional, ligando-se em regies de DNA,
impedindo sua transcrio. Este mecanismo
denominado de Silenciamento Gnico Transcricional (TGS no ingls).
As metodologias de sequenciamento de
alta eficincia tem auxiliado de maneira contundente na caracterizao de pequenos
RNAs, sendo que variaes de protocolos
tambm possibilitaram validar alvos (tcnica
de degradoma) e identificar pequenos RNAs
associados com protenas especficas (sequenciamento de cidos nucleicos associados
a protenas imunoprecipitadas).
Existe uma grande diversidade de pequenos RNAs em clulas eucariticas, sendo
os principais listados na Tabela 4-4. Dentre
estas, os microRNAs so a classe de pequenos RNAs melhor descrita. Caracterizam-se
por serem transcritos a partir de genes MIR,
geralmente intergnicos, por uma RNA polimerase II, resultando em um pri-miRNA, o
qual recebe um 5'-CAP e um 3'-poli-A. Este
pri-miRNA processado por um complexo
proteico, denominado D-body, o qual orquestrado por uma enzima classicamente denominada DICER ou DROSHA (RNAses classe
III), resultando na liberao do pr-miRNA.
Este apresenta estrutura em forma de grampo devido alta complementaridade que suas
extremidades 5' e 3' possuem. O pr-miRNA
4. Projetos Genoma
Figura 8-4: Mecanismo de PTGS. A) clivagem: 1, uma protena argonauta reconhece uma fita do
pequeno RNA; 2, O microRNA associado com uma argonauta reconhece um transcrito alvo; 3,
ocorre a clivagem do transcrito alvo na posio medial do microRNA; 4, degradao do
transcrito alvo clivado por nucleases. B) represso da traduo: 1, uma protena argonauta
reconhece uma fita do pequeno RNA; 2, o microRNA associado com uma argonauta reconhece
um transcrito alvo; 3, ocorre represso da maquinaria de traduo.
4. Projetos Genoma
Tamanho (nt)
Funo
biolgica
Mecanismo de ao
Origem
Organismos
microRNA
ou miRNA
21-24
PTGS
Clivagem e represso
da maquinaria de
traduo
Intergnica e ntrons
Plantas, animais,
fungos e vrus
siRNA
21-24
Intergnica, xons e
ntrons
Plantas, animais,
fungos e vrus
tasiRNA
21-22
PTGS
Clivagem
Transcritos alvo de
microRNAs
Plantas, animais
e fungos
natsiRNA
21-22
PTGS
Clivagem
Transcritos
convergentes
parcialmente
sobrepostos
Plantas
ver pareamento guanina uracila (G-U), tambm denominado de wobble entre o transcrito alvo e o microRNA (Figura 9-4).
Existem dois desafios principais no emprego da bioinformtica a pequenos RNAs. O
primeiro relativo identificao da regio,
ou precursor, que d origem ao pequeno RNA.
O segundo envolve a identificao dos genes
alvos regulados por estes. As metodologias
de identificao da regio que resulta no pequeno RNA variam com a classe de pequenos
RNAs e esto intimamente relacionadas s
suas biogneses.
Os microRNAs so a classe melhor caracterizada, de forma que h uma maior disponibilidade de ferramentas para identificao
destes, como os algoritmos miRTools,
miRDeep, miRExpress, miRAnalyser e miRCat.
A funcionalidade geral destes programas se
baseia na anlise de reads de sequenciamento
de bibliotecas de pequenos RNAs e na delimitao das regies de ancoramento com o genoma. Com base no conjunto de sequncias
ancoradas, so realizados clculos para avaliao da estabilidade da possvel estrutura
em forma de grampo gerado pelo transcrito.
Para as demais classes, no existe uma
metodologia padro, sendo que variaes da
ferramenta BLAST so geralmente utilizadas.
Para a identificar siRNAs, por exemplo, podese empregar a ferramenta SiLoCo. Mas
4. Projetos Genoma
transcrio ou traduo.
N50: ndice associado qualidade de montagem
de um sequenciamento. Um valor de N50
igual a N significa que 50% dos reads esto montados em um contig de tamanho N
ou maior.
ORF: open reading frame ou fase aberta de leitura. Refere-se a toda sequncia nucleotdica delimitada por um cdon de incio e
um cdon de trmino de traduo.
Predio baseada em evidncia: identificao de
sequncias codificantes baseada em experimentos prvios, como transcriptomas.
4.6. Conceitos-chave
Anotao funcional: conjunto de abordagens que
predizem a funo e classificam uma protena codificada por um genoma.
Contig: conjunto de segmentos de DNA com sobreposio de sequncia que, conjuntamente,
representam
uma
sequncia
consenso de DNA
Detectores de contedo: sistemas para delimitao de regies codificantes baseados na
classificao da sequncia em codificante
ou no codificantes, baseada em clculos
4. Projetos Genoma
5. Filogenia Molecular
5.1. Introduo
5.2. Aplicaes
5.3. Representao de rvores
5.4. Distncia gentica
5.5. Inferncia filogentica
5.6. Abordagens quantitativas
5.7. Abordagens qualitativas
5.8. Confiabilidade
5.9. Interpretao de filogenias
5.10. Conceitos-chave
5.1. Introduo
Desde seus primrdios, a humanidade
se mostrou inclinada a organizar e classificar
o mundo sua volta com o objetivo de facilitar o entendimento e a comunicao. Em relao ao mundo natural, diferentes sistemas
foram empregados para compor mtodos de
organizao e classificar os organismos, utilizando critrios naturais ou artificiais.
Um dos sistemas de maior influncia no
perodo pr-Darwiniano foi a Escala Natural
de Plato. Neste sistema, do fogo ao ser humano, diferentes nveis eram organizados
maneira de uma escada. A ideia de ascenso
5. Filogenia Molecular
5. Filogenia Molecular
5.2. Aplicaes
Ao classificarmos os organismos, atribumo-lhes uma histria evolutiva. Essa histria,
entretanto,
frequentemente
desconhecida. Sendo assim, necessrio inferir a sequncia de mudanas que levaram
ao surgimento de um novo organismo ou protena. Contudo, existe apenas uma histria
verdadeira, que talvez jamais seja conhecida.
Assim, ao empregarmos as tcnicas filogenticas, o objetivo coletar e analisar dados capazes de fornecer a melhor estimativa para
chegarmos filogenia verdadeira. De certa
forma, a obteno de filogenias lembra a atuao de um historiador. Baseando-se em dados disponveis no presente (tais como
organismos vivos, fsseis e sequncias moleculares), tenta-se obter uma imagem de como teria sido o passado.
Quando analisamos sequncias de nucleotdeos ou aminocidos para inferir uma filogenia, utilizamos informaes derivadas das
taxas evolutivas para determinar a sequncia
de eventos que levaram ao surgimento de novos organismos. A taxa de evoluo molecular refere-se velocidade na qual os
organismos acumulam diferenas genticas
ao longo do tempo. Essa taxa frequentemente definida pelo nmero de substituies
por stio (ou posio no alinhamento de sequncias) por unidade de tempo e, portanto,
5. Filogenia Molecular
5. Filogenia Molecular
veremos a seguir. No entanto, os ramos representados na vertical (Figura 1-5) no expressam qualquer significado, e seu tamanho
no altera em nada a idia filogentica. Como
a anlise pode ser feita em diferentes nveis,
utilizando dados moleculares de genes, protenas, indivduos, espcies, gneros, famlias,
ou qualquer outro taxon, os ns terminais so
amplamente denominados OTUs (operational
taxonomical units), ou unidades taxonmicas
operacionais (tambm chamados de folhas,
Figura 2-5). A ordem e disposio exata das
OTUs em uma filogenia denominada topologia.
Alm da forma grfica, as rvores filogenticas podem tambm ser descritas na forma textual. Em vez
do diagrama com linhas e pontos, as relaes evolutivas so representadas por notaes com parnteses.
A estrutura da rvore da Figura 2-5, por exemplo, pode ser descrita linearmente como (Peixes pulmonados,
(Anfbios, (Mamferos, (Tartarugas, (Lagartos, (Crocodilos, Aves)))))) ou (Peixes pulmonados + (Anfbios +
(Mamferos + (Tartarugas + (Lagartos + (Crocodilos +
Aves)))))). Estas notaes foram desenvolvidas para
utilizao computacional da informao filogentica.
Algoritmos e programas que realizam anlises moleculares necessitam da informao na forma textual e,
quando necessrio, fornecem a sada para o usurio na
forma grfica.
5. Filogenia Molecular
5. Filogenia Molecular
5. Filogenia Molecular
5. Filogenia Molecular
Figura 7-5: Representao esquemtica das recombinaes que originaram o vrus Influenza
envolvido no surto de gripe suna em 2009. Diferentes linhas representam diferentes regies
do genoma do vrus. Observe a interao entre vrus de origens aviria, suna e humana em
eventos que datam, pelo menos, desde 1990. Os eventos de recombinao e as anlises
temporais foram baseadas em anlises filogenticas (Adaptado de Smith e colaboradores,
Origins and evolutionary genomics of the 2009 swine-origin H1N1 influenza A epidemic. Nature,
459, 1122-1125, 2009).
ainda no factvel coloc-los como componentes de modelos que expliquem inteiramente o processo evolutivo.
Assim, devido grande relevncia dos
mecanismos de substituio para a evoluo
dos genomas em diferentes organismos e da
disponibilidade de modelos de probabilidade
estatstica que expliquem este processo, as
trocas tm sido o principal alvo para o desenvolvimento de modelos matemticos e
compem a base de diversos mtodos de inferncia filogentica.
Aps a divergncia de duas sequncias a
partir de seu ancestral comum, de forma dicotmica, fenmenos evolutivos garantiro
5. Filogenia Molecular
5. Filogenia Molecular
parmetros utilizados para explicar estas substituies. Devido influncia do modelo de substituio na
inferncia de filogenias, a escolha de um mtodo particular deve ser justificada. A estratgia mais simples
utilizar os modelos que comportam o maior nmero de
variveis, embora a complexidade no esteja diretamente relacionada melhor qualidade de anlise das
sequncias. Com o aumento de parmetros, o sistema
se torna mais complexo, aumentando a probabilidade
de erro e exigindo um maior processamento computacional. Assim, necessrio verificar os alinhamentos
caso-a-caso para atribuir o melhor modelo de substituio na inferncia filogentica.
A substituio de nucleotdeos ou aminocidos em
uma sequncia usualmente modelada sob a forma de
um processo quase aleatrio. Devido ao carter dinmico desta aleatoriedade, necessrio enquadrar as
substituies, seguindo certos pressupostos. Assim, as
substituies so descritas por um processo de Markov homogneo, onde a probabilidade de substituio
de um nucleotdeo X pelo Y no depende do estado
prvio do nucleotdeo X.
As probabilidades de mudana de um nucleotdeo
para outro (ou de um aminocido para outro) so especificadas atravs de uma matriz 4x4 das taxas de
substituio (ou 20x20 no caso dos aminocidos) que
especificam com qual taxa cada um dos nucleotdeos
ou aminocidos poder mudar para outro. necessrio
assumir tambm que os eventos de substituio sejam
independentes ao longo dos stios das sequncias, e
ainda, possuam um carter reversvel. Alm disso, devem especificar a frequncia estacionria dos nucleotdeos, ou frequncia de equilbrio, onde ser atribuda a
provvel proporo de cada um dos caracteres na sequncia.
Para sequncias de nucleotdeos, o modelo de
substituio mais simples foi proposto por Jukes e
Cantor em 1969 (JC69). Segundo este modelo, as mudanas entre os nucleotdeos podem ocorrer com a
mesma probabilidade, assumindo uma frequncia estacionria igual para todos (cada nucleotdeo tem 25%
de chance de ocorrer na sequncia).
Com o advento da publicao das primeiras sequncias de genoma mitocondrial, na dcada de 1980,
se observou que as transies eram muito mais comuns que as transverses. Devido uniformidade do
mtodo proposto por Jukes e Cantor, foi necessrio
criar um modelo que acomodasse essas diferenas.
Assim, o modelo proposto por Kimura (K80 ou K2P)
5. Filogenia Molecular
5. Filogenia Molecular
Mtodo
UPGMA
Mtodos
Quantitativos
Mxima Parcimnia
Mtodos
Qualitativos
Princpio
Agrupa sequencialmente as OTUs com
menor distncia evolutiva entre si
Programa
Geneious
MEGA
MEGA
Geneious
HyPhy
PAUP
Busca a filogenia com menor nmero de
MEGA
eventos evolutivos
Mesquite
PAUP
Busca a rvore com o valor de maior
Mxima Verossimilhana verossimilhana entre todas as filogenias PAML
phyML
construdas
MEGA
Estatstica Bayesiana
5. Filogenia Molecular
onal baseado no valor atribudo pelo critrio de otimizao a cada rvore (Figura 9-5). Nestas condies,
ser possvel observar que algumas rvores possuem
valores maiores que outras, formando picos que agrupam as melhores filogenias. Da mesma forma, entre
diferentes picos existem vales representados por rvores com valores menores e, portanto, menos consistentes.
5. Filogenia Molecular
parte do pressuposto de que todas as linhagens evoluem a uma taxa constante (hiptese
do relgio molecular).
No UPGMA, uma medida de distncia
evolutiva computada para todos os pares de
sequncias utilizando um modelo evolutivo.
Aps, estas distncias so organizadas na
forma de uma matriz, conforme ilustrado
abaixo:
Sequncias
d1,2
d1,3
d2,3
d1,4
d2,4
d3,4
d1,5
d2,5
d3,5
d4,5
O agrupamento das sequncias iniciado pelo par com menor distncia. Supondo
que d1,2 seja a menor distncia no exemplo
acima, as sequncias 1 e 2 so agrupadas
com um ponto de ramificao na metade
dessa distncia (d1,2/2). As sequncias 1 e 2 so
ento combinadas em uma entidade composta, agora denominada y, e a distncia entre
esta entidade y e as outras sequncias
computada (observe abaixo).
Sequncias
y(1,2)
dy,3
dy,4
d3,4
dy,5
d3,5
5. Filogenia Molecular
Figura 10-5: Comeando com uma rvore em estrela (a), a matriz de distncias calculada para
identificar o par de ns a ser unido (nesse caso, f e g). Estes so unidos ao novo n u (b). A
poro em vermelho fixada e no ser mais alterada. As distncias do n u at os ns a-e so
calculadas e usadas para unir o prximo vizinho. No caso, u e e so unidos ao recm criado n v
(c). Mais duas etapas de clculo levam rvore em (d) e ento rvore em (e), que est
totalmente resolvida, encerrando o algoritmo.
5. Filogenia Molecular
5. Filogenia Molecular
Figura 12-5: Determinao dos custos de substituio pelo mtodo de parcimnia para um stio
do alinhamento de nucleotdeos. (a) Topologia da filogenia proposta para quatro txons (ver
adiante). (b) Alinhamento de nucleotdeos de quatro sequncias homlogas. Destacados em
cinza esto os stios informativos para o mtodo de parcimnia. Os demais stios so
considerados no informativos e sero descartados durante os clculos. (c) Clculo dos custos
para os dois clados presentes na filogenia proposta em a. O mtodo supe que a posio Y
possa ser ocupada por qualquer um dos quatro nucleotdeos. (d) Exemplo do procedimento
adotado pelo mtodo, supondo que a posio X na filogenia foi ocupada pelo nucleotdeo A.
necessrio considerar todas as possibilidades de caracteres nos stios ancestrais e calcular os
respectivos custos. (e) Arranjo de menor custo para a posio 28 do alinhamento de
nucleotdeos.
5c, a posio Y da filogenia necessariamente foi ocupada por um dos quatro nucleotdeos. Em cada uma das proposies (A, C, G ou
T), o custo associado substituio consultado na matriz. No primeiro caso, a hiptese
para ocupao da posio Y A. O custo da
substituio em cada um dos ramos deve ser
verificado e somado. Por exemplo, a substituio de A por T possui custo 4. Como a
mesma substituio ocorreu em dois ramos
diferentes, somamos o custo total, que tota-
5. Filogenia Molecular
filogenias.
Mxima Verossimilhana
Idealmente, os mtodos de inferncia
filogentica devem resgatar o mximo de informaes contidas em um dado conjunto de
sequncias homlogas, buscando desvendar a
verdadeira histria evolutiva dos organismos.
Quando um grande nmero de mudanas evolutivas em diferentes linhagens demasiadamente desigual, o mtodo de mxima
parcimnia tende a inferir filogenias inconsistentes, proporcionalmente convergindo rvore errada quanto maior o nmero de
sequncias no alinhamento. Assim, abre-se
espao para uma tcnica de inferncia filogentica mais robusta, que alie as informaes
do alinhamento a um modelo estatstico capaz de lidar com a probabilidade de mudana
de um nucleotdeo para outro de maneira
mais completa.
Dentro do campo da filogentica computacional, o mtodo de mxima verossimilhana primeiramente ocupou este espao e,
desde ento, tem sido amplamente utilizado
devido qualidade da abordagem estatstica
empregada.
A implementao de uma concepo
estatstica para a mxima verossimilhana,
originalmente desenvolvida para estimar parmetros desconhecidos em modelos probabilsticos, se deu entre 1912 e 1922 atravs
dos trabalhos de A. R. Fisher.
Apesar de utilizado para dados moleculares na dcada de 1970, o mtodo de mxima verossimilhana s se tornou popular na
rea da filogentica a partir de 1981, com o
desenvolvimento de um algoritmo para estimar filogenias baseadas no alinhamento de
nucleotdeos. Atualmente, diversos programas implementam este mtodo para realizar
a inferncia filogentica, incluindo PAUP, MEGA, PHYLIP, fastDNAml, IQPNNI e METAPIGA,
dentre outros (Tabela 1-5).
O objetivo principal do mtodo da mxima verossimilhana inferir a histria evolutiva mais consistente com relao aos dados
fornecidos pelo conjunto de sequncias. Neste
5. Filogenia Molecular
modelo, a hiptese (topologia da rvore, modelo de substituio e comprimento dos ramos) avaliada pela capacidade de predizer
os dados observados (alinhamento de sequncias homlogas). Sendo assim, a verossimilhana de uma rvore proporcional
probabilidade de explicar os dados do alinhamento. Aquela rvore que com maior probabilidade, entre as outras rvores possveis,
produz o conjunto de sequncias do alinhamento, a rvore que reflete a histria evolutiva mais prxima da realidade, mais
verossmil e, por isso, de mxima verossimilhana.
importante ressaltar que diferentes
filogenias podem explicar um determinado
conjunto de sequncias, algumas com maior
probabilidade e, outras, com menor probabilidade. No entanto, a soma das verossimilhanas de todas as rvores possveis para
um determinado conjunto de sequncias nunca resultar em 1, pois no estamos lidando
com as probabilidades de que estas filogenias
estejam corretas, mas avaliando a probabilidade de explicarem o alinhamento que foi
fornecido.
Se, por exemplo, aplicssemos o mtodo de mxima verossimilhana para inferir a
rvore filogentica de um grupo de sequncias homlogas que incluem pores recombinantes,
encontraramos
uma
rvore
filogentica com um determinado valor de
verossimilhana. A utilizao do mtodo, por
si s, garantiria como resultado a inferncia
de uma filogenia. No entanto, sabemos que
esta rvore, apesar de ser a mais plausvel
para explicar o alinhamento dado, no tem
qualquer relao com a realidade evolutiva do
organismo, j que eventos de recombinao
aconteceram no decorrer do tempo e impedem a explicao sob a forma dicotmica de
uma filogenia.
A aplicao do mtodo de mxima verossimilhana exige a construo de uma filogenia inicial, geralmente obtida por mtodos
quantitativos. Como exemplo, considere a rvore filogentica proposta inicialmente e o
respectivo alinhamento de nucleotdeos da
Figura 13-5. Para calcularmos a verossimi-
5. Filogenia Molecular
proposta no stio 28, inicialmente, leva em considerao a frequncia estacionria do nucleotdeo G, j que
este o nucleotdeo que est sendo considerado como
presente no n mais ancestral da rvore. A probabilidade de este G ser substitudo por um A (PGA), ou permanecer G (PGG) ser dada pelo modelo de substituio
escolhido. Da mesma forma, sero os casos PGT, PAC
(repetido duas vezes cada pelo fato de existirem dois
ramos terminais com o mesmo nucleotdeo).
O tamanho dos ramos entre dois ns ser multiplicado pelas probabilidades de substituio dos nucleotdeos, levando em conta variaes em parmetros do
modelo de substituio. Apesar da dificuldade de cl-
culo computacional, os algoritmos aplicados inferncia filogentica (baseados no princpio de Pulley) automaticamente estimaro o tamanho de cada ramo de
modo que este maximize o valor da verossimilhana da
rvore filogentica em construo. Nestes casos, o algoritmo atribui diversos valores de distncia para um
ramo e, a cada valor, verifica a verossimilhana da rvore, buscando aqueles valores que resultam na filogenia com a maior verossimilhana.
A probabilidade de observar os dados em um stio
particular a soma das probabilidades de todos os
possveis nucleotdeos que poderiam ser observados
nos ns internos da rvore (Figura 13-5c). O nmero de
Figura 13-5: Esquema do clculo da verossimilhana para uma filogenia e seu respectivo
alinhamento de nucleotdeos. (a) rvore filogentica proposta inicialmente para o alinhamento
em b. (b) Para cada posio do alinhamento destacada a organizao dos quatro stios do
alinhamento na rvore proposta em a. Como exemplo, apenas o stio do alinhamento
destacado em cinza ser considerado para o clculo da verossimilhana. Os quadrados pretos,
azuis, verdes e vermelhos nos ramos terminais das filogenias representam, respectivamente,
os nucleotdeos guanina, citosina, adenina e timina. (c) Probabilidade de cada uma das 64
possveis combinaes de nucleotdeos nos ns internos da rvore, j que estes representam os
stios de txons ancestrais no amostrados (PXY, PYT, PXZ, PZC). (d) O esquema para o clculo da
mxima verossimilhana leva em conta a multiplicao do tamanho dos ramos (t1, t2, t3, t4, t5 e t6)
pelas respectivas probabilidades de transio (PGG, PGT, PGA e PAC), alm da frequncia
estacionria dos quatro nucleotdeos no n mais ancestral (X).
5. Filogenia Molecular
Figura
14-5:
Clculo
da
mxima
verossimilhana de uma dada filogenia,
considerando seu respectivo alinhamento de
nucleotdeos contendo quatro txons e 30
bases (Figura 13-5b). Para cada stio (L01, L02,
..., L30) ser calculado um valor de
probabilidade que envolve a considerao de
todos os quatro nucleotdeos em cada um
dos ramos ancestrais da filogenia. Posteriormente, os valores de verossimilhana
de cada stio sero multiplicados para
encontrar a verossimilhana total da filogenia.
cessrio calcular sua verossimilhana e comparar este valor com todas as rvores j
construdas. Como impossvel testar a verossimilhana para todas as filogenias possveis,
os
algoritmos
de
mxima
verossimilhana incluiro buscas heursticas
para solucionar este problema (estes mtodos construiro diferentes filogenias a partir
do mesmo conjunto de dados do alinhamento).
Na problemtica das filogenias, diferentes programas tm proposto as mais diversas alternativas para avaliar o maior nmero
de rvores do espao amostral total e encontrar aquela com o maior valor de verossimilhana. No entanto, como regra geral, a
maioria dos programas de mxima verossimilhana segue alguns passos comuns:
i) Uma filogenia preliminar com determinada topologia construda (geralmente
so
utilizadas
rvores
construdas pelo mtodo de aproxima-
5. Filogenia Molecular
o de vizinhos);
ii) Os parmetros para esta rvore so
modificados buscando maximizar a verossimilhana (em alguns casos, a filogenia vai sendo construda pela adio
de novos txons aleatoriamente). Para a
modificao da filogenia, os algoritmos
podem implementar tcnicas de rearranjos de ramos, conforme descrito em
5.4;
iii) O valor de mxima verossimilhana
para esta rvore armazenado;
iv) Outras topologias so construdas e
seus parmetros tambm so avaliados;
v) Finalmente, a filogenia que possuir o
valor de mxima verossimilhana ser a
melhor estimativa evolutiva para o dado
conjunto de sequncias.
Embora estes processos simplifiquem
os verdadeiros fenmenos biolgicos que governam a evoluo de uma sequncia, apresentando assim dificuldades em identificar a
rvore com o maior valor de verossimilhana,
eles so normalmente robustos o bastante
para estimar as relaes evolutivas entre txons.
Como estes mtodos implicam em encontrar a rvore com o valor mximo de verossimilhana entre todas as rvores
amostradas, o resultado final sempre fornecer apenas uma filogenia, ao contrrio dos
mtodos Bayesianos que sero vistos a seguir. Cabe ressaltar que, devido ao uso de diferentes algoritmos, na prtica, um mesmo
conjunto de sequncias submetido a diferentes programas para inferncia filogentica
por mxima verossimilhana dificilmente resultar na mesma rvore. Por isso, necessrio ser cauteloso ao interpretar rvores
geradas pelo mtodo de mxima verossimilhana.
Anlises Bayesianas
A estatstica Bayesiana nasceu com a
publicao de um ensaio matemtico do reverendo Thomas Bayes, em 1793. Nesta pu-
blicao, o reverendo apresenta o desenvolvimento de um mtodo formal para incorporar evidncias prvias no clculo da
probabilidade de acontecimento de determinados eventos.
Inicialmente, este mtodo foi aplicado
apenas no campo da matemtica e, s a partir
de 1973, passa a ser incorporado no pensamento biolgico e na inferncia filogentica.
Com o advento de diversos programas de
acesso livre para realizar a inferncia de filogenias por estatstica Bayesiana, o mtodo se
difundiu e, atualmente, tornou-se um campo
de estudo especfico dentro da filogentica
computacional.
A inferncia Bayesiana engloba o mtodo de mxima verossimilhana (Tabela 2-5)
mas, adicionalmente, inclui o uso de informaes dadas a priori. Estas informaes refletem caractersticas a respeito da filogenia, do
alinhamento ou dos txons, que o pesquisador sabe de antemo.
Entre os principais parmetros que podem ser conhecidos antes da reconstruo
filogentica pode-se destacar a taxa evolutiva, tipo de relgio molecular, parmetros do
modelo de substituio, datas de coleta das
amostras, datas para calibrao da filogenia
(achados fsseis, datao por carbono-14,
aproximaes arqueolgicas, etc.), distribuio geogrfica, organizao monofiltica de
um grupo de indivduos ou, at mesmo, parmetros de dinmica populacional.
Os valores atribudos a priori so incorporados estatstica Bayesiana na forma de
probabilidades e comporo o termo chamado
de probabilidade anterior (prior probability).
Se sabemos de antemo que um determinado
grupo de organismos ancestral em relao
a outro, podemos atribuir uma maior probabilidade quelas filogenias que relacionam
estes organismos da maneira como sabemos
a priori.
Qualquer informao til, que fornecida pelo pesquisador antes da prpria reconstruo da filogenia, poder ser convertida em
uma probabilidade anterior para ser inserida
nas anlises de inferncia Bayesiana. No entanto, as informaes cedidas a priori devem
5. Filogenia Molecular
Desvantagens
Vantagens
ser distribuies de nmeros provveis (mnimo e mximo), e no nmeros exatos. Quando estes valores no so conhecidos ou
quando, por exemplo, no se quer atribuir
maior probabilidade a uma determinada topologia, o parmetro ter uma distribuio
uniforme de probabilidades.
Na maioria dos aplicativos que lidam
com inferncia Bayesiana existem distribuies uniformes associadas s probabilidades
anteriores que assumem que todos os valores possveis so dados pela mesma probabilidade.
Alm das probabilidades anteriores, a
inferncia Bayesiana baseada nas probabilidades posteriores de um parmetro como,
por exemplo, a topologia. Atravs da probabilidade posterior possvel verificar a probabilidade de cada uma das hipteses
(rvores filogenticas). Sendo assim, ao final
das anlises, possvel estabelecer uma estimativa da probabilidade dos eventos retratados por uma determinada filogenia, ou seja, a
probabilidade de cada filogenia. As probabilidades posteriores so calculadas utilizando a
frmula de Bayes:
O objetivo da inferncia Bayesiana calcular a probabilidade posterior para cada filogenia proposta. No entanto, para cada
rvore diversos parmetros devem ser especificados pelo usurio, incluindo topologia, tamanho dos ramos, parmetros do modelo de
substituio, parmetros populacionais, relgio molecular, taxa evolutiva, etc. Dada uma
filogenia, todos os parmetros tero sua probabilidade posterior calculada. Se dadas 1000
filogenias, teremos 1000 valores de probabilidade posterior para cada parmetro.
Devido impossibilidade de construo
de todas as filogenias possveis para a maioria
dos alinhamentos, a anlise Bayesiana se
aproveita de tcnicas de amostragem para
estimar os valores esperados de cada parmetro.
Neste sentido, os mtodos de inferncia
5. Filogenia Molecular
5. Filogenia Molecular
5. Filogenia Molecular
5. Filogenia Molecular
Complexos modelos de dinmica populacional podem ser analisados sob uma perspectiva Bayesiana. Quando o conjunto de
sequncias submetido s analises so isolados de uma populao homognea, os parmetros de histria demogrfica podem ser
usados para modelar as mudanas populacionais ao longo do tempo. Desta forma, atravs da estatstica Bayesiana possvel, alm
da inferncia filogentica, refinar as anlises e
datar filogenias e ramos especficos (Figura
18-5), inferir caracteres ancestrais e analisar
a dinmica populacional sob uma tica evolutiva.
5.8. Confiabilidade
O papel principal das tcnicas de inferncia filogentica desvendar as relaes
evolutivas reais atravs de dados moleculares, buscando garantir que esta reconstruo
seja fidedigna. Alm da inferncia das relaes evolutivas entre os txons, igualmente
importante que a filogenia possua preciso.
5. Filogenia Molecular
5. Filogenia Molecular
atribuda pela probabilidade posterior geralmente maior que aquela atribuda pelo
mtodo de bootstrap. Por isso, enquanto uma
confiana acima de 70 considerada sustentada para o bootstrap, apenas valores acima
de 90 podem ser considerados relevantes
para os mtodos Bayesianos.
5. Filogenia Molecular
abilidade nos ramos. O tipo de mtodo, a forma de amostragem e o nmero de OTUs podem ser fatores de interferncia e, assim,
podem prejudicar a valorizao dos ramos.
O padro de organizao dos ramos de
uma filogenia denota o padro de ancestralidade. As filogenias no so escadas, onde alguns organismos so mais evoludos que
outros, mas uma representao da histria da
derivao de OTUs. Na Figura 18-5, por exemplo, possvel observar que os clados B,
C, D, E, F e G possuem um ancestral comum
que compartilha um outro ancestral com o
clado A. J o clado H, representado por um
tringulo para evidenciar um grande nmero
de txons naquele ponto da filogenia, teve um
ancestral comum dentro do clado G. Este padro sugere que o clado H se originou a partir
do clado G. Da mesma forma, podemos observar a disposio do clado G em relao ao
F e concluir que o primeiro se originou a partir
do segundo.
No caso da Figura 20-5, observamos
que humanos e chimpanzs tiveram um mesmo ancestral comum. Com base nestes dados, incorreto pensarmos que humanos so
derivados de chimpanzs, ou que humanos
so mais evoludos que chimpanzs. Estes
organismos esto apenas formando um
mesmo clado dentro da filogenia dos primatas.
Por ltimo, fundamental saber o objetivo do estudo filogentico a ser realizado.
rvores filogenticas devem ser construdas
para responder uma determinada questo,
que pode envolver apenas um, ou diversos
organismos.
Quando possvel, importante reconstruir a filogenia utilizando diferentes mtodos
de inferncia e compar-las entre si. A concluso desta forma ser melhor sustentada.
Alm disso, atualmente, a histria retratada
em uma filogenia no por si s satisfatria.
Outras ferramentas podem ser utilizadas para complementar e sustentar a interpretao
de uma filogenia, incluindo anlises de recombinao, presso seletiva e estruturao
populacional, verificao de coespeciao,
construo de redes filogeogrficas, compa-
5. Filogenia Molecular
rao com dados de fsseis, eventos geolgicos, dados histricos e, at mesmo, anlises
de dados comportamentais.
Um exemplo da combinao de anlises
filogenticas com dados histricos veio na
confirmao da origem e disseminao humana a partir da frica. Atravs da utilizao
de dados histrico-antropolgicos (como
vestgios materiais de homindeos ancestrais),
fsseis de homindeos e anlises de DNA mitocondrial de representantes de diferentes
etnias, os pesquisadores puderam traar as
rotas de disseminao humana a partir da
frica.
Outro exemplo est na soluo de um
enigma que perturbou zologos por um longo
perodo: a posio taxnomica do panda-gigante entre os mamferos carnvoros. Apesar
de esta espcie ser fisicamente muito similar
a um urso, outras caractersticas, como dentio e anatomia das patas, levaram proposio de uma hiptese antes no imaginada.
Tal hiptese propunha que o panda-gigante (Ailuropoda melanoleuca) seria proximamente relacionado ao o panda-vermelho
(Ailurus fulgens), um mamfero de pequeno
5. Filogenia Molecular
5.10. Conceitos-chave
Ancestral: organismo ou sequncia que originou
novo(s) organismo(s) ou sequncia(s). Em
alguns casos pode ser considerado o mesmo que primitivo.
Apomrfico: refere-se a um caractere novo adquirido ao longo do processo evolutivo,
uma inovao. Uma apomorfia pode servir
de diagnstico para separao de clados.
Aproximao dos vizinhos: neighbor joining
(NJ), mtodo de inferncia filogentica
quantitativo baseado em distncia gentica.
Autapomorfias: apomorfias especficas e restritas a um clado.
Bootstrap: mtodo de reamostragem que permite verificar a confiabilidade dos ramos
de uma filogenia.
Cadeias de Markov Monte Carlo: mtodo utilizado pela estatstica Bayesiana para amostrar as probabilidades de distribuio de
diferentes parmetros das filogenias.
Clado: grupo formado por um ancestral e todos
seus descendentes, um ramo nico em
uma rvore filogentica.
Derivado: que se originou de um ancestral e
mais recente no tempo evolutivo (nota:
deve-se evitar o termo mais evoludo e,
em seu lugar, empregar derivado).
Distncia Gentica: medida quantitativa da divergncia gentica entre organismos.
Espao Amostral de Filogenias: espao terico
5. Filogenia Molecular
6. Biologia de Sistemas
6.1. Introduo
6.2. Biologia de Sistemas
6.3. Estrutura de redes
6.4. Propriedades de rede
6.5. Tipos de redes
6.6. Perturbao de conectores
6.7. Conceitos-chave
6.1. Introduo
Uma das posturas metodolgicas mais
significativas do pensamento cientfico contemporneo consiste em reduzir
o todo a suas partes componentes. Por exemplo, entendemos o
funcionamento de um organismo
como fruto da ao de rgos.
Estes por sua vez, so compostos por tecidos, que so compostos por clulas. As clulas
tm como componentes molculas que, por fim, so compostas por tomos.
Esta abordagem, especialmente importante e difundida na
rea biolgica, fruto das idias
introduzidas pelo filsofo Ren
Descartes em meados do sculo XVII, indicando que cada problema encontrado deve ser
dividido em tantas pequenas partes quanto
6. Biologia de Sistemas
que diferem-se daquelas realizadas com outros elementos, fora do sistema. J a idia de
complexidade definida como a condio de
elementos de um sistema e a relao entre
esses elementos em um determinado momento.
Um sistema complexo, por conseguinte,
um sistema composto de partes interconectadas que, como um todo, exibe uma ou
mais propriedades que no seriam observadas a partir das propriedades dos componentes individuais, possibilitando assim a
observao de novos fenmenos. Portanto, a
BS um campo que investiga as interaes
entre os componentes de um sistema biolgico, buscando contribuir no entendimento de
como estas interaes influenciam a funo e
o comportamento do sistema.
A busca da compreenso da biologia em
nvel de sistema um tema recorrente na comunidade cientfica. Norbert Wiener, em
1948, foi um dos proponentes da abordagem
sistemtica que levou ao nascimento da ciberntica, ou biociberntica, consolidada com
os estudos do mdico neurologista, William
Ross Ashby (1903-1972). A partir de 1959,
Robert Rosen, sob orientao do professor
Nicolas Rashevsky, props uma metodologia
baseada na biologia relacional, onde o mais
importante na biologia era o estudo da vida
em si. Aps 20 anos, Ludwig von Bertalanffy
(1901-1972) criou a teoria geral dos sistemas,
tornando-se o precursor da BS. Em 1966 foi
formalizado o estudo da BS, com o lanamento da disciplina Teoria e Biologia de Sistemas pelo terico de sistemas Mihajlo
Mesarovic (1928).
A partir do trabalho destes pesquisadores, a teoria geral dos sistemas pode ser definida como a rea que estuda a organizao
abstrata de fenmenos, investigando todos
os princpios comuns a todas as entidades
complexas (no somente biolgicas) e os modelos que podem ser utilizados para a sua
descrio.
Com o avano da biologia molecular nas
dcadas que se seguiram, juntamente com o
nascimento da genmica funcional, grandes
quantidades de dados tornaram-se dispon-
6. Biologia de Sistemas
Genmica
Sequncias de DNA
Transcriptmica
Transcritos
Protemica
Protenas
Interatmica
Interaes proteicas
Interfermica/
microRNmica
RNAi/miRNA
Epigenmica
Metabolmica
Metablitos
Fluxmica
Bimica
Bioma
Glicmica
Totalidade de carboidratos
Farmacogenmica
Nutrigenmica
Toxicogenmica
Imunmica
6. Biologia de Sistemas
6. Biologia de Sistemas
Figura 3-6: (A) Rede direta; (B) Representao da via de degradao ubiquitina-proteassoma, um
dos inmeros tipos de redes direcionadas encontradas em sistemas biolgicos.
ou dgrafos (Figura 3A-6). Nos conectores E =
(a, b) e E = (b, c), podemos dizer que a antecessor a b, e b antecessor a c. Da mesma
forma, b sucessor de a e c sucessor de b.
Um dgrafo definido por G = (V, E, f), sendo f
uma funo que associa cada elemento E a
um par ordenado de ns em V. Uma rede representando os mecanismos de degradao
ubiquitina-proteassoma de uma determinada
protena pode ser um exemplo de rede direta
aps o reconhecimento da protena ubiquitina-
Figura 4-6: (A) Rede no direcionada; (B) Reao reversa de fosforilao e desfosforilao de
adenosina difosfato, representando um exemplo de redes no direcionadas em sistemas
biolgicos.
6. Biologia de Sistemas
6. Biologia de Sistemas
6. Biologia de Sistemas
6. Biologia de Sistemas
assumindo-se que min (i, j) o caminho mais curto entre os ns i e j, sendo N o nmero total de ns. Adicionalmente, o dimetro da rede definido como:
e representa o maior comprimento entre dois ns. Estudos recentes tm revelado que redes biomoleculares, sociais e tecnolgicas apresentam valores de
comprimento mdio de caminhos e dimetro relativamente pequenos se comparados ao tamanho da rede,
apresentando ordem de grandeza log (n) ou menor
quando o tamanho da rede n. Da mesma forma, a
densidade de uma rede calculada com base no nmero de conexes que cada n possui, sendo definida
como:
Avaliar a densidade de uma rede representa avaliar o nvel de conectividade, tornando-se muito importante na definio de
6. Biologia de Sistemas
alterao ser brusca. Neste caso, observase um aumento da distncia entre os ns, de
forma que apenas poucos ns precisam ser
removidos para destruir a comunicao da
rede. Assim, fica claro que a Internet apresenta baixa resilincia na remoo de ns
com alto grau, tornando-se vulnervel a ataques de hackers.
Outro exemplo seriam as redes de interao protena-protena. Estas redes geralmente apresentam muitas protenas com
poucas interaes e algumas protenas possuindo muitas interaes (chamadas de hubs,
ver adiante). Desta forma, redes de interao
protena-protena so resilientes deleo de
ns aleatrios, porm extremamente vulnerveis a ataques em protenas hubs.
Os ns de uma determinada rede podem apresentar tendncias de conexo. Em
outras palavras, duas redes completamente
diferentes topologicamente podem apresentar a mesma distribuio do grau. Assim, em
uma rede preciso considerar o padro de
correlao do grau dos ns, onde a conectividade de um n reflete nas suas possibilidades
de ligao.
A tendncia de conexo que uma rede
apresenta pode ser chamada de assortatividade e desassortatividade. A assortatividade
significa que os ns de uma rede apresentam
uma tendncia a interagirem com outros ns
semelhantes, por exemplo, ns do tipo A interagem preferencialmente com ns tambm
do tipo A (Figura 12A-6). Vrtices com alto
grau tendem a interagir com vrtices que
tambm apresentam alto grau. No entanto,
chamamos de desassortatividade se os ns
de uma rede interagem preferencialmente
com ns diferentes dele mesmo, por exemplo, ns do tipo A tendem a interagir com ns
do tipo B. Neste caso, um n com alto grau
tem tendncia a interagir com ns que apresentem baixo grau (Figura 12B-6).
A correlao de grau dos ns i e j feita por distribuio de probabilidade conjunta P(ki, kj) = P(ki) P(kj).
Podemos ainda calcular a assortatividade ou desassortatividade da rede como um todo, considerando:
6. Biologia de Sistemas
Figura 12-6: Ilustrao representando em (A) uma rede assortativa com ns bem conectados
que apresentam conexes com outros ns tambm fortemente conectados. Em (B), uma rede
desassortativa, onde os poucos ns que apresentam mais conexes interagem com ns menos
conectados, resultando em uma rede menos densa.
6. Biologia de Sistemas
6. Biologia de Sistemas
Modularidade
Uma das principais caractersticas
quando nos referimos a propriedades da topologia de redes a chamada modularidade
ou clusterizao. O conceito de modularidade
antigo e j amplamente usado em outras
reas do conhecimento, como nas cincias
sociais. Dentro das cincias biolgicas, um
conceito comum nas reas da biologia evolutiva, biologia molecular, biologia de sistemas e
biologia do desenvolvimento.
Todas as ideias de modularidade giram
em torno do conceito de padres de conectividade, onde seus elementos constituintes
esto agrupados em subconjuntos altamente
conectados. De forma geral, a modularidade
um princpio de unio entre diferentes tipos de
elementos e conexes naturalmente formadas no meio biolgico, como na interao entre indivduos de mesma espcie. Um exemplo
a Pollenia rudis, uma espcie de mosca conhecida como cluster fly em decorrncia de
seu hbito de se agrupar com indivduos da
mesma espcie.
Este princpio visto em todos os lugares, seja na nossa tendncia de formar sociedades e grupos preferenciais de interao
interpessoais ou na nossa tendncia de organizar objetos por seu tipo, funo e cores,
dentre outros. Em nvel molecular visto, por
exemplo, em elementos que atuam num
mesmo processo biolgico, como conjuntos
de molculas de RNA responsveis pela degradao e sntese de cidos nucleicos ou
grupos de protenas que atuam num mesmo
processo biolgico como a replicao de DNA
e a transcrio gnica.
Existem dois tipos distintos de mdulos:
i) Mdulo Variacional: apresenta caractersticas que variam entre seus componentes
e
so
relativamente
independentes de outros mdulos, porm possuem um nmero considervel
de ligaes com outros mdulos;
ii) Mdulo Funcional: possui elementos
que normalmente atuam juntos em alguma funo fisiolgica distinta e so
semiautnomos (quasi-autonomous) de
outros mdulos. Esses mdulos compreendem a maioria dos mdulos vistos
em redes biolgicas.
Mdulos variacionais podem ser exemplificados na Figura 15B-6 e C, representando
a formao de uma mandbula de rato. Apesar de se tratar da diferenciao de um tecido, podemos us-la como modelo variacional
devido ao fato de diferentes protenas e genes
serem responsveis pela formao de uma
unidade estrutural nica (o ramo ascendente
e da regio alveolar). Desta maneira, uma
unidade estrutural (um nico osso) que se
origina de diferentes mdulos. Assim, o mdulo variacional consiste numa integrao de
vrios de genes que dividem efeitos pleiotrpicos entre si e que possuem poucos efeitos
pleiotrpicos com outros clusters, sendo
praticamente independente.
Mdulos de genes de desenvolvimento
embrionrio, relacionados diferenciao ou
formao de padres corporais, tendem a ser
quase independentes de outros mdulos, uma
vez que erros na sua expresso ou atuao
podem ser letais para o embrio. Por isso,
esses mdulos de desenvolvimento tendem a
depender de elementos dentro do prprio
6. Biologia de Sistemas
6. Biologia de Sistemas
outros mdulos.
Assim, uma mutao em um party hub
vai afetar principalmente as protenas referentes ao seu prprio mdulo, enquanto a
mutao em um date hub (Figura 16-6) pode
afetar vrios mdulos. Contudo, no existe
diferena de importncia entre party ou date
hub. A deleo de um hub em um mdulo
funcional pode ser to letal quanto a deleo
em um mdulo variacional.
Baseado em dados estruturais, os hubs
podem ser ainda classificados em singlish
(com uma ou duas interfaces) e multi-interface (com mais de duas interfaces). Hubs com
interface singlish somente se ligam a outras
protenas de maneira alternada e transitria,
enquanto hubs multi-interface se ligam a diferentes protenas concomitantemente.
Ontologias Gnicas
Nos ltimos anos, o desenvolvimento e
uso de tcnicas de anlise como microarranjos, ChIP-chip e espectrometria de massas e
suas aplicaes no estudo de cada vez mais
organismos gerou um grande acmulo de dados genmicos e protemicos. A leitura e interpretao simples e concisa destes vem
requerendo o desenvolvimento de novas
abordagens, contexto no qual, em 1990, foi
criado o chamado Gene Ontology Project.
Ontologia gnica refere-se ao produto
de um determinado gene e funo que ele
desempenha na maquinaria celular. So classificadas em trs nveis hierrquicos:
i) Componente celular, descrevendo a
localizao da protena na clula;
ii) Processo biolgico, referindo-se
srie de eventos realizados por uma ou
mais funes celulares;
iii) Funo molecular, descrevendo a
atividade que uma dada protena desempenha no meio celular.
Essas informaes so guardadas em
forma de anotaes ontolgicas, onde cada
uma possui um nmero de identificao e se
encontram disponveis em bancos de dados
como www.geneontology.org.
6. Biologia de Sistemas
Centralidades para ns
Como vimos at ento, a grande vantagem da biologia de sistemas permitir a visualizao dos componentes moleculares de
um sistema biolgico de forma dinmica e
global. Contudo, quando falamos de uma rede, temos que levar em considerao todas
suas estruturas, como hubs e mdulos. Deste
modo, o objetivo da anlise de centralidades
procurar o elementos mais importantes na
topologia geral da rede.
Grau de n
Um dos parmetros bsicos de anlise
topolgica o parmetro de grau de n (ou
node degree), referente quantidade de ns
adjacentes (diretamente conectados) a outro
determinado n. Esses ns que apresentam
uma grande quantidade de conexes so chamados de hubs, os quais so conectados a
outros hubs ou ns com menos conexes (Figura 16-6). Como veremos posteriormente,
uma rede de livre escala definida por uma
lei de potenciao, o que significa que essa
rede ter poucos ns altamente conectados.
O grau de n referente ao valor distribuio
de n, P(k), que informa a probabilidade de um
n ter k conexes, conforme visto em Estrutura de redes.
Numa viso biolgica, podemos exemplificar um hub como uma protena que se liga
a vrias outras e acaba possuindo uma funo
regulatria importante na rede. Normalmente, protenas consideradas apenas hubs se
encontram dentro de mdulos. A perda de
conexes de uma protena hub pode lhe tirar
esta condio modular. Sua deleo em uma
rede de interao protena-protena poderia
afetar a ao de diversas protenas vizinhas e
at mesmo na formao de mdulos.
Betweenness
O parmetro denominado betweenness
definido como o nmero de caminhos mais
curtos que passam por um nico n, estimando a relao entre eles. Por exemplo, para calcular o valor de betweenness de um n
n calculado o nmero de caminhos mais
curtos entre i e j, e a frao deste caminhos
que passam pelo n n. Deste modo, um n n
pode ser atravessado por diversos caminhos
alternativos, que ligam i e j.
Matematicamente, o valor de betweenness dado
pela seguinte frmula:
6. Biologia de Sistemas
Closeness
O valor de closeness pode ser entendido
como o caminho mais curto entre um n n e
todos os outros ns da rede, uma tendncia
de aproximao ou isolamento de um n (Figura 19-6). Um alto valor de closeness indica
que todos os outros ns esto prximos do
n n, enquanto que um baixo valor indicaria
que os outros ns encontram-se distantes.
onde o valor de closeness de um n v [Clo(v)] determinado atravs do clculo e somatrio dos caminhos
mais curtos entre um n v e todos outros ns w
[dist(v,w)] dentro da rede.
Dimetro
O dimetro pode ser considerado um
dos primeiros parmetros referentes
compactao, isto , proximidade dos ns
da rede. Ele indica a distncia entre os dois
ns mais afastados entre si de uma rede.
Sendo assim, definimos que uma rede possui
um alto dimetro quando a distncia geral
entre os ns muito ampla. Quando a distncia entre os ns pequena, ento o dimetro
baixo. Deste modo, uma rede com baixo dimetro considerada mais completa, uma
vez que suas protenas esto mais interligadas entre si.
Um baixo dimetro pode indicar que as
protenas de uma determinada rede possuem
uma maior facilidade de se comunicar e/ou
influenciar umas as outras, apontando para
uma relao funcional co-evolutiva (Figura
20-6).
Os parmetros de centralidades podem
ser alterados com a adio ou deleo de ns
ou conexes na rede (Figura 21-6). Como j
mencionado, em um sistema molecular, a
perda de uma conexo pode ser considerada a
mudana de um domnio, impedindo a ligao
6. Biologia de Sistemas
6. Biologia de Sistemas
Figura
22-6:
Representao
de
edgebetweenness. Conectores em vermelho
apresentam valores altos de betweenness,
pois representam o caminho mais curto do
fluxo de informao entre os trs mdulos
representados.
uma rede proteica, um conector com alto valor de betweenness provavelmente representa o caminho mais curto de comunicao
entre dois processos biolgicos.
Como conectores com altos valores de
betweenness so mais provveis por posicionarem-se entre mdulos, a remoo sucessiva destes conectores pode eventualmente
isolar estes mesmos mdulos. Essa desordem na rede, conforme ser visto adiante,
conhecida como perturbao de conector.
6. Biologia de Sistemas
cia-se como uma pequena rede, sendo que a cada instante de tempo um novo n com m conexes adicionado, onde a probabilidade do novo n se conectar ao
n i que est previamente presente depende de ki (grau
de i):
As caractersticas da rede de livre escala a tornam uma rede que apresenta um pequeno nmero de ns altamente conectados
(hubs), o que frequentemente determina suas
propriedades. Como j mencionado, falhas na
rede (ou remoo de ns aleatrios) apresentam poucas consequncias, enquanto que
o ataque aos ns altamente conectados tornar a rede fragmentada. Em sistemas biolgicos, uma rede bioqumica apresenta alta
resilincia contra mutaes aleatrias, enquanto que os hubs podem ser usados como
candidatos importantes para alvo de frmacos. Um exemplo disso seria a protena EF-Tu.
Esta protena tem papel essencial durante a
elongao da sntese proteica, sendo inibida
pelo antibitico quirromicina, que impede que
o complexo EF-Tu-GDP seja liberado do ribossomo.
Rede Hierrquica
Como j vimos anteriormente, uma rede
pode ser avaliada pelo grau de agrupamento
(clusterizao) de seus ns. Na maioria das
redes baseadas em um sistema real (chamadas de redes reais), como por exemplo, parte
de uma via metablica, o coeficiente de clusterizao significativamente maior se comparado a redes aleatrias. Da mesma forma,
ocorre a coexistncia da propriedade de livre
escala e clusterizao nas redes reais, como
redes metablicas e de interao proteica.
Contudo, grande parte dos modelos propostos para representar estas redes no consegue descrever a livre escala e a clusterizao
simultaneamente.
Adicionalmente, muitas redes reais
6. Biologia de Sistemas
6. Biologia de Sistemas
Interao protena-protena
A interao protena-protena comum
e crucial a vrios processos celulares, tais
como na ligao enzima-inibidor e na interao antgeno-anticorpo. Os diferentes tipos de
complexos proteicos tm sido definidos na literatura como obrigatrios e no obrigatrios. No complexo obrigatrio, as protenas no
podem funcionar separadamente, diferindo do
complexo no obrigatrio onde as protenas
associam-se e dissociam-se dependendo de
fatores externos, podendo tambm exercer
funes fora do complexo.
De acordo com a estabilidade e o meca-
6. Biologia de Sistemas
Figura 27-6: Modelo esquemtico representando os diferentes tipos de interaes protenaprotena e as propriedades biolgicas relacionadas. Quanto maior o tamanho da base e a
intensidade da cor do tringulo, maior a relao entre o modo de interao proteica e a
propriedade biolgica.
mentaridade estrica, fora eletrosttica, interao hidrofbica e ligaes de hidrognio.
A complementaridade estrica otimiza
as interaes de van der Waals entre o complexo. Normalmente, estas interaes de fraca energia ocorrem em funo da polarizao
transiente de ligaes carbono-hidrognio ou
carbono-carbono e, apesar de fracas, so extremamente importantes para o processo de
reconhecimento intermolecular pois crescem
em intensidade com a rea de interao.
Complexos com conexes permanentes exibem alta complementaridade estrica nas
protenas em contato, enquanto complexos
com conexes temporrias demonstram baixa complementaridade.
Como as interaes de van der Waals,
as interaes hidrofbicas so pontualmente
6. Biologia de Sistemas
6. Biologia de Sistemas
Figura 28-6: Modos de interao protena-protena com a dupla hlice do DNA. A) perpendicular;
B) paralela e C) ambas as direes so observadas.
6. Biologia de Sistemas
co que se enrolam no DNA formando uma espiral, inserindo a hlice na cavidade maior do DNA.
Fatores de transcrio de eucariotos e procariotos
tambm podem conter o motivo zper de leucina, encontrado em protenas regulatrias. Esse motivo
formado por duas hlices paralelas, unidas por resduos de leucina.
A estrutura do zper de leucina pode ser dividida em
duas partes: a regio de dimerizao e a regio de ligao ao DNA. A dimerizao mediada pela formao
de uma estrutura enrolada na regio carboxi-terminal
de cada hlice com sete resduos de leucina. A regio
que se liga ao DNA, tambm conhecida como regio
bsica, encontrada na regio amino-terminal da hlice que se projeta na cavidade maior do DNA. Embora
motivos de diferentes famlias de DNA sejam similares
estruturalmente, pouca homologia observada fora do
motivo. H baixa identidade entre motivos de diferentes
famlias de protenas e esta variao permite, portanto,
o reconhecimento de diferentes conjuntos de sequncias de DNA. Alm disso, a posio do domnio dentro
da cavidade maior do DNA tambm varia, refletindo a
necessidade funcional e estrutural de cada protena.
6. Biologia de Sistemas
6. Biologia de Sistemas
6. Biologia de Sistemas
conectores dentro de clusters. Assim, conectores interclusters tendem a ser mais vulnerveis quando comparados aos conectores
intraclusters em uma determinada rede.
6.7. Conceitos-chave
Assortatividade: tendncia de ns interagirem
com ns similares a eles mesmos.
Betweenness: parmetro que estima a relao
entre dois ns, ou seja, leva em considerao a quantidade de caminhos mais
curtos que passam entre eles.
Biologia de sistemas: rea da bioinformtica que
estuda sistemas moleculares complexos e
como as molculas interagem entre si.
Caminho: sequncia consecutiva de ns em um
grafo sem repeties, estando cada n
adjacente interligado por um conector.
Caminho geodsico: definido pela via mais curta
dentro de uma rede entre dois ns quaisquer.
Circuito: sequncia de ns sem repetio com
um conector entre cada par de ns adjacentes na sequncia, onde o n inicial coincide com o n final.
Clique: definido como um grafo com alta conectividade entre seus elementos integrantes. Sendo assim, clique tambm
considerado um sinnimo de cluster.
Closeness: valor que indica os caminhos mais
curtos entre um n n e todos os outros ns
da rede, uma tendncia de aproximao
ou isolamento de um n.
Complexo proteico: grupo de protenas formado
pela associao de duas ou mais cadeias
polipeptdicas.
Comprimento do caminho: definido pelo nmero
de conectores que definem o caminho, ou
ento, pelo nmero de ns da sequncia
menos um.
Conector Cut-edge: conector que quando rompido causa fragmentao da rede.
Date hubs: so hubs que se ligam a diferentes
protenas em diferentes mdulos (intermdulo), ou seja, diferente tempo e/ou
espao, consequentemente, apresentado
um papel global na rede.
Desassortatividade: tendncia de ns interagirem com ns diferentes deles mesmos.
Dimetro: indica a distncia entre os dois ns
mais afastados entre si de uma rede.
Sendo assim, definimos que uma rede
possui um alto dimetro quando a distncia geral entre os ns muito ampla.
Quando a distncia entre os ns pequena, ento o dimetro baixo.
Dimerizao: corresponde unio de dois monmeros, formando um dmero. Ou seja,
a formao de uma molcula a partir de
duas molculas menores.
Dimerizadores: compostos que induzem a dimerizao, neste caso a interao proteica.
Distribuio de Poisson: distribuio aplicada a
probabilidade de ocorrncia de um evento
em determinado intervalo de tempo.
Edgebetweenness: parmetro que indica o nmero de caminhos mais curtos entre pares
de ns que percorrem um determinado
conector.
Edgetic: perturbao causada em um conector
especfico, portanto em uma interao especfica na rede.
Foras intermoleculares: foras que mantm as
molculas unidas durante a interao.
Gargalo (bottleneck): protena que apresenta
alto grau de betweenness.
6. Biologia de Sistemas
Modularidade (clusterizao): padres de conectividade, onde seus elementos constituintes esto agrupados em subconjuntos
altamente conectados.
6. Biologia de Sistemas
7. Modelos Tridimensionais
Priscila V. S. Z. Capriles
Raphael Trevizani
Gregrio K. Rocha
Laurent E. Dardenne
Fabio Lima Custdio
Gerao de mltiplos modelos para a estrutura de
uma determinada sequncia de aminocidos.
7.1. Introduo
7.2. Estrutura 3D de protenas
7.3. Enovelamento de protenas
7.4. Predio da estrutura
7.5. Modelagem comparativa
7.6. Predio de enovelamento
7.7. Mtodos de novo
7.8. Primeiros princpios
7.9. Escolhendo o modelo
7.10. Anlise da qualidade
7.11. Refinamento do modelo
7.12. Aplicaes de modelos
7.13. Conceitos-chave
7.1. Introduo
O rpido avano na computao cientfica verificado na ltima dcada, principalmente quanto ao aumento da capacidade de
processamento dos computadores a custos
relativamente baixos, tem permitido que classes importantes de problemas cientficos na
rea da bioinformtica, no estudo de biomol-
7. Modelos Tridimensionais
mente associada sua estrutura tridimensional. Essa a afirmativa fundamental que inspira todas as buscas por um mtodo que seja
capaz de prever a estrutura nativa de uma
protena a partir da sua sequncia de aminocidos. Tal mtodo poderia ajudar na compreenso e no melhor aproveitamento do
potencial contido na grande quantidade de informao biolgica, na forma de sequncias,
que vem sendo gerada graas ao sucesso dos
projetos genoma.
As informaes sobre a estrutura de
uma protena esto armazenadas em uma sequncia codificada nos genes de um organismo. Assim diz um dos principais paradigmas
da biologia, postulado por Anfinsen em 1973.
A sequncia traduzida atravs de um complexo aparato celular em uma estrutura tridimensional funcional. Entender todos os
mecanismos e foras por traz desse processo seria um enorme avano cientfico que influenciaria praticamente todas as reas das
cincias da vida. Esse produto funcional da
traduo, chamado de estrutura nativa,
uma macromolcula estvel, em condies
fisiolgicas, formada por ligaes peptdicas
entre os aminocidos.
Apesar de estvel, a estrutura nativa
est longe de ser uma molcula esttica. Trata-se de uma estrutura flexvel, com movimentos especficos, muitos dos quais so
diretamente responsveis pela funo da protena. Por esse motivo, consideramos o estado nativo de uma protena no como uma
estrutura esttica, mas como um conjunto de
conformaes (tambm chamadas de configuraes) de baixa energia livre e biologicamente relevantes que a cadeia assume
regularmente no meio no qual exerce suas
funes.
Determinao experimental
As principais tcnicas para a determinao experimental da estrutura tridimensional
de macromolculas biolgicas sero apresentadas nos captulos 12 e 13. Brevemente, o
processo para a obteno da estrutura tridimensional de uma protena via tcnica de
cristalografia por difrao de raios-X composto basicamente pela produo e purificao da protena alvo, cristalizao, coleta e
processamento dos dados, resoluo da estrutura (empregando informaes sobre a
sequncia de aminocidos e diferentes programas) e refinamento da estrutura.
A tcnica de RMN tambm requer o conhecimento da sequncia de aminocidos.
Contudo, no necessrio que a protena esteja em um estado de cristal ordenado. A
vantagem da RMN que a estrutura a ser determinada pode estar em soluo, apesar de
requerer que a protena solubilizada esteja em
altas concentraes. Infelizmente, esta tcnica ainda est limitada a protenas de tamanhos pequenos a mdios, limitao no
observada para a cristalografia. Mesmo assim, a RMN destaca-se ao revelar informaes sobre o comportamento dinmico das
estruturas, incluindo mudanas conformacionais e interaes com outras molculas.
Na RMN, um forte campo magntico alinha os momentos magnticos dos ncleos atmicos de istopos
que possuem spin nuclear diferente de zero (tais como
1
H, 13C, 15N, 9F e 31P). Uma fonte de radiofrequncia de
energia varivel emitida, podendo ser absorvida pelos
ncleos atmicos invertendo o alinhamento do spin
nuclear em relao ao campo magntico externo aplicado. Neste momento, parte da energia absorvida e o
espectro de absoro resultante fornece a informao
sobre a identidade do ncleo e seu ambiente qumico
na vizinhana. Dados de sucessivos experimentos so
coletados e um espectro de RMN gerado contendo as
informaes sobre todos os deslocamentos qumicos
de todos os istopos analisados na protena.
7. Modelos Tridimensionais
zada adota a sua estrutura tridimensional nativa. Eles diferem dos estudos de predio de
estrutura de protenas (PSP Protein
Structure Prediction) por estarem mais interessados no "como" e no no produto final do
processo de enovelamento. Mas justamente
este como" que nos permite conhecer mais
detalhes sobre o enovelamento e, a partir
destas informaes, desenvolver novos mtodos de predio de estruturas. De fato, a
maioria dos mtodos de predio inspirada
em um ou mais aspectos das teorias de enovelamento.
7. Modelos Tridimensionais
A maior parte da variao da energia livre que ocorre quando as interaes intramoleculares so formadas devido ao
aumento da entropia na soluo aquosa resultante da formao do ncleo hidrofbico.
Isso supera a grande perda em entropia con-
7. Modelos Tridimensionais
formacional decorrente do processo de enovelamento da protena em sua estrutura nativa (Figura 1-7).
desfavorvel.
7. Modelos Tridimensionais
Com os recentes avanos na rea, contudo, pode-se notar que a separao entre
entes mtodos cada vez mais tnue. Alm
disso, uma rpida consulta aos ltimos CASP
mostra que muitos dos mtodos podem ser
includos em mais de uma categoria. Por
exemplo, a separao entre predio do enovelamento e modelagem comparativa cada
vez mais difcil, e o uso de algum tipo de informao estrutural/experimental amplamente observado, mesmo em metodologias
ditas de primeiros princpios. Assim, hoje se
usa uma classificao mais ampla que til
quando se deseja avaliar e comparar os mtodos objetivamente:
i) Mtodos independentes de estruturas
molde (tambm chamados de mtodos
template free). Incluem a predio ab
initio e a predio de novo;
ii) Mtodos baseados em estruturas
molde (tambm chamados de template
based). Incluem threading e modelagem
comparativa.
Com esta nova classificao, os mtodos ditos de novo so aqueles que utilizam algum tipo de informao estrutural, tais como
fragmentos de protenas, predio de estrutura 2ria e potenciais estatsticos, oriundas de
protenas no homlogas sequncia alvo.
O que vai ditar a escolha do mtodo a
ser aplicado a presena ou no de estruturas resolvidas experimentalmente, e depositadas em bancos de estruturas como o PDB
(Protein Data Bank), que possam ser usadas
como molde (ou template) para a modelagem
da sequncia alvo. A escolha do mtodo est
intrinsecamente relacionada com a taxa de
identidade obtida a partir do alinhamento entre a sequncia alvo e possveis candidatos a
molde (Figura 3-7).
O enovelamento da protena pode ser visto, em ltima instncia, como resultado das foras fsicas atuando sobre os tomos da protena. Sendo assim, a
formulao mais acurada para se estudar o enovelamento ou predizer a estrutura de protena baseada
em representaes com todos os tomos explcitos
(tambm chamados de all-atom, ver captulo 8). O
problema de tal representao o nvel de complexi-
Representao da estrutura e do
espao de conformaes
A representao tridimensional de uma
molcula pode ser dada pela posio geomtrica de seus tomos em um sistema de coordenadas cartesianas (x, y, z) ou pelas
chamadas coordenadas internas (Figura 4-7).
Nesta ltima, para cada tomo so fornecidas
informaes relativas ao comprimento de ligao, ngulo de ligao e ngulo de toro
(ou ngulo diedral).
A representao computacional de uma
protena pode ser feita baseada em todos os
seus tomos (modelos all-atom), em tomos unidos (alguns tomos de hidrognio
so considerados implicitamente), e em
agrupamentos de tomos (ou coarse-grained)
(ver captulo 8). Independentemente da estratgia, as formas de definio so equivalentes.
7. Modelos Tridimensionais
Figura 3-7: Fluxograma para a predio da estrutura tridimensional de uma protena. O valor de
25% apenas uma referncia e depende de outros fatores, tais como a cobertura com a
sequncia alvo.
7. Modelos Tridimensionais
Figura 4-7: Exemplo de representaes de uma molcula de etano. Em ambos os sistemas, cada
linha representa um tomo. Em A, temos ainda a definio do nmero de tomos (NATM), do
tipo do tomo (ATM), do nome do resduo (RES), do rtulo da cadeia (CAD), do nmero do
resduo (NRES) e das coordenadas em si (COORDX, COORDY, COORDZ). Para definio das
propriedades descritas em OCUP e BETA, ver captulo 13. Em B, temos definido o elemento
qumico (ATM), o comprimento da ligao (BOND), o nmero do tomo com o qual h a ligao
(REF1, por exemplo, o tomo 7 est ligado ao tomo 1, distando deste 1,0 ), o valor do ngulo
de ligao (ANG), o nmero do tomo com o qual h a formao do ngulo (REF2, por exemplo,
o tomo 8 est ligado ao 2 e faz um ngulo de 109,5o com o tomo 1), o valor do ngulo de
diedro (TORC) e, por fim, o nmero do tomo com o qual est definida a toro.
Outro aspecto a ser definido nessa etapa so os graus de liberdade que iro definir o
espao de conformaes, isto , de que forma ser definida a flexibilidade estrutural que
ir permitir construir diversas estruturas para as sequncias alvo. Tipicamente, os mtodos de PSP adotam geometrias de ligao
rgidas, isto , o comprimento das ligaes
fixo em um valor de referncia, assim como
os ngulos entre as ligaes.
Usando uma representao em coordenadas internas, os graus de liberdade para
modificao da estrutura so os ngulos de
toro, mais especificamente os ngulos diedrais do esqueleto peptdico: , e (Figura
5-7, ver tambm captulo 2) alm dos ngulos
diedrais das cadeias laterais: 1 at 4 (Figura
6-7). A definio desses ngulos suficiente
7. Modelos Tridimensionais
Funes de energia
As conformaes geradas pelo algoritmo de predio de estrutura 3D de protenas
devem ser avaliadas seguindo um critrio de
qualidade. Geralmente, esse critrio dado
pela energia total da estrutura. Essa energia
pode ser calculada considerando diversos aspectos fsico-qumicos e diferentes nveis de
simplificaes. Os parmetros desta funo
so usualmente retirados de campos de fora
clssicos (ver captulo 8) e, de maneira geral,
uma funo dependente da posio dos
tomos (ou grupos de tomos) em relao
aos seus vizinhos. Nestas funes, a energia
total determinada pela posio dos tomos,
e dada pela combinao das energias
fornecidas pelos potenciais diedral prprio,
Lennard-Jones e Coulomb (ver captulo 8).
Algumas abordagens usam funes de energia potencial ad hoc, que refletem caractersticas gerais das
protenas, e potenciais estatsticos parametrizados a
partir de bancos de dados de estruturas conhecidas.
Alguns mtodos lanam uso de funes efetivas de
solvatao que modelam as interaes entre a protena
e o solvente (implcito).
Algoritmos de busca
O algoritmo de busca o componente
responsvel por gerar a conformao inicial,
avaliar sua qualidade usando a funo de
energia, gerar novas conformaes e avalilas em um processo iterativo at que algum
critrio de parada esteja satisfeito. O problema de predio de estrutura de protenas ,
geralmente, definido como um problema de
minimizao. Assim, a busca feita pela conformao que minimize a funo de energia, a
qual se espera que seja a conformao nativa.
O problema de otimizao possui algumas caractersticas que o tornam extremamente complexo. Por
exemplo, a funo de energia apresenta uma multimodalidade massiva (ou seja, possuem um nmero muito
grande de mnimos locais), degenerescncia de mnimos e grandes regies de conformaes invlidas.
Alm disso, o problema est associado a um nmero
muito grande de graus de liberdade com grande interdependncia.
As abordagens empregadas na resoluo desse
problema frequentemente fazem uso de mtodos de-
7. Modelos Tridimensionais
nominados metaheuristicos (Figura 7-7). Estes mtodos constituem-se em tcnicas iterativas de otimizao
nas quais uma soluo candidata vai sendo melhorada
seguindo uma medida de qualidade. Esses mtodos
no fazem uso de informaes sobre a funo de avaliao ou mesmo sobre o problema, no entanto no h
garantias de se encontrar a soluo tima. Os mtodos
metaheursticos mais comuns incluem aqueles denominados Monte Carlo e Algoritmos Genticos. No entanto, alguns mtodos usam metaheursticas
combinadas a mtodos determinsticos baseados no
gradiente da funo, tais como o mtodo do mximo
declive (steepest descent). Esses ltimos so geralmente aplicados em etapas de refinamento e apenas
com funes de energia derivveis.
Identificao de referncias
7. Modelos Tridimensionais
7. Modelos Tridimensionais
estruturas molde;
iv) o tipo de estrutura 2ria predita in silico por mais
de uma ferramenta (tais como PSIPRED, PHYRE, JUFO e
PORTER), usando as regies de consenso entre elas
como informao de restrio de tipo de estrutura 2ria
durante a etapa de construo do modelo.
Construo do modelo
A partir do alinhamento global entre as
sequncias alvo e molde, algoritmos especficos para PSP via modelagem comparativa
iro transferir as informaes extradas da
estrutura 3D da protena molde para o modelo. As tcnicas mais aplicadas so as de
construo usando corpos rgidos e por satisfao de restries espaciais.
A tcnica de construo usando corpos rgidos
constri um modelo por partes, baseando-se na conservao de estruturas entre protenas homlogas ou
com grau significativo de identidade. As regies estruturalmente conservadas da protena de interesse so
definidas atravs de predio de estruturas 2rias. Essas regies so alinhadas com o molde, considerandose a mdia das posies dos C das sequncias de aminocidos das regies estruturalmente conservadas.
As regies que no satisfazem as exigncias so
chamadas de regies variveis. Essas compreendem,
geralmente, pores de alas que conectam as regies
conservadas. A cadeia principal dessas regies pode
ser obtida em bancos de dados especficos de estruturas, que apresentam conjuntos de alas classificados
pelo nmero de aminocidos e pelo tipo de estruturas
2rias que conectam.
Aps a insero das regies de alas, um modelo
inicial do esqueleto peptdico estar pronto, restando
apenas a insero das cadeias laterais dos aminocidos
atravs de busca em bibliotecas de rotmeros. Como
exemplo de programa baseado nesta tcnica, pode-se
mencionar o portal Swiss-Model.
7. Modelos Tridimensionais
Validao do modelo
Aps a construo do modelo, necessrio identificar possveis erros relacionados
aos mtodos empregados, escolha das referncias e ao alinhamento entre as sequncias alvo e molde. Caso o modelo seja
caracterizado como de m qualidade, todo o
protocolo anterior deve ser revisto no intuito
de se melhorar o alinhamento, escolher outros moldes ou at mesmo decidir-se pelo
uso de outros mtodos. Os principais mtodos de validao de um modelo sero descritos adiante (item 7.10).
Por ser dependente de uma estrutura
3D resolvida experimentalmente, a tcnica de
modelagem comparativa possui certas limitaes, tais como:
i) nem sempre se consegue uma estrutura molde para a protena de interesse;
ii) o grau de similaridade conseguido
entre as sequncias alvo e molde pode
ser pequeno (<30% de identidade),
mesmo em regies do stio ativo, inviabilizando o emprego desta tcnica;
iii) por vezes, as sequncias que podem
servir como moldes possuem qualidade
insuficiente para a construo de um
modelo adequado.
Nesses casos, como citado anteriormente, o uso adicional de informaes, como
a identificao de regies transmembranares,
a predio de regies de peptdeo sinal, a
predio de tipo de estrutura 2ria, a predio
do tipo de enovelamento e a verificao da
existncia de dados tericos e experimentais
quanto existncia, quantidade e localizao
de pores transmembranares, ligantes e
nmero e tipo de cadeias podem contribuir
tanto na construo de modelos tridimensionais como na anotao funcional de sequncias.
No caso de anlises em larga escala de conjuntos
de protenas, e at mesmo de genomas inteiros, todo
esse processo deve ser realizado para cada protena de
interesse. Considerando o tempo gasto em cada uma
dessas etapas, interessante o uso de mtodos automatizados que podem ser empregados como um filtro
inicial para a deteco de quais protenas podem ser
modeladas por modelagem comparativa e para a obteno de um modelo inicial para cada uma dessas
protenas, a ser otimizado individualmente. Como
exemplo de programa usado para a anlise em larga
escala de sequncias de protenas, citamos o programa MHOLline.
7. Modelos Tridimensionais
7. Modelos Tridimensionais
uma protena a partir apenas de sua sequncia. Por 30 anos, o cenrio de tcnicas de
predio de estruturas 2rias foi composto por
mtodos que se baseavam na propenso de
um resduo pertencer a uma determinada estrutura 2ria. Na dcada de 1990, uma nova
gerao de mtodos que considerava os efeitos trazidos pelos resduos adjacentes surgiu,
contemplando os efeitos de interaes locais
na predio, o que alou a preciso das predies a um patamar acima de 60%.
O crescimento de bancos de dados de
protenas em combinao a algoritmos mais
sofisticados permitiu a incluso de informaes relacionadas ao enovelamento da protena nestas predies, principalmente
aquelas relacionadas aos efeitos de interaes de longo alcance. Esses novos mtodos
baseiam-se em alinhamentos mltiplos e sua
consequente informao evolutiva. Em sua
maioria, esses mtodos valem-se do PSIBLAST (ver captulo 3). Os atuais mtodos de
predio de estruturas 2rias possuem desempenho em torno de 80% de preciso,
dentre os quais destacam-se PSIPRED, DSC,
GOR IV, Predator, Prof, PROFphd e SSpro.
Fragmentos de protenas
A determinao da estrutura da RBP
(Retinol Binding Protein) em 1986, em particular de seu stio ativo, se mostrou desafiadora por sua estrutura no se parecer com
nenhuma at ento conhecida (Figura 9-7).
Diante das dificuldades de se concluir tal trabalho de determinao, os pesquisadores resolveram buscar informaes em todo o
banco do PDB (na poca contava com apenas
213 entradas), procurando por quaisquer estruturas (ou regies/segmentos destas) semelhantes que pudesse substituir o stio em
estudo. Nessa busca, os autores perceberam
que a segmentao das protenas em pequenos fragmentos resultava em uma surpreendente redundncia estrutural, ou seja,
pequenos fragmentos com estruturas similares apresentavam similaridade de sequncia
(localmente).
Isso permitiu a construo de um mo-
7. Modelos Tridimensionais
Figura 11-7: Fragmentos de protenas com a mesma sequncia de resduos que possuem
estruturas diferentes. Acima, as protenas de cdigo PDB 1F8E (fragmento destacado entre os
resduos 243 e 247) e 1BGP (resduos 63 a 67); abaixo, 1LM5 (2800 a 2804) e 1XS5 (121 a 125).
7. Modelos Tridimensionais
mentos extrados do banco, o problema torna-se ento escolher os melhores para reproduzir cada regio.
Na Figura 12-7 est representada uma
biblioteca com fragmentos de 6 resduos para
uma dada protena. O primeiro fragmento do
banco alinhado primeira posio da protena. Os resduos do fragmento so comparados com as entradas da matriz BLOSUM62.
Nesse exemplo, o valor da substituio de
uma valina por uma asparagina -3, e a
substituio de um glutamato por uma lisina
+1. Somando os valores da comparao entre
todos os resduos do fragmento com os da
respectiva regio da sequncia alvo, temos
uma pontuao total de -8 para esse fragmento. O segundo fragmento do banco tomado, e o processo de comparao
resduo-resduo entre o fragmento e a sequncia alvo repetido. Nesse exemplo, temse uma pontuao total de +11 para o segundo
fragmento. O processo ilustrado para a atribuio da pontuao repetido para todos os
fragmentos do banco, sempre para uma janela de leitura de 6 resduos. Ou seja, deslocase um resduo para a direita e reinicia-se o
processo, formando uma nova lista de fragmentos para esta nova posio.
Uma lista de candidatos a reproduzir a
sequncia alvo montada de acordo com
uma pontuao. Parte dessa pontuao o
grau de similaridade entre a sequncia do
fragmento e da regio correspondente da sequncia alvo. A outra parte da pontuao a
concordncia da estrutura 2ria do fragmento
com a estrutura 2ria predita pelo PSIPRED
para a sequncia alvo. Ao final, a biblioteca de
fragmentos conter os fragmentos que possuem as maiores pontuaes, logo, os fragmentos mais provveis para a reproduo da
estrutura local.
Se o uso de um fragmento de uma protena conhecida elimina a necessidade de se modelar a regio localmente, o problema torna-se escolher a melhor
estrutura para cada regio. De posse de uma biblioteca
de fragmentos, o trabalho torna-se um problema de
otimizao, abordado por um algoritmo de busca, onde
se procura reconstruir a protena usando as informaes trazidas pelos fragmentos, validando-se a estrutura gerada usando uma determinada funo de
energia.
7. Modelos Tridimensionais
7. Modelos Tridimensionais
7. Modelos Tridimensionais
Algoritmo de
busca
Funo de
energia
GAPF
Algoritmo
gentico
GROMOS96 e
GAPF-CG
Profet
Algoritmo
evolucionrio
OPLSAA,
AMBER94,
AMBER96,
ECEPP e FLEX
ProtPred
Algoritmo
evolucionrio
CHARMM (v.27)
Nicosia
Algoritmo
evolucionrio
multiobjetivo
Algoritmo
evolucionrio
multiobjetivo
multitabelas
CHARMM (v.27)
MEAMT
CHARMM (v.27)
Esse passo tem o potencial de reduzir consideravelmente o nmero de modelos a ser investigado, embora em alguns casos o nmero de conformaes a
7. Modelos Tridimensionais
7. Modelos Tridimensionais
7. Modelos Tridimensionais
7.13. Conceitos-chave
Bibliotecas de fragmentos: As bibliotecas de
fragmentos so construdas a partir de
estruturas tridimensionais determinadas
experimentalmente, e so especficas para
cada sequncia alvo. Possuem tamanhos
variados uma vez que os fragmentos devem apresentar alta similaridade local com
a sequncia alvo.
Campos de fora: Referem-se forma e aos
parmetros (ajustveis) de funes matemticas usadas para descrever a energia
potencial de um sistema de partculas
(molculas e tomos). As funes e seus
parmetros so derivados de estudos experimentais e de clculos advindos da
mecnica quntica, e que tentam descrever fenmenos atmicos como conformao (e.g. diedros) e interaes de curto e
longo alcance de diferentes classes de
molculas.
Decoy: So modelos gerados pelos diversos
mtodos de predio de estrutura tridimensional de protenas. Uma vez que os
mtodos empregados so no determinsticos, cada execuo pode resultar em um
modelo diferente. Dentre os decoys, encontra-se o modelo que melhor representa
o que se supe ser a estrutura nativa da
sequncia alvo, porm, para sua identificao faz-se necessrio realizar uma filtragem.
7. Modelos Tridimensionais
mente.
Predio de estruturas de protenas: a arte de
prever para uma sequncia de aminocidos, atravs de mtodos computacionais,
sua estrutura tridimensional mais prxima
do que se supe ser sua estrutura nativa.
Predio de novo: uma classe de mtodos
usada para prever a estrutura tridimensional de uma protena alvo, a partir de informaes
estruturais
de
protenas
resolvidas experimentalmente (estruturas
molde) e sem qualquer parentesco com a
protena alvo. Usam, por exemplo, bibliotecas de fragmentos.
Rotmeros: So as conformaes preferenciais
da cadeia lateral de um resduo de aminocido. Podem ser combinados em bibliotecas para cada tipo de aminocido.
Threading: uma classe de mtodos usada na
predio de estrutura tridimensional de
protenas e que busca descobrir qual o
tipo de enovelamento mais provvel que
uma sequncia alvo dever adotar. Esse
processo baseado em estruturas resolvidas experimentalmente (estruturas molde)
que
no
so
necessariamente
homlogos protena alvo.
Raphael.
Bibliotecas
de
frag-
8. Dinmica Molecular
Hugo Verli
8.1. Introduo
8.2. Campos de fora
8.3. Minimizao de energia
8.4. Simulaes por DM
8.5. Estratgias de anlise
8.6. Limitaes atuais da DM
8.7. E outras biomolculas?
8.1. Introduo
8.8. Conceitos-chave
8. Dinmica Molecular
conjunto de molculas, baseia-se na soluo da 2a Lei de Newton, onde Fxi a fora aplicada
ao tomo i na posio x, t o
tempo, v a velocidade e ai a
acelerao do tomo i. Por ser
baseada na fsica desenvolvida
por Sir. Isaac Newton, a DM faz
parte dos mtodos denominados
Clssicos (tambm chamados de
mtodos de mecnica molecular), em oposio aos mtodos
baseados na fsica quntica (que
deram origem aos denominados
mtodos de mecnica quntica).
Programa
Distribuio
Abalone
Gratuito
ADUN
Gratuito
AMBER
Pago
Ascalaph Designer
Gratuito
CHARMM
Pago
Discovery Studio
Pago
GROMACS
Gratuito
GROMOS
Pago
GULP
Gratuito
LAMMPS
Gratuito
MDynaMix
Gratuito
MOE
Pago
MOIL
Gratuito
MOLDY
Gratuito
NAMD
Gratuito
RedMD
Gratuito
TeraQuem
Pago
TINKER
Gratuito
YASARA
Pago
8. Dinmica Molecular
como os tomos no esto isolados, mas ligados a outros tomos formando molculas
que, por sua vez, interagem com outras molculas, eles esto sujeitos a foras interatmicas e inter-moleculares. O clculo
destas foras realizado por uma outra
funo matemtica, denominada campo de
fora.
O campo de fora, seguindo a definio
da IUPAC, pode ser descrito brevemente
como um conjunto de funes e
parametrizao usadas em clculos de
mecnica molecular. Cada campo de fora
estabelece um conjunto de equaes
matemticas dedicadas a reproduzir aspectos
do comportamento molecular, como o
estiramento de ligaes qumicas, a
deformao de um ngulo de ligao ou a
toro de um diedro, como podemos
observar em um espectro de infravermelho.
Estas equaes, por sua vez, so calibradas
(ou seja, parametrizadas) para reproduzir o
comportamento dos compostos de interesse
(Figura 2-8).
Equaes e parametrizaes diferentes
podem ser empregadas, dando origem a
campos de fora diferentes, com vantagens e
Figura 2-8: Representao de alguns termos que compem o campo de fora GROMOS96. Termos semelhantes so tambm encontrados em diversos outros campos de fora.
8. Dinmica Molecular
Figura 3-8: Representao dos 20 aminocidos, codificados no genoma para sntese proteica,
em um campo de fora descrevendo todos os tomos, em um campo de fora de tomo unido e
coarse-grained.
caso, os tomos de hidrognio apolares, ou seja,
aqueles ligados a tomos de carbono, so unidos a
este elemento, dando origem a um pseudotomo
representando as propriedades de grupos CH, CH2 ou
CH3. Exceo se d para o grupo CH de anis
aromticos, que tem os tomos de hidrognio
descritos explicitamente nos campos de fora de
tomo unido mais modernos, como o GROMOS96.
H, por fim, um terceiro nvel de simplificao,
denominado coarse-grained (CG). Neste campo de
fora, vrios tomos podem ser agregados em uma
nica partcula, anloga ao pseudotomo do modelo de
tomo unido. Por exemplo, todo um aminocido pode
ser considerado como uma nica partcula, como o
caso da alanina e da glicina no campo de fora
MARTINI. Em outros resduos, este campo de fora
considera o esqueleto peptdico como uma partcula e
a cadeia lateral de uma (como na cistena, treonina e
serina) a trs (histidina e fenilalanina) ou quatro
(triptofano) partculas.
Quanto maior a simplificao, menor custo
computacional do clculo. Em outras palavras,
podemos simular sistemas com maior nmero de
tomos por mais tempo em computadores mais
baratos. Infelizmente, estas simplificaes trazem
consigo algumas limitaes. No caso do CG, perde-se a
8. Dinmica Molecular
SPC
SPC/E
Campos de fora
onde so empregados
Tipo
AMBER, GROMOS,
OPLS
TIP3P
TIP4P
AMBER, CHARMM,
OPLS
TIP5P
MARTINI
Martini
8. Dinmica Molecular
Abordar
com
profundidade
a
construo de parmetros para campos de
fora est alm do objetivo deste livro. Mas
em muitos casos h uma soluo um pouco
mais simples para o problema. Uma
caracterstica importante de campos de fora
a chamada transferabilidade. Isto significa
que grupos qumicos semelhantes possuem
propriedades semelhantes que podem, assim,
serem transferidas de uma molcula para
outra. Por exemplo, o grupo hidroxila de um
resduo de Ser equivalente ao grupo
hidroxila de um resduo de Thr. Assim, h uma
reduo
enorme
na
necessidade
de
construo de parmetros para novos
compostos, se respeitarmos a semelhana
qumica entre eles.
8. Dinmica Molecular
Figura 5-8: Exemplo da evoluo de propriedades moleculares no decorrer de uma minimizao de energia. A cada passo, a energia
do sistema diminui, com a reduo de contatos desfavorveis e a formao de interaes
intra- e inter-moleculares como ligaes de
hidrognio.
8. Dinmica Molecular
Figura 6-8: Representao das condies peridicas de contorno em uma simulao por
DM. Somente a caixa central simulada, enquanto que as rplicas garantem a continuidade do sistema, isto , ausncia de contato
das molculas com o vcuo.
Devemos, contudo, tomar cuidado para no definir
uma caixa excessivamente pequena, buscando
Equilibrao
A ideia de equilibrao de uma
simulao por DM se refere estabilizao de
suas propriedades, ou seja, que estas alcancem um estado de equilbrio. Considera-se
que, antes de estarem equilibradas, as
propriedades
em
estudo
apresentam
variaes
ou
comportamentos
no
representativos das situaes de interesse.
Assim, necessrio que o tempo de
simulao seja suficientemente longo (tamanho da amostragem, ver adiante) para que as
propriedades em estudo estejam adequadamente equilibradas. Na Figura 1-8, por
exemplo, a simulao de um monmero de
melitina demora em torno de 4 ns para se
equilibrar.
Um dos motivos mais comuns para a necessidade
de equilibrao devido ao uso de estruturas 3D
derivadas de ambientes cristalinos, isto , aquelas
obtidas por cristalografia de raios-X. Este ambiente
apresenta concentrao de protenas muito maior do
que aquela observada, usualmente, nas condies biolgicas de interesse, por vezes em estados
oligomricos no observados em condies biolgicas. Assim, a remoo destes contatos e sua
substituio por molculas de gua, acarretar em
uma instabilidade inicial na simulao, envolvendo: 1) a
perda de contatos cristalogrficos, e 2) a formao de
interaes com molculas de gua.
Infelizmente, a busca por tempos de simulao
"suficientemente longos" para equilibrao das
propriedades de interesse pode ser desafiadora, pois
nem todas as propriedades moleculares equilibram a
uma mesma velocidade. Por exemplo, a interao de
uma protena com o solvente equilibra usualmente
mais rapidamente do que a perda ou a formao de
estrutura 2ria. Estas, por sua vez, equilibram mais
8. Dinmica Molecular
Amostragem
A amostragem de uma simulao por
DM se refere a quo bem ela capaz de descrever o comportamento do sistema molecular em estudo. Idealmente, a amostragem de
uma simulao deve ser longa o bastante para descrever os fenmenos de interesse.
Contudo, a simulao de sistemas complexos
como aqueles envolvendo biomolculas frequentemente esbarra em amostragens ainda
inalcanveis em decorrncia de seu elevado
custo computacional.
A maneira mais simples de se entender a amostragem considerando o tamanho da simulao em uma
escala de tempo. Um maior tempo de simulao implica em uma maior amostragem. Contudo, diversos aspectos podem interferir neste entendimento. O
aumento do nmero de molculas e tomos no sistema aumenta o nmero de possveis conformaes a
serem adotadas. Por outro lado, o uso de campos de
fora do tipo tomo unido ou ainda coarse-grained,
ao reduzir o nmero de tomos, reduz o nmero de
possveis estados conformacionais a serem adotados
pelo sistema, tornando assim a amostragem maior em
uma mesma escala de tempo.
Tempo de integrao
O clculo de uma simulao por DM no
gera informaes contnuas, mas sim dividida em pequenos passos, usualmente na escala de femtossegundos (fs). A sucesso
destes passos dar origem ao nosso entendimento de trajetria, isto , evoluo temporal do comportamento molecular na
simulao realizada. O tamanho destas partes
o que chamamos de tempo de integrao
(Figura 7-8).
A definio de um valor apropriado para
o tempo de integrao est diretamente relacionada ao tamanho da amostragem da simulao e, por conseguinte, ao custo
computacional da mesma. Conforme ilustrado na Figura 7-8, a descrio de uma determinada propriedade tempo-tempendente
8. Dinmica Molecular
mais passos sero necessrios e, assim, maior o custo computacional. Infelizmente, o uso
de tempos de integrao muito elevados pode
gerar instabilidades na trajetria, de forma
que valores intermedirios so usualmente
empregados, no caso da Figura 7-8, 2fs.
Os valores de tempo de integrao mais frequentemente empregados em simulaes baseadas em campos de fora atomsticos (isto , todos os tomos so
descritos) ou de tomo unido so 1fs, 2fs ou 5fs. O uso
de 1fs realizado quando as molculas e suas ligaes
so tratadas como flexveis durante a simulao, enquanto 2fs requerem o tratamento das ligaes qumicas como rgidas. J para o uso de 5fs, toda a molcula
tratada como rgida (ou seja, ngulos e diedros no
podem ser modificados), uma alternativa pouco utilizada no estudo de sistemas biolgicos. Em algumas situaes podem ser empregados tempos de integrao
menores que 1fs, mantida toda a flexiblidade da molcula. Em outros casos, como em simulaes do tipo
coarse-grained, tempos de integrao de at 40fs.
8. Dinmica Molecular
8. Dinmica Molecular
8. Dinmica Molecular
Uso de estatstica
Embora seja prtica corriqueira, mesmo obrigatria, na grande maioria dos mtodos experimentais empregados no estudo de sistemas biolgios, o uso de
mtodos estatsticos no , ainda, comum na anlise de
resultados obtidos em simulaes por DM. Isto se deve
ao fato de que, em uma mesma simulao, so normalmente gerados centenas de milhares ou mesmo
milhes de dados para uma mesma varivel (tamanho
da simulao dividido pelo tempo de integrao). O
grande n assim obtido tender a tornar estatisticamente significativa mesmo variaes bem pequenas
nas propriedades de interesse.
Com a reduo no custo dos computadores e aumento em sua velocidade, assim como na melhoria dos
programas disponveis, uma nova abordagem vem se
apresentando, aproximando a anlise de simulaes
por DM de estudos experimentais convencionais. Trata-se da realizao de mltiplas simulaes para um
mesmo sistema. Assim, a informao a ser empregada
nas anlises a mdia da informao gerada nas diversas simulaes.
8. Dinmica Molecular
8.8. Conceitos-chave
Amostragem: refere-se descrio do comportamento conformacional de uma dada
molcula em uma simulao.
Campo de fora: conjunto de equaes que
descreve o comportamento molecular em
clculos de mecnica molecular. ajustado para cada tipo de molcula a ser estudado.
Campo de fora all atom (todos os tomos):
considera todos os tomos do sistema explicitamente.
Campo de fora united atom (tomo unido):
transforma grupos CH, CH2 e CH3 em uma
nica partcula ou pseudotomo, reduzindo o nmero de tomos a ser descrito.
8. Dinmica Molecular
9. Atracamento Molecular
Isabella A. Guedes
Camila S. de Magalhes
Laurent E. Dardenne
9.1. Introduo
9.2. Reconhecimento molecular
9.3. Mtodos de atracamento
9.4. Triagem em larga escala
9.5. Consideraes finais
9.6. Conceitos-chave
9.1. Introduo
Para se compreender a maioria dos mecanismos e processos celulares necessrio
determinar e compreender o modo de interao entre macromolculas (principalmente
protenas e cidos nucleicos) ou entre uma
macromolcula e uma pequena molcula ligante, que pode atuar como agonista/antagonista ou substrato/inibidor em determinado
processo fisiolgico.
Complexos macromoleculares podem
envolver dezenas ou centenas de componentes, tais como na formao dos poros nucleares, formao de ribossomos, formao de
chaperonas como a GroEL e na formao de
capsdeos de vrus (Figura 1-9). Quais protenas interagem e o modo de interao so informaes de fundamental importncia para
a compreenso do funcionamento de processos biomoleculares.
Por outro lado, o conhecimento do modo de interao entre pequenas molculas li-
9. Atracamento Molecular
Figura 3-9: Graus de flexibilidade do receptor: (A) mobilidade do esqueleto peptdico da enzima
protease do HIV-1, (B) diversas conformaes de ala no stio de ligao do ATP enzima MAP
cinase p38, e (C) mudana conformacional da cadeia lateral de resduo na enzima cinase JNK3,
influenciada por diferentes inibidores.
9. Atracamento Molecular
Interaes protena-ligante
Os principais tipos de interaes intermoleculares envolvidas no reconhecimento
molecular protena-ligante incluem:
i)
ligaes de hidrognio;
ii) interaes de van der Waals;
iii) interaes inicas;
iv) interaes hidrofbicas;
v) interaes do tipo ction-;
vi) interaes envolvendo anis aromticos do tipo - e empilhamento-T, e
vii) coordenao com ons metlicos.
O efeito hidrofbico origina-se do fato
de que partes apolares do ligante e do stio
ativo interagem com o solvente, sendo que
estas se encontram solvatadas por camadas
de molculas de gua mais organizadas. A
aproximao destas partes apolares, durante
a interao protena-ligante, liberam e desorganizam as molculas de gua, aumentando a
entropia do sistema e consequentemente favorecem a formao do complexo protenaligante. O aumento na entropia do solvente
associado ao ocultamento das superfcies
apolares chamado de efeito hidrofbico.
Este efeito destaca o papel fundamental
do solvente aquoso no processo de reconhe-
9. Atracamento Molecular
cimento molecular protena-ligante. Em algumas situaes, as molculas de gua assumem tal importncia que sua presena
considerada estrutural, sendo por isso denominadas molculas de gua estruturais.
Estas molculas esto ligadas fortemente ao stio ativo, e geralmente so conservadas em stios de ligao de protenas
homlogas. A presena destas molculas nos
stios receptores de protenas podem interferir no acesso do ligante ao stio ativo e modificar o perfil de formao de ligaes de
hidrognio, contribuindo portanto diretamente
no sucesso das metodologias de atracamento
protena-ligante.
Durante a formao do complexo ocorre a perda de
entropia rotacional e translacional do ligante, alm de
variaes na sua entropia vibracional e conformacional
devido s restries de comprimento de ligao, deformao angular e ngulos diedrais. Estas tambm so
contribuies entrpicas importantes que ocorrem durante o processo de reconhecimento molecular.
O processo de reconhecimento molecular protena-ligante dirigido por uma combinao de efeitos entlpicos e entrpicos.
Estes efeitos podem ser estimados atravs
da energia livre de ligao de Gibbs que, por
sua vez, est diretamente relacionada constante de equilbrio de ligao Keq, a qual pode
ser medida experimentalmente.
Glig = H - TS = -RT ln Keq
onde H a variao de entalpia, T a temperatura absoluta, S a variao de entropia
e R a constante universal dos gases.
A constante de equilbrio de ligao Keq
determinada experimentalmente com relao a um estado de referncia (usualmente,
para sistemas biolgicos, utilizando uma concentrao de 1 M e 25 C). Esta constante de
equilbrio pode ser representada pela constante de dissociao (Kd) ou de associao
(Ka), as quais dependem da representao da
reao qumica sendo uma o inverso da outra.
Kd = ([R][L])/[RL]
Ka = [RL]/([R][L])
Uma metodologia mais simples e bastante utilizada para a obteno de energias livres de ligao a chamada Energia de
9. Atracamento Molecular
Interao Linear (LIE, do ingls Linear Interaction Energy), a qual trata de estimar as energias livres a partir de simulaes de dinmica
molecular utilizando um campo de fora molecular clssico. Os clculos de energia livre
com esta metodologia envolvem simulaes
somente nos estados inicial (ligante em soluo) e final (complexo receptor/ligante), podendo reduzir desta maneira os problemas de
convergncia e custo computacionais associados s tcnicas PEL e IT. A ideia principal
considerar as contribuies polares e no polares separadamente. A parte polar ou eletrosttica pode ser tratada usando a
aproximao de resposta linear, enquanto que
a no polar calculada usando uma frmula
emprica calibrada sobre um conjunto de dados experimentais:
Glig= VLJ
lig
- VLJ
livre
+ Vel
lig
- Vel
livre
A obteno de uma descrio suficientemente acurada e vivel computacionalmente do papel das molculas de gua no
processo de reconhecimento molecular e a
quantificao correta das variaes entrpi-
cas conformacionais das molculas interagentes so alguns dos maiores desafios para
o desenvolvimento das metodologias de
atracamento molecular.
Programa de
atracamento
EADock DSS
DockingServer
AutoDock
DockThor Portal
DockThor
1-Click Docking
AutoDock Vina
DOCK Blaster
DOCK
Docking At UTMB
AutoDock Vina
ParDOCK
PATCHDOCK
PatchDock
MEDock
MEDock
Preparao do sistema
Uma etapa muito importante para um
estudo de reconhecimento molecular prote-
9. Atracamento Molecular
na-ligante a preparao do sistema. O primeiro passo nesta etapa a obteno das coordenadas das estruturas tridimensionais das
molculas interagentes. Com relao protena, o Protein Data Bank atualmente a
maior fonte pblica de estruturas de protenas e cidos nucleicos resolvidos experimentalmente
atravs,
principalmente,
das
tcnicas de difrao de raios-X e RMN. Na ausncia de dados experimentais, estruturas tridimensionais de protenas podem ser obtidas
utilizando-se tcnicas de predio de estruturas baseadas em modelagem comparativa ou
outros mtodos, tais como tcnicas baseadas
em fragmentos e tcnicas baseadas em primeiros princpios.
As estruturas de ligantes podem ser
obtidas de vrios bancos de dados contendo
milhares a milhes de ligantes no formato 1D
(smi,
simplified-molecular
input-entry
system, tambm chamado de formato
SMILES) ou 2D (sdf, structure-data file
format, tambm suporta formato 3D). A gerao de uma estrutura 3D de um ligante a
partir de uma representao 1D ou 2D (Figura
4-9) pode ser feita atravs de vrios programas tais como, CORINA, CONCORD, OMEGA,
Balloon e Multiconf-DOCK.
Uma vez que as estruturas 3D das molculas tenham sido obtidas, vrios cuidados
devem ser tomados durante a preparao
dos arquivos de entrada para a realizao de
clculos de atracamento molecular. Com relao ao stio de ligao em uma protena alvo, necessrio primeiramente que se tenha
a informao da localizao do mesmo. Em
um segundo momento, muito importante
realizar um estudo das caractersticas fsicoqumicas e estruturais deste stio. No caso de
enzimas, um estudo (incluindo uma pesquisa
bibliogrfica) para obter o mximo de informaes sobre a reao enzimtica envolvida
tambm deve ser realizado.
Como a localizao do stio receptor de
uma protena nem sempre conhecida, mtodos computacionais podem ser utilizados para prever os possveis stios de ligao. Estes
mtodos podem se basear em anlises geomtricas e de volume para identificar cavida-
9. Atracamento Molecular
9. Atracamento Molecular
Mtodos de busca
A explorao das diferentes orientaes
e conformaes possveis para um ligante no
stio de ligao do receptor alvo pelo programa de atracamento deve ser feita de tal forma a se encontrar a soluo tima, ou seja, o
mnimo global de energia. Se os efeitos entrpicos e entlpicos associados termodinmica do sistema (ou seja, a energia livre do
sistema) forem corretamente modelados pela funo de energia, ento o mnimo global
de energia da superfcie investigada vai estar
associado ao modo de ligao receptor-ligante encontrado experimentalmente. Infelizmente, devido s aproximaes introduzidas
no modelo de interao molecular, nem sempre o mnimo global satisfaz este importante
requisito.
Um ligante pode variar sua orientao
dentro do stio de ligao atravs de movimentos de translao e rotao (os chamados graus de liberdade translacionais e
rotacionais). Alm destas modificaes, a
presena de ngulos diedrais rotacionveis
(isto , ligaes qumicas simples) do ligante
correspondem aos graus de liberdade conformacionais. Na Figura 6-9 so mostrados os
9. Atracamento Molecular
pequenos fragmentos rgidos. Em um primeiro momento, um fragmento-base ancorado no stio receptor e, posteriormente, todos os outros fragmentos so
adicionados de forma incremental, at a reconstruo
total do ligante. Cada fragmento adicionado possui uma
ligao qumica rotacionvel com o fragmento base. A
juno dos fragmentos feita com base em uma busca
conformacional, a partir de um banco de valores de
ngulos diedrais, de maneira a investigar sistematicamente a flexibilidade associada a este ngulo especfico. Exemplos de programas de atracamento que
utilizam construo incremental so DOCK, FlexX, Glide, EUDOC e Surflex.
9. Atracamento Molecular
9. Atracamento Molecular
Funes de avaliao
Os mtodos de busca geram uma grande quantidade de conformaes do ligante
durante o atracamento molecular. As funes
de avaliao so combinadas aos mtodos de
busca para avaliar a qualidade destas conformaes de forma a orden-las de acordo com
a sua afinidade pelo receptor. Uma funo de
avaliao deve ser capaz de distinguir o modo
de ligao experimental dos outros encontrados pelo mtodo de busca (ou seja, previso
do modo de ligao). Tambm deve ser capaz
de ordenar corretamente uma lista de ligantes com relao s suas afinidades pela macromolcula receptora (triagem virtual) e
prever as respectivas energias livres de ligao (predio de afinidade). Sendo assim, o
desempenho de uma funo de avaliao est
diretamente relacionado sua capacidade de
predio do correto modo de interao do ligante e da sua afinidade pelo receptor alvo.
Estas funes so modelos matemticos, geralmente lineares, formados por diferentes termos relacionados s propriedades
fsico-qumicas envolvidas na interao de
uma pequena molcula ligante com seu stio
de ligao a um receptor. De acordo com o
objetivo e a etapa do estudo de atracamento
molecular, podem ser utilizadas diferentes
9. Atracamento Molecular
Wi . Gi
9. Atracamento Molecular
Flexibilidade da Protena
A introduo da flexibilidade da protena
pelos algoritmos de atracamento molecular
atualmente um dos principais desafios desta
rea de pesquisa. Isto se deve ao grande nmero de graus de liberdade a serem considerados, principalmente relacionados aos graus
de liberdade dos movimentos do esqueleto
peptdico e das cadeias laterais dos resduos
de aminocidos da protena.
Nos ltimos anos, vrias metodologias
que procuram incorporar este efeito tm sido
propostas e descritas na literatura, impulsionadas por dois importantes fatores. O primeiro que o tratamento da flexibilidade da
protena cada vez mais reconhecido como
um aspecto de extrema relevncia em estudos de planejamento racional de frmacos
baseado na estrutura do seu receptor biolgico. So crescentes as evidncias de que alvos moleculares de grande interesse para a
indstria farmacutica passam por importantes mudanas conformacionais quando interagindo com ligantes. O segundo fator foi o
grande crescimento do poder de processamento dos computadores ocorrido nos ltimos anos, o que tornou possvel o
desenvolvimento de novas metodologias, algoritmos e abordagens, que seriam inviveis
em estudos de planejamento de frmacos h
poucos anos.
A flexibilidade da protena pode estar
associada a diferentes tipos de movimentos,
tais como movimentos locais (como o movimento de cadeias laterais de resduos de
aminocidos localizados no stio de ligao),
movimentos de mdia escala (como o rearranjo de alas ou reposicionamento de hlices) e movimentos de grande escala,
associados a movimentos de domnios da
protena (Figura 3-9). Dependendo dos tipos
de movimentos que se quer incorporar, diferentes tipos de metodologias so passveis de
serem utilizadas para um tratamento adequado. De maneira geral, as metodologias
existentes podem ser divididas em trs categorias, associadas aos trs mecanismos de
encaixe ligante-protena mencionados anteri-
ormente:
i) mtodos associados ao mecanismo
de encaixe induzido, onde so considerados os movimentos locais da protena;
ii) mtodos associados ao mecanismo
de conjunto de conformaes (ensemble
docking em ingls), em que so considerados movimentos de grande e larga
escala; e
iii) mtodos hbridos, que levam os dois
tipos de mecanismos e procuram considerar um amplo espectro de movimentos da protena.
Uma das estratgias mais simples de introduzir a
flexibilidade local da protena a de suavizar o potencial repulsivo entre tomos do ligante e da protena, isto
, suavizar o termo de r-12 do potencial de Lennard-Jones, tcnica esta conhecida na literatura como Receptor Soft-Docking. Na prtica, isto permite que os
ligantes possam se acomodar mais facilmente nas regies de interao, levando em conta a flexibilidade
inerente da protena. Do ponto de vista da superfcie de
energia isto corresponde a alargar as regies de mnimo, evitando assim que um eventual posicionamento
incorreto de um tomo da protena (dentro da aproximao de atracamento com a protena rgida) possa
fazer explodir a energia de interao protena-ligante,
mesmo que esta esteja muito prxima da observada
experimentalmente.
Esta tcnica tambm utilizada para acelerar a
convergncia da busca conformacional. Normalmente,
a intensidade da suavizao utilizada de forma decrescente, permitindo que no incio do processo de
busca possa haver certa sobreposio entre os tomos
do ligante e da protena. Muitos programas de atracamento utilizam esta suavizao embutida na sua funo de avaliao. Uma das desvantagens deste mtodo
que ele no capaz de levar em considerao mudanas conformacionais mais significativas do receptor. Outra desvantagem a possibilidade de se
introduzir erros na avaliao da energia de interao ligante-protena e de levar muitas vezes obteno de
falsos positivos e/ou a um conjunto de solues possveis cujas energias encontram-se muito prximas, no
sendo possvel discrimin-las energeticamente.
Os mtodos de atracamento mais sofisticados que procuram incorporar a flexibilidade local da protena simulando um
9. Atracamento Molecular
9. Atracamento Molecular
melhor soluo encontrada nos experimentos de atracamento onde cada ligante atracado em cada uma
das conformaes representativas da flexibilidade da
protena.
A metodologia de grade uma estratgia utilizada
para aproximar o clculo das energias eletrostticas e
de van der Waals (outros termos da funo energia
tambm podem ser utilizados), reduzindo drasticamente o custo computacional do clculo da energia de
interao intermolecular protena-ligante. Uma grade
de energia pode ser representada como uma malha de
pontos tridimensional, em que cada ponto armazena o
potencial total eletrosttico e de van der Waals. Os valores da energia so obtidos atravs da interpolao
dos valores armazenados nos oito pontos que definem
uma clula cbica da grade. O espaamento entre os
pontos da grade (discretizao, ) determina o nvel da
aproximao: quanto maior a discretizao, menor a
preciso no clculo da energia de interao intermolecular. O tamanho e formato da grade de energia dado
em funo das suas trs dimenses ( ,
e
). O
centro da grade de energia pode ser definido de diversas formas, como por exemplo centralizar no tomo
de um resduo de aminocido especfico do stio ativo
ou de um ligante de referncia. Exemplos de programa
que utilizam grade de energia so GOLD, Glide,
AutoDock Vina e DockThor.
9. Atracamento Molecular
Figura 8-9: Representao de uma grade de energia cbica centrada no stio de ligao do
inibidor indinavir da protease do HIV-1, com as dimenses de cada eixo ( ,
e
). Em
destaque est representada a indexao dos oito pontos de uma clula e a discretizao da
grade (r). As energias de interao so obtidas da interpolao dos valores, de cada termo da
energia, pr-armazenados nos oitos pontos da clula cbica que contm um determinado
tomo do ligante.
Com relao gerao das conformaes, as tcnicas de simulao de dinmica
molecular e modos normais so as mais utilizadas. Associada ao uso destas tcnicas, est
a importante questo de qual a amplitude de
movimentos do receptor proteico necessria considerar. Ou seja, se estamos tratando
da flexibilidade local de um receptor (como o
movimento de uma ala) ou de movimentos
de mais larga escala (como movimentos de
domnios da protena). Esta importante questo est diretamente relacionada com a capacidade de amostragem do espao de
configuraes do receptor por parte da tcnica de simulao utilizada.
Um exemplo de metodologia que usa a tcnica de
dinmica molecular o Relaxed Complex Scheme, que
utiliza simulaes longas de dinmica molecular considerando todos os tomos do sistema ligante-protenasolvente. A escala de tempo das simulaes variam de
2 ns a 0,5 s. Uma questo importante a respeito desta tcnica se as simulaes devem ser realizadas
com a protena na sua forma apo (no complexada a
um ligante) ou na sua forma holo (complexada a um ligante). Resultados descritos na literatura indicam que
simulaes na forma holo produzem resultados melhores, dando uma descrio mais adequada do stio de
ligao. Na realidade, para no se obter um vis para
um determinado modo de ligao de um ligante especfico, a estratgia recomendada a de se realizar vrias simulaes com ligantes distintos. Estes modos de
ligao podem ser obtidos de resultados experimentais
ou a partir de resultados obtidos de simulaes de
atracamento molecular considerando vrios ligantes e
o receptor rgido.
9. Atracamento Molecular
de toda a protena, so normalmente utilizadas as informaes relativas a alguns resduos chave no stio de ligao da protena.
Normalmente, por questes associadas ao
custo computacional, procura-se selecionar
um conjunto entre 5-10 conformaes.
A questo de como ordenar os compostos levando-se em conta os atracamentos
do ligante nas diversas conformaes da
protena tambm no uma questo fcil de
ser respondida. Uma soluo simplesmente
utilizar a mdia das energias dos ligantes com
relao s mltiplas conformaes da protena. Outra possibilidade considerar a melhor/menor energia obtida por um ligante ao
interagir com determinada conformao.
Existem estudos na literatura que mostram a
importncia de se considerar ligantes que se
ligam fortemente a um conjunto especfico (e
muitas vezes de baixa probabilidade de ocorrncia) de configuraes da protena. So justamente estes casos os mais interessantes,
pois abrem oportunidades de desenvolvimento de novos frmacos associados a modos de
ligao no usuais.
Outra abordagem utilizada a reavaliao da energia de ligao utilizando metodologias mais sofisticadas. Um dos grandes
problemas com esta tcnica o custo computacional das simulaes de dinmica molecular. Este problema se torna ainda mais
importante quando esto envolvidos movimentos de larga escala da protena. Nestes
casos possvel que tcnicas como DM acelerada, tais como Replica Exchange, metadinmica e DM utilizando a aproximao para
solvente implcito possam ser utilizadas para
se obter uma melhor amostragem do espao
das configuraes.
O uso das tcnicas de Anlise de Modos
Normais e Anlise de Componentes Principais
(PCA, Principal Component Analysis) para investigar movimentos de larga escala de protenas talvez sejam as melhores opes para
obter uma boa amostragem de conformaes
em estudos de atracamento envolvendo a
tcnica de conjunto de conformaes.
A tcnica de Anlise de Modos Normais procura caracterizar os modos de vibrao de baixa frequncia,
os quais se espera estarem associados aos movimentos funcionais de larga escala da protena. A partir da
diagonalizao da matriz Hessiana, obtida das derivadas segundas da funo energia potencial associada a
um campo de fora clssico, obtm-se as direes de
movimento dos tomos (associadas aos autovetores
da matriz) e as frequncias de vibrao (associadas aos
respectivos autovalores). Verses mais simplificadas
da tcnica de modos normais tm sido desenvolvidas
nos sentido de permitir o uso da tcnica em sistemas
muito grandes. O mtodo conhecido como Elastic
Normal Mode simplifica o sistema molecular de tal
modo que apenas os carbonos alfa da protena, conectados por potenciais harmnicos, sejam considerados.
J a tcnica PCA utiliza as configuraes geradas
por uma DM para identificar os graus de liberdade coletivos da protena. Esta tcnica tambm implica na diagonalizao de uma matriz, nesta caso, a matriz de
correlao dos movimentos dos tomos da protena,
sendo que os autovetores associados aos maiores autovalores se referem aos movimentos de mais larga
escala.
9. Atracamento Molecular
9. Atracamento Molecular
9.6. Conceitos-chave
Algoritmo:
conjunto ordenado de instrues
para resolver determinado problema.
Atracamento: mtodo para prever o modo de ligao e a afinidade de ligao de uma
macromolcula receptora com outra molcula ligante (seja uma outra macromolcula ou uma molcula ligante pequena).
Desenho racional de frmacos baseado em estrutura: rea de pesquisa que abrange os
mtodos computacionais que utilizam informaes da estrutura tridimensional da
molcula receptora para descoberta e/ou
desenvolvimento de novos frmacos.
Encaixe induzido: modelo que sugere a existncia de mudanas conformacionais na molcula receptora e no ligante devido
formao do complexo receptor-ligante.
Funo de avaliao: funo de pontuao que
tem por objetivo quantificar a qualidade
das solues obtidas no atracamento molecular.
Ligante: molcula que interage no stio de ligao de uma macromolcula para formar
um complexo, podendo induzir ou bloquear determinada resposta biolgica.
Mtodo de busca: algoritmo utilizado pelo atra-
9. Atracamento Molecular
369393, 2006.
TAYLOR, R. D.; JEWSBURY, P. J.; ESSEX, J. W. A
review of protein-small molecule docking
methods. J. Comput. Aided Mol. Des.
16, 151166, 2002.
TALELE, T. T.; KHEDKAR, S. A.; RIGBY,
Successful applications of computer
drug discovery: moving drugs
concept to the clinic. Curr. Top.
Chem. 10, 127141, 2010.
A. C.
aided
from
Med.
Marcelo A. Lima
Edwin A. Yates
Ivarne L. S. Tersariol
Helena B. Nader
10.1. Introduo
10.2. Luz polarizada
10.3. Quiralidade
10.4. Instrumentao
10.5. Aplicaes a biomolculas
10.6. Situaes prticas
10.7. Conceitos-chave
10.1. Introduo
O dicroismo circular (CD) uma tcnica
espectroscpica utilizada para estudar uma
grande variedade de molculas quirais, tais
como frmacos, polmeros e biopolmeros,
em soluo. Particularmente no caso das
protenas o CD, juntamente cristalografia de
raios-X (captulo 13), o RMN (captulo 12), o infravermelho (captulo 11) e mtodos como a
modelagem comparativa (captulo 7) e a dinmica molecular (captulo 8), exerce importante papel na busca pelo conhecimento da
estrutura e funo nucleicas. Tais informaes, por sua vez, so essenciais na busca
por novos compostos com potencial teraputico.
Para sistemas enovelados e estruturados tridimensionalmente, como enzimas e
protenas globulares, o CD uma tcnica de
baixa resoluo quando comparado RMN e
210
ultravioleta (UV), tipicamente em comprimentos de onda variando de 180 a 260 nm. Alm
desta regio, vrias fontes de radiao sncrotron esto disponveis e possibilitam a obteno de espectros de CD com intervalos de
comprimento de onda consideravelmente
maiores. Luz sncrotron a radiao eletromagntica produzida por eltrons de alta
energia atravs de um acelerador de partculas. Essa luz abrange uma ampla faixa do espectro eletromagntico, incluindo os raios-X,
luz ultravioleta e infravermelha, alm da luz
visvel.
De maneira geral, os espectros de CD
podem ser utilizados para diversos tipos de
estudos, incluindo-se: 1) enovelamento e estrutura 2ria de protenas; 2) estrutura de protenas de membrana inseridas em bicamadas
lipdicas; 3) interao entre molculas; 4) interaes entre macromolculas, destacadamente protenas, cidos nucleicos e
carboidratos; 5) monitoramento da integridade estrutural de molculas sob aquecimento;
6) quantificao de alteraes conformacionais; 7) caracterizao de domnios de protenas, a qual pode ser empregada em
comparaes com modelos gerados computacionalmente; 8) anlise de carboidratos; 9)
cintica rpida de enovelamento de protenas
e montagem de complexos macromoleculares, dentre outros.
Alm do CD convencional (tambm chamado de eletrnico, aquele que ocorre na faixa do UV), tambm existem fenmenos de
dicrosmo circular que ocorrem na regio do
infravermelho, sendo este tipo de fenmeno
chamado de dicroismo circular vibracional
(VCD). Ele ocorre normalmente entre 3300 e
800 cm-1, e uma de suas principais vantagens
em relao ao CD que, embora as transies eletrnicas tenham uma pequena diferena entre o estado fundamental e o nvel
excitado, nas transies vibracionais esta diferena bem maior do que nos espectros
contnuos, que possuem sinais distribudos
continuamente em uma certa faixa espectral.
Assim, sinais com valores (comprimento de
onda) distintos so observados.
O benefcio experimental do VCD que
211
10.3. Quiralidade
A quiralidade significa a no sobreposio de sua prpria imagem com aquela projetada em um espelho ou, em outras palvras,
so imagens que no admitem plano de simetria. Um exemplo clssico de quiralidade a
nossa mo: se colocarmos uma delas diante
de um espelho, ela produzir uma imagem diferente dela prpria. A imagem gerada da
mo direita ser a da mo esquerda e viceversa. Contudo, as mos no so sobreponveis, ou seja, quando sobrepostas no se tornam equivalentes (Figura 3-10). Esta
caracterstica apresentadas por algumas
molculas, que so chamadas assim de ismeros pticos ou enantimeros (ver captulo
2).
No CD, quando a luz polarizada passa
atravs de uma substncia quiral, seus componentes podem ser resolvidos e absorvidos
com intensidades diferentes. A diferena da
absorbncia, A, entre a luz polarizada para a
direita e para a esquerda, A = AD - AE, est
relacionada com seus respectivos coeficientes de absorbncia, = D - E, onde D e E
so os coeficientes molares de adsoro da
luz circularmente polarizada direita e es-
querda, respectivamente.
Adicionalmente, sabemos pela lei de
Lambert-Beer que A = cl, onde c representa a concentrao da amostra e l o comprimento do percurso ptico. Assim, a
resultante de todas essas caractersticas daro origem ao espectro de CD de uma dada
molcula.
10.4. Instrumentao
Um espectofotmetro de CD pode ser
esquematizado segundo apresentado na Figura 4-10. A luz da fonte (L) dispersa no
monocromador (MC), produzindo uma banda
estreita de comprimentos de onda que passa
atravs de um polarizador linear (PL).
200 nm (Figura 5-10). Porm, alguns possuem uma banda positiva em comprimentos de
onda maiores e outras um ombro negativo
tambm em comprimentos de onda maiores.
Carboidratos
cidos nucleicos
Lipdeos
Aplicaes de CD no estudo de lipdeos
so raras, sendo sua mais frequente aplicao no estudo de protenas de membrana em
seu ambiente nativo, ou seja, inseridas na
membrana. Porm, dois tipos de artefatos
devem ser evitados. Suspenses de fragmentos de membrana podem induzir fortes
efeitos de espalhamento de luz. Adicionalmente, eles podem apresentar espalhamento
preferencial da luz circularmente polarizada
esquerda e direita. Tal fenmeno se comporta como um sinal de CD, distorcendo o
verdadeiro CD da protena.
Ainda, fragmentos de membrana tambm distorcem os sinais de CD devido a um
efeito conhecido como Duysens flattening.
Este efeito ocorre em amostras com uma
distribuio no homognea de cromforos
que esto associados com a fomao de micelas. Alguns mtodos foram desenvolvidos
buscando evitar tais dificuldades. Requerem,
contudo, que a protena de membrana seja
transferida da sua membrana nativa para vesculas unilamelares que possuam, em mdia,
apenas uma protena por vescula. Tais artefatos tambm podem ser evitados atravs da
solubilizao das protenas em detergente
no inico, manobra esta que, contudo, pode
induzir alteraes conformacionais na protena.
216
Interao protena-ligante
Mudanas conformacionais sofridas por
uma dada protena aps sua complexao a
um determinado composto tambm podem
ser determinadas por CD. Alteraes na estrutura 2ria da protena, promovidas por esta
complexao, iro mudar o espectro de CD,
de forma que algumas mudanas conformacionais podem ser detectadas.
importante ressaltar que espectros de
CD devero ser coletados para todos os
componentes do sistema em estudo, isto ,
para a protena e para o ligante em suas formas livres e para o complexo protena-ligante. A partir destas medidas pode-se realizar
subtraes espectrais, isto , CDprotena-ligante CDligante. A partir destes dados possvel, por
exemplo, comparar a capacidade de diferentes ligantes em modificarem o contedo de
estrutura 2ria de uma determinada protena
receptora. Os espectros da protena e da
subtrao sero deconvoludos como descrito no item anterior.
No exemplo abaixo (Figura 9-10), podese observar o espectro da antitrombina humana livre e complexada a um composto
CD e PCA
A anlise de componentes principais
(PCA, Principal Component Analysis) um
mtodo matemtico empregado para desvendar padres em um conjunto complexo de
dados (neste caso espectros de CD) e extrair
informaes cruciais, eliminando assim possveis fontes de rudo.
A combinao linear que extrai a varincia mxima dos dados denominada de componente principal. Uma vez que ela
encontrada, removida e o processo repetido
para identificar o prximo componente principal. Isso se repete at que toda a varincia
dos dados seja explicada, fato que na prtica
no ocorre devido ao rudo residual.
Na anlise de PCA, os componentes representam as dimenses subjacentes que resumem ou explicam um conjunto original de
dados observados. Component loadings so
217
Aquisio de um espectro de CD
i) Evitar tampes quirais e que possuem
forte absoro no UV, principalmente na
faixa entre 180-260 nm;
ii) Filtrar todas as solues, inclusive a
amostra a ser estudada, evitando assim
218
10.7. Conceitos-chave
Anlise de componentes principais: ferramenta
matemtica que desvenda padres em um
conjunto de dados complexos.
Coeficiente de absorbncia: capacidade de um
mol de uma dada substncia em absorver
luz em um determinado comprimento de
onda.
Dicroismo circular: a medida da absorbncia
diferencial entre as duas rotaes de luz
circularmente polarizada por uma molcula assimtrica.
Duysens flattening: distribuio no homognea
de cromforos em uma dada molcula.
Enantimeros: imagens especulares (isto , geradas a partir da reflexo em um espelho),
no sobreponveis, de uma determinada
molcula, que assim apresenta a propriedade de quiralidade.
Lei de Lambert-Beer: uma relao, determinada empiricamente, entre a luz absorvida
por um determinado material e propriedades intrnsecas a este material.
Quiralidade: propriedade de uma molcula no
ser sobreponvel a sua imagem especular.
Vesculas unilamelares: Formas lipossomais
constitudas por apenas uma bicamada
fosfolipdica.
219
11. Infravermelho
Yraima Cordeiro
Lus Maurcio T. R. Lima
11.1. Introduo
11.2. Instrumentao
mos IV prximo ao IV distante, respectivamente. Adicionalmente, a regio compreendida entre 4.000 e 400 cm-1 (2.500 a
25.000 nm) denominada IV mdio, e possui
destaque nos estudos da estrutura 2ria de
protenas.
11. Infra-vermelho
ante no envolve somente transies eletrnicas, mas a energia total da molcula (Etotal).
Esta energia pode ser representada pelo somatrio das energias associadas a: 1) rotao
da molcula na soluo (ER), 2) movimento
dos tomos dentro da molcula, constituindo
a energia vibracional (EV), e 3) movimento
dos eltrons ao redor do ncleo, a chamada
energia eletrnica (EE). Assim, podemos representar Etotal = ER + EV + EE. Dependendo do
nvel de energia da radiao incidente, quando
a molcula retorna de seu estado excitado
para o estado fundamental, tambm h perda
nas energias de vibrao (EV) e rotao (ER).
Assim, nos comprimentos de onda abaixo de 25 m (400 cm-1), ou seja, em torno da
regio do IV mdio, a radiao tem energia
suficiente para provocar modificaes nos nveis de energia vibracional (EV) da molcula, e
estas modificaes so acompanhadas por
alteraes nos nveis de energia rotacional
(ER). Isto ocorre quando a luz no IV coincide
com a energia necessria para que ocorra
uma determinada vibrao molecular.
Ao estudar as mudanas no comportamento molecular aps a incidncia de radiao IV, podemos caracterizar os diferentes
modos de vibrao e rotao de uma molcula, os quais constituem o espectro de infravermelho.
Anlises na regio do IV permitem descrever o arranjo espacial dos tomos nas
molculas do composto em estudo, ou seja,
como a sua estrutura qumica; fornecem informaes sobre comprimento e a fora de
ligaes qumicas; fornecem evidncias para
o comportamento qumico ou fsico relativo
de uma molcula (estado redox, catlise enzimtica e fosforilao, dentre outras), alm de
permitirem a anlise qualitativa e quantitativa
de uma determinada molcula.
Para compreendermos como o espectro de IV pode fornecer informaes sobre o
arranjo molecular de um determinado composto e sobre a interao deste com o ambiente, devemos definir a frequncia de
vibrao de um oscilador diatmico. Esta
frequncia (v) pode ser representada por:
v = (k/mr)0,5/2
onde k a constante de fora entre os
dois tomos e mr a massa reduzida.
De forma simplificada, a massa reduzida (mr) um
termo utilizado em mecnica Newtoniana ao se estudar um sistema diatmico (ou seja, no qual h interao entre dois tomos). A mr engloba a massa do
primeiro e do segundo tomos, simplificando um sistema de dois componentes em um sistema de um
componente.
11. Infra-vermelho
11.2. Instrumentao
A notao mais utilizada para anlise no
IV dada em nmeros de onda. Esta notao
uma grandeza fsica diretamente proporcional energia da radiao eletromagntica e,
portanto, inversamente proporcional ao
comprimento de onda em nanmetros. A unidade da notao em nmeros de onda centmetros recprocos ou cm-1.
O nmero de onda pode ser definido
como o nmero de ondas da radiao eletromagntica que so comportados dentro de
um espao de 1 cm (Figura 5-11). Por exemplo,
uma radiao com comprimento de onda de
300 nm equivale a 33,333 cm-1, e uma radiao com comprimento de onda de 500 nm
11. Infra-vermelho
11. Infra-vermelho
tncia B - EF, os dois feixes refletidos percorrem a mesma distncia, estando totalmente
em fase (ver adiante). Como resultado, os
dois feixes interferem construtivamente, e o
detector observa um mximo de intensidade.
Esta posio do espelho mvel chamada de
diferena zero de caminho ptico (zero path
difference ou ZPD). Neste caso 2.(B - EM) =
2.(B - EF). medida que EM afasta-se do ZPD,
a distncia B - EM aumenta em relao distncia B - EF. Quando os dois feixes estiverem
180o fora de fase, e a interferncia ser destrutiva, provocando um mnimo na resposta
do detector.
O espectro resultante (dados no domnio de frequncia) a soluo de Fourier para
o sinal do interferograma (dados no domnio
de tempo). Espectrmetros FTIR permitem
medidas mais rpidas do que os antigos espectrmetros, denominados dispersivos (Tabela 1-11).
Para entendermos o significado de diferena de fase vamos tomar como exemplo duas radiaes (isto ,
ondas eletromagnticas) que apresentam a mesma
frequncia e, portanto, a mesma energia. Se ambas
esto trafegando ao mesmo tempo no espao, estas
ondas esto em fase e h um somatrio de suas amplitudes (ver Figura 7-11).
Se h um retardo de uma das frequncias em relao outra, estas ondas esto agora fora de fase. Se
as ondas esto 180o fora de fase a interferncia destrutiva, pois o somatrio das ondas resulta em 0. Em
contrapartida, se esto em fase a interferncia construtiva. Esta mesma definio pode ser aplicada para a
vibrao das ligaes qumicas presentes em uma dada molcula, as quais podem estar vibrando em fase
ou fora de fase
11. Infra-vermelho
FTIR
Somente 1 espelho se
movimenta durante
coleta
Todos os valores de v
Pequena frao de v
so detectadas
detectada por unidade
simultaneamente.
de tempo. Varredura
completa em 10 15 min Espectro coletado < 1 s
Partes mveis: desgaste
e tolerncia mecnica
Baixa velocidade de
Rpida velocidade de
varredura
varredura: cintica
Uso de He-Ne: sistema
No h referncia
de calibrao interno
interna para verificar a
exatido de v, exigindo com exatido e preciso
na faixa de 0,01 cm-1
calibrao com
espectros referncia
Amostra localizada
Amostra localizada
prximo fonte,
longe da fonte
gerando possveis
problemas trmicos
11. Infra-vermelho
1.643,5
2.127,5
3.404,0
1.209,4
1.555,0
2.504,0
21,8
3,50
99,9
17,4
1,91
71,5
dio (que gerada pela maioria dos equipamentos de IV) sem nenhuma correo. Um
espectro de feixe nico de uma amostra pode
ser corrigido pelo espectro base, o que ir
gerar o espectro final de IV.
Contudo, medidas envolvendo protenas
requerem instrumentao com sensibilidade
maior do que aquela empregada para pequenas molculas, visto que o sinal da amida
mais fraco (baixa intensidade) devido baixa
absoro de luz no IV mdio.
Antes de iniciarmos a coleta de um espectro de IV, devemos resfriar o detector com
nitrognio lquido (-196 oC). Detectores MCT
(mercrio, cdmio e telureto) apresentam alta sensibilidade e so a escolha para anlise
de protenas. Estes detectores semicondutores de ftons no IV so refrigerados para reduzir o rudo e o vazamento de corrente
resultante dos processos de gerao trmica.
Detectores MCT operam a temperaturas de
80 a 200 K.
Mesmo para amostras medidas no es-
11. Infra-vermelho
tado slido (sem gua lquida), deve-se efetuar a purga da regio do porta-amostras com
N2 ou ar seco, pois vapor de gua tambm
absorve na regio do IV mdio e pode comprometer a anlise da banda amida I (ver adiante).
Para realizar medidas de espectroscopia
de IV por transformada de Fourier (FTIR) o
ideal coletar o maior nmero de varreduras
possveis, com resoluo alta (de 1 a 2 cm-1).
O espectro resultante pode ser na escala de
transmitncia ou absorbncia (Figura 9-11).
Caso o espectro contenha muito rudo,
aconselhvel diminuir a resoluo da medida
(por exemplo, 4 cm-1) e/ou aumentar a quantidade de amostra analisada (aumentar a massa, caso depositada em cristal de ATR, ou
aumentar a concentrao, caso esteja medindo protena em soluo).
11. Infra-vermelho
Amidas A e B
Estas bandas so resultantes do estiramento da ligao N-H e esto presentes na
faixa de 3.300 e 3.170 cm-1. Esta regio
insensvel conformao da cadeia polipeptdica, e sua frequncia depende da fora da ligao
de
hidrognio
realizada
pelo
grupamento.
Amida I
Esta a principal banda vibracional de
protenas, pois fornece informaes sobre a
estrutura 2ria destas macromolculas. A
frequncia mdia da amida I ocorre em torno
de 1.650 cm-1, e resulta principalmente do estiramento simtrico da carbonila (vC=O), com
pequenas contribuies da vibrao C-N fora
de fase, da deformao C-C-N e da toro N-H
no plano. A estrutura do esqueleto polipeptdico ir determinar como as vrias coordenadas internas iro contribuir para a vibrao
desta banda. A despeito de ser influenciada
pela estrutura 2ria, esta vibrao muito
pouco afetada pela natureza das cadeias laterais.
Amida II
A absoro da banda amida II ocorre em
1.550 cm-1 quando o solvente utilizado no
experimento de IV H2O. Esta vibrao a
combinao fora de fase da toro N-H no
11. Infra-vermelho
fase da dobra da ligao N-H e do estiramento da ligao C-N, principalmente. Em polipeptdeos, a composio dessa banda mais
complexa, pois depende da estrutura das cadeias laterais e a dobra do N-H contribui para
vrias bandas na regio de 1.400 a 1.200 cm-1.
Como essas contribuies variam bastante,
esta vibrao de pouca utilidade para anlise de estrutura 2ria.
11. Infra-vermelho
11. Infra-vermelho
Mdia
Variao
Mdia
Variao
hlice
1654
1648 a 1657
1652
1642 a 1660
1633
1623 a 1641
1630
1615 a 1639
1684
1674 a 1695
1675
1671 a 1694
Voltas
1672
1662 a 1686
1671
1660 a 1694
Estruturas desordenadas
1654
1642 a 1657
1645
1639 a 1654
11. Infra-vermelho
11. Infra-vermelho
11.10. Conceitos-chave
Caminho ptico: espessura da soluo atravessada por um feixe de luz.
Interferograma: Padro de interferncia gerado
por um interfermetro, a partir da recombinao da luz gerada a partir de duas
fontes diferentes.
FWHH (full bandwidth at half height): largura
mxima da banda na metade da altura
(intensidade total).
Beam splitter: separador do feixe de infravermelho, presente no interfermetro.
FSD: Fourier self-deconvolution. Deconvoluo
de uma regio do espectro de IV (Amida I,
no caso), a partir de estreitamento de
banda e da utilizao de um fator de incremento (de 1.5 a 2.5), que multiplicado pelo sinal da Amida I obtida.
N-metil acetamida (NMA): Menor molcula que
contm um grupamento peptdico em
trans. Utilizado como modelo para anlise
dos modos vibracionais da cadeia polipeptdica.
Transformada de Fourier: uma transformada
reversvel de uma funo em outra funo.
A segunda funo, chamada de transformada de Fourier fornece os coeficientes de
funes senoidais (suas frequncias) que
podem ser recombinadas para obter a
funo original.
Massa reduzida (): Quantidade que permite
11. Infra-vermelho
12.1. Introduo
12.2. Fundamentos
12.3. Deslocamento qumico
12.4. Acoplamento escalar
12.5. Efeito Overhauser nuclear
12.6. Estrutura de protenas
12.7. Anlise dos espectros de RMN
12.8. Clculo da estrutura
12.9. Conceitos-chave
12.1. Introduo
Os concomitantes avanos em biologia
molecular e em espectroscopia por Ressonncia Magntica Nuclear (RMN) multidimensional tiveram como reflexo um aumento
explosivo na utilizao da espectroscopia por
RMN a fim de obter informaes estruturais e
dinmicas em macromolculas biolgicas, incluindo cidos nucleicos, carboidratos e protenas.
A espectroscopia por RMN em soluo e
a cristalografia por raios-X so, essencialmente, as nicas tcnicas experimentais capazes de fornecer informaes da estrutura
tridimensional de uma macromolcula com
resoluo atmica. Aproximadamente 97%
das estruturas depositadas no banco de da-
12.2. Fundamentos
Uma das caractersticas de um ncleo atmico
sua rotao em torno do seu prprio eixo, um fenmeno denominado de spin. Os ncleos com spin possuem
momento angular p que varia de forma quntica. O
nmero mximo das componentes do momento angular de um ncleo denominado de nmero quntico de
spin (I). Um ncleo possui 2I +1 estados de magnetizao, onde o componente do magnetismo nuclear
possui valores I, I 1, I 2, ..., -I.
Em protenas, os ncleos atmicos mais importantes (devido a propriedades intrnsecas que levam a gerao de um sinal plausvel de ser identificado por
espectroscopia de RMN) so o 1H (abundncia natural
de 99,98%), o 13C (abundncia natural de 1,11%) e o 15N
(abundncia natural de 0,36%). O nmero quntico de
spin destes ncleos 1/2. Desta forma, estes ncleos
possuem dois estados de spin (-1/2 e +1/2).
O spin de ncleos carregados cria um campo magntico orientado paralelamente ao eixo do spin, que pode ser representado por uma quantidade vetorial .
Este momento magntico diretamente proporcional
ao momento angular e constante giromagntica ()
do ncleo. Consequentemente, os diferentes estados
do spin dos ncleos supracitados resultam em dois estados de magnetizao, representadas pelo nmero
quntico magntico m, igual +1/2 e 1/2.
Para se obter um sinal de RMN destes ncleos em
um espectrmetro moderno, inicialmente induzida a
orientao do vetor ao longo do vetor de um campo
magntico forte gerado por um magneto (vetor B0). O
vetor poder estar alinhado tanto no mesmo sentido
como no sentido contrrio ao vetor B0, sendo que a
quantidade de energia que envolve a transio de um
ncleo entre estes dois estados dada pela equao
E = ( /2)B0
onde a constante de Planck.
Como em outras tcnicas de espectroscopia, a
transio entre estes dois estados pode ser conseguida atravs da absoro ou da emisso de radiao eletromagntica, em uma frequncia v0 (frequncia de
Larmor) que corresponde, em energia, diferena E.
Atravs da equao
v0 = B0/2
torna-se claro que a frequncia da radiao envolvida
na transio dos estados energticos dos spins depende diretamente da fora do campo magntico externo
e do ncleo estudado. Os espectrmetros de RMN so,
em geral, classificados de acordo com a frequncia de
Larmor do 1H sob a fora do campo magntico gerado
pelo magneto de tal equipamento. Por exemplo, sob a
influncia de um campo magntico de 14,1 T, a frequncia de Larmor do 1H ser de 600 MHz, e desta forma
tem-se um espectrmetro de 600 MHz.
Um fato importante que os ncleos se distribuem
desigualmente entre estes dois estados energticos,
de tal forma que existe um excesso de ncleos no estado de menor energia em relao ao de maior energia. A relao entre o nmero de ncleos distribudos
entre os dois nveis energticos dada pela equao
Nj/N0 = exp(- B0/2kT)
damental observado por espectroscopia de RMN, denominado de Free-Induction Decay (FID). Este sinal, representado por uma onda no domnio temporal,
processado, empregando-se o formalismo da transformada de Fourier, e o resultado um espectro no
domnio das frequncias.
Atravs de um espectro de RMN podese observar seletivamente o sinal de diferentes ncleos em diferentes ambientes qumicos, ou ainda ligados a diferentes tomos.
Como exemplificado na Tabela 1-12, no caso
da espectroscopia de protenas por RMN de
1
H, podem-se distinguir diversos grupos de
tomos de hidrognio pelo deslocamento
qumico destes. Assim, o deslocamento qumico um dos mais importantes parmetros
em estudos por RMN.
Deslocamento qumico
(ppm)
CH3
0,9 1,4
CH2 de V, I, L, E, Q, M, P,
R, K
1,6 2,3
CH2 de C, D, N, F, Y, H, W
2,7 3,3
CH2 de S, CH de T e CH
3,9 4,8
Outros CH alifticos
1,2 3,3
CH aromtico
6,5 7,7
NH de cadeia lateral de
N, Q, K, R
6,6 7,7
NH da ligao peptdica
8,0 8,8
NH indlico
10,2
TOCSY
Tambm conhecido por HOHAHA (Homonuclear Hartmann-Hahn), o experimento
de TOCSY (Total Correlated Spectroscopy)
consiste em uma sequncia de pulsos que induzem a transferncia da magnetizao entre
ncleos, como prtons ou carbono, via acoplamento escalar.
Uma vez que a transferncia via acoplamento escalar por mais de quatro ligaes
praticamente nula e que o carbono da carbonila da ligao peptdica no possui prton ligado, o 2D [1H,1H]-TOCSY de protenas
evidenciar interao somente entre prtons
de cada aminocido isoladamente (Figura 212). Neste espectro, cada pico (denominados
de picos de correlao e representados por
curvas de nvel) indica a presena da interao entre dois prtons via acoplamento escalar. O conjunto dos sinais de correlao dos
prtons de um aminocido denominado de
sistema de spin (Figura 2-12).
NOESY
O NOESY (Nucear Overhauser Effect
SpectroscopY) o espectro crucial para a
determinao da estrutura de uma protena.
Neste tipo de experimento induzida, atravs
de uma sequncia de pulso especfica, a
transferncia de magnetizao entre os ncleos via acoplamento dipolar, que depende
da proximidade entre tomos, mesmo que
no estejam ligados quimicamente.
No espectro de 2D [1H,1H]-NOESY aparecero sinais (os NOEs) que representam
prtons prximos (distncia menor do que 5
). A intensidade dos NOEs depende de vrios
fatores, dentre eles, a distncia entre os prtons acoplados (o que por uma aproximao
simplista, pode representar diferentes limites
Espectros 2D heteronucleares
Nos experimentos bidimensionais heteronucleares (HMQC - Heteronuclear Multiple
Quantum Coherence ou ento HSQC - Heteronuclear Single Quantum Coherence), realizada a transferncia de magnetizao entre o
spin do prton e o spin de outro ncleo atmico, atravs de somente uma ligao qumica. Nos espectros aparecero picos de
correlao entre prton e 13C ou ento entre
Figura 7-12: Deslocamento qumico de 1H e 13C (em ppm) dos tomos dos 20 aminocidos
naturais encontrados em protenas. As nomenclaturas oficiais de cada tomo so
representadas por diferentes smbolos. Valores obtidos do Biological Magnetic Resonance Data
Bank (http://www.bmrb.wisc.edu). As barras representam os desvios padres.
vi) leucina, possui longa cadeia lateral, o
que pode resultar em uma faixa de sinais de 1H com deslocamento qumico
baixo (1,5 ppm);
vii) isoleucina, apresenta padro muito
semelhante ao da leucina, porm ao
contrrio da outra, s possui um H;
viii) cistena e aspartato, suas cadeias
laterais se restringem a dois H;
ix) asparagina, atravs do espectro de
NOESY identifica-se conexo entre HN,
H e H com os prtons amdicos da cadeia lateral (H21 e H22), diferenciando-a da cistena e do aspartato;
x) histidina, pelo espectro de NOESY
possvel ver conectividade entre HN, H
e H com H2 do anel aromtico;
g2t3
t2g3
60o
180o
-60o
JHH2 (Hz)
2,6-5,1
2,6-5,1
11,8-14,0
JHH3 (Hz)
2,6-5,1
11,8-14,0
2,6-5,1
Forte
Forte
Fraco
Forte
Fraco
Forte
Fraco
Fortemdio
Forte
Fortemdio
Forte
Fraco
Atravs deste procedimento, o programa busca conformaes da molcula que satisfaam o mximo possvel s restries
empricas e experimentais. Finalmente permitida uma relaxao da molcula (passo
de minimizao e refinamento estrutural) em
uma temperatura ainda baixa, porm sob
menor influncia das restries de NOE e de
van der Waals, de forma a corrigir pequenas
imperfeies conformacionais da estrutura
como ligaes excessivamente torcidas.
Neste passo final, a relaxao da estrutura
evidenciada pela diminuio da energia do
sistema (energias diretamente relacionadas
com o grau e nmero de violaes das restries empricas e experimentais).
Estes passos so repetidos vrias vezes,
de forma a obter um conjunto de estruturas
(normalmente em torno de 20 estruturas)
que so avaliadas, com auxlio de programas,
quanto existncia de conformaes imprprias ou improvveis. Esta famlia de estruturas determinadas por espectroscopia de RMN
representa uma estrutura tridimensional com
pequena variao do espao conformacional,
que representada por cada uma das estruturas calculadas (exemplo na Figura 10-12).
Estruturas com alta resoluo obtidas por
RMN geralmente possuem um desvio dos
tomos da cadeia principal da protena em
relao a uma estrutura mdia de aproximadamente 0,6 .
12.9. Conceitos-chave
Constante de Boltzmann: uma constante que
relaciona energia, no nvel de partcula individual, com temperatura. Tem um valor
aproximado de 1,3806 10-23 J/K.
Constante de Planck: uma constante de proporcionalidade entre energia e frequncia.
Tem um valor aproximado de 6,6261 1034
J.s.
Constante giromagntica: a razo entre o
momento de dipolo magntico e o momento angular, sendo representada normalmente pelo smbolo gama (). Cada
Figura 10-12: Estrutura 3D da protena Psd1 determinada por RMN. Nesta figura mostrada uma
sobreposio de vinte estruturas obtidas como descrito acima, usando protena nativa, no
enriquecida isotopicamente. Em A, um desenho evidenciando as estruturas secundrias. Em B,
so mostrados apenas os tomos da cadeia principal (verde carbono, azul nitrognio e
vermelho oxignio). Em C, so mostrados todos os tomos (cinza hidrognio e amarelo
enxofre). As estruturas esto com o mesmo alinhamento.
ncleo atmico possui uma constante giromagntica especfica, sendo a principal
razo para que cada ncleo atmico possua uma frequncia de RMN distinta em
um mesmo campo magntico externo.
Correlao heteronuclear: se diz quando conseguida uma relao entre ncleos de tipos distintos de tomos em uma molcula.
Pode ser correlao escalar ou dipolar, ou
seja, dependente ou no dos tomos estarem associados por intermdio de ligaes qumicas.
Correlao homonuclear: se diz quando conseguida uma relao entre ncleos do
mesmo tipo atmico em uma molcula.
Pode ser correlao escalar ou dipolar, ou
seja, dependente ou no dos tomos estarem associados por intermdio de ligaes qumicas.
Projees de Newman: forma de representao
de molculas que evidencia conformaes
em relao a uma ligao carbono-carbono tida como referncia. O carbono proximal representado como um ponto e o
distal como um crculo (ver Tabela 2-12).
Rotmero: uma molcula isomrica em relao rotao ao redor de uma ligao
qumica simples, normalmente entre car-
Fernando V. Maluf
Joo Renato C. Muniz
Glaucius Oliva
Rafael V. C. Guido
13.1. Introduo
13.2. Obteno de protenas
13.3. Expresso
13.4. Purificao
13.5. Cristalizao
13.6. Coleta de dados
13.7. Refinamento, validao e usos
13.8. Conceitos-chave
13.1. Introduo
A cristalografia de raios-X uma cincia
dedicada ao estudo da estrutura molecular e
cristalina, bem como das relaes entre essa
estrutura e suas propriedades. A cristalografia de raios-X moderna apresenta aplicaes
amplas nas cincias dos materiais, qumica,
mineralogia, fsica, matemtica e biologia. Sua
aplicao para determinao da estrutura 3D
de biomolculas, com destaque para as protenas, deu origem cristalografia de protenas, caracterizada como um processo
complexo que engloba uma variedade de estratgias e mtodos tradicionais e modernos,
integrando especialidades como a fsica, qumica, biologia, bioqumica e computao.
A cristalografia de protenas determinou a criao de uma nova rea do conheci-
grafia de raios-X ocupa papel de destaque. Isto pode ser evidenciado, por exemplo, no fato
de que em janeiro de 2014 o PDB apresentava
aproximadamente 97.000 estruturas de macromolculas depositadas (includas protenas, cidos nucleicos, complexos macromoleculares e polissacardeos), dentre as quais
aproximadamente 90% tiveram sua estrutura
3D determinada pelo mtodo de cristalografia
de raios-X (Tabela 1-13).
Os mtodos e estratgias cristalogrficas para o estudo de macromolculas evoluiram significativamente nos ltimos anos.
Devido aos rpidos avanos tecnolgicos, as
coletas de dados cristalogrficos que eram
realizadas exclusivamente em fontes caseiras
(por exemplo, atravs de um nodo rotatrio)
passaram a ser executada em fontes de alto
brilho e intensidade, tais como laboratrios de
luz sncrotron. Essa evoluo tem como resultado direto um crescimento exponencial no
nmero de estruturas de macromolculas
determinadas anualmente, conforme verificado pelo nmero de estruturas depositadas
no PDB (Figura 1-13). Alm disso, esse cenrio
tem contribudo para o desenvolvimento de
duas abordagens distintas para o estudo de
macromolculas: i) tradicional e ii) larga escala.
A abordagem tradicional consiste em
resolver estruturas de um pequeno conjunto
de macromolculas e seus complexos em um
ambiente onde h ampla integrao dos es-
tudos cristalogrficos com mtodos bioqumicos, biofsicos e de qumica medicinal. Atualmente, projetos extremamente desafiadores em cristalografia tm como foco a
determinao das estruturas de vrus, protenas de membrana e complexos multimoleculares (por exemplo, envolvendo protena-protena,
protenaDNA
e
protenaRNA).
J a abordagem em larga escala consiste na elucidao do genoma estrutural atravs da determinao da estrutura 3D do
maior nmero possvel de protenas constituintes de um determinado organismo. O desenvolvimento da cristalografia em larga
escala (high-throughput crystallography) foi
substancialmente beneficiado pelo surgimento de mtodos automatizados para a cristalizao e coleta de dados, bem como pelo
desenvolvimento de fontes de luz de alto brilho e intensidade (por exemplo, sncrotrons de
3 gerao como o European Synchrotron
Radiation Facility ESRF, na Frana, o
Advanced Photon Source APS, nos EUA e o
SPring-8, no Japo).
As estruturas 3D de protenas determinadas por mtodos cristalogrficos so frequentemente o ponto de partida para a
construo de modelos moleculares que visam elucidar a estrutura e funo de protenas homlogas (como visto no captulo 7) ou
o planejamento de novas molculas bioativas
(como visto no captulo 9). Portanto, o co-
Protenas
c. nucleicos
Complexos
protena-DNA/RNA
Outras
macromolculas
Total
Cristalografia
79.922
1.497
4.162
85.585
RMN
8.990
1.065
197
10.259
Microscopia
eletrnica
496
51
170
717
Hbridos
55
61
Outros
153
13
176
Total
89.616
2.620
4.537
25
96.768
que 95%).
Para contornar este desafio, os projetos
pioneiros de cristalografia de macromolculas (por exemplo, na cristalizao da mioglobina em 1958, da hemoglobina em 1960, da
lisozima em 1965 e da insulina em 1969) utilizaram protenas extradas de fonte natural
(nos casos mencionados, msculo esqueltico
de baleia cachalote, sangue de cavalo, clara
de ovo de galinha, pncreas de porco, respectivamente). Entretanto, a utilizao de
fontes naturais para obteno da macromolcula geralmente inclui algumas limitaes,
dentre as quais destacam-se:
i) baixa concentrao: a pequena quantidade de protena produzida na clulas,
somada distribuio diferenciada nos
tecidos do organismo em estudo acarretam em baixa concentrao de protena para os estudos estruturais;
ii) isoformas e modificaes ps-traducionais: a expresso de isoformas de
uma protena, aliada aos diferentes nveis de modificaes ps-traducionais,
aumentam a heterogeneidade da amostra e dificultam a separao dos componentes
da
soluo.
Essas
caractersticas apresentam impacto
significativo na obteno de protena
com elevado teor de pureza e, consequentemente, na qualidade e formao
dos cristais.
Apesar dessas limitaes, algumas
protenas especficas continuam sendo obtidas a partir de fontes naturais, com destaque
para anticorpos, protenas de membrana e
protenas fngicas envolvidas no processo de
produo do bioetanol. Contudo, a vasta maioria das protenas investigadas por mtodos
cristalogrficos so provenientes de sistemas
heterlogos (isto , expresso realizada em
organismo hospedeiro diferente do organismo alvo) baseados em estratgias de expresso que utilizam a tecnologia do DNA
recombinante.
O avano das tcnicas de DNA recombinante e engenharia gentica, com destaque
para o desenvolvimento da reao em cadeia
Construes gnicas
O planejamento e a montagem de construes gnicas para obteno de protenas
envolvem diversos mtodos de manipulao
de DNA e sistemas de expresso. Dentre as
diversas abordagens disponveis para tal, duas estratgias de clonagem sero discutidas
adiante: i) clonagem clssica em sistema de
expresso bacteriano, e ii) clonagem em sistema independente de ligao LIC (ligationindependent cloning). Adicionalmente, estes
mtodos vm sendo facilitados pela disponibilidade cada vez maior de DNA sinttico para
aquisio diretamente de empresas especializadas.
A clonagem clssica inicia-se com o planejamento dos oligonucleotdeos iniciadores
Figura 3-13: Esquema geral do mtodo de clonagem clssica para expresso heterloga de
protena.
tgias em biologia molecular, capazes de explorar diferentes possibilidades de expresso,
foram desenvolvidas.
As construes gnicas planejadas passaram ento a ser desenvolvidas em paralelo,
aumentando-se as chances de sucesso na obteno de protena com as caractersticas
adequadas para os estudos cristalogrficos
empregando o denominado sistema de clonagem independente de ligao (LIC) (Figura 413).
O sistema LIC diferencia-se do sistema
clssico pela independncia de uma etapa de
ligao com DNA ligase. Adicionalmente, em
algumas adaptaes desse sistema pode-se
evitar tambm o uso de endonucleases de
restrio. Alm disso, apresenta como vantagens: i) facilidade no planejamento do oligonucleotdeo iniciador, que inclui uma
sequncia especfica do sistema para determinado conjunto de vetores, ii) disponibilidade de um nmero significativo de vetores
preparados para este sistema, e iii) versatilidade na obteno de construes gnicas variadas, no havendo a necessidade de etapas
adicionais ou particularidades na utilizao de
um vetor determinado.
Em linhas gerais, aps a amplificao e
obteno do fragmento de interesse atravs
da reao de PCR com os oligonucleotdeos
iniciadores especficos, trata-se o fragmento
com a enzima T4 DNA polimerase na presena de um nico tipo de nucleotdeo (por
exemplo, dATP). A T4 DNA polimerase possui
atividade exonuclease 35 intrnseca, logo
esta aplicao favorece a formao de extremidades salientes ou overhangs, complementares aos vetores utilizados. Em seguida,
o fragmento adicionado ao vetor escolhido,
previamente tratado com T4 DNA polimerase
e mantido em contato a temperatura ambiente. Por fim, essa mistura utilizada na
transformao da bactria de propagao.
Devido ao nmero de bases que so emparelhadas entre vetor e fragmento, atravs de
suas salincias, no se faz necessria a utilizao da DNA ligase, sendo a ligao covalente entre vetor e fragmento estabelecida
pelo prprio sistema de reparo da bactria
transformada.
Figura 4-13: Esquema geral do mtodo de clonagem independente de ligao (LIC) para
expresso heterloga de protena.
13.3. Expresso
Atualmente, a expresso heterloga a
fonte primria de produo de protenas.
Exemplos de organismos hospedeiros que
emprestam sua maquinaria celular para a
expresso proteica incluem bactrias, protozorios, fungos, clulas de insetos e de mamferos e sistema de expresso independente
de clula hospedeira (cell-free expression),
tambm conhecido como expresso in vitro.
Em um experimento padro de expresso heterloga de protena as clulas hospedeiras so cultivadas at atingirem uma
biomassa crtica, medida pela densidade ptica (DO) da cultura. A partir desse momento
inicia-se o procedimento de induo da expresso da protena de interesse. Nos vetores
bacterianos, um dos mecanismos para controle de induo o operon lac, de forma que
a presena de lactose ou derivados (como a
alolactose) favorece a induo da expresso
da protena atravs da ligao da alolactose
ao repressor do operon. Anlogos otimizados
da alolactose foram desenvolvido e, dentre
eles, o derivado mais utilizado o isopropil-1-
13.4. Purificao
A pureza da amostra um dos principais
fatores que influenciam o processo de cristalizao de macromolculas. Nesse sentido,
fortemente recomendvel que a protena em
estudo apresente o maior teor de pureza
possvel, sendo essa caracterstica dependente de procedimentos de purificao robustos e eficazes. Estes, por sua vez,
dependem da estratgia de clonagem e sistema de expresso da protena.
A primeira etapa do processo de purificao a lise da clula de expresso. O processo de lise celular bastante crtico pois,
dependendo das condies no qual realizado
(tais como o mtodo de lise, agente tamponante, pH, presena de cofatores, detergentes
e temperatura) a protena pode ser degrada-
13.5. Cristalizao
A obteno de cristais adequados para
os experimentos de difrao de raios-X fundamental para a determinao da estrutura
re protena da soluo e forme os ncleos cristalinos. Este processo acompanhado pela diminuio
da concentrao de protena em soluo, e o sistema evoluir para o equilbrio que favorece o crescimento dos cristais a partir dos ncleos formados;
iii) regio vermelha, caracterizada pela presena
de soluo hipersaturada. Nessa regio ocorre precipitao espontnea da protena de forma desordenada.
As condies favorveis para o processo de nucleao e crescimento de cristais devem ser avaliadas
cuidadosamente. Nesse contexto, podem-se identificar
condies favorveis para o crescimento do cristal que,
contudo, no so favorveis para a nucleao. Da mesma forma, pode-se obter condies favorveis para a
nucleao intensa da protena que, por sua vez, impedem o crescimento dos cristais. Existem diversas tcnicas para contornar os problemas especficos de cada
caso, buscando-se a obteno de cristais adequados
para os estudos cristalogrficos.
Processo fsico-qumico
A cristalizao pode ser descrita como um processo fsico-qumico envolvendo os seguintes componentes energticos:
Gcrist = Hcrist - T(Sprotena + Ssolvente)
O termo entlpico (Hcrist) apresenta contribuies
modestas ao processo de cristalizao, uma vez que
proveniente de um pequeno nmero de interaes moleculares de baixa intensidade, estabelecidas entre as
macromolculas para a formao do cristal.
Paralelamente, esse processo determina a perda de
liberdade de translao e rotao das macromolculas
quando comparadas s suas formas livres em soluo.
Perde-se ainda a flexibilidade de algumas alas devido
ao empacotamento estabelecido sendo, portanto, um
processo entropicamente desfavorvel (Sprotena > 0).
Por outro lado, a cristalizao da macromolcula libera uma quantidade significativa de molculas de
guas previamente ordenadas ao redor de resduos hidrofbicos e polares, o que promove um ganho entrpico considervel (Ssolvente < 0) que torna o processo de
cristalizao espontneo (Gcrist < 0).
A compreenso dos componentes energticos de
fundamental importncia para o favorecimento do
processo de cristalizao. Atualmente, altera-se a capacidade de cristalizao de protenas atravs de mutaes especficas de resduos localizados na superfcie
da macromolcula de forma a interferir nestes componentes, favorecendo a cristalizao. Exemplos
relevantes dessa estratgia incluem modificaes de
resduos de aminocidos com termo entrpico elevado,
especialmente, resduos de lisinas e cidos glutmicos.
Estes resduos possuem cadeias laterais longas e, por
sua disposio preferencial pela superfcie proteica,
normalmente caracterizam-se por elevada entropia
conformacional. Desta maneira, a troca por resduos
com menor entropia associada, como exemplo
resduos de alanina, minimizam a perda de entropia
durante o empacotamento, favorecendo ainda mais o
processo de cristalizao (Gcrist << 0).
O planejamento de mutaes com objetivo de aumentar o potencial de cristalizao de um alvo macromolecular auxiliado pela disponibilidade de
servidores gratuitos na internet. Um exemplo importante o SERp da Universidade da Califrnia (UCLA).
Esse servidor emprega o mtodo de reduo da entropia de superfcie (SER, surface entropy reduction) que,
em linhas gerais, realiza a previso de estrutura 2ria a
partir da sequncia de aminocidos e, com base nesse
resultado, estabelece o perfil entrpico da protena,
sugerindo resduos cuja mutao poderia beneficiar o
processo de cristalizao.
Mtodos de cristalizao
Uma vez obtida a protena de interesse
com teor de pureza adequado, tem-se diversas alternativas disponveis para a cristalizao. Em comum, estes mtodos envolvem a
mistura da soluo pura de protena com solues de cristalizao, contendo agentes
precipitantes variados.
Em seguida, mantm-se a mistura em
um sistema fechado e isolado para estabelecimento do equilbrio e consequente cristalizao. A seleo da estratgia de
cristalizao depende de fatores como o objetivo de aplicao (por exemplo, a triagem
inicial de condies ou a otimizao de cristais) e caractersticas do ensaio (como a facilidade de resgate dos cristais da gota de
cristalizao, o nmero de experimentos e a
possibilidade de automao, dentre outros).
Atualmente, as etapas iniciais de triagem para identificao de condies de cristalizao promissoras empregam solues de
cristalizao isoladas ou reunidas de acordo
com as caractersticas fsico-qumicas. Essas
solues so produzidas e comercializadas
por empresas especializadas, tais como
Hampton Research, Molecular Dimensions,
Qiagen e Jena Biosciences.
Dentre os formatos e estratgias disponveis destaca-se a triagem em rede (grid
screen), capaz de fornecer informaes importantes de modo rpido, sendo por isso
amplamente aplicada em triagens iniciais.
Nesse experimento, avaliam-se sistematicamente dois fatores em paralelo como, por
exemplo, variaes simultneas de pH/PEG,
pH/cloreto de sdio e pH/sulfato de amnio,
dentre outras combinaes.
Uma estratgia alternativa para identificao de condies promissoras para a cristalizao consiste na utilizao de solues
fatoriais. Nessa abordagem, busca-se balancear a ocorrncia de algumas caractersticas
principais e suas combinaes durante o processo de amostragem atravs do planejamento fatorial. A utilizao de fatoriais
incompletos reduz a quantidade de parmetros avaliados e, com isso, o nmero de experimentos realizados. Essa alternativa
O objetivo dos experimentos de cristalizao a obteno de cristais adequados para os ensaios de difrao de raios-X. No
entanto, os resultados observados podem ser
bastante variados, incluindo-se:
i) cristais bem formados, com arestas e
faces definidas (Figura 10A-13);
ii) cristais com crescimento em duas dimenses, denominados de placas (Figura 10B-13);
iii) cristais com crescimento em apenas
uma dimenso, denominados de agulhas
(Figura 10C-13);
iv) precipitados leves e intensos (Figuras
10D-13 e 10E-13, respectivamente);
v) separaes de fase (Figura 10F-13);
vi) aglomerados de agulhas (Figura 10G13);
vii) microcristais (Figura 10H-13).
Com exceo de alguns casos nos quais os cristais
obtidos na etapa de triagem podem ser considerados
adequados para os experimentos de difrao de raiosX, a obteno de uma condio promissora seguida
por etapas de otimizao. Embora o nmero de parmetros a serem investigados nessa etapa seja elevado,
costuma-se explorar a concentrao dos reagentes iniciais (incluindo a concentrao de protena), a proporo entre a soluo de protena e a soluo de
Padro de difrao
O padro de difrao de protenas tridimensional e reflete tanto a simetria dos arranjos cristalinos quanto a organizao da
protena na clula unitria, isto , a unidade de
repetio que constitui o cristal). Esses arranjos so definidos em termos de grupos
espaciais e de unidades assimtricas.
A unidade assimtrica a menor unidade a partir da qual uma clula unitria pode
ser construda. Alm disso, a unidade assimtrica representa o nmero mnimo de estruturas independentemente determinadas em
um cristal. Por exemplo, uma unidade assimtrica pode conter desde apenas um representante da protena em estudo at 12 ou
mais representantes. Frequentemente, esses
arranjos tornam possvel a determinao do
estado oligomrico da protena, especialmen-
Intensidade (I)
As intensidades das reflexes tm impacto direto
na qualidade dos dados cristalogrficos. A intensidade
das reflexes depende de diversos fatores, tais como o
tamanho e a qualidade do cristal, o tempo de exposio ao feixe de raios-X e a intensidade do feixe de raios-X.
A relao entre a intensidade da reflexo e o plano
de fundo (background) dada pela razo sinal-rudo
I/(I). Uma vez que as protenas esto sujeitas a alteraes causadas pela interao com raios-X, causadas
por radicais livres, durante a coleta de dados cristalogrficos deve-se ponderar a relao entre o tempo de
exposio do cristal e a intensidade do feixe de modo
que se obtenham intensidades mensurveis e de boa
qualidade, sem afetar a estrutura da protena em estudo.
Tais limites de resoluo dos dados de difrao so
frequentemente definidos pelo critrio I/(I). Em geral,
utiliza-se dados que apresentam valores de I/(I) maiores que 2, isto , a intensidade medida para as reflexes duas vezes maior que o rudo observado.
Rdano (R)
O valor de Rdano indica a extenso do impacto das
colises do tipo inelsticas e elsticas provenientes do
feixe de ftons incidentes na amostra cristalina. Devido
alta intensidade desses ftons a amostra sofrer
processos irreversiveis e ser "danificada.
Os danos causados pela radiao constituem um
importante fator para a qualidade dos dados cristalogrficos. Com o objetivo de amenizar tais danos, geralmente empregada uma estratgia de coleta de dados
a temperaturas "criognicas" (100 K), obtidas com o
auxlio de nitrognio lquido.
A aplicao dessa estratgia para coleta de dados
cristalogrficos exige um pr-tratamento do cristal.
Cristais de protena contm uma quantidade significativa de gua, logo seu resfriamento acarreta na formao de gelo que, por sua vez, extremamente
prejudicial para o cristal e, consequentemente, para o
experimento de difrao.
Por este motivo os cristais so usualmente pr-tratados com agentes crioprotetores, tais como PEG
P 4 21 2
106,24 3,05
(3,21-3,05)*
Rmerge
0,262 (0,945)*
I / (I)
5,5 (2,0)*
Completeza (%)
Multiplicidade
99,9 (99,8)*
6,8 (6,9)*
Rmerge (Rm)
Uma vez que o padro de difrao contm os elementos de simetria do cristal, a maioria das reflexes
observada mais de uma vez. Dessa maneira, a reprodutibilidade dessas medidas uma caracterstica utilizada como parmetro de preciso.
Estatisticamente, quanto maior a frequncia com
que uma reflexo medida, e quanto mais similares
elas so entre si, melhor ser o conjunto de dados
cristalogrfico. A redundncia desses dados indicada
em termos de uma mdia geral, enquanto a reprodutibilidade das medidas avaliada por um fator residual
denominado Rmerge (ou Rsym, quando se leva em
conta a simetria das reflexes).
O valor de Rmerge obtido atravs do clculo da
mdia da intensidade de um grupo de reflexes dividido
pela mdia do desvio padro para esse mesmo grupo
de reflexoes:
Sobreposio (O)
Alm da intensidade da reflexo, a capacidade para
discernir reflexes individuais tambm essencial. A
separao das reflexes em um padro de difrao
depende, principalmente, do tamanho da clula unitria. Nesse sentido, quanto maior as dimenses da clula unitria (parmetros a, b e c da Tabela 2-13) mais
prximas estaro as reflexes no padro de difrao e
consequentemente, maior ser a probabilidade de
ocorrer sobreposio.
Esta sobreposio de reflexes acarreta em uma
maior impreciso na determinao da intensidade de
cada reflexo. Alm disso, outros fatores como a desordem interna no cristal (mosaicidade), proveniente
do empacotamento cristalino ou de danos mecnicos
(como aqueles causados durante o resfriamento rpido) podem ocasionar alargamento significativo das reflexes
no
padro
de
difrao
produzindo
sobreposio.
importante mencionar que o fator Rmerge dependente da resoluo, logo deve ser informado para
todo o conjunto assim como para as camadas de mais
altas de resoluo (Tabela 2-13). Um conjunto de dados
de boa qualidade caracteriza-se por um valor de
Rmerge global menor que 15% e, na camada de maior
resoluo, o valor de Rmerge dever ser menor que
100%.
Completeza (C)
A completeza dos dados um fator extremamente
importante na determinao da qualidade do conjunto.
A completeza determinada pela razo entre o nmero esperado de reflexes para o grupo espacial e o tamanho da clula unitria. Uma vez que a capacidade
para medir reflexes diminui em funo da resoluo, a
completeza dos dados ser menor nas camadas de
maior resoluo. Portanto, esse parmetro deve ser
informado tanto para todo o conjunto de dados quanto
para a camada mais alta de resoluo (Tabela 2-13).
Faseamento
A radiao eletromagntica pode ser
descrita pela equao de ondas, que definida em termos de amplitude, comprimento de
onda e fase. Em um experimento de difrao
de raios-X, os dois primeiros parmetros so
medidos diretamente, ou seja, a amplitude da
onda proporcional intensidade do feixe difratado (a amplitude igual raiz quadrada
da intensidade medida para uma reflexo) e o
comprimento de onda () definido pelo
comprimento de onda dos raios-X utilizados.
As fontes caseiras com nodo rotatrio de Cu
apresentam = 1,54178 , enquanto fontes de
luz sncrotrons apresentam = 0,82,5 .
Informao estrutural
5,0
3,5
3,0
2,5
1,5
tomos individuais so
reconhecveis
1,0
Figura 16-13: Viso geral das etapas envolvidas na determinao de uma estrutura de protena
por mtodos cristalogrficos.
podem ser representados ou explicados pelo modelo
estrutural.
importante mencionar que um modelo estrutural
de boa qualidade pode apresentar pequenas falhas,
provenientes de erros durante a aquisio dos dados
cristalogrficos, da incapacidade de se modelar regies
desordenadas na estrutura, de diferentes conformaes e de regies flexveis, principalmente regies de
alas.
vido natureza incompleta dos dados utilizados para o clculo do Rlivre, este frequentemente maior do que o valor do Rfator em
cerca de 35%, no caso de estruturas bem
refinadas. Nas etapas iniciais de refinamento,
esse nmero pode ser maior que 10%.
Uma vez que as molculas de protena
so formas irregulares, durante o processo
de formao dos cristais espaos e canais
entre as cadeias polipeptdicas so preenchidos com solvente e outros compostos provenientes
da
soluo
de
cristalizao,
incluindo-se gua, ons e agente crioprotetor,
dentre outros.
O componente mais importante do solvente so as molculas de gua ligadas
protena, encontradas em localizaes discretas e, geralmente, na superfcie da macromolcula. As molculas de gua so
modeladas de acordo com um procedimento
que envolve a identificao de caractersticas
especficas das densidades eletrnicas que
no so atribudas protena, tais como a altura do pico de densidade eletrnica e a posio da molcula de gua em relao aos
tomos da protena, com os quais poder
retamente posicionadas.
J em estruturas de alta resoluo (1,02,0 ), pode-se identificar um nmero significativo de molculas
de gua na superfcie da protena com boa preciso.
Contudo, importante mencionar que a utilizao de
molculas de gua em demasia em um modelo final
pode mascarar regies da densidade eletrnica e induzir a erros de interpretao, como a atribuio de
guas a densidades que correspondem a cadeias laterais dos resduos, outros tipos de solventes ou ligantes.
Como o Rfator pode ser interpretado como uma
medida de quanto a densidade eletrnica satisfeita,
molculas de gua mal posicionadas podem diminuir o
valor para o Rfator, porm, sem melhorar a acurcia
do modelo. Nesses casos, a comparao entre os valores de Rfator e Rlivre fundamental para avaliar a
possibilidade de sobreajuste do modelo (diferena entre Rlivre e Rfator > 7%). A Tabela 4-13 apresenta valores representativos das estatsticas de refinamento
para um bom modelo cristalogrfico.
45,3-1,67 (1,71-1,67)
Rfator/Rlivre (%)
14,6/17,3
Nmero de tomos
Protena
3193
N-acetil-D-GlcN
42
PEG
23
gua
562
Fator B (2)
Protena
10,3
N-acetil-D-GlcN
29,7
PEG
30,4
gua
24,2
RMSD
Tamanho de ligao ()
ngulo de ligao ()
0,011
1,331
trans).
Ocasionalmente, se a resoluo for alta
o suficiente para permitir uma interpretao
precisa, um resduo pode aparecer fora dos
limites aceitveis (Figura 18-13). Exemplos
como esse no so incomuns e, portanto,
fortemente recomendada a inspeo criteriosa de todos os resduos de uma protena,
principalmente aqueles indicados em regies
no favorveis no grfico de Ramachandran.
ficao e validao de novos alvos moleculares de interesse teraputico. Alm disso, iniciativas como os programas genoma e
proteoma de vrios organismos tm fornecido dados importantes para o detalhamento
das bases moleculares responsveis pela estrutura e funo de biomolculas.
Simultaneamente, o aprimoramento das
tcnicas de determinao estrutural e anlise
de molculas, como a cristalografia de raios-X, ressonncia magntica nuclear (RMN) e
a calorimetria, tm contribudo substancialmente para a melhor compreenso dos componentes energticos e espaciais que
compem as interaes entre frmacos e receptores.
Nas ltimas dcadas, os mtodos cristalogrficos ganharam enorme destaque como estratgia til para o planejamento de
frmacos. A sua aplicao vai desde os estudos em pesquisa bsica, visando elucidao
das caractersticas estruturais e funcionais de
alvos moleculares, at a pesquisa aplicada,
caracterizada pela aplicao do conhecimento
estrutural para a identificao de molculas
com atividade biolgica e otimizao de propriedades farmacodinmicas e farmacocinticas.
Atualmente, um dos maiores desafios
na rea de planejamento de novos frmacos
aumentar a taxa de sucesso na identificao
de novas entidades qumicas (NCEs, new
Genoma estrutural
Os sucessos conquistados pelos projetos genmicos deram um importante suporte
abordagem do tipo larga escala na ativi-
Contudo, o esforo empregado na determinao do genoma estrutural significativamente maior do que no sequenciamento.
Isto se deve grande diferena de complexidade dos mtodos envolvidos e variabilidade no comportamento dos alvos proteicos em
diferentes estgios do processo de determinao estrutural em larga escala.
Uma vez que a estrutura tridimensional
de uma protena muito mais conservada que
sua sequncia de aminocidos, o conhecimento de seu enovelamento torna-se uma
ferramenta muito valiosa para se estudar e
descobrir relaes evolucionrias imperceptveis em nvel de sequncia. Essas similaridades estruturais podem, por exemplo, sugerir
propriedades funcionais s protenas de funes ainda desconhecidas.
A contribuio mais prontamente visvel
da genmica estrutural a rpida expanso
do nmero de estruturas de protenas disponveis no PDB e, geralmente, a um custo reduzido devido eficincia e otimizao das
tcnicas desenvolvidas em centros especializados.
Uma seleo adequada de alvos fundamental para assegurar que as estruturas
resolvidas por esses centros sejam realmente
valiosas para toda a comunidade cientfica e
industrial, seja devido ao interesse intrnseco
das protenas estudadas, ou visando uma
melhoria do mapeamento do universo proteico, fornecendo modelos para novos estudos
de modelagem comparativa (Figura 20-13).
Nesse contexto, uma segunda contri-
13.7. Conceitos-chave
Cristal: slido no qual os tomos constituintes
esto organizados num padro tridimensional bem definido, que se repete no espao, formando uma estrutura com uma
geometria especfica.
Sistema de clonagem LIC: estratgia em biologia molecular para a clonagem independente de ligao capaz de aumentar a
taxa de sucesso na obteno de protena
expressa na forma solvel, com alta pureza e em grande quantidade.
B. Biomolecular Crystallography:
Principles, Practice, and Application to
Structural Biology. New York: Garland
Science, 2010.