Curso de Atualizao Recife 2011 Guia do Usurio: Aulas Prticas CURSO BIOINFORMTICA: ANLISE DE DADOS MOLECULARES INTRODUO Com a realizao de pesquisas envolvendo geneticistas e qumicos surgiu concluso que o DNA era a molcula que armazenava a informao gentica, e em 1!" sua estrutura ficou con#ecida pelo tra$al#o desenvolvido por %atson e Cric&' (osteriormente surgiram mtodos de sequenciamento de DNA, permitindo o estudo mais aprofundado dos genes' (or volta da dcada de ), comearam a surgir sequenciadores autom*ticos de DNA aumentando consideravelmente a quantidade de sequ+ncias genticas a serem analisadas e armazenadas, consequentemente e,igindo cada vez mais recursos computacionais como armazenamento e interpretao dos resultados o$tidos - surgia assim .ioinform*tica' /ssa nova ci+ncia envolve diversas *reas do con#ecimento, tais como a engen#aria de soft0ares, matem*tica, estatstica, ci+ncia da computao, $iologia molecular, etc' A .ioinform*tica entrou em grande evid+ncia devido aos pro1etos genoma, mas 1* era uma poderosa ferramenta em estudos de evoluo molecular, $iologia estrutural, din2mica molecular, entre outros' 3 em ess+ncia multidisciplinar, comportando pesquisadores de v*rias *reas diferentes' A dificuldade de comunicao dos profissionais dessas diferentes *reas criou a necessidade de um novo profissional que possusse con#ecimento para fazer a ligao dessas ci+ncias, o .ioinformata' /sta apostila foi criada, como parte integrante do curso .ioinform*tica4 An*lise de Dados 5oleculares, com o o$1etivo de au,iliar os profissionais da *rea das Ci+ncias da 6ida na utilizao de diferentes ferramentas de an*lise de dados que a .ioinform*tica oferece' /ste documento foi gerado para ser utilizado como um roteiro em diversos tipos de an*lise de dados $iol7gicos revelados a seguir' DESENHO DE PRIMERS E SONDAS 8 desen#o de iniciadores 9primers: e sondas tem um papel determinante para o sucesso do e,perimento a ser realizado' 8s primers so fragmentos de *cidos nuclicos que possuem uma e,tremidade "; livre e e,ercem a funo de servir de <2ncora= para a DNA polimerase comear a replicao' As sondas so <tecnicamente= primers marcados com flurocromos que so molculas que emitem tipos de fluoresc+ncias fornecendo sonda a #a$ilidade de emitir um sinal quando #ouver a replicao de fragmento alvo especfico' 8 desen#o de primers e sondas uma etapa importante no e,perimento de (C>, pois, a maioria destes e,perimentos tem por finalidade a amplificao de fragmentos especficos de *cidos nuclicos' Ao desen#ar primers necess*rio estar atento para alguns par2metros, so eles4 taman#o do primer, temperatura de anelamento 9?a:, temperatura de melting 9?m:, formao de dmeros e formao de alas' 8 taman#o destes fragmentos influencia diretamente os demais par2metros que interferem no sucesso do e,perimento, eles podem variar entre 1@ a ") nucleotdeos e quanto maior o taman#o dos iniciadores e sondas, maior sua especificidade' A temperatura de anelamento a temperatura na qual os primers se pareiam ao DNA molde' /la pode ser calculada su$traindo @ graus da ?m' ?emperatura de melting a temperatura na qual metade das fitas de DNA est* na forma de fitas simples e a outra metade na forma de dupla #lice' ?m dependente da composio do DNA, de modo que o aumento do conteAdo de BCC no DNA gera um incremento na ?m ocasionado pelo maior nAmero de ligaDes de E' Fuando os primers pareiam com eles mesmos 9dmeros de primers e alas:, ou parearem um com o outro mais facilmente 9dmeros de primers: do que com o DNA molde, ento a efici+ncia do (C> ir* ser reduzida significativamente' Primers com estas caractersticas devem ser evitados' /ntretanto, s vezes, estas estruturas no so pro$lem*ticas, uma vez que a ocorr+ncia destas pode ser restringida atravs da determinao da temperatura de anelamento' (or e,emplo, alguns dmeros ou grampos so formados a ") GC, enquanto que durante o ciclo do (C> a temperatura mais $ai,a seria de H) GC' /,istem v*rias ferramentas computacionais que au,iliam na tarefa de pro1eto de primers' /,emplos de ferramentas disponveis na internet so o %e$ (rimer, Primer3, (rimer-.IAJ?, entre outras' Desen#ando primers e sondas com a ferramenta da %/. Primer3 Plus' 1' Digitar o seguinte endereo no Navegador4 #ttp4KK000'$ioinformatics'nlKcgi-$inKprimer"plusKprimer"plus'cgi 2. Colar a sequ+ncia de refer+ncia a qual se dese1a o$ter primers e sondas' ", @ e !' Jo as opDes para desen#ar o primer foward, sonda, e o primer reverse' H' (ara a1ustar os par2metros dos iniciadores e sondas clique em <Beneral Jettings=' L, M e ' Jo os par2metros4 taman#o do produto, taman#o do oligo a ser desen#ado, temperaura de melting e conteAdo de BC' 1)' (ara o$ter os oligos dese1ados clique em <(ic& (rimers=' A ferramenta (rimer" (lus ir* mostrar os mel#ores iniciadores seguindo as regras padro para todos os par2metros' Fuando se fizer alteraDes nestes itens, necess*rio que se con#ea o marcador de refer+ncia' A$ai,o segue o resultado e as sugestDes de inicadores o$tidos pelo (rimer" (lus' A sequ+ncia do primer forward mostrada em 11, em que alm da sequ+ncia mostrado tam$m qual sua posio, taman#o, ?m, e conteAdo de BC' 8s nAmeros 1N e 1" mostram os mesmos dados para a sonda e o primer reverse' /m 1@, mostrado o taman#o final do produto' Degeer!"# primers Fuando no se tem a sequ+ncia de refer+ncia do organismo a ser estudado necess*rio desen#ar primers degenerado' Primers degenerados so iniciadores que em determinada posio pode ter dois ou mais tipos de nucleotdeos' 8 1eito mais simples de se o$ter primers degenerados partindo de um alin#amento' 1' 5onte um $anco de dados para o marcador a ser estudado com sequ+ncias de outros organismos que se1am mais pr7,imos evolutivamente' 2. >ealize um alin#amento mAltiplo das sequ+ncias' "' /scol#a uma sequ+ncia de um organismo que se1a, de prefer+ncia, do mesmo g+nero do organismo a ser estudado' @' /m seguida, utilize a sequ+ncia de refer+ncia no (rimer" (lus como nos passos acima' 5. Jalve os primers como arquivo OAJ?A e insira-os no alin#amento' 6. >ealize um novo alin#amento mAltiplo' 7. Iocalize o primer no alin#amento e altere as $ases do primer seguindo as normas da PQ(AC para $ases nitrogenadas' 8. >epita o procedimento para o outro primer' 9. /m seguida copie o primer e cole na p*gina do 8ligo AnalRzer do PD? #ttp4KK000'idtdna'comKanalRzerKapplicationsKoligoanalRzerK 10. Ao clicar em <AnalRze=, a ferramenta 8ligoAnalRzer fornece a temperatura de melting para o primer degenerado 911:' ANLISE DE CROMATO$RAMAS 8 sequenciamento de DNA um processo que determina a ordem dos nucleotdeos em uma amostra' 8 resultado de um sequenciamento 9cromatograma: gravado em um arquivo que contem os picos referentes emisso de fluoresc+ncia de cada uma das $ases' 8 pacote de soft0ares J?AD/N 1'H um con1unto de ferramentas com importantes funDes para visualizao, an*lise e edio de cromatogramas, podendo ser adquirido gratuitamente em #ttp4KKstaden'sourceforge'netK para diferentes sistemas operacionais' Das ferramentas disponveis no pacote J?AD/N n7s iremos utilizar4 (regap@, ?rev e Bap@' 8 programa (regap@ tem como principal funo fazer uma an*lise autom*tica dos cromatogramas e gerar o arquivo de entrada do Bap@' (ara utilizar o (regap@ acessamos Pniciar S (rogramas S Jtaden (ac&age S (regap@' 8 (regap@ tem tr+s a$as principais' Na primeira a$a, <Oiles to (rocess=, devemos adicionar os arquivos dos cromatogramas a serem analisados, utilizando o $oto <Add files= 9destaque da figura a$ai,o:' 8s cromatogramas podem estar em diferentes formatos, como JCO, A.P ou /T(' Na segunda a$a, <Configure 5odules=, devemos marcar as opDes de an*lise do (regap@ 9ret2ngulo na pr7,ima figura:' (ara o nosso e,erccio devemos marcar as opDes4 </stimate .ase Accuracies=, que nos revela o valor (#red para cada $aseU <Pnitialise /,periment Oiles= e <Augment /,periment Oiles=, respons*veis por criar os arquivos de sada do (regap@U <FualitR clip=, que esconde as regiDes de $ai,a qualidade nas e,tremidades !; e "; dos cromatogramasU <Bap@ s#otgun assem$lR=, respons*vel por criar os contigs e o arquivo que ser* lido pelo Bap@' Na opo <Bap@ s#otgun assem$lR= devemos inserir o nome do arquivo que ser* criado para o Bap@ 91: e marcar a opo <Create ne0 data$ase= 9N:' Devemos lem$rar que o (regap@ apresenta outras funDes como mascaramento de vetores e da cauda poli-A, por e,emplo' Ao clicar no $oto <>un= 9":, voc+ ser* direcionada para a a$a <?e,tual 8utput= que apresenta mensagens so$re o andamento das an*lises' A mensagem <VVV (rocessing finis#ed VVV= 9destaque da figura a$ai,o:, ir* indicar o fim do processamento das amostras' 8 (regap@ cria v*rios arquivos na pasta onde esto os dados dos cromatrgramas' Desses arquivos, devemos dar destaque aos que ten#am a e,tenso 'e,p, que so os cromatogramas individuais com as an*lises do (regap@, e um arquivo 'au, que ser* o input do Bap@' 8s arquivos /T( podem ser a$ertos no ?rev para uma inspeo mais detal#ada 9imagem a$ai,o:' (ara acessar o ?rev, siga Pniciar S (rogramas S Jtaden (ac&age S ?rev e use o menu <Oile= 91: para a$rir o arquivo dese1ado' Na figura podem ser vistas a e,tremidade mascarada por apresentar $ai,a qualidade 9cinza escura: e os valores de (#red para cada $ase 9azul claro:' No menu </dit= 9N: podemos alterar as regiDes mascaradas, e no menu <6ie0= 9": podemos alterar as caractersticas de visualizao' (ara continuar as an*lises devemos acessar o Bap@ em Pniciar S (rogramas S Jtaden (ac&age S Bap@, e usar o menu <Oile= para a$rir o arquivo AQT' No primeiro momento temos uma 1anela intitulada <Contig Jelector= 9destaque da figura a$ai,o: que nos mostra os contigs gerados em nossa an*lise anterior, nesse caso #* apenas um contig representado 9lin#a preta:' Clicando com o $oto direito na representao do contig e acessando a opo <Contig /ditor= podemos visualizar como o contig se formou a partir dos reads' A figura a$ai,o mostra <Contig /ditor= com as sequencias dos reads, e do consenso entre os reads 9seta:' 8 menu <Jettings= pode ser utilizado para alterar a forma de visualizao, como a adio dos cormatogramas para cada read 9figura a$ai,o:' A opo <Jave Consensus= em <Oile= nos permite salvar os consensos em formato OAJ?A 9figura a$ai,o:' A opo <JN( candidates= no menu <6ie0= elenca possveis JN(s calculados a partir dos cromatogramas 9pr7,ima figura:' CLUSTERI%AO Com a quantidade crescente de sequ+ncias contidas em reposit7rios online, ferramentas que podem agrupar sequ+ncias relacionadas em con1untos significativos fornecem uma maneira eficiente para que os pesquisadores possam classificar e dar sentido a esta montan#a de dados' 5uitos pesquisadores esto interessados em agrupamento de Expressed Sequence Tag 9/J?:, na esperana de identificar os genes que as /J?s representam por completo' 8utra aplicao da clusterizao a identificao de polimorfismos de $ase Anica 9JN(s:' A clusterizao muitas vezes utilizada para reduzir a redund2ncia de um con1unto de dados' Algoritmos de clusterizao tipicamente tomam como entrada um con1unto de reads a serem classificadas e par2metros de entrada especificando o grau de semel#ana necess*rio para os reads serem agrupados' A sada um agrupamento das reads que correspondam a esses critrios' Qma das ferramentas de clusterizao mais utilizada o CA(", disponvel em #ttp4KKp$il'univ-lRon1'frKcap"'p#p' A figura a$ai,o mostra a p*gina principal do CA("' Devemos inserir as sequ+ncia que sero clusterizadas na 1anela no formato OAJ?A e clicar em <JQ.5P?= para iniciar' Ap7s a an*lise o usu*rio direcionado para uma p*gina com quatro lin&s de resultados 9figura:' /m <Contigs= n7s podemos acessar as sequ+ncias dos contigs resultantes do consenso entre os readsU <Jingle sequences= elenca os reads que no formaram contigsU <Assem$lR details= nos mostra os detal#es da formao de cada contigU <Wour sequence file= retorna os reads que foram usados como input do CA("' 8 detal#amento da formao dos contigs mostrado na figura a$ai,o, onde no incio da p*gina podemos o$servar quais sequ+ncias formaram cada contig, com as relaDes de incluso e complementaridade entre os reads' Na figura seguinte, evidenciado como os contigs foram formados atravs do alin#amento das sequ+ncias' BANCO DE DADOS 8s $ancos de dados $iol7gicos so reposit7rios que disponi$ilizam as sequ+ncias $iol7gicas e agregam informaDes a tais sequ+ncias' 8 maior dos reposit7rios de sequ+ncia de DNA o International Nucleotide Sequence Database Collaboration 9PNJDC:, composto pelos dados de DNA do Data Ban of !apan 9DD.X: no T"e National Institute of #enetics, em 5is#ima no Xapo, do #enBan no National Center of Biotec"nolog$ Information 9NC.P:, em .et#esda nos /QA, e do European %olecular Biolog$ &aborator$ 9/5.I: Nucleotide Sequence Database, mantida no European Bioinformatics Institute 9/.P:, no >eino Qnido' ?rocas di*rias coordenadas entre esses grupos garantem uma co$ertura internacional da informao' 8 Institute of #enomics 'esearc" 9?PB>:, $aseado em >oc&ville, 5arRland, /QA tam$m mantm v*rios tipos de dados, incluindo sequ+ncias genYmicas e de anotao' 8 NC.P, disponvel em #ttp4KK000'nc$i'nlm'ni#'govK, um dos $ancos de dados mais utilizados nas pesquisas em .ioinform*tica e ser* onde iremos coletar nossas sequ+ncias de tra$al#o' A figura a$ai,o mostra a p*gina inicial do NC.P4 1: 5enu para seleo de um determinado $anco de dados do NC.P e 1anela para a adio das palavras-c#ave que iro compor a $usca no $anco' Ao selecionar <All Data$ases= a $usca ser* direcionada para o gerenciador /N?>/Z' 8 /N?>/Z 9pr7,ima figura: elenca "M $ancos de dados, de sequ+ncias literatura, presentes no NC.P' 8s valores ao lado dos sm$olos indicam o numero de entradas, disponvel para os respectivos $ancos de dados, que apresentam as palavras- c#ave utilizadas' 8 $anco de dados <?a,onomR= possi$ilita a identificao da informao $aseada na diviso ta,onYmica' A figura a$ai,o mostra as entradas para a $usca pelo termo <Art#ropoda=, indicando os lin&s estruturados segundo a ta,onomia atual do grupo' Ao clicar em um dos lin&s, somos direcionados para a entrada referente ao t*,on escol#ido' A pr7,ima figura apresenta entrada para <Art#ropoda=' 1: PnformaDes ta,onYmicas referentes ao grupo' N: ?a$ela com lin&s para outros $ancos do NC.P com o respectivo numero de entradas para o grupo em questo' (ara o levantamento de sequ+ncias nucleotdicas, utilizamos o $anco <Nucleotide= do NC.P, mostrado a$ai,o, onde4 1: Iin&s para todas as entradas referentes $usca, com opo para seleo de cada uma das entradas individualmenteU N: Iistagem dos organismos mais frequentes no resultado atual' 8 menu <DisplaR Jettings= possi$ilita alterar como as entradas so apresentadas para o usu*rio' /nquanto que o menu <Jend to= possi$ilita o do0nload das entradas que foram marcadas' Je nen#uma entrada for selecionada todas as entradas resultante da $usca sero selecionadas para o do0nload 9pr7,imas duas imagens:' Ao clicar em uma entrada, somos direcionados para a p*gina da entrada do $anco <Nucleotide= no formato Ben.an& 9no e,emplo a$ai,o: com a opo da o$servao apenas do OAJ?A no topo'
?am$m podemos utilizar o d$JN( do NC.P para o levantamento de JN(s, 1* descritos, em determinado gene ou organismo' A imagem seguinte mostra o resultado de uma $usca no d$JN( onde as entradas so apresentadas com as possi$ilidades dos nucleotdeos em colc#etes, para a posio do JN(' Acessando uma das entradas, temos uma descrio detal#ada do JN(' (rimeiramente so apresentadas informaDes referentes ao JN(, como posicionamento no cromossomo, grupo que sequenciou e se tem aplicao clnica' /m seguida temos uma visualizao gr*fica do posicionamento do JN( no cromossomo' / por Altimo, nos apresentada a sequ+ncia em formato OAJ?A para as regiDes flanqueadoras do JN(, com destaque para a posio polim7rfica representada pelo c7digo PQ(AC' As consultas, na maioria dos $ancos de dados, tam$m podem ser feitas atravs de $usca de similaridade entre sequ+ncias' 8 $anco CDD 9Conserved Domains Database:, atravs da ferramenta CD-Jearc# 9#ttp4KK000'nc$i'nlm'ni#'govKJtructureKcddK0rps$'cgi:, nos possi$ilita a identificao de domnios conservados em uma sequ+ncia de protenas' A figura seguinte mostra a entrada da ferramenta CD-Jearc# com a *rea para a insero da sequ+ncia protica alvo e, acima desta, lin& para a .atc# CD-searc#, ferramenta utilizada para $uscar v*rias sequ+ncias proticas contra o CDD' 8 $oto <su$mit= inicia a an*lise do CD-searc#' Como resultado, o CD-searc# elenca os domnios identificados na nossa protena alvo' A figura a$ai,o mostra o resultado de uma $usca contra o CDD evidenciando o domnio protico identificado 9acima: e o detal#amento do alin#amento entre a quer$ e a sequ+ncia do CDD' 8utro $anco de dados do NC.P que pode ser utilizado para agregar informaDes sequ+ncias proticas o C8B 9Cluster of (rt"ologous #roups:, disponvel em #ttp4KK000'nc$i'nlm'ni#'govKC8BK 9figura:' 8 C8B formado por v*rios clusters proticos, que foram delineados comparando sequ+ncias de protenas codificadas em genomas completos, representando as principais lin#agens filogenticas' Cada C8B consiste em protenas individuais ou grupos de par*logos de pelo menos tr+s lin#agens e, assim, corresponde a um domnio antigo e conservado' A ferramenta [8Bnitor 9#ttp4KK000'nc$i'nlm'ni#'govKC8BKgraceK&ognitor'#tml: utilizada para $usca de similaridade contra o [8B, verso do C8B para eucariotos 9figura a$ai,o:' 8 resultado de uma $usca pelo [8Bnitor indica o nome da protena identificada, o identificador do cluster e o c7digo de uma letra para as classes do [8B' Ao se clicar no identificador do cluster temos um detal#amento do mesmo 9figura, lado esquerdo:' Iegenda para os c7digos das classes do [8B 9figura, lado direita:' A figura a$ai,o mostra o detal#amento de um cluster do [8B, apresentando as espcies formadoras do cluster, os identificadores das protenas e uma *rvore de dist2ncia entre elas' 8 B8 9#ene (ntolog$: um $anco de dados que tem como o$1etivo a construo de um voca$ul*rio padronizado para a representao de genes e produtos g+nicos' Alm de disponi$ilizar informaDes de #ierarquia entre as definiDes' A figura seguinte mostra a p*gina inicial do B8 9#ttp4KK000'geneontologR'orgK:, com o lin& para a ferramenta AmiB8 a direita' A aplicao AmiB8 a principal ferramenta de $usca no B8, pode ser utilizado com palavras-c#ave ou com o .IAJ? 9lin& na $arra acima na figura:' 8 resultado de uma $usca com o AmiB8, utilizando o termo acRl-CoA, pode ser visto na pr7,ima figura' 8s termos que apresentam a palavra-c#ave so relatados, assim como, seus respectivos identificadores e classes de ontologia' A figura a$ai,o mostra a p*gina inicial do .IAJ? para $usca no B8' No resultado do .IAJ? para $usca no B8 9pr7,ima imagem:, podemos o$servar cada resultado mais detal#adamente acessando <vie0 associations=' /ntradas do B8 relacionados $usca do .IAJ? so mostradas em seguida' Ao se acessar o lin& <vie0 in tree= podemos visualizar os resultados em forma de *rvore relacional entre os termos do B8' As pr7,imas imagens mostram a *rvore relacional entre os termos do B8 e a visualizao em modo gr*fico 9a$a <Brap# 6ie0=: das relaDes entre os registros do B8 respectivamente' BLAST .IAJ? 9Basic &ocal )lignment Searc" Tool& ' um (!)#*e "e s#+*,!res s#+is*i)!"# -ue se *#r#u ! +err!me*! m!is im(#r*!*e ! .re! "! Bi#i+#rm.*i)!/ H. 0.ri!s r!12es (!r! iss#/ Primeir#3 ! simil!ri"!"e e*re se-u4)i! ' um! (#"er#s! +#rm! "e se i"e*i+i)!r padrDes em sequ+ncias no caracterizadas/ Segu"#3 # BLAST ' r.(i"#/ A -u!*i"!"e "e se-u4)i!s "is(#50eis ' gr!"e e )res)e r!(i"!me*e3 !ssim ! 0el#)i"!"e "e !.lise ' esse)i!l/ Ter)eir#3 # BLAST ' )#+i.0el3 *!*# em um (#*# "e 0is*! es*!*5s*i)# e -u!*# em um (#*# "e 0is*! "e "ese0#l0ime*# "e software/ 6u!r*#3 # BLAST ' +le750el e (#"e ser !"!(*!"# ! 0.ri#s )e.ri#s "e !.lise "e se-u4)i!/ E +i!lme*e3 # BLAST es*. er!i1!"# ! )ul*ur! "! Bi#i+#rm.*i)! !# (#*# em -ue ! (!l!0r! 89l!s*8 ' +re-ue*eme*e u*ili1!"! )#m# um 0er9#/ O .IAJ? a ferramenta mais utilizada para a $usca de similaridade entre determinada sequ+ncias $iol7gica e um $anco de dados' 8 .IAJ?, para $uscas contra os $ancos de dados do NC.P, pode ser encontrado em4 :**(:;;9l!s*/)9i/lm/i:/g#0;' A imagem a$ai,o mostra a p*gina principal do .IAJ?-NC.P destacando 91: os lin&s para as principais variedades do .IAJ?4 .IAJ?n, .IAJ?p, .IAJ?,, t.IAJ?n e t.IAJ?,' Ao clicar em um dos lin&s das variedades do .IAJ? o usu*rio direcionado para a p*gina de entrada da variedade escol#ida, neste caso o .IAJ?n, que compara sequ+ncia de nucleotdeos contra um $anco tam$m de nucleotdeos, ve1a figura a$ai,o onde 1: cai,a de te,to para insero da sequ+ncia quer$U N: *rea para escol#a dos par2metros do $anco de dadosU e ": $oto par iniciar a an*lise do .IAJ?' Antes de uma an*lise ser iniciada no .IAJ?, n7s temos a opo de alterar alguns par2metros, como taman#o da palavra seed, valores para matc" e mismatc" e a aplicao de determinados filtros' /stas opDes so acessveis atravs da opo <Algotit#m parameters= na p*gina inicial do .IAJ?n 9pr7,ima figura:' A p*gina de resultado do .IAJ?-NC.P pode ser su$dividida em tr+s partes' A primeira um sum*rio gr*fico dos alin#amentos, onde as $arras coloridas indicam regiDes com similaridade das sequ+ncias sub*ects e cada cor corresponde a uma determinada fai,a de score dos alin#amentos 9figura a$ai,o:' A segunda parte do resultado do .IAJ? uma listagem com as descriDes dos sub*ects e valores de score, co$ertura, E+value e identidade para cada alin#amento 9pr7,ima figura:' A terceira parte do resultado do .IAJ? uma demonstrao dos primeiros alin#amentos' A figura a$ai,o mostra o alin#amento para um dos sub*ects, onde 1: quadrado para seleo da sequ+ncia sub*ectU N: lin& para recuperao das sequ+ncias selecionadasU e ": opo para construo de uma *rvore filogentica com as sequ+ncias' /,istem versDes do .IAJ? especializados em determinado tipo de $usca ou $anco de dados, como .IAJ? contra $anco de dados de JN(s ou para o desen#o de primers, disponvel na p*gina principal do .IAJ?-NC.P, #ttp4KK$last'nc$i'nlm'ni#'govK 9figura a$ai,o:' 8 .IAJ? contra o $anco de dados JN( flan&s pode ser utilizado para a identificao de JN(s 1* descritos para um determinado gene' A pr7,ima figura demonstra o resultado do .IAJ? para $usca de JN(s, onde o alin#amento apresentado com o JN( presente no sub*ect em destaque, representado no c7digo PQ(AC' 8 (>P5/>-.IAJ? uma verso desenvolvida para o desen#o de primers' /le apresenta uma p*gina inicial um pouco diferente, pois aqui n7s temos opDes de alterar os par2metros para o desen#o dos primers 9figura a$ai,o:' A pr7,ima figura demonstra o resultado do (>P5/>-.IAJ? com o sum*rio gr*fico das regiDes amplificadas pelos primers desen#ados, e descrio das caractersticas do primeiro par de primers' ALINHAMENTO M<LTIPLO DE SE6U=NCIAS BIOL>$ICAS 8 alin#amento de sequ+ncias tem como o$1etivo organizar sequ+ncias de DNA, >NA ou protena para facilitar a identificao de regiDes similares que podem ser decorrentes de relaDes estruturais, funcionais ou evolutivas entre elas' Iogo, para se realizar infer+ncias evolutivas entre as sequ+ncias, primeiramente necess*ria a comparao de sequ+ncias' /ntretanto, s7 podemos comparar coisas que so #om7logas, ou se1a, aquelas que esto associadas a um ancestral comum' Assim, preciso encontrar e relacionar as regiDes que so verdadeiramente #om7logas para fazermos as devidas infer+ncias' 3 importante ressaltar que sequ+ncias semel#antes muito provavelmente apresentam funDes semel#antes' Com isso, a partir dos alin#amentos de sequ+ncias $iol7gicas podemos inferir funo de uma protena, classificar genes, inferir a estrutura tridimensional de uma protena, assim como inferir as relaDes filogenticas de um grupo de t*,ons, entre outras aplicaDes' Fuando tratamos de alin#amentos com mais de duas sequ+ncias, estamos lidando com alin#amentos mAltiplos de sequ+ncias $iol7gicas' A partir deles podemos encontrar padrDes de conservao entre um grupo de sequ+ncias, que podem estar relacionados com domnios funcionais de uma protena' (ara a realizao de um alin#amento mAltiplo de sequ+ncias iremos utilizar uma verso do programa Clustal%, incorporado no software 5/BA!' 8 programa pode ser encontrado no site #ttp4KK000'megasoft0are'netK' Depois de $ai,ado e instalado, iremos a$rir o programa' Clicando no $oto <Oile= e em seguida <8pen a fileKsession'''= podemos importar o con1unto de sequ+ncias a ser alin#ado' As sequ+ncias so lidas no formato OAJ?A' Neste e,emplo so apresentadas oito sequ+ncias de DNA numeradas e nomeadas com a sequ+ncia de nucleotdeos direita' Clicando em <Alignment= aparece uma a$a com dois algoritmos para a realizao de alin#amento mAltiplo de sequ+ncias, o Clustal% e o 5uscle' Neste tutorial iremos utilizar a primeira opo' Je as sequ+ncias forem completamente codificantes, ento poderemos utilizar a opo <Align $R Clustal% 9codons:=' Caso contr*rio deve ser utilizada a opo <Align $R Clustal%=, que o caso aqui' /m seguida, alguns par2metros so solicitados para a realizao do alin#amento' (or e,emplo, penalidades para a$ertura e e,tenso de gaps no alin#amento pareado e tam$m no alin#amento mAltiplo e a matriz a ser utilizada para pontuao do alin#amento, entre outros' 8 default do programa 1* vem com os par2metros mais utilizados, sendo apenas recomendada a modificao destes par2metros se voc+ sou$er e,atamente o que est* sendo modificado' (odemos manter os par2metros default' Ap7s isso s7 clicar em <8&= para o programa iniciar o processo de alin#amento' ?erminado o alin#amento, possvel o$servar que os nucleotdeos esto organizados nas posiDes certas, ou #om7logas, podendo assim ser realizada qualquer tipo de infer+ncia a partir da' No programa 5/BA!, quando todas as sequ+ncias apresentam o mesmo nucleotdeo em um determinado stio, possvel o$servar um <V= em cima deste stio' A e,ist+ncia de uma mutao ou de um evento de indel faz com que esse stio no apresente o asterisco' 8s gaps so representados por um <-< e cada nucleotdeo apresenta uma cor diferente' 3 possvel salvar e e,portar este alin#amento em alguns formatos para ser utilizados em outros programas, incluindo o pr7prio 5/BA!' (ara isso, s7 clicar em <Data= e depois em </,port Alignment= para escol#er o formato' Aqui vamos salvar o alin#amento nos tr+s formatos, que vamos utilizar a seguir' ?ARIABILIDADE $EN@TICA Com o o$1etivo de avaliar o quanto seu con1unto de dados vari*vel ou no, ap7s a realizao de um alin#amento mAltiplo de sequ+ncias importante verificar o quanto e como essas sequ+ncias variam' A varia$ilidade gentica, que fruto das mutaDes, um importante fator evolutivo que pode indicar a resposta de um organismo a uma mudana am$iental, assim como ela necess*ria para entendermos as relaDes evolutivas entre um grupo de t*,ons' Dentre outros, dois programas so particularmente importantes na avaliao da varia$ilidade gentica o$servada em sequ+ncias de DNA, o 5/BA! e o DnaJ(' (rimeiramente, iremos utilizar o 5/BA!' (artindo do alin#amento gerado na seo anterior, iremos utilizar o arquivo salvo no formato 5/BA 9'meg:' Ao a$rir o programa, clicando no $oto <Oile= e em seguida <8pen a fileKsession'''= podemos importar o alin#amento' Qma primeira o$servao importante a se fazer como est* distri$udo, ao longo do alin#amento, os stios conservados e os stios polim7rficos' Clicando em <Eig#lig#t= podemos marcar no alin#amento os stios conservados, vari*veis, stios parsimYnio-informativos, singletons e stios degenerados )-fold, N-fold e @- fold' 8utro ponto importante de avaliao presente no programa 5/BA! est* presente na a$a <Jtatistics=' Com ela possvel computar composio dos nucleotdeosU frequ+ncia pareada dos nucleotdeos, tanto direcional quanto no-direcionalU assim como possvel calcular frequ+ncias do uso de c7dons' Na 1anela principal do programa, possvel calcular outros par2metros de varia$ilidade gentica importantes' Clicando no $oto <Distance= podemos computar a dist2ncia gentica pareada entre todas as sequ+ncias do con1unto de dadosU podemos computar a dist2ncia gentica mdia totalU a dist2ncia mdia dentro de grupos 9como populaDes, se especificado anteriormente:U e a dist2ncia mdia entre grupos 9se especificado:' Ao selecionar qualquer uma destas dist2ncias, uma nova 1anela se a$rir* solicitando informaDes para o c*lculo das mesmas' I* possvel selecionar o mtodo de vari2ncia da dist2nciaU os tipos de su$stituiDes a ser analisadosU o modelo de su$stituio para o c*lculo da dist2nciaU os tipos de su$stituiDes a ser levados em contaU o tratamento dos gapsU e as posiDes do c7don a ser utilizadas' (or fim, clicando no $oto <DiversitR= podemos ainda computar diversidade gentica mdia dentro de su$populaDes 9se especificado:U diversidade gentica mdia em uma populao inteira 9se especificado:U diversidade gentica mdia interpopulacional 9se especificado:U assim como o coeficiente de diferenciao 9se especificado:' 8utro programa $astante utilizado para a avaliao de varia$ilidade gentica em sequ+ncias de DNA o DnaJ(, que pode ser encontrado no endereo #ttp4KK000'u$'eduKdnaspK' (ara iniciar, a$rimos o programa, clicamos em <Oile= e em seguida em <8pen Data Oile'''= com o o$1etivo de carregar o alin#amento no programa' 8 DnaJ( pode utilizar como input arquivos tipo N/TQJ 9'ne,:, que um dos tr+s tipos de arquivo que e,portamos nosso alin#amento' Ao a$rir o alin#amento, algumas informaDes so$re o con1unto de dados aparecem na tela, como o nAmero de stios e de sequ+ncias, formato do arquivo, c7digo gentico, tipo de genoma, entre outras' (ara o$servar o alin#amento, preciso clicar na a$a <DisplaR= e depois em <6ie0 Data=' Nesta tela possvel selecionar qualquer posio do alin#amento e o$servar algumas informaDes como nucleotdeo, stio, sequ+ncia a que pertence o nucleotdeo, informaDes do genoma ou da espcie, e o estado do stio' Alm disso, possvel marcar, no alin#amento, os c7dons, os stios conservados, os stios vari*veis, etc' Antes de calcular os diversos par2metros para analisar os polimorfismos encontrados no con1unto de dados, necess*rio configurar o programa com as caractersticas do seu alin#amento' (ara isso, $asta clicar em <Data= e iniciar a configurao' Nesta seo possvel indicar como tratar os gapsU indicar como sero consideradas as su$stituiDes nucleotdicasU determinar as regiDes codificantes e o c7digo genticoU definir domnios e con1untos de sequ+nciasU remover posiDesU e incluir ou e,cluir sequ+ncias' Ap7s a configurao, para iniciar as an*lises s7 clicar em <AnalRsis=' 8 arsenal de an*lises disponvel pelo DnaJ( est* nesta seo, $asta selecionar que o programa ir* calcul*-la para voc+' Aqui possvel computar dados de varia$ilidade gentica como stios polim7rficos, conservador, informativos, etc'U ndices de diversidade nucleotdicaU polimorfismos de indelsU diverg+ncia entre populaDesU delimitar regiDes conservadasU associao de polimorfismos e diverg+ncia entre grupos ou regiDes funcionaisU avaliao do tipo de su$stituio que est* ocorrendoU vis de uso de c7donsU prefer+ncia de su$stituiDesU diferenciao genticaU desequil$rio de ligaoU recom$inaoU mudanas no taman#o populacionalU alm de v*rios testes de neutralidade' ANLISE DE SNPs 8s JN(s esto distri$udos de forma no aleat7ria por todo genoma e ocorrem a uma frequ+ncia de apro,imadamente um em cada 1N)) pares de $ases, representando assim as vari*veis mais comuns no genoma #umano 9Jac#idanandam et al,, N))1U J#errR et al,, N))1U 6enter, N))1:' Qm JN( se origina quando uma mutao pontual ocorre no genoma, convertendo um determinado nucleotdeo em outro qualquer, e foras evolutivas como4 seleo natural, deriva gentica e migrao modulam a fi,ao ou desaparecimento dessa mutao ao longo de geraDes em uma populao 9.ro0n, N))N:' A partir do resultado da genotipagem das amostras em estudo, so realizadas as associaDes allicas, genotpicas e #aplotpicas para o con1unto de JN(s, utilizando o programa Qnp#ased, disponvel em #ttp4KK000'mrc- $su'cam'ac'u&KpersonalKfran&Ksoft0areKunp#asedK' Beralmente, nas pesquisas que so realizadas, encontram-se alguns pro$lemas, tais como a no genotipagem de todos os indivduos e a variao de estruturas familiares que so conseguidas e que no podem ser descartadas' Devido a isso, utiliza-se o Qnp#ased, um con1unto de programas para an*lise de associao dos #apl7tipos multilocus a partir de dados da genotipagem, que realiza um c*lculo ela$orado de ?este de ?ransmisso de Desequil$rio de Iigao 9Transmission Disequilibrium Test \ ?D?: $aseado em famlias' (or ser construdo em plataforma !ava, este programa f*cil de ser usado, utilizando uma $oa interface gr*fica' 8 Qnp#ased foi desenvolvido por Oran& Dud$ridge no 5>C \ Cam$ridge' 8 arquivo de pedigree contm informaDes so$re as relaDes familiares entre os indivduos do estudo, e todos os gen7tipos e os dados covari*veis' 8 Qnp#ased usa o formato de ligao 9linage:, que na sua forma mais simples consiste de uma lin#a para cada individuo, com colunas organizadas da seguinte forma4 (edPD Ju$PD (aPD 5aPD Je, ?rait 51A1 51AN 5NA1 5NAN Pe"ID o identificador do pedigree, que pode ser composto de letras e nAmeros' Su9ID o identificador do indivduo, que pode ser composto de letras e nAmeros' P!ID o identificador do pai do indivduo 9coloca-se ) se o pai no est* no estudo:' M!ID o identificador da me do indivduo 9coloca-se ) se a me no est* no estudo:' Se7 o identificador do se,o masculino 9coloca-se 1: e do se,o feminino 9coloca-se N:' Tr!i* o identificador da caracterstica do indivduo 9coloca-se 1 se no est* afetado por uma doena \ controle, N se est* afetado \ caso, e ) se no sa$e \ descon#ecido:' MAAA e MAAB so os dois alelos para o primeiro marcador' /stes devem ser numricos e podem ter qualquer valor, mas os alelos ausentes so codificados como )' MBAA e MBAB so os dois alelos para o segundo marcador, e assim por diante' (ara indivduos no relacionados, incluindo os dados de casoKcontrole, cada indivduo considerado como um Anico pedigree' 8 Pe"ID deve ser Anico, o Su9ID pode ter qualquer valor, P!ID e M!ID devem ser )' Pr#*#)#l# C A.lise H!(l#*5(i)!: 1. A$rir o programa U(:!se" 2. Jelecionar File 2.1.Jelecionar Open pedigree file 2.2.Jelecionar o arquivo no formato ,txt 3. Jelecionar Marker 3.1.Jelecionar All marker combinations 3.2.Jelecionar All window sizes
4. Jelecionar Analysis 4.1.Jelecionar Test indiid!al "aplotypes 5. Jelecionar Options 5.1./m Missing data, selecionar #ncertain "aplotypes and missing genotypes
8. Jelecionar File 8.1.Jelecionar Sae o!tp!t ' Jelecionar a pasta de destino 10./ditar o nome do arquivo da seguinte forma4 >/JQI?AD8 DA AN]IPJ/ EA(I8?^(PCA D8 B/N/_DA?A
Pr#*#)#l# C A.lise $e#*5(i)!: 1. A$rir o programa #np"ased 2. Jelecionar File 2.1.Jelecionar Open pedigree file 2.2.Jelecionar o arquivo no formato ,txt 3. Jelecionar Marker 3.1.Jelecionar All marker combinations 3.2.Jelecionar All window sizes 4. Jelecionar Options 4.1./m Missing data, selecionar #ncertain "aplotypes and missing genotypes 4.2./m %enetic, selecionar %enotype tests
5. Jelecionar O!tp!t 5.1.Jelecionar $rief o!tp!t 6. Jelecionar R!n 6.1.Jelecionar Start 7. Jelecionar File 7.1.Jelecionar Sae o!tp!t M' Jelecionar a pasta de destino 9. /ditar o nome do arquivo da seguinte forma4 >/JQI?AD8 DA AN]IPJ/ B/N8?^(PCA D8 B/N/_DA?A
ANLISE DA ESTRUTURA POPULACIONAL 8 Jtructure, disponvel em #ttp4KKpritc#'$sd'uc#icago'eduKsoft0are'#tml, um software que implementa mtodos de agrupamentos para inferir estruturao populacional utilizando dados genotpicos' AplicaDes deste mtodo incluem demonstrao da presena de estrutura de populaDes, identificao de populaDes genticas distintas, atri$uiDes de indivduos s populaDes e identificao de migrantes' 8 modelo assumido pelo programa de que e,istam [ populaDes 9esse nAmero de populaDes pode ser descon#ecido:, cada populao caracterizada por um con1unto de frequ+ncias allicas em cada um dos l-cus' 8s indivduos amostrados so atri$udos 9pro$a$ilisticamente: s populaDes, ou a duas ou mais populaDes, se os seus gen7tipos indicam que eles so misturados' 8 algoritmo assume que dentro das populaDes os l-cus o$edecem ao equil$rio de EardR-%ein$erg e ao equil$rio de ligao' 8 programa no assume um processo mutacional particular, e pode ser aplicada maioria dos marcadores genticos mais utilizados incluindo microssatlites, JN(s e >OI(s' A$ai,o segue um passo a passo ensinando a utilizar o software4 Ao a$rir o programa selecione a opo <Oile= mostrado na figura acima com o nAmero 1' (ara criar um novo pro1eto selecione a opo N4 <Ne0 (ro1ect=' Ao selecionar essa opo a$rir* uma nova 1anela' Na opo de nAmero " voc+ dever* nomear o seu novo pro1eto' Na opo @ ao clicar no <.ro0se=, voc+ selecionar* o diret7rio onde o seu arquivo de entrada est* salvo' No campo de $ai,o, o de nAmero !, o $oto <.ro0se= te permite escol#er o arquivo de entrada' Ap7s nomear o pro1eto e selecionar o arquivo de entrada voc+ deve ir ao pr7,imo passo clicando na opo <Ne,t=, marcada aqui com o nAmero H' Na pr7,ima 1anela aparecero @ campos para serem preenc#idos, o primeiro campo o de nAmero L para indicar o nAmero de indivduos presentes no seu con1unto de dados' 8 campo a$ai,o, representado aqui pelo nAmero M o que indica a ploidia dos seus dados, por e,emplo4 se voc+ o$teve os dois alelos para cada organismo dipl7ide, marque esta opo com o nAmero N' 8 campo de nAmero deve ser preenc#ido com o nAmero de l7cus presentes no arquivo de entrada' No campo de nAmero 1) voc+ deve sinalizar com qual nAmero voc+ representar* os dados perdidos no seu con1unto de dados' Ao clicar o $oto <Ne,t=, opo de nAmero 11, outra 1anela aparecer*' Nesta 1anela selecione apenas as opDes que esto presentes no seu arquivo de entrada' Je no seu arquivo estiver presente uma lin#a com o nome dos l7cus ento a opo 1N deve ser marcada' A opo 1" deve ser marcada se no arquivo contiver uma lin#a sinalizando os alelos recessivos' X* a opo 1@ dever* ser marcada apenas se voc+ o$tiver a informao acerca da posio cromossYmica dos seus l7cus e se esta informao estiver presente no formato de uma lin#a acima dos l7cus' Je nen#uma informao dessas est* disponvel no marque nen#uma dessas opDes' (ara seguir a diante clique no $oto <Ne,t=, opo 1!' Nessa 1anela, assim como na anterior, apenas devem ser marcadas as opDes que t+m a informao contida do arquivo de entrada' (or e,emplo4 a opo 1H deve ser marcada se forem fornecidos os nomes de cada indivduo no arquivo de entrada, assim como as opDes 1L e 1M devem ser marcadas se as informaDes so$re a populao geogr*fica de origem e informaDes fenotpicas so con#ecidas, respectivamente' (ara finalizar clique no $oto <Oinis#= marcado aqui com o nAmero 1' Pr* aparecer uma nova 1anela para confirmao, para continuar clique em <(roceed=' Ap7s confirmar, outra 1anela aparecer*, como mostrado na figura a$ai,o4 Agora criado um pro1eto, voc+ pode realizar as an*lises' (ara isso, clique em <(arameter Jet=, marcado aqui com o nAmero N) e depois crie um novo par2metro clicando em <Ne0=, opo N1' A nova 1anela apresentar* @ a$as superiores, na primeira a$a <NN= dever* ser indicado o taman#o da corrida da an*lise' A opo N! <Iengt# of .urnin (eriod= indica o nAmero de interaDes que sero descartadas, no c#amado perodo de aquecimento' 8s valores o$tidos nesse perodo no iro participar na estimativa final' 8 campo marcado pelo nAmero NH representa o nAmero de interaDes que o pesquisador dese1a utilizar nas suas an*lises' As a$as superiores marcadas com os nAmeros N" e N@, quando clicadas, permitem ao usu*rio escol#er o modelo de ancestralidade e modelo de frequ+ncia allica que devem ser adotados na an*lise' Ap7s as escol#as realizadas pelo usu*rio, clique em <8[= para continuar' Aparecer* um quadro como esse acima, onde dever* ser nomeado esse novo par2metro criado' (ara concluir a criao do par2metro, $asta clicar em <8[=' Ap7s a criao do par2metro o usu*rio deve iniciar as simulaDes $aseadas no par2metro recm-criado' (ara isso, deve-se clicar em <(ro1ect=, numerado aqui como NL, depois clique na opo representada pelo nAmero NM <Jtart a Xo$=, logo em seguida aparecer* uma 1anela como segue a$ai,o4 Nessa 1anela o usu*rio deve selecionar o par2metro, indicado aqui pelo nAmero N' Iogo ap7s, o usu*rio tem que a1ustar o nAmero de populaDes que devem ser testadas com o par2metro criado' (ara a1ustar o nAmero de populaDes o programa pede um intervalo, indicado aqui pelo nAmero ") para o limite inferior e pelo nAmero "1 para o limite superior' 8 nAmero "N indica o quadro com o nAmero de repetiDes que o usu*rio dese1a fazer essa an*lise' Ap7s todos os quadros preenc#idos, $asta clicar em <Jtart= na opo "" para enfim iniciar a an*lise' Ap7s o fim das interaDes, o usu*rio deve interpretar os seus resultados' (ortanto, dese1a-se sa$er o nAmero de populaDes indicado pelo software, para isso necess*rio calcular um guia ad "oc denominado `[' /ste valor no calculado pelo software e sim pelo pesquisador' Antes de calcular o `[ necess*rio ter os valores das pro$a$ilidades para cada nAmero de populaDes e suas vari2ncias' 8 usu*rio o$tm estes valores da seguinte forma4 clicando na opo <6ie0=, item "@ da figura a$ai,o' Iogo ap7s dever* clicar no item "! <Jimulation JummarR=, em seguida aparecero os valores dos logaritmos das pro$a$ilidades e vari2ncias para cada nAmero de populaDes 9item "H:' Qma vez tendo em mos tais valores f*cil calcular o `[' (rimeiro, o$ten#a as mdias dos logaritmos para cada nAmero de populaDes, vamos c#amar esse valor de I9[:, onde [ o nAmero de populaDes' (or e,emplo4 a mdia para o nAmero de populaDes dois ser* c#amado de I9N:' Jegundo, calculamos as diferenas entre as mdias dos valores de populaDes consecutivas, c#amaremos esse valor de I;9[:' /sse valor ser* I;9[: a I9[: - I9[-1:' (or e,emplo4 I;9": a I9": - I9N:' ?erceiro, calculamos o valor a$soluto das diferenas entre os I;9[:, c#amaremos esse valor de I;;9[: e ser* representado como bI;;9[:b abI;9[C1: \ I;9[:b' Oinalmente, a quarta etapa a estimao do `[ que definido como o valor a$soluto mdio de I;;9[: para o nAmero de simulaDes dividido pelo desvio padro de I9[:, `[ a mbI;;9[:bKs cI9[:d' Ap7s esses c*lculos, para cada nAmero de populaDes #aver* um valor de `[' /nto esses valores devem ser distri$udos para uma mel#or visualizao deste guia' 8 nAmero de populaDes indicado pelo programa aquele que possuir o valor modal desta distri$uio de `[' Agora que o usu*rio 1* sa$e o nAmero de populaDes inferido pelo Jtructure, #ora de visualizar essa estruturao em gr*fico de $arras como mostrado na figura a$ai,o4 (ara visualizar o resultado da an*lise primeiramente o usu*rio deve clicar na opo <(arameter Jets=, indicada pelo nAmero "H da figura acima, depois deve clicar no par2metro criado anteriormente pelo usu*rio, neste e,emplo indicado pelo nAmero "L' /m seguida, o usu*rio deve clicar em <>esults=, marcado aqui com o nAmero "M e escol#er o nAmero de populaDes indicado pelo `[, aqui o resultado so duas populaDes 9marcado pelo nAmero ":' Ao clicar no nAmero inferido de populaDes uma 1anela se a$rir*, o usu*rio deve clicar em <.ar plot=, marcado pelo nAmero @) e logo ap7s clicar em <J#o0=, indicado como o item @1' /m seguida aparecer* uma 1anela com resultado gr*fico da an*lise, como mostrado na figura a$ai,o' ANLISES DE $EN@TICA DE POPULADES USANDO O ARLE6UIN 8 Arlequin, disponvel em #ttp4KKcmpg'uni$e'c#Ksoft0areKarlequin"K, um software disponi$ilizado gratuitamente que tem como o$1etivo fornecer ao usu*rio um grande con1unto de mtodos $*sicos e testes estatsticos presentes na gentica de populaDes, a fim de e,trair informaDes genticas e demogr*ficas de uma coleo de amostras populacionais' A interface gr*fica do programa foi desenvolvida para permitir ao usu*rio selecionar facilmente diferentes an*lises que eles dese1am realizar com seus dados' 8s desenvolvedores deste software pensaram no quanto importante e,plorar os dados, para analisar v*rias vezes o mesmo con1unto de dados so$ perspectivas diferentes, com diferentes opDes selecionadas' 8s testes estatsticos implementados no Arlequin foram escol#idos de forma a minimizar os pressupostos ocultos e serem to poderosos quanto possvel' Assim, tais testes levam o formato de testes de permutao ou testes e,atos, com poucas e,ceDes' 8 software capaz de lidar com dados genticos so$ muitas formas diferentes, e tentar realizar os mesmos tipos de an*lises independentemente do formato dos dados' Devido ao rico con1unto de recursos e muitas opDes que o Arlequin dispDe, isto implica que o usu*rio pode levar algum tempo para aprend+-las' Jo v*rios os tipos de formato suportados que podem ser dados #aplotpico 9mtDNA, Cromossomo W, procariotos: ou genotpicos, dentre eles destacam-se as sequ+ncias de DNA, marcadores >OI(s, microssatlites e frequ+ncias allicas' As an*lises realizadas aqui se enquadram nas duas principais categorias metodol7gicas da gentica de populaDes4 mtodos intra- populacionais 9stios polim7rficos, diversidade g+nica, diversidade nucleotdica, diversidade #aplotpica, distri$uio de mismatc#, equil$rio de EardR-%ein$erg, desequil$rio de ligao, teste de neutralidade de ?a1ima, etc: e inter-populacionais 9$usca de #apl7tipos compartil#ados entre populaDes, an*lise de vari2ncia molecular, dist2ncias genticas pareadas, deteco de l7cus so$ seleo, teste de 5antel, etc:' A$ai,o segue um passo a passo mostrando as principais funDes do Arlequin' Qm e,emplo do arquivo de entrada mostrado a$ai,o, o arquivo pode ser alterado manualmente ou confeccionado em t,t, mas deve ser salvo no formato 'arp' 8 e,emplo a$ai,o para dados de sequ+ncia de DNA' (rimeiro, para importar o arquivo de entrada $asta clicar em <8pen (ro1ect= marcado na figura a$ai,o' Depois $asta escol#er o arquivo com e,tenso 'arp e a$ri-lo' Ao a$rir o arquivo, surgir* uma a$a denominada <(ro1ect=, marcada a$ai,o com o nAmero 1' /sta a$a mostrar* os nomes das populaDes presentes no con1unto de dados 9nAmero N: e tam$m os grupos as quais as populaDes pertencem 9nAmero ":' (ara editar a estrutura do con1unto de dados o usu*rio deve clicar na a$a <Jtructure /ditor= 9ret2ngulo @:' Nesta a$a o usu*rio ter* a opo de atri$uir as populaDes a determinados grupos, para isso $asta clicar duas vezes so$re o nAmero grupo 9ret2ngulo !: e digitar o nAmero dese1ado para o grupo, ap7s as alteraDes ser* possvel o$serv*-las a$ai,o de <>esulting structure= 9ret2ngulo H:' Je o usu*rio dese1ar salvar as alteraDes $asta clicar na opo <Qpdate (ro1ect= 9ret2ngulo L:' 8 pr7,imo passo a1ustar quais an*lises o usu*rio dese1a fazer, para isso $asta clicar na a$a <Jettings= 9ret2ngulo M da figura a$ai,o:' Ao clicar aparecero v*rias opDes de an*lise, enumeradas aqui de a N)' (ara selecionar uma an*lise o usu*rio deve clicar na an*lise escol#ida 9ret2ngulo :, surgindo assim uma 1anela no meio da tela com os a1ustes da an*lise' Nesta 1anela o usu*rio deve marcar as opDes dese1adas para a an*lise escol#ida 9ret2ngulo N1:' As an*lises enumeradas a$ai,o so4 \ An*lise de vari2ncia molecular, 1) \ Deteco de loci so$ seleo, 11 \ Ost pareado, 1N \ ?este e,ato de diferenciao, 1" \ Atri$uio de gen7tipos populaDes, 1@ \ Pnfer+ncia #aplotpica, 1! \ /quil$rio de EardR-%ein$erg, 1H \ Desequil$rio de ligao, 1L \ ?este de 5antel, 1M \ Distri$uio de mismatc#, 1 \ ^ndices de diversidade molecular e N) \ ?estes de Neutralidade' Ap7s selecionar todas as an*lises dese1adas c#egada a #ora de fazer tais an*lises, para iniciar as an*lises o usu*rio deve clicar no $oto <Jtart=, marcado com um ret2ngulo na figura a$ai,o' 8s resultados so gerados no mesmo diret7rio onde o e,ecut*vel do software Arlequin se encontra' 8 software cria uma pasta com o mesmo nome do arquivo de entrada com e,tenso 'res, onde est* contido os resultados' (ara visualizar os resultados preciso clicar no arquivo que tem o mesmo nome do arquivo de entrada com terminao _main'#tm' Agora s7 a$rir esse arquivo e interpretar os resultados' A$ai,o segue uma figura com os resultados gerados pelo Arlequin' ANLISE DE REDES DE HAPL>TIPOS 8 software Net0or&, disponvel em #ttp4KK000'flu,us- engineering'comKnet0or&_terms'#tm, usado para reconstruir *rvores filogenticas e redes de #apl7tipos, inferir tipos ancestrais, ramificaDes evolutivas e estimar dataDes' 8s algoritmos so desen#ados para $iomolculas no recom$inantes' AplicaDes $em sucedidas incluem mtDNA, W-J?>, sequ+ncias de amino*cidos, >NA, DNA autossYmico no recom$inante, etc' 8 uso de $iomolculas recom$inantes trar* redes de grande dimenso as quais so difceis de interpretar' /ste software foi desenvolvido para reconstruir todas as possveis *rvores filogenticas de menor comprimento 9todas as *rvores de m*,ima parcimYnia: a partir de um con1unto de dados' Duas opDes diferentes de construo de networ esto inclusas, que podem ser usadas independentemente' 8 algoritmo 'educed %edian ou >5 que requer dados $in*rios 9por e,emplo4 um nucleotdeo numa determinada posio para cada t*,on deve ser ? ou C:' 8 algoritmo %edian !oining ou 5X permite dados multi-estados 9por e,emplo4 um nucleotdeo num determinado stio pode ser A, C, B, ? e am$iguidades como N:' >ecomenda-se 5X para uso geral como primeira escol#a' Je os resultados do algoritmo 5X forem uma questo, recomenda-se utilizar o algoritmo >5 para confrontar os resultados' A$ai,o segue um $reve passo a passo mostrando como utilizar o software Net0or&' Ao a$rir o programa, o usu*rio tem a opo de criar um novo con1unto de dados ou importar um arquivo de entrada 1* e,istente' (ara am$as as opDes o usu*rio deve primeiramente clicar em <Data /ntrR= 9ret2ngulo 1 da figura acima:, depois ele pode clicar na opo <5anual= 9ret2ngulo N: ou importar um arquivo pr-e,istente <Pmport rdf file= 9ret2ngulo ":' No nosso e,emplo vamos demonstrar a criao de um novo arquivo' Ao clicar na opo <5anual= aparecer* uma 1anela como na figura acima, nessa 1anela o usu*rio tem que especificar qual tipo de dado ele est* tra$al#ando 9ret2ngulo:, e para prosseguir clicar em <Continue=' /m seguida surgir* uma 1anela onde o usu*rio determina o nAmero de #apl7tipos 9ret2ngulo @, figura acima:, nAmero de marcadores 9ret2ngulo !: e peso para cada l7cus 9ret2ngulo H:' (ara dar continuidade clique em <Create=' A pr7,ima 1anela que a$rir* ser* semel#ante a esta figura acima' Nela, o usu*rio tem a opo de escol#er o nome dos #apl7tipos 9ret2ngulo L:, determinar o estado dos loci 9ret2ngulo M:, a frequ+ncia do #apl7tipo 9ret2ngulo : e determinar o peso para cada l7cus 9ret2ngulo 1):' ?odas essas modificaDes podem ser feitas clicando so$re o item e digitando a nova informao dese1ada' 8 novo tra$al#o deve ser salvo e para faz+-lo clique em <Jave='
Qma vez criado o con1unto de dados, #ora de realizar as an*lises' (ara isso o usu*rio deve clicar em <Calculate Net0or&= 9ret2ngulo 11 da figura acima:, ao clicar outras a$as aparecero' Je o usu*rio dese1ar fazer um pr-processamento dos dados, ele pode clicar na opo <8ptional (re-(rocessing= 9ret2ngulo 1N:' Nesta opo os seus dados sero contrados em formato de estrela antes da an*lise' 8s c*lculos do Net0or& so realizados ao optar a a$a <Net0or& Calculations= 9ret2ngulo 1":, nesta opo o software disponi$iliza ao usu*rio dois algoritmos para reconstruo da rede de #apl7tipos, so eles4 'educed %edian 9ret2ngulo 1!: e %edia !oining 9ret2ngulo 1H:' 8s autores do software recomendam utilizar a segunda opo, por ser um algoritmo que permite dados multi-estados' A a$a marcada com o nAmero 1@ uma an*lise opcional assim como a opo de nAmero 1N' Nesta opo o usu*rio faz um processamento dos seus dados ap7s os c*lculos da Net0or&, o p7s-processamento uma an*lise de 5*,ima (arcimYnia que faz uma limpeza retirando os n7s ancestrais e lin&s que no so necess*rios na rede de #apl7tipos' (ara prosseguir no nosso e,emplo, vamos escol#er a opo <5edian Xoining=' Ap7s escol#er esta opo uma 1anela se a$rir* e nela clique em <Oile= 9figura acima: e <8pen= para a$rir o arquivo de entrada' Antes de rodar a an*lise de %edian !oining o usu*rio pode a1ustar os par2metros no algoritmo, para isso ele deve clicar em <(arameters= 9ret2ngulo 1L da figura acima:' Nesta opo sero disponi$ilizados alguns par2metros com mudana no peso do l7cus, mudana no /psilon 9estimativa de dist2ncia gentica ponderada:, escol#er os #apl7tipos com frequ+ncia maior que um, entre outras opDes' Ap7s os a1ustes dos par2metros, o usu*rio deve clicar em <Calculate Net0or&= 9ret2ngulo 1M:' Ao rodar o algoritmo de c*lculos de net0or& o software vai gerar um arquivo de sada com e,tenso 'out para ser salvo pelo usu*rio' Agora que os c*lculos foram realizados, o usu*rio 1* pode desen#ar a sua rede de #apl7tipos clicando em <Dra0 net0or&= 9marcado na figura acima:' Qma nova 1anela a$rir* e nela o usu*rio deve clicar em <Oile= 9ret2ngulo 1: e <8pen= 9ret2ngulo N): para a$rir o arquivo recm-gerado' Ap7s a$rir o arquivo, a rede de #apl7tipos comear* a ser desen#ada' Jurgiro duas 1anelas de aviso, como estas mostradas na figura acima, o usu*rio deve clicar em <8[= na primeira 1anela e <Wes= na segunda' Depois de clicar na segunda 1anela aparecer* uma opo <Continue= que deve ser apertada 9figura acima:' Iogo ap7s vir* uma opo <Oinalize= que tam$m deve ser clicada' No final a sua rede de #apl7tipos aparecer* desen#ada como na figura a$ai,o' (ara editar a rede de #apl7tipos, o usu*rio tem de clicar com o $oto direito do mouse so$re o n7 dese1ado 9#apl7tipo:' Ao clicar, se a$rir* uma 1anela com opDes para alterar a configurao dos #apl7tipos 9figura a$ai,o:' Nesta 1anela o usu*rio pode atri$uir fatias ao seu #apl7tipo, nAmero de indivduos por fatia e cor das fatias para representar os indivduos que possuem aquele #apl7tipo' Depois de alterar as configuraDes dos #apl7tipos, a imagem pode ser salva da seguinte forma4 clicando em <Oile= 9ret2ngulo N1 da figura a$ai,o: e <Jave= 9ret2ngulo NN:' 8 arquivo de sada deve ser salvo primeiramente no formato 'fdi e tam$m pode ser salvo como figura em dois formatos opcionais4 'pdf e '$mp' 8utra an*lise que possvel de ser realizada com o software Net0or& a estimativa de datao que pode ser realizada ap7s o desen#o da rede de #apl7tipos' 8 usu*rio deve clicar em <?ime estimates= como mostrado na figura a$ai,o' / logo ap7s clicar em <Oile= 9ret2ngulo N" da figura a$ai,o: e <8pen= 9ret2ngulo N@:, o arquivo que serve de entrada para esta an*lise aquele com e,tenso 'fdi, recm criado pelo usu*rio' Ap7s a$rir o arquivo com e,tenso 'fdi, o usu*rio tem a opo de cali$rar a ta,a de mutao para o seu marcador utilizado 9ret2ngulo N! da figura a$ai,o:, depois ele deve clicar em <JpecifR ancestral node= 9ret2ngulo NH: e clicar no n7 ancestral, em seguida ele clica em <JpecifR descendent nodes= 9ret2ngulo NL: e clica so$re o n7 descendente' (osteriormente o usu*rio clicar* em <Calculate time= 9ret2ngulo NM: e os resultados aparecero num quadro 9ret2ngulo N:, os resultados indicaro o tempo de diverg+ncia entre os dois n7s em mutaDes e em anos' SELEO DE MODELOS E?OLUTI?OS 8s modelos evolutivos so a representao quantitativa dos aspectos evolutivos de determinado con1unto de sequ+ncias 9e,g, ConteAdo de BC, frequ+ncia das $ases nitrogenadas, transiDes e transversDes:' /stes modelos so avaliados quanto a sua pro$a$ilidade de e,plicar um con1unto de dados de forma que reflita a #ist7ria evolutiva mais verossmil' 8 modelo que apresentar o mel#or valor de verossimil#ana, que, por questDes operacionais, dado em forma logartmica, ser* o escol#ido como $ase para a reconstruo da *rvore filogentica' (ara a escol#a do modelo evolutivo necess*rio que se ten#a o alin#amento do con1unto de dados e a utilizao do programa X5odel?est ela$orado pelo grupo do pesquisador David (osada' 1. Ao a$rir o X5odel?est clique em <Oile= 9N: e em seguida <Ioad sequence= 9": para a$rir o alin#amento em formato OAJ?A ou (EWIP(, @' /m seguida no $oto <AnalRsis=, clique em <Jcores=' 3 importante que s7 realize as alteraDes nos par2metros quando se #ouver con#ecimento, caso no #a1a, o padro deve ser utilizado' Ap7s c#ecar os par2metros, clique em <Compute li&eli#oods= 9@:' Neste momento o programa calcular* todos os valores de verossimil#ana para todos os modelos con#ecidos' !' Ao trmino deste procedimento, retorne ao $oto <AnalRsis= e escol#a a estatstica que ir* escol#er o modelo evolutivo' 8 X5odel?est oferece @ tipos de estatstica 9!: com a finalidade de escol#er o modelo evolutivo apropriado para o con1unto de dados, iremos utilizar o A[AP[/ PNO8>5A?P8N C>P?/>P8N 9APC:' H' Jalve o resultado para an*lises posteriores' R?ORES FILO$EN@TICAS: DISTENCIA E MFIMA PARSIMGNIA 8s mtodos de dist2ncia gentica foram os primeiros utilizados para a o$teno de dendrogramas e *rvores filogenticas' /stes mtodos so $aseados em matrizes de dist2ncia simples, que so calculadas a partir das diferenas entre os dados a serem analisados 9dados morfol7gicos, disposio de $andas na (C> e sequ+ncias DNA ou amino*cidos:' 8s mtodos de dist2ncia mais utilizados so Q(B5A, Neig#$or-Xoining 9NX: e /voluo 5nima 95/:' (ara estes mtodos, utilizaremos o programa 5/BA! desenvolvido pelo grupo dos pesquisadores Nei, [umar e ?amura' 8 mtodo mais simples o de Q(B5A que foi desenvolvido para a construo de fenogramas, apresentando as similaridades fenotpicas entre as 8?Qs 9(perational Taxonomic .nits, unidades ta,onYmicas que se dese1a comparar:, mas pode tam$m ser utilizado para construir *rvores filogenticas se as ta,as de evoluo so apro,imadamente constantes entre diferentes lin#agens 9relao mais ou menos linear entre a dist2ncia evolutiva e o tempo de diverg+ncia:' /ste mtodo fornece um dendrograma 1* enraizado, refletindo as diferenas entre os 8?Qs' 8 mtodo NX utiliza uma *rvore em formato de estrela e agrupa dois t*,ons estreitamente relacionados 9menor dist2ncia: transformando-o em um grupo, que ser* tratado como uma Anica unidade, e repete at que todos os t*,ons formem o dendrograma, $aseado na relao dos ramos mais pr7,imos 9vizin#os:' X* no mtodo de /voluo 5nima, pode-se comear a partir de uma *rvore de NX e escol#e topologia cu1o somat7rio dos ramos se1a o menor' A 5*,ima (arcimYnia 95(: tem como principal fundamento escol#er a topologia que requer o menor nAmero de passos' Deste modo, este tipo de agrupamento no se $aseia em dist2ncia gentica e sim nos aspectos qualitativos das mudanas dos caracteres e, assim como os mtodos de dist2ncia, pode ser empregado para diferentes tipos de dados 9dados morfol7gicos, disposio de $andas na (C> e sequ+ncias DNA ou amino*cidos:' No mtodo de parcimYnia e,istem dois ndices importantes que verificam a qualidade do con1unto de dados utilizado' (ara este mtodo, tam$m ser* utilizado o programa 5/BA!' 8 ndice de #omoplasia 9EP: e o ndice de consist+ncia rescalonado 9>C: indicam o quanto de #omoplasias o con1unto de dados possui' Fuanto menor for o EP menor a pro$a$ilidade de se ter #omoplasias dentro dos dados, 1* o >C inversamente proporcional ao EP, logo, quanto maior for o >C menor a quantidade de #omoplasias que o con1unto de dados possui' (ara todos os mtodos de o$teno de dendrogramas necess*rio um teste de confia$ilidade que $aseado em pseudo-replicaDes do con1unto de dados, a fim de validar a consist+ncia dos agrupamentos o$tidos' Nestes casos utilizaremos o algoritmo de bootstrap, tam$m implementado no 5/BA!' 1. A$ra o arquivo OAJ?A do alin#amento no programa 5/BA!' 2. Clique em <Oile= e em seguida <(#Rlogenetic AnalRsis= para carregar o con1unto de dados no programa' 3. Ap7s carregar o alin#amento no 5/BA!, clique no $oto <(#RlogenR=' Neste $oto aparecero as opDes de dist2ncia 9Q(B5A, NX e 5/: e 5*,ima (arcimYnia 95(:' As opDes assinaladas por ", @ e ! correspondem aos mtodos de dist2ncia Q(B5A, NX e 5/, respectivamente' Ao selecionar qualquer tipo de mtodo, a mesma cai,a de par2metros aparecer*, onde L o tipo de mtodo escol#ido, M mtodo de consist+ncia dos ramos e validao dos agrupamentos 9sempre S 1))):, e o tipo de correo para o modelo, neste caso, imprescindvel o con#ecimento do modelo evolutivo' /m 1), est* o comando para realizar a o$teno da topologia' Note que as topologias o$tidas pelo mtodo de Q(B5A no possui a funo de enraizamento, e esta uma limitao do mtodo, entretanto NX e 5/ permitem que se escol#a o grupo e,terno atravs do $oto 11' M.7im! P!r)imHi! No 5/BA!, os passos para se o$ter um dendrograma so os mesmos passos para se o$ter topologias $aseadas em mtodos de dist2ncia, entretanto, na cai,a de par2metros surge uma nova vari*vel que o mtodo de $usca' 8s mtodos de $usca 91N: podem ser branc" and baund ou #eurstica' Oinalizando, para se o$ter os ndices das topologias de m*,ima parcimYnia 9EP e >C: $asta clicar no $oto <Caption= 91": quando o programa terminar o c*lculo do dendrograma' MFIMA ?EROSSIMILHANA E INFER=NCIA BAIESIANA A 5*,ima 6erossimil#ana 956: um mtodo pro$a$ilstico a priori em que a o$teno dos dendrogramas realizada a partir dos modelos evolutivos em que a pro$a$ilidade de 56 calculada para cada stio' (ara este mtodo recomendado o programa (#R5I "'), disponi$ilizado no "ome page4 #ttp4KK000'atgcmontpellier'frK p#RmlK$inaries'p#p, do grupo do David (osada' 8 teste de confia$ilidade da topologia o bootstrap com no mnimo 1))) pseudo-rplicas' 1. Copie um alin#amento no formato (EWIP( na pasta do (#R5I "')' 2. /,ecute o programa (#Rml'e,e, coloque o nome do arquivo copiado e aperte /N?/> para a$rir o menu' 3. Digite <C= e /N?/> para a$rir o su$-menu de an*lises' 4. Digite 5, at ac#ar o modelo evolutivo para seu con1unto de dados, sugerido pelo X5odel?est' 5. Digite ?, para alterar a ta,a de transio e transverso, 6 para alterar a ta,a de proporo dos stios invari*veis e A para alterar a proporo Bama' 6. Ap7s alterar estes par2metros, digite <\< duas vezes para c#egar ao teste de bootstrap' 7. Digite ., para ativar o bootstrap, logo ap7s digite o nAmero de pseudo-rplicas e aperte /N?/>' 8. Confirme o nAmero de bootstrap digitando W, e novamente W para comear a an*lise' 9. Ao trmino da an*lise, na pasta do programa (#R5I ser* adicionado um arquivo com a terminao p#Rml_tree' 10.A$ra o programa 5/BA! para visualizar a topologia' Clique em <Qser tree=, em seguida <DisplaR Ne0ic& trees=' Note que, ao visualizar a topologia, os valores de bootstrap iro variar de 1 a 1))), logo, antes de visualizar a topologia, edite o arquivo da *rvore em um documento de te,to' A infer+ncia filogentica utilizando a an*lise .aResiana fundamentada na pro$a$ilidade a posteriori, tam$m utiliza os modelos evolutivos, e para os c*lculos das pro$a$ilidades utilizado o algoritmo 5onte Carlo Cadeia de 5arcov 95C5C:' (ara esta an*lise utilizado o programa 5r.aRes' 1' A partir do alin#amento, o$ten#a um arquivo no formato N/TQJ' 2. A$ra o arquivo N/TQJ no 0ordpad e acrescente o seguinte script4 /m que 1 a frequ+ncia de cada $ase nitrogenada 9o$tido no X5odel?est:' 8 nAmero N a frequ+ncia de cada su$stituio 9o$tido no X5odel?est:, " o comando para estimar a ta,a gama e @ a proporo de stios invari*veis 9P:, am$os o$tidos 1unto com o modelo evolutivo' 8 nAmero ! so os par2metros da Cadeia de 5arcov, H e L local onde insere o nome do e,perimento e M o perodo de aquecimento da 5C5C' 3. Ap7s copiar este script no arquivo N/TQJ, salve-o na pasta do 5r.aRes' 4. /,ecute o programa 5r.aRes, digite o nome do arquivo a ser e,ecutado e em seguida aperte a tecla /N?/>' !' 8 programa ser* fec#ado automaticamente ap7s o trmino da an*lise' H' 8 programa criar* v*rios arquivos com o nome do e,perimento' 7. Com a1uda do programa ?ree6ie0 disponvel no site #ttp4KKta,onomR'zoologR'gla'ac'u&KrodKtreevie0'#tml, a$ra o arquivo com a terminao 'con, para visualizar a topologia o$tida'