You are on page 1of 165

Universidade Estadual de Campinas

Faculdade de Engenharia El´etrica e de Computa¸ c˜ao
Departamento de Telem
´
atica
Modelo de Sistema de
Comunica¸c˜oes Digital para o Mecanismo de
Importa¸c˜ao de Prote´ınas Mitocondriais
Atrav´es de C´odigos Corretores de Erros
Autora: Andr´ea Santos Leite da Rocha
Orientador: Prof. Dr. Reginaldo Palazzo J´ unior
(DT-FEEC/UNICAMP)
Co-Orientador: Prof. Dr. M´arcio de Castro Silva Filho
(ESALQ/USP)
Banca Examinadora:
Prof. Dr. Reginaldo Palazzo J´ unior FEEC/UNICAMP
Prof. Dr. Geraldo Pompeu Junior UFSCar/Sorocaba
Prof. Dr. Max Henrique Machado Costa FEEC/UNICAMP
Prof. Dr. Weiler Alves Finamore PUC/RJ
Prof. Dr. Romis Ribeiro Faissol Attux FEEC/UNICAMP
Tese apresentada na Faculdade de Engenha-
ria El´etrica e de Computa¸ c˜ao da Universi-
dade Estadual de Campinas, como parte dos
requisitos exigidos para a obten¸ c˜ao do t´ıtulo
de Doutor em Engenharia El´etrica.
Campinas - SP
Fevereiro de 2010
.
Para o meu filho, Henrique Esteban.
Roubei tantas horas ao teu conv´ıvio
para poder escrever esta tese.
Por isso ela te pertence, meu amor.
Dedico
i
Agradecimentos
1
Ao Prof. Dr. Reginaldo Palazzo J´ unior pela sua excelente orienta¸ c˜ao, disposi¸ c˜ao, paciˆencia
e compreens˜ao durante o desenvolvimento deste trabalho. Em especial, `a sua amizade e `a
sua confian¸ ca depositada em mim. Meu grande exemplo de humildade e bondade. Sempre
me recordarei, com muito carinho e saudades, das nossas reuni˜oes regadas a muitos caf´es,
das nossas agrad´aveis conversas e das boas risadas. Deixo com vocˆe a minha eterna gratid˜ao.
Ao meu co-orientador Prof. Dr. M´arcio de Castro Silva Filho pelas nossas conversas e
pela oportunidade desta parceria.
Aos professores membros da banca examinadora pela disponibilidade e aten¸ c˜ao dispensada
ao trabalho, bem como por suas valiosas sugest˜oes. Em particular, `a professora Carmen
Bertuzzo pelo carinho com que sempre nos tratou.
Ao Prof. Dr. Geraldo Pompeu Jr., pelo seu carinho e dedica¸ c˜ ao ao ensino da matem´atica
neste pa´ıs. Em especial pelo meu encaminhamento ao mundo acadˆemico. Vocˆe ser´a o meu
eterno “padrinho acadˆemico”.
Ao Prof. Dr. Walter Borelli pelas ´otimas coversas sobre diversos assuntos, mas principal-
mente, pelas ´otimas gargalhadas. Pe¸ co a Deus que conserve este ´otimo senso de humor t˜ao
peculiar.
Ao Dr. Marcelo M. Brand˜ao pela ajuda na escrita da se¸ c˜ao sobre filogenia e por estar
sempre disposto a ajudar.
Ao meu marido Gerson pelo seu constante apoio no decorrer deste trabalho. Em especial
pela sua paciˆencia nos momentos dif´ıceis. Sem a sua compreens˜ao e companheirismo este
trabalho jamais seria concretizado. Muito obrigada por ser a minha alma gˆemea.
Aos meus pais, Maria e Antonio, por terem me ensinado a nunca desistir dos meus sonhos.
A minha doce irm˜a por sempre ter confiado em mim e me elogiado em excesso. A admira¸ c˜ao
rec´ıproca ´e mais que verdadeira, tenho muito orgulho em ser sua irm˜a.
`
A minha grande amiga irm˜a, Luzinete, sempre t˜ao querida e prestativa durante todos
estes anos de convivˆencia. Uma das pessoas mais dignas e corretas que j´a conheci. Este
trabalho s´o foi poss´ıvel devido `a sua parceria e `as nossas longas conversas sobre o mundo
biol´ogico e matem´atico. Com vocˆe deixo o meu eterno carinho, amor e respeito.
`
As minhas amigas, Wanessa e Clarice, pelos ´otimos momentos em que passamos estes
anos. Por todos os nossos almo¸ cos, caf´es e “batidinhas de pernas”, principalmente por
sempre terem me ajudado quando precisei dando-me for¸ ca para continuar. Claro que n˜ao
1
Este trabalho foi financiado pelo Conselho Nacional de Desenvolvimento Cient´ıfico e Tecnol´ ogico - CNPq
iii
poderia me esquecer, da nossa hil´aria visita `a cl´ınica de reprodu¸ c˜ao humana. Guardo a nossa
amizade no meu cora¸ c˜ao.
Aos meus amigos, Jo˜ao Henrique e Giuliano, meus dois irm˜aozinhos que tornaram esta
jornada inesquec´ıvel e muito prazerosa. Com vocˆes deixo as minhas melhores recorda¸ c˜oes.
`
A minha amiga Lucila por estar sempre disposta a ajudar. Admiro a sua dedica¸ c˜ao e a
sua competˆencia.
Aos funcion´arios da FEEC que de alguma forma contribuiram para a realiza¸ c˜ao deste
trabalho. Em especial, a minha querida Noˆemia que tornou-se uma grande amiga no decorrer
destes anos.
`
A FAPESP pelo suporte junto ao projeto tem´atico 02/07473-7.
De modo geral, agrade¸ co a todos meus amigos e colegas que, direta ou indiretamente,
contribu´ıram para realiza¸ c˜ao deste trabalho.
iv
Resumo
Um dos desafios em biologia matem´atica ´e mostrar a existˆencia de qualquer forma de
c´odigos corretores de erros na estrutura do DNA. Usando os conceitos da teoria de comu-
nica¸ c˜ao, propomos um modelo para o sistema de codifica¸ c˜ao e decodifica¸ c˜ao do mecanismo
de importa¸ c˜ao de prote´ınas mitocondriais similar a um sistema de comunica¸ c˜oes digital. Este
modelo consiste de um mapeador respons´avel por transformar os nucleot´ıdeos (A, C, G, T) no
alfabeto (0, 1, 2, 3) usado pelo c´odigo sobre a estrutura de anel; um codificador (c´odigo BCH);
e um modulador (c´odigo gen´etico, tRNA e rRNA). O processo de decodifica¸ c˜ao baseia-se em
uma analogia entre o processo de decodifica¸ c˜ao do algoritmo Berlekamp-Massey para an´eis e
o complexo TOM (complexo ancorado na membrana externa da mitocˆondria respons´avel por
auxiliar na importa¸ c˜ao das prote´ınas precursoras). Neste processo temos um demodulador
(prote´ınas Tom 70 e Tom20), um decodificador (o complexo GIP - poro geral de inser¸ c˜ao) e o
receptor (subcompartimento mitocondrial). Neste trabalho mostramos que as sequˆencias de
DNA (sequˆencias de direcionamento) s˜ao identificadas como palavras-c´odigo de um c´odigo
G-linear sobre a extens˜ao de um anel de Galois. Al´em disso, essas sequˆencias de DNA e suas
fitas complementares est˜ao relacionadas matematicamente atrav´es dos polinˆomios primitivos
e seus polinˆomios rec´ıprocos, respectivamente. Um estudo filogen´etico sugere que a prote´ına
malato desidrogenase da Arabidopsis thaliana encontrada no banco de dados NCBI ´e uma
sequˆencia derivada da prote´ına malato desidrogenase reproduzida pelo c´odigo corretor de
erros. Este modelo tamb´em reproduz com not´avel precis˜ao os parˆametros cin´eticos baseados
em substitui¸ c˜oes de amino´acidos em oligopept´ıdeos sint´eticos. Apresentamos, pela primeira
vez, a existˆencia de c´odigos corretores de erros associados com as sequˆencias de DNA, os
quais sugerem fortemente a existˆencia de c´odigos concatenados no genoma. Os resultados
apresentados neste trabalho contribuem para o desenvolvimento de um procedimento sis-
tem´atico que poder´a ser empregado em an´alises de muta¸ c˜ oes/polimorfismos com aplica¸ c˜oes
na engenharia gen´etica.
Palavras-chave: C´odigos corretores de erros, c´odigo BCH, sequˆencias de DNA, trans-
porte de prote´ınas, muta¸ c˜oes, polimorfismo.
v
Abstract
One of the puzzling problems in mathematical biology is to show the existence of any form
of error-correcting code in the DNA structure. Using information theory considerations we
propose a model for the biological coding system similar to that of a digital communication
system. This model consists of a mapper (transformations from the set of nucleotides either
to the set (0,1,2,3) ring; an encoder (BCH code); and a modulator (genetic code, tRNA and
rRNA). The decoding process is based on the Modified Berlekamp-Massey algothm in an
analogy with the TOM complex (translocase of the mitochondrial outer membrane). In this
process we have a demodulator (Tom 70 and Tom 20 proteins), a decoder (GIP complex) and
the receiver (mitochondrion). In this work we show that DNA sequences (targeting sequences)
are identified as codewords of a G-linear code over Galois ring extensions. In addition, these
DNA sequences and their complementary strands are mathematically related to the primitive
polynomials and their reciprocal polynomials, respectively. A phylogenetic study suggest that
the MDH protein, Arabidopsis thaliana, found in the NCBI databank is a derived sequence
of the MDH protein reproduced by the error correcting code. This model also reproduces
with remarkable accuracy kinetic parameters based on amino acid substitutions on synthetic
oligopeptides. We show, for the first time, the existence of error-correcting codes associated
with DNA sequences, which strongly infer on the existence of nested codes within the genome.
The results presented in this work contribute to the development of a systematic procedure
which may be employed in the mutations/polymorphisms analysis with applications in genetic
engineering.
Key-words: Error correction code , BCH code, DNA sequences, transport proteins,
mutations, polymorphisms.
vii
Conte´ udo
Dedicat´oria i
Agradecimentos iii
Resumo v
Abstract vii
Lista de Figuras xii
Lista de Tabelas xv
1 Introdu¸c˜ao 1
1.1 Os Avan¸ cos Hist´oricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Modelos Propostos na Literatura . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Proposta de um modelo de comunica¸ c˜ao gen´etica para a importa¸ c˜ao
de prote´ınas organelares . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Apresenta¸ c˜ao do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Descri¸ c˜ao do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Elementos de Biologia e C´odigos Corretores de Erros 13
2.1 Importa¸ c˜ao de Prote´ınas Organelares . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 A Mol´ecula de DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.2 Importa¸ c˜ao de Prote´ınas em Mitocˆondrias . . . . . . . . . . . . . . . 17
2.1.3 Muta¸ c˜oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 C´odigos Corretores de Erros . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.1 Estruturas Alg´ebricas . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2 An´eis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.3 C´odigos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.2.4 C´odigos Geometricamente Uniformes . . . . . . . . . . . . . . . . . . 44
ix
Conte´ udo
2.2.5 C´odigos C´ıclicos Sobre An´eis de Inteiros Residuais . . . . . . . . . . . 48
2.2.6 C´odigos BCH sobre An´eis . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3 Decodifica¸ c˜ao do C´odigo BCH sobre Anel . . . . . . . . . . . . . . . . . . . . 55
2.3.1 O Processo de Decodifica¸ c˜ao . . . . . . . . . . . . . . . . . . . . . . . 56
2.3.2 Gera¸ c˜ao de Sequˆencias . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3 Modelo de um Sistema de Comunica¸c˜ao para a Importa¸c˜ao de Prote´ınas
Organelares 69
3.1 Analogias entre um Sistema de Informa¸ c˜ao Gen´etica e um Sistema de Comu-
nica¸ c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.1.1 O dogma central da biologia molecular . . . . . . . . . . . . . . . . . 69
3.1.2 O dogma central da teoria de comunica¸ c˜oes . . . . . . . . . . . . . . 71
3.1.3 Analogias entre sistema de informa¸ c˜ao gen´etica e o sistema de comu-
nica¸ c˜oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.2 Proposta de um Sistema de Comunica¸ c˜ao para a Importa¸ c˜ao de Prote´ınas . . 73
3.2.1 Sistema de comunica¸ c˜ao digital . . . . . . . . . . . . . . . . . . . . . 73
3.2.2 Sistema de comunica¸ c˜ao biol´ogico . . . . . . . . . . . . . . . . . . . . 74
3.2.3 O c´odigo e a estrutura matem´atica . . . . . . . . . . . . . . . . . . . 76
3.2.4 Parˆametros do c´odigo . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.2.5 Modelo do sistema de comunica¸ c˜ao biol´ogico . . . . . . . . . . . . . . 78
4 Gera¸c˜ao das Sequˆencias de Direcionamento 83
4.1 Algoritmo de Codifica¸ c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2 Resultados da Codifica¸ c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.2.1 Dependˆencia entre os c´odigos corretores de erros e os polinˆomios prim-
itivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.2.2 Rotulamento das sequˆencias de DNA . . . . . . . . . . . . . . . . . . 94
4.2.3 Rela¸ c˜ao matem´atica entre as fitas codante e n˜ao codante . . . . . . . 95
4.2.4 Alto fluxo de informa¸ c˜ao - baixa redundˆancia . . . . . . . . . . . . . 96
4.2.5 Classifica¸ c˜ao das sequˆencias de direcionamento sob o ponto de vista
matem´atico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5 Regenera¸c˜ao de Sequˆencias de DNA 107
5.1 Algoritmo de Decodifica¸ c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.2 Resultados da Decodifica¸ c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.3 Reprodu¸ c˜ao das Sequˆencias de DNA atrav´es do LFSR . . . . . . . . . . . . . 118
x
Conte´ udo
6 An´alises de Muta¸c˜oes e de Polimorfismos em Sequˆencias de DNA 125
6.1 An´alises da Importˆancia dos Res´ıduos de Argininas . . . . . . . . . . . . . . 126
6.1.1 Resultados das an´alises via laborat´orio . . . . . . . . . . . . . . . . . 127
6.1.2 Resultados das an´alises via c´odigos corretores de erro . . . . . . . . . 128
6.2 Estudo de Filogenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
6.3 Simula¸ c˜oes de Muta¸ c˜oes em Sequˆencias de Direcionamento Mitocondriais . . 133
7 Conclus˜oes e Perspectivas Futuras 143
7.1 Desenvolvimento do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 144
7.2 Contribui¸ c˜oes do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
7.3 Propostas Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
7.4 Considera¸ c˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Referˆencias Bibliogr´aficas 148
xi
Lista de Figuras
1.1 Teoria da informa¸ c˜ao baseada no modelo de Roman-Roldan. . . . . . . . . . 6
1.2 Modelo proposto pela May, [3]. . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Modelo de um sistema de comunica¸ c˜ao para a importa¸ c˜ao de prote´ınas or-
ganelares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1 Formas tautom´ericas das bases. . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Estrutura tridimensional do DNA. . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3 Fitas complementares de DNA. . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 Micrografia eletrˆonica de uma mitocˆondria. Lodish et al., Molecular Cell Bi-
ology, 5th Edition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5 Os translocons de prote´ınas na mitocˆondria. Pfanner et al., Assembling the
Mitochondrial Outer Membrane”, Nature Structural & Molecular Biology,
Vol. 11, pp. 1044-1048, 2004. . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6 O complexo TOM. Dekker et al., Preprotein Translocase of the Outer Mito-
chondrial Membrane: Molecular Dissection and Assembly of the General Im-
port Pore Complex, Molecular and Cellular Biology, Vol. 18, pp. 6515-6524,
1998. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.7 O complexo TIM23. Mokranjac, et al., Protein import into mitochondria Bio-
chemical Society, Vol. 33, pp. 1019-1023, 2005. . . . . . . . . . . . . . . . . . 22
2.8 Diferentes rotas para a importa¸ c˜ao de prote´ınas mitocondriais. Lodish et al.,
Molecular Cell Biology, 5th Edition. . . . . . . . . . . . . . . . . . . . . . . . 24
2.9 Importa¸ c˜ao de prote´ınas para o interior da matriz. Lodish et al., Molecular
Cell Biology, 5th Edition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.10 Importa¸ c˜ao de prote´ınas para membrana externa. Pfanner, Assembling the
Mitochondrial Outer Membrane, Nature Structural & Molecular Biology, Vol.
11, pp. 1044-1048. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.11 Importa¸ c˜ao de prote´ınas para o espa¸ co intermembranas. Lodish et al., Molec-
ular Cell Biology, 5th Edition. . . . . . . . . . . . . . . . . . . . . . . . . . . 27
xiii
Lista de Figuras
2.12 Importa¸ c˜ao de prote´ınas para a membrana interna. Lodish et al., Molecular
Cell Biology, 5th Edition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.13 LFSR (“linear feedback shift-register”) de comprimento L. . . . . . . . . . . 66
3.1 Dogma central da teoria de comunica¸ c˜oes. . . . . . . . . . . . . . . . . . . . 71
3.2 Modelo de um sistema de comunica¸ c˜oes de informa¸ c˜ao gen´etica. . . . . . . . 73
3.3 Diagrama de blocos de um sistema de comunica¸ c˜ao. . . . . . . . . . . . . . . 74
3.4 Modelo de um sistema de comunica¸ c˜ao para importa¸ c˜ao de prote´ınas. . . . . 75
3.5 Sistema de comunica¸ c˜oes digital. . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.6 Modelo proposto para codifica¸ c˜ao biol´ogica. . . . . . . . . . . . . . . . . . . 79
3.7 Modelo proposto para decodifica¸ c˜ao biol´ogica. . . . . . . . . . . . . . . . . . 80
4.1 Rotulamentos A, B e C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.2 Rela¸ c˜ao entre a dupla fita do DNA. O c´odigo faz a leitura das palavras-c´odigos
no sentido da esquerda para `a direita. A cor vermelha indica onde ocorreu a
diferen¸ ca de nucleot´ıdeos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.3 Rela¸ c˜ao entre as fitas codante e n˜ao codante. O c´odigo faz a leitura das
palavras-c´odigos no sentido da esquerda para `a direita. A cor vermelha indica
onde ocorreu a diferen¸ ca de nucleot´ıdeos. . . . . . . . . . . . . . . . . . . . . 97
5.1 SD NCBI em SD reproduzida pelo c´odigo. . . . . . . . . . . . . . . . . . . . 116
5.2 SD reproduzida pelo c´odigo em SD NCBI. . . . . . . . . . . . . . . . . . . . 117
5.3 Fitas codante e n˜ao codante. . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.4 Vetor u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.5 Vetor u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.6 LFSR fita codante 5’ para 3’. . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.7 LFSR fita n˜ao codante 5’ para 3’. . . . . . . . . . . . . . . . . . . . . . . . . 122
5.8 Fita codante 5’ para 3’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.9 Reprodu¸ c˜ao atrav´es do LFSR da fita codante 5’ para 3’. . . . . . . . . . . . 123
6.1 Pept´ıdeo reproduzido nos trˆes rotulamentos. . . . . . . . . . . . . . . . . . . 129
6.2 Sequˆencia reproduzida pelo c´odigo BCH. . . . . . . . . . . . . . . . . . . . . 129
6.3 Phenogram inferred using the Neighbor-Joining method with the evolutionary
distances computed using the Jukes-Cantor model. The percentage of replicate
trees in which the associated taxa clustered together in the bootstrap test (1000
replicates). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
6.4 Phylogenetic tree inferred by Bayesian analysis from the data set. Values close
to the branches indicate Bayesian posterior probability.. . . . . . . . . . . . . 133
xiv
Lista de Tabelas
2.1 Arranjo padr˜ao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.1 M = mitocˆondria, C = cloroplasto, RE = ret´ıculo endoplasm´atico. . . . . . . 84
4.2 Elementos de F
64
em nota¸ c˜ao de r-uplas . . . . . . . . . . . . . . . . . . . . 86
4.3 Elementos de GR

(4, 6) em nota¸ c˜ao de r-uplas . . . . . . . . . . . . . . . . . 87
4.4 Elementos de G
63
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.5 Rela¸ c˜ao entre as linhas da matriz P e as 24 permuta¸ c˜oes. . . . . . . . . . . . 91
4.6 C´odigos BCH sobre GR(4, 6). Polinˆomios primitivos da extens˜ao r = 6:
p
1
(x) = x
6
+x+1, p
2
(x) = x
6
+x
5
+x
2
+x+1, p
3
(x) = x
6
+x
5
+x
3
+x
2
+1,
p
4
(x) = x
6
+x
4
+x
3
+x +1, p
5
(x) = x
6
+x
5
+x
4
+x+1 e p
6
(x) = x
6
+x
5
+1. 98
5.1 Tabela de Decodifica¸ c˜ao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.2 Tabela de Decodifica¸ c˜ao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.3 Tabela de Decodifica¸ c˜ao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.4 Complementares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.5 Sequˆencias de direcionamento com uma classe de s´ındrome. Fita codante 5’
para 3’ e fita n˜ao codante 3’ para 5’. . . . . . . . . . . . . . . . . . . . . . . 118
5.6 Sequˆencias de direcionamento com duas classes de s´ındromes. Fita codante 5’
para 3’ e fita n˜ao codante 3’ para 5’. . . . . . . . . . . . . . . . . . . . . . . 118
5.7 Sequˆencias de direcionamento com uma classe de s´ındrome. Fita complemen-
tar invertida 5’ para 3’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.8 Sequˆencias de direcionamento com duas classes de s´ındromes. Fita comple-
mentar invertida 5’ para 3’. . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
6.1 Extens˜oes peptidases analisadas. . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.2 Efeitos das substitui¸ c˜oes dos res´ıduos de argininas por alaninas e lisinas na
clivagem pela MPP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
6.3 Efeitos das substitui¸ c˜oes dos res´ıduos de argininas por alaninas e lisinas na
clivagem pela MPP atrav´es de c´odigos corretores de erros. . . . . . . . . . . 130
xv
Lista de Tabelas
6.4 Resultados das substitui¸ c˜oes dos res´ıduos de argininas. . . . . . . . . . . . . 136
6.5 Resultados das substitui¸ c˜oes dos res´ıduos de argininas. . . . . . . . . . . . . 138
6.6 Resultados das substitui¸ c˜oes dos res´ıduos de argininas. . . . . . . . . . . . . 139
6.7 Resultados das substitui¸ c˜oes dos res´ıduos de argininas. . . . . . . . . . . . . 140
6.8 Resultados das substitui¸ c˜oes dos res´ıduos de argininas. . . . . . . . . . . . . 142
xvi
Cap´ıtulo 1
Introdu¸ c˜ao
Embora n˜ao aparentam estar relacionadas, tanto a teoria de comunica¸ c˜oes quanto a
gen´etica preocupam-se com a transferˆencia da informa¸ c˜ ao. Al´em do fato de que a teoria de
comunica¸ c˜oes ´e realizada pelo homem e a gen´etica por um processo natural, ambas diferem
entre si, principalmente, por n˜ao operarem na mesma dimens˜ao. A teoria de comunica¸ c˜oes
est´a programada para enviar mensagens no espa¸ co, de um lugar para outro, enquanto que a
gen´etica est´a programada para enviar mensagens heredit´ arias no tempo [1].
O sucesso consider´avel da tecnologia de comunica¸ c˜ao conta com o progresso significativo
na concep¸ c˜ao de dispositivos f´ısicos mas tamb´em, embora muito menos percept´ıvel, no desen-
volvimento de um poderoso ferramental conceitual, consistentemente garantido pelo teoria
da informa¸ c˜ao. Embora esse ferramental tenha sido originalmente desenvolvido para a co-
munica¸ c˜ao atrav´es do espa¸ co, ´e suficientemente abrangente para aplica¸ c˜ao na comunica¸ c˜ao
atrav´es do tempo [1].
A quest˜ao central pode ser colocada da seguinte maneira: A estrutura te´orica elaborada
pelo homem pode contribuir para uma melhor compreens˜ao dos processos naturais que en-
volvem a comunica¸ c˜ao gen´etica ? A resposta ´e sim. A perspectiva provida principalmente
pela teoria da informa¸ c˜ao renova a vis˜ao que podemos ter do “mundo vivo”[1].
1.1 Os Avan¸ cos Hist´oricos
Em meados do s´eculo XX ocorreram grandes avan¸ cos tanto na engenharia de comunica¸ c˜ao
quanto na engenharia gen´etica. Em 1953, a estrutura de dupla h´elice do DNA foi decifrada
por James Watson, Francis Crick, Maurice Wilkins e Rosalind Franklin. Com esta descoberta
ficou claro que a informa¸ c˜ao gen´etica est´a armazenada na forma de duas fitas diretamente
complementares compostas por letras de um alfabeto de quatro s´ımbolos. At´e a descoberta
das bases moleculares da gen´etica, os pesquisadores concentravam-se na gen´etica cl´assica,
1
Cap´ıtulo 1. Introdu¸ c˜ao
baseada nas leis da hereditariedade propostas pelo monge austr´ıaco Gregor Mendel.
Em 1940, Claude Elwood Shannon em sua tese de doutorado desenvolveu uma proposta
sobre rela¸ c˜oes matem´aticas ligadas `a gen´etica Mendeliana, com o objetivo de esclarecer como
diferentes combina¸ c˜oes de caracter´ısticas se propagaram atrav´es de v´arias gera¸ c˜oes. Apesar
do trabalho ser muito original naquela ´epoca, o fato de n˜ao ter sido publicado, o tornou
pouco conhecido e divulgado. Ap´os ter conclu´ıdo a sua tese de doutorado, Shannon desviou
seu foco para a comunica¸ c˜ao digital e criptografia.
Em 1948, Shannon estabeleceu a teoria fundamental de um sistema de comunica¸ c˜ao di-
gital, introduzindo o conceito de informa¸ c˜ao baseado somente na caracter´ıstica estat´ıstica da
fonte de informa¸ c˜ao, definindo a informa¸ c˜ao de maneira abstrata independente da semˆantica
que n˜ao diferencia texto, v´ıdeo ou ´audio como era geralmente feito naquela ´epoca nos estudos
de sistemas de comunica¸ c˜ao. Usando tal defini¸ c˜ao de informa¸ c˜ao, Shannon provou que a
mensagem gerada por uma fonte de informa¸ c˜ao pode ser compactada at´e o limite da entropia
da fonte (teorema de codifica¸ c˜ao de fonte) e que ´e poss´ıvel codificar a mensagem de tal
maneira que possamos transmiti-la livre de erros com uma taxa m´axima que o canal permite
(teorema de codifica¸ c˜ao de canal). Desde ent˜ao, a engenharia de comunica¸ c˜oes tem criado
algoritmos e estrat´egias para atingir os limitantes destes dois teoremas e consequentemente
realizando grandes avan¸ cos tecnol´ogicos.
A elucida¸ c˜ao da estrutura do DNA possibilitou descobertas fundamentais na biologia
celular e molecular. Essas descobertas revolucionaram a ciˆencia da vida e proporcionaram
o desenvolvimento em tecnologias de DNA recombinante e o lan¸ camento das ind´ ustrias bio-
tecnol´ogicas. Por outro lado, Shannon estabeleceu a teoria fundamental de um sistema de
comunica¸ c˜ao digital. A sua teoria ocasionou um impacto enorme em nosso cotidiano levando
principalmente ao desenvolvimento dos celulares, da internet e dos computadores.
Susan Hockfield, presidente do Instituto Tecnol´ogico de Massachusetts (MIT), em um
editorial da Science vol.323 de 27/02/2009 comenta: “These revolutions showed the seeds
of a third revolution that links the life sciences with engineering and the physical sciences
in powerful new ways. Many of molecular biology’s founders came from the physical sci-
ences, bringing to biology new analytical strategies and technologies. With the evolution of
data and technology-based biology, biologists worked increasingly closely with mathematicians,
engineers, and physical scientists”.
Historicamente, a aplica¸ c˜ao da teoria da informa¸ c˜ao para an´alises de dados gen´eticos
iniciou-se na d´ecada de 1970, por´em esses esfor¸ cos n˜ao tiveram sucesso. Ap´os alguns anos,
o aumento de dados gen´eticos despertou novamente o interesse na aplica¸ c˜ao da teoria da
informa¸ c˜ao ao estudo do genoma. Esse segundo per´ıodo de pesquisas continua at´e o presente
momento, por´em com um n´ umero muito reduzido de pesquisadores. Os trabalhos atual-
2
Cap´ıtulo 1. Introdu¸ c˜ao
mente buscam analogias entre o fluxo de informa¸ c˜ao biol´ogica e o sistema de comunica¸ c˜ao,
dividindo-se basicamente em trˆes linhas de pesquisas: teoria da informa¸ c˜ao gen´etica, teoria
da comunica¸ c˜ao gen´etica e a teoria da codifica¸ c˜ao gen´etica.
A aplica¸ c˜ao das teorias da informa¸ c˜ao, comunica¸ c˜ao e codifica¸ c˜ao em sistemas biol´ogi-
cos contribuem para uma melhor compreens˜ao dos paradigmas biol´ogicos fazendo com que
a biologia, que hoje ´e uma ciˆencia descritiva, se transforme em uma ciˆencia fundamentada
teoricamente. Por outro lado, os avan¸ cos das teorias da informa¸ c˜ao, comunica¸ c˜ao e codi-
fica¸ c˜ao podem ser alcan¸ cados atrav´es da compreens˜ao do sistema de informa¸ c˜ao biol´ogico.
Esta nova abordagem ´e muito promissora podendo proporcionar v´arios avan¸ cos, tais como:
• Identificar sistemas biol´ogicos que podem ser investigados experimentalmente usando
as teorias da informa¸ c˜ao, comunica¸ c˜ao e codifica¸ c˜ao;
• Usar a quantidade de dados e experiˆencias dispon´ıveis para testar a aplica¸ c˜ao das teorias
da informa¸ c˜ao, comunica¸ c˜ao e codifica¸ c˜ao;
• Compreender como as interferˆencias afetam os sistemas biol´ogicos;
• Descobrir como as hip´oteses da teoria da informa¸ c˜ao e codifica¸ c˜ao podem ser mo-
dificadas ou flexibilizadas para aplica-las em sistemas moleculares;
• Compreender como a codifica¸ c˜ao multidimensional ´e gerada e usada em prote´ınas e
outras estruturas biol´ogicas;
• Como as teorias da informa¸ c˜ao, comunica¸ c˜ao e codifica¸ c˜ao podem explicar os parˆa-
metros de intera¸ c˜ao biol´ogica entre mol´eculas, sendo que tais parˆametros podem ser
usados na constru¸ c˜ao do mais alto n´ıvel de um sistema biol´ogico;
• A cria¸ c˜ao de novas t´ecnicas de codifica¸ c˜ao que aproximam a capacidade do canal para
uma aplica¸ c˜ao molecular tanto em n´ıvel nanotecnol´ogico quanto em n´ıvel macrosc´opico.
1.2 Modelos Propostos na Literatura
A defini¸ c˜ao da informa¸ c˜ao baseada somente em caracter´ısticas estat´ısticas da fonte de in-
forma¸ c˜ao ´e tamb´em aplicada em dados gen´eticos. Recentes avan¸ cos na tecnologia de sequen-
ciamento do DNA fornecem dados suficientes para aplicar em biologia molecular, o conceito
geral de informa¸ c˜ao proposto por Shannon. Nos ´ ultimos anos, motivados pela disponibili-
dade de uma quantidade muito grande de sequˆencias genˆomicas em bancos de dados, v´arios
pesquisadores em teoria da informa¸ c˜ao e da codifica¸ c˜ao realizam pesquisas em duas frentes,
3
Cap´ıtulo 1. Introdu¸ c˜ao
a saber: 1) sob o ponto de vista da teoria da informa¸ c˜ao, aplicar os conceitos inerentes desta
com o objetivo de apresentar um m´etodo sistem´atico de determina¸ c˜ao das regi˜oes codantes
e n˜ao-codantes na estrutura do DNA (problema de codifica¸ c˜ ao de fonte); 2) sob o ponto de
vista da teoria da codifica¸ c˜ao, fornecer a fundamenta¸ c˜ao necess´aria para a caracteriza¸ c˜ao de
c´odigos corretores de erros (problema de codifica¸ c˜ao de canal).
Todavia, sob o ponto de vista da teoria de comunica¸ c˜ao, as pesquisas concentram-se mais
no aspecto de adapta¸ c˜ao do modelo tradicional de um sistema de comunica¸ c˜ao digital, em
termos de diagrama de blocos, `aquele do sistema biol´ogico por considerar que a informa¸ c˜ao
contida no genoma (estrutura do DNA) se d´a atrav´es de pacotes de informa¸ c˜ao contendo
regi˜oes com sequˆencias relacionadas a sincronismo, identifica¸ c˜ao de pacotes, codificantes, n˜ao
codificantes, etc.
Com base na semelhan¸ ca entre o fluxo de informa¸ c˜ao biol´ogica e o sistema de comu-
nica¸ c˜ao, v´arios modelos foram propostos. Schneider em [50, 51, 52], apresenta um procedi-
mento sistem´atico para identificar as regi˜oes codantes e n˜ao codantes nas sequˆencias de DNA
utilizando conceitos da teoria da informa¸ c˜ao. Yockey em [53], apresentou um modelo de
sistema de comunica¸ c˜ao digital associado ao da express˜ao gˆenica. Forsdyke em [54, 55] con-
siderou a possibilidade de que os introns poderiam ser os d´ıgitos de verifica¸ c˜ao de paridade
associados aos exons. Por outro lado, Rzeszowska-Wolny, [56], propˆos que um arranjo apro-
priado do DNA em nucleosomos pode ser relevante para a operacionalidade deste sistema.
Liebovitch em [57], propˆos um procedimento que torna poss´ıvel determinar se um tipo de
c´odigo corretor de erro est´a presente ou n˜ao na sequˆencia do DNA. Rosen em [58] apresen-
tou um m´etodo para a dete¸ c˜ao de c´odigos de bloco lineares que explica a possibilidade de
inser¸ c˜oes e dele¸ c˜oes nas sequˆencias de DNA. Battail, [59], argumenta sobre a existˆencia de
c´odigos entrela¸ cados no DNA, uma vez que o tamanho do genoma humano ´e muito maior que
o necess´ario para especificar as caracter´ısticas de cada indiv´ıduo. May em [60], propˆos o uso
de c´odigos de bloco e convolucional no processo de inicializa¸ c˜ao da tradu¸ c˜ao em organismos
procariontes. Mac Donnaill em [61], propˆos um c´odigo de verifica¸ c˜ao de paridade relacionado
`a composi¸ c˜ao dos nucleot´ıdeos. S´anchez, [62], propˆos a constru¸ c˜ao de um espa¸ co vetorial
associado ao c´odigo gen´etico tendo como estrutura matem´ atica o corpo de Galois com 64
elementos, identificando cada amino´acido com uma sequˆencia bin´aria, possibilitando dessa
forma uma caracteriza¸ c˜ao geom´etrica associada ao c´odigo gen´etico. A abordagem destes dois
´ ultimos artigos est´a relacionada exclusivamente com o c´ odigo gen´etico.
Uma quest˜ao sempre presente na maioria dos trabalhos relacionados com codifica¸ c˜ao
genˆomica ´e a seguinte: Existe alguma forma de c´odigo corretor de erros na estrutura do
DNA? Todavia, os trabalhos citados anteriormente n˜ao foram capazes de fornecer subs´ıdios
sobre a existˆencia de c´odigos corretores de erros nas sequˆencias de DNA.
4
Cap´ıtulo 1. Introdu¸ c˜ao
O presente trabalho encaminha, de maneira positiva, uma resposta a essa pergunta. Neste
trabalho atuamos em duas linhas de pesquisa: teoria da comunica¸ c˜ao gen´etica e a teoria da
codifica¸ c˜ao gen´etica. Na Subse¸ c˜ao 1.2.1 mostramos os principais modelos relacionados `a
teoria da comunica¸ c˜ao gen´etica e apresentamos as diferen¸ cas entre estes modelos e o modelo
proposto neste trabalho.
1.2.1 Proposta de um modelo de comunica¸ c˜ao gen´etica para a im-
porta¸ c˜ao de prote´ınas organelares
Na literatura existem alguns trabalhos que exploram as semelhan¸ cas entre um sistema de
comunica¸ c˜oes e a biologia molecular com o objetivo de modelar os diversos sistemas biol´ogicos.
Nesta subse¸ c˜ao, apresentamos dois modelos para o sistemas de comunica¸ c˜oes biol´ogicos e
evidenciamos as diferen¸ cas entre estes modelos e o modelo proposto neste trabalho.
O modelo apresentado em [2] consiste em modelar o processo biol´ogico relacionado `a
s´ıntese de prote´ınas, enquanto que em [3] o objetivo ´e interpretar o mecanismo de inicia¸ c˜ao
da tradu¸ c˜ao em organismos procari´oticos. No presente trabalho propomos um modelo rela-
cionado ao mecanismo de importa¸ c˜ao de prote´ınas organelares existentes em organismo eu-
cari´oticos. Este modelo ´e usado neste trabalho para analisar a importa¸ c˜ao de prote´ınas
mitocondriais, por´em pode ser usado para analisar a importa¸ c˜ao de prote´ınas em outras
organelas, tais como, o cloroplasto e o ret´ıculo endoplasm´atico.
Evidenciamos que apesar dos trˆes modelos, citados anteriormente, abordarem processos
biol´ogicos distintos todos os modelos possuem um ponto em comum, o processo relacionado
`a s´ıntese de prote´ınas. Este processo recebe uma interpreta¸ c˜ao diferente em cada um dos
modelos citados.
Em [2], Roman-Roldan sugere que o in´ıcio da vida pode ser caracterizado pela habilidade
de processamento da informa¸ c˜ao, desta forma, an´alises baseadas na informa¸ c˜ao podem ser
usadas em seus estudos. O uso da teoria da informa¸ c˜ao em dados gen´eticos exige uma
redefini¸ c˜ao do sistema gen´etico como um sistema de informa¸ c˜ao. De acordo com Roman-
Roldan: “the processing of biological information has an artificial parallel: the processing of
information by computers”. A s´ıntese de prote´ınas pode ser considerada como um sistema
de processamento da informa¸ c˜ao permitindo que as sequˆencias de nucleot´ıdeos possam ser
analisadas como mensagens n˜ao considerando elementos f´ısico-qu´ımicos para o processamento
da informa¸ c˜ao. A transferˆencia da informa¸ c˜ao biol´ogica pode ser modelada por um sistema
de comunica¸ c˜ao considerando a sequˆencia de DNA como a entrada do canal e a sequˆencia de
amino´acidos que est´a na forma de prote´ına como a sa´ıda do canal, Figura 1.1.
O canal de comunica¸ c˜ao proposto por Roman-Roldan em [2] difere do modelo inicial
5
Cap´ıtulo 1. Introdu¸ c˜ao
Código
Genético
Canal
(Entrada)
DNA
(Saída)
Proteína
Figura 1.1: Teoria da informa¸ c˜ao baseada no modelo de Roman-Roldan.
proposto por May em [3]. Neste modelo o RNA mensageiro (mRNA) ´e definido como a sa´ıda
do canal de comunica¸ c˜ao e ´e incorporado um decodificador que traduz o mRNA em prote´ına
formando a cadeia de amino´acidos. Roman-Roldan estabelece o processo de mapeamento
dos c´odons para amino´acidos como o canal de transmiss˜ao atrav´es do qual a sequˆencia de
informa¸ c˜ao inserida no DNA relativa `a prote´ına ´e enviada e a prote´ına ´e recebida. O mo-
delo inicial de May estabelece o canal gen´etico como sendo constitu´ıdo pelos processos de
replica¸ c˜ao e transcri¸ c˜ao durante os quais erros s˜ao introduzidos na sequˆencia de nucleot´ıdeo,
Figura 1.2.
Codificador Genético
Decodificador Genético
InformaçãoGenética
Proteína:InformaçãoRecebida
.mRNA
DNA
CanalGenético
.erros
Replicação
Transcrição
Tradução
Figura 1.2: Modelo proposto pela May, [3].
Em [2] a fonte de informa¸ c˜ao gen´etica ´e definida como uma fonte erg´odica que gera men-
sagens atrav´es de um alfabeto finito. Uma fonte erg´odica ´e uma fonte que usa um crit´erio
de sele¸ c˜ao aleat´oria e gera mensagens t´ıpicas e at´ıpicas. Mensagens t´ıpicas ou estatistica-
mente homogˆeneas s˜ao geradas com alta probabilidade, enquanto que mensagens at´ıpicas s˜ao
geradas com baixa probabilidade.
O modelo proposto no presente trabalho diferencia-se dos modelos anteriormente citados
em v´arios aspectos. Neste modelo incorporamos um codificador e um modulador, Figura
6
Cap´ıtulo 1. Introdu¸ c˜ao
.MC
Sequência
em
nucleotídeos
Ribossomo
Código
Genético
G-Linear
Codificador
Modulador
Constelação de
Sinais
Código
BCH
Mapeamento Fonte
.RNAt
Sequência
em
aminoácidos
Figura 1.3: Modelo de um sistema de comunica¸ c˜ao para a importa¸ c˜ao de prote´ınas or-
ganelares.
1.3. A palavra-c´odigo na sa´ıda do codificador est´a associada `a sequˆencia de nucleot´ıdeos
(mRNA), enquanto que a sa´ıda do modulador est´a associada ` a sequˆencia de amino´acidos
(prote´ına). Embora o mapeamento entre o c´odon e anti-c´odon (c´odigo gen´etico), realizado
pelo RNA transportador seja bem conhecido no contexto biol´ ogico, o mesmo necessita de
uma caracteriza¸ c˜ao matem´atica no contexto de um sistema de comunica¸ c˜ao digital.
No contexto de sistema de comunica¸ c˜ao digital existe um processo muito simples e efi-
ciente que ´e chamado de mapeamento casado (MC). Essa propriedade matem´atica implica
que a estrutura alg´ebrica do codificador seja a mesma, a menos de um isomorfismo, que a da
constela¸ c˜ao de sinais, garantindo assim, a menor complexidade poss´ıvel do sistema. A classe
de c´odigos satisfazendo essa propriedade ´e bem conhecida e denominada c´odigos geometrica-
mente uniformes. Uma subclasse importante ´e a dos c´odigos G-lineares, onde G denota uma
estrutura alg´ebrica, que incorpora todas as vantagens inerentes ao processo de gera¸ c˜ao e de
decodifica¸ c˜ao dos c´odigos lineares, bem como, a dos c´odigos n˜ao lineares atrav´es da inser¸ c˜ao
do bloco mapeamento. Dependendo da classifica¸ c˜ao desse mapeamento como linear ou n˜ao
linear, o c´odigo resultante ser´a linear ou n˜ao linear, respectivamente. Portanto, o codificador
consiste de um bloco mapeamento e um codificador de um c´odigo corretor de erros (bloco
c´odigo BCH).
O modulador consiste do c´odigo gen´etico, do RNA transportador e do Ribossomo. O
c´odigo gen´etico pode ser visto como um sinal de constela¸ c˜ao, onde cada c´odon ´e conside-
rado como uma constela¸ c˜ao de sinais, o RNA transportador realiza o mapeamento casado,
enquanto que o RNA ribossˆomico se comporta como um processador digital de sinais, Figura
7
Cap´ıtulo 1. Introdu¸ c˜ao
1.3.
De uma forma geral, podemos considerar as seguintes semelhan¸ cas entre os modelos apre-
sentados anteriormente. Nos trˆes modelos, a ocorrˆencia de um dos nucleot´ıdeos (A, C, G, T)
´e definida como equiprov´avel, p(A) = p(C) = p(G) = p(T) = 1/4, e o canal de transmiss˜ao
´e suposto estacion´ario e sem mem´oria. Em [2] e no presente trabalho o canal est´a livre das
“interferˆencias”, ou seja, livre das muta¸ c˜oes gen´eticas. No modelo descrito em [3] os proces-
sos de replica¸ c˜ao e transcri¸ c˜ao ocorrem no canal que est´a sujeito a erros (“interferˆencias”).
Outro ponto a ser considerado ´e a fonte de informa¸ c˜ao gen´etica que ´e definida como uma
fonte erg´odica neste trabalho e em [2].
O grande diferencial do modelo sendo proposto est´a na possibilidade de identificar uma
estrutura matem´atica bem definida nas sequˆencias de DNA reproduzidas. Enquanto que
os demais modelos utilizam um processo estat´ıstico para analisar as sequˆencias de DNA
de acordo com o interesse em quest˜ao, o modelo do presente trabalho utiliza um processo
determin´ıstico para realizar tais an´alises. At´e onde ´e de nosso conhecimento, no momento
n˜ao existe um m´etodo matem´atico que analise deterministicamente as sequˆencias de DNA.
1.3 Apresenta¸ c˜ao do Problema
Pesquisadores que atuam nas ´areas da biologia molecular utilizando os conceitos das
teorias da informa¸ c˜ao, da codifica¸ c˜ao e da comunica¸ c˜ao, consideram um dos grandes desafios
mostrar a existˆencia de c´odigos corretores de erros na estrutura do DNA. Em [59], Battail
apresenta duas hip´oteses declarando: “The survival of an organism necessitates the existence
of a reliable information replication process. Therefore error-correcting codes must be used
in replication or in another process of information regeneration that precedes replication”;
“The genetic information undergoes nested encoding, where the result of a previous encoding
process is combined with new information and encoded again. The more important genetic
information is assumed to be in the primary coded message, regarding nested coding mirrors
coding theory’s concept of concatenated codes which are also called nested codes.”
No presente trabalho consideramos as duas hip´oteses, apresentadas anteriormente, com
algumas restri¸ c˜oes. Neste momento ao inv´es de analisarmos o processo de replica¸ c˜ao do DNA
com o objetivo de mostrar a existˆencia de c´odigos corretores de erros no genoma, o que torna o
problema muito complexo, estabeleceremos a seguinte conjectura: Se o genoma ´e constitu´ıdo
por regi˜oes consistindo de exons, introns, sequˆencias de direcionamento, promoteres, DNA
repetitivos, etc, e que cada uma dessas regi˜oes pode ser reproduzida por um c´odigo espec´ıfico,
ent˜ao o genoma consiste de c´odigos concatenados (“nested codes”) no m´ınimo justapostos.
Um problema biol´ogico de grande interesse cient´ıfico, que satisfaz a conjectura de c´odigos
8
Cap´ıtulo 1. Introdu¸ c˜ao
concatenados, ´e o mecanismo de importa¸ c˜ao de prote´ınas mitocondriais. Neste processo
existem as prote´ınas precursoras que s˜ao direcionadas para as mitocˆondrias atrav´es de uma
sequˆencia de direcionamento presente na posi¸ c˜ao N-terminal das prote´ınas. Podemos in-
terpretar que uma sequˆencia de direcionamento ´e o resultado de um primeiro processo de
codifica¸ c˜ao realizado por um c´odigo espec´ıfico e que o conte´ udo de informa¸ c˜ao acrescentado
nesta sequˆencia ´e o direcionamento para a mitocˆondria. Esta primeira codifica¸ c˜ao ´e combi-
nada com uma segunda codifica¸ c˜ao realizada por outro c´odigo espec´ıfico. Este c´odigo tem
como objetivo codificar a prote´ına acrescentando a informa¸ c˜ao sobre a fun¸ c˜ao que a prote´ına
dever´a executar no interior da mitocˆondria. Este processo caracteriza o caso mais simples de
c´odigos concatenados conhecidos como c´odigos concatenados justapostos.
O objetivo do presente trabalho al´em de propor um modelo consistente de um sistema de
comunica¸ c˜ao digital para o mecanismo de transporte de prote´ınas mitocondriais, consiste em
identificar a existˆencia de c´odigos corretores de erros nas sequˆencias de direcionamento das
prote´ınas precursoras mitocondriais. Uma vez alcan¸ cada essa identifica¸ c˜ao, dois caminhos
s˜ao poss´ıveis: O primeiro, relacionado `a existˆencia de regi˜oes n˜ao-codantes fortemente preser-
vadas durante o processo evolucion´ario entre esp´ecies, ´e realizar pesquisas nesta dire¸ c˜ao, o
que possibilitar´a realizar an´alises filogen´eticas e conduzir´a a um melhor entendimento do pro-
cesso associado `a teoria da evolu¸ c˜ao. O segundo, com rela¸ c˜ao `a existˆencia de sequˆencias nas
regi˜oes codantes, o objetivo ´e identific´a-las como sendo palavras-c´odigo de um c´odigo corretor
de erros, possibilitando dessa forma, vislumbrar metodologias que possam ser utilizadas em
an´alises mutacionais e de polimorfismos.
Com o objetivo de mostrar ao leitor o grau de sofistica¸ c˜ao e complexidade que envolve o
mecanismo de importa¸ c˜ao mitocondrial e a sua importˆancia no contexto biol´ogico faremos,
a seguir, uma breve exposi¸ c˜ao do assunto.
Um dos grandes desafios da ciˆencia ´e compreender os mecanismos moleculares que ocor-
rem dentro das c´elulas. O transporte de prote´ınas organelares ´e fundamental para manter
as c´elulas saud´aveis, portanto estudos sobre os mecanismos que governam a distribui¸ c˜ao e
transporte de prote´ınas nas c´elulas podem contribuir para se obter uma compreens˜ao mais
apurada desta complexa maquinaria, e como seu inadequado funcionamento poderia deflagrar
uma doen¸ ca.
As mitocˆondrias s˜ao estruturas localizadas no interior das c´elulas respons´aveis pela produ-
¸ c˜ao de energia, atrav´es da degrada¸ c˜ao de alimentos que ingerimos (carboidratos, prote´ınas
e gorduras) e o consumo simultˆaneo de oxigˆenio (respira¸ c˜ao aer´obica), processo denominado
fosforila¸ c˜ao oxidativa. Al´em da produ¸ c˜ao energ´etica e de oxigˆenio reativo, descobertas re-
centes relatam o papel da mitocˆondria em v´arios outros processos celulares.
A mitocˆondria cont´em o seu pr´oprio DNA e toda maquinaria necess´aria para a s´ıntese
9
Cap´ıtulo 1. Introdu¸ c˜ao
prot´eica, apesar de sintetizar somente um pequeno n´ umero de prote´ınas. A grande maio-
ria das prote´ınas mitocondriais s˜ao codificadas por genes nucleares e s˜ao sintetizadas como
preprote´ınas em ribossomos citos´olicos.
Uma vez que existe essa dependˆencia da s´ıntese prot´eica realizada no citosol, o transporte
adequado destas prote´ınas para os diversos compartimentos da mitocˆondria ´e fundamental
para o seu funcionamento e prolifera¸ c˜ao. A grande maioria das prote´ınas mitocondriais
sintetizadas por genes nucleares ´e importada p´os-traducionalmente, de modo que elas s˜ao
liberadas diretamente no citosol e encaminhadas com o aux´ılio de prote´ınas chaperonas para
os receptores localizados na membrana externa da organela.
A especificidade desse mecanismo de importa¸ c˜ao ´e estabelecida por sequˆencias de dire-
cionamento presentes principalmente na posi¸ c˜ao N-terminal das prote´ınas. A transloca¸ c˜ao
da prote´ına atrav´es das membranas biol´ogicas da mitocˆondria depende de complexos recep-
tores/translocadores e nesse transporte as prote´ınas devem estar totalmente desdobradas.
Muitas patologias, e em alguns casos doen¸ cas graves como o cˆancer, podem residir no ina-
dequado funcionamento mitocondrial. Al´em disso, algumas doen¸ cas auto-imunes decorrem
de respostas imunol´ogicas do paciente com produ¸ c˜ao de anticorpos contra prote´ınas mito-
condriais. Acreditamos que o estudo sobre este mecanismo al´em de inovar ao empregar uma
modelagem que faz uso das teorias da comunica¸ c˜ao e da codifica¸ c˜ao, possa contribuir para
uma melhor compreens˜ao do comportamento do sistema de importa¸ c˜ao de prote´ınas.
De acordo com esta proposta, naturalmente surgem algumas perguntas: 1) Dentre os
diversos c´odigos usados para a transmiss˜ao da informa¸ c˜ ao, existe algum c´odigo corretor de
erros capaz de reproduzir sequˆencias de DNA (sequˆencias de direcionamento) e suas corres-
pondentes fitas complementares? 2) Se existe, que c´odigo ´e este e qual ser´a a estrutura
matem´atica adequada para construir este c´odigo? Este trabalho encaminha, de maneira
positiva, uma resposta a estas perguntas.
1.4 Descri¸ c˜ao do Trabalho
Este trabalho est´a organizado da seguinte forma.
No Cap´ıtulo 2 apresentamos, de forma sucinta, o mecanismo de importa¸ c˜ao de prote´ınas
mitocondrias e comentamos sobre alguns tipos de muta¸ c˜oes. Al´em disso, descrevemos os
principais conceitos relacionados `a c´odigos corretores de erros e `a decodifica¸ c˜ao de c´odigos
corretores de erros que foram utilizados no decorrer deste trabalho.
No Cap´ıtulo 3 apresentamos as analogias entre um sistema de comuni¸ c˜ao digital e o
sistema de informa¸ c˜ao gen´etica. Propomos um modelo de sistemas de comunica¸ c˜ao para
o mecanismo de importa¸ c˜ao de prote´ınas organelares e estabelecemos o c´odigo corretor de
10
Cap´ıtulo 1. Introdu¸ c˜ao
erros e a estrutura matem´atica que reproduzem as sequˆencias de direcionamento. Utilizamos
o modelo proposto para importa¸ c˜ao de prote´ınas organelares com o objetivo de descrever o
mecanismo de codifica¸ c˜ao e decodifica¸ c˜ao do transporte de prote´ınas mitocondriais.
No Cap´ıtulo 4 desenvolvemos um algoritmo para a reprodu¸ c˜ ao das sequˆencias de dire-
cionamento atrav´es dos c´odigos corretores de erros Z
4
-linear, Z
2
Z
2
-linear e Klein-linear.
As interpreta¸ c˜oes dos resultados foram realizadas sob o ponto de vista de c´odigos corretores
de erros, possibilitando assim, uma nova abordagem e uma classifica¸ c˜ao matem´atica das
sequˆencias reproduzidas. Atrav´es dos resultados obtidos com o processo de codifica¸ c˜ao, no
Cap´ıtulo 5 descrevemos o processo de decodifica¸ c˜ao destas sequˆencias. O processo de deco-
difica¸ c˜ao pode ser visto como um processo de regenera¸ c˜ao da sequˆencia que repara os erros
introduzidos durante os processos de replica¸ c˜ao e transcri¸ c˜ao.
Com a necessidade da redu¸ c˜ao de tempo e custos nos experimentos laboratoriais, no
Cap´ıtulo 6 mostramos algumas aplica¸ c˜oes do modelo proposto para as an´alises mutacionais/po-
limorfismos e an´alises de hip´oteses filogen´eticas. Esta nova abordagem que utiliza c´odigos
corretores de erros, em um contexto biol´ogico, mostra-se bastante promissora. Finalmente,
no Cap´ıtulo 7 apresentamos as conclus˜oes e as propostas para trabalhos futuros.
11
Cap´ıtulo 2
Elementos de Biologia e C´odigos
Corretores de Erros
Devido ao car´ater interdisciplinar deste trabalho, o objetivo principal deste cap´ıtulo ´e
apresentar, de forma sucinta, a revis˜ao de alguns conceitos sobre a importa¸ c˜ao de prote´ınas
organelares, c´odigos corretores de erros e o processo de decodifica¸ c˜ao dos c´odigos corretores
de erros.
O presente cap´ıtulo est´a organizado da seguinte maneira: A Se¸ c˜ao 2.1 apresenta uma
revis˜ao do mecanismo de importa¸ c˜ao de prote´ınas mitocondriais com o objetivo de mostrar
ao leitor o grau de sofistica¸ c˜ao e complexidade que envolve todo esse processo. Al´em disso,
descrevemos alguns tipos de muta¸ c˜oes que ser˜ao utilizadas nas interpreta¸ c˜oes dos resultados
deste trabalho. Nas Se¸ c˜oes 2.2 e 2.3 apresentamos os conceitos sobre a codifica¸ c˜ao e deco-
difica¸ c˜ao de c´odigos corretores de erros, respectivamente. Estes conceitos ser˜ao utilizados no
desenvolvimento deste trabalho.
2.1 Importa¸ c˜ao de Prote´ınas Organelares
As c´elulas eucari´oticas contˆem membranas intracelulares que ocupam quase metade do
volume total celular em compartimentos intracelulares separados denominados organelas.
Os principais tipos de organelas envoltas por membranas presentes em todas as c´elulas eu-
cari´oticas s˜ao o ret´ıculo endoplasm´atico, o aparato de Golgi, o n´ ucleo, as mitocˆondrias, os
lisossomos, os endossomos e os perissomos; as c´elulas vegetais tamb´em contˆem plast´ıdeos, tais
como cloroplastos. Cada organela cont´em um conjunto distinto de prote´ınas respons´aveis pela
media¸ c˜ao de suas fun¸ c˜oes exclusivas [5].
Cada prote´ına organelar rec´em-sintetizada deve encontrar seu caminho a partir de ri-
bossomos livres ou associados `a membrana do ret´ıculo endoplasm´atico, onde ´e sintetizada,
13
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
at´e a organela onde exercer´a sua fun¸ c˜ao. A prote´ına segue uma rota espec´ıfica, guiada por
sinais na sua sequˆencia de amino´acidos, que funcionam como sequˆencias sinalizadoras, ou
regi˜oes sinalizadoras. As sequˆencias e as regi˜oes sinalizadoras s˜ao reconhecidas por recep-
tores de endere¸ camento complementares que entregam a prote´ına `a organela-alvo apropriada.
As prote´ınas com fun¸ c˜ao citos´olica n˜ao contˆem sinais de endere¸ camento e permanecem no
citosol ap´os serem sintetizadas [5].
O encaminhamento de prote´ınas rec´em-sintetizadas para o seu destino celular apropriado,
normalmente chamado de direcionamento de prote´ınas ou distribui¸c˜ao de prote´ınas,
compreende dois tipos de processos muito diferentes. O primeiro processo geral envolve o di-
recionamento de uma prote´ına para a membrana de uma organela intracelular e pode ocorrer
durante ou logo ap´os a s´ıntese da prote´ına, pela tradu¸ c˜ ao no ribossomo. O direcionamento
leva as prote´ınas de membrana a se inserirem na bicamada lip´ıdica da membrana, mas, no
caso das prote´ınas sol´ uveis em ´agua, o direcionamento leva `a transloca¸ c˜ao da prote´ına inteira
atrav´es da membrana para o interior aquoso da organela. As prote´ınas s˜ao distribu´ıdas para
o ret´ıculo endoplasm´atico (RE), as mitocˆondrias, os cloroplastos, os perixissomos e o n´ ucleo
por esse processo geral [6].
Um segundo processo de distribui¸ c˜ao geral se aplica `as prote´ınas que inicialmente s˜ao
direcionadas para a membrana do RE entrando, desse modo, na via secretora. Essas
prote´ınas incluem n˜ao apenas as prote´ınas sol´ uveis e as de membrana que residem no pr´oprio
RE, mas tamb´em as prote´ınas que s˜ao secretadas a partir da c´elula, as enzimas e outras
prote´ınas que residem no l´ umen do complexo de Golgi e dos lisossomos, bem como as prote´ınas
integradas na membrana dessas organelas e da membrana plasm´atica. O encaminhamento
para o RE, geralmente, envolve prote´ınas nascentes que ainda est˜ao no processo de s´ıntese
[6].
A presente se¸ c˜ao est´a dividida da seguinte maneira: Na Subse¸ c˜ao 2.1.1 apresentamos
uma id´eia geral de alguns conceitos biol´ogicos que ser˜ao usados no decorrer do trabalho,
informamos que esta se¸ c˜ao ´e parte integrante de [18]. A Subse¸ c˜ao 2.1.2 apresenta com
maiores detalhes o mecanismo de importa¸ c˜ao de prote´ınas para as mitocˆondrias, abordando
de forma resumida, os complexos de transloca¸ c˜ao envolvidos no transporte das prote´ınas para
as diferentes regi˜oes da mitocˆondria. A Subse¸ c˜ao 2.1.3 fornece uma id´eia geral sobre tipos
de muta¸ c˜oes. Esses conceitos ser˜ao usados na interpreta¸ c˜ao de alguns resultados.
2.1.1 A Mol´ecula de DNA
O DNA ´e um ´acido desoxirribonucl´eico, isto ´e, um pol´ımero de desoxinucleot´ıdeos cuja
sequˆencia de base codifica a informa¸ c˜ao gen´etica em todas as c´elulas vivas.
Os aspectos estruturais espec´ıficos do DNA variam, dependendo da origem e da fun¸ c˜ao de
14
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
cada mol´ecula de DNA. As mol´eculas de DNA diferem em tamanho, conforma¸ c˜ao e topologia.
Apesar de algumas formas de DNA celulares existirem como estruturas de fita ´ unica, a
estrutura de DNA mais difundida ´e a dupla h´elice.
A elucida¸ c˜ao da estrutura do DNA por James Watson e Francis Crick em 1953 ´e, em
geral, aceita como o marco do surgimento da biologia molecular moderna. A estrutura do
DNA de Watson-Crick n˜ao apenas forneceu um modelo da mol´ecula fundamental da vida,
como tamb´em sugeriu o mecanismo molecular da hereditariedade. Os achados de Watson e
Crick, listados como uma das principais descobertas intelectuais da ciˆencia, foram baseados,
em parte, em duas evidˆencias al´em da regra de Chargaff: as formas tautom´ericas corretas
das bases e as indica¸ c˜oes de que o DNA seria uma mol´ecula helicoidal.
As bases p´ uricas e pirim´ıdicas dos ´acidos nucl´eicos podem assumir diferentes formas tau-
tom´ericas (tautˆomeros s˜ao isˆomeros de convers˜ao f´acil, diferindo entre si apenas nas posi¸ c˜oes
do hidrogˆenio, Figura 2.1).
Figura 2.1: Formas tautom´ericas das bases.
As informa¸ c˜oes estruturais limitadas, juntamente com a regra de Chargaff, forneceram
alguma id´eia da estrutura do DNA. O modelo de Watson e Crick foi elucidado principal-
mente pela imagina¸ c˜ao deles e por estudos de constru¸ c˜ao de modelos. Uma vez publicado, o
modelo de Watson e Crick foi rapidamente aceito devido `a sua simplicidade, associada `a sua
´obvia relevˆancia biol´ogica. Investiga¸ c˜oes posteriores confirmaram a precis˜ao geral do modelo,
15
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
apesar dos detalhes terem sido modificados.
O modelo de Watson e Crick possui as seguintes caracter´ısticas principais:
1. Duas cadeias polinucleot´ıdicas circundam um eixo comum formando a dupla h´elice
(Figura 2.2).
2. As duas fitas de DNA s˜ao antiparalelas (possuem dire¸ c˜oes opostas), mas cada uma
forma uma h´elice para o lado direito.
3. As bases ocupam o centro da h´elice, e as cadeias de a¸ c´ ucar-fosfato est˜ao dispostas na
periferia, minimizando a repuls˜ao entre os grupos fosfato carregados. A superf´ıcie da
dupla h´elice forma dois sulcos de largura desigual: a cavidade maior e a cavidade
menor (Figura 2.2).
4. Cada base est´a ligada a uma base da fita oposta por meio de pontes de hidrogˆenio,
formando um par de base planar. A estrutura de Watson e Crick pode acomodar
apenas dois tipos de pares de base. Cada res´ıduo de adenina deve formar o par com
um res´ıduo de timina e vice-versa, e cada res´ıduo de guanina deve formar par com um
res´ıduo de citosina e vice-versa (Figura 2.3). Essas intera¸ c˜oes por pontes de hidrogˆenio,
um fenˆomeno denominado como pareamento das bases complementares, resulta
na associa¸ c˜ao espec´ıfica das duas cadeias da fita dupla.
Figura 2.2: Estrutura tridimensional do
DNA.
Figura 2.3: Fitas complementares de DNA.
16
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
A estrutura de Watson e Crick poder´a acomodar qualquer sequˆencia de bases em uma
fita polinucleot´ıdica se a fita oposta possuir a sequˆencia de bases complementares a ela. Isso
explica a regra de Chargaff. Mais importante ainda, sugere que cada fita de DNA pode atuar
como um molde para a s´ıntese de sua fita complementar e, consequentemente, a informa¸ c˜ao
heredit´aria est´a codificada na sequˆencia de bases em qualquer fita.
A maioria das mol´eculas de DNA ´e extremamente grande, de acordo com sua fun¸ c˜ao
de conter toda a informa¸ c˜ao gen´etica da c´elula. Com raras exce¸ c˜oes, os organismos mais
complexos contˆem mais DNA. O genoma de um organismo, que ´e seu conte´ udo espec´ıfico
de DNA, pode estar distribu´ıdo em diversos cromossomos (do grego, chromos, cor + soma,
corpo), cada um contendo uma mol´ecula de DNA separada.
Devido o seu comprimento muito longo, as mol´eculas de DNA s˜ ao descritas em termos do
n´ umero de pares de bases (pb) por milhares de pares de bases (quilobases em pares ou kb).
Apesar de cada mol´ecula de DNA ser longa e relativamente firme, ela n˜ao ´e completamente
r´ıgida. A dupla h´elice de DNA forma espirais e voltas quando compactada dentro da c´elula.
Al´em disso, dependendo da sequˆencia de nucleot´ıdeos, o DNA pode adotar conforma¸ c˜oes
helicoidais levemente distintas. Por fim, na presen¸ ca de outros componentes celulares, o
DNA pode dobrar-se ou suas duas fitas podem ser parcialmente desenroladas.
A dupla h´elice existe em v´arias geometrias designadas como DNA A, DNA B, DNA C
e DNA Z. A forma¸ c˜ao dessas diferentes conforma¸ c˜oes depende da composi¸ c˜ao em bases do
DNA e das condi¸ c˜oes f´ısicas. O modelo descrito por Watson e Crick possui a conforma¸ c˜ao
do DNA B.
2.1.2 Importa¸ c˜ao de Prote´ınas em Mitocˆondrias
A mitocˆondria ´e uma das mais importantes organelas celulares que est´a presente nas
c´elulas eucari´oticas. Apresentam pequenos corpos no citoplasma, envoltos por uma camada
de membrana, que captam oxigˆenio e conservam a energia da oxida¸ c˜ao de compostos ali-
mentares - tais como a¸ c´ ucares - para produzir a maior parte do ATP (adenosina trifosfato)
que fornece energia para as atividades da c´elula. As mitocˆ ondrias tˆem seu pr´oprio genoma (na
forma de uma mol´ecula circular), seus pr´oprios ribossomos (que s˜ao diferentes dos ribossomos
encontrados no citosol), e seu pr´oprio RNA transportador [5].
A presen¸ ca de material gen´etico na mitocˆondria fez emergir teorias sobre sua origem.
Muitos bi´ologos argumentam que a mitocˆondria um dia teria sido um organismo bacteriano
fagocitado por uma c´elula eucariota, passando a partir da´ı a viver em simbiose com seu
hospedeiro. Seja qual for a sua origem, sua fun¸ c˜ao ´e vital para a c´elula, sem a qual h´a morte
celular e morte da pr´opria mitocˆondria [5].
Cada mitocˆondria ´e limitada por duas membranas altamente especializadas com fun¸ c˜oes
17
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
vitais para a atividade mitocondrial. Juntas, elas definem dois compartimentos mitocondriais
separados: o espa¸ co interno da matriz e o espa¸co intermembranas, bem mais estrito
(Figura 2.4). Se as mitocˆondrias forem cuidadosamente rompidas e fracionadas em seus
componentes separadamente, a composi¸ c˜ao bioqu´ımica de cada uma das duas membranas e
dos espa¸ cos definidos por elas pode ser determinada, cada um contendo a sua pr´opria cole¸ c˜ao
de prote´ınas com fun¸ c˜oes espec´ıficas [5].
Figura 2.4: Micrografia eletrˆonica de uma mitocˆondria. Lodish et al., Molecular Cell Biology,
5th Edition.
As prote´ınas codificadas por DNA mitocondrial s˜ao sintetizadas nos ribossomos dentro
das organelas e direcionadas ao compartimento correto imediatamente ap´os a s´ıntese. A
maioria das prote´ınas localizadas nas mitocˆondrias, entretanto, ´e codificada por genes no
n´ ucleo e importada para dentro das organelas depois de sua s´ıntese no citosol [6].
Nas mitocˆondrias, a importa¸ c˜ao de prote´ınas requer energia e ocorre em pontos em que
as membranas externa e interna da organela est˜ao em contato pr´oximo. As mitocˆondrias
contˆem m´ ultiplas membranas e espa¸ cos limitados por membranas, a distribui¸ c˜ao de v´arias
prote´ınas para a sua localiza¸ c˜ao correta frequentemente requer a a¸ c˜ao sequencial de duas
sequˆencias de direcionamento de dois sistemas de transloca¸ c˜ao ligados `a membrana: uma
para direcionar as prote´ınas para dentro das mitocˆondrias e outra para direcion´a-las para
dentro do compartimento ou membrana correta da organela [5].
Todas as prote´ınas que viajam do citosol para o mesmo destino na mitocˆondria tˆem sinais
de direcionamento que compartilham motivos comuns, embora as sequˆencias-sinal geralmente
18
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
n˜ao sejam idˆenticas, Figura 2.8. Dessa maneira, os receptores que reconhecem esses sinais
s˜ao capazes de se ligar a diversas sequˆencias diferentes, por´em relacionadas [6].
As prote´ınas importadas para as mitocˆondrias s˜ao sintetizadas sob a forma de precur-
sores consistindo da prote´ına madura adicionada de uma pr´e-sequˆencia amino-terminal (N-
terminal) ou carboxi-terminal (C-terminal), que confere a especificidade de importa¸ c˜ao. As
sequˆencias N-terminais s˜ao posteriormente removidas ap´os ou durante a passagem pelo enve-
lope mitocondrial. Prote´ınas destinadas `a membrana externa n˜ao apresentam uma sequˆencia
de direcionamento t´ıpica, de forma que a informa¸ c˜ao de direcionamento localiza-se na por¸ c˜ao
interna da estrutura prim´aria [7].
O endere¸ camento das prote´ınas, por´em, ´e mais complexo do que a simples presen¸ ca de
sequˆencias de direcionamento. Como no caso da mitocˆondria, ele envolve v´arios subcom-
partimentos. As prote´ınas direcionadas para cada um desses subcompartimentos requerem
informa¸ c˜oes de direcionamento espec´ıficas e vias de direcionamento que envolvem fatores
comuns e distintos a cada etapa.
Apesar disso, em [8], uma via de importa¸ c˜ao, dividida em quatro etapas pode ser es-
quematizada:
1. S´ıntese da prote´ına precursora assim como seu reconhecimento e manuten¸ c˜ao de sua
conforma¸ c˜ao adequada para a importa¸ c˜ao atrav´es da atua¸ c˜ao de chaperonas moleculares
no citoplasma;
2. Liga¸ c˜ao do precursor a receptores e transporte desse precursor atrav´es da membrana
externa da mitocˆondria pelo complexo TOM (“translocase of the mitochondrial outer
membrane”);
3. Transporte do precursor atrav´es do espa¸ co intermembrana e envelope nuclear pelo com-
plexo TIM (“translocase of the mitochondrial inner membrane”);
4. Processamento proteol´ıtico do precursor, assim como a sua distribui¸ c˜ao intra-organelar
e montagem para a aquisi¸ c˜ao da forma funcional.
Os canais de transloca¸c˜ao
A mitocˆondria est´a dividida em quatro subcompartimentos: a membrana externa, o
espa¸ co intermembanas, a membrana interna e a matriz. Cada um dos subcompartimen-
tos cont´em um conjunto distinto de prote´ınas. Aproximadamente mais de 1000 prote´ınas
mitocondriais s˜ao codificadas pelo genoma nuclear, sintetizadas no citoplasma por ribosso-
mos citos´olicos como prote´ınas precursoras, reconhecidas e/ou mantidas em uma forma pouco
estruturada (via a¸ c˜ao das chaperonas moleculares), e finalmente importadas com a ajuda de
19
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
diferentes complexos de transloca¸ c˜ao presentes na membrana externa e na membrana interna
da mitocˆondria [9]. O complexo TOM e o complexo SAM (“sorting and assembly machi-
nery”) est˜ao situados na membrana externa e os complexos TIM23 e TIM22 est˜ao ancorados
na membrana interna [10], como ilustra a Figura 2.5.
Figura 2.5: Os translocons de prote´ınas na mitocˆondria. Pfanner et al., Assembling the
Mitochondrial Outer Membrane”, Nature Structural & Molecular Biology, Vol. 11, pp.
1044-1048, 2004.
A maioria das prote´ınas mitocondriais ´e reconhecida pelos translocons por meio de uma
sequˆencia de direcionamento presente normalmente em sua regi˜ao amino-terminal chamada
de pr´e-sequˆencia ou sequˆencia de direcionamento. A eficiˆencia do processo de importa¸ c˜ao de
uma prote´ına reside nas intera¸ c˜oes que ocorrem entre a sua pr´e-sequˆencia e os aparatos de
transloca¸ c˜ao presentes nas membranas da mitocˆondria e no citosol [9].
O complexo TOM
O complexo TOM est´a ancorado na membrana externa e ´e necess´ario para a importa¸ c˜ao
de todas as prote´ınas mitocondriais codificadas no n´ ucleo [5].
A maquinaria TOM cont´em receptores de importa¸ c˜ao que reconhecem as prote´ınas precur-
soras mitocondriais atrav´es de suas sequˆencias de direcionamento e, ent˜ao, iniciam o processo
de transloca¸ c˜ao dessa prote´ına para o seu devido local [11].
O complexo TOM ´e mais bem estudado em leveduras. Nesse organismo ele ´e constitu´ıdo
por nove subunidades: Tom70, Tom71, Tom40, Tom37, Tom20, Tom22, Tom7, Tom6 e
Tom5 (Figura 2.6). Essas nove subunidades formam trˆes subcomplexos: Tom20-Tom22 e
20
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Tom70/Tom71-Tom37 que funcionam como receptores para os precursores, e Tom40-Tom22-
Tom7-Tom6-Tom5 que forma o poro geral de inser¸ c˜ao (GIP “general insertion pore”) [11].
Figura 2.6: O complexo TOM. Dekker et al., Preprotein Translocase of the Outer Mitochon-
drial Membrane: Molecular Dissection and Assembly of the General Import Pore Complex,
Molecular and Cellular Biology, Vol. 18, pp. 6515-6524, 1998.
As prote´ınas Tom20, Tom22 e Tom70 funcionam como receptores para as prote´ınas precur-
soras mitocondriais. Tom20 e Tom22 formam o complexo receptor principal sendo que Tom22
interage com precursores contendo sequˆencias de direcionamento internas ou no amino termi-
nal, enquanto que Tom20 reconhece especificamente pr´e-sequˆencias amino terminais. Al´em
disso, Tom22 ancora-se na membrana externa da mitocˆondria e forma uma conex˜ao entre os
dois subcomplexos Tom20-Tom22 e Tom70/Tom71-Tom37 [12]. Tom70 interage com precur-
sores que possuem sequˆencias de direcionamento internas. Tom37 associa-se com Tom70, e
evidˆencias gen´eticas indicam que ocorre uma intera¸ c˜ao funcional entre eles, indicando que
Tom37 ´e uma subunidade do receptor Tom70. As prote´ınas precursoras inicialmente reco-
nhecidas por Tom70 s˜ao transferidas para Tom20 e/ou Tom22 antes de sua inser¸ c˜ao no GIP
[11].
Tom40 representa o maior componente do GIP e ´e fundamental para a sobrevivˆencia da
mitocˆondria. A prote´ına Tom5 funcionalmente liga receptores do GIP e promove a inser¸ c˜ao
dos precursores. Enquanto Tom5 interage diretamente com os precursores, Tom6 e Tom7
influenciam na intera¸ c˜ao entre Tom20-Tom22 e Tom40 [11]. O primeiro favorecendo as
intera¸ c˜oes e o segundo favorecendo a dissocia¸ c˜ao formando um equil´ıbrio dinˆamico que ´e
necess´ario `a importa¸ c˜ao de prote´ınas [11].
21
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
O complexo TIM 23
O complexo TIM23 ´e o maior translocador de precursores mitocondriais da membrana
interna. Ele ´e usado por todas as prote´ınas que s˜ao direcionadas para a matriz e a maioria das
prote´ınas da membrana interna. O translocador TIM23 necessita de duas fontes de energia:
o potencial de membrana e o ATP, para realizar a inser¸ c˜ao do precursor. O complexo TIM23
´e respons´avel pela importa¸ c˜ao de precursores contendo sinal de direcionamento para a matriz
mitocondrial [13].
O complexo TIM23 ilustrado na Figura 2.7, em leveduras, pode ser estruturalmente e
funcionalmente subdividido em:
1. Canal de transloca¸c˜ao, que est´a integrado `a membrana interna e ´e composta por:
Tim17, Tim21, Tim23 e Tim50;
2. Motor de importa¸c˜ao, que est´a ancorado na matriz e ´e composto por: Tim14, Tim16,
Tim44, Mge1 e mtHsp70.
Figura 2.7: O complexo TIM23. Mokranjac, et al., Protein import into mitochondria Bio-
chemical Society, Vol. 33, pp. 1019-1023, 2005.
Tim50 ´e o primeiro componente do complexo TIM23 que interage com a prote´ına precur-
sora ap´os ela ter cruzado a membrana externa [13]. As subunidades Tim17 e Tim23 est˜ao
inseridas na membrana interna e funcionam como um canal, enquanto que Tim44 interage
com Tim23 do lado da matriz na membrana interna mitocondrial [14]. Juntamente com mt-
Hsp70, Mgel (co-chaperone) e consumo de ATP, o complexo TIM23 promove o transporte do
precursor atrav´es de v´arios ciclos “liga-desliga”do precursor com mt-Hsp-70. Esse mecanismo
pode ser interpretado por meio de um modelo chamado motor molecular [15].
22
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
O complexo TIM 22
O complexo TIM22 ´e respons´avel pela inser¸ c˜ao de carreadores na membrana interna
mitocondrial. Em leveduras ´e constitu´ıdo por Tim22, Tim54, Tim18 e Tim12 [16]. Muitas
prote´ınas que integram a membrana interna, tais como a ADP/ATP carreadores (AAC) e
outros membros da fam´ılia de carreadores mitocondriais, s˜ao sintetizados sem o sinal cl´assico
N-terminal de direcionamento para a matriz. Tais precursores s˜ao importados via o complexo
TIM22. O transporte da fam´ılia de carreadores atrav´es do espa¸ co intermembrana e sua
transferˆencia para o complexo TIM22 ´e mediado por prote´ınas de baixo peso molecular
chamadas: Tim8, Tim9, Tim10, Tim12 e Tim13. Essa importa¸ c˜ ao ´e explicada em [17]
atrav´es de v´arios est´agios:
1. Est´agio 1. O precursor citos´olico do AAC ´e reconhecido por receptores especializados
do complexo TOM;
2. Est´agio 2. Ele ´e translocado parcialmente pelo complexo TOM e interage com o com-
plexo Tim9-Tim10 no espa¸ co intermembranas;
3. Est´agio 3. O precursor ´e transferido para o complexo Tim9-Tim10-Tim12 que est´a
associado ao complexo Tim22, que por sua vez, se encontra ancorado na membrana
interna;
4. Est´agio 4. Na presen¸ ca de um potencial de membrana, ´ψ, Tim22 media a inser¸ c˜ao
do precursor AAC para o interior da membrana interna;
5. Est´agio 5. Quando o ´ψ ´e dissipado, o precursor AAC passa por um est´agio inter-
medi´ario, como no est´agio 3, onde ele est´a parcialmente translocado entre a membrana
externa e interna. Esse est´agio exige o Tim10.
Os carreadores s˜ao sintetizados sem uma pr´e-sequˆencia e contˆem sinaliza¸ c˜ao interna para
o direcionamento mitocondrial e importa¸ c˜ao.
O complexo SAM
Estudos recentes mostram que, al´em do complexo de transloca¸ c˜ao TOM, as prote´ınas
da membrana mitocondrial s˜ao inseridas com o aux´ılio de uma maquinaria de sele¸ c˜ao e
montagem (SAM “sorting assembly machinery”) [7] e [10].
O complexo SAM ´e essencial para a viabilidade da c´elula. Prote´ınas do complexo SAM
tˆem sido descritas. Uma delas ´e a Sam50 uma prote´ına da membrana externa e representa a
subunidade central do complexo SAM, esta prote´ına cont´em um dom´ınio N-terminal que est´a
23
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
exposto no espa¸ co intermembranas. Outras prote´ınas identificadas foram a Sam 35 e a Sam
37. Por´em, a fun¸ c˜ao molecular exata de cada uma dessas prote´ınas ainda s˜ao desconhecidas,
embora alguns experimentos demonstram que essas prote´ınas podem colaborar para uma
integra¸ c˜ao eficiente de precursores de membrana externa [10].
Diferentes rotas para a importa¸c˜ao de prote´ınas mitocondriais
As prote´ınas precursoras podem ser importadas para as mitocˆondrias atrav´es de sete
rotas diferentes (Figura 2.8) que est˜ao classificadas da seguinte forma: as prote´ınas que s˜ao
importadas para a membrana interna podem seguir 3 rotas diferentes; as prote´ınas que se
destinam ao espa¸ co intermembranas seguem 2 rotas; as prote´ınas importadas para a matriz
e para a membrana externa seguem apenas uma ´ unica rota.
Figura 2.8: Diferentes rotas para a importa¸ c˜ao de prote´ınas mitocondriais. Lodish et al.,
Molecular Cell Biology, 5th Edition.
1. Importa¸c˜ao de prote´ınas para o interior da matriz mitocondrial
As prote´ınas importadas para a matriz da mitocˆondria s˜ao geralmente captadas do
citosol dentro de segundos ou minutos ap´os a sua libera¸ c˜ao pelos ribossomos por um
mecanismo p´os-traducional, isto ´e, as prote´ınas mitocondriais s˜ao primeiro completa-
mente sintetizadas como prote´ınas precursoras no citosol e, ent˜ao, translocadas para
24
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
a mitocˆondria [5]. A Figura 2.9 ilustra a importa¸ c˜ao de prote´ınas para a matriz da
mitocˆondria.
Figura 2.9: Importa¸ c˜ao de prote´ınas para o interior da matriz. Lodish et al., Molecular Cell
Biology, 5th Edition.
As prote´ınas precursoras sintetizadas nos ribossomos citos´olicos s˜ao mantidas em um
estado n˜ao-dobrado ou parcialmente dobrado pelas chaperonas ligadas, como a Hsc70
(etapa 1). Depois que uma prote´ına precursora se liga a um receptor de importa¸ c˜ao
pr´oximo ao s´ıtio de contato com a membrana interna (etapa 2), ela ´e transferida para
dentro do poro principal de importa¸ c˜ao (etapa 3). A prote´ına sendo transportada
atravessa, ent˜ao, esse canal e um canal adjacente na membrana interna (etapas 4 e 5).
Note que o transporte ocorre em “s´ıtios de contato” raros, onde as membranas interna
e externa parecem se tocar.
A liga¸ c˜ao da prote´ına sendo transportada pela chaperona Hsc70 da matriz e a hidr´olise
de ATP subsequente pela Hsc70 ajudam a direcionar a importa¸ c˜ao para dentro da
matriz. Uma vez que a sequˆencia de capta¸ c˜ao-direcionamento seja removida por uma
protease da matriz e a Hsc70 seja liberada da prote´ına rec´em-importada (etapa 6), ela
se dobra na conforma¸ c˜ao madura e ativa dentro da matriz (etapa 7). O dobramento de
algumas prote´ınas depende das chaperoninas da matriz.
2. Importa¸c˜ao de prote´ınas para a membrana externa mitocondrial
Os experimentos com a porina mitocondrial (P70) forneceram informa¸ c˜oes sobre como
25
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
prote´ınas s˜ao direcionadas para a membrana mitocondrial externa, Figura 2.10. Uma
sequˆencia curta de direcionamento para a matriz na extremidade N-terminal da P70
´e seguida por um longo trecho de amino´acidos hidrof´obicos (ver Figura 2.8). Se a
sequˆencia hidrof´obica ´e eliminada experimentalmente da P70, a prote´ına se acumula
no espa¸ co da matriz, com a sua sequˆencia de direcionamento para a matriz ainda li-
gada. Essa observa¸ c˜ao sugere que as sequˆencias hidrof´obicas longas funcionam como
sequˆencias de finaliza¸ c˜ao que tanto impedem a transferˆencia da prote´ına para dentro
da matriz como as ancoram como uma prote´ına integrada na membrana externa. Nor-
malmente, a sequˆencia de direcionamento para a matriz e a sequˆencia de finaliza¸ c˜ao de
transferˆencia n˜ao s˜ao clivadas da prote´ına ancorada. A fonte de energia para direcionar
as prote´ınas de membrana externa atrav´es do poro geral de importa¸ c˜ao ainda n˜ao foi
identificada.
Figura 2.10: Importa¸ c˜ao de prote´ınas para membrana externa. Pfanner, Assembling the
Mitochondrial Outer Membrane, Nature Structural & Molecular Biology, Vol. 11, pp. 1044-
1048.
3. Importa¸c˜ao de prote´ınas para o espa¸co intermembrˆanico matriz mitocon-
drial
Duas vias para transportar as prote´ınas do citosol para o espa¸ co intermembrana mito-
condrial est˜ao ilustradas na Figura 2.11.
A via A, a principal via de encaminhamento para o espa¸ co intermembranas, ´e similar
`a via A para encaminhamento para a membrana interna (ver Figura 2.12). A principal
diferen¸ ca ´e que a sequˆencia de direcionamento interna nas prote´ınas, como o citocromo
26
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Figura 2.11: Importa¸ c˜ao de prote´ınas para o espa¸ co intermembranas. Lodish et al., Molecular
Cell Biology, 5th Edition.
b
2
destinado para o espa¸ co intermembrana, ´e reconhecido por uma protease da mem-
brana interna, que cliva a prote´ına no lado do espa¸ co intermembranas da membrana.
A prote´ına liberada se dobra e se liga ao seu co-fator heme dentro do espa¸ co inter-
membranas. A via B envolve o encaminhamento direto para o espa¸ co intermembranas
atrav´es do poro geral de importa¸ c˜ao Tom40, na membrana externa.
4. Importa¸c˜ao de prote´ınas para a membrana interna mitocondrial
Trˆes vias para transportar as prote´ınas do citosol para a membrana mitocondrial interna
est˜ao ilustradas na Figura 2.12.
As prote´ınas com diferentes sequˆencias de direcionamento s˜ao encaminhadas para a
membrana interna por vias diferentes. Em todas as trˆes vias, as prote´ınas cruzam a
membrana externa pelo poro geral de importa¸ c˜ao Tom40. As prote´ınas encaminhadas
pelas vias A e B contˆem uma sequˆencia de direcionamento para a matriz na extremidade
N-terminal que ´e reconhecida pelo receptor de importa¸ c˜ao Tom20/22, na membrana
externa. Embora ambas as vias utilizem o canal da membrana interna Tim23/17, elas
diferem porque a prote´ına precursora inteira entra na matriz e ´e, ent˜ao, redirecionada
para a membrana interna, na via B.
27
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Figura 2.12: Importa¸ c˜ao de prote´ınas para a membrana interna. Lodish et al., Molecular
Cell Biology, 5th Edition.
A Hsc70 da matriz tem um papel similar ao seu papel na importa¸ c˜ao de prote´ınas
sol´ uveis da matriz (ver Figura 2.9). As prote´ınas encaminhadas pela via C contˆem
sequˆencias internas que s˜ao reconhecidas pelo receptor de importa¸ c˜ao Tom70. Um canal
de transporte diferente, na membrana interna (Tim22/45), ´e utilizado nesta via. Duas
prote´ınas intermembranas (Tim9 e Tim10) facilitam a transferˆencia entre os canais
externo e interno.
2.1.3 Muta¸ c˜oes
Em biologia, as muta¸ c˜oes s˜ao mudan¸ cas na sequˆencia dos nucleot´ıdeos do material gen´etico
de um organismo. Muta¸ c˜oes podem ser causadas por erros de c´opia do material durante a
divis˜ao celular, por exposi¸ c˜ao a radia¸ c˜ao ultravioleta ou ionizante, mutagˆenicos qu´ımicos, ou
v´ırus. A fonte da muta¸ c˜ao n˜ao se relaciona com seus efeitos, apesar de seus efeitos estarem
relacionados com quais c´elulas s˜ao afetadas pela muta¸ c˜ ao.
Muta¸ c˜oes geram varia¸ c˜oes no conjunto de genes da popula¸ c˜ao. Muta¸ c˜oes desfavor´aveis
(ou delet´erias) podem ter sua frequˆencia reduzida na popula¸ c˜ao por meio da sele¸ c˜ao natural,
enquanto muta¸ c˜oes favor´aveis (ben´eficas ou vantajosas) podem se acumular, resultando em
mudan¸ cas evolutivas adaptativas. Por exemplo, uma borboleta pode produzir uma prole
com novas muta¸ c˜oes. A maioria dessas muta¸ c˜oes n˜ao ter´ a efeito. No entanto, uma delas
pode mudar a cor dos descendentes desse indiv´ıduo, tornando-os mais dif´ıceis (ou f´aceis) de
serem vistos por predadores. Se essa mudan¸ ca de cor for vantajosa, a chance dessa borboleta
sobreviver e produzir sua pr´opria prole ser´a um pouco maior, e com o tempo o n´ umero de
28
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
borboletas com essa muta¸ c˜ao constituir´a uma maior propor¸ c˜ao da popula¸ c˜ao.
Muta¸ c˜oes neutras s˜ao definidas como muta¸ c˜oes cujos efeitos n˜ao influenciam a aptid˜ao
dos indiv´ıduos. Acredita-se que a imensa maioria das muta¸ c˜oes n˜ao tem efeito significativo
na aptid˜ao dos organismos. Al´em disso, mecanismos de reparo de DNA s˜ao capazes de
corrigir a maior parte das mudan¸ cas antes que elas se tornem muta¸ c˜oes permanentes, e
muitos organismos tˆem mecanismos para eliminar c´elulas som´aticas que sofreram muta¸ c˜oes.
As muta¸ c˜oes s˜ao consideradas o mecanismo que permite a a¸ c˜ao da sele¸ c˜ao natural, j´a
que insere a varia¸ c˜ao gen´etica sobre a qual ela ir´a agir, fornecendo as novas caracter´ısticas
vantajosas que sobrevivem e se multiplicam nas gera¸ c˜oes subsequentes ou as caracter´ısticas
delet´erias que desaparecem em organismos mais fracos.
A sequˆencia de um gene pode ser alterada de diversas maneiras. Muta¸ c˜oes gen´eticas tˆem
diferentes efeitos na sa´ ude, dependendo de onde ocorrem e se alteram a fun¸ c˜ao de prote´ınas
essenciais. As muta¸ c˜oes s˜ao classificadas de v´arias formas, como por exemplo por efeito na
estrutura, na fun¸ c˜ao, etc. Segue alguns exemplos de muta¸ c˜oes:
1. Muta¸ c˜oes de pequena escala, como aquelas que afetam um gene em um ou poucos
nucleot´ıdeos, incluindo:
• Muta¸c˜ao de ponto: geralmente causada por substˆancias mutagˆenicas ou erros
na replica¸ c˜ao do DNA, h´a a troca de um ´ unico nucleot´ıdeo por outro [19]. A mais
comum, conhecida por transi¸ c˜ao, ocorre quando h´a a troca de uma purina por
outra purina (A ↔ G) ou uma pirimidina por outra pirimidina (C ↔ T). Um
tipo de muta¸ c˜ao de ponto menos comum ´e a transvers˜ao, em que h´a a troca de uma
purina por uma pirimidina, ou vice-versa (C/T ↔A/G). Uma muta¸ c˜ao de ponto
pode ser revertida por outra muta¸ c˜ao de ponto em que o nucleot´ıdeo ´e mudado de
volta ao seu estado original (revers˜ao verdadeira) ou por uma revers˜ao a partir de
outra muta¸ c˜ao (uma muta¸ c˜ao complementar em outro local que resulta no retorno
do gene `a fun¸ c˜ao anterior) [20]. Muta¸ c˜oes de ponto que ocorrem dentro da regi˜ao
codificadora da prote´ına podem ser classificadas em trˆes tipos, dependendo do tipo
de express˜ao apresentado pelo c´odon mutado [6]:
a) Muta¸ c˜ao silenciosa: n˜ao causa mudan¸ ca na sequˆencia de amino´acidos ou na
atividade da prote´ına codificada pelo gene.
b) Muta¸ c˜ao de sentido trocado: consiste na substitui¸ c˜ao de um amino´acido por
outro resultando em consequˆencias fenot´ıpicas observ´aveis devido a mudan¸ ca
na atividade da prote´ına;
c) Muta¸ c˜ao sem sentido: ´e a introdu¸ c˜ao de um c´odon de parada prematuro que
interrompe a prote´ına antes de seu t´ermino.
29
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
• Inser¸c˜ao: ocorre pela adi¸ c˜ao de um ou mais nucleot´ıdeos na sequˆencia de DNA.
Geralmente, esse tipo de muta¸ c˜ao ´e causado por transposons ou erros durante a
replica¸ c˜ao de elementos repetitivos (sequˆencias AT, por exemplo). Insers˜oes na
regi˜ao codificadora de um gene podem alterar o corte (splicing) do mRNA, ou
causar mudan¸ ca no quadro de leitura dos c´odons.
• Dele¸c˜ao: H´a a remo¸ c˜ao de um ou mais nucleot´ıdeos da sequˆencia de DNA. As-
sim como insers˜oes, essas muta¸ c˜oes podem modificar o quadro de leitura do gene.
Geralmente elas s˜ao irrevers´ıveis; apesar de teoricamente a mesma sequˆencia poder
ser restaurada por inser¸ c˜ao, elementos de transposi¸ c˜ao capazes de reverter uma
dele¸ c˜ao muito curta (com uma ou duas bases) em um dado local s˜ao muito im-
prov´aveis ou mesmo inexistentes.
´
E importante notar que uma dele¸ c˜ao n˜ao ´e o
oposto exato de uma inser¸ c˜ao. Enquanto dele¸ c˜oes s˜ao aleat´orias, inser¸ c˜oes consis-
tem de uma sequˆencia espec´ıfica sendo inserida em locais que n˜ao s˜ao completa-
mente aleat´orios.
As muta¸c˜oes mal´eficas s˜ao mudan¸ cas no DNA causadas por muta¸ c˜oes que podem causar
erros na sequˆencia das prote´ınas, criando prote´ınas parcial ou completamente n˜ao-funcionais.
Para funcionar corretamente, cada c´elula depende de milhares de prote´ınas para funcionar
nos s´ıtios certos. Quando uma muta¸ c˜ao altera uma prote´ına que tem um papel importante
no corpo, pode resultar numa doen¸ ca. Uma enfermidade causada por muta¸ c˜oes em um ou
mais genes ´e chamado de doen¸ ca gen´etica. Contudo, apenas uma pequena percentagem
de muta¸ c˜oes causa doen¸ cas gen´eticas; a maioria n˜ao tem impacto na sa´ ude. Por exemplo,
algumas muta¸ c˜oes alteram a sequˆencia de bases de DNA de um gene mas n˜ao mudam a fun¸ c˜ao
da prote´ına produzida por esse gene. Estudos na mosca da fruta Drosophila melanogaster
sugerem que se uma muta¸ c˜ao muda de fato uma prote´ına, esta mudan¸ ca ser´a provavelmente
mal´efica, com 70 por cento destas muta¸ c˜oes tendo efeitos negativos e sendo as restantes
neutras ou fracamente ben´eficas [21].
Se uma muta¸ c˜ao estiver presente numa c´elula germinal, pode dar origem a descendentes
portadores dessa muta¸ c˜ao em todas as suas c´elulas. Este ´e o caso de doen¸ cas heredit´arias. Por
outro lado, uma muta¸ c˜ao pode ocorrer numa c´elula som´atica de um organismo. Algumas
muta¸ c˜oes podem estar presentes em todos os descendentes desta c´elula e certas muta¸ c˜oes
podem provocar que a c´elula se torne maligna, e consequentemente cause cˆancer [22].
Muitas vezes, muta¸ c˜oes gˆenicas que poderiam provocar uma doen¸ ca gen´etica s˜ao reparadas
pelo sistema celular de repara¸ c˜ao do DNA. Cada c´elula tem um certo n´ umero de vias
bioqu´ımicas atrav´es do qual enzimas reconhecem e reparam erros no DNA. Como o DNA
pode ser danificado ou mutado de diversas maneiras, o processo de repara¸ c˜ao do DNA ´e uma
30
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
maneira importante do corpo se proteger de doen¸ cas.
As muta¸c˜oes ben´eficas s˜ao muta¸ c˜oes que levam `a novas vers˜oes de prote´ınas que aju-
dam o organismo e futuras gera¸ c˜oes a adaptar-se melhor a mudan¸ cas no seu ambiente. Por
exemplo, uma dele¸ c˜ao espec´ıfica de 32 pares de base no CCR5 humano confere resistˆencia ao
HIV a homozig´oticos e atrasa o despoletar do SIDA em heterozig´oticos. A muta¸ c˜ao CCR5 ´e
mais comum em pessoas com ascendˆencia europ´eia. Uma teoria para a etiologia da relativa
alta frequˆencia do CCR5-∆32 na popula¸ c˜ao europ´eia ´e que esta confere resistˆencia `a peste
bubˆonica que flagelou a Europa em meados do S´eculo XIV. Pessoas que tinham esta muta¸ c˜ao
foram capazes de sobreviver `a infec¸ c˜ao, por este motivo a sua frequˆencia na popula¸ c˜ao au-
mentou [23].
2.2 C´odigos Corretores de Erros
A teoria de c´odigos ´e um ramo da matem´atica em franca atividade possuindo v´arias ra-
mifica¸ c˜oes que utilizam ferramentas bastante diversas, como por exemplo, teoria dos n´ umeros,
teoria dos grupos, combinat´oria, geometrias finitas e geometria alg´ebrica, dentre outras.
C´odigos s˜ao utilizados sempre que se deseja transmitir ou armazenar dados. Por exemplo, nas
comunica¸ c˜oes via sat´elite, nas comunica¸ c˜oes internas de um computador, no armazenamento
de dados em CD e DVD ou armazenamento ´optico de dados.
O objetivo de um sistema de comunica¸ c˜ao ´e transmitir informa¸ c˜ao de uma fonte para um
destinat´ario atrav´es de um canal de comunica¸ c˜ao com a maior confiabilidade poss´ıvel.
A teoria de c´odigos foi fundada pelo matem´atico Claude E. Shannon [24], na d´ecada de
40. A teoria de c´odigos corretores de erros teve in´ıcio nesta mesma d´ecada com os trabalhos
de Golay [25], Hamming [26] e Shannon [24]. A grande descoberta da ´epoca surgiu, princi-
palmente devido a Shannon, com os modelos de c´odigos capazes de detectar e corrigir erros
num sistema de comunica¸ c˜oes. Shannon provou que para taxas de transmiss˜ao de informa¸ c˜ao
menores do que a capacidade de canal, sempre existe um c´odigo que permite uma transmiss˜ao
com probabilidade de erro arbitrariamente pequena.
Assim, as pesquisas se direcionaram para a procura de “bons c´odigos” e “bons conjuntos
de sinais” associados a esses c´odigos, bem como, projetar decodificadores eficientes para esses
c´odigos.
Na linha de c´odigos surgiram as classes de c´odigos lineares e n˜ao-lineares e na linha de
conjuntos de sinais foram propostos constela¸ c˜oes de sinais ´otimas sob diversas restri¸ c˜oes,
como por exemplo, potˆencia m´edia, potˆencia de pico, faixa e algumas combina¸ c˜oes destas, os
c´odigos de Slepian, seus variantes obtidos atrav´es de grupos de transforma¸ c˜oes ortogonais,
as constela¸ c˜oes tendo como base reticulados, etc.
31
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Essas linhas de pesquisa sempre foram tratadas separadamente at´e 1982, quando Unger-
boeck [27] mostrou que, atrav´es do conceito de particionamento de conjunto de sinais, ganhos
de codifica¸ c˜ao significativos eram obtidos. Surgindo assim, a modula¸ c˜ao codificada.
Dentro dessa nova linha de pesquisa, Forney [28] apresentou uma nova classe de c´odigos
denominada c´odigos geometricamente uniformes que, al´em de englobar os c´odigos de Slepian
e os c´odigos reticulados, estende o procedimento proposto por Ungerboeck.
A procura de bons c´odigos continua sendo relevante, por´em tendo que satisfazer, sempre
quando poss´ıvel, a propriedade de serem geometricamente uniformes.
Os c´odigos lineares constituem uma classe importante de c´ odigos por possu´ırem uma
estrutura alg´ebrica permitindo que principalmente a decodifica¸ c˜ao seja bastante simplificada.
Em contrapartida, a capacidade de corre¸ c˜ao de erros destes c´odigos n˜ao ´e melhor do que
aquela de certos c´odigos n˜ao-lineares.
Por outro lado, os c´odigos n˜ao-lineares n˜ao possuem uma estrutura alg´ebrica como a dos
lineares. Esta flexibilidade possibilita obter c´odigos com distˆancias de Hamming maiores
do que as encontradas com os c´odigos lineares. Por´em, a falta de uma estrutura alg´ebrica
aumenta a complexidade do processo de decodifica¸ c˜ao.
O objetivo ´e apresentar alguns dos principais conceitos de ´algebra e c´odigos que s˜ao
fundamentais para a compreens˜ao do presente trabalho. Na Subse¸ c˜ao 2.2.1 apresentamos as
principais defini¸ c˜oes e propriedades das estruturas de grupo, anel e corpo. Estas estruturas
s˜ao fundamentais na teoria de c´odigos corretores de erro, pois facilitam os processos de
codifica¸ c˜ao, decodifica¸ c˜ao e an´alise de desempenho destes. Na Subse¸ c˜ao 2.2.3 revemos os
conceitos relacionados a c´odigos de bloco e suas principais caracter´ısticas. A Subse¸ c˜ao 2.2.4
apresenta uma breve introdu¸ c˜ao aos c´odigos geometricamente uniformes, aos conjuntos de
sinais casados a grupos e aos c´odigos G-lineares. Estes conceitos foram usados com o objetivo
de propor um sistema de comunica¸ c˜ao para a importa¸ c˜ao de prote´ınas organelares, Cap´ıtulo
3.2. Nas Se¸ c˜oes 2.2.5 e 2.2.6 abordamos os principais conceitos sobre c´odigos BCH utilizados
no decorrer do presente trabalho.
2.2.1 Estruturas Alg´ebricas
Os conceitos apresentados nesta subse¸ c˜ao podem ser encontrados em [29] e [30].
Grupos
Defini¸c˜ao 2.2.1. Uma opera¸ c˜ ao bin´ aria ∗ sobre um conjunto S ´e uma regra que associa
algum elemento de S a cada par ordenado (a, b) de elementos de S. (a ∗ b denotar´a o elemento
associado a (a, b) atrav´es de ∗.
32
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Essa necessidade de que o elemento esteja tamb´em em S ´e conhecida como condi¸c˜ao de
fechamento. Assim, exigimos que S seja fechado sob uma opera¸ c˜ao bin´aria em S. Note
que apenas um ´ unico elemento ´e associado a cada par ordenado de S.
Defini¸c˜ao 2.2.2. Um grupo ¸G, ∗) ´e um conjunto n˜ao vazio G com uma opera¸ c˜ao bin´aria
∗ sobre G, tal que os seguintes axiomas s˜ao satisfeitos:
1. A opera¸ c˜ao bin´aria ∗ ´e associativa;
2. H´a um elemento e em G tal que e ∗ x = x ∗ e = x para todo x ∈ G. (Esse elemento e ´e
o elemento identidade para ∗ sobre G);
3. Para cada a em G, existe um elemento a
−1
em G com a propriedade que a
−1
∗ a =
a∗a
−1
= e. (O elemento a
−1
´e o elemento inverso de a com rela¸ c˜ ao ` a opera¸ c˜ ao
∗).
Como consequˆencia da Defini¸ c˜ao 2.2.2 temos os seguintes resultados:
1. O elemento identidade de um grupo G ´e ´ unico.
2. O inverso de cada elemento pertencente a um grupo G ´e ´ unico.
Defini¸c˜ao 2.2.3. Um grupo G ´e abeliano (ou comutativo) se sua opera¸ c˜ao bin´aria ∗ for
comutativa.
Exemplo 2.2.1. O conjunto Z sob a opera¸ c˜ao + ´e um grupo. Note que todas as condi¸ c˜oes
da defini¸ c˜ao de um grupo s˜ao satisfeitas. Este grupo ´e abeliano.
Uma classe de grupos bastante usada em c´odigos corretores de erro ´e a dos grupos Z
n
,
ou seja, os inteiros sob adi¸ c˜ao m´odulo n.
Defini¸c˜ao 2.2.4. Seja n um inteiro positivo e sejam h e k inteiros quaisquer. O resto r
quando h + k ´e dividido por n, segundo o algoritmo da divis˜ao de Euclides, ´e a soma de h
e k m´ odulo n. Assim, temos que Z
n
= ¦0, 1, 2, , n −1¦.
Analogamente, podemos definir produto de s e t m´odulo n como sendo o resto da
divis˜ao de (s t) por n.
Teorema 2.2.1. O conjunto Z
n
´e um grupo sob a opera¸ c˜ao adi¸ c˜ao m´odulo n.
Defini¸c˜ao 2.2.5. Se G ´e um grupo finito, ent˜ao a ordem de G, [G[, ´e o n´ umero de elementos
de G.
33
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Defini¸c˜ao 2.2.6. Se um subconjunto H de um grupo G ´e fechado sob a opera¸ c˜ao bin´aria sobre
G e se H ´e um grupo sob esta opera¸ c˜ao bin´aria, ent˜ao H ´e um subgrupo de G. Escrevemos
H ≤ G.
Defini¸c˜ao 2.2.7. Seja H um subgrupo de um grupo G. Diz-se que H ´e normal em G, ou H ´e
um subgrupo normal de um grupo G, se qualquer uma das seguintes condi¸ c˜oes equivalentes
ocorrer:
1. gH = Hg para todo g ∈ G;
2. g
−1
Hg = H para todo g ∈ G;
3. g
−1
Hg ⊂ H para todo g ∈ G;
4. g
−1
hg ∈ H para todo g ∈ G e h ∈ H.
Exemplo 2.2.2. Todos os subgrupos de grupos abelianos s˜ao normais.
Teorema 2.2.2. Seja G um grupo e seja a ∈ G. Ent˜ao
H = ¦a
n
[ n ∈ Z¦,
´e um subgrupo de G e ´e o menor subgrupo de G que cont´em a, ou seja, qualquer outro subgrupo
que cont´em a cont´em tamb´em H.
Defini¸c˜ao 2.2.8. O grupo H do Teorema 2.2.2 ´e o subgrupo c´ıclico de G gerado por a,
e o denotamos por ¸a).
Defini¸c˜ao 2.2.9. Dados um grupo G e um elemento a ∈ G, se ocorrer que
G = ¦a
n
[ n ∈ Z¦,
ent˜ao a ´e um gerador de G e o grupo G = ¸a) ´e c´ıclico.
Exemplo 2.2.3. O grupo Z sob adi¸ c˜ao ´e um grupo c´ıclico cujos geradores s˜ao 1 e −1.
Defini¸c˜ao 2.2.10. Uma rela¸ c˜ao ∼ sobre um conjunto S que satisfaz as seguintes propriedades
para todo a, b, c ∈ S,
1. a ∼ a;
2. Se a ∼ b, ent˜ao b ∼ a;
3. Se a ∼ b e b ∼ c, ent˜ao a ∼ c,
34
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
´e uma rela¸ c˜ ao de equivalˆencia sobre S. Cada c´elula a da parti¸ c˜ao dada por uma rela¸ c˜ao
de equivalˆencia ´e uma classe de equivalˆencia.
Defini¸c˜ao 2.2.11. Seja H um subgrupo de um grupo G. O subconjunto de G
aH = ¦ah [ h ∈ H¦,
´e a classe lateral ` a esquerda de H contendo a. Analogamente,
Ha = ¦ha [ h ∈ H¦,
´e a classe lateral ` a direita de H contendo a.
Teorema 2.2.3 (Teorema de Lagrange). Seja H um subgrupo de um grupo finito G. Ent˜ao
a ordem de H ´e um divisor da ordem de G, ou seja,
[H[ (n´ umero de classes laterais de G com rela¸ c˜ao a H) = [G[.
Corol´ario 2.2.1. Todo grupo cuja ordem ´e um n´ umero primo ´e c´ıclico.
Teorema 2.2.4. A ordem de qualquer elemento de um grupo finito divide a ordem do grupo.
Teorema 2.2.5. Seja H um subgrupo de um grupo G. Ent˜ao a multiplica¸ c˜ao de classes
laterais `a esquerda ´e definida como
(aH)(bH) = (ab)H,
se, e somente se, H ´e normal em G.
Defini¸c˜ao 2.2.12. Seja H um subgrupo normal de G. Ent˜ao, o conjunto das classes laterais
de H formam um grupo, denotado por G/H, sob a opera¸ c˜ao bin´aria (aH)(bH) = (ab)H. O
grupo G/H ´e chamado grupo quociente de G m´odulo H.
Exemplo 2.2.4. Como Z ´e um grupo abeliano, nZ ´e um subgrupo normal. Logo, temos o
grupo quociente Z/nZ = Z
n
.
Defini¸c˜ao 2.2.13. A ordem n de um elemento a pertencente a um grupo G ´e o menor inteiro
positivo tal que a
n
= e, onde e ´e a identidade do grupo.
Defini¸c˜ao 2.2.14. Considere dois grupos quaisquer G e G

e a fun¸ c˜ao (ou mapeamento)
ø : G →G

. Dizemos que ø ´e um homomorfismo de G em G

se
ø(ab) = ø(a)ø(b)
35
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
para todo a, b ∈ G. (Note que o produto ab ocorre em G, enquanto que o produto ø(a)ø(b)
ocorre em G

).
Defini¸c˜ao 2.2.15. Um isomorfismo de G em G

´e um homomorfismo onde a fun¸ c˜ao
ø : G →G

´e bijetora. Dizemos que G e G

s˜ao isomorfos e escrevemos G

= G

.
2.2.2 An´eis
Defini¸c˜ao 2.2.16. Um anel ¸R, +, ) ´e um conjunto n˜ao vazio R juntamente com duas
opera¸ c˜oes bin´arias + e definidas sobre R, as quais chamamos de adi¸ c˜ao e multiplica¸ c˜ao, tal
que os seguintes axiomas s˜ao satisfeitos:
1. ¸R, +) ´e um grupo abeliano;
2. A opera¸ c˜ao de multiplica¸ c˜ao ´e associativa, isto ´e, (ab)c = a(bc), ∀a, b, c ∈ R;
3. Para todo a, b, c ∈ R, ´e v´alida a lei distributiva `a esquerda, a(b + c) = (ab) + (ac), e `a
lei distributiva `a direita, (a +b)c = (ac) + (bc).
`
As vezes dizemos apenas “R ´e um anel” ou falamos do “ anel R”, por simplifica¸ c˜ao de
linguagem. Isto pressup˜oe, naturalmente, um par de opera¸ c˜oes em R com as propriedades
citadas.
Exemplo 2.2.5. S˜ao exemplos de an´eis: ¸Z, +, ), ¸Q, +, ), ¸R, +, ), ¸C, +, ) e o conjunto
dos polinˆomios da forma a
0
+ a
1
x + a
2
x
2
+ + a
n
x
n
na vari´avel x e coeficientes inteiros,
com as opera¸ c˜oes de adi¸ c˜ao e multiplica¸ c˜ao de polinˆomios.
Exemplo 2.2.6. O conjunto ¦0, 1, . . . , n − 1¦ forma um anel sob as opera¸ c˜oes de soma e
produto m´odulo n.
Defini¸c˜ao 2.2.17. Dizemos que Q ´e um subanel de um anel R se Q ⊆ R e Q tamb´em forma
um anel sob as opera¸ c˜oes + e , herdadas de R.
Defini¸c˜ao 2.2.18. Sejam R e R’ an´eis. Uma fun¸ c˜ao (mapeamento) ø : R → R

´e um
homomorfismo se as condi¸ c˜oes abaixo s˜ao satisfeitas, para a, b ∈ R:
1. ø(a +b) = ø(a) + ø(b);
2. ø(ab) = ø(a)ø(b).
Defini¸c˜ao 2.2.19. Um isomorfismo de R e R

´e um homomorfismo ø : R → R

bijetor.
Dizemos ent˜ao que R e R

s˜ao isomorfos.
36
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Defini¸c˜ao 2.2.20. Um anel R em que a multiplica¸ c˜ao ´e comutativa, isto ´e, ab = ba para todo
a, b ∈ R, ´e chamado um anel comutativo. Se al´em disso, R possuir elemento identidade
em rela¸ c˜ao `a multiplica¸ c˜ao, que ser´a denotado por 1, dizemos que R ´e um anel comutativo
com unidade.
Teorema 2.2.6. Se R ´e um anel com unidade, ent˜ao esta unidade 1 ´e a ´ unica identidade
multiplicativa do anel.
Defini¸c˜ao 2.2.21. Um subanel Q de um anel R ´e um ideal ` a direita (ou ` a esquerda)
em R se Qb ⊆ Q (bQ ⊆ Q) para todo b ∈ R. Se Q ´e simultaneamente um ideal `a direita e `a
esquerda em R, dizemos que Q ´e um ideal em R.
Sejam R um anel, Q um ideal em R e x um elemento em R. Assim, Q define uma rela¸ c˜ao
de equivalˆencia em R, dada por:
x ∼ x

⇔x −x

∈ Q.
Estas classes de equivalˆencia s˜ao os conjuntos:
x = x + Q = ¦x +q [ q ∈ Q¦
e s˜ao chamadas classes laterais aditivas de Q em R. Todo elemento em R est´a contido em
exatamente uma classe lateral x. Denotamos o conjunto de todas essas classes laterais por
R/Q. A partir das opera¸ c˜oes de adi¸ c˜ao e multiplica¸ c˜ao em R, definimos duas opera¸ c˜oes em
R/Q da seguinte forma:
x +y = (x + Q) + (y + Q) = x +y = (x +y) + Q
e
x y = (x + Q) (y + Q) = x y = x y + Q.
Estas opera¸ c˜oes s˜ao, respectivamente, a adi¸ c˜ao e a multiplica¸ c˜ao em R/Q.
´
E poss´ıvel
mostrar que R/Q´e um anel sob as opera¸ c˜oes acima, chamado anel quociente de R m´odulo
Q e denotado por R
Q
.
Exemplo 2.2.7. O conjunto Z
n
, n ≥ 2, pode ser visto como um anel quociente de Z m´odulo
nZ, ou seja, Z/nZ, pois nZ ´e um ideal em Z. Assim, (0, 1, , n − 1) denotam as classes
laterais:
0 = nZ, 1 = 1 +nZ, , n −1 = n −1 +nZ
37
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
que possuem estrutura de anel sob adi¸ c˜ao e multiplica¸ c˜ao de classes laterais e que particionam
Z.
Defini¸c˜ao 2.2.22. Se a e b s˜ao elementos n˜ao nulos de um anel R tais que ab = 0 ou ba = 0,
ent˜ao a e b s˜ao divisores de zero.
Exemplo 2.2.8. Em Z
8
os elementos 2 e 4 s˜ao divisores de zero.
Defini¸c˜ao 2.2.23. Seja R um anel com unidade. Um elemento a em R ´e uma unidade
invers´ıvel em R se existe um elemento a
−1
∈ R tal que a a
−1
= a
−1
a = 1. Ou seja, a ´e
invers´ıvel se possui inverso multiplicativo em R.
Exemplo 2.2.9. Os ´ unicos elementos invers´ıveis em Z s˜ao 1 ou −1.
Defini¸c˜ao 2.2.24. Anel de divis˜ ao ´e um anel com unidade no qual todo elemento n˜ao
nulo ´e invers´ıvel.
Defini¸c˜ao 2.2.25. Seja R um anel. Um R-m´ odulo consiste de um grupo abeliano G e uma
opera¸ c˜ao de multiplica¸ c˜ao de cada elemento de G por todo elemento de R pela esquerda, tais
que para todo α, β ∈ G e r, s ∈ R, as seguintes condi¸ c˜oes s˜ao satisfeitas:
1. (rα) ∈ G;
2. r(α +β) = rα +rβ;
3. (r +s)α = rα +sα;
4. (rs)α = r(sα).
Corpos
Defini¸c˜ao 2.2.26. Um corpo F ´e um anel de divis˜ao comutativo.
Portanto, dizemos que F ´e um corpo sob as opera¸ c˜oes bin´arias (+) e () se, e somente
se, F constitui um grupo abeliano sob estas opera¸ c˜oes e, para a opera¸ c˜ao (), ´e v´alida a lei
distributiva. Assim, podemos dizer que um corpo apresenta no m´ınimo dois elementos: as
identidades das opera¸ c˜oes (+) e (). O n´ umero de elementos num corpo ´e a ordem do mesmo
e um corpo onde este n´ umero ´e finito ´e chamado corpo finito.
Exemplo 2.2.10. S˜ao exemplos de corpos: o conjunto dos n´ umeros racionais e dos n´ umeros
reais sob adi¸ c˜ao e multiplica¸ c˜ao usuais e o conjunto Z
p
= ¦0, 1, 2, , p − 1¦ para p primo
sob adi¸ c˜ao e multiplica¸ c˜ao m´odulo p.
38
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Exemplo 2.2.11. O conjunto dos n´ umeros inteiros n˜ao forma um corpo sob as opera¸ c˜oes
de adi¸ c˜ao de multiplica¸ c˜ao usuais.
Defini¸c˜ao 2.2.27. Um subcorpo ´e um subconjunto de um corpo que tem estrutura de corpo
sob as opera¸ c˜oes herdadas do mesmo.
Os corpos finitos s˜ao usados na maioria das constru¸ c˜oes dos c´odigos conhecidos, estes
corpos s˜ao tamb´em conhecidos como corpos alg´ebricos de Galois ou corpos de Galois e
s˜ao denotados por GF(q) ou F
q
onde q ≥ 2 ´e o n´ umero de elementos do corpo. Descrevemos
a seguir uma s´erie de propriedades sobre F
q
.
Defini¸c˜ao 2.2.28. Um polinˆ omio de grau n −1 sobre um corpo F
q
´e escrito como:
p(x) = p
n−1
x
n−1
+p
n−2
x
n−2
+ +p
1
x +p
0
,
onde x ´e uma vari´avel e os coeficientes p
i
, 0 ≤ i ≤ n −1, i ∈ Z, s˜ao elementos de F
q
.
Defini¸c˜ao 2.2.29. Um polinˆ omio mˆ onico ´e aquele cujo coeficiente l´ıder (coeficiente da
vari´avel de maior expoente) p
n−1
´e igual a 1, a identidade multiplicativa de F
q
.
Sabemos que o conjunto de todos os polinˆomios sobre GF(q) forma um anel sob as
opera¸ c˜oes usuais de soma e multiplica¸ c˜ao de polinˆomios. Este anel ´e denotado por GF(q)[x]
ou F
q
[x].
Defini¸c˜ao 2.2.30. Um elemento β ∈ F
q
´e uma raiz ou zero do polinˆomio p(x) ∈ F
q
[x] se
p(β) = 0.
Teorema 2.2.7. Se G ´e um subgrupo multiplicativo do grupo ¸F

, ) de elementos n˜ao nulos
de um corpo F, ent˜ao G ´e c´ıclico.
Corol´ario 2.2.2. O grupo multiplicativo de todos elementos n˜ao nulos de um corpo finito
sob a opera¸ c˜ao multiplica¸ c˜ao deste corpo ´e c´ıclico.
Corol´ario 2.2.3. Uma extens˜ao (corpo de extens˜ao) E de grau r de um corpo finito F
q
´e o
conjunto dos polinˆomios sobre F
q
m´odulo um polinˆomio irredut´ıvel de grau r.
Teorema 2.2.8. Considere uma extens˜ao finita de grau r sobre o corpo F
q
. Ent˜ao esta
extens˜ao tem q
r
elementos.
Defini¸c˜ao 2.2.31. Dizemos que um polinˆomio p(x) sobre F
q
´e primo se ele for mˆonico e
irredut´ıvel sobre F
q
.
39
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Teorema 2.2.9. O anel de polinˆomios m´odulo um polinˆomio p(x) sobre F
q
´e um corpo se, e
somente se, p(x) ´e um polinˆomio primo.
Defini¸c˜ao 2.2.32. Um gerador do grupo multiplicativo de F
q
´e denominado um elemento
primitivo de F
q
.
Corol´ario 2.2.4. Todo corpo finito F cont´em um elemento primitivo.
Uma consequˆencia imediata do Corol´ario 2.2.4 ´e a de que todo corpo de Galois cont´em
um elemento β, tal que todo elemento pertencente ao grupo multiplicativo do corpo finito
pode ser expresso como uma potˆencia de β.
Os pr´oximos teoremas se referem `a existˆencia e unicidade dos chamados polinˆomios mi-
nimais.
Defini¸c˜ao 2.2.33. Seja GF(q

) um corpo finito e GF(q) um subcorpo de GF(q

). Seja
β ∈ GF(q

). O polinˆomio primo p(x) de menor grau sobre GF(q), tal que p(β) = 0, ´e
chamado polinˆ omio minimal de β sobre GF(q).
Teorema 2.2.10. Considere os corpos GF(q

) e GF(q) como definidos acima. Cada ele-
mento β de GF(q

) tem um ´ unico polinˆomio minimal sobre GF(q). Mais do que isso, se β
tem p(x) como seu polinˆomio minimal e um polinˆomio g(x) tem β como um zero, ent˜ao p(x)
divide g(x).
2.2.3 C´odigos
As defini¸ c˜oes e teoremas apresentados nesta subse¸ c˜ao podem ser encontradas em [29], [30]
e [31].
Defini¸c˜ao 2.2.34. Um c´ odigo C sobre um alfabeto A ´e qualquer subconjunto n˜ao-vazio
do espa¸ co de sequˆencias A
I
, onde A ´e chamado alfabeto do c´odigo e I ´e o conjunto de
´ındices das sequˆencias c = ¦c
i
[ i ∈ I¦. Chamamos de palavra-c´ odigo os elementos, ou
s´ımbolos, no alfabeto A que comp˜oem o c´odigo C.
Neste trabalho estamos interessados em alfabetos finitos. Entretanto, muitas vezes ´e
conveniente que o mesmo seja “estruturado”a fim de que a codifica¸ c˜ao e a decodifica¸ c˜ao
sejam simplificadas. Por alfabetos “estruturados”, entendemos aqueles que formam alguma
estrutura alg´ebrica, tal como corpo, anel ou grupo.
Defini¸c˜ao 2.2.35. Um c´ odigo de bloco C de comprimento n sobre um alfabeto A ´e
qualquer subconjunto n˜ao-vazio do conjunto A
n
das sequˆencias c = ¦c
i
[ 1 ≤ i ≤ n¦.
40
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Na defini¸ c˜ao de um c´odigo de bloco, implicitamente foi tamb´em definido o parˆametro n,
que ´e o comprimento do c´odigo. Um c´odigo de bloco ´e caracterizado por trˆes parˆametros
principais: a dimens˜ao, a taxa e a distˆancia m´ınima de Hamming.
Defini¸c˜ao 2.2.36. A dimens˜ ao de um c´odigo C ´e dada por k = log
|A|
[C[, s´ımbolos por
bloco, onde [ [ ´e a cardinalidade do conjunto.
Defini¸c˜ao 2.2.37. A taxa de um c´odigo C ´e dada por r = k/n, onde k ´e a dimens˜ao e n ´e
o comprimento do c´odigo.
Defini¸c˜ao 2.2.38. A distˆ ancia de Hamming d
H
(x, y) entre duas palavras x e y ∈ A
n
´e o
n´ umero de componentes nas quais elas diferem. Repare que as trˆes propriedades de m´etrica
est˜ao sendo satisfeitas:
1. d
H
(x, y) ≥ 0 e d
H
(x, y) = 0 ⇔x = y;
2. d
H
(x, y) = d
H
(y, x);
3. d
H
(x, y) +d
H
(y, z) ≥ d
H
(x, z).
Defini¸c˜ao 2.2.39. Seja C um c´odigo de comprimento n e tal que [C[ ≥ 2. A distˆ ancia
m´ınima de Hamming de C, denotada por d
min
(C) ´e dada por:
d
min
(C) = min
x, y ∈ C, x=y
d
H
(x, y)
Um c´odigo de bloco C de comprimento n, dimens˜ao k e distˆancia m´ınima de Hamming
d = d
min
(C) ´e representado por (n, k, d
min
)-c´odigo. O seguinte teorema fornece um limitante
superior para a distˆancia m´ınima em fun¸ c˜ao dos parˆametros n e k.
Teorema 2.2.11. Para qualquer c´odigo de bloco (n, k, d
dmin
), vale a seguinte desigualdade:
d ≤ n −k + 1.
Outras distˆancias ainda podem ser definidas, tais como, a distˆancia de Lee ou a distˆancia
Euclidiana, esta ´ ultima quando estamos associando uma modula¸ c˜ao (um conjunto de pontos
do R
n
) ao c´odigo. Entretanto, neste trabalho estaremos usando a distˆancia de Hamming.
C´odigos de bloco podem ser usados como c´odigos corretores de erros. A capacidade de
corre¸c˜ao de erros de um c´odigo (n, k, d
min
), denominada t, est´a relacionada `a distˆancia
m´ınima deste c´odigo da seguinte forma:
d
min
≤ 2t + 1.
41
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Logo, quanto maior a distˆancia m´ınima do c´odigo, maior ´e a capacidade deste de corrigir
erros.
A maioria dos c´odigos conhecidos at´e hoje pertencem `a classe dos c´odigos lineares. Um
c´odigo (n, k, d
min
) ´e dito linear se, e somente se, todas as suas palavras-c´odigo formam um
subespa¸ co vetorial de dimens˜ao k do espa¸ co vetorial F
n
q
, o conjunto das n-uplas do corpo F
q
.
Portanto, podemos representar este c´odigo matricialmente como
G =
_
¸
¸
¸
¸
_
g
11
g
12
g
n
g
21
g
22
g
2n
.
.
.
.
.
.
.
.
.
.
.
.
g
k1
g
k2
g
kn
_
¸
¸
¸
¸
_
,
conhecida como matriz geradora do c´odigo (n, k, d
min
), cujas linhas formam uma base do
c´odigo linear C. Dessa forma, o processo de codifica¸ c˜ao pode ser escrito como:
v = uG,
onde u ´e a palavra a ser codificada ou informa¸ c˜ao e v ´e a palavra-c´odigo correspondente.
Para toda palavra-c´odigo v vale a rela¸ c˜ao
vH
T
= 0,
onde a matriz (n−k)n, denotada por H, ´e chamada matriz verifica¸c˜ao de paridade de
C, e qualquer vetor ortogonal a suas linhas pertence ao espa¸ co vetorial das linhas da matriz
geradora G associada e vice-versa. O c´odigo gerado pela matriz H ´e chamado c´odigo dual
do c´odigo C, denotado por C

.
Existe uma maneira simples de determinar uma matriz verifica¸ c˜ao de paridade para um
c´odigo se uma matriz geradora ´e dada na forma sistem´atica. Se ( ´e o espa¸ co linha da matriz
G = (I
k
[ P), ent˜ao ( ´e o espa¸ co ortogonal de H = (−P
T
[ I
n−k
), onde I
n−k
´e a matriz
identidade de ordem n −k e P
T
´e a matriz transposta de P.
Defini¸c˜ao 2.2.40. Dado um c´odigo ( com matriz verifica¸ c˜ao de paridade H, a s´ındrome de
um vetor v ∈ F
q
´e o vetor Hv
t
.
A s´ındrome ´e um conceito usado para fazer a corre¸ c˜ao de erros em c´odigos lineares.
A express˜ao em padr˜ao de erro denomina a diferen¸ ca entre a palavra-c´odigo recebida
e a palavra-c´odigo enviada. Em um c´odigo linear ( com parˆametros (n, k), considere um
padr˜ao de erro e ∈ F
n
q
. Como ( ´e um subgrupo, ent˜ao e +( = ¦e +v [ v ∈ (¦ ´e uma classe
lateral de F
n
q
.
42
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Estabele¸ ca uma tabela da seguinte maneira:
• a primeira linha da tabela deve conter todas as palavras-c´odigo de ( come¸ cando com a
palavra toda nula;
• Das n-uplas de F
n
q
que n˜ao foram usadas, escolha aquela com menor peso e chame-a de
e
1
. A segunda linha da tabela ser´a composta pela classe lateral e
1
+(;
• A j-´esima linha da tabela ´e formada pela classe e
j
+ (, onde e
j
´e sempre escolhido
como a n-upla em F
n
q
de menor peso que ainda n˜ao foi usada;
• Esse procedimento termina quando todas as palavras de F
n
q
tenham sido usadas.
A Tabela 2.1 determinada assim ´e chamada arranjo padr˜ao.
v
1
= 0 v
2
v
3
v
k
q
e
1
e
1
+v
2
e
1
+v
3
e
1
+v
k
q
e
2 2
+v
2
e
2
+v
3
e
2
+v
k
q
.
.
.
.
.
.
.
.
.
.
.
.
e
q
n−k e
q
n−k +v
2
e
q
n−k +v
3
e
q
n−k +v
q
k
Tabela 2.1: Arranjo padr˜ao.
Algumas observa¸ c˜oes importantes devem ser feitas sobre o arranjo padr˜ao. Cada palavra
aparece uma ´ unica vez na tabela. Duas palavras est˜ao na mesma classe lateral se, e somente
se, possuem a mesma s´ındrome. A primeira coluna da tabela ´e formada pelas palavras de
peso m´ınimo dentro de cada classe, e s˜ao denominadas os l´ıderes das classes laterais.
Uma regra de decodifica¸ c˜ao por m´axima verossimilhan¸ca para um c´odigo linear ´e com-
pletamente descrita pelo arranjo padr˜ao. O receptor utiliza o arranjo padr˜ao para decodificar
uma palavra recebida da seguinte maneira:
• recebido v, calcule sua s´ındrome;
• ache o padr˜ao de erro e correspondente a essa s´ındrome na tabela;
• v −e ´e a palavra-c´odigo.
Para um c´odigo (n, k) sobre F
n
q
uma lista completa consiste de q
n
palavras. Todavia, note
que a lista dada no arranjo padr˜ao tem q
k
classes laterais cada contendo q
n−k
palavras. Como
em aplica¸ c˜oes s˜ao utilizados c´odigos longos, realizar a decodifica¸ c˜ao por m´axima verossi-
milhan¸ ca, ou equivalentemente, fazer uso do arranjo padr˜ ao ´e impratic´avel.
43
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
2.2.4 C´odigos Geometricamente Uniformes
Forney em [28] generalizou os c´odigos de grupo de Slepian e c´odigos reticulados per-
mitindo que os elementos do grupo gerador sejam isometrias arbitr´arias do espa¸ co euclidiano
R
n
, ao inv´es de transforma¸ c˜oes ortogonais ou transla¸ c˜oes consideradas de forma separada.
Tais c´odigos foram denominados c´odigos geometricamente uniformes apresentando pro-
priedades sim´etricas altamente desej´aveis tais como: todas as regi˜oes de Voronoi s˜ao con-
gruentes; o perfil de distˆancias ´e o mesmo para qualquer palavra-c´odigo; as palavras-c´odigo
possuem a mesma probabilidade de erro; e o grupo gerador ´e isomorfo a um grupo de per-
muta¸ c˜oes transitivo sobre as palavras-c´odigo. As defini¸ c˜oes e resultados apresentados nesta
subse¸ c˜ao podem ser encontrados em [28].
Defini¸c˜ao 2.2.41. [28] Seja S um conjunto de sinais em um espa¸ co m´etrico (M, d). Dizemos
que S ´e um c´ odigo geometricamente uniforme se para quaisquer s
1
e s
1
∈ S, existe uma
isometria µ
s
1
,s
2
tal que:
µ
s
1
,s
2
(s
1
) = s
2
,
e
µ
s
1
,s
2
(S) = S.
Em outras palavras, a a¸ c˜ao do grupo de simetrias, Γ(S), de S ´e transitiva. Se S for finito,
dizemos que S ´e uma constela¸c˜ao uniforme e se S for infinito dizemos que S ´e um arranjo
regular.
Em geral, o grupo de simetrias de um conjunto de sinais geometricamente uniforme pos-
sui mais elementos do que o necess´ario para ger´a-lo. Para isto, consideraremos a seguinte
defini¸ c˜ao.
Defini¸c˜ao 2.2.42. [28] Seja S um c´odigo geometricamente uniforme. Um grupo gerador
m´ınimo U(S) de S, ´e um subgrupo do grupo de simetrias de S que satisfaz
∀s
0
∈ S, S = ¦µ(s
0
), µ ∈ U(S)¦,
e a fun¸ c˜ao m : U(S) −→S, dada por m(µ) = µ(s
0
) ´e injetora.
Teorema 2.2.12. [28] O produto cartesiano de conjuntos de sinais geometricamente uni-
formes ´e um conjunto de sinais geometricamente uniforme.
Um subgrupo normal U

de um grupo gerador m´ınimo U(S) induz uma parti¸ c˜ao de um
conjunto de sinais geometricamente uniforme S em subconjuntos geometricamente uniformes.
44
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Defini¸c˜ao 2.2.43. [28] Seja S um conjunto de sinais geometricamente uniforme com grupo
gerador m´ınimo U(S). Uma parti¸ c˜ ao geometricamente uniforme S/S

, ´e uma parti¸ c˜ao
de S, induzida por um subgrupo normal U

de U(S). Os elementos de S/S

s˜ao os subconjuntos
de S que correspondem `as classes laterais de U

em U(S).
Defini¸c˜ao 2.2.44. [28] Sejam S/S

uma parti¸ c˜ao geometricamente uniforme e G um grupo
isomorfo a U(S/U

(S). Um rotulamento isom´etrico ´e uma fun¸ c˜ao injetora m : G −→S/S
dada pela composi¸ c˜ao do isomorfismo entre G e U(S)/U

(S) e a fun¸ c˜ao injetora induzida por
m de U(S)/U

(S) em S/S

.
Para um c´odigo S geometricamente uniforme, podemos definir, para cada ponto s ∈ S,
uma regi˜ao formada por todos os pontos pertencentes ao espa¸ co m´etrico onde est´a definido o
c´odigo que se encontram, no m´ınimo, t˜ao pr´oximos a s quanto qualquer outro ponto s

∈ S.
Em outras palavras, essas regi˜oes s˜ao as regi˜oes de decis˜ao do c´odigo. Formalmente, temos a
seguinte defini¸ c˜ao:
Defini¸c˜ao 2.2.45. [28] Seja S um conjunto de sinais geometricamente uniforme em um
espa¸ co m´etrico (M, d). A regi˜ ao de Voronoi associada a um ponto s ∈ S, denotada por
V(S), ´e o conjunto
V
(S)
(s) = ¦x ∈ M [ d(x, s) ≤ min
s

∈ S
d(x, s


A uniformidade geom´etrica ´e uma forma mais forte de simetria, apresentando propriedades
como: a distˆancia entre quaisquer duas palavras-c´odigo de S ´e a mesma, todas as regi˜oes de
Voronoi s˜ao congruentes, todas palavras-c´odigos possuem mesma probabilidade de erro e o
grupo gerador U(S) ´e isomorfo a um grupo de permuta¸ c˜oes transitivo sobre as palavras do
c´odigo. Todas essas caracter´ısticas s˜ao buscadas na constru¸ c˜ao de novas classes de c´odigos,
pois facilitam o processo de decodifica¸ c˜ao dos mesmos, no sentido de que n˜ao ´e necess´ario
conhecer a regi˜ao de decis˜ao de cada palavra-c´odigo; basta conhecer a regi˜ao de Voronoi as-
sociada a uma das palavras do c´odigo e determinar as demais regi˜oes a partir de transla¸ c˜oes
da regi˜ao conhecida.
Com rela¸ c˜ao aos c´odigos j´a existentes utilizados em comunica¸ c˜oes digitais, a maioria ´e
geometricamente uniforme, como por exemplo as constela¸ c˜ oes de sinais M-PSK.
Conjunto de Sinais Casados a Grupos
A principal motiva¸ c˜ao para considerar o codificador e o modulador como um s´o bloco
´e estabelecer a melhor forma de associar uma palavra-c´odigo a um sinal a ser transmitido.
Conjunto de sinais casado a um grupo, [32], constitui a forma mais adequada de estabelecer
esta associa¸ c˜ao.
45
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Defini¸c˜ao 2.2.46. [29] Sejam M um conjunto n˜ao vazio e d: MM −→R uma fun¸ c˜ao que
satisfaz as seguintes condi¸ c˜oes:
1. d(x, x) = 0;
2. x ,= y ⇒d(x, y) > 0;
3. d(x, y) = d(y, x);
4. d(x, z) ≤ d(x, y) +d(y, z).
para quaisquer x, y, z ∈ M. Dizemos, ent˜ao, que d ´e uma m´etrica e o par (M, d) ´e um
espa¸ co m´etrico.
Defini¸c˜ao 2.2.47. [32] Seja (M, d) um espa¸ co m´etrico. Dizemos que um conjunto de sinais
S, finito, em M est´a casado a um grupo G se existe uma fun¸ c˜ao µ de G sobre S tal que,
d(µ(g), µ(g

)) = d(µ(g
−1
∗ g

), µ(e
G
)), ∀ g, g

∈ G
onde e
G
´e o elemento neutro de G. A fun¸ c˜ao µ ´e denominada mapeamento casado. Se µ
´e injetora, ent˜ao µ
−1
´e denominada rotulamento casado.
Lema 2.2.1. [32] Seja µ a fun¸ c˜ao tal que o conjunto de sinais S em um espa¸ co m´etrico
(M, d) esteja casado a um grupo G. Se S
e
G
= µ(e
G
), onde e
G
´e o elemento neutro de G e
H = µ
−1
(S
e
G
), ent˜ao H ´e um subgrupo de G e, al´em disso,
µ(g) = µ(g

) ⇐⇒gH = g

H,
ou seja, g e g

est˜ao na mesma classe lateral `a esquerda de H em G.
Proposi¸c˜ao 2.2.1. [32] Seja S um conjunto de sinais em um espa¸ co m´etrico (M, d). Se S
est´a casado a um grupo G e H ´e um subgrupo normal em G, ent˜ao S est´a casado a G/H.
Defini¸c˜ao 2.2.48. [32] Seja µ a fun¸ c˜ao tal que o conjunto de sinais S em um espa¸ co m´etrico
(M, d) esteja casado a um grupo G, e H definido como no Lema 2.2.1. Se H n˜ao cont´em sub-
grupos normais n˜ao triviais de G, ent˜ao dizemos que µ ´e um mapeamento efetivamente
casado e S est´a efetivamente casado a G.
C´odigos G-lineares
Os c´odigos G-lineares s˜ao uma extens˜ao da Z
4
-linearidade centrada em grupos de simetria.
Esta extens˜ao ´e feita considerando-se um c´odigo quatern´ario mais como um rotulamento do
46
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
que a imagem de um c´odigo por isometria entre m´odulos. Este conceito foi introduzido em
[33] para c´odigos em espa¸ cos m´etricos em geral.
Todos os c´odigos bin´arios n˜ao-lineares estudados em [34] s˜ao imagens de c´odigos lineares
sobre Z
4
atrav´es de um mapeamento adequado.
Para estender este mapeamento para alfabetos n˜ao necessariamente bin´arios precisamos
conhecer a estrutura do dom´ınio e da imagem do mapeamento φ : Z
n
4
→ (Z
2
Z
2
)
n
. Desse
modo, temos as seguintes considera¸ c˜oes:
• O dom´ınio b´asico Z
4
ser´a visto como um grupo e a distˆancia de Lee associada a Z
4
´e
compat´ıvel com a sua estrutura de grupo, ou seja, ´e uma m´etrica de grupo em Z
4
.
• A imagem b´asica Z
2
Z
2
ser´a vista como um espa¸ co m´etrico onde a m´etrica associada
´e a m´etrica de Hamming.
Tendo como base estas considera¸ c˜oes, a quest˜ao que se coloca ´e a seguinte: para um grupo
G (como o Z
4
) e um espa¸ co m´etrico M (como o Z
2
Z
2
) quais devem ser as condi¸ c˜oes de
existˆencia do mapeamento φ : G
n
→M
n
, como no caso da Z
4
-linearidade?
A resposta a esta quest˜ao poder´a fornecer uma t´ecnica de constru¸ c˜ao de classes de c´odigos
geometricamente uniformes sobre o alfabeto M, atrav´es de c´odigos de grupo sobre o grupo
G. Al´em de ser poss´ıvel a constru¸ c˜ao de c´odigos sob uma determinada estrutura alg´ebrica a
partir de c´odigos sob uma estrutura mais adequada, permitir´a tamb´em fornecer uma t´ecnica
de associa¸ c˜ao das palavras-c´odigos aos elementos do conjunto de sinais.
Considerando o mesmo procedimento que no caso Z
4
, iremos estabelecer condi¸ c˜oes sufi-
cientes para que um c´odigo C, sobre um alfabeto A, seja geometricamente uniforme, mesmo
que este n˜ao seja linear. Esta ´ ultima condi¸ c˜ao dever´a ser herdada do c´odigo de grupo sobre
o grupo G. Estas considera¸ c˜oes levam a seguinte defini¸ c˜ao.
Defini¸c˜ao 2.2.49. Sejam G um grupo, d uma m´etrica de grupo em G e C um c´odigo de
comprimento n sobre o alfabeto A e cuja m´etrica ´e d

. Diremos que C ´e G-linear se C,
ou um c´odigo equivalente C

, for imagem de um c´odigo de grupo C sobre o grupo C, isto ´e,
C = φ(C), onde φ : G
n
→A
n
´e uma isometria entre os espa¸ cos m´etricos.
Com esta defini¸ c˜ao, temos as seguintes propriedades do c´odigo C:
Proposi¸c˜ao 2.2.2. Se um c´odigo C ´e G-linear, ent˜ao:
1. O alfabeto A est´a efetivamente casado ao grupo G, e consequentemente, o c´odigo C
est´a casado ao c´odigo de grupo correspondente obtido pelo mapeamento estendido.
2. O c´odigo C ´e geometricamente uniforme.
47
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Encontrar o mapeamento φ : G →A ´e, em princ´ıpio, um problema dif´ıcil. Todavia, como
o alfabeto A est´a casado ao grupo G e φ ´e uma bije¸ c˜ao, a procura por este mapeamento
´e equivalente a determinar um subgrupo transitivo isomorfo ao grupo de simetrias de A
conforme o Teorema 2.2.13.
Teorema 2.2.13. [32] Seja Θ um grupo transitivo sobre S em um espa¸ co m´etrico (M,d), ou
seja, S ´e a ´orbita de um dado ponto sob Θ. Ent˜ao S est´a casado a Θ e, para todo s ∈ S, a
transforma¸ c˜ao
µ
S
: Θ →S; µ
S
(f) = f(s)
2.2.5 C´odigos C´ıclicos Sobre An´eis de Inteiros Residuais
Nesta subse¸ c˜ao, apresentamos as defini¸ c˜oes e os teoremas relacionados a c´odigos c´ıclicos
sobre an´eis Z
q
(q ≥ 4 e inteiro). Nossa referˆencia ´e [35].
Defini¸c˜ao 2.2.50. Seja R um anel. Um m´ odulo livre ´e um R-m´odulo gerado por um
conjunto de vetores linearmente independentes.
Defini¸c˜ao 2.2.51. Um c´ odigo linear (n, k) sobre Z
q
´e definido como um m´odulo livre de
dimens˜ao k no espa¸ co de todas as n-uplas de Z
n
q
.
Defini¸c˜ao 2.2.52. Um c´odigo linear C com parˆametros (n, k) sobre Z
q
´e c´ıclico se, para
v = (v
0
v
1
v
2
... v
n−1
) ∈ C, todo deslocamento c´ıclico v
(1)
= (v
n−1
v
0
v
1
v
2
... v
n−2
)
∈ C, com v
i
∈ Z
q
, 0 ≤ i ≤ n −1.
Os c´odigos c´ıclicos s˜ao geralmente representados na forma polinomial. Assim, considere
a palavra c´odigo v = (v
0
v
1
v
2
... v
n−1
) de um c´odigo c´ıclico C. Podemos represent´a-la
pelo polinˆomio:
v(x) = v
0
+v
1
x +v
2
x
2
+... +v
n−1
x
n−1
.
O produto entre x e v(x) m´odulo x
n
−1 ´e dado por:
v
(1)
(x) = v
n−1
+v
0
x +v
1
x
2
+... +v
n−2
x
n−1
,
que corresponde `a palavra c´odigo:
v
(1)
= (v
n−1
v
0
v
1
... v
n−2
),
a qual ´e um deslocamento c´ıclico da palavra:
48
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
v = (v
0
v
1
v
2
... v
n−1
).
Portanto, v
(1)
(x) ´e obtido atrav´es do produto x.v(x) no anel quociente R
n
=
Zq[x]
<x
n
−1>
,
onde < x
n
− 1 > representa o ideal gerado por x
n
− 1. A adi¸ c˜ao de duas palavras-c´odigo ´e
feita em Z
q
[x].
Note que o conjunto de todas as palavras pertencentes a um c´odigo c´ıclico C formam um
subconjunto do anel R
n
, isto ´e, o conjunto de todos os polinˆomios cujo grau ´e menor do que
n.
Teorema 2.2.14. Um conjunto S de elementos em R
n
´e um c´odigo c´ıclico se, e somente se,
S ´e um ideal em R
n
.
Proposi¸c˜ao 2.2.3. Seja C um ideal em R
n
=
Zq[x]
<x
n
−1>
, isto ´e, um c´odigo c´ıclico de com-
primento n. Se existir um polinˆomio de grau m´ınimo em C, cujo coeficiente dominante ´e
um elemento invers´ıvel em Z
q
, ent˜ao o polinˆomio mˆonico (ou seja, aquele cujo coeficiente
dominante ´e um de grau m´ınimo em C ´e ´ unico.
Teorema 2.2.15. Seja C um ideal em R
n
=
Zq[x]
<x
n
−1>
e g(x) um polinˆomio mˆonico com o
menor grau em C. Assim, C = ¸g(x)), e portanto, o c´odigo C consiste de todos os m´ ultiplos
de g(x). Dizemos ent˜ao que C ´e um ideal principal.
Teorema 2.2.16. Seja C um ideal principal em R
n
. Se o coeficiente dominante do polinˆomio
de menor grau em C, g(x), ´e um elemento invers´ıvel, ent˜ao g(x) divide (x
n
− 1). Note que
se este polinˆomio for mˆonico, ent˜ao g(x) divide (x
n
−1).
Teorema 2.2.17. Se g(x) ∈ C e g(x) divide (x
n
− 1), ent˜ao g(x) tem grau m´ınimo em
C = ¸g(x)).
Os Teoremas 2.2.16 e 2.2.17 fornecem um m´etodo de constru¸ c˜ao de c´odigos c´ıclicos sobre
an´eis de inteiros residuais an´alogo ao m´etodo de constru¸ c˜ao de c´odigos c´ıclicos sobre corpos
finitos, ou seja, atrav´es da fatora¸ c˜ao do polinˆomio (x
n
− 1) sobre o anel de interesse para
ent˜ao tomar um fator (ou produto de fatores) como polinˆomio gerador do c´odigo em quest˜ao.
O pr´oximo teorema est´a relacionado `a representa¸ c˜ao matricial dos c´odigos c´ıclicos sobre
an´eis que possuem uma matriz geradora.
Teorema 2.2.18. Se g(x) divide (x
n
− 1) e o grau de g(x) ´e (n − k), ent˜ao a dimens˜ao de
C = ¸g(x)) ´e k. Se
g(x) = g
0
+g
1
x +g
2
x
2
+... +x
n−k
,
49
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
ent˜ao a matriz geradora do c´odigo C ´e dada por:
G =
_
_
_
_
_
_
_
_
_
g
0
g
1
g
2
. . . 1 0 0 . . . 0
0 g
0
g
1
. . . g
n−k−1
1 0 . . . 0
0 0 g
0
. . . g
n−k−2
g
n−k−1
1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 . . . g
0
g
1
g
2
. . . 1
_
_
_
_
_
_
_
_
_
Proposi¸c˜ao 2.2.4. Se C ´e um c´odigo c´ıclico sobre Z
q
onde q = p
k
1
1
p
k
2
2
...p
kq
q
, ent˜ao C ´e a
soma direta dos c´odigos c´ıclios C
i
sobre Z
k
i
p
i
, isto ´e,
C =
q

i=1
C
i
,
para 1 ≤ i ≤ q.
Extens˜ao de an´eis de Galois
A motiva¸ c˜ao para se utilizar o conceito de extens˜ao de Galois em teoria da codifica¸ c˜ao
est´a diretamente relacionada com a constru¸ c˜ao de c´odigos c´ıclicos sobre an´eis locais Z
q
, onde
q ´e uma potˆencia de um primo, q = p
k
, k ≥ 2.
A principal diferen¸ ca da constru¸ c˜ao de c´odigos c´ıclicos sobre an´eis para a constru¸ c˜ao de
c´odigos c´ıclicos sobre corpos est´a no fato de que as ra´ızes do polinˆomio gerador dos c´odigos
c´ıclicos sobre an´eis encontram-se na extens˜ao do anel Z
q
, ao inv´es de serem encontradas na
extens˜ao do corpo F
q

= GF(p
r
).
Defini¸c˜ao 2.2.53. Um c´odigo c´ıclico sobre Z
q
com comprimento n = q
r
−1, onde q = p
k
e
r ´e o grau da extens˜ao de Galois, ´e denominado c´ odigo c´ıclico primitivo.
Vamos assumir que a ordem do anel e o comprimento do c´odigo sejam relativamente
primos, isto ´e, o m´aximo divisor comum ´e um, denotado por mdc(p, n) = 1, pois assim
garantimos que (x
n
−1) n˜ao apresenta fatores quadr´aticos. Da Se¸ c˜ao 2.2.5, sabemos que um
c´odigo c´ıclico de comprimento n sobre Z
q
´e o ideal principal no anel de polinˆomios sobre Z
q
m´odulo (x
n
−1) e que este ideal ´e gerado por qualquer polinˆomio g(x) que divide (x
n
−1).
Seja Z
q
[x] o anel de polinˆomios na vari´avel x sobre Z
q
onde p(x) ´e um polinˆomio primi-
tivo de grau r, irredut´ıvel sobre GF(p) e, consequentemente, sobre Z
q
. Representamos por
GR(p
k
, r) o quociente Z
q
[x] pelo ideal gerado por p(x), ou seja,
R

= GR(p
k
, r)

=
Z
q
[x]
< p(x) >
.
50
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Assim, o anel R ´e formado por todas as classes laterais de polinˆomios em x sobre Z
q
mod p(x), isto ´e, consiste do conjunto dos polinˆomios de grau menor ou igual a (r −1) cujas
opera¸ c˜oes bin´arias de adi¸ c˜ao e multiplica¸ c˜ao s˜ao realizadas m´odulo p(x). Al´em disso, R ´e um
anel comutativo com identidade denominado extens˜ao de Galois de dimens˜ao r de Z
q
. Esta
extens˜ao ´e ´ unica a menos de isomorfismo [37].
O anel R

= GR(p
k
, r) ´e um anel local [37], isto ´e, seus elementos divisores de zero formam
um grupo abeliano aditivo e consistem dos polinˆomios de grau menor ou igual a (r −1) cujos
coeficientes s˜ao divisores de zero em Z
q
. Um polinˆomio p(x) ∈ R com pelo menos um
coeficiente invers´ıvel em Z
q
n˜ao ´e um divisor de zero em R e, portanto, pertence a R

(grupo
das unidades de R), ou seja, ´e sempre poss´ıvel encontrar um polinˆomio q(x) ∈ R, tal que
p(x).q(x) = 1.
Vale lembrar que, da Defini¸ c˜ao 2.2.16, temos:
Defini¸c˜ao 2.2.54. [36] Um polinˆomio n˜ao nulo p(x) ´e um divisor de zero em Z
q
[x] se
existe um polinˆomio q(x) ∈ Z
q
[x], q(x) ,= 0, tal que p(x).q(x) = 0.
Defini¸c˜ao 2.2.55. [36] Um polinˆomio p(x) ´e dito regular se ele n˜ao ´e um divisor de zero
no anel Z
q
[x].
Defini¸c˜ao 2.2.56. [36] Um polinˆomio regular p(x) ´e chamado local se
Zq[x]
p(x)
´e uma extens˜ao
local de Z
q
.
A irredutibilidade do polinˆomio p(x) sobre Z
q
´e garantida pelo seguinte teorema:
Teorema 2.2.19. [36] Seja p(x) um polinˆomio regular em Z
q
. Se existe uma aplica¸ c˜ao µ,
chamada proje¸ c˜ao natural, tal que µ(p(x)) seja diferente de zero e irredut´ıvel em GF(p),
ent˜ao p(x) ´e irredut´ıvel em Z
q
.
Como estamos interessados na classe dos c´odigos c´ıclicos, nosso objetivo ´e fornecer um
procedimento para a constru¸ c˜ao de tais c´odigos. O primeiro passo est´a relacionado com a
fatora¸ c˜ao de (x
n
− 1). Como o grupo das unidades de R, R

, ´e um grupo abeliano multi-
plicativo, ele pode ser expresso como um produto de grupos c´ıclicos. Uma vez encontrado
este grupo multiplicativo, o problema da constru¸ c˜ao de c´ odigos c´ıclicos se reduz `a escolha de
determinados elementos deste grupo que sejam ra´ızes do polinˆomio gerador g(x), que divide
(x
n
−1).
Os resultados a seguir fornecem os elementos necess´arios para a constru¸ c˜ao do subgrupo
c´ıclico G
n
do grupo multiplicativo R

, que cont´em todas as ra´ızes de (x
n
−1).
Teorema 2.2.20. [37] Existe um ´ unico subgrupo c´ıclico de R

cuja ordem ´e relativamente
prima a p. Este subgrupo tem ordem p
r
−1.
51
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Teorema 2.2.21. [38] Suponha que f ∈ R gere um subgrupo de ordem n em R

, onde
mdc(n, p) = 1 . Ent˜ao o polinˆomio (x
n
− 1) pode ser fatorado como x
n
− 1 = (x − f)(x −
f
2
) . . . (x−f
n
)se, e somente se, R
p
(f) tem ordem n em F

(grupo multiplicativo de GF(p
r
)),
onde R
p
(f) ´e o resto da divis˜ao de f por p (redu¸ c˜ao de f m´odulo p).
Corol´ario 2.2.5. [38] Um polinˆomio h(x), que divide (x
n
− 1) e tem coeficientes em Z
q
,
pode ser fatorado sobre G
n
como:
h(x) = (x −β
e1
)(x −β
e2
) (x −β
ej
),
se, e somente se, R
p
(h(x)) pode ser fatorado sobre GF(p
r
) como:
R
p
(h(x)) = (x −(R
p
(β))
e1
)(x −(R
p
(β))
e2
) (x −(R
p
(β))
ej
),
onde β ´e um elemento primitivo de G
n
e e
j
∈ Z.
Teorema 2.2.22. [38] Suponha que f
1
= R
p
(f) gere um subgrupo c´ıclico de ordem n em F

.
Ent˜ao f gera um subgrupo c´ıclico de ordem nd em R

, onde d ´e um inteiro maior ou igual a
um, e f
d
gera o subgrupo c´ıclico G
n
de R

.
O subgrupo c´ıclico G
n
´e obtido do Teorema 2.2.22, enquanto que, pelo Corol´ario 2.2.5, o
polinˆomio minimal M
i
(x) associado ao elemento β
i
sobre R

(onde β ´e um elemento primitivo
em G
n
), tem como suas ra´ızes todos os elementos na sequˆencia.
β
i
, (β
i
)
p
, (β
i
)
p
2
, , (β
i
)
p
r−1
.
Portanto, o polinˆomio minimal M
i
(x) pode ser constru´ıdo de forma muito similar `a cons-
tru¸ c˜ao do polinˆomio minimal m
i
(x) de R
p

i
) sobre GF(p).
Temos ainda a seguinte propriedade:
Teorema 2.2.23. [35] Seja β um elemento primitivo em G
n
, onde n = p
r
− 1. Ent˜ao o
elemento δ = β
l
1
−β
l
2
possui inverso em R se 0 ≤ l
1
,= l
2
≤ n −1.
2.2.6 C´odigos BCH sobre An´eis
Os c´odigos BCH formam uma importante classe de c´odigos c´ıclicos devido, principalmente,
`a simplicidade dos processos de codifica¸ c˜ao e decodifica¸ c˜ao associados, o que os torna bons
candidatos a serem utilizados em aplica¸ c˜oes pr´aticas. Os c´odigos BCH foram descobertos por
R. C. Bose, D. K. Chaudhuri e A. Hocquenghem e representam uma excelente generaliza¸ c˜ao
dos c´odigos de Hamming, permitindo a m´ ultipla corre¸ c˜ao de erros. Formam assim a classe
52
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
dos melhores c´odigos construtivos para canais onde os erros afetam os s´ımbolos de forma
independente.
Apesar de ser sempre poss´ıvel projetar um c´odigo BCH que corrija at´e t erros, para um t
qualquer, devemos interpretar esta informa¸ c˜ao com uma certa restri¸ c˜ao, pois as taxas desses
c´odigos s˜ao assintoticamente ruins. Ou seja, quando o comprimento das palavras-c´odigo n˜ao
´e grande, existem bons c´odigos BCH, caso contr´ario, o desempenho destes ´e prejudicado
devido `as baixas taxas de transmiss˜ao. Contudo, a real importˆancia dos c´odigos BCH vem
da facilidade de implementa¸ c˜ao do algoritmo de corre¸ c˜ao de erros, algoritmo de Berlekamp-
Massey modificado [35]. A seguir, fazemos algumas considera¸ c˜oes sobre os c´odigos BCH e
posteriormente passamos `a constru¸ c˜ao de tais c´odigos.
Defini¸c˜ao 2.2.57. Um c´odigo c´ıclico de comprimento n sobre GF(p) ´e denominado um
c´ odigo BCH com distˆ ancia de projeto d se o seu gerador g(x) for o m´ınimo m´ ultiplo
comum dos polinˆomios minimais de
β
m
, β
m+1
, β
m+2
, , β
m+d−2
,
para algum m inteiro n˜ao negativo, onde β ´e uma raiz primitiva (elemento primitivo) de
(x
n
−1), em alguma extens˜ao GF(p
r
) de GF(p).
Assim, analogamente `a Defini¸ c˜ao 2.2.19, temos:
Defini¸c˜ao 2.2.58. Se n = p
r
− 1, ou seja, se β for um elemento primitivo em F
q
, ent˜ao o
c´odigo BCH ´e chamado primitivo.
Normalmente, consideramos m = 1, o que nos fornece o chamado c´odigo BCH no sentido
estrito.
Os c´odigos BCH no sentido estrito definidos sobre an´eis de inteiros, com distˆancia de
projeto d e comprimento n, apresentam β, β
2
, β
3
, , β
2t
e seus conjugados como ra´ızes de
cada um de seus polinˆomios. Esta propriedade, juntamente com a Defini¸ c˜ao 2.2.52 de c´odigos
c´ıclicos sobre an´eis Z
q
, nos permite especificar a seguinte matriz:
H =
_
_
_
_
_
_
1 β β
2
. . . β
n−1
1 β
2

2
)
2
. . . (β
2
)
n−1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 β
2t

2t
)
2
. . . (β
2t
)
n−1
_
_
_
_
_
_
A matriz H acima ´e a matriz verifica¸ c˜ao de paridade para um c´odigo BCH. Note que os
elementos β
i
, 1 ≤ i ≤ 2t de H pertencem a G
n
, e portanto, os coeficientes de β s˜ao tomados
53
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
m´odulo n. Substituindo os elementos β
i
pelos vetores linha de comprimento r(r − uplas)
correspondentes, temos a matriz H sobre Z
q
.
Estamos interessados na constru¸ c˜ao de c´odigos BCH sobre an´eis Z
q
, para q = p
k
e k ≥ 2,
a qual ´e an´aloga `a constru¸ c˜ao de c´odigos BCH sobre corpos [38]. A diferen¸ ca entre essas
duas constru¸ c˜oes reside no fato de que, na primeira, as ra´ızes do polinˆomio gerador do c´odigo
BCH encontram-se na extens˜ao do anel Z
q
, ao inv´es de serem encontradas na extens˜ao do
corpo F
q
, como visto na Se¸ c˜ao 2.2.5. Vale lembrar tamb´em que iremos considerar o caso no
qual mdc(n, p) = 1.
Podemos especificar um c´odigo BCH de comprimento n sobre Z
q
, onde n = p
r
− 1, em
termos das ra´ızes de seu polinˆomio gerador g(x), que pertencem ao subgrupo c´ıclico G
n
. Seja
β um elemento primitivo de G
n
. Se β
e
1
, β
e
2
, , β
e
j
s˜ao ra´ızes de g(x), ent˜ao podemos gerar
um c´odigo BCH com s´ımbolos de Z
q
se escolhermos g(x) como:
g(x) = mmc (M
e
1
(x), M
e
2
(x), , M
e
j
(x)),
onde M
e
i
(x) ´e o polinˆomio minimal de β
e
i
. Al´em disso,
g(x) = R
p
(g(x)) = mmc (m
e
1
(x)
, m
e
2
(x)
, , m
e
j
(x)
)
onde m
e
i
(x) ´e o polinˆomio minimal de R
p

e
i
), gera um c´odigo BCH em GF(p).
Portanto, a constru¸ c˜ao de c´odigos BCH c´ıclicos sobre o anel Z
q
reduz-se `a escolha de
elementos do subgrupo c´ıclico G
n
para serem ra´ızes do polinˆomio gerador g(x).
Observa¸c˜ao 2.2.1. O m´etodo sistem´atico para o c´alculo do m´ınimo m´ ultiplo comum de um
conjunto de polinˆomios p
1
(x), p
2
(x), , p
n
(x) ´e computar o m´aximo divisor comum, mdc,
atrav´es do Algoritmo de Euclides e ent˜ao utilizar a seguinte rela¸ c˜ao:
mmc (p
1
(x), p
2
(x), , p
n
(x)) =

n
i=1
p
1
(x)
mdc (p
1
(x), p
2
(x), , p
n
(x))
Os pr´oximos teoremas estabelecem um limitante inferior para a distˆancia de Hamming
do c´odigo BCH constru´ıdo:
Teorema 2.2.24. Seja g(x) o polinˆomio gerador de um c´odigo c´ıclico de comprimento n
com s´ımbolos de Z
q
e sejam tamb´em β
e
1
, β
e
2
, , β
e
j
as ra´ızes de g(x) em G
n
, onde β tem
ordem n. Ent˜ao, a distˆancia m´ınima do c´odigo ´e maior que o n´ umero m´aximo de inteiros
consecutivos m´odulo n no conjunto e
1
, e
2
, , e
j
.
Teorema 2.2.25. A distˆancia de Hamming m´ınima de um c´odigo BCH satisfaz a rela¸ c˜ao:
d ≥ 2t + 1,
54
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
onte t ´e a capacidade de corre¸ c˜ao do c´odigo.
Note que os polinˆomios geradores dos c´odigos BCH c´ıclicos s˜ao constru´ıdos de forma a
respeitar o limitante para a distˆancia m´ınima indicado no Teorema 2.2.24 e no Teorema
2.2.25.
2.3 Decodifica¸ c˜ao do C´odigo BCH sobre Anel
O nome algoritmo de Berlekamp-Massey se deve ao fato de primeiramente ter sido desen-
volvido em [43] por Berlekamp e posteriormente melhorado por Massey em [44].
Interlando, Palazzo e Elia em [41], estenderam o algoritmo de Berlekamp-Massey, chaman-
do-o de algoritmo de Berlekamp-Massey modificado. Este algoritmo ´e um m´etodo de deco-
difica¸ c˜ao dos c´odigos Reed-Solomon e BCH sobre Z
p
k , onde p ´e um n´ umero primo e k ´e
um inteiro maior ou igual a 1. Com demonstra¸ c˜oes an´alogas, este algoritmo tamb´em vale
num contexto mais geral, ou seja, pode ser utilizado para a decodifica¸ c˜ao de c´odigos Reed-
Solomon e BCH definidos sobre an´eis comutativos finitos R com identidade. Al´em disso,
o procedimento proposto por Forney ainda continua v´alido. Esta adapta¸ c˜ao n˜ao altera os
fundamentos do algoritmo original, e deste modo a complexidade permanece praticamente
inalterada.
Apresentamos um algoritmo eficiente de decodifica¸ c˜ao que servir´a para a decodifica¸ c˜ao
dos c´odigos BCH sobre an´eis utilizados nesta proposta. Quando estes c´odigos s˜ao definidos
sobre corpos GF(q), o primeiro passo da decodifica¸ c˜ao ´e localizar as posi¸ c˜oes dos erros na
palavra recebida, atrav´es do uso do algoritmo de Berlekamp-Massey [39]. Em seguida, aplica-
se o procedimento proposto por Forney [40] para a determina¸ c˜ao das magnitudes dos erros.
A teoria apresentada neste cap´ıtulo ´e uma adapta¸ c˜ao apresentada por Interlando, Palazzo e
Elia [41].
O objetivo ´e apresentar os principais conceitos que envolvem o processo de decodifica¸ c˜ao.
Estes conceitos foram utilizados durante a proposta de um modelo de sistema de comunica¸ c˜ao
para a importa¸ c˜ao de prote´ınas organelares, Cap´ıtulo 3. O modelo apresenta as semelhan¸ cas
entre o processo de reconhecimento das sequˆencias de direcionamento e o processo de de-
codifica¸ c˜ao utilizado em sistemas de comunica¸ c˜oes digitais. Na Subse¸ c˜ao 2.3.1 apresentamos
o algoritmo de decodifica¸ c˜ao utilizado em sistemas de comunica¸ c˜oes digitais e na Subse¸ c˜ao
2.3.2 apresentamos como gerar sequˆencias atrav´es de um circuito linear de deslocamentos
com realimenta¸ c˜ao.
55
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
2.3.1 O Processo de Decodifica¸ c˜ao
Podemos constatar que a matriz verifica¸ c˜ao de paridade para estes c´odigos, quando pro-
jetada para a corre¸ c˜ao de at´e t erros, possui a forma:
H =
_
_
_
_
_
_
1 α α
2
. . . α
n−1
1 α
2

2
)
2
. . . (α
2
)
n−1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 α
2t

2t
)
2
. . . (α
2t
)
n−1
_
_
_
_
_
_
(2.1)
onde n ´e o comprimento da palavra-c´odigo em quest˜ao. No caso de c´odigos BCH sobre Z
p
k,
α ´e uma raiz de x
n
−1 e pertence ao anel GR(p
k
, r) (a extens˜ao de dimens˜ao r de Z
p
k. Note
que t dever´a ser escolhido de tal forma que os elementos α, α
2
, ..., α
2t
sejam todos distintos.
Portanto, devido a esta similaridade, o procedimento de corre¸ c˜ao de erros que iremos
descrever (que se baseia na informa¸ c˜ao dada pelo vetor s´ındrome) servir´a para a decodifica¸ c˜ao
de ambos os c´odigos. Ele sempre ser´a capaz de corrigir qualquer combina¸ c˜ao de t ou menos
erros.
Suponha ent˜ao que a palavra-c´odigo transmitida seja v = (v
0
v
1
... v
n−1
) e que o padr˜ao
de erro introduzido pelo canal seja e = (e
0
e
1
... e
n−1
). Portanto, o vetor recebido pelo
decodificador ser´a r = (r
0
r
1
... r
n−1
). Estes vetores tamb´em podem ser apresentados na
forma polinomial por v(X) = v
0
+ v
1
X +... + v
n−1
X
n−1
, e(X) = e
0
+ e
1
X + ... +e
n−1
X
n−1
e r(X) = r
0
+r
1
X +... +r
n−1
X
n−1
, respectivamente.
Vamos assumir agora que a i-´esima componente n˜ao nula de e (1 ≤ i ≤ v ≤ t) ocorra na
posi¸ c˜ao j, onde j pode ser qualquer inteiro entre 0 e n − 1 (inclusive). Ent˜ao, associaremos
a esta i-´esima componente n˜ao nula um par ordenado (X
i
, Y
i
) tal que:
X
i
: ´e um n´ umero de localiza¸ c˜ao de erro dado por α
j
e
Y
i
: ´e a magnitude do erro ocorrido na posi¸ c˜ao j.
O vetor s´ındrome ´e dado por s = r.H
t
= (v +e).H
t
= e.H
t
, onde H ´e a matriz verifica¸ c˜ao
de paridade dada por (5.1). Ent˜ao, em termos dos pares (X
i
, Y
i
), as componentes s
j
de s s˜ao
dadas por
s
j
= r(α
j
) = e(α
j
) =
v

i=1
Y
i
X
j
i
(2.2)
56
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
onde 1 ≤ j ≤ 2t e v representa o n´ umero de erros ocorridos.
Ent˜ao, um m´etodo para se corrigir erros ´e resolver o Sistema de Equa¸ c˜oes (2.2) condun-
zindo como resposta os pares (X
i
, Y
i
) que representam as posi¸ c˜oes e magnitudes dos mesmos.
Observamos que os n´ umeros localizadores de erros de cada componente do padr˜ao de erro
devem ser distintos pelo fato de α ser um elemento primitivo.
Inicialmente consideraremos o problema da localiza¸ c˜ao dos erros e em seguida resolve-
remos o problema da determina¸ c˜ao das magnitudes dos mesmos. Lembramos que no caso de
c´odigos bin´arios, encontrar a localiza¸ c˜ao dos erros implica necessariamente na determina¸ c˜ao
das suas magnitudes. Deste modo, considere o seguinte conjunto de equa¸ c˜oes:
(X −X
1
)(X −X
2
) . . . (X −X
v
) = X
v

1
X
v−1
+. . . +σ
v−1
X +σ
v
(2.3)
onde os coeficientes σ
1
, σ
2
, ..., σ
v
s˜ao conhecidos como as fun¸c˜oes sim´etricas elementares
dos X

i
s.
O primeiro passo ´e no sentido de obtermos uma rela¸ c˜ao entre os s
j
e os σ
i
e em seguida
analisar a existˆencia de solu¸ c˜oes. Assim, multiplicando ambos os lados da Equa¸ c˜ao (2.3)
por Y
i
X
j
i
e em seguida substituindo X
i
(1 ≤ i ≤ v) em X, obtemos o seguinte conjunto de
equa¸ c˜oes:
Y
i
X
j+v
i
+Y
i
X
j+v−1
i
σ
1
+. . . +Y
i
X
j+1
i
σ
v−1
+Y
i
X
j
i
σ
v
= 0 (2.4)
Agora somando estas equa¸ c˜oes para 1 ≤ i ≤ v e usando as Equa¸ c˜oes (2.2) obtemos a
seguinte rela¸ c˜ao entre σ
i
e s
j
,
s
j+v
+s
j+v−1
σ
1
+. . . +s
j+1
σ
v−1
+s
j
σ
v
= 0 (2.5)
e todos os s
j
s˜ao conhecidos se 1 ≤ j ≤ 2t − v. Portanto, o c´alculo dos σ

i
s a partir do
vetor s´ındrome ´e feito resolvendo-se o Sistema Linear (2.5) de modo que v tenha o menor
valor poss´ıvel (isto ´e requerido pois sempre estaremos assumindo que o vetor erro que ocorre
´e aquele que possui o menor peso de Hamming poss´ıvel). Por constru¸ c˜ao, o Sistema (2.5)
sempre possui uma solu¸ c˜ao. Veremos no pr´oximo teorema que se os Y

i
s s˜ao unidades, a
solu¸ c˜ao do Sistema (2.5) ´e ´ unica.
Teorema 2.3.1. [42] O Sistema Linear (2.5), nas inc´ognitas σ
1
, σ
2
, ..., σ
v
, dado por
57
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
_
¸
¸
¸
¸
_
s
1
s
2
. . . s
v
s
2
s
3
. . . s
v+1
.
.
.
.
.
.
.
.
.
.
.
.
s
2t−v
s
2t−v+1
. . . s
2t−1
_
¸
¸
¸
¸
_
_
¸
¸
¸
¸
_
σ
v
σ
v−1
.
.
.
σ
1
_
¸
¸
¸
¸
_
=
_
¸
¸
¸
¸
_
−s
v+1
−s
v+2
.
.
.
−s
2t
_
¸
¸
¸
¸
_
possui solu¸ c˜ao ´ unica se, e somente se, todas as magnitudes Y

i
s, dos erros ocorridos forem
unidades no anel sobre sobre o qual o c´odigo est´a definido.
Com isto, acabamos de mostrar que o procedimento de decodifica¸ c˜ao do c´odigo BCH
compreende os seguintes passos:
• Passo 1: C´alculo do vetor s´ındrome s = (s
1
s
2
. . . s
2t
) a partir do vetor recebido r;
• Passo 2: C´alculo das fun¸ c˜oes sim´etricas elementares σ
1
, σ
2
, ..., σ
v
, a partir de s;
• Passo 3: C´alculo dos n´ umeros localizadores de erros X
1
, X
2
, ..., X
v
a partir das fun¸ c˜oes
sim´etricas elementares σ
i
, i = 1, 2, ..., v;
• Passo 4: C´alculo das magnitudes dos erros Y

i
s a partir dos X

i
s e do vetor s´ındrome s.
A seguir passaremos a caracterizar cada um dos quatro passos mencionados acima.
Passo 1. C´alculo do Vetor S´ındrome: s = r.H
T
.
Passo 2. C´alculo das Fun¸ c˜oes Sim´etricas Elementares.
O problema a ser solucionado neste est´agio ´e o seguinte: dada uma sequˆencia de elementos
s
1
, s
2
, ..., s
2t
, as componentes do vetor s´ındrome s, os quais pertencem a um anel comutativo
GR(p
k
, r) onde k ≥ 1 e r ≥ 1 determine a solu¸ c˜ao do Sistema Linear (2.5) nas inc´ognitas σ
i
(1 ≤ i ≤ v) tal que v seja m´ınimo. Pelo Teorema 2.3.1 temos que a solu¸ c˜ao do Sistema (2.5)
ser´a ´ unica somente quando as magnitudes de todos os erros forem unidades em R.
Este algoritmo ´e iterativo de modo que no n-´esimo passo o decodificador determina um
conjunto de l
n
vetores σ
n
i
tal que as n −l
n
equa¸ c˜oes
_
¸
¸
¸
¸
_
¸
¸
¸
¸
_
s
n
σ
(n)
0
+s
n−1
σ
(n)
1
+ +s
n−ln
σ
(n)
ln
= 0
s
n−1
σ
(n)
0
+s
n−2
σ
(n)
1
+ +s
n−ln−1
σ
(n)
ln
= 0
.
.
.
s
ln+1
σ
(n)
0
+ s
ln
σ
(n)
1
+ +s
1
σ
(n)
ln
= 0
(2.6)
58
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
chamadas somas de potˆencias, sejam satisfeitas com l
n
o menor poss´ıvel e σ
n
0
= 1.
´
E
conveniente representar o conjunto dos σ
i
na seguinte forma polinomial σ
(n)
(x) = σ
(n)
0
+
σ
(n)
1
x + +σ
(n)
ln
x
ln
. Este polinˆomio tem grau menor ou igual a l
n
e representa a solu¸ c˜ao do
n-´esimo est´agio.
Agora, suponha que no n-´esimo est´agio o decodificador tenha determinado σ
(n)
(x), com
l
n
m´ınimo tal que o Sistema (2.5) seja satisfeito. No (n + 1)-´esimo est´agio o decodificador
procura encontrar o polinˆomio σ
(n+1)
(x) de menor grau tal que as equa¸ c˜oes
l
n+1

i=0
s
j−i
σ
(n+1)
i
= 0, l
n+1
+ 1 ≤ j ≤ n + 1 (2.7)
sejam satisfeitas. Definimos a n-´esima discrepˆancia d
n
como d
n
= s
n+1
σ
(n)
0
+ +s
n+1−ln
σ
(n)
ln
.
Se d
n
= 0, a Equa¸ c˜ao (2.7) vale com σ
(n+1)
(x) = σ
(n)
(x). E como σ
(n)
(x) ´e uma solu¸ c˜ao
m´ınima no n-´esimo est´agio, ´e certamente uma solu¸ c˜ao m´ınima no (n + 1)-´esimo est´agio.
Contudo, se d
n
,= 0 a determina¸ c˜ao de σ
(n+1)
(x) a partir de σ
(n)
(x) n˜ao ´e trivial. Em vista
disto, temos dois lemas que est˜ao diretamente relacionados com a determina¸ c˜ao de σ
(n+1)
(x)
(n˜ao necessariamente com o menor valor de l
n+1
poss´ıvel) a partir de σ
(n)
(x).
Lema 2.3.1. [42] Suponha que σ
(n)
(x) seja um polinˆomio solu¸ c˜ao minimal para as n primeiras
somas de potˆencias, isto ´e, existe um l
n
m´ınimo que satisfaz `as equa¸ c˜oes (2.6), e suponha
ainda que a pr´oxima discrepˆancia d
n
,= 0. Seja
σ
(m)
(X) = 1 +σ
(m)
1
X + +σ
(m)
lm
X
lm
um polinˆomio solu¸ c˜ao para as m primeiras somas de potˆencia, com 1 ≤ m < n e tal que a
equa¸ c˜ao d
n
−yd
m
= 0 admita uma solu¸ c˜ao em y sobre o anel R. Ent˜ao o polinˆomio
σ
(n)
(X) −yX
n−m
σ
(m)
(X) = σ
(n+1)
(X)
´e uma solu¸ c˜ao para as n + 1 primeiras somas de potˆencia. Mais ainda,
l
n+1
= max[l
n
, l
m
+n −m].
Lema 2.3.2. [42] Sejam σ
(n)
(X), l
n
e d
n
,= 0 como definidos no Lema 2.3.1. Suponha
que σ
(n+1)
(X) seja uma solu¸ c˜ao polinomial das equa¸ c˜oes em (2.6) satisfazendo n + 1 −l
n+1
equa¸ c˜oes e que σ
(n+1)
(X) −σ
(n)
(X) = aX
n−m
σ
(m)
(X), onde a ´e uma unidade em R e σ
(m)
0
=
1. Ent˜ao o polinˆomio σ
(m)
(X) ´e um polinˆomio solu¸ c˜ao para as m−l
m
primeiras equa¸ c˜oes em
(2.6), e tendo pr´oxima discrepˆancia d
m
,= 0, satisfazendo d
n
+ad
m
= 0 e l
m
= l
n+1
−(n−m).
59
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Como consequˆencia dos Lemas (2.3.1) e (2.3.2) temos o seguinte teorema.
Teorema 2.3.2. [42] Sejam σ
(n)
(X) um polinˆomio solu¸ c˜ao minimal no n-´esimo est´agio e
σ
(m)
(X), 1 ≤ m < n uma das solu¸ c˜oes minimais anteriores tal que a equa¸ c˜ao d
n
− yd
m
= 0
admita uma solu¸ c˜ao em y e m− l
m
tenha o m´aximo valor poss´ıvel. Ent˜ao uma solu¸ c˜ao no
(n + 1)-´esimo est´agio ´e σ
(n+1)
(X) onde
(i) Se d
n
= 0, ent˜ao
σ
(n+1)
(X) = σ
(n)
(X) e l
n+1
= l
n
; (2.8)
(ii) Se d
n
,= 0, ent˜ao
σ
(n+1)
(X) = σ
(n)
(X) −yX
n−m
σ
(m)
(X) e l
n+1
= max¦l
n
, l
m
+n −m¦ (2.9)
Observa¸c˜ao 2.3.1. A solu¸ c˜ao σ
(n+1)
(X) dada no Teorema (2.3.2) n˜ao ´e necessariamente
a resposta almejada, pelo fato de que o mesmo n˜ao garante a minimalidade quando o coefi-
ciente da menor potˆencia da vari´avel X em σ
(n+1)
(X) − σ
(n)
(X) n˜ao for uma unidade em
R. Contudo, em muitos casos este teorema j´a aponta corretamente a solu¸ c˜ao minimal no
(n + 1)-´esimo est´agio.
Iremos agora descrever o algoritmo da solu¸ c˜ao do problema original, isto ´e, a solu¸ c˜ao das
Equa¸ c˜oes (2.5). As suas entradas s˜ao as componentes do vetor s´ındrome s. O algoritmo
produzir´a como sa´ıda um conjunto de valores σ
i
, 1 ≤ i ≤ v, tais que as Equa¸ c˜oes (2.5) sejam
satisfeitas com o valor m´ınimo poss´ıvel de v. Para isso, assumimos as seguintes condi¸ c˜oes
iniciais
σ
(−1)
(X) = 1, l
−1
= 0, d
−1
= 1,
σ
(0)
= 1, l
0
= 0, d
0
= s
1
.
Algoritmo de Berlekamp- Massey Modificado (BM)
Iniciamos preenchendo os dados iniciais como mostra a seguinte tabela de valores
n σ
(n)
(X) d
n
l
n
n −l
n
-1 1 1 0 -1
0 1 s
1
0 0
1
2
.
.
.
2t
60
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Em seguida, adotamos os seguintes procedimentos:
(1) n ←0;
(2) Se d
n
= 0, ent˜ao σ
(n+1)
(X) e l
n+1
s˜ao dados por (2.8). V´a para o item (5);
(3) Se d
n
,= 0, ent˜ao encontre m tal que a equa¸ c˜ao d
n
− yd
m
= 0, na vari´avel y, tenha
solu¸ c˜ao sobre o anel R e m− l
m
tenha m´aximo valor poss´ıvel. Neste caso, σ
n+1
(X) e
l
n+1
s˜ao dados por (2.9);
(4) Se l
n+1
= max[l
n
, n + 1 − l
n
] v´a para o item (5). Caso contr´ario, devemos procurar
uma solu¸ c˜ao D
(n+1)
(X) com grau l m´ınimo poss´ıvel no intervalo max[l
n
, n + 1 −l
n
] ≤
l < max[l
n
, l
m
+n −m] tal que o polinˆomio σ
m
(X) definido pela equa¸ c˜ao D
(n+1)
(X) −
σ
(n)
(X) = X
n−m
σ
(m)
(X) seja uma solu¸ c˜ao para as m primeiras somas de potˆencias tal
que d
m
= −d
n
e σ
(m)
0
seja um divisor de zero em R. Se este polinˆomio for encontrado,
ent˜ao σ
(n+1)
(X) ←D
(n+1)
(X);
(5) Se n < 2t −1, calcule d
n+1
= s
n+2
+s
n+1
σ
(n+1)
1
+ +s
n+2
−l
n+1
σ
(n+1)
l
n+1
;
(6) n ←n + 1, se n < 2t v´a para (2). Caso contr´ario, fim.
Deste modo a resposta desejada ser´a dada pelo polinˆomio σ
(2t)
(X), isto ´e, os seus coefi-
cientes formam uma solu¸ c˜ao para as equa¸ c˜oes em (2.5).
Passo 3. C´alculo dos N´ umeros Localizadores de Erros.
O objetivo neste passo ´e resolver a equa¸ c˜ao polinomial ρ(Z) = 0 sobre o anel R onde
ρ(Z) = Z
v
σ
(2t)
(Z
−1
) = Z
v

1
Z
v−1
+ +σ
v−1
Z +σ
v
. Sendo R um anel devemos ter que as
ra´ızes de σ
(2t)
(Z) = 1+σ
1
Z + +σ
v
Z
v
est˜ao em R

, e assim as ra´ızes de ρ(Z) (o polinˆomio
rec´ıproco de σ
(2t)
(Z) s˜ao as inversas das ra´ızes de σ
(2t)
(Z)).
A solu¸ c˜ao do Sistema (2.5), em geral, n˜ao ´e ´ unica, e deste modo os valores de σ
i
, (1 ≤ i ≤
v) produzidos pelo algoritmo de Berlekamp-Massey modificado para an´eis pode n˜ao ser os
mesmos definidos pela Equa¸ c˜ao (2.3). Assim, as ra´ızes do polinˆomio ρ(Z) (com os coeficientes
σ

i
s provenientes do Algoritmo de BM modificado) podem n˜ao ser os n´ umeros localizadores
de erros corretos. Contudo veremos, a seguir, que de fato estes n´ umeros podem ser obtidos
a partir das ra´ızes de ρ(Z), desde que os coeficientes σ
i
, (1 ≤ i ≤ v) sejam uma solu¸ c˜ao do
Sistema (2.5).
Com o intuito de analisarmos a rela¸c˜ao entre as ra´ızes de ρ(Z) e os n´ umeros
localizadores de erros suponha que ρ(Z) tenha pelo menos v ra´ızes distintas sobre o anel
R. Assim, podemos escrever ρ(Z) = (Z − Z
1
)(Z − Z
2
) (Z − Z
v
). Observamos que pelo
61
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
menos uma solu¸ c˜ao de σ(Z) produzida pelo algoritmo de Berlekamp-Massey modificado ter´a
esta propriedade.
No sentido de converter as ra´ızes de ρ(Z) nos n´ umeros localizadores de erros corretos,
suponhamos que estes n´ umeros sejam X
1
, X
2
, , X
v
, que as magnitudes dos erros sejam
Y
1
, Y
2
, , Y
v
e que as ra´ızes de ρ(Z) sejam Z
1
, Z
2
, , Z
v
. Assim, podemos escrever
Y
i
X
j
i
(Z
v

1
Z
v−1
+ +σ
v−1
Z +σ
v
) = Y
i
X
j
i
(Z −Z
1
)(Z −Z
2
) (Z −Z
v
) (2.10)
para (1 ≤ i ≤ v) e (1 ≤ j ≤ 2t − v). Substituindo Z por X
i
e somando o primeiro membro
para (1 ≤ i ≤ v), obtemos
s
j+v
+s
j+v−1
σ
1
+ +s
j+1
σ
v−1
+s
j
σ
v
(2.11)
Note que esta equa¸ c˜ao se anula para todo j tal que (1 ≤ j ≤ 2t −v), j´a que os σ

i
s formam
uma solu¸ c˜ao para o Sistema (2.5) e consequentemente,
v

i=1
Y
i
X
j
i
(X
i
−Z
1
)(X
i
−Z
2
) (X
i
−Z
v
) = 0 (2.12)
para (1 ≤ j ≤ 2t −v). Escrevendo na forma matricial temos o seguinte sistema homogˆeneo:
_
¸
¸
¸
¸
_
X
1
X
2
. . . X
v
X
2
1
X
2
2
. . . X
2
v
.
.
.
.
.
.
.
.
.
.
.
.
X
2t−v
1
X
2t−v
2
. . . X
2t−v
v
_
¸
¸
¸
¸
_
_
¸
¸
¸
¸
_
Y
1
P
1
Y
2
P
2
.
.
.
Y
v
P
v
_
¸
¸
¸
¸
_
=
_
¸
¸
¸
¸
_
0
0
.
.
.
0
_
¸
¸
¸
¸
_
(2.13)
onde P
i
=

v
l=1
(X
i
− Z
l
) para (1 ≤ i ≤ v). Sendo 2t − v maior ou igual a v (pois v ≤ t) e
pelo Teorema 2.3.1 o posto (maior n´ umero r tal que existe uma submatriz r r tal que o
determinante ´e uma unidade em R) da matriz v v em (2.13) ´e v (que ´e igual ao n´ umero de
inc´ognitas), segue do Teorema 5.3 de [48] que este sistema possui somente a solu¸ c˜ao trivial,
isto ´e, Y
i
P
i
= 0, para (1 ≤ i ≤ v).
A partir deste resultado podemos concluir que cada produt´orio P
i
´e um divisor de zero
em R. Portanto, em cada P
i
(1 ≤ i ≤ v) existe pelo menos um l-´esimo fator (X
i
−Z
l
) que ´e
um divisor de zero em R. Al´em disso, se o l
1
-´esimo fator em P
i
´e um divisor de zero d
1
e o
62
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
l
2
-´esimo fator em P
k
´e tamb´em um divisor de zero d
2
, ent˜ao l
1
,= l
2
para i ,= k. De fato, se
l
1
= l
2
para i ,= k, temos que X
i
−X
k
, onde X
i
−Z
l
1
= d
1
e X
k
−Z
l
1
= d
2
, ´e um divisor de
zero em R (pelo fato de R ser um anel), o que ´e uma contradi¸ c˜ao pelas demonstra¸ c˜oes dos
Teoremas 3.4.1 e 3.4.2 e do Lema 4.1.1 de [49], j´a que i ,= k. Com isto, podemos afirmar que
correspondendo a cada Z
i
existe um ´ unico n´ umero de localiza¸ c˜ao de erro X
i
(1 ≤ i ≤ v).
A seguir, apresentamos um resumo do procedimento para o c´alculo dos n´ umeros loca-
lizadores de erros.
• Calcule as ra´ızes do polinˆomio ρ(Z) = Z
v
σ
(2t)
(Z
−1
), o rec´ıproco do polinˆomio produzido
pelo algoritmo de Berlekamp-Massey modificado;
Observa¸c˜ao 2.3.2. O m´etodo usado para encontrar a solu¸ c˜ao da equa¸ c˜ao polinomial
f(x) = 0, onde f(x) = a
0
+ a
1
x + a
2
x
2
+ + a
n
x
n
sobre o anel R, ´e o de fazer
uma busca exaustiva em R das ra´ızes de f(x). Isto ´e an´alogo ao que se faz quando da
decodifica¸ c˜ao de c´odigos BCH sobre corpos finitos GF(q), onde q ´e uma potˆencia de
um n´ umero primo.
• Entre os X
0
= α
0
, X
1
= α
1
, . . . , X
n−1
= α
n−1
, selecione aqueles X

i
s que tornam as
diferen¸ cas X
i
− Z
j
(1 ≤ j ≤ v) elementos divisores de zero em R. Os X

i
s selecionados
ser˜ao os n´ umeros localizadores de erros corretos e cada X
i
= α
i
indica que um erro
ocorreu na posi¸ c˜ao i da palavra-c´odigo.
Finalizado este passo de localiza¸ c˜ao dos erros, passamos ao quarto e ´ ultimo passo do
procedimento de decodifica¸ c˜ao dos c´odigos BCH.
Passo 4. Determina¸ c˜ao das Magnitudes dos Erros.
Para completarmos este processo de decodifica¸ c˜ao descrevemos um m´etodo para a de-
termina¸ c˜ao das magnitudes Y
i
(1 ≤ i ≤ v) dos erros. Neste sentido, primeiramente iremos
mostrar que estas magnitudes ficam determinadas de maneira ´ unica ap´os o conhecimento dos
X

i
s(1 ≤ i ≤ v), que s˜ao os n´ umeros localizadores de erros determinados no passo anterior.
As v primeiras equa¸ c˜oes em (2.2) podem ser descritas na forma
_
¸
¸
¸
¸
_
X
1
X
2
. . . X
v
X
2
1
X
2
2
. . . X
2
v
.
.
.
.
.
.
.
.
.
.
.
.
X
v
1
X
v
2
. . . X
v
v
_
¸
¸
¸
¸
_
_
¸
¸
¸
¸
_
Y
1
Y
2
.
.
.
Y
v
_
¸
¸
¸
¸
_
=
_
¸
¸
¸
¸
_
s
1
s
2
.
.
.
s
v
_
¸
¸
¸
¸
_
(2.14)
63
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Pelo Teorema 2.3.1 segue que a matriz v v em (2.14) ´e n˜ao singular, isto ´e, seu deter-
minante ´e uma unidade em R, acarretando que o vetor Y = (Y
1
, Y
2
, . . . , Y
v
) ´e determinado
de maneira ´ unica.
Para determinar o vetor Y usamos o procedimento proposto por Forney [40]. Este m´etodo
requer o conhecimento dos n´ umeros localizadores de erros e de suas fun¸ c˜oes sim´etricas ele-
mentares calculadas a partir da Equa¸ c˜ao (2.3).
Inicialmente, definimos as fun¸ c˜oes sim´etricas elementares σ
jl
dos n´ umeros localizadores
de erros (X
1
, X
2
, . . . , X
j−1
, X
j+1
, . . . , X
v
) atrav´es da seguinte rela¸ c˜ao

i=j
(X −X
i
) =
v−1

l=0
σ
jl
X
v−1−l
. (2.15)
Da Equa¸ c˜ao (2.3) obtemos,
v

i=1
(X −X
i
) =
v

i=0
σ
i
X
v−i
, (2.16)
onde σ
0
= σ
j,0
= 1, o elemento identidade do anel R. Das Equa¸ c˜oes (2.15) e (2.16) obtemos
que
(X −X
j
)
v−1

l=0
σ
jl
X
v−1−l
=
v

i=0
σ
i
X
v−i
. (2.17)
Desenvolvendo o primeiro membro da Equa¸ c˜ao (2.17) temos:
v−1

l=0
σ
jl
X
v−l

v−1

l=0
σ
jl
X
j
X
v−1−l
=
v

i=0
σ
i
X
v−i
. (2.18)
Da Equa¸ c˜ao (2.18) conclu´ımos que os coeficinetes σ
jl
podem ser obtidos de maneira re-
cursiva a partir dos X

i
s e σ

i
s para (1 ≤ i ≤ v) (que s˜ao conhecidos), mediante a seguinte
rela¸ c˜ao:
σ
ji
= σ
i
+X
j
σ
j,i−1
para (1 ≤ i ≤ v −1) e com σ
0
= σ
j,0
= 1. (2.19)
64
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
Denotando a magnitude de cada erro por Y
j
, temos:
v−1

l=0
σ
jl
s
v−l
=
v−1

l=0
σ
jl
v

i=1
Y
i
X
v−l
i
=
v

i=1
Y
i
X
i
v−1

l=0
σ
jl
X
v−1−l
i
. (2.20)
Por (2.15) isto implica que,
v−1

l=0
σ
jl
s
v−l
=
v

i=1
Y
i
X
i

m=j
(X
i
−X
m
) = Y
j
X
j

m=j
(X
j
−X
m
), (2.21)
onde esta ´ ultima igualdade segue do fato que o somat´orio em quest˜ao s´o n˜ao se anula se
i = j. Da Equa¸ c˜ao (2.21) conclu´ımos:
v−1

l=0
σ
jl
s
v−l
= Y
j
v−1

l=0
σ
jl
X
v−l
j
, (2.22)
e consequentemente, cada Y
j
para (1 ≤ j ≤ v) ´e dado por
Y
j
=

v−1
l=0
σ
jl
s
v−l

v−1
l=0
σ
jl
X
v−l
j
. (2.23)
Observa¸c˜ao 2.3.3. O denominador da Equa¸ c˜ao (2.23) ´e uma unidade no anel R pois ´e igual
a X
j

m=j
(X
j
−X
m
), onde cada fator ´e do tipo α
i
−α
j
com 0 ≤ i ,= j ≤ n−1. Assim, segue
das demonstra¸ c˜oes dos Teoremas 3.4.1, 3.4.2 e Lema 4.1.1 de [49] que as diferen¸ cas (α
i
−α
j
),
com i ,= j, s˜ao sempre unidades no anel R, o que implica que o referido denominador ´e uma
unidade no anel R.
Conclu´ımos deste modo o quarto passo de decodifica¸ c˜ao dos c´odigos BCH, que ´e a de-
termina¸ c˜ao das magnitudes Y

i
s dos erros atrav´es da Equa¸ c˜ao (2.23). Assim, finalizamos o
processo de decodifica¸ c˜ao destes c´odigos definidos sobre an´eis de inteiros residuais Z
p
k, para
p um primo e k um inteiro maior ou igual a 1.
2.3.2 Gera¸ c˜ao de Sequˆencias
O problema de circuitos lineares de deslocamentos com realimenta¸ c˜ao para d´ıgitos per-
tencentes a um corpo finito foi tratado em [44]. Este mesmo problema foi estendido em [35]
65
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
para o caso de an´eis da forma Z
p
k.
Um circuito linear de deslocamentos com realimenta¸ c˜ao de comprimento L, Figura 2.13,
consiste de uma cascata de L atrasadores (registros de deslocamentos) e alguns multipli-
cadores e somadores capazes de gerar uma combina¸ c˜ao linear dos conte´ udos destes registros.
S
j-1
S
j-2
S
j-L
S
j
S
j-L -1
S
1
,...,
-C
1
-C
L -C
2
.....
.....
.....
Figura 2.13: LFSR (“linear feedback shift-register”) de comprimento L.
O conte´ udo do ´ ultimo registro ´e a sa´ıda do LFSR. Os conte´ udos iniciais s
1
, s
2
, . . . , s
L
dos
L atrasadores coincidem com os L primeiros d´ıgitos de sa´ıda, e os dig´ıtos subsequentes de
sa´ıda s˜ao obtidos atrav´es da seguinte rela¸ c˜ao de recorrˆencia
s
j
= −
L

i=1
c
i
s
j−i
para (j = L + 1, L + 2, ...). Os d´ıgitos de sa´ıda e os coeficientes de realimenta¸c˜ao
c
1
, c
2
, . . . , c
L
s˜ao elementos do anel R. Quando c
L
= 0 o LFSR ´e dito singular.
Um LSFR gera uma sequˆencia finita de d´ıgitos s
1
, s
2
, . . . , s
N
quando esta sequˆencia coin-
cide com os N primeiros d´ıgitos de sa´ıda do mesmo para algum conte´ udo inicial. Se L ≥ N o
LFSR sempre gera a sequˆencia e se L < N temos que o LFSR gera a sequˆencia se, e somente
se,
s
j
+s
j−1
c
1
+ +s
j−L+1
c
L−1
+s
j−L
c
L
= 0 (2.24)
para L + 1 ≤ j ≤ N.
Algoritmo para s´ıntese de LFSR’s
Em [44] foi mostrado que o algoritmo usado para a decodifica¸ c˜ao de c´odigos BCH tamb´em
pode ser usado para sintetizar um LFSR de comprimento m´ınimo L que gera uma sequˆencia
66
Cap´ıtulo 2. Elementos de Biologia e C´odigos Corretores de Erros
prescrita. Isto ´e, o problema de gera¸ c˜ao de um LFSR e a decodifica¸ c˜ao de um c´odigo BCH
s˜ao equivalentes.
De forma an´aloga, o algoritmo de Berlekamp-Massey modicado pode ser aplicado para
sintetizar um LFSR de comprimento m´ınimo que gera uma dada sequˆencia ¦s
i
¦
N
i=1
de e-
lementos pertencentes a um anel R. Isto ´e justificado quando comparamos os Sistemas de
Equa¸ c˜oes (2.5) e (2.24). Em ambos os casos, o objetivo ´e encontrar a menor quantidade de
vari´aveis (v ou L) que satisfazem os respectivos conjuntos de equa¸ c˜oes.
Deste modo, temos que as entradas do algoritmo ser˜ao os elementos s
1
, s
2
, . . . , s
N
que
formam a sequˆencia dada e a sa´ıda do mesmo ser´a o polinˆomio
C(X) = 1 +c
1
X + +c
L
X
L
na vari´avel X, cujos coeficientes s˜ao os coeficientes de realimenta¸ c˜ao do LFSR minimal de
comprimento L que gera ¦s
i
¦
N
i=1
. Este LFSR minimal ser´a ´ unico se, e somente se, 2L ≤ N e
em cada est´agio do algoritmo a equa¸ c˜ao linear d
n
−yd
m
= 0, na vari´avel Y , apresentar solu¸ c˜ao
´ unica (d
n
e d
m
s˜ao a n-´esima e a m-´esima discrepˆancia, respectivamente). Caso contr´ario,
haver´a mais de um LFSR minimal de comprimento L que gera ¦s
i
¦
N
i=1
.
Finalmente, vale ressaltar que o problema da s´ıntese de LFSR’s minimais que geram
sequˆencias de elementos pertencentes a an´eis do tipo Z
m
foi tratado em [44]. Entretanto,
o algoritmo apresentado difere substancialmente do algoritmo original de BM para corpos
GF(q), aumentando inclusive o n´ umero de vari´aveis envolvidas. Al´em disso, se m fatorar em
um produto de r primos distintos, ent˜ao o algoritmo deve ser aplicado r vezes para depois
usarmos o Teorema do Resto Chinˆes [45] que finalmente produzir´a a resposta desejada.
67
Cap´ıtulo 3
Modelo de um Sistema de
Comunica¸ c˜ao para a Importa¸ c˜ao de
Prote´ınas Organelares
Neste cap´ıtulo, apresentamos a proposta de um modelo geral de sistema de comunica¸ c˜oes
para o mecanismo de importa¸ c˜ao organelar. Utilizamos o modelo proposto para interpretar
o sistema de importa¸ c˜ao de prote´ınas mitocondriais, isto ´e, um caso particular do modelo
geral. Al´em disso, mostramos como foram estabelecidos os c´odigos corretores de erros para
a reprodu¸ c˜ao das sequˆencias de direcionamento, bem como a estrutura matem´atica e os
parˆametros destes c´odigos.
Por tratar-se de um assunto interdisciplinar, na Se¸ c˜ao 3.1 relatamos sobre as semelhan¸ cas
entre o Dogma Central da Biologia e o Dogma Central da Teoria de Comunica¸ c˜oes. Baseando-
se nessas semelhan¸ cas descrevemos detalhadamente sobre os processos de codifica¸ c˜ao e de-
codifica¸ c˜ao do modelo proposto para o mecanismo de importa¸ c˜ao de prote´ınas mitocondriais,
Se¸ c˜ao 3.2. Ressaltamos que a Subse¸ c˜ao 3.1.1 ´e parte integrante de [18].
3.1 Analogias entre um Sistema de Informa¸ c˜ao Gen´e-
tica e um Sistema de Comunica¸ c˜ao
3.1.1 O dogma central da biologia molecular
O dogma central da biologia molecular foi descrito em 1958 por Francis Crick na tentativa
de relacionar o DNA, o RNA e as prote´ınas. O dogma central define o paradigma da biologia
molecular, em que a informa¸ c˜ao ´e perpetuada atrav´es da replica¸c˜ao do DNA e ´e traduzida
69
Cap´ıtulo 3. Modelo de um Sistema de Comunica¸ c˜ao para a Importa¸ c˜ao de Prote´ınas
Organelares
atrav´es de dois processos: A transcri¸c˜ao que converte a informa¸ c˜ao do DNA em uma forma
mais acess´ıvel (uma fita de RNA complementar) e atrav´es da tradu¸c˜ao que converte a
informa¸ c˜ao contida no RNA em prote´ınas. Nesta subse¸ c˜ao descrevemos, de forma sucinta,
como ocorrem os processos de duplica¸ c˜ao, transcri¸ c˜ao e tradu¸ c˜ao, respectivamente.
Como o DNA se duplica - duplica¸c˜ao
Para o DNA duplicar-se (ou replicar), h´a necessidade de uma enzima especial, a DNA
polimerase. Estando presente essa enzima, ocorrem as seguintes etapas:
1. As pontes de hidrogˆenio que ligam as bases nitrogenadas rompem-se e as duas fitas se
afastam;
2. Nucleot´ıdeos de DNA livres, que j´a existem na c´elula, encaixam-se nas duas fitas que se
afastaram. O encaixe s´o ocorre se as bases forem complementares (adenina com timina,
citosina com guanina);
3. Quando as duas fitas originais tiverem sido completadas por nucleot´ıdeos novos, teremos
duas mol´eculas de DNA idˆenticas entre si.
Em cada mol´ecula, existe um filamento antigo, que pertencia `a mol´ecula-m˜ae, e um novo,
que se formou sobre o antigo. Cada filamento antigo atuou como molde, j´a que sua sequˆencia
de bases funcionou como “guia” para a produ¸ c˜ao da fita nova. O processo de duplica¸ c˜ao
´e tamb´em denominado semi-conservativo, j´a que cada mol´ecula-filha conserva metade da
mol´ecula-m˜ae.
Como o DNA fabrica o mRNA - transcri¸c˜ao
De que jeito o DNA controla a produ¸c˜ao de enzimas? O DNA produz mol´eculas
de mRNA, que migram para o citoplasma e controlam a constru¸ c˜ao das prote´ınas, amino´a-
cido por amino´acido, garantindo a produ¸ c˜ao daquela prote´ına especial no momento correto.
A sequˆencia de DNA ´e que condiciona a sequˆencia da mol´ecula de RNA. Uma diferen¸ ca
importante em rela¸ c˜ao `a duplica¸ c˜ao ´e que apenas uma fita de DNA funciona como molde.
O RNA produzido ser´a, portanto, uma fita simples e n˜ao dupla. Esse processo segue os
seguintes passos:
1.
´
E necess´aria a presen¸ ca de uma enzima: a RNA polimerase;
2. As pontes de hidrogˆenio se desfazem, as duas fitas de DNA se afastam;
3. Nucleot´ıdeos livres de RNA encaixam-se apenas numa das fitas, chamada fita ativa;
70
Cap´ıtulo 3. Modelo de um Sistema de Comunica¸ c˜ao para a Importa¸ c˜ao de Prote´ınas
Organelares
4. A mol´ecula de RNA (fita ´ unica) destaca-se de seu molde de DNA e migra para o
citoplasma;
5. As duas fitas de DNA tornam a parear, reconstituindo a mol´ecula original.
S´ıntese de prote´ınas - tradu¸c˜ao
O DNA presente no n´ ucleo controla toda a s´ıntese de prote´ınas da c´elula. Esse controle ´e
efetuado por meio de mol´eculas de RNA que o DNA fabrica e que passam para o citoplasma.
A correspondˆencia entre o DNA e o RNA ocorre base por base: quando h´a adenina no
DNA, entra uracila no RNA; timina no DNA corresponde `a adenina no RNA, e assim por
diante.
Na correspondˆencia entre RNA e prote´ına, cada trˆes bases do RNA codificam um amino´a-
cido espec´ıfico da prote´ına. A correspondˆencia entre trincas de bases do DNA, trincas de
bases do RNA e amino´acidos chamamos c´odigo gen´etico. Cada trinca de bases no DNA
ou no RNA ´e denominada c´odon, de fato essas trincas representam “palavras” do c´odigo
gen´etico, cada “palavra” corresponde a um “objeto”, no caso o amino´acido. Existem 64
poss´ıveis trincas, ou c´odons, que correspondem a apenas 20 amino´acidos. Assim, ´e f´acil
entender que mais de um c´odon pode corresponder ao mesmo amino´acido.
3.1.2 O dogma central da teoria de comunica¸ c˜oes
A teoria de comunica¸ c˜oes lida com sistemas para a transmiss˜ao de dados ou de informa¸ c˜ao
de um ponto a outro. Na Figura 3.1 ilustramos atrav´es de um diagrama de blocos o que
definimos como sendo o dogma central da teoria de comunica¸c˜oes:
Transmissor Canal Receptor
Ruído
Figura 3.1: Dogma central da teoria de comunica¸ c˜oes.
A informa¸ c˜ao a ser transmitida atrav´es de um sistema de comunica¸ c˜oes estar´a sempre
sujeita a um conjunto de interferˆencias que no processo de modelagem ser˜ao alocadas ao
canal de transmiss˜ao. Essa coletˆanea de interferˆencias ´e denominada ru´ıdo.
Podemos descrever os blocos de um sistema de comunica¸ c˜oes como:
71
Cap´ıtulo 3. Modelo de um Sistema de Comunica¸ c˜ao para a Importa¸ c˜ao de Prote´ınas
Organelares
• Transmissor: ´e o gerador da informa¸ c˜ao, na forma de uma mensagem a ser transmi-
tida. Esta mensagem pode se constituir de um texto em uma linguagem natural, voz,
um sinal el´etrico, ou qualquer outra forma que a informa¸ c˜ ao possa assumir.
• Canal: ´e o meio atrav´es do qual se vai transmitir a informa¸ c˜ao, podendo assumir a
forma de uma linha telefˆonica, um enlace de r´adio, um meio de armazenamento (e.g.
sistema de disco magn´etico), um organismo biol´ogico, etc.
´
E no canal que ´e introduzido
ru´ıdo `a informa¸ c˜ao, sendo esta uma das grandes preocupa¸ c˜oes da codifica¸ c˜ao, a prote¸ c˜ao
da informa¸ c˜ao contra erros na transmiss˜ao.
• Receptor: representa o usu´ario para o qual a informa¸ c˜ao est´a sendo transmitida,
podendo tratar-se de um ser humano, uma m´aquina, ou um organismo vivo qualquer.
3.1.3 Analogias entre sistema de informa¸ c˜ao gen´etica e o sistema
de comunica¸ c˜oes
O objetivo desta se¸ c˜ao ´e relacionar as semelhan¸ cas existentes entre o dogma central do
sistema de comunica¸ c˜oes e o dogma central da biologia molecular. Atrav´es das informa¸ c˜oes
fornecidas nas Subse¸ c˜oes 3.1.1 e 3.1.2, modelamos o dogma central da biologia molecular
como um sistema de comunica¸ c˜oes fazendo as seguintes associa¸ c˜oes:
1. Em um sistema de comunica¸ c˜ao o respons´avel pela gera¸ c˜ao das informa¸ c˜oes a serem
transmitidas ´e o transmissor. Biologicamente quem exerce esta mesma fun¸ c˜ao ´e o DNA.
2. O processo de tradu¸ c˜ao tem como objetivo a transmiss˜ao da informa¸ c˜ao. Durante este
processo pode ocorrer alguns erros que ir˜ao interferir na informa¸ c˜ao, como por exemplo
a n˜ao leitura de um c´odon que pode ocorrer por perda do pareamento do ribossomo.
Do ponto de vista da comunica¸ c˜ao, podemos visualizar os processos de transcri¸ c˜ao
e tradu¸ c˜ao como sendo o canal de um sistema de comunica¸ c˜ao, e os eventuais erros
cometidos durante estes processos como sendo o ru´ıdo introduzido no canal.
3. O receptor pode ser modelado como o local onde a informa¸ c˜ ao est´a sendo enviada.
Neste caso espec´ıfico, a nossa informa¸ c˜ao ´e a prote´ına.
Sendo assim, podemos agora identificar atrav´es de um diagrama de blocos, cada bloco
no modelo de sistema de comunica¸ c˜ao, Figura 3.2, com cada bloco no sistema de informa¸ c˜ao
gen´etica.
Diante dessas semelhan¸ cas, podemos modelar diversos sistemas biol´ogicos atrav´es daquele
utilizado para um sistema de comunica¸ c˜oes.
72
Cap´ıtulo 3. Modelo de um Sistema de Comunica¸ c˜ao para a Importa¸ c˜ao de Prote´ınas
Organelares
DNA
(Canal)
Proteína
Erros
(Ruído)
(Receptor) (Transmissor)
Tradução
Figura 3.2: Modelo de um sistema de comunica¸ c˜oes de informa¸ c˜ao gen´etica.
3.2 Proposta de um Sistema de Comunica¸ c˜ao para a
Importa¸ c˜ao de Prote´ınas
Nesta se¸ c˜ao, apresentamos uma proposta de um modelo de sistema de comunica¸ c˜ao para
a importa¸ c˜ao de prote´ınas organelares que se baseia em um sistema de comunica¸ c˜ao digital.
At´e onde ´e de nosso conhecimento, este modelo difere dos modelos propostos anteriormente,
como vimos na se¸ c˜ao anterior. Na Subse¸ c˜ao 3.2.1 descrevemos os blocos componentes de um
sistema de comunica¸ c˜ao digital. A Subse¸ c˜ao 3.2.2 apresenta as analogias entre o mecanismo
de importa¸ c˜ao organelar e um sistema de comunica¸ c˜ao digital. Nas Subse¸ c˜oes 3.2.3 e 3.2.4
mostramos a estrutura e os parˆametros dos c´odigos BCH sobre anel. A Subse¸ c˜ao 3.2.5
descreve o modelo proposto no presente trabalho.
3.2.1 Sistema de comunica¸ c˜ao digital
O modelo do sistema de comunica¸ c˜ao digital mostrado na Figura 3.3 ser´a descrito a seguir.
Este sistema de comunica¸ c˜ao conecta uma fonte (usu´ario) a um destinat´ario atrav´es de um
canal.
Os dados que entram neste sistema de comunica¸ c˜ao a partir da fonte s˜ao primeiramente
processados pelo codificador de fonte, o qual tem como objetivo representar os dados de
uma forma mais compacta, retirando a redundˆancia. A sa´ıda desse codificador consiste de
sequˆencias chamadas palavras-c´odigo do c´odigo da fonte.
Essas sequˆencias s˜ao processadas por um codificador de canal que introduz redundˆancia
transformando-as em outras sequˆencias denominadas palavras-c´odigo. Cada s´ımbolo na
palavra-c´odigo ´e representado por bits (d´ıgitos bin´arios) no caso de sinaliza¸ c˜ao bin´aria. Caso
se use mais do que dois sinais (por exemplo q sinais), n˜ao temos bits e sim d´ıgitos de um
alfabeto q-´ario.
73
Cap´ıtulo 3. Modelo de um Sistema de Comunica¸ c˜ao para a Importa¸ c˜ao de Prote´ınas
Organelares
Canaldiscreto
Canal
Fonte
Codificador
defonte
Modulador
Codificador
decanal
Destinatário
Decodificador
defonte
Demodulador
Decodificador
decanal
Ruído
Transmissor
Receptor
Figura 3.3: Diagrama de blocos de um sistema de comunica¸ c˜ao.
A seguir, o modulador converte cada s´ımbolo da palavra-c´odigo em um s´ımbolo anal´ogico
correspondente que ´e transmitido atrav´es do canal.
Frequentemente o canal fica sujeito a v´arios tipos de ru´ıdo, distor¸ c˜oes e interferˆencias e
com isso a sa´ıda pode diferir da entrada. O demodulador converte, sempre fazendo a melhor
estimativa, cada sinal recebido na sa´ıda do canal em um dos poss´ıveis s´ımbolos que comp˜oem
as palavras-c´odigo.
A sequˆencia demodulada de s´ımbolos ´e chamada palavra-c´ odigo recebida. Obviamente,
devido ao ru´ıdo, nem sempre a palavra-c´odigo recebida corresponde `a palavra-c´odigo enviada.
Nesse momento o decodificador de canal se utiliza da redundˆancia contida na palavra-c´odigo
para corrigir os erros e ent˜ao produzir uma estimativa da palavra-c´odigo de fonte. O deco-
dificador de fonte processa a sequˆencia na sa´ıda do decodificador produzindo uma sequˆencia
estimada e a transforma numa sequˆencia de dados que ser´a entregue ao usu´ario.
3.2.2 Sistema de comunica¸ c˜ao biol´ogico
C´odigos corretores de erros s˜ao utilizados sempre que se deseja transmitir ou armazenar
informa¸ c˜ao. Um exemplo bem sucedido ´e o sistema biol´ogico que armazena e transmite a
informa¸ c˜ao atrav´es do c´odigo gen´etico. Na Figura 3.4 relacionamos as semelhan¸ cas existentes
entre o sistema de comunica¸ c˜oes e a importa¸ c˜ao de prote´ınas organelares fazendo as seguintes
associa¸ c˜oes:
1. Fonte: Em um sistema de comunica¸ c˜ao a fonte ´e o lugar onde a mensagem ´e gerada.
Em um sistema biol´ogico, entretanto, o DNA e o RNA mensageiro s˜ao respons´aveis
pela gera¸ c˜ao e a transmiss˜ao da informa¸ c˜ao, respectivamente.
74
Cap´ıtulo 3. Modelo de um Sistema de Comunica¸ c˜ao para a Importa¸ c˜ao de Prote´ınas
Organelares
2. Transmissor: O processo de tradu¸ c˜ao ocorre no citosol e seu objetivo ´e garantir a
continuidade da informa¸ c˜ao gen´etica.
3. Canal:
´
E o local pelo qual a informa¸ c˜ao ´e transmitida em um sistema de comunica¸ c˜oes,
onde erros podem ocorrer durante a transmiss˜ao da informa¸ c˜ao.
4. Receptor: O receptor pode ser interpretado como uma das organelas (mitocˆondria,
ret´ıculo endoplasm´atico e cloroplasto), as quais representam o local para onde a in-
forma¸ c˜ao est´a sendo enviada. Neste caso espec´ıfico, a informa¸ c˜ao ´e a sequˆencia de
direcionamento.
Figura 3.4: Modelo de um sistema de comunica¸ c˜ao para importa¸ c˜ao de prote´ınas.
Diante dessas analogias, decorre a proposta de um modelo para o sistema de importa¸ c˜ao
de prote´ınas semelhante ao de um sistema de comunica¸ c˜oes digital. Uma quest˜ao sempre
presente em trabalhos relacionados com codifica¸ c˜ao gen´etica ´e se existe alguma forma de
c´odigos corretores de erros na estrutura do DNA? O presente trabalho encaminha, de maneira
positiva, uma resposta a essa pergunta.
O modelo proposto baseia-se na seguinte hip´otese: Se o genoma ´e constitu´ıdo por regi˜oes
consistindo de ´exons, ´ıntrons, sequˆencias de direcionamento, sinais internos, DNA repetitivo,
micro RNA e etc; ent˜ao cada uma dessas regi˜oes pode ser reproduzida por um c´odigo es-
pec´ıfico. Sendo assim, o genoma consiste de c´odigos entrela¸ cados e ao inv´es de analisarmos
o genoma como um todo, devemos focalizar em suas partes. Por este motivo abordaremos
uma regi˜ao espec´ıfica do genoma, as sequˆencias de direcionamento, que tˆem como objetivo
encaminhar uma prote´ına at´e a sua respectiva organela.
75
Cap´ıtulo 3. Modelo de um Sistema de Comunica¸ c˜ao para a Importa¸ c˜ao de Prote´ınas
Organelares
Naturalmente surgem as seguintes perguntas: 1) Dentre os diversos c´odigos usados para
a transmiss˜ao da informa¸ c˜ao, existe algum c´odigo corretor de erros capaz de reproduzir
sequˆencias de direcionamento e suas correspondentes fitas complementares? 2) Se existe,
qual ser´a a estrutura matem´atica para construir este c´odigo?
Diante destas perguntas, iniciamos o processo de busca do c´ odigo e da estrutura matem´ati-
ca que sejam mais apropriados e capazes de reproduzir as sequˆencias de direcionamento.
3.2.3 O c´odigo e a estrutura matem´atica
Os c´odigos corretores de erros s˜ao classificados em duas classes: c´odigos lineares e c´odigos
n˜ao-lineares. Como exemplo de c´odigos n˜ao-lineares mencionamos os c´odigos de Nordstrom-
Robinson e Preparata, os quais apresentam uma capacidade de corre¸ c˜ao de erros superior `a
dos c´odigos lineares. Para satisfazer tal caracter´ıstica, algumas propriedades estruturais no
processo de gera¸ c˜ao s˜ao perdidas. Como consequˆencia desse fato, o processo de decodifica¸ c˜ao
torna-se mais complexo que o dos c´odigos lineares.
Por outro lado, as principais classes dos c´odigos lineares s˜ao: os c´odigos c´ıclicos, os
c´odigos de Hamming, c´odigos Reed-Solomon e c´odigos BCH. Os c´odigos BCH usados para
a transmiss˜ao de informa¸ c˜ao de pacotes em redes de computadores e gera¸ c˜ao de sequˆencias
formam uma importante classe de c´odigos c´ıclicos devido, principalmente, `a simplicidade
dos processos de codifica¸ c˜ao e decodifica¸ c˜ao associados. Este fato os tornam tamb´em bons
candidatos a serem utilizados na aplica¸ c˜ao para a gera¸ c˜ ao de sequˆencias de direcionamento,
onde as estruturas matem´aticas mais utilizadas para a constru¸ c˜ao destes c´odigos s˜ao as
estruturas alg´ebricas de corpo, anel e suas extens˜oes de Galois. Pelo fato da estrutura
de corpo ser mais restritiva que a estrutura de anel, decidimos construir os c´odigos BCH
sobre a estrutura de anel. Ressaltamos que em alguns trabalhos citados anteriormente, a
estrutura mais conhecida e usada na literatura, tanto em sistemas de comunica¸ c˜oes quanto
em modelagens de sistemas gen´eticos, ´e a estrutura de corpo. Sendo assim, a estrutura de
anel ser´a pela primeira vez abordada na literatura com o objetivo de construir c´odigos capazes
de reproduzir sequˆencias de direcionamento.
Uma vez selecionado o c´odigo (c´odigo BCH) e a estrutura alg´ebrica (anel), alguns ele-
mentos adicionais dever˜ao ser considerados, tais como: o alfabeto, o mapeamento, a extens˜ao
de Galois e o polinˆomio primitivo. O alfabeto 4-´ario do c´odigo est´a relacionado ao conjunto
formado pelos nucleot´ıdeos, denotado por N = ¦A, C, G, T¦, correspondendo a adenina,
citosina, guanina e timina, respectivamente. Na estrutura de anel consideramos o alfabeto
do c´odigo Z
4
= ¦0, 1, 2, 3¦, este obedecendo as opera¸ c˜oes de soma e produto m´odulo 4. Uma
vez que o correspondente mapeamento entre N →Z
4
n˜ao ´e conhecido, consideramos todas as
permuta¸ c˜oes entre os elementos de cada um destes conjuntos. Este mapeamento tem como
76
Cap´ıtulo 3. Modelo de um Sistema de Comunica¸ c˜ao para a Importa¸ c˜ao de Prote´ınas
Organelares
objetivo determinar qual a melhor associa¸ c˜ao de cada um dos s´ımbolos no conjunto N com
o correspondente s´ımbolo no conjunto Z
4
e vice-versa.
Considerando o fato de que as sequˆencias de direcionamento variam entre 13 e 85 amino´aci-
dos e de que o comprimento das palavras-c´odigo deve ser igual ao comprimento das sequˆencias
de direcionamento, teremos para cada um dos comprimentos uma correspondente extens˜ao
de Galois sobre anel. Cada extens˜ao de Galois possui uma quantidade de polinˆomios prim-
itivos, de forma que, quanto maior o grau da extens˜ao maior a quantidade de polinˆomios
primitivos.
Em teoria da codifica¸ c˜ao n˜ao importa qual o polinˆomio primitivo que se escolha para
construir a extens˜ao de corpo da qual o c´odigo ser´a constru´ıdo, pois algebricamente os corpos
gerados pelos correspondentes polinˆomios primitivos s˜ao isomorfos. Como n˜ao conhecemos
a estrutura alg´ebrica das sequˆencias de direcionamento decidimos realizar a constru¸ c˜ao do
c´odigo BCH sobre anel para cada um dos polinˆomios primitivos de uma determinada extens˜ao
de Galois, com o objetivo de verificar se esta escolha resultar´a em c´odigos com o mesmo
desempenho para um sistema de comunica¸ c˜oes gen´etico.
A dificuldade que se apresenta para a solu¸ c˜ao desse problema est´a em, quanto maior o
grau da extens˜ao de Galois maior ser´a a quantidade de polinˆomios primitivos que devem
ser analisados na constru¸ c˜ao dos c´odigos, aumentando significativamente a complexidade
computacional na constru¸ c˜ao destes c´odigos. Para contornar este problema constru´ımos
c´odigos na extens˜ao de Galois de grau r = 6 que possui seis polinˆomios primitivos.
3.2.4 Parˆametros do c´odigo
Os parˆametros do c´odigo BCH s˜ao denotados da seguinte maneira: n = o comprimento
das palavras-c´odigo (comprimento das sequˆencias de direcionamento); k = a dimens˜ao do
c´odigo (comprimento da sequˆencia de informa¸ c˜ao respons´avel pela gera¸ c˜ao da sequˆencia de
direcionamento) e d = a distˆancia m´ınima do c´odigo (o menor n´ umero de posi¸ c˜ oes em que
quaisquer duas palavras-c´odigo diferem). O c´odigo BCH com parˆametros (n, k, d) possui uma
capacidade de corre¸ c˜ao de erros estabelecida atrav´es da rela¸ c˜ao d = 2t + 1, onde t denota a
quantidade de erros.
Para que a fatora¸ c˜ao de x
n
−1 na extens˜ao GR(p
k
, r) = GR(4, 6) seja ´ unica, ´e necess´ario
que o comprimento da palavra-c´odigo seja ´ımpar (n = p
r
− 1). Com o objetivo de diminuir
a complexidade computacional, analisamos as sequˆencias de direcionamento que possuem
comprimentos iguais a 21 e 22 amino´acidos correspondendo a 63 e 66 nucleot´ıdeos, respecti-
vamente. No caso das sequˆencias com 22 amino´acidos podemos desconsiderar a metionina,
uma vez que a matriz geradora apresentar´a trˆes colunas com todos os elementos iguais. Para
que o comprimento seja n = 63 nucleot´ıdeos, teremos que ter uma extens˜ao de Galois de
77
Cap´ıtulo 3. Modelo de um Sistema de Comunica¸ c˜ao para a Importa¸ c˜ao de Prote´ınas
Organelares
grau r = 6, isto ´e, n = p
r
−1 ⇒n = 2
6
−1 = 63.
Os c´odigos BCH foram constru´ıdos para todos os valores de t entre 1 ≤ t ≤ 31 para cada
um dos seis polinˆomios primitivos da extens˜ao de Galois igual a r = 6, com o objetivo de
encontrar um c´odigo capaz de gerar as sequˆencias de direcionamento sem nenhuma diferen¸ ca
de nucleot´ıdeo ou no m´aximo diferindo em um nucleot´ıdeo. Chamamos a aten¸ c˜ao para o
seguinte fato, para cada polinˆomio primitivo usado na gera¸ c˜ao do anel GR(4, 6) e para cada
valor de t, quantidade de erros, teremos um polinˆomio gerador g(x) diferente e, consequente-
mente, um novo c´odigo. Sendo assim, devemos considerar cada um destes c´odigos como um
novo c´odigo a ser analisado.
Na Se¸ c˜ao 4.1 do Cap´ıtulo 4 apresentamos um algoritmo que realiza exaustivamente a
constru¸ c˜ao dos c´odigos BCH sobre anel para todos os polinˆomios primitivos da extens˜ao de
Galois de grau r = 6 irredut´ıveis sobre GF(2), bem como para as distˆancias de Hamming
variando entre 3 ≤ d ≤ 63.
3.2.5 Modelo do sistema de comunica¸ c˜ao biol´ogico
O sistema de comunica¸ c˜oes para o transporte de prote´ınas organelares do presente tra-
balho, consiste na caracteriza¸ c˜ao dos processos de codifica¸ c˜ao e decodifica¸ c˜ao das sequˆencias
de direcionamento. O processo de codifica¸ c˜ao ´e realizado pelo bloco transmissor, Figura 3.5
(A), e o processo de decodifica¸ c˜ao ´e realizado pelo bloco receptor, Figura 3.5 (B).
Canal
Destinatário Decodificador Demodulador
Codificador Fonte Modulador
Transmissor
Receptor
Canaldiscreto
(A)
(B)
Figura 3.5: Sistema de comunica¸ c˜oes digital.
Uma poss´ıvel interpreta¸ c˜ao do teorema de codifica¸ c˜ao de canal, de Shannon, considerando
o fluxo de informa¸ c˜ao da fonte ao destinat´ario, ´e que a informa¸ c˜ao m´ utua do canal discreto
78
Cap´ıtulo 3. Modelo de um Sistema de Comunica¸ c˜ao para a Importa¸ c˜ao de Prote´ınas
Organelares
deve ser t˜ao pr´oxima quanto poss´ıvel da entropia da fonte. Para alcan¸ car esse objetivo,
um c´odigo corretor de erros ´e usado. Portanto, o transmissor no modelo de um sistema de
comunica¸ c˜oes digital consiste de dois blocos em cascata, um bloco est´a associado com um
codificador e o outro associado com um modulador, Figura 3.6.
O processo de codifica¸c˜ao biol´ogica
A palavra-c´odigo na sa´ıda do codificador est´a relacionada `a sequˆencia de direcionamento
em termos de nucleot´ıdeos, enquanto que a sa´ıda do modulador est´a relacionada `a sequˆencia
de direcionamento em termos de amino´acidos, Figura 3.6. Embora o mapeamento entre o
c´odon e anti-c´odon (c´odigo gen´etico), realizado pelo RNA transportador seja bem conhecido
no contexto biol´ogico, o mesmo necessita de uma caracteriza¸ c˜ao matem´atica no contexto de
um sistema de comunica¸ c˜oes digital.
Canal
Destinatário Decodificador Demodulador
Codificador Fonte Modulador
Transmissor
Receptor
Canaldiscreto
.MC
SD
nucleotídeos
Ribossomo
Código
Genético
G-Linear
Codificador
Modulador
Constelação de
Sinais
Código
BCH
Mapeamento Fonte
.RNAt
=
Transmissor
SD*
aminoácidos
Figura 3.6: Modelo proposto para codifica¸ c˜ao biol´ogica.
No contexto de sistema de comunica¸ c˜oes digital existe um processo muito simples e efi-
ciente que ´e chamado de mapeamento casado (MC). Essa propriedade matem´atica implica
que a estrutura alg´ebrica do codificador seja a mesma, a menos de um isomorfismo, que a da
constela¸ c˜ao de sinais, garantindo assim, a menor complexidade poss´ıvel do sistema. A classe
de c´odigos satisfazendo essa propriedade ´e bem conhecida e denominada c´odigos geometrica-
mente uniformes. Uma subclasse importante ´e a dos c´odigos G-lineares, onde G denota uma
estrutura alg´ebrica, que incorpora todas as vantagens inerentes ao processo de gera¸ c˜ao e de
decodifica¸ c˜ao dos c´odigos lineares, bem como, a dos c´odigos n˜ao lineares atrav´es da inser¸ c˜ao
do bloco mapeamento. Dependendo da classifica¸ c˜ao desse mapeamento como linear ou n˜ao
linear, o c´odigo resultante ser´a linear ou n˜ao linear, respectivamente. Portanto, o codificador
79
Cap´ıtulo 3. Modelo de um Sistema de Comunica¸ c˜ao para a Importa¸ c˜ao de Prote´ınas
Organelares
consiste de um mapeador e um codificador de um c´odigo corretor de erros. O modulador
consiste do c´odigo gen´etico, do RNA transportador e do RNA ribossˆomico.
O c´odigo gen´etico pode ser visto como uma constela¸ c˜ao de sinais, onde cada c´odon ´e
considerado como um sinal na constela¸ c˜ao, o RNA transportador realiza o mapeamento
casado, enquanto que o RNA ribossˆomico se comporta como um processador de sinal digital,
Figura 3.6.
O processo de decodifica¸c˜ao biol´ogica
O modelo de decodifica¸ c˜ao do presente trabalho baseia-se no processo de importa¸ c˜ao de
prote´ınas mitocondriais, por´em essa analogia pode ser estendida para os demais processos
de importa¸ c˜ao organelares. Para que esse modelo seja poss´ıvel, fazemos o uso da seguinte
hip´otese: A sequˆencia reproduzida pelo c´odigo ´e a informa¸ c˜ao gerada pela fonte. No processo
de codifica¸ c˜ao ocorreu algum tipo de interferˆencia que introduziu erros durante a gera¸ c˜ao da
sequˆencia. Sendo assim, consideramos que a sequˆencia encontrada no banco de dados NCBI
(“National Center for Biotechnology Information”) ´e a sequˆencia reproduzida pelo c´odigo
acrescida de erros, a qual denotamos por SD

.
Em um sistema de comunica¸ c˜ao existe um processo muito estruturado de reconhecimento
do conte´ udo da informa¸ c˜ao enviado pelo transmissor. Esse processo sustenta a confiabilidade
da transmiss˜ao da informa¸ c˜ao de todo o sistema e ´e realizado no bloco decodificador. Basi-
camente atrav´es do reconhecimento, localiza¸ c˜ao e corre¸ c˜ao dos erros, o decodificador garante
que a informa¸ c˜ao correta chegar´a ao seu destino.
Canal
Destinatário Decodificador Demodulador
Codificador Fonte Modulador
Transmissor
Receptor
Canaldiscreto
=
Receptor
Tom70 Tom20
Tom22
Tom40 Tom5
Tom7 Tom6
Membranainterna
ou
Matriz
SD*aminoácidos
sinaisinternos
SD*aminoácidos
N-terminal
SD*nucleotídeos
sinaisinternos
SD*nucleotídeos
N-terminal
Demodulador
Decodificador
GIP
Figura 3.7: Modelo proposto para decodifica¸ c˜ao biol´ogica.
80
Cap´ıtulo 3. Modelo de um Sistema de Comunica¸ c˜ao para a Importa¸ c˜ao de Prote´ınas
Organelares
No contexto biol´ogico quem realiza o processo de reconhecimento das sequˆencias de dire-
cionamento (conte´ udo da informa¸ c˜ao) ´e o complexo TOM (“translocase of the mitochondrial
outer membrane”). O complexo TOM est´a ancorado na membrana externa e ´e necess´ario
para a importa¸ c˜ao de todas as prote´ınas mitocondriais codificadas no n´ ucleo [6].
A maquinaria TOM cont´em receptores de importa¸ c˜ao que reconhecem as prote´ınas precur-
soras mitocondriais atrav´es de suas sequˆencias de direcionamento e, ent˜ao, iniciam o processo
de transloca¸ c˜ao dessa prote´ına para o seu devido local [7].
As prote´ınas Tom20, Tom22 e Tom70 funcionam como receptores para as prote´ınas
precursoras mitocondriais. Tom20 e Tom22 formam o complexo receptor principal sendo
que Tom22 interage com precursores contendo sequˆencias de direcionamento internas ou
no amino-terminal, enquanto que Tom20 reconhece especificamente pr´e-sequˆencias amino-
terminais. Tom70 interage com precursores que possuem sequˆencias de direcionamento inter-
nas. As prote´ınas precursoras inicialmente reconhecidas pelo Tom70 s˜ao transferidas para o
Tom20 e/ou Tom22 antes de sua inser¸ c˜ao no poro geral de inser¸ c˜ao (GIP “general insertion
pore”)[11].
Embora o processo de reconhecimento das sequˆencias de direcionamento, realizado pelo
complexo TOM, seja bem conhecido no contexto biol´ogico ´e necess´aria uma caracteriza¸ c˜ao
matem´atica para esse processo. O modelo de decodifica¸ c˜ao baseia-se em uma analogia en-
tre o processo de decodifica¸ c˜ao (Berlekamp-Massey para An´eis) utilizado em sistemas de
comunica¸ c˜oes e o complexo TOM que atua no transporte de prote´ınas mitocondriais.
O algoritmo de Berlekamp-Massey consiste basicamente de quatro passos, os quais podem
ser interpretados como os quatro passos do processo de decodifica¸ c˜ao:
• Passo 1. C´alculo das S´ındromes: neste passo o algoritmo verifica se a informa¸ c˜ao ´e uma
palavra-c´odigo atrav´es do c´alculo das s´ındromes. Temos duas situa¸ c˜oes: 1) Quando o
c´alculo for igual a zero temos que a informa¸ c˜ao ´e uma palavra-c´odigo sem erros e 2)
Quando o c´alculo for diferente de zero ´e acionado o segundo passo do algoritmo;
• Passo 2. C´alculo das Fun¸ c˜oes Sim´etricas Elementares: se o c´alculo das s´ındromes for
um valor diferente de zero, podemos verificar se a quantidade de erros est´a dentro da
capacidade de corre¸ c˜ao do c´odigo;
• Passo 3. C´alculo dos N´ umeros Localizadores de Erros: neste passo s˜ao localizadas as
posi¸ c˜oes onde ocorreram os erros;
• Passo 4. C´alculo das Magnitudes dos Erros: o algoritmo indica quais s˜ao os valores
que devem ser somados nas posi¸ c˜oes apontadas no Passo 3 para que os erros sejam
corrigidos.
81
Cap´ıtulo 3. Modelo de um Sistema de Comunica¸ c˜ao para a Importa¸ c˜ao de Prote´ınas
Organelares
Durante o processo de importa¸ c˜ao de prote´ınas mitocondriais, existem procedimentos
semelhantes aos passos do processo de decodifica¸ c˜ao descritos anteriormente. Deste modo
podemos reescrever o algoritmo do Berlekamp-Massey sob o ponto de vista biol´ogico, con-
siderando que o complexo TOM realiza os quatro passos de decodifica¸ c˜ao do algoritmo da
seguinte forma:
• 1
o
passo do processo de decodifica¸ c˜ao: Neste n´ıvel as prote´ınas Tom20 e Tom70, que
funcionam como receptores para as prote´ınas precursoras mitocondriais, tˆem a fun¸ c˜ao
de verificar se a prote´ına precursora pertence a mitocˆondria ou n˜ao atrav´es do c´alculo
das s´ındromes;
• 2
o
passo do processo de decodifica¸ c˜ao: Se o c´alculo das s´ındromes for um valor diferente
de zero, a prote´ına Tom22 consegue verificar se os erros introduzidos na sequˆencia de
direcionamento mantˆem a estrutura matem´atica original da sequˆencia e se estes erros
est˜ao dentro da capacidade de corre¸ c˜ao do c´odigo. Ap´os esta verifica¸ c˜ao temos as duas
situa¸ c˜oes: 1) a prote´ına ´e liberada para o complexo GIP somente se os erros estiverem
dentro da capacidade de corre¸ c˜ao e 2) caso contr´ario a prote´ına n˜ao ´e importada;
• 3
o
passo do processo de decodifica¸ c˜ao: neste n´ıvel as prote´ınas do complexo GIP lo-
calizam as posi¸ c˜oes onde ocorreram os erros com o objetivo de verificar se os erros
ocorreram em uma regi˜ao da sequˆencia que compromete o seu conte´ udo de informa¸ c˜ao;
• 4
o
passo do processo de decodifica¸ c˜ao: biologicamente n˜ao ocorre a repara¸ c˜ao de erros
ap´os a s´ıntese de prote´ınas, deste modo a nossa suposi¸ c˜ ao ´e que neste n´ıvel ´e acionado
um mecanismo de degrada¸ c˜ao da prote´ına caso os erros tenham ocorrido em regi˜oes
que comprometem o seu conte´ udo de informa¸ c˜ao. Este mecanismo deve ser acionado
somente em casos raros, visto que existem outros trˆes n´ıveis de decodifica¸ c˜ao anteriores
a este n´ıvel.
82
Cap´ıtulo 4
Gera¸ c˜ao das Sequˆencias de
Direcionamento
Uma das motiva¸ c˜oes em identificar c´odigos corretores de erros em sequˆencias de DNA
est´a no fato dos mesmos serem capazes de reproduzir estas sequˆencias, bem como a estrutura
matem´atica das sequˆencias de DNA. Este tipo de abordagem possibilita analisar muta¸ c˜oes e
polimorfismos sob o ponto de vista matem´atico, verificando se a sequˆencia de DNA mutada faz
parte do mesmo c´odigo da sequˆencia original e consequentemente da mesma matriz geradora.
Desse fato decorre que a estrutura matem´atica destas sequˆencias foram mantidas.
Em [1] pg. 166, Battail declara: “ Given a sequence of symbols, say, of nucleotides,
consider the problem of determining whether this sequence is a word of some error-correcting
code and, if so, of identifying the code to which it belongs. As stated, this problem has no
solution”.
Neste cap´ıtulo, at´e onde ´e de nosso conhecimento, apresentamos uma primeira proposta
de identifica¸ c˜ao entre c´odigos corretores de erros e sequˆencias de DNA. Ressaltamos que este
´e o primeiro passo para o desenvolvimento de v´arios outros modelos de codifica¸ c˜ao, uma vez
que se mostrou que a reprodu¸ c˜ao de sequˆencias de DNA atrav´es de c´odigos corretores de
erros ´e poss´ıvel.
Nas Se¸ c˜oes 4.1 e 4.2 apresentamos o algoritmo usado para reproduzir as sequˆencias de
direcionamento e os resultados da codifica¸ c˜ao de sequˆencias de DNA, respectivamente.
A pesquisa foi realizada atrav´es de an´alises de sequˆencias de direcionamento de v´arios
organismos, esp´ecies e organelas, Tabela 4.1.
83
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
n
o
Organismo Esp´ecie Organela GI Comprimento da SD
SD01 B. napus Viridiplantae M 899225 66nt - 22aa
SD02 I. batatas Viridiplantae M 217937 63nt - 21aa
SD03 A. thaliana Viridiplantae RE 186509758 63nt - 21aa
SD04 N. tabacum Viridiplantae RE 632733 66nt - 22aa
SD05 H. vulgare Viridiplantae RE 1808650 63nt - 21aa
SD06 T. sativum Viridiplantae RE 78096542 63nt - 21aa
SD07 S. oleracea Viridiplantae C 21227 63nt - 21aa
SD08 S. cerevisiae Fungi M 45269853 63nt - 21aa
SD09 B. taurus Metazoa M 31343489 66nt - 22aa
SD10 B. taurus Metazoa M 114579 66nt - 22aa
SD11 G. max Viridiplantae M 497233 66nt - 22aa
SD12 C. sinensis Viridiplantae C 7328566 63nt - 21aa
SD13 A. thaliana Viridiplantae M 30695458 66nt - 22aa
SD14 A. thaliana Viridiplantae M 15010581 66nt - 22aa
SD15 R. norvegicus Metazoa M 457928 66nt - 22aa
SD16 S. cerevisiae Fungi M 433619 66nt - 22aa
SD17 H. sapiens Metazoa M 12587 66nt - 22aa
SD18 M. martensii Metazoa RE 16740522 63nt - 21aa
SD19 P. vulgaris Viridiplantae RE 536793 63nt - 21aa
SD20 P. dominulus Metazoa RE 51093376 63nt - 21aa
Tabela 4.1: M = mitocˆondria, C = cloroplasto, RE = ret´ıculo endoplasm´atico.
4.1 Algoritmo de Codifica¸ c˜ao
Nesta se¸ c˜ao, apresentamos um algoritmo que mostra em detalhes a constru¸ c˜ao de um
c´odigo BCH sobre a estrutura de anel com parˆametros (n, k, d)=(63, k, d) capaz de reproduzir
sequˆencias de direcionamento com comprimentos n = 2
6
−1 = 63. Chamamos a aten¸ c˜ao para
as sequˆencias de direcionamento que possuem comprimento n = 2
6
+ 2 = 66, nesses casos
a metionina da primeira posi¸ c˜ao pode ser desconsiderada, uma vez que a matriz geradora
possui trˆes colunas com os mesmos elementos.
Os parˆametros do c´odigo s˜ao denotados da seguinte maneira: n = o comprimento das
palavras-c´odigo (comprimento das sequˆencias de direcionamento); k = a dimens˜ao do c´odigo
(comprimento da sequˆencia de informa¸ c˜ao respons´avel pela gera¸ c˜ao da sequˆencia de DNA)
e d = a distˆancia m´ınima do c´odigo (o menor n´ umero de posi¸ c˜ oes em que quaisquer duas
palavras-c´odigo diferem).
A principal diferen¸ ca da constru¸ c˜ao de c´odigos c´ıclicos sobre an´eis para a constru¸ c˜ao de
c´odigos c´ıclicos sobre corpos est´a no fato de que as ra´ızes do polinˆomio gerador dos c´odigos
c´ıclicos sobre an´eis encontram-se na extens˜ao do anel Z
q
, ao inv´es de serem encontradas na
extens˜ao do corpo F
q

= GF(p
r
).
Se a ordem do corpo base, p, e o comprimento das palavras-c´odigo, n, s˜ao relativamente
primos, isto ´e, mdc (p, n) = 1, ent˜ao x
n
−1 n˜ao apresenta multiplicidade de ra´ızes.
Constru¸c˜ao C´odigo BCH Primitivo (n, k, d) = (63, k, d) sobre GR(4, r)
84
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
Passo 1 - Determinar o alfabeto e a estrutura matem´atica do c´odigo
O alfabeto 4-´ario do c´odigo gen´etico est´a relacionado ao conjunto formado pelos nu-
cleot´ıdeos denotado por N = ¦A, C, G, T¦ correspondendo `a adenina (A), citosina (C),
guanina (G) e timina (T). Por este motivo utilizamos o alfabeto 4-´ario denotado por
Z
4
= ¦0, 1, 2, 3¦ obedecendo as opera¸ c˜oes de adi¸ c˜ao e multiplica¸ c˜ao m´ odulo 4, o que
lhe confere uma estrutura alg´ebrica de anel.
Passo 2 - Determinar a extens˜ao de Galois
A condi¸ c˜ao necess´aria para que a fatora¸ c˜ao de x
n
−1 em GR

(4, r), grupo das unidades,
seja ´ unica, ´e que o comprimento da sequˆencia de direcionamento seja ´ımpar da forma
n = 2
r
−1. Nos casos em que as sequˆencias de direcionamento possuem comprimento
par da forma n = 2
r
+ 2 o amino´acido metionina pode ser desconsiderado sem perda
de generalidade.
Neste exemplo, analisaremos a sequˆencia de direcionamento SD02 da Tabela 4.1 cujo
comprimento ´e n = 63 nucleot´ıdeos. Logo, o grau r do polinˆomio primitivo a ser usado
na extens˜ao de Galois do corpo GF(2) ´e r = 6, pois n = 2
r
−1 = 2
6
−1 = 63. Portanto,
esse valor de r = 6 ser´a utilizado na extens˜ao do corpo GF(2) no Passo 4.
Passo 3 - Polinˆomios primitivos relacionados `a extens˜ao de Galois
Neste passo, s˜ao informados todos os polinˆomios primitivos relacionados ao grau da
extens˜ao de Galois r = 6. Estes polinˆomios s˜ao conhecidos na literatura.
(1) x
6
+x
5
+x
3
+x
2
+ 1
(2) x
6
+x + 1
(3) x
6
+x
5
+x
2
+x + 1
(4) x
6
+x
4
+x
3
+x + 1
(5) x
6
+x
5
+x
4
+x + 1
(6) x
6
+x
5
+ 1
Passo 4 - Extens˜ao do corpo GF(2)
O corpo GF(2
r
) ´e obtido atrav´es da extens˜ao do corpo GF(2) por um ideal gerado
por qualquer um dos polinˆomios primitivos de grau r = 6. Neste passo, realizamos a
extens˜ao do corpo GF(2) da seguinte maneira:
Considere o corpo de Galois GF(2
r
) = GF(2
6
) = GF(64) = F
64
dado por
85
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
F
2
[x]
¸p(x))

=
F
2
[x]
¸x
6
+x
5
+x
3
+x
2
+ 1)
= ¦a
0
+a
1
x +a
2
x
2
+ +a
5
x
5
: a

i
s ∈ F
2
¦,
onde p(x) ´e o polinˆomio primitivo (1) do Passo 3.
Seja α um elemento primitivo em F
64
, equivalentemente, α ´e uma raiz de x
6
+x
5
+x
3
+
x
2
+1 = 0, ou seja, α
6

5

3

2
+1 = 0 implicando em α
6
= −α
5
−α
3
−α
2
−1. Como
os coeficientes dos polinˆomios que formam o conjunto dos elementos de F
64
pertencem
a F
2
, fazemos a redu¸ c˜ao m´odulo 2 destes coeficientes e obtemos α
6
= α
5

3

2
+1.
Os elementos de F
64
s˜ao mostrados na Tabela 4.2.
Elementos de F
64

0
α
1
α
2
α
3
α
4
α
5
) Elementos de F
64

0
α
1
α
2
α
3
α
4
α
5
)
0 (000000) α
10
= α α
9
(001100)
1 (100000)
.
.
.
.
.
.
α (010000) α
55
= α α
54
(001001)
α
2
(001000) α
56
= α α
55
(101001)
α
3
(000100) α
57
= α α
56
(111001)
α
4
(000010) α
58
= α α
57
(110001)
α
5
(000001) α
59
= α α
58
(110101)
α
6
(101101) α
60
= α α
59
(110111)
α
7
= α α
6
(111011) α
61
= α α
60
(110110)
α
8
= α α
7
(110000) α
62
= α α
61
(011011)
α
9
= α α
8
(011000) α
63
= α α
62
(100000)
Tabela 4.2: Elementos de F
64
em nota¸ c˜ao de r-uplas
Passo 5 - Extens˜ao do anel Z
4
Considere o anel GR(4, 6) como sendo dado pelo quociente do anel Z
4
[x] (conjunto
de todos os polinˆomios com coeficientes em Z
4
) pelo ideal gerado pelo mesmo p(x)
utilizado para realizar a extens˜ao do corpo no Passo 4, isto ´e,
Z
4
[x]
¸p(x))

=
Z
4
[x]
¸x
6
+x
5
+x
3
+x
2
+ 1)
= ¦b
0
+b
1
x +b
2
x
2
+ +b
5
x
5
: b

i
s ∈ Z
4
¦
A seguir determinaremos os elementos de GR

(4, 6). Sabemos que as opera¸ c˜oes em
GR

(4, 6) s˜ao realizadas m´odulo (x
6
+ x
5
+ x
3
+ x
2
+ 1). Como α ´e uma raiz do
polinˆomio primitivo usado tanto na extens˜ao do corpo como na do anel, ent˜ao α
6
=
−α
5
−α
3
−α
2
−1. Como os coeficientes dos polinˆomios em GR(4, 6) est˜ao em Z
4
, ent˜ao
α
6
= 3α
5
+ 3α
3
+ 3α
2
+ 3. Considerando f = (010000) = α, todos os elementos n˜ao
86
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
nulos e invers´ıveis de GR(4, 6) s˜ao determinados atrav´es da potencia¸ c˜ao de f, como
mostrado na Tabela 4.3.
GR

(4, 6) (α
0
α
1
α
2
α
3
α
4
α
5
) GR

(4, 6) (α
0
α
1
α
2
α
3
α
4
α
5
)
1 (100000) f
10
= x
10
= α
10
(221102)
f = x = α (010000) f
11
= x
11
= α
11
(220312)
f
2
= x
2
= α
2
(001000)
.
.
.
.
.
.
f
3
= x
3
= α
3
(000100) f
120
= x
120
= α
120
(331023)
f
4
= x
4
= α
4
(000010) f
121
= x
121
= α
121
(130203)
f
5
= x
5
= α
5
(000001) f
122
= x
122
= α
122
(110121)
f
6
= x
6
= α
6
(303303) f
123
= x
123
= α
123
(310311)
f
7
= x
7
= α
7
(131031) f
124
= x
124
= α
124
(330330)
f
8
= x
8
= α
8
(312002) f
125
= x
125
= α
125
(033033)
f
9
= x
9
= α
9
(233002) f
126
= x
126
= α
126
(100000)
Tabela 4.3: Elementos de GR

(4, 6) em nota¸ c˜ao de r-uplas
Passo 6 - Determina¸c˜ao do grupo das unidades
Do Passo 5 resulta que f gera um grupo c´ıclico de ordem n d em GR

(4, 6), onde
d ≥ 1 ∈ Z e f
d
gera o subgrupo c´ıclico cuja ordem ´e 63 em GR

(4, 6). Sendo assim,
temos que n d = 63 d = 126 implicando que d = 2. Consequentemente, f
2
=
(001000) = α
2
gera um subgrupo c´ıclico de ordem 63 em GR

(4, 6). Logo, β = α
2
´e o
elemento primitivo que gera o subgrupo c´ıclico G
n
= G
63
mostrado na Tabela 4.4. Esse
elemento primitivo ser´a utilizado na constru¸ c˜ao de um c´ odigo BCH de comprimento
n = 63 sobre Z
4
.
Passo 7 - Determina¸c˜ao do polinˆomio gerador da matriz G(x)
Podemos construir um c´odigo BCH de comprimento n sobre Z
4
, considerando que a
distˆancia m´ınima do c´odigo ´e no m´aximo igual ao comprimento do c´odigo, ou seja,
d ≤ n. O algoritmo ir´a analisar todos os valores poss´ıveis de d que est˜ao relacionados
com a capacidade de corre¸ c˜ao de erros estabelecida atrav´es da rela¸ c˜ao d ≤ 2t+1, onde t
denota a quantidade de erros. No caso da palavra-c´odigo em quest˜ao, cujo comprimento
´e n = 63 os valores de 1 ≤ t ≤ 31 ser˜ao analisados.
Considerando que a distˆancia m´ınima do c´odigo seja d = 3, ent˜ao quaisquer duas
potˆencias consecutivas de β poder˜ao ser utilizadas no processo de obten¸ c˜ao do polinˆ omio
gerador do c´odigo BCH. Sem perda de generalidade, escolha β e β
2
como sendo as
duas potˆencias consecutivas. Ent˜ao o polinˆomio gerador g(x) ´e dado por g(x) =
mmc(M
1
(x), M
2
(x)), onde M
i
(x) ´e o polinˆomio minimal associado ao elemento β
i
, i =
87
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
G
63
→(α
0
α
1
α
2
α
3
α
4
α
5
) G
63
→(α
0
α
1
α
2
α
3
α
4
α
5
) G
63
→(α
0
α
1
α
2
α
3
α
4
α
5
)
β →(001000) β
22
→(321013) β
43
→(122031)
β
2
→(000010) β
23
→(211122) β
44
→(233312)
β
3
→(303303) β
24
→(022331) β
45
→(123210)
β
4
→(312002) β
25
→(232311) β
46
→(300131)
β
5
→(221102) β
26
→(032213) β
47
→(231133)
β
6
→(220233) β
27
→(212230) β
48
→(012021)
β
7
→(012312) β
28
→(103223) β
49
→(333313)
β
8
→(121000) β
29
→(112203) β
50
→(211201)
β
9
→(001210) β
30
→(310131) β
51
→(133103)
β
10
→(303311) β
31
→(231233) β
52
→(310300)
β
11
→(033323) β
32
→(012022) β
53
→(003103)
β
12
→(111100) β
33
→(020300) β
54
→(313000)
β
13
→(001111) β
34
→(000203) β
55
→(003130)
β
14
→(030301) β
35
→(313011) β
56
→(101132)
β
15
→(131330) β
36
→(033020) β
57
→(320130)
β
16
→(102010) β
37
→(202132) β
58
→(100302)
β
17
→(300323) β
38
→(321100) β
59
→(223021)
β
18
→(110210) β
39
→(003211) β
60
→(331023)
β
19
→(300001) β
40
→(030322) β
61
→(110121)
β
20
→(130031) β
41
→(020123) β
62
→(330330)
β
21
→(233032) β
42
→(111012) β
63
→(100000)
Tabela 4.4: Elementos de G
63
1, 2 sobre GR

(4, 6) (onde β ´e um elemento primitivo em G
n
) que tem como suas ra´ızes
todos os elementos na sequˆencia,
β
i
, (β
i
)
p
, (β
i
)
p
2
, , (β
i
)
p
r−1
.
Assim,
M
1
(x) = M
2
(x) = (x −β)(x −β
2
)(x −β
4
)(x −β
8
)(x −β
16
)(x −β
32
).
Portanto, g(x) = x
6
+3x
5
+x
3
+x
2
+2x+1 gera o c´odigo desejado e est´a relacionado com
a matriz geradora G do c´odigo BCH sobre Z
4
com parˆametros (n, k, d) = (63, 57, 3).
Passo 8 - Determina¸c˜ao do polinˆomio gerador da matriz H
O polinˆomio gerador da matriz verifica¸ c˜ao de paridade H ´e obtido atrav´es da rela¸ c˜ao:
88
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
h(x) =
x
n
−1
g(x)
=
x
63
−1
x
6
+ 3x
5
+x
3
+x
2
+ 2x + 1
h(x) = x
57
+x
56
+x
55
+2x
53
+2x
52
+2x
51
+x
50
+3x
47
+x
43
+3x
42
+3x
40
+3x
39
+2x
38
+
3x
36
+x
34
+3x
33
+2x
32
+3x
31
+x
29
+x
28
+3x
27
+2x
26
+x
25
+3x
24
+3x
23
+x
22
+2x
21
+
x
19
+x
18
+2x
17
+3x
14
+2x
13
+x
12
+3x
10
+2x
9
+2x
8
+3x
7
+x
6
+3x
5
+3x
4
+x
3
+x
2
+2x+3
onde os coeficientes do polinˆomio h(x) pertencem a Z
4
.
Passo 9 - Determinar a matriz G e a sua transposta G
T
:
Determinado o polinˆomio gerador no Passo 7, constru´ımos a matriz geradora G(x) da
seguinte forma:
Considere:
g(x) = g
0
+g
1
x +g
2
x
2
+... +x
n−k
,
ent˜ao a matriz geradora do c´odigo ´e dada por:
G =
_
_
_
_
_
_
_
_
_
g
0
g
1
g
2
. . . 1 0 0 . . . 0
0 g
0
g
1
. . . g
n−k−1
1 0 . . . 0
0 0 g
0
. . . g
n−k−2
g
n−k−1
1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 . . . g
0
g
1
g
2
. . . 1
_
_
_
_
_
_
_
_
_
Realizando os deslocamentos dos coeficientes do polinˆomio g(x) da esquerda para `a
direita, obtemos a matriz G(x) com dimens˜ao 57 63:
G =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
121103100000000000000000000000000000000000000000000000000000000
012110310000000000000000000000000000000000000000000000000000000
001211031000000000000000000000000000000000000000000000000000000
000121103100000000000000000000000000000000000000000000000000000
000012110310000000000000000000000000000000000000000000000000000
000001211031000000000000000000000000000000000000000000000000000
.
.
.
.
.
.
.
.
.
000000000000000000000000000000000000000000000000000121103100000
000000000000000000000000000000000000000000000000000012110310000
000000000000000000000000000000000000000000000000000001211031000
000000000000000000000000000000000000000000000000000000121103100
000000000000000000000000000000000000000000000000000000012110310
000000000000000000000000000000000000000000000000000000001211031
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
A matriz G
T
(x) com dimens˜ao 6357 ´e determinada como sendo a troca da linha pela
coluna.
89
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
Passo 10 - Determinar a matriz H e a sua transposta H
T
Determinado o polinˆomio h(x) no Passo 8, obtemos a matriz H(x) realizando os
deslocamentos dos coeficientes do polinˆomio gerador h(x) da direita para a esquerda.
Matriz H(x) com dimens˜ao 6 63:
H(x) =
_
_
_
_
_
_
000001110222100300013033203013230113213312011200321032231331123
000011102221003000130332030132301132133120112003210322313311230
000111022210030001303320301323011321331201120032103223133112300
001110222100300013033203013230113213312011200321032231331123000
011102221003000130332030132301132133120112003210322313311230000
111022210030001303320301323011321331201120032103223133112300000
_
_
_
_
_
_
A matriz H
T
com dimens˜ao 63 6 ´e determinada pela troca da linha pela coluna.
Passo 11 - Rotular a sequˆencia de DNA utilizando o alfabeto do c´odigo
Neste exemplo, analisaremos se o c´odigo BCH sobre anel ´e capaz de reproduzir a
sequˆencia de direcionamento mitocondrial do organismo: Ipomoea batatas, GI: 217937,
prote´ına: F1-ATPase delta subunit, comprimento: 63 nucleot´ıdeos.
Uma vez que o mapeamento entre N → Z
4
n˜ao ´e conhecido, consideramos todas as
permuta¸ c˜oes entre esses conjuntos. Portanto, este passo determina as 24 permuta¸ c˜oes
entre o alfabeto do c´odigo gen´etico N = ¦A, C, G, T¦ e o alfabeto do c´odigo BCH
Z
4
= ¦0, 1, 2, 3¦ da sequˆencia de direcionamento a ser analisada. As 24 linhas da
matriz P correspondem `as 24 permuta¸ c˜oes da sequˆencia de direcionamento SD.
SD={ATGTTCAGGCACTCTTCTCGACTCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC}
90
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
P =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
032331022101313313120131130213121211011010032222322123121111331
023221033101212212130121120312131311011010023333233132131111221
031332011202323323210232230123212122022020031111311213212222332
013112033202121121230212210321232322022020013333133231232222112
012113022303131131320313310231323233033030012222122321323333113
021223011303232232310323320132313133033030021111211312313333223
132330122010303303021030031203020200100101132222322023020000330
123220133010202202031020021302030300100101123333233032030000220
130332100212323323201232231023202022122121130000300203202222332
103002133212020020231202201320232322122121103333033230232222002
120223100313232232301323321032303033133131120000200302303333223
102003122313030030321303301230323233133131102222022320323333003
231330211020303303012030032103010100200202231111311013010000330
213110233020101101032010012301030300200202213333133031030000110
230331200121313313102131132013101011211212230000300103101111331
203001233121010010132101102310131311211212203333033130131111001
210113200323131131302313312031303033233232210000100301303333113
201003211323030030312303302130313133233232201111011310313333003
321220311030202202013020023102010100300303321111211012010000220
312110322030101101023010013201020200300303312222122021020000110
320221300131212212103121123012101011311313320000200102101111221
302001322131010010123101103210121211311313302222022120121111001
310112300232121121203212213021202022322323310000100201202222112
301002311232020020213202203120212122322323301111011210212222002
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
Na Tabela 4.5 mostramos como as linhas da matriz P est˜ao relacionadas com as 24
permuta¸ c˜oes entre N →Z
4
, cada uma das 24 permuta¸ c˜oes foi definida como um caso.
Linha = Caso N → Z
4
Linha = Caso N → Z
4
Linha = Caso N → Z
4
L 1 = Caso 01 (A,C,G,T)=(0,1,2,3) L 9 = Caso 09 (A,C,G,T)=(1,2,0,3) L 17 = Caso 17 (A,C,G,T)=(2,3,0,1)
L 2 = Caso 02 (A,C,G,T)=(0,1,3,2) L 10 = Caso 10 (A,C,G,T)=(1,2,3,0) L 18 = Caso 18 (A,C,G,T)=(2,3,1,0)
L 3 = Caso 03 (A,C,G,T)=(0,2,1,3) L 11 = Caso 11 (A,C,G,T)=(1,3,0,2) L 19 = Caso 19 (A,C,G,T)=(3,0,1,2)
L 4 = Caso 04 (A,C,G,T)=(0,2,3,1) L 12 = Caso 12 (A,C,G,T)=(1,3,2,0) L 20 = Caso 20 (A,C,G,T)=(3,0,2,1)
L 5 = Caso 05 (A,C,G,T)=(0,3,2,1) L 13 = Caso 13 (A,C,G,T)=(2,0,1,3) L 21 = Caso 21 (A,C,G,T)=(3,1,0,2)
L 6 = Caso 06 (A,C,G,T)=(0,3,1,2) L 14 = Caso 14 (A,C,G,T)=(2,0,3,1) L 22 = Caso 21 (A,C,G,T)=(3,1,0,2)
L 7 = Caso 07 (A,C,G,T)=(1,0,2,3) L 15 = Caso 15 (A,C,G,T)=(2,1,0,3) L 23 = Caso 23 (A,C,G,T)=(3,2,0,1)
L 8 = Caso 08 (A,C,G,T)=(1,0,3,2) L 16 = Caso 16 (A,C,G,T)=(2,1,3,0) L 24 = Caso 24 (A,C,G,T)=(3,2,1,0)
Tabela 4.5: Rela¸ c˜ao entre as linhas da matriz P e as 24 permuta¸ c˜oes.
Passo 12 - Verificar se a sequˆencia de DNA ´e palavra-c´odigo da G(x)
A capacidade de corre¸ c˜ao de erros de um c´odigo est´a relacionada com o n´ umero de
palavras-c´odigo, no caso em quest˜ao temos 4
k
palavras-c´odigo, onde k = n−r. Observe
que quanto maior for o valor de k maior ser´a o n´ umero de palavras-c´odigos, implicando
assim em uma maior complexidade computacional para gerar todas as 4
k
palavras-
c´odigo.
Para contornarmos este problema que ´e classificado como um problema NP-completo,
ao inv´es de gerarmos todas as palavras-c´odigos para compararmos com a sequˆencia de
91
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
direcionamento, consideramos que a sequˆencia de DNA sob a aplica¸ c˜ao de cada uma
das 24 permuta¸ c˜oes do Passo 11 ´e uma palavra-c´odigo. Assim, para determinarmos
se cada uma dessas 24 possibilidades ´e de fato uma palavra-c´odigo usamos a rela¸ c˜ao
v.H
T
= 0, onde v ´e a poss´ıvel palavra-c´odigo e H
T
´e a transposta da matriz verifica¸ c˜ao
de paridade determinada no Passo 10. Ainda neste passo analisamos as sequˆencias
de DNA diferindo em um nucleot´ıdeo, considerando as 3 outras possibilidades de nu-
cleot´ıdeos em cada posi¸ c˜ao na sequˆencia para cada permuta¸ c˜ao.
Como resultado obtemos a matriz R onde cada linha ´e uma palavra-c´odigo encontrada.
R =
_
_
_
_
_
_
_
_
_
032331022101313313120331130213121211011010032222322123121111331
012113022303131131320113310231323233033030012222122321323333113
123220133010202202031220021302030300100101123333233032030000220
103002133212020020231002201320232322122121103333033230232222002
230331200121313313102331132013101011211212230000300103101111331
210113200323131131302113312031303033233232210000100301303333113
321220311030202202013220023102010100300303321111211012010000220
301002311232020020213002203120212122322323301111011210212222002
_
_
_
_
_
_
_
_
_
Passo 13 - Voltar para o Passo 7 e determinar outro polinˆomio gerador
Neste passo, determinamos outro valor da distˆancia m´ınima d = 5 e utilizamos o mesmo
procedimento para calcular o polinˆomio gerador relativo a esta distˆancia.
Passo 14 - Repetir os Passos 8 ao Passo 12 para o polinˆomio gerador obtido no Passo
13, at´e que se esgote todas as possibilidades de polinˆomios geradores:
Neste passo, o algoritmo determina todas as palavras-c´odigo encontradas com nenhu-
ma diferen¸ ca ou apenas uma diferen¸ ca de nucleot´ıdeo, atrav´es de todos os polinˆomios
geradores relativos `a distˆancia m´ınima 3 ≤ d ≤ 63, e armazena as respostas.
Passo 15 - Voltar para o Passo 3 e escolher outro polinˆomio primitivo
Passo 16 - Repetir os Passos 4 `a 14 at´e esgotar todos os polinˆomios primitivos do Passo
3
Passo 17 - Comparar todas as palavras-c´odigo armazenadas com a sequˆencia de DNA
original e mostrar onde ocorreram as diferen¸cas. Fim.
Neste passo, todas as palavras-c´odigo armazenadas est˜ao rotuladas na forma do alfabeto
do c´odigo, Z
4
= ¦0, 1, 2, 3¦, e ser˜ao convertidas em nucleot´ıdeos usando o rotulamento
do c´odigo gen´etico N = ¦A, C, G, T¦. Ap´os o rotulamento todas as palavras-c´odigo s˜ao
comparadas com a sequˆencia de direcionamento original mostrando onde os nucleot´ıdeos
diferem.
92
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
Resultados:
Caso1-(0,1,2,3)=(A,C,G,T)
Caso5-(0,3,2,1)=(A,C,G,T)
Caso8-(1,0,3,2)=(A,C,G,T)
Caso10-(1,2,3,0)=(A,C,G,T)
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:03233102210131331312031130213121211011010032222322123121111331
Glb:03233102210131331312031130213121211011010032222322123121111331
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:01211302230313113132013310231323233033030012222122321323333113
Glb:01211302230313113132013310231323233033030012222122321323333113
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:12322013301020220203120021302030300100101123333233032030000220
Glb:12322013301020220203120021302030300100101123333233032030000220
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:10300213321202002023102201320232322122121103333033230232222002
Glb:10300213321202002023102201320232322122121103333033230232222002
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
L
C
1
3
T
F
L
C
3
1
T
F
L
C
0
2
T
F
L
C
2
0
T
F
Caso15-(2,1,0,3)=(A,C,G,T)
Caso17-(2,3,0,1)=(A,C,G,T)
Caso19-(3,0,1,2)=(A,C,G,T)
Caso24-(3,2,1,0)=(A,C,G,T)
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:23033120012131331310231132013101011211212230000300103101111331
Glb:23033120012131331310231132013101011211212230000300103101111331
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:21011320032313113130213312031303033233232210000100301303333113
Glb:21011320032313113130213312031303033233232210000100301303333113
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:32122031103020220201320023102010100300303321111211012010000220
Glb:32122031103020220201320023102010100300303321111211012010000220
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:30100231123202002021302203120212122322323301111011210212222002
Glb:30100231123202002021302203120212122322323301111011210212222002
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
L
C
1
3
T
F
L
C
3
1
T
F
L
C
0
2
T
F
L
C
2
0
T
F
Nos resultados apresentados neste passo, temos que os casos 1, 5, 8, 10, 15, 17, 19 e 24
referem-se `as permuta¸ c˜oes associadas ao rotulamento B ver Figura 4.1. Portanto, a sequˆencia
em quest˜ao ´e reproduzida pelo c´odigo Z
2
Z
2
-linear classificando-a matematicamente como
uma sequˆencia linear.
4.2 Resultados da Codifica¸ c˜ao
Nesta se¸ c˜ao, mostramos que algumas sequˆencias de DNA possuem estrutura matem´atica
e podem ser reproduzidas por c´odigos corretores de erros. Sendo assim, apresentamos nas
subse¸ c˜oes seguintes as consequˆencias relacionadas a existˆencia de c´odigos corretores de erros
em sequˆencias de direcionamento.
93
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
4.2.1 Dependˆencia entre os c´odigos corretores de erros e os poli-
nˆomios primitivos
Sob o ponto de vista alg´ebrico em sistemas de transmiss˜ao digital a constru¸ c˜ao de um
c´odigo corretor de erros sobre anel ou corpo n˜ao depende do polinˆomio primitivo com o grau
r usado na extens˜ao de Galois. Entretanto, a reprodu¸ c˜ao das sequˆencias de direcionamento
mostrou uma rela¸ c˜ao de dependˆencia na existˆencia de c´odigos corretores de erros (e seus
rotulamentos associados) com alguns dos polinˆomios primitivos. No presente estudo todas
as sequˆencias de direcionamento identificadas como uma palavra-c´odigo de um c´odigo G-
linear est˜ao relacionadas a um polinˆomio gerador/primitivo e um determinado rotulamento,
sugerindo a existˆencia de uma propriedade geom´etrica associada com a sequˆencia de dire-
cionamento.
4.2.2 Rotulamento das sequˆencias de DNA
Em geral, o alfabeto de um c´odigo corretor de erros ´e frequentemente estabelecido a priori
dentre um conjunto de possibilidades de tal forma que tenha uma estrutura matem´atica bem
definida para facilitar o processo de codifica¸ c˜ao e decodifica¸ c˜ao das sequˆencias. Este n˜ao ´e o
caso para c´odigos corretores de erros genˆomicos, onde os pr´oprios alfabetos e suas poss´ıveis
estruturas matem´aticas j´a est˜ao determinados nas sequˆencias de DNA.
Para contornar este problema, usamos a seguinte analogia: o alfabeto 4-´ario na sa´ıda
da fonte est´a relacionado ao conjunto de nucleot´ıdeos denotado por N = ¦A, C, G, T/U¦,
correspondendo as bases adenina (A), citosina (C), guanina (G), and timina (T) ou uracila
(U). Similarmente, o alfabeto 4-´ario do c´odigo de bloco linear ´e denotado por Z
4
= ¦0, 1, 2, 3¦
para a estrutura de anel, satisfazendo as opera¸ c˜oes de soma e produto m´odulo 4.
Como o mapeamento entre N → Z
4
´e desconhecido, procedemos da seguinte maneira:
toda sequˆencia de DNA ´e rotulada por cada uma das 24 permuta¸ c˜oes entre N → Z
4
. Ob-
servamos que para cada sequˆencia reproduzida pelo c´odigo existem oito palavras-c´odigo cor-
respondentes a 8 permuta¸ c˜oes. Empregando o rotulamento rec´ıproco, Z
4
→ N, em cada
uma dessas 8 palavras-c´odigo temos como resultado 8 palavras-c´odigo iguais em termos de
nucleot´ıdeos e amino´acidos, (ver exemplo no Passo 17 da Se¸ c˜ao 4.1). Este fato resulta em
trˆes conjuntos contendo oito permuta¸ c˜oes cada um.
Classificamos o mapeamento utilizado no codificador, em termos de rotulamentos A, B e
C, Figura 4.1. Esses rotulamentos est˜ao relacionados `as formas geom´etricas que produzem
um diferente n´ıvel de n˜ao-linearidade para as sequˆencias reproduzidas.
A representa¸ c˜ao bin´aria associada a cada um desses r´otulos ´e 0−00; 1−10; 2−11; 3−01.
Todavia, a associa¸ c˜ao de complementaridade dos nucleot´ıdeos A - T e C - G com os r´otulos
94
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
ACGT
0132
ACGT
2130
ACGT
0312
ACGT
2310
ACGT
1023
ACGT
3021
ACGT
1203
ACGT
3201
ACGT
0213
ACGT
2013
ACGT
0231
ACGT
2031
ACGT
1302
ACGT
3102
ACGT
1320
ACGT
3120
ACGT
0123
ACGT
2103
ACGT
0321
ACGT
2301
ACGT
1032
ACGT
3012
ACGT
1230
ACGT
3210
RotulamentoB RotulamentoC
Rotulamento A
FormaGeométrica
A=0
G=1
T=3
C=2 A=0
C=1
G=3
T=2 A=0
C=1
T=3
G=2
}
ACGT
0132
ACGT
2130
ACGT
0123
ACGT
2103
ACGT
0213
ACGT
2013
ACGT
0312
ACGT
2310
ACGT
0321
ACGT
2301
ACGT
0231
ACGT
2031
ACGT
1023
ACGT
3021
ACGT
1032
ACGT
3012
ACGT
1302
ACGT
3102
ACGT
1203
ACGT
3201
ACGT
1230
ACGT
3210
ACGT
1320
ACGT
3120
Mapeamento
FormaGeométrica FormaGeométrica
Figura 4.1: Rotulamentos A, B e C.
´e o que os diferenciam. No caso do r´otulo A, vemos que qualquer um dos nucleot´ıdeos
para alcan¸ car o seu complementar necessita caminhar duas arestas, enquanto que nos dois
rotulamentos restantes basta caminhar uma aresta somente. Todas as permuta¸ c˜oes associadas
ao r´otulo A caracterizam o mapeamento como Z
4
- linear; as permuta¸ c˜oes associadas ao r´otulo
B caracterizam o mapeamento como Z
2
Z
2
-linear; enquanto que as permuta¸ c˜oes associadas
ao r´otulo C caracterizam o mapeamento como Klein-linear.
O rotulamento A classifica as sequˆencias como n˜ao-lineares (Z
4
- linear), enquanto que
os rotulamentos B e C as classificam como lineares (Z
2
Z
2
-linear e Klein-linear). Esse
mapeamento identifica as melhores associa¸ c˜oes entre cada s´ımbolo no conjunto N e o seu
correspondente s´ımbolo no conjunto Z
4
e vice-versa.
4.2.3 Rela¸ c˜ao matem´atica entre as fitas codante e n˜ao codante
Diante da reprodu¸ c˜ao de uma determinada sequˆencia de DNA atrav´es de c´odigos corre-
tores de erros, naturalmente surgem alguns questionamentos sobre a rela¸ c˜ao entre as duas
fitas do DNA, fita codante e fita n˜ao codante. Na biologia conclui-se que na dupla h´elice as
duas fitas do DNA est˜ao em dire¸ c˜oes opostas, isto significa que s˜ao antiparalelas. Uma vez
95
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
que ´e determinada a estrutura matem´atica de uma sequˆencia espec´ıfica do DNA ´e poss´ıvel
caracterizarmos a dupla h´elice em um contexto matem´atico?
Para responder a esta pergunta, usamos o algoritmo da Se¸ c˜ao 4.1 com o objetivo de
verificar se os c´odigos reproduzem as fitas complementares das sequˆencias de direcionamento
reproduzidas. Durante o processo consideramos as duas fitas sendo lidas no sentido paralelo
(da esquerda para a direita) e as duas fitas no sentido antiparalelo como na biologia, ou seja,
as fitas sendo lidas sempre no sentido 5’ para 3’.
A Figura 4.2 mostra a rela¸ c˜ao matem´atica entre as duas fitas no sentido paralelo. As
duas fitas s˜ao reproduzidas pelo c´odigo Z
2
Z
2
-linear atrav´es do mesmo polinˆomio gerador
g(x) e do mesmo rotulamento.
Ipomoeabatatas
Ipomoeabatatas
SequênciadobancodedadosNCBI
SequênciareproduzidapelocódigoBCHsobreanel
Código X linear -DuplafitadoDNA
p(x)=x+x+x+x+1g(x)=x+3x+x+x+2x+1
5'-ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC3'
03233102210131331312031130213121211011010032222322123121111331
30100231123202002021302203120212122322323301111011210212222002
3'-TACAAGTCCGTGAGAAGAGCTAGGATCGAGCGCGGTGGTGTTACCCCACCGCAGCGGGGAAG5'
5'-ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC3'
03233102210131331312031130213121211011010032222322123121111331
30100231123202002021302203120212122322323301111011210212222002
3'-TACAAGTCCGTGAGAAGAGCTAGGATCGAGCGCGGTGGTGTTACCCCACCGCAGCGGGGAAG5'
2 2
6 5 3 2 6 5 3 2
C
1
2
G
T
3
0
A
Figura 4.2: Rela¸ c˜ao entre a dupla fita do DNA. O c´odigo faz a leitura das palavras-c´odigos
no sentido da esquerda para `a direita. A cor vermelha indica onde ocorreu a diferen¸ ca de
nucleot´ıdeos.
A Figura 4.3 mostra a rela¸ c˜ao matem´atica entre as duas fitas no sentido antiparalelo. As
duas fitas s˜ao reproduzidas pelo c´odigo Z
2
Z
2
-linear da seguinte maneira: Se um polinˆomio
gerador g(x) reproduz a fita codante em um determinado rotulamento, ent˜ ao a sua fita
complementar ser´a reproduzida, somente pelo polinˆomio gerador rec´ıproco g

(x) do polinˆomio
gerador atrav´es do mesmo rotulamento.
4.2.4 Alto fluxo de informa¸ c˜ao - baixa redundˆancia
Outra propriedade relevante na reprodu¸ c˜ao de sequˆencias de direcionamento por c´odi-
gos corretores de erros est´a relacionada ao fato de que entre todos os c´odigos com distˆancia
m´ınima d > 2 mostrados na Tabela 4.6 somente alguns dos c´odigos com d = 3 foram capazes
96
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
Ipomoeabatatas-
Ipomoeabatatas-
Ipomoeabatatas-
SequênciadobancodedadosNCBI
SequênciareproduzidapelocódigoBCHsobreanel
Código X linear -Fitacodante-rotulamentoB:(A,C,G,T)=(0,1,2,3)
p(x)=x+x+x+x+1-g(x)=x+3x+x+x+2x+1
SequênciareproduzidapelocódigoBCHsobreanel
Código X linear -Fitanãocodante-rotulamentoB:(A,C,G,T)=(0,1,2,3)
p(x)=x+x+x+x+1-g(x)=x+2x+x+x+3x+1
5'-ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC3'
03233102210131331312031130213121211011010032222322123121111331
30100231123202002021302203120212122322323301111011210212222002
3'-TACAAGTCCGTGAGAAGAGCTAGGATCGAGCGCGGTGGTGTTACCCCACCGCAGCGGGGAAG5'
5'-ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC3'
03233102210131331312031130213121211011010032222322123121111331
5'-GAAGGGGCGACGCCACCCCATTGTGGTGGCGCGAGCTAGGATCGAGAAGAGTGCCTGAACAT3'
20022221201211011110332322322121202130220312020020232113200103
2 2
2 2
6 5 3 2 6 5 3 2
6 4 3 6 5 4 3
C
1
2
G
T
3
A
0
Figura 4.3: Rela¸ c˜ao entre as fitas codante e n˜ao codante. O c´odigo faz a leitura das palavras-
c´odigos no sentido da esquerda para `a direita. A cor vermelha indica onde ocorreu a diferen¸ ca
de nucleot´ıdeos.
de reproduzir as correspondentes sequˆencias de direcionamento. Esse fato implica que o grau
do polinˆomio primitivo r e gerador n − k sejam iguais. Como consequˆencia, a redundˆancia
est´a associada com o grau desses polinˆomios. Ent˜ao, uma pequena redundˆancia implica em
um c´odigo de taxa alta, bem como em uma alta entropia (fluxo de informa¸ c˜ao alto).
4.2.5 Classifica¸ c˜ao das sequˆencias de direcionamento sob o ponto
de vista matem´atico
Todas as sequˆencias de DNA que foram reproduzidas pelos c´odigos diferenciam em um
nucleot´ıdeo das sequˆencias encontradas no banco de dados NCBI. Em um contexto biol´ogico,
esta diferen¸ ca de um nucleot´ıdeo ´e conhecida como polimorfismo de um nucleot´ıdeo (SNP
“single nucleotide polymorphism”). Ent˜ao, uma poss´ıvel interpreta¸ c˜ao ´e que a palavra-c´odigo
gerada pelos c´odigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear s˜ao SNP’s das sequˆencias do
NCBI, ou vice-versa.
Os resultados permitem uma nova abordagem para a classifica¸ c˜ao das sequˆencias de dire-
cionamento sob um ponto de vista matem´atico. As sequˆencias de direcionamento que foram
reproduzidas pelo c´odigo Z
4
-linear (c´odigo BCH sobre anel e rotulamento A) s˜ao classifi-
97
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
C(n, k, d) p
1
(x) p
2
(x) p
3
(x) p
4
(x) p
5
(x) p
6
(x)
C(63, 1, 63) - - - - - -
C(63, 1, 61) - - - - - -
C(63, 1, 59) - - - - - -
C(63, 1, 57) - - - - - -
C(63, 1, 55) - - - - - -
C(63, 1, 53) - - - - - -
C(63, 1, 51) - - - - - -
C(63, 1, 49) - - - - - -
C(63, 1, 47) - - - - - -
C(63, 1, 45) - - - - - -
C(63, 1, 43) - - - - - -
C(63, 1, 41) - - - - - -
C(63, 1, 39) - - - - - -
C(63, 1, 37) - - - - - -
C(63, 1, 35) - - - - - -
C(63, 1, 33) - - - - - -
C(63, 7, 31) - - - - - -
C(63, 7, 29) - - - - - -
C(63, 10, 27) - - - - - -
C(63, 10, 25) - - - - - -
C(63, 16, 23) - - - - - -
C(63, 18, 21) - - - - - -
C(63, 18, 19) - - - - - -
C(63, 18, 17) - - - - - -
C(63, 24, 15) - - - - - -
C(63, 30, 13) - - - - - -
C(63, 36, 11) - - - - - -
C(63, 39, 9) - - - - - -
C(63, 45, 7) - - - - - -
C(63, 51, 5) - - - - - -
C(63, 57, 3) - x x - x x
Tabela 4.6: C´odigos BCH sobre GR(4, 6). Polinˆomios primitivos da extens˜ao r = 6: p
1
(x) =
x
6
+x+1, p
2
(x) = x
6
+x
5
+x
2
+x+1, p
3
(x) = x
6
+x
5
+x
3
+x
2
+1, p
4
(x) = x
6
+x
4
+x
3
+x+1,
p
5
(x) = x
6
+x
5
+x
4
+x + 1 e p
6
(x) = x
6
+x
5
+ 1.
cadas como sequˆencias n˜ao-lineares. Enquanto, que as sequˆencias reproduzidas pelos c´odigos
Z
2
Z
2
-linear e Klein-linear (c´odigos BCH sobre anel rotulamento B e rotulamento C, res-
pectivamente) s˜ao classificadas como sequˆencias lineares. Apesar das sequˆencias n˜ao-lineares
serem mais complexas que as sequˆencias lineares, elas herdam um grau de prote¸ c˜ao maior
contra poss´ıveis interferˆencias.
Mostramos nesta subse¸ c˜ao todas as sequˆencias de direcionamento que foram reproduzidas
pelos c´odigos, bem como as suas fitas complementares considerando o sentido 5’ para 3’ por
ser o conceito usado na biologia. Observe que cada sequˆencia de direcionamento cont´em as
informa¸ c˜oes sobre o polinˆomio gerador g(x) e o polinˆomio primitivo p(x). Enquanto que as
suas fitas complementares possuem as informa¸ c˜oes sobre o polinˆomio gerador rec´ıproco g

(x)
e o polinˆomio primitivo rec´ıproco p

(x).
As sequˆencias de direcionamento que foram reproduzidas pelo c´odigo Z
4
-linear foram as
SD01, SD03, SD04, SD18 e SD20 estas sequˆencias s˜ao classificadas como n˜ao-lineares. Nas
sequˆencias SD01 e SD04 ocorreram muta¸ c˜oes silenciosas, pois a mudan¸ ca de nucleot´ıdeo
n˜ao acarretou na troca de amino´acidos. Nas sequˆencias SD03, SD18 e SD20 as trocas
de amino´acidos ocorreram dentro da mesma classe hidrof´obica ou dentro da mesma classe
hidrof´ılica.
Os c´odigos Z
2
Z
2
-linear reproduziram as sequˆencias SD02, SD08, SD13 e SD20 e clas-
98
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
sificam estas sequˆencias como sequˆencias lineares. Em todas as sequˆencias ocorreram trocas
de classes de amino´acidos, com exce¸ c˜ao da sequˆencia SD02 onde a troca ocorreu dentro da
mesma classe.
As sequˆencias de direcionamento SD06 e SD17 foram reproduzidas pelo c´odigo Klein-
linear. Estas sequˆencias s˜ao classificadas como sequˆencias lineares. Na SD06 a troca de
amino´acidos ocorreu dentro da mesma classe hidrof´obica, enquanto que na SD17 ocorreu a
troca de um amino´acido base para um amino´acido hidrof´ılico.
De uma forma geral, podemos relatar alguns aspectos biol´ogicos observados na reprodu¸ c˜ao
dessas sequˆencias. Apesar dos c´odigos em considera¸ c˜ao fornecerem prote¸ c˜ao igual para cada
posi¸ c˜ao no c´odon, isto ´e, cada uma das posi¸ c˜oes no c´odon foram consideradas com probabi-
lidades iguais de erro, as trocas de nucleot´ıdeos ocorreram sempre na primeira e na terceira
posi¸ c˜ao dos c´odons. Este fato infere que a segunda posi¸ c˜ao foi mais protegida contra os
erros durante a reprodu¸ c˜ao das sequˆencias pelo c´odigo corretor de erros, o que faz sentido
biologicamente, uma vez que a troca de nucleot´ıdeo na segunda posi¸ c˜ao implica em uma
troca de amino´acido.
O processo de transi¸ c˜ao (troca de uma purina/pirimidina por outra purina/pirimidina) e
o processo de transvers˜ao (troca de uma purina por uma pirimidina) ocorreram praticamente
na mesma propor¸ c˜ao. Nas sequˆencias SD01, SD02, SD04, SD08, SD18 e SD20 (rotulamento
B) ocorreu o processo de transi¸ c˜ao.
Embora consideramos neste estudo sequˆencias de direcionamento com comprimento n =
p
r
−1, isso n˜ao ´e uma restri¸ c˜ao j´a que uma classe de c´odigos corretores de erros que possuem
comprimentos vari´aveis pode ser usada. Os resultados apresentados neste cap´ıtulo mostram
a existˆencia de c´odigos corretores de erros associados com sequˆencias de DNA (sequˆencias
de direcionamento), os quais sugerem fortemente a existˆencia de c´odigos concatenados no
genoma (“nested code”).
99
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
SD01 - B. nap us - Mitochondrial - Malate dehydrogenase* - GI: 899225
Fita codante: p(x)= x
6
+x
5
+x
3
+x
2
+1 - g(x)= x
6
+3x
5
+x
3
+x
2
+2x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Oaa: F R S A L V R S S A S A K Q S L L R R S F
Ont: TTC AGA TCC GCG CTT GTC CGA TCC TCC GCC TCG GCG AAG CAG TCG CTT CTC CGC CGC AGC TTC
Olb: 221 030 211 313 122 321 130 211 211 311 213 313 003 103 213 122 121 131 131 031 221
Glb: 221 030 211 313 122 321 130 211 211 311 213 313 003 103 213 122 121 131 131 031 222
Gnt: TTC AGA TCC GCG CTT GTC CGA TCC TCC GCC TCG GCG AAG CAG TCG CTT CTC CGC CGC AGC TTT
Gaa: F R S A L V R S S A S A K Q S L L R R S F
Fita complementar: p(x)’= x
6
+x
4
+x
3
+x+1 - g(x)’= x
6
+2x
5
+x
4
+x
3
+3x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Ont: GAA GCT GCG GCG GAG AAG CGA CTG CTT CGC CGA GGC GGA GGA TCG GAC AAG CGC GGA TCT GAA
Olb: 300 312 313 313 303 003 130 123 122 131 130 331 330 330 213 301 003 131 330 212 300
Glb: 000 312 313 313 303 003 130 123 122 131 130 331 330 330 213 301 003 131 330 212 300
Gnt: AAA GCT GCG GCG GAG AAG CGA CTG CTT CGC CGA GGC GGA GGA TCG GAC AAG CGC GGA TCT GAA
SD03 - A. th aliana – Mitochondrial – Pathogenesis related protein 4* - GI: 186509758
Fita codante: p(x)= x
6
+x
5
+x
3
+x
2
+1 - g(x)= x
6
+3x
5
+x
3
+x
2
+2x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Oaa: M K I R L S I T I I L L S Y T V A T V A G
Ont: ATG AAG ATC AGA CTT AGC ATA ACC ATC ATA CTT TTA TCA TAC ACA GTG GCT ACG GTG GCC GGA
Olb: 023 003 021 030 122 031 020 011 021 020 122 220 210 201 010 323 312 013 323 311 330
Glb: 023 003 021 030 122 031 120 011 021 020 122 220 210 201 010 323 312 013 323 311 330
Gnt: ATG AAG ATC AGA CTT AGC CTA ACC ATC ATA CTT TTA TCA TAC ACA GTG GCT ACG GTG GCC GGA
Gaa: M K I R L S L T I I L L S Y T V A T V A G
Fita complementar: p(x)’= x
6
+x
4
+x
3
+x+1 - g(x)’= x
6
+2x
5
+x
4
+x
3
+3x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Ont: TCC GGC CAC CGT AGC CAC TGT GTA TGA TAA AAG TAT GAT GGT TAT GCT AAG TCT GAT CTT CAT
Olb: 211 331 101 132 031 101 232 320 230 200 003 202 302 332 202 312 003 212 302 122 102
Glb: 211 331 101 132 031 101 232 320 230 200 003 202 302 332 203 312 003 212 302 122 102
Gnt: TCC GGC CAC CGT AGC CAC TGT GTA TGA TAA AAG TAT GAT GGT TAG GCT AAG TCT GAT CTT CAT
100
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
SD04 - N. tab ac u m - RE – Pathogen and wound-inducible antifungal protein CBP20* - GI: 632733
Fita codante: p(x)= x
6
+x
5
+x
3
+x
2
+1 - g(x)= x
6
+3x
5
+x
3
+x
2
+2x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Oaa: G K L S T L L F A L V L Y V I A A G A N A
Ont: GGA AAG CTA AGT ACA CTT TTA TTT GCT CTG GTC CTC TAT GTC ATA GCC GCA GGA GCT AAT GCA
Olb: 330 003 120 032 010 122 220 222 312 123 321 121 202 321 020 311 310 330 312 002 310
Glb: 330 003 120 032 010 122 220 222 311 123 321 121 202 321 020 311 310 330 312 002 310
Gnt: GGA AAG CTA AGT ACA CTT TTA TTT GCC CTG GTC CTC TAT GTC ATA GCC GCA GGA GCT AAT GCA
Gaa: G K L S T L L F A L V L Y V I A A G A N A
Fita não-codante: p(x)’= x
6
+x
4
+x
3
+x+1 - g(x)’= x
6
+2x
5
+x
4
+x
3
+3x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Ont: TGC ATT AGC TCC TGC GGC TAT GAC ATA GAG GAC CAG AGC AAA TAA AAG TGT ACT TAG CTT TCC
Olb: 231 022 031 211 231 331 202 301 020 303 301 103 031 000 200 003 232 012 203 122 211
Glb: 231 022 031 211 231 331 202 301 020 303 301 103 331 000 200 003 232 012 203 122 211
Gnt: TGC ATT AGC TCC TGC GGC TAT GAC ATA GAG GAC CAG GGC AAA TAA AAG TGT ACT TAG CTT TCC
SD18 - M m arte n s ii – RE – anti-epilepsy peptide precursor – GI: 16740522
Fita codante: p(x)= x
6
+x
5
+x
4
+x+1 - g(x)= x
6
+x
5
+x
4
+2x
2
+3x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Oaa: M K L F L L L V I S A S M L I D G L V N A
Ont: ATG AAA CTA TTT CTT TTA CTA GTT ATC TCT GCT TCA ATG CTA ATT GAT GGC TTA GTT AAT GCT
Olb: 023 000 120 222 122 220 120 322 021 212 312 210 023 120 022 302 331 220 322 002 312
Glb: 023 000 120 222 122 220 120 322 021 212 312 210 020 120 022 302 331 220 322 002 312
Gnt: ATG AAA CTA TTT CTT TTA CTA GTT ATC TCT GCT TCA ATA CTA ATT GAT GGC TTA GTT AAT GCT
Gaa: M K L F L L L V I S A S I L I D G L V N A
Fita complementar: p(x)’= x
6
+x
5
+x
2
+x+1 - g(x)’= x
6
+3x
5
+2x
4
+x
2
+x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Ont: AGC ATT AAC TAA GCC ATC AAT TAG CAT TGA AGC AGA GAT AAC TAG TAA AAG AAA TAG TTT CAT
Olb: 031 022 001 200 311 021 002 203 102 230 031 030 302 001 203 200 003 000 203 222 102
Glb: 031 022 001 200 311 021 002 203 202 230 031 030 302 001 203 200 003 000 203 222 102
Gnt: AGC ATT AAC TAA GCC ATC AAT TAG TAT TGA AGC AGA GAT AAC TAG TAA AAG AAA TAG TTT CAT
101
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
SD20 - P.d o m inu lus – RE – Allergen Pol d 5 – GI: 51093376
Fita codante: p(x)= x
6
+x
5
+1 - g(x)= x
6
+3x
5
+2x
3
+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Oaa: M K I S C L I C L V I V L T I I H L S Q A
Ont: ATG AAA ATT AGT TGC TTA ATT TGT CTC GTA ATT GTT CTT ACG ATC ATT CAT TTG TCT CAA GCT
Olb: 023 000 022 032 231 220 022 232 121 320 022 322 122 013 021 022 102 223 212 100 312
Glb: 023 000 022 032 031 220 022 232 121 320 022 322 122 013 021 022 102 223 212 100 312
Gnt: ATG AAA ATT AGT AGC TTA ATT TGT CTC GTA ATT GTT CTT ACG ATC ATT CAT TTG TCT CAA GCT
Gaa: M K I S S L I C L V I V L T I I H L S Q A
Fita complementar: p(x)’= x
6
+x+1 - g(x)’= x
6
+2x
3
+3x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Ont: AGC TTG AGA CAA ATG AAT GAT CGT AAG AAC AAT TAC GAG ACA AAT TAA GCA ACT AAT TTT CAT
Olb: 031 223 030 100 023 002 302 132 003 001 002 201 303 010 002 200 310 012 002 222 102
Glb: 031 223 030 100 023 002 302 132 003 001 002 201 303 010 002 200 312 012 002 222 102
Gnt: AGC TTG AGA CAA ATG AAT GAT CGT AAG AAC AAT TAC GAG ACA AAT TAA GCT ACT AAT TTT CAT
SD02 - I. b atatas – Mitochondrial - F1-ATPase delta subunit – GI: 217937
Fita codante: p(x)= x
6
+x
5
+x
3
+x
2
+1 - g(x)= x
6
+3x
5
+x
3
+x
2
+2x+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Oaa: M F R H S S R L L A R A T T M G W R R P F
Ont: ATG TTC AGG CAC TCT TCT CGA CTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Olb: 032 331 022 101 313 313 120 131 130 213 121 211 011 010 032 222 322 123 121 111 331
Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Fita complementar: p(x)’= x
6
+x
4
+x
3
+x+1 - g(x)’= x
6
+2x
5
+x
4
+x
3
+3x+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Ont: GAA GGG GCG ACG CCA CCC CAT TGT GGT GGC GCG AGC TAG GAG TCG AGA AGA GTG CCT GAA CAT
Olb: 200 222 212 012 110 111 103 323 223 221 212 021 302 202 312 020 020 232 113 200 103
Glb: 200 222 212 012 110 111 103 323 223 221 212 021 302 200 312 020 020 232 113 200 103
Gnt: GAA GGG GCG ACG CCA CCC CAT TGT GGT GGC GCG AGC TAG GAA TCG AGA AGA GTG CCT GAA CAT
102
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
SD08 - S. c e re v is iae – Mitochondrial – 54S ribosomal protein – GI: 45269853
Fita codante: p(x)= x
6
+x
5
+1 - g(x)= x
6
+3x
5
+2x
3
+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Oaa: M Q K I F R P F Q L T R G F T S S V K N F
Ont: ATG CAA AAA ATT TTC AGA CCA TTC CAA TTA ACG AGA GGC TTT ACC TCT TCC GTA AAA AAC TTC
Olb: 032 100 000 033 331 020 110 331 100 330 012 020 221 333 011 313 311 230 000 001 331
Glb: 032 100 200 033 331 020 110 331 100 330 012 020 221 333 011 313 311 230 000 001 331
Gnt: ATG CAA GAA ATT TTC AGA CCA TTC CAA TTA ACG AGA GGC TTT ACC TCT TCC GTA AAA AAC TTC
Gaa: M Q E I F R P F Q L T R G F T S S V K N F
Fita complementar: p(x)’= x
6
+x+1 - g(x)’= x
6
+2x
3
+3x+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Ont: GAA GTT TTT TAC GGA AGA GGT AAA GCC TCT CGT TAA TTG GAA TGG TCT GAA AAT TTT TTG CAT
Olb: 200 233 333 301 220 020 223 000 211 313 123 300 332 200 322 313 200 003 333 332 103
Glb: 200 233 333 301 220 020 223 000 211 313 123 300 332 200 322 313 200 003 331 332 103
Gnt: GAA GTT TTT TAC GGA AGA GGT AAA GCC TCT CGT TAA TTG GAA TGG TCT GAA AAT TTC TTG CAT
SD13 - A. th aliana – Mitochondrial – Malate dehydrogenase 1 – GI: 30695458
Fita codante: p(x)’= x
6
+x
5
+x
2
+x+1 - g(x)’= x
6
+3x
5
+2x
4
+x
2
+x+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Oaa: F R S M L V R S S A S A K Q A V I R R S F
Ont: TTC AGA TCT ATG CTC GTC CGA TCT TCT GCC TCC GCG AAG CAG GCG GTT ATC CGC CGT AGC TTC
Olb: 331 020 313 032 131 231 120 313 313 211 311 212 002 102 212 233 031 121 123 021 331
Glb: 331 020 313 032 131 231 120 313 313 211 311 212 003 102 212 233 031 121 123 021 331
Gnt: TTC AGA TCT ATG CTC GTC CGA TCT TCT GCC TCC GCG AAT CAG GCG GTT ATC CGC CGT AGC TTC
Gaa: F R S M L V R S S A S A N Q A V I R R S F
Fita complementar: p(x)= x
6
+x
5
+x
4
+x+1 - g(x)= x
6
+x
5
+x
4
+2x
2
+3x+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Ont: GAA GCT ACG GCG GAT AAC CGC CTG CTT CGC GGA GGC AGA AGA TCG GAC GAG CAT AGA TCT GAA
Olb: 200 213 012 212 203 001 121 132 133 121 220 221 020 020 312 201 202 103 020 313 200
Glb: 200 213 012 212 203 001 121 132 033 121 220 221 020 020 312 201 202 103 020 313 200
Gnt: GAA GCT ACG GCG GAT AAC CGC CTG ATT CGC GGA GGC AGA AGA TCG GAC GAG CAT AGA TCT GAA
103
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
SD20 - P.d o m inu lus – RE – Allergen Pol d 5 – GI: 51093376
Fita codante: p(x)= x
6
+x
5
+x
4
+x+1 - g(x)= x
6
+x
5
+x
4
+2x
2
+3x+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Oaa: M K I S C L I C L V I V L T I I H L S Q A
Ont: ATG AAA ATT AGT TGC TTA ATT TGT CTC GTA ATT GTT CTT ACG ATC ATT CAT TTG TCT CAA GCT
Olb: 032 000 033 023 321 330 033 323 131 230 033 233 133 012 031 033 103 332 313 100 213
Glb: 032 000 033 023 321 330 033 123 131 230 033 233 133 012 031 033 103 332 313 100 213
Gnt: ATG AAA ATT AGT TGC TTA ATT CGT CTC GTA ATT GTT CTT ACG ATC ATT CAT TTG TCT CAA GCT
Gaa: M K I S C L I R L V I V L T I I H L S Q A
Fita complementar: p(x)’= x
6
+x
5
+x
2
+x+1 - g(x)’= x
6
+3x
5
+2x
4
+x
2
+x+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Ont: AGC TTG AGA CAA ATG AAT GAT CGT AAG AAC AAT TAC GAG ACA AAT TAA GCA ACT AAT TTT CAT
Olb: 021 332 020 100 032 003 203 123 002 001 003 301 202 010 003 300 210 013 003 333 103
Glb: 021 332 020 100 032 003 203 123 002 001 003 301 202 012 003 300 210 013 003 333 103
Gnt: AGC TTG AGA CAA ATG AAT GAT CGT AAG AAC AAT TAC GAG ACG AAT TAA GCA ACT AAT TTT CAT
SD06 - T. s ativ u m – RE - wPR4g gene for putative vacuolar defense protein – GI: 78096542
Fita codante: p(x)= x
6
+x
5
+x
4
+x+1 - g(x)= x
6
+x
5
+x
4
+2x
2
+3x+1
Rotulamento C: (0,2,1,3) - (A,C,G,T)
Oaa: M A A R L A L V A A L L C A G A T A A A A
Ont: ATG GCC GCA CGC CTC GCG CTG GTG GCG GCG CTC CTG TGC GCC GGT GCC ACG GCC GCC GCG GCG
Olb: 031 122 120 212 232 121 231 131 121 121 232 231 312 122 113 122 021 122 122 121 121
Glb: 031 122 120 212 232 121 231 331 121 121 232 231 312 122 113 122 021 122 122 121 121
Gnt: ATG GCC GCA CGC CTC GCG CTG TTG GCG GCG CTC CTG TGC GCC GGT GCC ACG GCC GCC GCG GCG
Gaa: M A A R L A L L A A L L C A G A T A A A A
Fita complementar: p(x)’= x
6
+x
5
+x
2
+x+1 - g(x)’= x
6
+3x
5
+2x
4
+x
2
+x+1
Rotulamento C: (0,2,1,3) - (A,C,G,T)
Ont: CGC CGC GGC GGC CGT GGC ACC GGC GCA CAG GAG CGC CGC CAC CAG CGC GAG GCG TGC GGC CAT
Olb: 212 212 112 112 213 112 022 112 120 201 101 212 212 202 201 212 101 121 312 112 203
Glb: 212 212 112 112 213 112 022 112 120 201 101 212 212 200 201 212 101 121 312 112 203
Gnt: CGC CGC GGC GGC CGT GGC ACC GGC GCA CAG GAG CGC CGC CAA CAG CGC GAG GCG TGC GGC CAT
104
Cap´ıtulo 4. Gera¸ c˜ao das Sequˆencias de Direcionamento
SD17 - H. s ap ie n s – Mitochondrial – ATPase delta-subunit – GI number 12587
Fita codante: p(x)= x
6
+x
5
+1 - g(x)= x
6
+3x
5
+2x
3
+1
Rotulamento C: (0,2,1,3) - (A,C,G,T)
Oaa: L P A A L L R R P G L G R L V R H A R A Y
Ont: CTG CCC GCC GCG CTG CTC CGC CGC CCG GGA CTT GGC CGC CTC GTC CGC CAC GCC CGT GCC TAT
Olb: 231 222 122 121 231 232 212 212 221 110 233 112 212 232 132 212 202 122 213 122 303
Glb: 231 222 122 121 231 232 212 212 221 110 233 112 212 232 132 212 201 122 213 122 303
Gnt: CTG CCC GCC GCG CTG CTC CGC CGC CCG GGA CTT GGC CGC CTC GTC CGC CAG GCC CGT GCC TAT
Gaa: L P A A L L R R P G L G R L V R Q A R A Y
Fita complementar: p(x)’= x
6
+x+1 - g(x)’= x
6
+2x
3
+3x+1
Rotulamento C: (0,2,1,3) - (A,C,G,T)
Ont: ATA GGC ACG GGC GTG GCG GAC GAG GCG GCC AAG TCC CGG GCG GCG GAG CAG CGC GGC GGG CAG
Olb: 030 112 021 112 131 121 102 101 121 122 001 322 211 121 121 101 201 212 112 111 201
Glb: 030 112 021 112 231 121 102 101 121 122 001 322 211 121 121 101 201 212 112 111 201
Gnt: ATA GGC ACG GGC CTG GCG GAC GAG GCG GCC AAG TCC CGG GCG GCG GAG CAG CGC GGC GGG CAG
105
Cap´ıtulo 5
Regenera¸ c˜ao de Sequˆencias de DNA
A fun¸ c˜ao primordial do processo de decodifica¸ c˜ao ´e recuperar a palavra-c´odigo transmitida
atrav´es da correspondente sequˆencia recebida de s´ımbolos. O primeiro passo ´e identificar se a
palavra recebida ´e uma palavra-c´odigo. O segundo passo consiste em recuperar a mensagem
que fora codificada. Esta recupera¸ c˜ao torna-se trivial se a palavra recebida ´e uma palavra-
c´odigo, visto que a correspondˆencia ´e um-a-um entre as poss´ıveis mensagens e as palavras-
c´odigos.
Do ponto de vista biol´ogico, o processo da decodifica¸ c˜ao pode ser visto como o processo de
repara¸ c˜ao de erros. Este processo consiste em localizar e corrigir os poss´ıveis erros cometidos
durante os processos de duplica¸ c˜ao e transcri¸ c˜ao. A regra da regenera¸ c˜ao ´otima consiste em
escolher a palavra recebida mais pr´oxima da palavra-c´odigo.
No presente trabalho, o modelo de decodifica¸ c˜ao baseia-se em uma analogia entre o pro-
cesso de decodifica¸ c˜ao (Berlekamp-Massey para an´eis) utilizado em sistemas de comunica¸ c˜oes
e o complexo TOM que atua no transporte de prote´ınas mitocondriais. A principal fun¸ c˜ao
do complexo TOM ´e reconhecer as sequˆencias de direcionamento permitindo a entrada da
prote´ına precursora na mitocˆondria e translocando-a para seu respectivo subcompartimento,
no qual a prote´ına exercer´a a sua fun¸ c˜ao. Ressaltamos que estas analogias podem ser esten-
didas para o transporte de prote´ınas para o cloroplasto e para o ret´ıculo endoplasm´atico.
O algoritmo de Berlekamp-Massey consiste basicamente de quatro passos: 1) C´alculo das
s´ındromes: neste passo o algoritmo verifica se a sequˆencia recebida ´e uma palavra-c´odigo; 2)
C´alculo das fun¸ c˜oes sim´etricas elementares: se o c´alculo das s´ındromes for um valor diferente
de zero, podemos verificar se a quantidade de erros est´a dentro da capacidade de corre¸ c˜ao do
c´odigo; 3) C´alculo dos n´ umeros localizadores de erros: neste passo s˜ao localizadas as posi¸ c˜oes
onde ocorreram os erros e 4) C´alculo das magnitudes dos erros: o algoritmo indica quais s˜ao
os valores que devem ser somados nas posi¸ c˜oes apontadas no Passo 3 para que os erros sejam
corrigidos.
107
Cap´ıtulo 5. Regenera¸ c˜ao de Sequˆencias de DNA
Durante o processo de importa¸ c˜ao de prote´ınas mitocondriais, existem processos seme-
lhantes aos passos do processo de decodifica¸ c˜ao descritos anteriormente. As prote´ınas Tom20,
Tom22 e Tom70 funcionam como receptores para as prote´ınas precursoras mitocondriais.
Esta etapa pode ser relacionada aos Passos 1 e 2 do algoritmo de Berlekamp-Massey, desta
maneira as prote´ınas receptoras tˆem a fun¸ c˜ao de verificar se a prote´ına precursora pertence
a mitocˆondria (Passo 1), bem como se poss´ıveis polimorfismos existentes est˜ao dentro da
capacidade de corre¸ c˜ao do erro (Passo 2). Sabemos que alguns polimorfismos n˜ao alteram
a fun¸ c˜ao da prote´ına, de alguma forma esta informa¸ c˜ao faz parte do processo, pois alguns
polimorfismos s˜ao importados normalmente pelo complexo TOM. Sendo assim, ´e conceb´ıvel
que os processos de localiza¸ c˜ao e corre¸ c˜ao dos erros (Passos 3 e 4, respectivamente) podem
ser interpretados como um processo de verifica¸ c˜ao se os polimorfismos ocorreram em posi¸ c˜oes
que afetaram a prote´ına (conte´ udo de informa¸ c˜ao) tornando-a danosa ou n˜ao ao sistema de
importa¸ c˜ao de prote´ınas.
Na Se¸ c˜ao 5.1 apresentamos o algoritmo usado para decodificar/regenerar as sequˆencias de
DNA (sequˆencias de direcionamento) reproduzidas pelos c´ odigos Z
4
-linear, Z
2
Z
2
-linear e
Klein-linear. Este algoritmo baseia-se nos resultados observados no Cap´ıtulo 4 onde todas as
sequˆencias reproduzidas pelos c´odigos diferem em um nucleot´ıdeo da sequˆencia do NCBI. Em
um contexto biol´ogico, esta diferen¸ ca de um nucleot´ıdeo ´e conhecida como SNP. Ent˜ao, uma
poss´ıvel interpreta¸ c˜ao ´e que a palavra-c´odigo gerada pelos c´odigos G-lineares s˜ao SNP’s das
sequˆencias do NCBI, ou vice-versa. Desta forma, o algoritmo ´e capaz de localizar e corrigir
esta diferen¸ ca de nucleot´ıdeo transformando a sequˆencia gerada pelo c´odigo na sequˆencia
do NCBI, ou vice-versa. A Se¸ c˜ao 5.2 mostra os resultados da decodifica¸ c˜ao/regenera¸ c˜ao
das sequˆencias de direcionamento reproduzidas pelos c´odigos e suas respectivas fitas comple-
mentares. Na Se¸ c˜ao 5.3 apresentamos a reprodu¸ c˜ao das sequˆencias de direcionamento atrav´es
de um circuito linear de deslocamento com realimenta¸ c˜ao linear (LFSR - “linear feedback
shift-register”), nesta abordagem a reprodu¸ c˜ao das sequˆencias de direcionamento ´e realizada
pela sequˆencia de informa¸ c˜ao. Cada sequˆencia de informa¸ c˜ao est´a associada a somente uma
sequˆencia de direcionamento (palavra-c´odigo). Sendo assim, a distin¸ c˜ao entre as sequˆencias
que foram reproduzidas pelo mesmo c´odigo e mesmo polinˆomio gerador/primitivo ´e realizada
atrav´es da sequˆencia de informa¸ c˜ao.
5.1 Algoritmo de Decodifica¸ c˜ao
Na Se¸ c˜ao 4.1, Cap´ıtulo 4, apresentamos o c´odigo Z
2
Z
2
com parˆametros (63, 57, 3)
que reproduziu a sequˆencia de direcionamento do organismo Ipomoea batatas, GI: 217937,
prote´ına F1-ATPase delta subunit, diferenciando em apenas um nucleot´ıdeo da sequˆencia
108
Cap´ıtulo 5. Regenera¸ c˜ao de Sequˆencias de DNA
encontrada no NCBI. Nesta se¸ c˜ao, mostramos que o algoritmo de decodifica¸ c˜ao ´e capaz de
localizar e corrigir esta diferen¸ ca de nucleot´ıdeo entre estas sequˆencias. Neste contexto, o
algoritmo de decodifica¸ c˜ao pode ser visto biologicamente como um processo de regenera¸ c˜ao
da sequˆencia de DNA.
Algoritmo de Berlekamp- Massey Modificado para
Decodifica¸c˜ao de Sequˆencias de DNA
Passo 1- Determinar as s´ındromes:
O c´alculo do vetor s´ındrome S = (S
0
, S
1
, ..., S
2t−1
) ´e realizado atrav´es da rela¸ c˜ao S =
r H
T
. Considere o vetor r como sendo a palavra-c´odigo transmitida com um padr˜ao
de erro introduzido pelo canal (sequˆencia do NCBI) e H
T
´e a matriz verifica¸ c˜ao de
paridade. Uma vez que a sequˆencia em quest˜ao foi reproduzida pelo c´odigo Z
2
Z
2
-
linear (BCH (63,57,3), rotulamento B), consideramos as oito permuta¸ c˜oes (Casos: 01,
05, 08, 10, 15, 17, 19 e 24) entre N → Z
4
relativas ao rotulamento e a sequˆencia do
NCBI. Realizamos o c´alculo do vetor s´ındrome para cada uma das oito permuta¸ c˜oes.
H
T
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 1
β β
2
β
2
β
4
β
3
β
6
.
.
.
.
.
.
β
61
β
59
β
62
β
61
_
_
_
_
_
_
_
_
_
_
_
_
_
_
(5.1)
Sequˆencia NCBI = {ATGTTCAGGCACTCTTCTCGACTCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC}
Caso 01: (A,C,G,T)=(0,1,2,3)={032331022101313313120131130213121211011010032222322123121111331} = r
Caso 05: (A,C,G,T)=(0,3,2,1)={012113022303131131320313310231323233033030012222122321323333113} = r
Caso 08: (A,C,G,T)=(1,0,3,2)={123220133010202202031020021302030300100101123333233032030000220} = r
Caso 10: (A,C,G,T)=(1,2,3,0)={103002133212020020231202201320232322122121103333033230232222002} = r
Caso 15: (A,C,G,T)=(2,1,0,3)={230331200121313313102131132013101011211212230000300103101111331} = r
Caso 17: (A,C,G,T)=(2,3,0,1)={210113200323131131302313312031303033233232210000100301303333113} = r
Caso 19: (A,C,G,T)=(3,0,1,2)={321220311030202202013020023102010100300303321111211012010000220} = r
Caso 24: (A,C,G,T)=(3,2,1,0)={301002311232020020213202203120212122322323301111011210212222002} = r
109
Cap´ıtulo 5. Regenera¸ c˜ao de Sequˆencias de DNA
Resultados:
As s´ındromes s˜ao iguais para as oito permuta¸ c˜oes, onde S
0
= (022020) e S
1
= (222020).
Sendo assim, iniciamos o preenchimento da Tabela 5.1.
n σ
(n)
(Z) d
n
l
n
n −l
n
-1 1 1 0 -1
0 1 S
0
= (022020) 0 0
1
2
Tabela 5.1: Tabela de Decodifica¸ c˜ao.
Passo 2- Determinar l
1
:
Considere m = −1 e n = 0 para que l
n+1
= l
1
. Substituindo esses valores em (5.2),
temos:
l
n+1
= max(l
n
, l
m
+n −m) (5.2)
l
0+1
= max(l
0
, l
−1
+ 0 + 1)
l
1
= max(0, 0 + 0 + 1)
l
1
= max(0, 1)
l
1
= 1
Passo 3- Determinar n −l
n
:
Do Passo 2 temos que l
n
= l
1
= 1, portanto n = 1 e n −l
n
= 1 −1 = 0.
Passo 4- Determinar σ
(1)
(Z):
Nesse passo, considere m = −1 e n = 0 para que σ
(n+1)
(Z) = σ
(1)
(Z). Substituindo
esses valores em (5.3) temos:
σ
(n+1)
(Z) = σ
(n)
(Z) −yZ
(n−m)
σ
(m)
(Z) (5.3)
σ
(0+1)
(Z) = σ
(0)
(Z) −yZ
(0−(−1))
σ
(−1)
(Z)
σ
(1)
(Z) = σ
(0)
(Z) −yZ
(1)
σ
(−1)
(Z)
σ
(1)
(Z) = 1 −yZ
Para determinarmos o valor de y resolvemos a equa¸ c˜ao d
n
− yd
m
= 0, onde n = 0 e
m = −1. Portanto:
110
Cap´ıtulo 5. Regenera¸ c˜ao de Sequˆencias de DNA
d
0
−yd
−1
= 0
(022020) −y(1) = 0
y = (022020)
Com isso, determinamos que σ
(1)
(Z) = 1 −(022020)Z.
Note que os valores de σ
(0)
(Z) = 1, σ
(−1)
(Z) = 1, d
0
= (022020) e d
−1
= 1 foram
obtidos na Tabela 5.1 (Passo 1).
Passo 5- Determinar d
1
:
O valor de d
1
ser´a calculado atrav´es de (5.4), considerando n = 0. Portanto:
d
n+1
= s
n+2
+s
n+1
σ
(n+1)
1
+. . . +s
n+2
−l
n+1
σ
(n+1)
l
n+1
(5.4)
d
0+1
= s
0+2
+s
0+1
σ
(0+1)
1
d
1
= S
1
+S
0
σ
(1)
1
d
1
= (222020) + (022020)(022020)
d
1
= (222020)
(5.5)
Preenchendo a Tabela 5.2 para n = 1 temos:
n σ
(n)
(X) d
n
l
n
n −l
n
-1 1 1 0 -1
0 1 (022020) 0 0
1 1+(022020)Z (222020) 1 0
2
Tabela 5.2: Tabela de Decodifica¸ c˜ao.
Passo 6- Determinar l
2
:
Considere n = 1 para que l
n+1
= l
2
e calcule a equa¸ c˜ao (5.2) para m = −1 e m = 0
escolhendo sempre o menor valor para l
n
. Substituindo esses valores em (5.2), temos:
111
Cap´ıtulo 5. Regenera¸ c˜ao de Sequˆencias de DNA
Para m = −1 temos:
l
n+1
= max(l
n
, l
m
+n −m)
l
1+1
= max(l
1
, l
−1
+ 1 + 1)
l
2
= max(1, 0 + 1 + 1)
l
2
= max(1, 2)
l
2
= 2
Para m = 0 temos:
l
n+1
= max(l
n
, l
m
+n −m)
l
1+1
= max(l
1
, l
0
+ 1 −0)
l
2
= max(1, 0 + 1 −0)
l
2
= max(1, 1)
l
2
= 1
Escolhendo o menor l
n
temos l
2
= 1 e m = 0.
Passo 7- Determinar n −l
n
:
Do Passo 2 temos que l
n
= l
2
= 1, portanto n = 2 e n −l
n
= 2 −1 = 1.
Passo 8- Determinar σ
(2)
(Z):
Nesse passo, considere m = 0 e n = 1 para que σ
(n+1)
(Z) = σ
(2)
(Z). Substituindo esses
valores em (5.6) temos:
σ
(n+1)
(Z) = σ
(n)
(Z) −yZ
(n−m)
σ
(m)
(Z) (5.6)
σ
(1+1)
(Z) = σ
(1)
(Z) −yZ
(1−(0))
σ
(0)
(Z)
σ
(2)
(Z) = σ
(1)
(Z) −yZσ
(0)
(Z)
σ
(2)
(Z) = [1 + (022020)Z] −yZ
Para determinarmos o valor de y resolvemos a equa¸ c˜ao d
n
− yd
m
= 0, onde n = 1 e
m = 0. Portanto:
112
Cap´ıtulo 5. Regenera¸ c˜ao de Sequˆencias de DNA
d
1
−yd
0
= 0
(222020) −y(022020) = 0
y = (211012)
Com isso, determinamos que σ
(2)
(Z) = 1 + (211012)Z.
Note que os valores de σ
(0)
(Z), σ
(1)
(Z), d
0
= (022020) e d
1
= (222020) foram obtidos
da Tabela 5.2 do Passo 5. Observe que d
2
n˜ao foi calculado pelo fato de termos duas
s´ındromes, S
0
e S
1
.
Preenchendo a Tabela 5.3 para n = 2 temos:
n σ
(n)
(X) d
n
l
n
n −l
n
-1 1 1 0 -1
0 1 (022020) 0 0
1 1+(022020)Z (222020) 1 0
2 1+(211012)Z - 1 1
Tabela 5.3: Tabela de Decodifica¸ c˜ao.
Passo 9- Determinar p(Z):
Nesse passo, calculamos as ra´ızes do polinˆomio rec´ıproco (p(Z)) do polinˆomio σ
(2)
(Z).
Temos:
σ
(2)
(Z) = 1 + (211012)Z
Logo,
p(Z) = (211012) +Z
Portanto, a raiz de p(Z) ´e Z
1
= (233032).
Passo 10- Determinar X
1
:
Para determinar a localiza¸ c˜ao do erro, X
1
, usamos a rela¸ c˜ao:
113
Cap´ıtulo 5. Regenera¸ c˜ao de Sequˆencias de DNA
X
1
−Z
1
= 0
X
1
−(233032) = 0
X
1
= (233032)
Observe que X
1
´e o elemento β
21
da Tabela 4.4 do Passo 6 da Se¸ c˜ao 4.1 do Cap´ıtulo 4.
Passo 11- Determinar Y
1
:
Quanto ao c´alculo da magnitude dos erros, Y
1
, usamos a seguinte equa¸ c˜ao:
Y
j
=

v−1
l=0
σ
jl
s
(h)
v−l
X
b+c
2
h
j

v−1
l=0
σ
jl
X
c
1
(v−l)
j
para 1 ≤ j ≤ v, e onde os σ
jl
s˜ao obtidos recursivamente a partir de X
i
e σ
i
atrav´es da
rela¸ c˜ao:
σ
ji
= σ
i
+X
j
σ
j,i−1
Portanto, susbtituindo os valores de i = 0 e j = 1 em σ
ji
, temos:
σ
10
= σ
0
+X
1
σ
1,0−1
= 1 + (233032) = (333032)
Substituindo σ
10
em Y
j
, temos:
Y
1
=
σ
10
S
0
σ
10
X
1
1
=
(022020)
(233032)
= 2
Conclu´ımos que a magnitude de erro ´e Y
1
= 2.
Passo 12- Regenera¸c˜ao das Sequˆencias de DNA:
Neste passo o algoritmo localiza e corrige o erro introduzido na sequˆencia do NCBI
transformando-a na sequˆencia reproduzida pelo c´odigo. Do ponto de vista biol´ogico
podemos considerar este passo como um processo de regenera¸ c˜ao de sequˆencias.
114
Cap´ıtulo 5. Regenera¸ c˜ao de Sequˆencias de DNA
Cada uma das oito permuta¸ c˜oes do Passo 1 corresponde a uma linha da matriz R

,
onde cada linha ´e considerada como uma palavra recebida r = (r
0
r
1
... r
n−1
)
correspondente a sequˆencia do NCBI. No Passo 10 calculamos que X
1
= β
21
= (233032),
portanto a localiza¸ c˜ao do erro est´a na posi¸ c˜ao 21 (potˆencia de β) da palavra recebida
r = (r
0
r
1
... r
n−1
).
R

=
_
_
_
_
_
_
_
_
_
032331022101313313120131130213121211011010032222322123121111331
012113022303131131320313310231323233033030012222122321323333113
123220133010202202031020021302030300100101123333233032030000220
103002133212020020231202201320232322122121103333033230232222002
230331200121313313102131132013101011211212230000300103101111331
210113200323131131302313312031303033233232210000100301303333113
321220311030202202013020023102010100300303321111211012010000220
301002311232020020213202203120212122322323301111011210212222002
_
_
_
_
_
_
_
_
_
No Passo 11 determinamos a magnitude do erro Y
1
= 2, portanto na posi¸ c˜ao 21 de
cada linha da matriz R

ocorreu um erro de magnitude igual a 2. Para corrigir este erro
devemos somar nesta posi¸ c˜ao o complementar de Y
1
que definimos como Y

1
. O valor
de Y

1
´e determinado da seguinte forma: Y
1
+Y

1
= 0 (mod4), Tabela 5.4. Sendo assim,
temos que Y

1
= 2 e somando este valor na posi¸ c˜ao 21 de cada linha de R

temos,
Y
1
+ Y

1
= 0
0+0=0
1+3=0
3+1=0
2+2=0
Tabela 5.4: Complementares.
R

=
_
_
_
_
_
_
_
_
_
032331022101313313120[(1 + 2)mod4]31130213121211011010032222322123121111331
012113022303131131320[(3 + 2)mod4]13310231323233033030012222122321323333113
123220133010202202031[(0 + 2)mod4]20021302030300100101123333233032030000220
103002133212020020231[(2 + 2)mod4]02201320232322122121103333033230232222002
230331200121313313102[(1 + 2)mod4]31132013101011211212230000300103101111331
210113200323131131302[(3 + 2)mod4]13312031303033233232210000100301303333113
321220311030202202013[(0 + 2)mod4]20023102010100300303321111211012010000220
301002311232020020213[(2 + 2)mod4]02203120212122322323301111011210212222002
_
_
_
_
_
_
_
_
_
Resulta em:
115
Cap´ıtulo 5. Regenera¸ c˜ao de Sequˆencias de DNA
R

=
_
_
_
_
_
_
_
_
_
032331022101313313120331130213121211011010032222322123121111331
012113022303131131320113310231323233033030012222122321323333113
123220133010202202031220021302030300100101123333233032030000220
103002133212020020231002201320232322122121103333033230232222002
230331200121313313102331132013101011211212230000300103101111331
210113200323131131302113312031303033233232210000100301303333113
321220311030202202013220023102010100300303321111211012010000220
301002311232020020213002203120212122322323301111011210212222002
_
_
_
_
_
_
_
_
_
Passo 13- Visualizando o resultado:
Para facilitar a compreens˜ao do processo da decodifica¸ c˜ao mostramos na Figura 5.1
o caso referente a primeira linha da matriz R

, onde o erro foi localizado e corrigido
transformando a sequˆencia de direcionamento do NCBI na sequˆencia reproduzida pelo
c´odigo Z
2
Z
2
( BCH (63,57,3), rotulamento B.
Processodacodificação
Processodadecodificação
Caso 1 - (0,1,2,3) = (A,C,G,T)
Oaa: M F R H S S R L L A R A T T M G W R R P F
Ont: ATG TTC AGG CAC TCT TCT CGA CTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Olb: 032 331 022 101 313 313 120 131 130 213 121 211 011 010 032 222 322 123 121 111 331
Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Caso 1 - (0,1,2,3) = (A,C,G,T)
Oaa: M F R H S S R F L A R A T T M G W R R P F
Ont: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Olb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Figura 5.1: SD NCBI em SD reproduzida pelo c´odigo.
Observe que, uma vez que se conhece a palavra-c´odigo, o processo inverso tamb´em
pode ser realizado pelo algoritmo, isto ´e, o algoritmo ´e capaz de transformar a sequˆencia
reproduzida pelo c´odigo na sequˆencia do NCBI (Figura 5.2). Neste caso devemos somar
na sequˆencia reproduzida pelo c´odigo e na posi¸ c˜ao onde o erro ocorreu o valor de Y
1
= 2.
5.2 Resultados da Decodifica¸ c˜ao
Na Figura 5.3 mostramos as fitas codante (5’ para 3’) e n˜ao codante (3’ para 5’) da
sequˆencia da Ipomoea batatas que foram reproduzidas pelo polinˆomio gerador g(x) = x
6
+
116
Cap´ıtulo 5. Regenera¸ c˜ao de Sequˆencias de DNA
Processodacodificação
Processodadecodificação
Caso 1 - (0,1,2,3) = (A,C,G,T)
Oaa: M F R H S S R L L A R A T T M G W R R P F
Ont: ATG TTC AGG CAC TCT TCT CGA CTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Olb: 032 331 022 101 313 313 120 131 130 213 121 211 011 010 032 222 322 123 121 111 331
Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Caso 1 - (0,1,2,3) = (A,C,G,T)
Oaa: M F R H S S R L L A R A T T M G W R R P F
Ont: ATG TTC AGG CAC TCT TCT CGA CTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Olb: 032 331 022 101 313 313 120 131 130 213 121 211 011 010 032 222 322 123 121 111 331
Glb: 032 331 022 101 313 313 120 131 130 213 121 211 011 010 032 222 322 123 121 111 331
Gnt: ATG TTC AGG CAC TCT TCT CGA CTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R L L A R A T T M G W R R P F
Figura 5.2: SD reproduzida pelo c´odigo em SD NCBI.
3x
5
+ x
3
+ x
2
+ 2x + 1 do c´odigo, bem como a fita n˜ao codante (5’ para 3’) reproduzida
pelo polinˆomio rec´ıproco de g(x), isto ´e, pelo polinˆomio g

(x) = x
6
+ 2x
5
+x
4
+x
3
+ 3x + 1.
Ressaltamos que a leitura destas fitas ´e considerada no sentido da esquerda para a direita
pelo c´odigo e que o algoritmo da decodifica¸ c˜ao foi aplicado nestes trˆes tipos de fitas para
cada sequˆencia reproduzida pelo c´odigo.
Fitacodante(5'para3')efitanãocodante(3'para5')
Fitanãocodante(5'para3')
5'-ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC-3 T '
3'-TACAAGTCCGTGAGAAGAGCTAAGGATCGAGCGCGGTGGTGTTACCCCACCGCAGCGGGGAAG-5'
5'-GAAGGGGCGACGCCACCCCATTGTGGTGGCGCGAGCTAGGAATCGAGAAGAGTGCCTGAACAT-3’
Figura 5.3: Fitas codante e n˜ao codante.
Na Tabela 5.5 mostramos que para determinadas sequˆencias de direcionamento o pro-
cesso de decodifica¸ c˜ao obteve a mesma classe s´ındrome (S
0
e S
1
) para as oito permuta¸ c˜oes
relacionadas com as sequˆencias. Por´em em outros casos, as oito permuta¸ c˜oes com um erro
se dividiram em duas classes de s´ındromes (S
0
e S
1
; S

0
e S

1
), Tabela 5.6. O mesmo ocorreu
com o processo de decodifica¸ c˜ao da fita complementar (5’ para 3’), Tabelas 5.7 e 5.8.
Nos casos de duas classes de s´ındromes, Tabela 5.6, podemos observar que as s´ındromes
S
0
e S
1
s˜ao complementares a S

0
e S

1
, respectivamente. Outro ponto a ser considerado ´e que
se definirmos o localizador de erros como X
1
e seu complementar como X

1
, ent˜ao podemos
determinar o polinˆomio σ
(2)
(Z) atrav´es da rela¸ c˜ao σ
(2)
(Z) = 1 +X

1
Z.
Note que nas Tabelas 5.6 e 5.8 as sequˆencias SD01, SD03, SD04 e SD18 possuem duas
117
Cap´ıtulo 5. Regenera¸ c˜ao de Sequˆencias de DNA
classes de s´ındromes e o mesmo rotulamento, por´em elas se diferem em rela¸ c˜ao a magnitude
dos erros Y
1
. Observe que nas sequˆencias SD01, SD03 e SD18 as classes A(2, 9, 18, 20) possuem
magnitude Y
1
= 3 enquanto que a sequˆencia SD04 possui magnitude Y
1
= 1.
n
o
Organismo Organela Rotulamento S´ındromes σ
(2)
(Z) X
1
Y
1
SD02 I. batatas M B S
0
= (022020), S
1
= (222020) 1 + (211012)Z β
21
= (233032) 2
SD06 T. sativum RE C S
0
= (000220), S
1
= (200220) 1 + (202310)Z β
21
= (202130) 2
SD08 S. cerevisiae M B S
0
= (022222), S
1
= (202202) 1 + (031313)Z β
6
= (013131) 2
SD20 P. dominulus RE A S
0
= (202202), S
1
= (222200) 1 + (321323)Z β
12
= (123121) 2
SD20 P. dominulus RE B S
0
= (000220), S
1
= (200220) 1 + (202310)Z β
21
= (202130) 2
Tabela 5.5: Sequˆencias de direcionamento com uma classe de s´ındrome. Fita codante 5’ para
3’ e fita n˜ao codante 3’ para 5’.
n
o
Organismo Organela Rotulamento S´ındromes σ
(2)
(Z) X
1
Y
1
(Casos)
SD01 B. napus M A (2,9,18,20) S
0
= (110110), S
1
= (330323) 1 + (110110)Z β
62
= (330330) 3
A (6,7,16,23) S

0
= (330330), S

1
= (110121) 1 + (110110)Z β
62
= (330330) 1
SD03 A. thaliana RE A (2,9,18,20) S
0
= (330230), S
1
= (011020) 1 + (330230)Z β
18
= (110210) 3
A (6,7,16,23) S

0
= (110210), S

1
= (033020) 1 + (330230)Z β
18
= (110210) 1
SD04 N. tabacum RE A (2,9,18,20) S
0
= (032213), S
1
= (310300) 1 + (012231)Z β
26
= (032213) 1
A (6,7,16,23) S

0
= (012231), S

1
= (130100) 1 + (012231)Z β
26
= (032213) 3
SD13 A. thaliana M B (1,10,17,19) S
0
= (211312), S
1
= (233022) 1 + (211312)Z β
38
= (233132) 3
B (5,8,15,24) S

0
= (233132), S

1
= (211022) 1 + (211312)Z β
38
= (233132) 1
SD17 H. sapiens M C (3,12,14,21) S
0
= (322301), S
1
= (131332) 1 + (122103)Z β
50
= (322301) 1
C (4,11,13,22) S

0
= (122103), S

1
= (313112) 1 + (122103)Z β
50
= (322301) 3
SD18 M. martensii RE A (2,9,18,20) S
0
= (001221), S
1
= (103301) 1 + (001221)Z β
38
= (003223) 3
A (6,7,16,23) S

0
= (003223), S

1
= (301103) 1 + (001221)Z β
38
= (003223) 1
Tabela 5.6: Sequˆencias de direcionamento com duas classes de s´ındromes. Fita codante 5’
para 3’ e fita n˜ao codante 3’ para 5’.
n
o
Organismo Organela Rotulamento S´ındromes σ
(2)
(Z) X
1
Y
1
SD02 I. batatas M B S
0
= (022202), S
1
= (022222) 1 + (213301)Z β
41
= (231103) 2
SD06 T. sativum RE C S
0
= (220200), S
1
= (020002) 1 + (132100)Z β
41
= (312300) 2
SD08 S. cerevisiae M B S
0
= (020220), S
1
= (220200) 1 + (230130)Z β
56
= (210310) 2
SD20 P. dominulus RE A S
0
= (002202), S
1
= (220002) 1 + (203321)Z β
50
= (201123) 2
SD20 P. dominulus RE B S
0
= (000220), S
1
= (200220) 1 + (132100)Z β
41
= (312300) 2
Tabela 5.7: Sequˆencias de direcionamento com uma classe de s´ındrome. Fita complementar
invertida 5’ para 3’.
5.3 Reprodu¸ c˜ao das Sequˆencias de DNA atrav´es do
LFSR
O objetivo desta se¸ c˜ao ´e mostrar que as sequˆencias de direcionamento reproduzidas pelos
c´odigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear podem ser reproduzidas atrav´es de um circuito
118
Cap´ıtulo 5. Regenera¸ c˜ao de Sequˆencias de DNA
n
o
Organismo Organela Rotulamento S´ındromes σ
(2)
(Z) X
1
Y
1
(Casos)
SD01 B. napus M A (2,9,18,20) S
0
= (3), S
1
= (3) 1 + (3)Z β
0
= (1) 3
A (6,7,16,23) S

0
= (1), S

1
= (1) 1 + (3)Z β
0
= (1) 1
SD03 A. thaliana RE A (2,9,18,20) S
0
= (303322), S
1
= (012302) 1 + (303322)Z β
44
= (101122) 3
A (6,7,16,23) S

0
= (101122), S

1
= (032102) 1 + (303322)Z β
44
= (101122) 1
SD04 N. tabacum RE A (2,9,18,20) S
0
= (123211), S
1
= (113212) 1 + (321233)Z β
36
= (123211) 1
A (6,7,16,23) S

0
= (321233), S

1
= (331232) 1 + (321233)Z β
36
= (123211) 3
SD13 A. thaliana M B (1,10,17,19) S
0
= (032130), S
1
= (103332) 1 + (012310)Z β
24
= (032130) 3
B (5,8,15,24) S

0
= (012310), S

1
= (301112) 1 + (012310)Z β
24
= (032130) 1
SD17 H. sapiens M C (3,12,14,21) S
0
= (302030), S
1
= (301120) 1 + (302030)Z β
12
= (102010) 1
C (4,11,13,22) S

0
= (102010), S

1
= (103320) 1 + (302030)Z β
12
= (102010) 3
SD18 M. martensii RE A (2,9,18,20) S
0
= (110121), S
1
= (000113) 1 + (110121)Z β
24
= (330323) 3
A (6,7,16,23) S

0
= (330323), S

1
= (000331) 1 + (110121)Z β
24
= (330323) 1
Tabela 5.8: Sequˆencias de direcionamento com duas classes de s´ındromes. Fita complementar
invertida 5’ para 3’.
de deslocamento com realimenta¸ c˜ao linear (LFSR). Este processo fornece um embasamento
para uma proposta futura que permite reproduzir sequˆencias de DNA atrav´es do LFSR e
utiliz´a-las para a realiza¸ c˜ao da an´alise espectral via transformada de Fourier Discreta sobre
an´eis, bem como da densidade espectral.
Na Subse¸ c˜ao 4.2.5, Cap´ıtulo 4, mostramos que existem algumas sequˆencias de direciona-
mento que possuem o mesmo polinˆomio gerador/primitivo (SD01, SD03 e SD04). Isso
significa que todas estas sequˆencias s˜ao identificadas como palavras-c´odigo pertencentes ao
mesmo c´odigo, embora diferindo atrav´es da sua sequˆencia de informa¸ c˜ao (u). Cada sequˆencia
de informa¸ c˜ao est´a associada a uma ´ unica palavra-c´odigo. Portanto, a distin¸ c˜ao entre estas
sequˆencias ´e realizada atrav´es da sequˆencia de informa¸ c˜ao.
Uma vez que a matriz geradora G(x) e a palavra-c´odigo (v) s˜ao conhecidas, usamos a
rela¸ c˜ao u.G(x) = v para determinar a sequˆencia de informa¸ c˜ao. Atrav´es de um sistema de
equa¸ c˜oes lineares que obedecem as opera¸ c˜oes de adi¸ c˜ao e multiplica¸ c˜ao segundo a estrutura
alg´ebrica de anel, ou seja, soma e produto m´odulo 4, determinamos o vetor u para cada
sequˆencia de direcionamento reproduzida pelo c´odigo. Nas Figuras 5.4 e 5.5 mostramos as
sequˆencias de informa¸ c˜ao (u) referentes a reprodu¸ c˜ao da sequˆencia de direcionamento da
Ipomoea batatas. Observe que os Casos (1 e 5), (8 e 19), (15 e 17), (10 e 24) possuem a
mesma sequˆencia de informa¸ c˜ao em termos de nucleot´ıdeos e amino´acidos.
Apresentamos os circuitos de deslocamentos com realimenta¸ c˜ao linear de comprimento
L = 7 que consiste de uma cascata de L atrasadores (registros de deslocamentos) e alguns
multiplicadores e somadores capazes de gerar uma combina¸ c˜ao linear dos conte´ udos destes
registros. Estes circuitos reproduzem as sequˆencias de direcionamento referentes `a fita co-
dante da prote´ına F1-ATPase delta subunit, Figura 5.6, e a sua respectiva fita n˜ao codante,
Figura 5.7.
119
Cap´ıtulo 5. Regenera¸ c˜ao de Sequˆencias de DNA
Caso 1 - (0,1,2,3) = (A,C,G,T)
u = { 030 001 100 013 333 012 031 323 122 221 032 311 100 131 113 003 131 333 301 }
ATA AAC CAA ACT TTT ACG ATC TGT CGG GGC ATG TCC CAA CTC CCT AAT CTC TTT TAC
I N Q T F T I C R G M S Q L P N L F Y
Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Caso 5 - (0,3,2,1) = (A,C,G,T)
u = { 010 003 300 031 111 032 013 121 322 223 012 133 300 313 331 001 313 111 103 }
ATA AAC CAA ACT TTT ACG ATC TGT CGG GGC ATG TCC CAA CTC CCT AAT CTC TTT TAC
I N Q T F T I C R G M S Q L P N L F Y
Glb: 012 113 022 303 131 131 320 113 310 231 323 233 033 030 012 222 122 321 323 333 113
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Caso 8 - (1,0,3,2) = (A,C,G,T)
u = { 102 122 131 331 023 212 331 111 020 100 132 233 013 320 102 113 130 020 020 }
ACT ATT AGA GGA CTG TAT GGA AAA CTC ACC AGT TGG CAG GTC ACT AAG AGC CTC CTC
T I R G L Y G K L T S W Q V T K S L L
Glb: 123 220 133 010 202 202 031 220 021 302 030 300 100 101 123 333 233 032 030 000 220
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Caso 10 - (1,2,3,0) = (A,C,G,T)
u = { 122 120 331 313 201 232 313 313 220 102 112 011 213 102 320 111 312 202 222 }
ACC ACT GGA GAG CTA CGC GAG GAG CCT ATC AAC TAA CAG ATC GCT AAA GAC CTC CCC
T T G E L R E E P I N sto Q I A K D L P
Glb: 103 002 133 212 020 020 231 002 201 320 232 322 122 121 103 333 033 230 232 222 002
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Figura 5.4: Vetor u .
Na Figura 5.8 mostramos a sequˆencia de informa¸ c˜ao que reproduz a sequˆencia de dire-
cionamento referente a fita codante (5’ para 3’) da prote´ına F1-ATPase delta subunit relativa
ao Caso 1. Os d´ıgitos que est˜ao em vermelho e azul foram usados na Figura 5.9 que mostra
em detalhes como a sequˆencia de direcionamento ´e reproduzida pelo circuito.
Primeiramente, todos os registros s˜ao zerados. A sequˆencia de informa¸ c˜ao (u) ´e definida
como u = u
0
, u
1
, ..., u
56
, onde o ´ ultimo d´ıgito u
56
= 1 ´e o primeiro d´ıgito a entrar no primeiro
registro do circuito que definimos como registro (x
6
). A entrada deste d´ıgito resulta em uma
sa´ıda igual a v
62
= 1 pois n˜ao existe multiplicador associado a este registro e nenhum valor
a ser somado nos demais registros (Passo 1).
O segundo passo ´e a entrada do d´ıgito u
55
= 0 no primeiro registro (x
6
) deslocando o d´ıgito
u
56
= 1 para o segundo registro (x
5
). Observe que existe um multiplicador igual a 3 associado
ao segundo registro resultando em uma sa´ıda igual a v
61
= u
55
+3(u
56
) = 0 +3(1) = 3 mod4,
isto ´e, v
61
= 3 (Passo 2).
O terceiro passo ´e a entrada do d´ıgito u
54
= 3 no primeiro registro (x
6
) deslocando
o d´ıgito u
55
= 0 para o segundo registro (x
5
) e o d´ıgito u
56
= 1 para o terceiro registro
(x
4
). N˜ao existe multiplicador ou somador associado ao terceiro registro, portanto a sa´ıda
120
Cap´ıtulo 5. Regenera¸ c˜ao de Sequˆencias de DNA
Caso 15 - (2,1,0,3) = (A,C,G,T)
u = { 230 201 322 231 331 032 213 101 122 021 212 333 122 331 313 221 311 333 301 }
ATG AGC TAA ATC TTC GTA ACT CGC CAA GAC ACA TTT CAA TTC TCT AAC TCC TTT TGC
M S sto I F V T R Q D T F Q F S N S F C
Glb: 230 331 200 121 313 313 102 331 132 013 101 011 211 212 230 000 300 103 101 111 331
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Caso 17 - (2,3,0,1) = (A,C,G,T)
u = { 210 203 122 213 113 012 231 303 322 023 232 111 322 113 131 223 133 111 103 }
ATG AGC TAA ATC TTC GTA ACT CGC CAA GAC ACA TTT CAA TTC TCT AAC TCC TTT TGC
M S sto I F V T R Q D T F Q F S N S F C
Glb: 210 113 200 323 131 131 302 113 312 031 303 033 233 232 210 000 100 301 303 333 113
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Caso 19 - (3,0,1,2) = (A,C,G,T)
u = { 302 322 313 113 021 232 113 333 020 300 312 211 031 120 302 331 310 020 020 }
ACT ATT AGA GGA CTG TAT GGA AAA CTC ACC AGT TGG CAG GTC ACT AAG AGC CTC CTC
T I R G L Y G K L T S W Q V T K S L L
Glb: 321 220 311 030 202 202 013 220 023 102 010 100 300 303 321 111 211 012 010 000 220
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Caso 24 - (3,2,1,0) = (A,C,G,T)
u = { 322 320 113 131 203 212 131 131 220 302 332 033 231 302 120 333 132 202 222 }
ACC ACT GGA GAG CTA CGC GAG GAG CCT ATC AAC TAA CAG ATC GCT AAA GAC CTC CCC
T T G E L R E E P I N sto Q I A K D L P
Glb: 301 002 311 232 020 020 213 002 203 120 212 122 322 323 301 111 011 210 212 222 002
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Figura 5.5: Vetor u .
v
60
= u
54
+ 3(u
55
) = 3 + 3(0) = 3mod4, v
60
= 3 (Passo 3).
O mesmo procedimento ´e realizado at´e que todos os d´ıgitos do vetor u passem por todos
os registros. Observe que ap´os a entrada do ´ ultimo d´ıgito do vetor u, u
0
= 0, novamente os
registros come¸ cam a ser zerados (Passos 59 ao 62).
Um dos grandes desafios da ciˆencia ´e compreender os mecanismos moleculares que ocor-
rem dentro das c´elulas. O transporte de prote´ınas organelares ´e fundamental para manter
as c´elulas saud´aveis, portanto estudos sobre os mecanismos que governam a distribui¸ c˜ao e
transporte de prote´ınas nas c´elulas podem contribuir para se obter uma compreens˜ao mais
apurada desta complexa maquinaria, e como seu funcionamento inadequado poderia defla-
grar uma doen¸ ca. Ressaltamos que, at´e onde ´e de nosso conhecimento, pela primeira vez ´e
proposto um modelo de decodifica¸ c˜ao biol´ogico utilizando o algoritmo de Berlekamp-Massey
modificado em importa¸ c˜ao de prote´ınas.
121
Cap´ıtulo 5. Regenera¸ c˜ao de Sequˆencias de DNA
u = {u
0
, u
1
, ..., u
56
}
v = {v
0
, v
1
, ..., v
62
}
3
+
u
2
+ + + + v
x
6
x
5
x
4
x
3
x
2
x 1
g(x) = x
6
+3x
5
+x
3
+x
2
+2x+1
Figura 5.6: LFSR fita codante 5’ para 3’.
2
+
u’
3
+ + + +
u’ = {u
0
, u
1
, ..., u
56
}
v’ = {v
0
, v
1
, ..., v
62
}
x
6
x
5
x
4
x
3
x
2
x 1
v’
2
+
3
+ + + +
g(x) = x
6
+2x
5
+x
4
+x
3
+3x+1
Figura 5.7: LFSR fita n˜ao codante 5’ para 3’.
Caso 1 - (0,1,2,3)=(A,C,G,T)
u = { 030 001 100 013 333 012 031 323 122 221 032 311 100 131 113 003 131 333 301 }
ATA AAC CAA ACT TTT ACG ATC TGT CGG GGC ATG TCC CAA CTC CCT AAT CTC TTT TAC
I N Q T F T I C R G M S Q L P N L F Y
Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Figura 5.8: Fita codante 5’ para 3’.
122
Cap´ıtulo 5. Regenera¸ c˜ao de Sequˆencias de DNA
1º) u = {030001100 ... 131333301}
v62 = 1
x
6
x
5
x
4
x
3
x
2
x 1
2º) u = {030001100 ... 131333301}
1+3(0)+0+0+2(0)+0=0 mod4 = 1
3
+
u56
2
+ + + +
{
1
v61 = 3
3
+
u55
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
0 1
0+3(1)+0+0+2(0)+0=0 mod4 = 3
{
-
-
-
59º) u = {030001100 ... 131333301}
V3 = 3
3
+
u0
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
0 0 0 3 0 0 0
0+3(0)+0+3+2(0)+0=0 mod4 = 3
{
0 0 0 0 0 0
0 0 0 0 0
3º) u = {030001100 ... 131333301}
v60 = 3
3
+
u55
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
3 0
3+3(0)+0+0+2(0)+0=0 mod4 = 3
{
0 0 0 0
4º) u = {030001100 ... 131333301}
V59 = 1
3
+
u55
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
3 3
3+3(3)+1+0+2(0)+0=0 mod4 = 1
{
0 1 0 0 0
u55
6º) u = {030001100 ... 131333301}
V57 = 1
3
+
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
3 3
3+3(3)+3+0+2(1)+0=0 mod4 = 1
{
3 3 0 1 0
5º) u = {030001100 ... 131333301}
V58 = 1
3
+
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
3 3
3+3(3)+0+1+2(0)+0=0 mod4 = 1
{
3 0 1 0 0 u55
61º) u = {030001100 ... 131333301}
V1 = 3
3
+
u0
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
3 0 0 0 0 0 0
0+3(0)+0+0+2(0)+3=0 mod4 = 3
{
-
-
-
60º) u = {030001100 ... 131333301}
V2 = 2
3
+
u0
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
0 0 3 0
0 0 0
0+3(0)+0+0+2(3)+0=0 mod4 = 2
{
62º) u = {030001100 ... 131333301}
V0 = 0
3
+
u0
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
0 0 0 0 0 0 0
0+3(0)+0+0+2(0)+0=0 mod4 = 0
{
1
Figura 5.9: Reprodu¸ c˜ao atrav´es do LFSR da fita codante 5’ para 3’.
123
Cap´ıtulo 6
An´alises de Muta¸ c˜oes e de
Polimorfismos em Sequˆencias de DNA
As muta¸ c˜oes s˜ao mudan¸ cas que ocorreram na sequˆencia de nucleot´ıdeos do material
gen´etico de um organismo. As muta¸ c˜oes s˜ao consideradas o mecanismo que permite a a¸ c˜ao
da sele¸ c˜ao natural, j´a que insere a varia¸ c˜ao gen´etica sobre a qual ela ir´a agir, fornecendo
as novas caracter´ısticas vantajosas que sobrevivem e se multiplicam nas gera¸ c˜oes subse-
quentes ou as caracter´ısticas heredit´arias delet´erias que desaparecem em organismos mais
fracos. Existem diversos tipos de muta¸ c˜oes e que podem ser resumidas em muta¸ c˜oes ben´eficas
(muta¸ c˜oes que levam a novas vers˜oes de prote´ınas que ajudam o organismo e futuras gera¸ c˜oes
a adaptar-se melhor a mudan¸ cas no seu ambiente) ou muta¸ c˜oes mal´eficas (muta¸ c˜oes que al-
teram uma prote´ına que tem um papel importante no corpo podendo resultar em uma doen¸ ca
ou muta¸ c˜oes criando prote´ınas parciais ou completamente n˜ao-funcionais).
Um problema de grande interesse te´orico e aplicado ´e determinar a regi˜ao ou as regi˜oes
com conte´ udo de informa¸ c˜ao nas sequˆencias de nucleot´ıdeos.
´
E de conhecimento que deter-
minadas regi˜oes est˜ao relacionadas ao conte´ udo respons´avel pela fun¸ c˜ao da prote´ına e que
muta¸ c˜oes nessas regi˜oes acarretariam em muta¸ c˜oes mal´eficas ou ben´eficas. Ao contr´ario, de
determinadas regi˜oes onde as muta¸ c˜oes n˜ao alteram a fun¸ c˜ao da prote´ına. Atualmente, para
se alcan¸ car esse objetivo s˜ao realizados testes laboratoriais extensivos com um alto custo e
um tempo muito elevado.
Em sistemas de comunica¸ c˜ao codificado a informa¸ c˜ao a ser transmitida ´e composta de
uma sequˆencia que cont´em uma “regi˜ao” respons´avel pela informa¸ c˜ao propriamente dita e
outra “regi˜ao” que ´e conhecida como verifica¸ c˜ao de paridade. Para simplificar a complexidade
do processo essas regi˜oes s˜ao separadas de duas formas: a “regi˜ao” de verifica¸ c˜ao de paridade
est´a posicionada ap´os ou antes da “regi˜ao” respons´avel pela informa¸ c˜ao. Se pensarmos em
termos de conforma¸ c˜oes topol´ogicas, essas sequˆencias teriam apenas um tipo de conforma¸ c˜ao
125
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
espacial.
´
E de conhecimento biol´ogico a grande variedade de conforma¸ c˜oes espaciais das sequˆencias
de DNA. Portanto, a nossa hip´otese ´e que em sequˆencias de DNA os d´ıgitos de verifica¸ c˜ao de
paridade est˜ao distribu´ıdos ao longo da palavra-c´odigo, garantindo assim, as diversas formas
espacias que as sequˆencias de DNA apresentam.
O nosso interesse consiste em reproduzir a referida sequˆencia de direcionamento (palavra-
c´odigo) e utiliz´a-la para a realiza¸ c˜ao de an´alises mutacionais via c´odigos corretores de er-
ros. Ressaltamos que o modelo n˜ao leva em considera¸ c˜ao os aspectos bioqu´ımicos, f´ısicos e
biol´ogicos que influenciam os processos analisados. Neste momento o nosso objetivo ´e com-
preender os resultados do modelo para futuramente refin´a-lo, possibitando o desenvolvimento
de procedimentos capazes de diferenciar esses dois tipos regi˜oes e consequentemente simular
muta¸ c˜oes ocorrendo nessas regi˜oes com o objetivo de detectar que tipo de muta¸ c˜ao seria
mal´efica ou ben´efica.
Neste cap´ıtulo apresentamos algumas aplica¸ c˜oes do modelo proposto no Cap´ıtulo 4. As
aplica¸ c˜oes da Se¸ c˜ao 6.1, mostram que o modelo reproduz os resultados comprovados em
laborat´orio nas an´alises de substitui¸ c˜oes de res´ıduos de argininas em oligopept´ıdeos sint´eticos.
Na Se¸ c˜ao 6.2, realizamos um estudo filogen´etico da prote´ına Malate desidrogenase 1 da
Arabidopsis thaliana reproduzida pelo c´odigo. Na Se¸ c˜ao 6.3 simulamos algumas muta¸ c˜oes
em sequˆencias de direcionamento mitocondriais.
6.1 An´alises da Importˆancia dos Res´ıduos de Argininas
A maioria das prote´ınas mitocondriais s˜ao codificadas nos genes nucleares e sintetizadas
como precursores que possuem uma extens˜ao peptidase amino-terminal, a qual cont´em in-
forma¸ c˜ao suficiente para a sinaliza¸ c˜ao e localiza¸ c˜ao da mitocˆondria. Ap´os a importa¸ c˜ao
dos precursores na mitocˆondria, a extens˜ao peptidase ´e proteoliticamente removida do pre-
cursor na matriz mitocondrial. A clivagem da extens˜ao peptidase na matriz ´e catalisada
por dois tipos de processos proteol´ıticos (enzimas que quebram liga¸ c˜oes pept´ıdicas entre os
amino´acidos das prote´ınas). O processo proteol´ıtico mais comum catalisa a maioria das
prote´ınas precursoras e ´e conhecido como MPP (mitochondrial processing peptidase). O
outro processo, mitochondrial intermediate peptidase, catalisa uma segunda clivagem em um
segundo passo do processamento proteol´ıtico em algumas prote´ınas precursoras [63]. A ativi-
dade da MPP ´e estritamente espec´ıfica para prote´ınas precursoras mitocondriais. Outras
prote´ınas, incluindo prote´ınas maduras mitocondriais e prote´ınas precursoras secretoras, n˜ao
s˜ao reconhecidas pela MPP. Isto indica que a extens˜ao peptidase das prote´ınas precursoras
mitocondriais possuem alguma informa¸ c˜ao para o reconhecimento da MPP.
126
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
6.1.1 Resultados das an´alises via laborat´orio
Em [63] foi realizado um estudo laboratorial para examinar se os res´ıduos de argininas
nas posi¸ c˜oes 14 e 15 s˜ao necess´arios para o reconhecimento e a clivagem correta da extens˜ao
peptidase. Oligopept´ıdeos foram usados como substrato com o objetivo de analisar a con-
tribui¸ c˜ao desses res´ıduos de argininas nas intera¸ c˜oes entre o precursor e a peptidase, bem
como, alguns parˆametros cin´eticos. O precursor escolhido para as an´alises foi o precursor
da pre-malate dehydrogenase, porque possui uma curta extens˜ao pept´ıdica. Baseados nas
sequˆencias de amino´acidos da extens˜ao pept´ıdica do precursor da pre-malate dehydrogenase
(o precursor PMD), foram analisados v´arios oligopept´ıdeos sint´eticos de diferentes compri-
mentos e diferentes sequˆencias de amino´acidos para determinar quais destas sequˆencias pos-
suem parˆametros cin´eticos das rea¸ c˜oes de clivagem semelhantes aos parˆametros cin´eticos
do precursor PMD. Destes oligopept´ıdeos sint´eticos, o pept´ıdeo sint´etico MDH1-21 foi o
que obteve parˆametros cin´eticos semelhantes ao pept´ıdeo sint´etico MDH1-30 que cont´em
a sequˆencia inteira da extens˜ao peptidase e os cinco res´ıduos adicionais amino-terminal da
por¸ c˜ao madura do precursor contendo o res´ıduo da ciste´ına no carboxi-terminal da prote´ına,
Tabela 6.1. Por este motivo o pept´ıdeo sint´etico MDH1-21 foi usado como modelo para
an´alises da importˆancia dos res´ıduos de argininas para a clivagem correta do pept´ıdeo.
Pept´ıdeo Sequˆencia
PMD MLSALARPVGAALRRSFSTSAQNNAKVAVLGAS ...
MDH1-30 MLSALARPVGAALRRS-FSTSAQNNAKVAVC
MDH1-21 MLSALARPVGAALRRS-FSTSA
Tabela 6.1: Extens˜oes peptidases analisadas.
Estudos anteriores sugerem que os res´ıduos de arginina na extens˜ao peptidase de v´arias
prote´ınas precursoras s˜ao importantes para o processo de clivagem realizado pela MPP. Dois
conjuntos de amino´acidos b´asicos se mostraram importantes para o reconhecimento pela
MPP, um deles ´e o par de argininas R
14
e R
15
que se encontram na posi¸ c˜ao proximal e a
outra ´e a R
7
que est´a na posi¸ c˜ao distal. Para determinar o papel dos res´ıduos de argininas
no reconhecimento pela MPP, trˆes res´ıduos de argininas nas posi¸ c˜oes 7, 14 e 15 em MDH1-21
foram sistematicamente substitu´ıdos por res´ıduos de alaninas e lisinas, Tabela 6.2. Observe
que nos pept´ıdeos MDHKR, MDHRK e MDHKK ocorreram substitui¸ c˜oes de um res´ıduo de
arginina na posi¸ c˜ao 14 por alanina.
Os resultados indicam que as substitui¸ c˜oes em MDHKK de dois res´ıduos de argininas
por lisina nas posi¸ c˜oes 7 e 15 e a substitui¸ c˜ao em MDHRK do res´ıduo de arginina por lisina
na posi¸ c˜ao 15 promoveram mudan¸ cas mais dr´asticas nos parˆametros cin´eticos. Por outro
127
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
Pept´ıdeo Sequˆencia V
max
/K
m
pmol/min
MDH1-21 MLSALARPVGAALRRS-FSTSA 12
MDHKR MLSALAKPVGAALARS-FSTSA 7.7
MDHRK MLSALARPVGAALAKS-FSTSA 0.46
MDHKK MLSALAKPVGAALAKS-FSTSA 0.23
Tabela 6.2: Efeitos das substitui¸ c˜oes dos res´ıduos de argininas por alaninas e lisinas na
clivagem pela MPP.
lado, a substitui¸ c˜ao em MDHKR do res´ıduo de arginina da posi¸ c˜ao 7 por lisina obteve menos
significˆancia na rea¸ c˜ao de clivagem do que a substitui¸ c˜ ao do res´ıduo de arginina por lisina
na posi¸ c˜ao 15. Resumindo, as substitui¸ c˜oes efetuadas nos pept´ıdeos MDHRK e MDHKK
foram mais dr´asticas em termos dos parˆametros cin´eticos do que as substitui¸ c˜oes efetuadas
no pept´ıdeo MDHKR.
6.1.2 Resultados das an´alises via c´odigos corretores de erro
Nesta subse¸ c˜ao, apresentamos uma aplica¸ c˜ao de c´odigos corretores de erros bastante
promissora para an´alises dos parˆametros cin´eticos. Na Subse¸ c˜ao 6.1.1, descrevemos o pro-
cedimento laboratorial realizado para an´alises dos parˆametros cin´eticos de oligopept´ıdeos
sint´eticos. Com o objetivo de realizar estas an´alises atrav´es dos c´odigos corretores de erros,
primeiramente reproduzimos a sequˆencia de pept´ıdeo (GI : 56643, organismo: Rattus norvegi-
cus) que ´e idˆentica em amino´acidos ao oligopept´ıdeo sint´etico utilizado via laborat´orio. A
reprodu¸ c˜ao desta sequˆencia ocorreu atrav´es do c´odigo G-linear sobre a estrutura de anel com
parˆametros (63, 57, 3), polinˆomio primitivo p(x) = x
6
+x
5
+x
4
+x + 1 e polinˆomio gerador
g(x) = x
6
+x
5
+x
4
+ 2x
2
+ 3x + 1. A reprodu¸ c˜ao foi poss´ıvel atrav´es dos trˆes rotulamentos
A, B e C (c´odigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear, respectivamente), Figura 6.1.
Note que a diferen¸ ca de nucleot´ıdeos (CGC → CGA) ocorrida no res´ıduo de arginina
da posi¸ c˜ao 15 na sequˆencia reproduzida pelo rotulamento C, n˜ao implicou na troca de
amino´acidos. As sequˆencias reproduzidas pelo c´odigo nos rotulamentos A e B sofreram
altera¸ c˜oes de amino´acidos. Por este motivo, escolhemos a sequˆencia reproduzida pelo c´odigo
no rotulamento C, que denotamos por MDH1-21

, para realizarmos as an´alises. Em seguida,
efetuamos todas as substitui¸ c˜oes realizadas em [63] na sequˆencia MDH1-21

que ´e idˆentica
a sequˆencia MDH1-21 em termos de amino´acidos. Ressaltamos que o c´odigo foi constru´ıdo
utilizando o alfabeto 4-´ario, o qual representa os quatro nucleot´ıdeos, portanto para cada
substitui¸ c˜ao de amino´acido consideramos todas as trincas relativas a este amino´acido. Como
mostra a Tabela 6.3, efetuamos todas as substitui¸ c˜oes de amino´acidos realizadas in vitro.
128
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
Caso1(A,C,G,T)=(0,1,2,3)-RotulamentoB
Caso2(A,C,G,T)=(0,1,3,2)-RotulamentoA
Caso3(A,C,G,T)=(0,2,1,3)-RotulamentoC
Oaa:MLSLARPVGAALRRSFSTSA
Ont:ATGCTGTCCGTCTCGCCCGTCCTGTCGGTGCCGCTCTCCGCCGCAGCTTCAGCACTTCAGCC
Olb:03213231123131211123113231223211213131121121021331021013310211
Glb:03213231123131211123113231223211213131121121021331021013310211
Gnt:ATGCTGTCCGTCTCGCCCGTCCTGTCGGTGCCGCTCTCCGCCGCAGCTTCAGCACTTCAGCC
Gaa:MLSLARPVGAALRRSFSTSA
Oaa:MLSALARPVGAARRSFSTSA
Ont:ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCCCGCCGCAGCTTCAGCACTTCAGCC
Olb:02312321131212131113211232133231131211131131031221031012210311
Glb:02312321131212131113211232133231131211131131031221031012210311
Gnt:ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCCCGCCGCAGCTTCAGCACTTCAGCC
Gaa:MLSALARPVGAARRSFSTSA
Oaa:MLSALARPVGAALRSFSTSA
Ont:ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCCGCCGAGCTTCAGCACTTCAGCC
Olb:03123132212323212221322313211312212323221221012332012023320122
Glb:03123132212323212221322313211312212323221221012332012023320122
Gnt:ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCCGCCGAGCTTCAGCACTTCAGCC
Gaa:MLSALARPVGAALRSFSTSA
A
C
1
3
T
V
L
T
2
0
A
H
R
C
2
0
A
R
Figura 6.1: Pept´ıdeo reproduzido nos trˆes rotulamentos.
Observe que nos pept´ıdeos MDHKR, MDHRK e MDHKK ocorreram substitui¸ c˜oes de um
res´ıduo de arginina na posi¸ c˜ao 14 por alanina. Consideramos nesta posi¸ c˜ao, todas as possi-
bilidades de trincas do res´ıduo de alanina.
A sequˆencia da Tabela 6.3 que se encontra na cor azul, foi a ´ unica sequˆencia da tabela
reproduzida pelo c´odigo BCH. A Figura 6.2 mostra a sequˆencia reproduzida pelo c´odigo
Z
2
Z
2
-linear.
Caso1-(A,C,G,T)=(0,1,2,3)-RotulamentoB
Oaa:MLSALAKPVGALARSFSTSA
Ont:ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCCTCGCGCGAAGCTTCAGCACTTCAGCC
Olb:03213231121313121100011323122321121131212120021331021013310211
Glb:03213231121313121100011323122321121131212120021331021013310211
Gnt:ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCCTCGCGCGAAGCTTCAGCACTTCAGCC
Gaa:MLSALAKPVGALARSFSTSA
A
T
3
2
G
A
Figura 6.2: Sequˆencia reproduzida pelo c´odigo BCH.
Os resultados indicam que as substitui¸ c˜oes em MDHKK de dois res´ıduos de argininas por
lisina nas posi¸ c˜oes 7 e 15 e a substitui¸ c˜ao em MDHRK do res´ıduo de arginina por lisina na
posi¸ c˜ao 15 n˜ao foram reproduzidas pelo c´odigo. Por outro lado, a substitui¸ c˜ao em MDHKR
do res´ıduo de arginina da posi¸ c˜ao 7 por lisina foi reproduzida pelo c´odigo utilizando as
trincas: (AAA) para lisina na posi¸ c˜ao 7, (GCG) para alanina na posi¸ c˜ao 14 e (CGA) para
arginina na posi¸ c˜ao 15 (Figura 6.2). Estes resultados indicam que as substitui¸ c˜oes efetuadas
nos pept´ıdeos MDHRK e MDHKK foram mais dr´asticas do que as substitui¸ c˜oes efetuadas no
pept´ıdeo MDHKR, pois as substitui¸ c˜oes em MDHRK e MDHKK n˜ ao foram reproduzidas pelo
c´odigo enquanto que uma das substitui¸ c˜oes em MDHKR foi reproduzida pelo rotulamento
129
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
Sequência MDH1-21* em nucleotídeos
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCCGCCGAAGCTTCAGCACTTCAGCC
Sequência MDHKR em nucleotídeos
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCACGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCACGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCCCGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCCCGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCGCGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCGCGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCTCGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCTCGAAGCTTCAGCACTTCAGCC
Sequência MDHRK em nucleotídeos
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCAAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCAAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCCAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCCAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCGAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCGAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCTAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCTAAGAGCTTCAGCACTTCAGCC
Sequência MDHKK em nucleotídeos
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCAAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCAAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCAAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCAAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCCAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCCAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCCAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCCAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCGAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCGAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCGAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCGAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCTAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCTAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCTAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCTAAGAGCTTCAGCACTTCAGCC
Tabela 6.3: Efeitos das substitui¸ c˜oes dos res´ıduos de argininas por alaninas e lisinas na
clivagem pela MPP atrav´es de c´odigos corretores de erros.
B.
Os resultados encontrados s˜ao interessantes considerando o fato que os resultados dos
parˆametros cin´eticos podem ser reproduzidos atrav´es de c´odigos corretores de erros.
6.2 Estudo de Filogenia
O estudo filogen´etico apresentado nesta se¸ c˜ao, surgiu atrav´es dos resultados obtidos no
Cap´ıtulo 4 onde observa-se que sempre existe uma diferen¸ ca de nucleot´ıdeo entre a sequˆencia
reproduzida pelo c´odigo e a sequˆencia do NCBI. No contexto biol´ogico, esse descasamento
(“mismatch”) ´e conhecido como polimorfismo de ´ unico nucleot´ıdeo (SNP’s - single nucleotide
130
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
polymorphism). Diante deste fato, conjecturamos que as sequˆencias do NCBI s˜ao SNP’s das
sequˆencias reproduzidas pelos c´odigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear, ou vice-versa.
Para realizar o estudo filogen´etico apresentamos uma hip´otese filogen´etica para as prote´ınas
Malato desidrogenase 1 de Arabidopsis thaliana reproduzida pelo c´odigo Klein-linear com
parˆametros (1023, 1013, 3) atrav´es do polinˆomio primitivo p(x) = x
10
+ x
9
+ x
8
+ x
7
+ x
6
+
x
4
+ x
3
+ x + 1, do polinˆomio gerador g(x) = x
10
+ x
9
+ x
8
+ 3x
7
+ x
6
+ x
4
+ x
3
+ 3x + 1
e rotulamento C. Em [64], at´e onde ´e de nosso conhecimento, ´e apresentada pela primeira
vez a reprodu¸ c˜ao de uma prote´ına inteira atrav´es do c´odigo Klein-linear resultando em uma
extens˜ao dos resultados apresentados neste trabalho.
O objetivo deste estudo filogen´etico ´e propor uma hip´otese evolutiva para as prote´ınas
Malato desidrogenase 1 identificando o tempo de divergˆencia entre a prote´ına original e a
prote´ına gerada pelo c´odigo. Este estudo foi realizado em parceria com o Laborat´orio de
Biologia Molecular de Plantas da ESALQ/USP, sob a responsabilidade do Dr. Marcelo M.
Brand˜ao.
A hip´otese filogen´etica foi proposta baseada em duas abordagens distintas. A primeira,
utilizou o m´etodo Neighbor-Joining para c´alculo da distˆ ancia evolutiva baseando-se no modelo
de Jukes-Cantor. A consistˆencia dos clados, grupos de organismos originados de um ´ unico
ancestral comum, foi calculada utilizando-se o teste n˜ao param´etrico de bootstrap [65] com
1000 replica¸ c˜oes. Todas estas an´alises foram realizadas utilizando-se o programa MEGA 4.0
[66]. As an´alises das distˆancias indicam que todas as sequˆencias de Arabidopsis thaliana s˜ao
monofil´eticas, grupos de t´axons que incluem todos os descendentes do ancestral comum mais
recente de todos membros deste grupo, com forte suporte bootstrap.
Uma an´alise mais profunda do ramo onde as sequˆencias de Arabidopsis thaliana foram
agrupadas, indica que a sequˆencia gerada pelo c´odigo Klein-linear representado por “Code
generated (890C-T)”na Figura 6.3 se apresenta como um grupo externo a este ramo.
A segunda abordagem foi a an´alise Bayesiana. Esta foi empregada para se investigar
os efeitos nos resultados da an´alise dos dados sob presun¸ c˜oes mais restritas, uma vez que
emprega modelos de substitui¸ c˜ao particulares para as an´ alises filogen´eticas. Outra vantagem
da an´alise filogen´etica com o m´etodo Bayesiano ´e que este permite que os parˆametros de
frequˆencia e de substitui¸ c˜ao de nucleot´ıdeos sejam espec´ıficos para cada conjunto de dados.
O primeiro passo para a realiza¸ c˜ao da an´alise filogen´etica foi a determina¸ c˜ao de um modelo
de substitui¸ c˜ao que melhor se enquadrava aos nossos dados. Para isso utilizamos o programa
“MODELTEST 3.06”[67] e [68] com os parˆametros padr˜ao do software. O modelo indicado
foi o GTR + G + I (General Time-Reversible model [69] e [70], com a distribui¸ c˜ao gamma
(G) e com a propor¸ c˜ao de s´ıtios invari´aveis (I).
A proposi¸ c˜ao filogen´etica por m´etodos Bayesianos foi realizada utilizando-se o programa
131
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
Figura 6.3: Phenogram inferred using the Neighbor-Joining method with the evolutionary
distances computed using the Jukes-Cantor model. The percentage of replicate trees in which
the associated taxa clustered together in the bootstrap test (1000 replicates).
“Mrbayes CVS”[71] configurado para computa¸ c˜ao paralela. Seis cadeias simultˆaneas foram
conduzidas para 5, 0x106 gera¸ c˜oes, com amostragem de ´arvores a cada 500 ciclos. As
primeiras 2500 ´arvores foram descartadas como “burn in”. Para todas as an´alises, a prote´ına
hipot´etica PH-1 Gibberella zeae (parcial da sequˆencia do RNA mensageiro) foi usada como
um grupo externo. Novamente, as sequˆencias de Arabidopsis thaliana formam um grupo
monofil´etico enraizado com forte suporte pela sequˆencia gerada atrav´es do c´odigo Klein-
linear representada por “Code generated (890C-T)”na Figura 6.4.
As an´alises combinadas do fenograma e da ´arvore filogen´etica apontam que, a substitui¸ c˜ao
de um simples nucleot´ıdeo presente na sequˆencia gerada pelo algoritmo ´e relevante o suficiente
para divergi-lo do ramo dos par´alogos de Arabidopsis thaliana. Para propor este tempo de
divergˆencia utilizamos o tempo de divergˆencia entre fungos e plantas [72], musgos e plantas
vasculares [72] e [73] e entre as eudicotes ros´ıdeas e aster´ıdeas [74] foi utilizado para estimar
os tempos de divergˆencia para o grupo de Arabidopsis thaliana.
Uma filogenia, ao n´ıvel de esp´ecies, foi gerada utilizando-se o modelo Bayesiano de rel´ogio
n˜ao restrito e n˜ao relacionado presente no programa Beast version 1.4.8 [75]. A matriz de da-
132
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
Figura 6.4: Phylogenetic tree inferred by Bayesian analysis from the data set. Values close
to the branches indicate Bayesian posterior probability..
dos moleculares (alinhamento das sequˆencias) usada segue o modelo de substitui¸ c˜ao GTR+F,
implementado no BEAST. Duas an´alises de MCMC (Markov chain Monte Carlo) foram rea-
lizadas com 90.000.000 de gera¸ c˜oes, usando o modelo de especia¸ c˜ao de Yule, com amostragem
das ´arvores a cada 10.000 gera¸ c˜oes e 10% de burn-in inicial. Esta an´alise demonstrou que
o ramo com a sequˆencia gerada pelo c´odigo ´e, aproximadamente, um milh˜ao de anos mais
antiga do que o ramo dos outros par´alogos de Malato desidrogenase de Arabidopsis thaliana.
O estudo infere que a prote´ına gerada pelo c´odigo ´e a ancestral da prote´ına encontrada
no banco de dados NCBI. Neste caso o resultado confirma a nossa hip´otese inicial de que as
sequˆencias do NCBI s˜ao SNP’s das sequˆencias reproduzidas pelos c´odigos Z
4
-linear, Z
2
Z
2
-
linear e Klein-linear.
6.3 Simula¸ c˜oes de Muta¸ c˜oes em Sequˆencias de Dire-
cionamento Mitocondriais
A maioria das prote´ınas precursoras mitocondriais carregam a sequˆencia de direciona-
mento na extens˜ao N-terminal. Estas sequˆencias de direcionamento n˜ao s˜ao extremamente
conservadas entre as prote´ınas, mas possuem algumas caracter´ısticas comuns, por exemplo o
133
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
alto conte´ udo dos res´ıduos de serina, arginina, alanina e leucina [76]. Estes res´ıduos repre-
sentam um papel importante na importa¸ c˜ao de prote´ınas mitocondriais atrav´es da intera¸ c˜ao
com as chaperonas citos´olicas e mitocondriais. A dele¸ c˜ao parcial da sequˆencia ou an´alises
de muta¸ c˜oes mostram que a sua parte N-terminal cont´em informa¸ c˜ao necess´aria para o reco-
nhecimento e a importa¸ c˜ao das prote´ınas precursoras, enquanto que a sua parte C-terminal
cont´em sinais para a peptidase de processamento mitocondrial [76].
Embora a importˆancia destes res´ıduos (em especial a arginina que ´e mais estudada) seja
bem conhecida no contexto biol´ogico [77], o nosso objetivo ´e fornecer uma caracteriza¸ c˜ao
matem´atica no contexto de c´odigos corretores de erros para a importˆancia dos res´ıduos de
argininas. Nesta se¸ c˜ao apresentamos as simula¸ c˜oes de muta¸ c˜oes nos res´ıduos de argininas
nas sequˆencias de direcionamento mitocondriais SD01, SD02, SD08, SD13 e SD17 que foram
reproduzidas pelos c´odigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear com parˆametros (63, 57, 3).
As muta¸ c˜oes definem-se pela codifica¸ c˜ao de um amino´acido diferente do amino´acido ori-
ginal/normal, em alguns casos a muta¸ c˜ao pode ocorrer silenciosamente (quando a troca de
nucleot´ıdeos n˜ao acarreta na troca do amino´acido). Os efeitos fenot´ıpicos s˜ao em princ´ıpio
tanto mais dr´asticos quanto maior for a diferen¸ ca na natureza qu´ımica das cadeias laterais
dos res´ıduos dos amino´acidos em causa (por exemplo a substitui¸ c˜ao de um res´ıduo polar
por um apolar, ou a invers˜ao da carga el´etrica do res´ıduo), mas tamb´em dependem alta-
mente do papel que esse res´ıduo desempenha na estrutura e fun¸ c˜ao da sequˆencia de DNA
em quest˜ao. Mesmo as chamadas substitui¸ c˜oes conservadoras (entre res´ıduos quimicamente
semelhantes, por exemplo leucina, L, e isoleucina, I), se incidirem numa posi¸ c˜ao “sens´ıvel”da
sequˆencia de DNA podem resultar na inativa¸ c˜ao desta sequˆencia, ou numa atividade anor-
mal da mesma. Diante desta complexidade nas an´alises dos resultados das simula¸ c˜oes de
muta¸ c˜oes n˜ao levaremos em considera¸ c˜ao se as trocas de amino´acidos ocorreram dentro da
mesma classe hidrof´obica ou hidrof´ılica.
Os resultados das simula¸ c˜oes de muta¸ c˜oes nas sequˆencias de direcionamento mitocondriais
mostrados nas Tabelas 6.4 `a 6.8 foram analisados considerando as altera¸ c˜oes de nucleot´ıdeos
pelo fato do alfabeto do c´odigo ser os nucleot´ıdeos e os seguintes aspectos matem´aticos:
• O c´odigo com o objetivo de manter a mesma estrutura matem´atica e o mesmo conte´ udo
de informa¸ c˜ao da sequˆencia de direcionamento mostra qual substitui¸ c˜ao de amino´acido
´e poss´ıvel ou n˜ao. Os resultados apresentaram trˆes situa¸ c˜oes. A primeira ´e quando
a substitui¸ c˜ao n˜ao ´e permitida de maneira alguma, ou seja, o c´odigo mostra que n˜ao
existe nenhuma palavra-c´odigo quando ´e realizada a susbtitui¸ c˜ao do amino´acido em
quest˜ao. Esta situa¸ c˜ao ´e a mais dr´astica porque o c´odigo indica que esta substitui¸ c˜ao
causa danos no conte´ udo de informa¸ c˜ao da sequˆencia. A segunda situa¸ c˜ao ´e quando o
c´odigo indica que a substitui¸ c˜ao do amino´acido ´e poss´ıvel atrav´es de um rearranjo nos
134
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
amino´acidos da sequˆencia. O c´odigo al´em de mostrar a posi¸ c˜ao do amino´acido a ser
trocado, indica pelo qual amino´acido (mais especificamente pela qual trinca) que deve
ser trocado para que o conte´ udo de informa¸ c˜ao da sequˆencia seja mantido. A terceira
situa¸ c˜ao ´e quando o c´odigo aceita a substitui¸ c˜ao sem alterar nenhum amino´acido na
sequˆencia, ou seja, o c´odigo indica que esta substitui¸ c˜ ao n˜ao causa danos no conte´ udo
de informa¸ c˜ao da sequˆencia.
• Levando em considera¸ c˜ao a propriedade geom´etrica intr´ınsica relacionada com os ro-
tulamentos, teoricamente podemos sugerir que as substitui¸ c˜oes de amino´acidos que
exigem mudan¸ cas de rotulamento s˜ao mais dr´asticas. Em um n´ıvel maior a mudan¸ ca
do rotulamento A para um rotulamento B ou C (ou vice-versa) ´e mais dr´astica do que
uma mudan¸ ca do rotulamento B para C ou vice-versa. Do ponto de vista matem´atico,
a mudan¸ ca de uma sequˆencia n˜ao-linear (rotulamento A) para uma sequˆencia linear
(rotulamento B e C) ou vice-versa ´e complexa. Neste momento n˜ao podemos concluir
se esta mudan¸ ca na conforma¸ c˜ao geom´etrica acarreta em algum benef´ıcio ou dano na
importa¸ c˜ao desta sequˆencia.
Na Tabela 6.4 realizamos as substitui¸ c˜oes dos res´ıduos de argininas na sequˆencia de dire-
cionamento do organismo Brassica napus reproduzida pelo c´odigo Z
4
-linear (rotulamento A).
Observe que a sequˆencia possui quatro res´ıduos de argininas nas posi¸ c˜oes 2, 7, 18 e 19 desta-
cados na cor vermelha. Cada um dos quatro res´ıduos de argininas (R) foram substitu´ıdos
por res´ıduos de ´acido asp´artico (D), ´acido glutˆamico (E), lisina (K), histidina (H) e alanina
(A). De acordo com as colunas da tabela apresentada na Figura 6.4, consideramos todas as
trincas relativas aos amino´acidos citados anteriormente. Na primeira coluna da tabela temos
as seguintes informa¸ c˜oes: R= a quantidade de res´ıduos de argininas na sequˆencia e P(T)=
posi¸ c˜ao da arginina na sequˆencia e a sua respectiva trinca. Sendo assim, podemos inter-
pretar (1
a
R, 2
o
aa, AGA) como o primeiro res´ıduo de arginina que corresponde ao segundo
amino´acido da sequˆencia de direcionamento, cuja trinca correspondente ´e (AGA).
Na substitui¸ c˜ao do primeiro res´ıduo de arginina que possui a trinca (AGA) correspon-
dente ao segundo amino´acido da sequˆencia podemos observar que s´o algumas substitui¸ c˜oes
foram aceitas pelo c´odigo: (D) com a trinca (GAC) e (A) com as trincas (GCT)-(GCG).
Observe que a substitui¸ c˜ao por lisina (quarta coluna da tabela) n˜ao foi aceita pelo c´odigo. A
importˆancia do res´ıduo de arginina nesta posi¸ c˜ao ´e evidenciada pelo c´odigo que indica que
o amino´acido (K) com a trinca (AAA) deve ser alterado pelo amino´acido (R) com a trinca
(AGA) nesta posi¸ c˜ao. Isto ´e, o c´odigo confirma que caso ocorra esta substitui¸ c˜ao tanto a
estrutura matem´atica quanto o conte´ udo de informa¸ c˜ao da sequˆencia podem ser comprometi-
dos.
135
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
R D E K H A
P (T) GAC GAT GAA GAG AAA AAG CAT CAC GCT GCC GCA GCG
1ª R
2º aa
(AGA)
(B)-15
S
TCG
TCT
S
- - -
(A)-2
K
AAA
AGA
R
- - -
(C)-3
S
TCC
ACC
T
- -
(A)-7
R
CGA
CAA
Q
2ª R
7º aa
(CGA)
- - - - -
(C)-15
S
TCG
TAG
sto
(C)-6
V
GTC
GGC
G
-
(A)-1
F
TTC
ATC
I
-
(A)-9
S
TCC
TCG
S
-
3ª R
18º aa
(CGC)
- - - - -
- - (A)-18
H
CAC
CGC
R
-
(A)-20
S
AGC
AGG
R
-
(A)-12
A
GCG
CCG
P
4ª R
19º aa
(CGC)
- - -
(B)-12
A
GCG
TCG
S
- - - - -
(A)-21
F
TTT
TTA
L
-
(A)-13
K
AAG
TAG
sto
Tabela 6.4: Resultados das substitui¸ c˜oes dos res´ıduos de argininas.
Na segunda coluna da tabela mostramos que a substitui¸ c˜ao da trinca (GAC) do ´acido
asp´artico (D) na segunda posi¸ c˜ao da sequˆencia foi aceita pelo c´odigo. Observe que (B) −
15 indica que o rotulamento foi trocado de A para B e que na posi¸ c˜ao 15 da sequˆencia
de direcionamento ocorreu uma altera¸ c˜ao na trinca do amino´acido S de (TCG → TCT).
Inferimos que o c´odigo com o objetivo de manter a mesma estrutura matem´atica e o mesmo
conte´ udo de informa¸ c˜ao da sequˆencia, indica que esta substitui¸ c˜ao ´e poss´ıvel somente quando
ocorrer um rearranjo nos nucleot´ıdeos que representam o amino´acido da posi¸ c˜ao 15.
Em rela¸ c˜ao a mudan¸ ca do rotulamento, do ponto de vista matem´atico inferimos que a
conforma¸ c˜ao geom´etrica foi alterada para que se mantenha o mesmo conte´ udo de informa¸ c˜ao
na sequˆencia. Do ponto de vista biol´ogico, neste momento n˜ao podemos concluir se esta
mudan¸ ca na conforma¸ c˜ao geom´etrica acarreta em algum benef´ıcio ou dano na importa¸ c˜ao
desta sequˆencia. Por tratar-se de resultados que n˜ao constam anteriormente na literatura n˜ao
temos parˆametros de compara¸ c˜ao para analisarmos os resultados do ponto de vista biol´ogico.
Ressaltamos que somente atrav´es de testes laboratoriais poderemos interpretar e compreender
melhor o que o modelo matem´atico descreve.
No caso da substitui¸ c˜ao do primeiro res´ıduo de arginina por alanina (sexta coluna da
tabela) o c´odigo foi capaz de reproduzir duas sequˆencias relacionadas as trincas (GCT) e
(GCG). Para a trinca (GCT) a substitui¸ c˜ao ´e poss´ıvel somente se o terceiro amino´acido for
136
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
trocado de S(TCC) → T(ACC), como consequˆencia desta substitui¸ c˜ao temos a mudan¸ ca
do rotulamento A para o rotulamento C. No caso da trinca (GCG) a substitui¸ c˜ao ´e poss´ıvel
somente trocando o s´etimo amino´acido R (CGA) por Q (CAA), neste caso n˜ao ocorre a
mudan¸ ca de rotulamento. Conclu´ımos que a substitui¸ c˜ao pela trinca (GCT) ´e mais dr´astica
do que a substitui¸ c˜ao pela trinca (GCG), pela necessidade de trocar de rotulamento.
De uma forma bem geral podemos relatar as an´alises dos resultados das simula¸ c˜oes da
seguinte forma:
1. An´alises dos resultados das simula¸c˜oes da B. napus, Tabela 6.4:
1.1) Muta¸ c˜oes por (D) e (E): As substitui¸ c˜oes relativas `as posi¸ c˜oes 7 e 18 da sequˆencia
(2
a
R e 3
a
R) n˜ao foram aceitas pelo c´odigo, consideramos estas substitui¸ c˜oes as mais
dr´asticas. Enquanto que as substitui¸ c˜oes nas posi¸ c˜oes 2 e 19 (1
a
R e 4
a
R) foram aceitas
pelo c´odigo com a mudan¸ ca do rotulamento A para B e com um rearranjo nos nu-
cleot´ıdeos da posi¸ c˜ao 15 e 12, respectivamente. Observe que a substitui¸ c˜ao na posi¸ c˜ao
2 n˜ao exige a troca de amino´acidos, por este motivo consideramos esta substitui¸ c˜ao
menos dr´astica que a substitui¸ c˜ao da posi¸ c˜ao 12 que exige a troca de amino´acido
A(GCG) →S(TCG).
1.2) Muta¸ c˜oes por (K) e (H): As substitui¸ c˜oes na posi¸ c˜ao 2 (2
a
R) foram aceitas pelo
c´odigo atrav´es da mudan¸ ca de rotulamento A para C. A substitui¸ c˜ao por (K) ´e mais
dr´astica que por (H) nesta posi¸ c˜ao, pelo fato do c´odigo ter inserido um c´odon de
parada (TAG) na posi¸ c˜ao 15 da sequˆencia S(TCG) → sto(TAG). As substitui¸ c˜oes
nas posi¸ c˜oes 2 e 18 evidenciam a importˆancia do res´ıduo de argina nesta posi¸ c˜ao.
Observe que o c´odigo indica que nesta posi¸ c˜ao ´e necess´ario o amino´acido (R) para que o
conte´ udo de informa¸ c˜ao da sequˆencia seja preservado. Conclu´ımos que as substitui¸ c˜oes
nas posi¸ c˜oes 2, 18 e 19 s˜ao mais dr´asticas que a substiui¸ c˜ao da posi¸ c˜ao 7. Nestes casos
nenhum rearranjo dos nucleot´ıdeos foi poss´ıvel para manter a estrutura matem´atica da
sequˆencia.
1.3) Muta¸ c˜oes por (A): As substitui¸ c˜oes nas posi¸ c˜oes 7, 18 e 19 n˜ao exigiram a troca
de rotulamento, enquanto que na posi¸ c˜ao 2 a troca pela trinca (GCT) exige a mudan¸ ca
do rotulamento A por C. Deste modo, conclu´ımos que as substitui¸ c˜oes mais dr´astica
se encontram na posi¸ c˜ao 2 (GCT) pela troca de rotulamento e na posi¸ c˜ao 19 (GCG)
pela inser¸ c˜ao de um c´odon de parada. A substitui¸ c˜ao mais simples, do ponto de vista
matem´atico, ´e a substitui¸ c˜ao da posi¸ c˜ao 7 (GCA), S(TCC) → S(TCG), porque n˜ao
foi necess´ario nem a troca de rotulamento e nem a troca de amino´acido para manter a
estrutura matem´atica da sequˆencia.
2. An´alises dos resultados das simula¸c˜oes da I. batatas, Tabela 6.5:
137
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
R D E K H A
P (T) GAC GAT GAA GAG AAA AAG CAT CAC GCT GCC GCA GCG
1ª R
3º aa
(AGG)
(C)-6
S
TCT
ACT
T
(A)-6
S
TCT
CCT
P
(B)-18
R
CGT
TGT
C
(B)-5
S
TCT
TCC
S
(B)-6
S
TCT
CCT
P
(B)-3
K
AAG
AGG
R
(B)-8
F
TTC
TGC
C
- -
(A)-4
H
CAC
CAG
Q
(C)-6
S
TCT
CCT
P
(A)-21
F
TTC
TAC
Y
2ª R
7º aa
(CGA)
(B)-12
A
GCC
GAC
D
- - - - - - -
(A)-3
R
AGG
CGG
R
- - -
3ª R
11º aa
(CGC)
- - - -
(B)-16
G
GGG
GTG
V
-
(B)-14
T
ACA
GCA
A
(B)-11
H
CAC
CGC
R
- - -
(C)-17
W
TGG
TAG
sto
4ª R
18º aa
(CGT)
- -
(B)-2
F
TTC
TGC
C
(A)-15
M
ATG
GTG
V
-
(B)-2
F
TTC
TAC
Y
(B)-18
H
CAT
CGT
R
(B)-21
F
TTC
CTC
L
- - - -
5ª R
19º aa
(CGC)
- - - -
(B)-3
R
AGG
ATG
M
-
(B)-1
M
ATG
GTG
V
(B)-19
H
CAC
CGC
R
- - - -
Tabela 6.5: Resultados das substitui¸ c˜oes dos res´ıduos de argininas.
2.1) Muta¸ c˜oes por (D) e (E): As substitui¸ c˜oes mais dr´asticas se encontram nas posi¸ c˜oes
11 e 19, pois o c´odigo n˜ao foi capaz de encontrar nehuma palavra-c´odigo que mantenha
a estrutura matem´atica com esta substui¸ c˜ao. Na posi¸ c˜ao 3 as substitui¸ c˜oes por (E)
s˜ao menos dr´asticas que as substitui¸ c˜oes por (D), pelo fato de n˜ao exigirem a troca de
rotulamento. Observe a troca por (E) com a trinca (GAG) nesta posi¸ c˜ao ´e a mais sim-
ples, pois n˜ao exige nenhuma troca de amino´acido para manter a estrutura matem´atica
da sequˆencia. Outro ponto a ser observado nesta posi¸ c˜ao ´e a troca por (D), neste caso
inferimos que a troca pela trinca (GAC) ´e menos danosa do que a troca pela trinca
(GAT). Do ponto de vista matem´atico, a troca de um rotulamento B por C ´e menos
complexa do que a troca de um rotulamento B por A. Na posi¸ c˜ao 7 da sequˆencia a
substitui¸ c˜ao por (E) ´e mais dr´astica que por (D). Neste caso apenas um rearranjo dos
amino´acidos da posi¸ c˜ao 12 A(GCC) →D(GAC) ´e necess´ario para garantir o conte´ udo
da informa¸ c˜ao da sequˆencia. As substitui¸ c˜oes na posi¸ c˜ao 18 apresenta ser mais dr´astica
na troca por (D) do que por (E). No caso da troca por (E) nesta posi¸ c˜ao, o c´odigo
mostra preferˆencia pela trinca (GAA) por n˜ao necessitar da troca de rotulamento.
2.2) Muta¸ c˜oes por (K) e (H): As substitui¸ c˜oes na posi¸ c˜ao s˜ao as mais dr´asticas, pois
o c´odigo n˜ao aceita nenhum rearranjo do rotulamento ou dos amino´acidos. As subs-
titui¸ c˜oes nas posi¸ c˜oes 3, 11, 18 e 19 podem ser consideradas menos dr´asticas por n˜ao
138
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
R D E K H A
P (T) GAC GAT GAA GAG AAA AAG CAT CAC GCT GCC GCA GCG
1ª R
6º aa
(AGA)
(C)-3
E
GAA
CAA
Q
-
(B)-4
I
ATT
ACT
T
(B)-19
K
AAA
GAA]
E
(B)-6
K
AAA
AGA
R
(C)-4
I
ATT
ATC
I
-
(B)-2
Q
CAA
CAT
H
- - - -
2ª R
12º aa
(AGA)
- -
(B)-10
L
TTA
TCA
S
(B)-4
I
ATT
GTT
V
(B)-12
K
AAA]
AGA
R
(B)-10
L
TTA
TTG
L
-
(B)-8
F
TTC
TTA
L
- - - -
Tabela 6.6: Resultados das substitui¸ c˜oes dos res´ıduos de argininas.
mudarem de rotulamento. Por´em as substitui¸ c˜oes na posi¸ c˜ao 3 por (K) pela trinca
(AAG), a posi¸ c˜ao 11 por (H) pela trinca (CAC), a posi¸ c˜ao 18 por (H) pela trinca (CAT)
e a posi¸ c˜ao 19 por (H) pela trinca (CAC) mostram a importˆancia do res´ıduo de arginina
nesta posi¸ c˜ao para garantir o conte´ udo de informa¸ c˜ao da sequˆencia. Ressaltamos que
neste momento n˜ao estamos considerando as trocas de amino´ acidos que ocorreram
dentro da mesma classe, conforme mencionamos anteriormente este tipo de an´alise
torna-se complexo por depender de v´arios aspectos.
2.3) Muta¸ c˜oes por (A): Nas posi¸ c˜oes 18 e 19 as substitui¸ c˜oes s˜ao mais dr´asticas. Na
substitui¸ c˜ao da posi¸ c˜ao 11 ocorre a inser¸ c˜ao de um c´odon de parada (TAG) na posi¸ c˜ao
17 da sequˆencia e a troca do rotulamento B por C. Do ponto de vista matem´atico esta
troca de rotulamento n˜ao ´e dr´astica e sobre a inser¸ c˜ao de um c´odon de parada nesta
posi¸ c˜ao podemos inferir que pode acarretar danos ao mecanismo de importa¸ c˜ao se os
amino´acidos seguintes (R R P F) forem essenciais para a importa¸ c˜ao. Neste caso uma
an´alise laboratorial ´e essencial para analisar se a sequˆencia montada somente com os
16 primeiros amino´acidos ´e suficiente ou n˜ao para realizar a importa¸ c˜ao da prote´ına. A
substitui¸ c˜ao da posi¸ c˜ao 7 exige somente a troca de rotulamento, por´em neste momento
n˜ao podemos inferir se esta troca ser´a prejudicial ao mecanismo de importa¸ c˜ao. Na
posi¸ c˜ao 3 as substitui¸ c˜oes relativas `as trincas (GCC) e (GCG) s˜ao mais dr´asticas do
que a substitui¸ c˜ao pela trinca (GCA), pois a troca do rotulamento B por A ´e mais
complexa do que a troca do rotulamento B por C.
3. An´alises dos resultados das simula¸c˜oes da S. cerevisiae, Tabela 6.6:
139
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
R D E K H A
P (T) GAC GAT GAA GAG AAA AAG CAT CAC GCT GCC GCA GCG
1ª R
2º aa
(AGA)
- -
(B)-10
A
GCC
GTC
V
(A)-3
S
TCT
TAT
Y
(B)-
12
A
GCG
ACG
T
(B)-2
K
AAA
AGA
R
(B)-10
A
GCC
GCT
A
-
(B)-18
R
CGC
CGA
R
- -
(C)-19
R
CGT
CCT
P
-
2ª R
7º aa
(CGA)
(B)-2
R
AGA
AGT
S
- - -
(C)-4
M
ATG
ACG
T
- - - - - - -
3ª R
18º aa
(CGC)
- - -
(B)-13
N
AAT
AAG
K
(B)-13
N
AAT
AAA
K
-
(B)-5
L
CTC
CTT
L
(B)-18
H
CAC
CGC
R
- - - -
4ª R
19º aa
(CGT)
- -
(B)-14
Q
CAG
CAC
H
(A)-18
R
CGC
TGC
C
-
(B)-14
Q
CAG
CAT
H
(B)-19
H
CAT
CGT
R
(B)-6
V
GTC
CTT
V
(C)-
18
R
CGC
GGC
G
- -
(C)-15
A
GCG
GGG
G
-
Tabela 6.7: Resultados das substitui¸ c˜oes dos res´ıduos de argininas.
3.1) Muta¸ c˜oes por (D) e (E): As substitui¸ c˜oes na posi¸ c˜ao 6 e 12 por (D) s˜ao dr´astica,
enquanto que as substitui¸ c˜oes por (E) exigem um rearranjo dos amino´acidos. Por exem-
plo, na posi¸ c˜ao 12 para trinca (GAA) o c´odigo indica uma troca dos amino´acidos na
posi¸ c˜ao 10 L(TTA) →S(TCA) e para a trinca (GAG) o c´odigo aponta uma troca nos
amino´acidos da posi¸ c˜ao 4 I(ATT) →V (GTT).
3.2) Muta¸ c˜oes por (K) e (H): Nas posi¸ c˜oes 6 e 12 por (K) com a trinca (AAA) o c´odigo
aponta a importˆancia da arginina nestas posi¸ c˜oes. Na substitui¸ c˜ao da posi¸ c˜ao 6 por
(K) pela trinca (AAG) o c´odigo exige apenas a troca de rotulamento enquanto que pela
troca por (H) pela trinca (CAC) o c´odigo exige apenas um rearranjo dos amino´acidos
na posi¸ c˜ao 2 Q(CAA) →H(CAT), inferimos que a troca de rotulamento ´e mais danosa
que um simples rearranjo dos amino´acidos. Na posi¸ c˜ao 12 a substitui¸ c˜ao mais simples
ocorreu na troca por (K) pela trinca (AAG), observe que o c´odigo aceita a troca sem
a mudan¸ ca do rotulamento e sem rearranjos nos amino´acidos.
3.3) Muta¸ c˜oes por (A): As substitui¸ c˜oes por (A) s˜ao as mais dr´asticas, porque o c´odigo
n˜ao consegue encontrar nenhuma palavra-c´odigo, dentro da capacidade de corre¸ c˜ao do
c´odigo, com esta substitui¸ c˜ao que preserve o conte´ udo de informa¸ c˜ao da sequˆencia.
4. An´alises dos resultados das simula¸c˜oes da A. thaliana, Tabela 6.7:
140
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
4.1) Muta¸ c˜oes por (D) e (E): Na posi¸ c˜ao 2 a troca por (D) ´e dr´astica enquanto que
a troca por (E) ´e poss´ıvel realizando um rearranjo nos amino´acidos. Observe que no
caso da troca por (E) com a trinca (GAG) o c´odigo aceitou a substitui¸ c˜ao em dois
rotulamentos ao mesmo tempo (A)-3 e (B)-12, matematicamente inferimos que a troca
de rotulamento ´e mais prejudicial ao sistema de importa¸ c˜ ao. Nas posi¸ c˜oes 7 e 18 temos
que a troca por (D) e por (E) s˜ao as mais dr´asticas, respectivamente. Na posi¸ c˜ao
19 as substitui¸ c˜oes por (E) s˜ao menos dr´asticas que por (D). A substitui¸ c˜ao com a
trinca (GAG) ´e mais dr´astica do que com a trinca (GAA) por necessitar da troca de
rotulamento B por A.
4.2) Muta¸ c˜oes por (K) e (H): A posi¸ c˜ao 7 foi a que menos aceitou as substitui¸ c˜oes
por (K) e (H). Nas demais posi¸ c˜oes as substitui¸ c˜oes foram aceitas sem a mudan¸ ca do
rotulamento. As trocas na posi¸ c˜ao 2 por (K) com a trinca (AAA), a posi¸ c˜ao 18 por
(H) com a trinca (CAC) e a posi¸ c˜ao 19 por (H) com a trinca (CAT) evidenciam a
necessidade do res´ıduo de argina nesta posi¸ c˜ao. Outro ponto ´e a substitui¸ c˜ao por (H)
com a trinca (CAC) onde o c´odigo aceita a substitui¸ c˜ao em dois rotulamentos B e C,
inferimos que para o caso onde ocorreu a troca de rotulamwento B por C esta troca
n˜ao seria prejudicial ao sistema de importa¸ c˜ao.
4.3) Muta¸ c˜oes por (A): As substitui¸ c˜oes nas posi¸ c˜oes 7 e 18 s˜ao as mais dr´asticas. Nas
posi¸ c˜oes 2 e 19 a troca de (A) com a trinca (GCA) muda o rotulamento de B para C.
Do ponto de vista matem´atico esta troca n˜ao ´e dr´astica.
5. An´alises dos resultados das simula¸c˜oes da H. sapiens, Tabela 6.8:
5.1) Muta¸ c˜oes por (D) e (E): As substitui¸ c˜oes nas posi¸ c˜oes 7 e 13 s˜ao as mais dr´asticas.
Nas posi¸ c˜oes 8 e 16 a troca por (E) ´e mais danosa do que a troca por (D). Nos dois
casos a troca por (D) exige a troca do rotulamento C por B, inferimos que esta troca
n˜ao ´e dr´astica. Na posi¸ c˜ao 19 a troca por (E) exige a mudan¸ ca do rotulamento C por
A, este caso a troca ´e mais dr´astica porque ocorre uma troca de sequˆencia linear para
uma sequˆencia n˜ao-linear.
5.2) Muta¸ c˜oes por (K) e (H): As substitui¸ c˜oes por (H) com a trinca (CAT) na posi¸ c˜ao
19 e a trinca (CAC) nas posi¸ c˜oes 7, 8, 13 e 16 evidenciam a importˆancia do res´ıduo
de arginina nestas posi¸ c˜oes. Na posi¸ c˜ao 16 a troca por (K) com a trinca (AAA) exige
somente a troca do rotulamento C por B, inferimos que esta troca n˜ao ´e prejudicial ao
sistema de importa¸ c˜ao.
5.3) Muta¸ c˜oes por (A): Todas as substitui¸ c˜oes realizadas por alanina n˜ao foram aceitas
pelo c´odigo. Inferimos que estas substitui¸ c˜oes nestas posi¸ c˜oes s˜ao dr´asticas pera o
sistema de importa¸ c˜ao.
141
Cap´ıtulo 6. An´alises de Muta¸ c˜oes e de Polimorfismos em Sequˆencias de DNA
R D E K H A
P (T) GAC GAT GAA GAG AAA AAG CAT CAC GCT GCC GCA GCG
1ª R
7º aa
(CGC)
- - - - - - -
(C)-7
H
CAC
CGC
R
- - - -
2ª R
8º aa
(CGC)
(B)-11
L
CTT
CGT
R
- - - - - -
(C)-8
H
CAC
CGC
R
- - - -
3ª R
13º aa
(CGC)
- - - - - - -
(C)-13
H
CAC
CGC
R
- - - -
4ª R
16º aa
(CGC)
(B)-15
V
GTC
GAC
D
- - -
(B)-8
R
CGC
CGG
R
- -
(C)-16
H
CAC
CGC
R
- - - -
5ª R
19º aa
(CGT)
- -
(A)-2
P
CCC
CCT
P
- - -
(C)-19
H
CAT
CGT
R
- - - - -
Tabela 6.8: Resultados das substitui¸ c˜oes dos res´ıduos de argininas.
Neste momento n˜ao consideramos os aspectos qu´ımicos, f´ısicos ou biol´ogicos dos resulta-
dos. Ressaltamos que diversos aspectos podem ser explorados neste contexto de muta¸ c˜oes,
tais como: verificar que tipos de muta¸ c˜oes seriam mais danosas ao sistema, analisar as
muta¸ c˜oes de transi¸ c˜ao e transvers˜ao que ocorreram, analisar as posi¸ c˜oes mais protegidas
das sequˆencias, verificar quais amino´acidos poderiam ser substitu´ıdos em cada posi¸ c˜ao da
sequˆencia, etc. Diante das diversas possibilidades de interpreta¸ c˜oes uma intera¸ c˜ao entre os
resultados obtidos via c´odigos corretores de erros e as an´ alises laboratoriais destes resultados
´e fundamental para uma melhor compreens˜ao do modelo. Essa parceria entre engenharia,
matem´atica e biologia ´e necess´aria para um avan¸ co nas interpreta¸ c˜oes dos dados obtidos no
presente trabalho, bem como para refinar o modelo acrescentando aspectos f´ısicos, qu´ımicos
e biol´ogicos de acordo com o interesse em quest˜ao.
142
Cap´ıtulo 7
Conclus˜oes e Perspectivas Futuras
Um dos grandes desafios em teoria de codifica¸ c˜ao gen´etica ´e descobrir uma estrutura de
c´odigos corretores de erros na estrutura do DNA. Este trabalho mostra a existˆencia de c´odigos
corretores de erros associados com as sequˆencias de DNA (sequˆencias de direcionamento)
e suas respectivas fitas complementares atrav´es de seus polinˆomios primitivos/geradores e
seus polinˆomios rec´ıprocos. Estas sequˆencias s˜ao identificadas como palavras-c´odigo de um
c´odigo G-linear sobre a extens˜ao de um anel de Galois. Al´em disso, usando os conceitos da
teoria de comunica¸ c˜ao propomos um modelo para o sistema de codifica¸ c˜ao e decodifica¸ c˜ao
do mecanismo de importa¸ c˜ao de prote´ınas mitocondriais. Este modelo assemelha-se ao mais
eficiente sistema de comunica¸ c˜ao digital.
O sistema de codifica¸ c˜ao consiste de um mapeador (respons´ avel por transformar os nu-
cleot´ıdeos (A, C, G, T) no alfabeto (0, 1, 2, 3) usado pelo c´odigo sobre a estrutura de anel);
um codificador (c´odigo BCH) e um modulador (c´odigo gen´etico). O mapeador e o codificador
de um c´odigo BCH formam o codificador de um c´odigo G-linear, uma importante classe dos
c´odigos geometricamente uniformes. O mapeamento entre a estrutura alg´ebrica do c´odigo
BCH e o c´odigo gen´etico ´e vista como um mapeamento casado. Essa propriedade matem´atica
implica que a estrutura alg´ebrica do codificador seja a mesma, a menos de um isomorfismo,
que a da constela¸ c˜ao de sinais, garantindo assim, a menor complexidade poss´ıvel do sistema.
O sistema de decodifica¸ c˜ao baseia-se em uma analogia entre o processo de decodifica¸ c˜ao
(Berlekamp-Massey para An´eis) utilizado em sistemas de comunica¸ c˜oes e o complexo TOM
que ´e um dos translocons respons´aveis por reconhecer as prote´ınas precursoras mitocondri-
ais. Este sistema que consiste de um demodulador ´e representado pelas prote´ınas Tom 70
e Tom20 que formam o complexo receptor principal das prote´ınas precursoras mitocondri-
ais. Tom22 interage com precursores contendo sequˆencias de direcionamento internas ou
no amino-terminal, enquanto que Tom20 reconhece especificamente pr´e-sequˆencias amino-
terminais. O decodificador ´e representado pelo poro geral de inser¸ c˜ao conhecido como o
143
Cap´ıtulo 7. Conclus˜oes e Perspectivas Futuras
complexo GIP (GIP “general insertion pore”), enquanto que o receptor representa o subcom-
partimento mitocondrial para onde a prote´ına est´a sendo enviada.
O grande diferencial deste modelo est´a na possibilidade de identificar uma estrutura
matem´atica bem definida nas sequˆencias de DNA reproduzidas pelo modelo. Enquanto que
os demais modelos utilizam um processo estat´ıstico para analisar muta¸ c˜oes em sequˆencias de
DNA, o modelo do presente trabalho utiliza um processo determin´ıstico para realizar estas
an´alises. At´e onde ´e de nosso conhecimento, no momento n˜ ao existe um m´etodo matem´atico
que calcule deterministicamente as muta¸ c˜oes em sequˆencias de DNA, sejam elas atrav´es da
evolu¸ c˜ao biol´ogica, in vitro evolution ou por manipula¸ c˜ao gen´etica.
7.1 Desenvolvimento do Trabalho
O Cap´ıtulo 2 ´e introdut´orio, nele apresentamos de forma sucinta alguns conceitos sobre os
t´opicos abordados neste trabalho referentes a importa¸ c˜ ao de prote´ınas mitocondriais, a teoria
de c´odigos corretores de erros e a decodifica¸ c˜ao de c´odigos corretores de erros. O objetivo
deste cap´ıtulo ´e introduzir o leitor aos temas de car´ater interdisciplinar do presente trabalho.
As contribui¸ c˜oes deste trabalho encontram-se nos Cap´ıtulos 3, 4, 5 e 6. No Cap´ıtulo 3
propomos um modelo de comunica¸ c˜ao gen´etica para o no sistema de importa¸ c˜ao de prote´ınas
organelares, mais especificamente, a importa¸ c˜ao de prote´ınas mitocondriais. O modelo de-
talha a parte de codifica¸ c˜ao das sequˆencias de direcionamento que s˜ao respons´aveis pelo
encaminhamento das prote´ınas nas respectivas organelas, bem como a parte da decodifica¸ c˜ao
destas sequˆencias. Este modelo destaca-se dos demais por fazer o uso de conceitos recente-
mente usados na teoria da comunica¸ c˜ao, tais como: c´odigos G-lineares, mapeamento casado,
c´odigos geometricamente uniformes, e principalmente, c´ odigos sobre an´eis.
Nos Cap´ıtulos 4 e 5 desenvolvemos uma rotina computacional respons´avel pela codifica¸ c˜ao
e decodifica¸ c˜ao das sequˆencias de direcionamento, respectivamente. Estes algoritmos al´em
de identificar uma estrutura de c´odigos corretores de erros nas sequˆencias de direcionamento,
permitem uma nova abordagem para a classifica¸ c˜ao destas sequˆencias sob um ponto de vista
matem´atico. As sequˆencias de direcionamento que foram reproduzidas pelo c´odigo Z
4
-linear
(c´odigo BCH sobre anel e rotulamento A) s˜ao classificadas como sequˆencias n˜ao-lineares.
Enquanto, que as sequˆencias reproduzidas pelos c´odigos Z
2
Z
2
-linear e Klein-linear (c´odigos
BCH sobre anel rotulamento B e rotulamento C, respectivamente) s˜ao classificadas como
sequˆencias lineares. Destas an´alises, direcionamos o estudo quanto ao entendimento das
muta¸ c˜oes e polimorfismos nas sequˆencias reproduzidas por c´odigos corretores de erros.
No Cap´ıtulo 6 propomos uma interpreta¸ c˜ao das muta¸ c˜oes e polimorfismos ocorridos nas
sequˆencias de DNA, sob o ponto de vista de c´odigos corretores de erros, bem como uma
144
Cap´ıtulo 7. Conclus˜oes e Perspectivas Futuras
interpreta¸ c˜ao filogen´etica dos resultados obtidos no trabalho. Os resultados encontrados nas
aplica¸ c˜oes da Se¸ c˜ao 6.1 mostram que um procedimento sistem´atico utilizando c´odigos corre-
tores de erros pode ser usado para gerar e reproduzir sequˆencias de DNA com o objetivo de
analisar as substitui¸ c˜oes de nucleot´ıdeo(s) ou de amino´acido(s) no interior destas sequˆencias
propiciando a realiza¸ c˜ao de an´alises de polimorfismo(s) ou muta¸ c˜ao(˜oes). O estudo de filoge-
nia, Se¸ c˜ao 6.2, infere que a prote´ına gerada pelo c´odigo ´e a ancestral da prote´ına encontrada
no banco de dados NCBI. Este resultado mostra que o c´odigo foi capaz de gerar a prote´ına que
existia a milh˜oes de anos atr´as e que a prote´ına que ´e encontrada hoje nos bancos de dados
´e um polimorfismo da prote´ına gerada pelo c´odigo. Na Se¸ c˜ ao 6.3 mostramos que o modelo
pode ser usado para simular muta¸ c˜oes em sequˆencias de DNA (sequˆencias de direcionamento)
considerando os aspectos matem´aticos, podendo contribuir para uma melhor compreens˜ao
dos mecanismos de importa¸ c˜ao e para uma redu¸ c˜ao de tempo e custos laboratoriais.
7.2 Contribui¸ c˜oes do Trabalho
Os resultados do presente trabalho contribuem para os campos da teoria da comunica¸ c˜ao
gen´etica e da teoria da codifica¸ c˜ao gen´etica, bem como para o campo da bioinform´atica
computacional biol´ogica atrav´es da aplica¸ c˜ao dos princ´ıpios das teorias da codifica¸ c˜ao e da
comunica¸ c˜ao ao estudo do mecanismo de importa¸ c˜ao de prote´ınas mitocondriais e `as an´alises
de muta¸ c˜oes em sequˆencias de direcionamento. Este trabalho contribui da seguinte forma:
• O uso de conceitos modernos de sistemas de comunica¸ c˜oes para o sistema de comu-
nica¸ c˜ao biol´ogico;
• Desenvolvimento e verifica¸ c˜ao de uma teoria de codifica¸ c˜ ao, do ponto de vista do pro-
cesso de importa¸ c˜ao de prote´ınas organelares;
• Desenvolvimento e verifica¸ c˜ao de uma teoria de decodifica¸ c˜ao, do ponto de vista do
processo de importa¸ c˜ao de prote´ınas mitocondriais;
• Desenvolvimento de um modelo de comunica¸ c˜ao para o sistema de importa¸ c˜ao de
prote´ınas mitocondriais;
• Fortalecimento da hip´otese de existˆencia de c´odigos concatenados na estrutura do DNA
(“nested codes”);
• Constru¸ c˜ao e an´alises de sequˆencias de direcionamento reproduzidas por c´odigos corre-
tores de erros para a importa¸ c˜ao de prote´ınas organelares;
145
Cap´ıtulo 7. Conclus˜oes e Perspectivas Futuras
• Constru¸ c˜ao e an´alises do processo de decodifica¸ c˜ao das sequˆencias de direcionamento
reproduzidas por c´odigos corretores de erros para a importa¸ c˜ao de prote´ınas mitocon-
driais;
• Classifica¸ c˜ao das sequˆencias de direcionamento, sob o ponto de vista matem´atico:
sequˆencias n˜ao-lineares (c´odigo Z
4
-linear), sequˆencias lineares (c´odigos Z
2
Z
2
-linear
e Klein-linear);
• Identifica¸ c˜ao de uma rela¸ c˜ao matem´atica entre as fitas codantes e n˜ao codantes atrav´es
dos seus polinˆomios primitivos/geradores e seus rec´ıprocos;
• Compara¸ c˜ao das an´alises de muta¸ c˜oes em oligopept´ıdeos sint´eticos via laborat´orio e via
c´odigos corretores de erros;
• Explora¸ c˜ao do uso do modelo de codifica¸ c˜ao para investigar a rela¸ c˜ao filogen´etica entre
as sequˆencias reproduzidas pelos c´odigos e as sequˆencias do NCBI;
7.3 Propostas Futuras
Apresentamos nesta se¸ c˜ao algumas avalia¸ c˜oes acerca do trabalho desenvolvido e, decor-
rentes dessas, algumas sugest˜oes para pesquisas futuras.
• A restri¸ c˜ao quanto ao estudo apenas de sequˆencias de direcionamento com comprimen-
tos iguais a 63 nucleot´ıdeos no presente trabalho deve-se ao fato da complexidade do
assunto. Salientamos que ´e de grande interesse que os resultados apresentados neste
trabalho sejam generalizados para diversas sequˆencias biol´ogicas com diversos compri-
mentos;
• A capacidade de corre¸ c˜ao dos c´odigos que reproduziram as sequˆencias de direcionamento
´e igual a d ≥ 3. Consideramos apenas os erros iguais a t = 1 neste trabalho. Pelo fato
destes c´odigos, atrav´es do seu arranjo padr˜ao, serem capazes de corrigir alguns padr˜oes
de 2 erros, consideramos de grande importˆancia a flexibiliza¸ c˜ao destes c´odigos e uma
an´alise detalhada dos resultados desta flexibiliza¸ c˜ao;
• A constru¸ c˜ao de c´odigos sobre an´eis mostrou-se muito promissora para a reprodu¸ c˜ao de
sequˆencias de DNA. Por´em a constru¸ c˜ao de c´odigos sobre outras estruturas matem´aticas,
por exemplo sobre corpos, poder˜ao contribuir para o desenvolvimento nesta ´area;
• Estudo da prote¸ c˜ao desigual em rela¸ c˜ao aos nucleot´ıdeos associados `as sequˆencias de
DNA;
146
Cap´ıtulo 7. Conclus˜oes e Perspectivas Futuras
• Estudo sobre as semelhan¸ cas entre a topologia das estruturas prim´arias das sequˆencias
reproduzidas pelos c´odigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear e as estruturas se-
cund´arias da alpha-h´elice, folha beta paralela e folha beta anti-paralela.
7.4 Considera¸ c˜oes Finais
Com a necessidade da redu¸ c˜ao de tempo e custos nos experimentos laboratoriais, o pre-
sente trabalho prop˜oe uma abordagem matem´atica capaz de gerar e reproduzir sequˆencias de
DNA, atrav´es de c´odigos corretores de erros, conduzindo a uma metodologia para a realiza¸ c˜ao
de an´alises mutacionais/polimorfismos nestas sequˆencias. Como resultado, e com um apri-
moramento do modelo, poder˜ao ser realizados estudos de predi¸ c˜ao de muta¸ c˜oes/polimorfismos
em sequˆencias de DNA, RNA e prote´ınas, incluindo prote´ınas completas e tamb´em sequˆencias
de direcionamento para organelas, “protein motifs”, pept´ıdios hormonais, ´ıntrons, DNA
repetitivo, ncRNA, etc), implicando em uma consider´avel redu¸ c˜ao de experimentos labo-
ratoriais extensivos.
Este m´etodo pode ser aplicado em projetos e pesquisas com a finalidade de criar novas
fun¸ c˜oes para uma determinada sequˆencia de DNA atrav´es das muta¸ c˜oes segundo as neces-
sidades comerciais e cient´ıficas. Al´em disso, permite gerar muta¸ c˜oes com ganho de fun¸ c˜oes
para as prote´ınas, como maior estabilidade, maior afinidade por substrato, maior atividade
espec´ıfica, etc. At´e onde ´e de nosso conhecimento, n˜ao existe um m´etodo matem´atico que cal-
cule deterministicamente as muta¸ c˜oes em sequˆencias de DNA, sejam elas atrav´es da evolu¸ c˜ao
biol´ogica, in vitro evolution ou por manipula¸ c˜ao gen´etica al´em do m´etodo apresentado no
presente trabalho.
Outra aplica¸ c˜ao importante ´e utilizar esta abordagem matem´atica em estudos indivi-
duais e populacionais a fim de verificar se a ocorrˆencia de muta¸ c˜oes/polimorfismos em genes
associados a doen¸ cas em seres humanos, animais, plantas e microrganismos favorecem ou
predisp˜oem ao desenvolvimento de doen¸ cas. Esta metodologia poder´a ser utilizada como
um teste para diagn´ostico nos diferentes organismos a fim de detectar em fases iniciais a
predisposi¸ c˜ao ou o diagn´ostico de doen¸ cas.
147
Referˆencias Bibliogr´aficas
[1] G. Battail, An Outline of Informational Genetics, Morgan & Claypool Publishers, 2008.
[2] Ramon Roman-Roldan, Pedro Bernaola-Galvan, and Jose L. Oliver, “Application of
information theory to DNA sequence analysis: a review”, Pattern Recognition, vol. 29,
no. 7, pp. 1187.1194, 1996.
[3] Elebeoba E. May, Comparative analysis of information based models for initiating protein
translation in Escherichia coli K-12, M.S. thesis, NCSU, Dezembro 1998.
[4] G. Battail, “Does information theory explain biological evolution?”, Europhysics Letters,
vol. 40, pp. 343-348, 1997.
[5] Alberts, Bruce; Johnson, Alexander; Lewis, Julian; Raff, Martin; Roberts, Keith; Wal-
ter, Peter New York and London, Molecular Biology of the Cell, Editora Artmed, 4
a
Edi¸ c˜ao, 2005.
[6] Lodish, Harvey; Berk, Arnold; Zipursky, S. Lawrence; Matsudaira, Paul; Baltimore,
David; Darnell, James E., Molecular Cell Biology, Editora 4th ed.
[7] Almeida, J. D., Origem, Evolu¸ c˜ao e Direcionamento da Prote´ına THl1 Em Plantas, Tese
de Doutorado, ESALQ/USP 2004.
[8] Duby, G.; Boutry, M.; “Mitochondrial protein import machinery and targeting informa-
tion”, Plant Science, Vol. 162, no. 4, pp. 477-490, 2002.
[9] Truscott, K. N.; Brandner, K.; Pfanner, N.; “Mechanisms of Protein Import into Mito-
chondria”, Current Biology, vol. 13, pp. 326-337, 2003.
[10] Pfanner, N.; Wiedemann, N.; Meisinger, C.; Lithgow, T.; “Assembling the Mitochondrial
Outer Membrane”, Nature Structural & Molecular Biology, vol. 11, pp. 1044-1048, 2004.
[11] Dekker, P. J. T.; Ryan, M. T.; Brix, J.; M¨ uller H.; H¨onlinger, A.; Pfanner, N.; “Pre-
protein Translocase of the Outer Mitochondrial Membrane: Molecular Dissection and
149
Referˆencias Bibliogr´aficas
Assembly of the General Import Pore Complex”, Molecular and Cellular Biology, vol.
18, pp. 6515-6524, 1998.
[12] Van Wilpe, S.; Ryan, M. T.; Maarse, A. C.; Meisinger, C.; Brix, J.; Dekker, P. J.;
Moczko, M.; Wagner, R.; Meijer, M.; Guiard, B; H¨onlinger, A.; Pfanner, N., “Tom 22
is a multifunctional organizer of the mitochondrial preprotein translocase”, Nature, vol.
401, no. 6752, pp. 485-489, 1999.
[13] Mokranjac, D.; Neupert, W.; “Protein import into mitochondria”, Biochemical Society,
Vol. 33, pp. 1019-1023, 2005.
[14] Ryan, K. R.; Leung, R. S.;Jensen, R. E., “Characterizacion of the mitochondrial inner
membrane translocase complex: the Tim23p hydrophobic domain interacts with Tim17
but not with other Tim23p molecules”, Molecular and Cellular Biology, vol.18, no.1, pp.
178-187, 1998.
[15] Strub, A.; Lim, J. H.; Pfanner, N.; Voos, W., “The mitochondrial protein import motor”,
The Journal of Biological Chemistry, vol.381, no.9-10, pp. 943-949, 2000.
[16] Maxi Endres, M.; Neupert, W.; Brunner, M.; “Transport of the ADP/ATP carrier of
mitochondria from the TOM complex to the TIM2254 complex”, The EMBO Journal,
Vol.18, no.12, pp.3214-3221, 1999.
[17] Pfanner,N.; Neupert,W.; “Distinct steps in the import of ADP/ ATP carrier into mito-
chondria”, J. Biol. Chem., vol.262, pp. 7528-7536, 1987.
[18] Rocha, A. S. L. Modelo Matem´atico Para a Previs˜ao de Recombina¸ c˜ao S´ıtio-Espec´ıfica
do DNA, Tese de Mestrado, UNICAMP, 2004.
[19] Freese, E.; “The Difference between Spontaneous and Base-Analogue Induced Mutations
of Phage T4”, Proc. of PNAS, vol.45, pp. 622-633, 1959.
[20] Freese, E.; “The Specific Mutagenic Effect of Base Analogues on Phage T4”, Journal
Molecular Biology, vol.1, pp. 87-105, 1959.
[21] Sawyer, S. A.; Parsch J.; Zhang Z.; Hartl, D. L.; “Prevalence of positive selection among
nearly neutral amino acid replacements in Drosophila”, Proceedings of the National
Academy of Sciences U.S.A, vol.104, pp. 6504-6510, 2007.
[22] Ionov, Y.; Peinado, M. A.; Malkhosyan, S.; Shibata, D.; Perucho, M.; “Ubiquitous
somatic mutations in simple repeated sequences reveal a new mechanism for colonic
carcinogenesis”, Nature, vol.363, pp. 558-561, 1993.
150
Referˆencias Bibliogr´aficas
[23] Galvani, A.; Slatkin, M.; “Evaluating plague and smallpox as historical selective pres-
sures for the CCR5 −∆32 HIV-resistance allele”, Proceedings of the National Academy
of Sciences U.S.A, vol.100, pp. 15276-15279, 2003.
[24] C.E.Shannon, “A Mathematical theory of communication”, Bell Sust., Tech. J., vol.27,
pp. 397-423, julho 1948, and pp. 623-656, outubro 1948.
[25] M.J.E. Golay, “Notes on digital coding”, Proc. IEEE, vol.37, pp.657, 1949.
[26] R.W. Hamming, “Error detecting and error correcting codes”, Bell Syst. Tech. J., vol.29,
pp.147-160, 1950.
[27] G. Ungerboeck, “Channel coding with multilevel/phase signals”, IEEE Trans. Inform.
Theory, vol.IT-28, p. 56-67, 1982.
[28] G. D. Forney, Jr., “Geometrically uniform codes”, IEEE Trans. Inform. Theory, vol.IT-
37, pp.1241-1260, 1991.
[29] I.N. Herstein, Topics in Algebra, John Wiley and Sons, New York, 1975.
[30] J.B. Fraleigh, A First Course in Abstract Algebra, Addison-Wesley Publishing Co., 1982.
[31] P.R. Barbosa, Constru¸ c˜ao de C´odigos Z
2
k -pseudolineares atrav´es de Alica¸ c˜oes
Isom´etricas e Extens˜oes de Galois sobre An´eis Locais, Tese de Mestrado, FEEC-
UNICAMP, 2000.
[32] H.A. Loeliger, “Signal setes matched to groups”, IEEE Trans. Inform. Theory, vol.IT-37,
pp. 1675-1682, 1991.
[33] J.R.Gerˆonimo, Extens˜ao da Z
4
-Linearidade via grupo de simetrias , Tese de Doutorado,
FEEC-UNICAMP, 1997.
[34] A.R. Hammons, Jr., A.R. Calderbank, P.V. Kumar, N.J.A. Sloane and P. Sol´e, “The
Z
4
-linearity of Kerdock, Preparata, Goethals, and related codes”, IEEE Trans. Inform.
Theory, vol.IT-40, pp.301-319, 1994.
[35] J.C.Interlando, Uma contribui¸ c˜ao aos C´odigos Lineares sobre An´eis Locais, Tese de
Doutorado, FEEC-UNICAMP, 1994.
[36] J.C.Interlando, R.Palazzo Jr., J.R.Gerˆonimo, A.A.Andrade, O.M.Favareto, e T.P. da
N´obrega Neto, C´odigos Corretores de Erros sobre Estruturas de Corpos, An´eis e Grupos,
DT-FEEC-UNICAMP, 1998.
151
Referˆencias Bibliogr´aficas
[37] B.R.McDonald, Finite Rings with Identity, Marcel Dekker, New York, 1974.
[38] P.Shankar, “On BCH codes over arbitrary integer rings”, IEEE Trans. Inform. Theory,
vol. IT-25, pp.480-483, July 1979.
[39] W.W.Peterson and E.J.Weldon, Jr., Error Correcting Codes, 2nd.ed.,MIT Press, Cam-
bridge, Mass., 1972.
[40] G.D.Forney Jr, “On decoding BCH codes”, IEEE Trans. Inform. Theory, vol.IT-11,
pp.549-557, October 1965.
[41] J.C. Interlando, R. Palazzo, Jr., and M. Elia, “On the decoding of Reed-Solomon and
BCH codes over integer residue rings”, IEEE Trans. Inform. Theory, vol.43, pp. 1013-
1021, 1997.
[42] J.C.Interlando, Uma contribui¸ c˜ao `a Constru¸ c˜ao e Decodifica¸ c˜ao de C´odigos Lineares
sobre Grupos Abelianos via Concatena¸ c˜ao de C´odigos sobre An´eis de Inteiros Residuais,
Tese de Doutorado, Fee-Unicamp, Dezembro de 1994.
[43] E.R.Berlekamp, Algebraic Coding Theory, McGraw Hill, New York, 1968.
[44] J.L.Massey, “Shift register synthesis and BCH decoding”, IEEE Trans. Inform. Theory,
vol. IT-15, pp.122-127, January 1969.
[45] E.Weiss, First course in Algebra and Number Theory, Academic Press, 1971.
[46] G.L. Feng and K.K. Tzeng, “A generalization of the Berlekamp-Massey Algorithm for
Multisequence Shift-Register Synthesis with Applications to Decoding Cyclic Codes”,
IEEE Trans. Inform. Theory, vol.37, n
o
5, pp.1274-1287, September 1991.
[47] C.R.P. Hartmann and K.K. Tzeng, “Generalizations of the BCH Bound”, Inform.
Contr., 20, N
o
5, pp. 489-498, June 1972.
[48] B.R.McDonald, Linear Algebra over Commutative Rings, Marcel Dekker, New York:
Marcel Dekker, 1993.
[49] A.A.Andrade, Uma contribui¸ c˜ao `a Constru¸ c˜ao e Decodifica¸ c˜ao de C´odigos de Bloco Lin-
eares sobre An´eis Finitos, Tese de Doutorado, FEEC-UNICAMP, 1996.
[50] Thomas D. Schneider. “Information content of individual genetic sequences”. Journal of
Theoretical Biology, 189:427-441, 1997.
152
Referˆencias Bibliogr´aficas
[51] Thomas D. Schneider, Gary D. Stormo, Larry Gold, and Andzej Dhrenfeucht. “Informa-
tion Content of Binding Sites on Nucelotide Sequences”. Journal of Molecular Biology,
vol.188, pp. 415-431, 1986.
[52] Thomas D. Schneider and R. Michael Stephens. “Sequence Logos: a NewWay to Display
Consensus Sequences”. Nucleic Acids Research, vol.18, no. 20, pp. 6097-6100, 1990.
[53] H. Yockey, Information Theory and Molecular Biology, Cambridge University Press:
Cambridge, 1992.
[54] D.R. Forsdyke, “Are introns in-series error detecting sequences?”, Intl. J. Theor. Biol.,
vol.93, pp. 861-866, 1981.
[55] D.R. Forsdyke, “Conservation of stem-loop potential in introns of snake venom phos-
pholipase A2 genes. An application of FORS-D analysis”, Mol. Biol. and Evol., vol.12,
pp. 1157-1165, 1995.
[56] Rzeszowska-Wolny, J., “Is genetic code error-correcting?”, J. Theor. Biol., vol.104, pp.
701-702, 1983.
[57] L.S. Liebovitch, Y. Tao, A.T. Todorov, and L. Levine, “Is there an error correcting code
in the base sequence in DNA?”, Biophysical Journal, vol.71, pp. 1539-1544, 1996.
[58] G.L. Rosen, “Examining coding structure and redundancy in DNA”, IEEE Engineering
in Medicine and Biology, vol.25, pp. 62-68, 2006.
[59] G. Battail, “Information Theory and error correcting codes in genetics and biological
evolution”, Introduction to Biosemiotics. Springer: New York, USA, 2006.
[60] E. May, M. Vouk, D. Bitzer and D. Rosnick, “An error-correcting code framework for
genetic sequence analysis”, Journal of the Franklin Institute, vol.34, pp. 89-109, 2004.
[61] Mac Donnaill D.A., “Why nature chose A, C, G, U/T: an error-coding perspective of
nucleotide alphabet composition”. Origins of Life and Evolution of the Biosphere, vol.33,
pp. 433-455, 2003.
[62] R. S´anchez, L.A. Perfetti, R. Grau, E. Morgado, “A new DNA sequences vector space
on a genetic code Galois field”, MATCH Commun. Math. Comput. Chem., vol.54, 2005.
[63] T. Niidome, S. Kitada, K. Shimokata, T. Ogishima, and A. Ito, “Arginine residues in the
extension peptide are required for cleavage of a precursor by mitochondrial processing
peptidase”, The Journal of Biological Chemistry, vol.269, pp. 24719-24722, 1994.
153
Referˆencias Bibliogr´aficas
[64] Faria, L. C. B., Existˆencia de C´odigos Corretores de Erros em Sequˆencias de DNA, Tese
de Doutorado, UNICAMP, 2010.
[65] Felsenstein, J., “Confidence-Limits on Phylogenies - an Approach Using the Bootstrap”,
Evolution, 39, 783-791, 1985.
[66] Tamura, K., et al., “MEGA4: Molecular evolutionary genetics analysis (MEGA) soft-
ware version 4.0”, Mol Biol Evol, 24, 1596-1599, 2007.
[67] Posada, D. Using MODELTEST and PAUP* to select a model of nucleotide substitution,
Current protocols in bioinformatics / editoral board, Andreas D. Baxevanis ... et al,
Chapter 6, Unit 6 5, 2003.
[68] Posada, D. ModelTest Server: a web-based tool for the statistical selection of models of
nucleotide substitution online, Nucleic Acids Res, 34, W700-703, 2006.
[69] Rodriguez, F., et al. “The general stochastic model of nucleotide substitution”, J Theor
Biol, vol.142, pp. 485-501, 1990.
[70] Schoniger, M. and von Haeseler, A. “Simulating efficiently the evolution of DNA se-
quences”, Comput Appl Biosci, vol.11, pp. 111-115, 1995.
[71] Huelsenbeck, J.P. and Ronquist, F. “MRBAYES: Bayesian inference of phylogenetic
trees”, Bioinformatics, vol.17, pp. 754-755, 2001.
[72] Hedges, S. B., J. E. Blair, et al. “A molecular timescale of eukaryote evolution and the
rise of complex multicellular life.”, BMC Evol Biol, vol.4, pp. 2, 2004.
[73] Heckman, D. S., D. M. Geiser, et al. “Molecular evidence for the early colonization of
land by fungi and plants.”, Science, vol.293 , no. 5532, pp. 1129-33, 2001.
[74] Sanderson, M. J., J. L. Thorne, et al. “Molecular evidence on plant divergence times”,
American Journal of Botany, vol.91, pp. 1656-1665, 2004.
[75] Drummond, A. J. and A. Rambaut “BEAST: Bayesian evolutionary analysis by sampling
trees.”, BMC Evol Biol, vol.7, pp. 214, 2007.
[76] Francoise Ambard-Bretteville, Ian Small, Olivier Grandjean and Catherine Colas des
Francs-Small, “Discrete mutations in the presequence of potato formate dehydrogenase
inhibit the in vivo targeting of GFP fusions into mitochondria”. Biochemical and Bio-
physical Research Communications, vol.311, pp. 966-971, 2003.
154
Referˆencias Bibliogr´aficas
[77] Claire Pujol, Laurence Mar´echal-Drouard and Anne-Marie Duchˆene, “How can organel-
lar protein N-terminal sequences be dual targeting signals? In silico analysis and muta-
genesis approach”., J. Mol. Biol, vol.369, pp. 356-367, 2007.
155

.

Dedico i . Roubei tantas horas ao teu conv´ ıvio para poder escrever esta tese. Por isso ela te pertence. meu amor. Henrique Esteban.Para o meu filho.

disposi¸˜o. Reginaldo Palazzo J´ nior pela sua excelente orienta¸˜o. Por todos os nossos almo¸os. Dr. amor e respeito. pelo seu carinho e dedica¸ao ao ensino da matem´tica c˜ a neste pa´ Em especial pelo meu encaminhamento ao mundo acadˆmico. A minha doce irm˜ por sempre ter confiado em mim e me elogiado em excesso. Luzinete. o a e ` As minhas amigas. Dr.Agradecimentos 1 Ao Prof. principalmente por c e sempre terem me ajudado quando precisei dando-me for¸a para continuar. a Ao meu co-orientador Prof. Geraldo Pompeu Jr. Wanessa e Clarice. Este e a trabalho s´ foi poss´ devido ` sua parceria e `s nossas longas conversas sobre o mundo o ıvel a a biol´gico e matem´tico. e Aos meus pais. o e e a das nossas agrad´veis conversas e das boas risadas. Dr. bem como por suas valiosas sugest˜es. ` professora Carmen o a Bertuzzo pelo carinho com que sempre nos tratou. e Ao Prof. e a ` A minha grande amiga irm˜. Vocˆ ser´ o meu ıs. Maria e Antonio. Uma das pessoas mais dignas e corretas que j´ conheci. A admira¸˜o a ca rec´ ıproca ´ mais que verdadeira. pelos ´timos momentos em que passamos estes o anos. Ao meu marido Gerson pelo seu constante apoio no decorrer deste trabalho. com muito carinho e saudades. pelas ´timas gargalhadas. por terem me ensinado a nunca desistir dos meus sonhos. Sempre c me recordarei. das nossas reuni˜es regadas a muitos caf´s. Sem a sua compreens˜o e companheirismo este a trabalho jamais seria concretizado. sempre t˜o querida e prestativa durante todos a a estes anos de convivˆncia. Walter Borelli pelas ´timas coversas sobre diversos assuntos. e e a eterno “padrinho acadˆmico”. mas principalo mente. Em especial pela sua paciˆncia nos momentos dif´ e ıceis. M´rcio de Castro Silva Filho pelas nossas conversas e a pela oportunidade desta parceria. Ao Dr. Marcelo M. Aos professores membros da banca examinadora pela disponibilidade e aten¸˜o dispensada ca ao trabalho. Com vocˆ deixo o meu eterno carinho. tenho muito orgulho em ser sua irm˜. ` sua amizade e ` a a a sua confian¸a depositada em mim. Ao Prof. Meu grande exemplo de humildade e bondade. Dr. Pe¸o a Deus que conserve este ´timo senso de humor t˜o o c o a peculiar. Deixo com vocˆ a minha eterna gratid˜o. Claro que n˜o c a 1 Este trabalho foi financiado pelo Conselho Nacional de Desenvolvimento Cient´ ıfico e Tecnol´gico . caf´s e “batidinhas de pernas”..CNPq o iii . Em particular. Em especial. Muito obrigada por ser a minha alma gˆmea. Brand˜o pela ajuda na escrita da se¸˜o sobre filogenia e por estar a ca sempre disposto a ajudar. paciˆncia u ca ca e e compreens˜o durante o desenvolvimento deste trabalho.

Em especial. ca Aos meus amigos. Jo˜o Henrique e Giuliano.poderia me esquecer. agrade¸o a todos meus amigos e colegas que. Guardo a nossa ca amizade no meu cora¸˜o. a De modo geral. da nossa hil´ria visita ` cl´ a a ınica de reprodu¸˜o humana. a minha querida Noˆmia que tornou-se uma grande amiga no decorrer e destes anos. meus dois irm˜ozinhos que tornaram esta a a jornada inesquec´ e muito prazerosa. e Aos funcion´rios da FEEC que de alguma forma contribuiram para a realiza¸˜o deste a ca trabalho. ca iv . ` A FAPESP pelo suporte junto ao projeto tem´tico 02/07473-7. direta ou indiretamente. Admiro a sua dedica¸˜o e a A ca sua competˆncia. ıvel e co ` minha amiga Lucila por estar sempre disposta a ajudar. Com vocˆs deixo as minhas melhores recorda¸˜es. c contribu´ ıram para realiza¸˜o deste trabalho.

Usando os conceitos da teoria de comuo ca nica¸˜o. G. a existˆncia de c´digos corretores de erros associados com as sequˆncias de DNA. T ) no alfabeto (0. pela primeira e vez. 1.Resumo Um dos desafios em biologia matem´tica ´ mostrar a existˆncia de qualquer forma de a e e c´digos corretores de erros na estrutura do DNA. o o e um modulador (c´digo gen´tico. um decodificador (o complexo GIP . Neste trabalho mostramos que as sequˆncias de e DNA (sequˆncias de direcionamento) s˜o identificadas como palavras-c´digo de um c´digo e a o o G-linear sobre a extens˜o de um anel de Galois. 2. O processo de decodifica¸˜o baseia-se em o e ca uma analogia entre o processo de decodifica¸˜o do algoritmo Berlekamp-Massey para an´is e ca e o complexo TOM (complexo ancorado na membrana externa da mitocˆndria respons´vel por o a auxiliar na importa¸˜o das prote´ ca ınas precursoras). um codificador (c´digo BCH). Um estudo filogen´tico sugere que a prote´ e ına malato desidrogenase da Arabidopsis thaliana encontrada no banco de dados NCBI ´ uma e sequˆncia derivada da prote´ malato desidrogenase reproduzida pelo c´digo corretor de e ına o erros. propomos um modelo para o sistema de codifica¸˜o e decodifica¸˜o do mecanismo ca ca de importa¸˜o de prote´ ca ınas mitocondriais similar a um sistema de comunica¸˜es digital. Os resultados e o apresentados neste trabalho contribuem para o desenvolvimento de um procedimento sistem´tico que poder´ ser empregado em an´lises de muta¸oes/polimorfismos com aplica¸˜es a a a c˜ co na engenharia gen´tica. os e o e quais sugerem fortemente a existˆncia de c´digos concatenados no genoma. muta¸˜es. polimorfismo. tRNA e rRNA). 3) usado pelo c´digo sobre a estrutura de anel. Este co modelo consiste de um mapeador respons´vel por transformar os nucleot´ a ıdeos (A. c´digo BCH. Este modelo tamb´m reproduz com not´vel precis˜o os parˆmetros cin´ticos baseados e a a a e em substitui¸˜es de amino´cidos em oligopept´ co a ıdeos sint´ticos.poro geral de inser¸˜o) e o ca receptor (subcompartimento mitocondrial). transo o e porte de prote´ ınas. respectivamente. sequˆncias de DNA. C. Neste processo temos um demodulador (prote´ ınas Tom 70 e Tom20). Al´m disso. Apresentamos. e Palavras-chave: C´digos corretores de erros. essas sequˆncias de DNA e suas a e e fitas complementares est˜o relacionadas matematicamente atrav´s dos polinˆmios primitivos a e o e seus polinˆmios rec´ o ıprocos. co v .

We show. found in the NCBI databank is a derived sequence of the MDH protein reproduced by the error correcting code.Abstract One of the puzzling problems in mathematical biology is to show the existence of any form of error-correcting code in the DNA structure. vii . and a modulator (genetic code. This model also reproduces with remarkable accuracy kinetic parameters based on amino acid substitutions on synthetic oligopeptides. The results presented in this work contribute to the development of a systematic procedure which may be employed in the mutations/polymorphisms analysis with applications in genetic engineering. for the first time. Using information theory considerations we propose a model for the biological coding system similar to that of a digital communication system.3) ring. transport proteins. Key-words: Error correction code . In this process we have a demodulator (Tom 70 and Tom 20 proteins). respectively. polymorphisms. an encoder (BCH code). a decoder (GIP complex) and the receiver (mitochondrion). In this work we show that DNA sequences (targeting sequences) are identified as codewords of a G-linear code over Galois ring extensions. The decoding process is based on the Modified Berlekamp-Massey algothm in an analogy with the TOM complex (translocase of the mitochondrial outer membrane).1.2. the existence of error-correcting codes associated with DNA sequences. these DNA sequences and their complementary strands are mathematically related to the primitive polynomials and their reciprocal polynomials. A phylogenetic study suggest that the MDH protein. tRNA and rRNA). DNA sequences. which strongly infer on the existence of nested codes within the genome. In addition. Arabidopsis thaliana. mutations. BCH code. This model consists of a mapper (transformations from the set of nucleotides either to the set (0.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . c o 1. . . . . . . . . . . . . . . . . . . . . . . . . . i iii v vii xii xv 1 1 3 5 8 10 13 13 14 17 28 31 32 36 40 44 1. . . . . .2 Modelos Propostos na Literatura .2 2. . . .3 2. . . . . . . . . . . . . . . o Muta¸˜es . . . co Estruturas Alg´bricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2.2 2. . . . . . . . . o C´digos Geometricamente Uniformes . . . . . . . ca 2 Elementos de Biologia e C´digos Corretores de Erros o 2. . . . . e C´digos . 2. . . . . . . . . . . . . . . . . .2. . . . . . . . . . . . . . . . . . . . . .1. . . . . . .1 Importa¸˜o de Prote´ ca ınas Organelares . . . . . . . . . . . . . . . . . . e An´is . . . . . . . . . . . . . . . . . . . ca 1. . . . .2. . . . . . . . . . . . . . . . 1. . . .1 2. . . . . . . . . . . . . . . . . . . .1 Os Avan¸os Hist´ricos . . o . .1 2. .1 Proposta de um modelo de comunica¸˜o gen´tica para a importa¸˜o ca e ca de prote´ ınas organelares . . . . . . . .3 Apresenta¸˜o do Problema .1. . . . . . . . . . . . . .4 Descri¸˜o do Trabalho . o ix 2. . . . . . . . . .3 2. . . . . . . .Conte´do u Dedicat´ria o Agradecimentos Resumo Abstract Lista de Figuras Lista de Tabelas 1 Introdu¸˜o ca 1. .2 C´digos Corretores de Erros . . . . .1. . . . . . . . . .2. . . . . . . . . . . . . . . . . . .2. .4 A Mol´cula de DNA . . . . e Importa¸˜o de Prote´ ca ınas em Mitocˆndrias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . .5 Dependˆncia entre os c´digos corretores de erros e os polinˆmios prime o o itivos . . . . .3 4. . . . . . . . . . . . . . . . . . . . . . . . .1 Analogias entre um Sistema de Informa¸˜o Gen´tica e um Sistema de Comuca e nica¸˜o . . . . . .1 2. .1. . . . ca 5. . . . . . . . . ca 4. .1 Algoritmo de Decodifica¸˜o . . . . . . . . . . . . ca o O c´digo e a estrutura matem´tica . . . . . . ca o 69 69 71 72 73 73 74 76 77 78 83 84 93 94 94 95 96 97 107 108 116 118 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 3. . . . . . . .2. o e O Processo de Decodifica¸˜o . .3. 3. . . . . . . . . . . . . . . . ca a a Alto fluxo de informa¸˜o . . . . . . . . . .6 2. . . . . .2 3. . . . . . . . . . . . .1 3. . . . . . . . . . . . . . . . . . . . . . .4 3. . . . . . . . . . . . . . . . . . . . . . . . . a 5 Regenera¸˜o de Sequˆncias de DNA ca e 5. . . . . . . .3 3. . . . . . e C´digos BCH sobre An´is . . . . . . . O dogma central da teoria de comunica¸˜es . . . .2. . . . . . ca Gera¸˜o de Sequˆncias . . . . . . . . .2. .3 O dogma central da biologia molecular . . . . . . . . . . ca 4.baixa redundˆncia . . . . . . . . . . . . . .1. . . . . . . . ca 5. . . . . .3. . . . . . . . . . . co Analogias entre sistema de informa¸˜o gen´tica e o sistema de comuca e nica¸˜es . . . . . . . . . . . ca 3. . . . ca e e x . . .4 4. . . . . . . . . . . . .3 Decodifica¸˜o do C´digo BCH sobre Anel . . . . . . . . . . . . . . . . . . . . . . . . .2.2 Resultados da Decodifica¸˜o .2 3. . . . . . . . . . . . . . . . . .2. . . . . . . . . . . . . Rotulamento das sequˆncias de DNA . . . . . .2.2. . . . . . . .2 Resultados da Codifica¸˜o . . . . . . . . . . . . . . ca a Classifica¸˜o das sequˆncias de direcionamento sob o ponto de vista ca e matem´tico . .5 4 Gera¸˜o das Sequˆncias de Direcionamento ca e 4. . . . . . . . . o a Parˆmetros do c´digo . . . . . . .2. ca e 48 52 55 56 65 2. . . . . . .2. . . . . .1 Algoritmo de Codifica¸˜o . . . . . . . .Conte´ do u 2. . . . . . . . . . .1 4. . . . . . . . . . . .1. . . . . . . . e Rela¸˜o matem´tica entre as fitas codante e n˜o codante . . . . . . . co Sistema de comunica¸˜o digital . .2.2 4. . . . . . . . . . . . . . ca Sistema de comunica¸˜o biol´gico . . . . . .2. . . . . . . . .2. . . a o Modelo do sistema de comunica¸˜o biol´gico . . . . . . .5 2. . . . . . . . .2 C´digos C´ o ıclicos Sobre An´is de Inteiros Residuais . . . . . . . . . . . . . . ca o 3 Modelo de um Sistema de Comunica¸˜o para a Importa¸˜o de Prote´ ca ca ınas Organelares 69 3. . . . . . .3 Reprodu¸˜o das Sequˆncias de DNA atrav´s do LFSR . . . . . . . .2 Proposta de um Sistema de Comunica¸˜o para a Importa¸˜o de Prote´ ca ca ınas . . . . .

. . . . . . . . .3 Simula¸˜es de Muta¸˜es em Sequˆncias de Direcionamento Mitocondriais . . . .2 Resultados das an´lises via laborat´rio .1 6. co Referˆncias Bibliogr´ficas e a 145 146 147 148 xi . .1. . .2 Contribui¸˜es do Trabalho . . .4 Considera¸˜es Finais . . . co 7. . 126 6. . . . . . . . . . 6. . . . . . . . . . . . . . .3 Propostas Futuras . co co e 7 Conclus˜es e Perspectivas Futuras o 143 7. . . . . . 7. . . . . . . . . . 144 7. . . . . . . . . . . . . . . . . . . . .Conte´ do u 6 An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e 125 6. . . .1 Desenvolvimento do Trabalho . . . . . . . . . . . . .2 Estudo de Filogenia . . . . . . . . . . . a o 127 128 130 133 6. . . . . . . . . . . . . . . . . . . . . a o Resultados das an´lises via c´digos corretores de erro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 An´lises da Importˆncia dos Res´ a a ıduos de Argininas . . . . .1. . . . .

33. . . . . . . . Vol.2 Estrutura tridimensional do DNA. . . . . . pp. Lodish et al. . . . . ca 1. . . . . . [3]. . . . . 18. . . . . . .7 O complexo TIM23. . . . . 6515-6524. . . . Molecular Cell Bio o ology. . Lodish et al. xiii 26 27 20 6 6 7 15 16 16 18 . . . Vol. . . . . .6 O complexo TOM. 2.9 Importa¸˜o de prote´ ca ınas para o interior da matriz. . . . . . . . . . . . . e 2. . 11. 2. . 2. . . . . . . . . . . . . . . . . . . . . .1 Teoria da informa¸˜o baseada no modelo de Roman-Roldan. . . . . Lodish et al. . . pp. . . .3 Fitas complementares de DNA. . . . . Protein import into mitochondria Biochemical Society. . . . . . Molecular Cell Biology. . .. . . . . . . . . .3 Modelo de um sistema de comunica¸˜o para a importa¸˜o de prote´ ca ca ınas organelares. . . . . . . . . . . . .. . . . . . . Mokranjac. . . . . . . . . . . . . . . . . . . . Assembling the Mitochondrial Outer Membrane. . . . . 5th Edition. . . . . . . . . . . . . 1998. . . . . Molecular and Cellular Biology. . . 5th Edition. . . . . 5th Edition. . . . . . . . . Vol. . . 11. . Molecular Cell Biology. . . . . . . . . . . . . . . pp. . . .11 Importa¸˜o de prote´ ca ınas para o espa¸o intermembranas. 2004. . . . . . Vol.8 Diferentes rotas para a importa¸˜o de prote´ ca ınas mitocondriais. . . . . . . . . . . .1 Formas tautom´ricas das bases. 2. . . . . . . . . . . . 2. . . . . . .2 Modelo proposto pela May. . . . . . . . .4 Micrografia eletrˆnica de uma mitocˆndria. . . . . . .. . . . . . . . . . . et al. . . . . 2. . . . . . . . . . . . . . . . . . 2005. 1019-1023. . . . . . . . .. . . . . . . . . . . . . .. . . . . . .10 Importa¸˜o de prote´ ca ınas para membrana externa. Nature Structural & Molecular Biology. . Pfanner. . Molecc ular Cell Biology. . .. . . 2. . 1044-1048. . . . . . 2. Nature Structural & Molecular Biology. . . Dekker et al. . . 1044-1048. . .5 Os translocons de prote´ ınas na mitocˆndria. . . . . . . . . . 5th Edition. . pp. . Pfanner et al. Preprotein Translocase of the Outer Mitochondrial Membrane: Molecular Dissection and Assembly of the General Import Pore Complex. . . . . . . . . . . . . . .Lista de Figuras 1. . . .. . . . . . . . 1. . Assembling the o Mitochondrial Outer Membrane”. . 21 22 24 25 2. . . Lodish et al. . . . . . 2.

. . . . . . . . a 5. . . . . . . . O c´digo faz a leitura das ca a o palavras-c´digos no sentido da esquerda para ` direita. . . . . . . . . . . . . . . Molecular Cell Biology. . . . . . . . . .7 LFSR fita n˜o codante 5’ para 3’. . 5. . . . . . . . . . . . . . 3. . . . . . . . . . .9 Reprodu¸˜o atrav´s do LFSR da fita codante 5’ para 3’. . . .. . .4 Modelo de um sistema de comunica¸˜o para importa¸˜o de prote´ ca ca ınas. . . 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. . . .4 Phylogenetic tree inferred by Bayesian analysis from the data set. . . . . . . . . . . . . . . . . B e C. . . 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12 Importa¸˜o de prote´ ca ınas para a membrana interna. . . 2. . . . . . . . . . . . .2 Rela¸˜o entre a dupla fita do DNA. . . o 5. . . . . . . . . . . . . . . . . . . . . . . . .2 Sequˆncia reproduzida pelo c´digo BCH. . A cor vermelha indica o a onde ocorreu a diferen¸a de nucleot´ c ıdeos. . . . . a 5. 4. . ca o 3.4 Vetor u . . . . . . . . .2 Modelo de um sistema de comunica¸˜es de informa¸˜o gen´tica. . . . . . . . . . . . . . . . xiv 132 133 96 28 66 71 73 74 75 78 79 80 95 97 116 117 117 120 121 122 122 122 123 129 129 . . . . . 6. . . . . . . . . . . . . . . . . . . . . .7 Modelo proposto para decodifica¸˜o biol´gica. . . . . . . . . . . . . . .6 LFSR fita codante 5’ para 3’. . . . . . . O c´digo faz a leitura das palavras-c´digos ca o o no sentido da esquerda para ` direita. . A cor vermelha indica onde ocorreu a a diferen¸a de nucleot´ c ıdeos. .1 Pept´ ıdeo reproduzido nos trˆs rotulamentos. Lodish et al. 5. . . . . . . . 5th Edition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5 Vetor u .6 Modelo proposto para codifica¸˜o biol´gica. Values close to the branches indicate Bayesian posterior probability. . . . . . . . . . . .1 SD NCBI em SD reproduzida pelo c´digo. . . . . . . . o 5. . . . . . .3 Rela¸˜o entre as fitas codante e n˜o codante. . .13 LFSR (“linear feedback shift-register”) de comprimento L. . co 3. ca o 4. . . .8 Fita codante 5’ para 3’. . . . . . .1 Dogma central da teoria de comunica¸˜es. . . . . . . . . . . .3 Phenogram inferred using the Neighbor-Joining method with the evolutionary distances computed using the Jukes-Cantor model. . . . co 3. . . . . . . .3 Diagrama de blocos de um sistema de comunica¸˜o. . . . . . . . . . . . . . The percentage of replicate trees in which the associated taxa clustered together in the bootstrap test (1000 replicates). . . . . . . 3. . . .2 SD reproduzida pelo c´digo em SD NCBI.. . . . . e 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3 Fitas codante e n˜o codante. . . . ca e 6. . e o 6. . . . . . . . ca 3. .Lista de Figuras 2. . . . . . . . . . . . . . . .5 Sistema de comunica¸˜es digital. . . . . . . . . 4. . . . . . . . . . . . . .1 Rotulamentos A. . co ca e 3. . .

. . . . . . . . . . . . . . . ca 5. . . a 5. . . . . . . . . . . p4 (x) = x6 + x4 + x3 + x + 1. . . . . . . . . . . . . . . o 6.3 Tabela de Decodifica¸˜o. . . C = cloroplasto. . . . a 4. . . . . .3 Efeitos das substitui¸˜es dos res´ co ıduos de argininas por alaninas e lisinas na clivagem pela MPP atrav´s de c´digos corretores de erros.4 Elementos de G63 . . . . . . . . . . . . .5 Sequˆncias de direcionamento com uma classe de s´ e ındrome. 5. . . . . . . . . . . .6 Sequˆncias de direcionamento com duas classes de s´ e ındromes. .1 M = mitocˆndria. . . 6. . . . . . Fita codante 5’ para 3’ e fita n˜o codante 3’ para 5’. . . . . . . . . . . ca 4. . . . . . . . .1 Arranjo padr˜o. . . . . . . . . . . . . . . . . . . 6). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 5. . . . . . ca 4. . 6. . . . . . . . . . . . . . . . . . . . ca 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. . Polinˆmios primitivos da extens˜o r = 6: o o a p1 (x) = x6 + x + 1. . . . . .1 Extens˜es peptidases analisadas. . 5. Fita codante 5’ para 3’ e fita n˜o codante 3’ para 5’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3 Elementos de GR∗ (4.1 Tabela de Decodifica¸˜o. . a 4. . . . . . .2 Tabela de Decodifica¸˜o. . . . Fita complementar invertida 5’ para 3’. . . . . ca 5. . . . . . . . . . . . Fita complementar invertida 5’ para 3’. . . . . ca co 4. .5 Rela¸˜o entre as linhas da matriz P e as 24 permuta¸˜es. . . . . RE = ret´ o ıculo endoplasm´tico. . . . . . . . .4 Complementares. . . . . . . .2 Efeitos das substitui¸˜es dos res´ co ıduos de argininas por alaninas e lisinas na clivagem pela MPP. . . . . . p2 (x) = x6 + x5 + x2 + x + 1. . 6) em nota¸˜o de r-uplas . . . .7 Sequˆncias de direcionamento com uma classe de s´ e ındrome. . . p3 (x) = x6 + x5 + x3 + x2 + 1. . . . . . . . . . . . . . . . e o xv 119 127 128 130 118 110 111 113 115 118 118 43 84 86 87 88 91 . .Lista de Tabelas 2.6 C´digos BCH sobre GR(4. . . . . .8 Sequˆncias de direcionamento com duas classes de s´ e ındromes. . . . . . . . .2 Elementos de F64 em nota¸˜o de r-uplas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p5 (x) = x6 + x5 + x4 + x + 1 e p6 (x) = x6 + x5 + 1. . . . . . . a 5.

. . . .7 Resultados das substitui¸˜es dos res´ co ıduos de argininas. . .8 Resultados das substitui¸˜es dos res´ co ıduos de argininas. . . . . . . . . . . . . . 6. . 6. . .6 Resultados das substitui¸˜es dos res´ co ıduos de argininas. . . . . . .4 Resultados das substitui¸˜es dos res´ co ıduos de argininas. 136 138 139 140 142 xvi . . . . . . .5 Resultados das substitui¸˜es dos res´ co ıduos de argininas. . . . . . . . 6. .Lista de Tabelas 6. . . . . . . . . . . . . . . . . . 6. .

Francis Crick. ca a 1. Al´m do fato de que a teoria de e e c˜ e comunica¸˜es ´ realizada pelo homem e a gen´tica por um processo natural. ambas diferem co e e entre si. e A quest˜o central pode ser colocada da seguinte maneira: A estrutura te´rica elaborada a o pelo homem pode contribuir para uma melhor compreens˜o dos processos naturais que ena volvem a comunica¸˜o gen´tica ? A resposta ´ sim. os pesquisadores concentravam-se na gen´tica cl´ssica. no desenvolvimento de um poderoso ferramental conceitual. e a a O sucesso consider´vel da tecnologia de comunica¸˜o conta com o progresso significativo a ca na concep¸˜o de dispositivos f´ ca ısicos mas tamb´m. principalmente. A teoria de comunica¸˜es a a co est´ programada para enviar mensagens no espa¸o. Em 1953. por n˜o operarem na mesma dimens˜o. a estrutura de dupla h´lice do DNA foi decifrada e e por James Watson. tanto a teoria de comunica¸˜es quanto a a co gen´tica preocupam-se com a transferˆncia da informa¸ao. enquanto que a a c gen´tica est´ programada para enviar mensagens heredit´rias no tempo [1]. e e a 1 .1 Os Avan¸os Hist´ricos c o Em meados do s´culo XX ocorreram grandes avan¸os tanto na engenharia de comunica¸˜o e c ca quanto na engenharia gen´tica. Maurice Wilkins e Rosalind Franklin. Com esta descoberta ficou claro que a informa¸˜o gen´tica est´ armazenada na forma de duas fitas diretamente ca e a complementares compostas por letras de um alfabeto de quatro s´ ımbolos.Cap´ ıtulo 1 Introdu¸˜o ca Embora n˜o aparentam estar relacionadas. At´ a descoberta e das bases moleculares da gen´tica. de um lugar para outro. ´ suficientemente abrangente para aplica¸˜o na comunica¸˜o ca e c e ca ca atrav´s do tempo [1]. embora muito menos percept´ e ıvel. Embora esse ferramental tenha sido originalmente desenvolvido para a coca munica¸˜o atrav´s do espa¸o. A perspectiva provida principalmente ca e e pela teoria da informa¸˜o renova a vis˜o que podemos ter do “mundo vivo”[1]. consistentemente garantido pelo teoria da informa¸˜o.

323 de 27/02/2009 comenta: “These revolutions showed the seeds of a third revolution that links the life sciences with engineering and the physical sciences in powerful new ways. presidente do Instituto Tecnol´gico de Massachusetts (MIT). Shannon desviou o ıdo seu foco para a comunica¸˜o digital e criptografia. da internet e dos computadores. por´m com um n´ mero muito reduzido de pesquisadores. biologists worked increasingly closely with mathematicians. Desde ent˜o. Apesar e a co do trabalho ser muito original naquela ´poca. com o objetivo de esclarecer como co a a e diferentes combina¸˜es de caracter´ co ısticas se propagaram atrav´s de v´rias gera¸˜es. o tornou e a pouco conhecido e divulgado. Claude Elwood Shannon em sua tese de doutorado desenvolveu uma proposta sobre rela¸˜es matem´ticas ligadas ` gen´tica Mendeliana. Usando tal defini¸˜o de informa¸˜o. Ap´s ter conclu´ a sua tese de doutorado. Susan Hockfield. Essas descobertas revolucionaram a ciˆncia da vida e proporcionaram e o desenvolvimento em tecnologias de DNA recombinante e o lan¸amento das ind´ strias bioc u tecnol´gicas. Shannon estabeleceu a teoria fundamental de um sistema de o comunica¸˜o digital. With the evolution of data and technology-based biology. o fato de n˜o ter sido publicado. definindo a informa¸˜o de maneira abstrata independente da semˆntica ca ca a que n˜o diferencia texto. Ap´s alguns anos. A sua teoria ocasionou um impacto enorme em nosso cotidiano levando ca principalmente ao desenvolvimento dos celulares. and physical scientists”. engineers. v´ a ıdeo ou ´udio como era geralmente feito naquela ´poca nos estudos a e de sistemas de comunica¸˜o. Historicamente.Cap´ ıtulo 1. por´m esses esfor¸os n˜o tiveram sucesso. a aplica¸˜o da teoria da informa¸˜o para an´lises de dados gen´ticos ca ca a e iniciou-se na d´cada de 1970. introduzindo o conceito de informa¸˜o baseado somente na caracter´ ca ıstica estat´ ıstica da fonte de informa¸˜o. Os trabalhos atuale u 2 . Shannon estabeleceu a teoria fundamental de um sistema de comunica¸˜o dica gital. Em 1940. ca Em 1948. em um o editorial da Science vol. e e c a o o aumento de dados gen´ticos despertou novamente o interesse na aplica¸˜o da teoria da e ca informa¸˜o ao estudo do genoma. Introdu¸˜o ca baseada nas leis da hereditariedade propostas pelo monge austr´ ıaco Gregor Mendel. Shannon provou que a ca ca ca mensagem gerada por uma fonte de informa¸˜o pode ser compactada at´ o limite da entropia ca e da fonte (teorema de codifica¸˜o de fonte) e que ´ poss´ ca e ıvel codificar a mensagem de tal maneira que possamos transmiti-la livre de erros com uma taxa m´xima que o canal permite a (teorema de codifica¸˜o de canal). c o A elucida¸˜o da estrutura do DNA possibilitou descobertas fundamentais na biologia ca celular e molecular. Esse segundo per´ ca ıodo de pesquisas continua at´ o presente e momento. bringing to biology new analytical strategies and technologies. Por outro lado. Many of molecular biology’s founders came from the physical sciences. a engenharia de comunica¸˜es tem criado ca a co algoritmos e estrat´gias para atingir os limitantes destes dois teoremas e consequentemente e realizando grandes avan¸os tecnol´gicos.

Introdu¸˜o ca mente buscam analogias entre o fluxo de informa¸˜o biol´gica e o sistema de comunica¸˜o. comunica¸˜o e codifica¸˜o. comunica¸˜o e codifica¸˜o. v´rios e o a pesquisadores em teoria da informa¸˜o e da codifica¸˜o realizam pesquisas em duas frentes. comunica¸˜o e codic ca ca fica¸˜o podem ser alcan¸ados atrav´s da compreens˜o do sistema de informa¸˜o biol´gico. ca ca ca • Compreender como as interferˆncias afetam os sistemas biol´gicos. ca ıvel o ıvel o 1. tais como: e a c • Identificar sistemas biol´gicos que podem ser investigados experimentalmente usando o as teorias da informa¸˜o. ca ıvel o • A cria¸˜o de novas t´cnicas de codifica¸˜o que aproximam a capacidade do canal para ca e ca uma aplica¸˜o molecular tanto em n´ nanotecnol´gico quanto em n´ macrosc´pico. ca ca 3 . Nos ultimos anos. sendo que tais parˆmetros podem ser ca o e a usados na constru¸˜o do mais alto n´ de um sistema biol´gico. se transforme em uma ciˆncia fundamentada e e e teoricamente. ca o ca dividindo-se basicamente em trˆs linhas de pesquisas: teoria da informa¸˜o gen´tica. o conceito geral de informa¸˜o proposto por Shannon. comunica¸˜o e codifica¸˜o podem explicar os parˆca ca ca a metros de intera¸˜o biol´gica entre mol´culas. • Compreender como a codifica¸˜o multidimensional ´ gerada e usada em prote´ ca e ınas e outras estruturas biol´gicas. o • Como as teorias da informa¸˜o. comunica¸˜o e codifica¸˜o em sistemas biol´gica ca ca ca o cos contribuem para uma melhor compreens˜o dos paradigmas biol´gicos fazendo com que a o a biologia. ca ca ca • Usar a quantidade de dados e experiˆncias dispon´ e ıveis para testar a aplica¸˜o das teorias ca da informa¸˜o. ca e ca e A aplica¸˜o das teorias da informa¸˜o. motivados pela disponibilica ´ dade de uma quantidade muito grande de sequˆncias genˆmicas em bancos de dados. os avan¸os das teorias da informa¸˜o.Cap´ ıtulo 1. Por outro lado.2 Modelos Propostos na Literatura A defini¸˜o da informa¸˜o baseada somente em caracter´ ca ca ısticas estat´ ısticas da fonte de informa¸˜o ´ tamb´m aplicada em dados gen´ticos. e o • Descobrir como as hip´teses da teoria da informa¸˜o e codifica¸˜o podem ser moo ca ca dificadas ou flexibilizadas para aplica-las em sistemas moleculares. que hoje ´ uma ciˆncia descritiva. teoria e ca e da comunica¸˜o gen´tica e a teoria da codifica¸˜o gen´tica. ca c e a ca o Esta nova abordagem ´ muito promissora podendo proporcionar v´rios avan¸os. Recentes avan¸os na tecnologia de sequenca e e e c ciamento do DNA fornecem dados suficientes para aplicar em biologia molecular.

argumenta sobre a existˆncia de co co e e c´digos entrela¸ados no DNA. o ca Todavia. sob o ponto de vista da teoria de comunica¸˜o. identificando cada amino´cido com uma sequˆncia bin´ria. `quele do sistema biol´gico por considerar que a informa¸˜o a o ca contida no genoma (estrutura do DNA) se d´ atrav´s de pacotes de informa¸˜o contendo a e ca regi˜es com sequˆncias relacionadas a sincronismo. Liebovitch em [57]. codificantes. Schneider em [50. propˆs um procedimento que torna poss´ determinar se um tipo de o ıvel c´digo corretor de erro est´ presente ou n˜o na sequˆncia do DNA. Yockey em [53]. uma vez que o tamanho do genoma humano ´ muito maior que o c e o necess´rio para especificar as caracter´ a ısticas de cada indiv´ ıduo. A abordagem destes dois ca e o e ultimos artigos est´ relacionada exclusivamente com o c´digo gen´tico. Rosen em [58] apreseno a a e tou um m´todo para a dete¸˜o de c´digos de bloco lineares que explica a possibilidade de e ca o inser¸˜es e dele¸˜es nas sequˆncias de DNA. Forsdyke em [54. Mac Donnaill em [61]. propˆs um c´digo de verifica¸˜o de paridade relacionado o o ca ` composi¸˜o dos nucleot´ a ca ıdeos. propˆs que um arranjo aproo priado do DNA em nucleosomos pode ser relevante para a operacionalidade deste sistema. propˆs a constru¸˜o de um espa¸o vetorial a o ca c associado ao c´digo gen´tico tendo como estrutura matem´tica o corpo de Galois com 64 o e a elementos. n˜o o e ca a codificantes. Rzeszowska-Wolny. Com base na semelhan¸a entre o fluxo de informa¸˜o biol´gica e o sistema de comuc ca o nica¸˜o. e o e 4 . May em [60]. [59]. v´rios modelos foram propostos. 51. os trabalhos citados anteriormente n˜o foram capazes de fornecer subs´ a ıdios sobre a existˆncia de c´digos corretores de erros nas sequˆncias de DNA. Por outro lado. S´nchez.Cap´ ıtulo 1. [56]. apresentou um modelo de ca sistema de comunica¸˜o digital associado ao da express˜o gˆnica. as pesquisas concentram-se mais ca no aspecto de adapta¸˜o do modelo tradicional de um sistema de comunica¸˜o digital. identifica¸˜o de pacotes. fornecer a fundamenta¸˜o necess´ria para a caracteriza¸˜o de ca ca a ca c´digos corretores de erros (problema de codifica¸˜o de canal). 52]. Battail. aplicar os conceitos inerentes desta ca com o objetivo de apresentar um m´todo sistem´tico de determina¸˜o das regi˜es codantes e a ca o e n˜o-codantes na estrutura do DNA (problema de codifica¸ao de fonte). [62]. ´ a o e Uma quest˜o sempre presente na maioria dos trabalhos relacionados com codifica¸˜o a ca genˆmica ´ a seguinte: Existe alguma forma de c´digo corretor de erros na estrutura do o e o DNA? Todavia. apresenta um procedica a mento sistem´tico para identificar as regi˜es codantes e n˜o codantes nas sequˆncias de DNA a o a e utilizando conceitos da teoria da informa¸˜o. etc. 55] conca a e siderou a possibilidade de que os introns poderiam ser os d´ ıgitos de verifica¸˜o de paridade ca associados aos exons. 2) sob o ponto de a c˜ vista da teoria da codifica¸˜o. Introdu¸˜o ca a saber: 1) sob o ponto de vista da teoria da informa¸˜o. em ca ca termos de diagrama de blocos. possibilitando dessa a e a forma uma caracteriza¸˜o geom´trica associada ao c´digo gen´tico. propˆs o uso o de c´digos de bloco e convolucional no processo de inicializa¸˜o da tradu¸˜o em organismos o ca ca procariontes.

uma resposta a essa pergunta. o cloroplasto e o ret´ ıculo endoplasm´tico. Este processo recebe uma interpreta¸˜o diferente em cada um dos ca modelos citados. enquanto que em [3] o objetivo ´ interpretar o mecanismo de inicia¸˜o e ca da tradu¸˜o em organismos procari´ticos.1. citados anteriormente. an´lises baseadas na informa¸˜o podem ser ca a ca usadas em seus estudos. a Evidenciamos que apesar dos trˆs modelos. No presente trabalho propomos um modelo relaca o cionado ao mecanismo de importa¸˜o de prote´ ca ınas organelares existentes em organismo eucari´ticos. Introdu¸˜o ca O presente trabalho encaminha. desta forma. Figura 1. Roman-Roldan sugere que o in´ da vida pode ser caracterizado pela habilidade ıcio de processamento da informa¸˜o. por´m pode ser usado para analisar a importa¸˜o de prote´ e ca ınas em outras organelas. de maneira positiva. o processo relacionado o ` s´ a ıntese de prote´ ınas.2.Cap´ ıtulo 1. 1. c O modelo apresentado em [2] consiste em modelar o processo biol´gico relacionado ` o a s´ ıntese de prote´ ınas. a a ına ıda O canal de comunica¸˜o proposto por Roman-Roldan em [2] difere do modelo inicial ca 5 . Na Subse¸˜o 1. A transferˆncia da informa¸˜o biol´gica pode ser modelada por um sistema ca e ca o de comunica¸˜o considerando a sequˆncia de DNA como a entrada do canal e a sequˆncia de ca e e amino´cidos que est´ na forma de prote´ como a sa´ do canal.1 Proposta de um modelo de comunica¸˜o gen´tica para a imca e porta¸˜o de prote´ ca ınas organelares Na literatura existem alguns trabalhos que exploram as semelhan¸as entre um sistema de c comunica¸˜es e a biologia molecular com o objetivo de modelar os diversos sistemas biol´gicos. tais como. O uso da teoria da informa¸˜o em dados gen´ticos exige uma ca e redefini¸˜o do sistema gen´tico como um sistema de informa¸˜o. Neste trabalho atuamos em duas linhas de pesquisa: teoria da comunica¸˜o gen´tica e a teoria da ca e codifica¸˜o gen´tica.2. De acordo com Romanca e ca Roldan: “the processing of biological information has an artificial parallel: the processing of information by computers”. A s´ ıntese de prote´ ınas pode ser considerada como um sistema de processamento da informa¸˜o permitindo que as sequˆncias de nucleot´ ca e ıdeos possam ser analisadas como mensagens n˜o considerando elementos f´ a ısico-qu´ ımicos para o processamento da informa¸˜o. co o Nesta subse¸˜o.1 mostramos os principais modelos relacionados ` ca e ca a teoria da comunica¸˜o gen´tica e apresentamos as diferen¸as entre estes modelos e o modelo ca e c proposto neste trabalho. Este modelo ´ usado neste trabalho para analisar a importa¸˜o de prote´ o e ca ınas mitocondriais. Em [2]. abordarem processos e biol´gicos distintos todos os modelos possuem um ponto em comum. apresentamos dois modelos para o sistemas de comunica¸˜es biol´gicos e ca co o evidenciamos as diferen¸as entre estes modelos e o modelo proposto neste trabalho.

Figura a 6 . ca proposto por May em [3]. O moca a ına e ına e delo inicial de May estabelece o canal gen´tico como sendo constitu´ pelos processos de e ıdo replica¸˜o e transcri¸˜o durante os quais erros s˜o introduzidos na sequˆncia de nucleot´ ca ca a e ıdeo. Uma fonte erg´dica ´ uma fonte que usa um crit´rio e o e e de sele¸˜o aleat´ria e gera mensagens t´ ca o ıpicas e at´ ıpicas. Codificador Genético DNA Informação Genética Canal Genético Replicação .erros Transcrição Decodificador Genético .2. Mensagens t´ ıpicas ou estatisticamente homogˆneas s˜o geradas com alta probabilidade. Introdu¸˜o ca Canal (Entrada) DNA Código Genético (Saída) Proteína Figura 1. [3]. Neste modelo o RNA mensageiro (mRNA) ´ definido como a sa´ e ıda do canal de comunica¸˜o e ´ incorporado um decodificador que traduz o mRNA em prote´ ca e ına formando a cadeia de amino´cidos. Neste modelo incorporamos um codificador e um modulador. enquanto que mensagens at´ e a ıpicas s˜o a geradas com baixa probabilidade. Figura 1. Em [2] a fonte de informa¸˜o gen´tica ´ definida como uma fonte erg´dica que gera menca e e o sagens atrav´s de um alfabeto finito.2: Modelo proposto pela May. Roman-Roldan estabelece o processo de mapeamento a dos c´dons para amino´cidos como o canal de transmiss˜o atrav´s do qual a sequˆncia de o a a e e informa¸˜o inserida no DNA relativa ` prote´ ´ enviada e a prote´ ´ recebida. O modelo proposto no presente trabalho diferencia-se dos modelos anteriormente citados em v´rios aspectos.mRNA Tradução Proteína: Informação Recebida Figura 1.1: Teoria da informa¸˜o baseada no modelo de Roman-Roldan.Cap´ ıtulo 1.

ca enquanto que o RNA ribossˆmico se comporta como um processador digital de sinais.3: Modelo de um sistema de comunica¸˜o para a importa¸˜o de prote´ ca ca ınas organelares. a menor complexidade poss´ do sistema. Dependendo da classifica¸˜o desse mapeamento como linear ou n˜o ca a linear. garantindo assim. o mesmo necessita de o uma caracteriza¸˜o matem´tica no contexto de um sistema de comunica¸˜o digital.Cap´ ıtulo 1. A palavra-c´digo na sa´ do codificador est´ associada ` sequˆncia de nucleot´ o ıda a a e ıdeos (mRNA). a menos de um isomorfismo. o c´digo resultante ser´ linear ou n˜o linear.RNAt . A classe ca de c´digos satisfazendo essa propriedade ´ bem conhecida e denominada c´digos geometricao e o mente uniformes.MC Codificador Sequência em nucleotídeos Sequência em aminoácidos Fonte Mapeamento G-Linear Código BCH Ribossomo Figura 1. do RNA transportador e do Ribossomo. realizado o o o e pelo RNA transportador seja bem conhecido no contexto biol´gico. que a da e ıvel constela¸˜o de sinais. Essa propriedade matem´tica implica e a que a estrutura alg´brica do codificador seja a mesma. onde G denota uma e o estrutura alg´brica. enquanto que a sa´ do modulador est´ associada a sequˆncia de amino´cidos ıda a ` e a (prote´ ına). ca a ca No contexto de sistema de comunica¸˜o digital existe um processo muito simples e efica ciente que ´ chamado de mapeamento casado (MC). que incorpora todas as vantagens inerentes ao processo de gera¸˜o e de e ca decodifica¸˜o dos c´digos lineares. a dos c´digos n˜o lineares atrav´s da inser¸˜o ca o o a e ca do bloco mapeamento. respectivamente. Portanto. o codificador o a a consiste de um bloco mapeamento e um codificador de um c´digo corretor de erros (bloco o c´digo BCH). O o e c´digo gen´tico pode ser visto como um sinal de constela¸˜o.3. o O modulador consiste do c´digo gen´tico. bem como. Figura o 7 . 1. Introdu¸˜o ca Modulador Constelação de Sinais Código Genético . onde cada c´don ´ consideo e ca o e rado como uma constela¸˜o de sinais. o RNA transportador realiza o mapeamento casado. Embora o mapeamento entre o c´don e anti-c´don (c´digo gen´tico). Uma subclasse importante ´ a dos c´digos G-lineares.

apresentadas anteriormente. etc. introns. The more important genetic information is assumed to be in the primary coded message. C. regarding nested coding mirrors coding theory’s concept of concatenated codes which are also called nested codes. G.3 Apresenta¸˜o do Problema ca Pesquisadores que atuam nas ´reas da biologia molecular utilizando os conceitos das a teorias da informa¸˜o. At´ onde ´ de nosso conhecimento. podemos considerar as seguintes semelhan¸as entre os modelos aprec sentados anteriormente. e o canal de transmiss˜o e a a ´ suposto estacion´rio e sem mem´ria. Um problema biol´gico de grande interesse cient´ o ıfico. que satisfaz a conjectura de c´digos o 8 . estabeleceremos a seguinte conjectura: Se o genoma ´ constitu´ e ıdo por regi˜es consistindo de exons. No modelo descrito em [3] os procese co e sos de replica¸˜o e transcri¸˜o ocorrem no canal que est´ sujeito a erros (“interferˆncias”). p(A) = p(C) = p(G) = p(T ) = 1/4. Therefore error-correcting codes must be used in replication or in another process of information regeneration that precedes replication”. o que torna o e o problema muito complexo. o O grande diferencial do modelo sendo proposto est´ na possibilidade de identificar uma a estrutura matem´tica bem definida nas sequˆncias de DNA reproduzidas. o modelo do presente trabalho utiliza um processo a determin´ ıstico para realizar tais an´lises. promoteres. where the result of a previous encoding process is combined with new information and encoded again. ca ca a e Outro ponto a ser considerado ´ a fonte de informa¸˜o gen´tica que ´ definida como uma e ca e e fonte erg´dica neste trabalho e em [2]. T ) ´ definida como equiprov´vel. Em [59]. a e a e 1. da codifica¸˜o e da comunica¸˜o.3. “The genetic information undergoes nested encoding. sequˆncias de direcionamento. Enquanto que a e os demais modelos utilizam um processo estat´ ıstico para analisar as sequˆncias de DNA e de acordo com o interesse em quest˜o. De uma forma geral. a ocorrˆncia de um dos nucleot´ e e ıdeos (A. Battail e o apresenta duas hip´teses declarando: “The survival of an organism necessitates the existence o of a reliable information replication process. DNA o e repetitivos. Em [2] e no presente trabalho o canal est´ livre das e a o a “interferˆncias”. livre das muta¸˜es gen´ticas. no momento a e e n˜o existe um m´todo matem´tico que analise deterministicamente as sequˆncias de DNA. Neste momento ao inv´s de analisarmos o processo de replica¸˜o do DNA co e ca com o objetivo de mostrar a existˆncia de c´digos corretores de erros no genoma.Cap´ ıtulo 1. e que cada uma dessas regi˜es pode ser reproduzida por um c´digo espec´ o o ıfico. Introdu¸˜o ca 1. Nos trˆs modelos. ent˜o o genoma consiste de c´digos concatenados (“nested codes”) no m´ a o ınimo justapostos. consideram um dos grandes desafios ca ca ca mostrar a existˆncia de c´digos corretores de erros na estrutura do DNA. ou seja.” No presente trabalho consideramos as duas hip´teses. com o algumas restri¸˜es.

o objetivo ´ identific´-las como sendo palavras-c´digo de um c´digo corretor o e a o o de erros. atrav´s da degrada¸˜o de alimentos que ingerimos (carboidratos. com rela¸˜o ` existˆncia de sequˆncias nas a ca ca a e e regi˜es codantes. O segundo. Este c´digo tem o como objetivo codificar a prote´ acrescentando a informa¸˜o sobre a fun¸˜o que a prote´ ına ca ca ına dever´ executar no interior da mitocˆndria. Introdu¸˜o ca concatenados. o o O objetivo do presente trabalho al´m de propor um modelo consistente de um sistema de e ınas mitocondriais. ca Um dos grandes desafios da ciˆncia ´ compreender os mecanismos moleculares que ocore e rem dentro das c´lulas. ´ realizar pesquisas nesta dire¸˜o. uma breve exposi¸˜o do assunto. portanto estudos sobre os mecanismos que governam a distribui¸˜o e e a ca transporte de prote´ ınas nas c´lulas podem contribuir para se obter uma compreens˜o mais e a apurada desta complexa maquinaria. c As mitocˆndrias s˜o estruturas localizadas no interior das c´lulas respons´veis pela produo a e a c˜o de energia. vislumbrar metodologias que possam ser utilizadas em an´lises mutacionais e de polimorfismos. e como seu inadequado funcionamento poderia deflagrar uma doen¸a. descobertas reca e ca e e centes relatam o papel da mitocˆndria em v´rios outros processos celulares. o a e e ca que possibilitar´ realizar an´lises filogen´ticas e conduzir´ a um melhor entendimento do proa a e a cesso associado ` teoria da evolu¸˜o. ´ o mecanismo de importa¸˜o de prote´ e ca ınas mitocondriais. Podemos interpretar que uma sequˆncia de direcionamento ´ o resultado de um primeiro processo de e e codifica¸˜o realizado por um c´digo espec´ ca o ıfico e que o conte´ do de informa¸˜o acrescentado u ca nesta sequˆncia ´ o direcionamento para a mitocˆndria. o a A mitocˆndria cont´m o seu pr´prio DNA e toda maquinaria necess´ria para a s´ o e o a ıntese 9 . possibilitando dessa forma. dois caminhos c s˜o poss´ a ıveis: O primeiro. a Com o objetivo de mostrar ao leitor o grau de sofistica¸˜o e complexidade que envolve o ca mecanismo de importa¸˜o mitocondrial e a sua importˆncia no contexto biol´gico faremos. relacionado ` existˆncia de regi˜es n˜o-codantes fortemente presera e o a vadas durante o processo evolucion´rio entre esp´cies. prote´ ¸a e ca ınas e gorduras) e o consumo simultˆneo de oxigˆnio (respira¸˜o aer´bica).Cap´ ıtulo 1. Esta primeira codifica¸˜o ´ combie e o ca e nada com uma segunda codifica¸˜o realizada por outro c´digo espec´ ca o ıfico. Este processo caracteriza o caso mais simples de a o c´digos concatenados conhecidos como c´digos concatenados justapostos. Neste processo existem as prote´ ınas precursoras que s˜o direcionadas para as mitocˆndrias atrav´s de uma a o e sequˆncia de direcionamento presente na posi¸˜o N-terminal das prote´ e ca ınas. ca a o a seguir. O transporte de prote´ e ınas organelares ´ fundamental para manter e as c´lulas saud´veis. Uma vez alcan¸ada essa identifica¸˜o. Al´m da produ¸˜o energ´tica e de oxigˆnio reativo. processo denominado a e ca o fosforila¸˜o oxidativa. consiste em comunica¸˜o digital para o mecanismo de transporte de prote´ ca identificar a existˆncia de c´digos corretores de erros nas sequˆncias de direcionamento das e o e ca prote´ ınas precursoras mitocondriais.

No Cap´ ıtulo 3 apresentamos as analogias entre um sistema de comuni¸˜o digital e o ca sistema de informa¸˜o gen´tica. podem residir no inac a dequado funcionamento mitocondrial. De acordo com esta proposta. Propomos um modelo de sistemas de comunica¸˜o para ca e ca o mecanismo de importa¸˜o de prote´ ca ınas organelares e estabelecemos o c´digo corretor de o 10 . e em alguns casos doen¸as graves como o cˆncer. A grande maioria das prote´ ca ınas mitocondriais sintetizadas por genes nucleares ´ importada p´s-traducionalmente. a No Cap´ ıtulo 2 apresentamos. A transloca¸˜o ca da prote´ atrav´s das membranas biol´gicas da mitocˆndria depende de complexos recepına e o o tores/translocadores e nesse transporte as prote´ ınas devem estar totalmente desdobradas. A grande maioria das prote´ ınas mitocondriais s˜o codificadas por genes nucleares e s˜o sintetizadas como a a preprote´ ınas em ribossomos citos´licos. Acreditamos que o estudo sobre este mecanismo al´m de inovar ao empregar uma e modelagem que faz uso das teorias da comunica¸˜o e da codifica¸˜o. 1. de modo que elas s˜o e o a liberadas diretamente no citosol e encaminhadas com o aux´ de prote´ ılio ınas chaperonas para os receptores localizados na membrana externa da organela. o mecanismo de importa¸˜o de prote´ ca ınas mitocondrias e comentamos sobre alguns tipos de muta¸˜es. de forma sucinta. Introdu¸˜o ca prot´ica.4 Descri¸˜o do Trabalho ca Este trabalho est´ organizado da seguinte forma. algumas doen¸as auto-imunes decorrem e c de respostas imunol´gicas do paciente com produ¸˜o de anticorpos contra prote´ o ca ınas mitocondriais. que c´digo ´ este e qual ser´ a estrutura o e a matem´tica adequada para construir este c´digo? Este trabalho encaminha. existe algum c´digo corretor de o a c˜ o erros capaz de reproduzir sequˆncias de DNA (sequˆncias de direcionamento) e suas correse e pondentes fitas complementares? 2) Se existe. naturalmente surgem algumas perguntas: 1) Dentre os diversos c´digos usados para a transmiss˜o da informa¸ao. de maneira a o positiva. Al´m disso. o transporte e adequado destas prote´ ınas para os diversos compartimentos da mitocˆndria ´ fundamental o e para o seu funcionamento e prolifera¸˜o. descrevemos os co e principais conceitos relacionados ` c´digos corretores de erros e ` decodifica¸˜o de c´digos a o a ca o corretores de erros que foram utilizados no decorrer deste trabalho. possa contribuir para ca ca uma melhor compreens˜o do comportamento do sistema de importa¸˜o de prote´ a ca ınas. uma resposta a estas perguntas. A especificidade desse mecanismo de importa¸˜o ´ estabelecida por sequˆncias de direca e e cionamento presentes principalmente na posi¸˜o N-terminal das prote´ ca ınas. Muitas patologias. o Uma vez que existe essa dependˆncia da s´ e ıntese prot´ica realizada no citosol. apesar de sintetizar somente um pequeno n´ mero de prote´ e u ınas. Al´m disso.Cap´ ıtulo 1.

Finalmente. Z2 × Z2 -linear e Klein-linear. ca ca Com a necessidade da redu¸˜o de tempo e custos nos experimentos laboratoriais. em um contexto biol´gico. O processo de decoca e difica¸˜o pode ser visto como um processo de regenera¸˜o da sequˆncia que repara os erros ca ca e introduzidos durante os processos de replica¸˜o e transcri¸˜o. Esta nova abordagem que utiliza c´digos a o e o corretores de erros.Cap´ ıtulo 1. o no Cap´ ıtulo 7 apresentamos as conclus˜es e as propostas para trabalhos futuros. o 11 . no ca Cap´ ıtulo 6 mostramos algumas aplica¸˜es do modelo proposto para as an´lises mutacionais/poco a limorfismos e an´lises de hip´teses filogen´ticas. Introdu¸˜o ca erros e a estrutura matem´tica que reproduzem as sequˆncias de direcionamento. No Cap´ ıtulo 4 desenvolvemos um algoritmo para a reprodu¸ao das sequˆncias de direc˜ e cionamento atrav´s dos c´digos corretores de erros Z4 -linear. Utilizamos a e o modelo proposto para importa¸˜o de prote´ ca ınas organelares com o objetivo de descrever o mecanismo de codifica¸˜o e decodifica¸˜o do transporte de prote´ ca ca ınas mitocondriais. Atrav´s dos resultados obtidos com o processo de codifica¸˜o. e o As interpreta¸˜es dos resultados foram realizadas sob o ponto de vista de c´digos corretores co o de erros. uma nova abordagem e uma classifica¸˜o matem´tica das ca a sequˆncias reproduzidas. no e e ca Cap´ ıtulo 5 descrevemos o processo de decodifica¸˜o destas sequˆncias. possibilitando assim. mostra-se bastante promissora.

c´digos corretores de erros e o processo de decodifica¸˜o dos c´digos corretores o de erros. os endossomos e os perissomos. de forma sucinta.1 apresenta uma a ca revis˜o do mecanismo de importa¸˜o de prote´ a ca ınas mitocondriais com o objetivo de mostrar ao leitor o grau de sofistica¸˜o e complexidade que envolve todo esse processo.1 Importa¸˜o de Prote´ ca ınas Organelares As c´lulas eucari´ticas contˆm membranas intracelulares que ocupam quase metade do e o e volume total celular em compartimentos intracelulares separados denominados organelas. as mitocˆndrias. a e 13 . o objetivo principal deste cap´ a ıtulo ´ e apresentar. onde ´ sintetizada. o n´ cleo. ca e descrevemos alguns tipos de muta¸˜es que ser˜o utilizadas nas interpreta¸˜es dos resultados co a co deste trabalho. Nas Se¸˜es 2. O presente cap´ ıtulo est´ organizado da seguinte maneira: A Se¸˜o 2.2 e 2. 2. o aparato de Golgi. Cada organela cont´m um conjunto distinto de prote´ e ınas respons´veis pela a media¸˜o de suas fun¸˜es exclusivas [5].3 apresentamos os conceitos sobre a codifica¸˜o e decoco ca difica¸˜o de c´digos corretores de erros. Al´m disso. as c´lulas vegetais tamb´m contˆm plast´ e e e ıdeos. a revis˜o de alguns conceitos sobre a importa¸˜o de prote´ a ca ınas ca o organelares.Cap´ ıtulo 2 Elementos de Biologia e C´digos o Corretores de Erros Devido ao car´ter interdisciplinar deste trabalho. ca co Cada prote´ organelar rec´m-sintetizada deve encontrar seu caminho a partir de riına e bossomos livres ou associados ` membrana do ret´ a ıculo endoplasm´tico. Os principais tipos de organelas envoltas por membranas presentes em todas as c´lulas eue cari´ticas s˜o o ret´ o a ıculo endoplasm´tico. tais como cloroplastos. Estes conceitos ser˜o utilizados no ca o a desenvolvimento deste trabalho. respectivamente. os a u o lisossomos.

envolve prote´ ınas nascentes que ainda est˜o no processo de s´ a ıntese [6].2 apresenta com ca e ca maiores detalhes o mecanismo de importa¸˜o de prote´ ca ınas para as mitocˆndrias. co a ca 2. mas. guiada por sinais na sua sequˆncia de amino´cidos. no caso das prote´ ınas sol´ veis em ´gua. ou e a e regi˜es sinalizadoras. e ca e e Os aspectos estruturais espec´ ıficos do DNA variam. Essas prote´ ınas incluem n˜o apenas as prote´ a ınas sol´ veis e as de membrana que residem no pr´prio u o RE. A Subse¸˜o 2. mas tamb´m as prote´ e ınas que s˜o secretadas a partir da c´lula. dependendo da origem e da fun¸˜o de ca 14 . O encaminhamento a para o RE. os cloroplastos. as mitocˆndrias. O primeiro processo geral envolve o direcionamento de uma prote´ para a membrana de uma organela intracelular e pode ocorrer ına durante ou logo ap´s a s´ o ıntese da prote´ ına. isto ´.Cap´ ıtulo 2. pela tradu¸ao no ribossomo.1.1. As sequˆncias e as regi˜es sinalizadoras s˜o reconhecidas por recepo e o a tores de endere¸amento complementares que entregam a prote´ ` organela-alvo apropriada. na via secretora.1. e o a informamos que esta se¸˜o ´ parte integrante de [18]. bem como as prote´ u ınas integradas na membrana dessas organelas e da membrana plasm´tica. e normalmente chamado de direcionamento de prote´ ınas ou distribui¸˜o de prote´ ca ınas.1. geralmente. A presente se¸˜o est´ dividida da seguinte maneira: Na Subse¸˜o 2. A prote´ segue uma rota espec´ e a ca ına ıfica. desse modo. c ına a As prote´ ınas com fun¸˜o citos´lica n˜o contˆm sinais de endere¸amento e permanecem no ca o a e c citosol ap´s serem sintetizadas [5]. Esses conceitos ser˜o usados na interpreta¸˜o de alguns resultados. o O encaminhamento de prote´ ınas rec´m-sintetizadas para o seu destino celular apropriado. abordando o de forma resumida. O direcionamento c˜ leva as prote´ ınas de membrana a se inserirem na bicamada lip´ ıdica da membrana. as enzimas e outras a e prote´ ınas que residem no l´ men do complexo de Golgi e dos lisossomos. Elementos de Biologia e C´digos Corretores de Erros o at´ a organela onde exercer´ sua fun¸˜o.1 apresentamos ca a ca uma id´ia geral de alguns conceitos biol´gicos que ser˜o usados no decorrer do trabalho. os complexos de transloca¸˜o envolvidos no transporte das prote´ ca ınas para as diferentes regi˜es da mitocˆndria.3 fornece uma id´ia geral sobre tipos o o ca e de muta¸˜es. que funcionam como sequˆncias sinalizadoras. os perixissomos e o n´ cleo a o u por esse processo geral [6]. Um segundo processo de distribui¸˜o geral se aplica `s prote´ ca a ınas que inicialmente s˜o a direcionadas para a membrana do RE entrando. o direcionamento leva ` transloca¸˜o da prote´ inteira u a a ca ına atrav´s da membrana para o interior aquoso da organela. compreende dois tipos de processos muito diferentes. A Subse¸˜o 2. As prote´ e ınas s˜o distribu´ a ıdas para o ret´ ıculo endoplasm´tico (RE). um pol´ e a e e ımero de desoxinucleot´ sequˆncia de base codifica a informa¸˜o gen´tica em todas as c´lulas vivas.1 A Mol´cula de DNA e ıdeos cuja O DNA ´ um ´cido desoxirribonucl´ico.

forneceram co alguma id´ia da estrutura do DNA. a ´ estrutura de DNA mais difundida ´ a dupla h´lice.1). conforma¸˜o e topologia. As mol´culas de DNA diferem em tamanho.Cap´ ıtulo 2. e e A elucida¸˜o da estrutura do DNA por James Watson e Francis Crick em 1953 ´. aceita como o marco do surgimento da biologia molecular moderna. juntamente com a regra de Chargaff. e As informa¸˜es estruturais limitadas. O modelo de Watson e Crick foi elucidado principale mente pela imagina¸˜o deles e por estudos de constru¸˜o de modelos. listados como uma das principais descobertas intelectuais da ciˆncia. co e As bases p´ ricas e pirim´ u ıdicas dos ´cidos nucl´icos podem assumir diferentes formas taua e tom´ricas (tautˆmeros s˜o isˆmeros de convers˜o f´cil. em duas evidˆncias al´m da regra de Chargaff: as formas tautom´ricas corretas e e e das bases e as indica¸˜es de que o DNA seria uma mol´cula helicoidal. foram baseados. Os achados de Watson e e Crick. e e ca Apesar de algumas formas de DNA celulares existirem como estruturas de fita unica. Uma vez publicado. Figura 2. e Figura 2. diferindo entre si apenas nas posi¸˜es e o a o a a co do hidrogˆnio. associada ` sua a a ´bvia relevˆncia biol´gica.1: Formas tautom´ricas das bases. a e como tamb´m sugeriu o mecanismo molecular da hereditariedade. o ca ca modelo de Watson e Crick foi rapidamente aceito devido ` sua simplicidade. o a o co a 15 . em ca e geral. Investiga¸˜es posteriores confirmaram a precis˜o geral do modelo. Elementos de Biologia e C´digos Corretores de Erros o cada mol´cula de DNA. A estrutura do DNA de Watson-Crick n˜o apenas forneceu um modelo da mol´cula fundamental da vida. e em parte.

mas cada uma a co forma uma h´lice para o lado direito. e cada res´ ıduo de guanina deve formar par com um res´ ıduo de citosina e vice-versa (Figura 2. Figura 2.3).3: Fitas complementares de DNA.2). e as cadeias de a¸ucar-fosfato est˜o dispostas na e c´ a periferia. Figura 2. As bases ocupam o centro da h´lice. resulta o na associa¸˜o espec´ ca ıfica das duas cadeias da fita dupla.Cap´ ıtulo 2. Cada res´ ıduo de adenina deve formar o par com um res´ ıduo de timina e vice-versa. 16 . co e um fenˆmeno denominado como pareamento das bases complementares.2). e 3. Duas cadeias polinucleot´ ıdicas circundam um eixo comum formando a dupla h´lice e (Figura 2. Essas intera¸˜es por pontes de hidrogˆnio. O modelo de Watson e Crick possui as seguintes caracter´ ısticas principais: 1. Cada base est´ ligada a uma base da fita oposta por meio de pontes de hidrogˆnio. 2. a e formando um par de base planar. As duas fitas de DNA s˜o antiparalelas (possuem dire¸˜es opostas). A estrutura de Watson e Crick pode acomodar apenas dois tipos de pares de base.2: Estrutura tridimensional do DNA. A superf´ da a ıcie dupla h´lice forma dois sulcos de largura desigual: a cavidade maior e a cavidade e menor (Figura 2. 4. minimizando a repuls˜o entre os grupos fosfato carregados. Elementos de Biologia e C´digos Corretores de Erros o apesar dos detalhes terem sido modificados.

DNA C e a e DNA Z. c e o Muitos bi´logos argumentam que a mitocˆndria um dia teria sido um organismo bacteriano o o fagocitado por uma c´lula eucariota. Isso e explica a regra de Chargaff. e e Al´m disso.tais como a¸ucares . Mais importante ainda. que ´ seu conte´ do espec´ e e u ıfico de DNA. cor + soma. a informa¸˜o ca heredit´ria est´ codificada na sequˆncia de bases em qualquer fita. Por fim. Seja qual for a sua origem. Apresentam pequenos corpos no citoplasma. o A presen¸a de material gen´tico na mitocˆndria fez emergir teorias sobre sua origem. sua fun¸˜o ´ vital para a c´lula. que captam oxigˆnio e conservam a energia da oxida¸˜o de compostos alie ca mentares . seus pr´prios ribossomos (que s˜o diferentes dos ribossomos e o a encontrados no citosol). As mitocˆndrias tˆm seu pr´prio genoma (na e o e o forma de uma mol´cula circular). o DNA pode adotar conforma¸˜es co helicoidais levemente distintas. cada um contendo uma mol´cula de DNA separada. ela n˜o ´ completamente e a e r´ ıgida. DNA B. e seu pr´prio RNA transportador [5].1. os organismos mais ca e e co complexos contˆm mais DNA. pode estar distribu´ em diversos cromossomos (do grego. A forma¸˜o dessas diferentes conforma¸˜es depende da composi¸˜o em bases do ca co ca DNA e das condi¸˜es f´ co ısicas. as mol´culas de DNA s˜o descritas em termos do e a n´ mero de pares de bases (pb) por milhares de pares de bases (quilobases em pares ou kb). envoltos por uma camada e o de membrana. O modelo descrito por Watson e Crick possui a conforma¸˜o ca do DNA B. Com raras exce¸˜es. na presen¸a de outros componentes celulares. Elementos de Biologia e C´digos Corretores de Erros o A estrutura de Watson e Crick poder´ acomodar qualquer sequˆncia de bases em uma a e fita polinucleot´ ıdica se a fita oposta possuir a sequˆncia de bases complementares a ela. o o Cada mitocˆndria ´ limitada por duas membranas altamente especializadas com fun¸˜es o e co 17 . A dupla h´lice existe em v´rias geometrias designadas como DNA A. chromos. o c DNA pode dobrar-se ou suas duas fitas podem ser parcialmente desenroladas.para produzir a maior parte do ATP (adenosina trifosfato) c´ que fornece energia para as atividades da c´lula. a a e A maioria das mol´culas de DNA ´ extremamente grande. de acordo com sua fun¸˜o e e ca de conter toda a informa¸˜o gen´tica da c´lula.2 Importa¸˜o de Prote´ ca ınas em Mitocˆndrias o A mitocˆndria ´ uma das mais importantes organelas celulares que est´ presente nas o e a c´lulas eucari´ticas. consequentemente. ıdo corpo).Cap´ ıtulo 2. O genoma de um organismo. u Apesar de cada mol´cula de DNA ser longa e relativamente firme. A dupla h´lice de DNA forma espirais e voltas quando compactada dentro da c´lula. sem a qual h´ morte ca e e a celular e morte da pr´pria mitocˆndria [5]. passando a partir da´ a viver em simbiose com seu e ı hospedeiro. sugere que cada fita de DNA pode atuar como um molde para a s´ ıntese de sua fita complementar e. 2. e Devido o seu comprimento muito longo. dependendo da sequˆncia de nucleot´ e e ıdeos.

´ codificada por genes no o e n´ cleo e importada para dentro das organelas depois de sua s´ u ıntese no citosol [6].. A maioria das prote´ ınas localizadas nas mitocˆndrias.4: Micrografia eletrˆnica de uma mitocˆndria. Se as mitocˆndrias forem cuidadosamente rompidas e fracionadas em seus o componentes separadamente. Nas mitocˆndrias. As mitocˆndrias a o o contˆm m´ ltiplas membranas e espa¸os limitados por membranas. bem mais estrito c c (Figura 2. Molecular Cell Biology.Cap´ ıtulo 2. Juntas. a composi¸˜o bioqu´ ca ımica de cada uma das duas membranas e dos espa¸os definidos por elas pode ser determinada. Lodish et al. Figura 2. Todas as prote´ ınas que viajam do citosol para o mesmo destino na mitocˆndria tˆm sinais o e de direcionamento que compartilham motivos comuns.4). a distribui¸˜o de v´rias e u c ca a prote´ ınas para a sua localiza¸˜o correta frequentemente requer a a¸˜o sequencial de duas ca ca sequˆncias de direcionamento de dois sistemas de transloca¸˜o ligados ` membrana: uma e ca a para direcionar as prote´ ınas para dentro das mitocˆndrias e outra para direcion´-las para o a dentro do compartimento ou membrana correta da organela [5]. elas definem dois compartimentos mitocondriais separados: o espa¸o interno da matriz e o espa¸o intermembranas. entretanto. embora as sequˆncias-sinal geralmente e 18 . a importa¸˜o de prote´ o ca ınas requer energia e ocorre em pontos em que as membranas externa e interna da organela est˜o em contato pr´ximo. cada um contendo a sua pr´pria cole¸˜o c o ca de prote´ ınas com fun¸˜es espec´ co ıficas [5]. o o 5th Edition. Elementos de Biologia e C´digos Corretores de Erros o vitais para a atividade mitocondrial. As prote´ ınas codificadas por DNA mitocondrial s˜o sintetizadas nos ribossomos dentro a das organelas e direcionadas ao compartimento correto imediatamente ap´s a s´ o ıntese.

ca Os canais de transloca¸˜o ca A mitocˆndria est´ dividida em quatro subcompartimentos: a membrana externa. a e e As prote´ ınas importadas para as mitocˆndrias s˜o sintetizadas sob a forma de precuro a sores consistindo da prote´ madura adicionada de uma pr´-sequˆncia amino-terminal (Nına e e terminal) ou carboxi-terminal (C-terminal). Transporte do precursor atrav´s do espa¸o intermembrana e envelope nuclear pelo come c plexo TIM (“translocase of the mitochondrial inner membrane”). dividida em quatro etapas pode ser esca quematizada: 1. Cada um dos subcompartimenc tos cont´m um conjunto distinto de prote´ e ınas. 2. sintetizadas no citoplasma por ribossoa mos citos´licos como prote´ o ınas precursoras. S´ ıntese da prote´ precursora assim como seu reconhecimento e manuten¸˜o de sua ına ca conforma¸˜o adequada para a importa¸˜o atrav´s da atua¸˜o de chaperonas moleculares ca ca e ca no citoplasma. a O endere¸amento das prote´ c ınas. o o a espa¸o intermembanas. Liga¸˜o do precursor a receptores e transporte desse precursor atrav´s da membrana ca e externa da mitocˆndria pelo complexo TOM (“translocase of the mitochondrial outer o membrane”). Processamento proteol´ ıtico do precursor. que confere a especificidade de importa¸˜o. Prote´ ınas destinadas ` membrana externa n˜o apresentam uma sequˆncia a a e de direcionamento t´ ıpica. a membrana interna e a matriz. por´m. Elementos de Biologia e C´digos Corretores de Erros o n˜o sejam idˆnticas. 3. assim como a sua distribui¸˜o intra-organelar ca e montagem para a aquisi¸˜o da forma funcional. ele envolve v´rios subcome o a partimentos.8. Como no caso da mitocˆndria. de forma que a informa¸˜o de direcionamento localiza-se na por¸˜o ca ca interna da estrutura prim´ria [7]. em [8]. uma via de importa¸˜o. reconhecidas e/ou mantidas em uma forma pouco estruturada (via a¸˜o das chaperonas moleculares). Figura 2. 4. As ca sequˆncias N-terminais s˜o posteriormente removidas ap´s ou durante a passagem pelo envee a o lope mitocondrial. por´m relacionadas [6]. os receptores que reconhecem esses sinais a e s˜o capazes de se ligar a diversas sequˆncias diferentes. ´ mais complexo do que a simples presen¸a de e e c sequˆncias de direcionamento. Apesar disso. As prote´ ınas direcionadas para cada um desses subcompartimentos requerem informa¸˜es de direcionamento espec´ co ıficas e vias de direcionamento que envolvem fatores comuns e distintos a cada etapa. Aproximadamente mais de 1000 prote´ ınas mitocondriais s˜o codificadas pelo genoma nuclear.Cap´ ıtulo 2. Dessa maneira. e finalmente importadas com a ajuda de ca 19 .

Tom7. ca ına O complexo TOM ´ mais bem estudado em leveduras. ent˜o. Nature Structural & Molecular Biology. Tom6 e Tom5 (Figura 2. Tom37.5: Os translocons de prote´ ınas na mitocˆndria.5. A eficiˆncia do processo de importa¸˜o de e e e e ca uma prote´ reside nas intera¸˜es que ocorrem entre a sua pr´-sequˆncia e os aparatos de ına co e e transloca¸˜o presentes nas membranas da mitocˆndria e no citosol [9]. Vol. 2004. Figura 2. iniciam o processo e e a de transloca¸˜o dessa prote´ para o seu devido local [11]. ca o O complexo TOM O complexo TOM est´ ancorado na membrana externa e ´ necess´rio para a importa¸˜o a e a ca de todas as prote´ ınas mitocondriais codificadas no n´ cleo [5]. u A maquinaria TOM cont´m receptores de importa¸˜o que reconhecem as prote´ e ca ınas precursoras mitocondriais atrav´s de suas sequˆncias de direcionamento e. O complexo TOM e o complexo SAM (“sorting and assembly machio nery”) est˜o situados na membrana externa e os complexos TIM23 e TIM22 est˜o ancorados a a na membrana interna [10]. pp. A maioria das prote´ ınas mitocondriais ´ reconhecida pelos translocons por meio de uma e sequˆncia de direcionamento presente normalmente em sua regi˜o amino-terminal chamada e a de pr´-sequˆncia ou sequˆncia de direcionamento. Tom20. Elementos de Biologia e C´digos Corretores de Erros o diferentes complexos de transloca¸˜o presentes na membrana externa e na membrana interna ca da mitocˆndria [9].6). Nesse organismo ele ´ constitu´ e e ıdo por nove subunidades: Tom70. Tom22. Tom71. Pfanner et al. Assembling the o Mitochondrial Outer Membrane”.Cap´ ıtulo 2. como ilustra a Figura 2. Tom40. 11. Essas nove subunidades formam trˆs subcomplexos: Tom20-Tom22 e e 20 . 1044-1048..

Tom22 ancora-se na membrana externa da mitocˆndria e forma uma conex˜o entre os o a dois subcomplexos Tom20-Tom22 e Tom70/Tom71-Tom37 [12]. Tom6 e Tom7 influenciam na intera¸˜o entre Tom20-Tom22 e Tom40 [11]. Molecular and Cellular Biology. Tom22 e Tom70 funcionam como receptores para as prote´ ınas precursoras mitocondriais. 1998. Elementos de Biologia e C´digos Corretores de Erros o Tom70/Tom71-Tom37 que funcionam como receptores para os precursores. ca Figura 2. Tom20 e Tom22 formam o complexo receptor principal sendo que Tom22 interage com precursores contendo sequˆncias de direcionamento internas ou no amino termie nal. e e evidˆncias gen´ticas indicam que ocorre uma intera¸˜o funcional entre eles. Enquanto Tom5 interage diretamente com os precursores. Tom70 interage com precursores que possuem sequˆncias de direcionamento internas. Dekker et al. e Tom40 representa o maior componente do GIP e ´ fundamental para a sobrevivˆncia da e mitocˆndria. A prote´ Tom5 funcionalmente liga receptores do GIP e promove a inser¸˜o o ına ca dos precursores. Tom37 associa-se com Tom70. Preprotein Translocase of the Outer Mitochondrial Membrane: Molecular Dissection and Assembly of the General Import Pore Complex. 18. As prote´ ınas Tom20. pp. As prote´ e ınas precursoras inicialmente reconhecidas por Tom70 s˜o transferidas para Tom20 e/ou Tom22 antes de sua inser¸˜o no GIP a ca [11]. enquanto que Tom20 reconhece especificamente pr´-sequˆncias amino terminais. 21 . Vol. Al´m e e e disso.Cap´ ıtulo 2. O primeiro favorecendo as ca intera¸˜es e o segundo favorecendo a dissocia¸˜o formando um equil´ co ca ıbrio dinˆmico que ´ a e necess´rio ` importa¸˜o de prote´ a a ca ınas [11]. 6515-6524.6: O complexo TOM.. e Tom40-Tom22Tom7-Tom6-Tom5 que forma o poro geral de inser¸˜o (GIP “general insertion pore”) [11]. indicando que e e ca Tom37 ´ uma subunidade do receptor Tom70.

Cap´ ıtulo 2. Tim23 e Tim50. Figura 2. O complexo TIM23 ilustrado na Figura 2. Elementos de Biologia e C´digos Corretores de Erros o O complexo TIM 23 O complexo TIM23 ´ o maior translocador de precursores mitocondriais da membrana e interna. Tim16. Motor de importa¸˜o. et al. Esse mecanismo e a pode ser interpretado por meio de um modelo chamado motor molecular [15]. enquanto que Tim44 interage com Tim23 do lado da matriz na membrana interna mitocondrial [14]. ca a e Tim44.. Juntamente com mtHsp70. Mokranjac. 33. 22 . para realizar a inser¸˜o do precursor. 2. Protein import into mitochondria Biochemical Society. em leveduras. Mge1 e mtHsp70. pode ser estruturalmente e funcionalmente subdividido em: 1. Tim50 ´ o primeiro componente do complexo TIM23 que interage com a prote´ precure ına sora ap´s ela ter cruzado a membrana externa [13]. que est´ integrado ` membrana interna e ´ composta por: ca a a e Tim17. Vol. O translocador TIM23 necessita de duas fontes de energia: o potencial de membrana e o ATP. o complexo TIM23 promove o transporte do precursor atrav´s de v´rios ciclos “liga-desliga”do precursor com mt-Hsp-70. que est´ ancorado na matriz e ´ composto por: Tim14. 2005. Mgel (co-chaperone) e consumo de ATP. O complexo TIM23 ca ´ respons´vel pela importa¸˜o de precursores contendo sinal de direcionamento para a matriz e a ca mitocondrial [13]. As subunidades Tim17 e Tim23 est˜o o a inseridas na membrana interna e funcionam como um canal.7. Tim21. Canal de transloca¸˜o. pp. Ele ´ usado por todas as prote´ e ınas que s˜o direcionadas para a matriz e a maioria das a prote´ ınas da membrana interna. 1019-1023.7: O complexo TIM23.

Na presen¸a de um potencial de membrana. Esse est´gio exige o Tim10. Em leveduras ´ constitu´ por Tim22. Tais precursores s˜o importados via o complexo a TIM22. Tim10. as prote´ e da membrana mitocondrial s˜o inseridas com o aux´ de uma maquinaria de sele¸˜o e a ılio ca montagem (SAM “sorting assembly machinery”) [7] e [10]. Est´gio 2. ca O complexo SAM ca ınas Estudos recentes mostram que. Uma delas ´ a Sam50 uma prote´ da membrana externa e representa a e e ına subunidade central do complexo SAM. Est´gio 1. 2. s˜o sintetizados sem o sinal cl´ssico ılia a a N-terminal de direcionamento para a matriz. 5. O precursor citos´lico do AAC ´ reconhecido por receptores especializados a o e do complexo TOM. onde ele est´ parcialmente translocado entre a membrana a a a externa e interna. Prote´ e e ınas do complexo SAM tˆm sido descritas. Est´gio 5. se encontra ancorado na membrana interna. que por sua vez. Muitas e ıdo prote´ ınas que integram a membrana interna. a Os carreadores s˜o sintetizados sem uma pr´-sequˆncia e contˆm sinaliza¸˜o interna para a e e e ca o direcionamento mitocondrial e importa¸˜o. Tim22 media a inser¸˜o ca . Est´gio 3. 4. Tim18 e Tim12 [16]. Elementos de Biologia e C´digos Corretores de Erros o O complexo TIM 22 O complexo TIM22 ´ respons´vel pela inser¸˜o de carreadores na membrana interna e a ca mitocondrial. como no est´gio 3. Tim12 e Tim13. O precursor ´ transferido para o complexo Tim9-Tim10-Tim12 que est´ a e a associado ao complexo Tim22. a c do precursor AAC para o interior da membrana interna. Tim9. O complexo SAM ´ essencial para a viabilidade da c´lula. esta prote´ cont´m um dom´ N-terminal que est´ ına e ınio a 23 ψ. Quando o ψ ´ dissipado. Est´gio 4. c 3. Tim54. al´m do complexo de transloca¸˜o TOM.Cap´ ıtulo 2. o precursor AAC passa por um est´gio intera e a medi´rio. Essa importa¸ao ´ explicada em [17] c˜ e atrav´s de v´rios est´gios: e a a 1. Ele ´ translocado parcialmente pelo complexo TOM e interage com o coma e plexo Tim9-Tim10 no espa¸o intermembranas. tais como a ADP/ATP carreadores (AAC) e outros membros da fam´ de carreadores mitocondriais. O transporte da fam´ de carreadores atrav´s do espa¸o intermembrana e sua ılia e c transferˆncia para o complexo TIM22 ´ mediado por prote´ e e ınas de baixo peso molecular chamadas: Tim8.

translocadas para a 24 . a embora alguns experimentos demonstram que essas prote´ ınas podem colaborar para uma integra¸˜o eficiente de precursores de membrana externa [10]. as prote´ destinam ao espa¸o intermembranas seguem 2 rotas. ´ Figura 2. Importa¸˜o de prote´ ca ınas para o interior da matriz mitocondrial As prote´ ınas importadas para a matriz da mitocˆndria s˜o geralmente captadas do o a citosol dentro de segundos ou minutos ap´s a sua libera¸˜o pelos ribossomos por um o ca mecanismo p´s-traducional. ca Diferentes rotas para a importa¸˜o de prote´ ca ınas mitocondriais As prote´ ınas precursoras podem ser importadas para as mitocˆndrias atrav´s de sete o e rotas diferentes (Figura 2. Outras prote´ c ınas identificadas foram a Sam 35 e a Sam 37.Cap´ ıtulo 2. isto ´.. Molecular Cell Biology. Elementos de Biologia e C´digos Corretores de Erros o exposto no espa¸o intermembranas. a fun¸˜o molecular exata de cada uma dessas prote´ e ca ınas ainda s˜o desconhecidas. ent˜o.8: Diferentes rotas para a importa¸˜o de prote´ ca ınas mitocondriais. 5th Edition. 1. as prote´ o e ınas mitocondriais s˜o primeiro completaa mente sintetizadas como prote´ ınas precursoras no citosol e. as prote´ c ınas importadas para a matriz e para a membrana externa seguem apenas uma unica rota.8) que est˜o classificadas da seguinte forma: as prote´ a ınas que s˜o a ınas que se importadas para a membrana interna podem seguir 3 rotas diferentes. Lodish et al. Por´m.

A prote´ sendo transportada ca atravessa. Elementos de Biologia e C´digos Corretores de Erros o a mitocˆndria [5]. onde as membranas interna e externa parecem se tocar. Molecular Cell Biology. a Note que o transporte ocorre em “s´ ıtios de contato” raros.9: Importa¸˜o de prote´ ca ınas para o interior da matriz. Depois que uma prote´ precursora se liga a um receptor de importa¸˜o ına pr´ximo ao s´ de contato com a membrana interna (etapa 2). esse canal e um canal adjacente na membrana interna (etapas 4 e 5). 5th Edition. ela ´ transferida para o ıtio e ına dentro do poro principal de importa¸˜o (etapa 3).. A liga¸˜o da prote´ sendo transportada pela chaperona Hsc70 da matriz e a hidr´lise ca ına o de ATP subsequente pela Hsc70 ajudam a direcionar a importa¸˜o para dentro da ca matriz. O dobramento de ca algumas prote´ ınas depende das chaperoninas da matriz. o Figura 2. Importa¸˜o de prote´ ca ınas para a membrana externa mitocondrial Os experimentos com a porina mitocondrial (P70) forneceram informa¸˜es sobre como co 25 . 2. Lodish et al. Uma vez que a sequˆncia de capta¸˜o-direcionamento seja removida por uma e ca protease da matriz e a Hsc70 seja liberada da prote´ rec´m-importada (etapa 6).Cap´ ıtulo 2. ent˜o.9 ilustra a importa¸˜o de prote´ o ca ınas para a matriz da mitocˆndria. A Figura 2. como a Hsc70 a ca (etapa 1). ela ına e se dobra na conforma¸˜o madura e ativa dentro da matriz (etapa 7). As prote´ ınas precursoras sintetizadas nos ribossomos citos´licos s˜o mantidas em um o a estado n˜o-dobrado ou parcialmente dobrado pelas chaperonas ligadas.

Importa¸˜o de prote´ ca ınas para o espa¸o intermembrˆnico matriz mitoconc a drial Duas vias para transportar as prote´ ınas do citosol para o espa¸o intermembrana mitoc condrial est˜o ilustradas na Figura 2. Nature Structural & Molecular Biology. a sequˆncia de direcionamento para a matriz e a sequˆncia de finaliza¸˜o de e e ca transferˆncia n˜o s˜o clivadas da prote´ ancorada. A principal a diferen¸a ´ que a sequˆncia de direcionamento interna nas prote´ c e e ınas. A fonte de energia para direcionar e a a ına as prote´ ınas de membrana externa atrav´s do poro geral de importa¸˜o ainda n˜o foi e ca a identificada. Vol. Norına malmente. 10441048. 3. como o citocromo 26 . Se a e a o sequˆncia hidrof´bica ´ eliminada experimentalmente da P70. ´ similar c e ` via A para encaminhamento para a membrana interna (ver Figura 2. Essa observa¸˜o sugere que as sequˆncias hidrof´bicas longas funcionam como ca e o sequˆncias de finaliza¸˜o que tanto impedem a transferˆncia da prote´ para dentro e ca e ına da matriz como as ancoram como uma prote´ integrada na membrana externa. Assembling the Mitochondrial Outer Membrane. a A via A. 11. com a sua sequˆncia de direcionamento para a matriz ainda lic e gada.12).11.8). Uma a sequˆncia curta de direcionamento para a matriz na extremidade N-terminal da P70 e ´ seguida por um longo trecho de amino´cidos hidrof´bicos (ver Figura 2.10. a prote´ se acumula e o e ına no espa¸o da matriz.Cap´ ıtulo 2. Figura 2. Figura 2. a principal via de encaminhamento para o espa¸o intermembranas. pp.10: Importa¸˜o de prote´ ca ınas para membrana externa. Pfanner. Elementos de Biologia e C´digos Corretores de Erros o prote´ ınas s˜o direcionadas para a membrana mitocondrial externa.

Elementos de Biologia e C´digos Corretores de Erros o Figura 2.12. 27 . As prote´ ca ınas encaminhadas pelas vias A e B contˆm uma sequˆncia de direcionamento para a matriz na extremidade e e N-terminal que ´ reconhecida pelo receptor de importa¸˜o Tom20/22.Cap´ ıtulo 2. na membrana e ca externa. Molecular c Cell Biology.11: Importa¸˜o de prote´ ca ınas para o espa¸o intermembranas. Lodish et al. Embora ambas as vias utilizem o canal da membrana interna Tim23/17. na membrana externa. A via B envolve o encaminhamento direto para o espa¸o intermembranas atrav´s do poro geral de importa¸˜o Tom40. ent˜o. redirecionada ına e a para a membrana interna. Em todas as trˆs vias. a As prote´ ınas com diferentes sequˆncias de direcionamento s˜o encaminhadas para a e a membrana interna por vias diferentes. que cliva a prote´ no lado do espa¸o intermembranas da membrana. b2 destinado para o espa¸o intermembrana. e ca 4. na via B. elas diferem porque a prote´ precursora inteira entra na matriz e ´. Importa¸˜o de prote´ ca ınas para a membrana interna mitocondrial Trˆs vias para transportar as prote´ e ınas do citosol para a membrana mitocondrial interna est˜o ilustradas na Figura 2. as prote´ e ınas cruzam a membrana externa pelo poro geral de importa¸˜o Tom40. ´ reconhecido por uma protease da memc e brana interna. 5th Edition. ına c A prote´ liberada se dobra e se liga ao seu co-fator heme dentro do espa¸o interına c c membranas..

apesar de seus efeitos estarem ca a relacionados com quais c´lulas s˜o afetadas pela muta¸ao. Duas e prote´ ınas intermembranas (Tim9 e Tim10) facilitam a transferˆncia entre os canais e externo e interno.Cap´ ıtulo 2. ou v´ ırus. As prote´ u ınas encaminhadas pela via C contˆm e sequˆncias internas que s˜o reconhecidas pelo receptor de importa¸˜o Tom70. uma delas co co a a pode mudar a cor dos descendentes desse indiv´ ıduo. na membrana interna (Tim22/45). Lodish et al. e a c˜ Muta¸˜es geram varia¸˜es no conjunto de genes da popula¸˜o. No entanto. Se essa mudan¸a de cor for vantajosa. as muta¸˜es s˜o mudan¸as na sequˆncia dos nucleot´ co a c e ıdeos do material gen´tico e de um organismo.. Por exemplo. A maioria dessas muta¸˜es n˜o ter´ efeito. tornando-os mais dif´ ıceis (ou f´ceis) de a serem vistos por predadores. Muta¸˜es desfavor´veis co co ca co a (ou delet´rias) podem ter sua frequˆncia reduzida na popula¸˜o por meio da sele¸˜o natural. Molecular Cell Biology.1. A fonte da muta¸˜o n˜o se relaciona com seus efeitos. ´ utilizado nesta via.12: Importa¸˜o de prote´ ca ınas para a membrana interna. mutagˆnicos qu´ a ca ca e ımicos. uma borboleta pode produzir uma prole c com novas muta¸˜es. resultando em co a e mudan¸as evolutivas adaptativas.9). e com o tempo o n´ mero de o a u 28 .3 Muta¸˜es co Em biologia. 5th Edition. Um canal e a ca de transporte diferente. a chance dessa borboleta c sobreviver e produzir sua pr´pria prole ser´ um pouco maior. 2. por exposi¸˜o a radia¸˜o ultravioleta ou ionizante. Muta¸˜es podem ser causadas por erros de c´pia do material durante a co o divis˜o celular. e e ca ca enquanto muta¸˜es favor´veis (ben´ficas ou vantajosas) podem se acumular. A Hsc70 da matriz tem um papel similar ao seu papel na importa¸˜o de prote´ ca ınas sol´ veis da matriz (ver Figura 2. Elementos de Biologia e C´digos Corretores de Erros o Figura 2.

etc. ocorre quando h´ a troca de uma purina por ca a outra purina (A ↔ G) ou uma pirimidina por outra pirimidina (C ↔ T ). h´ a troca de um unico nucleot´ ca a ´ ıdeo por outro [19]. fornecendo as novas caracter´ ca e a ısticas vantajosas que sobrevivem e se multiplicam nas gera¸˜es subsequentes ou as caracter´ co ısticas delet´rias que desaparecem em organismos mais fracos. Muta¸˜es gen´ticas tˆm e co e e diferentes efeitos na sa´ de. j´ co a ca ca a que insere a varia¸˜o gen´tica sobre a qual ela ir´ agir. Muta¸˜es de ponto que ocorrem dentro da regi˜o a ca co a codificadora da prote´ podem ser classificadas em trˆs tipos. como aquelas que afetam um gene em um ou poucos co nucleot´ ıdeos. e e a co As muta¸˜es s˜o consideradas o mecanismo que permite a a¸˜o da sele¸˜o natural. Segue alguns exemplos de muta¸˜es: ca co 1. Muta¸˜es de pequena escala. As muta¸˜es s˜o classificadas de v´rias formas. e c co muitos organismos tˆm mecanismos para eliminar c´lulas som´ticas que sofreram muta¸˜es. Um tipo de muta¸˜o de ponto menos comum ´ a transvers˜o. em que h´ a troca de uma ca e a a purina por uma pirimidina. e A sequˆncia de um gene pode ser alterada de diversas maneiras.Cap´ ıtulo 2. ca e ca o c) Muta¸˜o sem sentido: ´ a introdu¸˜o de um c´don de parada prematuro que interrompe a prote´ antes de seu t´rmino. Acredita-se que a imensa maioria das muta¸˜es n˜o tem efeito significativo co a na aptid˜o dos organismos. dependendo de onde ocorrem e se alteram a fun¸˜o de prote´ u ca ınas essenciais. na fun¸˜o. ına b) Muta¸˜o de sentido trocado: consiste na substitui¸˜o de um amino´cido por ca ca a outro resultando em consequˆncias fenot´ e ıpicas observ´veis devido a mudan¸a a c na atividade da prote´ ına. ca a ca ca Muta¸˜es neutras s˜o definidas como muta¸˜es cujos efeitos n˜o influenciam a aptid˜o co a co a a dos indiv´ ıduos. mecanismos de reparo de DNA s˜o capazes de a e a corrigir a maior parte das mudan¸as antes que elas se tornem muta¸˜es permanentes. conhecida por transi¸˜o. ına e 29 . incluindo: • Muta¸˜o de ponto: geralmente causada por substˆncias mutagˆnicas ou erros ca a e na replica¸˜o do DNA. Al´m disso. A mais comum. Elementos de Biologia e C´digos Corretores de Erros o borboletas com essa muta¸˜o constituir´ uma maior propor¸˜o da popula¸˜o. como por exemplo por efeito na co a a estrutura. dependendo do tipo ına e de express˜o apresentado pelo c´don mutado [6]: a o a) Muta¸˜o silenciosa: n˜o causa mudan¸a na sequˆncia de amino´cidos ou na ca a c e a atividade da prote´ codificada pelo gene. ou vice-versa (C/T ↔ A/G). Uma muta¸˜o de ponto ca pode ser revertida por outra muta¸˜o de ponto em que o nucleot´ ca ıdeo ´ mudado de e volta ao seu estado original (revers˜o verdadeira) ou por uma revers˜o a partir de a a outra muta¸˜o (uma muta¸˜o complementar em outro local que resulta no retorno ca ca do gene ` fun¸˜o anterior) [20].

Por exemplo. esta mudan¸a ser´ provavelmente c a mal´fica. a Para funcionar corretamente. e consequentemente cause cˆncer [22]. cada c´lula depende de milhares de prote´ e ınas para funcionar nos s´ ıtios certos. o As muta¸˜es mal´ficas s˜o mudan¸as no DNA causadas por muta¸˜es que podem causar co e a c co erros na sequˆncia das prote´ e ınas. Cada c´lula tem um certo n´ mero de vias ca e u bioqu´ ımicas atrav´s do qual enzimas reconhecem e reparam erros no DNA. muta¸˜es gˆnicas que poderiam provocar uma doen¸a gen´tica s˜o reparadas co e c e a pelo sistema celular de repara¸˜o do DNA. criando prote´ ınas parcial ou completamente n˜o-funcionais. pode dar origem a descendentes ca e portadores dessa muta¸˜o em todas as suas c´lulas. esse tipo de muta¸˜o ´ causado por transposons ou erros durante a ca e replica¸˜o de elementos repetitivos (sequˆncias AT. co c e a u algumas muta¸˜es alteram a sequˆncia de bases de DNA de um gene mas n˜o mudam a fun¸˜o co e a ca da prote´ produzida por esse gene. uma muta¸˜o pode ocorrer numa c´lula som´tica de um organismo. Insers˜es na ca e o regi˜o codificadora de um gene podem alterar o corte (splicing) do mRNA. e Geralmente. c o • Dele¸˜o: H´ a remo¸˜o de um ou mais nucleot´ ca a ca ıdeos da sequˆncia de DNA. Este ´ o caso de doen¸as heredit´rias. Quando uma muta¸˜o altera uma prote´ que tem um papel importante ca ına no corpo. Como o DNA e pode ser danificado ou mutado de diversas maneiras. por exemplo). Elementos de Biologia e C´digos Corretores de Erros o • Inser¸˜o: ocorre pela adi¸˜o de um ou mais nucleot´ ca ca ıdeos na sequˆncia de DNA. inser¸˜es consisca co a o co tem de uma sequˆncia espec´ e ıfica sendo inserida em locais que n˜o s˜o completaa a mente aleat´rios. e Se uma muta¸˜o estiver presente numa c´lula germinal.Cap´ ıtulo 2. o processo de repara¸˜o do DNA ´ uma ca e 30 . a maioria n˜o tem impacto na sa´ de. pode resultar numa doen¸a. Contudo. e a Muitas vezes. ou a causar mudan¸a no quadro de leitura dos c´dons. Uma enfermidade causada por muta¸˜es em um ou c co mais genes ´ chamado de doen¸a gen´tica. E importante notar que uma dele¸˜o n˜o ´ o a ca a e oposto exato de uma inser¸˜o. elementos de transposi¸˜o capazes de reverter uma ca ca dele¸˜o muito curta (com uma ou duas bases) em um dado local s˜o muito imca a ´ prov´veis ou mesmo inexistentes. apesar de teoricamente a mesma sequˆncia poder e ser restaurada por inser¸˜o. essas muta¸˜es podem modificar o quadro de leitura do gene. apenas uma pequena percentagem e c e de muta¸˜es causa doen¸as gen´ticas. Algumas ca e a muta¸˜es podem estar presentes em todos os descendentes desta c´lula e certas muta¸˜es co e co podem provocar que a c´lula se torne maligna. Enquanto dele¸˜es s˜o aleat´rias. o co Geralmente elas s˜o irrevers´ a ıveis. Estudos na mosca da fruta Drosophila melanogaster ına sugerem que se uma muta¸˜o muda de fato uma prote´ ca ına. Ase sim como insers˜es. Por ca e e c a outro lado. com 70 por cento destas muta¸˜es tendo efeitos negativos e sendo as restantes e co neutras ou fracamente ben´ficas [21].

Por exemplo.Cap´ ıtulo 2. A teoria de c´digos foi fundada pelo matem´tico Claude E. os e e e co c´digos de Slepian. o e co as constela¸˜es tendo como base reticulados. sempre existe um c´digo que permite uma transmiss˜o o a com probabilidade de erro arbitrariamente pequena. uma dele¸˜o espec´ ca ıfica de 32 pares de base no CCR5 humano confere resistˆncia ao e HIV a homozig´ticos e atrasa o despoletar do SIDA em heterozig´ticos. A teoria de c´digos corretores de erros teve in´ nesta mesma d´cada com os trabalhos o ıcio e de Golay [25]. combinat´ria. co o co como por exemplo. Pessoas que tinham esta muta¸˜o o e ca foram capazes de sobreviver ` infec¸˜o. dentre outras. A grande descoberta da ´poca surgiu. as pesquisas se direcionaram para a procura de “bons c´digos” e “bons conjuntos o de sinais” associados a esses c´digos. Shannon provou que para taxas de transmiss˜o de informa¸˜o co a ca menores do que a capacidade de canal. Por co c exemplo. o e C´digos s˜o utilizados sempre que se deseja transmitir ou armazenar dados. na d´cada de o a e 40. nas comunica¸˜es internas de um computador. por este motivo a sua frequˆncia na popula¸˜o aua ca e ca mentou [23]. faixa e algumas combina¸˜es destas. bem como. projetar decodificadores eficientes para esses o c´digos. etc. Assim. com os modelos de c´digos capazes de detectar e corrigir erros o num sistema de comunica¸˜es. 2. geometrias finitas e geometria alg´brica. nas o a comunica¸˜es via sat´lite. o O objetivo de um sistema de comunica¸˜o ´ transmitir informa¸˜o de uma fonte para um ca e ca destinat´rio atrav´s de um canal de comunica¸˜o com a maior confiabilidade poss´ a e ca ıvel. A muta¸˜o CCR5 ´ o o ca e mais comum em pessoas com ascendˆncia europ´ia. o Na linha de c´digos surgiram as classes de c´digos lineares e n˜o-lineares e na linha de o o a conjuntos de sinais foram propostos constela¸˜es de sinais ´timas sob diversas restri¸˜es. Shannon [24]. teoria dos n´ meros. no armazenamento co e co de dados em CD e DVD ou armazenamento ´ptico de dados. princie palmente devido a Shannon. seus variantes obtidos atrav´s de grupos de transforma¸˜es ortogonais. Uma teoria para a etiologia da relativa e e alta frequˆncia do CCR5-∆32 na popula¸˜o europ´ia ´ que esta confere resistˆncia ` peste e ca e e e a bubˆnica que flagelou a Europa em meados do S´culo XIV. Hamming [26] e Shannon [24]. co 31 . c As muta¸˜es ben´ficas s˜o muta¸˜es que levam ` novas vers˜es de prote´ co e a co a o ınas que ajudam o organismo e futuras gera¸˜es a adaptar-se melhor a mudan¸as no seu ambiente. potˆncia de pico. Elementos de Biologia e C´digos Corretores de Erros o maneira importante do corpo se proteger de doen¸as. co u teoria dos grupos. potˆncia m´dia. como por exemplo.2 C´digos Corretores de Erros o A teoria de c´digos ´ um ramo da matem´tica em franca atividade possuindo v´rias rao e a a mifica¸˜es que utilizam ferramentas bastante diversas.

o a Por outro lado. b) atrav´s de ∗.2. os c´digos n˜o-lineares n˜o possuem uma estrutura alg´brica como a dos o a a e lineares. Uma opera¸ao bin´ria ∗ sobre um conjunto S ´ uma regra que associa ca c˜ a e algum elemento de S a cada par ordenado (a. Por´m. al´m de englobar os c´digos de Slepian o e o e os c´digos reticulados. a falta de uma estrutura alg´brica o e e aumenta a complexidade do processo de decodifica¸˜o. Estas estruturas co s˜o fundamentais na teoria de c´digos corretores de erro. a propriedade de serem geometricamente uniformes. ca ca Dentro dessa nova linha de pesquisa. 2. por´m tendo que satisfazer. Elementos de Biologia e C´digos Corretores de Erros o Essas linhas de pesquisa sempre foram tratadas separadamente at´ 1982. Os c´digos lineares constituem uma classe importante de c´digos por possu´ o o ırem uma estrutura alg´brica permitindo que principalmente a decodifica¸˜o seja bastante simplificada.1 apresentamos as a ca principais defini¸˜es e propriedades das estruturas de grupo. ca O objetivo ´ apresentar alguns dos principais conceitos de ´lgebra e c´digos que s˜o e a o a fundamentais para a compreens˜o do presente trabalho.2.1 Estruturas Alg´bricas e Os conceitos apresentados nesta subse¸˜o podem ser encontrados em [29] e [30].2. Esta flexibilidade possibilita obter c´digos com distˆncias de Hamming maiores o a do que as encontradas com os c´digos lineares. ganhos e de codifica¸˜o significativos eram obtidos. A Subse¸˜o 2.6 abordamos os principais conceitos sobre c´digos BCH utilizados co o no decorrer do presente trabalho. atrav´s do conceito de particionamento de conjunto de sinais.2. Forney [28] apresentou uma nova classe de c´digos o denominada c´digos geometricamente uniformes que.2. e ca o a e Em contrapartida. Na Subse¸˜o 2. pois facilitam os processos de a o codifica¸˜o. a capacidade de corre¸˜o de erros destes c´digos n˜o ´ melhor do que ca aquela de certos c´digos n˜o-lineares. Estes conceitos foram usados com o objetivo o de propor um sistema de comunica¸˜o para a importa¸˜o de prote´ ca ca ınas organelares.4 ca apresenta uma breve introdu¸˜o aos c´digos geometricamente uniformes. Na Subse¸˜o 2. estende o procedimento proposto por Ungerboeck.2. quando Ungere boeck [27] mostrou que. ca Grupos Defini¸˜o 2. (a ∗ b denotar´ o elemento a associado a (a.3 revemos os ca ca a ca conceitos relacionados a c´digos de bloco e suas principais caracter´ o ısticas. Cap´ ıtulo 3.2.2. decodifica¸˜o e an´lise de desempenho destes. o A procura de bons c´digos continua sendo relevante. aos conjuntos de ca o sinais casados a grupos e aos c´digos G-lineares.Cap´ ıtulo 2. anel e corpo.1. Nas Se¸˜es 2. sempre o e quando poss´ ıvel.5 e 2. Surgindo assim. a modula¸˜o codificada. e 32 . b) de elementos de S.

2.5.2. Um grupo G ´ abeliano (ou comutativo) se sua opera¸˜o bin´ria ∗ for ca e ca a comutativa. |G|. Seja n um inteiro positivo e sejam h e k inteiros quaisquer. Assim. o e ou seja. ´ a soma de h e a e e k m´dulo n. (O elemento a−1 ´ o elemento inverso de a com rela¸ao a opera¸ao e c˜ ` c˜ ∗). ca a e 2. O conjunto Z sob a opera¸˜o + ´ um grupo. 33 . ca a e Uma classe de grupos bastante usada em c´digos corretores de erro ´ a dos grupos Zn . (Esse elemento e ´ a e o elemento identidade para ∗ sobre G).2.2. podemos definir produto de s e t m´dulo n como sendo o resto da divis˜o de (s · t) por n.1. · · · . ca o Defini¸˜o 2. ent˜o a ordem de G. 2.2. ´ e Defini¸˜o 2. A opera¸˜o bin´ria ∗ ´ associativa.1. e´ 2. O inverso de cada elemento pertencente a um grupo G ´ unico. Um grupo G. 1. Para cada a em G. 3.3. O elemento identidade de um grupo G ´ unico. O resto r ca quando h + k ´ dividido por n. Note ca a que apenas um unico elemento ´ associado a cada par ordenado de S. tal que os seguintes axiomas s˜o satisfeitos: a 1. a Teorema 2. segundo o algoritmo da divis˜o de Euclides. ´ o n´mero de elementos ca de G. Exemplo 2. n − 1}. ∗ ´ um conjunto n˜o vazio G com uma opera¸˜o bin´ria ca e a ca a ∗ sobre G. e ca ca o e a e u Defini¸˜o 2. H´ um elemento e em G tal que e ∗ x = x ∗ e = x para todo x ∈ G. temos que Zn = {0. Assim.2.2.2. o o Analogamente.2 temos os seguintes resultados: e ca 1. existe um elemento a−1 em G com a propriedade que a−1 ∗ a = a ∗ a−1 = e. Este grupo ´ abeliano. Elementos de Biologia e C´digos Corretores de Erros o Essa necessidade de que o elemento esteja tamb´m em S ´ conhecida como condi¸˜o de e e ca fechamento.Cap´ ıtulo 2. O conjunto Zn ´ um grupo sob a opera¸˜o adi¸˜o m´dulo n. Note que todas as condi¸˜es ca e co da defini¸˜o de um grupo s˜o satisfeitas. exigimos que S seja fechado sob uma opera¸˜o bin´ria em S. Se G ´ um grupo finito.4. Como consequˆncia da Defini¸˜o 2. e´ Defini¸˜o 2. os inteiros sob adi¸˜o m´dulo n.

2. Se um subconjunto H de um grupo G ´ fechado sob a opera¸˜o bin´ria sobre ca e ca a G e se H ´ um grupo sob esta opera¸˜o bin´ria. a Defini¸˜o 2. Diz-se que H ´ normal em G.2. a 3.2.8. e o denotamos por a .9.Cap´ ıtulo 2. b.2.2 ´ o subgrupo c´ ca e ıclico de G gerado por a. Ent˜o a H = {an | n ∈ Z}. a Teorema 2.2. ent˜o a ´ um gerador de G e o grupo G = a ´ c´ a e e ıclico. Todos os subgrupos de grupos abelianos s˜o normais. 2. Defini¸˜o 2.2. O grupo Z sob adi¸˜o ´ um grupo c´ ca e ıclico cujos geradores s˜o 1 e −1. O grupo H do Teorema 2.6. Exemplo 2. Dados um grupo G e um elemento a ∈ G. Seja G um grupo e seja a ∈ G.10. Seja H um subgrupo de um grupo G. g −1 Hg = H para todo g ∈ G. Elementos de Biologia e C´digos Corretores de Erros o Defini¸˜o 2. Exemplo 2.2. 1. Defini¸˜o 2. a 34 . g −1 Hg ⊂ H para todo g ∈ G. se ocorrer que ca G = {an | n ∈ Z}. Escrevemos e ca a a e H ≤ G. ent˜o H ´ um subgrupo de G. ´ um subgrupo de G e ´ o menor subgrupo de G que cont´m a.2.2.2. gH = Hg para todo g ∈ G. 4. 3. ou H ´ ca e e um subgrupo normal de um grupo G. qualquer outro subgrupo e e e que cont´m a cont´m tamb´m H. g −1 hg ∈ H para todo g ∈ G e h ∈ H. 2.3. Se a ∼ b. Se a ∼ b e b ∼ c. e e e Defini¸˜o 2.2. ou seja. se qualquer uma das seguintes condi¸˜es equivalentes co ocorrer: 1. ent˜o a ∼ c.7. Uma rela¸˜o ∼ sobre um conjunto S que satisfaz as seguintes propriedades ca ca para todo a. a ∼ a. c ∈ S. ent˜o b ∼ a.

Defini¸˜o 2.2. Analogamente.2.2.3 (Teorema de Lagrange).2.2. e somente se. Ent˜o. Ent˜o a multiplica¸˜o de classes a ca laterais ` esquerda ´ definida como a e (aH)(bH) = (ab)H.4. H ´ normal em G. e Defini¸˜o 2. temos o e e grupo quociente Z/nZ = Zn . Como Z ´ um grupo abeliano.2. O ca a grupo G/H ´ chamado grupo quociente de G m´dulo H. ´ a classe lateral a esquerda de H contendo a. Ent˜o a a ordem de H ´ um divisor da ordem de G. onde e ´ a identidade do grupo.14. e Teorema 2. O subconjunto de G ca aH = {ah | h ∈ H}.11.1. Dizemos que ø ´ um homomorfismo de G em G se e ø(ab) = ø(a)ø(b) 35 . Teorema 2.2.4.13. Teorema 2. sob a opera¸˜o bin´ria (aH)(bH) = (ab)H. e |H|· (n´mero de classes laterais de G com rela¸˜o a H) = |G|. ` ´ a classe lateral a direita de H contendo a.5. e e e Defini¸˜o 2. nZ ´ um subgrupo normal. o conjunto das classes laterais ca a de H formam um grupo. Todo grupo cuja ordem ´ um n´mero primo ´ c´ a e u e ıclico. Seja H um subgrupo de um grupo G. Seja H um subgrupo normal de G.2. Elementos de Biologia e C´digos Corretores de Erros o ´ uma rela¸ao de equivalˆncia sobre S. A ordem de qualquer elemento de um grupo finito divide a ordem do grupo. Logo.Cap´ ıtulo 2. Considere dois grupos quaisquer G e G e a fun¸˜o (ou mapeamento) ca ca ø : G → G .12. A ordem n de um elemento a pertencente a um grupo G ´ o menor inteiro ca e n positivo tal que a = e.2. Seja H um subgrupo de um grupo finito G. Seja H um subgrupo de um grupo G. denotado por G/H. e ` Ha = {ha | h ∈ H}. Cada c´lula a da parti¸˜o dada por uma rela¸˜o e c˜ e e ca ca de equivalˆncia ´ uma classe de equivalˆncia. e o Exemplo 2. ou seja. e Defini¸˜o 2. se. u ca Corol´rio 2.

ø(a + b) = ø(a) + ø(b). ´ v´lida a lei distributiva ` esquerda. S˜o exemplos de an´is: Z. herdadas de R. 2. a ` As vezes dizemos apenas “R ´ um anel” ou falamos do “ anel R”.2.18. isto ´. para a.2. tal co a ca ca que os seguintes axiomas s˜o satisfeitos: a e 1. +.19. . R. · .17. Um anel R. . a a 36 . co Defini¸˜o 2. por simplifica¸˜o de e ca linguagem. (Note que o produto ab ocorre em G.2. C. Exemplo 2. 2. Q. c ∈ R. e ` e a a a lei distributiva ` direita.2. 1.5. Um isomorfismo de G em G ´ um homomorfismo onde a fun¸˜o ca e ca ø : G → G ´ bijetora.Cap´ ıtulo 2. Dizemos que Q ´ um subanel de um anel R se Q ⊆ R e Q tamb´m forma ca e e um anel sob as opera¸˜es + e ·. Isto pressup˜e. o Defini¸˜o 2. b.2. ca ca e e 3. +.2.2.2. Sejam R e R’ an´is. O conjunto {0. ca e Dizemos ent˜o que R e R s˜o isomorfos. naturalmente. b ∈ R: co a 1. c ∈ R. e a = 2. as quais chamamos de adi¸˜o e multiplica¸˜o. Uma fun¸˜o (mapeamento) ø : R → R ´ um ca e ca e homomorfismo se as condi¸˜es abaixo s˜o satisfeitas. A opera¸˜o de multiplica¸˜o ´ associativa. Defini¸˜o 2. Dizemos que G e G s˜o isomorfos e escrevemos G ∼ G . um par de opera¸˜es em R com as propriedades o co citadas. +.2 An´is e Defini¸˜o 2. · . a(b + c) = (ab) + (ac). · e o conjunto a e dos polinˆmios da forma a0 + a1 x + a2 x2 + · · · + an xn na vari´vel x e coeficientes inteiros. . ∀a. R. b ∈ G. ø(ab) = ø(a)ø(b). (ab)c = a(bc).6. · ´ um conjunto n˜o vazio R juntamente com duas ca e a opera¸˜es bin´rias + e · definidas sobre R. o a com as opera¸˜es de adi¸˜o e multiplica¸˜o de polinˆmios. co ca ca o Exemplo 2. enquanto que o produto ø(a)ø(b) ocorre em G ). n − 1} forma um anel sob as opera¸˜es de soma e co produto m´dulo n. +. Defini¸˜o 2.15.16. · . b. Elementos de Biologia e C´digos Corretores de Erros o para todo a. . + ´ um grupo abeliano. +. Para todo a. Um isomorfismo de R e R ´ um homomorfismo ø : R → R bijetor. (a + b)c = (ac) + (bc).

dizemos que R ´ um anel comutativo ca a ca a e com unidade.2. (0. e Sejam R um anel. Q um ideal em R e x um elemento em R. ··· . Se Q ´ simultaneamente um ideal ` direita e ` esquerda em R. ab = ba para todo ca ca e e a. n − 1) denotam as classes e laterais: 0 = nZ.6. Q define uma rela¸˜o ca de equivalˆncia em R. isto ´. 37 n − 1 = n − 1 + nZ .21. b ∈ R. Assim.20. chamado anel quociente de R m´dulo e co o Q e denotado por RQ . Teorema 2.2. pode ser visto como um anel quociente de Z m´dulo o nZ. Estas classes de equivalˆncia s˜o os conjuntos: e a x = x + Q = {x + q | q ∈ Q} e s˜o chamadas classes laterais aditivas de Q em R. ou seja.2. dada por: e x ∼ x ⇔ x − x ∈ Q. Exemplo 2. Se R ´ um anel com unidade. Um subanel Q de um anel R ´ um ideal a direita (ou a esquerda) ca e ` ` e a a em R se Qb ⊆ Q (bQ ⊆ Q) para todo b ∈ R. A partir das opera¸˜es de adi¸˜o e multiplica¸˜o em R. · · · . pois nZ ´ um ideal em Z. Um anel R em que a multiplica¸˜o ´ comutativa. a adi¸˜o e a multiplica¸˜o em R/Q. Se al´m disso. Assim. definimos duas opera¸˜es em co ca ca co R/Q da seguinte forma: x + y = (x + Q) + (y + Q) = x + y = (x + y) + Q e x · y = (x + Q) · (y + Q) = x · y = x · y + Q. Todo elemento em R est´ contido em a a exatamente uma classe lateral x. Defini¸˜o 2. dizemos que Q ´ um ideal em R. E poss´ co a ca ca ıvel mostrar que R/Q ´ um anel sob as opera¸˜es acima. ´ chamado um anel comutativo. ´ Estas opera¸˜es s˜o.7. respectivamente. Z/nZ. que ser´ denotado por 1. 1. n ≥ 2. 1 = 1 + nZ. Elementos de Biologia e C´digos Corretores de Erros o Defini¸˜o 2. R possuir elemento identidade e e em rela¸˜o ` multiplica¸˜o. ent˜o esta unidade 1 ´ a unica identidade e a e ´ multiplicativa do anel.Cap´ ıtulo 2. O conjunto Zn .2. Denotamos o conjunto de todas essas classes laterais por R/Q.

2. Ou seja. Assim. a Exemplo 2. Se a e b s˜o elementos n˜o nulos de um anel R tais que ab = 0 ou ba = 0. Elementos de Biologia e C´digos Corretores de Erros o que possuem estrutura de anel sob adi¸˜o e multiplica¸˜o de classes laterais e que particionam ca ca Z. ca a a a ent˜o a e b s˜o divisores de zero.Cap´ ıtulo 2. u e e Exemplo 2. O n´ mero de elementos num corpo ´ a ordem do mesmo co u e e um corpo onde este n´ mero ´ finito ´ chamado corpo finito. · · · . Defini¸˜o 2. ´ v´lida a lei co ca e a distributiva.2. as seguintes condi¸˜es s˜o satisfeitas: co a 1. S˜o exemplos de corpos: o conjunto dos n´meros racionais e dos n´meros a u u reais sob adi¸˜o e multiplica¸˜o usuais e o conjunto Zp = {0.24.2.26. a Defini¸˜o 2. Um corpo F ´ um anel de divis˜o comutativo. ıvel Exemplo 2. dizemos que F ´ um corpo sob as opera¸˜es bin´rias (+) e (·) se. tais ca ca que para todo α. (rs)α = r(sα). (r + s)α = rα + sα. 3. F constitui um grupo abeliano sob estas opera¸˜es e.23. Seja R um anel. para a opera¸˜o (·). a Defini¸˜o 2. r(α + β) = rα + rβ. Um R-m´dulo consiste de um grupo abeliano G e uma ca o opera¸˜o de multiplica¸˜o de cada elemento de G por todo elemento de R pela esquerda. s ∈ R.22. Defini¸˜o 2.10. 2. β ∈ G e r.2.2. Corpos Defini¸˜o 2. e somente e co a se. 2. ca ca o 38 . Os unicos elementos invers´ ´ ıveis em Z s˜o 1 ou −1.2. podemos dizer que um corpo apresenta no m´ ınimo dois elementos: as identidades das opera¸˜es (+) e (·). Anel de divis˜o ´ um anel com unidade no qual todo elemento n˜o ca a e a nulo ´ invers´ e ıvel. Seja R um anel com unidade.2. 1.2.9. ca e a Portanto. 4. Um elemento a em R ´ uma unidade ca e invers´ ıvel em R se existe um elemento a−1 ∈ R tal que a · a−1 = a−1 · a = 1. (rα) ∈ G. p − 1} para p primo ca ca sob adi¸˜o e multiplica¸˜o m´dulo p. a ´ e invers´ se possui inverso multiplicativo em R.25.8. Em Z8 os elementos 2 e 4 s˜o divisores de zero.

7. Dizemos que um polinˆmio p(x) sobre Fq ´ primo se ele for mˆnico e ca irredut´ sobre Fq . Se G ´ um subgrupo multiplicativo do grupo F ∗ . Ent˜o esta a a extens˜o tem q r elementos. Um elemento β ∈ Fq ´ uma raiz ou zero do polinˆmio p(x) ∈ Fq [x] se ca e o p(β) = 0.2.11. o o o ıvel Teorema 2.2. e a a Defini¸˜o 2.3. Corol´rio 2. a o e o Defini¸˜o 2. Um polinˆmio mˆnico ´ aquele cujo coeficiente l´ ca o o e ıder (coeficiente da vari´vel de maior expoente) pn−1 ´ igual a 1. e Defini¸˜o 2. estes a co o corpos s˜o tamb´m conhecidos como corpos alg´bricos de Galois ou corpos de Galois e a e e s˜o denotados por GF (q) ou Fq onde q ≥ 2 ´ o n´ mero de elementos do corpo.2.2. i ∈ Z. a identidade multiplicativa de Fq . Um polinˆmio de grau n − 1 sobre um corpo Fq ´ escrito como: ca o e p(x) = pn−1 xn−1 + pn−2 xn−2 + · · · + p1 x + p0 . O conjunto dos n´meros inteiros n˜o forma um corpo sob as opera¸˜es u a co de adi¸˜o de multiplica¸˜o usuais. a e Sabemos que o conjunto de todos os polinˆmios sobre GF (q) forma um anel sob as o opera¸˜es usuais de soma e multiplica¸˜o de polinˆmios.2. · de elementos n˜o nulos e a de um corpo F . ent˜o G ´ c´ a e ıclico.28.29.2. O grupo multiplicativo de todos elementos n˜o nulos de um corpo finito a a sob a opera¸˜o multiplica¸˜o deste corpo ´ c´ ca ca e ıclico.Cap´ ıtulo 2. Este anel ´ denotado por GF (q)[x] co ca o e ou Fq [x].30. Elementos de Biologia e C´digos Corretores de Erros o Exemplo 2.31.2. Teorema 2. Defini¸˜o 2. Um subcorpo ´ um subconjunto de um corpo que tem estrutura de corpo ca e sob as opera¸˜es herdadas do mesmo. 0 ≤ i ≤ n − 1. ca ca Defini¸˜o 2. Considere uma extens˜o finita de grau r sobre o corpo Fq .27.2.2. onde x ´ uma vari´vel e os coeficientes pi . co Os corpos finitos s˜o usados na maioria das constru¸˜es dos c´digos conhecidos. s˜o elementos de Fq .8. Descrevemos a e u a seguir uma s´rie de propriedades sobre Fq .2. ıvel 39 . Uma extens˜o (corpo de extens˜o) E de grau r de um corpo finito Fq ´ o a a a e conjunto dos polinˆmios sobre Fq m´dulo um polinˆmio irredut´ de grau r. Corol´rio 2.2.

4 ´ a de que todo corpo de Galois cont´m e a e e um elemento β. Um gerador do grupo multiplicativo de Fq ´ denominado um elemento ca e primitivo de Fq . Um c´digo de bloco C de comprimento n sobre um alfabeto A ´ ca n qualquer subconjunto n˜o-vazio do conjunto A das sequˆncias c = {ci | 1 ≤ i ≤ n}.2. Defini¸˜o 2. Considere os corpos GF (q ) e GF (q) como definidos acima. Cada elemento β de GF (q ) tem um unico polinˆmio minimal sobre GF(q). o o Neste trabalho estamos interessados em alfabetos finitos. p(x) ´ um polinˆmio primo. tal que todo elemento pertencente ao grupo multiplicativo do corpo finito pode ser expresso como uma potˆncia de β.2. Seja GF (q ) um corpo finito e GF (q) um subcorpo de GF (q ).2.2.33. O polinˆmio primo p(x) de menor grau sobre GF (q). Por alfabetos “estruturados”.3 C´digos o As defini¸˜es e teoremas apresentados nesta subse¸˜o podem ser encontradas em [29]. Um c´digo C sobre um alfabeto A ´ qualquer subconjunto n˜o-vazio ca o e a I do espa¸o de sequˆncias A .2. Chamamos de palavra-c´digo os elementos. Corol´rio 2. ou e o s´ ımbolos. no alfabeto A que comp˜em o c´digo C. se β ´ o tem p(x) como seu polinˆmio minimal e um polinˆmio g(x) tem β como um zero.2.32.Cap´ ıtulo 2. Defini¸˜o 2. e o o o e somente se.10. Entretanto. anel ou grupo. a e Uma consequˆncia imediata do Corol´rio 2. Elementos de Biologia e C´digos Corretores de Erros o Teorema 2.9.4. tal que p(β) = 0. O anel de polinˆmios m´dulo um polinˆmio p(x) sobre Fq ´ um corpo se.35. onde A ´ chamado alfabeto do c´digo e I ´ o conjunto de c e e o e ´ ındices das sequˆncias c = {ci | i ∈ I}. [30] co ca e [31]. muitas vezes ´ e conveniente que o mesmo seja “estruturado”a fim de que a codifica¸˜o e a decodifica¸˜o ca ca sejam simplificadas.2.34. e o Defini¸˜o 2. ent˜o p(x) o o a divide g(x). 2. ´ o e chamado polinˆmio minimal de β sobre GF (q). Mais do que isso. Todo corpo finito F cont´m um elemento primitivo.2. tal como corpo. o Teorema 2. e o e Defini¸˜o 2.2. entendemos aqueles que formam alguma estrutura alg´brica. e Os pr´ximos teoremas se referem ` existˆncia e unicidade dos chamados polinˆmios mio a e o nimais. a e 40 . Seja ca β ∈ GF (q ).

dimens˜o k e distˆncia m´ o a a ınima de Hamming d = dmin (C) ´ representado por (n. o a C´digos de bloco podem ser usados como c´digos corretores de erros.Cap´ ıtulo 2. 41 . est´ relacionada ` distˆncia ca o a a a m´ ınima deste c´digo da seguinte forma: o dmin ≤ 2t + 1.11. ca a Teorema 2. dmin )-c´digo. ca o e a que ´ o comprimento do c´digo. s´ ca a o e ımbolos por bloco.2.2. dmin ). Seja C um c´digo de comprimento n e tal que |C| ≥ 2. a taxa e a distˆncia m´ a a ınima de Hamming. Repare que as trˆs propriedades de m´trica u e e est˜o sendo satisfeitas: a 1. y) ≥ 0 e dH (x. A capacidade de o o corre¸˜o de erros de um c´digo (n. z) ≥ dH (x. k.37. neste trabalho estaremos usando a distˆncia de Hamming. implicitamente foi tamb´m definido o parˆmetro n. Um c´digo de bloco ´ caracterizado por trˆs parˆmetros e o o e e a principais: a dimens˜o. k.39. y) + dH (y.36.2. Defini¸˜o 2. tais como. x). 2. onde | · | ´ a cardinalidade do conjunto. onde k ´ a dimens˜o e n ´ ca o e e a e o comprimento do c´digo. Elementos de Biologia e C´digos Corretores de Erros o Na defini¸˜o de um c´digo de bloco.2. dH (x. z). A distˆncia de Hamming dH (x. ddmin ). denominada t. Entretanto. o Defini¸˜o 2. y) = 0 ⇔ x = y. Outras distˆncias ainda podem ser definidas. e Defini¸˜o 2. y) x.2. y) entre duas palavras x e y ∈ An ´ o ca a e n´mero de componentes nas quais elas diferem. Para qualquer c´digo de bloco (n. y ∈ C. esta ultima quando estamos associando uma modula¸˜o (um conjunto de pontos ´ ca do Rn ) ao c´digo. O seguinte teorema fornece um limitante e o superior para a distˆncia m´ a ınima em fun¸˜o dos parˆmetros n e k. y) = dH (y. dH (x. 3. denotada por dmin (C) ´ dada por: e dmin (C) = min dH (x. A taxa de um c´digo C ´ dada por r = k/n. A dimens˜o de um c´digo C ´ dada por k = log|A| |C|. a distˆncia de Lee ou a distˆncia a a a Euclidiana. x=y Um c´digo de bloco C de comprimento n. dH (x.38. vale a seguinte desigualdade: o d ≤ n − k + 1. k. Defini¸˜o 2. A distˆncia ca o a m´ ınima de Hamming de C.

e qualquer vetor ortogonal a suas linhas pertence ao espa¸o vetorial das linhas da matriz c geradora G associada e vice-versa. ent˜o e + C = {e + v | v ∈ C} ´ uma classe a e a e q n lateral de Fq . c a c Portanto. .2. ent˜o C ´ o espa¸o ortogonal de H = (−P | In−k ). todas as suas palavras-c´digo formam um o e o subespa¸o vetorial de dimens˜o k do espa¸o vetorial Fqn . onde u ´ a palavra a ser codificada ou informa¸˜o e v ´ a palavra-c´digo correspondente. e ca o A express˜o em padr˜o de erro denomina a diferen¸a entre a palavra-c´digo recebida a a c o e a palavra-c´digo enviada. O c´digo gerado pela matriz H ´ chamado c´digo dual o e o do c´digo C.Cap´ ıtulo 2. . k. denotada por H. Dado um c´digo C com matriz verifica¸˜o de paridade H. Elementos de Biologia e C´digos Corretores de Erros o Logo. . Se C ´ o espa¸o linha da matriz o e a e c T G = (Ik | P ). o conjunto das n-uplas do corpo Fq . denotado por C ⊥ . Dessa forma.. e Defini¸˜o 2. ´ chamada matriz verifica¸˜o de paridade de e ca C. A maioria dos c´digos conhecidos at´ hoje pertencem ` classe dos c´digos lineares. k. a s´ ca o ca ındrome de um vetor v ∈ Fq ´ o vetor Hvt. gk1 gk2 · · · gkn    G=     .   conhecida como matriz geradora do c´digo (n. e somente se. . Como C ´ um subgrupo. .40. considere um o o a padr˜o de erro e ∈ Fn . Um o e a o c´digo (n. k). onde a matriz (n − k) × n. quanto maior a distˆncia m´ a ınima do c´digo. dmin ) ´ dito linear se. podemos representar este c´digo matricialmente como o  g11 g12 · · · gn g21 g22 · · · g2n . . onde In−k ´ a matriz a e c e identidade de ordem n − k e P T ´ a matriz transposta de P . cujas linhas formam uma base do o c´digo linear C. Em um c´digo linear C com parˆmetros (n. e A s´ ındrome ´ um conceito usado para fazer a corre¸˜o de erros em c´digos lineares. o Existe uma maneira simples de determinar uma matriz verifica¸˜o de paridade para um ca c´digo se uma matriz geradora ´ dada na forma sistem´tica. e ca e o Para toda palavra-c´digo v vale a rela¸˜o o ca vH T = 0. . 42 . . o processo de codifica¸˜o pode ser escrito como: o ca v = uG. . . maior ´ a capacidade deste de corrigir o e erros. dmin ).

Todavia. • v − e ´ a palavra-c´digo. e o Para um c´digo (n. a Algumas observa¸˜es importantes devem ser feitas sobre o arranjo padr˜o. eqn−k v2 e1 + v2 2 + v2 . . escolha aquela com menor peso e chame-a de a q e1 . possuem a mesma s´ ındrome. realizar a decodifica¸˜o por m´xima verossico a o ca a milhan¸a. note o q que a lista dada no arranjo padr˜o tem q k classes laterais cada contendo q n−k palavras. eqn−k + v2 v3 e1 + v3 e2 + v3 . c a e a 43 . q A Tabela 2.1: Arranjo padr˜o. Duas palavras est˜o na mesma classe lateral se. fazer uso do arranjo padr˜o ´ impratic´vel. a • A j-´sima linha da tabela ´ formada pela classe ej + C. . Uma regra de decodifica¸˜o por m´xima verossimilhan¸a para um c´digo linear ´ comca a c o e pletamente descrita pelo arranjo padr˜o. e a v1 = 0 e1 e2 . Cada palavra co a aparece uma unica vez na tabela. ou equivalentemente. A segunda linha da tabela ser´ composta pela classe lateral e1 + C. . A primeira coluna da tabela ´ formada pelas palavras de e peso m´ ınimo dentro de cada classe. e s˜o denominadas os l´ a ıderes das classes laterais. . . . onde ej ´ sempre escolhido e e e como a n-upla em Fn de menor peso que ainda n˜o foi usada. • ache o padr˜o de erro e correspondente a essa s´ a ındrome na tabela.Cap´ ıtulo 2. . eqn−k + v3 ··· ··· ··· ··· ··· k vq k e1 + vq k e2 + vq . O receptor utiliza o arranjo padr˜o para decodificar a a uma palavra recebida da seguinte maneira: • recebido v. eqn−k + vqk Tabela 2. Como a em aplica¸˜es s˜o utilizados c´digos longos.1 determinada assim ´ chamada arranjo padr˜o. k) sobre Fn uma lista completa consiste de q n palavras. Elementos de Biologia e C´digos Corretores de Erros o Estabele¸a uma tabela da seguinte maneira: c • a primeira linha da tabela deve conter todas as palavras-c´digo de C come¸ando com a o c palavra toda nula. e somente ´ a se. a q • Esse procedimento termina quando todas as palavras de Fn tenham sido usadas. • Das n-uplas de Fn que n˜o foram usadas. . calcule sua s´ ındrome.

2. e µs1 . Se S for finito. Um grupo gerador ca o m´ ınimo U(S) de S.12. 44 . ´ um subgrupo do grupo de simetrias de S que satisfaz e ∀s0 ∈ S. µ ∈ U(S)}. [28] Seja S um c´digo geometricamente uniforme. Em geral. S = {µ(s0). Em outras palavras. ca Defini¸˜o 2.42. [28] Seja S um conjunto de sinais em um espa¸o m´trico (M. o grupo de simetrias de um conjunto de sinais geometricamente uniforme possui mais elementos do que o necess´rio para ger´-lo.s2 (S) = S. dada por m(µ) = µ(s0 ) ´ injetora.2. ca Defini¸˜o 2. d). e ınimo U(S) induz uma parti¸˜o de um ca Um subgrupo normal U de um grupo gerador m´ conjunto de sinais geometricamente uniforme S em subconjuntos geometricamente uniformes.s2 (s1 ) = s2 . Tais c´digos foram denominados c´digos geometricamente uniformes apresentando proo o o a priedades sim´tricas altamente desej´veis tais como: todas as regi˜es de Voronoi s˜o cone a gruentes. ca Teorema 2. existe uma e o isometria µs1. as palavras-c´digo a e o o possuem a mesma probabilidade de erro. Dizemos ca c e que S ´ um c´digo geometricamente uniforme se para quaisquer s1 e s1 ∈ S. o perfil de distˆncias ´ o mesmo para qualquer palavra-c´digo. Elementos de Biologia e C´digos Corretores de Erros o 2.2. e o grupo gerador ´ isomorfo a um grupo de pere co muta¸˜es transitivo sobre as palavras-c´digo. As defini¸˜es e resultados apresentados nesta co o subse¸˜o podem ser encontrados em [28]. a a¸˜o do grupo de simetrias. consideraremos a seguinte a a defini¸˜o. ao inv´s de transforma¸˜es ortogonais ou transla¸˜es consideradas de forma separada. de S ´ transitiva.Cap´ ıtulo 2.41. [28] O produto cartesiano de conjuntos de sinais geometricamente uniformes ´ um conjunto de sinais geometricamente uniforme.4 C´digos Geometricamente Uniformes o Forney em [28] generalizou os c´digos de grupo de Slepian e c´digos reticulados pero o mitindo que os elementos do grupo gerador sejam isometrias arbitr´rias do espa¸o euclidiano a c n e co co R . ca e dizemos que S ´ uma constela¸˜o uniforme e se S for infinito dizemos que S ´ um arranjo e ca e regular.s2 tal que: µs1 . Para isto.2. e e a fun¸˜o m : U(S) −→ S. Γ(S).

a ca o pois facilitam o processo de decodifica¸˜o dos mesmos. [28] Seja S um conjunto de sinais geometricamente uniforme em um ca espa¸o m´trico (M. a o Em outras palavras. no m´ o ınimo. Para um c´digo S geometricamente uniforme. A regi˜o de Voronoi associada a um ponto s ∈ S. t˜o pr´ximos a s quanto qualquer outro ponto s ∈ S. denotada por c e a V (S). Os elementos de S/S s˜o os subconjuntos a de S que correspondem `s classes laterais de U em U(S). todas palavras-c´digos possuem mesma probabilidade de erro e o a o grupo gerador U(S) ´ isomorfo a um grupo de permuta¸˜es transitivo sobre as palavras do e co c´digo. ca 45 .Cap´ ıtulo 2. [28] Sejam S/S uma parti¸˜o geometricamente uniforme e G um grupo ca ca isomorfo a U(S/U (S). Formalmente. como por exemplo as constela¸oes de sinais M-PSK. temos a o a o a o seguinte defini¸˜o: ca Defini¸˜o 2. constitui a forma mais adequada de estabelecer esta associa¸˜o. Uma parti¸ao geometricamente uniforme S/S . d). Um rotulamento isom´trico ´ uma fun¸˜o injetora m : G −→ S/S e e ca dada pela composi¸˜o do isomorfismo entre G e U(S)/U (S) e a fun¸˜o injetora induzida por ca ca m de U(S)/U (S) em S/S . a maioria ´ ca o a co e geometricamente uniforme.2. todas as regi˜es de a o e o Voronoi s˜o congruentes. [28] Seja S um conjunto de sinais geometricamente uniforme com grupo ca gerador m´ ınimo U(S). no sentido de que n˜o ´ necess´rio ca a e a conhecer a regi˜o de decis˜o de cada palavra-c´digo. basta conhecer a regi˜o de Voronoi asa a o a sociada a uma das palavras do c´digo e determinar as demais regi˜es a partir de transla¸˜es o o co da regi˜o conhecida. apresentando propriedades e e como: a distˆncia entre quaisquer duas palavras-c´digo de S ´ a mesma. Elementos de Biologia e C´digos Corretores de Erros o Defini¸˜o 2. podemos definir. a Defini¸˜o 2. e o Conjunto de sinais casado a um grupo. s )} s ∈ S A uniformidade geom´trica ´ uma forma mais forte de simetria. ´ o conjunto e V(S) (s) = {x ∈ M | d (x .44. para cada ponto s ∈ S.2. ´ uma parti¸˜o c˜ e ca de S. a Com rela¸˜o aos c´digos j´ existentes utilizados em comunica¸˜es digitais. induzida por um subgrupo normal U de U(S). s) ≤ min d (x . essas regi˜es s˜o as regi˜es de decis˜o do c´digo.45. Todas essas caracter´ o ısticas s˜o buscadas na constru¸˜o de novas classes de c´digos.2. [32]. o uma regi˜o formada por todos os pontos pertencentes ao espa¸o m´trico onde est´ definido o a c e a c´digo que se encontram. c˜ Conjunto de Sinais Casados a Grupos o A principal motiva¸˜o para considerar o codificador e o modulador como um s´ bloco ca ´ estabelecer a melhor forma de associar uma palavra-c´digo a um sinal a ser transmitido.43.

[32] Seja µ a fun¸˜o tal que o conjunto de sinais S em um espa¸o m´trico ca ca c e (M. para quaisquer x. onde eG ´ o elemento neutro de G e e −1 H = µ (SeG ). µ(g )) = d(µ(g −1 ∗ g ). Se S ca c e est´ casado a um grupo G e H ´ um subgrupo normal em G. 3. Dizemos que um conjunto de sinais ca c e a ca S. finito. 4. d(x.2.48. d). x = y ⇒ d(x. ent˜o H ´ um subgrupo de G e. d) esteja casado a um grupo G. o a a Esta extens˜o ´ feita considerando-se um c´digo quatern´rio mais como um rotulamento do a e o a 46 . z ∈ M. [29] Sejam M um conjunto n˜o vazio e d: M × M −→ R uma fun¸˜o que ca a ca satisfaz as seguintes condi¸˜es: co 1. d) esteja casado a um grupo G. Elementos de Biologia e C´digos Corretores de Erros o Defini¸˜o 2. d(µ(g). a e a a Defini¸˜o 2.2. a C´digos G-lineares o Os c´digos G-lineares s˜o uma extens˜o da Z4 -linearidade centrada em grupos de simetria. Dizemos. A fun¸˜o µ ´ denominada mapeamento casado. ent˜o µ−1 ´ denominada rotulamento casado. [32] Seja µ a fun¸˜o tal que o conjunto de sinais S em um espa¸o m´trico ca c e (M.47. y) > 0. y) + d(y. d) ´ um a e e e espa¸o m´trico. d(x. z) ≤ d(x.46. Se SeG = µ(eG ). a e e µ(g) = µ(g ) ⇐⇒ gH = g H. ∀ g. e H definido como no Lema 2. ou seja. que d ´ uma m´trica e o par (M. [32] Seja (M. 2. y.1. al´m disso. em M est´ casado a um grupo G se existe uma fun¸˜o µ de G sobre S tal que. [32] Seja S um conjunto de sinais em um espa¸o m´trico (M. g ∈ G onde eG ´ o elemento neutro de G. c e Defini¸˜o 2. y) = d(y. µ(eG )). a a Proposi¸˜o 2. d(x. g e g est˜o na mesma classe lateral ` esquerda de H em G.Cap´ ıtulo 2. ent˜o dizemos que µ ´ um mapeamento efetivamente a a e casado e S est´ efetivamente casado a G.2. x). ent˜o S est´ casado a G/H. Se µ e ca e ´ injetora.2. z). ent˜o.2. d) um espa¸o m´trico. e a e Lema 2.1. Se H n˜o cont´m suba e grupos normais n˜o triviais de G. x) = 0.1.2.

Cap´ ıtulo 2. Elementos de Biologia e C´digos Corretores de Erros o que a imagem de um c´digo por isometria entre m´dulos. Este conceito foi introduzido em o o [33] para c´digos em espa¸os m´tricos em geral. o c e Todos os c´digos bin´rios n˜o-lineares estudados em [34] s˜o imagens de c´digos lineares o a a a o sobre Z4 atrav´s de um mapeamento adequado. e Para estender este mapeamento para alfabetos n˜o necessariamente bin´rios precisamos a a n conhecer a estrutura do dom´ ınio e da imagem do mapeamento φ : Z4 → (Z2 × Z2 )n . Desse modo, temos as seguintes considera¸˜es: co • O dom´ ınio b´sico Z4 ser´ visto como um grupo e a distˆncia de Lee associada a Z4 ´ a a a e compat´ com a sua estrutura de grupo, ou seja, ´ uma m´trica de grupo em Z4 . ıvel e e • A imagem b´sica Z2 × Z2 ser´ vista como um espa¸o m´trico onde a m´trica associada a a c e e ´ a m´trica de Hamming. e e Tendo como base estas considera¸˜es, a quest˜o que se coloca ´ a seguinte: para um grupo co a e G (como o Z4 ) e um espa¸o m´trico M (como o Z2 × Z2 ) quais devem ser as condi¸˜es de c e co n n existˆncia do mapeamento φ : G → M , como no caso da Z4 -linearidade? e A resposta a esta quest˜o poder´ fornecer uma t´cnica de constru¸˜o de classes de c´digos a a e ca o geometricamente uniformes sobre o alfabeto M, atrav´s de c´digos de grupo sobre o grupo e o G. Al´m de ser poss´ a constru¸˜o de c´digos sob uma determinada estrutura alg´brica a e ıvel ca o e partir de c´digos sob uma estrutura mais adequada, permitir´ tamb´m fornecer uma t´cnica o a e e de associa¸˜o das palavras-c´digos aos elementos do conjunto de sinais. ca o Considerando o mesmo procedimento que no caso Z4 , iremos estabelecer condi¸˜es sufico cientes para que um c´digo C, sobre um alfabeto A, seja geometricamente uniforme, mesmo o que este n˜o seja linear. Esta ultima condi¸˜o dever´ ser herdada do c´digo de grupo sobre a ´ ca a o o grupo G. Estas considera¸˜es levam a seguinte defini¸˜o. co ca Defini¸˜o 2.2.49. Sejam G um grupo, d uma m´trica de grupo em G e C um c´digo de ca e o comprimento n sobre o alfabeto A e cuja m´trica ´ d . Diremos que C ´ G-linear se C, e e e ou um c´digo equivalente C , for imagem de um c´digo de grupo C sobre o grupo C, isto ´, o o e C = φ(C), onde φ : Gn → An ´ uma isometria entre os espa¸os m´tricos. e c e Com esta defini¸˜o, temos as seguintes propriedades do c´digo C: ca o Proposi¸˜o 2.2.2. Se um c´digo C ´ G-linear, ent˜o: ca o e a 1. O alfabeto A est´ efetivamente casado ao grupo G, e consequentemente, o c´digo C a o est´ casado ao c´digo de grupo correspondente obtido pelo mapeamento estendido. a o 2. O c´digo C ´ geometricamente uniforme. o e 47

Cap´ ıtulo 2. Elementos de Biologia e C´digos Corretores de Erros o Encontrar o mapeamento φ : G → A ´, em princ´ e ıpio, um problema dif´ ıcil. Todavia, como o alfabeto A est´ casado ao grupo G e φ ´ uma bije¸˜o, a procura por este mapeamento a e ca ´ equivalente a determinar um subgrupo transitivo isomorfo ao grupo de simetrias de A e conforme o Teorema 2.2.13. Teorema 2.2.13. [32] Seja Θ um grupo transitivo sobre S em um espa¸o m´trico (M,d), ou c e seja, S ´ a ´rbita de um dado ponto sob Θ. Ent˜o S est´ casado a Θ e, para todo s ∈ S, a e o a a transforma¸˜o ca µS : Θ → S; µS (f ) = f (s)

2.2.5

C´digos C´ o ıclicos Sobre An´is de Inteiros Residuais e

Nesta subse¸˜o, apresentamos as defini¸˜es e os teoremas relacionados a c´digos c´ ca co o ıclicos e e sobre an´is Zq (q ≥ 4 e inteiro). Nossa referˆncia ´ [35]. e Defini¸˜o 2.2.50. Seja R um anel. Um m´dulo livre ´ um R-m´dulo gerado por um ca o e o conjunto de vetores linearmente independentes. Defini¸˜o 2.2.51. Um c´digo linear (n, k) sobre Zq ´ definido como um m´dulo livre de ca o e o n dimens˜o k no espa¸o de todas as n-uplas de Zq . a c Defini¸˜o 2.2.52. Um c´digo linear C com parˆmetros (n, k) sobre Zq ´ c´ ca o a e ıclico se, para v = (v0 v1 v2 ... vn−1 ) ∈ C, todo deslocamento c´ ıclico v (1) = (vn−1 v0 v1 v2 ... vn−2 ) ∈ C, com vi ∈ Zq , 0 ≤ i ≤ n − 1. Os c´digos c´ o ıclicos s˜o geralmente representados na forma polinomial. Assim, considere a a palavra c´digo v = (v0 v1 v2 ... vn−1 ) de um c´digo c´ o o ıclico C. Podemos represent´-la a pelo polinˆmio: o v(x) = v0 + v1 x + v2 x2 + ... + vn−1 xn−1 . O produto entre x e v(x) m´dulo xn − 1 ´ dado por: o e v (1) (x) = vn−1 + v0 x + v1 x2 + ... + vn−2 xn−1 , que corresponde ` palavra c´digo: a o v(1) = (vn−1 v0 v1 ... vn−2 ), a qual ´ um deslocamento c´ e ıclico da palavra: 48

Cap´ ıtulo 2. Elementos de Biologia e C´digos Corretores de Erros o

v = (v0 v1 v2 ... vn−1 ).
Zq [x] Portanto, v (1) (x) ´ obtido atrav´s do produto x.v(x) no anel quociente Rn = <xn −1> , e e onde < xn − 1 > representa o ideal gerado por xn − 1. A adi¸˜o de duas palavras-c´digo ´ ca o e

feita em Zq [x]. Note que o conjunto de todas as palavras pertencentes a um c´digo c´ o ıclico C formam um subconjunto do anel Rn , isto ´, o conjunto de todos os polinˆmios cujo grau ´ menor do que e o e n. Teorema 2.2.14. Um conjunto S de elementos em Rn ´ um c´digo c´ e o ıclico se, e somente se, S ´ um ideal em Rn . e Proposi¸˜o 2.2.3. Seja C um ideal em Rn = ca
Zq [x] , <xn −1>

isto ´, um c´digo c´ e o ıclico de com-

primento n. Se existir um polinˆmio de grau m´ o ınimo em C, cujo coeficiente dominante ´ e um elemento invers´ em Zq , ent˜o o polinˆmio mˆnico (ou seja, aquele cujo coeficiente ıvel a o o dominante ´ um de grau m´ e ınimo em C ´ unico. e´
Zq [x] Teorema 2.2.15. Seja C um ideal em Rn = <xn −1> e g(x) um polinˆmio mˆnico com o o o menor grau em C. Assim, C = g(x) , e portanto, o c´digo C consiste de todos os m´ltiplos o u

de g(x). Dizemos ent˜o que C ´ um ideal principal. a e Teorema 2.2.16. Seja C um ideal principal em Rn . Se o coeficiente dominante do polinˆmio o de menor grau em C, g(x), ´ um elemento invers´ e ıvel, ent˜o g(x) divide (xn − 1). Note que a se este polinˆmio for mˆnico, ent˜o g(x) divide (xn − 1). o o a Teorema 2.2.17. Se g(x) ∈ C e g(x) divide (xn − 1), ent˜o g(x) tem grau m´ a ınimo em C = g(x) . Os Teoremas 2.2.16 e 2.2.17 fornecem um m´todo de constru¸˜o de c´digos c´ e ca o ıclicos sobre an´is de inteiros residuais an´logo ao m´todo de constru¸˜o de c´digos c´ e a e ca o ıclicos sobre corpos n finitos, ou seja, atrav´s da fatora¸˜o do polinˆmio (x − 1) sobre o anel de interesse para e ca o ent˜o tomar um fator (ou produto de fatores) como polinˆmio gerador do c´digo em quest˜o. a o o a O pr´ximo teorema est´ relacionado ` representa¸˜o matricial dos c´digos c´ o a a ca o ıclicos sobre an´is que possuem uma matriz geradora. e Teorema 2.2.18. Se g(x) divide (xn − 1) e o grau de g(x) ´ (n − k), ent˜o a dimens˜o de e a a C = g(x) ´ k. Se e g(x) = g0 + g1 x + g2 x2 + ... + xn−k , 49

k ≥ 2.Cap´ ıtulo 2. r) ∼ = = 50 Zq [x] . 0 0 . . Se C ´ um c´digo c´ ca e o ıclico sobre Zq onde q = pk1 pk2 . denotado por mdc(p. . .2. o m´ximo divisor comum ´ um. para 1 ≤ i ≤ q.. . . . sobre Zq . Um c´digo c´ ca o ıclico sobre Zq com comprimento n = q r − 1. . . 0 . . . R ∼ GR(pk . . isto ´. . . ent˜o C ´ a a e 1 2 ki e soma direta dos c´digos c´ o ıclios Ci sobre Zpi . ´ denominado c´digo c´ e a e o ıclico primitivo..          k     G=    .. . e e A principal diferen¸a da constru¸˜o de c´digos c´ c ca o ıclicos sobre an´is para a constru¸˜o de e ca c´digos c´ o ıclicos sobre corpos est´ no fato de que as ra´ do polinˆmio gerador dos c´digos a ızes o o c´ ıclicos sobre an´is encontram-se na extens˜o do anel Zq ... pois assim e a e garantimos que (xn − 1) n˜o apresenta fatores quadr´ticos. . o e o Seja Zq [x] o anel de polinˆmios na vari´vel x sobre Zq onde p(x) ´ um polinˆmio primio a e o tivo de grau r. isto ´. . ao inv´s de serem encontradas na e a e extens˜o do corpo Fq ∼ GF (pr ). .5. q = pk . .4... ou seja. Elementos de Biologia e C´digos Corretores de Erros o ent˜o a matriz geradora do c´digo C ´ dada por: a o e  g0 g1 g2 .2.. ... 0 0 . Vamos assumir que a ordem do anel e o comprimento do c´digo sejam relativamente o primos. ... Representamos por ıvel k GR(p . consequentemente. . .. . Extens˜o de an´is de Galois a e A motiva¸˜o para se utilizar o conceito de extens˜o de Galois em teoria da codifica¸˜o ca a ca est´ diretamente relacionada com a constru¸˜o de c´digos c´ a ca o ıclicos sobre an´is locais Zq . 0 g0 g1 0 g0 . Da Se¸˜o 2. n) = 1.pq q . r) o quociente Zq [x] pelo ideal gerado por p(x). g0 g1 g2 . irredut´ sobre GF (p) e.2. q C= i=1 Ci . onde q = pk e r ´ o grau da extens˜o de Galois. sabemos que um a a ca c´digo c´ o ıclico de comprimento n sobre Zq ´ o ideal principal no anel de polinˆmios sobre Zq e o m´dulo (xn − 1) e que este ideal ´ gerado por qualquer polinˆmio g(x) que divide (xn − 1).53.. . 0 0 1 0 0 . . . . < p(x) > . 1 Proposi¸˜o 2. . onde e q ´ uma potˆncia de um primo. gn−k−2 gn−k−1 1 . gn−k−1 1 0 . . a = Defini¸˜o 2.

ou seja. Defini¸˜o 2. pertence a R∗ (grupo ıvel a e das unidades de R). Zq [x] p(x) ´ uma extens˜o e a A irredutibilidade do polinˆmio p(x) sobre Zq ´ garantida pelo seguinte teorema: o e ca Teorema 2. nosso objetivo ´ fornecer um e procedimento para a constru¸˜o de tais c´digos. Um polinˆmio p(x) ∈ R com pelo menos um a o coeficiente invers´ em Zq n˜o ´ um divisor de zero em R e.2. R . Este subgrupo tem ordem p − 1. ´ sempre poss´ encontrar um polinˆmio q(x) ∈ R. a e´ O anel R ∼ GR(pk . Elementos de Biologia e C´digos Corretores de Erros o Assim. Uma vez encontrado este grupo multiplicativo. portanto. r) ´ um anel local [37].q(x) = 1.54. que cont´m todas as ra´ de (x − 1).55. Esta a a extens˜o ´ unica a menos de isomorfismo [37]. o anel R ´ formado por todas as classes laterais de polinˆmios em x sobre Zq e o mod p(x). seus elementos divisores de zero formam e e = um grupo abeliano aditivo e consistem dos polinˆmios de grau menor ou igual a (r − 1) cujos o coeficientes s˜o divisores de zero em Zq . [36] Seja p(x) um polinˆmio regular em Zq . ent˜o p(x) ´ irredut´ em Zq . que divide ızes o (xn − 1).2. consiste do conjunto dos polinˆmios de grau menor ou igual a (r − 1) cujas e o opera¸˜es bin´rias de adi¸˜o e multiplica¸˜o s˜o realizadas m´dulo p(x).16. tal que µ(p(x)) seja diferente de zero e irredut´ ca ıvel em GF (p). tal que e ıvel o p(x). Os resultados a seguir fornecem os elementos necess´rios para a constru¸˜o do subgrupo a ca ∗ n c´ ıclico Gn do grupo multiplicativo R .56. [36] Um polinˆmio regular p(x) ´ chamado local se ca o e local de Zq . Al´m disso.2. temos: ca Defini¸˜o 2. isto ´.2. 51 . [36] Um polinˆmio n˜o nulo p(x) ´ um divisor de zero em Zq [x] se ca o a e existe um polinˆmio q(x) ∈ Zq [x]. Se existe uma aplica¸˜o µ. e ızes Teorema 2. Vale lembrar que. ´ um grupo abeliano multica e plicativo.q(x) = 0. a e ıvel Como estamos interessados na classe dos c´digos c´ o ıclicos. Como o grupo das unidades de R. R ´ um co a ca ca a o e e anel comutativo com identidade denominado extens˜o de Galois de dimens˜o r de Zq . ele pode ser expresso como um produto de grupos c´ ıclicos. o problema da constru¸˜o de c´digos c´ ca o ıclicos se reduz ` escolha de a determinados elementos deste grupo que sejam ra´ do polinˆmio gerador g(x).2.2. q(x) = 0. isto ´. da Defini¸˜o 2.20. o Defini¸˜o 2.Cap´ ıtulo 2. [37] Existe um unico subgrupo c´ ´ ıclico de R∗ cuja ordem ´ relativamente e r prima a p. O primeiro passo est´ relacionado com a ca o a n ∗ fatora¸˜o de (x − 1). tal que p(x).19. [36] Um polinˆmio p(x) ´ dito regular se ele n˜o ´ um divisor de zero ca o e a e no anel Zq [x]. o chamada proje¸˜o natural.

e Teorema 2.2. (β i )p .23.6 C´digos BCH sobre An´is o e Os c´digos BCH formam uma importante classe de c´digos c´ o o ıclicos devido. Os c´digos BCH foram descobertos por co a o R. ` simplicidade dos processos de codifica¸˜o e decodifica¸˜o associados. e f d gera o subgrupo c´ ıclico Gn de R∗ . e somente se. Rp (f ) tem ordem n em F ∗ (grupo multiplicativo de GF (pr )).22.2. o que os torna bons a ca ca candidatos a serem utilizados em aplica¸˜es pr´ticas.5. tem como suas ra´ todos os elementos na sequˆncia. 2. principalmente.2. enquanto que. C. ca o Temos ainda a seguinte propriedade: Teorema 2. . [38] Suponha que f ∈ R gere um subgrupo de ordem n em R∗ . onde Rp (f ) ´ o resto da divis˜o de f por p (redu¸˜o de f m´dulo p). onde mdc(n. K. onde n = pr − 1. p) = 1 . Portanto. Hocquenghem e representam uma excelente generaliza¸˜o ca dos c´digos de Hamming. o polinˆmio minimal Mi (x) pode ser constru´ de forma muito similar ` conso ıdo a i tru¸˜o do polinˆmio minimal mi (x) de Rp (β ) sobre GF (p). Bose. permitindo a m´ ltipla corre¸˜o de erros. Formam assim a classe o u ca 52 . Chaudhuri e A. Rp (h(x)) pode ser fatorado sobre GF (pr ) como: Rp (h(x)) = (x − (Rp (β))e1 )(x − (Rp (β))e2) · · · (x − (Rp (β))ej ). a o pode ser fatorado sobre Gn como: h(x) = (x − β e1 )(x − β e2) · · · (x − β ej ).2. onde β ´ um elemento primitivo de Gn e ej ∈ Z. [38] Um polinˆmio h(x). que divide (xn − 1) e tem coeficientes em Zq . Ent˜o o a elemento δ = β l1 − β l2 possui inverso em R se 0 ≤ l1 = l2 ≤ n − 1. se. Elementos de Biologia e C´digos Corretores de Erros o Teorema 2. [38] Suponha que f1 = Rp (f ) gere um subgrupo c´ ıclico de ordem n em F ∗ . (β i)p 2 r−1 .5. onde d ´ um inteiro maior ou igual a e um.22. (β i )p . .Cap´ ıtulo 2. [35] Seja β um elemento primitivo em Gn . ızes e β i.2.21. pelo Corol´rio 2. O subgrupo c´ ıclico Gn ´ obtido do Teorema 2. Ent˜o f gera um subgrupo c´ a ıclico de ordem nd em R∗ . (x − f n )se. D.2. e somente se. Ent˜o o polinˆmio (xn − 1) pode ser fatorado como xn − 1 = (x − f )(x − a o f 2 ) . e a ca o Corol´rio 2. o e a i ∗ polinˆmio minimal Mi (x) associado ao elemento β sobre R (onde β ´ um elemento primitivo o e em Gn ). · · · .2.

. fazemos algumas considera¸˜es sobre os c´digos BCH e co o posteriormente passamos ` constru¸˜o de tais c´digos. algoritmo de Berlekampca ca Massey modificado [35].58.2. . Se n = pr − 1. Ou seja.52 de c´digos o ca o c´ ıclicos sobre an´is Zq .57. temos: a ca Defini¸˜o 2. existem bons c´digos BCH. em alguma extens˜o GF (p ) de GF (p). o e Normalmente. . 1 ≤ i ≤ 2t de H pertencem a Gn . nos permite especificar a seguinte matriz: e  1 β β2 . a Assim.19. . para um t ıvel o e qualquer. juntamente com a Defini¸˜o 2. . com distˆncia de o e a projeto d e comprimento n. · · · . . . Elementos de Biologia e C´digos Corretores de Erros o dos melhores c´digos construtivos para canais onde os erros afetam os s´ o ımbolos de forma independente. o que nos fornece o chamado c´digo BCH no sentido o estrito. β 3 . apresentam β. β m+2 .. . ou seja. Um c´digo c´ ca o ıclico de comprimento n sobre GF (p) ´ denominado um e c´digo BCH com distˆncia de projeto d se o seu gerador g(x) for o m´ o a ınimo m´ltiplo u comum dos polinˆmios minimais de o β m . devemos interpretar esta informa¸˜o com uma certa restri¸˜o. β m+d−2 . se β for um elemento primitivo em Fq . o desempenho destes ´ prejudicado e o a e devido `s baixas taxas de transmiss˜o. · · · . A seguir. β n−1         H =   1 β 2 (β 2 )2 . consideramos m = 1. caso contr´rio. (β 2t )n−1 A matriz H acima ´ a matriz verifica¸˜o de paridade para um c´digo BCH. Note que os e ca o i elementos β . Esta propriedade. a real importˆncia dos c´digos BCH vem a a a o da facilidade de implementa¸˜o do algoritmo de corre¸˜o de erros.2. a ca o Defini¸˜o 2. . onde β ´ uma raiz primitiva (elemento primitivo) de a e n r (x − 1). . . ent˜o o ca a c´digo BCH ´ chamado primitivo. para algum m inteiro n˜o negativo. β 2 . analogamente ` Defini¸˜o 2.. . Contudo.2. β 2t e seus conjugados como ra´ de ızes cada um de seus polinˆmios. e portanto. . (β 2 )n−1 . os coeficientes de β s˜o tomados a 53 . . .2. . pois as taxas desses ca ca c´digos s˜o assintoticamente ruins. Os c´digos BCH no sentido estrito definidos sobre an´is de inteiros. 1 β 2t (β 2t )2 .. Apesar de ser sempre poss´ projetar um c´digo BCH que corrija at´ t erros.Cap´ ıtulo 2. . quando o comprimento das palavras-c´digo n˜o o a o a ´ grande. β m+1 .

β e2 . Substituindo os elementos β i pelos vetores linha de comprimento r(r − uplas) o correspondentes. · · · . Me2 (x). A distˆncia de Hamming m´ a ınima de um c´digo BCH satisfaz a rela¸˜o: o ca d ≥ 2t + 1. onde β tem ordem n. Elementos de Biologia e C´digos Corretores de Erros o m´dulo n. me2 (x) . · · · . na primeira.1. ent˜o podemos gerar a ızes a um c´digo BCH com s´ o ımbolos de Zq se escolhermos g(x) como: g(x) = mmc (Me1 (x). Ent˜o. em o termos das ra´ de seu polinˆmio gerador g(x). pn (x)) = p1 (x) mdc (p1 (x).2. o e a atrav´s do Algoritmo de Euclides e ent˜o utilizar a seguinte rela¸˜o: e a ca mmc (p1 (x). e o o Portanto.24. mej (x) ) onde mei (x) ´ o polinˆmio minimal de Rp (β ei ). · · · . β ej s˜o ra´ de g(x). · · · . pn (x)) n i=1 Os pr´ximos teoremas estabelecem um limitante inferior para a distˆncia de Hamming o a do c´digo BCH constru´ o ıdo: Teorema 2. Podemos especificar um c´digo BCH de comprimento n sobre Zq .Cap´ ıtulo 2. Seja β um elemento primitivo de Gn . · · · . Al´m disso. as ra´ do polinˆmio gerador do c´digo co ızes o o BCH encontram-se na extens˜o do anel Zq . pn (x) ´ computar o m´ximo divisor comum. onde n = pr − 1. 54 . e2 . temos a matriz H sobre Zq .2. · · · . ej . gera um c´digo BCH em GF (p). mdc. Vale lembrar tamb´m que iremos considerar o caso no ca e qual mdc(n. O m´todo sistem´tico para o c´lculo do m´ ca e a a ınimo m´ltiplo comum de um u conjunto de polinˆmios p1 (x). a distˆncia m´ a a ınima do c´digo ´ maior que o n´mero m´ximo de inteiros o e u a consecutivos m´dulo n no conjunto e1 . o Teorema 2. Mej (x)). ca o e a qual ´ an´loga ` constru¸˜o de c´digos BCH sobre corpos [38]. que pertencem ao subgrupo c´ ızes o ıclico Gn . Estamos interessados na constru¸˜o de c´digos BCH sobre an´is Zq . Seja g(x) o polinˆmio gerador de um c´digo c´ o o ıclico de comprimento n com s´ ımbolos de Zq e sejam tamb´m β e1 . e o e g(x) = Rp (g(x)) = mmc (me1 (x) . p2 (x). · · · . ızes o Observa¸˜o 2. para q = pk e k ≥ 2.2. · · · . β e2 . Se β e1 . p) = 1. a constru¸˜o de c´digos BCH c´ ca o ıclicos sobre o anel Zq reduz-se ` escolha de a elementos do subgrupo c´ ıclico Gn para serem ra´ do polinˆmio gerador g(x).25.5. p2 (x). p2 (x). β ej as ra´ e ızes de g(x) em Gn .2. onde Mei (x) ´ o polinˆmio minimal de β ei . A diferen¸a entre essas e a a ca o c duas constru¸˜es reside no fato de que. como visto na Se¸˜o 2. ao inv´s de serem encontradas na extens˜o do a e a corpo Fq .

atrav´s do uso do algoritmo de Berlekamp-Massey [39].3. este algoritmo tamb´m vale co a e num contexto mais geral. O objetivo ´ apresentar os principais conceitos que envolvem o processo de decodifica¸˜o.25. Quando estes c´digos s˜o definidos o e o a sobre corpos GF (q). O modelo apresenta as semelhan¸as c entre o processo de reconhecimento das sequˆncias de direcionamento e o processo de dee codifica¸˜o utilizado em sistemas de comunica¸˜es digitais. Este algoritmo ´ um m´todo de decoe e difica¸˜o dos c´digos Reed-Solomon e BCH sobre Zpk . aplicae se o procedimento proposto por Forney [40] para a determina¸˜o das magnitudes dos erros. ca A teoria apresentada neste cap´ ıtulo ´ uma adapta¸˜o apresentada por Interlando. pode ser utilizado para a decodifica¸˜o de c´digos Reedca o Solomon e BCH definidos sobre an´is comutativos finitos R com identidade. chamando-o de algoritmo de Berlekamp-Massey modificado. onde p ´ um n´ mero primo e k ´ ca o e u e um inteiro maior ou igual a 1. e deste modo a complexidade permanece praticamente inalterada. Interlando. Apresentamos um algoritmo eficiente de decodifica¸˜o que servir´ para a decodifica¸˜o ca a ca dos c´digos BCH sobre an´is utilizados nesta proposta.1 apresentamos ca co ca o algoritmo de decodifica¸˜o utilizado em sistemas de comunica¸˜es digitais e na Subse¸˜o ca co ca 2.24 e no Teorema 2. o primeiro passo da decodifica¸˜o ´ localizar as posi¸˜es dos erros na ca e co palavra recebida. Palazzo e e ca Elia [41]. Na Subse¸˜o 2. Esta adapta¸˜o n˜o altera os a ca a fundamentos do algoritmo original. Palazzo e Elia em [41]. Cap´ ıtulo 3. ca 55 . e ca o Note que os polinˆmios geradores dos c´digos BCH c´ o o ıclicos s˜o constru´ a ıdos de forma a respeitar o limitante para a distˆncia m´ a ınima indicado no Teorema 2.2 apresentamos como gerar sequˆncias atrav´s de um circuito linear de deslocamentos e e com realimenta¸˜o. Al´m disso.3. Elementos de Biologia e C´digos Corretores de Erros o onte t ´ a capacidade de corre¸˜o do c´digo.Cap´ ıtulo 2.3 Decodifica¸˜o do C´digo BCH sobre Anel ca o O nome algoritmo de Berlekamp-Massey se deve ao fato de primeiramente ter sido desenvolvido em [43] por Berlekamp e posteriormente melhorado por Massey em [44]. e ca Estes conceitos foram utilizados durante a proposta de um modelo de sistema de comunica¸˜o ca para a importa¸˜o de prote´ ca ınas organelares. Com demonstra¸˜es an´logas. ou seja. estenderam o algoritmo de Berlekamp-Massey. 2. Em seguida.2.2. e e o procedimento proposto por Forney ainda continua v´lido.

e ca O vetor s´ ındrome ´ dado por s = r. + rn−1 X n−1 .H t . possui a forma: ca e   H=    1 α α2 1 α2 (α2 )2 . onde H ´ a matriz verifica¸˜o e e ca de paridade dada por (5. . (α2 )n−1 . .H t = e... . .1 O Processo de Decodifica¸˜o ca Podemos constatar que a matriz verifica¸˜o de paridade para estes c´digos.. . vn−1 ) e que o padr˜o a o a de erro introduzido pelo canal seja e = (e0 e1 . rn−1 ). Portanto. en−1 )...1) onde n ´ o comprimento da palavra-c´digo em quest˜o. quando proca o jetada para a corre¸˜o de at´ t erros. Ent˜o. .2) 56 . Vamos assumir agora que a i-´sima componente n˜o nula de e (1 ≤ i ≤ v ≤ t) ocorra na e a posi¸˜o j. r) (a extens˜o de dimens˜o r de Zpk .1). + en−1 X n−1 e r(X) = r0 + r1 X + . . Yi) tal que: e a Xi : ´ um n´ mero de localiza¸˜o de erro dado por αj e u ca e Yi : ´ a magnitude do erro ocorrido na posi¸˜o j.. e o a o α ´ uma raiz de xn − 1 e pertence ao anel GR(pk . ... Note e a a que t dever´ ser escolhido de tal forma que os elementos α..3.. ..... Suponha ent˜o que a palavra-c´digo transmitida seja v = (v0 v1 . e(X) = e0 + e1 X + . Elementos de Biologia e C´digos Corretores de Erros o 2.. + vn−1 X . . . associaremos ca a a esta i-´sima componente n˜o nula um par ordenado (Xi . Ele sempre ser´ capaz de corrigir qualquer combina¸˜o de t ou menos o a ca erros.Cap´ ıtulo 2. Yi ). 2t 2t 2 1 α (α ) . α2t sejam todos distintos. Ent˜o. o procedimento de corre¸˜o de erros que iremos ca descrever (que se baseia na informa¸˜o dada pelo vetor s´ ca ındrome) servir´ para a decodifica¸˜o a ca de ambos os c´digos. o vetor recebido pelo e decodificador ser´ r = (r0 r1 . . α2 . devido a esta similaridade. respectivamente. as componentes sj de s s˜o a a dadas por v sj = r(α ) = e(α ) = i=1 j j Yi Xij (2. (α2t )n−1       (2. . . .. onde j pode ser qualquer inteiro entre 0 e n − 1 (inclusive). . αn−1 . Estes vetores tamb´m podem ser apresentados na a n−1 forma polinomial por v(X) = v0 + v1 X + .. a Portanto.H t = (v + e). .. em termos dos pares (Xi . No caso de c´digos BCH sobre Zpk . .

2) obtemos a co co seguinte rela¸˜o entre σi e sj . o Sistema (2. + σv−1 X + σv (2.5) de modo que v tenha o menor e valor poss´ (isto ´ requerido pois sempre estaremos assumindo que o vetor erro que ocorre ıvel e ´ aquele que possui o menor peso de Hamming poss´ e ıvel). . Deste modo. Yi) que representam as posi¸˜es e magnitudes dos mesmos.3) e co ca j por YiXi e em seguida substituindo Xi (1 ≤ i ≤ v) em X. Portanto.4) Agora somando estas equa¸˜es para 1 ≤ i ≤ v e usando as Equa¸˜es (2. O primeiro passo ´ no sentido de obtermos uma rela¸˜o entre os sj e os σi e em seguida e ca analisar a existˆncia de solu¸˜es. . .3) onde os coeficientes σ1 ...1. o c´lculo dos σi s a partir do a a vetor s´ ındrome ´ feito resolvendo-se o Sistema Linear (2. Observamos que os n´ meros localizadores de erros de cada componente do padr˜o de erro u a devem ser distintos pelo fato de α ser um elemento primitivo.. . a ca o a solu¸˜o do Sistema (2. Veremos no pr´ximo teorema que se os Yi s s˜o unidades. . dado por o 57 .2) conduna e e co co zindo como resposta os pares (Xi . + Yi Xij+1σv−1 + Yi Xij σv = 0 (2. ..Cap´ ıtulo 2. σv . Inicialmente consideraremos o problema da localiza¸˜o dos erros e em seguida resolveca remos o problema da determina¸˜o das magnitudes dos mesmos. Lembramos que no caso de ca c´digos bin´rios. multiplicando ambos os lados da Equa¸˜o (2. Elementos de Biologia e C´digos Corretores de Erros o onde 1 ≤ j ≤ 2t e v representa o n´ mero de erros ocorridos. σv s˜o conhecidos como as fun¸˜es sim´tricas elementares a co e dos Xi s. ca sj+v + sj+v−1 σ1 + .5) e todos os sj s˜o conhecidos se 1 ≤ j ≤ 2t − v. [42] O Sistema Linear (2.5). Assim. . . obtemos o seguinte conjunto de equa¸˜es: co YiXij+v + YiXij+v−1 σ1 + . nas inc´gnitas σ1 .5) ca sempre possui uma solu¸˜o.. considere o seguinte conjunto de equa¸˜es: co (X − X1 )(X − X2 ) .3. um m´todo para se corrigir erros ´ resolver o Sistema de Equa¸˜es (2. u Ent˜o. σ2 . . (X − Xv ) = X v + σ1 X v−1 + . + sj+1 σv−1 + sj σv = 0 (2. ca e´ Teorema 2. .5) ´ unica. encontrar a localiza¸˜o dos erros implica necessariamente na determina¸˜o o a ca ca das suas magnitudes. σ2 .. Por constru¸˜o.

. C´lculo do Vetor S´ a ındrome: s = r.. i = 1. os quais pertencem a um anel comutativo GR(pk .Cap´ ıtulo 2. Pelo Teorema 2. . s2t−v s2t−v+1 . a co e O problema a ser solucionado neste est´gio ´ o seguinte: dada uma sequˆncia de elementos a e e s1 . Passo 1.. Passo 2. . todas as magnitudes Yi s. . s2 . e • Passo 4: C´lculo das magnitudes dos erros Yi s a partir dos Xi s e do vetor s´ a ındrome s. r) onde k ≥ 1 e r ≥ 1 determine a solu¸˜o do Sistema Linear (2. σ1      =      −sv+1 −sv+2 ..6) . s2t−1       σv σv−1 .. a partir de s. 2. sv . ... a´ Este algoritmo ´ iterativo de modo que no n-´simo passo o decodificador determina um e e n conjunto de ln vetores σi tal que as n − ln equa¸˜es co  (n) (n)  sn σ0 + sn−1 σ1 + · · · + sn−ln σl(n) = 0  n    sn−1 σ (n) + sn−2 σ (n) + · · · + sn−l −1 σ (n) = 0 n 0 1 ln . s2t ) a partir do vetor recebido r. . . v.     (n) (n) (n) sln +1 σ0 + sln σ1 + · · · + s1 σln = 0 58 (2.  . .. . s2t . σ2 . o a Com isto. Elementos de Biologia e C´digos Corretores de Erros o       s1 s2 . C´lculo das Fun¸˜es Sim´tricas Elementares. . . . dos erros ocorridos forem ca ´ unidades no anel sobre sobre o qual o c´digo est´ definido. . σv ..1 temos que a solu¸˜o do Sistema (2. Xv a partir das fun¸˜es a u co sim´tricas elementares σi . A seguir passaremos a caracterizar cada um dos quatro passos mencionados acima. s2 s3 . acabamos de mostrar que o procedimento de decodifica¸˜o do c´digo BCH ca o compreende os seguintes passos: • Passo 1: C´lculo do vetor s´ a ındrome s = (s1 s2 . . .. −s2t       possui solu¸˜o unica se. .. ..H T . sv+1 . .. . . . X2 . e somente se. a co e • Passo 3: C´lculo dos n´ meros localizadores de erros X1 . . as componentes do vetor s´ ındrome s. .3.5) nas inc´gnitas σi ca o (1 ≤ i ≤ v) tal que v seja m´ ınimo. • Passo 2: C´lculo das fun¸˜es sim´tricas elementares σ1 .. . . .5) ca ser´ unica somente quando as magnitudes de todos os erros forem unidades em R.

1. lm + n − m]. sejam satisfeitas com ln o menor poss´ e ıvel e σ0 = 1. Lema 2. Suponha que σ (n+1) (X) seja uma solu¸˜o polinomial das equa¸˜es em (2.6) satisfazendo n + 1 − ln+1 ca co (m) (n+1) (n) n−m (m) equa¸˜es e que σ co (X) − σ (X) = aX σ (X). Em vista ca a e disto. e a (n+1) Se dn = 0. [42] Sejam σ (n) (X). Ent˜o o polinˆmio σ (m) (X) ´ um polinˆmio solu¸˜o para as m − lm primeiras equa¸˜es em a o e o ca co (2. ln+1 + 1 ≤ j ≤ n + 1 (n) (2. Este polinˆmio tem grau menor ou igual a ln e representa a solu¸˜o do o ca n-´simo est´gio. [42] Suponha que σ (n) (x) seja um polinˆmio solu¸˜o minimal para as n primeiras o ca somas de potˆncias. Ent˜o o polinˆmio ca ca a o σ (n) (X) − yX n−mσ (m) (X) = σ (n+1) (X) ´ uma solu¸˜o para as n + 1 primeiras somas de potˆncia. o a 59 (m) (m) . Seja o a σ (m) (X) = 1 + σ1 X + · · · + σlm X lm um polinˆmio solu¸˜o para as m primeiras somas de potˆncia. satisfazendo dn + adm = 0 e lm = ln+1 − (n − m).3. Mais ainda.6).5) seja satisfeito. temos dois lemas que est˜o diretamente relacionados com a determina¸˜o de σ (n+1) (x) a ca (n˜o necessariamente com o menor valor de ln+1 poss´ a ıvel) a partir de σ (n) (x).6). e suponha a co ainda que a pr´xima discrepˆncia dn = 0. E como σ (n) (x) ´ uma solu¸˜o e ca m´ ınima no n-´simo est´gio.2.3.Cap´ ıtulo 2. com e a ln m´ ınimo tal que o Sistema (2.3. com 1 ≤ m < n e tal que a o ca e equa¸˜o dn − ydm = 0 admita uma solu¸˜o em y sobre o anel R. e a Contudo. E (n) conveniente representar o conjunto dos σi na seguinte forma polinomial σ (n) (x) = σ0 + σ1 x + · · · + σln xln . Lema 2. suponha que no n-´simo est´gio o decodificador tenha determinado σ (n) (x). e tendo pr´xima discrepˆncia dm = 0. ´ certamente uma solu¸˜o m´ e a e ca ınima no (n + 1)-´simo est´gio. onde a ´ uma unidade em R e σ0 = e 1. Definimos a n-´sima discrepˆncia dn como dn = sn+1 σ0 +· · ·+sn+1−ln σln . a Equa¸˜o (2. isto ´. Elementos de Biologia e C´digos Corretores de Erros o n ´ chamadas somas de potˆncias. ln e dn = 0 como definidos no Lema 2.7) vale com σ ca (x) = σ (n) (x).1.7) (n) sejam satisfeitas. se dn = 0 a determina¸˜o de σ (n+1) (x) a partir de σ (n) (x) n˜o ´ trivial. e a Agora. No (n + 1)-´simo est´gio o decodificador e a procura encontrar o polinˆmio σ (n+1) (x) de menor grau tal que as equa¸˜es o co (n) (n) ln+1 sj−iσi i=0 (n+1) = 0. existe um ln m´ e e ınimo que satisfaz `s equa¸˜es (2. e ca e ln+1 = max[ln .

. (2. Algoritmo de Berlekamp.2) temos o seguinte teorema.5). σ (0) = 1.3. [42] Sejam σ (n) (X) um polinˆmio solu¸˜o minimal no n-´simo est´gio e o ca e a σ (m) (X). Para isso. d−1 = 1.3.3. 1 ≤ i ≤ v.3. A solu¸˜o σ (n+1) (X) dada no Teorema (2. Ent˜o uma solu¸˜o no a ca admita uma solu¸˜o em y e m − lm tenha o m´ximo valor poss´ ca e a e (n + 1)-´simo est´gio ´ σ (n+1) (X) onde a (i) Se dn = 0. lm + n − m} (2. isto ´. 1 ≤ m < n uma das solu¸˜es minimais anteriores tal que a equa¸˜o dn − ydm = 0 co ca a ıvel. assumimos as seguintes condi¸˜es ıvel co iniciais σ (−1) (X) = 1.Massey Modificado (BM) Iniciamos preenchendo os dados iniciais como mostra a seguinte tabela de valores n -1 0 1 2 .2. ent˜o σ (n+1) (X) = σ (n) (X) e a (ii) Se dn = 0. ent˜o σ (n+1) (X) = σ (n) (X) − yX n−mσ (m) (X) e ln+1 = max{ln . O algoritmo produzir´ como sa´ um conjunto de valores σi . l0 = 0.1. tais que as Equa¸˜es (2. a solu¸˜o das ca e ca Equa¸˜es (2.8) Observa¸˜o 2. e Teorema 2. Contudo. As suas entradas s˜o as componentes do vetor s´ co a ındrome s. .9) ln+1 = ln . Elementos de Biologia e C´digos Corretores de Erros o Como consequˆncia dos Lemas (2.5) sejam a ıda co satisfeitas com o valor m´ ınimo poss´ de v. em muitos casos este teorema j´ aponta corretamente a solu¸˜o minimal no a ca (n + 1)-´simo est´gio.3. d 0 = s1 .2) n˜o ´ necessariamente ca ca a e a resposta almejada.1) e (2. pelo fato de que o mesmo n˜o garante a minimalidade quando o coefia (n+1) ciente da menor potˆncia da vari´vel X em σ e a (X) − σ (n) (X) n˜o for uma unidade em a R.Cap´ ıtulo 2. e a Iremos agora descrever o algoritmo da solu¸˜o do problema original. 2t 60 σ (n) (X) dn 1 1 1 s1 ln 0 0 n − ln -1 0 . l−1 = 0.

Assim. Se este polinˆmio for encontrado. V´ para o item (5). adotamos os seguintes procedimentos: (1) n ← 0. devemos procurar a a uma solu¸˜o D (n+1) (X) com grau l m´ ca ınimo poss´ no intervalo max[ln . os seus coefia o e cientes formam uma solu¸˜o para as equa¸˜es em (2.9). Caso contr´rio.3). a seguir.5). a ızes A solu¸˜o do Sistema (2. (n+1) (6) n ← n + 1. (1 ≤ i ≤ ca a e´ v) produzidos pelo algoritmo de Berlekamp-Massey modificado para an´is pode n˜o ser os e a mesmos definidos pela Equa¸˜o (2.Cap´ ıtulo 2. fim. lm + n − m] tal que o polinˆmio σ m (X) definido pela equa¸˜o D (n+1) (X) − (n) n−m (m) σ (X) = X σ (X) seja uma solu¸˜o para as m primeiras somas de potˆncias tal ca e que dm = −dn e σ0 seja um divisor de zero em R. Contudo veremos. na vari´vel y. ca co Passo 3. (1 ≤ i ≤ v) sejam uma solu¸˜o do ızes ca Sistema (2. σ n+1 (X) e ln+1 s˜o dados por (2. e assim as ra´ de ρ(Z) (o polinˆmio ızes a ızes o rec´ ıproco de σ (2t) (Z) s˜o as inversas das ra´ de σ (2t) (Z)). (5) Se n < 2t − 1. Assim. e deste modo os valores de σi . tenha a ca a solu¸˜o sobre o anel R e m − lm tenha m´ximo valor poss´ ca a ıvel.5). as ra´ do polinˆmio ρ(Z) (com os coeficientes ca ızes o σi s provenientes do Algoritmo de BM modificado) podem n˜o ser os n´ meros localizadores a u de erros corretos. o (n+1) (n+1) ent˜o σ a (X) ← D (X). podemos escrever ρ(Z) = (Z − Z1 )(Z − Z2 ) · · · (Z − Zv ). ent˜o σ (n+1) (X) e ln+1 s˜o dados por (2. Observamos que pelo 61 . a (4) Se ln+1 = max[ln .8). Neste caso. desde que os coeficientes σi . a a a (3) Se dn = 0.5). se n < 2t v´ para (2). n + 1 − ln ] ≤ ıvel o ca l < max[ln . que de fato estes n´ meros podem ser obtidos u a partir das ra´ de ρ(Z). Caso contr´rio. Elementos de Biologia e C´digos Corretores de Erros o Em seguida. a a Deste modo a resposta desejada ser´ dada pelo polinˆmio σ (2t) (X). n˜o ´ unica. (2) Se dn = 0. Com o intuito de analisarmos a rela¸˜o entre as ra´ ca ızes de ρ(Z) e os n´meros u localizadores de erros suponha que ρ(Z) tenha pelo menos v ra´ distintas sobre o anel ızes R. calcule dn+1 = sn+2 + sn+1 σ1 (n+1) (m) + · · · + sn+2 − ln+1 σln+1 . isto ´. n + 1 − ln ] v´ para o item (5). a u O objetivo neste passo ´ resolver a equa¸˜o polinomial ρ(Z) = 0 sobre o anel R onde e ca ρ(Z) = Z v σ (2t) (Z −1 ) = Z v + σ1 Z v−1 + · · · + σv−1 Z + σv . C´lculo dos N´meros Localizadores de Erros. em geral. ent˜o encontre m tal que a equa¸˜o dn − ydm = 0. Sendo R um anel devemos ter que as ra´ de σ (2t) (Z) = 1 + σ1 Z + · · · + σv Z v est˜o em R∗ .

· · · . Al´m disso. Yi Pi = 0.. podemos escrever Yi Xij (Z v + σ1 Z v−1 + · · · + σv−1 Z + σv ) = Yi Xij (Z − Z1 )(Z − Z2 ) · · · (Z − Zv ) (2. obtemos sj+v + sj+v−1 σ1 + · · · + sj+1σv−1 + sj σv (2. Assim. ca v Yi Xij (Xi − Z1 )(Xi − Z2 ) · · · (Xi − Zv ) = 0 i=1 (2. . Zv . . o ca isto ´.3 de [48] que este sistema possui somente a solu¸˜o trivial. . . X2 . Escrevendo na forma matricial temos o seguinte sistema homogˆneo: e       X1 2 X1 . . Xv . u suponhamos que estes n´ meros sejam X1 . . . No sentido de converter as ra´ ızes de ρ(Z) nos n´ meros localizadores de erros corretos. Portanto.. . Yv e que as ra´ de ρ(Z) sejam Z1 . Sendo 2t − v maior ou igual a v (pois v ≤ t) e l=1 pelo Teorema 2.12) para (1 ≤ j ≤ 2t − v). Xv 2 Xv .10) para (1 ≤ i ≤ v) e (1 ≤ j ≤ 2t − v).13) ´ v (que ´ igual ao n´ mero de e e e u inc´gnitas).11) Note que esta equa¸˜o se anula para todo j tal que (1 ≤ j ≤ 2t − v). segue do Teorema 5.. em cada Pi (1 ≤ i ≤ v) existe pelo menos um l-´simo fator (Xi − Zl ) que ´ e e um divisor de zero em R.3. Z2 .Cap´ ıtulo 2. 0       (2..13) onde Pi = v (Xi − Zl ) para (1 ≤ i ≤ v). Y2 . Elementos de Biologia e C´digos Corretores de Erros o menos uma solu¸˜o de σ(Z) produzida pelo algoritmo de Berlekamp-Massey modificado ter´ ca a esta propriedade. Xv     =       0 0 . X2 2 X2 . . j´ que os σi s formam ca a uma solu¸˜o para o Sistema (2.5) e consequentemente. . e e A partir deste resultado podemos concluir que cada produt´rio Pi ´ um divisor de zero o em R. · · · . . . · · · .1 o posto (maior n´ mero r tal que existe uma submatriz r × r tal que o u determinante ´ uma unidade em R) da matriz v × v em (2. . Substituindo Z por Xi e somando o primeiro membro para (1 ≤ i ≤ v).       Y 1 P1 Y 2 P2 . se o l1 -´simo fator em Pi ´ um divisor de zero d1 e o e e e 62 . . que as magnitudes dos erros sejam u ızes Y1 . Y v Pv 2t−v 2t−v 2t−v X1 X2 . . para (1 ≤ i ≤ v). ..

14) . Com isto. ´ um divisor de e zero em R (pelo fato de R ser um anel).  . . ca o Finalizado este passo de localiza¸˜o dos erros. Determina¸˜o das Magnitudes dos Erros.3.   .1 de [49]. . onde q ´ uma potˆncia de ca o e e um n´mero primo. . se e e e a l1 = l2 para i = k. De fato. v v X1 X2    . . Xn−1 = αn−1 . primeiramente iremos ca mostrar que estas magnitudes ficam determinadas de maneira unica ap´s o conhecimento dos ´ o Xi s(1 ≤ i ≤ v). ca o Passo 4. j´ que i = k. O m´todo usado para encontrar a solu¸˜o da equa¸˜o polinomial ca e ca ca 2 n e f (x) = 0.4. Xv Yv 63 s1 s2 . . Isto ´ an´logo ao que se faz quando da e a uma busca exaustiva em R das ra´ decodifica¸˜o de c´digos BCH sobre corpos finitos GF (q). . . passamos ao quarto e ultimo passo do ca ´ procedimento de decodifica¸˜o dos c´digos BCH.4.2 e do Lema 4. . ca Para completarmos este processo de decodifica¸˜o descrevemos um m´todo para a deca e termina¸˜o das magnitudes Yi (1 ≤ i ≤ v) dos erros. Neste sentido. . podemos afirmar que a correspondendo a cada Zi existe um unico n´ mero de localiza¸˜o de erro Xi (1 ≤ i ≤ v). Xv   Y 2   . temos que Xi − Xk .  =  . Elementos de Biologia e C´digos Corretores de Erros o l2 -´simo fator em Pk ´ tamb´m um divisor de zero d2 . que s˜o os n´ meros localizadores de erros determinados no passo anterior. . o rec´ ızes o ıproco do polinˆmio produzido o pelo algoritmo de Berlekamp-Massey modificado. u • Entre os X0 = α0 .  . . ´ u ca A seguir. sv       (2. X1 = α1 . • Calcule as ra´ do polinˆmio ρ(Z) = Z v σ (2t) (Z −1 ).  . ent˜o l1 = l2 para i = k. . . Xv Y1   2  .1 e 3.2) podem ser descritas na forma co       X1 X2 2 2 X1 X2 . onde f (x) = a0 + a1 x + a2 x + · · · + an x sobre o anel R.Cap´ ıtulo 2. . . o que ´ uma contradi¸˜o pelas demonstra¸˜es dos e ca co Teoremas 3. .. apresentamos um resumo do procedimento para o c´lculo dos n´ meros locaa u lizadores de erros.1. selecione aqueles Xi s que tornam as diferen¸as Xi − Zj (1 ≤ j ≤ v) elementos divisores de zero em R. .   v . Os Xi s selecionados c ser˜o os n´ meros localizadores de erros corretos e cada Xi = αi indica que um erro a u ocorreu na posi¸˜o i da palavra-c´digo. a u As v primeiras equa¸˜es em (2. . onde Xi − Zl1 = d1 e Xk − Zl1 = d2 . Observa¸˜o 2. ´ o de fazer ızes de f (x).2. .

Y2 .17) temos: ca v−1 v−1 v σjl X v−l − l=0 l=0 σjl Xj X v−1−l = i=0 σi X v−i .14) ´ n˜o singular. (2. . ca v v (X − Xi ) = i=1 i=0 σi X v−i .18) Da Equa¸˜o (2.0 = 1. (2. . seu detere a e minante ´ uma unidade em R.16) onde σ0 = σj. acarretando que o vetor Y = (Y1 . . Este m´todo e requer o conhecimento dos n´ meros localizadores de erros e de suas fun¸˜es sim´tricas eleu co e mentares calculadas a partir da Equa¸˜o (2. Xj−1. . .3). . 64 (2. definimos as fun¸˜es sim´tricas elementares σjl dos n´ meros localizadores co e u de erros (X1 . . ´ Para determinar o vetor Y usamos o procedimento proposto por Forney [40]. . mediante a seguinte a rela¸˜o: ca σji = σi + Xj σj. . o elemento identidade do anel R. Xv ) atrav´s da seguinte rela¸˜o e ca v−1 (X − Xi ) = i=j l=0 σjl X v−1−l . .15) Da Equa¸˜o (2. .i−1 para (1 ≤ i ≤ v − 1) e com σ0 = σj. .16) obtemos co que v−1 v (X − Xj ) l=0 σjl X v−1−l = i=0 σi X v−i .19) .0 = 1. Das Equa¸˜es (2. Yv ) ´ determinado e e de maneira unica. (2.18) conclu´ ca ımos que os coeficinetes σjl podem ser obtidos de maneira recursiva a partir dos Xi s e σi s para (1 ≤ i ≤ v) (que s˜o conhecidos). isto ´.3. Elementos de Biologia e C´digos Corretores de Erros o Pelo Teorema 2.1 segue que a matriz v × v em (2.15) e (2.17) Desenvolvendo o primeiro membro da Equa¸˜o (2.Cap´ ıtulo 2. X2 . ca Inicialmente.3) obtemos. (2. Xj+1.

segue e das demonstra¸˜es dos Teoremas 3.20) Por (2. Assim.1.Cap´ ıtulo 2.1 de [49] que as diferen¸as (αi −αj ).23). para ca o e p um primo e k um inteiro maior ou igual a 1. v−1 v σjl sv−l = l=0 i=1 Y i Xi m=j (Xi − Xm ) = Yj Xj m=j (Xj − Xm ). cada Yj para (1 ≤ j ≤ v) ´ dado por e Yj = v−1 l=0 σjl sv−l . 3.4. Da Equa¸˜o (2. Conclu´ ımos deste modo o quarto passo de decodifica¸˜o dos c´digos BCH. co c com i = j.3. 2. o que implica que o referido denominador ´ uma a e unidade no anel R.21) onde esta ultima igualdade segue do fato que o somat´rio em quest˜o s´ n˜o se anula se ´ o a o a i = j.22) e consequentemente. Elementos de Biologia e C´digos Corretores de Erros o Denotando a magnitude de cada erro por Yj . Assim. O denominador da Equa¸˜o (2.21) conclu´ ca ımos: v−1 v−1 σjl sv−l = Yj l=0 l=0 v−l σjl Xj .2 e Lema 4. (2. finalizamos o ca e ca processo de decodifica¸˜o destes c´digos definidos sobre an´is de inteiros residuais Zpk .3. (2.1. (2. v−1 v−l l=0 σjl Xj (2. s˜o sempre unidades no anel R.3. onde cada fator ´ do tipo αi − αj com 0 ≤ i = j ≤ n − 1. que ´ a deca o e termina¸˜o das magnitudes Yi s dos erros atrav´s da Equa¸˜o (2.2 Gera¸˜o de Sequˆncias ca e O problema de circuitos lineares de deslocamentos com realimenta¸˜o para d´ ca ıgitos pertencentes a um corpo finito foi tratado em [44].15) isto implica que.23) ´ uma unidade no anel R pois ´ igual ca ca e e a Xj m=j (Xj − Xm ).23) Observa¸˜o 2. Este mesmo problema foi estendido em [35] 65 . temos: v−1 v−1 v v v−1 σjl sv−l = l=0 l=0 σjl i=1 YiXiv−l = i=1 Y i Xi l=0 σjl Xiv−1−l .4.

. .Cap´ ıtulo 2. .. Algoritmo para s´ ıntese de LFSR’s (2. . e Um circuito linear de deslocamentos com realimenta¸˜o de comprimento L.. . .L . . O conte´ do do ultimo registro ´ a sa´ do LFSR..L Sj .24) Em [44] foi mostrado que o algoritmo usado para a decodifica¸˜o de c´digos BCH tamb´m ca o e pode ser usado para sintetizar um LFSR de comprimento m´ ınimo L que gera uma sequˆncia e 66 ..1 Sj Sj . ca u .. s2 . . . Os conte´dos iniciais s1 . Quando cL = 0 o LFSR ´ dito singular. .. c2 .13: LFSR (“linear feedback shift-register”) de comprimento L. Se L ≥ N o ıda u LFSR sempre gera a sequˆncia e se L < N temos que o LFSR gera a sequˆncia se.. . Elementos de Biologia e C´digos Corretores de Erros o para o caso de an´is da forma Zpk .2 .)..C2 ..CL Sj .1 . e somente e e se.C1 .. ca consiste de uma cascata de L atrasadores (registros de deslocamentos) e alguns multiplicadores e somadores capazes de gerar uma combina¸˜o linear dos conte´ dos destes registros.. L + 2.. . S1 Figura 2.13... cL s˜o elementos do anel R. a e Um LSFR gera uma sequˆncia finita de d´ e ıgitos s1 . e os dig´ ıtos subsequentes de e sa´ s˜o obtidos atrav´s da seguinte rela¸˜o de recorrˆncia ıda a e ca L sj = − i=1 ci sj−i para (j = L + 1.. s2 . Sj . sN quando esta sequˆncia coine cide com os N primeiros d´ ıgitos de sa´ do mesmo para algum conte´ do inicial.. . ... Figura 2. sL dos u ´ e ıda u L atrasadores coincidem com os L primeiros d´ ıgitos de sa´ ıda. sj + sj−1 c1 + · · · + sj−L+1cL−1 + sj−LcL = 0 para L + 1 ≤ j ≤ N. . Os d´ ıgitos de sa´ e os coeficientes de realimenta¸˜o ıda ca c1 .

Elementos de Biologia e C´digos Corretores de Erros o prescrita. e a 67 . Este LFSR minimal ser´ unico se. a Finalmente.24). 2L ≤ N e a´ em cada est´gio do algoritmo a equa¸˜o linear dn −ydm = 0. o algoritmo de Berlekamp-Massey modicado pode ser aplicado para a sintetizar um LFSR de comprimento m´ ınimo que gera uma dada sequˆncia {si }N de ee i=1 lementos pertencentes a um anel R. Isto ´ justificado quando comparamos os Sistemas de e Equa¸˜es (2. a De forma an´loga. e somente se. cujos coeficientes s˜o os coeficientes de realimenta¸˜o do LFSR minimal de a a ca N comprimento L que gera {si }i=1 . e e o algoritmo apresentado difere substancialmente do algoritmo original de BM para corpos GF (q). vale ressaltar que o problema da s´ ıntese de LFSR’s minimais que geram sequˆncias de elementos pertencentes a an´is do tipo Zm foi tratado em [44]. a co Deste modo. Isto ´. Entretanto. . o problema de gera¸˜o de um LFSR e a decodifica¸˜o de um c´digo BCH e ca ca o s˜o equivalentes.Cap´ ıtulo 2. o objetivo ´ encontrar a menor quantidade de co e vari´veis (v ou L) que satisfazem os respectivos conjuntos de equa¸˜es. ent˜o o algoritmo deve ser aplicado r vezes para depois a usarmos o Teorema do Resto Chinˆs [45] que finalmente produzir´ a resposta desejada.5) e (2. ´ a e e a a N haver´ mais de um LFSR minimal de comprimento L que gera {si }i=1 . . se m fatorar em u a e um produto de r primos distintos. aumentando inclusive o n´ mero de vari´veis envolvidas. respectivamente). Em ambos os casos. apresentar solu¸˜o a ca a ca unica (dn e dm s˜o a n-´sima e a m-´sima discrepˆncia. na vari´vel Y . . temos que as entradas do algoritmo ser˜o os elementos s1 . . Al´m disso. sN que a formam a sequˆncia dada e a sa´ do mesmo ser´ o polinˆmio e ıda a o C(X) = 1 + c1 X + · · · + cL X L na vari´vel X. s2 . Caso contr´rio.

Al´m disso. apresentamos a proposta de um modelo geral de sistema de comunica¸˜es co para o mecanismo de importa¸˜o organelar. O dogma central define o paradigma da biologia molecular. um caso particular do modelo e geral.1. bem como a estrutura matem´tica e os ca e a parˆmetros destes c´digos. o RNA e as prote´ ınas. a o Por tratar-se de um assunto interdisciplinar.Cap´ ıtulo 3 Modelo de um Sistema de Comunica¸˜o para a Importa¸˜o de ca ca Prote´ ınas Organelares Neste cap´ ıtulo. Ressaltamos que a Subse¸˜o 3. Baseandoco se nessas semelhan¸as descrevemos detalhadamente sobre os processos de codifica¸˜o e dec ca codifica¸˜o do modelo proposto para o mecanismo de importa¸˜o de prote´ ca ca ınas mitocondriais.1 O dogma central da biologia molecular O dogma central da biologia molecular foi descrito em 1958 por Francis Crick na tentativa de relacionar o DNA.1 relatamos sobre as semelhan¸as ca c entre o Dogma Central da Biologia e o Dogma Central da Teoria de Comunica¸˜es.1 ´ parte integrante de [18]. isto ´.1.2. Utilizamos o modelo proposto para interpretar ca o sistema de importa¸˜o de prote´ ca ınas mitocondriais.1 Analogias entre um Sistema de Informa¸˜o Gen´ca e tica e um Sistema de Comunica¸˜o ca 3. mostramos como foram estabelecidos os c´digos corretores de erros para e o a reprodu¸˜o das sequˆncias de direcionamento. na Se¸˜o 3. Se¸˜o 3. ca ca e 3. em que a informa¸˜o ´ perpetuada atrav´s da replica¸˜o do DNA e ´ traduzida ca e e ca e 69 .

a ca ına A sequˆncia de DNA ´ que condiciona a sequˆncia da mol´cula de RNA. respectivamente. ocorrem as seguintes etapas: 1. Quando as duas fitas originais tiverem sido completadas por nucleot´ ıdeos novos. Esse processo segue os a a seguintes passos: ´ 1. chamada fita ativa. e e Em cada mol´cula. E necess´ria a presen¸a de uma enzima: a RNA polimerase. Cada filamento antigo atuou como molde. as duas fitas de DNA se afastam. Uma diferen¸a e e e e c importante em rela¸˜o ` duplica¸˜o ´ que apenas uma fita de DNA funciona como molde. j´ que sua sequˆncia a e de bases funcionou como “guia” para a produ¸˜o da fita nova.transcri¸˜o ca De que jeito o DNA controla a produ¸˜o de enzimas? O DNA produz mol´culas ca e de mRNA. O encaixe s´ ocorre se as bases forem complementares (adenina com timina. 2. a DNA a polimerase.Cap´ ıtulo 3. uma fita simples e n˜o dupla. Nucleot´ ıdeos de DNA livres. Modelo de um Sistema de Comunica¸˜o para a Importa¸˜o de Prote´ ca ca ınas Organelares atrav´s de dois processos: A transcri¸˜o que converte a informa¸˜o do DNA em uma forma e ca ca mais acess´ ıvel (uma fita de RNA complementar) e atrav´s da tradu¸˜o que converte a e ca informa¸˜o contida no RNA em prote´ ca ınas. h´ necessidade de uma enzima especial. e a e a que se formou sobre o antigo. existe um filamento antigo. 70 . Nucleot´ ıdeos livres de RNA encaixam-se apenas numa das fitas. O processo de duplica¸˜o ca ca ´ tamb´m denominado semi-conservativo. j´ que cada mol´cula-filha conserva metade da e e a e mol´cula-m˜e. o citosina com guanina). ca ca ca Como o DNA se duplica . 3. portanto. As pontes de hidrogˆnio que ligam as bases nitrogenadas rompem-se e as duas fitas se e afastam. garantindo a produ¸˜o daquela prote´ especial no momento correto. que pertencia ` mol´cula-m˜e. ca a ca e O RNA produzido ser´. teremos duas mol´culas de DNA idˆnticas entre si. de forma sucinta. a c 2. e 3. que j´ existem na c´lula. transcri¸˜o e tradu¸˜o. que migram para o citoplasma e controlam a constru¸˜o das prote´ ca ınas. As pontes de hidrogˆnio se desfazem.duplica¸˜o ca Para o DNA duplicar-se (ou replicar). e um novo. encaixam-se nas duas fitas que se a e afastaram. Estando presente essa enzima. amino´a cido por amino´cido. Nesta subse¸˜o descrevemos. ca como ocorrem os processos de duplica¸˜o. e a Como o DNA fabrica o mRNA .

trincas de e bases do RNA e amino´cidos chamamos c´digo gen´tico.Cap´ ıtulo 3. o a 3. As duas fitas de DNA tornam a parear. Assim. Na Figura 3. ´ f´cil o a e a entender que mais de um c´don pode corresponder ao mesmo amino´cido. Cada trinca de bases no DNA a o e ou no RNA ´ denominada c´don. no caso o amino´cido. Esse controle ´ e e efetuado por meio de mol´culas de RNA que o DNA fabrica e que passam para o citoplasma. A correspondˆncia entre trincas de bases do DNA. de fato essas trincas representam “palavras” do c´digo e o o gen´tico. timina no DNA corresponde ` adenina no RNA. reconstituindo a mol´cula original. cada “palavra” corresponde a um “objeto”. Podemos descrever os blocos de um sistema de comunica¸˜es como: co 71 . ou c´dons.1: Dogma central da teoria de comunica¸˜es. co A informa¸˜o a ser transmitida atrav´s de um sistema de comunica¸˜es estar´ sempre ca e co a sujeita a um conjunto de interferˆncias que no processo de modelagem ser˜o alocadas ao e a canal de transmiss˜o.2 O dogma central da teoria de comunica¸˜es co A teoria de comunica¸˜es lida com sistemas para a transmiss˜o de dados ou de informa¸˜o co a ca de um ponto a outro. 5. e a cido espec´ ıfico da prote´ ına. Modelo de um Sistema de Comunica¸˜o para a Importa¸˜o de Prote´ ca ca ınas Organelares 4. entra uracila no RNA.1 ilustramos atrav´s de um diagrama de blocos o que e definimos como sendo o dogma central da teoria de comunica¸˜es: co Transmissor Canal Receptor Ruído Figura 3.tradu¸˜o ca O DNA presente no n´ cleo controla toda a s´ u ıntese de prote´ ınas da c´lula. e A correspondˆncia entre o DNA e o RNA ocorre base por base: quando h´ adenina no e a DNA. que correspondem a apenas 20 amino´cidos. e S´ ıntese de prote´ ınas .1. A mol´cula de RNA (fita unica) destaca-se de seu molde de DNA e migra para o e ´ citoplasma. Na correspondˆncia entre RNA e prote´ cada trˆs bases do RNA codificam um amino´e ına. e assim por a diante. Existem 64 e a poss´ ıveis trincas. Essa coletˆnea de interferˆncias ´ denominada ru´ a a e e ıdo.

c˜ a Neste caso espec´ ıfico. podendo assumir a e e ca forma de uma linha telefˆnica. O receptor pode ser modelado como o local onde a informa¸ao est´ sendo enviada. Sendo assim. uma m´quina. modelamos o dogma central da biologia molecular co como um sistema de comunica¸˜es fazendo as seguintes associa¸˜es: co co 1.3 Analogias entre sistema de informa¸˜o gen´tica e o sistema ca e de comunica¸˜es co O objetivo desta se¸˜o ´ relacionar as semelhan¸as existentes entre o dogma central do ca e c sistema de comunica¸˜es e o dogma central da biologia molecular. ca a • Receptor: representa o usu´rio para o qual a informa¸˜o est´ sendo transmitida. a ca a podendo tratar-se de um ser humano. a 3. um organismo biol´gico. podemos agora identificar atrav´s de um diagrama de blocos. Figura 3. um sinal el´trico. Modelo de um Sistema de Comunica¸˜o para a Importa¸˜o de Prote´ ca ca ınas Organelares • Transmissor: ´ o gerador da informa¸˜o. O processo de tradu¸˜o tem como objetivo a transmiss˜o da informa¸˜o.1 e 3. com cada bloco no sistema de informa¸˜o ca ca gen´tica. na forma de uma mensagem a ser transmie ca tida. e Diante dessas semelhan¸as.2.1. voz. um enlace de r´dio. etc. e c˜ • Canal: ´ o meio atrav´s do qual se vai transmitir a informa¸˜o.1. Atrav´s das informa¸˜es co e co fornecidas nas Subse¸˜es 3.Cap´ ıtulo 3. sendo esta uma das grandes preocupa¸˜es da codifica¸˜o. Em um sistema de comunica¸˜o o respons´vel pela gera¸˜o das informa¸˜es a serem ca a ca co transmitidas ´ o transmissor. a prote¸˜o ıdo a ca co ca ca da informa¸˜o contra erros na transmiss˜o.1. ou qualquer outra forma que a informa¸ao possa assumir.2. a nossa informa¸˜o ´ a prote´ ca e ına.g. e os eventuais erros ca ca cometidos durante estes processos como sendo o ru´ introduzido no canal. um meio de armazenamento (e. o a ´ sistema de disco magn´tico). ıdo 3. Durante este ca a ca processo pode ocorrer alguns erros que ir˜o interferir na informa¸˜o. co 72 . podemos modelar diversos sistemas biol´gicos atrav´s daquele c o e utilizado para um sistema de comunica¸˜es. a o Do ponto de vista da comunica¸˜o. cada bloco e no modelo de sistema de comunica¸˜o. e ca e 2. Biologicamente quem exerce esta mesma fun¸˜o ´ o DNA. Esta mensagem pode se constituir de um texto em uma linguagem natural. ou um organismo vivo qualquer. como por exemplo a ca a n˜o leitura de um c´don que pode ocorrer por perda do pareamento do ribossomo. podemos visualizar os processos de transcri¸˜o ca ca e tradu¸˜o como sendo o canal de um sistema de comunica¸˜o. E no canal que ´ introduzido e o e ru´ ` informa¸˜o.

co ca e 3.2. Os dados que entram neste sistema de comunica¸˜o a partir da fonte s˜o primeiramente ca a processados pelo codificador de fonte.Cap´ ıtulo 3. apresentamos uma proposta de um modelo de sistema de comunica¸˜o para ca ca a importa¸˜o de prote´ ca ınas organelares que se baseia em um sistema de comunica¸˜o digital. Modelo de um Sistema de Comunica¸˜o para a Importa¸˜o de Prote´ ca ca ınas Organelares DNA (Transmissor) Tradução (Canal) Proteína (Receptor) Erros (Ruído) Figura 3. a 73 .3 ser´ descrito a seguir. 3.2. A Subse¸˜o 3. Nas Subse¸˜es 3.5 a o ca descreve o modelo proposto no presente trabalho.2.2: Modelo de um sistema de comunica¸˜es de informa¸˜o gen´tica.4 ca ca co mostramos a estrutura e os parˆmetros dos c´digos BCH sobre anel.2 Proposta de um Sistema de Comunica¸˜o para a ca Importa¸˜o de Prote´ ca ınas Nesta se¸˜o. ca At´ onde ´ de nosso conhecimento. e e como vimos na se¸˜o anterior. Cada s´ e o ımbolo na palavra-c´digo ´ representado por bits (d´ o e ıgitos bin´rios) no caso de sinaliza¸˜o bin´ria. A sa´ desse codificador consiste de a ıda sequˆncias chamadas palavras-c´digo do c´digo da fonte.2. o qual tem como objetivo representar os dados de uma forma mais compacta. n˜o temos bits e sim d´ a ıgitos de um alfabeto q-´rio.2.3 e 3. ca a Este sistema de comunica¸˜o conecta uma fonte (usu´rio) a um destinat´rio atrav´s de um ca a a e canal.2. Caso a ca a se use mais do que dois sinais (por exemplo q sinais). A Subse¸˜o 3. retirando a redundˆncia.1 Sistema de comunica¸˜o digital ca O modelo do sistema de comunica¸˜o digital mostrado na Figura 3.2 apresenta as analogias entre o mecanismo ca ca de importa¸˜o organelar e um sistema de comunica¸˜o digital. e o o Essas sequˆncias s˜o processadas por um codificador de canal que introduz redundˆncia e a a transformando-as em outras sequˆncias denominadas palavras-c´digo.1 descrevemos os blocos componentes de um ca ca sistema de comunica¸˜o digital. este modelo difere dos modelos propostos anteriormente. Na Subse¸˜o 3.

Um exemplo bem sucedido ´ o sistema biol´gico que armazena e transmite a ca e o informa¸˜o atrav´s do c´digo gen´tico. cada sinal recebido na sa´ do canal em um dos poss´ ıda ıveis s´ ımbolos que comp˜em o as palavras-c´digo. ca A seguir. O decoa o e dificador de fonte processa a sequˆncia na sa´ do decodificador produzindo uma sequˆncia e ıda a estimada e a transforma numa sequˆncia de dados que ser´ entregue ao usu´rio. o DNA e o RNA mensageiro s˜o respons´veis o a a pela gera¸˜o e a transmiss˜o da informa¸˜o. ca e e Em um sistema biol´gico. Obviamente. e devido ao ru´ nem sempre a palavra-c´digo recebida corresponde ` palavra-c´digo enviada.Cap´ ıtulo 3.2 Sistema de comunica¸˜o biol´gico ca o C´digos corretores de erros s˜o utilizados sempre que se deseja transmitir ou armazenar o a informa¸˜o. ıdo. Na Figura 3.2.3: Diagrama de blocos de um sistema de comunica¸˜o. o modulador converte cada s´ ımbolo da palavra-c´digo em um s´ o ımbolo anal´gico o correspondente que ´ transmitido atrav´s do canal. ca a ca 74 . o a o o Nesse momento o decodificador de canal se utiliza da redundˆncia contida na palavra-c´digo a para corrigir os erros e ent˜o produzir uma estimativa da palavra-c´digo de fonte. respectivamente. e a 3. O demodulador converte. entretanto. distor¸˜es e interferˆncias e co e com isso a sa´ pode diferir da entrada. Fonte: Em um sistema de comunica¸˜o a fonte ´ o lugar onde a mensagem ´ gerada. Modelo de um Sistema de Comunica¸˜o para a Importa¸˜o de Prote´ ca ca ınas Organelares Canal discreto Transmissor Codificador de fonte Codificador de canal Fonte Modulador Ruído Canal Destinatário Decodificador de fonte Receptor Decodificador de canal Demodulador Figura 3. o o A sequˆncia demodulada de s´ e ımbolos ´ chamada palavra-c´digo recebida.4 relacionamos as semelhan¸as existentes ca e o e c entre o sistema de comunica¸˜es e a importa¸˜o de prote´ co ca ınas organelares fazendo as seguintes associa¸˜es: co 1. e e Frequentemente o canal fica sujeito a v´rios tipos de ru´ a ıdo. sempre fazendo a melhor ıda estimativa.

Sendo assim. sequˆncias de direcionamento. Modelo de um Sistema de Comunica¸˜o para a Importa¸˜o de Prote´ ca ca ınas Organelares 2. Por este motivo abordaremos uma regi˜o espec´ a ıfica do genoma.4: Modelo de um sistema de comunica¸˜o para importa¸˜o de prote´ ca ca ınas. uma resposta a essa pergunta. a informa¸˜o ´ a sequˆncia de ca e e direcionamento. Transmissor: O processo de tradu¸˜o ocorre no citosol e seu objetivo ´ garantir a ca e continuidade da informa¸˜o gen´tica. e micro RNA e etc.Cap´ ıtulo 3. Canal: E o local pelo qual a informa¸˜o ´ transmitida em um sistema de comunica¸˜es. o genoma consiste de c´digos entrela¸ados e ao inv´s de analisarmos o c e o genoma como um todo. a ca 4. Uma quest˜o sempre co a presente em trabalhos relacionados com codifica¸˜o gen´tica ´ se existe alguma forma de ca e e c´digos corretores de erros na estrutura do DNA? O presente trabalho encaminha. sinais internos. DNA repetitivo. O modelo proposto baseia-se na seguinte hip´tese: Se o genoma ´ constitu´ por regi˜es o e ıdo o consistindo de ´xons. as quais representam o local para onde a ina forma¸˜o est´ sendo enviada. o ret´ ıculo endoplasm´tico e cloroplasto). ına e 75 . ca e ´ 3. que tˆm como objetivo e e encaminhar uma prote´ at´ a sua respectiva organela. decorre a proposta de um modelo para o sistema de importa¸˜o ca de prote´ ınas semelhante ao de um sistema de comunica¸˜es digital. de maneira o positiva. Diante dessas analogias. as sequˆncias de direcionamento. devemos focalizar em suas partes. ent˜o cada uma dessas regi˜es pode ser reproduzida por um c´digo esa o o pec´ ıfico. Neste caso espec´ ca a ıfico. Figura 3. Receptor: O receptor pode ser interpretado como uma das organelas (mitocˆndria. ca e co onde erros podem ocorrer durante a transmiss˜o da informa¸˜o. ´ e ıntrons.

Os c´digos BCH usados para o o o o a transmiss˜o de informa¸˜o de pacotes em redes de computadores e gera¸˜o de sequˆncias a ca ca e formam uma importante classe de c´digos c´ o ıclicos devido. este obedecendo as opera¸˜es de soma e produto m´dulo 4. G. Este fato os tornam tamb´m bons ca ca e candidatos a serem utilizados na aplica¸˜o para a gera¸ao de sequˆncias de direcionamento. o processo de decodifica¸˜o ca a e ca torna-se mais complexo que o dos c´digos lineares. Como consequˆncia desse fato. Na estrutura de anel consideramos o alfabeto do c´digo Z4 = {0. e 3. os c´digos de Hamming. as principais classes dos c´digos lineares s˜o: os c´digos c´ o a o ıclicos. C. respectivamente. o Por outro lado. tais como: o alfabeto. a estrutura de e e anel ser´ pela primeira vez abordada na literatura com o objetivo de construir c´digos capazes a o de reproduzir sequˆncias de direcionamento. Este mapeamento tem como co 76 . Como exemplo de c´digos n˜o-lineares mencionamos os c´digos de Nordstroma o a Robinson e Preparata.3 O c´digo e a estrutura matem´tica o a Os c´digos corretores de erros s˜o classificados em duas classes: c´digos lineares e c´digos o a o o o n˜o-lineares. Pelo fato da estrutura e o de corpo ser mais restritiva que a estrutura de anel.2. anel e suas extens˜es de Galois. os quais apresentam uma capacidade de corre¸˜o de erros superior ` ca a dos c´digos lineares. e e Uma vez selecionado o c´digo (c´digo BCH) e a estrutura alg´brica (anel). correspondendo a adenina. existe algum c´digo corretor de erros capaz de reproduzir a ca o sequˆncias de direcionamento e suas correspondentes fitas complementares? 2) Se existe. e qual ser´ a estrutura matem´tica para construir este c´digo? a a o Diante destas perguntas. algumas propriedades estruturais no processo de gera¸˜o s˜o perdidas. O alfabeto 4-´rio do c´digo est´ relacionado ao conjunto o a o a formado pelos nucleot´ ıdeos. 3}. ´ a estrutura de corpo. guanina e timina.Cap´ ıtulo 3. Para satisfazer tal caracter´ o ıstica. ca c˜ e onde as estruturas matem´ticas mais utilizadas para a constru¸˜o destes c´digos s˜o as a ca o a estruturas alg´bricas de corpo. o mapeamento. decidimos construir os c´digos BCH o sobre a estrutura de anel. a estrutura mais conhecida e usada na literatura. iniciamos o processo de busca do c´digo e da estrutura matem´tio a ca que sejam mais apropriados e capazes de reproduzir as sequˆncias de direcionamento. citosina. consideramos todas as a e permuta¸˜es entre os elementos de cada um destes conjuntos. a extens˜o a a de Galois e o polinˆmio primitivo. 2. Uma o co o vez que o correspondente mapeamento entre N → Z4 n˜o ´ conhecido. tanto em sistemas de comunica¸˜es quanto co em modelagens de sistemas gen´ticos. c´digos Reed-Solomon e c´digos BCH. T }. Ressaltamos que em alguns trabalhos citados anteriormente. Sendo assim. ` simplicidade a dos processos de codifica¸˜o e decodifica¸˜o associados. denotado por N = {A. Modelo de um Sistema de Comunica¸˜o para a Importa¸˜o de Prote´ ca ca ınas Organelares Naturalmente surgem as seguintes perguntas: 1) Dentre os diversos c´digos usados para o a transmiss˜o da informa¸˜o. principalmente. alguns eleo o mentos adicionais dever˜o ser considerados. 1.

e a uma vez que a matriz geradora apresentar´ trˆs colunas com todos os elementos iguais. teremos que ter uma extens˜o de Galois de a 77 .4 Parˆmetros do c´digo a o Os parˆmetros do c´digo BCH s˜o denotados da seguinte maneira: n = o comprimento a o a das palavras-c´digo (comprimento das sequˆncias de direcionamento). Para a e que o comprimento seja n = 63 nucleot´ ıdeos. onde t denota a ca e ca quantidade de erros. quanto maior o ca a grau da extens˜o de Galois maior ser´ a quantidade de polinˆmios primitivos que devem a a o ser analisados na constru¸˜o dos c´digos. gerados pelos correspondentes polinˆmios primitivos s˜o isomorfos. Para contornar este problema constru´ ca o ımos c´digos na extens˜o de Galois de grau r = 6 que possui seis polinˆmios primitivos. com o objetivo de verificar se esta escolha resultar´ em c´digos com o mesmo a o desempenho para um sistema de comunica¸˜es gen´tico.2. ´ necess´rio ca a ´ e a que o comprimento da palavra-c´digo seja ´ o ımpar (n = pr − 1). Em teoria da codifica¸˜o n˜o importa qual o polinˆmio primitivo que se escolha para ca a o construir a extens˜o de corpo da qual o c´digo ser´ constru´ pois algebricamente os corpos a o a ıdo. aumentando significativamente a complexidade ca o computacional na constru¸˜o destes c´digos. No caso das sequˆncias com 22 amino´cidos podemos desconsiderar a metionina. Como n˜o conhecemos o a a a estrutura alg´brica das sequˆncias de direcionamento decidimos realizar a constru¸˜o do e e ca c´digo BCH sobre anel para cada um dos polinˆmios primitivos de uma determinada extens˜o o o a de Galois. quanto maior o grau da extens˜o maior a quantidade de polinˆmios a o primitivos. teremos para cada um dos comprimentos uma correspondente extens˜o a de Galois sobre anel. O c´digo BCH com parˆmetros (n. 6) seja unica. Para que a fatora¸˜o de xn − 1 na extens˜o GR(pk . analisamos as sequˆncias de direcionamento que possuem e comprimentos iguais a 21 e 22 amino´cidos correspondendo a 63 e 66 nucleot´ a ıdeos. k. Considerando o fato de que as sequˆncias de direcionamento variam entre 13 e 85 amino´cie a dos e de que o comprimento das palavras-c´digo deve ser igual ao comprimento das sequˆncias o e de direcionamento. o a o 3. Com o objetivo de diminuir a complexidade computacional. de forma que.Cap´ ıtulo 3. k = a dimens˜o do o e a c´digo (comprimento da sequˆncia de informa¸˜o respons´vel pela gera¸˜o da sequˆncia de o e ca a ca e direcionamento) e d = a distˆncia m´ a ınima do c´digo (o menor n´ mero de posi¸oes em que o u c˜ quaisquer duas palavras-c´digo diferem). r) = GR(4. respectivamente. Modelo de um Sistema de Comunica¸˜o para a Importa¸˜o de Prote´ ca ca ınas Organelares objetivo determinar qual a melhor associa¸˜o de cada um dos s´ ca ımbolos no conjunto N com o correspondente s´ ımbolo no conjunto Z4 e vice-versa. Cada extens˜o de Galois possui uma quantidade de polinˆmios prima o itivos. co e A dificuldade que se apresenta para a solu¸˜o desse problema est´ em. d) possui uma o o a capacidade de corre¸˜o de erros estabelecida atrav´s da rela¸˜o d = 2t + 1.

e Os c´digos BCH foram constru´ o ıdos para todos os valores de t entre 1 ≤ t ≤ 31 para cada um dos seis polinˆmios primitivos da extens˜o de Galois igual a r = 6. Figura 3. consiste na caracteriza¸˜o dos processos de codifica¸˜o e decodifica¸˜o das sequˆncias ca ca ca e de direcionamento.1 do Cap´ ca ıtulo 4 apresentamos um algoritmo que realiza exaustivamente a constru¸˜o dos c´digos BCH sobre anel para todos os polinˆmios primitivos da extens˜o de ca o o a Galois de grau r = 6 irredut´ ıveis sobre GF (2). de Shannon. Modelo de um Sistema de Comunica¸˜o para a Importa¸˜o de Prote´ ca ca ınas Organelares grau r = 6. devemos considerar cada um destes c´digos como um o o novo c´digo a ser analisado. teremos um polinˆmio gerador g(x) diferente e. O processo de codifica¸˜o ´ realizado pelo bloco transmissor. ´ que a informa¸˜o m´ tua do canal discreto ca a e ca u 78 . com o objetivo de o a encontrar um c´digo capaz de gerar as sequˆncias de direcionamento sem nenhuma diferen¸a o e c de nucleot´ ıdeo ou no m´ximo diferindo em um nucleot´ a ıdeo. Figura 3. n = pr − 1 ⇒ n = 26 − 1 = 63. co Uma poss´ interpreta¸˜o do teorema de codifica¸˜o de canal. bem como para as distˆncias de Hamming a variando entre 3 ≤ d ≤ 63.5 Modelo do sistema de comunica¸˜o biol´gico ca o O sistema de comunica¸˜es para o transporte de prote´ co ınas organelares do presente trabalho.5: Sistema de comunica¸˜es digital. o Na Se¸˜o 4. consequenteo mente. Sendo assim. considerando ıvel ca ca o fluxo de informa¸˜o da fonte ao destinat´rio. um novo c´digo. quantidade de erros.5 ca e (A). isto ´. 3. Chamamos a aten¸˜o para o ca seguinte fato.Cap´ ıtulo 3.5 (B).2. ca e Canal discreto Transmissor (A) Fonte Codificador Modulador Canal (B) Destinatário Decodificador Demodulador Receptor Figura 3. 6) e para cada o ca valor de t. e o processo de decodifica¸˜o ´ realizado pelo bloco receptor. para cada polinˆmio primitivo usado na gera¸˜o do anel GR(4.

Portanto. o c´digo resultante ser´ linear ou n˜o linear. Para alcan¸ar esse objetivo. garantindo assim.6: Modelo proposto para codifica¸˜o biol´gica.Cap´ ıtulo 3. Portanto. o transmissor no modelo de um sistema de o e comunica¸˜es digital consiste de dois blocos em cascata. bem como. enquanto que a sa´ do modulador est´ relacionada ` sequˆncia ıda a a e de direcionamento em termos de amino´cidos. o codificador o a a 79 . que a da e ıvel constela¸˜o de sinais.RNAt . um bloco est´ associado com um co a codificador e o outro associado com um modulador. Dependendo da classifica¸˜o desse mapeamento como linear ou n˜o ca a linear.MC Destinatário Decodificador Demodulador Fonte Mapeamento G-Linear Código BCH Ribossomo SD* aminoácidos Receptor Figura 3. ca o No contexto de sistema de comunica¸˜es digital existe um processo muito simples e efico ciente que ´ chamado de mapeamento casado (MC). realizado pelo RNA transportador seja bem conhecido o o o e no contexto biol´gico. Essa propriedade matem´tica implica e a que a estrutura alg´brica do codificador seja a mesma. Embora o mapeamento entre o a c´don e anti-c´don (c´digo gen´tico). O processo de codifica¸˜o biol´gica ca o A palavra-c´digo na sa´ do codificador est´ relacionada ` sequˆncia de direcionamento o ıda a a e em termos de nucleot´ ıdeos.6. onde G denota uma e o estrutura alg´brica. Figura 3. a menos de um isomorfismo. a menor complexidade poss´ do sistema. Modelo de um Sistema de Comunica¸˜o para a Importa¸˜o de Prote´ ca ca ınas Organelares deve ser t˜o pr´xima quanto poss´ a o ıvel da entropia da fonte. a dos c´digos n˜o lineares atrav´s da inser¸˜o ca o o a e ca do bloco mapeamento. co Canal discreto Transmissor Modulador Constelação de Sinais Transmissor Fonte Codificador Modulador Código Genético Canal = Codificador SD nucleotídeos . c um c´digo corretor de erros ´ usado.6. Uma subclasse importante ´ a dos c´digos G-lineares. Figura 3. respectivamente. A classe ca de c´digos satisfazendo essa propriedade ´ bem conhecida e denominada c´digos geometricao e o mente uniformes. que incorpora todas as vantagens inerentes ao processo de gera¸˜o e de e ca decodifica¸˜o dos c´digos lineares. o mesmo necessita de uma caracteriza¸˜o matem´tica no contexto de o ca a um sistema de comunica¸˜es digital.

o decodificador garante e ca ca que a informa¸˜o correta chegar´ ao seu destino. O modulador o consiste do c´digo gen´tico. Esse processo sustenta a confiabilidade u ca da transmiss˜o da informa¸˜o de todo o sistema e ´ realizado no bloco decodificador. o RNA transportador realiza o mapeamento ca casado. fazemos o uso da seguinte hip´tese: A sequˆncia reproduzida pelo c´digo ´ a informa¸˜o gerada pela fonte.7: Modelo proposto para decodifica¸˜o biol´gica. ca o 80 . Para que esse modelo seja poss´ ca ıvel. O processo de decodifica¸˜o biol´gica ca o O modelo de decodifica¸˜o do presente trabalho baseia-se no processo de importa¸˜o de ca ca prote´ ınas mitocondriais. do RNA transportador e do RNA ribossˆmico. No processo o e o e ca de codifica¸˜o ocorreu algum tipo de interferˆncia que introduziu erros durante a gera¸˜o da ca e ca sequˆncia. por´m essa analogia pode ser estendida para os demais processos e de importa¸˜o organelares. o Figura 3. a qual denotamos por SD . localiza¸˜o e corre¸˜o dos erros. Modelo de um Sistema de Comunica¸˜o para a Importa¸˜o de Prote´ ca ca ınas Organelares consiste de um mapeador e um codificador de um c´digo corretor de erros.6. Basia ca e camente atrav´s do reconhecimento. enquanto que o RNA ribossˆmico se comporta como um processador de sinal digital. o e o O c´digo gen´tico pode ser visto como uma constela¸˜o de sinais. Sendo assim. consideramos que a sequˆncia encontrada no banco de dados NCBI e e (“National Center for Biotechnology Information”) ´ a sequˆncia reproduzida pelo c´digo e e o ∗ acrescida de erros. Em um sistema de comunica¸˜o existe um processo muito estruturado de reconhecimento ca do conte´ do da informa¸˜o enviado pelo transmissor.Cap´ ıtulo 3. ca a Canal discreto Transmissor SD* aminoácidos sinais internos SD* aminoácidos N-terminal Fonte Codificador Modulador Demodulador Tom70 Canal Tom20 SD* nucleotídeos N-terminal = Membrana interna ou Matriz SD* nucleotídeos sinais internos Destinatário Decodificador Demodulador Tom40 Tom5 Tom6 Tom7 GIP Decodificador Tom22 Receptor Receptor Figura 3. onde cada c´don ´ o e ca o e considerado como um sinal na constela¸˜o.

co • Passo 4. O complexo TOM est´ ancorado na membrana externa e ´ necess´rio a e a para a importa¸˜o de todas as prote´ ca ınas mitocondriais codificadas no n´ cleo [6]. C´lculo das Fun¸˜es Sim´tricas Elementares: se o c´lculo das s´ a co e a ındromes for um valor diferente de zero. u A maquinaria TOM cont´m receptores de importa¸˜o que reconhecem as prote´ e ca ınas precursoras mitocondriais atrav´s de suas sequˆncias de direcionamento e. ca ına As prote´ ınas Tom20. C´lculo das Magnitudes dos Erros: o algoritmo indica quais s˜o os valores a a que devem ser somados nas posi¸˜es apontadas no Passo 3 para que os erros sejam co corrigidos. podemos verificar se a quantidade de erros est´ dentro da a capacidade de corre¸˜o do c´digo. O modelo de decodifica¸˜o baseia-se em uma analogia ena ca tre o processo de decodifica¸˜o (Berlekamp-Massey para An´is) utilizado em sistemas de ca e comunica¸˜es e o complexo TOM que atua no transporte de prote´ co ınas mitocondriais. enquanto que Tom20 reconhece especificamente pr´-sequˆncias aminoe e terminais. realizado pelo e complexo TOM. os quais podem ser interpretados como os quatro passos do processo de decodifica¸˜o: ca • Passo 1.Cap´ ıtulo 3. Tom20 e Tom22 formam o complexo receptor principal sendo que Tom22 interage com precursores contendo sequˆncias de direcionamento internas ou e no amino-terminal. ent˜o. ca o a u a • Passo 3. C´lculo dos N´ meros Localizadores de Erros: neste passo s˜o localizadas as posi¸˜es onde ocorreram os erros. Temos duas situa¸˜es: 1) Quando o co c´lculo for igual a zero temos que a informa¸˜o ´ uma palavra-c´digo sem erros e 2) a ca e o Quando o c´lculo for diferente de zero ´ acionado o segundo passo do algoritmo. a e • Passo 2. O algoritmo de Berlekamp-Massey consiste basicamente de quatro passos. seja bem conhecido no contexto biol´gico ´ necess´ria uma caracteriza¸˜o o e a ca matem´tica para esse processo. iniciam o processo e e a de transloca¸˜o dessa prote´ para o seu devido local [7]. Modelo de um Sistema de Comunica¸˜o para a Importa¸˜o de Prote´ ca ca ınas Organelares No contexto biol´gico quem realiza o processo de reconhecimento das sequˆncias de direo e cionamento (conte´ do da informa¸˜o) ´ o complexo TOM (“translocase of the mitochondrial u ca e outer membrane”). Tom22 e Tom70 funcionam como receptores para as prote´ ınas precursoras mitocondriais. C´lculo das S´ a ındromes: neste passo o algoritmo verifica se a informa¸˜o ´ uma ca e palavra-c´digo atrav´s do c´lculo das s´ o e a ındromes. Tom70 interage com precursores que possuem sequˆncias de direcionamento intere nas. As prote´ ınas precursoras inicialmente reconhecidas pelo Tom70 s˜o transferidas para o a Tom20 e/ou Tom22 antes de sua inser¸˜o no poro geral de inser¸˜o (GIP “general insertion ca ca pore”)[11]. Embora o processo de reconhecimento das sequˆncias de direcionamento. 81 .

existem procedimentos semelhantes aos passos do processo de decodifica¸˜o descritos anteriormente. a prote´ Tom22 consegue verificar se os erros introduzidos na sequˆncia de ına e direcionamento mantˆm a estrutura matem´tica original da sequˆncia e se estes erros e a e est˜o dentro da capacidade de corre¸˜o do c´digo. ca a ına a e • 3o passo do processo de decodifica¸˜o: neste n´ as prote´ ca ıvel ınas do complexo GIP localizam as posi¸˜es onde ocorreram os erros com o objetivo de verificar se os erros co ocorreram em uma regi˜o da sequˆncia que compromete o seu conte´ do de informa¸˜o. Ap´s esta verifica¸˜o temos as duas a ca o o ca situa¸˜es: 1) a prote´ ´ liberada para o complexo GIP somente se os erros estiverem co ına e dentro da capacidade de corre¸˜o e 2) caso contr´rio a prote´ n˜o ´ importada. tˆm a fun¸˜o e ca de verificar se a prote´ precursora pertence a mitocˆndria ou n˜o atrav´s do c´lculo ına o a e a das s´ ındromes. que funcionam como receptores para as prote´ ınas precursoras mitocondriais. Deste modo ca podemos reescrever o algoritmo do Berlekamp-Massey sob o ponto de vista biol´gico. deste modo a nossa suposi¸ao ´ que neste n´ ´ acionado c˜ e ıvel e um mecanismo de degrada¸˜o da prote´ caso os erros tenham ocorrido em regi˜es ca ına o que comprometem o seu conte´ do de informa¸˜o. 82 . • 2o passo do processo de decodifica¸˜o: Se o c´lculo das s´ ca a ındromes for um valor diferente de zero.Cap´ ıtulo 3. a e u ca • 4o passo do processo de decodifica¸˜o: biologicamente n˜o ocorre a repara¸˜o de erros ca a ca ap´s a s´ o ıntese de prote´ ınas. Modelo de um Sistema de Comunica¸˜o para a Importa¸˜o de Prote´ ca ca ınas Organelares Durante o processo de importa¸˜o de prote´ ca ınas mitocondriais. cono siderando que o complexo TOM realiza os quatro passos de decodifica¸˜o do algoritmo da ca seguinte forma: • 1o passo do processo de decodifica¸˜o: Neste n´ as prote´ ca ıvel ınas Tom20 e Tom70. visto que existem outros trˆs n´ e ıveis de decodifica¸˜o anteriores ca a este n´ ıvel. Este mecanismo deve ser acionado u ca somente em casos raros.

ca e A pesquisa foi realizada atrav´s de an´lises de sequˆncias de direcionamento de v´rios e a e a organismos. apresentamos uma primeira proposta e e de identifica¸˜o entre c´digos corretores de erros e sequˆncias de DNA.1. Este tipo de abordagem possibilita analisar muta¸˜es e a e co polimorfismos sob o ponto de vista matem´tico. Tabela 4. esp´cies e organelas. this problem has no solution”. consider the problem of determining whether this sequence is a word of some error-correcting code and.2 apresentamos o algoritmo usado para reproduzir as sequˆncias de co e direcionamento e os resultados da codifica¸˜o de sequˆncias de DNA. 166. of nucleotides. Nas Se¸˜es 4. bem como a estrutura a e matem´tica das sequˆncias de DNA. say. Ressaltamos que este ca o e ´ o primeiro passo para o desenvolvimento de v´rios outros modelos de codifica¸˜o. at´ onde ´ de nosso conhecimento. of identifying the code to which it belongs. if so. As stated. Neste cap´ ıtulo. Battail declara: “ Given a sequence of symbols.1 e 4. o e Desse fato decorre que a estrutura matem´tica destas sequˆncias foram mantidas. verificando se a sequˆncia de DNA mutada faz a e parte do mesmo c´digo da sequˆncia original e consequentemente da mesma matriz geradora. uma vez e a ca que se mostrou que a reprodu¸˜o de sequˆncias de DNA atrav´s de c´digos corretores de ca e e o erros ´ poss´ e ıvel.Cap´ ıtulo 4 Gera¸˜o das Sequˆncias de ca e Direcionamento Uma das motiva¸˜es em identificar c´digos corretores de erros em sequˆncias de DNA co o e est´ no fato dos mesmos serem capazes de reproduzir estas sequˆncias. e 83 . respectivamente. a e Em [1] pg.

21aa 66nt .22aa 63nt . sinensis A. ent˜o xn − 1 n˜o apresenta multiplicidade de ra´ e a a ızes.22aa 63nt . s˜o relativamente o a primos. ao inv´s de serem encontradas na e a e extens˜o do corpo Fq ∼ GF (pr ). martensii P. n. mdc (p.21aa 66nt . tabacum H. Chamamos a aten¸˜o para e as sequˆncias de direcionamento que possuem comprimento n = 26 + 2 = 66. n) = 1. k. o A principal diferen¸a da constru¸˜o de c´digos c´ c ca o ıclicos sobre an´is para a constru¸˜o de e ca c´digos c´ o ıclicos sobre corpos est´ no fato de que as ra´ do polinˆmio gerador dos c´digos a ızes o o c´ ıclicos sobre an´is encontram-se na extens˜o do anel Zq . isto ´. k. d)=(63. max C. oleracea S.21aa Tabela 4. dominulus Esp´cie e Viridiplantae Viridiplantae Viridiplantae Viridiplantae Viridiplantae Viridiplantae Viridiplantae Fungi Metazoa Metazoa Viridiplantae Viridiplantae Viridiplantae Viridiplantae Metazoa Fungi Metazoa Metazoa Viridiplantae Metazoa Organela M M RE RE RE RE C M M M M C M M M M M RE RE RE GI 899225 217937 186509758 632733 1808650 78096542 21227 45269853 31343489 114579 497233 7328566 30695458 15010581 457928 433619 12587 16740522 536793 51093376 Comprimento da SD 66nt . nesses casos e a metionina da primeira posi¸˜o pode ser desconsiderada. e Os parˆmetros do c´digo s˜o denotados da seguinte maneira: n = o comprimento das a o a a o palavras-c´digo (comprimento das sequˆncias de direcionamento). d) sobre GR(4. thaliana N. vulgaris P. k.22aa 63nt . a = Se a ordem do corpo base.21aa 63nt . C = cloroplasto. norvegicus S.21aa 63nt .21aa 63nt . a 4. d) = (63. uma vez que a matriz geradora ca possui trˆs colunas com os mesmos elementos.22aa 63nt .21aa 63nt . cerevisiae B. Gera¸˜o das Sequˆncias de Direcionamento ca e no SD01 SD02 SD03 SD04 SD05 SD06 SD07 SD08 SD09 SD10 SD11 SD12 SD13 SD14 SD15 SD16 SD17 SD18 SD19 SD20 Organismo B. e o comprimento das palavras-c´digo. d) capaz de reproduzir o a ca sequˆncias de direcionamento com comprimentos n = 26 −1 = 63. taurus B.22aa 66nt . sativum S.21aa 66nt . taurus G.22aa 66nt . k = a dimens˜o do c´digo o e (comprimento da sequˆncia de informa¸˜o respons´vel pela gera¸˜o da sequˆncia de DNA) e ca a ca e e d = a distˆncia m´ a ınima do c´digo (o menor n´ mero de posi¸oes em que quaisquer duas o u c˜ palavras-c´digo diferem). Constru¸˜o C´digo BCH Primitivo (n. apresentamos um algoritmo que mostra em detalhes a constru¸˜o de um ca ca c´digo BCH sobre a estrutura de anel com parˆmetros (n. sapiens M.1 Algoritmo de Codifica¸˜o ca Nesta se¸˜o.22aa 66nt . k.21aa 63nt . cerevisiae H. RE = ret´ o ıculo endoplasm´tico.22aa 66nt . thaliana A. vulgare T. napus I.22aa 66nt . r) ca o 84 .1: M = mitocˆndria.21aa 63nt . p.22aa 66nt .Cap´ ıtulo 4. batatas A. thaliana R.

Determinar o alfabeto e a estrutura matem´tica do c´digo a o O alfabeto 4-´rio do c´digo gen´tico est´ relacionado ao conjunto formado pelos nua o e a cleot´ ıdeos denotado por N = {A. a guanina (G) e timina (T). ca a ca seja unica. analisaremos a sequˆncia de direcionamento SD02 da Tabela 4. Logo.1 cujo e comprimento ´ n = 63 nucleot´ e ıdeos. o que co ca ca o lhe confere uma estrutura alg´brica de anel. 2. pois n = 2 −1 = 26 −1 = 63. a e esse valor de r = 6 ser´ utilizado na extens˜o do corpo GF (2) no Passo 4. grupo das unidades. e Passo 2 . 3} obedecendo as opera¸˜es de adi¸˜o e multiplica¸˜o m´dulo 4. Portanto. Neste exemplo.Cap´ ıtulo 4. Gera¸˜o das Sequˆncias de Direcionamento ca e Passo 1 . T } correspondendo ` adenina (A). C. o grau r do polinˆmio primitivo a ser usado o r na extens˜o de Galois do corpo GF (2) ´ r = 6. Por este motivo utilizamos o alfabeto 4-´rio denotado por a Z4 = {0. Neste passo.Extens˜o do corpo GF (2) a O corpo GF (2r ) ´ obtido atrav´s da extens˜o do corpo GF (2) por um ideal gerado e e a por qualquer um dos polinˆmios primitivos de grau r = 6. citosina (C). a o a (1) x6 + x5 + x3 + x2 + 1 (2) x6 + x + 1 (3) x6 + x5 + x2 + x + 1 (4) x6 + x4 + x3 + x + 1 (5) x6 + x5 + x4 + x + 1 (6) x6 + x5 + 1 Passo 4 . ´ que o comprimento da sequˆncia de direcionamento seja ´ ´ e e ımpar da forma r e n = 2 − 1. a a Passo 3 . G.Polinˆmios primitivos relacionados ` extens˜o de Galois o a a Neste passo. realizamos a o extens˜o do corpo GF (2) da seguinte maneira: a Considere o corpo de Galois GF (2r ) = GF (26 ) = GF (64) = F64 dado por 85 . Estes polinˆmios s˜o conhecidos na literatura. s˜o informados todos os polinˆmios primitivos relacionados ao grau da a o extens˜o de Galois r = 6.Determinar a extens˜o de Galois a A condi¸˜o necess´ria para que a fatora¸˜o de xn −1 em GR∗ (4. r). 1. Nos casos em que as sequˆncias de direcionamento possuem comprimento par da forma n = 2r + 2 o amino´cido metionina pode ser desconsiderado sem perda a de generalidade.

Cap´ ıtulo 4. Gera¸˜o das Sequˆncias de Direcionamento ca e

F2 [x] F2 [x] ∼ = {a0 + a1 x + a2 x2 + · · · + a5 x5 : ai s ∈ F2 }, = 6 5 + x3 + x2 + 1 p(x) x +x onde p(x) ´ o polinˆmio primitivo (1) do Passo 3. e o Seja α um elemento primitivo em F64 , equivalentemente, α ´ uma raiz de x6 + x5 + x3 + e 2 6 5 3 2 6 x +1 = 0, ou seja, α +α +α +α +1 = 0 implicando em α = −α5 −α3 −α2 −1. Como os coeficientes dos polinˆmios que formam o conjunto dos elementos de F64 pertencem o a F2 , fazemos a redu¸˜o m´dulo 2 destes coeficientes e obtemos α6 = α5 + α3 + α2 + 1. ca o Os elementos de F64 s˜o mostrados na Tabela 4.2. a Elementos de F64 0 1 α α2 α3 α4 α5 α6 α7 = α × α6 α8 = α × α7 α9 = α × α8 (α0 α1 α2 α3 α4 α5 ) (000000) (100000) (010000) (001000) (000100) (000010) (000001) (101101) (111011) (110000) (011000) Elementos de F64 α10 = α × α9 . . . α55 α56 α57 α58 α59 α60 α61 α62 α63 = α × α54 = α × α55 = α × α56 = α × α57 = α × α58 = α × α59 = α × α60 = α × α61 = α × α62 (α0 α1 α2 α3 α4 α5 ) (001100) . . . (001001) (101001) (111001) (110001) (110101) (110111) (110110) (011011) (100000)

Tabela 4.2: Elementos de F64 em nota¸˜o de r-uplas ca Passo 5 - Extens˜o do anel Z4 a Considere o anel GR(4, 6) como sendo dado pelo quociente do anel Z4 [x] (conjunto de todos os polinˆmios com coeficientes em Z4 ) pelo ideal gerado pelo mesmo p(x) o utilizado para realizar a extens˜o do corpo no Passo 4, isto ´, a e Z4 [x] ∼ Z4 [x] = {b0 + b1 x + b2 x2 + · · · + b5 x5 : bi s ∈ Z4 } = 6 5 + x3 + x2 + 1 p(x) x +x A seguir determinaremos os elementos de GR∗ (4, 6). Sabemos que as opera¸˜es em co ∗ 6 5 3 2 GR (4, 6) s˜o realizadas m´dulo (x + x + x + x + 1). Como α ´ uma raiz do a o e polinˆmio primitivo usado tanto na extens˜o do corpo como na do anel, ent˜o α6 = o a a 5 3 2 −α −α −α −1. Como os coeficientes dos polinˆmios em GR(4, 6) est˜o em Z4 , ent˜o o a a α6 = 3α5 + 3α3 + 3α2 + 3. Considerando f = (010000) = α, todos os elementos n˜o a 86

Cap´ ıtulo 4. Gera¸˜o das Sequˆncias de Direcionamento ca e nulos e invers´ ıveis de GR(4, 6) s˜o determinados atrav´s da potencia¸˜o de f , como a e ca mostrado na Tabela 4.3. GR∗ (4, 6) 1 f =x=α f2 f3 f4 f5 f6 f7 f8 f9 = x2 = x3 = x4 = x5 = x6 = x7 = x8 = x9 = α2 = α3 = α4 = α5 = α6 = α7 = α8 = α9 (α0 α1 α2 α3 α4 α5 ) (100000) (010000) (001000) (000100) (000010) (000001) (303303) (131031) (312002) (233002) GR∗ (4, 6) f 10 = x10 = α10 f 11 = x11 = α11 . . . f 120 f 121 f 122 f 123 f 124 f 125 f 126 = x120 = x121 = x122 = x123 = x124 = x125 = x126 = α120 = α121 = α122 = α123 = α124 = α125 = α126 (α0 α1 α2 α3 α4 α5 ) (221102) (220312) . . . (331023) (130203) (110121) (310311) (330330) (033033) (100000)

Tabela 4.3: Elementos de GR∗ (4, 6) em nota¸˜o de r-uplas ca Passo 6 - Determina¸˜o do grupo das unidades ca Do Passo 5 resulta que f gera um grupo c´ ıclico de ordem n · d em GR∗ (4, 6), onde d ≥ 1 ∈ Z e f d gera o subgrupo c´ ıclico cuja ordem ´ 63 em GR∗ (4, 6). Sendo assim, e temos que n · d = 63 · d = 126 implicando que d = 2. Consequentemente, f 2 = (001000) = α2 gera um subgrupo c´ ıclico de ordem 63 em GR∗ (4, 6). Logo, β = α2 ´ o e elemento primitivo que gera o subgrupo c´ ıclico Gn = G63 mostrado na Tabela 4.4. Esse elemento primitivo ser´ utilizado na constru¸˜o de um c´digo BCH de comprimento a ca o n = 63 sobre Z4 . Passo 7 - Determina¸˜o do polinˆmio gerador da matriz G(x) ca o Podemos construir um c´digo BCH de comprimento n sobre Z4 , considerando que a o distˆncia m´ a ınima do c´digo ´ no m´ximo igual ao comprimento do c´digo, ou seja, o e a o d ≤ n. O algoritmo ir´ analisar todos os valores poss´ a ıveis de d que est˜o relacionados a com a capacidade de corre¸˜o de erros estabelecida atrav´s da rela¸˜o d ≤ 2t+1, onde t ca e ca denota a quantidade de erros. No caso da palavra-c´digo em quest˜o, cujo comprimento o a ´ n = 63 os valores de 1 ≤ t ≤ 31 ser˜o analisados. e a Considerando que a distˆncia m´ a ınima do c´digo seja d = 3, ent˜o quaisquer duas o a potˆncias consecutivas de β poder˜o ser utilizadas no processo de obten¸˜o do polinˆmio e a ca o gerador do c´digo BCH. Sem perda de generalidade, escolha β e β 2 como sendo as o duas potˆncias consecutivas. Ent˜o o polinˆmio gerador g(x) ´ dado por g(x) = e a o e mmc(M1 (x), M2 (x)), onde Mi (x) ´ o polinˆmio minimal associado ao elemento β i, i = e o 87

Cap´ ıtulo 4. Gera¸˜o das Sequˆncias de Direcionamento ca e G63 → (α0 α1 α2 α3 α4 α5 ) G63 → (α0 α1 α2 α3 α4 α5 ) G63 → (α0 α1 α2 α3 α4 α5 ) β → (001000) β 22 → (321013) β 43 → (122031) 2 23 β → (000010) β → (211122) β 44 → (233312) β 3 → (303303) β 24 → (022331) β 45 → (123210) β 4 → (312002) β 25 → (232311) β 46 → (300131) β 5 → (221102) β 26 → (032213) β 47 → (231133) 6 27 β → (220233) β → (212230) β 48 → (012021) β 7 → (012312) β 28 → (103223) β 49 → (333313) β 8 → (121000) β 29 → (112203) β 50 → (211201) 9 30 β → (001210) β → (310131) β 51 → (133103) β 10 → (303311) β 31 → (231233) β 52 → (310300) β 11 → (033323) β 32 → (012022) β 53 → (003103) β 12 → (111100) β 33 → (020300) β 54 → (313000) 13 34 β → (001111) β → (000203) β 55 → (003130) β 14 → (030301) β 35 → (313011) β 56 → (101132) β 15 → (131330) β 36 → (033020) β 57 → (320130) 16 37 β → (102010) β → (202132) β 58 → (100302) β 17 → (300323) β 38 → (321100) β 59 → (223021) β 18 → (110210) β 39 → (003211) β 60 → (331023) β 19 → (300001) β 40 → (030322) β 61 → (110121) 20 41 β → (130031) β → (020123) β 62 → (330330) β 21 → (233032) β 42 → (111012) β 63 → (100000) Tabela 4.4: Elementos de G63 1, 2 sobre GR∗ (4, 6) (onde β ´ um elemento primitivo em Gn ) que tem como suas ra´ e ızes todos os elementos na sequˆncia, e β i , (β i )p , (β i )p , · · · , (β i)p Assim, M1 (x) = M2 (x) = (x − β)(x − β 2 )(x − β 4 )(x − β 8 )(x − β 16 )(x − β 32 ). Portanto, g(x) = x6 +3x5 +x3 +x2 +2x+1 gera o c´digo desejado e est´ relacionado com o a a matriz geradora G do c´digo BCH sobre Z4 com parˆmetros (n, k, d) = (63, 57, 3). o a Passo 8 - Determina¸˜o do polinˆmio gerador da matriz H ca o O polinˆmio gerador da matriz verifica¸˜o de paridade H ´ obtido atrav´s da rela¸˜o: o ca e e ca 88
2 r−1

.

gn−k−1 1 0 .. . .Cap´ ıtulo 4. . . . .. gn−k−2 gn−k−1 1 . .. . .. .. .Determinar a matriz G e a sua transposta GT : Determinado o polinˆmio gerador no Passo 7. 0 0 . ent˜o a matriz geradora do c´digo ´ dada por: a o e  g0 g1 g2 . 0 0 1 0 0 . 0 g0 g1 0 g0 . ... . . . . 1 Realizando os deslocamentos dos coeficientes do polinˆmio g(x) da esquerda para ` o a direita. . 89 .. .. o Passo 9 . . + xn−k . .              G=    . . .. . . . .. . .. . 000000000000000000000000000000000000000000000000000121103100000 000000000000000000000000000000000000000000000000000012110310000 000000000000000000000000000000000000000000000000000001211031000 000000000000000000000000000000000000000000000000000000121103100 000000000000000000000000000000000000000000000000000000012110310 000000000000000000000000000000000000000000000000000000001211031         G=                           A matriz GT (x) com dimens˜o 63 × 57 ´ determinada como sendo a troca da linha pela a e coluna. g0 g1 g2 . . . . obtemos a matriz G(x) com dimens˜o 57 × 63: a  121103100000000000000000000000000000000000000000000000000000000 012110310000000000000000000000000000000000000000000000000000000 001211031000000000000000000000000000000000000000000000000000000 000121103100000000000000000000000000000000000000000000000000000 000012110310000000000000000000000000000000000000000000000000000 000001211031000000000000000000000000000000000000000000000000000 . 0 . constru´ o ımos a matriz geradora G(x) da seguinte forma: Considere: g(x) = g0 + g1 x + g2 x2 + . . . 0 0 . ... Gera¸˜o das Sequˆncias de Direcionamento ca e h(x) = xn − 1 x63 − 1 = 6 g(x) x + 3x5 + x3 + x2 + 2x + 1 h(x) = x57 + x56 + x55 + 2x53 + 2x52 + 2x51 + x50 + 3x47 + x43 + 3x42 + 3x40 + 3x39 + 2x38 + 3x36 + x34 + 3x33 + 2x32 + 3x31 + x29 + x28 + 3x27 + 2x26 + x25 + 3x24 + 3x23 + x22 + 2x21 + x19 +x18 +2x17 +3x14 +2x13 +x12 +3x10 +2x9 +2x8 +3x7 +x6 +3x5 +3x4 +x3 +x2 +2x+3 onde os coeficientes do polinˆmio h(x) pertencem a Z4 . . .

Gera¸˜o das Sequˆncias de Direcionamento ca e Passo 10 . C. 3} da sequˆncia de direcionamento a ser analisada. 2. consideramos todas as permuta¸˜es entre esses conjuntos.Determinar a matriz H e a sua transposta H T Determinado o polinˆmio h(x) no Passo 8. comprimento: 63 nucleot´ ıdeos.Cap´ ıtulo 4. 1. G. a e Uma vez que o mapeamento entre N → Z4 n˜o ´ conhecido. a co e SD={ATGTTCAGGCACTCTTCTCGACTCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC} 90 . Portanto.Rotular a sequˆncia de DNA utilizando o alfabeto do c´digo e o Neste exemplo. a e Passo 11 . T } e o alfabeto do c´digo BCH o e o Z4 = {0. este passo determina as 24 permuta¸˜es co co entre o alfabeto do c´digo gen´tico N = {A. As 24 linhas da e matriz P correspondem `s 24 permuta¸˜es da sequˆncia de direcionamento SD. analisaremos se o c´digo BCH sobre anel ´ capaz de reproduzir a o e sequˆncia de direcionamento mitocondrial do organismo: Ipomoea batatas. o Matriz H(x) com dimens˜o 6 × 63: a   H(x) =     000001110222100300013033203013230113213312011200321032231331123 000011102221003000130332030132301132133120112003210322313311230 000111022210030001303320301323011321331201120032103223133112300 001110222100300013033203013230113213312011200321032231331123000 011102221003000130332030132301132133120112003210322313311230000 111022210030001303320301323011321331201120032103223133112300000       A matriz H T com dimens˜o 63 × 6 ´ determinada pela troca da linha pela coluna. obtemos a matriz H(x) realizando os o deslocamentos dos coeficientes do polinˆmio gerador h(x) da direita para a esquerda. e prote´ ına: F1-ATPase delta subunit. GI: 217937.

C.0.T)=(0.G. implicando a u o assim em uma maior complexidade computacional para gerar todas as 4k palavrasc´digo.G.G.1.1.3) (A.T)=(3.2) Linha = Caso L 9 = Caso 09 L 10 = Caso 10 L 11 = Caso 11 L 12 = Caso 12 L 13 = Caso 13 L 14 = Caso 14 L 15 = Caso 15 L 16 = Caso 16 N → Z4 (A.G.5 mostramos como as linhas da matriz P est˜o relacionadas com as 24 a permuta¸˜es entre N → Z4 .G.G.0.3) (A.1.C. co co Linha = Caso L 1 = Caso 01 L 2 = Caso 02 L 3 = Caso 03 L 4 = Caso 04 L 5 = Caso 05 L 6 = Caso 06 L 7 = Caso 07 L 8 = Caso 08 N → Z4 (A.T)=(2.0) (A.2) (A.C.1.C.0.2.G.C.2) (A.C.2.2.T)=(0.C.3.C.1) (A.2.C.G.0.3. e ao inv´s de gerarmos todas as palavras-c´digos para compararmos com a sequˆncia de e o e 91 . o Para contornarmos este problema que ´ classificado como um problema NP-completo.2.T)=(1.C.G.0.G.C.2.2.0) Tabela 4.G.1.Verificar se a sequˆncia de DNA ´ palavra-c´digo da G(x) e e o A capacidade de corre¸˜o de erros de um c´digo est´ relacionada com o n´ mero de ca o a u palavras-c´digo.0) Linha = Caso L 17 = Caso 17 L 18 = Caso 18 L 19 = Caso 19 L 20 = Caso 20 L 21 = Caso 21 L 22 = Caso 21 L 23 = Caso 23 L 24 = Caso 24 N → Z4 (A.3.1.1) (A.Cap´ ıtulo 4.3.2.0.T)=(3.G. no caso em quest˜o temos 4k palavras-c´digo.C.C.T)=(3.2.3.0.3. Gera¸˜o das Sequˆncias de Direcionamento ca e                  P =                  032331022101313313120131130213121211011010032222322123121111331 023221033101212212130121120312131311011010023333233132131111221 031332011202323323210232230123212122022020031111311213212222332 013112033202121121230212210321232322022020013333133231232222112 012113022303131131320313310231323233033030012222122321323333113 021223011303232232310323320132313133033030021111211312313333223 132330122010303303021030031203020200100101132222322023020000330 123220133010202202031020021302030300100101123333233032030000220 130332100212323323201232231023202022122121130000300203202222332 103002133212020020231202201320232322122121103333033230232222002 120223100313232232301323321032303033133131120000200302303333223 102003122313030030321303301230323233133131102222022320323333003 231330211020303303012030032103010100200202231111311013010000330 213110233020101101032010012301030300200202213333133031030000110 230331200121313313102131132013101011211212230000300103101111331 203001233121010010132101102310131311211212203333033130131111001 210113200323131131302313312031303033233232210000100301303333113 201003211323030030312303302130313133233232201111011310313333003 321220311030202202013020023102010100300303321111211012010000220 312110322030101101023010013201020200300303312222122021020000110 320221300131212212103121123012101011311313320000200102101111221 302001322131010010123101103210121211311313302222022120121111001 310112300232121121203212213021202022322323310000100201202222112 301002311232020020213202203120212122322323301111011210212222002                                    Na Tabela 4.G.3) (A.3.1.G.1) (A.G.0) (A.1.0) (A.3.T)=(2.1) (A.T)=(3.3.T)=(3. Observe o a o que quanto maior for o valor de k maior ser´ o n´ mero de palavras-c´digos.0.C.3) (A.G.5: Rela¸˜o entre as linhas da matriz P e as 24 permuta¸˜es.T)=(1.T)=(0.1) (A.0.2.T)=(1.T)=(0.T)=(1.C.T)=(0.2) (A.T)=(2.C. ca co Passo 12 .3.C.G.1.3. cada uma das 24 permuta¸˜es foi definida como um caso.0.3.T)=(0.C.C.2) (A.C.G.2) (A.G.3) (A. onde k = n−r.G.T)=(2.T)=(2.T)=(3.T)=(1.T)=(2.0.G.2) (A.G.0.2.0.G.1.C.G.1.T)=(1.C.3) (A.1) (A.C.C.1.

Voltar para o Passo 3 e escolher outro polinˆmio primitivo o Passo 16 . considerando as 3 outras possibilidades de nucleot´ ıdeos em cada posi¸˜o na sequˆncia para cada permuta¸˜o. o a Passo 14 . onde v ´ a poss´ palavra-c´digo e H ´ a transposta da matriz verifica¸˜o e ıvel o e ca de paridade determinada no Passo 10. 2. T }. Assim.Cap´ ıtulo 4. at´ que se esgote todas as possibilidades de polinˆmios geradores: e o Neste passo. e o  032331022101313313120331130213121211011010032222322123121111331 012113022303131131320113310231323233033030012222122321323333113 123220133010202202031220021302030300100101123333233032030000220 103002133212020020231002201320232322122121103333033230232222002 230331200121313313102331132013101011211212230000300103101111331 210113200323131131302113312031303033233232210000100301303333113 321220311030202202013220023102010100300303321111211012010000220 301002311232020020213002203120212122322323301111011210212222002     R=             Passo 13 . c Neste passo. 3}. G. Z4 = {0. 1. todas as palavras-c´digo armazenadas est˜o rotuladas na forma do alfabeto o a do c´digo. determinamos outro valor da distˆncia m´ a ınima d = 5 e utilizamos o mesmo procedimento para calcular o polinˆmio gerador relativo a esta distˆncia. atrav´s de todos os polinˆmios e o geradores relativos ` distˆncia m´ a a ınima 3 ≤ d ≤ 63.Repetir os Passos 4 ` 14 at´ esgotar todos os polinˆmios primitivos do Passo a e o 3 Passo 17 . ca e ca Como resultado obtemos a matriz R onde cada linha ´ uma palavra-c´digo encontrada. e armazena as respostas.Comparar todas as palavras-c´digo armazenadas com a sequˆncia de DNA o e original e mostrar onde ocorreram as diferen¸as. para determinarmos co e o se cada uma dessas 24 possibilidades ´ de fato uma palavra-c´digo usamos a rela¸˜o e o ca T T v. e ser˜o convertidas em nucleot´ o a ıdeos usando o rotulamento do c´digo gen´tico N = {A. consideramos que a sequˆncia de DNA sob a aplica¸˜o de cada uma e ca das 24 permuta¸˜es do Passo 11 ´ uma palavra-c´digo. o algoritmo determina todas as palavras-c´digo encontradas com nenhuo ma diferen¸a ou apenas uma diferen¸a de nucleot´ c c ıdeo.Repetir os Passos 8 ao Passo 12 para o polinˆmio gerador obtido no Passo o 13. C. Ainda neste passo analisamos as sequˆncias e de DNA diferindo em um nucleot´ ıdeo. 92 . Gera¸˜o das Sequˆncias de Direcionamento ca e direcionamento. Fim.Voltar para o Passo 7 e determinar outro polinˆmio gerador o Neste passo. Passo 15 .H = 0. Ap´s o rotulamento todas as palavras-c´digo s˜o o e o o a comparadas com a sequˆncia de direcionamento original mostrando onde os nucleot´ e ıdeos diferem.

2.3.2.Cap´ ıtulo 4.G.T) Oaa: Ont: Olb: Glb: Gnt: Gaa: M ATG 103 103 ATG M F TTC 002 002 TTC F R AGG 133 133 AGG R H CAC 212 212 CAC H S TCT 020 020 TCT S S TCT 020 020 TCT S R CGA 231 231 CGA R L CTC 202 002 TTC F L CTA 201 201 CTA L A GCT 320 320 GCT A R CGC 232 232 CGC R A GCC 322 322 GCC A T ACC 122 122 ACC T T ACA 121 121 ACA T M ATG 103 103 ATG M G GGG 333 333 GGG G W TGG 033 033 TGG W R CGT 230 230 CGT R R CGC 232 232 CGC R P CCC 222 222 CCC P F TTC 002 002 TTC F Caso 15 .(2.2)=(A.T) Oaa: Ont: Olb: Glb: Gnt: Gaa: M ATG 210 210 ATG M F TTC 113 113 TTC F R AGG 200 200 AGG R H CAC 323 323 CAC H S TCT 131 131 TCT S S TCT 131 131 TCT S R CGA 302 302 CGA R L CTC 313 113 TTC F L CTA 312 312 CTA L A GCT 031 031 GCT A R CGC 303 303 CGC R A GCC 033 033 GCC A T ACC 233 233 ACC T T ACA 232 232 ACA T M ATG 210 210 ATG M G GGG 000 000 GGG G W TGG 100 100 TGG W R CGT 301 301 CGT R R CGC 303 303 CGC R P CCC 333 333 CCC P F TTC 113 113 TTC F Caso 19 . 19 e 24 referem-se `s permuta¸˜es associadas ao rotulamento B ver Figura 4. Gera¸˜o das Sequˆncias de Direcionamento ca e Resultados: Caso 1 Oaa: Ont: Olb: Glb: Gnt: Gaa: M ATG 032 032 ATG M .G.C.3.C.(3.2. 8. 5.3.(2.1.0. e 4. Portanto.C. Sendo assim. 17.C.3)=(A. 15.C.0)=(A.T) Oaa: Ont: Olb: Glb: Gnt: Gaa: M ATG 230 230 ATG M F TTC 331 331 TTC F R AGG 200 200 AGG R H CAC 121 121 CAC H S TCT 313 313 TCT S S TCT 313 313 TCT S R CGA 102 102 CGA R L CTC 131 331 TTC F L CTA 132 132 CTA L A GCT 013 013 GCT A R CGC 101 101 CGC R A GCC 011 011 GCC A T ACC 211 211 ACC T T ACA 212 212 ACA T M ATG 230 230 ATG M G GGG 000 000 GGG G W TGG 300 300 TGG W R CGT 103 103 CGT R R CGC 101 101 CGC R P CCC 111 111 CCC P F TTC 331 331 TTC F Caso 17 .(1. 10.T) F TTC 113 113 TTC F R AGG 022 022 AGG R H CAC 303 303 CAC H S TCT 131 131 TCT S S TCT 131 131 TCT S R CGA 320 320 CGA R L CTC 313 113 TTC F L CTA 310 310 CTA L A GCT 231 231 GCT A R CGC 323 323 CGC R A GCC 233 233 GCC A T ACC 033 033 ACC T T ACA 030 030 ACA T M ATG 012 012 ATG M G GGG 222 222 GGG G W TGG 122 122 TGG W R CGT 321 321 CGT R R CGC 323 323 CGC R P CCC 333 333 CCC P F TTC 113 113 TTC F Caso 8 Oaa: Ont: Olb: Glb: Gnt: Gaa: M ATG 123 123 ATG M .2 Resultados da Codifica¸˜o ca Nesta se¸˜o.1.G.0)=(A.(1.2.G.1.1)=(A.3.1.G.(3.C.T) Oaa: Ont: Olb: Glb: Gnt: Gaa: M ATG 321 321 ATG M F TTC 220 220 TTC F R AGG 311 311 AGG R H CAC 030 030 CAC H S TCT 202 202 TCT S S TCT 202 202 TCT S R CGA 013 013 CGA R L CTC 020 220 TTC F L CTA 023 023 CTA L A GCT 102 102 GCT A R CGC 010 010 CGC R A GCC 100 100 GCC A T ACC 300 300 ACC T T ACA 303 303 ACA T M ATG 321 321 ATG M G GGG 111 111 GGG G W TGG 211 211 TGG W R CGT 012 012 CGT R R CGC 010 010 CGC R P CCC 000 000 CCC P F TTC 220 220 TTC F Caso 24 . e 93 .0.T) Oaa: Ont: Olb: Glb: Gnt: Gaa: M ATG 301 301 ATG M F TTC 002 002 TTC F R AGG 311 311 AGG R H CAC 232 232 CAC H S TCT 020 020 TCT S S TCT 020 020 TCT S R CGA 213 213 CGA R L CTC 202 002 TTC F L CTA 203 203 CTA L A GCT 120 120 GCT A R CGC 212 212 CGC R A GCC 122 122 GCC A T ACC 322 322 ACC T T ACA 323 323 ACA T M ATG 301 301 ATG M G GGG 111 111 GGG G W TGG 011 011 TGG W R CGT 210 210 CGT R R CGC 212 212 CGC R P CCC 222 222 CCC P F TTC 002 002 TTC F Nos resultados apresentados neste passo. apresentamos nas o subse¸˜es seguintes as consequˆncias relacionadas a existˆncia de c´digos corretores de erros co e e o em sequˆncias de direcionamento.2)=(A.0.1.3)=(A. temos que os casos 1.(0.G.C. a sequˆncia a co e em quest˜o ´ reproduzida pelo c´digo Z2 × Z2 -linear classificando-a matematicamente como a e o uma sequˆncia linear.T) F TTC 220 220 TTC F R AGG 133 133 AGG R H CAC 010 010 CAC H S TCT 202 202 TCT S S TCT 202 202 TCT S R CGA 031 031 CGA R L CTC 020 220 TTC F L CTA 021 021 CTA L A GCT 302 302 GCT A R CGC 030 030 CGC R A GCC 300 300 GCC A T ACC 100 100 ACC T T ACA 101 101 ACA T M ATG 123 123 ATG M G GGG 333 333 GGG G W TGG 233 233 TGG W R CGT 032 032 CGT R R CGC 030 030 CGC R P CCC 000 000 CCC P F TTC 220 220 TTC F Caso 10 .(0. mostramos que algumas sequˆncias de DNA possuem estrutura matem´tica ca e a e podem ser reproduzidas por c´digos corretores de erros.G.1)=(A.0.C.G.T) F TTC 331 331 TTC F R AGG 022 022 AGG R H CAC 101 101 CAC H S TCT 313 313 TCT S S TCT 313 313 TCT S R CGA 120 120 CGA R L CTC 131 331 TTC F L CTA 130 130 CTA L A GCT 213 213 GCT A R CGC 121 121 CGC R A GCC 211 211 GCC A T ACC 011 011 ACC T T ACA 010 010 ACA T M ATG 032 032 ATG M G GGG 222 222 GGG G W TGG 322 322 TGG W R CGT 123 123 CGT R R CGC 121 121 CGC R P CCC 111 111 CCC P F TTC 331 331 TTC F Caso 5 Oaa: Ont: Olb: Glb: Gnt: Gaa: M ATG 012 012 ATG M .

and timina (T) ou uracila (U). satisfazendo as opera¸˜es de soma e produto m´dulo 4. correspondendo as bases adenina (A). ıvel a e A representa¸˜o bin´ria associada a cada um desses r´tulos ´ 0 − 00. a associa¸˜o de complementaridade dos nucleot´ ca ıdeos A . Este n˜o ´ o ca ca e a e caso para c´digos corretores de erros genˆmicos. (ver exemplo no Passo 17 da Se¸˜o 4.2. em cada uma dessas 8 palavras-c´digo temos como resultado 8 palavras-c´digo iguais em termos de o o nucleot´ ıdeos e amino´cidos. No presente estudo todas o as sequˆncias de direcionamento identificadas como uma palavra-c´digo de um c´digo Ge o o linear est˜o relacionadas a um polinˆmio gerador/primitivo e um determinado rotulamento. Esses rotulamentos est˜o relacionados `s formas geom´tricas que produzem a a e um diferente n´ de n˜o-linearidade para as sequˆncias reproduzidas. o alfabeto de um c´digo corretor de erros ´ frequentemente estabelecido a priori o e dentre um conjunto de possibilidades de tal forma que tenha uma estrutura matem´tica bem a definida para facilitar o processo de codifica¸˜o e decodifica¸˜o das sequˆncias. 3} a o e para a estrutura de anel. o alfabeto 4-´rio do c´digo de bloco linear ´ denotado por Z4 = {0. Entretanto. 1 − 10. procedemos da seguinte maneira: e toda sequˆncia de DNA ´ rotulada por cada uma das 24 permuta¸˜es entre N → Z4 . 4. co o Como o mapeamento entre N → Z4 ´ desconhecido. citosina (C). onde os pr´prios alfabetos e suas poss´ o o o ıveis estruturas matem´ticas j´ est˜o determinados nas sequˆncias de DNA. C. a reprodu¸˜o das sequˆncias de direcionamento a ca e mostrou uma rela¸˜o de dependˆncia na existˆncia de c´digos corretores de erros (e seus ca e e o rotulamentos associados) com alguns dos polinˆmios primitivos. Figura 4. Obe e co servamos que para cada sequˆncia reproduzida pelo c´digo existem oito palavras-c´digo core o o respondentes a 8 permuta¸˜es. e co Classificamos o mapeamento utilizado no codificador. 2. Similarmente. 3 − 01. 2 − 11. 1. G. Z4 → N. Empregando o rotulamento rec´ co ıproco.1. ca a o e Todavia.2 Rotulamento das sequˆncias de DNA e Em geral. a o sugerindo a existˆncia de uma propriedade geom´trica associada com a sequˆncia de diree e e cionamento.1 Dependˆncia entre os c´digos corretores de erros e os polie o nˆmios primitivos o Sob o ponto de vista alg´brico em sistemas de transmiss˜o digital a constru¸˜o de um e a ca c´digo corretor de erros sobre anel ou corpo n˜o depende do polinˆmio primitivo com o grau o a o r usado na extens˜o de Galois. T /U}. B e C. em termos de rotulamentos A. Este fato resulta em a ca trˆs conjuntos contendo oito permuta¸˜es cada um.2.1). usamos a seguinte analogia: o alfabeto 4-´rio na sa´ a ıda da fonte est´ relacionado ao conjunto de nucleot´ a ıdeos denotado por N = {A.T e C .G com os r´tulos o 94 . a a a e Para contornar este problema.Cap´ ıtulo 4. guanina (G). Gera¸˜o das Sequˆncias de Direcionamento ca e 4.

Cap´ ıtulo 4. Gera¸˜o das Sequˆncias de Direcionamento ca e
Mapeamento
A C G T 0 1 3 2 A C G T 0 3 1 2 A C G T 1 0 2 3 A C G T 1 2 0 3 A C G T 2 1 3 0 A C G T 2 3 1 0 A C G T 3 0 2 1 A C G T 3 2 0 1 A C G T 0 1 2 3 A C G T 0 3 2 1 A C G T 1 0 3 2 A C G T 1 2 3 0 A C G T 2 1 0 3 A C G T 2 3 0 1 A C G T 3 0 1 2 A C G T 3 2 1 0 A C G T 0 2 1 3 A C G T 0 2 3 1 A C G T 1 3 0 2 A C G T 1 3 2 0 A C G T 2 0 1 3 A C G T 2 0 3 1 A C G T 3 1 0 2 A C G T 3 1 2 0

A C G T 0 1 3 2 A C G T 0 3 1 2 A C G T 1 0 2 3 A C G T 1 2 0 3

´ o que os diferenciam. No caso do r´tulo A, vemos que qualquer um dos nucleot´ e o ıdeos para alcan¸ar o seu complementar necessita caminhar duas arestas, enquanto que nos dois c rotulamentos restantes basta caminhar uma aresta somente. Todas as permuta¸˜es associadas co ao r´tulo A caracterizam o mapeamento como Z4 - linear; as permuta¸˜es associadas ao r´tulo o co o B caracterizam o mapeamento como Z2 × Z2 -linear; enquanto que as permuta¸˜es associadas co ao r´tulo C caracterizam o mapeamento como Klein-linear. o O rotulamento A classifica as sequˆncias como n˜o-lineares (Z4 - linear), enquanto que e a os rotulamentos B e C as classificam como lineares (Z2 × Z2 -linear e Klein-linear). Esse mapeamento identifica as melhores associa¸˜es entre cada s´ co ımbolo no conjunto N e o seu correspondente s´ ımbolo no conjunto Z4 e vice-versa.

}
Rotulamento A
A C G T 2 1 3 0 A C G T 2 3 1 0 A C G T 3 0 2 1 A C G T 3 2 0 1

Rotulamento B
A C G T 0 1 2 3 A C G T 0 3 2 1 A C G T 1 0 3 2 A C G T 1 2 3 0 A C G T 2 1 0 3 A C G T 2 3 0 1 A C G T 3 0 1 2 A C G T 3 2 1 0

Rotulamento C
A C G T 0 2 1 3 A C G T 0 2 3 1 A C G T 1 3 0 2 A C G T 1 3 2 0 A C G T 2 0 1 3 A C G T 2 0 3 1 A C G T 3 1 0 2 A C G T 3 1 2 0

Forma Geométrica
C=1

Forma Geométrica
C=1

Forma Geométrica
G=1

T=2

A=0

G=2

A=0

C=2

A=0

G=3

T=3

T=3

Figura 4.1: Rotulamentos A, B e C.

4.2.3

Rela¸˜o matem´tica entre as fitas codante e n˜o codante ca a a

Diante da reprodu¸˜o de uma determinada sequˆncia de DNA atrav´s de c´digos correca e e o tores de erros, naturalmente surgem alguns questionamentos sobre a rela¸˜o entre as duas ca fitas do DNA, fita codante e fita n˜o codante. Na biologia conclui-se que na dupla h´lice as a e duas fitas do DNA est˜o em dire¸˜es opostas, isto significa que s˜o antiparalelas. Uma vez a co a 95

Cap´ ıtulo 4. Gera¸˜o das Sequˆncias de Direcionamento ca e que ´ determinada a estrutura matem´tica de uma sequˆncia espec´ e a e ıfica do DNA ´ poss´ e ıvel caracterizarmos a dupla h´lice em um contexto matem´tico? e a Para responder a esta pergunta, usamos o algoritmo da Se¸˜o 4.1 com o objetivo de ca verificar se os c´digos reproduzem as fitas complementares das sequˆncias de direcionamento o e reproduzidas. Durante o processo consideramos as duas fitas sendo lidas no sentido paralelo (da esquerda para a direita) e as duas fitas no sentido antiparalelo como na biologia, ou seja, as fitas sendo lidas sempre no sentido 5’ para 3’. A Figura 4.2 mostra a rela¸˜o matem´tica entre as duas fitas no sentido paralelo. As ca a duas fitas s˜o reproduzidas pelo c´digo Z2 × Z2 -linear atrav´s do mesmo polinˆmio gerador a o e o g(x) e do mesmo rotulamento.
Ipomoea batatas Sequência do banco de dados NCBI
5'- ATG 032 301 3'- TAC TTC 331 002 AAG AGG 022 311 TCC CAC 101 232 GTG TCT 313 020 AGA TCT 313 020 AGA CGA 120 213 GCT CTC 131 202 GAG CTA 130 203 GAT GCT 213 120 CGA CGC 121 212 GCG GCC 211 122 CGG ACC 011 322 TGG ACA 010 323 TGT ATG 032 301 TAC GGG 222 111 CCC TGG 322 011 ACC CGT 123 210 GCA CGC 121 212 GCG CCC 111 222 GGG TTC 3' 331 002 AAG 5'

Ipomoea batatas Sequência reproduzida pelo código BCH sobre anel Código
6 5 2

X
3

2 2

linear - Dupla fita do DNA
6 5 3 2

p(x) = x +x +x +x +1 g(x) = x +3x +x +x +2x+1
5'- ATG 032 301 3'- TAC TTC 331 002 AAG AGG 022 311 TCC CAC 101 232 GTG TCT 313 020 AGA TCT 313 020 AGA CGA 120 213 GCT TTC 331 002 AAG CTA 130 203 GAT GCT 213 120 CGA CGC 121 212 GCG GCC 211 122 CGG ACC 011 322 TGG ACA 010 323 TGT ATG 032 301 TAC GGG 222 111 CCC TGG 322 011 ACC CGT 123 210 GCA CGC 121 212 GCG CCC 111 222 GGG TTC 331 002 AAG 3'

5'

Figura 4.2: Rela¸˜o entre a dupla fita do DNA. O c´digo faz a leitura das palavras-c´digos ca o o no sentido da esquerda para ` direita. A cor vermelha indica onde ocorreu a diferen¸a de a c nucleot´ ıdeos. A Figura 4.3 mostra a rela¸˜o matem´tica entre as duas fitas no sentido antiparalelo. As ca a duas fitas s˜o reproduzidas pelo c´digo Z2 × Z2 -linear da seguinte maneira: Se um polinˆmio a o o gerador g(x) reproduz a fita codante em um determinado rotulamento, ent˜o a sua fita a complementar ser´ reproduzida, somente pelo polinˆmio gerador rec´ a o ıproco g (x) do polinˆmio o gerador atrav´s do mesmo rotulamento. e

4.2.4

Alto fluxo de informa¸˜o - baixa redundˆncia ca a

Outra propriedade relevante na reprodu¸˜o de sequˆncias de direcionamento por c´dica e o gos corretores de erros est´ relacionada ao fato de que entre todos os c´digos com distˆncia a o a m´ ınima d > 2 mostrados na Tabela 4.6 somente alguns dos c´digos com d = 3 foram capazes o 96

Cap´ ıtulo 4. Gera¸˜o das Sequˆncias de Direcionamento ca e
Ipomoea batatas - Sequência do banco de dados NCBI
5'- ATG 032 301 3'- TAC TTC 331 002 AAG AGG 022 311 TCC CAC 101 232 GTG TCT 313 020 AGA TCT 313 020 AGA CGA 120 213 GCT CTC 131 202 GAG CTA 130 203 GAT GCT 213 120 CGA CGC 121 212 GCG GCC 211 122 CGG ACC 011 322 TGG ACA 010 323 TGT ATG 032 301 TAC GGG 222 111 CCC TGG 322 011 ACC CGT 123 210 GCA CGC 121 212 GCG CCC 111 222 GGG TTC 3' 331 002 AAG 5'

Ipomoea batatas - Sequência reproduzida pelo código BCH sobre anel Código
2

X

2

linear - Fita codante - rotulamento B: (A,C,G,T)=(0,1,2,3)

p(x) = x6+x5+x3+x2+1 - g(x) = x6+3x5+x3+x2+2x+1
5'- ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331 3'

Ipomoea batatas - Sequência reproduzida pelo código BCH sobre anel Código
2

X

2

linear - Fita não codante - rotulamento B: (A,C,G,T)=(0,1,2,3) p(x) = x6+x4+x3+x+1 - g(x) = x6+2x5+x4+x3+3x+1

5'- GAA GGG GCG ACG CCA CCC CAT TGT GGT GGC GCG AGC TAG GAA TCG AGA AGA GTG CCT GAA CAT 200 222 212 012 110 111 103 323 223 221 212 021 302 200 312 020 020 232 113 200 103

3'

Figura 4.3: Rela¸˜o entre as fitas codante e n˜o codante. O c´digo faz a leitura das palavrasca a o c´digos no sentido da esquerda para ` direita. A cor vermelha indica onde ocorreu a diferen¸a o a c de nucleot´ ıdeos.

de reproduzir as correspondentes sequˆncias de direcionamento. Esse fato implica que o grau e do polinˆmio primitivo r e gerador n − k sejam iguais. Como consequˆncia, a redundˆncia o e a est´ associada com o grau desses polinˆmios. Ent˜o, uma pequena redundˆncia implica em a o a a um c´digo de taxa alta, bem como em uma alta entropia (fluxo de informa¸˜o alto). o ca

4.2.5

Classifica¸˜o das sequˆncias de direcionamento sob o ponto ca e de vista matem´tico a

Todas as sequˆncias de DNA que foram reproduzidas pelos c´digos diferenciam em um e o nucleot´ ıdeo das sequˆncias encontradas no banco de dados NCBI. Em um contexto biol´gico, e o esta diferen¸a de um nucleot´ c ıdeo ´ conhecida como polimorfismo de um nucleot´ e ıdeo (SNP “single nucleotide polymorphism”). Ent˜o, uma poss´ interpreta¸˜o ´ que a palavra-c´digo a ıvel ca e o gerada pelos c´digos Z4 -linear, Z2 × Z2 -linear e Klein-linear s˜o SNP’s das sequˆncias do o a e NCBI, ou vice-versa. Os resultados permitem uma nova abordagem para a classifica¸˜o das sequˆncias de direca e cionamento sob um ponto de vista matem´tico. As sequˆncias de direcionamento que foram a e reproduzidas pelo c´digo Z4 -linear (c´digo BCH sobre anel e rotulamento A) s˜o classifio o a 97

15) C(63. 53) C(63. SD18 e SD20 as trocas a a e de amino´cidos ocorreram dentro da mesma classe hidrof´bica ou dentro da mesma classe a o hidrof´ ılica. 18. 41) C(63. 27) C(63. que as sequˆncias reproduzidas pelos c´digos e a e o Z2 × Z2 -linear e Klein-linear (c´digos BCH sobre anel rotulamento B e rotulamento C. 18. e Mostramos nesta subse¸˜o todas as sequˆncias de direcionamento que foram reproduzidas ca e pelos c´digos. reso pectivamente) s˜o classificadas como sequˆncias lineares. 13) C(63. Os c´digos Z2 × Z2 -linear reproduziram as sequˆncias SD02. bem como as suas fitas complementares considerando o sentido 5’ para 3’ por o ser o conceito usado na biologia. 39. 57) C(63. 33) C(63. 1. 23) C(63. 9) C(63. k. 30. 1. Nas e a a sequˆncias SD01 e SD04 ocorreram muta¸˜es silenciosas. SD03. 29) C(63. 7. 45) C(63. Gera¸˜o das Sequˆncias de Direcionamento ca e C(n. 61) C(63. Enquanto que as co o o suas fitas complementares possuem as informa¸˜es sobre o polinˆmio gerador rec´ co o ıproco g (x) e o polinˆmio primitivo rec´ o ıproco p (x). Nas sequˆncias SD03. d) C(63. pois a mudan¸a de nucleot´ e co c ıdeo n˜o acarretou na troca de amino´cidos. 10. 55) C(63.6: C´digos BCH sobre GR(4. 17) C(63. 1. cadas como sequˆncias n˜o-lineares. 57. 1. Enquanto. 1. 1. SD08. 3) p1 (x) p2 (x) x p3 (x) x p4 (x) p5 (x) x p6 (x) x Tabela 4. 21) C(63. 1. 45. 49) C(63. 31) C(63. 1. 63) C(63. SD04. p4 (x) = x6 +x4 +x3 +x+1. SD13 e SD20 e claso e 98 . 16. Polinˆmios primitivos da extens˜o r = 6: p1 (x) = o o a 6 6 5 2 6 5 3 2 x +x+1. p5 (x) = x6 + x5 + x4 + x + 1 e p6 (x) = x6 + x5 + 1. 7) C(63. 1. SD18 e SD20 estas sequˆncias s˜o classificadas como n˜o-lineares. 36. 24. 37) C(63. 43) C(63. 1. Observe que cada sequˆncia de direcionamento cont´m as e e informa¸˜es sobre o polinˆmio gerador g(x) e o polinˆmio primitivo p(x). 25) C(63. 51. 1. As sequˆncias de direcionamento que foram reproduzidas pelo c´digo Z4 -linear foram as e o SD01. 1. 51) C(63. 1. 47) C(63. 1. 1. 35) C(63. 5) C(63. 7. 59) C(63. 10. 19) C(63. p3 (x) = x +x +x +x +1.Cap´ ıtulo 4. 39) C(63. 18. p2 (x) = x +x +x +x+1. 1. elas herdam um grau de prote¸˜o maior e ca contra poss´ ıveis interferˆncias. 11) C(63. Apesar das sequˆncias n˜o-lineares a e e a serem mais complexas que as sequˆncias lineares. 6).

SD18 e SD20 (rotulamento ca e B) ocorreu o processo de transi¸˜o. com exce¸˜o da sequˆncia SD02 onde a troca ocorreu dentro da a ca e mesma classe. Apesar dos c´digos em considera¸˜o fornecerem prote¸˜o igual para cada e o ca ca posi¸˜o no c´don. isto ´. Na SD06 a troca de e a e amino´cidos ocorreu dentro da mesma classe hidrof´bica. enquanto que na SD17 ocorreu a a o troca de um amino´cido base para um amino´cido hidrof´ a a ılico. cada uma das posi¸˜es no c´don foram consideradas com probabica o e co o lidades iguais de erro. Gera¸˜o das Sequˆncias de Direcionamento ca e sificam estas sequˆncias como sequˆncias lineares. as trocas de nucleot´ ıdeos ocorreram sempre na primeira e na terceira posi¸˜o dos c´dons. As sequˆncias de direcionamento SD06 e SD17 foram reproduzidas pelo c´digo Kleine o linear. Estas sequˆncias s˜o classificadas como sequˆncias lineares. SD02. De uma forma geral. 99 . Nas sequˆncias SD01. os quais sugerem fortemente a existˆncia de c´digos concatenados no e o genoma (“nested code”). Este fato infere que a segunda posi¸˜o foi mais protegida contra os ca o ca erros durante a reprodu¸˜o das sequˆncias pelo c´digo corretor de erros. SD08. Em todas as sequˆncias ocorreram trocas e e e de classes de amino´cidos. a O processo de transi¸˜o (troca de uma purina/pirimidina por outra purina/pirimidina) e ca o processo de transvers˜o (troca de uma purina por uma pirimidina) ocorreram praticamente a na mesma propor¸˜o. isso n˜o ´ uma restri¸˜o j´ que uma classe de c´digos corretores de erros que possuem a e ca a o comprimentos vari´veis pode ser usada. o que faz sentido ca e o biologicamente. SD04.Cap´ ıtulo 4. podemos relatar alguns aspectos biol´gicos observados na reprodu¸˜o o ca dessas sequˆncias. Os resultados apresentados neste cap´ a ıtulo mostram a existˆncia de c´digos corretores de erros associados com sequˆncias de DNA (sequˆncias e o e e de direcionamento). uma vez que a troca de nucleot´ ıdeo na segunda posi¸˜o implica em uma ca troca de amino´cido. ca Embora consideramos neste estudo sequˆncias de direcionamento com comprimento n = e pr − 1.

T) Ont: GAA GCT GCG GCG GAG AAG CGA CTG CTT CGC CGA GGC GGA GGA TCG GAC AAG CGC GGA TCT GAA Olb: 300 312 313 313 303 003 130 123 122 131 130 331 330 330 213 301 003 131 330 212 300 Glb: 000 312 313 313 303 003 130 123 122 131 130 331 330 330 213 301 003 131 330 212 300 Gnt: AAA GCT GCG GCG GAG AAG CGA CTG CTT CGC CGA GGC GGA GGA TCG GAC AAG CGC GGA TCT GAA SD03 .G.3.3.3.Cap´ ıtulo 4.2) .3.1. n ap u s - Mitochondrial - Malate dehydrogenase* - GI: 899225 Fita codante: p(x)= x6+x5+x3+x2+1 g(x)= x6+3x5+x3+x2+2x+1 Rotulamento A: (0.1.T) Oaa: F R S A L V R S S A S A K Q S L L R R S F Ont: TTC AGA TCC GCG CTT GTC CGA TCC TCC GCC TCG GCG AAG CAG TCG CTT CTC CGC CGC AGC TTC Olb: 221 030 211 313 122 321 130 211 211 311 213 313 003 103 213 122 121 131 131 031 221 Glb: 221 030 211 313 122 321 130 211 211 311 213 313 003 103 213 122 121 131 131 031 222 Gnt: TTC AGA TCC GCG CTT GTC CGA TCC TCC GCC TCG GCG AAG CAG TCG CTT CTC CGC CGC AGC TTT Gaa: F R S A L V R S S A S A K Q S L L R R S F Fita complementar: p(x)’= x6+x4+x3+x+1 - g(x)’= x6+2x5+x4+x3+3x+1 Rotulamento A: (0.G.T) Ont: TCC GGC CAC CGT AGC CAC TGT GTA TGA TAA AAG TAT GAT GGT TAT GCT AAG TCT GAT CTT CAT Olb: 211 331 101 132 031 101 232 320 230 200 003 202 302 332 202 312 003 212 302 122 102 Glb: 211 331 101 132 031 101 232 320 230 200 003 202 302 332 203 312 003 212 302 122 102 Gnt: TCC GGC CAC CGT AGC CAC TGT GTA TGA TAA AAG TAT GAT GGT TAG GCT AAG TCT GAT CTT CAT 100 .C.2) .2) .A.C.C.G.2) .(A.C. th alian a – Mitochondrial – Pathogenesis related protein 4* .1.G.1.(A.(A.GI: 186509758 Fita codante: p(x)= x6+x5+x3+x2+1 g(x)= x6+3x5+x3+x2+2x+1 Rotulamento A: (0.(A.T) Oaa: M K I R L S I T I I L L S Y T V A T V A G Ont: ATG AAG ATC AGA CTT AGC ATA ACC ATC ATA CTT TTA TCA TAC ACA GTG GCT ACG GTG GCC GGA Olb: 023 003 021 030 122 031 020 011 021 020 122 220 210 201 010 323 312 013 323 311 330 Glb: 023 003 021 030 122 031 120 011 021 020 122 220 210 201 010 323 312 013 323 311 330 Gnt: ATG AAG ATC AGA CTT AGC CTA ACC ATC ATA CTT TTA TCA TAC ACA GTG GCT ACG GTG GCC GGA Gaa: M K I R L S L T I I L L S Y T V A T V A G Fita complementar: p(x)’= x6+x4+x3+x+1 - g(x)’= x6+2x5+x4+x3+3x+1 Rotulamento A: (0.B . Gera¸˜o das Sequˆncias de Direcionamento ca e SD01 .

Gera¸˜o das Sequˆncias de Direcionamento ca e SD04 .G.2) .T) Ont: TGC ATT AGC TCC TGC GGC TAT GAC ATA GAG GAC CAG AGC AAA TAA AAG TGT ACT TAG CTT TCC Olb: 231 022 031 211 231 331 202 301 020 303 301 103 031 000 200 003 232 012 203 122 211 Glb: 231 022 031 211 231 331 202 301 020 303 301 103 331 000 200 003 232 012 203 122 211 Gnt: TGC ATT AGC TCC TGC GGC TAT GAC ATA GAG GAC CAG GGC AAA TAA AAG TGT ACT TAG CTT TCC SD18 .2) .1.G.3.2) .(A.(A.(A.G.M m arte n s ii – RE – anti-epilepsy peptide precursor – GI: 16740522 Fita codante: p(x)= x6+x5+x4+x+1 g(x)= x6+x5+x4+2x2+3x+1 Rotulamento A: (0.RE – Pathogen and wound-inducible antifungal protein CBP20* .C.C.1.3.(A. tab ac u m .C.T) Ont: AGC ATT AAC TAA GCC ATC AAT TAG CAT TGA AGC AGA GAT AAC TAG TAA AAG AAA TAG TTT CAT Olb: 031 022 001 200 311 021 002 203 102 230 031 030 302 001 203 200 003 000 203 222 102 Glb: 031 022 001 200 311 021 002 203 202 230 031 030 302 001 203 200 003 000 203 222 102 Gnt: AGC ATT AAC TAA GCC ATC AAT TAG TAT TGA AGC AGA GAT AAC TAG TAA AAG AAA TAG TTT CAT 101 .Cap´ ıtulo 4.T) Oaa: G K L S T L L F A L V L Y V I A A G A N A Ont: GGA AAG CTA AGT ACA CTT TTA TTT GCT CTG GTC CTC TAT GTC ATA GCC GCA GGA GCT AAT GCA Olb: 330 003 120 032 010 122 220 222 312 123 321 121 202 321 020 311 310 330 312 002 310 Glb: 330 003 120 032 010 122 220 222 311 123 321 121 202 321 020 311 310 330 312 002 310 Gnt: GGA AAG CTA AGT ACA CTT TTA TTT GCC CTG GTC CTC TAT GTC ATA GCC GCA GGA GCT AAT GCA Gaa: G K L S T L L F A L V L Y V I A A G A N A Fita não-codante: p(x)’= x6+x4+x3+x+1 - g(x)’= x6+2x5+x4+x3+3x+1 Rotulamento A: (0.G.N.3.GI: 632733 Fita codante: p(x)= x6+x5+x3+x2+1 g(x)= x6+3x5+x3+x2+2x+1 Rotulamento A: (0.T) Oaa: M K L F L L L V I S A S M L I D G L V N A Ont: ATG AAA CTA TTT CTT TTA CTA GTT ATC TCT GCT TCA ATG CTA ATT GAT GGC TTA GTT AAT GCT Olb: 023 000 120 222 122 220 120 322 021 212 312 210 023 120 022 302 331 220 322 002 312 Glb: 023 000 120 222 122 220 120 322 021 212 312 210 020 120 022 302 331 220 322 002 312 Gnt: ATG AAA CTA TTT CTT TTA CTA GTT ATC TCT GCT TCA ATA CTA ATT GAT GGC TTA GTT AAT GCT Gaa: M K L F L L L V I S A S I L I D G L V N A Fita complementar: p(x)’= x6+x5+x2+x+1 - g(x)’= x6+3x5+2x4+x2+x+1 Rotulamento A: (0.1.1.3.C.2) .

G.(A.G.3.C.P. Gera¸˜o das Sequˆncias de Direcionamento ca e SD20 .C.T) Ont: AGC TTG AGA CAA ATG AAT GAT CGT AAG AAC AAT TAC GAG ACA AAT TAA GCA ACT AAT TTT CAT Olb: 031 223 030 100 023 002 302 132 003 001 002 201 303 010 002 200 310 012 002 222 102 Glb: 031 223 030 100 023 002 302 132 003 001 002 201 303 010 002 200 312 012 002 222 102 Gnt: AGC TTG AGA CAA ATG AAT GAT CGT AAG AAC AAT TAC GAG ACA AAT TAA GCT ACT AAT TTT CAT SD02 .T) Oaa: M K I S C L I C L V I V L T I I H L S Q A Ont: ATG AAA ATT AGT TGC TTA ATT TGT CTC GTA ATT GTT CTT ACG ATC ATT CAT TTG TCT CAA GCT Olb: 023 000 022 032 231 220 022 232 121 320 022 322 122 013 021 022 102 223 212 100 312 Glb: 023 000 022 032 031 220 022 232 121 320 022 322 122 013 021 022 102 223 212 100 312 Gnt: ATG AAA ATT AGT AGC TTA ATT TGT CTC GTA ATT GTT CTT ACG ATC ATT CAT TTG TCT CAA GCT Gaa: M K I S S L I C L V I V L T I I H L S Q A Fita complementar: p(x)’= x6+x+1 - g(x)’= x6+2x3+3x+1 Rotulamento A: (0.1.2) .3) .Cap´ ıtulo 4.(A.1.2) .(A.(A.C.G.3.2.3) . b atatas – Mitochondrial .1.C.T) Ont: GAA GGG GCG ACG CCA CCC CAT TGT GGT GGC GCG AGC TAG GAG TCG AGA AGA GTG CCT GAA CAT Olb: 200 222 212 012 110 111 103 323 223 221 212 021 302 202 312 020 020 232 113 200 103 Glb: 200 222 212 012 110 111 103 323 223 221 212 021 302 200 312 020 020 232 113 200 103 Gnt: GAA GGG GCG ACG CCA CCC CAT TGT GGT GGC GCG AGC TAG GAA TCG AGA AGA GTG CCT GAA CAT 102 .I.G.F1-ATPase delta subunit – GI: 217937 Fita codante: p(x)= x6+x5+x3+x2+1 g(x)= x6+3x5+x3+x2+2x+1 Rotulamento B: (0.1.2.d o m in u lu s – RE – Allergen Pol d 5 – GI: 51093376 Fita codante: p(x)= x6+x5+1 g(x)= x6+3x5+2x3+1 Rotulamento A: (0.T) Oaa: M F R H S S R L L A R A T T M G W R R P F Ont: ATG TTC AGG CAC TCT TCT CGA CTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC Olb: 032 331 022 101 313 313 120 131 130 213 121 211 011 010 032 222 322 123 121 111 331 Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331 Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC Gaa: M F R H S S R F L A R A T T M G W R R P F Fita complementar: p(x)’= x6+x4+x3+x+1 - g(x)’= x6+2x5+x4+x3+3x+1 Rotulamento B: (0.

G.2.1.1. th alian a – Mitochondrial – Malate dehydrogenase 1 – GI: 30695458 Fita codante: p(x)’= x6+x5+x2+x+1 g(x)’= x6+3x5+2x4+x2+x+1 Rotulamento B: (0.C.G.3) .(A.3) .A.T) Ont: GAA GTT TTT TAC GGA AGA GGT AAA GCC TCT CGT TAA TTG GAA TGG TCT GAA AAT TTT TTG CAT Olb: 200 233 333 301 220 020 223 000 211 313 123 300 332 200 322 313 200 003 333 332 103 Glb: 200 233 333 301 220 020 223 000 211 313 123 300 332 200 322 313 200 003 331 332 103 Gnt: GAA GTT TTT TAC GGA AGA GGT AAA GCC TCT CGT TAA TTG GAA TGG TCT GAA AAT TTC TTG CAT SD13 .1.Cap´ ıtulo 4. c e re v is iae – Mitochondrial – 54S ribosomal protein – GI: 45269853 Fita codante: p(x)= x6+x5+1 g(x)= x6+3x5+2x3+1 Rotulamento B: (0.C.T) Oaa: F R S M L V R S S A S A K Q A V I R R S F Ont: TTC AGA TCT ATG CTC GTC CGA TCT TCT GCC TCC GCG AAG CAG GCG GTT ATC CGC CGT AGC TTC Olb: 331 020 313 032 131 231 120 313 313 211 311 212 002 102 212 233 031 121 123 021 331 Glb: 331 020 313 032 131 231 120 313 313 211 311 212 003 102 212 233 031 121 123 021 331 Gnt: TTC AGA TCT ATG CTC GTC CGA TCT TCT GCC TCC GCG AAT CAG GCG GTT ATC CGC CGT AGC TTC Gaa: F R S M L V R S S A S A N Q A V I R R S F Fita complementar: p(x)= x6+x5+x4+x+1 - g(x)= x6+x5+x4+2x2+3x+1 Rotulamento B: (0.(A.2.1.(A.C. Gera¸˜o das Sequˆncias de Direcionamento ca e SD08 .2.2.G.C.3) .S.(A.T) Oaa: M Q K I F R P F Q L T R G F T S S V K N F Ont: ATG CAA AAA ATT TTC AGA CCA TTC CAA TTA ACG AGA GGC TTT ACC TCT TCC GTA AAA AAC TTC Olb: 032 100 000 033 331 020 110 331 100 330 012 020 221 333 011 313 311 230 000 001 331 Glb: 032 100 200 033 331 020 110 331 100 330 012 020 221 333 011 313 311 230 000 001 331 Gnt: ATG CAA GAA ATT TTC AGA CCA TTC CAA TTA ACG AGA GGC TTT ACC TCT TCC GTA AAA AAC TTC Gaa: M Q E I F R P F Q L T R G F T S S V K N F Fita complementar: p(x)’= x6+x+1 - g(x)’= x6+2x3+3x+1 Rotulamento B: (0.3) .G.T) Ont: GAA GCT ACG GCG GAT AAC CGC CTG CTT CGC GGA GGC AGA AGA TCG GAC GAG CAT AGA TCT GAA Olb: 200 213 012 212 203 001 121 132 133 121 220 221 020 020 312 201 202 103 020 313 200 Glb: 200 213 012 212 203 001 121 132 033 121 220 221 020 020 312 201 202 103 020 313 200 Gnt: GAA GCT ACG GCG GAT AAC CGC CTG ATT CGC GGA GGC AGA AGA TCG GAC GAG CAT AGA TCT GAA 103 .

T) Oaa: M K I S C L I C L V I V L T I I H L S Q A Ont: ATG AAA ATT AGT TGC TTA ATT TGT CTC GTA ATT GTT CTT ACG ATC ATT CAT TTG TCT CAA GCT Olb: 032 000 033 023 321 330 033 323 131 230 033 233 133 012 031 033 103 332 313 100 213 Glb: 032 000 033 023 321 330 033 123 131 230 033 233 133 012 031 033 103 332 313 100 213 Gnt: ATG AAA ATT AGT TGC TTA ATT CGT CTC GTA ATT GTT CTT ACG ATC ATT CAT TTG TCT CAA GCT Gaa: M K I S C L I R L V I V L T I I H L S Q A Fita complementar: p(x)’= x6+x5+x2+x+1 - g(x)’= x6+3x5+2x4+x2+x+1 Rotulamento B: (0.(A.wPR4g gene for putative vacuolar defense protein – GI: 78096542 Fita codante: p(x)= x6+x5+x4+x+1 g(x)= x6+x5+x4+2x2+3x+1 Rotulamento C: (0.(A.d o m in u lu s – RE – Allergen Pol d 5 – GI: 51093376 Fita codante: p(x)= x6+x5+x4+x+1 g(x)= x6+x5+x4+2x2+3x+1 Rotulamento B: (0.3) .2.G.2.3) .T) Oaa: M A A R L A L V A A L L C A G A T A A A A Ont: ATG GCC GCA CGC CTC GCG CTG GTG GCG GCG CTC CTG TGC GCC GGT GCC ACG GCC GCC GCG GCG Olb: 031 122 120 212 232 121 231 131 121 121 232 231 312 122 113 122 021 122 122 121 121 Glb: 031 122 120 212 232 121 231 331 121 121 232 231 312 122 113 122 021 122 122 121 121 Gnt: ATG GCC GCA CGC CTC GCG CTG TTG GCG GCG CTC CTG TGC GCC GGT GCC ACG GCC GCC GCG GCG Gaa: M A A R L A L L A A L L C A G A T A A A A Fita complementar: p(x)’= x6+x5+x2+x+1 - g(x)’= x6+3x5+2x4+x2+x+1 Rotulamento C: (0.1.P.C. s ativu m – RE .2.(A.G.3) .G.C.1.C.Cap´ ıtulo 4.T.2.G.T) Ont: AGC TTG AGA CAA ATG AAT GAT CGT AAG AAC AAT TAC GAG ACA AAT TAA GCA ACT AAT TTT CAT Olb: 021 332 020 100 032 003 203 123 002 001 003 301 202 010 003 300 210 013 003 333 103 Glb: 021 332 020 100 032 003 203 123 002 001 003 301 202 012 003 300 210 013 003 333 103 Gnt: AGC TTG AGA CAA ATG AAT GAT CGT AAG AAC AAT TAC GAG ACG AAT TAA GCA ACT AAT TTT CAT SD06 .1.1. Gera¸˜o das Sequˆncias de Direcionamento ca e SD20 .3) .C.(A.T) Ont: CGC CGC GGC GGC CGT GGC ACC GGC GCA CAG GAG CGC CGC CAC CAG CGC GAG GCG TGC GGC CAT Olb: 212 212 112 112 213 112 022 112 120 201 101 212 212 202 201 212 101 121 312 112 203 Glb: 212 212 112 112 213 112 022 112 120 201 101 212 212 200 201 212 101 121 312 112 203 Gnt: CGC CGC GGC GGC CGT GGC ACC GGC GCA CAG GAG CGC CGC CAA CAG CGC GAG GCG TGC GGC CAT 104 .

2.2.Cap´ ıtulo 4.3) .1. Gera¸˜o das Sequˆncias de Direcionamento ca e SD17 . s ap ie n s – Mitochondrial – ATPase delta-subunit – GI number 12587 Fita codante: p(x)= x6+x5+1 g(x)= x6+3x5+2x3+1 Rotulamento C: (0.G.1.(A.(A.C.T) Oaa: L P A A L L R R P G L G R L V R H A R A Y Ont: CTG CCC GCC GCG CTG CTC CGC CGC CCG GGA CTT GGC CGC CTC GTC CGC CAC GCC CGT GCC TAT Olb: 231 222 122 121 231 232 212 212 221 110 233 112 212 232 132 212 202 122 213 122 303 Glb: 231 222 122 121 231 232 212 212 221 110 233 112 212 232 132 212 201 122 213 122 303 Gnt: CTG CCC GCC GCG CTG CTC CGC CGC CCG GGA CTT GGC CGC CTC GTC CGC CAG GCC CGT GCC TAT Gaa: L P A A L L R R P G L G R L V R Q A R A Y Fita complementar: p(x)’= x6+x+1 - g(x)’= x6+2x3+3x+1 Rotulamento C: (0.G.H.T) Ont: ATA GGC ACG GGC GTG GCG GAC GAG GCG GCC AAG TCC CGG GCG GCG GAG CAG CGC GGC GGG CAG Olb: 030 112 021 112 131 121 102 101 121 122 001 322 211 121 121 101 201 212 112 111 201 Glb: 030 112 021 112 231 121 102 101 121 122 001 322 211 121 121 101 201 212 112 111 201 Gnt: ATA GGC ACG GGC CTG GCG GAC GAG GCG GCC AAG TCC CGG GCG GCG GAG CAG CGC GGC GGG CAG 105 .3) .C.

Esta recupera¸˜o torna-se trivial se a palavra recebida ´ uma palavraca e c´digo. A regra da regenera¸˜o ´tima consiste em ca ca ca o escolher a palavra recebida mais pr´xima da palavra-c´digo. podemos verificar se a quantidade de erros est´ dentro da capacidade de corre¸˜o do a ca c´digo. Este processo consiste em localizar e corrigir os poss´ ca ıveis erros cometidos durante os processos de duplica¸˜o e transcri¸˜o. 2) e e o C´lculo das fun¸˜es sim´tricas elementares: se o c´lculo das s´ a co e a ındromes for um valor diferente de zero. visto que a correspondˆncia ´ um-a-um entre as poss´ o e e ıveis mensagens e as palavrasc´digos. O primeiro passo ´ identificar se a e palavra recebida ´ uma palavra-c´digo. Ressaltamos que estas analogias podem ser estenına a ca didas para o transporte de prote´ ınas para o cloroplasto e para o ret´ ıculo endoplasm´tico. A principal fun¸˜o ca do complexo TOM ´ reconhecer as sequˆncias de direcionamento permitindo a entrada da e e prote´ precursora na mitocˆndria e translocando-a para seu respectivo subcompartimento. a O algoritmo de Berlekamp-Massey consiste basicamente de quatro passos: 1) C´lculo das a s´ ındromes: neste passo o algoritmo verifica se a sequˆncia recebida ´ uma palavra-c´digo. o modelo de decodifica¸˜o baseia-se em uma analogia entre o proca cesso de decodifica¸˜o (Berlekamp-Massey para an´is) utilizado em sistemas de comunica¸˜es ca e co e o complexo TOM que atua no transporte de prote´ ınas mitocondriais.Cap´ ıtulo 5 Regenera¸˜o de Sequˆncias de DNA ca e A fun¸˜o primordial do processo de decodifica¸˜o ´ recuperar a palavra-c´digo transmitida ca ca e o atrav´s da correspondente sequˆncia recebida de s´ e e ımbolos. 107 . 3) C´lculo dos n´ meros localizadores de erros: neste passo s˜o localizadas as posi¸˜es o a u a co onde ocorreram os erros e 4) C´lculo das magnitudes dos erros: o algoritmo indica quais s˜o a a os valores que devem ser somados nas posi¸˜es apontadas no Passo 3 para que os erros sejam co corrigidos. o Do ponto de vista biol´gico. o o No presente trabalho. O segundo passo consiste em recuperar a mensagem e o que fora codificada. o processo da decodifica¸˜o pode ser visto como o processo de o ca repara¸˜o de erros. ına o no qual a prote´ exercer´ a sua fun¸˜o.

Na Se¸˜o 5. Sabemos que alguns polimorfismos n˜o alteram ca a a fun¸˜o da prote´ ca ına.1 Algoritmo de Decodifica¸˜o ca Na Se¸˜o 4. Sendo assim. respectivamente) podem ca ca ser interpretados como um processo de verifica¸˜o se os polimorfismos ocorreram em posi¸˜es ca co que afetaram a prote´ (conte´ do de informa¸˜o) tornando-a danosa ou n˜o ao sistema de ına u ca a importa¸˜o de prote´ ca ınas. Z2 × Z2 -linear e e o Klein-linear. existem processos semelhantes aos passos do processo de decodifica¸˜o descritos anteriormente. As prote´ ca ınas Tom20. diferenciando em apenas um nucleot´ ına ıdeo da sequˆncia e 108 . ou vice-versa. e e ca 5. pois alguns ca polimorfismos s˜o importados normalmente pelo complexo TOM. desta maneira as prote´ ınas receptoras tˆm a fun¸˜o de verificar se a prote´ precursora pertence e ca ına a mitocˆndria (Passo 1). Em e um contexto biol´gico. Este algoritmo baseia-se nos resultados observados no Cap´ ıtulo 4 onde todas as sequˆncias reproduzidas pelos c´digos diferem em um nucleot´ e o ıdeo da sequˆncia do NCBI. o algoritmo ´ capaz de localizar e corrigir e e esta diferen¸a de nucleot´ c ıdeo transformando a sequˆncia gerada pelo c´digo na sequˆncia e o e do NCBI. Sendo assim. 57.“linear feedback ca shift-register”). Cada sequˆncia de informa¸˜o est´ associada a somente uma e ca e ca a sequˆncia de direcionamento (palavra-c´digo). e prote´ F1-ATPase delta subunit.3 apresentamos a reprodu¸˜o das sequˆncias de direcionamento atrav´s ca ca e e de um circuito linear de deslocamento com realimenta¸˜o linear (LFSR . 3) o a que reproduziu a sequˆncia de direcionamento do organismo Ipomoea batatas. apresentamos o c´digo Z2 × Z2 com parˆmetros (63.2 mostra os resultados da decodifica¸˜o/regenera¸˜o ca ca ca das sequˆncias de direcionamento reproduzidas pelos c´digos e suas respectivas fitas complee o mentares.Cap´ ıtulo 5. ou vice-versa.1. GI: 217937. Cap´ ca ıtulo 4. Tom22 e Tom70 funcionam como receptores para as prote´ ınas precursoras mitocondriais. nesta abordagem a reprodu¸˜o das sequˆncias de direcionamento ´ realizada ca e e pela sequˆncia de informa¸˜o. Esta etapa pode ser relacionada aos Passos 1 e 2 do algoritmo de Berlekamp-Massey. Ent˜o. esta diferen¸a de um nucleot´ o c ıdeo ´ conhecida como SNP. uma e a poss´ interpreta¸˜o ´ que a palavra-c´digo gerada pelos c´digos G-lineares s˜o SNP’s das ıvel ca e o o a sequˆncias do NCBI. Regenera¸˜o de Sequˆncias de DNA ca e Durante o processo de importa¸˜o de prote´ ca ınas mitocondriais. A Se¸˜o 5. Na Se¸˜o 5. ´ conceb´ a e ıvel que os processos de localiza¸˜o e corre¸˜o dos erros (Passos 3 e 4. bem como se poss´ o ıveis polimorfismos existentes est˜o dentro da a capacidade de corre¸˜o do erro (Passo 2). Desta forma. de alguma forma esta informa¸˜o faz parte do processo.1 apresentamos o algoritmo usado para decodificar/regenerar as sequˆncias de ca e DNA (sequˆncias de direcionamento) reproduzidas pelos c´digos Z4 -linear. a distin¸˜o entre as sequˆncias e o ca e que foram reproduzidas pelo mesmo c´digo e mesmo polinˆmio gerador/primitivo ´ realizada o o e atrav´s da sequˆncia de informa¸˜o.

co 1 1   β β2   2 β4  β  3 β6 HT =  β   .3)={230331200121313313102131132013101011211212230000300103101111331} = r Caso 17: (A.2.1) Sequˆncia NCBI = {ATGTTCAGGCACTCTTCTCGACTCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC} e Caso 01: (A. consideramos as oito permuta¸˜es (Casos: 01.T)=(0.2.2.1. Regenera¸˜o de Sequˆncias de DNA ca e encontrada no NCBI. .57.Determinar as s´ ındromes: O c´lculo do vetor s´ a ındrome S = (S0 .C.3.1. 19 e 24) entre N → Z4 relativas ao rotulamento e a sequˆncia do e NCBI. .  .T)=(3.  β 61 β 59  β 62 β 61                (5.C.3.T)=(0.C.Massey Modificado para Decodifica¸˜o de Sequˆncias de DNA ca e Passo 1.C. 15.2)={123220133010202202031020021302030300100101123333233032030000220} = r Caso 10: (A.0)={103002133212020020231202201320232322122121103333033230232222002} = r Caso 15: (A.G.3). 10.T)=(3.G.2.0.C.G.2)={321220311030202202013020023102010100300303321111211012010000220} = r Caso 24: (A.. e Algoritmo de Berlekamp. 17.C.3. rotulamento B).G.T)=(2.T)=(1.0)={301002311232020020213202203120212122322323301111011210212222002} = r 109 . 08.  .C. S2t−1 ) ´ realizado atrav´s da rela¸˜o S = e e ca r · H T .3. Considere o vetor r como sendo a palavra-c´digo transmitida com um padr˜o o a T de erro introduzido pelo canal (sequˆncia do NCBI) e H ´ a matriz verifica¸˜o de e e ca paridade. o e algoritmo de decodifica¸˜o pode ser visto biologicamente como um processo de regenera¸˜o ca ca da sequˆncia de DNA. mostramos que o algoritmo de decodifica¸˜o ´ capaz de ca ca e localizar e corrigir esta diferen¸a de nucleot´ c ıdeo entre estas sequˆncias.3)={032331022101313313120131130213121211011010032222322123121111331} = r Caso 05: (A.1)={210113200323131131302313312031303033233232210000100301303333113} = r Caso 19: (A. S1 .T)=(1. Nesta se¸˜o.G.1.Cap´ ıtulo 5.C.T)=(2.1)={012113022303131131320313310231323233033030012222122321323333113} = r Caso 08: (A. . Uma vez que a sequˆncia em quest˜o foi reproduzida pelo c´digo Z2 × Z2 e a o linear (BCH (63.0...1.0.G.G.0. Neste contexto. . Realizamos o c´lculo do vetor s´ a ındrome para cada uma das oito permuta¸˜es. co 05.G.

1.Determinar l1 : Considere m = −1 e n = 0 para que ln+1 = l1 .3) temos: σ (n+1) (Z) = σ (n) (Z) − yZ (n−m) σ (m) (Z) σ (0+1) (Z) = σ (0) (Z) − yZ (0−(−1)) σ (−1) (Z) σ (1) (Z) = σ (0) (Z) − yZ (1) σ (−1) (Z) σ (1) (Z) = 1 − yZ Para determinarmos o valor de y resolvemos a equa¸˜o dn − ydm = 0.Determinar n − ln : Do Passo 2 temos que ln = l1 = 1. onde S0 = (022020) e S1 = (222020). Portanto: 110 (5. onde n = 0 e ca m = −1. Substituindo esses valores em (5.3) (5. Passo 4. l−1 + 0 + 1) l1 = max(0. Substituindo esses valores em (5.2) . ca Passo 2.1: Tabela de Decodifica¸˜o. portanto n = 1 e n − ln = 1 − 1 = 0. a co Sendo assim.Determinar σ (1) (Z): Nesse passo. 0 + 0 + 1) l1 = max(0. lm + n − m) l0+1 = max(l0 . n σ (n) (Z) dn ln -1 1 1 0 0 1 S0 = (022020) 0 1 2 n − ln -1 0 Tabela 5. 1) l1 = 1 Passo 3. temos: ln+1 = max(ln . iniciamos o preenchimento da Tabela 5. Regenera¸˜o de Sequˆncias de DNA ca e Resultados: As s´ ındromes s˜o iguais para as oito permuta¸˜es.Cap´ ıtulo 5. considere m = −1 e n = 0 para que σ (n+1) (Z) = σ (1) (Z).2).

Substituindo esses valores em (5. + sn+2 − ln+1 σln+1 (n+1) (5.2: Tabela de Decodifica¸˜o.2 para n = 1 temos: n σ (n) (X) dn ln -1 1 1 0 0 1 (022020) 0 1 1+(022020)Z (222020) 1 2 n − ln -1 0 0 Tabela 5.4). Regenera¸˜o de Sequˆncias de DNA ca e d0 − yd−1 = 0 (022020) − y(1) = 0 y = (022020) Com isso. d0 = (022020) e d−1 = 1 foram obtidos na Tabela 5.4) (0+1) s0+2 + s0+1 σ1 (1) S1 + S0 σ1 d1 = (222020) + (022020)(022020) d1 = (222020) (5. determinamos que σ (1) (Z) = 1 − (022020)Z. .Cap´ ıtulo 5. σ (−1) (Z) = 1. Portanto: a e dn+1 = sn+2 + sn+1 σ1 d0+1 = d1 = (n+1) + .Determinar d1 : O valor de d1 ser´ calculado atrav´s de (5. temos: 111 . Note que os valores de σ (0) (Z) = 1. considerando n = 0. Passo 5.2) para m = −1 e m = 0 ca escolhendo sempre o menor valor para ln . ca Passo 6.1 (Passo 1).5) Preenchendo a Tabela 5.2).Determinar l2 : Considere n = 1 para que ln+1 = l2 e calcule a equa¸˜o (5. .

Substituindo esses valores em (5. Passo 7.6) temos: σ (n+1) (Z) = σ (n) (Z) − yZ (n−m) σ (m) (Z) σ (1+1) (Z) = σ (1) (Z) − yZ (1−(0)) σ (0) (Z) σ (2) (Z) = σ (1) (Z) − yZσ (0) (Z) σ (2) (Z) = [1 + (022020)Z] − yZ (5. portanto n = 2 e n − ln = 2 − 1 = 1. onde n = 1 e m = 0.6) ca Para determinarmos o valor de y resolvemos a equa¸˜o dn − ydm = 0. l0 + 1 − 0) l2 = max(1.Determinar σ (2) (Z): Nesse passo. 2) l2 = 2 Para m = 0 temos: ln+1 = max(ln . Portanto: 112 . Passo 8. considere m = 0 e n = 1 para que σ (n+1) (Z) = σ (2) (Z). lm + n − m) l1+1 = max(l1 . 1) l2 = 1 Escolhendo o menor ln temos l2 = 1 e m = 0. 0 + 1 + 1) l2 = max(1. lm + n − m) l1+1 = max(l1 . Regenera¸˜o de Sequˆncias de DNA ca e Para m = −1 temos: ln+1 = max(ln . 0 + 1 − 0) l2 = max(1. l−1 + 1 + 1) l2 = max(1.Cap´ ıtulo 5.Determinar n − ln : Do Passo 2 temos que ln = l2 = 1.

Preenchendo a Tabela 5. usamos a rela¸˜o: ca ca 113 . p(Z) = (211012) + Z Portanto.3: Tabela de Decodifica¸˜o.2 do Passo 5.Determinar p(Z): Nesse passo. d0 = (022020) e d1 = (222020) foram obtidos da Tabela 5. a raiz de p(Z) ´ Z1 = (233032).Cap´ ıtulo 5. Regenera¸˜o de Sequˆncias de DNA ca e d1 − yd0 = 0 (222020) − y(022020) = 0 y = (211012) Com isso. e Passo 10.3 para n = 2 temos: n σ (n) (X) dn ln -1 1 1 0 0 1 (022020) 0 1 1+(022020)Z (222020) 1 2 1+(211012)Z 1 n − ln -1 0 0 1 Tabela 5. o Temos: σ (2) (Z) = 1 + (211012)Z Logo. σ (1) (Z). X1 . Observe que d2 n˜o foi calculado pelo fato de termos duas a s´ ındromes. Note que os valores de σ (0) (Z).Determinar X1 : Para determinar a localiza¸˜o do erro. determinamos que σ (2) (Z) = 1 + (211012)Z. ca Passo 9. S0 e S1 . calculamos as ra´ do polinˆmio rec´ ızes o ıproco (p(Z)) do polinˆmio σ (2) (Z).

0−1 = 1 + (233032) = (333032) Substituindo σ10 em Yj .4 do Passo 6 da Se¸˜o 4. Passo 11.Regenera¸˜o das Sequˆncias de DNA: ca e Neste passo o algoritmo localiza e corrige o erro introduzido na sequˆncia do NCBI e transformando-a na sequˆncia reproduzida pelo c´digo. ca e 114 . Y1 . temos: σ10 = σ0 + X1 σ1. e Passo 12. Regenera¸˜o de Sequˆncias de DNA ca e X1 − Z 1 = 0 X1 − (233032) = 0 X1 = (233032) Observe que X1 ´ o elemento β 21 da Tabela 4.Determinar Y1 : Quanto ao c´lculo da magnitude dos erros.i−1 Portanto. susbtituindo os valores de i = 0 e j = 1 em σji .Cap´ ıtulo 5. temos: Y1 = σ10 · S0 (022020) = =2 1 σ10 · X1 (233032) Conclu´ ımos que a magnitude de erro ´ Y1 = 2. Do ponto de vista biol´gico e o o podemos considerar este passo como um processo de regenera¸˜o de sequˆncias. e onde os σjl s˜o obtidos recursivamente a partir de Xi e σi atrav´s da a e rela¸˜o: ca σji = σi + Xj σj. usamos a seguinte equa¸˜o: a ca Yj = (h) v−1 l=0 σjl sv−l c (v−l) v−1 b+c Xj 2 h l=0 σjl Xj 1 para 1 ≤ j ≤ v.1 do Cap´ e ca ıtulo 4.

Para corrigir este erro devemos somar nesta posi¸˜o o complementar de Y1 que definimos como Y1∗ . Regenera¸˜o de Sequˆncias de DNA ca e Cada uma das oito permuta¸˜es do Passo 1 corresponde a uma linha da matriz R . No Passo 10 calculamos que X1 = β 21 = (233032). Sendo assim. O valor ca de Y1∗ ´ determinado da seguinte forma: Y1 + Y1∗ = 0 (mod4).4.. portanto na posi¸˜o 21 de ca cada linha da matriz R ocorreu um erro de magnitude igual a 2. e temos que Y1∗ = 2 e somando este valor na posi¸˜o 21 de cada linha de R temos.. co onde cada linha ´ considerada como uma palavra recebida r = (r0 r1 .     R =    Resulta em:  032331022101313313120[(1 012113022303131131320[(3 123220133010202202031[(0 103002133212020020231[(2 230331200121313313102[(1 210113200323131131302[(3 321220311030202202013[(0 301002311232020020213[(2 + 2)mod4]31130213121211011010032222322123121111331 + 2)mod4]13310231323233033030012222122321323333113 + 2)mod4]20021302030300100101123333233032030000220 + 2)mod4]02201320232322122121103333033230232222002 + 2)mod4]31132013101011211212230000300103101111331 + 2)mod4]13312031303033233232210000100301303333113 + 2)mod4]20023102010100300303321111211012010000220 + 2)mod4]02203120212122322323301111011210212222002          115 .     R =     032331022101313313120131130213121211011010032222322123121111331 012113022303131131320313310231323233033030012222122321323333113 123220133010202202031020021302030300100101123333233032030000220 103002133212020020231202201320232322122121103333033230232222002 230331200121313313102131132013101011211212230000300103101111331 210113200323131131302313312031303033233232210000100301303333113 321220311030202202013020023102010100300303321111211012010000220 301002311232020020213202203120212122322323301111011210212222002          No Passo 11 determinamos a magnitude do erro Y1 = 2.4: Complementares. Tabela 5. rn−1 ). e portanto a localiza¸˜o do erro est´ na posi¸˜o 21 (potˆncia de β) da palavra recebida ca a ca e r = (r0 r1 . rn−1 ) e correspondente a sequˆncia do NCBI. ca Y1 + Y1∗ = 0 0+0=0 1+3=0 3+1=0 2+2=0 Tabela 5...Cap´ ıtulo 5.

2 Resultados da Decodifica¸˜o ca Na Figura 5. onde o erro foi localizado e corrigido transformando a sequˆncia de direcionamento do NCBI na sequˆncia reproduzida pelo e e c´digo Z2 × Z2 ( BCH (63.1.1. rotulamento B.(0.57.T) Oaa: Ont: Olb: Glb: Gnt: Gaa: M ATG 032 032 ATG M F TTC 331 331 TTC F R AGG 022 022 AGG R H CAC 101 101 CAC H S TCT 313 313 TCT S S TCT 313 313 TCT S R CGA 120 120 CGA R F TTC 331 331 TTC F L CTA 130 130 CTA L A GCT 213 213 GCT A R CGC 121 121 CGC R A GCC 211 211 GCC A T ACC 011 011 ACC T T ACA 010 010 ACA T M ATG 032 032 ATG M G GGG 222 222 GGG G W TGG 322 322 TGG W R CGT 123 123 CGT R R CGC 121 121 CGC R P CCC 111 111 CCC P F TTC 331 331 TTC F Figura 5.Cap´ ıtulo 5.3) = (A.3) = (A.2.T) Oaa: Ont: Olb: Glb: Gnt: Gaa: M ATG 032 032 ATG M F TTC 331 331 TTC F R AGG 022 022 AGG R H CAC 101 101 CAC H S TCT 313 313 TCT S S TCT 313 313 TCT S R CGA 120 120 CGA R L CTC 131 331 TTC F L CTA 130 130 CTA L A GCT 213 213 GCT A R CGC 121 121 CGC R A GCC 211 211 GCC A T ACC 011 011 ACC T T ACA 010 010 ACA T M ATG 032 032 ATG M G GGG 222 222 GGG G W TGG 322 322 TGG W R CGT 123 123 CGT R R CGC 121 121 CGC R P CCC 111 111 CCC P F TTC 331 331 TTC F Processo da decodificação Caso 1 .C. uma vez que se conhece a palavra-c´digo. isto ´.1: SD NCBI em SD reproduzida pelo c´digo.Visualizando o resultado: Para facilitar a compreens˜o do processo da decodifica¸˜o mostramos na Figura 5.2. Regenera¸˜o de Sequˆncias de DNA ca e     R =     032331022101313313120331130213121211011010032222322123121111331 012113022303131131320113310231323233033030012222122321323333113 123220133010202202031220021302030300100101123333233032030000220 103002133212020020231002201320232322122121103333033230232222002 230331200121313313102331132013101011211212230000300103101111331 210113200323131131302113312031303033233232210000100301303333113 321220311030202202013220023102010100300303321111211012010000220 301002311232020020213002203120212122322323301111011210212222002          Passo 13.2). o Observe que.G. o algoritmo ´ capaz de transformar a sequˆncia e e e reproduzida pelo c´digo na sequˆncia do NCBI (Figura 5. e o ca 5. Neste caso devemos somar o e na sequˆncia reproduzida pelo c´digo e na posi¸˜o onde o erro ocorreu o valor de Y1 = 2. o Processo da codificação Caso 1 .C.G.3 mostramos as fitas codante (5’ para 3’) e n˜o codante (3’ para 5’) da a sequˆncia da Ipomoea batatas que foram reproduzidas pelo polinˆmio gerador g(x) = x6 + e o 116 . o processo inverso tamb´m o e pode ser realizado pelo algoritmo.3).(0.1 a ca o caso referente a primeira linha da matriz R .

Tabelas 5. isto ´.1. SD03.(0.T) Oaa: Ont: Olb: Glb: Gnt: Gaa: M ATG 032 032 ATG M F TTC 331 331 TTC F R AGG 022 022 AGG R H CAC 101 101 CAC H S TCT 313 313 TCT S S TCT 313 313 TCT S R CGA 120 120 CGA R L CTC 131 331 TTC F L CTA 130 130 CTA L A GCT 213 213 GCT A R CGC 121 121 CGC R A GCC 211 211 GCC A T ACC 011 011 ACC T T ACA 010 010 ACA T M ATG 032 032 ATG M G GGG 222 222 GGG G W TGG 322 322 TGG W R CGT 123 123 CGT R R CGC 121 121 CGC R P CCC 111 111 CCC P F TTC 331 331 TTC F Processo da decodificação Caso 1 .3’ Figura 5.G.C.G. e o Ressaltamos que a leitura destas fitas ´ considerada no sentido da esquerda para a direita e pelo c´digo e que o algoritmo da decodifica¸˜o foi aplicado nestes trˆs tipos de fitas para o ca e cada sequˆncia reproduzida pelo c´digo. Tabela 5.8 as sequˆncias SD01.8. e o Fita codante (5' para 3') e fita não codante (3' para 5') 5' . respectivamente. Por´m em outros casos. a Na Tabela 5.6.2.5' Fita não codante (5' para 3') 5' .6. o e ca Note que nas Tabelas 5.2.3) = (A. bem como a fita n˜o codante (5’ para 3’) reproduzida o a pelo polinˆmio rec´ o ıproco de g(x).TACAAGTCCGTGAGAAGAGCTAAGGATCGAGCGCGGTGGTGTTACCCCACCGCAGCGGGGAAG . S0 e S1 ). Regenera¸˜o de Sequˆncias de DNA ca e Processo da codificação Caso 1 . Tabela 5. podemos observar que as s´ ındromes S0 e S1 s˜o complementares a S0 e S1 .6 e 5. Outro ponto a ser considerado ´ que a e se definirmos o localizador de erros como X1 e seu complementar como X1 .2: SD reproduzida pelo c´digo em SD NCBI. as oito permuta¸˜es com um erro e e co se dividiram em duas classes de s´ ındromes (S0 e S1 .3: Fitas codante e n˜o codante.T) Oaa: Ont: Olb: Glb: Gnt: Gaa: M ATG 032 032 ATG M F TTC 331 331 TTC F R AGG 022 022 AGG R H CAC 101 101 CAC H S TCT 313 313 TCT S S TCT 313 313 TCT S R CGA 120 120 CGA R L CTC 131 131 CTC L L CTA 130 130 CTA L A GCT 213 213 GCT A R CGC 121 121 CGC R A GCC 211 211 GCC A T ACC 011 011 ACC T T ACA 010 010 ACA T M ATG 032 032 ATG M G GGG 222 222 GGG G W TGG 322 322 TGG W R CGT 123 123 CGT R R CGC 121 121 CGC R P CCC 111 111 CCC P F TTC 331 331 TTC F Figura 5. ent˜o podemos a (2) (2) determinar o polinˆmio σ (Z) atrav´s da rela¸˜o σ (Z) = 1 + X1 Z. SD04 e SD18 possuem duas e 117 .(0.3' 3' .ATGTTCAGGCACTCTTCTCGATTCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC . ca Nos casos de duas classes de s´ ındromes. pelo polinˆmio g (x) = x6 + 2x5 + x4 + x3 + 3x + 1.5 mostramos que para determinadas sequˆncias de direcionamento o proe cesso de decodifica¸˜o obteve a mesma classe s´ ca ındrome (S0 e S1 ) para as oito permuta¸˜es co relacionadas com as sequˆncias.GAAGGGGCGACGCCACCCCATTGTGGTGGCGCGAGCTAGGAATCGAGAAGAGTGCCTGAACAT .Cap´ ıtulo 5.C.7 e 5.3) = (A.1. O mesmo ocorreu com o processo de decodifica¸˜o da fita complementar (5’ para 3’). o 3x5 + x3 + x2 + 2x + 1 do c´digo.

18. (020220).21) C (4.24) C (3. = (233132). = (322301). dominulus P. S1 = (222020) (000220). S1 = (200220) (022222). tabacum A.15. cerevisiae P. = (122103).23) B (1.9. = (001221). S1 = (202202) (202202).6: Sequˆncias de direcionamento com duas classes de s´ e ındromes. napus A. (002202). Observe que nas sequˆncias SD01. SD03 e SD18 as classes A(2. dominulus P.20) A (6.18. martensii Organela M RE RE M M RE Rotulamento (Casos) A (2. S1 = (200220) σ(2) (Z) 1 + (211012)Z 1 + (202310)Z 1 + (031313)Z 1 + (321323)Z 1 + (202310)Z X1 β 21 = (233032) β 21 = (202130) β 6 = (013131) β 12 = (123121) β 21 = (202130) Y1 2 2 2 2 2 Tabela 5. = (330230). = (032213). = (012231). dominulus Organela M RE M RE RE Rotulamento B C B A B S0 S0 S0 S0 S0 = = = = = S´ ındromes (022202).23) A (2.22) A (2.20) A (6.11. dominulus Organela M RE M RE RE Rotulamento B C B A B S0 S0 S0 S0 S0 = = = = = S´ ındromes (022020). thaliana N. S1 S1 S1 S1 S1 = (022222) = (020002) = (220200) = (220002) = (200220) σ(2) (Z) 1 + (213301)Z 1 + (132100)Z 1 + (230130)Z 1 + (203321)Z 1 + (132100)Z β 41 β 41 β 56 β 50 β 41 = = = = = X1 (231103) (312300) (210310) (201123) (312300) Y1 2 2 2 2 2 Tabela 5.16.Cap´ ıtulo 5.16.16. Fita codante 5’ para 3’ e fita n˜o codante 3’ para 5’.13.23) S´ ındromes S0 S0 S0 S0 S0 S0 S0 S0 S0 S0 S0 S0 = (110110). = (003223). batatas T.7. 9. sativum S.14.20) A (6.8.17. 5.10. cerevisiae P. (220200). = (330330).5: Sequˆncias de direcionamento com uma classe de s´ e ındrome. 18.18.7. sativum S.16. 20) possuem e magnitude Y1 = 3 enquanto que a sequˆncia SD04 possui magnitude Y1 = 1. e no SD02 SD06 SD08 SD20 SD20 Organismo I.20) A (6.9. a no SD01 SD03 SD04 SD13 SD17 SD18 Organismo B. (000220). Z2 ×Z2 -linear e Klein-linear podem ser reproduzidas atrav´s de um circuito o e 118 .7. a no SD02 SD06 SD08 SD20 SD20 Organismo I.7.12.23) A (2. por´m elas se diferem em rela¸˜o a magnitude e ca dos erros Y1 .9. sapiens M. Regenera¸˜o de Sequˆncias de DNA ca e classes de s´ ındromes e o mesmo rotulamento. Fita codante 5’ para 3’ e fita n˜o codante 3’ para 5’. = (211312).3 Reprodu¸˜o das Sequˆncias de DNA atrav´s do ca e e LFSR O objetivo desta se¸˜o ´ mostrar que as sequˆncias de direcionamento reproduzidas pelos ca e e c´digos Z4 -linear. = (110210). S1 S1 S1 S1 S1 S1 S1 S1 S1 S1 S1 S1 = (330323) = (110121) = (011020) = (033020) = (310300) = (130100) = (233022) = (211022) = (131332) = (313112) = (103301) = (301103) σ(2) (Z) 1 + (110110)Z 1 + (110110)Z 1 + (330230)Z 1 + (330230)Z 1 + (012231)Z 1 + (012231)Z 1 + (211312)Z 1 + (211312)Z 1 + (122103)Z 1 + (122103)Z 1 + (001221)Z 1 + (001221)Z β 62 β 62 β 18 β 18 β 26 β 26 β 38 β 38 β 50 β 50 β 38 β 38 X1 = (330330) = (330330) = (110210) = (110210) = (032213) = (032213) = (233132) = (233132) = (322301) = (322301) = (003223) = (003223) Y1 3 1 3 1 1 3 3 1 1 3 3 1 Tabela 5. batatas T.7: Sequˆncias de direcionamento com uma classe de s´ e ındrome. S1 = (222200) (000220). thaliana H.19) B (5.18.9. Fita complementar invertida 5’ para 3’.

Portanto. = (102010).4 e 5. = (032130). (15 e 17).8: Sequˆncias de direcionamento com duas classes de s´ e ındromes.16.18.14. (8 e 19).7. ou seja.11.9.16. usamos a o a rela¸˜o u. = (321233). e a sua respectiva fita n˜o codante. S0 = (1).12.16. martensii Organela M RE RE M M RE Rotulamento (Casos) A (2. = (110121).9.23) B (1.24) C (3. tabacum A. determinamos o vetor u para cada e o sequˆncia de direcionamento reproduzida pelo c´digo.7.20) A (6. bem como da densidade espectral. a Apresentamos os circuitos de deslocamentos com realimenta¸˜o linear de comprimento ca L = 7 que consiste de uma cascata de L atrasadores (registros de deslocamentos) e alguns multiplicadores e somadores capazes de gerar uma combina¸˜o linear dos conte´ dos destes ca u registros. mostramos que existem algumas sequˆncias de direcionamento que possuem o mesmo polinˆmio gerador/primitivo (SD01.18.Cap´ ıtulo 5.13.15.7.10. de deslocamento com realimenta¸˜o linear (LFSR). soma e produto m´dulo 4.17.18. Fita complementar invertida 5’ para 3’.20) A (6. Atrav´s de um sistema de ca e ca e equa¸˜es lineares que obedecem as opera¸˜es de adi¸˜o e multiplica¸˜o segundo a estrutura co co ca ca alg´brica de anel. SD03 e SD04).8. S1 S1 S1 S1 S1 S1 S1 S1 S1 S1 S1 S1 = = = = = = = = = = = = (3) (1) (012302) (032102) (113212) (331232) (103332) (301112) (301120) (103320) (000113) (000331) σ(2) (Z) 1 + (3)Z 1 + (3)Z 1 + (303322)Z 1 + (303322)Z 1 + (321233)Z 1 + (321233)Z 1 + (012310)Z 1 + (012310)Z 1 + (302030)Z 1 + (302030)Z 1 + (110121)Z 1 + (110121)Z X1 β 0 = (1) β 0 = (1) β 44 = (101122) β 44 = (101122) β 36 = (123211) β 36 = (123211) β 24 = (032130) β 24 = (032130) β 12 = (102010) β 12 = (102010) β 24 = (330323) β 24 = (330323) Y1 3 1 3 1 1 3 3 1 1 3 3 1 S0 S0 S0 S0 S0 S0 S0 S0 S0 S0 Tabela 5. thaliana H.21) C (4. Observe que os Casos (1 e 5).22) A (2.9.6. Cada sequˆncia o e e ca e ca de informa¸˜o est´ associada a uma unica palavra-c´digo. 119 . Nas Figuras 5. napus A. Figura 5. a distin¸˜o entre estas ca a ´ o ca sequˆncias ´ realizada atrav´s da sequˆncia de informa¸˜o.19) B (5.9.5 mostramos as e o sequˆncias de informa¸˜o (u) referentes a reprodu¸˜o da sequˆncia de direcionamento da e ca ca e Ipomoea batatas.23) A (2. Estes circuitos reproduzem as sequˆncias de direcionamento referentes ` fita coe a dante da prote´ F1-ATPase delta subunit.16. e e e e Uma vez que a matriz geradora G(x) e a palavra-c´digo (v) s˜o conhecidas. e e Na Subse¸˜o 4. Isso o o significa que todas estas sequˆncias s˜o identificadas como palavras-c´digo pertencentes ao e a mesmo c´digo. = (101122). = (303322). Regenera¸˜o de Sequˆncias de DNA ca e no SD01 SD03 SD04 SD13 SD17 SD18 Organismo B.23) A (2. embora diferindo atrav´s da sua sequˆncia de informa¸˜o (u).18. = (302030). (10 e 24) possuem a mesma sequˆncia de informa¸˜o em termos de nucleot´ e ca ıdeos e amino´cidos.7.20) A (6. ına a Figura 5. = (123211).20) A (6.2. Este processo fornece um embasamento ca para uma proposta futura que permite reproduzir sequˆncias de DNA atrav´s do LFSR e e e utiliz´-las para a realiza¸˜o da an´lise espectral via transformada de Fourier Discreta sobre a ca a an´is. Cap´ ca ıtulo 4. = (012310).5. sapiens M. thaliana N.23) S´ ındromes S0 = (3).G(x) = v para determinar a sequˆncia de informa¸˜o. = (330323).7.

onde o ultimo d´ ´ ıgito u56 = 1 ´ o primeiro d´ e ıgito a entrar no primeiro registro do circuito que definimos como registro (x6 ).2. ıda isto ´.(0. O segundo passo ´ a entrada do d´ e ıgito u55 = 0 no primeiro registro (x6 ) deslocando o d´ ıgito 5 u56 = 1 para o segundo registro (x ).C. e e Primeiramente..1. Os d´ ıgitos que est˜o em vermelho e azul foram usados na Figura 5.G. .2) = (A.9 que mostra a em detalhes como a sequˆncia de direcionamento ´ reproduzida pelo circuito. Na Figura 5.1) = (A. u56 . Regenera¸˜o de Sequˆncias de DNA ca e Caso 1 .C.T) u = { 010 003 300 031 111 032 013 121 322 223 012 133 300 313 331 001 313 111 103 } ATA AAC CAA ACT TTT ACG ATC TGT CGG GGC ATG TCC CAA CTC CCT AAT CTC TTT TAC I N Q T F T I C R G M S Q L P N L F Y Glb: 012 113 022 303 131 131 320 113 310 231 323 233 033 030 012 222 122 321 323 333 113 Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC Gaa: M F R H S S R F L A R A T T M G W R R P F Caso 8 .2. v61 = 3 (Passo 2).C.(1.Cap´ ıtulo 5. portanto a sa´ a ıda 120 . A entrada deste d´ ıgito resulta em uma sa´ igual a v62 = 1 pois n˜o existe multiplicador associado a este registro e nenhum valor ıda a a ser somado nos demais registros (Passo 1).4: Vetor u .T) u = { 102 122 131 331 023 212 331 111 020 100 132 233 013 320 102 113 130 020 020 } ACT ATT AGA GGA CTG TAT GGA AAA CTC ACC AGT TGG CAG GTC ACT AAG AGC CTC CTC T I R G L Y G K L T S W Q V T K S L L Glb: 123 220 133 010 202 202 031 220 021 302 030 300 100 101 123 333 233 032 030 000 220 Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC Gaa: M F R H S S R F L A R A T T M G W R R P F Caso 10 . Observe que existe um multiplicador igual a 3 associado ao segundo registro resultando em uma sa´ igual a v61 = u55 + 3(u56) = 0 + 3(1) = 3 mod4. N˜o existe multiplicador ou somador associado ao terceiro registro.T) u = { 122 120 331 313 201 232 313 313 220 102 112 011 213 102 320 111 312 202 222 } ACC ACT GGA GAG CTA CGC GAG GAG CCT ATC AAC TAA CAG ATC GCT AAA GAC CTC CCC T T G E L R E E P I N sto Q I A K D L P Glb: 103 002 133 212 020 020 231 002 201 320 232 322 122 121 103 333 033 230 232 222 002 Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC Gaa: M F R H S S R F L A R A T T M G W R R P F Figura 5.0) = (A. e O terceiro passo ´ a entrada do d´ e ıgito u54 = 3 no primeiro registro (x6 ) deslocando o d´ ıgito u55 = 0 para o segundo registro (x5 ) e o d´ ıgito u56 = 1 para o terceiro registro (x4 ).0. u1.T) u = { 030 001 100 013 333 012 031 323 122 221 032 311 100 131 113 003 131 333 301 } ATA AAC CAA ACT TTT ACG ATC TGT CGG GGC ATG TCC CAA CTC CCT AAT CTC TTT TAC I N Q T F T I C R G M S Q L P N L F Y Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331 Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC Gaa: M F R H S S R F L A R A T T M G W R R P F Caso 5 .3.(0.G..G..8 mostramos a sequˆncia de informa¸˜o que reproduz a sequˆncia de diree ca e cionamento referente a fita codante (5’ para 3’) da prote´ F1-ATPase delta subunit relativa ına ao Caso 1.C.3.3) = (A.2.(1.G. todos os registros s˜o zerados.3. A sequˆncia de informa¸˜o (u) ´ definida a e ca e como u = u0 .

1.0.3.(2.(2.T) u = { 322 320 113 131 203 212 131 131 220 302 332 033 231 302 120 333 132 202 222 } ACC ACT GGA GAG CTA CGC GAG GAG CCT ATC AAC TAA CAG ATC GCT AAA GAC CTC CCC T T G E L R E E P I N sto Q I A K D L P Glb: 301 002 311 232 020 020 213 002 203 120 212 122 322 323 301 111 011 210 212 222 002 Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC Gaa: M F R H S S R F L A R A T T M G W R R P F Figura 5. v60 = 3 (Passo 3).1) = (A. pela primeira vez ´ c e e e proposto um modelo de decodifica¸˜o biol´gico utilizando o algoritmo de Berlekamp-Massey ca o modificado em importa¸˜o de prote´ ca ınas.T) u = { 302 322 313 113 021 232 113 333 020 300 312 211 031 120 302 331 310 020 020 } ACT ATT AGA GGA CTG TAT GGA AAA CTC ACC AGT TGG CAG GTC ACT AAG AGC CTC CTC T I R G L Y G K L T S W Q V T K S L L Glb: 321 220 311 030 202 202 013 220 023 102 010 100 300 303 321 111 211 012 010 000 220 Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC Gaa: M F R H S S R F L A R A T T M G W R R P F Caso 24 . 121 .0.T) u = { 230 201 322 231 331 032 213 101 122 021 212 333 122 331 313 221 311 333 301 } ATG AGC TAA ATC TTC GTA ACT CGC CAA GAC ACA TTT CAA TTC TCT AAC TCC TTT TGC M S sto I F V T R Q D T F Q F S N S F C Glb: 230 331 200 121 313 313 102 331 132 013 101 011 211 212 230 000 300 103 101 111 331 Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC Gaa: M F R H S S R F L A R A T T M G W R R P F Caso 17 . novamente os registros come¸am a ser zerados (Passos 59 ao 62).5: Vetor u .C.G. c Um dos grandes desafios da ciˆncia ´ compreender os mecanismos moleculares que ocore e rem dentro das c´lulas.C.0) = (A. at´ onde ´ de nosso conhecimento.(3. Observe que ap´s a entrada do ultimo d´ o ´ ıgito do vetor u. portanto estudos sobre os mecanismos que governam a distribui¸˜o e e a ca transporte de prote´ ınas nas c´lulas podem contribuir para se obter uma compreens˜o mais e a apurada desta complexa maquinaria.C.2. e como seu funcionamento inadequado poderia deflagrar uma doen¸a.G. Ressaltamos que.T) u = { 210 203 122 213 113 012 231 303 322 023 232 111 322 113 131 223 133 111 103 } ATG AGC TAA ATC TTC GTA ACT CGC CAA GAC ACA TTT CAA TTC TCT AAC TCC TTT TGC M S sto I F V T R Q D T F Q F S N S F C Glb: 210 113 200 323 131 131 302 113 312 031 303 033 233 232 210 000 100 301 303 333 113 Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC Gaa: M F R H S S R F L A R A T T M G W R R P F Caso 19 . u0 = 0. v60 = u54 + 3(u55 ) = 3 + 3(0) = 3mod4.1.0.(3.2) = (A.1.G.Cap´ ıtulo 5. O transporte de prote´ e ınas organelares ´ fundamental para manter e as c´lulas saud´veis. O mesmo procedimento ´ realizado at´ que todos os d´ e e ıgitos do vetor u passem por todos os registros.3) = (A.G.C. Regenera¸˜o de Sequˆncias de DNA ca e Caso 15 .

. a Caso 1 . g(x) = x6+2x5+x4+x3+3x+1 + 2 + + + 3 + v’ u’ x6 x5 x4 x3 x2 u’ = {u0..T) u = { 030 001 100 013 333 012 031 323 122 221 032 311 100 131 113 003 131 333 301 } ATA AAC CAA ACT TTT ACG ATC TGT CGG GGC ATG TCC CAA CTC CCT AAT CTC TTT TAC I N Q T F T I C R G M S Q L P N L F Y Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331 Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC Gaa: M F R H S S R F L A R A T T M G W R R P F Figura 5..8: Fita codante 5’ para 3’. Regenera¸˜o de Sequˆncias de DNA ca e g(x) = x6+3x5+x3+x2+2x+1 + 3 + + + 2 + v u x6 x5 x4 x3 x2 u = {u0.. u56} x 1 v = {v0.. .3)=(A. v62} Figura 5.Cap´ ıtulo 5. u56} x 1 v’ = {v0. v62} Figura 5..7: LFSR fita n˜o codante 5’ para 3’.G.C. u1.. u1. v1. 122 . .(0...1.6: LFSR fita codante 5’ para 3’... .2... v1.

. 131333301} 3+3(3)+1+0+2(0)+0=0 mod4 = 1 + 3 + + + 2 + v60 = 3 V59 = 1 u55 3 0 1 0 0 0 0 u55 3 x6 3 0 1 0 0 0 x 6 x 5 x 4 x 3 x 2 x 1 x5 x4 x3 x2 x 1 5º) u = {030001100 . 131333301} 0+3(0)+0+0+2(0)+3=0 mod4 = 3 + 3 + + + 2 + 62º) u = {030001100 . 131333301} 0+3(0)+0+0+2(3)+0=0 mod4 = 2 { { + 3 + + + 2 { { + 3 + + + 2 + V3 = 3 + V2 = 2 u0 0 0 0 0 3 0 0 u0 0 0 0 0 0 3 0 x6 x5 x4 x3 x2 x 1 x6 x5 x4 x3 x2 x 1 61º) u = {030001100 .... 131333301} 0+3(1)+0+0+2(0)+0=0 mod4 = 3 { { { + 3 + + + 2 { { + 3 + + + 2 + v62 = 1 + v61 = 3 u56 1 0 0 0 0 0 0 u55 0 1 0 0 0 0 0 x6 x5 x4 x3 x2 x 1 x6 x5 x4 x3 x2 x 1 3º) u = {030001100 . Regenera¸˜o de Sequˆncias de DNA ca e 1º) u = {030001100 .9: Reprodu¸˜o atrav´s do LFSR da fita codante 5’ para 3’. 131333301} 0+3(0)+0+3+2(0)+0=0 mod4 = 3 60º) u = {030001100 .Cap´ ıtulo 5.... 131333301} 1+3(0)+0+0+2(0)+0=0 mod4 = 1 2º) u = {030001100 ... 131333301} 0+3(0)+0+0+2(0)+0=0 mod4 = 0 + 3 + + + 2 + V1 = 3 V0 = 0 u0 0 0 0 0 0 0 3 1 u0 0 0 0 0 0 0 0 x6 x5 x4 x3 x2 x x6 x5 x4 x3 x2 x 1 Figura 5........ 131333301} 3+3(0)+0+0+2(0)+0=0 mod4 = 3 + 3 + + + 2 + 4º) u = {030001100 .. 131333301} 3+3(3)+0+1+2(0)+0=0 mod4 = 1 + 3 + + + 2 + 6º) u = {030001100 .... ca e 123 . 131333301} 3+3(3)+3+0+2(1)+0=0 mod4 = 1 { V58 = 1 + 3 + + + 2 + V57 = 1 u55 3 x6 3 3 0 1 0 0 u55 3 x6 3 3 3 0 1 0 x5 x4 x3 - x2 x 1 x5 x4 x3 - x2 x 1 59º) u = {030001100 .

Em sistemas de comunica¸˜o codificado a informa¸˜o a ser transmitida ´ composta de ca ca e uma sequˆncia que cont´m uma “regi˜o” respons´vel pela informa¸˜o propriamente dita e e e a a ca outra “regi˜o” que ´ conhecida como verifica¸˜o de paridade. essas sequˆncias teriam apenas um tipo de conforma¸˜o co o e ca 125 . j´ que insere a varia¸˜o gen´tica sobre a qual ela ir´ agir. As muta¸˜es s˜o consideradas o mecanismo que permite a a¸˜o e co a ca da sele¸˜o natural.Cap´ ıtulo 6 An´lises de Muta¸˜es e de a co Polimorfismos em Sequˆncias de DNA e As muta¸˜es s˜o mudan¸as que ocorreram na sequˆncia de nucleot´ co a c e ıdeos do material gen´tico de um organismo. para se alcan¸ar esse objetivo s˜o realizados testes laboratoriais extensivos com um alto custo e c a um tempo muito elevado. Ao contr´rio. Atualmente. Se pensarmos em a o a a ca termos de conforma¸˜es topol´gicas. Para simplificar a complexidade a e ca do processo essas regi˜es s˜o separadas de duas formas: a “regi˜o” de verifica¸˜o de paridade o a a ca est´ posicionada ap´s ou antes da “regi˜o” respons´vel pela informa¸˜o. fornecendo ca a ca e a as novas caracter´ ısticas vantajosas que sobrevivem e se multiplicam nas gera¸˜es subseco quentes ou as caracter´ ısticas heredit´rias delet´rias que desaparecem em organismos mais a e fracos. a Um problema de grande interesse te´rico e aplicado ´ determinar a regi˜o ou as regi˜es o e a o ´ de conhecimento que detercom conte´ do de informa¸˜o nas sequˆncias de nucleot´ u ca e ıdeos. E minadas regi˜es est˜o relacionadas ao conte´ do respons´vel pela fun¸˜o da prote´ e que o a u a ca ına muta¸˜es nessas regi˜es acarretariam em muta¸˜es mal´ficas ou ben´ficas. de co o co e e a determinadas regi˜es onde as muta¸˜es n˜o alteram a fun¸˜o da prote´ o co a ca ına. Existem diversos tipos de muta¸˜es e que podem ser resumidas em muta¸˜es ben´ficas co co e (muta¸˜es que levam a novas vers˜es de prote´ co o ınas que ajudam o organismo e futuras gera¸˜es co a adaptar-se melhor a mudan¸as no seu ambiente) ou muta¸˜es mal´ficas (muta¸˜es que alc co e co teram uma prote´ que tem um papel importante no corpo podendo resultar em uma doen¸a ına c ou muta¸˜es criando prote´ co ınas parciais ou completamente n˜o-funcionais).

garantindo assim. ´ E de conhecimento biol´gico a grande variedade de conforma¸˜es espaciais das sequˆncias o co e de DNA. e 6. incluindo prote´ ınas maduras mitocondriais e prote´ ınas precursoras secretoras. Ap´s a importa¸˜o ca ca ca o o ca dos precursores na mitocˆndria. realizamos um estudo filogen´tico da prote´ Malate desidrogenase 1 da ca e ına Arabidopsis thaliana reproduzida pelo c´digo. mitochondrial intermediate peptidase.1. catalisa uma segunda clivagem em um segundo passo do processamento proteol´ ıtico em algumas prote´ ınas precursoras [63]. O processo proteol´ ıtico mais comum catalisa a maioria das prote´ ınas precursoras e ´ conhecido como MP P (mitochondrial processing peptidase).Cap´ ıtulo 6. f´ ısicos e biol´gicos que influenciam os processos analisados. As aplica¸˜es da Se¸˜o 6. e O nosso interesse consiste em reproduzir a referida sequˆncia de direcionamento (palavrae c´digo) e utiliz´-la para a realiza¸˜o de an´lises mutacionais via c´digos corretores de ero a ca a o ros. A clivagem da extens˜o peptidase na matriz ´ catalisada a e por dois tipos de processos proteol´ ıticos (enzimas que quebram liga¸˜es pept´ co ıdicas entre os amino´cidos das prote´ a ınas).2. possibitando o desenvolvimento a de procedimentos capazes de diferenciar esses dois tipos regi˜es e consequentemente simular o muta¸˜es ocorrendo nessas regi˜es com o objetivo de detectar que tipo de muta¸˜o seria co o ca mal´fica ou ben´fica. as diversas formas o espacias que as sequˆncias de DNA apresentam.1 An´lises da Importˆncia dos Res´ a a ıduos de Argininas A maioria das prote´ ınas mitocondriais s˜o codificadas nos genes nucleares e sintetizadas a como precursores que possuem uma extens˜o peptidase amino-terminal. A atividade da MP P ´ estritamente espec´ e ıfica para prote´ ınas precursoras mitocondriais. e e Neste cap´ ıtulo apresentamos algumas aplica¸˜es do modelo proposto no Cap´ co ıtulo 4. O e outro processo. ca 126 . Isto indica que a extens˜o peptidase das prote´ a a ınas precursoras mitocondriais possuem alguma informa¸˜o para o reconhecimento da MP P . Portanto.3 simulamos algumas muta¸˜es o ca co em sequˆncias de direcionamento mitocondriais. mostram que o modelo reproduz os resultados comprovados em co ca laborat´rio nas an´lises de substitui¸˜es de res´ o a co ıduos de argininas em oligopept´ ıdeos sint´ticos. Outras prote´ ınas. Ressaltamos que o modelo n˜o leva em considera¸˜o os aspectos bioqu´ a ca ımicos. Na Se¸˜o 6. Neste momento o nosso objetivo ´ como e preender os resultados do modelo para futuramente refin´-lo. a extens˜o peptidase ´ proteoliticamente removida do preo a e cursor na matriz mitocondrial. An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e espacial. e Na Se¸˜o 6. a nossa hip´tese ´ que em sequˆncias de DNA os d´ o e e ıgitos de verifica¸˜o de ca paridade est˜o distribu´ a ıdos ao longo da palavra-c´digo. a qual cont´m ina e forma¸˜o suficiente para a sinaliza¸˜o e localiza¸˜o da mitocˆndria. n˜o a s˜o reconhecidas pela MP P .

Baseados nas sequˆncias de amino´cidos da extens˜o pept´ e a a ıdica do precursor da pre-malate dehydrogenase (o precursor PMD). Para determinar o papel dos res´ e a ca ıduos de argininas no reconhecimento pela MPP. Por outro ca c a a e 127 .1 Resultados das an´lises via laborat´rio a o Em [63] foi realizado um estudo laboratorial para examinar se os res´ ıduos de argininas nas posi¸˜es 14 e 15 s˜o necess´rios para o reconhecimento e a clivagem correta da extens˜o co a a a peptidase.. Observe que nos pept´ ıdeos MDHKR. trˆs res´ e ıduos de argininas nas posi¸˜es 7.2. Pept´ ıdeo PMD MDH1-30 MDH1-21 Sequˆncia e MLSALARPVGAALRRSFSTSAQNNAKVAVLGAS . Tabela 6. bem co como.. O precursor escolhido para as an´lises foi o precursor a e a da pre-malate dehydrogenase. o pept´ e que obteve parˆmetros cin´ticos semelhantes ao pept´ a e ıdeo sint´tico MDH1-30 que cont´m e e a sequˆncia inteira da extens˜o peptidase e os cinco res´ e a ıduos adicionais amino-terminal da por¸˜o madura do precursor contendo o res´ ca ıduo da ciste´ no carboxi-terminal da prote´ ına ına. alguns parˆmetros cin´ticos.1: Extens˜es peptidases analisadas. um deles ´ o par de argininas R14 e R15 que se encontram na posi¸˜o proximal e a e ca outra ´ a R7 que est´ na posi¸˜o distal. MDHRK e MDHKK ocorreram substitui¸˜es de um res´ co ıduo de arginina na posi¸˜o 14 por alanina. porque possui uma curta extens˜o pept´ a ıdica. 14 e 15 em MDH1-21 co foram sistematicamente substitu´ ıdos por res´ ıduos de alaninas e lisinas.Cap´ ıtulo 6. An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e 6.1. o Estudos anteriores sugerem que os res´ ıduos de arginina na extens˜o peptidase de v´rias a a prote´ ınas precursoras s˜o importantes para o processo de clivagem realizado pela MPP. Tabela 6. ca Os resultados indicam que as substitui¸˜es em MDHKK de dois res´ co ıduos de argininas por lisina nas posi¸˜es 7 e 15 e a substitui¸˜o em MDHRK do res´ co ca ıduo de arginina por lisina na posi¸˜o 15 promoveram mudan¸as mais dr´sticas nos parˆmetros cin´ticos. MLSALARPVGAALRRS-FSTSAQNNAKVAVC MLSALARPVGAALRRS-FSTSA Tabela 6. Destes oligopept´ ıdeos sint´ticos. Por este motivo o pept´ ıdeo sint´tico MDH1-21 foi usado como modelo para e an´lises da importˆncia dos res´ a a ıduos de argininas para a clivagem correta do pept´ ıdeo. Oligopept´ ıdeos foram usados como substrato com o objetivo de analisar a contribui¸˜o desses res´ ca ıduos de argininas nas intera¸˜es entre o precursor e a peptidase. Dois a conjuntos de amino´cidos b´sicos se mostraram importantes para o reconhecimento pela a a MPP.1. foram analisados v´rios oligopept´ a ıdeos sint´ticos de diferentes comprie mentos e diferentes sequˆncias de amino´cidos para determinar quais destas sequˆncias pose a e suem parˆmetros cin´ticos das rea¸˜es de clivagem semelhantes aos parˆmetros cin´ticos a e co a e ıdeo sint´tico MDH1-21 foi o e do precursor PMD.

23 Tabela 6. 57. As sequˆncias reproduzidas pelo c´digo nos rotulamentos A e B sofreram a e o altera¸˜es de amino´cidos. B e C (c´digos Z4 -linear. Por este motivo. respectivamente). que denotamos por MDH1-21∗.Cap´ ıtulo 6. Em seguida. para realizarmos as an´lises. organismo: Rattus norvegicus) que ´ idˆntica em amino´cidos ao oligopept´ e e a ıdeo sint´tico utilizado via laborat´rio.7 0. portanto para cada substitui¸˜o de amino´cido consideramos todas as trincas relativas a este amino´cido.46 0. A e o reprodu¸˜o desta sequˆncia ocorreu atrav´s do c´digo G-linear sobre a estrutura de anel com ca e e o parˆmetros (63. escolhemos a sequˆncia reproduzida pelo c´digo co a e o no rotulamento C. co a 128 . a efetuamos todas as substitui¸˜es realizadas em [63] na sequˆncia MDH1-21∗ que ´ idˆntica co e e e a sequˆncia MDH1-21 em termos de amino´cidos. Figura 6. 6. An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e Pept´ ıdeo MDH1-21 MDHKR MDHRK MDHKK Sequˆncia e MLSALARPVGAALRRS-FSTSA MLSALAKPVGAALARS-FSTSA MLSALARPVGAALAKS-FSTSA MLSALAKPVGAALAKS-FSTSA Vmax /Km pmol/min 12 7. Com o objetivo de realizar estas an´lises atrav´s dos c´digos corretores de erros. polinˆmio primitivo p(x) = x6 + x5 + x4 + x + 1 e polinˆmio gerador a o o g(x) = x6 + x5 + x4 + 2x2 + 3x + 1. Z2 × Z2 -linear e Klein-linear.1. a substitui¸˜o em MDHKR do res´ ca ıduo de arginina da posi¸˜o 7 por lisina obteve menos significˆncia na rea¸˜o de clivagem do que a substitui¸ao do res´ a ca c˜ ıduo de arginina por lisina na posi¸˜o 15. descrevemos o proa a e e ıdeos cedimento laboratorial realizado para an´lises dos parˆmetros cin´ticos de oligopept´ a a sint´ticos.3.2: Efeitos das substitui¸˜es dos res´ co ıduos de argininas por alaninas e lisinas na clivagem pela MPP. efetuamos todas as substitui¸˜es de amino´cidos realizadas in vitro. Como ca a a mostra a Tabela 6. A reprodu¸˜o foi poss´ atrav´s dos trˆs rotulamentos ca ıvel e e A. apresentamos uma aplica¸˜o de c´digos corretores de erros bastante ca ca o ca promissora para an´lises dos parˆmetros cin´ticos. e a e o primeiramente reproduzimos a sequˆncia de pept´ e ıdeo (GI : 56643. Resumindo.1.1. o qual representa os quatro nucleot´ a ıdeos. ca lado. as substitui¸˜es efetuadas nos pept´ ca co ıdeos MDHRK e MDHKK foram mais dr´sticas em termos dos parˆmetros cin´ticos do que as substitui¸˜es efetuadas a a e co no pept´ ıdeo MDHKR. 3). n˜o implicou na troca de ca e a amino´cidos. Ressaltamos que o c´digo foi constru´ e a o ıdo utilizando o alfabeto 4-´rio.2 Resultados das an´lises via c´digos corretores de erro a o Nesta subse¸˜o. Na Subse¸˜o 6. o Note que a diferen¸a de nucleot´ c ıdeos (CGC → CGA) ocorrida no res´ ıduo de arginina da posi¸˜o 15 na sequˆncia reproduzida pelo rotulamento C.1.

T)= (0. pois as substitui¸˜es em MDHRK e MDHKK n˜o foram reproduzidas pelo co a c´digo enquanto que uma das substitui¸˜es em MDHKR foi reproduzida pelo rotulamento o co 129 .(A.1. a substitui¸˜o em MDHKR ca a o ca do res´ ıduo de arginina da posi¸˜o 7 por lisina foi reproduzida pelo c´digo utilizando as ca o trincas: (AAA) para lisina na posi¸˜o 7.C.2 mostra a sequˆncia reproduzida pelo c´digo o e o Z2 × Z2 -linear. Consideramos nesta posi¸˜o. Por outro lado.T)= (0.Rotulamento B L CTG 132 132 CTG L S TCC 311 311 TCC S A GCT 213 233 GTT V L CTC 131 131 CTC L A GCC 211 211 GCC A R CGT 123 123 CGT R P CCT 113 113 CCT P V GTC 231 231 GTC V G GGT 223 223 GGT G A GCC 211 211 GCC A A GCT 213 213 GCT A L CTC 131 131 CTC L R CGC 121 121 CGC R R CGC 121 121 CGC R S AGC 021 021 AGC S F TTC 331 331 TTC F S AGC 021 021 AGC S T ACT 013 013 ACT T S TCA 310 310 TCA S A GCC 211 211 GCC A Caso 2 Oaa: Ont: Olb: Glb: Gnt: Gaa: M ATG 023 023 ATG M (A. A Figura 6.2) .3 que se encontra na cor azul.Rotulamento C L CTG 231 231 CTG L S TCC 322 322 TCC S A GCT 123 123 GCT A L CTC 232 232 CTC L A GCC 122 122 GCC A R CGT 213 213 CGT R P CCT 223 223 CCT P V GTC 132 132 GTC V G GGT 113 113 GGT G A GCC 122 122 GCC A A GCT 123 123 GCT A L CTC 232 232 CTC L R CGC 212 212 CGC R R CGC 212 210 CGA R S AGC 012 012 AGC S F TTC 332 332 TTC F S AGC 012 012 AGC S T ACT 023 023 ACT T S TCA 320 320 TCA S A GCC 122 122 GCC A Figura 6.2: Sequˆncia reproduzida pelo c´digo BCH.G.Rotulamento A L CTG 123 123 CTG L S TCC 211 211 TCC S A GCT 312 312 GCT A L CTC 121 121 CTC L A GCC 311 311 GCC A R CGT 132 132 CGT R P CCT 112 112 CCT P V GTC 321 321 GTC V G GGT 332 332 GGT G A GCC 311 311 GCC A A GCT 312 312 GCT A L CTC 121 101 CAC H R CGC 131 131 CGC R R CGC 131 131 CGC R S AGC 031 031 AGC S F TTC 221 221 TTC F S AGC 031 031 AGC S T ACT 012 012 ACT T S TCA 210 210 TCA S A GCC 311 311 GCC A Caso 3 Oaa: Ont: Olb: Glb: Gnt: Gaa: M ATG 031 031 ATG M (A.2. (GCG) para alanina na posi¸˜o 14 e (CGA) para ca ca arginina na posi¸˜o 15 (Figura 6.3.2. e o Os resultados indicam que as substitui¸˜es em MDHKK de dois res´ co ıduos de argininas por lisina nas posi¸˜es 7 e 15 e a substitui¸˜o em MDHRK do res´ co ca ıduo de arginina por lisina na posi¸˜o 15 n˜o foram reproduzidas pelo c´digo. MDHRK e MDHKK ocorreram substitui¸˜es de um co res´ ıduo de arginina na posi¸˜o 14 por alanina.3) . An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e Caso 1 Oaa: Ont: Olb: Glb: Gnt: Gaa: M ATG 032 032 ATG M (A. Caso 1 .1. A sequˆncia da Tabela 6. e Observe que nos pept´ ıdeos MDHKR.3) . Estes resultados indicam que as substitui¸˜es efetuadas ca co nos pept´ ıdeos MDHRK e MDHKK foram mais dr´sticas do que as substitui¸˜es efetuadas no a co pept´ ıdeo MDHKR.3) .Rotulamento B Oaa: Ont: Olb: Glb: Gnt: Gaa: M ATG 032 032 ATG M L CTG 132 132 CTG L S TCC 311 311 TCC S A GCT 213 213 GCT A L CTC 131 131 CTC L A GCC 211 211 GCC A K AAA 000 000 AAA K P CCT 113 113 CCT P V GTC 231 231 GTC V G GGT 223 223 GGT G A GCC 211 211 GCC A A GCT 213 212 GCG A L CTC 131 131 CTC L A GCG 212 212 GCG A R CGA 120 120 CGA R S AGC 021 021 AGC S F TTC 331 331 TTC F S AGC 021 021 AGC S T ACT 013 013 ACT T S TCA 310 310 TCA S A GCC 211 211 GCC A Figura 6.T)= (0.C.G.G.C.1: Pept´ ıdeo reproduzido nos trˆs rotulamentos.C.2.T)= (0.G.2).1. todas as possica ca bilidades de trincas do res´ ıduo de alanina.Cap´ ıtulo 6. foi a unica sequˆncia da tabela e ´ e reproduzida pelo c´digo BCH.1.

e o B. esse descasamento o e o (“mismatch”) ´ conhecido como polimorfismo de unico nucleot´ e ´ ıdeo (SNP’s . Os resultados encontrados s˜o interessantes considerando o fato que os resultados dos a parˆmetros cin´ticos podem ser reproduzidos atrav´s de c´digos corretores de erros.Cap´ ıtulo 6. a e e o 6.single nucleotide 130 . surgiu atrav´s dos resultados obtidos no e ca e Cap´ ıtulo 4 onde observa-se que sempre existe uma diferen¸a de nucleot´ c ıdeo entre a sequˆncia e reproduzida pelo c´digo e a sequˆncia do NCBI.2 Estudo de Filogenia O estudo filogen´tico apresentado nesta se¸˜o.3: Efeitos das substitui¸˜es dos res´ co ıduos de argininas por alaninas e lisinas na clivagem pela MPP atrav´s de c´digos corretores de erros. No contexto biol´gico. An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e Sequência MDH1-21* em nucleotídeos ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCCGCCGAAGCTTCAGCACTTCAGCC Sequência MDHKR em nucleotídeos ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCACGAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCACGAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCCCGAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCCCGAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCGCGAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCGCGAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCTCGAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCTCGAAGCTTCAGCACTTCAGCC Sequência MDHRK em nucleotídeos ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCAAAAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCAAAGAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCCAAAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCCAAGAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCGAAAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCGAAGAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCTAAAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCTAAGAGCTTCAGCACTTCAGCC Sequência MDHKK em nucleotídeos ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCAAAAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCAAAAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCAAAGAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCAAAGAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCCAAAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCCAAAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCCAAGAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCCAAGAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCGAAAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCGAAAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCGAAGAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCGAAGAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCTAAAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCTAAAAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCTAAGAGCTTCAGCACTTCAGCC ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCTAAGAGCTTCAGCACTTCAGCC Tabela 6.

Cap´ ıtulo 6. at´ onde ´ de nosso conhecimento. Brand˜o. com a distribui¸˜o gamma ca (G) e com a propor¸˜o de s´ ca ıtios invari´veis (I). Em [64]. com forte suporte bootstrap. ´ apresentada pela primeira e e e vez a reprodu¸˜o de uma prote´ inteira atrav´s do c´digo Klein-linear resultando em uma ca ına e o extens˜o dos resultados apresentados neste trabalho. a O objetivo deste estudo filogen´tico ´ propor uma hip´tese evolutiva para as prote´ e e o ınas Malato desidrogenase 1 identificando o tempo de divergˆncia entre a prote´ original e a e ına prote´ gerada pelo c´digo. Este estudo foi realizado em parceria com o Laborat´rio de ına o o Biologia Molecular de Plantas da ESALQ/USP. O primeiro passo para a realiza¸˜o da an´lise filogen´tica foi a determina¸˜o de um modelo ca a e ca de substitui¸˜o que melhor se enquadrava aos nossos dados. An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e polymorphism). Para isso utilizamos o programa ca “MODELTEST 3. 3) atrav´s do polinˆmio primitivo p(x) = x10 + x9 + x8 + x7 + x6 + a e o o x4 + x3 + x + 1.0 co a [66]. O modelo indicado a a foi o GT R + G + I (General Time-Reversible model [69] e [70]. a A hip´tese filogen´tica foi proposta baseada em duas abordagens distintas. uma vez que a co emprega modelos de substitui¸˜o particulares para as an´lises filogen´ticas.3 se apresenta como um grupo externo a este ramo. grupos de organismos originados de um unico e ´ ancestral comum. o e utilizou o m´todo Neighbor-Joining para c´lculo da distˆncia evolutiva baseando-se no modelo e a a de Jukes-Cantor. do polinˆmio gerador g(x) = x10 + x9 + x8 + 3x7 + x6 + x4 + x3 + 3x + 1 e rotulamento C. A consistˆncia dos clados. 1013. A primeira. Uma an´lise mais profunda do ramo onde as sequˆncias de Arabidopsis thaliana foram a e agrupadas. Outra vantagem ca a e da an´lise filogen´tica com o m´todo Bayesiano ´ que este permite que os parˆmetros de a e e e a frequˆncia e de substitui¸˜o de nucleot´ e ca ıdeos sejam espec´ ıficos para cada conjunto de dados. Z2 × Z2 -linear e Klein-linear. Todas estas an´lises foram realizadas utilizando-se o programa MEGA 4. indica que a sequˆncia gerada pelo c´digo Klein-linear representado por “Code e o generated (890C-T)”na Figura 6. a A proposi¸˜o filogen´tica por m´todos Bayesianos foi realizada utilizando-se o programa ca e e 131 .06”[67] e [68] com os parˆmetros padr˜o do software. ou vice-versa. e o Para realizar o estudo filogen´tico apresentamos uma hip´tese filogen´tica para as prote´ e o e ınas Malato desidrogenase 1 de Arabidopsis thaliana reproduzida pelo c´digo Klein-linear com o parˆmetros (1023. conjecturamos que as sequˆncias do NCBI s˜o SNP’s das e a sequˆncias reproduzidas pelos c´digos Z4 -linear. grupos de t´xons que incluem todos os descendentes do ancestral comum mais e a recente de todos membros deste grupo. sob a responsabilidade do Dr. Marcelo M. Esta foi empregada para se investigar a os efeitos nos resultados da an´lise dos dados sob presun¸˜es mais restritas. foi calculada utilizando-se o teste n˜o param´trico de bootstrap [65] com a e 1000 replica¸˜es. Diante deste fato. A segunda abordagem foi a an´lise Bayesiana. As an´lises das distˆncias indicam que todas as sequˆncias de Arabidopsis thaliana s˜o a a e a monofil´ticas.

0x106 gera¸˜es. “Mrbayes CVS”[71] configurado para computa¸˜o paralela. Seis cadeias simultˆneas foram ca a conduzidas para 5.4.Cap´ ıtulo 6.8 [75].3: Phenogram inferred using the Neighbor-Joining method with the evolutionary distances computed using the Jukes-Cantor model.4. com amostragem de ´rvores a cada 500 ciclos. foi gerada utilizando-se o modelo Bayesiano de rel´gio ıvel e o n˜o restrito e n˜o relacionado presente no programa Beast version 1. a prote´ a a ına hipot´tica PH-1 Gibberella zeae (parcial da sequˆncia do RNA mensageiro) foi usada como e e um grupo externo. An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e Figura 6. ao n´ de esp´cies. Para propor este tempo de a divergˆncia utilizamos o tempo de divergˆncia entre fungos e plantas [72]. Novamente. a substitui¸˜o a a e ca de um simples nucleot´ ıdeo presente na sequˆncia gerada pelo algoritmo ´ relevante o suficiente e e para divergi-lo do ramo dos par´logos de Arabidopsis thaliana. musgos e plantas e e vasculares [72] e [73] e entre as eudicotes ros´ ıdeas e aster´ ıdeas [74] foi utilizado para estimar os tempos de divergˆncia para o grupo de Arabidopsis thaliana. As co a primeiras 2500 ´rvores foram descartadas como “burn in”. as sequˆncias de Arabidopsis thaliana formam um grupo e monofil´tico enraizado com forte suporte pela sequˆncia gerada atrav´s do c´digo Kleine e e o linear representada por “Code generated (890C-T)”na Figura 6. The percentage of replicate trees in which the associated taxa clustered together in the bootstrap test (1000 replicates). As an´lises combinadas do fenograma e da ´rvore filogen´tica apontam que. e Uma filogenia. Para todas as an´lises. A matriz de daa a 132 .

3 Simula¸˜es de Muta¸˜es em Sequˆncias de Direco co e cionamento Mitocondriais A maioria das prote´ ınas precursoras mitocondriais carregam a sequˆncia de direcionae mento na extens˜o N-terminal.4: Phylogenetic tree inferred by Bayesian analysis from the data set. Neste caso o resultado confirma a nossa hip´tese inicial de que as o sequˆncias do NCBI s˜o SNP’s das sequˆncias reproduzidas pelos c´digos Z4 -linear. dos moleculares (alinhamento das sequˆncias) usada segue o modelo de substitui¸˜o GT R+F .Cap´ ıtulo 6.000 gera¸˜es e 10% de burn-in inicial. mas possuem algumas caracter´ ısticas comuns. An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e Figura 6.000 de gera¸˜es. a O estudo infere que a prote´ gerada pelo c´digo ´ a ancestral da prote´ encontrada ına o e ına no banco de dados NCBI.. Values close to the branches indicate Bayesian posterior probability. Esta an´lise demonstrou que a co a o ramo com a sequˆncia gerada pelo c´digo ´. 6. Duas an´lises de MCMC (Markov chain Monte Carlo) foram reaa lizadas com 90. usando o modelo de especia¸˜o de Yule. por exemplo o 133 . Estas sequˆncias de direcionamento n˜o s˜o extremamente a e a a conservadas entre as prote´ ınas. Z2 × Z2 e a e o linear e Klein-linear. um milh˜o de anos mais e o e a antiga do que o ramo dos outros par´logos de Malato desidrogenase de Arabidopsis thaliana. com amostragem co ca das ´rvores a cada 10.000. aproximadamente. e ca implementado no BEAST.

Nesta se¸˜o apresentamos as simula¸˜es de muta¸˜es nos res´ ca co co ıduos de argininas nas sequˆncias de direcionamento mitocondriais SD01. em alguns casos a muta¸˜o pode ocorrer silenciosamente (quando a troca de ca nucleot´ ıdeos n˜o acarreta na troca do amino´cido). ou numa atividade anore ca e mal da mesma. SD08. Diante desta complexidade nas an´lises dos resultados das simula¸˜es de a co muta¸˜es n˜o levaremos em considera¸˜o se as trocas de amino´cidos ocorreram dentro da co a ca a mesma classe hidrof´bica ou hidrof´ o ılica. A primeira ´ quando a e co e a substitui¸˜o n˜o ´ permitida de maneira alguma. Z2 ×Z2 -linear e Klein-linear com parˆmetros (63. L. A segunda situa¸˜o ´ quando o u ca e ca e c´digo indica que a substitui¸˜o do amino´cido ´ poss´ atrav´s de um rearranjo nos o ca a e ıvel e 134 . e Embora a importˆncia destes res´ a ıduos (em especial a arginina que ´ mais estudada) seja e bem conhecida no contexto biol´gico [77]. Os resultados das simula¸˜es de muta¸˜es nas sequˆncias de direcionamento mitocondriais co co e mostrados nas Tabelas 6. se incidirem numa posi¸˜o “sens´ ca ıvel”da sequˆncia de DNA podem resultar na inativa¸˜o desta sequˆncia. Mesmo as chamadas substitui¸˜es conservadoras (entre res´ a co ıduos quimicamente semelhantes.Cap´ ıtulo 6. ou seja. Esta situa¸˜o ´ a mais dr´stica porque o c´digo indica que esta substitui¸˜o a ca e a o ca causa danos no conte´ do de informa¸˜o da sequˆncia.8 foram analisados considerando as altera¸˜es de nucleot´ a co ıdeos pelo fato do alfabeto do c´digo ser os nucleot´ o ıdeos e os seguintes aspectos matem´ticos: a o a u • O c´digo com o objetivo de manter a mesma estrutura matem´tica e o mesmo conte´ do de informa¸˜o da sequˆncia de direcionamento mostra qual substitui¸˜o de amino´cido ca e ca a ´ poss´ e ıvel ou n˜o. I). ou a invers˜o da carga el´trica do res´ a e ıduo). 3). o nosso objetivo ´ fornecer uma caracteriza¸˜o o e ca matem´tica no contexto de c´digos corretores de erros para a importˆncia dos res´ a o a ıduos de argininas. por exemplo leucina. An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e alto conte´ do dos res´ u ıduos de serina. mas tamb´m dependem altae mente do papel que esse res´ ıduo desempenha na estrutura e fun¸˜o da sequˆncia de DNA ca e em quest˜o. A dele¸˜o parcial da sequˆncia ou an´lises o ca e a de muta¸˜es mostram que a sua parte N-terminal cont´m informa¸˜o necess´ria para o recoco e ca a nhecimento e a importa¸˜o das prote´ ca ınas precursoras. Estes res´ ıduos representam um papel importante na importa¸˜o de prote´ ca ınas mitocondriais atrav´s da intera¸˜o e ca com as chaperonas citos´licas e mitocondriais. 57. Os resultados apresentaram trˆs situa¸˜es. Os efeitos fenot´ a a ıpicos s˜o em princ´ a ıpio tanto mais dr´sticos quanto maior for a diferen¸a na natureza qu´ a c ımica das cadeias laterais dos res´ ıduos dos amino´cidos em causa (por exemplo a substitui¸˜o de um res´ a ca ıduo polar por um apolar. o c´digo mostra que n˜o ca a e o a existe nenhuma palavra-c´digo quando ´ realizada a susbtitui¸˜o do amino´cido em o e ca a quest˜o. e isoleucina.4 ` 6. SD02. arginina. o a As muta¸˜es definem-se pela codifica¸˜o de um amino´cido diferente do amino´cido orico ca a a ginal/normal. SD13 e SD17 que foram e reproduzidas pelos c´digos Z4 -linear. alanina e leucina [76]. enquanto que a sua parte C-terminal cont´m sinais para a peptidase de processamento mitocondrial [76].

Do ponto de vista matem´tico. o Observe que a substitui¸˜o por lisina (quarta coluna da tabela) n˜o foi aceita pelo c´digo. indica pelo qual amino´cido (mais especificamente pela qual trinca) que deve a ser trocado para que o conte´ do de informa¸˜o da sequˆncia seja mantido. 7. An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e amino´cidos da sequˆncia. lisina (K). Cada um dos quatro res´ ıduos de argininas (R) foram substitu´ ıdos por res´ ıduos de ´cido asp´rtico (D). histidina (H) e alanina a a a a (A). teoricamente podemos sugerir que as substitui¸˜es de amino´cidos que co a exigem mudan¸as de rotulamento s˜o mais dr´sticas. 18 e 19 destaco cados na cor vermelha. Em um n´ maior a mudan¸a c a a ıvel c do rotulamento A para um rotulamento B ou C (ou vice-versa) ´ mais dr´stica do que e a uma mudan¸a do rotulamento B para C ou vice-versa. ´cido glutˆmico (E). De acordo com as colunas da tabela apresentada na Figura 6. consideramos todas as trincas relativas aos amino´cidos citados anteriormente. Sendo assim. O c´digo al´m de mostrar a posi¸˜o do amino´cido a ser a e o e ca a trocado. c a a mudan¸a de uma sequˆncia n˜o-linear (rotulamento A) para uma sequˆncia linear c e a e (rotulamento B e C) ou vice-versa ´ complexa. A terceira u ca e situa¸˜o ´ quando o c´digo aceita a substitui¸˜o sem alterar nenhum amino´cido na ca e o ca a sequˆncia. ou seja. o Observe que a sequˆncia possui quatro res´ e ıduos de argininas nas posi¸˜es 2. podemos interca e pretar (1a R. 2o aa. 135 . o c´digo indica que esta substitui¸ao n˜o causa danos no conte´ do e o c˜ a u de informa¸˜o da sequˆncia. Na primeira coluna da tabela temos a as seguintes informa¸˜es: R= a quantidade de res´ co ıduos de argininas na sequˆncia e P(T)= e posi¸˜o da arginina na sequˆncia e a sua respectiva trinca. Isto ´. Neste momento n˜o podemos concluir e a se esta mudan¸a na conforma¸˜o geom´trica acarreta em algum benef´ ou dano na c ca e ıcio importa¸˜o desta sequˆncia.4.Cap´ ıtulo 6. a e e Na substitui¸˜o do primeiro res´ ca ıduo de arginina que possui a trinca (AGA) correspono co dente ao segundo amino´cido da sequˆncia podemos observar que s´ algumas substitui¸˜es a e foram aceitas pelo c´digo: (D) com a trinca (GAC) e (A) com as trincas (GCT)-(GCG). ca e Na Tabela 6. cuja trinca correspondente ´ (AGA). ca e • Levando em considera¸˜o a propriedade geom´trica intr´ ca e ınsica relacionada com os rotulamentos. o c´digo confirma que caso ocorra esta substitui¸˜o tanto a ca e o ca estrutura matem´tica quanto o conte´ do de informa¸˜o da sequˆncia podem ser comprometia u ca e dos. A ca a o importˆncia do res´ a ıduo de arginina nesta posi¸˜o ´ evidenciada pelo c´digo que indica que ca e o o amino´cido (K) com a trinca (AAA) deve ser alterado pelo amino´cido (R) com a trinca a a (AGA) nesta posi¸˜o.4 realizamos as substitui¸˜es dos res´ co ıduos de argininas na sequˆncia de diree cionamento do organismo Brassica napus reproduzida pelo c´digo Z4 -linear (rotulamento A). AGA) como o primeiro res´ ıduo de arginina que corresponde ao segundo amino´cido da sequˆncia de direcionamento.

Na segunda coluna da tabela mostramos que a substitui¸˜o da trinca (GAC) do ´cido ca a asp´rtico (D) na segunda posi¸˜o da sequˆncia foi aceita pelo c´digo. indica que esta substitui¸˜o ´ poss´ somente quando u ca e ca e ıvel ocorrer um rearranjo nos nucleot´ ıdeos que representam o amino´cido da posi¸˜o 15. a ca o Ressaltamos que somente atrav´s de testes laboratoriais poderemos interpretar e compreender e melhor o que o modelo matem´tico descreve. neste momento n˜o podemos concluir se esta e o a mudan¸a na conforma¸˜o geom´trica acarreta em algum benef´ ou dano na importa¸˜o c ca e ıcio ca desta sequˆncia. An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e R D E K H P (T) GAC GAT GAA GAG AAA AAG CAT CAC GCT 1ª R 2º aa (AGA) (B)-15 S TCG TCT S (A)-2 K AAA AGA R (C)-3 S TCC ACC T (A)-1 F TTC ATC I A GCC GCA GCG (A)-7 R CGA CAA Q 2ª R 7º aa (CGA) - - - - - (C)-15 S TCG TAG sto - (C)-6 V GTC GGC G - - - (A)-9 S TCC TCG S - 3ª R 18º aa (CGC) - - - - - (A)-18 H CAC CGC R - 4ª R 19º aa (CGC) - - - (B)-12 A GCG TCG S - - - - - (A)-20 S AGC AGG R (A)-21 F TTT TTA L - - (A)-12 A GCG CCG P (A)-13 K AAG TAG sto Tabela 6.Cap´ ıtulo 6. a No caso da substitui¸˜o do primeiro res´ ca ıduo de arginina por alanina (sexta coluna da tabela) o c´digo foi capaz de reproduzir duas sequˆncias relacionadas as trincas (GCT) e o e (GCG). Para a trinca (GCT) a substitui¸˜o ´ poss´ somente se o terceiro amino´cido for ca e ıvel a 136 . a ca Em rela¸˜o a mudan¸a do rotulamento. do ponto de vista matem´tico inferimos que a ca c a conforma¸˜o geom´trica foi alterada para que se mantenha o mesmo conte´ do de informa¸˜o ca e u ca na sequˆncia.4: Resultados das substitui¸˜es dos res´ co ıduos de argininas. Observe que (B) − a ca e o 15 indica que o rotulamento foi trocado de A para B e que na posi¸˜o 15 da sequˆncia ca e de direcionamento ocorreu uma altera¸˜o na trinca do amino´cido S de (T CG → T CT ). Por tratar-se de resultados que n˜o constam anteriormente na literatura n˜o e a a temos parˆmetros de compara¸˜o para analisarmos os resultados do ponto de vista biol´gico. ca a Inferimos que o c´digo com o objetivo de manter a mesma estrutura matem´tica e o mesmo o a conte´ do de informa¸˜o da sequˆncia. Do ponto de vista biol´gico.

18 e 19 n˜o exigiram a troca co co co a de rotulamento. Enquanto que as substitui¸˜es nas posi¸˜es 2 e 19 (1a R e 4a R) foram aceitas a co co pelo c´digo com a mudan¸a do rotulamento A para B e com um rearranjo nos nuo c cleot´ ıdeos da posi¸˜o 15 e 12.5: a co 137 . As substitui¸˜es ca e co nas posi¸˜es 2 e 18 evidenciam a importˆncia do res´ co a ıduo de argina nesta posi¸˜o. napus. ´ a substitui¸˜o da posi¸˜o 7 (GCA). Conclu´ c ımos que a substitui¸˜o pela trinca (GCT) ´ mais dr´stica ca e a do que a substitui¸˜o pela trinca (GCG). consideramos estas substitui¸˜es as mais a o co dr´sticas. pela necessidade de trocar de rotulamento. 1.4: a co 1.Cap´ ıtulo 6. A substitui¸˜o por (K) ´ mais o e c ca e dr´stica que por (H) nesta posi¸˜o. e 1.3) Muta¸˜es por (A): As substitui¸˜es nas posi¸˜es 7. ca De uma forma bem geral podemos relatar as an´lises dos resultados das simula¸˜es da a co seguinte forma: 1. por este motivo consideramos esta substitui¸˜o a a ca menos dr´stica que a substitui¸˜o da posi¸˜o 12 que exige a troca de amino´cido a ca ca a A(GCG) → S(T CG). An´lises dos resultados das simula¸˜es da B. respectivamente. conclu´ ımos que as substitui¸˜es mais dr´stica co a se encontram na posi¸˜o 2 (GCT) pela troca de rotulamento e na posi¸˜o 19 (GCG) ca ca pela inser¸˜o de um c´don de parada. Tabela 6. neste caso n˜o ocorre a e a a mudan¸a de rotulamento. batatas. enquanto que na posi¸˜o 2 a troca pela trinca (GCT) exige a mudan¸a ca c do rotulamento A por C. Conclu´ u ca e ımos que as substitui¸˜es co nas posi¸˜es 2. Tabela 6. ca Observe que o c´digo indica que nesta posi¸˜o ´ necess´rio o amino´cido (R) para que o o ca e a a conte´ do de informa¸˜o da sequˆncia seja preservado. S(T CC) → S(T CG).1) Muta¸˜es por (D) e (E): As substitui¸˜es relativas `s posi¸˜es 7 e 18 da sequˆncia co co a co e (2a R e 3a R) n˜o foram aceitas pelo c´digo. No caso da trinca (GCG) a substitui¸˜o ´ poss´ ca e ıvel somente trocando o s´timo amino´cido R (CGA) por Q (CAA). 18 e 19 s˜o mais dr´sticas que a substiui¸˜o da posi¸˜o 7. Deste modo. a e 2. do ponto de vista ca o ca matem´tico. Observe que a substitui¸˜o na posi¸˜o ca ca ca 2 n˜o exige a troca de amino´cidos. porque n˜o a e ca ca a foi necess´rio nem a troca de rotulamento e nem a troca de amino´cido para manter a a a estrutura matem´tica da sequˆncia. An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e trocado de S(T CC) → T (ACC). A substitui¸˜o mais simples.2) Muta¸˜es por (K) e (H): As substitui¸˜es na posi¸˜o 2 (2a R) foram aceitas pelo co co ca c´digo atrav´s da mudan¸a de rotulamento A para C. An´lises dos resultados das simula¸˜es da I. pelo fato do c´digo ter inserido um c´don de a ca o o parada (TAG) na posi¸˜o 15 da sequˆncia S(T CG) → sto(T AG). Nestes casos co a a ca ca nenhum rearranjo dos nucleot´ ıdeos foi poss´ para manter a estrutura matem´tica da ıvel a sequˆncia. como consequˆncia desta substitui¸˜o temos a mudan¸a e ca c do rotulamento A para o rotulamento C.

pois o c´digo n˜o foi capaz de encontrar nehuma palavra-c´digo que mantenha o a o a estrutura matem´tica com esta substui¸˜o. Na posi¸˜o 3 as substitui¸˜es por (E) a ca ca co s˜o menos dr´sticas que as substitui¸˜es por (D). Na posi¸˜o 7 da sequˆncia a ca e substitui¸˜o por (E) ´ mais dr´stica que por (D). As substitui¸˜es na posi¸˜o 18 apresenta ser mais dr´stica ca e co ca a na troca por (D) do que por (E). neste caso e ca e inferimos que a troca pela trinca (GAC) ´ menos danosa do que a troca pela trinca e (GAT). 2. As subso a a titui¸˜es nas posi¸˜es 3. 11.1) Muta¸˜es por (D) e (E): As substitui¸˜es mais dr´sticas se encontram nas posi¸˜es co co a co 11 e 19. An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e R P (T) 1ª R 3º aa (AGG) GAC (C)-6 S TCT ACT T (B)-12 A GCC GAC D D GAT (A)-6 S TCT CCT P GAA (B)-18 R CGT TGT C E GAG (B)-5 S TCT TCC S AAA (B)-6 S TCT CCT P K AAG (B)-3 K AAG AGG R CAT (B)-8 F TTC TGC C H CAC - GCT - GCC (A)-4 H CAC CAG Q A GCA (C)-6 S TCT CCT P GCG (A)-21 F TTC TAC Y 2ª R 7º aa (CGA) - - - - - - - (A)-3 R AGG CGG R - - - 3ª R 11º aa (CGC) - - - - (B)-16 G GGG GTG V - (B)-14 T ACA GCA A (B)-18 H CAT CGT R (B)-1 M ATG GTG V (B)-11 H CAC CGC R (B)-21 F TTC CTC L (B)-19 H CAC CGC R - - - (C)-17 W TGG TAG sto 4ª R 18º aa (CGT) - - (B)-2 F TTC TGC C (A)-15 M ATG GTG V - (B)-2 F TTC TAC Y - - - - 5ª R 19º aa (CGC) - - - - (B)-3 R AGG ATG M - - - - - Tabela 6. Outro ponto a ser observado nesta posi¸˜o ´ a troca por (D). Do ponto de vista matem´tico. pelo fato de n˜o exigirem a troca de a a co a rotulamento. a troca de um rotulamento B por C ´ menos a e complexa do que a troca de um rotulamento B por A.2) Muta¸˜es por (K) e (H): As substitui¸˜es na posi¸˜o s˜o as mais dr´sticas. e a 2. pois n˜o exige nenhuma troca de amino´cido para manter a estrutura matem´tica a a a da sequˆncia. 18 e 19 podem ser consideradas menos dr´sticas por n˜o co co a a 138 . Observe a troca por (E) com a trinca (GAG) nesta posi¸˜o ´ a mais simca e ples. Neste caso apenas um rearranjo dos ca e a amino´cidos da posi¸˜o 12 A(GCC) → D(GAC) ´ necess´rio para garantir o conte´ do a ca e a u da informa¸˜o da sequˆncia. pois co co ca a a o c´digo n˜o aceita nenhum rearranjo do rotulamento ou dos amino´cidos.Cap´ ıtulo 6.5: Resultados das substitui¸˜es dos res´ co ıduos de argininas. No caso da troca por (E) nesta posi¸˜o. o c´digo ca o mostra preferˆncia pela trinca (GAA) por n˜o necessitar da troca de rotulamento.

An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e R D E K H A P (T) GAC GAT GAA GAG AAA AAG CAT CAC GCT GCC GCA GCG 1ª R 6º aa (AGA) (C)-3 E GAA CAA Q (B)-4 I ATT ACT T (B)-10 L TTA TCA S (B)-19 K AAA GAA] E (B)-4 I ATT GTT V (B)-6 K AAA AGA R (B)-12 K AAA] AGA R (C)-4 I ATT ATC I (B)-10 L TTA TTG L (B)-2 Q CAA CAT H (B)-8 F TTC TTA L - 2ª R 12º aa (AGA) - - - - - - - Tabela 6. An´lises dos resultados das simula¸˜es da S. a 2.6: Resultados das substitui¸˜es dos res´ co ıduos de argininas.3) Muta¸˜es por (A): Nas posi¸˜es 18 e 19 as substitui¸˜es s˜o mais dr´sticas. Ressaltamos que ca u ca e neste momento n˜o estamos considerando as trocas de amino´cidos que ocorreram a a dentro da mesma classe. Na co co co a a substitui¸˜o da posi¸˜o 11 ocorre a inser¸˜o de um c´don de parada (TAG) na posi¸˜o ca ca ca o ca 17 da sequˆncia e a troca do rotulamento B por C. Neste caso uma a ca an´lise laboratorial ´ essencial para analisar se a sequˆncia montada somente com os a e e 16 primeiros amino´cidos ´ suficiente ou n˜o para realizar a importa¸˜o da prote´ a e a ca ına. 3. por´m neste momento ca ca e n˜o podemos inferir se esta troca ser´ prejudicial ao mecanismo de importa¸˜o.6: a co 139 . mudarem de rotulamento. Do ponto de vista matem´tico esta e a troca de rotulamento n˜o ´ dr´stica e sobre a inser¸˜o de um c´don de parada nesta a e a ca o posi¸˜o podemos inferir que pode acarretar danos ao mecanismo de importa¸˜o se os ca ca amino´cidos seguintes (R R P F) forem essenciais para a importa¸˜o. a posi¸˜o 11 por (H) pela trinca (CAC). conforme mencionamos anteriormente este tipo de an´lise a torna-se complexo por depender de v´rios aspectos. cerevisiae. Por´m as substitui¸˜es na posi¸˜o 3 por (K) pela trinca e co ca (AAG). Na a a ca posi¸˜o 3 as substitui¸˜es relativas `s trincas (GCC) e (GCG) s˜o mais dr´sticas do ca co a a a que a substitui¸˜o pela trinca (GCA). a posi¸˜o 18 por (H) pela trinca (CAT) ca ca e a posi¸˜o 19 por (H) pela trinca (CAC) mostram a importˆncia do res´ ca a ıduo de arginina nesta posi¸˜o para garantir o conte´ do de informa¸˜o da sequˆncia. Tabela 6.Cap´ ıtulo 6. A substitui¸˜o da posi¸˜o 7 exige somente a troca de rotulamento. pois a troca do rotulamento B por A ´ mais ca e complexa do que a troca do rotulamento B por C.

inferimos que a troca de rotulamento ´ mais danosa ca e que um simples rearranjo dos amino´cidos. Tabela 6. thaliana.2) Muta¸˜es por (K) e (H): Nas posi¸˜es 6 e 12 por (K) com a trinca (AAA) o c´digo co co o aponta a importˆncia da arginina nestas posi¸˜es.1) Muta¸˜es por (D) e (E): As substitui¸˜es na posi¸˜o 6 e 12 por (D) s˜o dr´stica. co co ca a a enquanto que as substitui¸˜es por (E) exigem um rearranjo dos amino´cidos.7: Resultados das substitui¸˜es dos res´ co ıduos de argininas. 3. Na posi¸˜o 12 a substitui¸˜o mais simples a ca ca ocorreu na troca por (K) pela trinca (AAG). An´lises dos resultados das simula¸˜es da A.3) Muta¸˜es por (A): As substitui¸˜es por (A) s˜o as mais dr´sticas. a ca 3. o ca u ca e 4. Na substitui¸˜o da posi¸˜o 6 por a co ca ca (K) pela trinca (AAG) o c´digo exige apenas a troca de rotulamento enquanto que pela o troca por (H) pela trinca (CAC) o c´digo exige apenas um rearranjo dos amino´cidos o a na posi¸˜o 2 Q(CAA) → H(CAT ).Cap´ ıtulo 6. An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e R D P (T) GAC GAT GAA 1ª R 2º aa (AGA) (B)-10 A GCC GTC V E GAG (A)-3 S TCT TAT Y (B)12 A GCG ACG T K AAA AAG (B)-2 K AAA AGA R (B)-10 A GCC GCT A H CAT - A CAC (B)-18 R CGC CGA R GCT - GCC - GCA (C)-19 R CGT CCT P GCG - 2ª R 7º aa (CGA) (B)-2 R AGA AGT S - - - 3ª R 18º aa (CGC) - - - 4ª R 19º aa (CGT) - - (B)-14 Q CAG CAC H (B)-13 N AAT AAG K (A)-18 R CGC TGC C (C)-4 M ATG ACG T (B)-13 N AAT AAA K - - - - - - - - - (B)-14 Q CAG CAT H (B)-5 L CTC CTT L (B)-19 H CAT CGT R (B)-18 H CAC CGC R (B)-6 (C)18 V R GTC CTT CGC V GGC G - - - - - - (C)-15 A GCG GGG G - Tabela 6. na posi¸˜o 12 para trinca (GAA) o c´digo indica uma troca dos amino´cidos na ca o a posi¸˜o 10 L(T T A) → S(T CA) e para a trinca (GAG) o c´digo aponta uma troca nos ca o amino´cidos da posi¸˜o 4 I(AT T ) → V (GT T ). c a 3. observe que o c´digo aceita a troca sem o a mudan¸a do rotulamento e sem rearranjos nos amino´cidos. porque o c´digo co co a a o n˜o consegue encontrar nenhuma palavra-c´digo.7: a co 140 . com esta substitui¸˜o que preserve o conte´ do de informa¸˜o da sequˆncia. Por exemco a plo. dentro da capacidade de corre¸˜o do a o ca c´digo.

a a e a 5. respectivamente. An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e 4. 13 e 16 evidenciam a importˆncia do res´ co a ıduo de arginina nestas posi¸˜es. co ca co 4. 8. co Do ponto de vista matem´tico esta troca n˜o ´ dr´stica. As trocas na posi¸˜o 2 por (K) com a trinca (AAA). Inferimos que estas substitui¸˜es nestas posi¸˜es s˜o dr´sticas pera o o co co a a sistema de importa¸˜o.1) Muta¸˜es por (D) e (E): As substitui¸˜es nas posi¸˜es 7 e 13 s˜o as mais dr´sticas.2) Muta¸˜es por (K) e (H): As substitui¸˜es por (H) com a trinca (CAT) na posi¸˜o co co ca 19 e a trinca (CAC) nas posi¸˜es 7. Na posi¸˜o 19 a troca por (E) exige a mudan¸a do rotulamento C por a e a ca c A. Na posi¸˜o a a ca 19 as substitui¸˜es por (E) s˜o menos dr´sticas que por (D).8: a co 5. ca 5. co co co a a Nas posi¸˜es 8 e 16 a troca por (E) ´ mais danosa do que a troca por (D). A substitui¸˜o com a co a a ca trinca (GAG) ´ mais dr´stica do que com a trinca (GAA) por necessitar da troca de e a rotulamento B por A. a ca 4. matematicamente inferimos que a troca de rotulamento ´ mais prejudicial ao sistema de importa¸ao. ca 141 . Nas posi¸˜es 7 e 18 temos e c˜ co que a troca por (D) e por (E) s˜o as mais dr´sticas.3) Muta¸˜es por (A): As substitui¸˜es nas posi¸˜es 7 e 18 s˜o as mais dr´sticas. inferimos que esta troca n˜o ´ dr´stica. Nas co co co a a posi¸˜es 2 e 19 a troca de (A) com a trinca (GCA) muda o rotulamento de B para C. Nas demais posi¸˜es as substitui¸˜es foram aceitas sem a mudan¸a do co co c rotulamento. inferimos que esta troca n˜o ´ prejudicial ao a e sistema de importa¸˜o. a posi¸˜o 18 por ca ca (H) com a trinca (CAC) e a posi¸˜o 19 por (H) com a trinca (CAT) evidenciam a ca necessidade do res´ ıduo de argina nesta posi¸˜o.2) Muta¸˜es por (K) e (H): A posi¸˜o 7 foi a que menos aceitou as substitui¸˜es por (K) e (H). sapiens. este caso a troca ´ mais dr´stica porque ocorre uma troca de sequˆncia linear para e a e uma sequˆncia n˜o-linear. Tabela 6.Cap´ ıtulo 6.1) Muta¸˜es por (D) e (E): Na posi¸˜o 2 a troca por (D) ´ dr´stica enquanto que co ca e a a troca por (E) ´ poss´ realizando um rearranjo nos amino´cidos.3) Muta¸˜es por (A): Todas as substitui¸˜es realizadas por alanina n˜o foram aceitas co co a pelo c´digo. o ca inferimos que para o caso onde ocorreu a troca de rotulamwento B por C esta troca n˜o seria prejudicial ao sistema de importa¸˜o. e a 5. Na posi¸˜o 16 a troca por (K) com a trinca (AAA) exige co ca somente a troca do rotulamento C por B. Observe que no e ıvel a caso da troca por (E) com a trinca (GAG) o c´digo aceitou a substitui¸˜o em dois o ca rotulamentos ao mesmo tempo (A)-3 e (B)-12. An´lises dos resultados das simula¸˜es da H. Outro ponto ´ a substitui¸˜o por (H) ca e ca com a trinca (CAC) onde o c´digo aceita a substitui¸˜o em dois rotulamentos B e C. Nos dois co e casos a troca por (D) exige a troca do rotulamento C por B.

etc. verificar quais amino´cidos poderiam ser substitu´ e a ıdos em cada posi¸˜o da ca sequˆncia. analisar as posi¸˜es mais protegidas co ca a co das sequˆncias.Cap´ ıtulo 6. analisar as co muta¸˜es de transi¸˜o e transvers˜o que ocorreram. Neste momento n˜o consideramos os aspectos qu´ a ımicos. o a 142 . Diante das diversas possibilidades de interpreta¸˜es uma intera¸˜o entre os e co ca resultados obtidos via c´digos corretores de erros e as an´lises laboratoriais destes resultados o a ´ fundamental para uma melhor compreens˜o do modelo. bem como para refinar o modelo acrescentando aspectos f´ ısicos. Essa parceria entre engenharia. qu´ ımicos e biol´gicos de acordo com o interesse em quest˜o. f´ ısicos ou biol´gicos dos resultao dos. Ressaltamos que diversos aspectos podem ser explorados neste contexto de muta¸˜es.8: Resultados das substitui¸˜es dos res´ co ıduos de argininas. e a matem´tica e biologia ´ necess´ria para um avan¸o nas interpreta¸˜es dos dados obtidos no a e a c co presente trabalho. An´lises de Muta¸˜es e de Polimorfismos em Sequˆncias de DNA a co e R P (T) 1ª R 7º aa (CGC) GAC - D GAT - E K H GAA GAG AAA AAG CAT CAC (C)-7 H CAC CGC R (C)-8 H CAC CGC R (C)-13 H CAC CGC R (C)-16 H CAC CGC R GCT - GCC - A GCA - GCG - 2ª R 8º aa (CGC) (B)-11 L CTT CGT R - - - - - - - - - - 3ª R 13º aa (CGC) - - - - - - - - - - - 4ª R 16º aa (CGC) (B)-15 V GTC GAC D - - - (B)-8 R CGC CGG R - - - - - - 5ª R 19º aa (CGT) - - (A)-2 P CCC CCT P - - - (C)-19 H CAT CGT R - - - - - Tabela 6. co tais como: verificar que tipos de muta¸˜es seriam mais danosas ao sistema.

usando os conceitos da o a e teoria de comunica¸˜o propomos um modelo para o sistema de codifica¸˜o e decodifica¸˜o ca ca ca do mecanismo de importa¸˜o de prote´ ca ınas mitocondriais. garantindo assim. Tom22 interage com precursores contendo sequˆncias de direcionamento internas ou e no amino-terminal. O decodificador ´ representado pelo poro geral de inser¸˜o conhecido como o e ca 143 . 2. O mapeamento entre a estrutura alg´brica do c´digo o e o BCH e o c´digo gen´tico ´ vista como um mapeamento casado. 3) usado pelo c´digo sobre a estrutura de anel). a menos de um isomorfismo. Este modelo assemelha-se ao mais eficiente sistema de comunica¸˜o digital.Cap´ ıtulo 7 Conclus˜es e Perspectivas Futuras o Um dos grandes desafios em teoria de codifica¸˜o gen´tica ´ descobrir uma estrutura de ca e e c´digos corretores de erros na estrutura do DNA. Essa propriedade matem´tica o e e a implica que a estrutura alg´brica do codificador seja a mesma. a menor complexidade poss´ do sistema. Estas sequˆncias s˜o identificadas como palavras-c´digo de um e a o c´digo G-linear sobre a extens˜o de um anel de Galois. ca O sistema de codifica¸˜o consiste de um mapeador (respons´vel por transformar os nuca a cleot´ ıdeos (A. Este sistema que consiste de um demodulador ´ representado pelas prote´ e ınas Tom 70 e Tom20 que formam o complexo receptor principal das prote´ ınas precursoras mitocondriais. Este trabalho mostra a existˆncia de c´digos o e o corretores de erros associados com as sequˆncias de DNA (sequˆncias de direcionamento) e e e suas respectivas fitas complementares atrav´s de seus polinˆmios primitivos/geradores e e o seus polinˆmios rec´ o ıprocos. o um codificador (c´digo BCH) e um modulador (c´digo gen´tico). 1. T ) no alfabeto (0. enquanto que Tom20 reconhece especificamente pr´-sequˆncias aminoe e terminais. C. O mapeador e o codificador o o e de um c´digo BCH formam o codificador de um c´digo G-linear. uma importante classe dos o o c´digos geometricamente uniformes. ca ıvel O sistema de decodifica¸˜o baseia-se em uma analogia entre o processo de decodifica¸˜o ca ca (Berlekamp-Massey para An´is) utilizado em sistemas de comunica¸˜es e o complexo TOM e co que ´ um dos translocons respons´veis por reconhecer as prote´ e a ınas precursoras mitocondriais. G. Al´m disso. e que a da constela¸˜o de sinais.

Enquanto que a e os demais modelos utilizam um processo estat´ ıstico para analisar muta¸˜es em sequˆncias de co e DNA. e a As contribui¸˜es deste trabalho encontram-se nos Cap´ co ıtulos 3.1 Desenvolvimento do Trabalho O Cap´ ıtulo 2 ´ introdut´rio. in vitro evolution ou por manipula¸˜o gen´tica. enquanto que o receptor representa o subcompartimento mitocondrial para onde a prote´ est´ sendo enviada. 4. respectivamente) s˜o classificadas como a sequˆncias lineares. O objetivo o ca o deste cap´ ıtulo ´ introduzir o leitor aos temas de car´ter interdisciplinar do presente trabalho. o modelo do presente trabalho utiliza um processo determin´ ıstico para realizar estas an´lises. sejam elas atrav´s da co e e evolu¸˜o biol´gica. ca o c´digos geometricamente uniformes. ına a O grande diferencial deste modelo est´ na possibilidade de identificar uma estrutura a matem´tica bem definida nas sequˆncias de DNA reproduzidas pelo modelo. o o e Nos Cap´ ıtulos 4 e 5 desenvolvemos uma rotina computacional respons´vel pela codifica¸˜o a ca e decodifica¸˜o das sequˆncias de direcionamento. nele apresentamos de forma sucinta alguns conceitos sobre os e o t´picos abordados neste trabalho referentes a importa¸ao de prote´ o c˜ ınas mitocondriais. As sequˆncias de direcionamento que foram reproduzidas pelo c´digo Z4 -linear a e (c´digo BCH sobre anel e rotulamento A) s˜o classificadas como sequˆncias n˜o-lineares. direcionamos o estudo quanto ao entendimento das e a muta¸˜es e polimorfismos nas sequˆncias reproduzidas por c´digos corretores de erros. Estes algoritmos al´m ca e e de identificar uma estrutura de c´digos corretores de erros nas sequˆncias de direcionamento. o a e a o Enquanto. ca o ca e 7. No Cap´ ıtulo 3 propomos um modelo de comunica¸˜o gen´tica para o no sistema de importa¸˜o de prote´ ca e ca ınas organelares.Cap´ ıtulo 7. bem como a parte da decodifica¸˜o ca destas sequˆncias. sob o ponto de vista de c´digos corretores de erros. tais como: c´digos G-lineares. Este modelo destaca-se dos demais por fazer o uso de conceitos recentee mente usados na teoria da comunica¸˜o. At´ onde ´ de nosso conhecimento. e principalmente. co e o No Cap´ ıtulo 6 propomos uma interpreta¸˜o das muta¸˜es e polimorfismos ocorridos nas ca co sequˆncias de DNA. o e permitem uma nova abordagem para a classifica¸˜o destas sequˆncias sob um ponto de vista ca e o matem´tico. a teoria de c´digos corretores de erros e a decodifica¸˜o de c´digos corretores de erros. no momento n˜o existe um m´todo matem´tico a e e a e a que calcule deterministicamente as muta¸˜es em sequˆncias de DNA. que as sequˆncias reproduzidas pelos c´digos Z2 ×Z2 -linear e Klein-linear (c´digos e o BCH sobre anel rotulamento B e rotulamento C. O modelo detalha a parte de codifica¸˜o das sequˆncias de direcionamento que s˜o respons´veis pelo ca e a a encaminhamento das prote´ ınas nas respectivas organelas. respectivamente. a importa¸˜o de prote´ ca ınas mitocondriais. mais especificamente. mapeamento casado. bem como uma e o 144 . Destas an´lises. c´digos sobre an´is. Conclus˜es e Perspectivas Futuras o complexo GIP (GIP “general insertion pore”). 5 e 6.

Este trabalho contribui da seguinte forma: co e • O uso de conceitos modernos de sistemas de comunica¸˜es para o sistema de comuco nica¸˜o biol´gico. do ponto de vista do ca ca processo de importa¸˜o de prote´ ca ınas mitocondriais. do ponto de vista do proca c˜ cesso de importa¸˜o de prote´ ca ınas organelares. Os resultados encontrados nas ca e aplica¸˜es da Se¸˜o 6. ca ca 7. Este resultado mostra que o c´digo foi capaz de gerar a prote´ que o ına existia a milh˜es de anos atr´s e que a prote´ que ´ encontrada hoje nos bancos de dados o a ına e ´ um polimorfismo da prote´ gerada pelo c´digo. ca o • Desenvolvimento e verifica¸˜o de uma teoria de codifica¸ao.1 mostram que um procedimento sistem´tico utilizando c´digos correco ca a o tores de erros pode ser usado para gerar e reproduzir sequˆncias de DNA com o objetivo de e analisar as substitui¸˜es de nucleot´ co ıdeo(s) ou de amino´cido(s) no interior destas sequˆncias a e propiciando a realiza¸˜o de an´lises de polimorfismo(s) ou muta¸˜o(˜es). 145 .3 mostramos que o modelo e ına o c˜ pode ser usado para simular muta¸˜es em sequˆncias de DNA (sequˆncias de direcionamento) co e e considerando os aspectos matem´ticos. O estudo de filogeca a ca o nia.2 Contribui¸˜es do Trabalho co Os resultados do presente trabalho contribuem para os campos da teoria da comunica¸˜o ca gen´tica e da teoria da codifica¸˜o gen´tica. podendo contribuir para uma melhor compreens˜o a a dos mecanismos de importa¸˜o e para uma redu¸˜o de tempo e custos laboratoriais.Cap´ ıtulo 7. • Constru¸˜o e an´lises de sequˆncias de direcionamento reproduzidas por c´digos correca a e o tores de erros para a importa¸˜o de prote´ ca ınas organelares. • Desenvolvimento e verifica¸˜o de uma teoria de decodifica¸˜o. infere que a prote´ gerada pelo c´digo ´ a ancestral da prote´ encontrada ca ına o e ına no banco de dados NCBI. • Desenvolvimento de um modelo de comunica¸˜o para o sistema de importa¸˜o de ca ca prote´ ınas mitocondriais. Se¸˜o 6. Conclus˜es e Perspectivas Futuras o interpreta¸˜o filogen´tica dos resultados obtidos no trabalho. Na Se¸ao 6. bem como para o campo da bioinform´tica e ca e a computacional biol´gica atrav´s da aplica¸˜o dos princ´ o e ca ıpios das teorias da codifica¸˜o e da ca comunica¸˜o ao estudo do mecanismo de importa¸˜o de prote´ ca ca ınas mitocondriais e `s an´lises a a de muta¸˜es em sequˆncias de direcionamento. • Fortalecimento da hip´tese de existˆncia de c´digos concatenados na estrutura do DNA o e o (“nested codes”).2.

poder˜o contribuir para o desenvolvimento nesta ´rea. e o e 7. a ca • A constru¸˜o de c´digos sobre an´is mostrou-se muito promissora para a reprodu¸˜o de ca o e ca sequˆncias de DNA. • Classifica¸˜o das sequˆncias de direcionamento. consideramos de grande importˆncia a flexibiliza¸˜o destes c´digos e uma a ca o an´lise detalhada dos resultados desta flexibiliza¸˜o. e e ca o a por exemplo sobre corpos. ca a co ıdeos sint´ticos via laborat´rio e via e o • Compara¸˜o das an´lises de muta¸˜es em oligopept´ c´digos corretores de erros. • Identifica¸˜o de uma rela¸˜o matem´tica entre as fitas codantes e n˜o codantes atrav´s ca ca a a e dos seus polinˆmios primitivos/geradores e seus rec´ o ıprocos. Por´m a constru¸˜o de c´digos sobre outras estruturas matem´ticas. o • A restri¸˜o quanto ao estudo apenas de sequˆncias de direcionamento com comprimenca e tos iguais a 63 nucleot´ ıdeos no presente trabalho deve-se ao fato da complexidade do assunto. Conclus˜es e Perspectivas Futuras o • Constru¸˜o e an´lises do processo de decodifica¸˜o das sequˆncias de direcionamento ca a ca e reproduzidas por c´digos corretores de erros para a importa¸˜o de prote´ o ca ınas mitocondriais. o ca ca ca e • Explora¸˜o do uso do modelo de codifica¸˜o para investigar a rela¸˜o filogen´tica entre as sequˆncias reproduzidas pelos c´digos e as sequˆncias do NCBI. sob o ponto de vista matem´tico: ca e a sequˆncias n˜o-lineares (c´digo Z4 -linear). atrav´s do seu arranjo padr˜o. a a • Estudo da prote¸˜o desigual em rela¸˜o aos nucleot´ ca ca ıdeos associados `s sequˆncias de a e DNA.Cap´ ıtulo 7.3 Propostas Futuras Apresentamos nesta se¸˜o algumas avalia¸˜es acerca do trabalho desenvolvido e. 146 . algumas sugest˜es para pesquisas futuras. • A capacidade de corre¸˜o dos c´digos que reproduziram as sequˆncias de direcionamento ca o e ´ igual a d ≥ 3. Pelo fato e destes c´digos. Consideramos apenas os erros iguais a t = 1 neste trabalho. sequˆncias lineares (c´digos Z2 × Z2 -linear e a o e o e Klein-linear). Salientamos que ´ de grande interesse que os resultados apresentados neste e trabalho sejam generalizados para diversas sequˆncias biol´gicas com diversos comprie o mentos. decorca co rentes dessas. serem capazes de corrigir alguns padr˜es o e a o de 2 erros.

At´ onde ´ de nosso conhecimento. sejam elas atrav´s da evolu¸˜o co e e ca biol´gica. folha beta paralela e folha beta anti-paralela. ca o c 147 .4 Considera¸˜es Finais co Com a necessidade da redu¸˜o de tempo e custos nos experimentos laboratoriais. Esta metodologia poder´ ser utilizada como o c a um teste para diagn´stico nos diferentes organismos a fim de detectar em fases iniciais a o predisposi¸˜o ou o diagn´stico de doen¸as. n˜o existe um m´todo matem´tico que cale e a e a cule deterministicamente as muta¸˜es em sequˆncias de DNA. etc). ncRNA. maior afinidade por substrato. conduzindo a uma metodologia para a realiza¸˜o e o ca de an´lises mutacionais/polimorfismos nestas sequˆncias. animais. permite gerar muta¸˜es com ganho de fun¸˜es e co co para as prote´ ınas. plantas e microrganismos favorecem ou c predisp˜em ao desenvolvimento de doen¸as. a e 7. incluindo prote´ ınas completas e tamb´m sequˆncias e e de direcionamento para organelas. etc. in vitro evolution ou por manipula¸˜o gen´tica al´m do m´todo apresentado no o ca e e e presente trabalho. pept´ ıdios hormonais. “protein motifs”. DNA repetitivo. RNA e prote´ e ınas. poder˜o ser realizados estudos de predi¸˜o de muta¸˜es/polimorfismos a ca co em sequˆncias de DNA. Conclus˜es e Perspectivas Futuras o • Estudo sobre as semelhan¸as entre a topologia das estruturas prim´rias das sequˆncias c a e reproduzidas pelos c´digos Z4 -linear. Como resultado. implicando em uma consider´vel redu¸˜o de experimentos laboa ca ratoriais extensivos. maior atividade espec´ ıfica. o preca sente trabalho prop˜e uma abordagem matem´tica capaz de gerar e reproduzir sequˆncias de o a e DNA. Este m´todo pode ser aplicado em projetos e pesquisas com a finalidade de criar novas e fun¸˜es para uma determinada sequˆncia de DNA atrav´s das muta¸˜es segundo as necesco e e co sidades comerciais e cient´ ıficas. Al´m disso. e com um apria e moramento do modelo. ´ ıntrons. como maior estabilidade. atrav´s de c´digos corretores de erros. Z2 × Z2 -linear e Klein-linear e as estruturas seo cund´rias da alpha-h´lice. Outra aplica¸˜o importante ´ utilizar esta abordagem matem´tica em estudos indivica e a duais e populacionais a fim de verificar se a ocorrˆncia de muta¸˜es/polimorfismos em genes e co associados a doen¸as em seres humanos.Cap´ ıtulo 7.

. Meisinger. 40.. S. [5] Alberts. 2005. pp. Baltimore.. Current Biology. C. Matsudaira. M. no. K. [7] Almeida. Tese ca ına de Doutorado. H¨nlinger. N. Origem. pp. 13. vol. [10] Pfanner. 326-337. Editora Artmed. pp. Vol. Pfanner. 2008. Keith. 4a Edi¸˜o.. 162. M.. May. NCSU. Martin. Peter New York and London. Raff. Ryan.. Bruce. Nature Structural & Molecular Biology. Johnson.. Boutry. [4] G. Lewis. thesis. “Application of information theory to DNA sequence analysis: a review”. David.. Molecular Cell Biology.. N. [8] Duby. Darnell. Pedro Bernaola-Galvan. 2002. G. J. Comparative analysis of information based models for initiating protein translation in Escherichia coli K-12. 1187.. M. “Does information theory explain biological evolution?”. 7. [9] Truscott. vol. pp. Lithgow. K. pp. 1044-1048.. Walter. Editora 4th ed. “Assembling the Mitochondrial Outer Membrane”.. Paul.. ESALQ/USP 2004.. Battail.S. Wiedemann. “Preu o protein Translocase of the Outer Mitochondrial Membrane: Molecular Dissection and 149 . 29. D. N. vol. “Mitochondrial protein import machinery and targeting information”. [2] Ramon Roman-Roldan. Oliver. James E. J. [3] Elebeoba E. Roberts. Brix. 4. Battail. Brandner. Arnold. Evolu¸˜o e Direcionamento da Prote´ THl1 Em Plantas. no. Europhysics Letters. vol. Plant Science. 11.. 343-348. T. Alexander. J. An Outline of Informational Genetics. 2003. 1997. 2004. Lawrence. 1996. Dezembro 1998. Molecular Biology of the Cell. M¨ ller H. ca [6] Lodish. A.. “Mechanisms of Protein Import into Mitochondria”. 477-490. Pattern Recognition. Pfanner.Referˆncias Bibliogr´ficas e a [1] G. Harvey. Zipursky.. P. T. N. N. Morgan & Claypool Publishers.1194. Berk. and Jose L. [11] Dekker. Julian. T.

vol. no. UNICAMP. Biochemical Society. “Prevalence of positive selection among nearly neutral amino acid replacements in Drosophila”. 485-489.363. W. Brunner.1.. M. D... D. Maarse. 622-633. Journal Molecular Biology.S. vol. 7528-7536. A. 2005. [14] Ryan.9-10.. W. 1959. 1987. W. Biol. Dekker. R. Voos.3214-3221. “The Specific Mutagenic Effect of Base Analogues on Phage T4”. no.. Nature. pp.. Leung.. The EMBO Journal.. C. R. Pfanner. Molecular and Cellular Biology. 558-561. N. 1999. Molecular and Cellular Biology.. Y. S.. vol. B. pp. [13] Mokranjac. E. The Journal of Biological Chemistry.. 1998. “The mitochondrial protein import motor”. N. 2007.. [20] Freese.. “Distinct steps in the import of ADP/ ATP carrier into mitochondria”. 1019-1023. 943-949.. 1998.. vol. C. of PNAS. 150 . “Tom 22 o is a multifunctional organizer of the mitochondrial preprotein translocase”. 18.Referˆncias Bibliogr´ficas e a Assembly of the General Import Pore Complex”. [22] Ionov.. Peinado. Malkhosyan. R. A. pp. Ryan.381. Brix..18. L. S. E. Moczko. pp.12. “The Difference between Spontaneous and Base-Analogue Induced Mutations of Phage T4”. K. [16] Maxi Endres. pp. Neupert. [15] Strub. S.. H. A. Modelo Matem´tico Para a Previs˜o de Recombina¸˜o S´ a a ca ıtio-Espec´ ıfica do DNA.A. Wagner. Chem. pp.. J.. Hartl. pp. Vol.. 2000.... L. no. M. Vol. P. Proc. R. vol. Parsch J. Shibata. “Protein import into mitochondria”.. M. Meijer. Neupert. M. [18] Rocha. vol. 1993. Pfanner. M. D.. pp. 1999. M. Tese de Mestrado..N.W.. 401.. Perucho. “Ubiquitous somatic mutations in simple repeated sequences reveal a new mechanism for colonic carcinogenesis”. [19] Freese.... vol. [12] Van Wilpe. Meisinger. H¨nlinger. M. J. vol. 1959. E. 6504-6510. no. A.1. 33. pp. Neupert. A. A.Jensen. pp. 6752. Nature. 87-105.45.262.18. J. pp... Zhang Z. J.104. Lim. T. “Transport of the ADP/ATP carrier of mitochondria from the TOM complex to the TIM22·54 complex”. 178-187. [17] Pfanner. [21] Sawyer. 6515-6524.. S.. Proceedings of the National Academy of Sciences U. 2004. Guiard. S. vol.. “Characterizacion of the mitochondrial inner membrane translocase complex: the Tim23p hydrophobic domain interacts with Tim17 but not with other Tim23p molecules”.

Referˆncias Bibliogr´ficas e a [23] Galvani, A.; Slatkin, M.; “Evaluating plague and smallpox as historical selective pressures for the CCR5 − ∆32 HIV-resistance allele”, Proceedings of the National Academy of Sciences U.S.A, vol.100, pp. 15276-15279, 2003. [24] C.E.Shannon, “A Mathematical theory of communication”, Bell Sust., Tech. J., vol.27, pp. 397-423, julho 1948, and pp. 623-656, outubro 1948. [25] M.J.E. Golay, “Notes on digital coding”, Proc. IEEE, vol.37, pp.657, 1949. [26] R.W. Hamming, “Error detecting and error correcting codes”, Bell Syst. Tech. J., vol.29, pp.147-160, 1950. [27] G. Ungerboeck, “Channel coding with multilevel/phase signals”, IEEE Trans. Inform. Theory, vol.IT-28, p. 56-67, 1982. [28] G. D. Forney, Jr., “Geometrically uniform codes”, IEEE Trans. Inform. Theory, vol.IT37, pp.1241-1260, 1991. [29] I.N. Herstein, Topics in Algebra, John Wiley and Sons, New York, 1975. [30] J.B. Fraleigh, A First Course in Abstract Algebra, Addison-Wesley Publishing Co., 1982. [31] P.R. Barbosa, Constru¸˜o de C´digos Z2k -pseudolineares atrav´s de Alica¸˜es ca o e co Isom´tricas e Extens˜es de Galois sobre An´is Locais, Tese de Mestrado, FEECe o e UNICAMP, 2000. [32] H.A. Loeliger, “Signal setes matched to groups”, IEEE Trans. Inform. Theory, vol.IT-37, pp. 1675-1682, 1991. [33] J.R.Gerˆnimo, Extens˜o da Z4 -Linearidade via grupo de simetrias , Tese de Doutorado, o a FEEC-UNICAMP, 1997. [34] A.R. Hammons, Jr., A.R. Calderbank, P.V. Kumar, N.J.A. Sloane and P. Sol´, “The e Z4 -linearity of Kerdock, Preparata, Goethals, and related codes”, IEEE Trans. Inform. Theory, vol.IT-40, pp.301-319, 1994. [35] J.C.Interlando, Uma contribui¸˜o aos C´digos Lineares sobre An´is Locais, Tese de ca o e Doutorado, FEEC-UNICAMP, 1994. [36] J.C.Interlando, R.Palazzo Jr., J.R.Gerˆnimo, A.A.Andrade, O.M.Favareto, e T.P. da o N´brega Neto, C´digos Corretores de Erros sobre Estruturas de Corpos, An´is e Grupos, o o e DT-FEEC-UNICAMP, 1998. 151

Referˆncias Bibliogr´ficas e a [37] B.R.McDonald, Finite Rings with Identity, Marcel Dekker, New York, 1974. [38] P.Shankar, “On BCH codes over arbitrary integer rings”, IEEE Trans. Inform. Theory, vol. IT-25, pp.480-483, July 1979. [39] W.W.Peterson and E.J.Weldon, Jr., Error Correcting Codes, 2nd.ed.,MIT Press, Cambridge, Mass., 1972. [40] G.D.Forney Jr, “On decoding BCH codes”, IEEE Trans. Inform. Theory, vol.IT-11, pp.549-557, October 1965. [41] J.C. Interlando, R. Palazzo, Jr., and M. Elia, “On the decoding of Reed-Solomon and BCH codes over integer residue rings”, IEEE Trans. Inform. Theory, vol.43, pp. 10131021, 1997. ca a ca ca o [42] J.C.Interlando, Uma contribui¸˜o ` Constru¸˜o e Decodifica¸˜o de C´digos Lineares sobre Grupos Abelianos via Concatena¸˜o de C´digos sobre An´is de Inteiros Residuais, ca o e Tese de Doutorado, Fee-Unicamp, Dezembro de 1994. [43] E.R.Berlekamp, Algebraic Coding Theory, McGraw Hill, New York, 1968. [44] J.L.Massey, “Shift register synthesis and BCH decoding”, IEEE Trans. Inform. Theory, vol. IT-15, pp.122-127, January 1969. [45] E.Weiss, First course in Algebra and Number Theory, Academic Press, 1971. [46] G.L. Feng and K.K. Tzeng, “A generalization of the Berlekamp-Massey Algorithm for Multisequence Shift-Register Synthesis with Applications to Decoding Cyclic Codes”, IEEE Trans. Inform. Theory, vol.37, no 5, pp.1274-1287, September 1991. [47] C.R.P. Hartmann and K.K. Tzeng, “Generalizations of the BCH Bound”, Inform. Contr., 20, No 5, pp. 489-498, June 1972. [48] B.R.McDonald, Linear Algebra over Commutative Rings, Marcel Dekker, New York: Marcel Dekker, 1993. [49] A.A.Andrade, Uma contribui¸˜o ` Constru¸˜o e Decodifica¸˜o de C´digos de Bloco Linca a ca ca o eares sobre An´is Finitos, Tese de Doutorado, FEEC-UNICAMP, 1996. e [50] Thomas D. Schneider. “Information content of individual genetic sequences”. Journal of Theoretical Biology, 189:427-441, 1997. 152

Referˆncias Bibliogr´ficas e a [51] Thomas D. Schneider, Gary D. Stormo, Larry Gold, and Andzej Dhrenfeucht. “Information Content of Binding Sites on Nucelotide Sequences”. Journal of Molecular Biology, vol.188, pp. 415-431, 1986. [52] Thomas D. Schneider and R. Michael Stephens. “Sequence Logos: a NewWay to Display Consensus Sequences”. Nucleic Acids Research, vol.18, no. 20, pp. 6097-6100, 1990. [53] H. Yockey, Information Theory and Molecular Biology, Cambridge University Press: Cambridge, 1992. [54] D.R. Forsdyke, “Are introns in-series error detecting sequences?”, Intl. J. Theor. Biol., vol.93, pp. 861-866, 1981. [55] D.R. Forsdyke, “Conservation of stem-loop potential in introns of snake venom phospholipase A2 genes. An application of FORS-D analysis”, Mol. Biol. and Evol., vol.12, pp. 1157-1165, 1995. [56] Rzeszowska-Wolny, J., “Is genetic code error-correcting?”, J. Theor. Biol., vol.104, pp. 701-702, 1983. [57] L.S. Liebovitch, Y. Tao, A.T. Todorov, and L. Levine, “Is there an error correcting code in the base sequence in DNA?”, Biophysical Journal, vol.71, pp. 1539-1544, 1996. [58] G.L. Rosen, “Examining coding structure and redundancy in DNA”, IEEE Engineering in Medicine and Biology, vol.25, pp. 62-68, 2006. [59] G. Battail, “Information Theory and error correcting codes in genetics and biological evolution”, Introduction to Biosemiotics. Springer: New York, USA, 2006. [60] E. May, M. Vouk, D. Bitzer and D. Rosnick, “An error-correcting code framework for genetic sequence analysis”, Journal of the Franklin Institute, vol.34, pp. 89-109, 2004. [61] Mac Donnaill D.A., “Why nature chose A, C, G, U/T: an error-coding perspective of nucleotide alphabet composition”. Origins of Life and Evolution of the Biosphere, vol.33, pp. 433-455, 2003. [62] R. S´nchez, L.A. Perfetti, R. Grau, E. Morgado, “A new DNA sequences vector space a on a genetic code Galois field”, MATCH Commun. Math. Comput. Chem., vol.54, 2005. [63] T. Niidome, S. Kitada, K. Shimokata, T. Ogishima, and A. Ito, “Arginine residues in the extension peptide are required for cleavage of a precursor by mitochondrial processing peptidase”, The Journal of Biological Chemistry, vol.269, pp. 24719-24722, 1994. 153

4.311. Evolution. “Discrete mutations in the presequence of potato formate dehydrogenase inhibit the in vivo targeting of GFP fusions into mitochondria”. Biochemical and Biophysical Research Communications. 1985. 154 . 2. 34. 2007. Ian Small. [67] Posada. 783-791.”. [76] Francoise Ambard-Bretteville. E. vol. Thorne. 754-755. D. pp. vol. “Molecular evidence for the early colonization of land by fungi and plants. Tese e o e de Doutorado. 2004. vol. 24. Geiser. pp. Andreas D. 214. vol.. ModelTest Server: a web-based tool for the statistical selection of models of nucleotide substitution online. 2006. “Molecular evidence on plant divergence times”. UNICAMP. 2010.. “MEGA4: Molecular evolutionary genetics analysis (MEGA) software version 4. 1129-33. B.91. M. Unit 6 5. “A molecular timescale of eukaryote evolution and the rise of complex multicellular life. Using MODELTEST and PAUP* to select a model of nucleotide substitution. J. S. [71] Huelsenbeck. 5532. et al.. [66] Tamura. 111-115. Blair. M. L. [74] Sanderson. 966-971. J. B. Chapter 6.. F. vol. et al.142. and von Haeseler. et al. J. pp. vol. and A. Baxevanis . W700-703. 1596-1599. 2007. “Confidence-Limits on Phylogenies . [65] Felsenstein. S. 2003. Existˆncia de C´digos Corretores de Erros em Sequˆncias de DNA.. Nucleic Acids Res. Olivier Grandjean and Catherine Colas des Francs-Small. J.Referˆncias Bibliogr´ficas e a [64] Faria. Science.293 . pp. pp. BMC Evol Biol.an Approach Using the Bootstrap”. D... A. vol. Comput Appl Biosci. “Simulating efficiently the evolution of DNA sequences”. et al. [68] Posada.. pp. Mol Biol Evol. 485-501. Current protocols in bioinformatics / editoral board.11. J. 2003. BMC Evol Biol. L.0”. pp. F. D. and Ronquist. pp.. K. Bioinformatics.. “MRBAYES: Bayesian inference of phylogenetic trees”. 2004.7. et al. 2001. no. J. D. 39. vol. M. [73] Heckman. [75] Drummond. Rambaut “BEAST: Bayesian evolutionary analysis by sampling trees.”. 1990. [70] Schoniger. American Journal of Botany. C. J Theor Biol.P.17. et al. 1995. [72] Hedges. “The general stochastic model of nucleotide substitution”. 2001. A.”. [69] Rodriguez. 1656-1665.

pp. “How can organele e lar protein N-terminal sequences be dual targeting signals? In silico analysis and mutagenesis approach”.369. 356-367. Biol.. 2007. Laurence Mar´chal-Drouard and Anne-Marie Duchˆne. vol. 155 . Mol.Referˆncias Bibliogr´ficas e a [77] Claire Pujol. J.