Professional Documents
Culture Documents
atica
Modelo de Sistema de
Comunicacoes Digital para o Mecanismo de
Importacao de Protenas Mitocondriais
Atraves de Codigos Corretores de Erros
Autora: Andrea Santos Leite da Rocha
Orientador: Prof. Dr. Reginaldo Palazzo J unior
(DT-FEEC/UNICAMP)
Co-Orientador: Prof. Dr. Marcio de Castro Silva Filho
(ESALQ/USP)
Banca Examinadora:
Prof. Dr. Reginaldo Palazzo J unior FEEC/UNICAMP
Prof. Dr. Geraldo Pompeu Junior UFSCar/Sorocaba
Prof. Dr. Max Henrique Machado Costa FEEC/UNICAMP
Prof. Dr. Weiler Alves Finamore PUC/RJ
Prof. Dr. Romis Ribeiro Faissol Attux FEEC/UNICAMP
Tese apresentada na Faculdade de Engenha-
ria Eletrica e de Computa cao da Universi-
dade Estadual de Campinas, como parte dos
requisitos exigidos para a obten cao do ttulo
de Doutor em Engenharia Eletrica.
Campinas - SP
Fevereiro de 2010
.
Para o meu lho, Henrique Esteban.
Roubei tantas horas ao teu convvio
para poder escrever esta tese.
Por isso ela te pertence, meu amor.
Dedico
i
Agradecimentos
1
Ao Prof. Dr. Reginaldo Palazzo J unior pela sua excelente orienta cao, disposi cao, paciencia
e compreensao durante o desenvolvimento deste trabalho. Em especial, `a sua amizade e `a
sua conan ca depositada em mim. Meu grande exemplo de humildade e bondade. Sempre
me recordarei, com muito carinho e saudades, das nossas reunioes regadas a muitos cafes,
das nossas agradaveis conversas e das boas risadas. Deixo com voce a minha eterna gratidao.
Ao meu co-orientador Prof. Dr. Marcio de Castro Silva Filho pelas nossas conversas e
pela oportunidade desta parceria.
Aos professores membros da banca examinadora pela disponibilidade e aten cao dispensada
ao trabalho, bem como por suas valiosas sugestoes. Em particular, `a professora Carmen
Bertuzzo pelo carinho com que sempre nos tratou.
Ao Prof. Dr. Geraldo Pompeu Jr., pelo seu carinho e dedica c ao ao ensino da matematica
neste pas. Em especial pelo meu encaminhamento ao mundo academico. Voce sera o meu
eterno padrinho academico.
Ao Prof. Dr. Walter Borelli pelas otimas coversas sobre diversos assuntos, mas principal-
mente, pelas otimas gargalhadas. Pe co a Deus que conserve este otimo senso de humor tao
peculiar.
Ao Dr. Marcelo M. Brandao pela ajuda na escrita da se cao sobre logenia e por estar
sempre disposto a ajudar.
Ao meu marido Gerson pelo seu constante apoio no decorrer deste trabalho. Em especial
pela sua paciencia nos momentos difceis. Sem a sua compreensao e companheirismo este
trabalho jamais seria concretizado. Muito obrigada por ser a minha alma gemea.
Aos meus pais, Maria e Antonio, por terem me ensinado a nunca desistir dos meus sonhos.
A minha doce irma por sempre ter conado em mim e me elogiado em excesso. A admira cao
recproca e mais que verdadeira, tenho muito orgulho em ser sua irma.
`
A minha grande amiga irma, Luzinete, sempre tao querida e prestativa durante todos
estes anos de convivencia. Uma das pessoas mais dignas e corretas que ja conheci. Este
trabalho so foi possvel devido `a sua parceria e `as nossas longas conversas sobre o mundo
biologico e matematico. Com voce deixo o meu eterno carinho, amor e respeito.
`
As minhas amigas, Wanessa e Clarice, pelos otimos momentos em que passamos estes
anos. Por todos os nossos almo cos, cafes e batidinhas de pernas, principalmente por
sempre terem me ajudado quando precisei dando-me for ca para continuar. Claro que nao
1
Este trabalho foi nanciado pelo Conselho Nacional de Desenvolvimento Cientco e Tecnol ogico - CNPq
iii
poderia me esquecer, da nossa hilaria visita `a clnica de reprodu cao humana. Guardo a nossa
amizade no meu cora cao.
Aos meus amigos, Joao Henrique e Giuliano, meus dois irmaozinhos que tornaram esta
jornada inesquecvel e muito prazerosa. Com voces deixo as minhas melhores recorda coes.
`
A minha amiga Lucila por estar sempre disposta a ajudar. Admiro a sua dedica cao e a
sua competencia.
Aos funcionarios da FEEC que de alguma forma contribuiram para a realiza cao deste
trabalho. Em especial, a minha querida Noemia que tornou-se uma grande amiga no decorrer
destes anos.
`
A FAPESP pelo suporte junto ao projeto tematico 02/07473-7.
De modo geral, agrade co a todos meus amigos e colegas que, direta ou indiretamente,
contriburam para realiza cao deste trabalho.
iv
Resumo
Um dos desaos em biologia matematica e mostrar a existencia de qualquer forma de
codigos corretores de erros na estrutura do DNA. Usando os conceitos da teoria de comu-
nica cao, propomos um modelo para o sistema de codica cao e decodica cao do mecanismo
de importa cao de protenas mitocondriais similar a um sistema de comunica coes digital. Este
modelo consiste de um mapeador responsavel por transformar os nucleotdeos (A, C, G, T) no
alfabeto (0, 1, 2, 3) usado pelo codigo sobre a estrutura de anel; um codicador (codigo BCH);
e um modulador (codigo genetico, tRNA e rRNA). O processo de decodica cao baseia-se em
uma analogia entre o processo de decodica cao do algoritmo Berlekamp-Massey para aneis e
o complexo TOM (complexo ancorado na membrana externa da mitocondria responsavel por
auxiliar na importa cao das protenas precursoras). Neste processo temos um demodulador
(protenas Tom 70 e Tom20), um decodicador (o complexo GIP - poro geral de inser cao) e o
receptor (subcompartimento mitocondrial). Neste trabalho mostramos que as sequencias de
DNA (sequencias de direcionamento) sao identicadas como palavras-codigo de um codigo
G-linear sobre a extensao de um anel de Galois. Alem disso, essas sequencias de DNA e suas
tas complementares estao relacionadas matematicamente atraves dos polinomios primitivos
e seus polinomios recprocos, respectivamente. Um estudo logenetico sugere que a protena
malato desidrogenase da Arabidopsis thaliana encontrada no banco de dados NCBI e uma
sequencia derivada da protena malato desidrogenase reproduzida pelo codigo corretor de
erros. Este modelo tambem reproduz com notavel precisao os parametros cineticos baseados
em substitui coes de aminoacidos em oligopeptdeos sinteticos. Apresentamos, pela primeira
vez, a existencia de codigos corretores de erros associados com as sequencias de DNA, os
quais sugerem fortemente a existencia de codigos concatenados no genoma. Os resultados
apresentados neste trabalho contribuem para o desenvolvimento de um procedimento sis-
tematico que podera ser empregado em analises de muta c oes/polimorsmos com aplica coes
na engenharia genetica.
Palavras-chave: Codigos corretores de erros, codigo BCH, sequencias de DNA, trans-
porte de protenas, muta coes, polimorsmo.
v
Abstract
One of the puzzling problems in mathematical biology is to show the existence of any form
of error-correcting code in the DNA structure. Using information theory considerations we
propose a model for the biological coding system similar to that of a digital communication
system. This model consists of a mapper (transformations from the set of nucleotides either
to the set (0,1,2,3) ring; an encoder (BCH code); and a modulator (genetic code, tRNA and
rRNA). The decoding process is based on the Modied Berlekamp-Massey algothm in an
analogy with the TOM complex (translocase of the mitochondrial outer membrane). In this
process we have a demodulator (Tom 70 and Tom 20 proteins), a decoder (GIP complex) and
the receiver (mitochondrion). In this work we show that DNA sequences (targeting sequences)
are identied as codewords of a G-linear code over Galois ring extensions. In addition, these
DNA sequences and their complementary strands are mathematically related to the primitive
polynomials and their reciprocal polynomials, respectively. A phylogenetic study suggest that
the MDH protein, Arabidopsis thaliana, found in the NCBI databank is a derived sequence
of the MDH protein reproduced by the error correcting code. This model also reproduces
with remarkable accuracy kinetic parameters based on amino acid substitutions on synthetic
oligopeptides. We show, for the rst time, the existence of error-correcting codes associated
with DNA sequences, which strongly infer on the existence of nested codes within the genome.
The results presented in this work contribute to the development of a systematic procedure
which may be employed in the mutations/polymorphisms analysis with applications in genetic
engineering.
Key-words: Error correction code , BCH code, DNA sequences, transport proteins,
mutations, polymorphisms.
vii
Conte udo
Dedicatoria i
Agradecimentos iii
Resumo v
Abstract vii
Lista de Figuras xii
Lista de Tabelas xv
1 Introducao 1
1.1 Os Avan cos Historicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Modelos Propostos na Literatura . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Proposta de um modelo de comunica cao genetica para a importa cao
de protenas organelares . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Apresenta cao do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Descri cao do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Elementos de Biologia e Codigos Corretores de Erros 13
2.1 Importa cao de Protenas Organelares . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 A Molecula de DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.2 Importa cao de Protenas em Mitocondrias . . . . . . . . . . . . . . . 17
2.1.3 Muta coes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Codigos Corretores de Erros . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.1 Estruturas Algebricas . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2 Aneis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.3 Codigos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.2.4 Codigos Geometricamente Uniformes . . . . . . . . . . . . . . . . . . 44
ix
Conte udo
2.2.5 Codigos Cclicos Sobre Aneis de Inteiros Residuais . . . . . . . . . . . 48
2.2.6 Codigos BCH sobre Aneis . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3 Decodica cao do Codigo BCH sobre Anel . . . . . . . . . . . . . . . . . . . . 55
2.3.1 O Processo de Decodica cao . . . . . . . . . . . . . . . . . . . . . . . 56
2.3.2 Gera cao de Sequencias . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3 Modelo de um Sistema de Comunicacao para a Importacao de Protenas
Organelares 69
3.1 Analogias entre um Sistema de Informa cao Genetica e um Sistema de Comu-
nica cao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.1.1 O dogma central da biologia molecular . . . . . . . . . . . . . . . . . 69
3.1.2 O dogma central da teoria de comunica coes . . . . . . . . . . . . . . 71
3.1.3 Analogias entre sistema de informa cao genetica e o sistema de comu-
nica coes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.2 Proposta de um Sistema de Comunica cao para a Importa cao de Protenas . . 73
3.2.1 Sistema de comunica cao digital . . . . . . . . . . . . . . . . . . . . . 73
3.2.2 Sistema de comunica cao biologico . . . . . . . . . . . . . . . . . . . . 74
3.2.3 O codigo e a estrutura matematica . . . . . . . . . . . . . . . . . . . 76
3.2.4 Parametros do codigo . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.2.5 Modelo do sistema de comunica cao biologico . . . . . . . . . . . . . . 78
4 Geracao das Sequencias de Direcionamento 83
4.1 Algoritmo de Codica cao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2 Resultados da Codica cao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.2.1 Dependencia entre os codigos corretores de erros e os polinomios prim-
itivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.2.2 Rotulamento das sequencias de DNA . . . . . . . . . . . . . . . . . . 94
4.2.3 Rela cao matematica entre as tas codante e nao codante . . . . . . . 95
4.2.4 Alto uxo de informa cao - baixa redundancia . . . . . . . . . . . . . 96
4.2.5 Classica cao das sequencias de direcionamento sob o ponto de vista
matematico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5 Regeneracao de Sequencias de DNA 107
5.1 Algoritmo de Decodica cao . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.2 Resultados da Decodica cao . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.3 Reprodu cao das Sequencias de DNA atraves do LFSR . . . . . . . . . . . . . 118
x
Conte udo
6 Analises de Mutacoes e de Polimorsmos em Sequencias de DNA 125
6.1 Analises da Importancia dos Resduos de Argininas . . . . . . . . . . . . . . 126
6.1.1 Resultados das analises via laboratorio . . . . . . . . . . . . . . . . . 127
6.1.2 Resultados das analises via codigos corretores de erro . . . . . . . . . 128
6.2 Estudo de Filogenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
6.3 Simula coes de Muta coes em Sequencias de Direcionamento Mitocondriais . . 133
7 Conclusoes e Perspectivas Futuras 143
7.1 Desenvolvimento do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 144
7.2 Contribui coes do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
7.3 Propostas Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
7.4 Considera coes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Referencias Bibliogracas 148
xi
Lista de Figuras
1.1 Teoria da informa cao baseada no modelo de Roman-Roldan. . . . . . . . . . 6
1.2 Modelo proposto pela May, [3]. . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Modelo de um sistema de comunica cao para a importa cao de protenas or-
ganelares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1 Formas tautomericas das bases. . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Estrutura tridimensional do DNA. . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3 Fitas complementares de DNA. . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 Micrograa eletronica de uma mitocondria. Lodish et al., Molecular Cell Bi-
ology, 5th Edition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5 Os translocons de protenas na mitocondria. Pfanner et al., Assembling the
Mitochondrial Outer Membrane, Nature Structural & Molecular Biology,
Vol. 11, pp. 1044-1048, 2004. . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6 O complexo TOM. Dekker et al., Preprotein Translocase of the Outer Mito-
chondrial Membrane: Molecular Dissection and Assembly of the General Im-
port Pore Complex, Molecular and Cellular Biology, Vol. 18, pp. 6515-6524,
1998. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.7 O complexo TIM23. Mokranjac, et al., Protein import into mitochondria Bio-
chemical Society, Vol. 33, pp. 1019-1023, 2005. . . . . . . . . . . . . . . . . . 22
2.8 Diferentes rotas para a importa cao de protenas mitocondriais. Lodish et al.,
Molecular Cell Biology, 5th Edition. . . . . . . . . . . . . . . . . . . . . . . . 24
2.9 Importa cao de protenas para o interior da matriz. Lodish et al., Molecular
Cell Biology, 5th Edition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.10 Importa cao de protenas para membrana externa. Pfanner, Assembling the
Mitochondrial Outer Membrane, Nature Structural & Molecular Biology, Vol.
11, pp. 1044-1048. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.11 Importa cao de protenas para o espa co intermembranas. Lodish et al., Molec-
ular Cell Biology, 5th Edition. . . . . . . . . . . . . . . . . . . . . . . . . . . 27
xiii
Lista de Figuras
2.12 Importa cao de protenas para a membrana interna. Lodish et al., Molecular
Cell Biology, 5th Edition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.13 LFSR (linear feedback shift-register) de comprimento L. . . . . . . . . . . 66
3.1 Dogma central da teoria de comunica coes. . . . . . . . . . . . . . . . . . . . 71
3.2 Modelo de um sistema de comunica coes de informa cao genetica. . . . . . . . 73
3.3 Diagrama de blocos de um sistema de comunica cao. . . . . . . . . . . . . . . 74
3.4 Modelo de um sistema de comunica cao para importa cao de protenas. . . . . 75
3.5 Sistema de comunica coes digital. . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.6 Modelo proposto para codica cao biologica. . . . . . . . . . . . . . . . . . . 79
3.7 Modelo proposto para decodica cao biologica. . . . . . . . . . . . . . . . . . 80
4.1 Rotulamentos A, B e C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.2 Rela cao entre a dupla ta do DNA. O codigo faz a leitura das palavras-codigos
no sentido da esquerda para `a direita. A cor vermelha indica onde ocorreu a
diferen ca de nucleotdeos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.3 Rela cao entre as tas codante e nao codante. O codigo faz a leitura das
palavras-codigos no sentido da esquerda para `a direita. A cor vermelha indica
onde ocorreu a diferen ca de nucleotdeos. . . . . . . . . . . . . . . . . . . . . 97
5.1 SD NCBI em SD reproduzida pelo codigo. . . . . . . . . . . . . . . . . . . . 116
5.2 SD reproduzida pelo codigo em SD NCBI. . . . . . . . . . . . . . . . . . . . 117
5.3 Fitas codante e nao codante. . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.4 Vetor u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.5 Vetor u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.6 LFSR ta codante 5 para 3. . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.7 LFSR ta nao codante 5 para 3. . . . . . . . . . . . . . . . . . . . . . . . . 122
5.8 Fita codante 5 para 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.9 Reprodu cao atraves do LFSR da ta codante 5 para 3. . . . . . . . . . . . 123
6.1 Peptdeo reproduzido nos tres rotulamentos. . . . . . . . . . . . . . . . . . . 129
6.2 Sequencia reproduzida pelo codigo BCH. . . . . . . . . . . . . . . . . . . . . 129
6.3 Phenogram inferred using the Neighbor-Joining method with the evolutionary
distances computed using the Jukes-Cantor model. The percentage of replicate
trees in which the associated taxa clustered together in the bootstrap test (1000
replicates). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
6.4 Phylogenetic tree inferred by Bayesian analysis from the data set. Values close
to the branches indicate Bayesian posterior probability.. . . . . . . . . . . . . 133
xiv
Lista de Tabelas
2.1 Arranjo padrao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.1 M = mitocondria, C = cloroplasto, RE = retculo endoplasmatico. . . . . . . 84
4.2 Elementos de F
64
em nota cao de r-uplas . . . . . . . . . . . . . . . . . . . . 86
4.3 Elementos de GR
se
(ab) = (a)(b)
35
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
para todo a, b G. (Note que o produto ab ocorre em G, enquanto que o produto (a)(b)
ocorre em G
).
Denicao 2.2.15. Um isomorsmo de G em G
= G
.
2.2.2 Aneis
Denicao 2.2.16. Um anel R, +, ) e um conjunto nao vazio R juntamente com duas
opera coes binarias + e denidas sobre R, as quais chamamos de adi cao e multiplica cao, tal
que os seguintes axiomas sao satisfeitos:
1. R, +) e um grupo abeliano;
2. A opera cao de multiplica cao e associativa, isto e, (ab)c = a(bc), a, b, c R;
3. Para todo a, b, c R, e valida a lei distributiva `a esquerda, a(b + c) = (ab) + (ac), e `a
lei distributiva `a direita, (a +b)c = (ac) + (bc).
`
As vezes dizemos apenas R e um anel ou falamos do anel R, por simplica cao de
linguagem. Isto pressupoe, naturalmente, um par de opera coes em R com as propriedades
citadas.
Exemplo 2.2.5. Sao exemplos de aneis: Z, +, ), Q, +, ), R, +, ), C, +, ) e o conjunto
dos polinomios da forma a
0
+ a
1
x + a
2
x
2
+ + a
n
x
n
na variavel x e coecientes inteiros,
com as opera coes de adi cao e multiplica cao de polinomios.
Exemplo 2.2.6. O conjunto 0, 1, . . . , n 1 forma um anel sob as opera coes de soma e
produto modulo n.
Denicao 2.2.17. Dizemos que Q e um subanel de um anel R se Q R e Q tambem forma
um anel sob as opera coes + e , herdadas de R.
Denicao 2.2.18. Sejam R e R aneis. Uma fun cao (mapeamento) : R R
e um
homomorsmo se as condi coes abaixo sao satisfeitas, para a, b R:
1. (a +b) = (a) + (b);
2. (ab) = (a)(b).
Denicao 2.2.19. Um isomorsmo de R e R
e um homomorsmo : R R
bijetor.
Dizemos entao que R e R
sao isomorfos.
36
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
Denicao 2.2.20. Um anel R em que a multiplica cao e comutativa, isto e, ab = ba para todo
a, b R, e chamado um anel comutativo. Se alem disso, R possuir elemento identidade
em rela cao `a multiplica cao, que sera denotado por 1, dizemos que R e um anel comutativo
com unidade.
Teorema 2.2.6. Se R e um anel com unidade, entao esta unidade 1 e a unica identidade
multiplicativa do anel.
Denicao 2.2.21. Um subanel Q de um anel R e um ideal ` a direita (ou ` a esquerda)
em R se Qb Q (bQ Q) para todo b R. Se Q e simultaneamente um ideal `a direita e `a
esquerda em R, dizemos que Q e um ideal em R.
Sejam R um anel, Q um ideal em R e x um elemento em R. Assim, Q dene uma rela cao
de equivalencia em R, dada por:
x x
x x
Q.
Estas classes de equivalencia sao os conjuntos:
x = x + Q = x +q [ q Q
e sao chamadas classes laterais aditivas de Q em R. Todo elemento em R esta contido em
exatamente uma classe lateral x. Denotamos o conjunto de todas essas classes laterais por
R/Q. A partir das opera coes de adi cao e multiplica cao em R, denimos duas opera coes em
R/Q da seguinte forma:
x +y = (x + Q) + (y + Q) = x +y = (x +y) + Q
e
x y = (x + Q) (y + Q) = x y = x y + Q.
Estas opera coes sao, respectivamente, a adi cao e a multiplica cao em R/Q.
E possvel
mostrar que R/Qe um anel sob as opera coes acima, chamado anel quociente de R modulo
Q e denotado por R
Q
.
Exemplo 2.2.7. O conjunto Z
n
, n 2, pode ser visto como um anel quociente de Z modulo
nZ, ou seja, Z/nZ, pois nZ e um ideal em Z. Assim, (0, 1, , n 1) denotam as classes
laterais:
0 = nZ, 1 = 1 +nZ, , n 1 = n 1 +nZ
37
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
que possuem estrutura de anel sob adi cao e multiplica cao de classes laterais e que particionam
Z.
Denicao 2.2.22. Se a e b sao elementos nao nulos de um anel R tais que ab = 0 ou ba = 0,
entao a e b sao divisores de zero.
Exemplo 2.2.8. Em Z
8
os elementos 2 e 4 sao divisores de zero.
Denicao 2.2.23. Seja R um anel com unidade. Um elemento a em R e uma unidade
inversvel em R se existe um elemento a
1
R tal que a a
1
= a
1
a = 1. Ou seja, a e
inversvel se possui inverso multiplicativo em R.
Exemplo 2.2.9. Os unicos elementos inversveis em Z sao 1 ou 1.
Denicao 2.2.24. Anel de divis ao e um anel com unidade no qual todo elemento nao
nulo e inversvel.
Denicao 2.2.25. Seja R um anel. Um R-m odulo consiste de um grupo abeliano G e uma
opera cao de multiplica cao de cada elemento de G por todo elemento de R pela esquerda, tais
que para todo , G e r, s R, as seguintes condi coes sao satisfeitas:
1. (r) G;
2. r( +) = r +r;
3. (r +s) = r +s;
4. (rs) = r(s).
Corpos
Denicao 2.2.26. Um corpo F e um anel de divisao comutativo.
Portanto, dizemos que F e um corpo sob as opera coes binarias (+) e () se, e somente
se, F constitui um grupo abeliano sob estas opera coes e, para a opera cao (), e valida a lei
distributiva. Assim, podemos dizer que um corpo apresenta no mnimo dois elementos: as
identidades das opera coes (+) e (). O n umero de elementos num corpo e a ordem do mesmo
e um corpo onde este n umero e nito e chamado corpo nito.
Exemplo 2.2.10. Sao exemplos de corpos: o conjunto dos n umeros racionais e dos n umeros
reais sob adi cao e multiplica cao usuais e o conjunto Z
p
= 0, 1, 2, , p 1 para p primo
sob adi cao e multiplica cao modulo p.
38
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
Exemplo 2.2.11. O conjunto dos n umeros inteiros nao forma um corpo sob as opera coes
de adi cao de multiplica cao usuais.
Denicao 2.2.27. Um subcorpo e um subconjunto de um corpo que tem estrutura de corpo
sob as opera coes herdadas do mesmo.
Os corpos nitos sao usados na maioria das constru coes dos codigos conhecidos, estes
corpos sao tambem conhecidos como corpos algebricos de Galois ou corpos de Galois e
sao denotados por GF(q) ou F
q
onde q 2 e o n umero de elementos do corpo. Descrevemos
a seguir uma serie de propriedades sobre F
q
.
Denicao 2.2.28. Um polin omio de grau n 1 sobre um corpo F
q
e escrito como:
p(x) = p
n1
x
n1
+p
n2
x
n2
+ +p
1
x +p
0
,
onde x e uma variavel e os coecientes p
i
, 0 i n 1, i Z, sao elementos de F
q
.
Denicao 2.2.29. Um polin omio m onico e aquele cujo coeciente lder (coeciente da
variavel de maior expoente) p
n1
e igual a 1, a identidade multiplicativa de F
q
.
Sabemos que o conjunto de todos os polinomios sobre GF(q) forma um anel sob as
opera coes usuais de soma e multiplica cao de polinomios. Este anel e denotado por GF(q)[x]
ou F
q
[x].
Denicao 2.2.30. Um elemento F
q
e uma raiz ou zero do polinomio p(x) F
q
[x] se
p() = 0.
Teorema 2.2.7. Se G e um subgrupo multiplicativo do grupo F
). Seja
GF(q
). O polinomio primo p(x) de menor grau sobre GF(q), tal que p() = 0, e
chamado polin omio minimal de sobre GF(q).
Teorema 2.2.10. Considere os corpos GF(q
_
g
11
g
12
g
n
g
21
g
22
g
2n
.
.
.
.
.
.
.
.
.
.
.
.
g
k1
g
k2
g
kn
_
_
,
conhecida como matriz geradora do codigo (n, k, d
min
), cujas linhas formam uma base do
codigo linear C. Dessa forma, o processo de codica cao pode ser escrito como:
v = uG,
onde u e a palavra a ser codicada ou informa cao e v e a palavra-codigo correspondente.
Para toda palavra-codigo v vale a rela cao
vH
T
= 0,
onde a matriz (nk)n, denotada por H, e chamada matriz vericacao de paridade de
C, e qualquer vetor ortogonal a suas linhas pertence ao espa co vetorial das linhas da matriz
geradora G associada e vice-versa. O codigo gerado pela matriz H e chamado codigo dual
do codigo C, denotado por C
.
Existe uma maneira simples de determinar uma matriz verica cao de paridade para um
codigo se uma matriz geradora e dada na forma sistematica. Se ( e o espa co linha da matriz
G = (I
k
[ P), entao ( e o espa co ortogonal de H = (P
T
[ I
nk
), onde I
nk
e a matriz
identidade de ordem n k e P
T
e a matriz transposta de P.
Denicao 2.2.40. Dado um codigo ( com matriz verica cao de paridade H, a sndrome de
um vetor v F
q
e o vetor Hv
t
.
A sndrome e um conceito usado para fazer a corre cao de erros em codigos lineares.
A expressao em padrao de erro denomina a diferen ca entre a palavra-codigo recebida
e a palavra-codigo enviada. Em um codigo linear ( com parametros (n, k), considere um
padrao de erro e F
n
q
. Como ( e um subgrupo, entao e +( = e +v [ v ( e uma classe
lateral de F
n
q
.
42
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
Estabele ca uma tabela da seguinte maneira:
a primeira linha da tabela deve conter todas as palavras-codigo de ( come cando com a
palavra toda nula;
Das n-uplas de F
n
q
que nao foram usadas, escolha aquela com menor peso e chame-a de
e
1
. A segunda linha da tabela sera composta pela classe lateral e
1
+(;
A j-esima linha da tabela e formada pela classe e
j
+ (, onde e
j
e sempre escolhido
como a n-upla em F
n
q
de menor peso que ainda nao foi usada;
Esse procedimento termina quando todas as palavras de F
n
q
tenham sido usadas.
A Tabela 2.1 determinada assim e chamada arranjo padrao.
v
1
= 0 v
2
v
3
v
k
q
e
1
e
1
+v
2
e
1
+v
3
e
1
+v
k
q
e
2 2
+v
2
e
2
+v
3
e
2
+v
k
q
.
.
.
.
.
.
.
.
.
.
.
.
e
q
nk e
q
nk +v
2
e
q
nk +v
3
e
q
nk +v
q
k
Tabela 2.1: Arranjo padrao.
Algumas observa coes importantes devem ser feitas sobre o arranjo padrao. Cada palavra
aparece uma unica vez na tabela. Duas palavras estao na mesma classe lateral se, e somente
se, possuem a mesma sndrome. A primeira coluna da tabela e formada pelas palavras de
peso mnimo dentro de cada classe, e sao denominadas os lderes das classes laterais.
Uma regra de decodica cao por maxima verossimilhanca para um codigo linear e com-
pletamente descrita pelo arranjo padrao. O receptor utiliza o arranjo padrao para decodicar
uma palavra recebida da seguinte maneira:
recebido v, calcule sua sndrome;
ache o padrao de erro e correspondente a essa sndrome na tabela;
v e e a palavra-codigo.
Para um codigo (n, k) sobre F
n
q
uma lista completa consiste de q
n
palavras. Todavia, note
que a lista dada no arranjo padrao tem q
k
classes laterais cada contendo q
nk
palavras. Como
em aplica coes sao utilizados codigos longos, realizar a decodica cao por maxima verossi-
milhan ca, ou equivalentemente, fazer uso do arranjo padr ao e impraticavel.
43
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
2.2.4 Codigos Geometricamente Uniformes
Forney em [28] generalizou os codigos de grupo de Slepian e codigos reticulados per-
mitindo que os elementos do grupo gerador sejam isometrias arbitrarias do espa co euclidiano
R
n
, ao inves de transforma coes ortogonais ou transla coes consideradas de forma separada.
Tais codigos foram denominados codigos geometricamente uniformes apresentando pro-
priedades simetricas altamente desejaveis tais como: todas as regioes de Voronoi sao con-
gruentes; o perl de distancias e o mesmo para qualquer palavra-codigo; as palavras-codigo
possuem a mesma probabilidade de erro; e o grupo gerador e isomorfo a um grupo de per-
muta coes transitivo sobre as palavras-codigo. As deni coes e resultados apresentados nesta
subse cao podem ser encontrados em [28].
Denicao 2.2.41. [28] Seja S um conjunto de sinais em um espa co metrico (M, d). Dizemos
que S e um c odigo geometricamente uniforme se para quaisquer s
1
e s
1
S, existe uma
isometria
s
1
,s
2
tal que:
s
1
,s
2
(s
1
) = s
2
,
e
s
1
,s
2
(S) = S.
Em outras palavras, a a cao do grupo de simetrias, (S), de S e transitiva. Se S for nito,
dizemos que S e uma constelacao uniforme e se S for innito dizemos que S e um arranjo
regular.
Em geral, o grupo de simetrias de um conjunto de sinais geometricamente uniforme pos-
sui mais elementos do que o necessario para gera-lo. Para isto, consideraremos a seguinte
deni cao.
Denicao 2.2.42. [28] Seja S um codigo geometricamente uniforme. Um grupo gerador
mnimo U(S) de S, e um subgrupo do grupo de simetrias de S que satisfaz
s
0
S, S = (s
0
), U(S),
e a fun cao m : U(S) S, dada por m() = (s
0
) e injetora.
Teorema 2.2.12. [28] O produto cartesiano de conjuntos de sinais geometricamente uni-
formes e um conjunto de sinais geometricamente uniforme.
Um subgrupo normal U
sao os subconjuntos
de S que correspondem `as classes laterais de U
em U(S).
Denicao 2.2.44. [28] Sejam S/S
(S) em S/S
.
Para um codigo S geometricamente uniforme, podemos denir, para cada ponto s S,
uma regiao formada por todos os pontos pertencentes ao espa co metrico onde esta denido o
codigo que se encontram, no mnimo, tao proximos a s quanto qualquer outro ponto s
S.
Em outras palavras, essas regioes sao as regioes de decisao do codigo. Formalmente, temos a
seguinte deni cao:
Denicao 2.2.45. [28] Seja S um conjunto de sinais geometricamente uniforme em um
espa co metrico (M, d). A regi ao de Voronoi associada a um ponto s S, denotada por
V(S), e o conjunto
V
(S)
(s) = x M [ d(x, s) min
s
S
d(x, s
)
A uniformidade geometrica e uma forma mais forte de simetria, apresentando propriedades
como: a distancia entre quaisquer duas palavras-codigo de S e a mesma, todas as regioes de
Voronoi sao congruentes, todas palavras-codigos possuem mesma probabilidade de erro e o
grupo gerador U(S) e isomorfo a um grupo de permuta coes transitivo sobre as palavras do
codigo. Todas essas caractersticas sao buscadas na constru cao de novas classes de codigos,
pois facilitam o processo de decodica cao dos mesmos, no sentido de que nao e necessario
conhecer a regiao de decisao de cada palavra-codigo; basta conhecer a regiao de Voronoi as-
sociada a uma das palavras do codigo e determinar as demais regioes a partir de transla coes
da regiao conhecida.
Com rela cao aos codigos ja existentes utilizados em comunica coes digitais, a maioria e
geometricamente uniforme, como por exemplo as constela c oes de sinais M-PSK.
Conjunto de Sinais Casados a Grupos
A principal motiva cao para considerar o codicador e o modulador como um so bloco
e estabelecer a melhor forma de associar uma palavra-codigo a um sinal a ser transmitido.
Conjunto de sinais casado a um grupo, [32], constitui a forma mais adequada de estabelecer
esta associa cao.
45
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
Denicao 2.2.46. [29] Sejam M um conjunto nao vazio e d: MM R uma fun cao que
satisfaz as seguintes condi coes:
1. d(x, x) = 0;
2. x ,= y d(x, y) > 0;
3. d(x, y) = d(y, x);
4. d(x, z) d(x, y) +d(y, z).
para quaisquer x, y, z M. Dizemos, entao, que d e uma metrica e o par (M, d) e um
espa co metrico.
Denicao 2.2.47. [32] Seja (M, d) um espa co metrico. Dizemos que um conjunto de sinais
S, nito, em M esta casado a um grupo G se existe uma fun cao de G sobre S tal que,
d((g), (g
)) = d((g
1
g
), (e
G
)), g, g
G
onde e
G
e o elemento neutro de G. A fun cao e denominada mapeamento casado. Se
e injetora, entao
1
e denominada rotulamento casado.
Lema 2.2.1. [32] Seja a fun cao tal que o conjunto de sinais S em um espa co metrico
(M, d) esteja casado a um grupo G. Se S
e
G
= (e
G
), onde e
G
e o elemento neutro de G e
H =
1
(S
e
G
), entao H e um subgrupo de G e, alem disso,
(g) = (g
) gH = g
H,
ou seja, g e g
S
: S;
S
(f) = f(s)
2.2.5 Codigos Cclicos Sobre Aneis de Inteiros Residuais
Nesta subse cao, apresentamos as deni coes e os teoremas relacionados a codigos cclicos
sobre aneis Z
q
(q 4 e inteiro). Nossa referencia e [35].
Denicao 2.2.50. Seja R um anel. Um m odulo livre e um R-modulo gerado por um
conjunto de vetores linearmente independentes.
Denicao 2.2.51. Um c odigo linear (n, k) sobre Z
q
e denido como um modulo livre de
dimensao k no espa co de todas as n-uplas de Z
n
q
.
Denicao 2.2.52. Um codigo linear C com parametros (n, k) sobre Z
q
e cclico se, para
v = (v
0
v
1
v
2
... v
n1
) C, todo deslocamento cclico v
(1)
= (v
n1
v
0
v
1
v
2
... v
n2
)
C, com v
i
Z
q
, 0 i n 1.
Os codigos cclicos sao geralmente representados na forma polinomial. Assim, considere
a palavra codigo v = (v
0
v
1
v
2
... v
n1
) de um codigo cclico C. Podemos representa-la
pelo polinomio:
v(x) = v
0
+v
1
x +v
2
x
2
+... +v
n1
x
n1
.
O produto entre x e v(x) modulo x
n
1 e dado por:
v
(1)
(x) = v
n1
+v
0
x +v
1
x
2
+... +v
n2
x
n1
,
que corresponde `a palavra codigo:
v
(1)
= (v
n1
v
0
v
1
... v
n2
),
a qual e um deslocamento cclico da palavra:
48
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
v = (v
0
v
1
v
2
... v
n1
).
Portanto, v
(1)
(x) e obtido atraves do produto x.v(x) no anel quociente R
n
=
Zq[x]
<x
n
1>
,
onde < x
n
1 > representa o ideal gerado por x
n
1. A adi cao de duas palavras-codigo e
feita em Z
q
[x].
Note que o conjunto de todas as palavras pertencentes a um codigo cclico C formam um
subconjunto do anel R
n
, isto e, o conjunto de todos os polinomios cujo grau e menor do que
n.
Teorema 2.2.14. Um conjunto S de elementos em R
n
e um codigo cclico se, e somente se,
S e um ideal em R
n
.
Proposicao 2.2.3. Seja C um ideal em R
n
=
Zq[x]
<x
n
1>
, isto e, um codigo cclico de com-
primento n. Se existir um polinomio de grau mnimo em C, cujo coeciente dominante e
um elemento inversvel em Z
q
, entao o polinomio monico (ou seja, aquele cujo coeciente
dominante e um de grau mnimo em C e unico.
Teorema 2.2.15. Seja C um ideal em R
n
=
Zq[x]
<x
n
1>
e g(x) um polinomio monico com o
menor grau em C. Assim, C = g(x)), e portanto, o codigo C consiste de todos os m ultiplos
de g(x). Dizemos entao que C e um ideal principal.
Teorema 2.2.16. Seja C um ideal principal em R
n
. Se o coeciente dominante do polinomio
de menor grau em C, g(x), e um elemento inversvel, entao g(x) divide (x
n
1). Note que
se este polinomio for monico, entao g(x) divide (x
n
1).
Teorema 2.2.17. Se g(x) C e g(x) divide (x
n
1), entao g(x) tem grau mnimo em
C = g(x)).
Os Teoremas 2.2.16 e 2.2.17 fornecem um metodo de constru cao de codigos cclicos sobre
aneis de inteiros residuais analogo ao metodo de constru cao de codigos cclicos sobre corpos
nitos, ou seja, atraves da fatora cao do polinomio (x
n
1) sobre o anel de interesse para
entao tomar um fator (ou produto de fatores) como polinomio gerador do codigo em questao.
O proximo teorema esta relacionado `a representa cao matricial dos codigos cclicos sobre
aneis que possuem uma matriz geradora.
Teorema 2.2.18. Se g(x) divide (x
n
1) e o grau de g(x) e (n k), entao a dimensao de
C = g(x)) e k. Se
g(x) = g
0
+g
1
x +g
2
x
2
+... +x
nk
,
49
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
entao a matriz geradora do codigo C e dada por:
G =
_
_
_
_
_
_
_
_
_
g
0
g
1
g
2
. . . 1 0 0 . . . 0
0 g
0
g
1
. . . g
nk1
1 0 . . . 0
0 0 g
0
. . . g
nk2
g
nk1
1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 . . . g
0
g
1
g
2
. . . 1
_
_
_
_
_
_
_
_
_
Proposicao 2.2.4. Se C e um codigo cclico sobre Z
q
onde q = p
k
1
1
p
k
2
2
...p
kq
q
, entao C e a
soma direta dos codigos cclios C
i
sobre Z
k
i
p
i
, isto e,
C =
q
i=1
C
i
,
para 1 i q.
Extensao de aneis de Galois
A motiva cao para se utilizar o conceito de extensao de Galois em teoria da codica cao
esta diretamente relacionada com a constru cao de codigos cclicos sobre aneis locais Z
q
, onde
q e uma potencia de um primo, q = p
k
, k 2.
A principal diferen ca da constru cao de codigos cclicos sobre aneis para a constru cao de
codigos cclicos sobre corpos esta no fato de que as razes do polinomio gerador dos codigos
cclicos sobre aneis encontram-se na extensao do anel Z
q
, ao inves de serem encontradas na
extensao do corpo F
q
= GF(p
r
).
Denicao 2.2.53. Um codigo cclico sobre Z
q
com comprimento n = q
r
1, onde q = p
k
e
r e o grau da extensao de Galois, e denominado c odigo cclico primitivo.
Vamos assumir que a ordem do anel e o comprimento do codigo sejam relativamente
primos, isto e, o maximo divisor comum e um, denotado por mdc(p, n) = 1, pois assim
garantimos que (x
n
1) nao apresenta fatores quadraticos. Da Se cao 2.2.5, sabemos que um
codigo cclico de comprimento n sobre Z
q
e o ideal principal no anel de polinomios sobre Z
q
modulo (x
n
1) e que este ideal e gerado por qualquer polinomio g(x) que divide (x
n
1).
Seja Z
q
[x] o anel de polinomios na variavel x sobre Z
q
onde p(x) e um polinomio primi-
tivo de grau r, irredutvel sobre GF(p) e, consequentemente, sobre Z
q
. Representamos por
GR(p
k
, r) o quociente Z
q
[x] pelo ideal gerado por p(x), ou seja,
R
= GR(p
k
, r)
=
Z
q
[x]
< p(x) >
.
50
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
Assim, o anel R e formado por todas as classes laterais de polinomios em x sobre Z
q
mod p(x), isto e, consiste do conjunto dos polinomios de grau menor ou igual a (r 1) cujas
opera coes binarias de adi cao e multiplica cao sao realizadas modulo p(x). Alem disso, R e um
anel comutativo com identidade denominado extensao de Galois de dimensao r de Z
q
. Esta
extensao e unica a menos de isomorsmo [37].
O anel R
= GR(p
k
, r) e um anel local [37], isto e, seus elementos divisores de zero formam
um grupo abeliano aditivo e consistem dos polinomios de grau menor ou igual a (r 1) cujos
coecientes sao divisores de zero em Z
q
. Um polinomio p(x) R com pelo menos um
coeciente inversvel em Z
q
nao e um divisor de zero em R e, portanto, pertence a R
(grupo
das unidades de R), ou seja, e sempre possvel encontrar um polinomio q(x) R, tal que
p(x).q(x) = 1.
Vale lembrar que, da Deni cao 2.2.16, temos:
Denicao 2.2.54. [36] Um polinomio nao nulo p(x) e um divisor de zero em Z
q
[x] se
existe um polinomio q(x) Z
q
[x], q(x) ,= 0, tal que p(x).q(x) = 0.
Denicao 2.2.55. [36] Um polinomio p(x) e dito regular se ele nao e um divisor de zero
no anel Z
q
[x].
Denicao 2.2.56. [36] Um polinomio regular p(x) e chamado local se
Zq[x]
p(x)
e uma extensao
local de Z
q
.
A irredutibilidade do polinomio p(x) sobre Z
q
e garantida pelo seguinte teorema:
Teorema 2.2.19. [36] Seja p(x) um polinomio regular em Z
q
. Se existe uma aplica cao ,
chamada proje cao natural, tal que (p(x)) seja diferente de zero e irredutvel em GF(p),
entao p(x) e irredutvel em Z
q
.
Como estamos interessados na classe dos codigos cclicos, nosso objetivo e fornecer um
procedimento para a constru cao de tais codigos. O primeiro passo esta relacionado com a
fatora cao de (x
n
1). Como o grupo das unidades de R, R
, onde
mdc(n, p) = 1 . Entao o polinomio (x
n
1) pode ser fatorado como x
n
1 = (x f)(x
f
2
) . . . (xf
n
)se, e somente se, R
p
(f) tem ordem n em F
.
Entao f gera um subgrupo cclico de ordem nd em R
.
O subgrupo cclico G
n
e obtido do Teorema 2.2.22, enquanto que, pelo Corolario 2.2.5, o
polinomio minimal M
i
(x) associado ao elemento
i
sobre R
i
, (
i
)
p
, (
i
)
p
2
, , (
i
)
p
r1
.
Portanto, o polinomio minimal M
i
(x) pode ser construdo de forma muito similar `a cons-
tru cao do polinomio minimal m
i
(x) de R
p
(
i
) sobre GF(p).
Temos ainda a seguinte propriedade:
Teorema 2.2.23. [35] Seja um elemento primitivo em G
n
, onde n = p
r
1. Entao o
elemento =
l
1
l
2
possui inverso em R se 0 l
1
,= l
2
n 1.
2.2.6 Codigos BCH sobre Aneis
Os codigos BCH formam uma importante classe de codigos cclicos devido, principalmente,
`a simplicidade dos processos de codica cao e decodica cao associados, o que os torna bons
candidatos a serem utilizados em aplica coes praticas. Os codigos BCH foram descobertos por
R. C. Bose, D. K. Chaudhuri e A. Hocquenghem e representam uma excelente generaliza cao
dos codigos de Hamming, permitindo a m ultipla corre cao de erros. Formam assim a classe
52
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
dos melhores codigos construtivos para canais onde os erros afetam os smbolos de forma
independente.
Apesar de ser sempre possvel projetar um codigo BCH que corrija ate t erros, para um t
qualquer, devemos interpretar esta informa cao com uma certa restri cao, pois as taxas desses
codigos sao assintoticamente ruins. Ou seja, quando o comprimento das palavras-codigo nao
e grande, existem bons codigos BCH, caso contrario, o desempenho destes e prejudicado
devido `as baixas taxas de transmissao. Contudo, a real importancia dos codigos BCH vem
da facilidade de implementa cao do algoritmo de corre cao de erros, algoritmo de Berlekamp-
Massey modicado [35]. A seguir, fazemos algumas considera coes sobre os codigos BCH e
posteriormente passamos `a constru cao de tais codigos.
Denicao 2.2.57. Um codigo cclico de comprimento n sobre GF(p) e denominado um
c odigo BCH com dist ancia de projeto d se o seu gerador g(x) for o mnimo m ultiplo
comum dos polinomios minimais de
m
,
m+1
,
m+2
, ,
m+d2
,
para algum m inteiro nao negativo, onde e uma raiz primitiva (elemento primitivo) de
(x
n
1), em alguma extensao GF(p
r
) de GF(p).
Assim, analogamente `a Deni cao 2.2.19, temos:
Denicao 2.2.58. Se n = p
r
1, ou seja, se for um elemento primitivo em F
q
, entao o
codigo BCH e chamado primitivo.
Normalmente, consideramos m = 1, o que nos fornece o chamado codigo BCH no sentido
estrito.
Os codigos BCH no sentido estrito denidos sobre aneis de inteiros, com distancia de
projeto d e comprimento n, apresentam ,
2
,
3
, ,
2t
e seus conjugados como razes de
cada um de seus polinomios. Esta propriedade, juntamente com a Deni cao 2.2.52 de codigos
cclicos sobre aneis Z
q
, nos permite especicar a seguinte matriz:
H =
_
_
_
_
_
_
1
2
. . .
n1
1
2
(
2
)
2
. . . (
2
)
n1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2t
(
2t
)
2
. . . (
2t
)
n1
_
_
_
_
_
_
A matriz H acima e a matriz verica cao de paridade para um codigo BCH. Note que os
elementos
i
, 1 i 2t de H pertencem a G
n
, e portanto, os coecientes de sao tomados
53
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
modulo n. Substituindo os elementos
i
pelos vetores linha de comprimento r(r uplas)
correspondentes, temos a matriz H sobre Z
q
.
Estamos interessados na constru cao de codigos BCH sobre aneis Z
q
, para q = p
k
e k 2,
a qual e analoga `a constru cao de codigos BCH sobre corpos [38]. A diferen ca entre essas
duas constru coes reside no fato de que, na primeira, as razes do polinomio gerador do codigo
BCH encontram-se na extensao do anel Z
q
, ao inves de serem encontradas na extensao do
corpo F
q
, como visto na Se cao 2.2.5. Vale lembrar tambem que iremos considerar o caso no
qual mdc(n, p) = 1.
Podemos especicar um codigo BCH de comprimento n sobre Z
q
, onde n = p
r
1, em
termos das razes de seu polinomio gerador g(x), que pertencem ao subgrupo cclico G
n
. Seja
um elemento primitivo de G
n
. Se
e
1
,
e
2
, ,
e
j
sao razes de g(x), entao podemos gerar
um codigo BCH com smbolos de Z
q
se escolhermos g(x) como:
g(x) = mmc (M
e
1
(x), M
e
2
(x), , M
e
j
(x)),
onde M
e
i
(x) e o polinomio minimal de
e
i
. Alem disso,
g(x) = R
p
(g(x)) = mmc (m
e
1
(x)
, m
e
2
(x)
, , m
e
j
(x)
)
onde m
e
i
(x) e o polinomio minimal de R
p
(
e
i
), gera um codigo BCH em GF(p).
Portanto, a constru cao de codigos BCH cclicos sobre o anel Z
q
reduz-se `a escolha de
elementos do subgrupo cclico G
n
para serem razes do polinomio gerador g(x).
Observacao 2.2.1. O metodo sistematico para o calculo do mnimo m ultiplo comum de um
conjunto de polinomios p
1
(x), p
2
(x), , p
n
(x) e computar o maximo divisor comum, mdc,
atraves do Algoritmo de Euclides e entao utilizar a seguinte rela cao:
mmc (p
1
(x), p
2
(x), , p
n
(x)) =
n
i=1
p
1
(x)
mdc (p
1
(x), p
2
(x), , p
n
(x))
Os proximos teoremas estabelecem um limitante inferior para a distancia de Hamming
do codigo BCH construdo:
Teorema 2.2.24. Seja g(x) o polinomio gerador de um codigo cclico de comprimento n
com smbolos de Z
q
e sejam tambem
e
1
,
e
2
, ,
e
j
as razes de g(x) em G
n
, onde tem
ordem n. Entao, a distancia mnima do codigo e maior que o n umero maximo de inteiros
consecutivos modulo n no conjunto e
1
, e
2
, , e
j
.
Teorema 2.2.25. A distancia de Hamming mnima de um codigo BCH satisfaz a rela cao:
d 2t + 1,
54
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
onte t e a capacidade de corre cao do codigo.
Note que os polinomios geradores dos codigos BCH cclicos sao construdos de forma a
respeitar o limitante para a distancia mnima indicado no Teorema 2.2.24 e no Teorema
2.2.25.
2.3 Decodica cao do Codigo BCH sobre Anel
O nome algoritmo de Berlekamp-Massey se deve ao fato de primeiramente ter sido desen-
volvido em [43] por Berlekamp e posteriormente melhorado por Massey em [44].
Interlando, Palazzo e Elia em [41], estenderam o algoritmo de Berlekamp-Massey, chaman-
do-o de algoritmo de Berlekamp-Massey modicado. Este algoritmo e um metodo de deco-
dica cao dos codigos Reed-Solomon e BCH sobre Z
p
k , onde p e um n umero primo e k e
um inteiro maior ou igual a 1. Com demonstra coes analogas, este algoritmo tambem vale
num contexto mais geral, ou seja, pode ser utilizado para a decodica cao de codigos Reed-
Solomon e BCH denidos sobre aneis comutativos nitos R com identidade. Alem disso,
o procedimento proposto por Forney ainda continua valido. Esta adapta cao nao altera os
fundamentos do algoritmo original, e deste modo a complexidade permanece praticamente
inalterada.
Apresentamos um algoritmo eciente de decodica cao que servira para a decodica cao
dos codigos BCH sobre aneis utilizados nesta proposta. Quando estes codigos sao denidos
sobre corpos GF(q), o primeiro passo da decodica cao e localizar as posi coes dos erros na
palavra recebida, atraves do uso do algoritmo de Berlekamp-Massey [39]. Em seguida, aplica-
se o procedimento proposto por Forney [40] para a determina cao das magnitudes dos erros.
A teoria apresentada neste captulo e uma adapta cao apresentada por Interlando, Palazzo e
Elia [41].
O objetivo e apresentar os principais conceitos que envolvem o processo de decodica cao.
Estes conceitos foram utilizados durante a proposta de um modelo de sistema de comunica cao
para a importa cao de protenas organelares, Captulo 3. O modelo apresenta as semelhan cas
entre o processo de reconhecimento das sequencias de direcionamento e o processo de de-
codica cao utilizado em sistemas de comunica coes digitais. Na Subse cao 2.3.1 apresentamos
o algoritmo de decodica cao utilizado em sistemas de comunica coes digitais e na Subse cao
2.3.2 apresentamos como gerar sequencias atraves de um circuito linear de deslocamentos
com realimenta cao.
55
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
2.3.1 O Processo de Decodica cao
Podemos constatar que a matriz verica cao de paridade para estes codigos, quando pro-
jetada para a corre cao de ate t erros, possui a forma:
H =
_
_
_
_
_
_
1
2
. . .
n1
1
2
(
2
)
2
. . . (
2
)
n1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2t
(
2t
)
2
. . . (
2t
)
n1
_
_
_
_
_
_
(2.1)
onde n e o comprimento da palavra-codigo em questao. No caso de codigos BCH sobre Z
p
k,
e uma raiz de x
n
1 e pertence ao anel GR(p
k
, r) (a extensao de dimensao r de Z
p
k. Note
que t devera ser escolhido de tal forma que os elementos ,
2
, ...,
2t
sejam todos distintos.
Portanto, devido a esta similaridade, o procedimento de corre cao de erros que iremos
descrever (que se baseia na informa cao dada pelo vetor sndrome) servira para a decodica cao
de ambos os codigos. Ele sempre sera capaz de corrigir qualquer combina cao de t ou menos
erros.
Suponha entao que a palavra-codigo transmitida seja v = (v
0
v
1
... v
n1
) e que o padrao
de erro introduzido pelo canal seja e = (e
0
e
1
... e
n1
). Portanto, o vetor recebido pelo
decodicador sera r = (r
0
r
1
... r
n1
). Estes vetores tambem podem ser apresentados na
forma polinomial por v(X) = v
0
+ v
1
X +... + v
n1
X
n1
, e(X) = e
0
+ e
1
X + ... +e
n1
X
n1
e r(X) = r
0
+r
1
X +... +r
n1
X
n1
, respectivamente.
Vamos assumir agora que a i-esima componente nao nula de e (1 i v t) ocorra na
posi cao j, onde j pode ser qualquer inteiro entre 0 e n 1 (inclusive). Entao, associaremos
a esta i-esima componente nao nula um par ordenado (X
i
, Y
i
) tal que:
X
i
: e um n umero de localiza cao de erro dado por
j
e
Y
i
: e a magnitude do erro ocorrido na posi cao j.
O vetor sndrome e dado por s = r.H
t
= (v +e).H
t
= e.H
t
, onde H e a matriz verica cao
de paridade dada por (5.1). Entao, em termos dos pares (X
i
, Y
i
), as componentes s
j
de s sao
dadas por
s
j
= r(
j
) = e(
j
) =
v
i=1
Y
i
X
j
i
(2.2)
56
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
onde 1 j 2t e v representa o n umero de erros ocorridos.
Entao, um metodo para se corrigir erros e resolver o Sistema de Equa coes (2.2) condun-
zindo como resposta os pares (X
i
, Y
i
) que representam as posi coes e magnitudes dos mesmos.
Observamos que os n umeros localizadores de erros de cada componente do padrao de erro
devem ser distintos pelo fato de ser um elemento primitivo.
Inicialmente consideraremos o problema da localiza cao dos erros e em seguida resolve-
remos o problema da determina cao das magnitudes dos mesmos. Lembramos que no caso de
codigos binarios, encontrar a localiza cao dos erros implica necessariamente na determina cao
das suas magnitudes. Deste modo, considere o seguinte conjunto de equa coes:
(X X
1
)(X X
2
) . . . (X X
v
) = X
v
+
1
X
v1
+. . . +
v1
X +
v
(2.3)
onde os coecientes
1
,
2
, ...,
v
sao conhecidos como as funcoes simetricas elementares
dos X
i
s.
O primeiro passo e no sentido de obtermos uma rela cao entre os s
j
e os
i
e em seguida
analisar a existencia de solu coes. Assim, multiplicando ambos os lados da Equa cao (2.3)
por Y
i
X
j
i
e em seguida substituindo X
i
(1 i v) em X, obtemos o seguinte conjunto de
equa coes:
Y
i
X
j+v
i
+Y
i
X
j+v1
i
1
+. . . +Y
i
X
j+1
i
v1
+Y
i
X
j
i
v
= 0 (2.4)
Agora somando estas equa coes para 1 i v e usando as Equa coes (2.2) obtemos a
seguinte rela cao entre
i
e s
j
,
s
j+v
+s
j+v1
1
+. . . +s
j+1
v1
+s
j
v
= 0 (2.5)
e todos os s
j
sao conhecidos se 1 j 2t v. Portanto, o calculo dos
i
s a partir do
vetor sndrome e feito resolvendo-se o Sistema Linear (2.5) de modo que v tenha o menor
valor possvel (isto e requerido pois sempre estaremos assumindo que o vetor erro que ocorre
e aquele que possui o menor peso de Hamming possvel). Por constru cao, o Sistema (2.5)
sempre possui uma solu cao. Veremos no proximo teorema que se os Y
i
s sao unidades, a
solu cao do Sistema (2.5) e unica.
Teorema 2.3.1. [42] O Sistema Linear (2.5), nas incognitas
1
,
2
, ...,
v
, dado por
57
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
_
_
s
1
s
2
. . . s
v
s
2
s
3
. . . s
v+1
.
.
.
.
.
.
.
.
.
.
.
.
s
2tv
s
2tv+1
. . . s
2t1
_
_
_
v1
.
.
.
1
_
_
=
_
_
s
v+1
s
v+2
.
.
.
s
2t
_
_
possui solu cao unica se, e somente se, todas as magnitudes Y
i
s, dos erros ocorridos forem
unidades no anel sobre sobre o qual o codigo esta denido.
Com isto, acabamos de mostrar que o procedimento de decodica cao do codigo BCH
compreende os seguintes passos:
Passo 1: Calculo do vetor sndrome s = (s
1
s
2
. . . s
2t
) a partir do vetor recebido r;
Passo 2: Calculo das fun coes simetricas elementares
1
,
2
, ...,
v
, a partir de s;
Passo 3: Calculo dos n umeros localizadores de erros X
1
, X
2
, ..., X
v
a partir das fun coes
simetricas elementares
i
, i = 1, 2, ..., v;
Passo 4: Calculo das magnitudes dos erros Y
i
s a partir dos X
i
s e do vetor sndrome s.
A seguir passaremos a caracterizar cada um dos quatro passos mencionados acima.
Passo 1. Calculo do Vetor Sndrome: s = r.H
T
.
Passo 2. Calculo das Fun coes Simetricas Elementares.
O problema a ser solucionado neste estagio e o seguinte: dada uma sequencia de elementos
s
1
, s
2
, ..., s
2t
, as componentes do vetor sndrome s, os quais pertencem a um anel comutativo
GR(p
k
, r) onde k 1 e r 1 determine a solu cao do Sistema Linear (2.5) nas incognitas
i
(1 i v) tal que v seja mnimo. Pelo Teorema 2.3.1 temos que a solu cao do Sistema (2.5)
sera unica somente quando as magnitudes de todos os erros forem unidades em R.
Este algoritmo e iterativo de modo que no n-esimo passo o decodicador determina um
conjunto de l
n
vetores
n
i
tal que as n l
n
equa coes
_
_
s
n
(n)
0
+s
n1
(n)
1
+ +s
nln
(n)
ln
= 0
s
n1
(n)
0
+s
n2
(n)
1
+ +s
nln1
(n)
ln
= 0
.
.
.
s
ln+1
(n)
0
+ s
ln
(n)
1
+ +s
1
(n)
ln
= 0
(2.6)
58
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
chamadas somas de potencias, sejam satisfeitas com l
n
o menor possvel e
n
0
= 1.
E
conveniente representar o conjunto dos
i
na seguinte forma polinomial
(n)
(x) =
(n)
0
+
(n)
1
x + +
(n)
ln
x
ln
. Este polinomio tem grau menor ou igual a l
n
e representa a solu cao do
n-esimo estagio.
Agora, suponha que no n-esimo estagio o decodicador tenha determinado
(n)
(x), com
l
n
mnimo tal que o Sistema (2.5) seja satisfeito. No (n + 1)-esimo estagio o decodicador
procura encontrar o polinomio
(n+1)
(x) de menor grau tal que as equa coes
l
n+1
i=0
s
ji
(n+1)
i
= 0, l
n+1
+ 1 j n + 1 (2.7)
sejam satisfeitas. Denimos a n-esima discrepancia d
n
como d
n
= s
n+1
(n)
0
+ +s
n+1ln
(n)
ln
.
Se d
n
= 0, a Equa cao (2.7) vale com
(n+1)
(x) =
(n)
(x). E como
(n)
(x) e uma solu cao
mnima no n-esimo estagio, e certamente uma solu cao mnima no (n + 1)-esimo estagio.
Contudo, se d
n
,= 0 a determina cao de
(n+1)
(x) a partir de
(n)
(x) nao e trivial. Em vista
disto, temos dois lemas que estao diretamente relacionados com a determina cao de
(n+1)
(x)
(nao necessariamente com o menor valor de l
n+1
possvel) a partir de
(n)
(x).
Lema 2.3.1. [42] Suponha que
(n)
(x) seja um polinomio solu cao minimal para as n primeiras
somas de potencias, isto e, existe um l
n
mnimo que satisfaz `as equa coes (2.6), e suponha
ainda que a proxima discrepancia d
n
,= 0. Seja
(m)
(X) = 1 +
(m)
1
X + +
(m)
lm
X
lm
um polinomio solu cao para as m primeiras somas de potencia, com 1 m < n e tal que a
equa cao d
n
yd
m
= 0 admita uma solu cao em y sobre o anel R. Entao o polinomio
(n)
(X) yX
nm
(m)
(X) =
(n+1)
(X)
e uma solu cao para as n + 1 primeiras somas de potencia. Mais ainda,
l
n+1
= max[l
n
, l
m
+n m].
Lema 2.3.2. [42] Sejam
(n)
(X), l
n
e d
n
,= 0 como denidos no Lema 2.3.1. Suponha
que
(n+1)
(X) seja uma solu cao polinomial das equa coes em (2.6) satisfazendo n + 1 l
n+1
equa coes e que
(n+1)
(X)
(n)
(X) = aX
nm
(m)
(X), onde a e uma unidade em R e
(m)
0
=
1. Entao o polinomio
(m)
(X) e um polinomio solu cao para as ml
m
primeiras equa coes em
(2.6), e tendo proxima discrepancia d
m
,= 0, satisfazendo d
n
+ad
m
= 0 e l
m
= l
n+1
(nm).
59
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
Como consequencia dos Lemas (2.3.1) e (2.3.2) temos o seguinte teorema.
Teorema 2.3.2. [42] Sejam
(n)
(X) um polinomio solu cao minimal no n-esimo estagio e
(m)
(X), 1 m < n uma das solu coes minimais anteriores tal que a equa cao d
n
yd
m
= 0
admita uma solu cao em y e m l
m
tenha o maximo valor possvel. Entao uma solu cao no
(n + 1)-esimo estagio e
(n+1)
(X) onde
(i) Se d
n
= 0, entao
(n+1)
(X) =
(n)
(X) e l
n+1
= l
n
; (2.8)
(ii) Se d
n
,= 0, entao
(n+1)
(X) =
(n)
(X) yX
nm
(m)
(X) e l
n+1
= maxl
n
, l
m
+n m (2.9)
Observacao 2.3.1. A solu cao
(n+1)
(X) dada no Teorema (2.3.2) nao e necessariamente
a resposta almejada, pelo fato de que o mesmo nao garante a minimalidade quando o coe-
ciente da menor potencia da variavel X em
(n+1)
(X)
(n)
(X) nao for uma unidade em
R. Contudo, em muitos casos este teorema ja aponta corretamente a solu cao minimal no
(n + 1)-esimo estagio.
Iremos agora descrever o algoritmo da solu cao do problema original, isto e, a solu cao das
Equa coes (2.5). As suas entradas sao as componentes do vetor sndrome s. O algoritmo
produzira como sada um conjunto de valores
i
, 1 i v, tais que as Equa coes (2.5) sejam
satisfeitas com o valor mnimo possvel de v. Para isso, assumimos as seguintes condi coes
iniciais
(1)
(X) = 1, l
1
= 0, d
1
= 1,
(0)
= 1, l
0
= 0, d
0
= s
1
.
Algoritmo de Berlekamp- Massey Modicado (BM)
Iniciamos preenchendo os dados iniciais como mostra a seguinte tabela de valores
n
(n)
(X) d
n
l
n
n l
n
-1 1 1 0 -1
0 1 s
1
0 0
1
2
.
.
.
2t
60
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
Em seguida, adotamos os seguintes procedimentos:
(1) n 0;
(2) Se d
n
= 0, entao
(n+1)
(X) e l
n+1
sao dados por (2.8). Va para o item (5);
(3) Se d
n
,= 0, entao encontre m tal que a equa cao d
n
yd
m
= 0, na variavel y, tenha
solu cao sobre o anel R e m l
m
tenha maximo valor possvel. Neste caso,
n+1
(X) e
l
n+1
sao dados por (2.9);
(4) Se l
n+1
= max[l
n
, n + 1 l
n
] va para o item (5). Caso contrario, devemos procurar
uma solu cao D
(n+1)
(X) com grau l mnimo possvel no intervalo max[l
n
, n + 1 l
n
]
l < max[l
n
, l
m
+n m] tal que o polinomio
m
(X) denido pela equa cao D
(n+1)
(X)
(n)
(X) = X
nm
(m)
(X) seja uma solu cao para as m primeiras somas de potencias tal
que d
m
= d
n
e
(m)
0
seja um divisor de zero em R. Se este polinomio for encontrado,
entao
(n+1)
(X) D
(n+1)
(X);
(5) Se n < 2t 1, calcule d
n+1
= s
n+2
+s
n+1
(n+1)
1
+ +s
n+2
l
n+1
(n+1)
l
n+1
;
(6) n n + 1, se n < 2t va para (2). Caso contrario, m.
Deste modo a resposta desejada sera dada pelo polinomio
(2t)
(X), isto e, os seus coe-
cientes formam uma solu cao para as equa coes em (2.5).
Passo 3. Calculo dos N umeros Localizadores de Erros.
O objetivo neste passo e resolver a equa cao polinomial (Z) = 0 sobre o anel R onde
(Z) = Z
v
(2t)
(Z
1
) = Z
v
+
1
Z
v1
+ +
v1
Z +
v
. Sendo R um anel devemos ter que as
razes de
(2t)
(Z) = 1+
1
Z + +
v
Z
v
estao em R
i
s provenientes do Algoritmo de BM modicado) podem nao ser os n umeros localizadores
de erros corretos. Contudo veremos, a seguir, que de fato estes n umeros podem ser obtidos
a partir das razes de (Z), desde que os coecientes
i
, (1 i v) sejam uma solu cao do
Sistema (2.5).
Com o intuito de analisarmos a relacao entre as razes de (Z) e os n umeros
localizadores de erros suponha que (Z) tenha pelo menos v razes distintas sobre o anel
R. Assim, podemos escrever (Z) = (Z Z
1
)(Z Z
2
) (Z Z
v
). Observamos que pelo
61
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
menos uma solu cao de (Z) produzida pelo algoritmo de Berlekamp-Massey modicado tera
esta propriedade.
No sentido de converter as razes de (Z) nos n umeros localizadores de erros corretos,
suponhamos que estes n umeros sejam X
1
, X
2
, , X
v
, que as magnitudes dos erros sejam
Y
1
, Y
2
, , Y
v
e que as razes de (Z) sejam Z
1
, Z
2
, , Z
v
. Assim, podemos escrever
Y
i
X
j
i
(Z
v
+
1
Z
v1
+ +
v1
Z +
v
) = Y
i
X
j
i
(Z Z
1
)(Z Z
2
) (Z Z
v
) (2.10)
para (1 i v) e (1 j 2t v). Substituindo Z por X
i
e somando o primeiro membro
para (1 i v), obtemos
s
j+v
+s
j+v1
1
+ +s
j+1
v1
+s
j
v
(2.11)
Note que esta equa cao se anula para todo j tal que (1 j 2t v), ja que os
i
s formam
uma solu cao para o Sistema (2.5) e consequentemente,
v
i=1
Y
i
X
j
i
(X
i
Z
1
)(X
i
Z
2
) (X
i
Z
v
) = 0 (2.12)
para (1 j 2t v). Escrevendo na forma matricial temos o seguinte sistema homogeneo:
_
_
X
1
X
2
. . . X
v
X
2
1
X
2
2
. . . X
2
v
.
.
.
.
.
.
.
.
.
.
.
.
X
2tv
1
X
2tv
2
. . . X
2tv
v
_
_
_
_
Y
1
P
1
Y
2
P
2
.
.
.
Y
v
P
v
_
_
=
_
_
0
0
.
.
.
0
_
_
(2.13)
onde P
i
=
v
l=1
(X
i
Z
l
) para (1 i v). Sendo 2t v maior ou igual a v (pois v t) e
pelo Teorema 2.3.1 o posto (maior n umero r tal que existe uma submatriz r r tal que o
determinante e uma unidade em R) da matriz v v em (2.13) e v (que e igual ao n umero de
incognitas), segue do Teorema 5.3 de [48] que este sistema possui somente a solu cao trivial,
isto e, Y
i
P
i
= 0, para (1 i v).
A partir deste resultado podemos concluir que cada produtorio P
i
e um divisor de zero
em R. Portanto, em cada P
i
(1 i v) existe pelo menos um l-esimo fator (X
i
Z
l
) que e
um divisor de zero em R. Alem disso, se o l
1
-esimo fator em P
i
e um divisor de zero d
1
e o
62
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
l
2
-esimo fator em P
k
e tambem um divisor de zero d
2
, entao l
1
,= l
2
para i ,= k. De fato, se
l
1
= l
2
para i ,= k, temos que X
i
X
k
, onde X
i
Z
l
1
= d
1
e X
k
Z
l
1
= d
2
, e um divisor de
zero em R (pelo fato de R ser um anel), o que e uma contradi cao pelas demonstra coes dos
Teoremas 3.4.1 e 3.4.2 e do Lema 4.1.1 de [49], ja que i ,= k. Com isto, podemos armar que
correspondendo a cada Z
i
existe um unico n umero de localiza cao de erro X
i
(1 i v).
A seguir, apresentamos um resumo do procedimento para o calculo dos n umeros loca-
lizadores de erros.
Calcule as razes do polinomio (Z) = Z
v
(2t)
(Z
1
), o recproco do polinomio produzido
pelo algoritmo de Berlekamp-Massey modicado;
Observacao 2.3.2. O metodo usado para encontrar a solu cao da equa cao polinomial
f(x) = 0, onde f(x) = a
0
+ a
1
x + a
2
x
2
+ + a
n
x
n
sobre o anel R, e o de fazer
uma busca exaustiva em R das razes de f(x). Isto e analogo ao que se faz quando da
decodica cao de codigos BCH sobre corpos nitos GF(q), onde q e uma potencia de
um n umero primo.
Entre os X
0
=
0
, X
1
=
1
, . . . , X
n1
=
n1
, selecione aqueles X
i
s que tornam as
diferen cas X
i
Z
j
(1 j v) elementos divisores de zero em R. Os X
i
s selecionados
serao os n umeros localizadores de erros corretos e cada X
i
=
i
indica que um erro
ocorreu na posi cao i da palavra-codigo.
Finalizado este passo de localiza cao dos erros, passamos ao quarto e ultimo passo do
procedimento de decodica cao dos codigos BCH.
Passo 4. Determina cao das Magnitudes dos Erros.
Para completarmos este processo de decodica cao descrevemos um metodo para a de-
termina cao das magnitudes Y
i
(1 i v) dos erros. Neste sentido, primeiramente iremos
mostrar que estas magnitudes cam determinadas de maneira unica apos o conhecimento dos
X
i
s(1 i v), que sao os n umeros localizadores de erros determinados no passo anterior.
As v primeiras equa coes em (2.2) podem ser descritas na forma
_
_
X
1
X
2
. . . X
v
X
2
1
X
2
2
. . . X
2
v
.
.
.
.
.
.
.
.
.
.
.
.
X
v
1
X
v
2
. . . X
v
v
_
_
_
_
Y
1
Y
2
.
.
.
Y
v
_
_
=
_
_
s
1
s
2
.
.
.
s
v
_
_
(2.14)
63
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
Pelo Teorema 2.3.1 segue que a matriz v v em (2.14) e nao singular, isto e, seu deter-
minante e uma unidade em R, acarretando que o vetor Y = (Y
1
, Y
2
, . . . , Y
v
) e determinado
de maneira unica.
Para determinar o vetor Y usamos o procedimento proposto por Forney [40]. Este metodo
requer o conhecimento dos n umeros localizadores de erros e de suas fun coes simetricas ele-
mentares calculadas a partir da Equa cao (2.3).
Inicialmente, denimos as fun coes simetricas elementares
jl
dos n umeros localizadores
de erros (X
1
, X
2
, . . . , X
j1
, X
j+1
, . . . , X
v
) atraves da seguinte rela cao
i=j
(X X
i
) =
v1
l=0
jl
X
v1l
. (2.15)
Da Equa cao (2.3) obtemos,
v
i=1
(X X
i
) =
v
i=0
i
X
vi
, (2.16)
onde
0
=
j,0
= 1, o elemento identidade do anel R. Das Equa coes (2.15) e (2.16) obtemos
que
(X X
j
)
v1
l=0
jl
X
v1l
=
v
i=0
i
X
vi
. (2.17)
Desenvolvendo o primeiro membro da Equa cao (2.17) temos:
v1
l=0
jl
X
vl
v1
l=0
jl
X
j
X
v1l
=
v
i=0
i
X
vi
. (2.18)
Da Equa cao (2.18) conclumos que os coecinetes
jl
podem ser obtidos de maneira re-
cursiva a partir dos X
i
s e
i
s para (1 i v) (que sao conhecidos), mediante a seguinte
rela cao:
ji
=
i
+X
j
j,i1
para (1 i v 1) e com
0
=
j,0
= 1. (2.19)
64
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
Denotando a magnitude de cada erro por Y
j
, temos:
v1
l=0
jl
s
vl
=
v1
l=0
jl
v
i=1
Y
i
X
vl
i
=
v
i=1
Y
i
X
i
v1
l=0
jl
X
v1l
i
. (2.20)
Por (2.15) isto implica que,
v1
l=0
jl
s
vl
=
v
i=1
Y
i
X
i
m=j
(X
i
X
m
) = Y
j
X
j
m=j
(X
j
X
m
), (2.21)
onde esta ultima igualdade segue do fato que o somatorio em questao so nao se anula se
i = j. Da Equa cao (2.21) conclumos:
v1
l=0
jl
s
vl
= Y
j
v1
l=0
jl
X
vl
j
, (2.22)
e consequentemente, cada Y
j
para (1 j v) e dado por
Y
j
=
v1
l=0
jl
s
vl
v1
l=0
jl
X
vl
j
. (2.23)
Observacao 2.3.3. O denominador da Equa cao (2.23) e uma unidade no anel R pois e igual
a X
j
m=j
(X
j
X
m
), onde cada fator e do tipo
i
j
com 0 i ,= j n1. Assim, segue
das demonstra coes dos Teoremas 3.4.1, 3.4.2 e Lema 4.1.1 de [49] que as diferen cas (
i
j
),
com i ,= j, sao sempre unidades no anel R, o que implica que o referido denominador e uma
unidade no anel R.
Conclumos deste modo o quarto passo de decodica cao dos codigos BCH, que e a de-
termina cao das magnitudes Y
i
s dos erros atraves da Equa cao (2.23). Assim, nalizamos o
processo de decodica cao destes codigos denidos sobre aneis de inteiros residuais Z
p
k, para
p um primo e k um inteiro maior ou igual a 1.
2.3.2 Gera cao de Sequencias
O problema de circuitos lineares de deslocamentos com realimenta cao para dgitos per-
tencentes a um corpo nito foi tratado em [44]. Este mesmo problema foi estendido em [35]
65
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
para o caso de aneis da forma Z
p
k.
Um circuito linear de deslocamentos com realimenta cao de comprimento L, Figura 2.13,
consiste de uma cascata de L atrasadores (registros de deslocamentos) e alguns multipli-
cadores e somadores capazes de gerar uma combina cao linear dos conte udos destes registros.
S
j-1
S
j-2
S
j-L
S
j
S
j-L -1
S
1
,...,
-C
1
-C
L -C
2
.....
.....
.....
Figura 2.13: LFSR (linear feedback shift-register) de comprimento L.
O conte udo do ultimo registro e a sada do LFSR. Os conte udos iniciais s
1
, s
2
, . . . , s
L
dos
L atrasadores coincidem com os L primeiros dgitos de sada, e os digtos subsequentes de
sada sao obtidos atraves da seguinte rela cao de recorrencia
s
j
=
L
i=1
c
i
s
ji
para (j = L + 1, L + 2, ...). Os dgitos de sada e os coecientes de realimentacao
c
1
, c
2
, . . . , c
L
sao elementos do anel R. Quando c
L
= 0 o LFSR e dito singular.
Um LSFR gera uma sequencia nita de dgitos s
1
, s
2
, . . . , s
N
quando esta sequencia coin-
cide com os N primeiros dgitos de sada do mesmo para algum conte udo inicial. Se L N o
LFSR sempre gera a sequencia e se L < N temos que o LFSR gera a sequencia se, e somente
se,
s
j
+s
j1
c
1
+ +s
jL+1
c
L1
+s
jL
c
L
= 0 (2.24)
para L + 1 j N.
Algoritmo para sntese de LFSRs
Em [44] foi mostrado que o algoritmo usado para a decodica cao de codigos BCH tambem
pode ser usado para sintetizar um LFSR de comprimento mnimo L que gera uma sequencia
66
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
prescrita. Isto e, o problema de gera cao de um LFSR e a decodica cao de um codigo BCH
sao equivalentes.
De forma analoga, o algoritmo de Berlekamp-Massey modicado pode ser aplicado para
sintetizar um LFSR de comprimento mnimo que gera uma dada sequencia s
i
N
i=1
de e-
lementos pertencentes a um anel R. Isto e justicado quando comparamos os Sistemas de
Equa coes (2.5) e (2.24). Em ambos os casos, o objetivo e encontrar a menor quantidade de
variaveis (v ou L) que satisfazem os respectivos conjuntos de equa coes.
Deste modo, temos que as entradas do algoritmo serao os elementos s
1
, s
2
, . . . , s
N
que
formam a sequencia dada e a sada do mesmo sera o polinomio
C(X) = 1 +c
1
X + +c
L
X
L
na variavel X, cujos coecientes sao os coecientes de realimenta cao do LFSR minimal de
comprimento L que gera s
i
N
i=1
. Este LFSR minimal sera unico se, e somente se, 2L N e
em cada estagio do algoritmo a equa cao linear d
n
yd
m
= 0, na variavel Y , apresentar solu cao
unica (d
n
e d
m
sao a n-esima e a m-esima discrepancia, respectivamente). Caso contrario,
havera mais de um LFSR minimal de comprimento L que gera s
i
N
i=1
.
Finalmente, vale ressaltar que o problema da sntese de LFSRs minimais que geram
sequencias de elementos pertencentes a aneis do tipo Z
m
foi tratado em [44]. Entretanto,
o algoritmo apresentado difere substancialmente do algoritmo original de BM para corpos
GF(q), aumentando inclusive o n umero de variaveis envolvidas. Alem disso, se m fatorar em
um produto de r primos distintos, entao o algoritmo deve ser aplicado r vezes para depois
usarmos o Teorema do Resto Chines [45] que nalmente produzira a resposta desejada.
67
Captulo 3
Modelo de um Sistema de
Comunica cao para a Importa cao de
Protenas Organelares
Neste captulo, apresentamos a proposta de um modelo geral de sistema de comunica coes
para o mecanismo de importa cao organelar. Utilizamos o modelo proposto para interpretar
o sistema de importa cao de protenas mitocondriais, isto e, um caso particular do modelo
geral. Alem disso, mostramos como foram estabelecidos os codigos corretores de erros para
a reprodu cao das sequencias de direcionamento, bem como a estrutura matematica e os
parametros destes codigos.
Por tratar-se de um assunto interdisciplinar, na Se cao 3.1 relatamos sobre as semelhan cas
entre o Dogma Central da Biologia e o Dogma Central da Teoria de Comunica coes. Baseando-
se nessas semelhan cas descrevemos detalhadamente sobre os processos de codica cao e de-
codica cao do modelo proposto para o mecanismo de importa cao de protenas mitocondriais,
Se cao 3.2. Ressaltamos que a Subse cao 3.1.1 e parte integrante de [18].
3.1 Analogias entre um Sistema de Informa cao Gene-
tica e um Sistema de Comunica cao
3.1.1 O dogma central da biologia molecular
O dogma central da biologia molecular foi descrito em 1958 por Francis Crick na tentativa
de relacionar o DNA, o RNA e as protenas. O dogma central dene o paradigma da biologia
molecular, em que a informa cao e perpetuada atraves da replicacao do DNA e e traduzida
69
Captulo 3. Modelo de um Sistema de Comunica cao para a Importa cao de Protenas
Organelares
atraves de dois processos: A transcricao que converte a informa cao do DNA em uma forma
mais acessvel (uma ta de RNA complementar) e atraves da traducao que converte a
informa cao contida no RNA em protenas. Nesta subse cao descrevemos, de forma sucinta,
como ocorrem os processos de duplica cao, transcri cao e tradu cao, respectivamente.
Como o DNA se duplica - duplicacao
Para o DNA duplicar-se (ou replicar), ha necessidade de uma enzima especial, a DNA
polimerase. Estando presente essa enzima, ocorrem as seguintes etapas:
1. As pontes de hidrogenio que ligam as bases nitrogenadas rompem-se e as duas tas se
afastam;
2. Nucleotdeos de DNA livres, que ja existem na celula, encaixam-se nas duas tas que se
afastaram. O encaixe so ocorre se as bases forem complementares (adenina com timina,
citosina com guanina);
3. Quando as duas tas originais tiverem sido completadas por nucleotdeos novos, teremos
duas moleculas de DNA identicas entre si.
Em cada molecula, existe um lamento antigo, que pertencia `a molecula-mae, e um novo,
que se formou sobre o antigo. Cada lamento antigo atuou como molde, ja que sua sequencia
de bases funcionou como guia para a produ cao da ta nova. O processo de duplica cao
e tambem denominado semi-conservativo, ja que cada molecula-lha conserva metade da
molecula-mae.
Como o DNA fabrica o mRNA - transcricao
De que jeito o DNA controla a producao de enzimas? O DNA produz moleculas
de mRNA, que migram para o citoplasma e controlam a constru cao das protenas, aminoa-
cido por aminoacido, garantindo a produ cao daquela protena especial no momento correto.
A sequencia de DNA e que condiciona a sequencia da molecula de RNA. Uma diferen ca
importante em rela cao `a duplica cao e que apenas uma ta de DNA funciona como molde.
O RNA produzido sera, portanto, uma ta simples e nao dupla. Esse processo segue os
seguintes passos:
1.
E necessaria a presen ca de uma enzima: a RNA polimerase;
2. As pontes de hidrogenio se desfazem, as duas tas de DNA se afastam;
3. Nucleotdeos livres de RNA encaixam-se apenas numa das tas, chamada ta ativa;
70
Captulo 3. Modelo de um Sistema de Comunica cao para a Importa cao de Protenas
Organelares
4. A molecula de RNA (ta unica) destaca-se de seu molde de DNA e migra para o
citoplasma;
5. As duas tas de DNA tornam a parear, reconstituindo a molecula original.
Sntese de protenas - traducao
O DNA presente no n ucleo controla toda a sntese de protenas da celula. Esse controle e
efetuado por meio de moleculas de RNA que o DNA fabrica e que passam para o citoplasma.
A correspondencia entre o DNA e o RNA ocorre base por base: quando ha adenina no
DNA, entra uracila no RNA; timina no DNA corresponde `a adenina no RNA, e assim por
diante.
Na correspondencia entre RNA e protena, cada tres bases do RNA codicam um aminoa-
cido especco da protena. A correspondencia entre trincas de bases do DNA, trincas de
bases do RNA e aminoacidos chamamos codigo genetico. Cada trinca de bases no DNA
ou no RNA e denominada codon, de fato essas trincas representam palavras do codigo
genetico, cada palavra corresponde a um objeto, no caso o aminoacido. Existem 64
possveis trincas, ou codons, que correspondem a apenas 20 aminoacidos. Assim, e facil
entender que mais de um codon pode corresponder ao mesmo aminoacido.
3.1.2 O dogma central da teoria de comunica coes
A teoria de comunica coes lida com sistemas para a transmissao de dados ou de informa cao
de um ponto a outro. Na Figura 3.1 ilustramos atraves de um diagrama de blocos o que
denimos como sendo o dogma central da teoria de comunicacoes:
Transmissor Canal Receptor
Rudo
Figura 3.1: Dogma central da teoria de comunica coes.
A informa cao a ser transmitida atraves de um sistema de comunica coes estara sempre
sujeita a um conjunto de interferencias que no processo de modelagem serao alocadas ao
canal de transmissao. Essa coletanea de interferencias e denominada rudo.
Podemos descrever os blocos de um sistema de comunica coes como:
71
Captulo 3. Modelo de um Sistema de Comunica cao para a Importa cao de Protenas
Organelares
Transmissor: e o gerador da informa cao, na forma de uma mensagem a ser transmi-
tida. Esta mensagem pode se constituir de um texto em uma linguagem natural, voz,
um sinal eletrico, ou qualquer outra forma que a informa c ao possa assumir.
Canal: e o meio atraves do qual se vai transmitir a informa cao, podendo assumir a
forma de uma linha telefonica, um enlace de radio, um meio de armazenamento (e.g.
sistema de disco magnetico), um organismo biologico, etc.
E no canal que e introduzido
rudo `a informa cao, sendo esta uma das grandes preocupa coes da codica cao, a prote cao
da informa cao contra erros na transmissao.
Receptor: representa o usuario para o qual a informa cao esta sendo transmitida,
podendo tratar-se de um ser humano, uma maquina, ou um organismo vivo qualquer.
3.1.3 Analogias entre sistema de informa cao genetica e o sistema
de comunica coes
O objetivo desta se cao e relacionar as semelhan cas existentes entre o dogma central do
sistema de comunica coes e o dogma central da biologia molecular. Atraves das informa coes
fornecidas nas Subse coes 3.1.1 e 3.1.2, modelamos o dogma central da biologia molecular
como um sistema de comunica coes fazendo as seguintes associa coes:
1. Em um sistema de comunica cao o responsavel pela gera cao das informa coes a serem
transmitidas e o transmissor. Biologicamente quem exerce esta mesma fun cao e o DNA.
2. O processo de tradu cao tem como objetivo a transmissao da informa cao. Durante este
processo pode ocorrer alguns erros que irao interferir na informa cao, como por exemplo
a nao leitura de um codon que pode ocorrer por perda do pareamento do ribossomo.
Do ponto de vista da comunica cao, podemos visualizar os processos de transcri cao
e tradu cao como sendo o canal de um sistema de comunica cao, e os eventuais erros
cometidos durante estes processos como sendo o rudo introduzido no canal.
3. O receptor pode ser modelado como o local onde a informa c ao esta sendo enviada.
Neste caso especco, a nossa informa cao e a protena.
Sendo assim, podemos agora identicar atraves de um diagrama de blocos, cada bloco
no modelo de sistema de comunica cao, Figura 3.2, com cada bloco no sistema de informa cao
genetica.
Diante dessas semelhan cas, podemos modelar diversos sistemas biologicos atraves daquele
utilizado para um sistema de comunica coes.
72
Captulo 3. Modelo de um Sistema de Comunica cao para a Importa cao de Protenas
Organelares
DNA
(Canal)
Protena
Erros
(Rudo)
(Receptor) (Transmissor)
Traduo
Figura 3.2: Modelo de um sistema de comunica coes de informa cao genetica.
3.2 Proposta de um Sistema de Comunica cao para a
Importa cao de Protenas
Nesta se cao, apresentamos uma proposta de um modelo de sistema de comunica cao para
a importa cao de protenas organelares que se baseia em um sistema de comunica cao digital.
Ate onde e de nosso conhecimento, este modelo difere dos modelos propostos anteriormente,
como vimos na se cao anterior. Na Subse cao 3.2.1 descrevemos os blocos componentes de um
sistema de comunica cao digital. A Subse cao 3.2.2 apresenta as analogias entre o mecanismo
de importa cao organelar e um sistema de comunica cao digital. Nas Subse coes 3.2.3 e 3.2.4
mostramos a estrutura e os parametros dos codigos BCH sobre anel. A Subse cao 3.2.5
descreve o modelo proposto no presente trabalho.
3.2.1 Sistema de comunica cao digital
O modelo do sistema de comunica cao digital mostrado na Figura 3.3 sera descrito a seguir.
Este sistema de comunica cao conecta uma fonte (usuario) a um destinatario atraves de um
canal.
Os dados que entram neste sistema de comunica cao a partir da fonte sao primeiramente
processados pelo codicador de fonte, o qual tem como objetivo representar os dados de
uma forma mais compacta, retirando a redundancia. A sada desse codicador consiste de
sequencias chamadas palavras-codigo do codigo da fonte.
Essas sequencias sao processadas por um codicador de canal que introduz redundancia
transformando-as em outras sequencias denominadas palavras-codigo. Cada smbolo na
palavra-codigo e representado por bits (dgitos binarios) no caso de sinaliza cao binaria. Caso
se use mais do que dois sinais (por exemplo q sinais), nao temos bits e sim dgitos de um
alfabeto q-ario.
73
Captulo 3. Modelo de um Sistema de Comunica cao para a Importa cao de Protenas
Organelares
Canaldiscreto
Canal
Fonte
Codificador
defonte
Modulador
Codificador
decanal
Destinatrio
Decodificador
defonte
Demodulador
Decodificador
decanal
Rudo
Transmissor
Receptor
Figura 3.3: Diagrama de blocos de um sistema de comunica cao.
A seguir, o modulador converte cada smbolo da palavra-codigo em um smbolo analogico
correspondente que e transmitido atraves do canal.
Frequentemente o canal ca sujeito a varios tipos de rudo, distor coes e interferencias e
com isso a sada pode diferir da entrada. O demodulador converte, sempre fazendo a melhor
estimativa, cada sinal recebido na sada do canal em um dos possveis smbolos que compoem
as palavras-codigo.
A sequencia demodulada de smbolos e chamada palavra-c odigo recebida. Obviamente,
devido ao rudo, nem sempre a palavra-codigo recebida corresponde `a palavra-codigo enviada.
Nesse momento o decodicador de canal se utiliza da redundancia contida na palavra-codigo
para corrigir os erros e entao produzir uma estimativa da palavra-codigo de fonte. O deco-
dicador de fonte processa a sequencia na sada do decodicador produzindo uma sequencia
estimada e a transforma numa sequencia de dados que sera entregue ao usuario.
3.2.2 Sistema de comunica cao biologico
Codigos corretores de erros sao utilizados sempre que se deseja transmitir ou armazenar
informa cao. Um exemplo bem sucedido e o sistema biologico que armazena e transmite a
informa cao atraves do codigo genetico. Na Figura 3.4 relacionamos as semelhan cas existentes
entre o sistema de comunica coes e a importa cao de protenas organelares fazendo as seguintes
associa coes:
1. Fonte: Em um sistema de comunica cao a fonte e o lugar onde a mensagem e gerada.
Em um sistema biologico, entretanto, o DNA e o RNA mensageiro sao responsaveis
pela gera cao e a transmissao da informa cao, respectivamente.
74
Captulo 3. Modelo de um Sistema de Comunica cao para a Importa cao de Protenas
Organelares
2. Transmissor: O processo de tradu cao ocorre no citosol e seu objetivo e garantir a
continuidade da informa cao genetica.
3. Canal:
E o local pelo qual a informa cao e transmitida em um sistema de comunica coes,
onde erros podem ocorrer durante a transmissao da informa cao.
4. Receptor: O receptor pode ser interpretado como uma das organelas (mitocondria,
retculo endoplasmatico e cloroplasto), as quais representam o local para onde a in-
forma cao esta sendo enviada. Neste caso especco, a informa cao e a sequencia de
direcionamento.
Figura 3.4: Modelo de um sistema de comunica cao para importa cao de protenas.
Diante dessas analogias, decorre a proposta de um modelo para o sistema de importa cao
de protenas semelhante ao de um sistema de comunica coes digital. Uma questao sempre
presente em trabalhos relacionados com codica cao genetica e se existe alguma forma de
codigos corretores de erros na estrutura do DNA? O presente trabalho encaminha, de maneira
positiva, uma resposta a essa pergunta.
O modelo proposto baseia-se na seguinte hipotese: Se o genoma e constitudo por regioes
consistindo de exons, ntrons, sequencias de direcionamento, sinais internos, DNA repetitivo,
micro RNA e etc; entao cada uma dessas regioes pode ser reproduzida por um codigo es-
pecco. Sendo assim, o genoma consiste de codigos entrela cados e ao inves de analisarmos
o genoma como um todo, devemos focalizar em suas partes. Por este motivo abordaremos
uma regiao especca do genoma, as sequencias de direcionamento, que tem como objetivo
encaminhar uma protena ate a sua respectiva organela.
75
Captulo 3. Modelo de um Sistema de Comunica cao para a Importa cao de Protenas
Organelares
Naturalmente surgem as seguintes perguntas: 1) Dentre os diversos codigos usados para
a transmissao da informa cao, existe algum codigo corretor de erros capaz de reproduzir
sequencias de direcionamento e suas correspondentes tas complementares? 2) Se existe,
qual sera a estrutura matematica para construir este codigo?
Diante destas perguntas, iniciamos o processo de busca do c odigo e da estrutura matemati-
ca que sejam mais apropriados e capazes de reproduzir as sequencias de direcionamento.
3.2.3 O codigo e a estrutura matematica
Os codigos corretores de erros sao classicados em duas classes: codigos lineares e codigos
nao-lineares. Como exemplo de codigos nao-lineares mencionamos os codigos de Nordstrom-
Robinson e Preparata, os quais apresentam uma capacidade de corre cao de erros superior `a
dos codigos lineares. Para satisfazer tal caracterstica, algumas propriedades estruturais no
processo de gera cao sao perdidas. Como consequencia desse fato, o processo de decodica cao
torna-se mais complexo que o dos codigos lineares.
Por outro lado, as principais classes dos codigos lineares sao: os codigos cclicos, os
codigos de Hamming, codigos Reed-Solomon e codigos BCH. Os codigos BCH usados para
a transmissao de informa cao de pacotes em redes de computadores e gera cao de sequencias
formam uma importante classe de codigos cclicos devido, principalmente, `a simplicidade
dos processos de codica cao e decodica cao associados. Este fato os tornam tambem bons
candidatos a serem utilizados na aplica cao para a gera c ao de sequencias de direcionamento,
onde as estruturas matematicas mais utilizadas para a constru cao destes codigos sao as
estruturas algebricas de corpo, anel e suas extensoes de Galois. Pelo fato da estrutura
de corpo ser mais restritiva que a estrutura de anel, decidimos construir os codigos BCH
sobre a estrutura de anel. Ressaltamos que em alguns trabalhos citados anteriormente, a
estrutura mais conhecida e usada na literatura, tanto em sistemas de comunica coes quanto
em modelagens de sistemas geneticos, e a estrutura de corpo. Sendo assim, a estrutura de
anel sera pela primeira vez abordada na literatura com o objetivo de construir codigos capazes
de reproduzir sequencias de direcionamento.
Uma vez selecionado o codigo (codigo BCH) e a estrutura algebrica (anel), alguns ele-
mentos adicionais deverao ser considerados, tais como: o alfabeto, o mapeamento, a extensao
de Galois e o polinomio primitivo. O alfabeto 4-ario do codigo esta relacionado ao conjunto
formado pelos nucleotdeos, denotado por N = A, C, G, T, correspondendo a adenina,
citosina, guanina e timina, respectivamente. Na estrutura de anel consideramos o alfabeto
do codigo Z
4
= 0, 1, 2, 3, este obedecendo as opera coes de soma e produto modulo 4. Uma
vez que o correspondente mapeamento entre N Z
4
nao e conhecido, consideramos todas as
permuta coes entre os elementos de cada um destes conjuntos. Este mapeamento tem como
76
Captulo 3. Modelo de um Sistema de Comunica cao para a Importa cao de Protenas
Organelares
objetivo determinar qual a melhor associa cao de cada um dos smbolos no conjunto N com
o correspondente smbolo no conjunto Z
4
e vice-versa.
Considerando o fato de que as sequencias de direcionamento variam entre 13 e 85 aminoaci-
dos e de que o comprimento das palavras-codigo deve ser igual ao comprimento das sequencias
de direcionamento, teremos para cada um dos comprimentos uma correspondente extensao
de Galois sobre anel. Cada extensao de Galois possui uma quantidade de polinomios prim-
itivos, de forma que, quanto maior o grau da extensao maior a quantidade de polinomios
primitivos.
Em teoria da codica cao nao importa qual o polinomio primitivo que se escolha para
construir a extensao de corpo da qual o codigo sera construdo, pois algebricamente os corpos
gerados pelos correspondentes polinomios primitivos sao isomorfos. Como nao conhecemos
a estrutura algebrica das sequencias de direcionamento decidimos realizar a constru cao do
codigo BCH sobre anel para cada um dos polinomios primitivos de uma determinada extensao
de Galois, com o objetivo de vericar se esta escolha resultara em codigos com o mesmo
desempenho para um sistema de comunica coes genetico.
A diculdade que se apresenta para a solu cao desse problema esta em, quanto maior o
grau da extensao de Galois maior sera a quantidade de polinomios primitivos que devem
ser analisados na constru cao dos codigos, aumentando signicativamente a complexidade
computacional na constru cao destes codigos. Para contornar este problema construmos
codigos na extensao de Galois de grau r = 6 que possui seis polinomios primitivos.
3.2.4 Parametros do codigo
Os parametros do codigo BCH sao denotados da seguinte maneira: n = o comprimento
das palavras-codigo (comprimento das sequencias de direcionamento); k = a dimensao do
codigo (comprimento da sequencia de informa cao responsavel pela gera cao da sequencia de
direcionamento) e d = a distancia mnima do codigo (o menor n umero de posi c oes em que
quaisquer duas palavras-codigo diferem). O codigo BCH com parametros (n, k, d) possui uma
capacidade de corre cao de erros estabelecida atraves da rela cao d = 2t + 1, onde t denota a
quantidade de erros.
Para que a fatora cao de x
n
1 na extensao GR(p
k
, r) = GR(4, 6) seja unica, e necessario
que o comprimento da palavra-codigo seja mpar (n = p
r
1). Com o objetivo de diminuir
a complexidade computacional, analisamos as sequencias de direcionamento que possuem
comprimentos iguais a 21 e 22 aminoacidos correspondendo a 63 e 66 nucleotdeos, respecti-
vamente. No caso das sequencias com 22 aminoacidos podemos desconsiderar a metionina,
uma vez que a matriz geradora apresentara tres colunas com todos os elementos iguais. Para
que o comprimento seja n = 63 nucleotdeos, teremos que ter uma extensao de Galois de
77
Captulo 3. Modelo de um Sistema de Comunica cao para a Importa cao de Protenas
Organelares
grau r = 6, isto e, n = p
r
1 n = 2
6
1 = 63.
Os codigos BCH foram construdos para todos os valores de t entre 1 t 31 para cada
um dos seis polinomios primitivos da extensao de Galois igual a r = 6, com o objetivo de
encontrar um codigo capaz de gerar as sequencias de direcionamento sem nenhuma diferen ca
de nucleotdeo ou no maximo diferindo em um nucleotdeo. Chamamos a aten cao para o
seguinte fato, para cada polinomio primitivo usado na gera cao do anel GR(4, 6) e para cada
valor de t, quantidade de erros, teremos um polinomio gerador g(x) diferente e, consequente-
mente, um novo codigo. Sendo assim, devemos considerar cada um destes codigos como um
novo codigo a ser analisado.
Na Se cao 4.1 do Captulo 4 apresentamos um algoritmo que realiza exaustivamente a
constru cao dos codigos BCH sobre anel para todos os polinomios primitivos da extensao de
Galois de grau r = 6 irredutveis sobre GF(2), bem como para as distancias de Hamming
variando entre 3 d 63.
3.2.5 Modelo do sistema de comunica cao biologico
O sistema de comunica coes para o transporte de protenas organelares do presente tra-
balho, consiste na caracteriza cao dos processos de codica cao e decodica cao das sequencias
de direcionamento. O processo de codica cao e realizado pelo bloco transmissor, Figura 3.5
(A), e o processo de decodica cao e realizado pelo bloco receptor, Figura 3.5 (B).
Canal
Destinatrio Decodificador Demodulador
Codificador Fonte Modulador
Transmissor
Receptor
Canaldiscreto
(A)
(B)
Figura 3.5: Sistema de comunica coes digital.
Uma possvel interpreta cao do teorema de codica cao de canal, de Shannon, considerando
o uxo de informa cao da fonte ao destinatario, e que a informa cao m utua do canal discreto
78
Captulo 3. Modelo de um Sistema de Comunica cao para a Importa cao de Protenas
Organelares
deve ser tao proxima quanto possvel da entropia da fonte. Para alcan car esse objetivo,
um codigo corretor de erros e usado. Portanto, o transmissor no modelo de um sistema de
comunica coes digital consiste de dois blocos em cascata, um bloco esta associado com um
codicador e o outro associado com um modulador, Figura 3.6.
O processo de codicacao biologica
A palavra-codigo na sada do codicador esta relacionada `a sequencia de direcionamento
em termos de nucleotdeos, enquanto que a sada do modulador esta relacionada `a sequencia
de direcionamento em termos de aminoacidos, Figura 3.6. Embora o mapeamento entre o
codon e anti-codon (codigo genetico), realizado pelo RNA transportador seja bem conhecido
no contexto biologico, o mesmo necessita de uma caracteriza cao matematica no contexto de
um sistema de comunica coes digital.
Canal
Destinatrio Decodificador Demodulador
Codificador Fonte Modulador
Transmissor
Receptor
Canaldiscreto
.MC
SD
nucleotdeos
Ribossomo
Cdigo
Gentico
G-Linear
Codificador
Modulador
Constelao de
Sinais
Cdigo
BCH
Mapeamento Fonte
.RNAt
=
Transmissor
SD*
aminocidos
Figura 3.6: Modelo proposto para codica cao biologica.
No contexto de sistema de comunica coes digital existe um processo muito simples e e-
ciente que e chamado de mapeamento casado (MC). Essa propriedade matematica implica
que a estrutura algebrica do codicador seja a mesma, a menos de um isomorsmo, que a da
constela cao de sinais, garantindo assim, a menor complexidade possvel do sistema. A classe
de codigos satisfazendo essa propriedade e bem conhecida e denominada codigos geometrica-
mente uniformes. Uma subclasse importante e a dos codigos G-lineares, onde G denota uma
estrutura algebrica, que incorpora todas as vantagens inerentes ao processo de gera cao e de
decodica cao dos codigos lineares, bem como, a dos codigos nao lineares atraves da inser cao
do bloco mapeamento. Dependendo da classica cao desse mapeamento como linear ou nao
linear, o codigo resultante sera linear ou nao linear, respectivamente. Portanto, o codicador
79
Captulo 3. Modelo de um Sistema de Comunica cao para a Importa cao de Protenas
Organelares
consiste de um mapeador e um codicador de um codigo corretor de erros. O modulador
consiste do codigo genetico, do RNA transportador e do RNA ribossomico.
O codigo genetico pode ser visto como uma constela cao de sinais, onde cada codon e
considerado como um sinal na constela cao, o RNA transportador realiza o mapeamento
casado, enquanto que o RNA ribossomico se comporta como um processador de sinal digital,
Figura 3.6.
O processo de decodicacao biologica
O modelo de decodica cao do presente trabalho baseia-se no processo de importa cao de
protenas mitocondriais, porem essa analogia pode ser estendida para os demais processos
de importa cao organelares. Para que esse modelo seja possvel, fazemos o uso da seguinte
hipotese: A sequencia reproduzida pelo codigo e a informa cao gerada pela fonte. No processo
de codica cao ocorreu algum tipo de interferencia que introduziu erros durante a gera cao da
sequencia. Sendo assim, consideramos que a sequencia encontrada no banco de dados NCBI
(National Center for Biotechnology Information) e a sequencia reproduzida pelo codigo
acrescida de erros, a qual denotamos por SD
.
Em um sistema de comunica cao existe um processo muito estruturado de reconhecimento
do conte udo da informa cao enviado pelo transmissor. Esse processo sustenta a conabilidade
da transmissao da informa cao de todo o sistema e e realizado no bloco decodicador. Basi-
camente atraves do reconhecimento, localiza cao e corre cao dos erros, o decodicador garante
que a informa cao correta chegara ao seu destino.
Canal
Destinatrio Decodificador Demodulador
Codificador Fonte Modulador
Transmissor
Receptor
Canaldiscreto
=
Receptor
Tom70 Tom20
Tom22
Tom40 Tom5
Tom7 Tom6
Membranainterna
ou
Matriz
SD*aminocidos
sinaisinternos
SD*aminocidos
N-terminal
SD*nucleotdeos
sinaisinternos
SD*nucleotdeos
N-terminal
Demodulador
Decodificador
GIP
Figura 3.7: Modelo proposto para decodica cao biologica.
80
Captulo 3. Modelo de um Sistema de Comunica cao para a Importa cao de Protenas
Organelares
No contexto biologico quem realiza o processo de reconhecimento das sequencias de dire-
cionamento (conte udo da informa cao) e o complexo TOM (translocase of the mitochondrial
outer membrane). O complexo TOM esta ancorado na membrana externa e e necessario
para a importa cao de todas as protenas mitocondriais codicadas no n ucleo [6].
A maquinaria TOM contem receptores de importa cao que reconhecem as protenas precur-
soras mitocondriais atraves de suas sequencias de direcionamento e, entao, iniciam o processo
de transloca cao dessa protena para o seu devido local [7].
As protenas Tom20, Tom22 e Tom70 funcionam como receptores para as protenas
precursoras mitocondriais. Tom20 e Tom22 formam o complexo receptor principal sendo
que Tom22 interage com precursores contendo sequencias de direcionamento internas ou
no amino-terminal, enquanto que Tom20 reconhece especicamente pre-sequencias amino-
terminais. Tom70 interage com precursores que possuem sequencias de direcionamento inter-
nas. As protenas precursoras inicialmente reconhecidas pelo Tom70 sao transferidas para o
Tom20 e/ou Tom22 antes de sua inser cao no poro geral de inser cao (GIP general insertion
pore)[11].
Embora o processo de reconhecimento das sequencias de direcionamento, realizado pelo
complexo TOM, seja bem conhecido no contexto biologico e necessaria uma caracteriza cao
matematica para esse processo. O modelo de decodica cao baseia-se em uma analogia en-
tre o processo de decodica cao (Berlekamp-Massey para Aneis) utilizado em sistemas de
comunica coes e o complexo TOM que atua no transporte de protenas mitocondriais.
O algoritmo de Berlekamp-Massey consiste basicamente de quatro passos, os quais podem
ser interpretados como os quatro passos do processo de decodica cao:
Passo 1. Calculo das Sndromes: neste passo o algoritmo verica se a informa cao e uma
palavra-codigo atraves do calculo das sndromes. Temos duas situa coes: 1) Quando o
calculo for igual a zero temos que a informa cao e uma palavra-codigo sem erros e 2)
Quando o calculo for diferente de zero e acionado o segundo passo do algoritmo;
Passo 2. Calculo das Fun coes Simetricas Elementares: se o calculo das sndromes for
um valor diferente de zero, podemos vericar se a quantidade de erros esta dentro da
capacidade de corre cao do codigo;
Passo 3. Calculo dos N umeros Localizadores de Erros: neste passo sao localizadas as
posi coes onde ocorreram os erros;
Passo 4. Calculo das Magnitudes dos Erros: o algoritmo indica quais sao os valores
que devem ser somados nas posi coes apontadas no Passo 3 para que os erros sejam
corrigidos.
81
Captulo 3. Modelo de um Sistema de Comunica cao para a Importa cao de Protenas
Organelares
Durante o processo de importa cao de protenas mitocondriais, existem procedimentos
semelhantes aos passos do processo de decodica cao descritos anteriormente. Deste modo
podemos reescrever o algoritmo do Berlekamp-Massey sob o ponto de vista biologico, con-
siderando que o complexo TOM realiza os quatro passos de decodica cao do algoritmo da
seguinte forma:
1
o
passo do processo de decodica cao: Neste nvel as protenas Tom20 e Tom70, que
funcionam como receptores para as protenas precursoras mitocondriais, tem a fun cao
de vericar se a protena precursora pertence a mitocondria ou nao atraves do calculo
das sndromes;
2
o
passo do processo de decodica cao: Se o calculo das sndromes for um valor diferente
de zero, a protena Tom22 consegue vericar se os erros introduzidos na sequencia de
direcionamento mantem a estrutura matematica original da sequencia e se estes erros
estao dentro da capacidade de corre cao do codigo. Apos esta verica cao temos as duas
situa coes: 1) a protena e liberada para o complexo GIP somente se os erros estiverem
dentro da capacidade de corre cao e 2) caso contrario a protena nao e importada;
3
o
passo do processo de decodica cao: neste nvel as protenas do complexo GIP lo-
calizam as posi coes onde ocorreram os erros com o objetivo de vericar se os erros
ocorreram em uma regiao da sequencia que compromete o seu conte udo de informa cao;
4
o
passo do processo de decodica cao: biologicamente nao ocorre a repara cao de erros
apos a sntese de protenas, deste modo a nossa suposi c ao e que neste nvel e acionado
um mecanismo de degrada cao da protena caso os erros tenham ocorrido em regioes
que comprometem o seu conte udo de informa cao. Este mecanismo deve ser acionado
somente em casos raros, visto que existem outros tres nveis de decodica cao anteriores
a este nvel.
82
Captulo 4
Gera cao das Sequencias de
Direcionamento
Uma das motiva coes em identicar codigos corretores de erros em sequencias de DNA
esta no fato dos mesmos serem capazes de reproduzir estas sequencias, bem como a estrutura
matematica das sequencias de DNA. Este tipo de abordagem possibilita analisar muta coes e
polimorsmos sob o ponto de vista matematico, vericando se a sequencia de DNA mutada faz
parte do mesmo codigo da sequencia original e consequentemente da mesma matriz geradora.
Desse fato decorre que a estrutura matematica destas sequencias foram mantidas.
Em [1] pg. 166, Battail declara: Given a sequence of symbols, say, of nucleotides,
consider the problem of determining whether this sequence is a word of some error-correcting
code and, if so, of identifying the code to which it belongs. As stated, this problem has no
solution.
Neste captulo, ate onde e de nosso conhecimento, apresentamos uma primeira proposta
de identica cao entre codigos corretores de erros e sequencias de DNA. Ressaltamos que este
e o primeiro passo para o desenvolvimento de varios outros modelos de codica cao, uma vez
que se mostrou que a reprodu cao de sequencias de DNA atraves de codigos corretores de
erros e possvel.
Nas Se coes 4.1 e 4.2 apresentamos o algoritmo usado para reproduzir as sequencias de
direcionamento e os resultados da codica cao de sequencias de DNA, respectivamente.
A pesquisa foi realizada atraves de analises de sequencias de direcionamento de varios
organismos, especies e organelas, Tabela 4.1.
83
Captulo 4. Gera cao das Sequencias de Direcionamento
n
o
Organismo Especie Organela GI Comprimento da SD
SD01 B. napus Viridiplantae M 899225 66nt - 22aa
SD02 I. batatas Viridiplantae M 217937 63nt - 21aa
SD03 A. thaliana Viridiplantae RE 186509758 63nt - 21aa
SD04 N. tabacum Viridiplantae RE 632733 66nt - 22aa
SD05 H. vulgare Viridiplantae RE 1808650 63nt - 21aa
SD06 T. sativum Viridiplantae RE 78096542 63nt - 21aa
SD07 S. oleracea Viridiplantae C 21227 63nt - 21aa
SD08 S. cerevisiae Fungi M 45269853 63nt - 21aa
SD09 B. taurus Metazoa M 31343489 66nt - 22aa
SD10 B. taurus Metazoa M 114579 66nt - 22aa
SD11 G. max Viridiplantae M 497233 66nt - 22aa
SD12 C. sinensis Viridiplantae C 7328566 63nt - 21aa
SD13 A. thaliana Viridiplantae M 30695458 66nt - 22aa
SD14 A. thaliana Viridiplantae M 15010581 66nt - 22aa
SD15 R. norvegicus Metazoa M 457928 66nt - 22aa
SD16 S. cerevisiae Fungi M 433619 66nt - 22aa
SD17 H. sapiens Metazoa M 12587 66nt - 22aa
SD18 M. martensii Metazoa RE 16740522 63nt - 21aa
SD19 P. vulgaris Viridiplantae RE 536793 63nt - 21aa
SD20 P. dominulus Metazoa RE 51093376 63nt - 21aa
Tabela 4.1: M = mitocondria, C = cloroplasto, RE = retculo endoplasmatico.
4.1 Algoritmo de Codica cao
Nesta se cao, apresentamos um algoritmo que mostra em detalhes a constru cao de um
codigo BCH sobre a estrutura de anel com parametros (n, k, d)=(63, k, d) capaz de reproduzir
sequencias de direcionamento com comprimentos n = 2
6
1 = 63. Chamamos a aten cao para
as sequencias de direcionamento que possuem comprimento n = 2
6
+ 2 = 66, nesses casos
a metionina da primeira posi cao pode ser desconsiderada, uma vez que a matriz geradora
possui tres colunas com os mesmos elementos.
Os parametros do codigo sao denotados da seguinte maneira: n = o comprimento das
palavras-codigo (comprimento das sequencias de direcionamento); k = a dimensao do codigo
(comprimento da sequencia de informa cao responsavel pela gera cao da sequencia de DNA)
e d = a distancia mnima do codigo (o menor n umero de posi c oes em que quaisquer duas
palavras-codigo diferem).
A principal diferen ca da constru cao de codigos cclicos sobre aneis para a constru cao de
codigos cclicos sobre corpos esta no fato de que as razes do polinomio gerador dos codigos
cclicos sobre aneis encontram-se na extensao do anel Z
q
, ao inves de serem encontradas na
extensao do corpo F
q
= GF(p
r
).
Se a ordem do corpo base, p, e o comprimento das palavras-codigo, n, sao relativamente
primos, isto e, mdc (p, n) = 1, entao x
n
1 nao apresenta multiplicidade de razes.
Construcao Codigo BCH Primitivo (n, k, d) = (63, k, d) sobre GR(4, r)
84
Captulo 4. Gera cao das Sequencias de Direcionamento
Passo 1 - Determinar o alfabeto e a estrutura matematica do codigo
O alfabeto 4-ario do codigo genetico esta relacionado ao conjunto formado pelos nu-
cleotdeos denotado por N = A, C, G, T correspondendo `a adenina (A), citosina (C),
guanina (G) e timina (T). Por este motivo utilizamos o alfabeto 4-ario denotado por
Z
4
= 0, 1, 2, 3 obedecendo as opera coes de adi cao e multiplica cao m odulo 4, o que
lhe confere uma estrutura algebrica de anel.
Passo 2 - Determinar a extensao de Galois
A condi cao necessaria para que a fatora cao de x
n
1 em GR
=
F
2
[x]
x
6
+x
5
+x
3
+x
2
+ 1)
= a
0
+a
1
x +a
2
x
2
+ +a
5
x
5
: a
i
s F
2
,
onde p(x) e o polinomio primitivo (1) do Passo 3.
Seja um elemento primitivo em F
64
, equivalentemente, e uma raiz de x
6
+x
5
+x
3
+
x
2
+1 = 0, ou seja,
6
+
5
+
3
+
2
+1 = 0 implicando em
6
=
5
2
1. Como
os coecientes dos polinomios que formam o conjunto dos elementos de F
64
pertencem
a F
2
, fazemos a redu cao modulo 2 destes coecientes e obtemos
6
=
5
+
3
+
2
+1.
Os elementos de F
64
sao mostrados na Tabela 4.2.
Elementos de F
64
(
0
5
) Elementos de F
64
(
0
5
)
0 (000000)
10
=
9
(001100)
1 (100000)
.
.
.
.
.
.
(010000)
55
=
54
(001001)
2
(001000)
56
=
55
(101001)
3
(000100)
57
=
56
(111001)
4
(000010)
58
=
57
(110001)
5
(000001)
59
=
58
(110101)
6
(101101)
60
=
59
(110111)
7
=
6
(111011)
61
=
60
(110110)
8
=
7
(110000)
62
=
61
(011011)
9
=
8
(011000)
63
=
62
(100000)
Tabela 4.2: Elementos de F
64
em nota cao de r-uplas
Passo 5 - Extensao do anel Z
4
Considere o anel GR(4, 6) como sendo dado pelo quociente do anel Z
4
[x] (conjunto
de todos os polinomios com coecientes em Z
4
) pelo ideal gerado pelo mesmo p(x)
utilizado para realizar a extensao do corpo no Passo 4, isto e,
Z
4
[x]
p(x))
=
Z
4
[x]
x
6
+x
5
+x
3
+x
2
+ 1)
= b
0
+b
1
x +b
2
x
2
+ +b
5
x
5
: b
i
s Z
4
2
1. Como os coecientes dos polinomios em GR(4, 6) estao em Z
4
, entao
6
= 3
5
+ 3
3
+ 3
2
+ 3. Considerando f = (010000) = , todos os elementos nao
86
Captulo 4. Gera cao das Sequencias de Direcionamento
nulos e inversveis de GR(4, 6) sao determinados atraves da potencia cao de f, como
mostrado na Tabela 4.3.
GR
(4, 6) (
0
5
) GR
(4, 6) (
0
5
)
1 (100000) f
10
= x
10
=
10
(221102)
f = x = (010000) f
11
= x
11
=
11
(220312)
f
2
= x
2
=
2
(001000)
.
.
.
.
.
.
f
3
= x
3
=
3
(000100) f
120
= x
120
=
120
(331023)
f
4
= x
4
=
4
(000010) f
121
= x
121
=
121
(130203)
f
5
= x
5
=
5
(000001) f
122
= x
122
=
122
(110121)
f
6
= x
6
=
6
(303303) f
123
= x
123
=
123
(310311)
f
7
= x
7
=
7
(131031) f
124
= x
124
=
124
(330330)
f
8
= x
8
=
8
(312002) f
125
= x
125
=
125
(033033)
f
9
= x
9
=
9
(233002) f
126
= x
126
=
126
(100000)
Tabela 4.3: Elementos de GR
5
) G
63
(
0
5
) G
63
(
0
5
)
(001000)
22
(321013)
43
(122031)
2
(000010)
23
(211122)
44
(233312)
3
(303303)
24
(022331)
45
(123210)
4
(312002)
25
(232311)
46
(300131)
5
(221102)
26
(032213)
47
(231133)
6
(220233)
27
(212230)
48
(012021)
7
(012312)
28
(103223)
49
(333313)
8
(121000)
29
(112203)
50
(211201)
9
(001210)
30
(310131)
51
(133103)
10
(303311)
31
(231233)
52
(310300)
11
(033323)
32
(012022)
53
(003103)
12
(111100)
33
(020300)
54
(313000)
13
(001111)
34
(000203)
55
(003130)
14
(030301)
35
(313011)
56
(101132)
15
(131330)
36
(033020)
57
(320130)
16
(102010)
37
(202132)
58
(100302)
17
(300323)
38
(321100)
59
(223021)
18
(110210)
39
(003211)
60
(331023)
19
(300001)
40
(030322)
61
(110121)
20
(130031)
41
(020123)
62
(330330)
21
(233032)
42
(111012)
63
(100000)
Tabela 4.4: Elementos de G
63
1, 2 sobre GR
i
, (
i
)
p
, (
i
)
p
2
, , (
i
)
p
r1
.
Assim,
M
1
(x) = M
2
(x) = (x )(x
2
)(x
4
)(x
8
)(x
16
)(x
32
).
Portanto, g(x) = x
6
+3x
5
+x
3
+x
2
+2x+1 gera o codigo desejado e esta relacionado com
a matriz geradora G do codigo BCH sobre Z
4
com parametros (n, k, d) = (63, 57, 3).
Passo 8 - Determinacao do polinomio gerador da matriz H
O polinomio gerador da matriz verica cao de paridade H e obtido atraves da rela cao:
88
Captulo 4. Gera cao das Sequencias de Direcionamento
h(x) =
x
n
1
g(x)
=
x
63
1
x
6
+ 3x
5
+x
3
+x
2
+ 2x + 1
h(x) = x
57
+x
56
+x
55
+2x
53
+2x
52
+2x
51
+x
50
+3x
47
+x
43
+3x
42
+3x
40
+3x
39
+2x
38
+
3x
36
+x
34
+3x
33
+2x
32
+3x
31
+x
29
+x
28
+3x
27
+2x
26
+x
25
+3x
24
+3x
23
+x
22
+2x
21
+
x
19
+x
18
+2x
17
+3x
14
+2x
13
+x
12
+3x
10
+2x
9
+2x
8
+3x
7
+x
6
+3x
5
+3x
4
+x
3
+x
2
+2x+3
onde os coecientes do polinomio h(x) pertencem a Z
4
.
Passo 9 - Determinar a matriz G e a sua transposta G
T
:
Determinado o polinomio gerador no Passo 7, construmos a matriz geradora G(x) da
seguinte forma:
Considere:
g(x) = g
0
+g
1
x +g
2
x
2
+... +x
nk
,
entao a matriz geradora do codigo e dada por:
G =
_
_
_
_
_
_
_
_
_
g
0
g
1
g
2
. . . 1 0 0 . . . 0
0 g
0
g
1
. . . g
nk1
1 0 . . . 0
0 0 g
0
. . . g
nk2
g
nk1
1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 . . . g
0
g
1
g
2
. . . 1
_
_
_
_
_
_
_
_
_
Realizando os deslocamentos dos coecientes do polinomio g(x) da esquerda para `a
direita, obtemos a matriz G(x) com dimensao 57 63:
G =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
121103100000000000000000000000000000000000000000000000000000000
012110310000000000000000000000000000000000000000000000000000000
001211031000000000000000000000000000000000000000000000000000000
000121103100000000000000000000000000000000000000000000000000000
000012110310000000000000000000000000000000000000000000000000000
000001211031000000000000000000000000000000000000000000000000000
.
.
.
.
.
.
.
.
.
000000000000000000000000000000000000000000000000000121103100000
000000000000000000000000000000000000000000000000000012110310000
000000000000000000000000000000000000000000000000000001211031000
000000000000000000000000000000000000000000000000000000121103100
000000000000000000000000000000000000000000000000000000012110310
000000000000000000000000000000000000000000000000000000001211031
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
A matriz G
T
(x) com dimensao 6357 e determinada como sendo a troca da linha pela
coluna.
89
Captulo 4. Gera cao das Sequencias de Direcionamento
Passo 10 - Determinar a matriz H e a sua transposta H
T
Determinado o polinomio h(x) no Passo 8, obtemos a matriz H(x) realizando os
deslocamentos dos coecientes do polinomio gerador h(x) da direita para a esquerda.
Matriz H(x) com dimensao 6 63:
H(x) =
_
_
_
_
_
_
000001110222100300013033203013230113213312011200321032231331123
000011102221003000130332030132301132133120112003210322313311230
000111022210030001303320301323011321331201120032103223133112300
001110222100300013033203013230113213312011200321032231331123000
011102221003000130332030132301132133120112003210322313311230000
111022210030001303320301323011321331201120032103223133112300000
_
_
_
_
_
_
A matriz H
T
com dimensao 63 6 e determinada pela troca da linha pela coluna.
Passo 11 - Rotular a sequencia de DNA utilizando o alfabeto do codigo
Neste exemplo, analisaremos se o codigo BCH sobre anel e capaz de reproduzir a
sequencia de direcionamento mitocondrial do organismo: Ipomoea batatas, GI: 217937,
protena: F1-ATPase delta subunit, comprimento: 63 nucleotdeos.
Uma vez que o mapeamento entre N Z
4
nao e conhecido, consideramos todas as
permuta coes entre esses conjuntos. Portanto, este passo determina as 24 permuta coes
entre o alfabeto do codigo genetico N = A, C, G, T e o alfabeto do codigo BCH
Z
4
= 0, 1, 2, 3 da sequencia de direcionamento a ser analisada. As 24 linhas da
matriz P correspondem `as 24 permuta coes da sequencia de direcionamento SD.
SD={ATGTTCAGGCACTCTTCTCGACTCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC}
90
Captulo 4. Gera cao das Sequencias de Direcionamento
P =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
032331022101313313120131130213121211011010032222322123121111331
023221033101212212130121120312131311011010023333233132131111221
031332011202323323210232230123212122022020031111311213212222332
013112033202121121230212210321232322022020013333133231232222112
012113022303131131320313310231323233033030012222122321323333113
021223011303232232310323320132313133033030021111211312313333223
132330122010303303021030031203020200100101132222322023020000330
123220133010202202031020021302030300100101123333233032030000220
130332100212323323201232231023202022122121130000300203202222332
103002133212020020231202201320232322122121103333033230232222002
120223100313232232301323321032303033133131120000200302303333223
102003122313030030321303301230323233133131102222022320323333003
231330211020303303012030032103010100200202231111311013010000330
213110233020101101032010012301030300200202213333133031030000110
230331200121313313102131132013101011211212230000300103101111331
203001233121010010132101102310131311211212203333033130131111001
210113200323131131302313312031303033233232210000100301303333113
201003211323030030312303302130313133233232201111011310313333003
321220311030202202013020023102010100300303321111211012010000220
312110322030101101023010013201020200300303312222122021020000110
320221300131212212103121123012101011311313320000200102101111221
302001322131010010123101103210121211311313302222022120121111001
310112300232121121203212213021202022322323310000100201202222112
301002311232020020213202203120212122322323301111011210212222002
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
Na Tabela 4.5 mostramos como as linhas da matriz P estao relacionadas com as 24
permuta coes entre N Z
4
, cada uma das 24 permuta coes foi denida como um caso.
Linha = Caso N Z
4
Linha = Caso N Z
4
Linha = Caso N Z
4
L 1 = Caso 01 (A,C,G,T)=(0,1,2,3) L 9 = Caso 09 (A,C,G,T)=(1,2,0,3) L 17 = Caso 17 (A,C,G,T)=(2,3,0,1)
L 2 = Caso 02 (A,C,G,T)=(0,1,3,2) L 10 = Caso 10 (A,C,G,T)=(1,2,3,0) L 18 = Caso 18 (A,C,G,T)=(2,3,1,0)
L 3 = Caso 03 (A,C,G,T)=(0,2,1,3) L 11 = Caso 11 (A,C,G,T)=(1,3,0,2) L 19 = Caso 19 (A,C,G,T)=(3,0,1,2)
L 4 = Caso 04 (A,C,G,T)=(0,2,3,1) L 12 = Caso 12 (A,C,G,T)=(1,3,2,0) L 20 = Caso 20 (A,C,G,T)=(3,0,2,1)
L 5 = Caso 05 (A,C,G,T)=(0,3,2,1) L 13 = Caso 13 (A,C,G,T)=(2,0,1,3) L 21 = Caso 21 (A,C,G,T)=(3,1,0,2)
L 6 = Caso 06 (A,C,G,T)=(0,3,1,2) L 14 = Caso 14 (A,C,G,T)=(2,0,3,1) L 22 = Caso 21 (A,C,G,T)=(3,1,0,2)
L 7 = Caso 07 (A,C,G,T)=(1,0,2,3) L 15 = Caso 15 (A,C,G,T)=(2,1,0,3) L 23 = Caso 23 (A,C,G,T)=(3,2,0,1)
L 8 = Caso 08 (A,C,G,T)=(1,0,3,2) L 16 = Caso 16 (A,C,G,T)=(2,1,3,0) L 24 = Caso 24 (A,C,G,T)=(3,2,1,0)
Tabela 4.5: Rela cao entre as linhas da matriz P e as 24 permuta coes.
Passo 12 - Vericar se a sequencia de DNA e palavra-codigo da G(x)
A capacidade de corre cao de erros de um codigo esta relacionada com o n umero de
palavras-codigo, no caso em questao temos 4
k
palavras-codigo, onde k = nr. Observe
que quanto maior for o valor de k maior sera o n umero de palavras-codigos, implicando
assim em uma maior complexidade computacional para gerar todas as 4
k
palavras-
codigo.
Para contornarmos este problema que e classicado como um problema NP-completo,
ao inves de gerarmos todas as palavras-codigos para compararmos com a sequencia de
91
Captulo 4. Gera cao das Sequencias de Direcionamento
direcionamento, consideramos que a sequencia de DNA sob a aplica cao de cada uma
das 24 permuta coes do Passo 11 e uma palavra-codigo. Assim, para determinarmos
se cada uma dessas 24 possibilidades e de fato uma palavra-codigo usamos a rela cao
v.H
T
= 0, onde v e a possvel palavra-codigo e H
T
e a transposta da matriz verica cao
de paridade determinada no Passo 10. Ainda neste passo analisamos as sequencias
de DNA diferindo em um nucleotdeo, considerando as 3 outras possibilidades de nu-
cleotdeos em cada posi cao na sequencia para cada permuta cao.
Como resultado obtemos a matriz R onde cada linha e uma palavra-codigo encontrada.
R =
_
_
_
_
_
_
_
_
_
032331022101313313120331130213121211011010032222322123121111331
012113022303131131320113310231323233033030012222122321323333113
123220133010202202031220021302030300100101123333233032030000220
103002133212020020231002201320232322122121103333033230232222002
230331200121313313102331132013101011211212230000300103101111331
210113200323131131302113312031303033233232210000100301303333113
321220311030202202013220023102010100300303321111211012010000220
301002311232020020213002203120212122322323301111011210212222002
_
_
_
_
_
_
_
_
_
Passo 13 - Voltar para o Passo 7 e determinar outro polinomio gerador
Neste passo, determinamos outro valor da distancia mnima d = 5 e utilizamos o mesmo
procedimento para calcular o polinomio gerador relativo a esta distancia.
Passo 14 - Repetir os Passos 8 ao Passo 12 para o polinomio gerador obtido no Passo
13, ate que se esgote todas as possibilidades de polinomios geradores:
Neste passo, o algoritmo determina todas as palavras-codigo encontradas com nenhu-
ma diferen ca ou apenas uma diferen ca de nucleotdeo, atraves de todos os polinomios
geradores relativos `a distancia mnima 3 d 63, e armazena as respostas.
Passo 15 - Voltar para o Passo 3 e escolher outro polinomio primitivo
Passo 16 - Repetir os Passos 4 `a 14 ate esgotar todos os polinomios primitivos do Passo
3
Passo 17 - Comparar todas as palavras-codigo armazenadas com a sequencia de DNA
original e mostrar onde ocorreram as diferencas. Fim.
Neste passo, todas as palavras-codigo armazenadas estao rotuladas na forma do alfabeto
do codigo, Z
4
= 0, 1, 2, 3, e serao convertidas em nucleotdeos usando o rotulamento
do codigo genetico N = A, C, G, T. Apos o rotulamento todas as palavras-codigo sao
comparadas com a sequencia de direcionamento original mostrando onde os nucleotdeos
diferem.
92
Captulo 4. Gera cao das Sequencias de Direcionamento
Resultados:
Caso1-(0,1,2,3)=(A,C,G,T)
Caso5-(0,3,2,1)=(A,C,G,T)
Caso8-(1,0,3,2)=(A,C,G,T)
Caso10-(1,2,3,0)=(A,C,G,T)
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:03233102210131331312031130213121211011010032222322123121111331
Glb:03233102210131331312031130213121211011010032222322123121111331
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:01211302230313113132013310231323233033030012222122321323333113
Glb:01211302230313113132013310231323233033030012222122321323333113
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:12322013301020220203120021302030300100101123333233032030000220
Glb:12322013301020220203120021302030300100101123333233032030000220
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:10300213321202002023102201320232322122121103333033230232222002
Glb:10300213321202002023102201320232322122121103333033230232222002
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
L
C
1
3
T
F
L
C
3
1
T
F
L
C
0
2
T
F
L
C
2
0
T
F
Caso15-(2,1,0,3)=(A,C,G,T)
Caso17-(2,3,0,1)=(A,C,G,T)
Caso19-(3,0,1,2)=(A,C,G,T)
Caso24-(3,2,1,0)=(A,C,G,T)
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:23033120012131331310231132013101011211212230000300103101111331
Glb:23033120012131331310231132013101011211212230000300103101111331
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:21011320032313113130213312031303033233232210000100301303333113
Glb:21011320032313113130213312031303033233232210000100301303333113
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:32122031103020220201320023102010100300303321111211012010000220
Glb:32122031103020220201320023102010100300303321111211012010000220
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:30100231123202002021302203120212122322323301111011210212222002
Glb:30100231123202002021302203120212122322323301111011210212222002
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
L
C
1
3
T
F
L
C
3
1
T
F
L
C
0
2
T
F
L
C
2
0
T
F
Nos resultados apresentados neste passo, temos que os casos 1, 5, 8, 10, 15, 17, 19 e 24
referem-se `as permuta coes associadas ao rotulamento B ver Figura 4.1. Portanto, a sequencia
em questao e reproduzida pelo codigo Z
2
Z
2
-linear classicando-a matematicamente como
uma sequencia linear.
4.2 Resultados da Codica cao
Nesta se cao, mostramos que algumas sequencias de DNA possuem estrutura matematica
e podem ser reproduzidas por codigos corretores de erros. Sendo assim, apresentamos nas
subse coes seguintes as consequencias relacionadas a existencia de codigos corretores de erros
em sequencias de direcionamento.
93
Captulo 4. Gera cao das Sequencias de Direcionamento
4.2.1 Dependencia entre os codigos corretores de erros e os poli-
nomios primitivos
Sob o ponto de vista algebrico em sistemas de transmissao digital a constru cao de um
codigo corretor de erros sobre anel ou corpo nao depende do polinomio primitivo com o grau
r usado na extensao de Galois. Entretanto, a reprodu cao das sequencias de direcionamento
mostrou uma rela cao de dependencia na existencia de codigos corretores de erros (e seus
rotulamentos associados) com alguns dos polinomios primitivos. No presente estudo todas
as sequencias de direcionamento identicadas como uma palavra-codigo de um codigo G-
linear estao relacionadas a um polinomio gerador/primitivo e um determinado rotulamento,
sugerindo a existencia de uma propriedade geometrica associada com a sequencia de dire-
cionamento.
4.2.2 Rotulamento das sequencias de DNA
Em geral, o alfabeto de um codigo corretor de erros e frequentemente estabelecido a priori
dentre um conjunto de possibilidades de tal forma que tenha uma estrutura matematica bem
denida para facilitar o processo de codica cao e decodica cao das sequencias. Este nao e o
caso para codigos corretores de erros genomicos, onde os proprios alfabetos e suas possveis
estruturas matematicas ja estao determinados nas sequencias de DNA.
Para contornar este problema, usamos a seguinte analogia: o alfabeto 4-ario na sada
da fonte esta relacionado ao conjunto de nucleotdeos denotado por N = A, C, G, T/U,
correspondendo as bases adenina (A), citosina (C), guanina (G), and timina (T) ou uracila
(U). Similarmente, o alfabeto 4-ario do codigo de bloco linear e denotado por Z
4
= 0, 1, 2, 3
para a estrutura de anel, satisfazendo as opera coes de soma e produto modulo 4.
Como o mapeamento entre N Z
4
e desconhecido, procedemos da seguinte maneira:
toda sequencia de DNA e rotulada por cada uma das 24 permuta coes entre N Z
4
. Ob-
servamos que para cada sequencia reproduzida pelo codigo existem oito palavras-codigo cor-
respondentes a 8 permuta coes. Empregando o rotulamento recproco, Z
4
N, em cada
uma dessas 8 palavras-codigo temos como resultado 8 palavras-codigo iguais em termos de
nucleotdeos e aminoacidos, (ver exemplo no Passo 17 da Se cao 4.1). Este fato resulta em
tres conjuntos contendo oito permuta coes cada um.
Classicamos o mapeamento utilizado no codicador, em termos de rotulamentos A, B e
C, Figura 4.1. Esses rotulamentos estao relacionados `as formas geometricas que produzem
um diferente nvel de nao-linearidade para as sequencias reproduzidas.
A representa cao binaria associada a cada um desses rotulos e 000; 110; 211; 301.
Todavia, a associa cao de complementaridade dos nucleotdeos A - T e C - G com os rotulos
94
Captulo 4. Gera cao das Sequencias de Direcionamento
ACGT
0132
ACGT
2130
ACGT
0312
ACGT
2310
ACGT
1023
ACGT
3021
ACGT
1203
ACGT
3201
ACGT
0213
ACGT
2013
ACGT
0231
ACGT
2031
ACGT
1302
ACGT
3102
ACGT
1320
ACGT
3120
ACGT
0123
ACGT
2103
ACGT
0321
ACGT
2301
ACGT
1032
ACGT
3012
ACGT
1230
ACGT
3210
RotulamentoB RotulamentoC
Rotulamento A
FormaGeomtrica
A=0
G=1
T=3
C=2 A=0
C=1
G=3
T=2 A=0
C=1
T=3
G=2
}
ACGT
0132
ACGT
2130
ACGT
0123
ACGT
2103
ACGT
0213
ACGT
2013
ACGT
0312
ACGT
2310
ACGT
0321
ACGT
2301
ACGT
0231
ACGT
2031
ACGT
1023
ACGT
3021
ACGT
1032
ACGT
3012
ACGT
1302
ACGT
3102
ACGT
1203
ACGT
3201
ACGT
1230
ACGT
3210
ACGT
1320
ACGT
3120
Mapeamento
FormaGeomtrica FormaGeomtrica
Figura 4.1: Rotulamentos A, B e C.
e o que os diferenciam. No caso do rotulo A, vemos que qualquer um dos nucleotdeos
para alcan car o seu complementar necessita caminhar duas arestas, enquanto que nos dois
rotulamentos restantes basta caminhar uma aresta somente. Todas as permuta coes associadas
ao rotulo A caracterizam o mapeamento como Z
4
- linear; as permuta coes associadas ao rotulo
B caracterizam o mapeamento como Z
2
Z
2
-linear; enquanto que as permuta coes associadas
ao rotulo C caracterizam o mapeamento como Klein-linear.
O rotulamento A classica as sequencias como nao-lineares (Z
4
- linear), enquanto que
os rotulamentos B e C as classicam como lineares (Z
2
Z
2
-linear e Klein-linear). Esse
mapeamento identica as melhores associa coes entre cada smbolo no conjunto N e o seu
correspondente smbolo no conjunto Z
4
e vice-versa.
4.2.3 Rela cao matematica entre as tas codante e nao codante
Diante da reprodu cao de uma determinada sequencia de DNA atraves de codigos corre-
tores de erros, naturalmente surgem alguns questionamentos sobre a rela cao entre as duas
tas do DNA, ta codante e ta nao codante. Na biologia conclui-se que na dupla helice as
duas tas do DNA estao em dire coes opostas, isto signica que sao antiparalelas. Uma vez
95
Captulo 4. Gera cao das Sequencias de Direcionamento
que e determinada a estrutura matematica de uma sequencia especca do DNA e possvel
caracterizarmos a dupla helice em um contexto matematico?
Para responder a esta pergunta, usamos o algoritmo da Se cao 4.1 com o objetivo de
vericar se os codigos reproduzem as tas complementares das sequencias de direcionamento
reproduzidas. Durante o processo consideramos as duas tas sendo lidas no sentido paralelo
(da esquerda para a direita) e as duas tas no sentido antiparalelo como na biologia, ou seja,
as tas sendo lidas sempre no sentido 5 para 3.
A Figura 4.2 mostra a rela cao matematica entre as duas tas no sentido paralelo. As
duas tas sao reproduzidas pelo codigo Z
2
Z
2
-linear atraves do mesmo polinomio gerador
g(x) e do mesmo rotulamento.
Ipomoeabatatas
Ipomoeabatatas
SequnciadobancodedadosNCBI
SequnciareproduzidapelocdigoBCHsobreanel
Cdigo X linear -DuplafitadoDNA
p(x)=x+x+x+x+1g(x)=x+3x+x+x+2x+1
5'-ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC3'
03233102210131331312031130213121211011010032222322123121111331
30100231123202002021302203120212122322323301111011210212222002
3'-TACAAGTCCGTGAGAAGAGCTAGGATCGAGCGCGGTGGTGTTACCCCACCGCAGCGGGGAAG5'
5'-ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC3'
03233102210131331312031130213121211011010032222322123121111331
30100231123202002021302203120212122322323301111011210212222002
3'-TACAAGTCCGTGAGAAGAGCTAGGATCGAGCGCGGTGGTGTTACCCCACCGCAGCGGGGAAG5'
2 2
6 5 3 2 6 5 3 2
C
1
2
G
T
3
0
A
Figura 4.2: Rela cao entre a dupla ta do DNA. O codigo faz a leitura das palavras-codigos
no sentido da esquerda para `a direita. A cor vermelha indica onde ocorreu a diferen ca de
nucleotdeos.
A Figura 4.3 mostra a rela cao matematica entre as duas tas no sentido antiparalelo. As
duas tas sao reproduzidas pelo codigo Z
2
Z
2
-linear da seguinte maneira: Se um polinomio
gerador g(x) reproduz a ta codante em um determinado rotulamento, ent ao a sua ta
complementar sera reproduzida, somente pelo polinomio gerador recproco g
(x) do polinomio
gerador atraves do mesmo rotulamento.
4.2.4 Alto uxo de informa cao - baixa redundancia
Outra propriedade relevante na reprodu cao de sequencias de direcionamento por codi-
gos corretores de erros esta relacionada ao fato de que entre todos os codigos com distancia
mnima d > 2 mostrados na Tabela 4.6 somente alguns dos codigos com d = 3 foram capazes
96
Captulo 4. Gera cao das Sequencias de Direcionamento
Ipomoeabatatas-
Ipomoeabatatas-
Ipomoeabatatas-
SequnciadobancodedadosNCBI
SequnciareproduzidapelocdigoBCHsobreanel
Cdigo X linear -Fitacodante-rotulamentoB:(A,C,G,T)=(0,1,2,3)
p(x)=x+x+x+x+1-g(x)=x+3x+x+x+2x+1
SequnciareproduzidapelocdigoBCHsobreanel
Cdigo X linear -Fitanocodante-rotulamentoB:(A,C,G,T)=(0,1,2,3)
p(x)=x+x+x+x+1-g(x)=x+2x+x+x+3x+1
5'-ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC3'
03233102210131331312031130213121211011010032222322123121111331
30100231123202002021302203120212122322323301111011210212222002
3'-TACAAGTCCGTGAGAAGAGCTAGGATCGAGCGCGGTGGTGTTACCCCACCGCAGCGGGGAAG5'
5'-ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC3'
03233102210131331312031130213121211011010032222322123121111331
5'-GAAGGGGCGACGCCACCCCATTGTGGTGGCGCGAGCTAGGATCGAGAAGAGTGCCTGAACAT3'
20022221201211011110332322322121202130220312020020232113200103
2 2
2 2
6 5 3 2 6 5 3 2
6 4 3 6 5 4 3
C
1
2
G
T
3
A
0
Figura 4.3: Rela cao entre as tas codante e nao codante. O codigo faz a leitura das palavras-
codigos no sentido da esquerda para `a direita. A cor vermelha indica onde ocorreu a diferen ca
de nucleotdeos.
de reproduzir as correspondentes sequencias de direcionamento. Esse fato implica que o grau
do polinomio primitivo r e gerador n k sejam iguais. Como consequencia, a redundancia
esta associada com o grau desses polinomios. Entao, uma pequena redundancia implica em
um codigo de taxa alta, bem como em uma alta entropia (uxo de informa cao alto).
4.2.5 Classica cao das sequencias de direcionamento sob o ponto
de vista matematico
Todas as sequencias de DNA que foram reproduzidas pelos codigos diferenciam em um
nucleotdeo das sequencias encontradas no banco de dados NCBI. Em um contexto biologico,
esta diferen ca de um nucleotdeo e conhecida como polimorsmo de um nucleotdeo (SNP
single nucleotide polymorphism). Entao, uma possvel interpreta cao e que a palavra-codigo
gerada pelos codigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear sao SNPs das sequencias do
NCBI, ou vice-versa.
Os resultados permitem uma nova abordagem para a classica cao das sequencias de dire-
cionamento sob um ponto de vista matematico. As sequencias de direcionamento que foram
reproduzidas pelo codigo Z
4
-linear (codigo BCH sobre anel e rotulamento A) sao classi-
97
Captulo 4. Gera cao das Sequencias de Direcionamento
C(n, k, d) p
1
(x) p
2
(x) p
3
(x) p
4
(x) p
5
(x) p
6
(x)
C(63, 1, 63) - - - - - -
C(63, 1, 61) - - - - - -
C(63, 1, 59) - - - - - -
C(63, 1, 57) - - - - - -
C(63, 1, 55) - - - - - -
C(63, 1, 53) - - - - - -
C(63, 1, 51) - - - - - -
C(63, 1, 49) - - - - - -
C(63, 1, 47) - - - - - -
C(63, 1, 45) - - - - - -
C(63, 1, 43) - - - - - -
C(63, 1, 41) - - - - - -
C(63, 1, 39) - - - - - -
C(63, 1, 37) - - - - - -
C(63, 1, 35) - - - - - -
C(63, 1, 33) - - - - - -
C(63, 7, 31) - - - - - -
C(63, 7, 29) - - - - - -
C(63, 10, 27) - - - - - -
C(63, 10, 25) - - - - - -
C(63, 16, 23) - - - - - -
C(63, 18, 21) - - - - - -
C(63, 18, 19) - - - - - -
C(63, 18, 17) - - - - - -
C(63, 24, 15) - - - - - -
C(63, 30, 13) - - - - - -
C(63, 36, 11) - - - - - -
C(63, 39, 9) - - - - - -
C(63, 45, 7) - - - - - -
C(63, 51, 5) - - - - - -
C(63, 57, 3) - x x - x x
Tabela 4.6: Codigos BCH sobre GR(4, 6). Polinomios primitivos da extensao r = 6: p
1
(x) =
x
6
+x+1, p
2
(x) = x
6
+x
5
+x
2
+x+1, p
3
(x) = x
6
+x
5
+x
3
+x
2
+1, p
4
(x) = x
6
+x
4
+x
3
+x+1,
p
5
(x) = x
6
+x
5
+x
4
+x + 1 e p
6
(x) = x
6
+x
5
+ 1.
cadas como sequencias nao-lineares. Enquanto, que as sequencias reproduzidas pelos codigos
Z
2
Z
2
-linear e Klein-linear (codigos BCH sobre anel rotulamento B e rotulamento C, res-
pectivamente) sao classicadas como sequencias lineares. Apesar das sequencias nao-lineares
serem mais complexas que as sequencias lineares, elas herdam um grau de prote cao maior
contra possveis interferencias.
Mostramos nesta subse cao todas as sequencias de direcionamento que foram reproduzidas
pelos codigos, bem como as suas tas complementares considerando o sentido 5 para 3 por
ser o conceito usado na biologia. Observe que cada sequencia de direcionamento contem as
informa coes sobre o polinomio gerador g(x) e o polinomio primitivo p(x). Enquanto que as
suas tas complementares possuem as informa coes sobre o polinomio gerador recproco g
(x)
e o polinomio primitivo recproco p
(x).
As sequencias de direcionamento que foram reproduzidas pelo codigo Z
4
-linear foram as
SD01, SD03, SD04, SD18 e SD20 estas sequencias sao classicadas como nao-lineares. Nas
sequencias SD01 e SD04 ocorreram muta coes silenciosas, pois a mudan ca de nucleotdeo
nao acarretou na troca de aminoacidos. Nas sequencias SD03, SD18 e SD20 as trocas
de aminoacidos ocorreram dentro da mesma classe hidrofobica ou dentro da mesma classe
hidroflica.
Os codigos Z
2
Z
2
-linear reproduziram as sequencias SD02, SD08, SD13 e SD20 e clas-
98
Captulo 4. Gera cao das Sequencias de Direcionamento
sicam estas sequencias como sequencias lineares. Em todas as sequencias ocorreram trocas
de classes de aminoacidos, com exce cao da sequencia SD02 onde a troca ocorreu dentro da
mesma classe.
As sequencias de direcionamento SD06 e SD17 foram reproduzidas pelo codigo Klein-
linear. Estas sequencias sao classicadas como sequencias lineares. Na SD06 a troca de
aminoacidos ocorreu dentro da mesma classe hidrofobica, enquanto que na SD17 ocorreu a
troca de um aminoacido base para um aminoacido hidroflico.
De uma forma geral, podemos relatar alguns aspectos biologicos observados na reprodu cao
dessas sequencias. Apesar dos codigos em considera cao fornecerem prote cao igual para cada
posi cao no codon, isto e, cada uma das posi coes no codon foram consideradas com probabi-
lidades iguais de erro, as trocas de nucleotdeos ocorreram sempre na primeira e na terceira
posi cao dos codons. Este fato infere que a segunda posi cao foi mais protegida contra os
erros durante a reprodu cao das sequencias pelo codigo corretor de erros, o que faz sentido
biologicamente, uma vez que a troca de nucleotdeo na segunda posi cao implica em uma
troca de aminoacido.
O processo de transi cao (troca de uma purina/pirimidina por outra purina/pirimidina) e
o processo de transversao (troca de uma purina por uma pirimidina) ocorreram praticamente
na mesma propor cao. Nas sequencias SD01, SD02, SD04, SD08, SD18 e SD20 (rotulamento
B) ocorreu o processo de transi cao.
Embora consideramos neste estudo sequencias de direcionamento com comprimento n =
p
r
1, isso nao e uma restri cao ja que uma classe de codigos corretores de erros que possuem
comprimentos variaveis pode ser usada. Os resultados apresentados neste captulo mostram
a existencia de codigos corretores de erros associados com sequencias de DNA (sequencias
de direcionamento), os quais sugerem fortemente a existencia de codigos concatenados no
genoma (nested code).
99
Captulo 4. Gera cao das Sequencias de Direcionamento
SD01 - B. nap us - Mitochondrial - Malate dehydrogenase* - GI: 899225
Fita codante: p(x)= x
6
+x
5
+x
3
+x
2
+1 - g(x)= x
6
+3x
5
+x
3
+x
2
+2x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Oaa: F R S A L V R S S A S A K Q S L L R R S F
Ont: TTC AGA TCC GCG CTT GTC CGA TCC TCC GCC TCG GCG AAG CAG TCG CTT CTC CGC CGC AGC TTC
Olb: 221 030 211 313 122 321 130 211 211 311 213 313 003 103 213 122 121 131 131 031 221
Glb: 221 030 211 313 122 321 130 211 211 311 213 313 003 103 213 122 121 131 131 031 222
Gnt: TTC AGA TCC GCG CTT GTC CGA TCC TCC GCC TCG GCG AAG CAG TCG CTT CTC CGC CGC AGC TTT
Gaa: F R S A L V R S S A S A K Q S L L R R S F
Fita complementar: p(x)= x
6
+x
4
+x
3
+x+1 - g(x)= x
6
+2x
5
+x
4
+x
3
+3x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Ont: GAA GCT GCG GCG GAG AAG CGA CTG CTT CGC CGA GGC GGA GGA TCG GAC AAG CGC GGA TCT GAA
Olb: 300 312 313 313 303 003 130 123 122 131 130 331 330 330 213 301 003 131 330 212 300
Glb: 000 312 313 313 303 003 130 123 122 131 130 331 330 330 213 301 003 131 330 212 300
Gnt: AAA GCT GCG GCG GAG AAG CGA CTG CTT CGC CGA GGC GGA GGA TCG GAC AAG CGC GGA TCT GAA
SD03 - A. th aliana Mitochondrial Pathogenesis related protein 4* - GI: 186509758
Fita codante: p(x)= x
6
+x
5
+x
3
+x
2
+1 - g(x)= x
6
+3x
5
+x
3
+x
2
+2x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Oaa: M K I R L S I T I I L L S Y T V A T V A G
Ont: ATG AAG ATC AGA CTT AGC ATA ACC ATC ATA CTT TTA TCA TAC ACA GTG GCT ACG GTG GCC GGA
Olb: 023 003 021 030 122 031 020 011 021 020 122 220 210 201 010 323 312 013 323 311 330
Glb: 023 003 021 030 122 031 120 011 021 020 122 220 210 201 010 323 312 013 323 311 330
Gnt: ATG AAG ATC AGA CTT AGC CTA ACC ATC ATA CTT TTA TCA TAC ACA GTG GCT ACG GTG GCC GGA
Gaa: M K I R L S L T I I L L S Y T V A T V A G
Fita complementar: p(x)= x
6
+x
4
+x
3
+x+1 - g(x)= x
6
+2x
5
+x
4
+x
3
+3x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Ont: TCC GGC CAC CGT AGC CAC TGT GTA TGA TAA AAG TAT GAT GGT TAT GCT AAG TCT GAT CTT CAT
Olb: 211 331 101 132 031 101 232 320 230 200 003 202 302 332 202 312 003 212 302 122 102
Glb: 211 331 101 132 031 101 232 320 230 200 003 202 302 332 203 312 003 212 302 122 102
Gnt: TCC GGC CAC CGT AGC CAC TGT GTA TGA TAA AAG TAT GAT GGT TAG GCT AAG TCT GAT CTT CAT
100
Captulo 4. Gera cao das Sequencias de Direcionamento
SD04 - N. tab ac u m - RE Pathogen and wound-inducible antifungal protein CBP20* - GI: 632733
Fita codante: p(x)= x
6
+x
5
+x
3
+x
2
+1 - g(x)= x
6
+3x
5
+x
3
+x
2
+2x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Oaa: G K L S T L L F A L V L Y V I A A G A N A
Ont: GGA AAG CTA AGT ACA CTT TTA TTT GCT CTG GTC CTC TAT GTC ATA GCC GCA GGA GCT AAT GCA
Olb: 330 003 120 032 010 122 220 222 312 123 321 121 202 321 020 311 310 330 312 002 310
Glb: 330 003 120 032 010 122 220 222 311 123 321 121 202 321 020 311 310 330 312 002 310
Gnt: GGA AAG CTA AGT ACA CTT TTA TTT GCC CTG GTC CTC TAT GTC ATA GCC GCA GGA GCT AAT GCA
Gaa: G K L S T L L F A L V L Y V I A A G A N A
Fita no-codante: p(x)= x
6
+x
4
+x
3
+x+1 - g(x)= x
6
+2x
5
+x
4
+x
3
+3x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Ont: TGC ATT AGC TCC TGC GGC TAT GAC ATA GAG GAC CAG AGC AAA TAA AAG TGT ACT TAG CTT TCC
Olb: 231 022 031 211 231 331 202 301 020 303 301 103 031 000 200 003 232 012 203 122 211
Glb: 231 022 031 211 231 331 202 301 020 303 301 103 331 000 200 003 232 012 203 122 211
Gnt: TGC ATT AGC TCC TGC GGC TAT GAC ATA GAG GAC CAG GGC AAA TAA AAG TGT ACT TAG CTT TCC
SD18 - M m arte n s ii RE anti-epilepsy peptide precursor GI: 16740522
Fita codante: p(x)= x
6
+x
5
+x
4
+x+1 - g(x)= x
6
+x
5
+x
4
+2x
2
+3x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Oaa: M K L F L L L V I S A S M L I D G L V N A
Ont: ATG AAA CTA TTT CTT TTA CTA GTT ATC TCT GCT TCA ATG CTA ATT GAT GGC TTA GTT AAT GCT
Olb: 023 000 120 222 122 220 120 322 021 212 312 210 023 120 022 302 331 220 322 002 312
Glb: 023 000 120 222 122 220 120 322 021 212 312 210 020 120 022 302 331 220 322 002 312
Gnt: ATG AAA CTA TTT CTT TTA CTA GTT ATC TCT GCT TCA ATA CTA ATT GAT GGC TTA GTT AAT GCT
Gaa: M K L F L L L V I S A S I L I D G L V N A
Fita complementar: p(x)= x
6
+x
5
+x
2
+x+1 - g(x)= x
6
+3x
5
+2x
4
+x
2
+x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Ont: AGC ATT AAC TAA GCC ATC AAT TAG CAT TGA AGC AGA GAT AAC TAG TAA AAG AAA TAG TTT CAT
Olb: 031 022 001 200 311 021 002 203 102 230 031 030 302 001 203 200 003 000 203 222 102
Glb: 031 022 001 200 311 021 002 203 202 230 031 030 302 001 203 200 003 000 203 222 102
Gnt: AGC ATT AAC TAA GCC ATC AAT TAG TAT TGA AGC AGA GAT AAC TAG TAA AAG AAA TAG TTT CAT
101
Captulo 4. Gera cao das Sequencias de Direcionamento
SD20 - P.d o m inu lus RE Allergen Pol d 5 GI: 51093376
Fita codante: p(x)= x
6
+x
5
+1 - g(x)= x
6
+3x
5
+2x
3
+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Oaa: M K I S C L I C L V I V L T I I H L S Q A
Ont: ATG AAA ATT AGT TGC TTA ATT TGT CTC GTA ATT GTT CTT ACG ATC ATT CAT TTG TCT CAA GCT
Olb: 023 000 022 032 231 220 022 232 121 320 022 322 122 013 021 022 102 223 212 100 312
Glb: 023 000 022 032 031 220 022 232 121 320 022 322 122 013 021 022 102 223 212 100 312
Gnt: ATG AAA ATT AGT AGC TTA ATT TGT CTC GTA ATT GTT CTT ACG ATC ATT CAT TTG TCT CAA GCT
Gaa: M K I S S L I C L V I V L T I I H L S Q A
Fita complementar: p(x)= x
6
+x+1 - g(x)= x
6
+2x
3
+3x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Ont: AGC TTG AGA CAA ATG AAT GAT CGT AAG AAC AAT TAC GAG ACA AAT TAA GCA ACT AAT TTT CAT
Olb: 031 223 030 100 023 002 302 132 003 001 002 201 303 010 002 200 310 012 002 222 102
Glb: 031 223 030 100 023 002 302 132 003 001 002 201 303 010 002 200 312 012 002 222 102
Gnt: AGC TTG AGA CAA ATG AAT GAT CGT AAG AAC AAT TAC GAG ACA AAT TAA GCT ACT AAT TTT CAT
SD02 - I. b atatas Mitochondrial - F1-ATPase delta subunit GI: 217937
Fita codante: p(x)= x
6
+x
5
+x
3
+x
2
+1 - g(x)= x
6
+3x
5
+x
3
+x
2
+2x+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Oaa: M F R H S S R L L A R A T T M G W R R P F
Ont: ATG TTC AGG CAC TCT TCT CGA CTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Olb: 032 331 022 101 313 313 120 131 130 213 121 211 011 010 032 222 322 123 121 111 331
Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Fita complementar: p(x)= x
6
+x
4
+x
3
+x+1 - g(x)= x
6
+2x
5
+x
4
+x
3
+3x+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Ont: GAA GGG GCG ACG CCA CCC CAT TGT GGT GGC GCG AGC TAG GAG TCG AGA AGA GTG CCT GAA CAT
Olb: 200 222 212 012 110 111 103 323 223 221 212 021 302 202 312 020 020 232 113 200 103
Glb: 200 222 212 012 110 111 103 323 223 221 212 021 302 200 312 020 020 232 113 200 103
Gnt: GAA GGG GCG ACG CCA CCC CAT TGT GGT GGC GCG AGC TAG GAA TCG AGA AGA GTG CCT GAA CAT
102
Captulo 4. Gera cao das Sequencias de Direcionamento
SD08 - S. c e re v is iae Mitochondrial 54S ribosomal protein GI: 45269853
Fita codante: p(x)= x
6
+x
5
+1 - g(x)= x
6
+3x
5
+2x
3
+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Oaa: M Q K I F R P F Q L T R G F T S S V K N F
Ont: ATG CAA AAA ATT TTC AGA CCA TTC CAA TTA ACG AGA GGC TTT ACC TCT TCC GTA AAA AAC TTC
Olb: 032 100 000 033 331 020 110 331 100 330 012 020 221 333 011 313 311 230 000 001 331
Glb: 032 100 200 033 331 020 110 331 100 330 012 020 221 333 011 313 311 230 000 001 331
Gnt: ATG CAA GAA ATT TTC AGA CCA TTC CAA TTA ACG AGA GGC TTT ACC TCT TCC GTA AAA AAC TTC
Gaa: M Q E I F R P F Q L T R G F T S S V K N F
Fita complementar: p(x)= x
6
+x+1 - g(x)= x
6
+2x
3
+3x+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Ont: GAA GTT TTT TAC GGA AGA GGT AAA GCC TCT CGT TAA TTG GAA TGG TCT GAA AAT TTT TTG CAT
Olb: 200 233 333 301 220 020 223 000 211 313 123 300 332 200 322 313 200 003 333 332 103
Glb: 200 233 333 301 220 020 223 000 211 313 123 300 332 200 322 313 200 003 331 332 103
Gnt: GAA GTT TTT TAC GGA AGA GGT AAA GCC TCT CGT TAA TTG GAA TGG TCT GAA AAT TTC TTG CAT
SD13 - A. th aliana Mitochondrial Malate dehydrogenase 1 GI: 30695458
Fita codante: p(x)= x
6
+x
5
+x
2
+x+1 - g(x)= x
6
+3x
5
+2x
4
+x
2
+x+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Oaa: F R S M L V R S S A S A K Q A V I R R S F
Ont: TTC AGA TCT ATG CTC GTC CGA TCT TCT GCC TCC GCG AAG CAG GCG GTT ATC CGC CGT AGC TTC
Olb: 331 020 313 032 131 231 120 313 313 211 311 212 002 102 212 233 031 121 123 021 331
Glb: 331 020 313 032 131 231 120 313 313 211 311 212 003 102 212 233 031 121 123 021 331
Gnt: TTC AGA TCT ATG CTC GTC CGA TCT TCT GCC TCC GCG AAT CAG GCG GTT ATC CGC CGT AGC TTC
Gaa: F R S M L V R S S A S A N Q A V I R R S F
Fita complementar: p(x)= x
6
+x
5
+x
4
+x+1 - g(x)= x
6
+x
5
+x
4
+2x
2
+3x+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Ont: GAA GCT ACG GCG GAT AAC CGC CTG CTT CGC GGA GGC AGA AGA TCG GAC GAG CAT AGA TCT GAA
Olb: 200 213 012 212 203 001 121 132 133 121 220 221 020 020 312 201 202 103 020 313 200
Glb: 200 213 012 212 203 001 121 132 033 121 220 221 020 020 312 201 202 103 020 313 200
Gnt: GAA GCT ACG GCG GAT AAC CGC CTG ATT CGC GGA GGC AGA AGA TCG GAC GAG CAT AGA TCT GAA
103
Captulo 4. Gera cao das Sequencias de Direcionamento
SD20 - P.d o m inu lus RE Allergen Pol d 5 GI: 51093376
Fita codante: p(x)= x
6
+x
5
+x
4
+x+1 - g(x)= x
6
+x
5
+x
4
+2x
2
+3x+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Oaa: M K I S C L I C L V I V L T I I H L S Q A
Ont: ATG AAA ATT AGT TGC TTA ATT TGT CTC GTA ATT GTT CTT ACG ATC ATT CAT TTG TCT CAA GCT
Olb: 032 000 033 023 321 330 033 323 131 230 033 233 133 012 031 033 103 332 313 100 213
Glb: 032 000 033 023 321 330 033 123 131 230 033 233 133 012 031 033 103 332 313 100 213
Gnt: ATG AAA ATT AGT TGC TTA ATT CGT CTC GTA ATT GTT CTT ACG ATC ATT CAT TTG TCT CAA GCT
Gaa: M K I S C L I R L V I V L T I I H L S Q A
Fita complementar: p(x)= x
6
+x
5
+x
2
+x+1 - g(x)= x
6
+3x
5
+2x
4
+x
2
+x+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Ont: AGC TTG AGA CAA ATG AAT GAT CGT AAG AAC AAT TAC GAG ACA AAT TAA GCA ACT AAT TTT CAT
Olb: 021 332 020 100 032 003 203 123 002 001 003 301 202 010 003 300 210 013 003 333 103
Glb: 021 332 020 100 032 003 203 123 002 001 003 301 202 012 003 300 210 013 003 333 103
Gnt: AGC TTG AGA CAA ATG AAT GAT CGT AAG AAC AAT TAC GAG ACG AAT TAA GCA ACT AAT TTT CAT
SD06 - T. s ativ u m RE - wPR4g gene for putative vacuolar defense protein GI: 78096542
Fita codante: p(x)= x
6
+x
5
+x
4
+x+1 - g(x)= x
6
+x
5
+x
4
+2x
2
+3x+1
Rotulamento C: (0,2,1,3) - (A,C,G,T)
Oaa: M A A R L A L V A A L L C A G A T A A A A
Ont: ATG GCC GCA CGC CTC GCG CTG GTG GCG GCG CTC CTG TGC GCC GGT GCC ACG GCC GCC GCG GCG
Olb: 031 122 120 212 232 121 231 131 121 121 232 231 312 122 113 122 021 122 122 121 121
Glb: 031 122 120 212 232 121 231 331 121 121 232 231 312 122 113 122 021 122 122 121 121
Gnt: ATG GCC GCA CGC CTC GCG CTG TTG GCG GCG CTC CTG TGC GCC GGT GCC ACG GCC GCC GCG GCG
Gaa: M A A R L A L L A A L L C A G A T A A A A
Fita complementar: p(x)= x
6
+x
5
+x
2
+x+1 - g(x)= x
6
+3x
5
+2x
4
+x
2
+x+1
Rotulamento C: (0,2,1,3) - (A,C,G,T)
Ont: CGC CGC GGC GGC CGT GGC ACC GGC GCA CAG GAG CGC CGC CAC CAG CGC GAG GCG TGC GGC CAT
Olb: 212 212 112 112 213 112 022 112 120 201 101 212 212 202 201 212 101 121 312 112 203
Glb: 212 212 112 112 213 112 022 112 120 201 101 212 212 200 201 212 101 121 312 112 203
Gnt: CGC CGC GGC GGC CGT GGC ACC GGC GCA CAG GAG CGC CGC CAA CAG CGC GAG GCG TGC GGC CAT
104
Captulo 4. Gera cao das Sequencias de Direcionamento
SD17 - H. s ap ie n s Mitochondrial ATPase delta-subunit GI number 12587
Fita codante: p(x)= x
6
+x
5
+1 - g(x)= x
6
+3x
5
+2x
3
+1
Rotulamento C: (0,2,1,3) - (A,C,G,T)
Oaa: L P A A L L R R P G L G R L V R H A R A Y
Ont: CTG CCC GCC GCG CTG CTC CGC CGC CCG GGA CTT GGC CGC CTC GTC CGC CAC GCC CGT GCC TAT
Olb: 231 222 122 121 231 232 212 212 221 110 233 112 212 232 132 212 202 122 213 122 303
Glb: 231 222 122 121 231 232 212 212 221 110 233 112 212 232 132 212 201 122 213 122 303
Gnt: CTG CCC GCC GCG CTG CTC CGC CGC CCG GGA CTT GGC CGC CTC GTC CGC CAG GCC CGT GCC TAT
Gaa: L P A A L L R R P G L G R L V R Q A R A Y
Fita complementar: p(x)= x
6
+x+1 - g(x)= x
6
+2x
3
+3x+1
Rotulamento C: (0,2,1,3) - (A,C,G,T)
Ont: ATA GGC ACG GGC GTG GCG GAC GAG GCG GCC AAG TCC CGG GCG GCG GAG CAG CGC GGC GGG CAG
Olb: 030 112 021 112 131 121 102 101 121 122 001 322 211 121 121 101 201 212 112 111 201
Glb: 030 112 021 112 231 121 102 101 121 122 001 322 211 121 121 101 201 212 112 111 201
Gnt: ATA GGC ACG GGC CTG GCG GAC GAG GCG GCC AAG TCC CGG GCG GCG GAG CAG CGC GGC GGG CAG
105
Captulo 5
Regenera cao de Sequencias de DNA
A fun cao primordial do processo de decodica cao e recuperar a palavra-codigo transmitida
atraves da correspondente sequencia recebida de smbolos. O primeiro passo e identicar se a
palavra recebida e uma palavra-codigo. O segundo passo consiste em recuperar a mensagem
que fora codicada. Esta recupera cao torna-se trivial se a palavra recebida e uma palavra-
codigo, visto que a correspondencia e um-a-um entre as possveis mensagens e as palavras-
codigos.
Do ponto de vista biologico, o processo da decodica cao pode ser visto como o processo de
repara cao de erros. Este processo consiste em localizar e corrigir os possveis erros cometidos
durante os processos de duplica cao e transcri cao. A regra da regenera cao otima consiste em
escolher a palavra recebida mais proxima da palavra-codigo.
No presente trabalho, o modelo de decodica cao baseia-se em uma analogia entre o pro-
cesso de decodica cao (Berlekamp-Massey para aneis) utilizado em sistemas de comunica coes
e o complexo TOM que atua no transporte de protenas mitocondriais. A principal fun cao
do complexo TOM e reconhecer as sequencias de direcionamento permitindo a entrada da
protena precursora na mitocondria e translocando-a para seu respectivo subcompartimento,
no qual a protena exercera a sua fun cao. Ressaltamos que estas analogias podem ser esten-
didas para o transporte de protenas para o cloroplasto e para o retculo endoplasmatico.
O algoritmo de Berlekamp-Massey consiste basicamente de quatro passos: 1) Calculo das
sndromes: neste passo o algoritmo verica se a sequencia recebida e uma palavra-codigo; 2)
Calculo das fun coes simetricas elementares: se o calculo das sndromes for um valor diferente
de zero, podemos vericar se a quantidade de erros esta dentro da capacidade de corre cao do
codigo; 3) Calculo dos n umeros localizadores de erros: neste passo sao localizadas as posi coes
onde ocorreram os erros e 4) Calculo das magnitudes dos erros: o algoritmo indica quais sao
os valores que devem ser somados nas posi coes apontadas no Passo 3 para que os erros sejam
corrigidos.
107
Captulo 5. Regenera cao de Sequencias de DNA
Durante o processo de importa cao de protenas mitocondriais, existem processos seme-
lhantes aos passos do processo de decodica cao descritos anteriormente. As protenas Tom20,
Tom22 e Tom70 funcionam como receptores para as protenas precursoras mitocondriais.
Esta etapa pode ser relacionada aos Passos 1 e 2 do algoritmo de Berlekamp-Massey, desta
maneira as protenas receptoras tem a fun cao de vericar se a protena precursora pertence
a mitocondria (Passo 1), bem como se possveis polimorsmos existentes estao dentro da
capacidade de corre cao do erro (Passo 2). Sabemos que alguns polimorsmos nao alteram
a fun cao da protena, de alguma forma esta informa cao faz parte do processo, pois alguns
polimorsmos sao importados normalmente pelo complexo TOM. Sendo assim, e concebvel
que os processos de localiza cao e corre cao dos erros (Passos 3 e 4, respectivamente) podem
ser interpretados como um processo de verica cao se os polimorsmos ocorreram em posi coes
que afetaram a protena (conte udo de informa cao) tornando-a danosa ou nao ao sistema de
importa cao de protenas.
Na Se cao 5.1 apresentamos o algoritmo usado para decodicar/regenerar as sequencias de
DNA (sequencias de direcionamento) reproduzidas pelos c odigos Z
4
-linear, Z
2
Z
2
-linear e
Klein-linear. Este algoritmo baseia-se nos resultados observados no Captulo 4 onde todas as
sequencias reproduzidas pelos codigos diferem em um nucleotdeo da sequencia do NCBI. Em
um contexto biologico, esta diferen ca de um nucleotdeo e conhecida como SNP. Entao, uma
possvel interpreta cao e que a palavra-codigo gerada pelos codigos G-lineares sao SNPs das
sequencias do NCBI, ou vice-versa. Desta forma, o algoritmo e capaz de localizar e corrigir
esta diferen ca de nucleotdeo transformando a sequencia gerada pelo codigo na sequencia
do NCBI, ou vice-versa. A Se cao 5.2 mostra os resultados da decodica cao/regenera cao
das sequencias de direcionamento reproduzidas pelos codigos e suas respectivas tas comple-
mentares. Na Se cao 5.3 apresentamos a reprodu cao das sequencias de direcionamento atraves
de um circuito linear de deslocamento com realimenta cao linear (LFSR - linear feedback
shift-register), nesta abordagem a reprodu cao das sequencias de direcionamento e realizada
pela sequencia de informa cao. Cada sequencia de informa cao esta associada a somente uma
sequencia de direcionamento (palavra-codigo). Sendo assim, a distin cao entre as sequencias
que foram reproduzidas pelo mesmo codigo e mesmo polinomio gerador/primitivo e realizada
atraves da sequencia de informa cao.
5.1 Algoritmo de Decodica cao
Na Se cao 4.1, Captulo 4, apresentamos o codigo Z
2
Z
2
com parametros (63, 57, 3)
que reproduziu a sequencia de direcionamento do organismo Ipomoea batatas, GI: 217937,
protena F1-ATPase delta subunit, diferenciando em apenas um nucleotdeo da sequencia
108
Captulo 5. Regenera cao de Sequencias de DNA
encontrada no NCBI. Nesta se cao, mostramos que o algoritmo de decodica cao e capaz de
localizar e corrigir esta diferen ca de nucleotdeo entre estas sequencias. Neste contexto, o
algoritmo de decodica cao pode ser visto biologicamente como um processo de regenera cao
da sequencia de DNA.
Algoritmo de Berlekamp- Massey Modicado para
Decodicacao de Sequencias de DNA
Passo 1- Determinar as sndromes:
O calculo do vetor sndrome S = (S
0
, S
1
, ..., S
2t1
) e realizado atraves da rela cao S =
r H
T
. Considere o vetor r como sendo a palavra-codigo transmitida com um padrao
de erro introduzido pelo canal (sequencia do NCBI) e H
T
e a matriz verica cao de
paridade. Uma vez que a sequencia em questao foi reproduzida pelo codigo Z
2
Z
2
-
linear (BCH (63,57,3), rotulamento B), consideramos as oito permuta coes (Casos: 01,
05, 08, 10, 15, 17, 19 e 24) entre N Z
4
relativas ao rotulamento e a sequencia do
NCBI. Realizamos o calculo do vetor sndrome para cada uma das oito permuta coes.
H
T
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 1
2
6
.
.
.
.
.
.
61
59
62
61
_
_
_
_
_
_
_
_
_
_
_
_
_
_
(5.1)
Sequencia NCBI = {ATGTTCAGGCACTCTTCTCGACTCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC}
Caso 01: (A,C,G,T)=(0,1,2,3)={032331022101313313120131130213121211011010032222322123121111331} = r
Caso 05: (A,C,G,T)=(0,3,2,1)={012113022303131131320313310231323233033030012222122321323333113} = r
Caso 08: (A,C,G,T)=(1,0,3,2)={123220133010202202031020021302030300100101123333233032030000220} = r
Caso 10: (A,C,G,T)=(1,2,3,0)={103002133212020020231202201320232322122121103333033230232222002} = r
Caso 15: (A,C,G,T)=(2,1,0,3)={230331200121313313102131132013101011211212230000300103101111331} = r
Caso 17: (A,C,G,T)=(2,3,0,1)={210113200323131131302313312031303033233232210000100301303333113} = r
Caso 19: (A,C,G,T)=(3,0,1,2)={321220311030202202013020023102010100300303321111211012010000220} = r
Caso 24: (A,C,G,T)=(3,2,1,0)={301002311232020020213202203120212122322323301111011210212222002} = r
109
Captulo 5. Regenera cao de Sequencias de DNA
Resultados:
As sndromes sao iguais para as oito permuta coes, onde S
0
= (022020) e S
1
= (222020).
Sendo assim, iniciamos o preenchimento da Tabela 5.1.
n
(n)
(Z) d
n
l
n
n l
n
-1 1 1 0 -1
0 1 S
0
= (022020) 0 0
1
2
Tabela 5.1: Tabela de Decodica cao.
Passo 2- Determinar l
1
:
Considere m = 1 e n = 0 para que l
n+1
= l
1
. Substituindo esses valores em (5.2),
temos:
l
n+1
= max(l
n
, l
m
+n m) (5.2)
l
0+1
= max(l
0
, l
1
+ 0 + 1)
l
1
= max(0, 0 + 0 + 1)
l
1
= max(0, 1)
l
1
= 1
Passo 3- Determinar n l
n
:
Do Passo 2 temos que l
n
= l
1
= 1, portanto n = 1 e n l
n
= 1 1 = 0.
Passo 4- Determinar
(1)
(Z):
Nesse passo, considere m = 1 e n = 0 para que
(n+1)
(Z) =
(1)
(Z). Substituindo
esses valores em (5.3) temos:
(n+1)
(Z) =
(n)
(Z) yZ
(nm)
(m)
(Z) (5.3)
(0+1)
(Z) =
(0)
(Z) yZ
(0(1))
(1)
(Z)
(1)
(Z) =
(0)
(Z) yZ
(1)
(1)
(Z)
(1)
(Z) = 1 yZ
Para determinarmos o valor de y resolvemos a equa cao d
n
yd
m
= 0, onde n = 0 e
m = 1. Portanto:
110
Captulo 5. Regenera cao de Sequencias de DNA
d
0
yd
1
= 0
(022020) y(1) = 0
y = (022020)
Com isso, determinamos que
(1)
(Z) = 1 (022020)Z.
Note que os valores de
(0)
(Z) = 1,
(1)
(Z) = 1, d
0
= (022020) e d
1
= 1 foram
obtidos na Tabela 5.1 (Passo 1).
Passo 5- Determinar d
1
:
O valor de d
1
sera calculado atraves de (5.4), considerando n = 0. Portanto:
d
n+1
= s
n+2
+s
n+1
(n+1)
1
+. . . +s
n+2
l
n+1
(n+1)
l
n+1
(5.4)
d
0+1
= s
0+2
+s
0+1
(0+1)
1
d
1
= S
1
+S
0
(1)
1
d
1
= (222020) + (022020)(022020)
d
1
= (222020)
(5.5)
Preenchendo a Tabela 5.2 para n = 1 temos:
n
(n)
(X) d
n
l
n
n l
n
-1 1 1 0 -1
0 1 (022020) 0 0
1 1+(022020)Z (222020) 1 0
2
Tabela 5.2: Tabela de Decodica cao.
Passo 6- Determinar l
2
:
Considere n = 1 para que l
n+1
= l
2
e calcule a equa cao (5.2) para m = 1 e m = 0
escolhendo sempre o menor valor para l
n
. Substituindo esses valores em (5.2), temos:
111
Captulo 5. Regenera cao de Sequencias de DNA
Para m = 1 temos:
l
n+1
= max(l
n
, l
m
+n m)
l
1+1
= max(l
1
, l
1
+ 1 + 1)
l
2
= max(1, 0 + 1 + 1)
l
2
= max(1, 2)
l
2
= 2
Para m = 0 temos:
l
n+1
= max(l
n
, l
m
+n m)
l
1+1
= max(l
1
, l
0
+ 1 0)
l
2
= max(1, 0 + 1 0)
l
2
= max(1, 1)
l
2
= 1
Escolhendo o menor l
n
temos l
2
= 1 e m = 0.
Passo 7- Determinar n l
n
:
Do Passo 2 temos que l
n
= l
2
= 1, portanto n = 2 e n l
n
= 2 1 = 1.
Passo 8- Determinar
(2)
(Z):
Nesse passo, considere m = 0 e n = 1 para que
(n+1)
(Z) =
(2)
(Z). Substituindo esses
valores em (5.6) temos:
(n+1)
(Z) =
(n)
(Z) yZ
(nm)
(m)
(Z) (5.6)
(1+1)
(Z) =
(1)
(Z) yZ
(1(0))
(0)
(Z)
(2)
(Z) =
(1)
(Z) yZ
(0)
(Z)
(2)
(Z) = [1 + (022020)Z] yZ
Para determinarmos o valor de y resolvemos a equa cao d
n
yd
m
= 0, onde n = 1 e
m = 0. Portanto:
112
Captulo 5. Regenera cao de Sequencias de DNA
d
1
yd
0
= 0
(222020) y(022020) = 0
y = (211012)
Com isso, determinamos que
(2)
(Z) = 1 + (211012)Z.
Note que os valores de
(0)
(Z),
(1)
(Z), d
0
= (022020) e d
1
= (222020) foram obtidos
da Tabela 5.2 do Passo 5. Observe que d
2
nao foi calculado pelo fato de termos duas
sndromes, S
0
e S
1
.
Preenchendo a Tabela 5.3 para n = 2 temos:
n
(n)
(X) d
n
l
n
n l
n
-1 1 1 0 -1
0 1 (022020) 0 0
1 1+(022020)Z (222020) 1 0
2 1+(211012)Z - 1 1
Tabela 5.3: Tabela de Decodica cao.
Passo 9- Determinar p(Z):
Nesse passo, calculamos as razes do polinomio recproco (p(Z)) do polinomio
(2)
(Z).
Temos:
(2)
(Z) = 1 + (211012)Z
Logo,
p(Z) = (211012) +Z
Portanto, a raiz de p(Z) e Z
1
= (233032).
Passo 10- Determinar X
1
:
Para determinar a localiza cao do erro, X
1
, usamos a rela cao:
113
Captulo 5. Regenera cao de Sequencias de DNA
X
1
Z
1
= 0
X
1
(233032) = 0
X
1
= (233032)
Observe que X
1
e o elemento
21
da Tabela 4.4 do Passo 6 da Se cao 4.1 do Captulo 4.
Passo 11- Determinar Y
1
:
Quanto ao calculo da magnitude dos erros, Y
1
, usamos a seguinte equa cao:
Y
j
=
v1
l=0
jl
s
(h)
vl
X
b+c
2
h
j
v1
l=0
jl
X
c
1
(vl)
j
para 1 j v, e onde os
jl
sao obtidos recursivamente a partir de X
i
e
i
atraves da
rela cao:
ji
=
i
+X
j
j,i1
Portanto, susbtituindo os valores de i = 0 e j = 1 em
ji
, temos:
10
=
0
+X
1
1,01
= 1 + (233032) = (333032)
Substituindo
10
em Y
j
, temos:
Y
1
=
10
S
0
10
X
1
1
=
(022020)
(233032)
= 2
Conclumos que a magnitude de erro e Y
1
= 2.
Passo 12- Regeneracao das Sequencias de DNA:
Neste passo o algoritmo localiza e corrige o erro introduzido na sequencia do NCBI
transformando-a na sequencia reproduzida pelo codigo. Do ponto de vista biologico
podemos considerar este passo como um processo de regenera cao de sequencias.
114
Captulo 5. Regenera cao de Sequencias de DNA
Cada uma das oito permuta coes do Passo 1 corresponde a uma linha da matriz R
,
onde cada linha e considerada como uma palavra recebida r = (r
0
r
1
... r
n1
)
correspondente a sequencia do NCBI. No Passo 10 calculamos que X
1
=
21
= (233032),
portanto a localiza cao do erro esta na posi cao 21 (potencia de ) da palavra recebida
r = (r
0
r
1
... r
n1
).
R
=
_
_
_
_
_
_
_
_
_
032331022101313313120131130213121211011010032222322123121111331
012113022303131131320313310231323233033030012222122321323333113
123220133010202202031020021302030300100101123333233032030000220
103002133212020020231202201320232322122121103333033230232222002
230331200121313313102131132013101011211212230000300103101111331
210113200323131131302313312031303033233232210000100301303333113
321220311030202202013020023102010100300303321111211012010000220
301002311232020020213202203120212122322323301111011210212222002
_
_
_
_
_
_
_
_
_
No Passo 11 determinamos a magnitude do erro Y
1
= 2, portanto na posi cao 21 de
cada linha da matriz R
1
. O valor
de Y
1
e determinado da seguinte forma: Y
1
+Y
1
= 0 (mod4), Tabela 5.4. Sendo assim,
temos que Y
1
= 2 e somando este valor na posi cao 21 de cada linha de R
temos,
Y
1
+ Y
1
= 0
0+0=0
1+3=0
3+1=0
2+2=0
Tabela 5.4: Complementares.
R
=
_
_
_
_
_
_
_
_
_
032331022101313313120[(1 + 2)mod4]31130213121211011010032222322123121111331
012113022303131131320[(3 + 2)mod4]13310231323233033030012222122321323333113
123220133010202202031[(0 + 2)mod4]20021302030300100101123333233032030000220
103002133212020020231[(2 + 2)mod4]02201320232322122121103333033230232222002
230331200121313313102[(1 + 2)mod4]31132013101011211212230000300103101111331
210113200323131131302[(3 + 2)mod4]13312031303033233232210000100301303333113
321220311030202202013[(0 + 2)mod4]20023102010100300303321111211012010000220
301002311232020020213[(2 + 2)mod4]02203120212122322323301111011210212222002
_
_
_
_
_
_
_
_
_
Resulta em:
115
Captulo 5. Regenera cao de Sequencias de DNA
R
=
_
_
_
_
_
_
_
_
_
032331022101313313120331130213121211011010032222322123121111331
012113022303131131320113310231323233033030012222122321323333113
123220133010202202031220021302030300100101123333233032030000220
103002133212020020231002201320232322122121103333033230232222002
230331200121313313102331132013101011211212230000300103101111331
210113200323131131302113312031303033233232210000100301303333113
321220311030202202013220023102010100300303321111211012010000220
301002311232020020213002203120212122322323301111011210212222002
_
_
_
_
_
_
_
_
_
Passo 13- Visualizando o resultado:
Para facilitar a compreensao do processo da decodica cao mostramos na Figura 5.1
o caso referente a primeira linha da matriz R
(x) = x
6
+ 2x
5
+x
4
+x
3
+ 3x + 1.
Ressaltamos que a leitura destas tas e considerada no sentido da esquerda para a direita
pelo codigo e que o algoritmo da decodica cao foi aplicado nestes tres tipos de tas para
cada sequencia reproduzida pelo codigo.
Fitacodante(5'para3')efitanocodante(3'para5')
Fitanocodante(5'para3')
5'-ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC-3 T '
3'-TACAAGTCCGTGAGAAGAGCTAAGGATCGAGCGCGGTGGTGTTACCCCACCGCAGCGGGGAAG-5'
5'-GAAGGGGCGACGCCACCCCATTGTGGTGGCGCGAGCTAGGAATCGAGAAGAGTGCCTGAACAT-3
Figura 5.3: Fitas codante e nao codante.
Na Tabela 5.5 mostramos que para determinadas sequencias de direcionamento o pro-
cesso de decodica cao obteve a mesma classe sndrome (S
0
e S
1
) para as oito permuta coes
relacionadas com as sequencias. Porem em outros casos, as oito permuta coes com um erro
se dividiram em duas classes de sndromes (S
0
e S
1
; S
0
e S
1
), Tabela 5.6. O mesmo ocorreu
com o processo de decodica cao da ta complementar (5 para 3), Tabelas 5.7 e 5.8.
Nos casos de duas classes de sndromes, Tabela 5.6, podemos observar que as sndromes
S
0
e S
1
sao complementares a S
0
e S
1
, respectivamente. Outro ponto a ser considerado e que
se denirmos o localizador de erros como X
1
e seu complementar como X
1
, entao podemos
determinar o polinomio
(2)
(Z) atraves da rela cao
(2)
(Z) = 1 +X
1
Z.
Note que nas Tabelas 5.6 e 5.8 as sequencias SD01, SD03, SD04 e SD18 possuem duas
117
Captulo 5. Regenera cao de Sequencias de DNA
classes de sndromes e o mesmo rotulamento, porem elas se diferem em rela cao a magnitude
dos erros Y
1
. Observe que nas sequencias SD01, SD03 e SD18 as classes A(2, 9, 18, 20) possuem
magnitude Y
1
= 3 enquanto que a sequencia SD04 possui magnitude Y
1
= 1.
n
o
Organismo Organela Rotulamento Sndromes
(2)
(Z) X
1
Y
1
SD02 I. batatas M B S
0
= (022020), S
1
= (222020) 1 + (211012)Z
21
= (233032) 2
SD06 T. sativum RE C S
0
= (000220), S
1
= (200220) 1 + (202310)Z
21
= (202130) 2
SD08 S. cerevisiae M B S
0
= (022222), S
1
= (202202) 1 + (031313)Z
6
= (013131) 2
SD20 P. dominulus RE A S
0
= (202202), S
1
= (222200) 1 + (321323)Z
12
= (123121) 2
SD20 P. dominulus RE B S
0
= (000220), S
1
= (200220) 1 + (202310)Z
21
= (202130) 2
Tabela 5.5: Sequencias de direcionamento com uma classe de sndrome. Fita codante 5 para
3 e ta nao codante 3 para 5.
n
o
Organismo Organela Rotulamento Sndromes
(2)
(Z) X
1
Y
1
(Casos)
SD01 B. napus M A (2,9,18,20) S
0
= (110110), S
1
= (330323) 1 + (110110)Z
62
= (330330) 3
A (6,7,16,23) S
0
= (330330), S
1
= (110121) 1 + (110110)Z
62
= (330330) 1
SD03 A. thaliana RE A (2,9,18,20) S
0
= (330230), S
1
= (011020) 1 + (330230)Z
18
= (110210) 3
A (6,7,16,23) S
0
= (110210), S
1
= (033020) 1 + (330230)Z
18
= (110210) 1
SD04 N. tabacum RE A (2,9,18,20) S
0
= (032213), S
1
= (310300) 1 + (012231)Z
26
= (032213) 1
A (6,7,16,23) S
0
= (012231), S
1
= (130100) 1 + (012231)Z
26
= (032213) 3
SD13 A. thaliana M B (1,10,17,19) S
0
= (211312), S
1
= (233022) 1 + (211312)Z
38
= (233132) 3
B (5,8,15,24) S
0
= (233132), S
1
= (211022) 1 + (211312)Z
38
= (233132) 1
SD17 H. sapiens M C (3,12,14,21) S
0
= (322301), S
1
= (131332) 1 + (122103)Z
50
= (322301) 1
C (4,11,13,22) S
0
= (122103), S
1
= (313112) 1 + (122103)Z
50
= (322301) 3
SD18 M. martensii RE A (2,9,18,20) S
0
= (001221), S
1
= (103301) 1 + (001221)Z
38
= (003223) 3
A (6,7,16,23) S
0
= (003223), S
1
= (301103) 1 + (001221)Z
38
= (003223) 1
Tabela 5.6: Sequencias de direcionamento com duas classes de sndromes. Fita codante 5
para 3 e ta nao codante 3 para 5.
n
o
Organismo Organela Rotulamento Sndromes
(2)
(Z) X
1
Y
1
SD02 I. batatas M B S
0
= (022202), S
1
= (022222) 1 + (213301)Z
41
= (231103) 2
SD06 T. sativum RE C S
0
= (220200), S
1
= (020002) 1 + (132100)Z
41
= (312300) 2
SD08 S. cerevisiae M B S
0
= (020220), S
1
= (220200) 1 + (230130)Z
56
= (210310) 2
SD20 P. dominulus RE A S
0
= (002202), S
1
= (220002) 1 + (203321)Z
50
= (201123) 2
SD20 P. dominulus RE B S
0
= (000220), S
1
= (200220) 1 + (132100)Z
41
= (312300) 2
Tabela 5.7: Sequencias de direcionamento com uma classe de sndrome. Fita complementar
invertida 5 para 3.
5.3 Reprodu cao das Sequencias de DNA atraves do
LFSR
O objetivo desta se cao e mostrar que as sequencias de direcionamento reproduzidas pelos
codigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear podem ser reproduzidas atraves de um circuito
118
Captulo 5. Regenera cao de Sequencias de DNA
n
o
Organismo Organela Rotulamento Sndromes
(2)
(Z) X
1
Y
1
(Casos)
SD01 B. napus M A (2,9,18,20) S
0
= (3), S
1
= (3) 1 + (3)Z
0
= (1) 3
A (6,7,16,23) S
0
= (1), S
1
= (1) 1 + (3)Z
0
= (1) 1
SD03 A. thaliana RE A (2,9,18,20) S
0
= (303322), S
1
= (012302) 1 + (303322)Z
44
= (101122) 3
A (6,7,16,23) S
0
= (101122), S
1
= (032102) 1 + (303322)Z
44
= (101122) 1
SD04 N. tabacum RE A (2,9,18,20) S
0
= (123211), S
1
= (113212) 1 + (321233)Z
36
= (123211) 1
A (6,7,16,23) S
0
= (321233), S
1
= (331232) 1 + (321233)Z
36
= (123211) 3
SD13 A. thaliana M B (1,10,17,19) S
0
= (032130), S
1
= (103332) 1 + (012310)Z
24
= (032130) 3
B (5,8,15,24) S
0
= (012310), S
1
= (301112) 1 + (012310)Z
24
= (032130) 1
SD17 H. sapiens M C (3,12,14,21) S
0
= (302030), S
1
= (301120) 1 + (302030)Z
12
= (102010) 1
C (4,11,13,22) S
0
= (102010), S
1
= (103320) 1 + (302030)Z
12
= (102010) 3
SD18 M. martensii RE A (2,9,18,20) S
0
= (110121), S
1
= (000113) 1 + (110121)Z
24
= (330323) 3
A (6,7,16,23) S
0
= (330323), S
1
= (000331) 1 + (110121)Z
24
= (330323) 1
Tabela 5.8: Sequencias de direcionamento com duas classes de sndromes. Fita complementar
invertida 5 para 3.
de deslocamento com realimenta cao linear (LFSR). Este processo fornece um embasamento
para uma proposta futura que permite reproduzir sequencias de DNA atraves do LFSR e
utiliza-las para a realiza cao da analise espectral via transformada de Fourier Discreta sobre
aneis, bem como da densidade espectral.
Na Subse cao 4.2.5, Captulo 4, mostramos que existem algumas sequencias de direciona-
mento que possuem o mesmo polinomio gerador/primitivo (SD01, SD03 e SD04). Isso
signica que todas estas sequencias sao identicadas como palavras-codigo pertencentes ao
mesmo codigo, embora diferindo atraves da sua sequencia de informa cao (u). Cada sequencia
de informa cao esta associada a uma unica palavra-codigo. Portanto, a distin cao entre estas
sequencias e realizada atraves da sequencia de informa cao.
Uma vez que a matriz geradora G(x) e a palavra-codigo (v) sao conhecidas, usamos a
rela cao u.G(x) = v para determinar a sequencia de informa cao. Atraves de um sistema de
equa coes lineares que obedecem as opera coes de adi cao e multiplica cao segundo a estrutura
algebrica de anel, ou seja, soma e produto modulo 4, determinamos o vetor u para cada
sequencia de direcionamento reproduzida pelo codigo. Nas Figuras 5.4 e 5.5 mostramos as
sequencias de informa cao (u) referentes a reprodu cao da sequencia de direcionamento da
Ipomoea batatas. Observe que os Casos (1 e 5), (8 e 19), (15 e 17), (10 e 24) possuem a
mesma sequencia de informa cao em termos de nucleotdeos e aminoacidos.
Apresentamos os circuitos de deslocamentos com realimenta cao linear de comprimento
L = 7 que consiste de uma cascata de L atrasadores (registros de deslocamentos) e alguns
multiplicadores e somadores capazes de gerar uma combina cao linear dos conte udos destes
registros. Estes circuitos reproduzem as sequencias de direcionamento referentes `a ta co-
dante da protena F1-ATPase delta subunit, Figura 5.6, e a sua respectiva ta nao codante,
Figura 5.7.
119
Captulo 5. Regenera cao de Sequencias de DNA
Caso 1 - (0,1,2,3) = (A,C,G,T)
u = { 030 001 100 013 333 012 031 323 122 221 032 311 100 131 113 003 131 333 301 }
ATA AAC CAA ACT TTT ACG ATC TGT CGG GGC ATG TCC CAA CTC CCT AAT CTC TTT TAC
I N Q T F T I C R G M S Q L P N L F Y
Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Caso 5 - (0,3,2,1) = (A,C,G,T)
u = { 010 003 300 031 111 032 013 121 322 223 012 133 300 313 331 001 313 111 103 }
ATA AAC CAA ACT TTT ACG ATC TGT CGG GGC ATG TCC CAA CTC CCT AAT CTC TTT TAC
I N Q T F T I C R G M S Q L P N L F Y
Glb: 012 113 022 303 131 131 320 113 310 231 323 233 033 030 012 222 122 321 323 333 113
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Caso 8 - (1,0,3,2) = (A,C,G,T)
u = { 102 122 131 331 023 212 331 111 020 100 132 233 013 320 102 113 130 020 020 }
ACT ATT AGA GGA CTG TAT GGA AAA CTC ACC AGT TGG CAG GTC ACT AAG AGC CTC CTC
T I R G L Y G K L T S W Q V T K S L L
Glb: 123 220 133 010 202 202 031 220 021 302 030 300 100 101 123 333 233 032 030 000 220
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Caso 10 - (1,2,3,0) = (A,C,G,T)
u = { 122 120 331 313 201 232 313 313 220 102 112 011 213 102 320 111 312 202 222 }
ACC ACT GGA GAG CTA CGC GAG GAG CCT ATC AAC TAA CAG ATC GCT AAA GAC CTC CCC
T T G E L R E E P I N sto Q I A K D L P
Glb: 103 002 133 212 020 020 231 002 201 320 232 322 122 121 103 333 033 230 232 222 002
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Figura 5.4: Vetor u .
Na Figura 5.8 mostramos a sequencia de informa cao que reproduz a sequencia de dire-
cionamento referente a ta codante (5 para 3) da protena F1-ATPase delta subunit relativa
ao Caso 1. Os dgitos que estao em vermelho e azul foram usados na Figura 5.9 que mostra
em detalhes como a sequencia de direcionamento e reproduzida pelo circuito.
Primeiramente, todos os registros sao zerados. A sequencia de informa cao (u) e denida
como u = u
0
, u
1
, ..., u
56
, onde o ultimo dgito u
56
= 1 e o primeiro dgito a entrar no primeiro
registro do circuito que denimos como registro (x
6
). A entrada deste dgito resulta em uma
sada igual a v
62
= 1 pois nao existe multiplicador associado a este registro e nenhum valor
a ser somado nos demais registros (Passo 1).
O segundo passo e a entrada do dgito u
55
= 0 no primeiro registro (x
6
) deslocando o dgito
u
56
= 1 para o segundo registro (x
5
). Observe que existe um multiplicador igual a 3 associado
ao segundo registro resultando em uma sada igual a v
61
= u
55
+3(u
56
) = 0 +3(1) = 3 mod4,
isto e, v
61
= 3 (Passo 2).
O terceiro passo e a entrada do dgito u
54
= 3 no primeiro registro (x
6
) deslocando
o dgito u
55
= 0 para o segundo registro (x
5
) e o dgito u
56
= 1 para o terceiro registro
(x
4
). Nao existe multiplicador ou somador associado ao terceiro registro, portanto a sada
120
Captulo 5. Regenera cao de Sequencias de DNA
Caso 15 - (2,1,0,3) = (A,C,G,T)
u = { 230 201 322 231 331 032 213 101 122 021 212 333 122 331 313 221 311 333 301 }
ATG AGC TAA ATC TTC GTA ACT CGC CAA GAC ACA TTT CAA TTC TCT AAC TCC TTT TGC
M S sto I F V T R Q D T F Q F S N S F C
Glb: 230 331 200 121 313 313 102 331 132 013 101 011 211 212 230 000 300 103 101 111 331
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Caso 17 - (2,3,0,1) = (A,C,G,T)
u = { 210 203 122 213 113 012 231 303 322 023 232 111 322 113 131 223 133 111 103 }
ATG AGC TAA ATC TTC GTA ACT CGC CAA GAC ACA TTT CAA TTC TCT AAC TCC TTT TGC
M S sto I F V T R Q D T F Q F S N S F C
Glb: 210 113 200 323 131 131 302 113 312 031 303 033 233 232 210 000 100 301 303 333 113
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Caso 19 - (3,0,1,2) = (A,C,G,T)
u = { 302 322 313 113 021 232 113 333 020 300 312 211 031 120 302 331 310 020 020 }
ACT ATT AGA GGA CTG TAT GGA AAA CTC ACC AGT TGG CAG GTC ACT AAG AGC CTC CTC
T I R G L Y G K L T S W Q V T K S L L
Glb: 321 220 311 030 202 202 013 220 023 102 010 100 300 303 321 111 211 012 010 000 220
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Caso 24 - (3,2,1,0) = (A,C,G,T)
u = { 322 320 113 131 203 212 131 131 220 302 332 033 231 302 120 333 132 202 222 }
ACC ACT GGA GAG CTA CGC GAG GAG CCT ATC AAC TAA CAG ATC GCT AAA GAC CTC CCC
T T G E L R E E P I N sto Q I A K D L P
Glb: 301 002 311 232 020 020 213 002 203 120 212 122 322 323 301 111 011 210 212 222 002
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Figura 5.5: Vetor u .
v
60
= u
54
+ 3(u
55
) = 3 + 3(0) = 3mod4, v
60
= 3 (Passo 3).
O mesmo procedimento e realizado ate que todos os dgitos do vetor u passem por todos
os registros. Observe que apos a entrada do ultimo dgito do vetor u, u
0
= 0, novamente os
registros come cam a ser zerados (Passos 59 ao 62).
Um dos grandes desaos da ciencia e compreender os mecanismos moleculares que ocor-
rem dentro das celulas. O transporte de protenas organelares e fundamental para manter
as celulas saudaveis, portanto estudos sobre os mecanismos que governam a distribui cao e
transporte de protenas nas celulas podem contribuir para se obter uma compreensao mais
apurada desta complexa maquinaria, e como seu funcionamento inadequado poderia dea-
grar uma doen ca. Ressaltamos que, ate onde e de nosso conhecimento, pela primeira vez e
proposto um modelo de decodica cao biologico utilizando o algoritmo de Berlekamp-Massey
modicado em importa cao de protenas.
121
Captulo 5. Regenera cao de Sequencias de DNA
u = {u
0
, u
1
, ..., u
56
}
v = {v
0
, v
1
, ..., v
62
}
3
+
u
2
+ + + + v
x
6
x
5
x
4
x
3
x
2
x 1
g(x) = x
6
+3x
5
+x
3
+x
2
+2x+1
Figura 5.6: LFSR ta codante 5 para 3.
2
+
u
3
+ + + +
u = {u
0
, u
1
, ..., u
56
}
v = {v
0
, v
1
, ..., v
62
}
x
6
x
5
x
4
x
3
x
2
x 1
v
2
+
3
+ + + +
g(x) = x
6
+2x
5
+x
4
+x
3
+3x+1
Figura 5.7: LFSR ta nao codante 5 para 3.
Caso 1 - (0,1,2,3)=(A,C,G,T)
u = { 030 001 100 013 333 012 031 323 122 221 032 311 100 131 113 003 131 333 301 }
ATA AAC CAA ACT TTT ACG ATC TGT CGG GGC ATG TCC CAA CTC CCT AAT CTC TTT TAC
I N Q T F T I C R G M S Q L P N L F Y
Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
Figura 5.8: Fita codante 5 para 3.
122
Captulo 5. Regenera cao de Sequencias de DNA
1) u = {030001100 ... 131333301}
v62 = 1
x
6
x
5
x
4
x
3
x
2
x 1
2) u = {030001100 ... 131333301}
1+3(0)+0+0+2(0)+0=0 mod4 = 1
3
+
u56
2
+ + + +
{
1
v61 = 3
3
+
u55
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
0 1
0+3(1)+0+0+2(0)+0=0 mod4 = 3
{
-
-
-
59) u = {030001100 ... 131333301}
V3 = 3
3
+
u0
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
0 0 0 3 0 0 0
0+3(0)+0+3+2(0)+0=0 mod4 = 3
{
0 0 0 0 0 0
0 0 0 0 0
3) u = {030001100 ... 131333301}
v60 = 3
3
+
u55
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
3 0
3+3(0)+0+0+2(0)+0=0 mod4 = 3
{
0 0 0 0
4) u = {030001100 ... 131333301}
V59 = 1
3
+
u55
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
3 3
3+3(3)+1+0+2(0)+0=0 mod4 = 1
{
0 1 0 0 0
u55
6) u = {030001100 ... 131333301}
V57 = 1
3
+
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
3 3
3+3(3)+3+0+2(1)+0=0 mod4 = 1
{
3 3 0 1 0
5) u = {030001100 ... 131333301}
V58 = 1
3
+
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
3 3
3+3(3)+0+1+2(0)+0=0 mod4 = 1
{
3 0 1 0 0 u55
61) u = {030001100 ... 131333301}
V1 = 3
3
+
u0
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
3 0 0 0 0 0 0
0+3(0)+0+0+2(0)+3=0 mod4 = 3
{
-
-
-
60) u = {030001100 ... 131333301}
V2 = 2
3
+
u0
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
0 0 3 0
0 0 0
0+3(0)+0+0+2(3)+0=0 mod4 = 2
{
62) u = {030001100 ... 131333301}
V0 = 0
3
+
u0
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
0 0 0 0 0 0 0
0+3(0)+0+0+2(0)+0=0 mod4 = 0
{
1
Figura 5.9: Reprodu cao atraves do LFSR da ta codante 5 para 3.
123
Captulo 6
Analises de Muta coes e de
Polimorsmos em Sequencias de DNA
As muta coes sao mudan cas que ocorreram na sequencia de nucleotdeos do material
genetico de um organismo. As muta coes sao consideradas o mecanismo que permite a a cao
da sele cao natural, ja que insere a varia cao genetica sobre a qual ela ira agir, fornecendo
as novas caractersticas vantajosas que sobrevivem e se multiplicam nas gera coes subse-
quentes ou as caractersticas hereditarias deleterias que desaparecem em organismos mais
fracos. Existem diversos tipos de muta coes e que podem ser resumidas em muta coes benecas
(muta coes que levam a novas versoes de protenas que ajudam o organismo e futuras gera coes
a adaptar-se melhor a mudan cas no seu ambiente) ou muta coes malecas (muta coes que al-
teram uma protena que tem um papel importante no corpo podendo resultar em uma doen ca
ou muta coes criando protenas parciais ou completamente nao-funcionais).
Um problema de grande interesse teorico e aplicado e determinar a regiao ou as regioes
com conte udo de informa cao nas sequencias de nucleotdeos.
E de conhecimento que deter-
minadas regioes estao relacionadas ao conte udo responsavel pela fun cao da protena e que
muta coes nessas regioes acarretariam em muta coes malecas ou benecas. Ao contrario, de
determinadas regioes onde as muta coes nao alteram a fun cao da protena. Atualmente, para
se alcan car esse objetivo sao realizados testes laboratoriais extensivos com um alto custo e
um tempo muito elevado.
Em sistemas de comunica cao codicado a informa cao a ser transmitida e composta de
uma sequencia que contem uma regiao responsavel pela informa cao propriamente dita e
outra regiao que e conhecida como verica cao de paridade. Para simplicar a complexidade
do processo essas regioes sao separadas de duas formas: a regiao de verica cao de paridade
esta posicionada apos ou antes da regiao responsavel pela informa cao. Se pensarmos em
termos de conforma coes topologicas, essas sequencias teriam apenas um tipo de conforma cao
125
Captulo 6. Analises de Muta coes e de Polimorsmos em Sequencias de DNA
espacial.
que e identica
a sequencia MDH1-21 em termos de aminoacidos. Ressaltamos que o codigo foi construdo
utilizando o alfabeto 4-ario, o qual representa os quatro nucleotdeos, portanto para cada
substitui cao de aminoacido consideramos todas as trincas relativas a este aminoacido. Como
mostra a Tabela 6.3, efetuamos todas as substitui coes de aminoacidos realizadas in vitro.
128
Captulo 6. Analises de Muta coes e de Polimorsmos em Sequencias de DNA
Caso1(A,C,G,T)=(0,1,2,3)-RotulamentoB
Caso2(A,C,G,T)=(0,1,3,2)-RotulamentoA
Caso3(A,C,G,T)=(0,2,1,3)-RotulamentoC
Oaa:MLSLARPVGAALRRSFSTSA
Ont:ATGCTGTCCGTCTCGCCCGTCCTGTCGGTGCCGCTCTCCGCCGCAGCTTCAGCACTTCAGCC
Olb:03213231123131211123113231223211213131121121021331021013310211
Glb:03213231123131211123113231223211213131121121021331021013310211
Gnt:ATGCTGTCCGTCTCGCCCGTCCTGTCGGTGCCGCTCTCCGCCGCAGCTTCAGCACTTCAGCC
Gaa:MLSLARPVGAALRRSFSTSA
Oaa:MLSALARPVGAARRSFSTSA
Ont:ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCCCGCCGCAGCTTCAGCACTTCAGCC
Olb:02312321131212131113211232133231131211131131031221031012210311
Glb:02312321131212131113211232133231131211131131031221031012210311
Gnt:ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCCCGCCGCAGCTTCAGCACTTCAGCC
Gaa:MLSALARPVGAARRSFSTSA
Oaa:MLSALARPVGAALRSFSTSA
Ont:ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCCGCCGAGCTTCAGCACTTCAGCC
Olb:03123132212323212221322313211312212323221221012332012023320122
Glb:03123132212323212221322313211312212323221221012332012023320122
Gnt:ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCCGCCGAGCTTCAGCACTTCAGCC
Gaa:MLSALARPVGAALRSFSTSA
A
C
1
3
T
V
L
T
2
0
A
H
R
C
2
0
A
R
Figura 6.1: Peptdeo reproduzido nos tres rotulamentos.
Observe que nos peptdeos MDHKR, MDHRK e MDHKK ocorreram substitui coes de um
resduo de arginina na posi cao 14 por alanina. Consideramos nesta posi cao, todas as possi-
bilidades de trincas do resduo de alanina.
A sequencia da Tabela 6.3 que se encontra na cor azul, foi a unica sequencia da tabela
reproduzida pelo codigo BCH. A Figura 6.2 mostra a sequencia reproduzida pelo codigo
Z
2
Z
2
-linear.
Caso1-(A,C,G,T)=(0,1,2,3)-RotulamentoB
Oaa:MLSALAKPVGALARSFSTSA
Ont:ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCCTCGCGCGAAGCTTCAGCACTTCAGCC
Olb:03213231121313121100011323122321121131212120021331021013310211
Glb:03213231121313121100011323122321121131212120021331021013310211
Gnt:ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCCTCGCGCGAAGCTTCAGCACTTCAGCC
Gaa:MLSALAKPVGALARSFSTSA
A
T
3
2
G
A
Figura 6.2: Sequencia reproduzida pelo codigo BCH.
Os resultados indicam que as substitui coes em MDHKK de dois resduos de argininas por
lisina nas posi coes 7 e 15 e a substitui cao em MDHRK do resduo de arginina por lisina na
posi cao 15 nao foram reproduzidas pelo codigo. Por outro lado, a substitui cao em MDHKR
do resduo de arginina da posi cao 7 por lisina foi reproduzida pelo codigo utilizando as
trincas: (AAA) para lisina na posi cao 7, (GCG) para alanina na posi cao 14 e (CGA) para
arginina na posi cao 15 (Figura 6.2). Estes resultados indicam que as substitui coes efetuadas
nos peptdeos MDHRK e MDHKK foram mais drasticas do que as substitui coes efetuadas no
peptdeo MDHKR, pois as substitui coes em MDHRK e MDHKK n ao foram reproduzidas pelo
codigo enquanto que uma das substitui coes em MDHKR foi reproduzida pelo rotulamento
129
Captulo 6. Analises de Muta coes e de Polimorsmos em Sequencias de DNA
Sequncia MDH1-21* em nucleotdeos
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCCGCCGAAGCTTCAGCACTTCAGCC
Sequncia MDHKR em nucleotdeos
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCACGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCACGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCCCGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCCCGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCGCGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCGCGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCTCGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCTCGAAGCTTCAGCACTTCAGCC
Sequncia MDHRK em nucleotdeos
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCAAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCAAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCCAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCCAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCGAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCGAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCTAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCTAAGAGCTTCAGCACTTCAGCC
Sequncia MDHKK em nucleotdeos
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCAAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCAAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCAAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCAAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCCAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCCAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCCAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCCAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCGAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCGAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCGAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCGAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCTAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCTAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCTAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCTAAGAGCTTCAGCACTTCAGCC
Tabela 6.3: Efeitos das substitui coes dos resduos de argininas por alaninas e lisinas na
clivagem pela MPP atraves de codigos corretores de erros.
B.
Os resultados encontrados sao interessantes considerando o fato que os resultados dos
parametros cineticos podem ser reproduzidos atraves de codigos corretores de erros.
6.2 Estudo de Filogenia
O estudo logenetico apresentado nesta se cao, surgiu atraves dos resultados obtidos no
Captulo 4 onde observa-se que sempre existe uma diferen ca de nucleotdeo entre a sequencia
reproduzida pelo codigo e a sequencia do NCBI. No contexto biologico, esse descasamento
(mismatch) e conhecido como polimorsmo de unico nucleotdeo (SNPs - single nucleotide
130
Captulo 6. Analises de Muta coes e de Polimorsmos em Sequencias de DNA
polymorphism). Diante deste fato, conjecturamos que as sequencias do NCBI sao SNPs das
sequencias reproduzidas pelos codigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear, ou vice-versa.
Para realizar o estudo logenetico apresentamos uma hipotese logenetica para as protenas
Malato desidrogenase 1 de Arabidopsis thaliana reproduzida pelo codigo Klein-linear com
parametros (1023, 1013, 3) atraves do polinomio primitivo p(x) = x
10
+ x
9
+ x
8
+ x
7
+ x
6
+
x
4
+ x
3
+ x + 1, do polinomio gerador g(x) = x
10
+ x
9
+ x
8
+ 3x
7
+ x
6
+ x
4
+ x
3
+ 3x + 1
e rotulamento C. Em [64], ate onde e de nosso conhecimento, e apresentada pela primeira
vez a reprodu cao de uma protena inteira atraves do codigo Klein-linear resultando em uma
extensao dos resultados apresentados neste trabalho.
O objetivo deste estudo logenetico e propor uma hipotese evolutiva para as protenas
Malato desidrogenase 1 identicando o tempo de divergencia entre a protena original e a
protena gerada pelo codigo. Este estudo foi realizado em parceria com o Laboratorio de
Biologia Molecular de Plantas da ESALQ/USP, sob a responsabilidade do Dr. Marcelo M.
Brandao.
A hipotese logenetica foi proposta baseada em duas abordagens distintas. A primeira,
utilizou o metodo Neighbor-Joining para calculo da dist ancia evolutiva baseando-se no modelo
de Jukes-Cantor. A consistencia dos clados, grupos de organismos originados de um unico
ancestral comum, foi calculada utilizando-se o teste nao parametrico de bootstrap [65] com
1000 replica coes. Todas estas analises foram realizadas utilizando-se o programa MEGA 4.0
[66]. As analises das distancias indicam que todas as sequencias de Arabidopsis thaliana sao
monoleticas, grupos de taxons que incluem todos os descendentes do ancestral comum mais
recente de todos membros deste grupo, com forte suporte bootstrap.
Uma analise mais profunda do ramo onde as sequencias de Arabidopsis thaliana foram
agrupadas, indica que a sequencia gerada pelo codigo Klein-linear representado por Code
generated (890C-T)na Figura 6.3 se apresenta como um grupo externo a este ramo.
A segunda abordagem foi a analise Bayesiana. Esta foi empregada para se investigar
os efeitos nos resultados da analise dos dados sob presun coes mais restritas, uma vez que
emprega modelos de substitui cao particulares para as an alises logeneticas. Outra vantagem
da analise logenetica com o metodo Bayesiano e que este permite que os parametros de
frequencia e de substitui cao de nucleotdeos sejam especcos para cada conjunto de dados.
O primeiro passo para a realiza cao da analise logenetica foi a determina cao de um modelo
de substitui cao que melhor se enquadrava aos nossos dados. Para isso utilizamos o programa
MODELTEST 3.06[67] e [68] com os parametros padrao do software. O modelo indicado
foi o GTR + G + I (General Time-Reversible model [69] e [70], com a distribui cao gamma
(G) e com a propor cao de stios invariaveis (I).
A proposi cao logenetica por metodos Bayesianos foi realizada utilizando-se o programa
131
Captulo 6. Analises de Muta coes e de Polimorsmos em Sequencias de DNA
Figura 6.3: Phenogram inferred using the Neighbor-Joining method with the evolutionary
distances computed using the Jukes-Cantor model. The percentage of replicate trees in which
the associated taxa clustered together in the bootstrap test (1000 replicates).
Mrbayes CVS[71] congurado para computa cao paralela. Seis cadeias simultaneas foram
conduzidas para 5, 0x106 gera coes, com amostragem de arvores a cada 500 ciclos. As
primeiras 2500 arvores foram descartadas como burn in. Para todas as analises, a protena
hipotetica PH-1 Gibberella zeae (parcial da sequencia do RNA mensageiro) foi usada como
um grupo externo. Novamente, as sequencias de Arabidopsis thaliana formam um grupo
monoletico enraizado com forte suporte pela sequencia gerada atraves do codigo Klein-
linear representada por Code generated (890C-T)na Figura 6.4.
As analises combinadas do fenograma e da arvore logenetica apontam que, a substitui cao
de um simples nucleotdeo presente na sequencia gerada pelo algoritmo e relevante o suciente
para divergi-lo do ramo dos paralogos de Arabidopsis thaliana. Para propor este tempo de
divergencia utilizamos o tempo de divergencia entre fungos e plantas [72], musgos e plantas
vasculares [72] e [73] e entre as eudicotes rosdeas e asterdeas [74] foi utilizado para estimar
os tempos de divergencia para o grupo de Arabidopsis thaliana.
Uma logenia, ao nvel de especies, foi gerada utilizando-se o modelo Bayesiano de relogio
nao restrito e nao relacionado presente no programa Beast version 1.4.8 [75]. A matriz de da-
132
Captulo 6. Analises de Muta coes e de Polimorsmos em Sequencias de DNA
Figura 6.4: Phylogenetic tree inferred by Bayesian analysis from the data set. Values close
to the branches indicate Bayesian posterior probability..
dos moleculares (alinhamento das sequencias) usada segue o modelo de substitui cao GTR+F,
implementado no BEAST. Duas analises de MCMC (Markov chain Monte Carlo) foram rea-
lizadas com 90.000.000 de gera coes, usando o modelo de especia cao de Yule, com amostragem
das arvores a cada 10.000 gera coes e 10% de burn-in inicial. Esta analise demonstrou que
o ramo com a sequencia gerada pelo codigo e, aproximadamente, um milhao de anos mais
antiga do que o ramo dos outros paralogos de Malato desidrogenase de Arabidopsis thaliana.
O estudo infere que a protena gerada pelo codigo e a ancestral da protena encontrada
no banco de dados NCBI. Neste caso o resultado conrma a nossa hipotese inicial de que as
sequencias do NCBI sao SNPs das sequencias reproduzidas pelos codigos Z
4
-linear, Z
2
Z
2
-
linear e Klein-linear.
6.3 Simula coes de Muta coes em Sequencias de Dire-
cionamento Mitocondriais
A maioria das protenas precursoras mitocondriais carregam a sequencia de direciona-
mento na extensao N-terminal. Estas sequencias de direcionamento nao sao extremamente
conservadas entre as protenas, mas possuem algumas caractersticas comuns, por exemplo o
133
Captulo 6. Analises de Muta coes e de Polimorsmos em Sequencias de DNA
alto conte udo dos resduos de serina, arginina, alanina e leucina [76]. Estes resduos repre-
sentam um papel importante na importa cao de protenas mitocondriais atraves da intera cao
com as chaperonas citosolicas e mitocondriais. A dele cao parcial da sequencia ou analises
de muta coes mostram que a sua parte N-terminal contem informa cao necessaria para o reco-
nhecimento e a importa cao das protenas precursoras, enquanto que a sua parte C-terminal
contem sinais para a peptidase de processamento mitocondrial [76].
Embora a importancia destes resduos (em especial a arginina que e mais estudada) seja
bem conhecida no contexto biologico [77], o nosso objetivo e fornecer uma caracteriza cao
matematica no contexto de codigos corretores de erros para a importancia dos resduos de
argininas. Nesta se cao apresentamos as simula coes de muta coes nos resduos de argininas
nas sequencias de direcionamento mitocondriais SD01, SD02, SD08, SD13 e SD17 que foram
reproduzidas pelos codigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear com parametros (63, 57, 3).
As muta coes denem-se pela codica cao de um aminoacido diferente do aminoacido ori-
ginal/normal, em alguns casos a muta cao pode ocorrer silenciosamente (quando a troca de
nucleotdeos nao acarreta na troca do aminoacido). Os efeitos fenotpicos sao em princpio
tanto mais drasticos quanto maior for a diferen ca na natureza qumica das cadeias laterais
dos resduos dos aminoacidos em causa (por exemplo a substitui cao de um resduo polar
por um apolar, ou a inversao da carga eletrica do resduo), mas tambem dependem alta-
mente do papel que esse resduo desempenha na estrutura e fun cao da sequencia de DNA
em questao. Mesmo as chamadas substitui coes conservadoras (entre resduos quimicamente
semelhantes, por exemplo leucina, L, e isoleucina, I), se incidirem numa posi cao sensvelda
sequencia de DNA podem resultar na inativa cao desta sequencia, ou numa atividade anor-
mal da mesma. Diante desta complexidade nas analises dos resultados das simula coes de
muta coes nao levaremos em considera cao se as trocas de aminoacidos ocorreram dentro da
mesma classe hidrofobica ou hidroflica.
Os resultados das simula coes de muta coes nas sequencias de direcionamento mitocondriais
mostrados nas Tabelas 6.4 `a 6.8 foram analisados considerando as altera coes de nucleotdeos
pelo fato do alfabeto do codigo ser os nucleotdeos e os seguintes aspectos matematicos:
O codigo com o objetivo de manter a mesma estrutura matematica e o mesmo conte udo
de informa cao da sequencia de direcionamento mostra qual substitui cao de aminoacido
e possvel ou nao. Os resultados apresentaram tres situa coes. A primeira e quando
a substitui cao nao e permitida de maneira alguma, ou seja, o codigo mostra que nao
existe nenhuma palavra-codigo quando e realizada a susbtitui cao do aminoacido em
questao. Esta situa cao e a mais drastica porque o codigo indica que esta substitui cao
causa danos no conte udo de informa cao da sequencia. A segunda situa cao e quando o
codigo indica que a substitui cao do aminoacido e possvel atraves de um rearranjo nos
134
Captulo 6. Analises de Muta coes e de Polimorsmos em Sequencias de DNA
aminoacidos da sequencia. O codigo alem de mostrar a posi cao do aminoacido a ser
trocado, indica pelo qual aminoacido (mais especicamente pela qual trinca) que deve
ser trocado para que o conte udo de informa cao da sequencia seja mantido. A terceira
situa cao e quando o codigo aceita a substitui cao sem alterar nenhum aminoacido na
sequencia, ou seja, o codigo indica que esta substitui c ao nao causa danos no conte udo
de informa cao da sequencia.
Levando em considera cao a propriedade geometrica intrnsica relacionada com os ro-
tulamentos, teoricamente podemos sugerir que as substitui coes de aminoacidos que
exigem mudan cas de rotulamento sao mais drasticas. Em um nvel maior a mudan ca
do rotulamento A para um rotulamento B ou C (ou vice-versa) e mais drastica do que
uma mudan ca do rotulamento B para C ou vice-versa. Do ponto de vista matematico,
a mudan ca de uma sequencia nao-linear (rotulamento A) para uma sequencia linear
(rotulamento B e C) ou vice-versa e complexa. Neste momento nao podemos concluir
se esta mudan ca na conforma cao geometrica acarreta em algum benefcio ou dano na
importa cao desta sequencia.
Na Tabela 6.4 realizamos as substitui coes dos resduos de argininas na sequencia de dire-
cionamento do organismo Brassica napus reproduzida pelo codigo Z
4
-linear (rotulamento A).
Observe que a sequencia possui quatro resduos de argininas nas posi coes 2, 7, 18 e 19 desta-
cados na cor vermelha. Cada um dos quatro resduos de argininas (R) foram substitudos
por resduos de acido aspartico (D), acido glutamico (E), lisina (K), histidina (H) e alanina
(A). De acordo com as colunas da tabela apresentada na Figura 6.4, consideramos todas as
trincas relativas aos aminoacidos citados anteriormente. Na primeira coluna da tabela temos
as seguintes informa coes: R= a quantidade de resduos de argininas na sequencia e P(T)=
posi cao da arginina na sequencia e a sua respectiva trinca. Sendo assim, podemos inter-
pretar (1
a
R, 2
o
aa, AGA) como o primeiro resduo de arginina que corresponde ao segundo
aminoacido da sequencia de direcionamento, cuja trinca correspondente e (AGA).
Na substitui cao do primeiro resduo de arginina que possui a trinca (AGA) correspon-
dente ao segundo aminoacido da sequencia podemos observar que so algumas substitui coes
foram aceitas pelo codigo: (D) com a trinca (GAC) e (A) com as trincas (GCT)-(GCG).
Observe que a substitui cao por lisina (quarta coluna da tabela) nao foi aceita pelo codigo. A
importancia do resduo de arginina nesta posi cao e evidenciada pelo codigo que indica que
o aminoacido (K) com a trinca (AAA) deve ser alterado pelo aminoacido (R) com a trinca
(AGA) nesta posi cao. Isto e, o codigo conrma que caso ocorra esta substitui cao tanto a
estrutura matematica quanto o conte udo de informa cao da sequencia podem ser comprometi-
dos.
135
Captulo 6. Analises de Muta coes e de Polimorsmos em Sequencias de DNA
R D E K H A
P (T) GAC GAT GAA GAG AAA AAG CAT CAC GCT GCC GCA GCG
1 R
2 aa
(AGA)
(B)-15
S
TCG
TCT
S
- - -
(A)-2
K
AAA
AGA
R
- - -
(C)-3
S
TCC
ACC
T
- -
(A)-7
R
CGA
CAA
Q
2 R
7 aa
(CGA)
- - - - -
(C)-15
S
TCG
TAG
sto
(C)-6
V
GTC
GGC
G
-
(A)-1
F
TTC
ATC
I
-
(A)-9
S
TCC
TCG
S
-
3 R
18 aa
(CGC)
- - - - -
- - (A)-18
H
CAC
CGC
R
-
(A)-20
S
AGC
AGG
R
-
(A)-12
A
GCG
CCG
P
4 R
19 aa
(CGC)
- - -
(B)-12
A
GCG
TCG
S
- - - - -
(A)-21
F
TTT
TTA
L
-
(A)-13
K
AAG
TAG
sto
Tabela 6.4: Resultados das substitui coes dos resduos de argininas.
Na segunda coluna da tabela mostramos que a substitui cao da trinca (GAC) do acido
aspartico (D) na segunda posi cao da sequencia foi aceita pelo codigo. Observe que (B)
15 indica que o rotulamento foi trocado de A para B e que na posi cao 15 da sequencia
de direcionamento ocorreu uma altera cao na trinca do aminoacido S de (TCG TCT).
Inferimos que o codigo com o objetivo de manter a mesma estrutura matematica e o mesmo
conte udo de informa cao da sequencia, indica que esta substitui cao e possvel somente quando
ocorrer um rearranjo nos nucleotdeos que representam o aminoacido da posi cao 15.
Em rela cao a mudan ca do rotulamento, do ponto de vista matematico inferimos que a
conforma cao geometrica foi alterada para que se mantenha o mesmo conte udo de informa cao
na sequencia. Do ponto de vista biologico, neste momento nao podemos concluir se esta
mudan ca na conforma cao geometrica acarreta em algum benefcio ou dano na importa cao
desta sequencia. Por tratar-se de resultados que nao constam anteriormente na literatura nao
temos parametros de compara cao para analisarmos os resultados do ponto de vista biologico.
Ressaltamos que somente atraves de testes laboratoriais poderemos interpretar e compreender
melhor o que o modelo matematico descreve.
No caso da substitui cao do primeiro resduo de arginina por alanina (sexta coluna da
tabela) o codigo foi capaz de reproduzir duas sequencias relacionadas as trincas (GCT) e
(GCG). Para a trinca (GCT) a substitui cao e possvel somente se o terceiro aminoacido for
136
Captulo 6. Analises de Muta coes e de Polimorsmos em Sequencias de DNA
trocado de S(TCC) T(ACC), como consequencia desta substitui cao temos a mudan ca
do rotulamento A para o rotulamento C. No caso da trinca (GCG) a substitui cao e possvel
somente trocando o setimo aminoacido R (CGA) por Q (CAA), neste caso nao ocorre a
mudan ca de rotulamento. Conclumos que a substitui cao pela trinca (GCT) e mais drastica
do que a substitui cao pela trinca (GCG), pela necessidade de trocar de rotulamento.
De uma forma bem geral podemos relatar as analises dos resultados das simula coes da
seguinte forma:
1. Analises dos resultados das simulacoes da B. napus, Tabela 6.4:
1.1) Muta coes por (D) e (E): As substitui coes relativas `as posi coes 7 e 18 da sequencia
(2
a
R e 3
a
R) nao foram aceitas pelo codigo, consideramos estas substitui coes as mais
drasticas. Enquanto que as substitui coes nas posi coes 2 e 19 (1
a
R e 4
a
R) foram aceitas
pelo codigo com a mudan ca do rotulamento A para B e com um rearranjo nos nu-
cleotdeos da posi cao 15 e 12, respectivamente. Observe que a substitui cao na posi cao
2 nao exige a troca de aminoacidos, por este motivo consideramos esta substitui cao
menos drastica que a substitui cao da posi cao 12 que exige a troca de aminoacido
A(GCG) S(TCG).
1.2) Muta coes por (K) e (H): As substitui coes na posi cao 2 (2
a
R) foram aceitas pelo
codigo atraves da mudan ca de rotulamento A para C. A substitui cao por (K) e mais
drastica que por (H) nesta posi cao, pelo fato do codigo ter inserido um codon de
parada (TAG) na posi cao 15 da sequencia S(TCG) sto(TAG). As substitui coes
nas posi coes 2 e 18 evidenciam a importancia do resduo de argina nesta posi cao.
Observe que o codigo indica que nesta posi cao e necessario o aminoacido (R) para que o
conte udo de informa cao da sequencia seja preservado. Conclumos que as substitui coes
nas posi coes 2, 18 e 19 sao mais drasticas que a substiui cao da posi cao 7. Nestes casos
nenhum rearranjo dos nucleotdeos foi possvel para manter a estrutura matematica da
sequencia.
1.3) Muta coes por (A): As substitui coes nas posi coes 7, 18 e 19 nao exigiram a troca
de rotulamento, enquanto que na posi cao 2 a troca pela trinca (GCT) exige a mudan ca
do rotulamento A por C. Deste modo, conclumos que as substitui coes mais drastica
se encontram na posi cao 2 (GCT) pela troca de rotulamento e na posi cao 19 (GCG)
pela inser cao de um codon de parada. A substitui cao mais simples, do ponto de vista
matematico, e a substitui cao da posi cao 7 (GCA), S(TCC) S(TCG), porque nao
foi necessario nem a troca de rotulamento e nem a troca de aminoacido para manter a
estrutura matematica da sequencia.
2. Analises dos resultados das simulacoes da I. batatas, Tabela 6.5:
137
Captulo 6. Analises de Muta coes e de Polimorsmos em Sequencias de DNA
R D E K H A
P (T) GAC GAT GAA GAG AAA AAG CAT CAC GCT GCC GCA GCG
1 R
3 aa
(AGG)
(C)-6
S
TCT
ACT
T
(A)-6
S
TCT
CCT
P
(B)-18
R
CGT
TGT
C
(B)-5
S
TCT
TCC
S
(B)-6
S
TCT
CCT
P
(B)-3
K
AAG
AGG
R
(B)-8
F
TTC
TGC
C
- -
(A)-4
H
CAC
CAG
Q
(C)-6
S
TCT
CCT
P
(A)-21
F
TTC
TAC
Y
2 R
7 aa
(CGA)
(B)-12
A
GCC
GAC
D
- - - - - - -
(A)-3
R
AGG
CGG
R
- - -
3 R
11 aa
(CGC)
- - - -
(B)-16
G
GGG
GTG
V
-
(B)-14
T
ACA
GCA
A
(B)-11
H
CAC
CGC
R
- - -
(C)-17
W
TGG
TAG
sto
4 R
18 aa
(CGT)
- -
(B)-2
F
TTC
TGC
C
(A)-15
M
ATG
GTG
V
-
(B)-2
F
TTC
TAC
Y
(B)-18
H
CAT
CGT
R
(B)-21
F
TTC
CTC
L
- - - -
5 R
19 aa
(CGC)
- - - -
(B)-3
R
AGG
ATG
M
-
(B)-1
M
ATG
GTG
V
(B)-19
H
CAC
CGC
R
- - - -
Tabela 6.5: Resultados das substitui coes dos resduos de argininas.
2.1) Muta coes por (D) e (E): As substitui coes mais drasticas se encontram nas posi coes
11 e 19, pois o codigo nao foi capaz de encontrar nehuma palavra-codigo que mantenha
a estrutura matematica com esta substui cao. Na posi cao 3 as substitui coes por (E)
sao menos drasticas que as substitui coes por (D), pelo fato de nao exigirem a troca de
rotulamento. Observe a troca por (E) com a trinca (GAG) nesta posi cao e a mais sim-
ples, pois nao exige nenhuma troca de aminoacido para manter a estrutura matematica
da sequencia. Outro ponto a ser observado nesta posi cao e a troca por (D), neste caso
inferimos que a troca pela trinca (GAC) e menos danosa do que a troca pela trinca
(GAT). Do ponto de vista matematico, a troca de um rotulamento B por C e menos
complexa do que a troca de um rotulamento B por A. Na posi cao 7 da sequencia a
substitui cao por (E) e mais drastica que por (D). Neste caso apenas um rearranjo dos
aminoacidos da posi cao 12 A(GCC) D(GAC) e necessario para garantir o conte udo
da informa cao da sequencia. As substitui coes na posi cao 18 apresenta ser mais drastica
na troca por (D) do que por (E). No caso da troca por (E) nesta posi cao, o codigo
mostra preferencia pela trinca (GAA) por nao necessitar da troca de rotulamento.
2.2) Muta coes por (K) e (H): As substitui coes na posi cao sao as mais drasticas, pois
o codigo nao aceita nenhum rearranjo do rotulamento ou dos aminoacidos. As subs-
titui coes nas posi coes 3, 11, 18 e 19 podem ser consideradas menos drasticas por nao
138
Captulo 6. Analises de Muta coes e de Polimorsmos em Sequencias de DNA
R D E K H A
P (T) GAC GAT GAA GAG AAA AAG CAT CAC GCT GCC GCA GCG
1 R
6 aa
(AGA)
(C)-3
E
GAA
CAA
Q
-
(B)-4
I
ATT
ACT
T
(B)-19
K
AAA
GAA]
E
(B)-6
K
AAA
AGA
R
(C)-4
I
ATT
ATC
I
-
(B)-2
Q
CAA
CAT
H
- - - -
2 R
12 aa
(AGA)
- -
(B)-10
L
TTA
TCA
S
(B)-4
I
ATT
GTT
V
(B)-12
K
AAA]
AGA
R
(B)-10
L
TTA
TTG
L
-
(B)-8
F
TTC
TTA
L
- - - -
Tabela 6.6: Resultados das substitui coes dos resduos de argininas.
mudarem de rotulamento. Porem as substitui coes na posi cao 3 por (K) pela trinca
(AAG), a posi cao 11 por (H) pela trinca (CAC), a posi cao 18 por (H) pela trinca (CAT)
e a posi cao 19 por (H) pela trinca (CAC) mostram a importancia do resduo de arginina
nesta posi cao para garantir o conte udo de informa cao da sequencia. Ressaltamos que
neste momento nao estamos considerando as trocas de amino acidos que ocorreram
dentro da mesma classe, conforme mencionamos anteriormente este tipo de analise
torna-se complexo por depender de varios aspectos.
2.3) Muta coes por (A): Nas posi coes 18 e 19 as substitui coes sao mais drasticas. Na
substitui cao da posi cao 11 ocorre a inser cao de um codon de parada (TAG) na posi cao
17 da sequencia e a troca do rotulamento B por C. Do ponto de vista matematico esta
troca de rotulamento nao e drastica e sobre a inser cao de um codon de parada nesta
posi cao podemos inferir que pode acarretar danos ao mecanismo de importa cao se os
aminoacidos seguintes (R R P F) forem essenciais para a importa cao. Neste caso uma
analise laboratorial e essencial para analisar se a sequencia montada somente com os
16 primeiros aminoacidos e suciente ou nao para realizar a importa cao da protena. A
substitui cao da posi cao 7 exige somente a troca de rotulamento, porem neste momento
nao podemos inferir se esta troca sera prejudicial ao mecanismo de importa cao. Na
posi cao 3 as substitui coes relativas `as trincas (GCC) e (GCG) sao mais drasticas do
que a substitui cao pela trinca (GCA), pois a troca do rotulamento B por A e mais
complexa do que a troca do rotulamento B por C.
3. Analises dos resultados das simulacoes da S. cerevisiae, Tabela 6.6:
139
Captulo 6. Analises de Muta coes e de Polimorsmos em Sequencias de DNA
R D E K H A
P (T) GAC GAT GAA GAG AAA AAG CAT CAC GCT GCC GCA GCG
1 R
2 aa
(AGA)
- -
(B)-10
A
GCC
GTC
V
(A)-3
S
TCT
TAT
Y
(B)-
12
A
GCG
ACG
T
(B)-2
K
AAA
AGA
R
(B)-10
A
GCC
GCT
A
-
(B)-18
R
CGC
CGA
R
- -
(C)-19
R
CGT
CCT
P
-
2 R
7 aa
(CGA)
(B)-2
R
AGA
AGT
S
- - -
(C)-4
M
ATG
ACG
T
- - - - - - -
3 R
18 aa
(CGC)
- - -
(B)-13
N
AAT
AAG
K
(B)-13
N
AAT
AAA
K
-
(B)-5
L
CTC
CTT
L
(B)-18
H
CAC
CGC
R
- - - -
4 R
19 aa
(CGT)
- -
(B)-14
Q
CAG
CAC
H
(A)-18
R
CGC
TGC
C
-
(B)-14
Q
CAG
CAT
H
(B)-19
H
CAT
CGT
R
(B)-6
V
GTC
CTT
V
(C)-
18
R
CGC
GGC
G
- -
(C)-15
A
GCG
GGG
G
-
Tabela 6.7: Resultados das substitui coes dos resduos de argininas.
3.1) Muta coes por (D) e (E): As substitui coes na posi cao 6 e 12 por (D) sao drastica,
enquanto que as substitui coes por (E) exigem um rearranjo dos aminoacidos. Por exem-
plo, na posi cao 12 para trinca (GAA) o codigo indica uma troca dos aminoacidos na
posi cao 10 L(TTA) S(TCA) e para a trinca (GAG) o codigo aponta uma troca nos
aminoacidos da posi cao 4 I(ATT) V (GTT).
3.2) Muta coes por (K) e (H): Nas posi coes 6 e 12 por (K) com a trinca (AAA) o codigo
aponta a importancia da arginina nestas posi coes. Na substitui cao da posi cao 6 por
(K) pela trinca (AAG) o codigo exige apenas a troca de rotulamento enquanto que pela
troca por (H) pela trinca (CAC) o codigo exige apenas um rearranjo dos aminoacidos
na posi cao 2 Q(CAA) H(CAT), inferimos que a troca de rotulamento e mais danosa
que um simples rearranjo dos aminoacidos. Na posi cao 12 a substitui cao mais simples
ocorreu na troca por (K) pela trinca (AAG), observe que o codigo aceita a troca sem
a mudan ca do rotulamento e sem rearranjos nos aminoacidos.
3.3) Muta coes por (A): As substitui coes por (A) sao as mais drasticas, porque o codigo
nao consegue encontrar nenhuma palavra-codigo, dentro da capacidade de corre cao do
codigo, com esta substitui cao que preserve o conte udo de informa cao da sequencia.
4. Analises dos resultados das simulacoes da A. thaliana, Tabela 6.7:
140
Captulo 6. Analises de Muta coes e de Polimorsmos em Sequencias de DNA
4.1) Muta coes por (D) e (E): Na posi cao 2 a troca por (D) e drastica enquanto que
a troca por (E) e possvel realizando um rearranjo nos aminoacidos. Observe que no
caso da troca por (E) com a trinca (GAG) o codigo aceitou a substitui cao em dois
rotulamentos ao mesmo tempo (A)-3 e (B)-12, matematicamente inferimos que a troca
de rotulamento e mais prejudicial ao sistema de importa c ao. Nas posi coes 7 e 18 temos
que a troca por (D) e por (E) sao as mais drasticas, respectivamente. Na posi cao
19 as substitui coes por (E) sao menos drasticas que por (D). A substitui cao com a
trinca (GAG) e mais drastica do que com a trinca (GAA) por necessitar da troca de
rotulamento B por A.
4.2) Muta coes por (K) e (H): A posi cao 7 foi a que menos aceitou as substitui coes
por (K) e (H). Nas demais posi coes as substitui coes foram aceitas sem a mudan ca do
rotulamento. As trocas na posi cao 2 por (K) com a trinca (AAA), a posi cao 18 por
(H) com a trinca (CAC) e a posi cao 19 por (H) com a trinca (CAT) evidenciam a
necessidade do resduo de argina nesta posi cao. Outro ponto e a substitui cao por (H)
com a trinca (CAC) onde o codigo aceita a substitui cao em dois rotulamentos B e C,
inferimos que para o caso onde ocorreu a troca de rotulamwento B por C esta troca
nao seria prejudicial ao sistema de importa cao.
4.3) Muta coes por (A): As substitui coes nas posi coes 7 e 18 sao as mais drasticas. Nas
posi coes 2 e 19 a troca de (A) com a trinca (GCA) muda o rotulamento de B para C.
Do ponto de vista matematico esta troca nao e drastica.
5. Analises dos resultados das simulacoes da H. sapiens, Tabela 6.8:
5.1) Muta coes por (D) e (E): As substitui coes nas posi coes 7 e 13 sao as mais drasticas.
Nas posi coes 8 e 16 a troca por (E) e mais danosa do que a troca por (D). Nos dois
casos a troca por (D) exige a troca do rotulamento C por B, inferimos que esta troca
nao e drastica. Na posi cao 19 a troca por (E) exige a mudan ca do rotulamento C por
A, este caso a troca e mais drastica porque ocorre uma troca de sequencia linear para
uma sequencia nao-linear.
5.2) Muta coes por (K) e (H): As substitui coes por (H) com a trinca (CAT) na posi cao
19 e a trinca (CAC) nas posi coes 7, 8, 13 e 16 evidenciam a importancia do resduo
de arginina nestas posi coes. Na posi cao 16 a troca por (K) com a trinca (AAA) exige
somente a troca do rotulamento C por B, inferimos que esta troca nao e prejudicial ao
sistema de importa cao.
5.3) Muta coes por (A): Todas as substitui coes realizadas por alanina nao foram aceitas
pelo codigo. Inferimos que estas substitui coes nestas posi coes sao drasticas pera o
sistema de importa cao.
141
Captulo 6. Analises de Muta coes e de Polimorsmos em Sequencias de DNA
R D E K H A
P (T) GAC GAT GAA GAG AAA AAG CAT CAC GCT GCC GCA GCG
1 R
7 aa
(CGC)
- - - - - - -
(C)-7
H
CAC
CGC
R
- - - -
2 R
8 aa
(CGC)
(B)-11
L
CTT
CGT
R
- - - - - -
(C)-8
H
CAC
CGC
R
- - - -
3 R
13 aa
(CGC)
- - - - - - -
(C)-13
H
CAC
CGC
R
- - - -
4 R
16 aa
(CGC)
(B)-15
V
GTC
GAC
D
- - -
(B)-8
R
CGC
CGG
R
- -
(C)-16
H
CAC
CGC
R
- - - -
5 R
19 aa
(CGT)
- -
(A)-2
P
CCC
CCT
P
- - -
(C)-19
H
CAT
CGT
R
- - - - -
Tabela 6.8: Resultados das substitui coes dos resduos de argininas.
Neste momento nao consideramos os aspectos qumicos, fsicos ou biologicos dos resulta-
dos. Ressaltamos que diversos aspectos podem ser explorados neste contexto de muta coes,
tais como: vericar que tipos de muta coes seriam mais danosas ao sistema, analisar as
muta coes de transi cao e transversao que ocorreram, analisar as posi coes mais protegidas
das sequencias, vericar quais aminoacidos poderiam ser substitudos em cada posi cao da
sequencia, etc. Diante das diversas possibilidades de interpreta coes uma intera cao entre os
resultados obtidos via codigos corretores de erros e as an alises laboratoriais destes resultados
e fundamental para uma melhor compreensao do modelo. Essa parceria entre engenharia,
matematica e biologia e necessaria para um avan co nas interpreta coes dos dados obtidos no
presente trabalho, bem como para renar o modelo acrescentando aspectos fsicos, qumicos
e biologicos de acordo com o interesse em questao.
142
Captulo 7
Conclusoes e Perspectivas Futuras
Um dos grandes desaos em teoria de codica cao genetica e descobrir uma estrutura de
codigos corretores de erros na estrutura do DNA. Este trabalho mostra a existencia de codigos
corretores de erros associados com as sequencias de DNA (sequencias de direcionamento)
e suas respectivas tas complementares atraves de seus polinomios primitivos/geradores e
seus polinomios recprocos. Estas sequencias sao identicadas como palavras-codigo de um
codigo G-linear sobre a extensao de um anel de Galois. Alem disso, usando os conceitos da
teoria de comunica cao propomos um modelo para o sistema de codica cao e decodica cao
do mecanismo de importa cao de protenas mitocondriais. Este modelo assemelha-se ao mais
eciente sistema de comunica cao digital.
O sistema de codica cao consiste de um mapeador (respons avel por transformar os nu-
cleotdeos (A, C, G, T) no alfabeto (0, 1, 2, 3) usado pelo codigo sobre a estrutura de anel);
um codicador (codigo BCH) e um modulador (codigo genetico). O mapeador e o codicador
de um codigo BCH formam o codicador de um codigo G-linear, uma importante classe dos
codigos geometricamente uniformes. O mapeamento entre a estrutura algebrica do codigo
BCH e o codigo genetico e vista como um mapeamento casado. Essa propriedade matematica
implica que a estrutura algebrica do codicador seja a mesma, a menos de um isomorsmo,
que a da constela cao de sinais, garantindo assim, a menor complexidade possvel do sistema.
O sistema de decodica cao baseia-se em uma analogia entre o processo de decodica cao
(Berlekamp-Massey para Aneis) utilizado em sistemas de comunica coes e o complexo TOM
que e um dos translocons responsaveis por reconhecer as protenas precursoras mitocondri-
ais. Este sistema que consiste de um demodulador e representado pelas protenas Tom 70
e Tom20 que formam o complexo receptor principal das protenas precursoras mitocondri-
ais. Tom22 interage com precursores contendo sequencias de direcionamento internas ou
no amino-terminal, enquanto que Tom20 reconhece especicamente pre-sequencias amino-
terminais. O decodicador e representado pelo poro geral de inser cao conhecido como o
143
Captulo 7. Conclusoes e Perspectivas Futuras
complexo GIP (GIP general insertion pore), enquanto que o receptor representa o subcom-
partimento mitocondrial para onde a protena esta sendo enviada.
O grande diferencial deste modelo esta na possibilidade de identicar uma estrutura
matematica bem denida nas sequencias de DNA reproduzidas pelo modelo. Enquanto que
os demais modelos utilizam um processo estatstico para analisar muta coes em sequencias de
DNA, o modelo do presente trabalho utiliza um processo determinstico para realizar estas
analises. Ate onde e de nosso conhecimento, no momento n ao existe um metodo matematico
que calcule deterministicamente as muta coes em sequencias de DNA, sejam elas atraves da
evolu cao biologica, in vitro evolution ou por manipula cao genetica.
7.1 Desenvolvimento do Trabalho
O Captulo 2 e introdutorio, nele apresentamos de forma sucinta alguns conceitos sobre os
topicos abordados neste trabalho referentes a importa c ao de protenas mitocondriais, a teoria
de codigos corretores de erros e a decodica cao de codigos corretores de erros. O objetivo
deste captulo e introduzir o leitor aos temas de carater interdisciplinar do presente trabalho.
As contribui coes deste trabalho encontram-se nos Captulos 3, 4, 5 e 6. No Captulo 3
propomos um modelo de comunica cao genetica para o no sistema de importa cao de protenas
organelares, mais especicamente, a importa cao de protenas mitocondriais. O modelo de-
talha a parte de codica cao das sequencias de direcionamento que sao responsaveis pelo
encaminhamento das protenas nas respectivas organelas, bem como a parte da decodica cao
destas sequencias. Este modelo destaca-se dos demais por fazer o uso de conceitos recente-
mente usados na teoria da comunica cao, tais como: codigos G-lineares, mapeamento casado,
codigos geometricamente uniformes, e principalmente, c odigos sobre aneis.
Nos Captulos 4 e 5 desenvolvemos uma rotina computacional responsavel pela codica cao
e decodica cao das sequencias de direcionamento, respectivamente. Estes algoritmos alem
de identicar uma estrutura de codigos corretores de erros nas sequencias de direcionamento,
permitem uma nova abordagem para a classica cao destas sequencias sob um ponto de vista
matematico. As sequencias de direcionamento que foram reproduzidas pelo codigo Z
4
-linear
(codigo BCH sobre anel e rotulamento A) sao classicadas como sequencias nao-lineares.
Enquanto, que as sequencias reproduzidas pelos codigos Z
2
Z
2
-linear e Klein-linear (codigos
BCH sobre anel rotulamento B e rotulamento C, respectivamente) sao classicadas como
sequencias lineares. Destas analises, direcionamos o estudo quanto ao entendimento das
muta coes e polimorsmos nas sequencias reproduzidas por codigos corretores de erros.
No Captulo 6 propomos uma interpreta cao das muta coes e polimorsmos ocorridos nas
sequencias de DNA, sob o ponto de vista de codigos corretores de erros, bem como uma
144
Captulo 7. Conclusoes e Perspectivas Futuras
interpreta cao logenetica dos resultados obtidos no trabalho. Os resultados encontrados nas
aplica coes da Se cao 6.1 mostram que um procedimento sistematico utilizando codigos corre-
tores de erros pode ser usado para gerar e reproduzir sequencias de DNA com o objetivo de
analisar as substitui coes de nucleotdeo(s) ou de aminoacido(s) no interior destas sequencias
propiciando a realiza cao de analises de polimorsmo(s) ou muta cao(oes). O estudo de loge-
nia, Se cao 6.2, infere que a protena gerada pelo codigo e a ancestral da protena encontrada
no banco de dados NCBI. Este resultado mostra que o codigo foi capaz de gerar a protena que
existia a milhoes de anos atras e que a protena que e encontrada hoje nos bancos de dados
e um polimorsmo da protena gerada pelo codigo. Na Se c ao 6.3 mostramos que o modelo
pode ser usado para simular muta coes em sequencias de DNA (sequencias de direcionamento)
considerando os aspectos matematicos, podendo contribuir para uma melhor compreensao
dos mecanismos de importa cao e para uma redu cao de tempo e custos laboratoriais.
7.2 Contribui coes do Trabalho
Os resultados do presente trabalho contribuem para os campos da teoria da comunica cao
genetica e da teoria da codica cao genetica, bem como para o campo da bioinformatica
computacional biologica atraves da aplica cao dos princpios das teorias da codica cao e da
comunica cao ao estudo do mecanismo de importa cao de protenas mitocondriais e `as analises
de muta coes em sequencias de direcionamento. Este trabalho contribui da seguinte forma:
O uso de conceitos modernos de sistemas de comunica coes para o sistema de comu-
nica cao biologico;
Desenvolvimento e verica cao de uma teoria de codica c ao, do ponto de vista do pro-
cesso de importa cao de protenas organelares;
Desenvolvimento e verica cao de uma teoria de decodica cao, do ponto de vista do
processo de importa cao de protenas mitocondriais;
Desenvolvimento de um modelo de comunica cao para o sistema de importa cao de
protenas mitocondriais;
Fortalecimento da hipotese de existencia de codigos concatenados na estrutura do DNA
(nested codes);
Constru cao e analises de sequencias de direcionamento reproduzidas por codigos corre-
tores de erros para a importa cao de protenas organelares;
145
Captulo 7. Conclusoes e Perspectivas Futuras
Constru cao e analises do processo de decodica cao das sequencias de direcionamento
reproduzidas por codigos corretores de erros para a importa cao de protenas mitocon-
driais;
Classica cao das sequencias de direcionamento, sob o ponto de vista matematico:
sequencias nao-lineares (codigo Z
4
-linear), sequencias lineares (codigos Z
2
Z
2
-linear
e Klein-linear);
Identica cao de uma rela cao matematica entre as tas codantes e nao codantes atraves
dos seus polinomios primitivos/geradores e seus recprocos;
Compara cao das analises de muta coes em oligopeptdeos sinteticos via laboratorio e via
codigos corretores de erros;
Explora cao do uso do modelo de codica cao para investigar a rela cao logenetica entre
as sequencias reproduzidas pelos codigos e as sequencias do NCBI;
7.3 Propostas Futuras
Apresentamos nesta se cao algumas avalia coes acerca do trabalho desenvolvido e, decor-
rentes dessas, algumas sugestoes para pesquisas futuras.
A restri cao quanto ao estudo apenas de sequencias de direcionamento com comprimen-
tos iguais a 63 nucleotdeos no presente trabalho deve-se ao fato da complexidade do
assunto. Salientamos que e de grande interesse que os resultados apresentados neste
trabalho sejam generalizados para diversas sequencias biologicas com diversos compri-
mentos;
A capacidade de corre cao dos codigos que reproduziram as sequencias de direcionamento
e igual a d 3. Consideramos apenas os erros iguais a t = 1 neste trabalho. Pelo fato
destes codigos, atraves do seu arranjo padrao, serem capazes de corrigir alguns padroes
de 2 erros, consideramos de grande importancia a exibiliza cao destes codigos e uma
analise detalhada dos resultados desta exibiliza cao;
A constru cao de codigos sobre aneis mostrou-se muito promissora para a reprodu cao de
sequencias de DNA. Porem a constru cao de codigos sobre outras estruturas matematicas,
por exemplo sobre corpos, poderao contribuir para o desenvolvimento nesta area;
Estudo da prote cao desigual em rela cao aos nucleotdeos associados `as sequencias de
DNA;
146
Captulo 7. Conclusoes e Perspectivas Futuras
Estudo sobre as semelhan cas entre a topologia das estruturas primarias das sequencias
reproduzidas pelos codigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear e as estruturas se-
cundarias da alpha-helice, folha beta paralela e folha beta anti-paralela.
7.4 Considera coes Finais
Com a necessidade da redu cao de tempo e custos nos experimentos laboratoriais, o pre-
sente trabalho propoe uma abordagem matematica capaz de gerar e reproduzir sequencias de
DNA, atraves de codigos corretores de erros, conduzindo a uma metodologia para a realiza cao
de analises mutacionais/polimorsmos nestas sequencias. Como resultado, e com um apri-
moramento do modelo, poderao ser realizados estudos de predi cao de muta coes/polimorsmos
em sequencias de DNA, RNA e protenas, incluindo protenas completas e tambem sequencias
de direcionamento para organelas, protein motifs, peptdios hormonais, ntrons, DNA
repetitivo, ncRNA, etc), implicando em uma consideravel redu cao de experimentos labo-
ratoriais extensivos.
Este metodo pode ser aplicado em projetos e pesquisas com a nalidade de criar novas
fun coes para uma determinada sequencia de DNA atraves das muta coes segundo as neces-
sidades comerciais e cientcas. Alem disso, permite gerar muta coes com ganho de fun coes
para as protenas, como maior estabilidade, maior anidade por substrato, maior atividade
especca, etc. Ate onde e de nosso conhecimento, nao existe um metodo matematico que cal-
cule deterministicamente as muta coes em sequencias de DNA, sejam elas atraves da evolu cao
biologica, in vitro evolution ou por manipula cao genetica alem do metodo apresentado no
presente trabalho.
Outra aplica cao importante e utilizar esta abordagem matematica em estudos indivi-
duais e populacionais a m de vericar se a ocorrencia de muta coes/polimorsmos em genes
associados a doen cas em seres humanos, animais, plantas e microrganismos favorecem ou
predispoem ao desenvolvimento de doen cas. Esta metodologia podera ser utilizada como
um teste para diagnostico nos diferentes organismos a m de detectar em fases iniciais a
predisposi cao ou o diagnostico de doen cas.
147
Referencias Bibliogracas
[1] G. Battail, An Outline of Informational Genetics, Morgan & Claypool Publishers, 2008.
[2] Ramon Roman-Roldan, Pedro Bernaola-Galvan, and Jose L. Oliver, Application of
information theory to DNA sequence analysis: a review, Pattern Recognition, vol. 29,
no. 7, pp. 1187.1194, 1996.
[3] Elebeoba E. May, Comparative analysis of information based models for initiating protein
translation in Escherichia coli K-12, M.S. thesis, NCSU, Dezembro 1998.
[4] G. Battail, Does information theory explain biological evolution?, Europhysics Letters,
vol. 40, pp. 343-348, 1997.
[5] Alberts, Bruce; Johnson, Alexander; Lewis, Julian; Ra, Martin; Roberts, Keith; Wal-
ter, Peter New York and London, Molecular Biology of the Cell, Editora Artmed, 4
a
Edi cao, 2005.
[6] Lodish, Harvey; Berk, Arnold; Zipursky, S. Lawrence; Matsudaira, Paul; Baltimore,
David; Darnell, James E., Molecular Cell Biology, Editora 4th ed.
[7] Almeida, J. D., Origem, Evolu cao e Direcionamento da Protena THl1 Em Plantas, Tese
de Doutorado, ESALQ/USP 2004.
[8] Duby, G.; Boutry, M.; Mitochondrial protein import machinery and targeting informa-
tion, Plant Science, Vol. 162, no. 4, pp. 477-490, 2002.
[9] Truscott, K. N.; Brandner, K.; Pfanner, N.; Mechanisms of Protein Import into Mito-
chondria, Current Biology, vol. 13, pp. 326-337, 2003.
[10] Pfanner, N.; Wiedemann, N.; Meisinger, C.; Lithgow, T.; Assembling the Mitochondrial
Outer Membrane, Nature Structural & Molecular Biology, vol. 11, pp. 1044-1048, 2004.
[11] Dekker, P. J. T.; Ryan, M. T.; Brix, J.; M uller H.; Honlinger, A.; Pfanner, N.; Pre-
protein Translocase of the Outer Mitochondrial Membrane: Molecular Dissection and
149
Referencias Bibliogracas
Assembly of the General Import Pore Complex, Molecular and Cellular Biology, vol.
18, pp. 6515-6524, 1998.
[12] Van Wilpe, S.; Ryan, M. T.; Maarse, A. C.; Meisinger, C.; Brix, J.; Dekker, P. J.;
Moczko, M.; Wagner, R.; Meijer, M.; Guiard, B; Honlinger, A.; Pfanner, N., Tom 22
is a multifunctional organizer of the mitochondrial preprotein translocase, Nature, vol.
401, no. 6752, pp. 485-489, 1999.
[13] Mokranjac, D.; Neupert, W.; Protein import into mitochondria, Biochemical Society,
Vol. 33, pp. 1019-1023, 2005.
[14] Ryan, K. R.; Leung, R. S.;Jensen, R. E., Characterizacion of the mitochondrial inner
membrane translocase complex: the Tim23p hydrophobic domain interacts with Tim17
but not with other Tim23p molecules, Molecular and Cellular Biology, vol.18, no.1, pp.
178-187, 1998.
[15] Strub, A.; Lim, J. H.; Pfanner, N.; Voos, W., The mitochondrial protein import motor,
The Journal of Biological Chemistry, vol.381, no.9-10, pp. 943-949, 2000.
[16] Maxi Endres, M.; Neupert, W.; Brunner, M.; Transport of the ADP/ATP carrier of
mitochondria from the TOM complex to the TIM2254 complex, The EMBO Journal,
Vol.18, no.12, pp.3214-3221, 1999.
[17] Pfanner,N.; Neupert,W.; Distinct steps in the import of ADP/ ATP carrier into mito-
chondria, J. Biol. Chem., vol.262, pp. 7528-7536, 1987.
[18] Rocha, A. S. L. Modelo Matematico Para a Previsao de Recombina cao Stio-Especca
do DNA, Tese de Mestrado, UNICAMP, 2004.
[19] Freese, E.; The Dierence between Spontaneous and Base-Analogue Induced Mutations
of Phage T4, Proc. of PNAS, vol.45, pp. 622-633, 1959.
[20] Freese, E.; The Specic Mutagenic Eect of Base Analogues on Phage T4, Journal
Molecular Biology, vol.1, pp. 87-105, 1959.
[21] Sawyer, S. A.; Parsch J.; Zhang Z.; Hartl, D. L.; Prevalence of positive selection among
nearly neutral amino acid replacements in Drosophila, Proceedings of the National
Academy of Sciences U.S.A, vol.104, pp. 6504-6510, 2007.
[22] Ionov, Y.; Peinado, M. A.; Malkhosyan, S.; Shibata, D.; Perucho, M.; Ubiquitous
somatic mutations in simple repeated sequences reveal a new mechanism for colonic
carcinogenesis, Nature, vol.363, pp. 558-561, 1993.
150
Referencias Bibliogracas
[23] Galvani, A.; Slatkin, M.; Evaluating plague and smallpox as historical selective pres-
sures for the CCR5 32 HIV-resistance allele, Proceedings of the National Academy
of Sciences U.S.A, vol.100, pp. 15276-15279, 2003.
[24] C.E.Shannon, A Mathematical theory of communication, Bell Sust., Tech. J., vol.27,
pp. 397-423, julho 1948, and pp. 623-656, outubro 1948.
[25] M.J.E. Golay, Notes on digital coding, Proc. IEEE, vol.37, pp.657, 1949.
[26] R.W. Hamming, Error detecting and error correcting codes, Bell Syst. Tech. J., vol.29,
pp.147-160, 1950.
[27] G. Ungerboeck, Channel coding with multilevel/phase signals, IEEE Trans. Inform.
Theory, vol.IT-28, p. 56-67, 1982.
[28] G. D. Forney, Jr., Geometrically uniform codes, IEEE Trans. Inform. Theory, vol.IT-
37, pp.1241-1260, 1991.
[29] I.N. Herstein, Topics in Algebra, John Wiley and Sons, New York, 1975.
[30] J.B. Fraleigh, A First Course in Abstract Algebra, Addison-Wesley Publishing Co., 1982.
[31] P.R. Barbosa, Constru cao de Codigos Z
2
k -pseudolineares atraves de Alica coes
Isometricas e Extensoes de Galois sobre Aneis Locais, Tese de Mestrado, FEEC-
UNICAMP, 2000.
[32] H.A. Loeliger, Signal setes matched to groups, IEEE Trans. Inform. Theory, vol.IT-37,
pp. 1675-1682, 1991.
[33] J.R.Geronimo, Extensao da Z
4
-Linearidade via grupo de simetrias , Tese de Doutorado,
FEEC-UNICAMP, 1997.
[34] A.R. Hammons, Jr., A.R. Calderbank, P.V. Kumar, N.J.A. Sloane and P. Sole, The
Z
4
-linearity of Kerdock, Preparata, Goethals, and related codes, IEEE Trans. Inform.
Theory, vol.IT-40, pp.301-319, 1994.
[35] J.C.Interlando, Uma contribui cao aos Codigos Lineares sobre Aneis Locais, Tese de
Doutorado, FEEC-UNICAMP, 1994.
[36] J.C.Interlando, R.Palazzo Jr., J.R.Geronimo, A.A.Andrade, O.M.Favareto, e T.P. da
Nobrega Neto, Codigos Corretores de Erros sobre Estruturas de Corpos, Aneis e Grupos,
DT-FEEC-UNICAMP, 1998.
151
Referencias Bibliogracas
[37] B.R.McDonald, Finite Rings with Identity, Marcel Dekker, New York, 1974.
[38] P.Shankar, On BCH codes over arbitrary integer rings, IEEE Trans. Inform. Theory,
vol. IT-25, pp.480-483, July 1979.
[39] W.W.Peterson and E.J.Weldon, Jr., Error Correcting Codes, 2nd.ed.,MIT Press, Cam-
bridge, Mass., 1972.
[40] G.D.Forney Jr, On decoding BCH codes, IEEE Trans. Inform. Theory, vol.IT-11,
pp.549-557, October 1965.
[41] J.C. Interlando, R. Palazzo, Jr., and M. Elia, On the decoding of Reed-Solomon and
BCH codes over integer residue rings, IEEE Trans. Inform. Theory, vol.43, pp. 1013-
1021, 1997.
[42] J.C.Interlando, Uma contribui cao `a Constru cao e Decodica cao de Codigos Lineares
sobre Grupos Abelianos via Concatena cao de Codigos sobre Aneis de Inteiros Residuais,
Tese de Doutorado, Fee-Unicamp, Dezembro de 1994.
[43] E.R.Berlekamp, Algebraic Coding Theory, McGraw Hill, New York, 1968.
[44] J.L.Massey, Shift register synthesis and BCH decoding, IEEE Trans. Inform. Theory,
vol. IT-15, pp.122-127, January 1969.
[45] E.Weiss, First course in Algebra and Number Theory, Academic Press, 1971.
[46] G.L. Feng and K.K. Tzeng, A generalization of the Berlekamp-Massey Algorithm for
Multisequence Shift-Register Synthesis with Applications to Decoding Cyclic Codes,
IEEE Trans. Inform. Theory, vol.37, n
o
5, pp.1274-1287, September 1991.
[47] C.R.P. Hartmann and K.K. Tzeng, Generalizations of the BCH Bound, Inform.
Contr., 20, N
o
5, pp. 489-498, June 1972.
[48] B.R.McDonald, Linear Algebra over Commutative Rings, Marcel Dekker, New York:
Marcel Dekker, 1993.
[49] A.A.Andrade, Uma contribui cao `a Constru cao e Decodica cao de Codigos de Bloco Lin-
eares sobre Aneis Finitos, Tese de Doutorado, FEEC-UNICAMP, 1996.
[50] Thomas D. Schneider. Information content of individual genetic sequences. Journal of
Theoretical Biology, 189:427-441, 1997.
152
Referencias Bibliogracas
[51] Thomas D. Schneider, Gary D. Stormo, Larry Gold, and Andzej Dhrenfeucht. Informa-
tion Content of Binding Sites on Nucelotide Sequences. Journal of Molecular Biology,
vol.188, pp. 415-431, 1986.
[52] Thomas D. Schneider and R. Michael Stephens. Sequence Logos: a NewWay to Display
Consensus Sequences. Nucleic Acids Research, vol.18, no. 20, pp. 6097-6100, 1990.
[53] H. Yockey, Information Theory and Molecular Biology, Cambridge University Press:
Cambridge, 1992.
[54] D.R. Forsdyke, Are introns in-series error detecting sequences?, Intl. J. Theor. Biol.,
vol.93, pp. 861-866, 1981.
[55] D.R. Forsdyke, Conservation of stem-loop potential in introns of snake venom phos-
pholipase A2 genes. An application of FORS-D analysis, Mol. Biol. and Evol., vol.12,
pp. 1157-1165, 1995.
[56] Rzeszowska-Wolny, J., Is genetic code error-correcting?, J. Theor. Biol., vol.104, pp.
701-702, 1983.
[57] L.S. Liebovitch, Y. Tao, A.T. Todorov, and L. Levine, Is there an error correcting code
in the base sequence in DNA?, Biophysical Journal, vol.71, pp. 1539-1544, 1996.
[58] G.L. Rosen, Examining coding structure and redundancy in DNA, IEEE Engineering
in Medicine and Biology, vol.25, pp. 62-68, 2006.
[59] G. Battail, Information Theory and error correcting codes in genetics and biological
evolution, Introduction to Biosemiotics. Springer: New York, USA, 2006.
[60] E. May, M. Vouk, D. Bitzer and D. Rosnick, An error-correcting code framework for
genetic sequence analysis, Journal of the Franklin Institute, vol.34, pp. 89-109, 2004.
[61] Mac Donnaill D.A., Why nature chose A, C, G, U/T: an error-coding perspective of
nucleotide alphabet composition. Origins of Life and Evolution of the Biosphere, vol.33,
pp. 433-455, 2003.
[62] R. Sanchez, L.A. Perfetti, R. Grau, E. Morgado, A new DNA sequences vector space
on a genetic code Galois eld, MATCH Commun. Math. Comput. Chem., vol.54, 2005.
[63] T. Niidome, S. Kitada, K. Shimokata, T. Ogishima, and A. Ito, Arginine residues in the
extension peptide are required for cleavage of a precursor by mitochondrial processing
peptidase, The Journal of Biological Chemistry, vol.269, pp. 24719-24722, 1994.
153
Referencias Bibliogracas
[64] Faria, L. C. B., Existencia de Codigos Corretores de Erros em Sequencias de DNA, Tese
de Doutorado, UNICAMP, 2010.
[65] Felsenstein, J., Condence-Limits on Phylogenies - an Approach Using the Bootstrap,
Evolution, 39, 783-791, 1985.
[66] Tamura, K., et al., MEGA4: Molecular evolutionary genetics analysis (MEGA) soft-
ware version 4.0, Mol Biol Evol, 24, 1596-1599, 2007.
[67] Posada, D. Using MODELTEST and PAUP* to select a model of nucleotide substitution,
Current protocols in bioinformatics / editoral board, Andreas D. Baxevanis ... et al,
Chapter 6, Unit 6 5, 2003.
[68] Posada, D. ModelTest Server: a web-based tool for the statistical selection of models of
nucleotide substitution online, Nucleic Acids Res, 34, W700-703, 2006.
[69] Rodriguez, F., et al. The general stochastic model of nucleotide substitution, J Theor
Biol, vol.142, pp. 485-501, 1990.
[70] Schoniger, M. and von Haeseler, A. Simulating eciently the evolution of DNA se-
quences, Comput Appl Biosci, vol.11, pp. 111-115, 1995.
[71] Huelsenbeck, J.P. and Ronquist, F. MRBAYES: Bayesian inference of phylogenetic
trees, Bioinformatics, vol.17, pp. 754-755, 2001.
[72] Hedges, S. B., J. E. Blair, et al. A molecular timescale of eukaryote evolution and the
rise of complex multicellular life., BMC Evol Biol, vol.4, pp. 2, 2004.
[73] Heckman, D. S., D. M. Geiser, et al. Molecular evidence for the early colonization of
land by fungi and plants., Science, vol.293 , no. 5532, pp. 1129-33, 2001.
[74] Sanderson, M. J., J. L. Thorne, et al. Molecular evidence on plant divergence times,
American Journal of Botany, vol.91, pp. 1656-1665, 2004.
[75] Drummond, A. J. and A. Rambaut BEAST: Bayesian evolutionary analysis by sampling
trees., BMC Evol Biol, vol.7, pp. 214, 2007.
[76] Francoise Ambard-Bretteville, Ian Small, Olivier Grandjean and Catherine Colas des
Francs-Small, Discrete mutations in the presequence of potato formate dehydrogenase
inhibit the in vivo targeting of GFP fusions into mitochondria. Biochemical and Bio-
physical Research Communications, vol.311, pp. 966-971, 2003.
154
Referencias Bibliogracas
[77] Claire Pujol, Laurence Marechal-Drouard and Anne-Marie Duchene, How can organel-
lar protein N-terminal sequences be dual targeting signals? In silico analysis and muta-
genesis approach., J. Mol. Biol, vol.369, pp. 356-367, 2007.
155