Rocha, AndreaSantosLeiteda Doutorado

Universidade Estadual de Campinas
Faculdade de Engenharia Eletrica e de Computa cao

Departamento de Telem
atica
Modelo de Sistema de
Comunicacoes Digital para o Mecanismo de
Importacao de Protenas Mitocondriais
Atraves de Codigos Corretores de Erros
Autora: Andrea Santos Leite da Rocha
Orientador: Prof. Dr. Reginaldo Palazzo J unior
(DT-FEEC/UNICAMP)
Co-Orientador: Prof. Dr. Marcio de Castro Silva Filho
(ESALQ/USP)
Banca Examinadora:
Prof. Dr. Reginaldo Palazzo J unior FEEC/UNICAMP
Prof. Dr. Geraldo Pompeu Junior UFSCar/Sorocaba
Prof. Dr. Max Henrique Machado Costa FEEC/UNICAMP
Prof. Dr. Weiler Alves Finamore PUC/RJ
Prof. Dr. Romis Ribeiro Faissol Attux FEEC/UNICAMP
Tese apresentada na Faculdade de Engenha-
ria Eletrica e de Computa cao da Universi-
dade Estadual de Campinas, como parte dos
requisitos exigidos para a obten cao do ttulo
de Doutor em Engenharia Eletrica.
Campinas - SP
Fevereiro de 2010
.
Para o meu lho, Henrique Esteban.
Roubei tantas horas ao teu convvio
para poder escrever esta tese.
Por isso ela te pertence, meu amor.
Dedico
i
Agradecimentos
1
Ao Prof. Dr. Reginaldo Palazzo J unior pela sua excelente orienta cao, disposi cao, paciencia
e compreensao durante o desenvolvimento deste trabalho. Em especial, à sua amizade e à
sua conan ca depositada em mim. Meu grande exemplo de humildade e bondade. Sempre
me recordarei, com muito carinho e saudades, das nossas reunioes regadas a muitos cafes,
das nossas agradaveis conversas e das boas risadas. Deixo com voce a minha eterna gratidao.
Ao meu co-orientador Prof. Dr. Marcio de Castro Silva Filho pelas nossas conversas e
pela oportunidade desta parceria.
Aos professores membros da banca examinadora pela disponibilidade e aten cao dispensada
ao trabalho, bem como por suas valiosas sugestoes. Em particular, à professora Carmen
Bertuzzo pelo carinho com que sempre nos tratou.
Ao Prof. Dr. Geraldo Pompeu Jr., pelo seu carinho e dedica c ao ao ensino da matematica
neste pas. Em especial pelo meu encaminhamento ao mundo academico. Voce sera o meu
eterno padrinho academico.
Ao Prof. Dr. Walter Borelli pelas otimas coversas sobre diversos assuntos, mas principal-
mente, pelas otimas gargalhadas. Pe co a Deus que conserve este otimo senso de humor tao
peculiar.
Ao Dr. Marcelo M. Brandao pela ajuda na escrita da se cao sobre logenia e por estar
sempre disposto a ajudar.
Ao meu marido Gerson pelo seu constante apoio no decorrer deste trabalho. Em especial
pela sua paciencia nos momentos difceis. Sem a sua compreensao e companheirismo este
trabalho jamais seria concretizado. Muito obrigada por ser a minha alma gemea.
Aos meus pais, Maria e Antonio, por terem me ensinado a nunca desistir dos meus sonhos.
A minha doce irma por sempre ter conado em mim e me elogiado em excesso. A admira cao
recproca e mais que verdadeira, tenho muito orgulho em ser sua irma.
`
A minha grande amiga irma, Luzinete, sempre tao querida e prestativa durante todos
estes anos de convivencia. Uma das pessoas mais dignas e corretas que ja conheci. Este
trabalho so foi possvel devido à sua parceria e às nossas longas conversas sobre o mundo
biologico e matematico. Com voce deixo o meu eterno carinho, amor e respeito.
`
As minhas amigas, Wanessa e Clarice, pelos otimos momentos em que passamos estes
anos. Por todos os nossos almo cos, cafes e batidinhas de pernas, principalmente por
sempre terem me ajudado quando precisei dando-me for ca para continuar. Claro que nao
1
Este trabalho foi nanciado pelo Conselho Nacional de Desenvolvimento Cientco e Tecnol ogico - CNPq
iii
poderia me esquecer, da nossa hilaria visita à clnica de reprodu cao humana. Guardo a nossa
amizade no meu cora cao.
Aos meus amigos, Joao Henrique e Giuliano, meus dois irmaozinhos que tornaram esta
jornada inesquecvel e muito prazerosa. Com voces deixo as minhas melhores recorda coes.
`
A minha amiga Lucila por estar sempre disposta a ajudar. Admiro a sua dedica cao e a
sua competencia.
Aos funcionarios da FEEC que de alguma forma contribuiram para a realiza cao deste
trabalho. Em especial, a minha querida Noemia que tornou-se uma grande amiga no decorrer
destes anos.
`
A FAPESP pelo suporte junto ao projeto tematico 02/07473-7.
De modo geral, agrade co a todos meus amigos e colegas que, direta ou indiretamente,
contriburam para realiza cao deste trabalho.
iv
Resumo
Um dos desaos em biologia matematica e mostrar a existencia de qualquer forma de
codigos corretores de erros na estrutura do DNA. Usando os conceitos da teoria de comu-
nica cao, propomos um modelo para o sistema de codica cao e decodica cao do mecanismo
de importa cao de protenas mitocondriais similar a um sistema de comunica coes digital. Este
modelo consiste de um mapeador responsavel por transformar os nucleotdeos (A, C, G, T) no
alfabeto (0, 1, 2, 3) usado pelo codigo sobre a estrutura de anel; um codicador (codigo BCH);
e um modulador (codigo genetico, tRNA e rRNA). O processo de decodica cao baseia-se em
uma analogia entre o processo de decodica cao do algoritmo Berlekamp-Massey para aneis e
o complexo TOM (complexo ancorado na membrana externa da mitocondria responsavel por
auxiliar na importa cao das protenas precursoras). Neste processo temos um demodulador
(protenas Tom 70 e Tom20), um decodicador (o complexo GIP - poro geral de inser cao) e o
receptor (subcompartimento mitocondrial). Neste trabalho mostramos que as sequencias de
DNA (sequencias de direcionamento) sao identicadas como palavras-codigo de um codigo
G-linear sobre a extensao de um anel de Galois. Alem disso, essas sequencias de DNA e suas
tas complementares estao relacionadas matematicamente atraves dos polinomios primitivos
e seus polinomios recprocos, respectivamente. Um estudo logenetico sugere que a protena
malato desidrogenase da Arabidopsis thaliana encontrada no banco de dados NCBI e uma
sequencia derivada da protena malato desidrogenase reproduzida pelo codigo corretor de
erros. Este modelo tambem reproduz com notavel precisao os parametros cineticos baseados
em substitui coes de aminoacidos em oligopeptdeos sinteticos. Apresentamos, pela primeira
vez, a existencia de codigos corretores de erros associados com as sequencias de DNA, os
quais sugerem fortemente a existencia de codigos concatenados no genoma. Os resultados
apresentados neste trabalho contribuem para o desenvolvimento de um procedimento sis-
tematico que podera ser empregado em analises de muta c oes/polimorsmos com aplica coes
na engenharia genetica.
Palavras-chave: Codigos corretores de erros, codigo BCH, sequencias de DNA, trans-
porte de protenas, muta coes, polimorsmo.
v
Abstract
One of the puzzling problems in mathematical biology is to show the existence of any form
of error-correcting code in the DNA structure. Using information theory considerations we
propose a model for the biological coding system similar to that of a digital communication
system. This model consists of a mapper (transformations from the set of nucleotides either
to the set (0,1,2,3) ring; an encoder (BCH code); and a modulator (genetic code, tRNA and
rRNA). The decoding process is based on the Modied Berlekamp-Massey algothm in an
analogy with the TOM complex (translocase of the mitochondrial outer membrane). In this
process we have a demodulator (Tom 70 and Tom 20 proteins), a decoder (GIP complex) and
the receiver (mitochondrion). In this work we show that DNA sequences (targeting sequences)
are identied as codewords of a G-linear code over Galois ring extensions. In addition, these
DNA sequences and their complementary strands are mathematically related to the primitive
polynomials and their reciprocal polynomials, respectively. A phylogenetic study suggest that
the MDH protein, Arabidopsis thaliana, found in the NCBI databank is a derived sequence
of the MDH protein reproduced by the error correcting code. This model also reproduces
with remarkable accuracy kinetic parameters based on amino acid substitutions on synthetic
oligopeptides. We show, for the rst time, the existence of error-correcting codes associated
with DNA sequences, which strongly infer on the existence of nested codes within the genome.
The results presented in this work contribute to the development of a systematic procedure
which may be employed in the mutations/polymorphisms analysis with applications in genetic
engineering.
Key-words: Error correction code , BCH code, DNA sequences, transport proteins,
mutations, polymorphisms.
vii
Conte udo
Dedicatoria i
Agradecimentos iii
Resumo v
Abstract vii
Lista de Figuras xii
Lista de Tabelas xv
1 Introducao 1
1.1 Os Avan cos Historicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Modelos Propostos na Literatura . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Proposta de um modelo de comunica cao genetica para a importa cao
de protenas organelares . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Apresenta cao do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Descri cao do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Elementos de Biologia e Codigos Corretores de Erros 13
2.1 Importa cao de Protenas Organelares . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 A Molecula de DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.2 Importa cao de Protenas em Mitocondrias . . . . . . . . . . . . . . . 17
2.1.3 Muta coes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Codigos Corretores de Erros . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.1 Estruturas Algebricas . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2 Aneis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.3 Codigos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.2.4 Codigos Geometricamente Uniformes . . . . . . . . . . . . . . . . . . 44
ix
Conte udo
2.2.5 Codigos Cclicos Sobre Aneis de Inteiros Residuais . . . . . . . . . . . 48
2.2.6 Codigos BCH sobre Aneis . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3 Decodica cao do Codigo BCH sobre Anel . . . . . . . . . . . . . . . . . . . . 55
2.3.1 O Processo de Decodica cao . . . . . . . . . . . . . . . . . . . . . . . 56
2.3.2 Gera cao de Sequencias . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3 Modelo de um Sistema de Comunicacao para a Importacao de Protenas
Organelares 69
3.1 Analogias entre um Sistema de Informa cao Genetica e um Sistema de Comu-
nica cao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.1.1 O dogma central da biologia molecular . . . . . . . . . . . . . . . . . 69
3.1.2 O dogma central da teoria de comunica coes . . . . . . . . . . . . . . 71
3.1.3 Analogias entre sistema de informa cao genetica e o sistema de comu-
nica coes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.2 Proposta de um Sistema de Comunica cao para a Importa cao de Protenas . . 73
3.2.1 Sistema de comunica cao digital . . . . . . . . . . . . . . . . . . . . . 73
3.2.2 Sistema de comunica cao biologico . . . . . . . . . . . . . . . . . . . . 74
3.2.3 O codigo e a estrutura matematica . . . . . . . . . . . . . . . . . . . 76
3.2.4 Parametros do codigo . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.2.5 Modelo do sistema de comunica cao biologico . . . . . . . . . . . . . . 78
4 Geracao das Sequencias de Direcionamento 83
4.1 Algoritmo de Codica cao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2 Resultados da Codica cao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.2.1 Dependencia entre os codigos corretores de erros e os polinomios prim-
itivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.2.2 Rotulamento das sequencias de DNA . . . . . . . . . . . . . . . . . . 94
4.2.3 Rela cao matematica entre as tas codante e nao codante . . . . . . . 95
4.2.4 Alto uxo de informa cao - baixa redundancia . . . . . . . . . . . . . 96
4.2.5 Classica cao das sequencias de direcionamento sob o ponto de vista
matematico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5 Regeneracao de Sequencias de DNA 107
5.1 Algoritmo de Decodica cao . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.2 Resultados da Decodica cao . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.3 Reprodu cao das Sequencias de DNA atraves do LFSR . . . . . . . . . . . . . 118
x
Conte udo
6 Analises de Mutacoes e de Polimorsmos em Sequencias de DNA 125
6.1 Analises da Importancia dos Resduos de Argininas . . . . . . . . . . . . . . 126
6.1.1 Resultados das analises via laboratorio . . . . . . . . . . . . . . . . . 127
6.1.2 Resultados das analises via codigos corretores de erro . . . . . . . . . 128
6.2 Estudo de Filogenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
6.3 Simula coes de Muta coes em Sequencias de Direcionamento Mitocondriais . . 133
7 Conclusoes e Perspectivas Futuras 143
7.1 Desenvolvimento do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 144
7.2 Contribui coes do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
7.3 Propostas Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
7.4 Considera coes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Referencias Bibliogracas 148
xi
Lista de Figuras
1.1 Teoria da informa cao baseada no modelo de Roman-Roldan. . . . . . . . . . 6
1.2 Modelo proposto pela May, [3]. . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Modelo de um sistema de comunica cao para a importa cao de protenas or-
ganelares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1 Formas tautomericas das bases. . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Estrutura tridimensional do DNA. . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3 Fitas complementares de DNA. . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 Micrograa eletronica de uma mitocondria. Lodish et al., Molecular Cell Bi-
ology, 5th Edition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5 Os translocons de protenas na mitocondria. Pfanner et al., Assembling the
Mitochondrial Outer Membrane, Nature Structural & Molecular Biology,
Vol. 11, pp. 1044-1048, 2004. . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6 O complexo TOM. Dekker et al., Preprotein Translocase of the Outer Mito-
chondrial Membrane: Molecular Dissection and Assembly of the General Im-
port Pore Complex, Molecular and Cellular Biology, Vol. 18, pp. 6515-6524,
1998. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.7 O complexo TIM23. Mokranjac, et al., Protein import into mitochondria Bio-
chemical Society, Vol. 33, pp. 1019-1023, 2005. . . . . . . . . . . . . . . . . . 22
2.8 Diferentes rotas para a importa cao de protenas mitocondriais. Lodish et al.,
Molecular Cell Biology, 5th Edition. . . . . . . . . . . . . . . . . . . . . . . . 24
2.9 Importa cao de protenas para o interior da matriz. Lodish et al., Molecular
Cell Biology, 5th Edition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.10 Importa cao de protenas para membrana externa. Pfanner, Assembling the
Mitochondrial Outer Membrane, Nature Structural & Molecular Biology, Vol.
11, pp. 1044-1048. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.11 Importa cao de protenas para o espa co intermembranas. Lodish et al., Molec-
ular Cell Biology, 5th Edition. . . . . . . . . . . . . . . . . . . . . . . . . . . 27
xiii
Lista de Figuras
2.12 Importa cao de protenas para a membrana interna. Lodish et al., Molecular
Cell Biology, 5th Edition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.13 LFSR (linear feedback shift-register) de comprimento L. . . . . . . . . . . 66
3.1 Dogma central da teoria de comunica coes. . . . . . . . . . . . . . . . . . . . 71
3.2 Modelo de um sistema de comunica coes de informa cao genetica. . . . . . . . 73
3.3 Diagrama de blocos de um sistema de comunica cao. . . . . . . . . . . . . . . 74
3.4 Modelo de um sistema de comunica cao para importa cao de protenas. . . . . 75
3.5 Sistema de comunica coes digital. . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.6 Modelo proposto para codica cao biologica. . . . . . . . . . . . . . . . . . . 79
3.7 Modelo proposto para decodica cao biologica. . . . . . . . . . . . . . . . . . 80
4.1 Rotulamentos A, B e C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.2 Rela cao entre a dupla ta do DNA. O codigo faz a leitura das palavras-codigos
no sentido da esquerda para à direita. A cor vermelha indica onde ocorreu a
diferen ca de nucleotdeos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.3 Rela cao entre as tas codante e nao codante. O codigo faz a leitura das
palavras-codigos no sentido da esquerda para à direita. A cor vermelha indica
onde ocorreu a diferen ca de nucleotdeos. . . . . . . . . . . . . . . . . . . . . 97
5.1 SD NCBI em SD reproduzida pelo codigo. . . . . . . . . . . . . . . . . . . . 116
5.2 SD reproduzida pelo codigo em SD NCBI. . . . . . . . . . . . . . . . . . . . 117
5.3 Fitas codante e nao codante. . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.4 Vetor u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.5 Vetor u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.6 LFSR ta codante 5 para 3. . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.7 LFSR ta nao codante 5 para 3. . . . . . . . . . . . . . . . . . . . . . . . . 122
5.8 Fita codante 5 para 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.9 Reprodu cao atraves do LFSR da ta codante 5 para 3. . . . . . . . . . . . 123
6.1 Peptdeo reproduzido nos tres rotulamentos. . . . . . . . . . . . . . . . . . . 129
6.2 Sequencia reproduzida pelo codigo BCH. . . . . . . . . . . . . . . . . . . . . 129
6.3 Phenogram inferred using the Neighbor-Joining method with the evolutionary
distances computed using the Jukes-Cantor model. The percentage of replicate
trees in which the associated taxa clustered together in the bootstrap test (1000
replicates). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
6.4 Phylogenetic tree inferred by Bayesian analysis from the data set. Values close
to the branches indicate Bayesian posterior probability.. . . . . . . . . . . . . 133
xiv
Lista de Tabelas
2.1 Arranjo padrao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.1 M = mitocondria, C = cloroplasto, RE = retculo endoplasmatico. . . . . . . 84
4.2 Elementos de F
64
em nota cao de r-uplas . . . . . . . . . . . . . . . . . . . . 86
4.3 Elementos de GR
(4, 6) em nota cao de r-uplas . . . . . . . . . . . . . . . . . 87

4.4 Elementos de G
63
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.5 Rela cao entre as linhas da matriz P e as 24 permuta coes. . . . . . . . . . . . 91
4.6 Codigos BCH sobre GR(4, 6). Polinomios primitivos da extensao r = 6:
p
1
(x) = x
6
+x+1, p
2
(x) = x
6
+x
5
+x
2
+x+1, p
3
(x) = x
6
+x
5
+x
3
+x
2
+1,
p
4
(x) = x
6
+x
4
+x
3
+x +1, p
5
(x) = x
6
+x
5
+x
4
+x+1 e p
6
(x) = x
6
+x
5
+1. 98
5.1 Tabela de Decodica cao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.4 Complementares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.5 Sequencias de direcionamento com uma classe de sndrome. Fita codante 5
para 3 e ta nao codante 3 para 5. . . . . . . . . . . . . . . . . . . . . . . 118
5.6 Sequencias de direcionamento com duas classes de sndromes. Fita codante 5
para 3 e ta nao codante 3 para 5. . . . . . . . . . . . . . . . . . . . . . . 118
5.7 Sequencias de direcionamento com uma classe de sndrome. Fita complemen-
tar invertida 5 para 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.8 Sequencias de direcionamento com duas classes de sndromes. Fita comple-
mentar invertida 5 para 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
6.1 Extensoes peptidases analisadas. . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.2 Efeitos das substitui coes dos resduos de argininas por alaninas e lisinas na
clivagem pela MPP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
6.3 Efeitos das substitui coes dos resduos de argininas por alaninas e lisinas na
clivagem pela MPP atraves de codigos corretores de erros. . . . . . . . . . . 130
xv
Lista de Tabelas
6.4 Resultados das substitui coes dos resduos de argininas. . . . . . . . . . . . . 136
xvi
Captulo 1
Introdu cao
Embora nao aparentam estar relacionadas, tanto a teoria de comunica coes quanto a
genetica preocupam-se com a transferencia da informa c ao. Alem do fato de que a teoria de
comunica coes e realizada pelo homem e a genetica por um processo natural, ambas diferem
entre si, principalmente, por nao operarem na mesma dimensao. A teoria de comunica coes
esta programada para enviar mensagens no espa co, de um lugar para outro, enquanto que a
genetica esta programada para enviar mensagens heredit arias no tempo [1].
O sucesso consideravel da tecnologia de comunica cao conta com o progresso signicativo
na concep cao de dispositivos fsicos mas tambem, embora muito menos perceptvel, no desen-
volvimento de um poderoso ferramental conceitual, consistentemente garantido pelo teoria
da informa cao. Embora esse ferramental tenha sido originalmente desenvolvido para a co-
munica cao atraves do espa co, e sucientemente abrangente para aplica cao na comunica cao
atraves do tempo [1].
A questao central pode ser colocada da seguinte maneira: A estrutura teorica elaborada
pelo homem pode contribuir para uma melhor compreensao dos processos naturais que en-
volvem a comunica cao genetica ? A resposta e sim. A perspectiva provida principalmente
pela teoria da informa cao renova a visao que podemos ter do mundo vivo[1].
1.1 Os Avan cos Historicos
Em meados do seculo XX ocorreram grandes avan cos tanto na engenharia de comunica cao
quanto na engenharia genetica. Em 1953, a estrutura de dupla helice do DNA foi decifrada
por James Watson, Francis Crick, Maurice Wilkins e Rosalind Franklin. Com esta descoberta
cou claro que a informa cao genetica esta armazenada na forma de duas tas diretamente
complementares compostas por letras de um alfabeto de quatro smbolos. Ate a descoberta
das bases moleculares da genetica, os pesquisadores concentravam-se na genetica classica,
1
Captulo 1. Introdu cao
baseada nas leis da hereditariedade propostas pelo monge austraco Gregor Mendel.
Em 1940, Claude Elwood Shannon em sua tese de doutorado desenvolveu uma proposta
sobre rela coes matematicas ligadas à genetica Mendeliana, com o objetivo de esclarecer como
diferentes combina coes de caractersticas se propagaram atraves de varias gera coes. Apesar
do trabalho ser muito original naquela epoca, o fato de nao ter sido publicado, o tornou
pouco conhecido e divulgado. Apos ter concludo a sua tese de doutorado, Shannon desviou
seu foco para a comunica cao digital e criptograa.
Em 1948, Shannon estabeleceu a teoria fundamental de um sistema de comunica cao di-
gital, introduzindo o conceito de informa cao baseado somente na caracterstica estatstica da
fonte de informa cao, denindo a informa cao de maneira abstrata independente da semantica
que nao diferencia texto, vdeo ou audio como era geralmente feito naquela epoca nos estudos
de sistemas de comunica cao. Usando tal deni cao de informa cao, Shannon provou que a
mensagem gerada por uma fonte de informa cao pode ser compactada ate o limite da entropia
da fonte (teorema de codica cao de fonte) e que e possvel codicar a mensagem de tal
maneira que possamos transmiti-la livre de erros com uma taxa maxima que o canal permite
(teorema de codica cao de canal). Desde entao, a engenharia de comunica coes tem criado
algoritmos e estrategias para atingir os limitantes destes dois teoremas e consequentemente
realizando grandes avan cos tecnologicos.
A elucida cao da estrutura do DNA possibilitou descobertas fundamentais na biologia
celular e molecular. Essas descobertas revolucionaram a ciencia da vida e proporcionaram
o desenvolvimento em tecnologias de DNA recombinante e o lan camento das ind ustrias bio-
tecnologicas. Por outro lado, Shannon estabeleceu a teoria fundamental de um sistema de
comunica cao digital. A sua teoria ocasionou um impacto enorme em nosso cotidiano levando
principalmente ao desenvolvimento dos celulares, da internet e dos computadores.
Susan Hockeld, presidente do Instituto Tecnologico de Massachusetts (MIT), em um
editorial da Science vol.323 de 27/02/2009 comenta: These revolutions showed the seeds
of a third revolution that links the life sciences with engineering and the physical sciences
in powerful new ways. Many of molecular biologys founders came from the physical sci-
ences, bringing to biology new analytical strategies and technologies. With the evolution of
data and technology-based biology, biologists worked increasingly closely with mathematicians,
engineers, and physical scientists.
Historicamente, a aplica cao da teoria da informa cao para analises de dados geneticos
iniciou-se na decada de 1970, porem esses esfor cos nao tiveram sucesso. Apos alguns anos,
o aumento de dados geneticos despertou novamente o interesse na aplica cao da teoria da
informa cao ao estudo do genoma. Esse segundo perodo de pesquisas continua ate o presente
momento, porem com um n umero muito reduzido de pesquisadores. Os trabalhos atual-
2
mente buscam analogias entre o uxo de informa cao biologica e o sistema de comunica cao,
dividindo-se basicamente em tres linhas de pesquisas: teoria da informa cao genetica, teoria
da comunica cao genetica e a teoria da codica cao genetica.
A aplica cao das teorias da informa cao, comunica cao e codica cao em sistemas biologi-
cos contribuem para uma melhor compreensao dos paradigmas biologicos fazendo com que
a biologia, que hoje e uma ciencia descritiva, se transforme em uma ciencia fundamentada
teoricamente. Por outro lado, os avan cos das teorias da informa cao, comunica cao e codi-
ca cao podem ser alcan cados atraves da compreensao do sistema de informa cao biologico.
Esta nova abordagem e muito promissora podendo proporcionar varios avan cos, tais como:
Identicar sistemas biologicos que podem ser investigados experimentalmente usando
as teorias da informa cao, comunica cao e codica cao;
Usar a quantidade de dados e experiencias disponveis para testar a aplica cao das teorias
da informa cao, comunica cao e codica cao;
Compreender como as interferencias afetam os sistemas biologicos;
Descobrir como as hipoteses da teoria da informa cao e codica cao podem ser mo-
dicadas ou exibilizadas para aplica-las em sistemas moleculares;
Compreender como a codica cao multidimensional e gerada e usada em protenas e
outras estruturas biologicas;
Como as teorias da informa cao, comunica cao e codica cao podem explicar os para-
metros de intera cao biologica entre moleculas, sendo que tais parametros podem ser
usados na constru cao do mais alto nvel de um sistema biologico;
A cria cao de novas tecnicas de codica cao que aproximam a capacidade do canal para
uma aplica cao molecular tanto em nvel nanotecnologico quanto em nvel macroscopico.
1.2 Modelos Propostos na Literatura
A deni cao da informa cao baseada somente em caractersticas estatsticas da fonte de in-
forma cao e tambem aplicada em dados geneticos. Recentes avan cos na tecnologia de sequen-
ciamento do DNA fornecem dados sucientes para aplicar em biologia molecular, o conceito
geral de informa cao proposto por Shannon. Nos ultimos anos, motivados pela disponibili-
dade de uma quantidade muito grande de sequencias genomicas em bancos de dados, varios
pesquisadores em teoria da informa cao e da codica cao realizam pesquisas em duas frentes,
3
a saber: 1) sob o ponto de vista da teoria da informa cao, aplicar os conceitos inerentes desta
com o objetivo de apresentar um metodo sistematico de determina cao das regioes codantes
e nao-codantes na estrutura do DNA (problema de codica c ao de fonte); 2) sob o ponto de
vista da teoria da codica cao, fornecer a fundamenta cao necessaria para a caracteriza cao de
codigos corretores de erros (problema de codica cao de canal).
Todavia, sob o ponto de vista da teoria de comunica cao, as pesquisas concentram-se mais
no aspecto de adapta cao do modelo tradicional de um sistema de comunica cao digital, em
termos de diagrama de blocos, àquele do sistema biologico por considerar que a informa cao
contida no genoma (estrutura do DNA) se da atraves de pacotes de informa cao contendo
regioes com sequencias relacionadas a sincronismo, identica cao de pacotes, codicantes, nao
codicantes, etc.
Com base na semelhan ca entre o uxo de informa cao biologica e o sistema de comu-
nica cao, varios modelos foram propostos. Schneider em [50, 51, 52], apresenta um procedi-
mento sistematico para identicar as regioes codantes e nao codantes nas sequencias de DNA
utilizando conceitos da teoria da informa cao. Yockey em [53], apresentou um modelo de
sistema de comunica cao digital associado ao da expressao genica. Forsdyke em [54, 55] con-
siderou a possibilidade de que os introns poderiam ser os dgitos de verica cao de paridade
associados aos exons. Por outro lado, Rzeszowska-Wolny, [56], propos que um arranjo apro-
priado do DNA em nucleosomos pode ser relevante para a operacionalidade deste sistema.
Liebovitch em [57], propos um procedimento que torna possvel determinar se um tipo de
codigo corretor de erro esta presente ou nao na sequencia do DNA. Rosen em [58] apresen-
tou um metodo para a dete cao de codigos de bloco lineares que explica a possibilidade de
inser coes e dele coes nas sequencias de DNA. Battail, [59], argumenta sobre a existencia de
codigos entrela cados no DNA, uma vez que o tamanho do genoma humano e muito maior que
o necessario para especicar as caractersticas de cada indivduo. May em [60], propos o uso
de codigos de bloco e convolucional no processo de inicializa cao da tradu cao em organismos
procariontes. Mac Donnaill em [61], propos um codigo de verica cao de paridade relacionado
à composi cao dos nucleotdeos. Sanchez, [62], propos a constru cao de um espa co vetorial
associado ao codigo genetico tendo como estrutura matem atica o corpo de Galois com 64
elementos, identicando cada aminoacido com uma sequencia binaria, possibilitando dessa
forma uma caracteriza cao geometrica associada ao codigo genetico. A abordagem destes dois
ultimos artigos esta relacionada exclusivamente com o c odigo genetico.
Uma questao sempre presente na maioria dos trabalhos relacionados com codica cao
genomica e a seguinte: Existe alguma forma de codigo corretor de erros na estrutura do
DNA? Todavia, os trabalhos citados anteriormente nao foram capazes de fornecer subsdios
sobre a existencia de codigos corretores de erros nas sequencias de DNA.
4
O presente trabalho encaminha, de maneira positiva, uma resposta a essa pergunta. Neste
trabalho atuamos em duas linhas de pesquisa: teoria da comunica cao genetica e a teoria da
codica cao genetica. Na Subse cao 1.2.1 mostramos os principais modelos relacionados à
teoria da comunica cao genetica e apresentamos as diferen cas entre estes modelos e o modelo
proposto neste trabalho.
1.2.1 Proposta de um modelo de comunica cao genetica para a im-
porta cao de protenas organelares
Na literatura existem alguns trabalhos que exploram as semelhan cas entre um sistema de
comunica coes e a biologia molecular com o objetivo de modelar os diversos sistemas biologicos.
Nesta subse cao, apresentamos dois modelos para o sistemas de comunica coes biologicos e
evidenciamos as diferen cas entre estes modelos e o modelo proposto neste trabalho.
O modelo apresentado em [2] consiste em modelar o processo biologico relacionado à
sntese de protenas, enquanto que em [3] o objetivo e interpretar o mecanismo de inicia cao
da tradu cao em organismos procarioticos. No presente trabalho propomos um modelo rela-
cionado ao mecanismo de importa cao de protenas organelares existentes em organismo eu-
carioticos. Este modelo e usado neste trabalho para analisar a importa cao de protenas
mitocondriais, porem pode ser usado para analisar a importa cao de protenas em outras
organelas, tais como, o cloroplasto e o retculo endoplasmatico.
Evidenciamos que apesar dos tres modelos, citados anteriormente, abordarem processos
biologicos distintos todos os modelos possuem um ponto em comum, o processo relacionado
à sntese de protenas. Este processo recebe uma interpreta cao diferente em cada um dos
modelos citados.
Em [2], Roman-Roldan sugere que o incio da vida pode ser caracterizado pela habilidade
de processamento da informa cao, desta forma, analises baseadas na informa cao podem ser
usadas em seus estudos. O uso da teoria da informa cao em dados geneticos exige uma
redeni cao do sistema genetico como um sistema de informa cao. De acordo com Roman-
Roldan: the processing of biological information has an articial parallel: the processing of
information by computers. A sntese de protenas pode ser considerada como um sistema
de processamento da informa cao permitindo que as sequencias de nucleotdeos possam ser
analisadas como mensagens nao considerando elementos fsico-qumicos para o processamento
da informa cao. A transferencia da informa cao biologica pode ser modelada por um sistema
de comunica cao considerando a sequencia de DNA como a entrada do canal e a sequencia de
aminoacidos que esta na forma de protena como a sada do canal, Figura 1.1.
O canal de comunica cao proposto por Roman-Roldan em [2] difere do modelo inicial
5
Cdigo
Gentico
Canal
(Entrada)
DNA
(Sada)
Protena
Figura 1.1: Teoria da informa cao baseada no modelo de Roman-Roldan.
proposto por May em [3]. Neste modelo o RNA mensageiro (mRNA) e denido como a sada
do canal de comunica cao e e incorporado um decodicador que traduz o mRNA em protena
formando a cadeia de aminoacidos. Roman-Roldan estabelece o processo de mapeamento
dos codons para aminoacidos como o canal de transmissao atraves do qual a sequencia de
informa cao inserida no DNA relativa à protena e enviada e a protena e recebida. O mo-
delo inicial de May estabelece o canal genetico como sendo constitudo pelos processos de
replica cao e transcri cao durante os quais erros sao introduzidos na sequencia de nucleotdeo,
Figura 1.2.
Codificador Gentico
Decodificador Gentico
InformaoGentica
Protena:InformaoRecebida
.mRNA
DNA
CanalGentico
.erros
Replicao
Transcrio
Traduo
Figura 1.2: Modelo proposto pela May, [3].
Em [2] a fonte de informa cao genetica e denida como uma fonte ergodica que gera men-
sagens atraves de um alfabeto nito. Uma fonte ergodica e uma fonte que usa um criterio
de sele cao aleatoria e gera mensagens tpicas e atpicas. Mensagens tpicas ou estatistica-
mente homogeneas sao geradas com alta probabilidade, enquanto que mensagens atpicas sao
geradas com baixa probabilidade.
O modelo proposto no presente trabalho diferencia-se dos modelos anteriormente citados
em varios aspectos. Neste modelo incorporamos um codicador e um modulador, Figura
6
.MC
Sequncia
em
nucleotdeos
Ribossomo
Cdigo
Gentico
G-Linear
Codificador
Modulador
Constelao de
Sinais
Cdigo
BCH
Mapeamento Fonte
.RNAt
Sequncia
em
aminocidos
Figura 1.3: Modelo de um sistema de comunica cao para a importa cao de protenas or-
ganelares.
1.3. A palavra-codigo na sada do codicador esta associada à sequencia de nucleotdeos
(mRNA), enquanto que a sada do modulador esta associada ` a sequencia de aminoacidos
(protena). Embora o mapeamento entre o codon e anti-codon (codigo genetico), realizado
pelo RNA transportador seja bem conhecido no contexto biol ogico, o mesmo necessita de
uma caracteriza cao matematica no contexto de um sistema de comunica cao digital.
No contexto de sistema de comunica cao digital existe um processo muito simples e e-
ciente que e chamado de mapeamento casado (MC). Essa propriedade matematica implica
que a estrutura algebrica do codicador seja a mesma, a menos de um isomorsmo, que a da
constela cao de sinais, garantindo assim, a menor complexidade possvel do sistema. A classe
de codigos satisfazendo essa propriedade e bem conhecida e denominada codigos geometrica-
mente uniformes. Uma subclasse importante e a dos codigos G-lineares, onde G denota uma
estrutura algebrica, que incorpora todas as vantagens inerentes ao processo de gera cao e de
decodica cao dos codigos lineares, bem como, a dos codigos nao lineares atraves da inser cao
do bloco mapeamento. Dependendo da classica cao desse mapeamento como linear ou nao
linear, o codigo resultante sera linear ou nao linear, respectivamente. Portanto, o codicador
consiste de um bloco mapeamento e um codicador de um codigo corretor de erros (bloco
codigo BCH).
O modulador consiste do codigo genetico, do RNA transportador e do Ribossomo. O
codigo genetico pode ser visto como um sinal de constela cao, onde cada codon e conside-
rado como uma constela cao de sinais, o RNA transportador realiza o mapeamento casado,
enquanto que o RNA ribossomico se comporta como um processador digital de sinais, Figura
7
1.3.
De uma forma geral, podemos considerar as seguintes semelhan cas entre os modelos apre-
sentados anteriormente. Nos tres modelos, a ocorrencia de um dos nucleotdeos (A, C, G, T)
e denida como equiprovavel, p(A) = p(C) = p(G) = p(T) = 1/4, e o canal de transmissao
e suposto estacionario e sem memoria. Em [2] e no presente trabalho o canal esta livre das
interferencias, ou seja, livre das muta coes geneticas. No modelo descrito em [3] os proces-
sos de replica cao e transcri cao ocorrem no canal que esta sujeito a erros (interferencias).
Outro ponto a ser considerado e a fonte de informa cao genetica que e denida como uma
fonte ergodica neste trabalho e em [2].
O grande diferencial do modelo sendo proposto esta na possibilidade de identicar uma
estrutura matematica bem denida nas sequencias de DNA reproduzidas. Enquanto que
os demais modelos utilizam um processo estatstico para analisar as sequencias de DNA
de acordo com o interesse em questao, o modelo do presente trabalho utiliza um processo
determinstico para realizar tais analises. Ate onde e de nosso conhecimento, no momento
nao existe um metodo matematico que analise deterministicamente as sequencias de DNA.
1.3 Apresenta cao do Problema
Pesquisadores que atuam nas areas da biologia molecular utilizando os conceitos das
teorias da informa cao, da codica cao e da comunica cao, consideram um dos grandes desaos
mostrar a existencia de codigos corretores de erros na estrutura do DNA. Em [59], Battail
apresenta duas hipoteses declarando: The survival of an organism necessitates the existence
of a reliable information replication process. Therefore error-correcting codes must be used
in replication or in another process of information regeneration that precedes replication;
The genetic information undergoes nested encoding, where the result of a previous encoding
process is combined with new information and encoded again. The more important genetic
information is assumed to be in the primary coded message, regarding nested coding mirrors
coding theorys concept of concatenated codes which are also called nested codes.
No presente trabalho consideramos as duas hipoteses, apresentadas anteriormente, com
algumas restri coes. Neste momento ao inves de analisarmos o processo de replica cao do DNA
com o objetivo de mostrar a existencia de codigos corretores de erros no genoma, o que torna o
problema muito complexo, estabeleceremos a seguinte conjectura: Se o genoma e constitudo
por regioes consistindo de exons, introns, sequencias de direcionamento, promoteres, DNA
repetitivos, etc, e que cada uma dessas regioes pode ser reproduzida por um codigo especco,
entao o genoma consiste de codigos concatenados (nested codes) no mnimo justapostos.
Um problema biologico de grande interesse cientco, que satisfaz a conjectura de codigos
8
concatenados, e o mecanismo de importa cao de protenas mitocondriais. Neste processo
existem as protenas precursoras que sao direcionadas para as mitocondrias atraves de uma
sequencia de direcionamento presente na posi cao N-terminal das protenas. Podemos in-
terpretar que uma sequencia de direcionamento e o resultado de um primeiro processo de
codica cao realizado por um codigo especco e que o conte udo de informa cao acrescentado
nesta sequencia e o direcionamento para a mitocondria. Esta primeira codica cao e combi-
nada com uma segunda codica cao realizada por outro codigo especco. Este codigo tem
como objetivo codicar a protena acrescentando a informa cao sobre a fun cao que a protena
devera executar no interior da mitocondria. Este processo caracteriza o caso mais simples de
codigos concatenados conhecidos como codigos concatenados justapostos.
O objetivo do presente trabalho alem de propor um modelo consistente de um sistema de
comunica cao digital para o mecanismo de transporte de protenas mitocondriais, consiste em
identicar a existencia de codigos corretores de erros nas sequencias de direcionamento das
protenas precursoras mitocondriais. Uma vez alcan cada essa identica cao, dois caminhos
sao possveis: O primeiro, relacionado à existencia de regioes nao-codantes fortemente preser-
vadas durante o processo evolucionario entre especies, e realizar pesquisas nesta dire cao, o
que possibilitara realizar analises logeneticas e conduzira a um melhor entendimento do pro-
cesso associado à teoria da evolu cao. O segundo, com rela cao à existencia de sequencias nas
regioes codantes, o objetivo e identica-las como sendo palavras-codigo de um codigo corretor
de erros, possibilitando dessa forma, vislumbrar metodologias que possam ser utilizadas em
analises mutacionais e de polimorsmos.
Com o objetivo de mostrar ao leitor o grau de sostica cao e complexidade que envolve o
mecanismo de importa cao mitocondrial e a sua importancia no contexto biologico faremos,
a seguir, uma breve exposi cao do assunto.
Um dos grandes desaos da ciencia e compreender os mecanismos moleculares que ocor-
rem dentro das celulas. O transporte de protenas organelares e fundamental para manter
as celulas saudaveis, portanto estudos sobre os mecanismos que governam a distribui cao e
transporte de protenas nas celulas podem contribuir para se obter uma compreensao mais
apurada desta complexa maquinaria, e como seu inadequado funcionamento poderia deagrar
uma doen ca.
As mitocondrias sao estruturas localizadas no interior das celulas responsaveis pela produ-
cao de energia, atraves da degrada cao de alimentos que ingerimos (carboidratos, protenas
e gorduras) e o consumo simultaneo de oxigenio (respira cao aerobica), processo denominado
fosforila cao oxidativa. Alem da produ cao energetica e de oxigenio reativo, descobertas re-
centes relatam o papel da mitocondria em varios outros processos celulares.
A mitocondria contem o seu proprio DNA e toda maquinaria necessaria para a sntese
9
proteica, apesar de sintetizar somente um pequeno n umero de protenas. A grande maio-
ria das protenas mitocondriais sao codicadas por genes nucleares e sao sintetizadas como
preprotenas em ribossomos citosolicos.
Uma vez que existe essa dependencia da sntese proteica realizada no citosol, o transporte
adequado destas protenas para os diversos compartimentos da mitocondria e fundamental
para o seu funcionamento e prolifera cao. A grande maioria das protenas mitocondriais
sintetizadas por genes nucleares e importada pos-traducionalmente, de modo que elas sao
liberadas diretamente no citosol e encaminhadas com o auxlio de protenas chaperonas para
os receptores localizados na membrana externa da organela.
A especicidade desse mecanismo de importa cao e estabelecida por sequencias de dire-
cionamento presentes principalmente na posi cao N-terminal das protenas. A transloca cao
da protena atraves das membranas biologicas da mitocondria depende de complexos recep-
tores/translocadores e nesse transporte as protenas devem estar totalmente desdobradas.
Muitas patologias, e em alguns casos doen cas graves como o cancer, podem residir no ina-
dequado funcionamento mitocondrial. Alem disso, algumas doen cas auto-imunes decorrem
de respostas imunologicas do paciente com produ cao de anticorpos contra protenas mito-
condriais. Acreditamos que o estudo sobre este mecanismo alem de inovar ao empregar uma
modelagem que faz uso das teorias da comunica cao e da codica cao, possa contribuir para
uma melhor compreensao do comportamento do sistema de importa cao de protenas.
De acordo com esta proposta, naturalmente surgem algumas perguntas: 1) Dentre os
diversos codigos usados para a transmissao da informa c ao, existe algum codigo corretor de
erros capaz de reproduzir sequencias de DNA (sequencias de direcionamento) e suas corres-
pondentes tas complementares? 2) Se existe, que codigo e este e qual sera a estrutura
matematica adequada para construir este codigo? Este trabalho encaminha, de maneira
positiva, uma resposta a estas perguntas.
1.4 Descri cao do Trabalho
Este trabalho esta organizado da seguinte forma.
No Captulo 2 apresentamos, de forma sucinta, o mecanismo de importa cao de protenas
mitocondrias e comentamos sobre alguns tipos de muta coes. Alem disso, descrevemos os
principais conceitos relacionados à codigos corretores de erros e à decodica cao de codigos
corretores de erros que foram utilizados no decorrer deste trabalho.
No Captulo 3 apresentamos as analogias entre um sistema de comuni cao digital e o
sistema de informa cao genetica. Propomos um modelo de sistemas de comunica cao para
o mecanismo de importa cao de protenas organelares e estabelecemos o codigo corretor de
10
erros e a estrutura matematica que reproduzem as sequencias de direcionamento. Utilizamos
o modelo proposto para importa cao de protenas organelares com o objetivo de descrever o
mecanismo de codica cao e decodica cao do transporte de protenas mitocondriais.
No Captulo 4 desenvolvemos um algoritmo para a reprodu c ao das sequencias de dire-
cionamento atraves dos codigos corretores de erros Z
4
-linear, Z
2
Z
2
-linear e Klein-linear.
As interpreta coes dos resultados foram realizadas sob o ponto de vista de codigos corretores
de erros, possibilitando assim, uma nova abordagem e uma classica cao matematica das
sequencias reproduzidas. Atraves dos resultados obtidos com o processo de codica cao, no
Captulo 5 descrevemos o processo de decodica cao destas sequencias. O processo de deco-
dica cao pode ser visto como um processo de regenera cao da sequencia que repara os erros
introduzidos durante os processos de replica cao e transcri cao.
Com a necessidade da redu cao de tempo e custos nos experimentos laboratoriais, no
Captulo 6 mostramos algumas aplica coes do modelo proposto para as analises mutacionais/po-
limorsmos e analises de hipoteses logeneticas. Esta nova abordagem que utiliza codigos
corretores de erros, em um contexto biologico, mostra-se bastante promissora. Finalmente,
no Captulo 7 apresentamos as conclusoes e as propostas para trabalhos futuros.
11
Captulo 2
Elementos de Biologia e Codigos
Corretores de Erros
Devido ao carater interdisciplinar deste trabalho, o objetivo principal deste captulo e
apresentar, de forma sucinta, a revisao de alguns conceitos sobre a importa cao de protenas
organelares, codigos corretores de erros e o processo de decodica cao dos codigos corretores
de erros.
O presente captulo esta organizado da seguinte maneira: A Se cao 2.1 apresenta uma
revisao do mecanismo de importa cao de protenas mitocondriais com o objetivo de mostrar
ao leitor o grau de sostica cao e complexidade que envolve todo esse processo. Alem disso,
descrevemos alguns tipos de muta coes que serao utilizadas nas interpreta coes dos resultados
deste trabalho. Nas Se coes 2.2 e 2.3 apresentamos os conceitos sobre a codica cao e deco-
dica cao de codigos corretores de erros, respectivamente. Estes conceitos serao utilizados no
desenvolvimento deste trabalho.
2.1 Importa cao de Protenas Organelares
As celulas eucarioticas contem membranas intracelulares que ocupam quase metade do
volume total celular em compartimentos intracelulares separados denominados organelas.
Os principais tipos de organelas envoltas por membranas presentes em todas as celulas eu-
carioticas sao o retculo endoplasmatico, o aparato de Golgi, o n ucleo, as mitocondrias, os
lisossomos, os endossomos e os perissomos; as celulas vegetais tambem contem plastdeos, tais
como cloroplastos. Cada organela contem um conjunto distinto de protenas responsaveis pela
media cao de suas fun coes exclusivas [5].
Cada protena organelar recem-sintetizada deve encontrar seu caminho a partir de ri-
bossomos livres ou associados à membrana do retculo endoplasmatico, onde e sintetizada,
13
Captulo 2. Elementos de Biologia e Codigos Corretores de Erros
ate a organela onde exercera sua fun cao. A protena segue uma rota especca, guiada por
sinais na sua sequencia de aminoacidos, que funcionam como sequencias sinalizadoras, ou
regioes sinalizadoras. As sequencias e as regioes sinalizadoras sao reconhecidas por recep-
tores de endere camento complementares que entregam a protena à organela-alvo apropriada.
As protenas com fun cao citosolica nao contem sinais de endere camento e permanecem no
citosol apos serem sintetizadas [5].
O encaminhamento de protenas recem-sintetizadas para o seu destino celular apropriado,
normalmente chamado de direcionamento de protenas ou distribuicao de protenas,
compreende dois tipos de processos muito diferentes. O primeiro processo geral envolve o di-
recionamento de uma protena para a membrana de uma organela intracelular e pode ocorrer
durante ou logo apos a sntese da protena, pela tradu c ao no ribossomo. O direcionamento
leva as protenas de membrana a se inserirem na bicamada lipdica da membrana, mas, no
caso das protenas sol uveis em agua, o direcionamento leva à transloca cao da protena inteira
atraves da membrana para o interior aquoso da organela. As protenas sao distribudas para
o retculo endoplasmatico (RE), as mitocondrias, os cloroplastos, os perixissomos e o n ucleo
por esse processo geral [6].
Um segundo processo de distribui cao geral se aplica às protenas que inicialmente sao
direcionadas para a membrana do RE entrando, desse modo, na via secretora. Essas
protenas incluem nao apenas as protenas sol uveis e as de membrana que residem no proprio
RE, mas tambem as protenas que sao secretadas a partir da celula, as enzimas e outras
protenas que residem no l umen do complexo de Golgi e dos lisossomos, bem como as protenas
integradas na membrana dessas organelas e da membrana plasmatica. O encaminhamento
para o RE, geralmente, envolve protenas nascentes que ainda estao no processo de sntese
[6].
A presente se cao esta dividida da seguinte maneira: Na Subse cao 2.1.1 apresentamos
uma ideia geral de alguns conceitos biologicos que serao usados no decorrer do trabalho,
informamos que esta se cao e parte integrante de [18]. A Subse cao 2.1.2 apresenta com
maiores detalhes o mecanismo de importa cao de protenas para as mitocondrias, abordando
de forma resumida, os complexos de transloca cao envolvidos no transporte das protenas para
as diferentes regioes da mitocondria. A Subse cao 2.1.3 fornece uma ideia geral sobre tipos
de muta coes. Esses conceitos serao usados na interpreta cao de alguns resultados.
2.1.1 A Molecula de DNA
O DNA e um acido desoxirribonucleico, isto e, um polmero de desoxinucleotdeos cuja
sequencia de base codica a informa cao genetica em todas as celulas vivas.
Os aspectos estruturais especcos do DNA variam, dependendo da origem e da fun cao de
14
cada molecula de DNA. As moleculas de DNA diferem em tamanho, conforma cao e topologia.
Apesar de algumas formas de DNA celulares existirem como estruturas de ta unica, a
estrutura de DNA mais difundida e a dupla helice.
A elucida cao da estrutura do DNA por James Watson e Francis Crick em 1953 e, em
geral, aceita como o marco do surgimento da biologia molecular moderna. A estrutura do
DNA de Watson-Crick nao apenas forneceu um modelo da molecula fundamental da vida,
como tambem sugeriu o mecanismo molecular da hereditariedade. Os achados de Watson e
Crick, listados como uma das principais descobertas intelectuais da ciencia, foram baseados,
em parte, em duas evidencias alem da regra de Charga: as formas tautomericas corretas
das bases e as indica coes de que o DNA seria uma molecula helicoidal.
As bases p uricas e pirimdicas dos acidos nucleicos podem assumir diferentes formas tau-
tomericas (tautomeros sao isomeros de conversao facil, diferindo entre si apenas nas posi coes
do hidrogenio, Figura 2.1).
Figura 2.1: Formas tautomericas das bases.
As informa coes estruturais limitadas, juntamente com a regra de Charga, forneceram
alguma ideia da estrutura do DNA. O modelo de Watson e Crick foi elucidado principal-
mente pela imagina cao deles e por estudos de constru cao de modelos. Uma vez publicado, o
modelo de Watson e Crick foi rapidamente aceito devido à sua simplicidade, associada à sua
obvia relevancia biologica. Investiga coes posteriores conrmaram a precisao geral do modelo,
15
apesar dos detalhes terem sido modicados.
O modelo de Watson e Crick possui as seguintes caractersticas principais:
1. Duas cadeias polinucleotdicas circundam um eixo comum formando a dupla helice
(Figura 2.2).
2. As duas tas de DNA sao antiparalelas (possuem dire coes opostas), mas cada uma
forma uma helice para o lado direito.
3. As bases ocupam o centro da helice, e as cadeias de a c ucar-fosfato estao dispostas na
periferia, minimizando a repulsao entre os grupos fosfato carregados. A superfcie da
dupla helice forma dois sulcos de largura desigual: a cavidade maior e a cavidade
menor (Figura 2.2).
4. Cada base esta ligada a uma base da ta oposta por meio de pontes de hidrogenio,
formando um par de base planar. A estrutura de Watson e Crick pode acomodar
apenas dois tipos de pares de base. Cada resduo de adenina deve formar o par com
um resduo de timina e vice-versa, e cada resduo de guanina deve formar par com um
resduo de citosina e vice-versa (Figura 2.3). Essas intera coes por pontes de hidrogenio,
um fenomeno denominado como pareamento das bases complementares, resulta
na associa cao especca das duas cadeias da ta dupla.
Figura 2.2: Estrutura tridimensional do
DNA.
Figura 2.3: Fitas complementares de DNA.
16
A estrutura de Watson e Crick podera acomodar qualquer sequencia de bases em uma
ta polinucleotdica se a ta oposta possuir a sequencia de bases complementares a ela. Isso
explica a regra de Charga. Mais importante ainda, sugere que cada ta de DNA pode atuar
como um molde para a sntese de sua ta complementar e, consequentemente, a informa cao
hereditaria esta codicada na sequencia de bases em qualquer ta.
A maioria das moleculas de DNA e extremamente grande, de acordo com sua fun cao
de conter toda a informa cao genetica da celula. Com raras exce coes, os organismos mais
complexos contem mais DNA. O genoma de um organismo, que e seu conte udo especco
de DNA, pode estar distribudo em diversos cromossomos (do grego, chromos, cor + soma,
corpo), cada um contendo uma molecula de DNA separada.
Devido o seu comprimento muito longo, as moleculas de DNA s ao descritas em termos do
n umero de pares de bases (pb) por milhares de pares de bases (quilobases em pares ou kb).
Apesar de cada molecula de DNA ser longa e relativamente rme, ela nao e completamente
rgida. A dupla helice de DNA forma espirais e voltas quando compactada dentro da celula.
Alem disso, dependendo da sequencia de nucleotdeos, o DNA pode adotar conforma coes
helicoidais levemente distintas. Por m, na presen ca de outros componentes celulares, o
DNA pode dobrar-se ou suas duas tas podem ser parcialmente desenroladas.
A dupla helice existe em varias geometrias designadas como DNA A, DNA B, DNA C
e DNA Z. A forma cao dessas diferentes conforma coes depende da composi cao em bases do
DNA e das condi coes fsicas. O modelo descrito por Watson e Crick possui a conforma cao
do DNA B.
2.1.2 Importa cao de Protenas em Mitocondrias
A mitocondria e uma das mais importantes organelas celulares que esta presente nas
celulas eucarioticas. Apresentam pequenos corpos no citoplasma, envoltos por uma camada
de membrana, que captam oxigenio e conservam a energia da oxida cao de compostos ali-
mentares - tais como a c ucares - para produzir a maior parte do ATP (adenosina trifosfato)
que fornece energia para as atividades da celula. As mitoc ondrias tem seu proprio genoma (na
forma de uma molecula circular), seus proprios ribossomos (que sao diferentes dos ribossomos
encontrados no citosol), e seu proprio RNA transportador [5].
A presen ca de material genetico na mitocondria fez emergir teorias sobre sua origem.
Muitos biologos argumentam que a mitocondria um dia teria sido um organismo bacteriano
fagocitado por uma celula eucariota, passando a partir da a viver em simbiose com seu
hospedeiro. Seja qual for a sua origem, sua fun cao e vital para a celula, sem a qual ha morte
celular e morte da propria mitocondria [5].
Cada mitocondria e limitada por duas membranas altamente especializadas com fun coes
17
vitais para a atividade mitocondrial. Juntas, elas denem dois compartimentos mitocondriais
separados: o espa co interno da matriz e o espaco intermembranas, bem mais estrito
(Figura 2.4). Se as mitocondrias forem cuidadosamente rompidas e fracionadas em seus
componentes separadamente, a composi cao bioqumica de cada uma das duas membranas e
dos espa cos denidos por elas pode ser determinada, cada um contendo a sua propria cole cao
de protenas com fun coes especcas [5].
Figura 2.4: Micrograa eletronica de uma mitocondria. Lodish et al., Molecular Cell Biology,
5th Edition.
As protenas codicadas por DNA mitocondrial sao sintetizadas nos ribossomos dentro
das organelas e direcionadas ao compartimento correto imediatamente apos a sntese. A
maioria das protenas localizadas nas mitocondrias, entretanto, e codicada por genes no
n ucleo e importada para dentro das organelas depois de sua sntese no citosol [6].
Nas mitocondrias, a importa cao de protenas requer energia e ocorre em pontos em que
as membranas externa e interna da organela estao em contato proximo. As mitocondrias
contem m ultiplas membranas e espa cos limitados por membranas, a distribui cao de varias
protenas para a sua localiza cao correta frequentemente requer a a cao sequencial de duas
sequencias de direcionamento de dois sistemas de transloca cao ligados à membrana: uma
para direcionar as protenas para dentro das mitocondrias e outra para direciona-las para
dentro do compartimento ou membrana correta da organela [5].
Todas as protenas que viajam do citosol para o mesmo destino na mitocondria tem sinais
de direcionamento que compartilham motivos comuns, embora as sequencias-sinal geralmente
18
nao sejam identicas, Figura 2.8. Dessa maneira, os receptores que reconhecem esses sinais
sao capazes de se ligar a diversas sequencias diferentes, porem relacionadas [6].
As protenas importadas para as mitocondrias sao sintetizadas sob a forma de precur-
sores consistindo da protena madura adicionada de uma pre-sequencia amino-terminal (N-
terminal) ou carboxi-terminal (C-terminal), que confere a especicidade de importa cao. As
sequencias N-terminais sao posteriormente removidas apos ou durante a passagem pelo enve-
lope mitocondrial. Protenas destinadas à membrana externa nao apresentam uma sequencia
de direcionamento tpica, de forma que a informa cao de direcionamento localiza-se na por cao
interna da estrutura primaria [7].
O endere camento das protenas, porem, e mais complexo do que a simples presen ca de
sequencias de direcionamento. Como no caso da mitocondria, ele envolve varios subcom-
partimentos. As protenas direcionadas para cada um desses subcompartimentos requerem
informa coes de direcionamento especcas e vias de direcionamento que envolvem fatores
comuns e distintos a cada etapa.
Apesar disso, em [8], uma via de importa cao, dividida em quatro etapas pode ser es-
quematizada:
1. Sntese da protena precursora assim como seu reconhecimento e manuten cao de sua
conforma cao adequada para a importa cao atraves da atua cao de chaperonas moleculares
no citoplasma;
2. Liga cao do precursor a receptores e transporte desse precursor atraves da membrana
externa da mitocondria pelo complexo TOM (translocase of the mitochondrial outer
membrane);
3. Transporte do precursor atraves do espa co intermembrana e envelope nuclear pelo com-
plexo TIM (translocase of the mitochondrial inner membrane);
4. Processamento proteoltico do precursor, assim como a sua distribui cao intra-organelar
e montagem para a aquisi cao da forma funcional.
Os canais de translocacao
A mitocondria esta dividida em quatro subcompartimentos: a membrana externa, o
espa co intermembanas, a membrana interna e a matriz. Cada um dos subcompartimen-
tos contem um conjunto distinto de protenas. Aproximadamente mais de 1000 protenas
mitocondriais sao codicadas pelo genoma nuclear, sintetizadas no citoplasma por ribosso-
mos citosolicos como protenas precursoras, reconhecidas e/ou mantidas em uma forma pouco
estruturada (via a cao das chaperonas moleculares), e nalmente importadas com a ajuda de
19
diferentes complexos de transloca cao presentes na membrana externa e na membrana interna
da mitocondria [9]. O complexo TOM e o complexo SAM (sorting and assembly machi-
nery) estao situados na membrana externa e os complexos TIM23 e TIM22 estao ancorados
na membrana interna [10], como ilustra a Figura 2.5.
Figura 2.5: Os translocons de protenas na mitocondria. Pfanner et al., Assembling the
Mitochondrial Outer Membrane, Nature Structural & Molecular Biology, Vol. 11, pp.
1044-1048, 2004.
A maioria das protenas mitocondriais e reconhecida pelos translocons por meio de uma
sequencia de direcionamento presente normalmente em sua regiao amino-terminal chamada
de pre-sequencia ou sequencia de direcionamento. A eciencia do processo de importa cao de
uma protena reside nas intera coes que ocorrem entre a sua pre-sequencia e os aparatos de
transloca cao presentes nas membranas da mitocondria e no citosol [9].
O complexo TOM
O complexo TOM esta ancorado na membrana externa e e necessario para a importa cao
de todas as protenas mitocondriais codicadas no n ucleo [5].
A maquinaria TOM contem receptores de importa cao que reconhecem as protenas precur-
soras mitocondriais atraves de suas sequencias de direcionamento e, entao, iniciam o processo
de transloca cao dessa protena para o seu devido local [11].
O complexo TOM e mais bem estudado em leveduras. Nesse organismo ele e constitudo
por nove subunidades: Tom70, Tom71, Tom40, Tom37, Tom20, Tom22, Tom7, Tom6 e
Tom5 (Figura 2.6). Essas nove subunidades formam tres subcomplexos: Tom20-Tom22 e
20
Tom70/Tom71-Tom37 que funcionam como receptores para os precursores, e Tom40-Tom22-
Tom7-Tom6-Tom5 que forma o poro geral de inser cao (GIP general insertion pore) [11].
Figura 2.6: O complexo TOM. Dekker et al., Preprotein Translocase of the Outer Mitochon-
drial Membrane: Molecular Dissection and Assembly of the General Import Pore Complex,
Molecular and Cellular Biology, Vol. 18, pp. 6515-6524, 1998.
As protenas Tom20, Tom22 e Tom70 funcionam como receptores para as protenas precur-
soras mitocondriais. Tom20 e Tom22 formam o complexo receptor principal sendo que Tom22
interage com precursores contendo sequencias de direcionamento internas ou no amino termi-
nal, enquanto que Tom20 reconhece especicamente pre-sequencias amino terminais. Alem
disso, Tom22 ancora-se na membrana externa da mitocondria e forma uma conexao entre os
dois subcomplexos Tom20-Tom22 e Tom70/Tom71-Tom37 [12]. Tom70 interage com precur-
sores que possuem sequencias de direcionamento internas. Tom37 associa-se com Tom70, e
evidencias geneticas indicam que ocorre uma intera cao funcional entre eles, indicando que
Tom37 e uma subunidade do receptor Tom70. As protenas precursoras inicialmente reco-
nhecidas por Tom70 sao transferidas para Tom20 e/ou Tom22 antes de sua inser cao no GIP
[11].
Tom40 representa o maior componente do GIP e e fundamental para a sobrevivencia da
mitocondria. A protena Tom5 funcionalmente liga receptores do GIP e promove a inser cao
dos precursores. Enquanto Tom5 interage diretamente com os precursores, Tom6 e Tom7
inuenciam na intera cao entre Tom20-Tom22 e Tom40 [11]. O primeiro favorecendo as
intera coes e o segundo favorecendo a dissocia cao formando um equilbrio dinamico que e
necessario à importa cao de protenas [11].
21
O complexo TIM 23
O complexo TIM23 e o maior translocador de precursores mitocondriais da membrana
interna. Ele e usado por todas as protenas que sao direcionadas para a matriz e a maioria das
protenas da membrana interna. O translocador TIM23 necessita de duas fontes de energia:
o potencial de membrana e o ATP, para realizar a inser cao do precursor. O complexo TIM23
e responsavel pela importa cao de precursores contendo sinal de direcionamento para a matriz
mitocondrial [13].
O complexo TIM23 ilustrado na Figura 2.7, em leveduras, pode ser estruturalmente e
funcionalmente subdividido em:
1. Canal de translocacao, que esta integrado à membrana interna e e composta por:
Tim17, Tim21, Tim23 e Tim50;
2. Motor de importacao, que esta ancorado na matriz e e composto por: Tim14, Tim16,
Tim44, Mge1 e mtHsp70.
Figura 2.7: O complexo TIM23. Mokranjac, et al., Protein import into mitochondria Bio-
chemical Society, Vol. 33, pp. 1019-1023, 2005.
Tim50 e o primeiro componente do complexo TIM23 que interage com a protena precur-
sora apos ela ter cruzado a membrana externa [13]. As subunidades Tim17 e Tim23 estao
inseridas na membrana interna e funcionam como um canal, enquanto que Tim44 interage
com Tim23 do lado da matriz na membrana interna mitocondrial [14]. Juntamente com mt-
Hsp70, Mgel (co-chaperone) e consumo de ATP, o complexo TIM23 promove o transporte do
precursor atraves de varios ciclos liga-desligado precursor com mt-Hsp-70. Esse mecanismo
pode ser interpretado por meio de um modelo chamado motor molecular [15].
22
O complexo TIM 22
O complexo TIM22 e responsavel pela inser cao de carreadores na membrana interna
mitocondrial. Em leveduras e constitudo por Tim22, Tim54, Tim18 e Tim12 [16]. Muitas
protenas que integram a membrana interna, tais como a ADP/ATP carreadores (AAC) e
outros membros da famlia de carreadores mitocondriais, sao sintetizados sem o sinal classico
N-terminal de direcionamento para a matriz. Tais precursores sao importados via o complexo
TIM22. O transporte da famlia de carreadores atraves do espa co intermembrana e sua
transferencia para o complexo TIM22 e mediado por protenas de baixo peso molecular
chamadas: Tim8, Tim9, Tim10, Tim12 e Tim13. Essa importa c ao e explicada em [17]
atraves de varios estagios:
1. Estagio 1. O precursor citosolico do AAC e reconhecido por receptores especializados
do complexo TOM;
2. Estagio 2. Ele e translocado parcialmente pelo complexo TOM e interage com o com-
plexo Tim9-Tim10 no espa co intermembranas;
3. Estagio 3. O precursor e transferido para o complexo Tim9-Tim10-Tim12 que esta
associado ao complexo Tim22, que por sua vez, se encontra ancorado na membrana
interna;
4. Estagio 4. Na presen ca de um potencial de membrana, , Tim22 media a inser cao
do precursor AAC para o interior da membrana interna;
5. Estagio 5. Quando o e dissipado, o precursor AAC passa por um estagio inter-
mediario, como no estagio 3, onde ele esta parcialmente translocado entre a membrana
externa e interna. Esse estagio exige o Tim10.
Os carreadores sao sintetizados sem uma pre-sequencia e contem sinaliza cao interna para
o direcionamento mitocondrial e importa cao.
O complexo SAM
Estudos recentes mostram que, alem do complexo de transloca cao TOM, as protenas
da membrana mitocondrial sao inseridas com o auxlio de uma maquinaria de sele cao e
montagem (SAM sorting assembly machinery) [7] e [10].
O complexo SAM e essencial para a viabilidade da celula. Protenas do complexo SAM
tem sido descritas. Uma delas e a Sam50 uma protena da membrana externa e representa a
subunidade central do complexo SAM, esta protena contem um domnio N-terminal que esta
23
exposto no espa co intermembranas. Outras protenas identicadas foram a Sam 35 e a Sam
37. Porem, a fun cao molecular exata de cada uma dessas protenas ainda sao desconhecidas,
embora alguns experimentos demonstram que essas protenas podem colaborar para uma
integra cao eciente de precursores de membrana externa [10].
Diferentes rotas para a importacao de protenas mitocondriais
As protenas precursoras podem ser importadas para as mitocondrias atraves de sete
rotas diferentes (Figura 2.8) que estao classicadas da seguinte forma: as protenas que sao
importadas para a membrana interna podem seguir 3 rotas diferentes; as protenas que se
destinam ao espa co intermembranas seguem 2 rotas; as protenas importadas para a matriz
e para a membrana externa seguem apenas uma unica rota.
Figura 2.8: Diferentes rotas para a importa cao de protenas mitocondriais. Lodish et al.,
Molecular Cell Biology, 5th Edition.
1. Importacao de protenas para o interior da matriz mitocondrial
As protenas importadas para a matriz da mitocondria sao geralmente captadas do
citosol dentro de segundos ou minutos apos a sua libera cao pelos ribossomos por um
mecanismo pos-traducional, isto e, as protenas mitocondriais sao primeiro completa-
mente sintetizadas como protenas precursoras no citosol e, entao, translocadas para
24
a mitocondria [5]. A Figura 2.9 ilustra a importa cao de protenas para a matriz da
mitocondria.
Figura 2.9: Importa cao de protenas para o interior da matriz. Lodish et al., Molecular Cell
Biology, 5th Edition.
As protenas precursoras sintetizadas nos ribossomos citosolicos sao mantidas em um
estado nao-dobrado ou parcialmente dobrado pelas chaperonas ligadas, como a Hsc70
(etapa 1). Depois que uma protena precursora se liga a um receptor de importa cao
proximo ao stio de contato com a membrana interna (etapa 2), ela e transferida para
dentro do poro principal de importa cao (etapa 3). A protena sendo transportada
atravessa, entao, esse canal e um canal adjacente na membrana interna (etapas 4 e 5).
Note que o transporte ocorre em stios de contato raros, onde as membranas interna
e externa parecem se tocar.
A liga cao da protena sendo transportada pela chaperona Hsc70 da matriz e a hidrolise
de ATP subsequente pela Hsc70 ajudam a direcionar a importa cao para dentro da
matriz. Uma vez que a sequencia de capta cao-direcionamento seja removida por uma
protease da matriz e a Hsc70 seja liberada da protena recem-importada (etapa 6), ela
se dobra na conforma cao madura e ativa dentro da matriz (etapa 7). O dobramento de
algumas protenas depende das chaperoninas da matriz.
2. Importacao de protenas para a membrana externa mitocondrial
Os experimentos com a porina mitocondrial (P70) forneceram informa coes sobre como
25
protenas sao direcionadas para a membrana mitocondrial externa, Figura 2.10. Uma
sequencia curta de direcionamento para a matriz na extremidade N-terminal da P70
e seguida por um longo trecho de aminoacidos hidrofobicos (ver Figura 2.8). Se a
sequencia hidrofobica e eliminada experimentalmente da P70, a protena se acumula
no espa co da matriz, com a sua sequencia de direcionamento para a matriz ainda li-
gada. Essa observa cao sugere que as sequencias hidrofobicas longas funcionam como
sequencias de naliza cao que tanto impedem a transferencia da protena para dentro
da matriz como as ancoram como uma protena integrada na membrana externa. Nor-
malmente, a sequencia de direcionamento para a matriz e a sequencia de naliza cao de
transferencia nao sao clivadas da protena ancorada. A fonte de energia para direcionar
as protenas de membrana externa atraves do poro geral de importa cao ainda nao foi
identicada.
Figura 2.10: Importa cao de protenas para membrana externa. Pfanner, Assembling the
Mitochondrial Outer Membrane, Nature Structural & Molecular Biology, Vol. 11, pp. 1044-
1048.
3. Importacao de protenas para o espaco intermembranico matriz mitocon-
drial
Duas vias para transportar as protenas do citosol para o espa co intermembrana mito-
condrial estao ilustradas na Figura 2.11.
A via A, a principal via de encaminhamento para o espa co intermembranas, e similar
à via A para encaminhamento para a membrana interna (ver Figura 2.12). A principal
diferen ca e que a sequencia de direcionamento interna nas protenas, como o citocromo
26
Figura 2.11: Importa cao de protenas para o espa co intermembranas. Lodish et al., Molecular
Cell Biology, 5th Edition.
b
2
destinado para o espa co intermembrana, e reconhecido por uma protease da mem-
brana interna, que cliva a protena no lado do espa co intermembranas da membrana.
A protena liberada se dobra e se liga ao seu co-fator heme dentro do espa co inter-
membranas. A via B envolve o encaminhamento direto para o espa co intermembranas
atraves do poro geral de importa cao Tom40, na membrana externa.
4. Importacao de protenas para a membrana interna mitocondrial
Tres vias para transportar as protenas do citosol para a membrana mitocondrial interna
estao ilustradas na Figura 2.12.
As protenas com diferentes sequencias de direcionamento sao encaminhadas para a
membrana interna por vias diferentes. Em todas as tres vias, as protenas cruzam a
membrana externa pelo poro geral de importa cao Tom40. As protenas encaminhadas
pelas vias A e B contem uma sequencia de direcionamento para a matriz na extremidade
N-terminal que e reconhecida pelo receptor de importa cao Tom20/22, na membrana
externa. Embora ambas as vias utilizem o canal da membrana interna Tim23/17, elas
diferem porque a protena precursora inteira entra na matriz e e, entao, redirecionada
para a membrana interna, na via B.
27
Figura 2.12: Importa cao de protenas para a membrana interna. Lodish et al., Molecular
Cell Biology, 5th Edition.
A Hsc70 da matriz tem um papel similar ao seu papel na importa cao de protenas
sol uveis da matriz (ver Figura 2.9). As protenas encaminhadas pela via C contem
sequencias internas que sao reconhecidas pelo receptor de importa cao Tom70. Um canal
de transporte diferente, na membrana interna (Tim22/45), e utilizado nesta via. Duas
protenas intermembranas (Tim9 e Tim10) facilitam a transferencia entre os canais
externo e interno.
2.1.3 Muta coes
Em biologia, as muta coes sao mudan cas na sequencia dos nucleotdeos do material genetico
de um organismo. Muta coes podem ser causadas por erros de copia do material durante a
divisao celular, por exposi cao a radia cao ultravioleta ou ionizante, mutagenicos qumicos, ou
vrus. A fonte da muta cao nao se relaciona com seus efeitos, apesar de seus efeitos estarem
relacionados com quais celulas sao afetadas pela muta c ao.
Muta coes geram varia coes no conjunto de genes da popula cao. Muta coes desfavoraveis
(ou deleterias) podem ter sua frequencia reduzida na popula cao por meio da sele cao natural,
enquanto muta coes favoraveis (benecas ou vantajosas) podem se acumular, resultando em
mudan cas evolutivas adaptativas. Por exemplo, uma borboleta pode produzir uma prole
com novas muta coes. A maioria dessas muta coes nao ter a efeito. No entanto, uma delas
pode mudar a cor dos descendentes desse indivduo, tornando-os mais difceis (ou faceis) de
serem vistos por predadores. Se essa mudan ca de cor for vantajosa, a chance dessa borboleta
sobreviver e produzir sua propria prole sera um pouco maior, e com o tempo o n umero de
28
borboletas com essa muta cao constituira uma maior propor cao da popula cao.
Muta coes neutras sao denidas como muta coes cujos efeitos nao inuenciam a aptidao
dos indivduos. Acredita-se que a imensa maioria das muta coes nao tem efeito signicativo
na aptidao dos organismos. Alem disso, mecanismos de reparo de DNA sao capazes de
corrigir a maior parte das mudan cas antes que elas se tornem muta coes permanentes, e
muitos organismos tem mecanismos para eliminar celulas somaticas que sofreram muta coes.
As muta coes sao consideradas o mecanismo que permite a a cao da sele cao natural, ja
que insere a varia cao genetica sobre a qual ela ira agir, fornecendo as novas caractersticas
vantajosas que sobrevivem e se multiplicam nas gera coes subsequentes ou as caractersticas
deleterias que desaparecem em organismos mais fracos.
A sequencia de um gene pode ser alterada de diversas maneiras. Muta coes geneticas tem
diferentes efeitos na sa ude, dependendo de onde ocorrem e se alteram a fun cao de protenas
essenciais. As muta coes sao classicadas de varias formas, como por exemplo por efeito na
estrutura, na fun cao, etc. Segue alguns exemplos de muta coes:
1. Muta coes de pequena escala, como aquelas que afetam um gene em um ou poucos
nucleotdeos, incluindo:
Mutacao de ponto: geralmente causada por substancias mutagenicas ou erros
na replica cao do DNA, ha a troca de um unico nucleotdeo por outro [19]. A mais
comum, conhecida por transi cao, ocorre quando ha a troca de uma purina por
outra purina (A G) ou uma pirimidina por outra pirimidina (C T). Um
tipo de muta cao de ponto menos comum e a transversao, em que ha a troca de uma
purina por uma pirimidina, ou vice-versa (C/T A/G). Uma muta cao de ponto
pode ser revertida por outra muta cao de ponto em que o nucleotdeo e mudado de
volta ao seu estado original (reversao verdadeira) ou por uma reversao a partir de
outra muta cao (uma muta cao complementar em outro local que resulta no retorno
do gene à fun cao anterior) [20]. Muta coes de ponto que ocorrem dentro da regiao
codicadora da protena podem ser classicadas em tres tipos, dependendo do tipo
de expressao apresentado pelo codon mutado [6]:
a) Muta cao silenciosa: nao causa mudan ca na sequencia de aminoacidos ou na
atividade da protena codicada pelo gene.
b) Muta cao de sentido trocado: consiste na substitui cao de um aminoacido por
outro resultando em consequencias fenotpicas observaveis devido a mudan ca
na atividade da protena;
c) Muta cao sem sentido: e a introdu cao de um codon de parada prematuro que
interrompe a protena antes de seu termino.
29
Insercao: ocorre pela adi cao de um ou mais nucleotdeos na sequencia de DNA.
Geralmente, esse tipo de muta cao e causado por transposons ou erros durante a
replica cao de elementos repetitivos (sequencias AT, por exemplo). Insersoes na
regiao codicadora de um gene podem alterar o corte (splicing) do mRNA, ou
causar mudan ca no quadro de leitura dos codons.
Delecao: Ha a remo cao de um ou mais nucleotdeos da sequencia de DNA. As-
sim como insersoes, essas muta coes podem modicar o quadro de leitura do gene.
Geralmente elas sao irreversveis; apesar de teoricamente a mesma sequencia poder
ser restaurada por inser cao, elementos de transposi cao capazes de reverter uma
dele cao muito curta (com uma ou duas bases) em um dado local sao muito im-
provaveis ou mesmo inexistentes.

E importante notar que uma dele cao nao e o
oposto exato de uma inser cao. Enquanto dele coes sao aleatorias, inser coes consis-
tem de uma sequencia especca sendo inserida em locais que nao sao completa-
mente aleatorios.
As mutacoes malecas sao mudan cas no DNA causadas por muta coes que podem causar
erros na sequencia das protenas, criando protenas parcial ou completamente nao-funcionais.
Para funcionar corretamente, cada celula depende de milhares de protenas para funcionar
nos stios certos. Quando uma muta cao altera uma protena que tem um papel importante
no corpo, pode resultar numa doen ca. Uma enfermidade causada por muta coes em um ou
mais genes e chamado de doen ca genetica. Contudo, apenas uma pequena percentagem
de muta coes causa doen cas geneticas; a maioria nao tem impacto na sa ude. Por exemplo,
algumas muta coes alteram a sequencia de bases de DNA de um gene mas nao mudam a fun cao
da protena produzida por esse gene. Estudos na mosca da fruta Drosophila melanogaster
sugerem que se uma muta cao muda de fato uma protena, esta mudan ca sera provavelmente
maleca, com 70 por cento destas muta coes tendo efeitos negativos e sendo as restantes
neutras ou fracamente benecas [21].
Se uma muta cao estiver presente numa celula germinal, pode dar origem a descendentes
portadores dessa muta cao em todas as suas celulas. Este e o caso de doen cas hereditarias. Por
outro lado, uma muta cao pode ocorrer numa celula somatica de um organismo. Algumas
muta coes podem estar presentes em todos os descendentes desta celula e certas muta coes
podem provocar que a celula se torne maligna, e consequentemente cause cancer [22].
Muitas vezes, muta coes genicas que poderiam provocar uma doen ca genetica sao reparadas
pelo sistema celular de repara cao do DNA. Cada celula tem um certo n umero de vias
bioqumicas atraves do qual enzimas reconhecem e reparam erros no DNA. Como o DNA
pode ser danicado ou mutado de diversas maneiras, o processo de repara cao do DNA e uma
30
maneira importante do corpo se proteger de doen cas.
As mutacoes benecas sao muta coes que levam à novas versoes de protenas que aju-
dam o organismo e futuras gera coes a adaptar-se melhor a mudan cas no seu ambiente. Por
exemplo, uma dele cao especca de 32 pares de base no CCR5 humano confere resistencia ao
HIV a homozigoticos e atrasa o despoletar do SIDA em heterozigoticos. A muta cao CCR5 e
mais comum em pessoas com ascendencia europeia. Uma teoria para a etiologia da relativa
alta frequencia do CCR5-32 na popula cao europeia e que esta confere resistencia à peste
bubonica que agelou a Europa em meados do Seculo XIV. Pessoas que tinham esta muta cao
foram capazes de sobreviver à infec cao, por este motivo a sua frequencia na popula cao au-
mentou [23].
2.2 Codigos Corretores de Erros
A teoria de codigos e um ramo da matematica em franca atividade possuindo varias ra-
mica coes que utilizam ferramentas bastante diversas, como por exemplo, teoria dos n umeros,
teoria dos grupos, combinatoria, geometrias nitas e geometria algebrica, dentre outras.
Codigos sao utilizados sempre que se deseja transmitir ou armazenar dados. Por exemplo, nas
comunica coes via satelite, nas comunica coes internas de um computador, no armazenamento
de dados em CD e DVD ou armazenamento optico de dados.
O objetivo de um sistema de comunica cao e transmitir informa cao de uma fonte para um
destinatario atraves de um canal de comunica cao com a maior conabilidade possvel.
A teoria de codigos foi fundada pelo matematico Claude E. Shannon [24], na decada de
40. A teoria de codigos corretores de erros teve incio nesta mesma decada com os trabalhos
de Golay [25], Hamming [26] e Shannon [24]. A grande descoberta da epoca surgiu, princi-
palmente devido a Shannon, com os modelos de codigos capazes de detectar e corrigir erros
num sistema de comunica coes. Shannon provou que para taxas de transmissao de informa cao
menores do que a capacidade de canal, sempre existe um codigo que permite uma transmissao
com probabilidade de erro arbitrariamente pequena.
Assim, as pesquisas se direcionaram para a procura de bons codigos e bons conjuntos
de sinais associados a esses codigos, bem como, projetar decodicadores ecientes para esses
codigos.
Na linha de codigos surgiram as classes de codigos lineares e nao-lineares e na linha de
conjuntos de sinais foram propostos constela coes de sinais otimas sob diversas restri coes,
como por exemplo, potencia media, potencia de pico, faixa e algumas combina coes destas, os
codigos de Slepian, seus variantes obtidos atraves de grupos de transforma coes ortogonais,
as constela coes tendo como base reticulados, etc.
31
Essas linhas de pesquisa sempre foram tratadas separadamente ate 1982, quando Unger-
boeck [27] mostrou que, atraves do conceito de particionamento de conjunto de sinais, ganhos
de codica cao signicativos eram obtidos. Surgindo assim, a modula cao codicada.
Dentro dessa nova linha de pesquisa, Forney [28] apresentou uma nova classe de codigos
denominada codigos geometricamente uniformes que, alem de englobar os codigos de Slepian
e os codigos reticulados, estende o procedimento proposto por Ungerboeck.
A procura de bons codigos continua sendo relevante, porem tendo que satisfazer, sempre
quando possvel, a propriedade de serem geometricamente uniformes.
Os codigos lineares constituem uma classe importante de c odigos por possurem uma
estrutura algebrica permitindo que principalmente a decodica cao seja bastante simplicada.
Em contrapartida, a capacidade de corre cao de erros destes codigos nao e melhor do que
aquela de certos codigos nao-lineares.
Por outro lado, os codigos nao-lineares nao possuem uma estrutura algebrica como a dos
lineares. Esta exibilidade possibilita obter codigos com distancias de Hamming maiores
do que as encontradas com os codigos lineares. Porem, a falta de uma estrutura algebrica
aumenta a complexidade do processo de decodica cao.
O objetivo e apresentar alguns dos principais conceitos de algebra e codigos que sao
fundamentais para a compreensao do presente trabalho. Na Subse cao 2.2.1 apresentamos as
principais deni coes e propriedades das estruturas de grupo, anel e corpo. Estas estruturas
sao fundamentais na teoria de codigos corretores de erro, pois facilitam os processos de
codica cao, decodica cao e analise de desempenho destes. Na Subse cao 2.2.3 revemos os
conceitos relacionados a codigos de bloco e suas principais caractersticas. A Subse cao 2.2.4
apresenta uma breve introdu cao aos codigos geometricamente uniformes, aos conjuntos de
sinais casados a grupos e aos codigos G-lineares. Estes conceitos foram usados com o objetivo
de propor um sistema de comunica cao para a importa cao de protenas organelares, Captulo
3.2. Nas Se coes 2.2.5 e 2.2.6 abordamos os principais conceitos sobre codigos BCH utilizados
no decorrer do presente trabalho.
2.2.1 Estruturas Algebricas
Os conceitos apresentados nesta subse cao podem ser encontrados em [29] e [30].
Grupos
Denicao 2.2.1. Uma opera c ao bin aria sobre um conjunto S e uma regra que associa
algum elemento de S a cada par ordenado (a, b) de elementos de S. (a b denotara o elemento
associado a (a, b) atraves de .
32
Essa necessidade de que o elemento esteja tambem em S e conhecida como condicao de
fechamento. Assim, exigimos que S seja fechado sob uma opera cao binaria em S. Note
que apenas um unico elemento e associado a cada par ordenado de S.
Denicao 2.2.2. Um grupo G, ) e um conjunto nao vazio G com uma opera cao binaria
sobre G, tal que os seguintes axiomas sao satisfeitos:
1. A opera cao binaria e associativa;
2. Ha um elemento e em G tal que e x = x e = x para todo x G. (Esse elemento e e
o elemento identidade para sobre G);
3. Para cada a em G, existe um elemento a
1
em G com a propriedade que a
1
a =
aa
1
= e. (O elemento a
1
e o elemento inverso de a com rela c ao ` a opera c ao
).
Como consequencia da Deni cao 2.2.2 temos os seguintes resultados:
1. O elemento identidade de um grupo G e unico.
2. O inverso de cada elemento pertencente a um grupo G e unico.
Denicao 2.2.3. Um grupo G e abeliano (ou comutativo) se sua opera cao binaria for
comutativa.
Exemplo 2.2.1. O conjunto Z sob a opera cao + e um grupo. Note que todas as condi coes
da deni cao de um grupo sao satisfeitas. Este grupo e abeliano.
Uma classe de grupos bastante usada em codigos corretores de erro e a dos grupos Z
n
,
ou seja, os inteiros sob adi cao modulo n.
Denicao 2.2.4. Seja n um inteiro positivo e sejam h e k inteiros quaisquer. O resto r
quando h + k e dividido por n, segundo o algoritmo da divisao de Euclides, e a soma de h
e k m odulo n. Assim, temos que Z
n
= 0, 1, 2, , n 1.
Analogamente, podemos denir produto de s e t modulo n como sendo o resto da
divisao de (s t) por n.
Teorema 2.2.1. O conjunto Z
n
e um grupo sob a opera cao adi cao modulo n.
Denicao 2.2.5. Se G e um grupo nito, entao a ordem de G, [G[, e o n umero de elementos
de G.
33
Denicao 2.2.6. Se um subconjunto H de um grupo G e fechado sob a opera cao binaria sobre
G e se H e um grupo sob esta opera cao binaria, entao H e um subgrupo de G. Escrevemos
H G.
Denicao 2.2.7. Seja H um subgrupo de um grupo G. Diz-se que H e normal em G, ou H e
um subgrupo normal de um grupo G, se qualquer uma das seguintes condi coes equivalentes
ocorrer:
1. gH = Hg para todo g G;
2. g
1
Hg = H para todo g G;
3. g
1
Hg H para todo g G;
4. g
1
hg H para todo g G e h H.
Exemplo 2.2.2. Todos os subgrupos de grupos abelianos sao normais.
Teorema 2.2.2. Seja G um grupo e seja a G. Entao
H = a
n
[ n Z,
e um subgrupo de G e e o menor subgrupo de G que contem a, ou seja, qualquer outro subgrupo
que contem a contem tambem H.
Denicao 2.2.8. O grupo H do Teorema 2.2.2 e o subgrupo cclico de G gerado por a,
e o denotamos por a).
Denicao 2.2.9. Dados um grupo G e um elemento a G, se ocorrer que
G = a
n
[ n Z,
entao a e um gerador de G e o grupo G = a) e cclico.
Exemplo 2.2.3. O grupo Z sob adi cao e um grupo cclico cujos geradores sao 1 e 1.
Denicao 2.2.10. Uma rela cao sobre um conjunto S que satisfaz as seguintes propriedades
para todo a, b, c S,
1. a a;
2. Se a b, entao b a;
3. Se a b e b c, entao a c,
34
e uma rela c ao de equivalencia sobre S. Cada celula a da parti cao dada por uma rela cao
de equivalencia e uma classe de equivalencia.
Denicao 2.2.11. Seja H um subgrupo de um grupo G. O subconjunto de G
aH = ah [ h H,
e a classe lateral ` a esquerda de H contendo a. Analogamente,
Ha = ha [ h H,
e a classe lateral ` a direita de H contendo a.
Teorema 2.2.3 (Teorema de Lagrange). Seja H um subgrupo de um grupo nito G. Entao
a ordem de H e um divisor da ordem de G, ou seja,
[H[ (n umero de classes laterais de G com rela cao a H) = [G[.
Corolario 2.2.1. Todo grupo cuja ordem e um n umero primo e cclico.
Teorema 2.2.4. A ordem de qualquer elemento de um grupo nito divide a ordem do grupo.
Teorema 2.2.5. Seja H um subgrupo de um grupo G. Entao a multiplica cao de classes
laterais à esquerda e denida como
(aH)(bH) = (ab)H,
se, e somente se, H e normal em G.
Denicao 2.2.12. Seja H um subgrupo normal de G. Entao, o conjunto das classes laterais
de H formam um grupo, denotado por G/H, sob a opera cao binaria (aH)(bH) = (ab)H. O
grupo G/H e chamado grupo quociente de G modulo H.
Exemplo 2.2.4. Como Z e um grupo abeliano, nZ e um subgrupo normal. Logo, temos o
grupo quociente Z/nZ = Z
n
.
Denicao 2.2.13. A ordem n de um elemento a pertencente a um grupo G e o menor inteiro
positivo tal que a
n
= e, onde e e a identidade do grupo.
Denicao 2.2.14. Considere dois grupos quaisquer G e G
e a fun cao (ou mapeamento)

: G G
. Dizemos que e um homomorsmo de G em G
se
(ab) = (a)(b)
35
para todo a, b G. (Note que o produto ab ocorre em G, enquanto que o produto (a)(b)
ocorre em G
).
Denicao 2.2.15. Um isomorsmo de G em G
e um homomorsmo onde a fun cao

: G G
e bijetora. Dizemos que G e G
sao isomorfos e escrevemos G
= G
.
2.2.2 Aneis
Denicao 2.2.16. Um anel R, +, ) e um conjunto nao vazio R juntamente com duas
opera coes binarias + e denidas sobre R, as quais chamamos de adi cao e multiplica cao, tal
que os seguintes axiomas sao satisfeitos:
1. R, +) e um grupo abeliano;
2. A opera cao de multiplica cao e associativa, isto e, (ab)c = a(bc), a, b, c R;
3. Para todo a, b, c R, e valida a lei distributiva à esquerda, a(b + c) = (ab) + (ac), e à
lei distributiva à direita, (a +b)c = (ac) + (bc).
`
As vezes dizemos apenas R e um anel ou falamos do anel R, por simplica cao de
linguagem. Isto pressupoe, naturalmente, um par de opera coes em R com as propriedades
citadas.
Exemplo 2.2.5. Sao exemplos de aneis: Z, +, ), Q, +, ), R, +, ), C, +, ) e o conjunto
dos polinomios da forma a
0
+ a
1
x + a
2
x
2
+ + a
n
x
n
na variavel x e coecientes inteiros,
com as opera coes de adi cao e multiplica cao de polinomios.
Exemplo 2.2.6. O conjunto 0, 1, . . . , n 1 forma um anel sob as opera coes de soma e
produto modulo n.
Denicao 2.2.17. Dizemos que Q e um subanel de um anel R se Q R e Q tambem forma
um anel sob as opera coes + e , herdadas de R.
Denicao 2.2.18. Sejam R e R aneis. Uma fun cao (mapeamento) : R R
e um
homomorsmo se as condi coes abaixo sao satisfeitas, para a, b R:
1. (a +b) = (a) + (b);
2. (ab) = (a)(b).
Denicao 2.2.19. Um isomorsmo de R e R
e um homomorsmo : R R
bijetor.
Dizemos entao que R e R
sao isomorfos.
36
Denicao 2.2.20. Um anel R em que a multiplica cao e comutativa, isto e, ab = ba para todo
a, b R, e chamado um anel comutativo. Se alem disso, R possuir elemento identidade
em rela cao à multiplica cao, que sera denotado por 1, dizemos que R e um anel comutativo
com unidade.
Teorema 2.2.6. Se R e um anel com unidade, entao esta unidade 1 e a unica identidade
multiplicativa do anel.
Denicao 2.2.21. Um subanel Q de um anel R e um ideal ` a direita (ou ` a esquerda)
em R se Qb Q (bQ Q) para todo b R. Se Q e simultaneamente um ideal à direita e à
esquerda em R, dizemos que Q e um ideal em R.
Sejam R um anel, Q um ideal em R e x um elemento em R. Assim, Q dene uma rela cao
de equivalencia em R, dada por:
x x
x x
Q.
Estas classes de equivalencia sao os conjuntos:
x = x + Q = x +q [ q Q
e sao chamadas classes laterais aditivas de Q em R. Todo elemento em R esta contido em
exatamente uma classe lateral x. Denotamos o conjunto de todas essas classes laterais por
R/Q. A partir das opera coes de adi cao e multiplica cao em R, denimos duas opera coes em
R/Q da seguinte forma:
x +y = (x + Q) + (y + Q) = x +y = (x +y) + Q
e
x y = (x + Q) (y + Q) = x y = x y + Q.
Estas opera coes sao, respectivamente, a adi cao e a multiplica cao em R/Q.

E possvel
mostrar que R/Qe um anel sob as opera coes acima, chamado anel quociente de R modulo
Q e denotado por R
Q
.
Exemplo 2.2.7. O conjunto Z
n
, n 2, pode ser visto como um anel quociente de Z modulo
nZ, ou seja, Z/nZ, pois nZ e um ideal em Z. Assim, (0, 1, , n 1) denotam as classes
laterais:
0 = nZ, 1 = 1 +nZ, , n 1 = n 1 +nZ
37
que possuem estrutura de anel sob adi cao e multiplica cao de classes laterais e que particionam
Z.
Denicao 2.2.22. Se a e b sao elementos nao nulos de um anel R tais que ab = 0 ou ba = 0,
entao a e b sao divisores de zero.
Exemplo 2.2.8. Em Z
8
os elementos 2 e 4 sao divisores de zero.
Denicao 2.2.23. Seja R um anel com unidade. Um elemento a em R e uma unidade
inversvel em R se existe um elemento a
1
R tal que a a
1
= a
1
a = 1. Ou seja, a e
inversvel se possui inverso multiplicativo em R.
Exemplo 2.2.9. Os unicos elementos inversveis em Z sao 1 ou 1.
Denicao 2.2.24. Anel de divis ao e um anel com unidade no qual todo elemento nao
nulo e inversvel.
Denicao 2.2.25. Seja R um anel. Um R-m odulo consiste de um grupo abeliano G e uma
opera cao de multiplica cao de cada elemento de G por todo elemento de R pela esquerda, tais
que para todo , G e r, s R, as seguintes condi coes sao satisfeitas:
1. (r) G;
2. r( +) = r +r;
3. (r +s) = r +s;
4. (rs) = r(s).
Corpos
Denicao 2.2.26. Um corpo F e um anel de divisao comutativo.
Portanto, dizemos que F e um corpo sob as opera coes binarias (+) e () se, e somente
se, F constitui um grupo abeliano sob estas opera coes e, para a opera cao (), e valida a lei
distributiva. Assim, podemos dizer que um corpo apresenta no mnimo dois elementos: as
identidades das opera coes (+) e (). O n umero de elementos num corpo e a ordem do mesmo
e um corpo onde este n umero e nito e chamado corpo nito.
Exemplo 2.2.10. Sao exemplos de corpos: o conjunto dos n umeros racionais e dos n umeros
reais sob adi cao e multiplica cao usuais e o conjunto Z
p
= 0, 1, 2, , p 1 para p primo
sob adi cao e multiplica cao modulo p.
38
Exemplo 2.2.11. O conjunto dos n umeros inteiros nao forma um corpo sob as opera coes
de adi cao de multiplica cao usuais.
Denicao 2.2.27. Um subcorpo e um subconjunto de um corpo que tem estrutura de corpo
sob as opera coes herdadas do mesmo.
Os corpos nitos sao usados na maioria das constru coes dos codigos conhecidos, estes
corpos sao tambem conhecidos como corpos algebricos de Galois ou corpos de Galois e
sao denotados por GF(q) ou F
q
onde q 2 e o n umero de elementos do corpo. Descrevemos
a seguir uma serie de propriedades sobre F
q
.
Denicao 2.2.28. Um polin omio de grau n 1 sobre um corpo F
q
e escrito como:
p(x) = p
n1
x
n1
+p
n2
x
n2
+ +p
1
x +p
0
,
onde x e uma variavel e os coecientes p
i
, 0 i n 1, i Z, sao elementos de F
q
.
Denicao 2.2.29. Um polin omio m onico e aquele cujo coeciente lder (coeciente da
variavel de maior expoente) p
n1
e igual a 1, a identidade multiplicativa de F
q
.
Sabemos que o conjunto de todos os polinomios sobre GF(q) forma um anel sob as
opera coes usuais de soma e multiplica cao de polinomios. Este anel e denotado por GF(q)[x]
ou F
q
[x].
Denicao 2.2.30. Um elemento F
q
e uma raiz ou zero do polinomio p(x) F
q
[x] se
p() = 0.
Teorema 2.2.7. Se G e um subgrupo multiplicativo do grupo F
, ) de elementos nao nulos

de um corpo F, entao G e cclico.
Corolario 2.2.2. O grupo multiplicativo de todos elementos nao nulos de um corpo nito
sob a opera cao multiplica cao deste corpo e cclico.
Corolario 2.2.3. Uma extensao (corpo de extensao) E de grau r de um corpo nito F
q
e o
conjunto dos polinomios sobre F
q
modulo um polinomio irredutvel de grau r.
Teorema 2.2.8. Considere uma extensao nita de grau r sobre o corpo F
q
. Entao esta
extensao tem q
r
elementos.
Denicao 2.2.31. Dizemos que um polinomio p(x) sobre F
q
e primo se ele for monico e
irredutvel sobre F
q
.
39
Teorema 2.2.9. O anel de polinomios modulo um polinomio p(x) sobre F
q
e um corpo se, e
somente se, p(x) e um polinomio primo.
Denicao 2.2.32. Um gerador do grupo multiplicativo de F
q
e denominado um elemento
primitivo de F
q
.
Corolario 2.2.4. Todo corpo nito F contem um elemento primitivo.
Uma consequencia imediata do Corolario 2.2.4 e a de que todo corpo de Galois contem
um elemento , tal que todo elemento pertencente ao grupo multiplicativo do corpo nito
pode ser expresso como uma potencia de .
Os proximos teoremas se referem à existencia e unicidade dos chamados polinomios mi-
nimais.
Denicao 2.2.33. Seja GF(q
) um corpo nito e GF(q) um subcorpo de GF(q
). Seja
GF(q
). O polinomio primo p(x) de menor grau sobre GF(q), tal que p() = 0, e
chamado polin omio minimal de sobre GF(q).
Teorema 2.2.10. Considere os corpos GF(q
) e GF(q) como denidos acima. Cada ele-

mento de GF(q
) tem um unico polinomio minimal sobre GF(q). Mais do que isso, se

tem p(x) como seu polinomio minimal e um polinomio g(x) tem como um zero, entao p(x)
divide g(x).
2.2.3 Codigos
As deni coes e teoremas apresentados nesta subse cao podem ser encontradas em [29], [30]
e [31].
Denicao 2.2.34. Um c odigo C sobre um alfabeto A e qualquer subconjunto nao-vazio
do espa co de sequencias A
I
, onde A e chamado alfabeto do codigo e I e o conjunto de
ndices das sequencias c = c
i
[ i I. Chamamos de palavra-c odigo os elementos, ou
smbolos, no alfabeto A que compoem o codigo C.
Neste trabalho estamos interessados em alfabetos nitos. Entretanto, muitas vezes e
conveniente que o mesmo seja estruturadoa m de que a codica cao e a decodica cao
sejam simplicadas. Por alfabetos estruturados, entendemos aqueles que formam alguma
estrutura algebrica, tal como corpo, anel ou grupo.
Denicao 2.2.35. Um c odigo de bloco C de comprimento n sobre um alfabeto A e
qualquer subconjunto nao-vazio do conjunto A
n
das sequencias c = c
i
[ 1 i n.
40
Na deni cao de um codigo de bloco, implicitamente foi tambem denido o parametro n,
que e o comprimento do codigo. Um codigo de bloco e caracterizado por tres parametros
principais: a dimensao, a taxa e a distancia mnima de Hamming.
Denicao 2.2.36. A dimens ao de um codigo C e dada por k = log
|A|
[C[, smbolos por
bloco, onde [ [ e a cardinalidade do conjunto.
Denicao 2.2.37. A taxa de um codigo C e dada por r = k/n, onde k e a dimensao e n e
o comprimento do codigo.
Denicao 2.2.38. A dist ancia de Hamming d
H
(x, y) entre duas palavras x e y A
n
e o
n umero de componentes nas quais elas diferem. Repare que as tres propriedades de metrica
estao sendo satisfeitas:
1. d
H
(x, y) 0 e d
H
(x, y) = 0 x = y;
2. d
H
(x, y) = d
H
(y, x);
3. d
H
(x, y) +d
H
(y, z) d
H
(x, z).
Denicao 2.2.39. Seja C um codigo de comprimento n e tal que [C[ 2. A dist ancia
mnima de Hamming de C, denotada por d
min
(C) e dada por:
d
min
(C) = min
x, y C, x=y
d
H
(x, y)
Um codigo de bloco C de comprimento n, dimensao k e distancia mnima de Hamming
d = d
min
(C) e representado por (n, k, d
min
)-codigo. O seguinte teorema fornece um limitante
superior para a distancia mnima em fun cao dos parametros n e k.
Teorema 2.2.11. Para qualquer codigo de bloco (n, k, d
dmin
), vale a seguinte desigualdade:
d n k + 1.
Outras distancias ainda podem ser denidas, tais como, a distancia de Lee ou a distancia
Euclidiana, esta ultima quando estamos associando uma modula cao (um conjunto de pontos
do R
n
) ao codigo. Entretanto, neste trabalho estaremos usando a distancia de Hamming.
Codigos de bloco podem ser usados como codigos corretores de erros. A capacidade de
correcao de erros de um codigo (n, k, d
min
), denominada t, esta relacionada à distancia
mnima deste codigo da seguinte forma:
d
min
2t + 1.
41
Logo, quanto maior a distancia mnima do codigo, maior e a capacidade deste de corrigir
erros.
A maioria dos codigos conhecidos ate hoje pertencem à classe dos codigos lineares. Um
codigo (n, k, d
min
) e dito linear se, e somente se, todas as suas palavras-codigo formam um
subespa co vetorial de dimensao k do espa co vetorial F
n
q
, o conjunto das n-uplas do corpo F
q
.
Portanto, podemos representar este codigo matricialmente como
G =
_
_
g
11
g
12
g
n
g
21
g
22
g
2n
.
.
.
.
.
.
.
.
.
.
.
.
g
k1
g
k2
g
kn
_
_
,
conhecida como matriz geradora do codigo (n, k, d
min
), cujas linhas formam uma base do
codigo linear C. Dessa forma, o processo de codica cao pode ser escrito como:
v = uG,
onde u e a palavra a ser codicada ou informa cao e v e a palavra-codigo correspondente.
Para toda palavra-codigo v vale a rela cao
vH
T
= 0,
onde a matriz (nk)n, denotada por H, e chamada matriz vericacao de paridade de
C, e qualquer vetor ortogonal a suas linhas pertence ao espa co vetorial das linhas da matriz
geradora G associada e vice-versa. O codigo gerado pela matriz H e chamado codigo dual
do codigo C, denotado por C
.
Existe uma maneira simples de determinar uma matriz verica cao de paridade para um
codigo se uma matriz geradora e dada na forma sistematica. Se ( e o espa co linha da matriz
G = (I
k
[ P), entao ( e o espa co ortogonal de H = (P
T
[ I
nk
), onde I
nk
e a matriz
identidade de ordem n k e P
T
e a matriz transposta de P.
Denicao 2.2.40. Dado um codigo ( com matriz verica cao de paridade H, a sndrome de
um vetor v F
q
e o vetor Hv
t
.
A sndrome e um conceito usado para fazer a corre cao de erros em codigos lineares.
A expressao em padrao de erro denomina a diferen ca entre a palavra-codigo recebida
e a palavra-codigo enviada. Em um codigo linear ( com parametros (n, k), considere um
padrao de erro e F
n
q
. Como ( e um subgrupo, entao e +( = e +v [ v ( e uma classe
lateral de F
n
q
.
42
Estabele ca uma tabela da seguinte maneira:
a primeira linha da tabela deve conter todas as palavras-codigo de ( come cando com a
palavra toda nula;
Das n-uplas de F
n
q
que nao foram usadas, escolha aquela com menor peso e chame-a de
e
1
. A segunda linha da tabela sera composta pela classe lateral e
1
+(;
A j-esima linha da tabela e formada pela classe e
j
+ (, onde e
j
e sempre escolhido
como a n-upla em F
n
q
de menor peso que ainda nao foi usada;
Esse procedimento termina quando todas as palavras de F
n
q
tenham sido usadas.
A Tabela 2.1 determinada assim e chamada arranjo padrao.
v
1
= 0 v
2
v
3
v
k
q
e
1
e
1
+v
2
e
1
+v
3
e
1
+v
k
q
e
2 2
+v
2
e
2
+v
3
e
2
+v
k
q
.
.
.
.
.
.
.
.
.
.
.
.
e
q
nk e
q
nk +v
2
e
q
nk +v
3
e
q
nk +v
q
k
Tabela 2.1: Arranjo padrao.
Algumas observa coes importantes devem ser feitas sobre o arranjo padrao. Cada palavra
aparece uma unica vez na tabela. Duas palavras estao na mesma classe lateral se, e somente
se, possuem a mesma sndrome. A primeira coluna da tabela e formada pelas palavras de
peso mnimo dentro de cada classe, e sao denominadas os lderes das classes laterais.
Uma regra de decodica cao por maxima verossimilhanca para um codigo linear e com-
pletamente descrita pelo arranjo padrao. O receptor utiliza o arranjo padrao para decodicar
uma palavra recebida da seguinte maneira:
recebido v, calcule sua sndrome;
ache o padrao de erro e correspondente a essa sndrome na tabela;
v e e a palavra-codigo.
Para um codigo (n, k) sobre F
n
q
uma lista completa consiste de q
n
palavras. Todavia, note
que a lista dada no arranjo padrao tem q
k
classes laterais cada contendo q
nk
palavras. Como
em aplica coes sao utilizados codigos longos, realizar a decodica cao por maxima verossi-
milhan ca, ou equivalentemente, fazer uso do arranjo padr ao e impraticavel.
43
2.2.4 Codigos Geometricamente Uniformes
Forney em [28] generalizou os codigos de grupo de Slepian e codigos reticulados per-
mitindo que os elementos do grupo gerador sejam isometrias arbitrarias do espa co euclidiano
R
n
, ao inves de transforma coes ortogonais ou transla coes consideradas de forma separada.
Tais codigos foram denominados codigos geometricamente uniformes apresentando pro-
priedades simetricas altamente desejaveis tais como: todas as regioes de Voronoi sao con-
gruentes; o perl de distancias e o mesmo para qualquer palavra-codigo; as palavras-codigo
possuem a mesma probabilidade de erro; e o grupo gerador e isomorfo a um grupo de per-
muta coes transitivo sobre as palavras-codigo. As deni coes e resultados apresentados nesta
subse cao podem ser encontrados em [28].
Denicao 2.2.41. [28] Seja S um conjunto de sinais em um espa co metrico (M, d). Dizemos
que S e um c odigo geometricamente uniforme se para quaisquer s
1
e s
1
S, existe uma
isometria
s
1
,s
2
tal que:
s
1
,s
2
(s
1
) = s
2
,
e
s
1
,s
2
(S) = S.
Em outras palavras, a a cao do grupo de simetrias, (S), de S e transitiva. Se S for nito,
dizemos que S e uma constelacao uniforme e se S for innito dizemos que S e um arranjo
regular.
Em geral, o grupo de simetrias de um conjunto de sinais geometricamente uniforme pos-
sui mais elementos do que o necessario para gera-lo. Para isto, consideraremos a seguinte
deni cao.
Denicao 2.2.42. [28] Seja S um codigo geometricamente uniforme. Um grupo gerador
mnimo U(S) de S, e um subgrupo do grupo de simetrias de S que satisfaz
s
0
S, S = (s
0
), U(S),
e a fun cao m : U(S) S, dada por m() = (s
0
) e injetora.
Teorema 2.2.12. [28] O produto cartesiano de conjuntos de sinais geometricamente uni-
formes e um conjunto de sinais geometricamente uniforme.
Um subgrupo normal U
de um grupo gerador mnimo U(S) induz uma parti cao de um

conjunto de sinais geometricamente uniforme S em subconjuntos geometricamente uniformes.
44
Denicao 2.2.43. [28] Seja S um conjunto de sinais geometricamente uniforme com grupo
gerador mnimo U(S). Uma parti c ao geometricamente uniforme S/S
, e uma parti cao

de S, induzida por um subgrupo normal U
de U(S). Os elementos de S/S
sao os subconjuntos
de S que correspondem às classes laterais de U
em U(S).
Denicao 2.2.44. [28] Sejam S/S
uma parti cao geometricamente uniforme e G um grupo

isomorfo a U(S/U
(S). Um rotulamento isometrico e uma fun cao injetora m : G S/S

dada pela composi cao do isomorsmo entre G e U(S)/U
(S) e a fun cao injetora induzida por

m de U(S)/U
(S) em S/S
.
Para um codigo S geometricamente uniforme, podemos denir, para cada ponto s S,
uma regiao formada por todos os pontos pertencentes ao espa co metrico onde esta denido o
codigo que se encontram, no mnimo, tao proximos a s quanto qualquer outro ponto s
S.
Em outras palavras, essas regioes sao as regioes de decisao do codigo. Formalmente, temos a
seguinte deni cao:
Denicao 2.2.45. [28] Seja S um conjunto de sinais geometricamente uniforme em um
espa co metrico (M, d). A regi ao de Voronoi associada a um ponto s S, denotada por
V(S), e o conjunto
V
(S)
(s) = x M [ d(x, s) min
s
S
d(x, s
)
A uniformidade geometrica e uma forma mais forte de simetria, apresentando propriedades
como: a distancia entre quaisquer duas palavras-codigo de S e a mesma, todas as regioes de
Voronoi sao congruentes, todas palavras-codigos possuem mesma probabilidade de erro e o
grupo gerador U(S) e isomorfo a um grupo de permuta coes transitivo sobre as palavras do
codigo. Todas essas caractersticas sao buscadas na constru cao de novas classes de codigos,
pois facilitam o processo de decodica cao dos mesmos, no sentido de que nao e necessario
conhecer a regiao de decisao de cada palavra-codigo; basta conhecer a regiao de Voronoi as-
sociada a uma das palavras do codigo e determinar as demais regioes a partir de transla coes
da regiao conhecida.
Com rela cao aos codigos ja existentes utilizados em comunica coes digitais, a maioria e
geometricamente uniforme, como por exemplo as constela c oes de sinais M-PSK.
Conjunto de Sinais Casados a Grupos
A principal motiva cao para considerar o codicador e o modulador como um so bloco
e estabelecer a melhor forma de associar uma palavra-codigo a um sinal a ser transmitido.
Conjunto de sinais casado a um grupo, [32], constitui a forma mais adequada de estabelecer
esta associa cao.
45
Denicao 2.2.46. [29] Sejam M um conjunto nao vazio e d: MM R uma fun cao que
satisfaz as seguintes condi coes:
1. d(x, x) = 0;
2. x ,= y d(x, y) > 0;
3. d(x, y) = d(y, x);
4. d(x, z) d(x, y) +d(y, z).
para quaisquer x, y, z M. Dizemos, entao, que d e uma metrica e o par (M, d) e um
espa co metrico.
Denicao 2.2.47. [32] Seja (M, d) um espa co metrico. Dizemos que um conjunto de sinais
S, nito, em M esta casado a um grupo G se existe uma fun cao de G sobre S tal que,
d((g), (g
)) = d((g
1
g
), (e
G
)), g, g
G
onde e
G
e o elemento neutro de G. A fun cao e denominada mapeamento casado. Se
e injetora, entao
1
e denominada rotulamento casado.
Lema 2.2.1. [32] Seja a fun cao tal que o conjunto de sinais S em um espa co metrico
(M, d) esteja casado a um grupo G. Se S
e
G
= (e
G
), onde e
G
e o elemento neutro de G e
H =
1
(S
e
G
), entao H e um subgrupo de G e, alem disso,
(g) = (g
) gH = g
H,
ou seja, g e g
estao na mesma classe lateral à esquerda de H em G.

Proposicao 2.2.1. [32] Seja S um conjunto de sinais em um espa co metrico (M, d). Se S
esta casado a um grupo G e H e um subgrupo normal em G, entao S esta casado a G/H.
Denicao 2.2.48. [32] Seja a fun cao tal que o conjunto de sinais S em um espa co metrico
(M, d) esteja casado a um grupo G, e H denido como no Lema 2.2.1. Se H nao contem sub-
grupos normais nao triviais de G, entao dizemos que e um mapeamento efetivamente
casado e S esta efetivamente casado a G.
Codigos G-lineares
Os codigos G-lineares sao uma extensao da Z
4
-linearidade centrada em grupos de simetria.
Esta extensao e feita considerando-se um codigo quaternario mais como um rotulamento do
46
que a imagem de um codigo por isometria entre modulos. Este conceito foi introduzido em
[33] para codigos em espa cos metricos em geral.
Todos os codigos binarios nao-lineares estudados em [34] sao imagens de codigos lineares
sobre Z
4
atraves de um mapeamento adequado.
Para estender este mapeamento para alfabetos nao necessariamente binarios precisamos
conhecer a estrutura do domnio e da imagem do mapeamento : Z
n
4
(Z
2
Z
2
)
n
. Desse
modo, temos as seguintes considera coes:
O domnio basico Z
4
sera visto como um grupo e a distancia de Lee associada a Z
4
e
compatvel com a sua estrutura de grupo, ou seja, e uma metrica de grupo em Z
4
.
A imagem basica Z
2
Z
2
sera vista como um espa co metrico onde a metrica associada
e a metrica de Hamming.
Tendo como base estas considera coes, a questao que se coloca e a seguinte: para um grupo
G (como o Z
4
) e um espa co metrico M (como o Z
2
Z
2
) quais devem ser as condi coes de
existencia do mapeamento : G
n
M
n
, como no caso da Z
4
-linearidade?
A resposta a esta questao podera fornecer uma tecnica de constru cao de classes de codigos
geometricamente uniformes sobre o alfabeto M, atraves de codigos de grupo sobre o grupo
G. Alem de ser possvel a constru cao de codigos sob uma determinada estrutura algebrica a
partir de codigos sob uma estrutura mais adequada, permitira tambem fornecer uma tecnica
de associa cao das palavras-codigos aos elementos do conjunto de sinais.
Considerando o mesmo procedimento que no caso Z
4
, iremos estabelecer condi coes su-
cientes para que um codigo C, sobre um alfabeto A, seja geometricamente uniforme, mesmo
que este nao seja linear. Esta ultima condi cao devera ser herdada do codigo de grupo sobre
o grupo G. Estas considera coes levam a seguinte deni cao.
Denicao 2.2.49. Sejam G um grupo, d uma metrica de grupo em G e C um codigo de
comprimento n sobre o alfabeto A e cuja metrica e d
. Diremos que C e G-linear se C,

ou um codigo equivalente C
, for imagem de um codigo de grupo C sobre o grupo C, isto e,

C = (C), onde : G
n
A
n
e uma isometria entre os espa cos metricos.
Com esta deni cao, temos as seguintes propriedades do codigo C:
Proposicao 2.2.2. Se um codigo C e G-linear, entao:
1. O alfabeto A esta efetivamente casado ao grupo G, e consequentemente, o codigo C
esta casado ao codigo de grupo correspondente obtido pelo mapeamento estendido.
2. O codigo C e geometricamente uniforme.
47
Encontrar o mapeamento : G A e, em princpio, um problema difcil. Todavia, como
o alfabeto A esta casado ao grupo G e e uma bije cao, a procura por este mapeamento
e equivalente a determinar um subgrupo transitivo isomorfo ao grupo de simetrias de A
conforme o Teorema 2.2.13.
Teorema 2.2.13. [32] Seja um grupo transitivo sobre S em um espa co metrico (M,d), ou
seja, S e a orbita de um dado ponto sob . Entao S esta casado a e, para todo s S, a
transforma cao
S
: S;
S
(f) = f(s)
2.2.5 Codigos Cclicos Sobre Aneis de Inteiros Residuais
Nesta subse cao, apresentamos as deni coes e os teoremas relacionados a codigos cclicos
sobre aneis Z
q
(q 4 e inteiro). Nossa referencia e [35].
Denicao 2.2.50. Seja R um anel. Um m odulo livre e um R-modulo gerado por um
conjunto de vetores linearmente independentes.
Denicao 2.2.51. Um c odigo linear (n, k) sobre Z
q
e denido como um modulo livre de
dimensao k no espa co de todas as n-uplas de Z
n
q
.
Denicao 2.2.52. Um codigo linear C com parametros (n, k) sobre Z
q
e cclico se, para
v = (v
0
v
1
v
2
... v
n1
) C, todo deslocamento cclico v
(1)
= (v
n1
v
0
v
1
v
2
... v
n2
)
C, com v
i
Z
q
, 0 i n 1.
Os codigos cclicos sao geralmente representados na forma polinomial. Assim, considere
a palavra codigo v = (v
0
v
1
v
2
... v
n1
) de um codigo cclico C. Podemos representa-la
pelo polinomio:
v(x) = v
0
+v
1
x +v
2
x
2
+... +v
n1
x
n1
.
O produto entre x e v(x) modulo x
n
1 e dado por:
v
(1)
(x) = v
n1
+v
0
x +v
1
x
2
+... +v
n2
x
n1
,
que corresponde à palavra codigo:
v
(1)
= (v
n1
v
0
v
1
... v
n2
),
a qual e um deslocamento cclico da palavra:
48
v = (v
0
v
1
v
2
... v
n1
).
Portanto, v
(1)
(x) e obtido atraves do produto x.v(x) no anel quociente R
n
=
Zq[x]
<x
n
1>
,
onde < x
n
1 > representa o ideal gerado por x
n
1. A adi cao de duas palavras-codigo e
feita em Z
q
[x].
Note que o conjunto de todas as palavras pertencentes a um codigo cclico C formam um
subconjunto do anel R
n
, isto e, o conjunto de todos os polinomios cujo grau e menor do que
n.
Teorema 2.2.14. Um conjunto S de elementos em R
n
e um codigo cclico se, e somente se,
S e um ideal em R
n
.
Proposicao 2.2.3. Seja C um ideal em R
n
=
Zq[x]
<x
n
1>
, isto e, um codigo cclico de com-
primento n. Se existir um polinomio de grau mnimo em C, cujo coeciente dominante e
um elemento inversvel em Z
q
, entao o polinomio monico (ou seja, aquele cujo coeciente
dominante e um de grau mnimo em C e unico.
Teorema 2.2.15. Seja C um ideal em R
n
=
Zq[x]
<x
n
1>
e g(x) um polinomio monico com o
menor grau em C. Assim, C = g(x)), e portanto, o codigo C consiste de todos os m ultiplos
de g(x). Dizemos entao que C e um ideal principal.
Teorema 2.2.16. Seja C um ideal principal em R
n
. Se o coeciente dominante do polinomio
de menor grau em C, g(x), e um elemento inversvel, entao g(x) divide (x
n
1). Note que
se este polinomio for monico, entao g(x) divide (x
n
1).
Teorema 2.2.17. Se g(x) C e g(x) divide (x
n
1), entao g(x) tem grau mnimo em
C = g(x)).
Os Teoremas 2.2.16 e 2.2.17 fornecem um metodo de constru cao de codigos cclicos sobre
aneis de inteiros residuais analogo ao metodo de constru cao de codigos cclicos sobre corpos
nitos, ou seja, atraves da fatora cao do polinomio (x
n
1) sobre o anel de interesse para
entao tomar um fator (ou produto de fatores) como polinomio gerador do codigo em questao.
O proximo teorema esta relacionado à representa cao matricial dos codigos cclicos sobre
aneis que possuem uma matriz geradora.
Teorema 2.2.18. Se g(x) divide (x
n
1) e o grau de g(x) e (n k), entao a dimensao de
C = g(x)) e k. Se
g(x) = g
0
+g
1
x +g
2
x
2
+... +x
nk
,
49
entao a matriz geradora do codigo C e dada por:
G =
_
_
_
_
_
_
_
_
_
g
0
g
1
g
2
. . . 1 0 0 . . . 0
0 g
0
g
1
. . . g
nk1
1 0 . . . 0
0 0 g
0
. . . g
nk2
g
nk1
1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 . . . g
0
g
1
g
2
. . . 1
_
_
_
_
_
_
_
_
_
Proposicao 2.2.4. Se C e um codigo cclico sobre Z
q
onde q = p
k
1
1
p
k
2
2
...p
kq
q
, entao C e a
soma direta dos codigos cclios C
i
sobre Z
k
i
p
i
, isto e,
C =
q
i=1
C
i
,
para 1 i q.
Extensao de aneis de Galois
A motiva cao para se utilizar o conceito de extensao de Galois em teoria da codica cao
esta diretamente relacionada com a constru cao de codigos cclicos sobre aneis locais Z
q
, onde
q e uma potencia de um primo, q = p
k
, k 2.
A principal diferen ca da constru cao de codigos cclicos sobre aneis para a constru cao de
codigos cclicos sobre corpos esta no fato de que as razes do polinomio gerador dos codigos
cclicos sobre aneis encontram-se na extensao do anel Z
q
, ao inves de serem encontradas na
extensao do corpo F
q

= GF(p
r
).
Denicao 2.2.53. Um codigo cclico sobre Z
q
com comprimento n = q
r
1, onde q = p
k
e
r e o grau da extensao de Galois, e denominado c odigo cclico primitivo.
Vamos assumir que a ordem do anel e o comprimento do codigo sejam relativamente
primos, isto e, o maximo divisor comum e um, denotado por mdc(p, n) = 1, pois assim
garantimos que (x
n
1) nao apresenta fatores quadraticos. Da Se cao 2.2.5, sabemos que um
codigo cclico de comprimento n sobre Z
q
e o ideal principal no anel de polinomios sobre Z
q
modulo (x
n
1) e que este ideal e gerado por qualquer polinomio g(x) que divide (x
n
1).
Seja Z
q
[x] o anel de polinomios na variavel x sobre Z
q
onde p(x) e um polinomio primi-
tivo de grau r, irredutvel sobre GF(p) e, consequentemente, sobre Z
q
. Representamos por
GR(p
k
, r) o quociente Z
q
[x] pelo ideal gerado por p(x), ou seja,
R
= GR(p
k
, r)
=
Z
q
[x]
< p(x) >
.
50
Assim, o anel R e formado por todas as classes laterais de polinomios em x sobre Z
q
mod p(x), isto e, consiste do conjunto dos polinomios de grau menor ou igual a (r 1) cujas
opera coes binarias de adi cao e multiplica cao sao realizadas modulo p(x). Alem disso, R e um
anel comutativo com identidade denominado extensao de Galois de dimensao r de Z
q
. Esta
extensao e unica a menos de isomorsmo [37].
O anel R
= GR(p
k
, r) e um anel local [37], isto e, seus elementos divisores de zero formam
um grupo abeliano aditivo e consistem dos polinomios de grau menor ou igual a (r 1) cujos
coecientes sao divisores de zero em Z
q
. Um polinomio p(x) R com pelo menos um
coeciente inversvel em Z
q
nao e um divisor de zero em R e, portanto, pertence a R
(grupo
das unidades de R), ou seja, e sempre possvel encontrar um polinomio q(x) R, tal que
p(x).q(x) = 1.
Vale lembrar que, da Deni cao 2.2.16, temos:
Denicao 2.2.54. [36] Um polinomio nao nulo p(x) e um divisor de zero em Z
q
[x] se
existe um polinomio q(x) Z
q
[x], q(x) ,= 0, tal que p(x).q(x) = 0.
Denicao 2.2.55. [36] Um polinomio p(x) e dito regular se ele nao e um divisor de zero
no anel Z
q
[x].
Denicao 2.2.56. [36] Um polinomio regular p(x) e chamado local se
Zq[x]
p(x)
e uma extensao
local de Z
q
.
A irredutibilidade do polinomio p(x) sobre Z
q
e garantida pelo seguinte teorema:
Teorema 2.2.19. [36] Seja p(x) um polinomio regular em Z
q
. Se existe uma aplica cao ,
chamada proje cao natural, tal que (p(x)) seja diferente de zero e irredutvel em GF(p),
entao p(x) e irredutvel em Z
q
.
Como estamos interessados na classe dos codigos cclicos, nosso objetivo e fornecer um
procedimento para a constru cao de tais codigos. O primeiro passo esta relacionado com a
fatora cao de (x
n
1). Como o grupo das unidades de R, R
, e um grupo abeliano multi-

plicativo, ele pode ser expresso como um produto de grupos cclicos. Uma vez encontrado
este grupo multiplicativo, o problema da constru cao de c odigos cclicos se reduz à escolha de
determinados elementos deste grupo que sejam razes do polinomio gerador g(x), que divide
(x
n
1).
Os resultados a seguir fornecem os elementos necessarios para a constru cao do subgrupo
cclico G
n
do grupo multiplicativo R
, que contem todas as razes de (x

n
1).
Teorema 2.2.20. [37] Existe um unico subgrupo cclico de R
cuja ordem e relativamente

prima a p. Este subgrupo tem ordem p
r
1.
51
Teorema 2.2.21. [38] Suponha que f R gere um subgrupo de ordem n em R
, onde
mdc(n, p) = 1 . Entao o polinomio (x
n
1) pode ser fatorado como x
n
1 = (x f)(x
f
2
) . . . (xf
n
)se, e somente se, R
p
(f) tem ordem n em F
(grupo multiplicativo de GF(p

r
)),
onde R
p
(f) e o resto da divisao de f por p (redu cao de f modulo p).
Corolario 2.2.5. [38] Um polinomio h(x), que divide (x
n
1) e tem coecientes em Z
q
,
pode ser fatorado sobre G
n
como:
h(x) = (x
e1
)(x
e2
) (x
ej
),
se, e somente se, R
p
(h(x)) pode ser fatorado sobre GF(p
r
) como:
R
p
(h(x)) = (x (R
p
())
e1
)(x (R
p
())
e2
) (x (R
p
())
ej
),
onde e um elemento primitivo de G
n
e e
j
Z.
Teorema 2.2.22. [38] Suponha que f
1
= R
p
(f) gere um subgrupo cclico de ordem n em F
.
Entao f gera um subgrupo cclico de ordem nd em R
, onde d e um inteiro maior ou igual a

um, e f
d
gera o subgrupo cclico G
n
de R
.
O subgrupo cclico G
n
e obtido do Teorema 2.2.22, enquanto que, pelo Corolario 2.2.5, o
polinomio minimal M
i
(x) associado ao elemento
i
sobre R
(onde e um elemento primitivo

em G
n
), tem como suas razes todos os elementos na sequencia.
i
, (
i
)
p
, (
i
)
p
2
, , (
i
)
p
r1
.
Portanto, o polinomio minimal M
i
(x) pode ser construdo de forma muito similar à cons-
tru cao do polinomio minimal m
i
(x) de R
p
(
i
) sobre GF(p).
Temos ainda a seguinte propriedade:
Teorema 2.2.23. [35] Seja um elemento primitivo em G
n
, onde n = p
r
1. Entao o
elemento =
l
1
l
2
possui inverso em R se 0 l
1
,= l
2
n 1.
2.2.6 Codigos BCH sobre Aneis
Os codigos BCH formam uma importante classe de codigos cclicos devido, principalmente,
à simplicidade dos processos de codica cao e decodica cao associados, o que os torna bons
candidatos a serem utilizados em aplica coes praticas. Os codigos BCH foram descobertos por
R. C. Bose, D. K. Chaudhuri e A. Hocquenghem e representam uma excelente generaliza cao
dos codigos de Hamming, permitindo a m ultipla corre cao de erros. Formam assim a classe
52
dos melhores codigos construtivos para canais onde os erros afetam os smbolos de forma
independente.
Apesar de ser sempre possvel projetar um codigo BCH que corrija ate t erros, para um t
qualquer, devemos interpretar esta informa cao com uma certa restri cao, pois as taxas desses
codigos sao assintoticamente ruins. Ou seja, quando o comprimento das palavras-codigo nao
e grande, existem bons codigos BCH, caso contrario, o desempenho destes e prejudicado
devido às baixas taxas de transmissao. Contudo, a real importancia dos codigos BCH vem
da facilidade de implementa cao do algoritmo de corre cao de erros, algoritmo de Berlekamp-
Massey modicado [35]. A seguir, fazemos algumas considera coes sobre os codigos BCH e
posteriormente passamos à constru cao de tais codigos.
Denicao 2.2.57. Um codigo cclico de comprimento n sobre GF(p) e denominado um
c odigo BCH com dist ancia de projeto d se o seu gerador g(x) for o mnimo m ultiplo
comum dos polinomios minimais de
m
,
m+1
,
m+2
, ,
m+d2
,
para algum m inteiro nao negativo, onde e uma raiz primitiva (elemento primitivo) de
(x
n
1), em alguma extensao GF(p
r
) de GF(p).
Assim, analogamente à Deni cao 2.2.19, temos:
Denicao 2.2.58. Se n = p
r
1, ou seja, se for um elemento primitivo em F
q
, entao o
codigo BCH e chamado primitivo.
Normalmente, consideramos m = 1, o que nos fornece o chamado codigo BCH no sentido
estrito.
Os codigos BCH no sentido estrito denidos sobre aneis de inteiros, com distancia de
projeto d e comprimento n, apresentam ,
2
,
3
, ,
2t
e seus conjugados como razes de
cada um de seus polinomios. Esta propriedade, juntamente com a Deni cao 2.2.52 de codigos
cclicos sobre aneis Z
q
, nos permite especicar a seguinte matriz:
H =
_
_
_
_
_
_
1
2
. . .
n1
1
2
(
2
)
2
. . . (
2
)
n1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2t
(
2t
)
2
. . . (
2t
)
n1
_
_
_
_
_
_
A matriz H acima e a matriz verica cao de paridade para um codigo BCH. Note que os
elementos
i
, 1 i 2t de H pertencem a G
n
, e portanto, os coecientes de sao tomados
53
modulo n. Substituindo os elementos
i
pelos vetores linha de comprimento r(r uplas)
correspondentes, temos a matriz H sobre Z
q
.
Estamos interessados na constru cao de codigos BCH sobre aneis Z
q
, para q = p
k
e k 2,
a qual e analoga à constru cao de codigos BCH sobre corpos [38]. A diferen ca entre essas
duas constru coes reside no fato de que, na primeira, as razes do polinomio gerador do codigo
BCH encontram-se na extensao do anel Z
q
, ao inves de serem encontradas na extensao do
corpo F
q
, como visto na Se cao 2.2.5. Vale lembrar tambem que iremos considerar o caso no
qual mdc(n, p) = 1.
Podemos especicar um codigo BCH de comprimento n sobre Z
q
, onde n = p
r
1, em
termos das razes de seu polinomio gerador g(x), que pertencem ao subgrupo cclico G
n
. Seja
um elemento primitivo de G
n
. Se
e
1
,
e
2
, ,
e
j
sao razes de g(x), entao podemos gerar
um codigo BCH com smbolos de Z
q
se escolhermos g(x) como:
g(x) = mmc (M
e
1
(x), M
e
2
(x), , M
e
j
(x)),
onde M
e
i
(x) e o polinomio minimal de
e
i
. Alem disso,
g(x) = R
p
(g(x)) = mmc (m
e
1
(x)
, m
e
2
(x)
, , m
e
j
(x)
)
onde m
e
i
(x) e o polinomio minimal de R
p
(
e
i
), gera um codigo BCH em GF(p).
Portanto, a constru cao de codigos BCH cclicos sobre o anel Z
q
reduz-se à escolha de
elementos do subgrupo cclico G
n
para serem razes do polinomio gerador g(x).
Observacao 2.2.1. O metodo sistematico para o calculo do mnimo m ultiplo comum de um
conjunto de polinomios p
1
(x), p
2
(x), , p
n
(x) e computar o maximo divisor comum, mdc,
atraves do Algoritmo de Euclides e entao utilizar a seguinte rela cao:
mmc (p
1
(x), p
2
(x), , p
n
(x)) =
n
i=1
p
1
(x)
mdc (p
1
(x), p
2
(x), , p
n
(x))
Os proximos teoremas estabelecem um limitante inferior para a distancia de Hamming
do codigo BCH construdo:
Teorema 2.2.24. Seja g(x) o polinomio gerador de um codigo cclico de comprimento n
com smbolos de Z
q
e sejam tambem
e
1
,
e
2
, ,
e
j
as razes de g(x) em G
n
, onde tem
ordem n. Entao, a distancia mnima do codigo e maior que o n umero maximo de inteiros
consecutivos modulo n no conjunto e
1
, e
2
, , e
j
.
Teorema 2.2.25. A distancia de Hamming mnima de um codigo BCH satisfaz a rela cao:
d 2t + 1,
54
onte t e a capacidade de corre cao do codigo.
Note que os polinomios geradores dos codigos BCH cclicos sao construdos de forma a
respeitar o limitante para a distancia mnima indicado no Teorema 2.2.24 e no Teorema
2.2.25.
2.3 Decodica cao do Codigo BCH sobre Anel
O nome algoritmo de Berlekamp-Massey se deve ao fato de primeiramente ter sido desen-
volvido em [43] por Berlekamp e posteriormente melhorado por Massey em [44].
Interlando, Palazzo e Elia em [41], estenderam o algoritmo de Berlekamp-Massey, chaman-
do-o de algoritmo de Berlekamp-Massey modicado. Este algoritmo e um metodo de deco-
dica cao dos codigos Reed-Solomon e BCH sobre Z
p
k , onde p e um n umero primo e k e
um inteiro maior ou igual a 1. Com demonstra coes analogas, este algoritmo tambem vale
num contexto mais geral, ou seja, pode ser utilizado para a decodica cao de codigos Reed-
Solomon e BCH denidos sobre aneis comutativos nitos R com identidade. Alem disso,
o procedimento proposto por Forney ainda continua valido. Esta adapta cao nao altera os
fundamentos do algoritmo original, e deste modo a complexidade permanece praticamente
inalterada.
Apresentamos um algoritmo eciente de decodica cao que servira para a decodica cao
dos codigos BCH sobre aneis utilizados nesta proposta. Quando estes codigos sao denidos
sobre corpos GF(q), o primeiro passo da decodica cao e localizar as posi coes dos erros na
palavra recebida, atraves do uso do algoritmo de Berlekamp-Massey [39]. Em seguida, aplica-
se o procedimento proposto por Forney [40] para a determina cao das magnitudes dos erros.
A teoria apresentada neste captulo e uma adapta cao apresentada por Interlando, Palazzo e
Elia [41].
O objetivo e apresentar os principais conceitos que envolvem o processo de decodica cao.
Estes conceitos foram utilizados durante a proposta de um modelo de sistema de comunica cao
para a importa cao de protenas organelares, Captulo 3. O modelo apresenta as semelhan cas
entre o processo de reconhecimento das sequencias de direcionamento e o processo de de-
codica cao utilizado em sistemas de comunica coes digitais. Na Subse cao 2.3.1 apresentamos
o algoritmo de decodica cao utilizado em sistemas de comunica coes digitais e na Subse cao
2.3.2 apresentamos como gerar sequencias atraves de um circuito linear de deslocamentos
com realimenta cao.
55
2.3.1 O Processo de Decodica cao
Podemos constatar que a matriz verica cao de paridade para estes codigos, quando pro-
jetada para a corre cao de ate t erros, possui a forma:
H =
_
_
_
_
_
_
1
2
. . .
n1
1
2
(
2
)
2
. . . (
2
)
n1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2t
(
2t
)
2
. . . (
2t
)
n1
_
_
_
_
_
_
(2.1)
onde n e o comprimento da palavra-codigo em questao. No caso de codigos BCH sobre Z
p
k,
e uma raiz de x
n
1 e pertence ao anel GR(p
k
, r) (a extensao de dimensao r de Z
p
k. Note
que t devera ser escolhido de tal forma que os elementos ,
2
, ...,
2t
sejam todos distintos.
Portanto, devido a esta similaridade, o procedimento de corre cao de erros que iremos
descrever (que se baseia na informa cao dada pelo vetor sndrome) servira para a decodica cao
de ambos os codigos. Ele sempre sera capaz de corrigir qualquer combina cao de t ou menos
erros.
Suponha entao que a palavra-codigo transmitida seja v = (v
0
v
1
... v
n1
) e que o padrao
de erro introduzido pelo canal seja e = (e
0
e
1
... e
n1
). Portanto, o vetor recebido pelo
decodicador sera r = (r
0
r
1
... r
n1
). Estes vetores tambem podem ser apresentados na
forma polinomial por v(X) = v
0
+ v
1
X +... + v
n1
X
n1
, e(X) = e
0
+ e
1
X + ... +e
n1
X
n1
e r(X) = r
0
+r
1
X +... +r
n1
X
n1
, respectivamente.
Vamos assumir agora que a i-esima componente nao nula de e (1 i v t) ocorra na
posi cao j, onde j pode ser qualquer inteiro entre 0 e n 1 (inclusive). Entao, associaremos
a esta i-esima componente nao nula um par ordenado (X
i
, Y
i
) tal que:
X
i
: e um n umero de localiza cao de erro dado por
j
e
Y
i
: e a magnitude do erro ocorrido na posi cao j.
O vetor sndrome e dado por s = r.H
t
= (v +e).H
t
= e.H
t
, onde H e a matriz verica cao
de paridade dada por (5.1). Entao, em termos dos pares (X
i
, Y
i
), as componentes s
j
de s sao
dadas por
s
j
= r(
j
) = e(
j
) =
v
i=1
Y
i
X
j
i
(2.2)
56
onde 1 j 2t e v representa o n umero de erros ocorridos.
Entao, um metodo para se corrigir erros e resolver o Sistema de Equa coes (2.2) condun-
zindo como resposta os pares (X
i
, Y
i
) que representam as posi coes e magnitudes dos mesmos.
Observamos que os n umeros localizadores de erros de cada componente do padrao de erro
devem ser distintos pelo fato de ser um elemento primitivo.
Inicialmente consideraremos o problema da localiza cao dos erros e em seguida resolve-
remos o problema da determina cao das magnitudes dos mesmos. Lembramos que no caso de
codigos binarios, encontrar a localiza cao dos erros implica necessariamente na determina cao
das suas magnitudes. Deste modo, considere o seguinte conjunto de equa coes:
(X X
1
)(X X
2
) . . . (X X
v
) = X
v
+
1
X
v1
+. . . +
v1
X +
v
(2.3)
onde os coecientes
1
,
2
, ...,
v
sao conhecidos como as funcoes simetricas elementares
dos X
i
s.
O primeiro passo e no sentido de obtermos uma rela cao entre os s
j
e os
i
e em seguida
analisar a existencia de solu coes. Assim, multiplicando ambos os lados da Equa cao (2.3)
por Y
i
X
j
i
e em seguida substituindo X
i
(1 i v) em X, obtemos o seguinte conjunto de
equa coes:
Y
i
X
j+v
i
+Y
i
X
j+v1
i

1
+. . . +Y
i
X
j+1
i

v1
+Y
i
X
j
i
v
= 0 (2.4)
Agora somando estas equa coes para 1 i v e usando as Equa coes (2.2) obtemos a
seguinte rela cao entre
i
e s
j
,
s
j+v
+s
j+v1
1
+. . . +s
j+1
v1
+s
j
v
= 0 (2.5)
e todos os s
j
sao conhecidos se 1 j 2t v. Portanto, o calculo dos
i
s a partir do
vetor sndrome e feito resolvendo-se o Sistema Linear (2.5) de modo que v tenha o menor
valor possvel (isto e requerido pois sempre estaremos assumindo que o vetor erro que ocorre
e aquele que possui o menor peso de Hamming possvel). Por constru cao, o Sistema (2.5)
sempre possui uma solu cao. Veremos no proximo teorema que se os Y
i
s sao unidades, a
solu cao do Sistema (2.5) e unica.
Teorema 2.3.1. [42] O Sistema Linear (2.5), nas incognitas
1
,
2
, ...,
v
, dado por
57
_
_
s
1
s
2
. . . s
v
s
2
s
3
. . . s
v+1
.
.
.
.
.
.
.
.
.
.
.
.
s
2tv
s
2tv+1
. . . s
2t1
_
_
_
v1
.
.
.
1
_
_
=
_
_
s
v+1
s
v+2
.
.
.
s
2t
_
_
possui solu cao unica se, e somente se, todas as magnitudes Y
i
s, dos erros ocorridos forem
unidades no anel sobre sobre o qual o codigo esta denido.
Com isto, acabamos de mostrar que o procedimento de decodica cao do codigo BCH
compreende os seguintes passos:
Passo 1: Calculo do vetor sndrome s = (s
1
s
2
. . . s
2t
) a partir do vetor recebido r;
Passo 2: Calculo das fun coes simetricas elementares
1
,
2
, ...,
v
, a partir de s;
Passo 3: Calculo dos n umeros localizadores de erros X
1
, X
2
, ..., X
v
a partir das fun coes
simetricas elementares
i
, i = 1, 2, ..., v;
Passo 4: Calculo das magnitudes dos erros Y
i
s a partir dos X
i
s e do vetor sndrome s.
A seguir passaremos a caracterizar cada um dos quatro passos mencionados acima.
Passo 1. Calculo do Vetor Sndrome: s = r.H
T
.
Passo 2. Calculo das Fun coes Simetricas Elementares.
O problema a ser solucionado neste estagio e o seguinte: dada uma sequencia de elementos
s
1
, s
2
, ..., s
2t
, as componentes do vetor sndrome s, os quais pertencem a um anel comutativo
GR(p
k
, r) onde k 1 e r 1 determine a solu cao do Sistema Linear (2.5) nas incognitas
i
(1 i v) tal que v seja mnimo. Pelo Teorema 2.3.1 temos que a solu cao do Sistema (2.5)
sera unica somente quando as magnitudes de todos os erros forem unidades em R.
Este algoritmo e iterativo de modo que no n-esimo passo o decodicador determina um
conjunto de l
n
vetores
n
i
tal que as n l
n
equa coes
_
_
s
n
(n)
0
+s
n1
(n)
1
+ +s
nln
(n)
ln
= 0
s
n1
(n)
0
+s
n2
(n)
1
+ +s
nln1
(n)
ln
= 0
.
.
.
s
ln+1
(n)
0
+ s
ln
(n)
1
+ +s
1
(n)
ln
= 0
(2.6)
58
chamadas somas de potencias, sejam satisfeitas com l
n
o menor possvel e
n
0
= 1.

E
conveniente representar o conjunto dos
i
na seguinte forma polinomial
(n)
(x) =
(n)
0
+
(n)
1
x + +
(n)
ln
x
ln
. Este polinomio tem grau menor ou igual a l
n
e representa a solu cao do
n-esimo estagio.
Agora, suponha que no n-esimo estagio o decodicador tenha determinado
(n)
(x), com
l
n
mnimo tal que o Sistema (2.5) seja satisfeito. No (n + 1)-esimo estagio o decodicador
procura encontrar o polinomio
(n+1)
(x) de menor grau tal que as equa coes
l
n+1
i=0
s
ji
(n+1)
i
= 0, l
n+1
+ 1 j n + 1 (2.7)
sejam satisfeitas. Denimos a n-esima discrepancia d
n
como d
n
= s
n+1
(n)
0
+ +s
n+1ln
(n)
ln
.
Se d
n
= 0, a Equa cao (2.7) vale com
(n+1)
(x) =
(n)
(x). E como
(n)
(x) e uma solu cao
mnima no n-esimo estagio, e certamente uma solu cao mnima no (n + 1)-esimo estagio.
Contudo, se d
n
,= 0 a determina cao de
(n+1)
(x) a partir de
(n)
(x) nao e trivial. Em vista
disto, temos dois lemas que estao diretamente relacionados com a determina cao de
(n+1)
(x)
(nao necessariamente com o menor valor de l
n+1
possvel) a partir de
(n)
(x).
Lema 2.3.1. [42] Suponha que
(n)
(x) seja um polinomio solu cao minimal para as n primeiras
somas de potencias, isto e, existe um l
n
mnimo que satisfaz às equa coes (2.6), e suponha
ainda que a proxima discrepancia d
n
,= 0. Seja
(m)
(X) = 1 +
(m)
1
X + +
(m)
lm
X
lm
um polinomio solu cao para as m primeiras somas de potencia, com 1 m < n e tal que a
equa cao d
n
yd
m
= 0 admita uma solu cao em y sobre o anel R. Entao o polinomio
(n)
(X) yX
nm
(m)
(X) =
(n+1)
(X)
e uma solu cao para as n + 1 primeiras somas de potencia. Mais ainda,
l
n+1
= max[l
n
, l
m
+n m].
Lema 2.3.2. [42] Sejam
(n)
(X), l
n
e d
n
,= 0 como denidos no Lema 2.3.1. Suponha
que
(n+1)
(X) seja uma solu cao polinomial das equa coes em (2.6) satisfazendo n + 1 l
n+1
equa coes e que
(n+1)
(X)
(n)
(X) = aX
nm
(m)
(X), onde a e uma unidade em R e
(m)
0
=
1. Entao o polinomio
(m)
(X) e um polinomio solu cao para as ml
m
primeiras equa coes em
(2.6), e tendo proxima discrepancia d
m
,= 0, satisfazendo d
n
+ad
m
= 0 e l
m
= l
n+1
(nm).
59
Como consequencia dos Lemas (2.3.1) e (2.3.2) temos o seguinte teorema.
Teorema 2.3.2. [42] Sejam
(n)
(X) um polinomio solu cao minimal no n-esimo estagio e
(m)
(X), 1 m < n uma das solu coes minimais anteriores tal que a equa cao d
n
yd
m
= 0
admita uma solu cao em y e m l
m
tenha o maximo valor possvel. Entao uma solu cao no
(n + 1)-esimo estagio e
(n+1)
(X) onde
(i) Se d
n
= 0, entao
(n+1)
(X) =
(n)
(X) e l
n+1
= l
n
; (2.8)
(ii) Se d
n
,= 0, entao
(n+1)
(X) =
(n)
(X) yX
nm
(m)
(X) e l
n+1
= maxl
n
, l
m
+n m (2.9)
Observacao 2.3.1. A solu cao
(n+1)
(X) dada no Teorema (2.3.2) nao e necessariamente
a resposta almejada, pelo fato de que o mesmo nao garante a minimalidade quando o coe-
ciente da menor potencia da variavel X em
(n+1)
(X)
(n)
(X) nao for uma unidade em
R. Contudo, em muitos casos este teorema ja aponta corretamente a solu cao minimal no
(n + 1)-esimo estagio.
Iremos agora descrever o algoritmo da solu cao do problema original, isto e, a solu cao das
Equa coes (2.5). As suas entradas sao as componentes do vetor sndrome s. O algoritmo
produzira como sada um conjunto de valores
i
, 1 i v, tais que as Equa coes (2.5) sejam
satisfeitas com o valor mnimo possvel de v. Para isso, assumimos as seguintes condi coes
iniciais
(1)
(X) = 1, l
1
= 0, d
1
= 1,
(0)
= 1, l
0
= 0, d
0
= s
1
.
Algoritmo de Berlekamp- Massey Modicado (BM)
Iniciamos preenchendo os dados iniciais como mostra a seguinte tabela de valores
n
(n)
(X) d
n
l
n
n l
n
-1 1 1 0 -1
0 1 s
1
0 0
1
2
.
.
.
2t
60
Em seguida, adotamos os seguintes procedimentos:
(1) n 0;
(2) Se d
n
= 0, entao
(n+1)
(X) e l
n+1
sao dados por (2.8). Va para o item (5);
(3) Se d
n
,= 0, entao encontre m tal que a equa cao d
n
yd
m
= 0, na variavel y, tenha
solu cao sobre o anel R e m l
m
tenha maximo valor possvel. Neste caso,
n+1
(X) e
l
n+1
sao dados por (2.9);
(4) Se l
n+1
= max[l
n
, n + 1 l
n
] va para o item (5). Caso contrario, devemos procurar
uma solu cao D
(n+1)
(X) com grau l mnimo possvel no intervalo max[l
n
, n + 1 l
n
]
l < max[l
n
, l
m
+n m] tal que o polinomio
m
(X) denido pela equa cao D
(n+1)
(X)
(n)
(X) = X
nm
(m)
(X) seja uma solu cao para as m primeiras somas de potencias tal
que d
m
= d
n
e
(m)
0
seja um divisor de zero em R. Se este polinomio for encontrado,
entao
(n+1)
(X) D
(n+1)
(X);
(5) Se n < 2t 1, calcule d
n+1
= s
n+2
+s
n+1
(n+1)
1
+ +s
n+2
l
n+1
(n+1)
l
n+1
;
(6) n n + 1, se n < 2t va para (2). Caso contrario, m.
Deste modo a resposta desejada sera dada pelo polinomio
(2t)
(X), isto e, os seus coe-
cientes formam uma solu cao para as equa coes em (2.5).
Passo 3. Calculo dos N umeros Localizadores de Erros.
O objetivo neste passo e resolver a equa cao polinomial (Z) = 0 sobre o anel R onde
(Z) = Z
v
(2t)
(Z
1
) = Z
v
+
1
Z
v1
+ +
v1
Z +
v
. Sendo R um anel devemos ter que as
razes de
(2t)
(Z) = 1+
1
Z + +
v
Z
v
estao em R
, e assim as razes de (Z) (o polinomio

recproco de
(2t)
(Z) sao as inversas das razes de
(2t)
(Z)).
A solu cao do Sistema (2.5), em geral, nao e unica, e deste modo os valores de
i
, (1 i
v) produzidos pelo algoritmo de Berlekamp-Massey modicado para aneis pode nao ser os
mesmos denidos pela Equa cao (2.3). Assim, as razes do polinomio (Z) (com os coecientes
i
s provenientes do Algoritmo de BM modicado) podem nao ser os n umeros localizadores
de erros corretos. Contudo veremos, a seguir, que de fato estes n umeros podem ser obtidos
a partir das razes de (Z), desde que os coecientes
i
, (1 i v) sejam uma solu cao do
Sistema (2.5).
Com o intuito de analisarmos a relacao entre as razes de (Z) e os n umeros
localizadores de erros suponha que (Z) tenha pelo menos v razes distintas sobre o anel
R. Assim, podemos escrever (Z) = (Z Z
1
)(Z Z
2
) (Z Z
v
). Observamos que pelo
61
menos uma solu cao de (Z) produzida pelo algoritmo de Berlekamp-Massey modicado tera
esta propriedade.
No sentido de converter as razes de (Z) nos n umeros localizadores de erros corretos,
suponhamos que estes n umeros sejam X
1
, X
2
, , X
v
, que as magnitudes dos erros sejam
Y
1
, Y
2
, , Y
v
e que as razes de (Z) sejam Z
1
, Z
2
, , Z
v
. Assim, podemos escrever
Y
i
X
j
i
(Z
v
+
1
Z
v1
+ +
v1
Z +
v
) = Y
i
X
j
i
(Z Z
1
)(Z Z
2
) (Z Z
v
) (2.10)
para (1 i v) e (1 j 2t v). Substituindo Z por X
i
e somando o primeiro membro
para (1 i v), obtemos
s
j+v
+s
j+v1
1
+ +s
j+1
v1
+s
j
v
(2.11)
Note que esta equa cao se anula para todo j tal que (1 j 2t v), ja que os
i
s formam
uma solu cao para o Sistema (2.5) e consequentemente,
v
i=1
Y
i
X
j
i
(X
i
Z
1
)(X
i
Z
2
) (X
i
Z
v
) = 0 (2.12)
para (1 j 2t v). Escrevendo na forma matricial temos o seguinte sistema homogeneo:
_
_
X
1
X
2
. . . X
v
X
2
1
X
2
2
. . . X
2
v
.
.
.
.
.
.
.
.
.
.
.
.
X
2tv
1
X
2tv
2
. . . X
2tv
v
_
_
_
_
Y
1
P
1
Y
2
P
2
.
.
.
Y
v
P
v
_
_
=
_
_
0
0
.
.
.
0
_
_
(2.13)
onde P
i
=
v
l=1
(X
i
Z
l
) para (1 i v). Sendo 2t v maior ou igual a v (pois v t) e
pelo Teorema 2.3.1 o posto (maior n umero r tal que existe uma submatriz r r tal que o
determinante e uma unidade em R) da matriz v v em (2.13) e v (que e igual ao n umero de
incognitas), segue do Teorema 5.3 de [48] que este sistema possui somente a solu cao trivial,
isto e, Y
i
P
i
= 0, para (1 i v).
A partir deste resultado podemos concluir que cada produtorio P
i
e um divisor de zero
em R. Portanto, em cada P
i
(1 i v) existe pelo menos um l-esimo fator (X
i
Z
l
) que e
um divisor de zero em R. Alem disso, se o l
1
-esimo fator em P
i
e um divisor de zero d
1
e o
62
l
2
-esimo fator em P
k
e tambem um divisor de zero d
2
, entao l
1
,= l
2
para i ,= k. De fato, se
l
1
= l
2
para i ,= k, temos que X
i
X
k
, onde X
i
Z
l
1
= d
1
e X
k
Z
l
1
= d
2
, e um divisor de
zero em R (pelo fato de R ser um anel), o que e uma contradi cao pelas demonstra coes dos
Teoremas 3.4.1 e 3.4.2 e do Lema 4.1.1 de [49], ja que i ,= k. Com isto, podemos armar que
correspondendo a cada Z
i
existe um unico n umero de localiza cao de erro X
i
(1 i v).
A seguir, apresentamos um resumo do procedimento para o calculo dos n umeros loca-
lizadores de erros.
Calcule as razes do polinomio (Z) = Z
v
(2t)
(Z
1
), o recproco do polinomio produzido
pelo algoritmo de Berlekamp-Massey modicado;
Observacao 2.3.2. O metodo usado para encontrar a solu cao da equa cao polinomial
f(x) = 0, onde f(x) = a
0
+ a
1
x + a
2
x
2
+ + a
n
x
n
sobre o anel R, e o de fazer
uma busca exaustiva em R das razes de f(x). Isto e analogo ao que se faz quando da
decodica cao de codigos BCH sobre corpos nitos GF(q), onde q e uma potencia de
um n umero primo.
Entre os X
0
=
0
, X
1
=
1
, . . . , X
n1
=
n1
, selecione aqueles X
i
s que tornam as
diferen cas X
i
Z
j
(1 j v) elementos divisores de zero em R. Os X
i
s selecionados
serao os n umeros localizadores de erros corretos e cada X
i
=
i
indica que um erro
ocorreu na posi cao i da palavra-codigo.
Finalizado este passo de localiza cao dos erros, passamos ao quarto e ultimo passo do
procedimento de decodica cao dos codigos BCH.
Passo 4. Determina cao das Magnitudes dos Erros.
Para completarmos este processo de decodica cao descrevemos um metodo para a de-
termina cao das magnitudes Y
i
(1 i v) dos erros. Neste sentido, primeiramente iremos
mostrar que estas magnitudes cam determinadas de maneira unica apos o conhecimento dos
X
i
s(1 i v), que sao os n umeros localizadores de erros determinados no passo anterior.
As v primeiras equa coes em (2.2) podem ser descritas na forma
_
_
X
1
X
2
. . . X
v
X
2
1
X
2
2
. . . X
2
v
.
.
.
.
.
.
.
.
.
.
.
.
X
v
1
X
v
2
. . . X
v
v
_
_
_
_
Y
1
Y
2
.
.
.
Y
v
_
_
=
_
_
s
1
s
2
.
.
.
s
v
_
_
(2.14)
63
Pelo Teorema 2.3.1 segue que a matriz v v em (2.14) e nao singular, isto e, seu deter-
minante e uma unidade em R, acarretando que o vetor Y = (Y
1
, Y
2
, . . . , Y
v
) e determinado
de maneira unica.
Para determinar o vetor Y usamos o procedimento proposto por Forney [40]. Este metodo
requer o conhecimento dos n umeros localizadores de erros e de suas fun coes simetricas ele-
mentares calculadas a partir da Equa cao (2.3).
Inicialmente, denimos as fun coes simetricas elementares
jl
dos n umeros localizadores
de erros (X
1
, X
2
, . . . , X
j1
, X
j+1
, . . . , X
v
) atraves da seguinte rela cao
i=j
(X X
i
) =
v1
l=0
jl
X
v1l
. (2.15)
Da Equa cao (2.3) obtemos,
v
i=1
(X X
i
) =
v
i=0
i
X
vi
, (2.16)
onde
0
=
j,0
= 1, o elemento identidade do anel R. Das Equa coes (2.15) e (2.16) obtemos
que
(X X
j
)
v1
l=0
jl
X
v1l
=
v
i=0
i
X
vi
. (2.17)
Desenvolvendo o primeiro membro da Equa cao (2.17) temos:
v1
l=0
jl
X
vl
v1
l=0
jl
X
j
X
v1l
=
v
i=0
i
X
vi
. (2.18)
Da Equa cao (2.18) conclumos que os coecinetes
jl
podem ser obtidos de maneira re-
cursiva a partir dos X
i
s e
i
s para (1 i v) (que sao conhecidos), mediante a seguinte
rela cao:
ji
=
i
+X
j
j,i1
para (1 i v 1) e com
0
=
j,0
= 1. (2.19)
64
Denotando a magnitude de cada erro por Y
j
, temos:
v1
l=0
jl
s
vl
=
v1
l=0
jl
v
i=1
Y
i
X
vl
i
=
v
i=1
Y
i
X
i
v1
l=0
jl
X
v1l
i
. (2.20)
Por (2.15) isto implica que,
v1
l=0
jl
s
vl
=
v
i=1
Y
i
X
i
m=j
(X
i
X
m
) = Y
j
X
j
m=j
(X
j
X
m
), (2.21)
onde esta ultima igualdade segue do fato que o somatorio em questao so nao se anula se
i = j. Da Equa cao (2.21) conclumos:
v1
l=0
jl
s
vl
= Y
j
v1
l=0
jl
X
vl
j
, (2.22)
e consequentemente, cada Y
j
para (1 j v) e dado por
Y
j
=
v1
l=0

jl
s
vl
v1
l=0

jl
X
vl
j
. (2.23)
Observacao 2.3.3. O denominador da Equa cao (2.23) e uma unidade no anel R pois e igual
a X
j
m=j
(X
j
X
m
), onde cada fator e do tipo
i
j
com 0 i ,= j n1. Assim, segue
das demonstra coes dos Teoremas 3.4.1, 3.4.2 e Lema 4.1.1 de [49] que as diferen cas (
i
j
),
com i ,= j, sao sempre unidades no anel R, o que implica que o referido denominador e uma
unidade no anel R.
Conclumos deste modo o quarto passo de decodica cao dos codigos BCH, que e a de-
termina cao das magnitudes Y
i
s dos erros atraves da Equa cao (2.23). Assim, nalizamos o
processo de decodica cao destes codigos denidos sobre aneis de inteiros residuais Z
p
k, para
p um primo e k um inteiro maior ou igual a 1.
2.3.2 Gera cao de Sequencias
O problema de circuitos lineares de deslocamentos com realimenta cao para dgitos per-
tencentes a um corpo nito foi tratado em [44]. Este mesmo problema foi estendido em [35]
65
para o caso de aneis da forma Z
p
k.
Um circuito linear de deslocamentos com realimenta cao de comprimento L, Figura 2.13,
consiste de uma cascata de L atrasadores (registros de deslocamentos) e alguns multipli-
cadores e somadores capazes de gerar uma combina cao linear dos conte udos destes registros.
S
j-1
S
j-2
S
j-L
S
j
S
j-L -1
S
1
,...,
-C
1
-C
L -C
2
.....
.....
.....
Figura 2.13: LFSR (linear feedback shift-register) de comprimento L.
O conte udo do ultimo registro e a sada do LFSR. Os conte udos iniciais s
1
, s
2
, . . . , s
L
dos
L atrasadores coincidem com os L primeiros dgitos de sada, e os digtos subsequentes de
sada sao obtidos atraves da seguinte rela cao de recorrencia
s
j
=
L
i=1
c
i
s
ji
para (j = L + 1, L + 2, ...). Os dgitos de sada e os coecientes de realimentacao
c
1
, c
2
, . . . , c
L
sao elementos do anel R. Quando c
L
= 0 o LFSR e dito singular.
Um LSFR gera uma sequencia nita de dgitos s
1
, s
2
, . . . , s
N
quando esta sequencia coin-
cide com os N primeiros dgitos de sada do mesmo para algum conte udo inicial. Se L N o
LFSR sempre gera a sequencia e se L < N temos que o LFSR gera a sequencia se, e somente
se,
s
j
+s
j1
c
1
+ +s
jL+1
c
L1
+s
jL
c
L
= 0 (2.24)
para L + 1 j N.
Algoritmo para sntese de LFSRs
Em [44] foi mostrado que o algoritmo usado para a decodica cao de codigos BCH tambem
pode ser usado para sintetizar um LFSR de comprimento mnimo L que gera uma sequencia
66
prescrita. Isto e, o problema de gera cao de um LFSR e a decodica cao de um codigo BCH
sao equivalentes.
De forma analoga, o algoritmo de Berlekamp-Massey modicado pode ser aplicado para
sintetizar um LFSR de comprimento mnimo que gera uma dada sequencia s
i
N
i=1
de e-
lementos pertencentes a um anel R. Isto e justicado quando comparamos os Sistemas de
Equa coes (2.5) e (2.24). Em ambos os casos, o objetivo e encontrar a menor quantidade de
variaveis (v ou L) que satisfazem os respectivos conjuntos de equa coes.
Deste modo, temos que as entradas do algoritmo serao os elementos s
1
, s
2
, . . . , s
N
que
formam a sequencia dada e a sada do mesmo sera o polinomio
C(X) = 1 +c
1
X + +c
L
X
L
na variavel X, cujos coecientes sao os coecientes de realimenta cao do LFSR minimal de
comprimento L que gera s
i
N
i=1
. Este LFSR minimal sera unico se, e somente se, 2L N e
em cada estagio do algoritmo a equa cao linear d
n
yd
m
= 0, na variavel Y , apresentar solu cao
unica (d
n
e d
m
sao a n-esima e a m-esima discrepancia, respectivamente). Caso contrario,
havera mais de um LFSR minimal de comprimento L que gera s
i
N
i=1
.
Finalmente, vale ressaltar que o problema da sntese de LFSRs minimais que geram
sequencias de elementos pertencentes a aneis do tipo Z
m
foi tratado em [44]. Entretanto,
o algoritmo apresentado difere substancialmente do algoritmo original de BM para corpos
GF(q), aumentando inclusive o n umero de variaveis envolvidas. Alem disso, se m fatorar em
um produto de r primos distintos, entao o algoritmo deve ser aplicado r vezes para depois
usarmos o Teorema do Resto Chines [45] que nalmente produzira a resposta desejada.
67
Captulo 3
Modelo de um Sistema de
Comunica cao para a Importa cao de
Protenas Organelares
Neste captulo, apresentamos a proposta de um modelo geral de sistema de comunica coes
para o mecanismo de importa cao organelar. Utilizamos o modelo proposto para interpretar
o sistema de importa cao de protenas mitocondriais, isto e, um caso particular do modelo
geral. Alem disso, mostramos como foram estabelecidos os codigos corretores de erros para
a reprodu cao das sequencias de direcionamento, bem como a estrutura matematica e os
parametros destes codigos.
Por tratar-se de um assunto interdisciplinar, na Se cao 3.1 relatamos sobre as semelhan cas
entre o Dogma Central da Biologia e o Dogma Central da Teoria de Comunica coes. Baseando-
se nessas semelhan cas descrevemos detalhadamente sobre os processos de codica cao e de-
codica cao do modelo proposto para o mecanismo de importa cao de protenas mitocondriais,
Se cao 3.2. Ressaltamos que a Subse cao 3.1.1 e parte integrante de [18].
3.1 Analogias entre um Sistema de Informa cao Gene-
tica e um Sistema de Comunica cao
3.1.1 O dogma central da biologia molecular
O dogma central da biologia molecular foi descrito em 1958 por Francis Crick na tentativa
de relacionar o DNA, o RNA e as protenas. O dogma central dene o paradigma da biologia
molecular, em que a informa cao e perpetuada atraves da replicacao do DNA e e traduzida
69
Captulo 3. Modelo de um Sistema de Comunica cao para a Importa cao de Protenas
Organelares
atraves de dois processos: A transcricao que converte a informa cao do DNA em uma forma
mais acessvel (uma ta de RNA complementar) e atraves da traducao que converte a
informa cao contida no RNA em protenas. Nesta subse cao descrevemos, de forma sucinta,
como ocorrem os processos de duplica cao, transcri cao e tradu cao, respectivamente.
Como o DNA se duplica - duplicacao
Para o DNA duplicar-se (ou replicar), ha necessidade de uma enzima especial, a DNA
polimerase. Estando presente essa enzima, ocorrem as seguintes etapas:
1. As pontes de hidrogenio que ligam as bases nitrogenadas rompem-se e as duas tas se
afastam;
2. Nucleotdeos de DNA livres, que ja existem na celula, encaixam-se nas duas tas que se
afastaram. O encaixe so ocorre se as bases forem complementares (adenina com timina,
citosina com guanina);
3. Quando as duas tas originais tiverem sido completadas por nucleotdeos novos, teremos
duas moleculas de DNA identicas entre si.
Em cada molecula, existe um lamento antigo, que pertencia à molecula-mae, e um novo,
que se formou sobre o antigo. Cada lamento antigo atuou como molde, ja que sua sequencia
de bases funcionou como guia para a produ cao da ta nova. O processo de duplica cao
e tambem denominado semi-conservativo, ja que cada molecula-lha conserva metade da
molecula-mae.
Como o DNA fabrica o mRNA - transcricao
De que jeito o DNA controla a producao de enzimas? O DNA produz moleculas
de mRNA, que migram para o citoplasma e controlam a constru cao das protenas, aminoa-
cido por aminoacido, garantindo a produ cao daquela protena especial no momento correto.
A sequencia de DNA e que condiciona a sequencia da molecula de RNA. Uma diferen ca
importante em rela cao à duplica cao e que apenas uma ta de DNA funciona como molde.
O RNA produzido sera, portanto, uma ta simples e nao dupla. Esse processo segue os
seguintes passos:
1.

E necessaria a presen ca de uma enzima: a RNA polimerase;
2. As pontes de hidrogenio se desfazem, as duas tas de DNA se afastam;
3. Nucleotdeos livres de RNA encaixam-se apenas numa das tas, chamada ta ativa;
70
Organelares
4. A molecula de RNA (ta unica) destaca-se de seu molde de DNA e migra para o
citoplasma;
5. As duas tas de DNA tornam a parear, reconstituindo a molecula original.
Sntese de protenas - traducao
O DNA presente no n ucleo controla toda a sntese de protenas da celula. Esse controle e
efetuado por meio de moleculas de RNA que o DNA fabrica e que passam para o citoplasma.
A correspondencia entre o DNA e o RNA ocorre base por base: quando ha adenina no
DNA, entra uracila no RNA; timina no DNA corresponde à adenina no RNA, e assim por
diante.
Na correspondencia entre RNA e protena, cada tres bases do RNA codicam um aminoa-
cido especco da protena. A correspondencia entre trincas de bases do DNA, trincas de
bases do RNA e aminoacidos chamamos codigo genetico. Cada trinca de bases no DNA
ou no RNA e denominada codon, de fato essas trincas representam palavras do codigo
genetico, cada palavra corresponde a um objeto, no caso o aminoacido. Existem 64
possveis trincas, ou codons, que correspondem a apenas 20 aminoacidos. Assim, e facil
entender que mais de um codon pode corresponder ao mesmo aminoacido.
3.1.2 O dogma central da teoria de comunica coes
A teoria de comunica coes lida com sistemas para a transmissao de dados ou de informa cao
de um ponto a outro. Na Figura 3.1 ilustramos atraves de um diagrama de blocos o que
denimos como sendo o dogma central da teoria de comunicacoes:
Transmissor Canal Receptor
Rudo
Figura 3.1: Dogma central da teoria de comunica coes.
A informa cao a ser transmitida atraves de um sistema de comunica coes estara sempre
sujeita a um conjunto de interferencias que no processo de modelagem serao alocadas ao
canal de transmissao. Essa coletanea de interferencias e denominada rudo.
Podemos descrever os blocos de um sistema de comunica coes como:
71
Organelares
Transmissor: e o gerador da informa cao, na forma de uma mensagem a ser transmi-
tida. Esta mensagem pode se constituir de um texto em uma linguagem natural, voz,
um sinal eletrico, ou qualquer outra forma que a informa c ao possa assumir.
Canal: e o meio atraves do qual se vai transmitir a informa cao, podendo assumir a
forma de uma linha telefonica, um enlace de radio, um meio de armazenamento (e.g.
sistema de disco magnetico), um organismo biologico, etc.

E no canal que e introduzido
rudo à informa cao, sendo esta uma das grandes preocupa coes da codica cao, a prote cao
da informa cao contra erros na transmissao.
Receptor: representa o usuario para o qual a informa cao esta sendo transmitida,
podendo tratar-se de um ser humano, uma maquina, ou um organismo vivo qualquer.
3.1.3 Analogias entre sistema de informa cao genetica e o sistema
de comunica coes
O objetivo desta se cao e relacionar as semelhan cas existentes entre o dogma central do
sistema de comunica coes e o dogma central da biologia molecular. Atraves das informa coes
fornecidas nas Subse coes 3.1.1 e 3.1.2, modelamos o dogma central da biologia molecular
como um sistema de comunica coes fazendo as seguintes associa coes:
1. Em um sistema de comunica cao o responsavel pela gera cao das informa coes a serem
transmitidas e o transmissor. Biologicamente quem exerce esta mesma fun cao e o DNA.
2. O processo de tradu cao tem como objetivo a transmissao da informa cao. Durante este
processo pode ocorrer alguns erros que irao interferir na informa cao, como por exemplo
a nao leitura de um codon que pode ocorrer por perda do pareamento do ribossomo.
Do ponto de vista da comunica cao, podemos visualizar os processos de transcri cao
e tradu cao como sendo o canal de um sistema de comunica cao, e os eventuais erros
cometidos durante estes processos como sendo o rudo introduzido no canal.
3. O receptor pode ser modelado como o local onde a informa c ao esta sendo enviada.
Neste caso especco, a nossa informa cao e a protena.
Sendo assim, podemos agora identicar atraves de um diagrama de blocos, cada bloco
no modelo de sistema de comunica cao, Figura 3.2, com cada bloco no sistema de informa cao
genetica.
Diante dessas semelhan cas, podemos modelar diversos sistemas biologicos atraves daquele
utilizado para um sistema de comunica coes.
72
Organelares
DNA
(Canal)
Protena
Erros
(Rudo)
(Receptor) (Transmissor)
Traduo
Figura 3.2: Modelo de um sistema de comunica coes de informa cao genetica.
3.2 Proposta de um Sistema de Comunica cao para a
Importa cao de Protenas
Nesta se cao, apresentamos uma proposta de um modelo de sistema de comunica cao para
a importa cao de protenas organelares que se baseia em um sistema de comunica cao digital.
Ate onde e de nosso conhecimento, este modelo difere dos modelos propostos anteriormente,
como vimos na se cao anterior. Na Subse cao 3.2.1 descrevemos os blocos componentes de um
sistema de comunica cao digital. A Subse cao 3.2.2 apresenta as analogias entre o mecanismo
de importa cao organelar e um sistema de comunica cao digital. Nas Subse coes 3.2.3 e 3.2.4
mostramos a estrutura e os parametros dos codigos BCH sobre anel. A Subse cao 3.2.5
descreve o modelo proposto no presente trabalho.
3.2.1 Sistema de comunica cao digital
O modelo do sistema de comunica cao digital mostrado na Figura 3.3 sera descrito a seguir.
Este sistema de comunica cao conecta uma fonte (usuario) a um destinatario atraves de um
canal.
Os dados que entram neste sistema de comunica cao a partir da fonte sao primeiramente
processados pelo codicador de fonte, o qual tem como objetivo representar os dados de
uma forma mais compacta, retirando a redundancia. A sada desse codicador consiste de
sequencias chamadas palavras-codigo do codigo da fonte.
Essas sequencias sao processadas por um codicador de canal que introduz redundancia
transformando-as em outras sequencias denominadas palavras-codigo. Cada smbolo na
palavra-codigo e representado por bits (dgitos binarios) no caso de sinaliza cao binaria. Caso
se use mais do que dois sinais (por exemplo q sinais), nao temos bits e sim dgitos de um
alfabeto q-ario.
73
Organelares
Canaldiscreto
Canal
Fonte
Codificador
defonte
Modulador
Codificador
decanal
Destinatrio
Decodificador
defonte
Demodulador
Decodificador
decanal
Rudo
Transmissor
Receptor
Figura 3.3: Diagrama de blocos de um sistema de comunica cao.
A seguir, o modulador converte cada smbolo da palavra-codigo em um smbolo analogico
correspondente que e transmitido atraves do canal.
Frequentemente o canal ca sujeito a varios tipos de rudo, distor coes e interferencias e
com isso a sada pode diferir da entrada. O demodulador converte, sempre fazendo a melhor
estimativa, cada sinal recebido na sada do canal em um dos possveis smbolos que compoem
as palavras-codigo.
A sequencia demodulada de smbolos e chamada palavra-c odigo recebida. Obviamente,
devido ao rudo, nem sempre a palavra-codigo recebida corresponde à palavra-codigo enviada.
Nesse momento o decodicador de canal se utiliza da redundancia contida na palavra-codigo
para corrigir os erros e entao produzir uma estimativa da palavra-codigo de fonte. O deco-
dicador de fonte processa a sequencia na sada do decodicador produzindo uma sequencia
estimada e a transforma numa sequencia de dados que sera entregue ao usuario.
3.2.2 Sistema de comunica cao biologico
Codigos corretores de erros sao utilizados sempre que se deseja transmitir ou armazenar
informa cao. Um exemplo bem sucedido e o sistema biologico que armazena e transmite a
informa cao atraves do codigo genetico. Na Figura 3.4 relacionamos as semelhan cas existentes
entre o sistema de comunica coes e a importa cao de protenas organelares fazendo as seguintes
associa coes:
1. Fonte: Em um sistema de comunica cao a fonte e o lugar onde a mensagem e gerada.
Em um sistema biologico, entretanto, o DNA e o RNA mensageiro sao responsaveis
pela gera cao e a transmissao da informa cao, respectivamente.
74
Organelares
2. Transmissor: O processo de tradu cao ocorre no citosol e seu objetivo e garantir a
continuidade da informa cao genetica.
3. Canal:

E o local pelo qual a informa cao e transmitida em um sistema de comunica coes,
onde erros podem ocorrer durante a transmissao da informa cao.
4. Receptor: O receptor pode ser interpretado como uma das organelas (mitocondria,
retculo endoplasmatico e cloroplasto), as quais representam o local para onde a in-
forma cao esta sendo enviada. Neste caso especco, a informa cao e a sequencia de
direcionamento.
Figura 3.4: Modelo de um sistema de comunica cao para importa cao de protenas.
Diante dessas analogias, decorre a proposta de um modelo para o sistema de importa cao
de protenas semelhante ao de um sistema de comunica coes digital. Uma questao sempre
presente em trabalhos relacionados com codica cao genetica e se existe alguma forma de
codigos corretores de erros na estrutura do DNA? O presente trabalho encaminha, de maneira
positiva, uma resposta a essa pergunta.
O modelo proposto baseia-se na seguinte hipotese: Se o genoma e constitudo por regioes
consistindo de exons, ntrons, sequencias de direcionamento, sinais internos, DNA repetitivo,
micro RNA e etc; entao cada uma dessas regioes pode ser reproduzida por um codigo es-
pecco. Sendo assim, o genoma consiste de codigos entrela cados e ao inves de analisarmos
o genoma como um todo, devemos focalizar em suas partes. Por este motivo abordaremos
uma regiao especca do genoma, as sequencias de direcionamento, que tem como objetivo
encaminhar uma protena ate a sua respectiva organela.
75
Organelares
Naturalmente surgem as seguintes perguntas: 1) Dentre os diversos codigos usados para
a transmissao da informa cao, existe algum codigo corretor de erros capaz de reproduzir
sequencias de direcionamento e suas correspondentes tas complementares? 2) Se existe,
qual sera a estrutura matematica para construir este codigo?
Diante destas perguntas, iniciamos o processo de busca do c odigo e da estrutura matemati-
ca que sejam mais apropriados e capazes de reproduzir as sequencias de direcionamento.
3.2.3 O codigo e a estrutura matematica
Os codigos corretores de erros sao classicados em duas classes: codigos lineares e codigos
nao-lineares. Como exemplo de codigos nao-lineares mencionamos os codigos de Nordstrom-
Robinson e Preparata, os quais apresentam uma capacidade de corre cao de erros superior à
dos codigos lineares. Para satisfazer tal caracterstica, algumas propriedades estruturais no
processo de gera cao sao perdidas. Como consequencia desse fato, o processo de decodica cao
torna-se mais complexo que o dos codigos lineares.
Por outro lado, as principais classes dos codigos lineares sao: os codigos cclicos, os
codigos de Hamming, codigos Reed-Solomon e codigos BCH. Os codigos BCH usados para
a transmissao de informa cao de pacotes em redes de computadores e gera cao de sequencias
formam uma importante classe de codigos cclicos devido, principalmente, à simplicidade
dos processos de codica cao e decodica cao associados. Este fato os tornam tambem bons
candidatos a serem utilizados na aplica cao para a gera c ao de sequencias de direcionamento,
onde as estruturas matematicas mais utilizadas para a constru cao destes codigos sao as
estruturas algebricas de corpo, anel e suas extensoes de Galois. Pelo fato da estrutura
de corpo ser mais restritiva que a estrutura de anel, decidimos construir os codigos BCH
sobre a estrutura de anel. Ressaltamos que em alguns trabalhos citados anteriormente, a
estrutura mais conhecida e usada na literatura, tanto em sistemas de comunica coes quanto
em modelagens de sistemas geneticos, e a estrutura de corpo. Sendo assim, a estrutura de
anel sera pela primeira vez abordada na literatura com o objetivo de construir codigos capazes
de reproduzir sequencias de direcionamento.
Uma vez selecionado o codigo (codigo BCH) e a estrutura algebrica (anel), alguns ele-
mentos adicionais deverao ser considerados, tais como: o alfabeto, o mapeamento, a extensao
de Galois e o polinomio primitivo. O alfabeto 4-ario do codigo esta relacionado ao conjunto
formado pelos nucleotdeos, denotado por N = A, C, G, T, correspondendo a adenina,
citosina, guanina e timina, respectivamente. Na estrutura de anel consideramos o alfabeto
do codigo Z
4
= 0, 1, 2, 3, este obedecendo as opera coes de soma e produto modulo 4. Uma
vez que o correspondente mapeamento entre N Z
4
nao e conhecido, consideramos todas as
permuta coes entre os elementos de cada um destes conjuntos. Este mapeamento tem como
76
Organelares
objetivo determinar qual a melhor associa cao de cada um dos smbolos no conjunto N com
o correspondente smbolo no conjunto Z
4
e vice-versa.
Considerando o fato de que as sequencias de direcionamento variam entre 13 e 85 aminoaci-
dos e de que o comprimento das palavras-codigo deve ser igual ao comprimento das sequencias
de direcionamento, teremos para cada um dos comprimentos uma correspondente extensao
de Galois sobre anel. Cada extensao de Galois possui uma quantidade de polinomios prim-
itivos, de forma que, quanto maior o grau da extensao maior a quantidade de polinomios
primitivos.
Em teoria da codica cao nao importa qual o polinomio primitivo que se escolha para
construir a extensao de corpo da qual o codigo sera construdo, pois algebricamente os corpos
gerados pelos correspondentes polinomios primitivos sao isomorfos. Como nao conhecemos
a estrutura algebrica das sequencias de direcionamento decidimos realizar a constru cao do
codigo BCH sobre anel para cada um dos polinomios primitivos de uma determinada extensao
de Galois, com o objetivo de vericar se esta escolha resultara em codigos com o mesmo
desempenho para um sistema de comunica coes genetico.
A diculdade que se apresenta para a solu cao desse problema esta em, quanto maior o
grau da extensao de Galois maior sera a quantidade de polinomios primitivos que devem
ser analisados na constru cao dos codigos, aumentando signicativamente a complexidade
computacional na constru cao destes codigos. Para contornar este problema construmos
codigos na extensao de Galois de grau r = 6 que possui seis polinomios primitivos.
3.2.4 Parametros do codigo
Os parametros do codigo BCH sao denotados da seguinte maneira: n = o comprimento
das palavras-codigo (comprimento das sequencias de direcionamento); k = a dimensao do
codigo (comprimento da sequencia de informa cao responsavel pela gera cao da sequencia de
direcionamento) e d = a distancia mnima do codigo (o menor n umero de posi c oes em que
quaisquer duas palavras-codigo diferem). O codigo BCH com parametros (n, k, d) possui uma
capacidade de corre cao de erros estabelecida atraves da rela cao d = 2t + 1, onde t denota a
quantidade de erros.
Para que a fatora cao de x
n
1 na extensao GR(p
k
, r) = GR(4, 6) seja unica, e necessario
que o comprimento da palavra-codigo seja mpar (n = p
r
1). Com o objetivo de diminuir
a complexidade computacional, analisamos as sequencias de direcionamento que possuem
comprimentos iguais a 21 e 22 aminoacidos correspondendo a 63 e 66 nucleotdeos, respecti-
vamente. No caso das sequencias com 22 aminoacidos podemos desconsiderar a metionina,
uma vez que a matriz geradora apresentara tres colunas com todos os elementos iguais. Para
que o comprimento seja n = 63 nucleotdeos, teremos que ter uma extensao de Galois de
77
Organelares
grau r = 6, isto e, n = p
r
1 n = 2
6
1 = 63.
Os codigos BCH foram construdos para todos os valores de t entre 1 t 31 para cada
um dos seis polinomios primitivos da extensao de Galois igual a r = 6, com o objetivo de
encontrar um codigo capaz de gerar as sequencias de direcionamento sem nenhuma diferen ca
de nucleotdeo ou no maximo diferindo em um nucleotdeo. Chamamos a aten cao para o
seguinte fato, para cada polinomio primitivo usado na gera cao do anel GR(4, 6) e para cada
valor de t, quantidade de erros, teremos um polinomio gerador g(x) diferente e, consequente-
mente, um novo codigo. Sendo assim, devemos considerar cada um destes codigos como um
novo codigo a ser analisado.
Na Se cao 4.1 do Captulo 4 apresentamos um algoritmo que realiza exaustivamente a
constru cao dos codigos BCH sobre anel para todos os polinomios primitivos da extensao de
Galois de grau r = 6 irredutveis sobre GF(2), bem como para as distancias de Hamming
variando entre 3 d 63.
3.2.5 Modelo do sistema de comunica cao biologico
O sistema de comunica coes para o transporte de protenas organelares do presente tra-
balho, consiste na caracteriza cao dos processos de codica cao e decodica cao das sequencias
de direcionamento. O processo de codica cao e realizado pelo bloco transmissor, Figura 3.5
(A), e o processo de decodica cao e realizado pelo bloco receptor, Figura 3.5 (B).
Canal
Destinatrio Decodificador Demodulador
Codificador Fonte Modulador
Transmissor
Receptor
Canaldiscreto
(A)
(B)
Figura 3.5: Sistema de comunica coes digital.
Uma possvel interpreta cao do teorema de codica cao de canal, de Shannon, considerando
o uxo de informa cao da fonte ao destinatario, e que a informa cao m utua do canal discreto
78
Organelares
deve ser tao proxima quanto possvel da entropia da fonte. Para alcan car esse objetivo,
um codigo corretor de erros e usado. Portanto, o transmissor no modelo de um sistema de
comunica coes digital consiste de dois blocos em cascata, um bloco esta associado com um
codicador e o outro associado com um modulador, Figura 3.6.
O processo de codicacao biologica
A palavra-codigo na sada do codicador esta relacionada à sequencia de direcionamento
em termos de nucleotdeos, enquanto que a sada do modulador esta relacionada à sequencia
de direcionamento em termos de aminoacidos, Figura 3.6. Embora o mapeamento entre o
codon e anti-codon (codigo genetico), realizado pelo RNA transportador seja bem conhecido
no contexto biologico, o mesmo necessita de uma caracteriza cao matematica no contexto de
um sistema de comunica coes digital.
Canal
Transmissor
Receptor
Canaldiscreto
.MC
SD
nucleotdeos
Ribossomo
Cdigo
Gentico
G-Linear
Codificador
Modulador
Constelao de
Sinais
Cdigo
BCH
Mapeamento Fonte
.RNAt
=
Transmissor
SD*
aminocidos
Figura 3.6: Modelo proposto para codica cao biologica.
No contexto de sistema de comunica coes digital existe um processo muito simples e e-
ciente que e chamado de mapeamento casado (MC). Essa propriedade matematica implica
que a estrutura algebrica do codicador seja a mesma, a menos de um isomorsmo, que a da
constela cao de sinais, garantindo assim, a menor complexidade possvel do sistema. A classe
de codigos satisfazendo essa propriedade e bem conhecida e denominada codigos geometrica-
mente uniformes. Uma subclasse importante e a dos codigos G-lineares, onde G denota uma
estrutura algebrica, que incorpora todas as vantagens inerentes ao processo de gera cao e de
decodica cao dos codigos lineares, bem como, a dos codigos nao lineares atraves da inser cao
do bloco mapeamento. Dependendo da classica cao desse mapeamento como linear ou nao
linear, o codigo resultante sera linear ou nao linear, respectivamente. Portanto, o codicador
79
Organelares
consiste de um mapeador e um codicador de um codigo corretor de erros. O modulador
consiste do codigo genetico, do RNA transportador e do RNA ribossomico.
O codigo genetico pode ser visto como uma constela cao de sinais, onde cada codon e
considerado como um sinal na constela cao, o RNA transportador realiza o mapeamento
casado, enquanto que o RNA ribossomico se comporta como um processador de sinal digital,
Figura 3.6.
O processo de decodicacao biologica
O modelo de decodica cao do presente trabalho baseia-se no processo de importa cao de
protenas mitocondriais, porem essa analogia pode ser estendida para os demais processos
de importa cao organelares. Para que esse modelo seja possvel, fazemos o uso da seguinte
hipotese: A sequencia reproduzida pelo codigo e a informa cao gerada pela fonte. No processo
de codica cao ocorreu algum tipo de interferencia que introduziu erros durante a gera cao da
sequencia. Sendo assim, consideramos que a sequencia encontrada no banco de dados NCBI
(National Center for Biotechnology Information) e a sequencia reproduzida pelo codigo
acrescida de erros, a qual denotamos por SD
.
Em um sistema de comunica cao existe um processo muito estruturado de reconhecimento
do conte udo da informa cao enviado pelo transmissor. Esse processo sustenta a conabilidade
da transmissao da informa cao de todo o sistema e e realizado no bloco decodicador. Basi-
camente atraves do reconhecimento, localiza cao e corre cao dos erros, o decodicador garante
que a informa cao correta chegara ao seu destino.
Canal
Transmissor
Receptor
Canaldiscreto
=
Receptor
Tom70 Tom20
Tom22
Tom40 Tom5
Tom7 Tom6
Membranainterna
ou
Matriz
SD*aminocidos
sinaisinternos
SD*aminocidos
N-terminal
SD*nucleotdeos
sinaisinternos
SD*nucleotdeos
N-terminal
Demodulador
Decodificador
GIP
Figura 3.7: Modelo proposto para decodica cao biologica.
80
Organelares
No contexto biologico quem realiza o processo de reconhecimento das sequencias de dire-
cionamento (conte udo da informa cao) e o complexo TOM (translocase of the mitochondrial
outer membrane). O complexo TOM esta ancorado na membrana externa e e necessario
para a importa cao de todas as protenas mitocondriais codicadas no n ucleo [6].
A maquinaria TOM contem receptores de importa cao que reconhecem as protenas precur-
soras mitocondriais atraves de suas sequencias de direcionamento e, entao, iniciam o processo
de transloca cao dessa protena para o seu devido local [7].
As protenas Tom20, Tom22 e Tom70 funcionam como receptores para as protenas
precursoras mitocondriais. Tom20 e Tom22 formam o complexo receptor principal sendo
que Tom22 interage com precursores contendo sequencias de direcionamento internas ou
no amino-terminal, enquanto que Tom20 reconhece especicamente pre-sequencias amino-
terminais. Tom70 interage com precursores que possuem sequencias de direcionamento inter-
nas. As protenas precursoras inicialmente reconhecidas pelo Tom70 sao transferidas para o
Tom20 e/ou Tom22 antes de sua inser cao no poro geral de inser cao (GIP general insertion
pore)[11].
Embora o processo de reconhecimento das sequencias de direcionamento, realizado pelo
complexo TOM, seja bem conhecido no contexto biologico e necessaria uma caracteriza cao
matematica para esse processo. O modelo de decodica cao baseia-se em uma analogia en-
tre o processo de decodica cao (Berlekamp-Massey para Aneis) utilizado em sistemas de
comunica coes e o complexo TOM que atua no transporte de protenas mitocondriais.
O algoritmo de Berlekamp-Massey consiste basicamente de quatro passos, os quais podem
ser interpretados como os quatro passos do processo de decodica cao:
Passo 1. Calculo das Sndromes: neste passo o algoritmo verica se a informa cao e uma
palavra-codigo atraves do calculo das sndromes. Temos duas situa coes: 1) Quando o
calculo for igual a zero temos que a informa cao e uma palavra-codigo sem erros e 2)
Quando o calculo for diferente de zero e acionado o segundo passo do algoritmo;
Passo 2. Calculo das Fun coes Simetricas Elementares: se o calculo das sndromes for
um valor diferente de zero, podemos vericar se a quantidade de erros esta dentro da
capacidade de corre cao do codigo;
Passo 3. Calculo dos N umeros Localizadores de Erros: neste passo sao localizadas as
posi coes onde ocorreram os erros;
Passo 4. Calculo das Magnitudes dos Erros: o algoritmo indica quais sao os valores
que devem ser somados nas posi coes apontadas no Passo 3 para que os erros sejam
corrigidos.
81
Organelares
Durante o processo de importa cao de protenas mitocondriais, existem procedimentos
semelhantes aos passos do processo de decodica cao descritos anteriormente. Deste modo
podemos reescrever o algoritmo do Berlekamp-Massey sob o ponto de vista biologico, con-
siderando que o complexo TOM realiza os quatro passos de decodica cao do algoritmo da
seguinte forma:
1
o
passo do processo de decodica cao: Neste nvel as protenas Tom20 e Tom70, que
funcionam como receptores para as protenas precursoras mitocondriais, tem a fun cao
de vericar se a protena precursora pertence a mitocondria ou nao atraves do calculo
das sndromes;
2
o
passo do processo de decodica cao: Se o calculo das sndromes for um valor diferente
de zero, a protena Tom22 consegue vericar se os erros introduzidos na sequencia de
direcionamento mantem a estrutura matematica original da sequencia e se estes erros
estao dentro da capacidade de corre cao do codigo. Apos esta verica cao temos as duas
situa coes: 1) a protena e liberada para o complexo GIP somente se os erros estiverem
dentro da capacidade de corre cao e 2) caso contrario a protena nao e importada;
3
o
passo do processo de decodica cao: neste nvel as protenas do complexo GIP lo-
calizam as posi coes onde ocorreram os erros com o objetivo de vericar se os erros
ocorreram em uma regiao da sequencia que compromete o seu conte udo de informa cao;
4
o
passo do processo de decodica cao: biologicamente nao ocorre a repara cao de erros
apos a sntese de protenas, deste modo a nossa suposi c ao e que neste nvel e acionado
um mecanismo de degrada cao da protena caso os erros tenham ocorrido em regioes
que comprometem o seu conte udo de informa cao. Este mecanismo deve ser acionado
somente em casos raros, visto que existem outros tres nveis de decodica cao anteriores
a este nvel.
82
Captulo 4
Gera cao das Sequencias de
Direcionamento
Uma das motiva coes em identicar codigos corretores de erros em sequencias de DNA
esta no fato dos mesmos serem capazes de reproduzir estas sequencias, bem como a estrutura
matematica das sequencias de DNA. Este tipo de abordagem possibilita analisar muta coes e
polimorsmos sob o ponto de vista matematico, vericando se a sequencia de DNA mutada faz
parte do mesmo codigo da sequencia original e consequentemente da mesma matriz geradora.
Desse fato decorre que a estrutura matematica destas sequencias foram mantidas.
Em [1] pg. 166, Battail declara: Given a sequence of symbols, say, of nucleotides,
consider the problem of determining whether this sequence is a word of some error-correcting
code and, if so, of identifying the code to which it belongs. As stated, this problem has no
solution.
Neste captulo, ate onde e de nosso conhecimento, apresentamos uma primeira proposta
de identica cao entre codigos corretores de erros e sequencias de DNA. Ressaltamos que este
e o primeiro passo para o desenvolvimento de varios outros modelos de codica cao, uma vez
que se mostrou que a reprodu cao de sequencias de DNA atraves de codigos corretores de
erros e possvel.
Nas Se coes 4.1 e 4.2 apresentamos o algoritmo usado para reproduzir as sequencias de
direcionamento e os resultados da codica cao de sequencias de DNA, respectivamente.
A pesquisa foi realizada atraves de analises de sequencias de direcionamento de varios
organismos, especies e organelas, Tabela 4.1.
83
Captulo 4. Gera cao das Sequencias de Direcionamento
n
o
Organismo Especie Organela GI Comprimento da SD
SD01 B. napus Viridiplantae M 899225 66nt - 22aa
SD02 I. batatas Viridiplantae M 217937 63nt - 21aa
SD03 A. thaliana Viridiplantae RE 186509758 63nt - 21aa
SD04 N. tabacum Viridiplantae RE 632733 66nt - 22aa
SD05 H. vulgare Viridiplantae RE 1808650 63nt - 21aa
SD06 T. sativum Viridiplantae RE 78096542 63nt - 21aa
SD07 S. oleracea Viridiplantae C 21227 63nt - 21aa
SD08 S. cerevisiae Fungi M 45269853 63nt - 21aa
SD09 B. taurus Metazoa M 31343489 66nt - 22aa
SD10 B. taurus Metazoa M 114579 66nt - 22aa
SD11 G. max Viridiplantae M 497233 66nt - 22aa
SD12 C. sinensis Viridiplantae C 7328566 63nt - 21aa
SD13 A. thaliana Viridiplantae M 30695458 66nt - 22aa
SD14 A. thaliana Viridiplantae M 15010581 66nt - 22aa
SD15 R. norvegicus Metazoa M 457928 66nt - 22aa
SD16 S. cerevisiae Fungi M 433619 66nt - 22aa
SD17 H. sapiens Metazoa M 12587 66nt - 22aa
SD18 M. martensii Metazoa RE 16740522 63nt - 21aa
SD19 P. vulgaris Viridiplantae RE 536793 63nt - 21aa
SD20 P. dominulus Metazoa RE 51093376 63nt - 21aa
Tabela 4.1: M = mitocondria, C = cloroplasto, RE = retculo endoplasmatico.
4.1 Algoritmo de Codica cao
Nesta se cao, apresentamos um algoritmo que mostra em detalhes a constru cao de um
codigo BCH sobre a estrutura de anel com parametros (n, k, d)=(63, k, d) capaz de reproduzir
sequencias de direcionamento com comprimentos n = 2
6
1 = 63. Chamamos a aten cao para
as sequencias de direcionamento que possuem comprimento n = 2
6
+ 2 = 66, nesses casos
a metionina da primeira posi cao pode ser desconsiderada, uma vez que a matriz geradora
possui tres colunas com os mesmos elementos.
Os parametros do codigo sao denotados da seguinte maneira: n = o comprimento das
palavras-codigo (comprimento das sequencias de direcionamento); k = a dimensao do codigo
(comprimento da sequencia de informa cao responsavel pela gera cao da sequencia de DNA)
e d = a distancia mnima do codigo (o menor n umero de posi c oes em que quaisquer duas
palavras-codigo diferem).
A principal diferen ca da constru cao de codigos cclicos sobre aneis para a constru cao de
codigos cclicos sobre corpos esta no fato de que as razes do polinomio gerador dos codigos
cclicos sobre aneis encontram-se na extensao do anel Z
q
, ao inves de serem encontradas na
extensao do corpo F
q

= GF(p
r
).
Se a ordem do corpo base, p, e o comprimento das palavras-codigo, n, sao relativamente
primos, isto e, mdc (p, n) = 1, entao x
n
1 nao apresenta multiplicidade de razes.
Construcao Codigo BCH Primitivo (n, k, d) = (63, k, d) sobre GR(4, r)
84
Passo 1 - Determinar o alfabeto e a estrutura matematica do codigo
O alfabeto 4-ario do codigo genetico esta relacionado ao conjunto formado pelos nu-
cleotdeos denotado por N = A, C, G, T correspondendo à adenina (A), citosina (C),
guanina (G) e timina (T). Por este motivo utilizamos o alfabeto 4-ario denotado por
Z
4
= 0, 1, 2, 3 obedecendo as opera coes de adi cao e multiplica cao m odulo 4, o que
lhe confere uma estrutura algebrica de anel.
Passo 2 - Determinar a extensao de Galois
A condi cao necessaria para que a fatora cao de x
n
1 em GR
(4, r), grupo das unidades,

seja unica, e que o comprimento da sequencia de direcionamento seja mpar da forma
n = 2
r
1. Nos casos em que as sequencias de direcionamento possuem comprimento
par da forma n = 2
r
+ 2 o aminoacido metionina pode ser desconsiderado sem perda
de generalidade.
Neste exemplo, analisaremos a sequencia de direcionamento SD02 da Tabela 4.1 cujo
comprimento e n = 63 nucleotdeos. Logo, o grau r do polinomio primitivo a ser usado
na extensao de Galois do corpo GF(2) e r = 6, pois n = 2
r
1 = 2
6
1 = 63. Portanto,
esse valor de r = 6 sera utilizado na extensao do corpo GF(2) no Passo 4.
Passo 3 - Polinomios primitivos relacionados à extensao de Galois
Neste passo, sao informados todos os polinomios primitivos relacionados ao grau da
extensao de Galois r = 6. Estes polinomios sao conhecidos na literatura.
(1) x
6
+x
5
+x
3
+x
2
+ 1
(2) x
6
+x + 1
(3) x
6
+x
5
+x
2
+x + 1
(4) x
6
+x
4
+x
3
+x + 1
(5) x
6
+x
5
+x
4
+x + 1
(6) x
6
+x
5
+ 1
Passo 4 - Extensao do corpo GF(2)
O corpo GF(2
r
) e obtido atraves da extensao do corpo GF(2) por um ideal gerado
por qualquer um dos polinomios primitivos de grau r = 6. Neste passo, realizamos a
extensao do corpo GF(2) da seguinte maneira:
Considere o corpo de Galois GF(2
r
) = GF(2
6
) = GF(64) = F
64
dado por
85
F
2
[x]
p(x))
=
F
2
[x]
x
6
+x
5
+x
3
+x
2
+ 1)
= a
0
+a
1
x +a
2
x
2
+ +a
5
x
5
: a
i
s F
2
,
onde p(x) e o polinomio primitivo (1) do Passo 3.
Seja um elemento primitivo em F
64
, equivalentemente, e uma raiz de x
6
+x
5
+x
3
+
x
2
+1 = 0, ou seja,
6
+
5
+
3
+
2
+1 = 0 implicando em
6
=
5
2
1. Como
os coecientes dos polinomios que formam o conjunto dos elementos de F
64
pertencem
a F
2
, fazemos a redu cao modulo 2 destes coecientes e obtemos
6
=
5
+
3
+
2
+1.
Os elementos de F
64
sao mostrados na Tabela 4.2.
Elementos de F
64
(
0
5
) Elementos de F
64
(
0
5
)
0 (000000)
10
=
9
(001100)
1 (100000)
.
.
.
.
.
.
(010000)
55
=
54
(001001)
2
(001000)
56
=
55
(101001)
3
(000100)
57
=
56
(111001)
4
(000010)
58
=
57
(110001)
5
(000001)
59
=
58
(110101)
6
(101101)
60
=
59
(110111)
7
=
6
(111011)
61
=
60
(110110)
8
=
7
(110000)
62
=
61
(011011)
9
=
8
(011000)
63
=
62
(100000)
Tabela 4.2: Elementos de F
64
em nota cao de r-uplas
Passo 5 - Extensao do anel Z
4
Considere o anel GR(4, 6) como sendo dado pelo quociente do anel Z
4
[x] (conjunto
de todos os polinomios com coecientes em Z
4
) pelo ideal gerado pelo mesmo p(x)
utilizado para realizar a extensao do corpo no Passo 4, isto e,
Z
4
[x]
p(x))
=
Z
4
[x]
x
6
+x
5
+x
3
+x
2
+ 1)
= b
0
+b
1
x +b
2
x
2
+ +b
5
x
5
: b
i
s Z
4
A seguir determinaremos os elementos de GR
(4, 6). Sabemos que as opera coes em

GR
(4, 6) sao realizadas modulo (x

6
+ x
5
+ x
3
+ x
2
+ 1). Como e uma raiz do
polinomio primitivo usado tanto na extensao do corpo como na do anel, entao
6
=
2
1. Como os coecientes dos polinomios em GR(4, 6) estao em Z
4
, entao
6
= 3
5
+ 3
3
+ 3
2
+ 3. Considerando f = (010000) = , todos os elementos nao
86
nulos e inversveis de GR(4, 6) sao determinados atraves da potencia cao de f, como
mostrado na Tabela 4.3.
GR
(4, 6) (
0
5
) GR
(4, 6) (
0
5
)
1 (100000) f
10
= x
10
=
10
(221102)
f = x = (010000) f
11
= x
11
=
11
(220312)
f
2
= x
2
=
2
(001000)
.
.
.
.
.
.
f
3
= x
3
=
3
(000100) f
120
= x
120
=
120
(331023)
f
4
= x
4
=
4
(000010) f
121
= x
121
=
121
(130203)
f
5
= x
5
=
5
(000001) f
122
= x
122
=
122
(110121)
f
6
= x
6
=
6
(303303) f
123
= x
123
=
123
(310311)
f
7
= x
7
=
7
(131031) f
124
= x
124
=
124
(330330)
f
8
= x
8
=
8
(312002) f
125
= x
125
=
125
(033033)
f
9
= x
9
=
9
(233002) f
126
= x
126
=
126
(100000)
Tabela 4.3: Elementos de GR
(4, 6) em nota cao de r-uplas

Passo 6 - Determinacao do grupo das unidades
Do Passo 5 resulta que f gera um grupo cclico de ordem n d em GR
(4, 6), onde

d 1 Z e f
d
gera o subgrupo cclico cuja ordem e 63 em GR
(4, 6). Sendo assim,

temos que n d = 63 d = 126 implicando que d = 2. Consequentemente, f
2
=
(001000) =
2
gera um subgrupo cclico de ordem 63 em GR
(4, 6). Logo, =

2
e o
elemento primitivo que gera o subgrupo cclico G
n
= G
63
mostrado na Tabela 4.4. Esse
elemento primitivo sera utilizado na constru cao de um c odigo BCH de comprimento
n = 63 sobre Z
4
.
Passo 7 - Determinacao do polinomio gerador da matriz G(x)
Podemos construir um codigo BCH de comprimento n sobre Z
4
, considerando que a
distancia mnima do codigo e no maximo igual ao comprimento do codigo, ou seja,
d n. O algoritmo ira analisar todos os valores possveis de d que estao relacionados
com a capacidade de corre cao de erros estabelecida atraves da rela cao d 2t+1, onde t
denota a quantidade de erros. No caso da palavra-codigo em questao, cujo comprimento
e n = 63 os valores de 1 t 31 serao analisados.
Considerando que a distancia mnima do codigo seja d = 3, entao quaisquer duas
potencias consecutivas de poderao ser utilizadas no processo de obten cao do polin omio
gerador do codigo BCH. Sem perda de generalidade, escolha e
2
como sendo as
duas potencias consecutivas. Entao o polinomio gerador g(x) e dado por g(x) =
mmc(M
1
(x), M
2
(x)), onde M
i
(x) e o polinomio minimal associado ao elemento
i
, i =
87
G
63
(
0
5
) G
63
(
0
5
) G
63
(
0
5
)
(001000)
22
(321013)
43
(122031)
2
(000010)
23
(211122)
44
(233312)
3
(303303)
24
(022331)
45
(123210)
4
(312002)
25
(232311)
46
(300131)
5
(221102)
26
(032213)
47
(231133)
6
(220233)
27
(212230)
48
(012021)
7
(012312)
28
(103223)
49
(333313)
8
(121000)
29
(112203)
50
(211201)
9
(001210)
30
(310131)
51
(133103)
10
(303311)
31
(231233)
52
(310300)
11
(033323)
32
(012022)
53
(003103)
12
(111100)
33
(020300)
54
(313000)
13
(001111)
34
(000203)
55
(003130)
14
(030301)
35
(313011)
56
(101132)
15
(131330)
36
(033020)
57
(320130)
16
(102010)
37
(202132)
58
(100302)
17
(300323)
38
(321100)
59
(223021)
18
(110210)
39
(003211)
60
(331023)
19
(300001)
40
(030322)
61
(110121)
20
(130031)
41
(020123)
62
(330330)
21
(233032)
42
(111012)
63
(100000)
Tabela 4.4: Elementos de G
63
1, 2 sobre GR
(4, 6) (onde e um elemento primitivo em G

n
) que tem como suas razes
todos os elementos na sequencia,
i
, (
i
)
p
, (
i
)
p
2
, , (
i
)
p
r1
.
Assim,
M
1
(x) = M
2
(x) = (x )(x
2
)(x
4
)(x
8
)(x
16
)(x
32
).
Portanto, g(x) = x
6
+3x
5
+x
3
+x
2
+2x+1 gera o codigo desejado e esta relacionado com
a matriz geradora G do codigo BCH sobre Z
4
com parametros (n, k, d) = (63, 57, 3).
Passo 8 - Determinacao do polinomio gerador da matriz H
O polinomio gerador da matriz verica cao de paridade H e obtido atraves da rela cao:
88
h(x) =
x
n
1
g(x)
=
x
63
1
x
6
+ 3x
5
+x
3
+x
2
+ 2x + 1
h(x) = x
57
+x
56
+x
55
+2x
53
+2x
52
+2x
51
+x
50
+3x
47
+x
43
+3x
42
+3x
40
+3x
39
+2x
38
+
3x
36
+x
34
+3x
33
+2x
32
+3x
31
+x
29
+x
28
+3x
27
+2x
26
+x
25
+3x
24
+3x
23
+x
22
+2x
21
+
x
19
+x
18
+2x
17
+3x
14
+2x
13
+x
12
+3x
10
+2x
9
+2x
8
+3x
7
+x
6
+3x
5
+3x
4
+x
3
+x
2
+2x+3
onde os coecientes do polinomio h(x) pertencem a Z
4
.
Passo 9 - Determinar a matriz G e a sua transposta G
T
:
Determinado o polinomio gerador no Passo 7, construmos a matriz geradora G(x) da
seguinte forma:
Considere:
g(x) = g
0
+g
1
x +g
2
x
2
+... +x
nk
,
entao a matriz geradora do codigo e dada por:
G =
_
_
_
_
_
_
_
_
_
g
0
g
1
g
2
. . . 1 0 0 . . . 0
0 g
0
g
1
. . . g
nk1
1 0 . . . 0
0 0 g
0
. . . g
nk2
g
nk1
1 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 . . . g
0
g
1
g
2
. . . 1
_
_
_
_
_
_
_
_
_
Realizando os deslocamentos dos coecientes do polinomio g(x) da esquerda para à
direita, obtemos a matriz G(x) com dimensao 57 63:
G =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
121103100000000000000000000000000000000000000000000000000000000
012110310000000000000000000000000000000000000000000000000000000
001211031000000000000000000000000000000000000000000000000000000
000121103100000000000000000000000000000000000000000000000000000
000012110310000000000000000000000000000000000000000000000000000
000001211031000000000000000000000000000000000000000000000000000
.
.
.
.
.
.
.
.
.
000000000000000000000000000000000000000000000000000121103100000
000000000000000000000000000000000000000000000000000012110310000
000000000000000000000000000000000000000000000000000001211031000
000000000000000000000000000000000000000000000000000000121103100
000000000000000000000000000000000000000000000000000000012110310
000000000000000000000000000000000000000000000000000000001211031
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
A matriz G
T
(x) com dimensao 6357 e determinada como sendo a troca da linha pela
coluna.
89
Passo 10 - Determinar a matriz H e a sua transposta H
T
Determinado o polinomio h(x) no Passo 8, obtemos a matriz H(x) realizando os
deslocamentos dos coecientes do polinomio gerador h(x) da direita para a esquerda.
Matriz H(x) com dimensao 6 63:
H(x) =
_
_
_
_
_
_
000001110222100300013033203013230113213312011200321032231331123
000011102221003000130332030132301132133120112003210322313311230
000111022210030001303320301323011321331201120032103223133112300
001110222100300013033203013230113213312011200321032231331123000
011102221003000130332030132301132133120112003210322313311230000
111022210030001303320301323011321331201120032103223133112300000
_
_
_
_
_
_
A matriz H
T
com dimensao 63 6 e determinada pela troca da linha pela coluna.
Passo 11 - Rotular a sequencia de DNA utilizando o alfabeto do codigo
Neste exemplo, analisaremos se o codigo BCH sobre anel e capaz de reproduzir a
sequencia de direcionamento mitocondrial do organismo: Ipomoea batatas, GI: 217937,
protena: F1-ATPase delta subunit, comprimento: 63 nucleotdeos.
Uma vez que o mapeamento entre N Z
4
nao e conhecido, consideramos todas as
permuta coes entre esses conjuntos. Portanto, este passo determina as 24 permuta coes
entre o alfabeto do codigo genetico N = A, C, G, T e o alfabeto do codigo BCH
Z
4
= 0, 1, 2, 3 da sequencia de direcionamento a ser analisada. As 24 linhas da
matriz P correspondem às 24 permuta coes da sequencia de direcionamento SD.
SD={ATGTTCAGGCACTCTTCTCGACTCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC}
90
P =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
032331022101313313120131130213121211011010032222322123121111331
023221033101212212130121120312131311011010023333233132131111221
031332011202323323210232230123212122022020031111311213212222332
013112033202121121230212210321232322022020013333133231232222112
012113022303131131320313310231323233033030012222122321323333113
021223011303232232310323320132313133033030021111211312313333223
132330122010303303021030031203020200100101132222322023020000330
123220133010202202031020021302030300100101123333233032030000220
130332100212323323201232231023202022122121130000300203202222332
103002133212020020231202201320232322122121103333033230232222002
120223100313232232301323321032303033133131120000200302303333223
102003122313030030321303301230323233133131102222022320323333003
231330211020303303012030032103010100200202231111311013010000330
213110233020101101032010012301030300200202213333133031030000110
230331200121313313102131132013101011211212230000300103101111331
203001233121010010132101102310131311211212203333033130131111001
210113200323131131302313312031303033233232210000100301303333113
201003211323030030312303302130313133233232201111011310313333003
321220311030202202013020023102010100300303321111211012010000220
312110322030101101023010013201020200300303312222122021020000110
320221300131212212103121123012101011311313320000200102101111221
302001322131010010123101103210121211311313302222022120121111001
310112300232121121203212213021202022322323310000100201202222112
301002311232020020213202203120212122322323301111011210212222002
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
Na Tabela 4.5 mostramos como as linhas da matriz P estao relacionadas com as 24
permuta coes entre N Z
4
, cada uma das 24 permuta coes foi denida como um caso.
Linha = Caso N Z
4
Linha = Caso N Z
4
Linha = Caso N Z
4
L 1 = Caso 01 (A,C,G,T)=(0,1,2,3) L 9 = Caso 09 (A,C,G,T)=(1,2,0,3) L 17 = Caso 17 (A,C,G,T)=(2,3,0,1)
Tabela 4.5: Rela cao entre as linhas da matriz P e as 24 permuta coes.
Passo 12 - Vericar se a sequencia de DNA e palavra-codigo da G(x)
A capacidade de corre cao de erros de um codigo esta relacionada com o n umero de
palavras-codigo, no caso em questao temos 4
k
palavras-codigo, onde k = nr. Observe
que quanto maior for o valor de k maior sera o n umero de palavras-codigos, implicando
assim em uma maior complexidade computacional para gerar todas as 4
k
palavras-
codigo.
Para contornarmos este problema que e classicado como um problema NP-completo,
ao inves de gerarmos todas as palavras-codigos para compararmos com a sequencia de
91
direcionamento, consideramos que a sequencia de DNA sob a aplica cao de cada uma
das 24 permuta coes do Passo 11 e uma palavra-codigo. Assim, para determinarmos
se cada uma dessas 24 possibilidades e de fato uma palavra-codigo usamos a rela cao
v.H
T
= 0, onde v e a possvel palavra-codigo e H
T
e a transposta da matriz verica cao
de paridade determinada no Passo 10. Ainda neste passo analisamos as sequencias
de DNA diferindo em um nucleotdeo, considerando as 3 outras possibilidades de nu-
cleotdeos em cada posi cao na sequencia para cada permuta cao.
Como resultado obtemos a matriz R onde cada linha e uma palavra-codigo encontrada.
R =
_
_
_
_
_
_
_
_
_
032331022101313313120331130213121211011010032222322123121111331
012113022303131131320113310231323233033030012222122321323333113
123220133010202202031220021302030300100101123333233032030000220
103002133212020020231002201320232322122121103333033230232222002
230331200121313313102331132013101011211212230000300103101111331
210113200323131131302113312031303033233232210000100301303333113
321220311030202202013220023102010100300303321111211012010000220
301002311232020020213002203120212122322323301111011210212222002
_
_
_
_
_
_
_
_
_
Passo 13 - Voltar para o Passo 7 e determinar outro polinomio gerador
Neste passo, determinamos outro valor da distancia mnima d = 5 e utilizamos o mesmo
procedimento para calcular o polinomio gerador relativo a esta distancia.
Passo 14 - Repetir os Passos 8 ao Passo 12 para o polinomio gerador obtido no Passo
13, ate que se esgote todas as possibilidades de polinomios geradores:
Neste passo, o algoritmo determina todas as palavras-codigo encontradas com nenhu-
ma diferen ca ou apenas uma diferen ca de nucleotdeo, atraves de todos os polinomios
geradores relativos à distancia mnima 3 d 63, e armazena as respostas.
Passo 15 - Voltar para o Passo 3 e escolher outro polinomio primitivo
Passo 16 - Repetir os Passos 4 à 14 ate esgotar todos os polinomios primitivos do Passo
3
Passo 17 - Comparar todas as palavras-codigo armazenadas com a sequencia de DNA
original e mostrar onde ocorreram as diferencas. Fim.
Neste passo, todas as palavras-codigo armazenadas estao rotuladas na forma do alfabeto
do codigo, Z
4
= 0, 1, 2, 3, e serao convertidas em nucleotdeos usando o rotulamento
do codigo genetico N = A, C, G, T. Apos o rotulamento todas as palavras-codigo sao
comparadas com a sequencia de direcionamento original mostrando onde os nucleotdeos
diferem.
92
Resultados:
Caso1-(0,1,2,3)=(A,C,G,T)
Caso5-(0,3,2,1)=(A,C,G,T)
Caso8-(1,0,3,2)=(A,C,G,T)
Caso10-(1,2,3,0)=(A,C,G,T)
Oaa:MFRHSSRLARATTMGWRRPF
Ont:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Olb:03233102210131331312031130213121211011010032222322123121111331
Glb:03233102210131331312031130213121211011010032222322123121111331
Gnt:ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC
Gaa:MFRHSSRLARATTMGWRRPF
Olb:01211302230313113132013310231323233033030012222122321323333113
Glb:01211302230313113132013310231323233033030012222122321323333113
Olb:12322013301020220203120021302030300100101123333233032030000220
Glb:12322013301020220203120021302030300100101123333233032030000220
Olb:10300213321202002023102201320232322122121103333033230232222002
Glb:10300213321202002023102201320232322122121103333033230232222002
L
C
1
3
T
F
L
C
3
1
T
F
L
C
0
2
T
F
L
C
2
0
T
F
Caso15-(2,1,0,3)=(A,C,G,T)
Caso17-(2,3,0,1)=(A,C,G,T)
Caso19-(3,0,1,2)=(A,C,G,T)
Caso24-(3,2,1,0)=(A,C,G,T)
Olb:23033120012131331310231132013101011211212230000300103101111331
Glb:23033120012131331310231132013101011211212230000300103101111331
Olb:21011320032313113130213312031303033233232210000100301303333113
Glb:21011320032313113130213312031303033233232210000100301303333113
Olb:32122031103020220201320023102010100300303321111211012010000220
Glb:32122031103020220201320023102010100300303321111211012010000220
Olb:30100231123202002021302203120212122322323301111011210212222002
Glb:30100231123202002021302203120212122322323301111011210212222002
L
C
1
3
T
F
L
C
3
1
T
F
L
C
0
2
T
F
L
C
2
0
T
F
Nos resultados apresentados neste passo, temos que os casos 1, 5, 8, 10, 15, 17, 19 e 24
referem-se às permuta coes associadas ao rotulamento B ver Figura 4.1. Portanto, a sequencia
em questao e reproduzida pelo codigo Z
2
Z
2
-linear classicando-a matematicamente como
uma sequencia linear.
4.2 Resultados da Codica cao
Nesta se cao, mostramos que algumas sequencias de DNA possuem estrutura matematica
e podem ser reproduzidas por codigos corretores de erros. Sendo assim, apresentamos nas
subse coes seguintes as consequencias relacionadas a existencia de codigos corretores de erros
em sequencias de direcionamento.
93
4.2.1 Dependencia entre os codigos corretores de erros e os poli-
nomios primitivos
Sob o ponto de vista algebrico em sistemas de transmissao digital a constru cao de um
codigo corretor de erros sobre anel ou corpo nao depende do polinomio primitivo com o grau
r usado na extensao de Galois. Entretanto, a reprodu cao das sequencias de direcionamento
mostrou uma rela cao de dependencia na existencia de codigos corretores de erros (e seus
rotulamentos associados) com alguns dos polinomios primitivos. No presente estudo todas
as sequencias de direcionamento identicadas como uma palavra-codigo de um codigo G-
linear estao relacionadas a um polinomio gerador/primitivo e um determinado rotulamento,
sugerindo a existencia de uma propriedade geometrica associada com a sequencia de dire-
cionamento.
4.2.2 Rotulamento das sequencias de DNA
Em geral, o alfabeto de um codigo corretor de erros e frequentemente estabelecido a priori
dentre um conjunto de possibilidades de tal forma que tenha uma estrutura matematica bem
denida para facilitar o processo de codica cao e decodica cao das sequencias. Este nao e o
caso para codigos corretores de erros genomicos, onde os proprios alfabetos e suas possveis
estruturas matematicas ja estao determinados nas sequencias de DNA.
Para contornar este problema, usamos a seguinte analogia: o alfabeto 4-ario na sada
da fonte esta relacionado ao conjunto de nucleotdeos denotado por N = A, C, G, T/U,
correspondendo as bases adenina (A), citosina (C), guanina (G), and timina (T) ou uracila
(U). Similarmente, o alfabeto 4-ario do codigo de bloco linear e denotado por Z
4
= 0, 1, 2, 3
para a estrutura de anel, satisfazendo as opera coes de soma e produto modulo 4.
Como o mapeamento entre N Z
4
e desconhecido, procedemos da seguinte maneira:
toda sequencia de DNA e rotulada por cada uma das 24 permuta coes entre N Z
4
. Ob-
servamos que para cada sequencia reproduzida pelo codigo existem oito palavras-codigo cor-
respondentes a 8 permuta coes. Empregando o rotulamento recproco, Z
4
N, em cada
uma dessas 8 palavras-codigo temos como resultado 8 palavras-codigo iguais em termos de
nucleotdeos e aminoacidos, (ver exemplo no Passo 17 da Se cao 4.1). Este fato resulta em
tres conjuntos contendo oito permuta coes cada um.
Classicamos o mapeamento utilizado no codicador, em termos de rotulamentos A, B e
C, Figura 4.1. Esses rotulamentos estao relacionados às formas geometricas que produzem
um diferente nvel de nao-linearidade para as sequencias reproduzidas.
A representa cao binaria associada a cada um desses rotulos e 000; 110; 211; 301.
Todavia, a associa cao de complementaridade dos nucleotdeos A - T e C - G com os rotulos
94
ACGT
0132
ACGT
2130
ACGT
0312
ACGT
2310
ACGT
1023
ACGT
3021
ACGT
1203
ACGT
3201
ACGT
0213
ACGT
2013
ACGT
0231
ACGT
2031
ACGT
1302
ACGT
3102
ACGT
1320
ACGT
3120
ACGT
0123
ACGT
2103
ACGT
0321
ACGT
2301
ACGT
1032
ACGT
3012
ACGT
1230
ACGT
3210
RotulamentoB RotulamentoC
Rotulamento A
FormaGeomtrica
A=0
G=1
T=3
C=2 A=0
C=1
G=3
T=2 A=0
C=1
T=3
G=2
}
ACGT
0132
ACGT
2130
ACGT
0123
ACGT
2103
ACGT
0213
ACGT
2013
ACGT
0312
ACGT
2310
ACGT
0321
ACGT
2301
ACGT
0231
ACGT
2031
ACGT
1023
ACGT
3021
ACGT
1032
ACGT
3012
ACGT
1302
ACGT
3102
ACGT
1203
ACGT
3201
ACGT
1230
ACGT
3210
ACGT
1320
ACGT
3120
Mapeamento
FormaGeomtrica FormaGeomtrica
Figura 4.1: Rotulamentos A, B e C.
e o que os diferenciam. No caso do rotulo A, vemos que qualquer um dos nucleotdeos
para alcan car o seu complementar necessita caminhar duas arestas, enquanto que nos dois
rotulamentos restantes basta caminhar uma aresta somente. Todas as permuta coes associadas
ao rotulo A caracterizam o mapeamento como Z
4
- linear; as permuta coes associadas ao rotulo
B caracterizam o mapeamento como Z
2
Z
2
-linear; enquanto que as permuta coes associadas
ao rotulo C caracterizam o mapeamento como Klein-linear.
O rotulamento A classica as sequencias como nao-lineares (Z
4
- linear), enquanto que
os rotulamentos B e C as classicam como lineares (Z
2
Z
2
-linear e Klein-linear). Esse
mapeamento identica as melhores associa coes entre cada smbolo no conjunto N e o seu
correspondente smbolo no conjunto Z
4
e vice-versa.
4.2.3 Rela cao matematica entre as tas codante e nao codante
Diante da reprodu cao de uma determinada sequencia de DNA atraves de codigos corre-
tores de erros, naturalmente surgem alguns questionamentos sobre a rela cao entre as duas
tas do DNA, ta codante e ta nao codante. Na biologia conclui-se que na dupla helice as
duas tas do DNA estao em dire coes opostas, isto signica que sao antiparalelas. Uma vez
95
que e determinada a estrutura matematica de uma sequencia especca do DNA e possvel
caracterizarmos a dupla helice em um contexto matematico?
Para responder a esta pergunta, usamos o algoritmo da Se cao 4.1 com o objetivo de
vericar se os codigos reproduzem as tas complementares das sequencias de direcionamento
reproduzidas. Durante o processo consideramos as duas tas sendo lidas no sentido paralelo
(da esquerda para a direita) e as duas tas no sentido antiparalelo como na biologia, ou seja,
as tas sendo lidas sempre no sentido 5 para 3.
A Figura 4.2 mostra a rela cao matematica entre as duas tas no sentido paralelo. As
duas tas sao reproduzidas pelo codigo Z
2
Z
2
-linear atraves do mesmo polinomio gerador
g(x) e do mesmo rotulamento.
Ipomoeabatatas
Ipomoeabatatas
SequnciadobancodedadosNCBI
SequnciareproduzidapelocdigoBCHsobreanel
Cdigo X linear -DuplafitadoDNA
p(x)=x+x+x+x+1g(x)=x+3x+x+x+2x+1
5'-ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC3'
03233102210131331312031130213121211011010032222322123121111331
30100231123202002021302203120212122322323301111011210212222002
3'-TACAAGTCCGTGAGAAGAGCTAGGATCGAGCGCGGTGGTGTTACCCCACCGCAGCGGGGAAG5'
03233102210131331312031130213121211011010032222322123121111331
30100231123202002021302203120212122322323301111011210212222002
2 2
6 5 3 2 6 5 3 2
C
1
2
G
T
3
0
A
Figura 4.2: Rela cao entre a dupla ta do DNA. O codigo faz a leitura das palavras-codigos
no sentido da esquerda para à direita. A cor vermelha indica onde ocorreu a diferen ca de
nucleotdeos.
A Figura 4.3 mostra a rela cao matematica entre as duas tas no sentido antiparalelo. As
duas tas sao reproduzidas pelo codigo Z
2
Z
2
-linear da seguinte maneira: Se um polinomio
gerador g(x) reproduz a ta codante em um determinado rotulamento, ent ao a sua ta
complementar sera reproduzida, somente pelo polinomio gerador recproco g
(x) do polinomio
gerador atraves do mesmo rotulamento.
4.2.4 Alto uxo de informa cao - baixa redundancia
Outra propriedade relevante na reprodu cao de sequencias de direcionamento por codi-
gos corretores de erros esta relacionada ao fato de que entre todos os codigos com distancia
mnima d > 2 mostrados na Tabela 4.6 somente alguns dos codigos com d = 3 foram capazes
96
Ipomoeabatatas-
Ipomoeabatatas-
Ipomoeabatatas-
SequnciadobancodedadosNCBI
Cdigo X linear -Fitacodante-rotulamentoB:(A,C,G,T)=(0,1,2,3)
p(x)=x+x+x+x+1-g(x)=x+3x+x+x+2x+1
Cdigo X linear -Fitanocodante-rotulamentoB:(A,C,G,T)=(0,1,2,3)
p(x)=x+x+x+x+1-g(x)=x+2x+x+x+3x+1
03233102210131331312031130213121211011010032222322123121111331
30100231123202002021302203120212122322323301111011210212222002
03233102210131331312031130213121211011010032222322123121111331
5'-GAAGGGGCGACGCCACCCCATTGTGGTGGCGCGAGCTAGGATCGAGAAGAGTGCCTGAACAT3'
20022221201211011110332322322121202130220312020020232113200103
2 2
2 2
6 5 3 2 6 5 3 2
6 4 3 6 5 4 3
C
1
2
G
T
3
A
0
Figura 4.3: Rela cao entre as tas codante e nao codante. O codigo faz a leitura das palavras-
codigos no sentido da esquerda para à direita. A cor vermelha indica onde ocorreu a diferen ca
de nucleotdeos.
de reproduzir as correspondentes sequencias de direcionamento. Esse fato implica que o grau
do polinomio primitivo r e gerador n k sejam iguais. Como consequencia, a redundancia
esta associada com o grau desses polinomios. Entao, uma pequena redundancia implica em
um codigo de taxa alta, bem como em uma alta entropia (uxo de informa cao alto).
4.2.5 Classica cao das sequencias de direcionamento sob o ponto
de vista matematico
Todas as sequencias de DNA que foram reproduzidas pelos codigos diferenciam em um
nucleotdeo das sequencias encontradas no banco de dados NCBI. Em um contexto biologico,
esta diferen ca de um nucleotdeo e conhecida como polimorsmo de um nucleotdeo (SNP
single nucleotide polymorphism). Entao, uma possvel interpreta cao e que a palavra-codigo
gerada pelos codigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear sao SNPs das sequencias do
NCBI, ou vice-versa.
Os resultados permitem uma nova abordagem para a classica cao das sequencias de dire-
cionamento sob um ponto de vista matematico. As sequencias de direcionamento que foram
reproduzidas pelo codigo Z
4
-linear (codigo BCH sobre anel e rotulamento A) sao classi-
97
C(n, k, d) p
1
(x) p
2
(x) p
3
(x) p
4
(x) p
5
(x) p
6
(x)
C(63, 1, 63) - - - - - -
C(63, 1, 61) - - - - - -
C(63, 1, 59) - - - - - -
C(63, 1, 57) - - - - - -
C(63, 1, 55) - - - - - -
C(63, 1, 53) - - - - - -
C(63, 1, 51) - - - - - -
C(63, 1, 49) - - - - - -
C(63, 1, 47) - - - - - -
C(63, 1, 45) - - - - - -
C(63, 1, 43) - - - - - -
C(63, 1, 41) - - - - - -
C(63, 1, 39) - - - - - -
C(63, 1, 37) - - - - - -
C(63, 1, 35) - - - - - -
C(63, 1, 33) - - - - - -
C(63, 7, 31) - - - - - -
C(63, 7, 29) - - - - - -
C(63, 10, 27) - - - - - -
C(63, 10, 25) - - - - - -
C(63, 16, 23) - - - - - -
C(63, 18, 21) - - - - - -
C(63, 18, 19) - - - - - -
C(63, 18, 17) - - - - - -
C(63, 24, 15) - - - - - -
C(63, 30, 13) - - - - - -
C(63, 36, 11) - - - - - -
C(63, 39, 9) - - - - - -
C(63, 45, 7) - - - - - -
C(63, 51, 5) - - - - - -
C(63, 57, 3) - x x - x x
Tabela 4.6: Codigos BCH sobre GR(4, 6). Polinomios primitivos da extensao r = 6: p
1
(x) =
x
6
+x+1, p
2
(x) = x
6
+x
5
+x
2
+x+1, p
3
(x) = x
6
+x
5
+x
3
+x
2
+1, p
4
(x) = x
6
+x
4
+x
3
+x+1,
p
5
(x) = x
6
+x
5
+x
4
+x + 1 e p
6
(x) = x
6
+x
5
+ 1.
cadas como sequencias nao-lineares. Enquanto, que as sequencias reproduzidas pelos codigos
Z
2
Z
2
-linear e Klein-linear (codigos BCH sobre anel rotulamento B e rotulamento C, res-
pectivamente) sao classicadas como sequencias lineares. Apesar das sequencias nao-lineares
serem mais complexas que as sequencias lineares, elas herdam um grau de prote cao maior
contra possveis interferencias.
Mostramos nesta subse cao todas as sequencias de direcionamento que foram reproduzidas
pelos codigos, bem como as suas tas complementares considerando o sentido 5 para 3 por
ser o conceito usado na biologia. Observe que cada sequencia de direcionamento contem as
informa coes sobre o polinomio gerador g(x) e o polinomio primitivo p(x). Enquanto que as
suas tas complementares possuem as informa coes sobre o polinomio gerador recproco g
(x)
e o polinomio primitivo recproco p
(x).
As sequencias de direcionamento que foram reproduzidas pelo codigo Z
4
-linear foram as
SD01, SD03, SD04, SD18 e SD20 estas sequencias sao classicadas como nao-lineares. Nas
sequencias SD01 e SD04 ocorreram muta coes silenciosas, pois a mudan ca de nucleotdeo
nao acarretou na troca de aminoacidos. Nas sequencias SD03, SD18 e SD20 as trocas
de aminoacidos ocorreram dentro da mesma classe hidrofobica ou dentro da mesma classe
hidroflica.
Os codigos Z
2
Z
2
-linear reproduziram as sequencias SD02, SD08, SD13 e SD20 e clas-
98
sicam estas sequencias como sequencias lineares. Em todas as sequencias ocorreram trocas
de classes de aminoacidos, com exce cao da sequencia SD02 onde a troca ocorreu dentro da
mesma classe.
As sequencias de direcionamento SD06 e SD17 foram reproduzidas pelo codigo Klein-
linear. Estas sequencias sao classicadas como sequencias lineares. Na SD06 a troca de
aminoacidos ocorreu dentro da mesma classe hidrofobica, enquanto que na SD17 ocorreu a
troca de um aminoacido base para um aminoacido hidroflico.
De uma forma geral, podemos relatar alguns aspectos biologicos observados na reprodu cao
dessas sequencias. Apesar dos codigos em considera cao fornecerem prote cao igual para cada
posi cao no codon, isto e, cada uma das posi coes no codon foram consideradas com probabi-
lidades iguais de erro, as trocas de nucleotdeos ocorreram sempre na primeira e na terceira
posi cao dos codons. Este fato infere que a segunda posi cao foi mais protegida contra os
erros durante a reprodu cao das sequencias pelo codigo corretor de erros, o que faz sentido
biologicamente, uma vez que a troca de nucleotdeo na segunda posi cao implica em uma
troca de aminoacido.
O processo de transi cao (troca de uma purina/pirimidina por outra purina/pirimidina) e
o processo de transversao (troca de uma purina por uma pirimidina) ocorreram praticamente
na mesma propor cao. Nas sequencias SD01, SD02, SD04, SD08, SD18 e SD20 (rotulamento
B) ocorreu o processo de transi cao.
Embora consideramos neste estudo sequencias de direcionamento com comprimento n =
p
r
1, isso nao e uma restri cao ja que uma classe de codigos corretores de erros que possuem
comprimentos variaveis pode ser usada. Os resultados apresentados neste captulo mostram
a existencia de codigos corretores de erros associados com sequencias de DNA (sequencias
de direcionamento), os quais sugerem fortemente a existencia de codigos concatenados no
genoma (nested code).
99
SD01 - B. nap us - Mitochondrial - Malate dehydrogenase* - GI: 899225
Fita codante: p(x)= x
6
+x
5
+x
3
+x
2
+1 - g(x)= x
6
+3x
5
+x
3
+x
2
+2x+1
Rotulamento A: (0,1,3,2) - (A,C,G,T)
Oaa: F R S A L V R S S A S A K Q S L L R R S F
Ont: TTC AGA TCC GCG CTT GTC CGA TCC TCC GCC TCG GCG AAG CAG TCG CTT CTC CGC CGC AGC TTC
Olb: 221 030 211 313 122 321 130 211 211 311 213 313 003 103 213 122 121 131 131 031 221
Glb: 221 030 211 313 122 321 130 211 211 311 213 313 003 103 213 122 121 131 131 031 222
Gnt: TTC AGA TCC GCG CTT GTC CGA TCC TCC GCC TCG GCG AAG CAG TCG CTT CTC CGC CGC AGC TTT
Gaa: F R S A L V R S S A S A K Q S L L R R S F
Fita complementar: p(x)= x
6
+x
4
+x
3
+x+1 - g(x)= x
6
+2x
5
+x
4
+x
3
+3x+1
Ont: GAA GCT GCG GCG GAG AAG CGA CTG CTT CGC CGA GGC GGA GGA TCG GAC AAG CGC GGA TCT GAA
Olb: 300 312 313 313 303 003 130 123 122 131 130 331 330 330 213 301 003 131 330 212 300
Glb: 000 312 313 313 303 003 130 123 122 131 130 331 330 330 213 301 003 131 330 212 300
Gnt: AAA GCT GCG GCG GAG AAG CGA CTG CTT CGC CGA GGC GGA GGA TCG GAC AAG CGC GGA TCT GAA
SD03 - A. th aliana Mitochondrial Pathogenesis related protein 4* - GI: 186509758
6
+x
5
+x
3
+x
2
+1 - g(x)= x
6
+3x
5
+x
3
+x
2
+2x+1
Oaa: M K I R L S I T I I L L S Y T V A T V A G
Ont: ATG AAG ATC AGA CTT AGC ATA ACC ATC ATA CTT TTA TCA TAC ACA GTG GCT ACG GTG GCC GGA
Olb: 023 003 021 030 122 031 020 011 021 020 122 220 210 201 010 323 312 013 323 311 330
Glb: 023 003 021 030 122 031 120 011 021 020 122 220 210 201 010 323 312 013 323 311 330
Gnt: ATG AAG ATC AGA CTT AGC CTA ACC ATC ATA CTT TTA TCA TAC ACA GTG GCT ACG GTG GCC GGA
Gaa: M K I R L S L T I I L L S Y T V A T V A G
6
+x
4
+x
3
+x+1 - g(x)= x
6
+2x
5
+x
4
+x
3
+3x+1
Ont: TCC GGC CAC CGT AGC CAC TGT GTA TGA TAA AAG TAT GAT GGT TAT GCT AAG TCT GAT CTT CAT
Olb: 211 331 101 132 031 101 232 320 230 200 003 202 302 332 202 312 003 212 302 122 102
Glb: 211 331 101 132 031 101 232 320 230 200 003 202 302 332 203 312 003 212 302 122 102
Gnt: TCC GGC CAC CGT AGC CAC TGT GTA TGA TAA AAG TAT GAT GGT TAG GCT AAG TCT GAT CTT CAT
100
SD04 - N. tab ac u m - RE Pathogen and wound-inducible antifungal protein CBP20* - GI: 632733
6
+x
5
+x
3
+x
2
+1 - g(x)= x
6
+3x
5
+x
3
+x
2
+2x+1
Oaa: G K L S T L L F A L V L Y V I A A G A N A
Ont: GGA AAG CTA AGT ACA CTT TTA TTT GCT CTG GTC CTC TAT GTC ATA GCC GCA GGA GCT AAT GCA
Olb: 330 003 120 032 010 122 220 222 312 123 321 121 202 321 020 311 310 330 312 002 310
Glb: 330 003 120 032 010 122 220 222 311 123 321 121 202 321 020 311 310 330 312 002 310
Gnt: GGA AAG CTA AGT ACA CTT TTA TTT GCC CTG GTC CTC TAT GTC ATA GCC GCA GGA GCT AAT GCA
Gaa: G K L S T L L F A L V L Y V I A A G A N A
Fita no-codante: p(x)= x
6
+x
4
+x
3
+x+1 - g(x)= x
6
+2x
5
+x
4
+x
3
+3x+1
Ont: TGC ATT AGC TCC TGC GGC TAT GAC ATA GAG GAC CAG AGC AAA TAA AAG TGT ACT TAG CTT TCC
Olb: 231 022 031 211 231 331 202 301 020 303 301 103 031 000 200 003 232 012 203 122 211
Glb: 231 022 031 211 231 331 202 301 020 303 301 103 331 000 200 003 232 012 203 122 211
Gnt: TGC ATT AGC TCC TGC GGC TAT GAC ATA GAG GAC CAG GGC AAA TAA AAG TGT ACT TAG CTT TCC
SD18 - M m arte n s ii RE anti-epilepsy peptide precursor GI: 16740522
6
+x
5
+x
4
+x+1 - g(x)= x
6
+x
5
+x
4
+2x
2
+3x+1
Oaa: M K L F L L L V I S A S M L I D G L V N A
Ont: ATG AAA CTA TTT CTT TTA CTA GTT ATC TCT GCT TCA ATG CTA ATT GAT GGC TTA GTT AAT GCT
Olb: 023 000 120 222 122 220 120 322 021 212 312 210 023 120 022 302 331 220 322 002 312
Glb: 023 000 120 222 122 220 120 322 021 212 312 210 020 120 022 302 331 220 322 002 312
Gnt: ATG AAA CTA TTT CTT TTA CTA GTT ATC TCT GCT TCA ATA CTA ATT GAT GGC TTA GTT AAT GCT
Gaa: M K L F L L L V I S A S I L I D G L V N A
6
+x
5
+x
2
+x+1 - g(x)= x
6
+3x
5
+2x
4
+x
2
+x+1
Ont: AGC ATT AAC TAA GCC ATC AAT TAG CAT TGA AGC AGA GAT AAC TAG TAA AAG AAA TAG TTT CAT
Olb: 031 022 001 200 311 021 002 203 102 230 031 030 302 001 203 200 003 000 203 222 102
Glb: 031 022 001 200 311 021 002 203 202 230 031 030 302 001 203 200 003 000 203 222 102
Gnt: AGC ATT AAC TAA GCC ATC AAT TAG TAT TGA AGC AGA GAT AAC TAG TAA AAG AAA TAG TTT CAT
101
SD20 - P.d o m inu lus RE Allergen Pol d 5 GI: 51093376
6
+x
5
+1 - g(x)= x
6
+3x
5
+2x
3
+1
Oaa: M K I S C L I C L V I V L T I I H L S Q A
Ont: ATG AAA ATT AGT TGC TTA ATT TGT CTC GTA ATT GTT CTT ACG ATC ATT CAT TTG TCT CAA GCT
Olb: 023 000 022 032 231 220 022 232 121 320 022 322 122 013 021 022 102 223 212 100 312
Glb: 023 000 022 032 031 220 022 232 121 320 022 322 122 013 021 022 102 223 212 100 312
Gnt: ATG AAA ATT AGT AGC TTA ATT TGT CTC GTA ATT GTT CTT ACG ATC ATT CAT TTG TCT CAA GCT
Gaa: M K I S S L I C L V I V L T I I H L S Q A
6
+x+1 - g(x)= x
6
+2x
3
+3x+1
Ont: AGC TTG AGA CAA ATG AAT GAT CGT AAG AAC AAT TAC GAG ACA AAT TAA GCA ACT AAT TTT CAT
Olb: 031 223 030 100 023 002 302 132 003 001 002 201 303 010 002 200 310 012 002 222 102
Glb: 031 223 030 100 023 002 302 132 003 001 002 201 303 010 002 200 312 012 002 222 102
Gnt: AGC TTG AGA CAA ATG AAT GAT CGT AAG AAC AAT TAC GAG ACA AAT TAA GCT ACT AAT TTT CAT
SD02 - I. b atatas Mitochondrial - F1-ATPase delta subunit GI: 217937
6
+x
5
+x
3
+x
2
+1 - g(x)= x
6
+3x
5
+x
3
+x
2
+2x+1
Rotulamento B: (0,1,2,3) - (A,C,G,T)
Oaa: M F R H S S R L L A R A T T M G W R R P F
Ont: ATG TTC AGG CAC TCT TCT CGA CTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Olb: 032 331 022 101 313 313 120 131 130 213 121 211 011 010 032 222 322 123 121 111 331
Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Gnt: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R F L A R A T T M G W R R P F
6
+x
4
+x
3
+x+1 - g(x)= x
6
+2x
5
+x
4
+x
3
+3x+1
Ont: GAA GGG GCG ACG CCA CCC CAT TGT GGT GGC GCG AGC TAG GAG TCG AGA AGA GTG CCT GAA CAT
Olb: 200 222 212 012 110 111 103 323 223 221 212 021 302 202 312 020 020 232 113 200 103
Glb: 200 222 212 012 110 111 103 323 223 221 212 021 302 200 312 020 020 232 113 200 103
Gnt: GAA GGG GCG ACG CCA CCC CAT TGT GGT GGC GCG AGC TAG GAA TCG AGA AGA GTG CCT GAA CAT
102
SD08 - S. c e re v is iae Mitochondrial 54S ribosomal protein GI: 45269853
6
+x
5
+1 - g(x)= x
6
+3x
5
+2x
3
+1
Oaa: M Q K I F R P F Q L T R G F T S S V K N F
Ont: ATG CAA AAA ATT TTC AGA CCA TTC CAA TTA ACG AGA GGC TTT ACC TCT TCC GTA AAA AAC TTC
Olb: 032 100 000 033 331 020 110 331 100 330 012 020 221 333 011 313 311 230 000 001 331
Glb: 032 100 200 033 331 020 110 331 100 330 012 020 221 333 011 313 311 230 000 001 331
Gnt: ATG CAA GAA ATT TTC AGA CCA TTC CAA TTA ACG AGA GGC TTT ACC TCT TCC GTA AAA AAC TTC
Gaa: M Q E I F R P F Q L T R G F T S S V K N F
6
+x+1 - g(x)= x
6
+2x
3
+3x+1
Ont: GAA GTT TTT TAC GGA AGA GGT AAA GCC TCT CGT TAA TTG GAA TGG TCT GAA AAT TTT TTG CAT
Olb: 200 233 333 301 220 020 223 000 211 313 123 300 332 200 322 313 200 003 333 332 103
Glb: 200 233 333 301 220 020 223 000 211 313 123 300 332 200 322 313 200 003 331 332 103
Gnt: GAA GTT TTT TAC GGA AGA GGT AAA GCC TCT CGT TAA TTG GAA TGG TCT GAA AAT TTC TTG CAT
SD13 - A. th aliana Mitochondrial Malate dehydrogenase 1 GI: 30695458
6
+x
5
+x
2
+x+1 - g(x)= x
6
+3x
5
+2x
4
+x
2
+x+1
Oaa: F R S M L V R S S A S A K Q A V I R R S F
Ont: TTC AGA TCT ATG CTC GTC CGA TCT TCT GCC TCC GCG AAG CAG GCG GTT ATC CGC CGT AGC TTC
Olb: 331 020 313 032 131 231 120 313 313 211 311 212 002 102 212 233 031 121 123 021 331
Glb: 331 020 313 032 131 231 120 313 313 211 311 212 003 102 212 233 031 121 123 021 331
Gnt: TTC AGA TCT ATG CTC GTC CGA TCT TCT GCC TCC GCG AAT CAG GCG GTT ATC CGC CGT AGC TTC
Gaa: F R S M L V R S S A S A N Q A V I R R S F
6
+x
5
+x
4
+x+1 - g(x)= x
6
+x
5
+x
4
+2x
2
+3x+1
Ont: GAA GCT ACG GCG GAT AAC CGC CTG CTT CGC GGA GGC AGA AGA TCG GAC GAG CAT AGA TCT GAA
Olb: 200 213 012 212 203 001 121 132 133 121 220 221 020 020 312 201 202 103 020 313 200
Glb: 200 213 012 212 203 001 121 132 033 121 220 221 020 020 312 201 202 103 020 313 200
Gnt: GAA GCT ACG GCG GAT AAC CGC CTG ATT CGC GGA GGC AGA AGA TCG GAC GAG CAT AGA TCT GAA
103
SD20 - P.d o m inu lus RE Allergen Pol d 5 GI: 51093376
6
+x
5
+x
4
+x+1 - g(x)= x
6
+x
5
+x
4
+2x
2
+3x+1
Oaa: M K I S C L I C L V I V L T I I H L S Q A
Ont: ATG AAA ATT AGT TGC TTA ATT TGT CTC GTA ATT GTT CTT ACG ATC ATT CAT TTG TCT CAA GCT
Olb: 032 000 033 023 321 330 033 323 131 230 033 233 133 012 031 033 103 332 313 100 213
Glb: 032 000 033 023 321 330 033 123 131 230 033 233 133 012 031 033 103 332 313 100 213
Gnt: ATG AAA ATT AGT TGC TTA ATT CGT CTC GTA ATT GTT CTT ACG ATC ATT CAT TTG TCT CAA GCT
Gaa: M K I S C L I R L V I V L T I I H L S Q A
6
+x
5
+x
2
+x+1 - g(x)= x
6
+3x
5
+2x
4
+x
2
+x+1
Ont: AGC TTG AGA CAA ATG AAT GAT CGT AAG AAC AAT TAC GAG ACA AAT TAA GCA ACT AAT TTT CAT
Olb: 021 332 020 100 032 003 203 123 002 001 003 301 202 010 003 300 210 013 003 333 103
Glb: 021 332 020 100 032 003 203 123 002 001 003 301 202 012 003 300 210 013 003 333 103
Gnt: AGC TTG AGA CAA ATG AAT GAT CGT AAG AAC AAT TAC GAG ACG AAT TAA GCA ACT AAT TTT CAT
SD06 - T. s ativ u m RE - wPR4g gene for putative vacuolar defense protein GI: 78096542
6
+x
5
+x
4
+x+1 - g(x)= x
6
+x
5
+x
4
+2x
2
+3x+1
Rotulamento C: (0,2,1,3) - (A,C,G,T)
Oaa: M A A R L A L V A A L L C A G A T A A A A
Ont: ATG GCC GCA CGC CTC GCG CTG GTG GCG GCG CTC CTG TGC GCC GGT GCC ACG GCC GCC GCG GCG
Olb: 031 122 120 212 232 121 231 131 121 121 232 231 312 122 113 122 021 122 122 121 121
Glb: 031 122 120 212 232 121 231 331 121 121 232 231 312 122 113 122 021 122 122 121 121
Gnt: ATG GCC GCA CGC CTC GCG CTG TTG GCG GCG CTC CTG TGC GCC GGT GCC ACG GCC GCC GCG GCG
Gaa: M A A R L A L L A A L L C A G A T A A A A
6
+x
5
+x
2
+x+1 - g(x)= x
6
+3x
5
+2x
4
+x
2
+x+1
Ont: CGC CGC GGC GGC CGT GGC ACC GGC GCA CAG GAG CGC CGC CAC CAG CGC GAG GCG TGC GGC CAT
Olb: 212 212 112 112 213 112 022 112 120 201 101 212 212 202 201 212 101 121 312 112 203
Glb: 212 212 112 112 213 112 022 112 120 201 101 212 212 200 201 212 101 121 312 112 203
Gnt: CGC CGC GGC GGC CGT GGC ACC GGC GCA CAG GAG CGC CGC CAA CAG CGC GAG GCG TGC GGC CAT
104
SD17 - H. s ap ie n s Mitochondrial ATPase delta-subunit GI number 12587
6
+x
5
+1 - g(x)= x
6
+3x
5
+2x
3
+1
Oaa: L P A A L L R R P G L G R L V R H A R A Y
Ont: CTG CCC GCC GCG CTG CTC CGC CGC CCG GGA CTT GGC CGC CTC GTC CGC CAC GCC CGT GCC TAT
Olb: 231 222 122 121 231 232 212 212 221 110 233 112 212 232 132 212 202 122 213 122 303
Glb: 231 222 122 121 231 232 212 212 221 110 233 112 212 232 132 212 201 122 213 122 303
Gnt: CTG CCC GCC GCG CTG CTC CGC CGC CCG GGA CTT GGC CGC CTC GTC CGC CAG GCC CGT GCC TAT
Gaa: L P A A L L R R P G L G R L V R Q A R A Y
6
+x+1 - g(x)= x
6
+2x
3
+3x+1
Ont: ATA GGC ACG GGC GTG GCG GAC GAG GCG GCC AAG TCC CGG GCG GCG GAG CAG CGC GGC GGG CAG
Olb: 030 112 021 112 131 121 102 101 121 122 001 322 211 121 121 101 201 212 112 111 201
Glb: 030 112 021 112 231 121 102 101 121 122 001 322 211 121 121 101 201 212 112 111 201
Gnt: ATA GGC ACG GGC CTG GCG GAC GAG GCG GCC AAG TCC CGG GCG GCG GAG CAG CGC GGC GGG CAG
105
Captulo 5
Regenera cao de Sequencias de DNA
A fun cao primordial do processo de decodica cao e recuperar a palavra-codigo transmitida
atraves da correspondente sequencia recebida de smbolos. O primeiro passo e identicar se a
palavra recebida e uma palavra-codigo. O segundo passo consiste em recuperar a mensagem
que fora codicada. Esta recupera cao torna-se trivial se a palavra recebida e uma palavra-
codigo, visto que a correspondencia e um-a-um entre as possveis mensagens e as palavras-
codigos.
Do ponto de vista biologico, o processo da decodica cao pode ser visto como o processo de
repara cao de erros. Este processo consiste em localizar e corrigir os possveis erros cometidos
durante os processos de duplica cao e transcri cao. A regra da regenera cao otima consiste em
escolher a palavra recebida mais proxima da palavra-codigo.
No presente trabalho, o modelo de decodica cao baseia-se em uma analogia entre o pro-
cesso de decodica cao (Berlekamp-Massey para aneis) utilizado em sistemas de comunica coes
e o complexo TOM que atua no transporte de protenas mitocondriais. A principal fun cao
do complexo TOM e reconhecer as sequencias de direcionamento permitindo a entrada da
protena precursora na mitocondria e translocando-a para seu respectivo subcompartimento,
no qual a protena exercera a sua fun cao. Ressaltamos que estas analogias podem ser esten-
didas para o transporte de protenas para o cloroplasto e para o retculo endoplasmatico.
O algoritmo de Berlekamp-Massey consiste basicamente de quatro passos: 1) Calculo das
sndromes: neste passo o algoritmo verica se a sequencia recebida e uma palavra-codigo; 2)
Calculo das fun coes simetricas elementares: se o calculo das sndromes for um valor diferente
de zero, podemos vericar se a quantidade de erros esta dentro da capacidade de corre cao do
codigo; 3) Calculo dos n umeros localizadores de erros: neste passo sao localizadas as posi coes
onde ocorreram os erros e 4) Calculo das magnitudes dos erros: o algoritmo indica quais sao
os valores que devem ser somados nas posi coes apontadas no Passo 3 para que os erros sejam
corrigidos.
107
Captulo 5. Regenera cao de Sequencias de DNA
Durante o processo de importa cao de protenas mitocondriais, existem processos seme-
lhantes aos passos do processo de decodica cao descritos anteriormente. As protenas Tom20,
Tom22 e Tom70 funcionam como receptores para as protenas precursoras mitocondriais.
Esta etapa pode ser relacionada aos Passos 1 e 2 do algoritmo de Berlekamp-Massey, desta
maneira as protenas receptoras tem a fun cao de vericar se a protena precursora pertence
a mitocondria (Passo 1), bem como se possveis polimorsmos existentes estao dentro da
capacidade de corre cao do erro (Passo 2). Sabemos que alguns polimorsmos nao alteram
a fun cao da protena, de alguma forma esta informa cao faz parte do processo, pois alguns
polimorsmos sao importados normalmente pelo complexo TOM. Sendo assim, e concebvel
que os processos de localiza cao e corre cao dos erros (Passos 3 e 4, respectivamente) podem
ser interpretados como um processo de verica cao se os polimorsmos ocorreram em posi coes
que afetaram a protena (conte udo de informa cao) tornando-a danosa ou nao ao sistema de
importa cao de protenas.
Na Se cao 5.1 apresentamos o algoritmo usado para decodicar/regenerar as sequencias de
DNA (sequencias de direcionamento) reproduzidas pelos c odigos Z
4
-linear, Z
2
Z
2
-linear e
Klein-linear. Este algoritmo baseia-se nos resultados observados no Captulo 4 onde todas as
sequencias reproduzidas pelos codigos diferem em um nucleotdeo da sequencia do NCBI. Em
um contexto biologico, esta diferen ca de um nucleotdeo e conhecida como SNP. Entao, uma
possvel interpreta cao e que a palavra-codigo gerada pelos codigos G-lineares sao SNPs das
sequencias do NCBI, ou vice-versa. Desta forma, o algoritmo e capaz de localizar e corrigir
esta diferen ca de nucleotdeo transformando a sequencia gerada pelo codigo na sequencia
do NCBI, ou vice-versa. A Se cao 5.2 mostra os resultados da decodica cao/regenera cao
das sequencias de direcionamento reproduzidas pelos codigos e suas respectivas tas comple-
mentares. Na Se cao 5.3 apresentamos a reprodu cao das sequencias de direcionamento atraves
de um circuito linear de deslocamento com realimenta cao linear (LFSR - linear feedback
shift-register), nesta abordagem a reprodu cao das sequencias de direcionamento e realizada
pela sequencia de informa cao. Cada sequencia de informa cao esta associada a somente uma
sequencia de direcionamento (palavra-codigo). Sendo assim, a distin cao entre as sequencias
que foram reproduzidas pelo mesmo codigo e mesmo polinomio gerador/primitivo e realizada
atraves da sequencia de informa cao.
5.1 Algoritmo de Decodica cao
Na Se cao 4.1, Captulo 4, apresentamos o codigo Z
2
Z
2
com parametros (63, 57, 3)
que reproduziu a sequencia de direcionamento do organismo Ipomoea batatas, GI: 217937,
protena F1-ATPase delta subunit, diferenciando em apenas um nucleotdeo da sequencia
108
encontrada no NCBI. Nesta se cao, mostramos que o algoritmo de decodica cao e capaz de
localizar e corrigir esta diferen ca de nucleotdeo entre estas sequencias. Neste contexto, o
algoritmo de decodica cao pode ser visto biologicamente como um processo de regenera cao
da sequencia de DNA.
Algoritmo de Berlekamp- Massey Modicado para
Decodicacao de Sequencias de DNA
Passo 1- Determinar as sndromes:
O calculo do vetor sndrome S = (S
0
, S
1
, ..., S
2t1
) e realizado atraves da rela cao S =
r H
T
. Considere o vetor r como sendo a palavra-codigo transmitida com um padrao
de erro introduzido pelo canal (sequencia do NCBI) e H
T
e a matriz verica cao de
paridade. Uma vez que a sequencia em questao foi reproduzida pelo codigo Z
2
Z
2
-
linear (BCH (63,57,3), rotulamento B), consideramos as oito permuta coes (Casos: 01,
05, 08, 10, 15, 17, 19 e 24) entre N Z
4
relativas ao rotulamento e a sequencia do
NCBI. Realizamos o calculo do vetor sndrome para cada uma das oito permuta coes.
H
T
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 1

2
6
.
.
.
.
.
.
61
59
62
61
_
_
_
_
_
_
_
_
_
_
_
_
_
_
(5.1)
Sequencia NCBI = {ATGTTCAGGCACTCTTCTCGACTCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC}
Caso 01: (A,C,G,T)=(0,1,2,3)={032331022101313313120131130213121211011010032222322123121111331} = r
Caso 05: (A,C,G,T)=(0,3,2,1)={012113022303131131320313310231323233033030012222122321323333113} = r
Caso 08: (A,C,G,T)=(1,0,3,2)={123220133010202202031020021302030300100101123333233032030000220} = r
Caso 10: (A,C,G,T)=(1,2,3,0)={103002133212020020231202201320232322122121103333033230232222002} = r
Caso 15: (A,C,G,T)=(2,1,0,3)={230331200121313313102131132013101011211212230000300103101111331} = r
Caso 17: (A,C,G,T)=(2,3,0,1)={210113200323131131302313312031303033233232210000100301303333113} = r
Caso 19: (A,C,G,T)=(3,0,1,2)={321220311030202202013020023102010100300303321111211012010000220} = r
Caso 24: (A,C,G,T)=(3,2,1,0)={301002311232020020213202203120212122322323301111011210212222002} = r
109
Resultados:
As sndromes sao iguais para as oito permuta coes, onde S
0
= (022020) e S
1
= (222020).
Sendo assim, iniciamos o preenchimento da Tabela 5.1.
n
(n)
(Z) d
n
l
n
n l
n
-1 1 1 0 -1
0 1 S
0
= (022020) 0 0
1
2
Tabela 5.1: Tabela de Decodica cao.
Passo 2- Determinar l
1
:
Considere m = 1 e n = 0 para que l
n+1
= l
1
. Substituindo esses valores em (5.2),
temos:
l
n+1
= max(l
n
, l
m
+n m) (5.2)
l
0+1
= max(l
0
, l
1
+ 0 + 1)
l
1
= max(0, 0 + 0 + 1)
l
1
= max(0, 1)
l
1
= 1
Passo 3- Determinar n l
n
:
Do Passo 2 temos que l
n
= l
1
= 1, portanto n = 1 e n l
n
= 1 1 = 0.
Passo 4- Determinar
(1)
(Z):
Nesse passo, considere m = 1 e n = 0 para que
(n+1)
(Z) =
(1)
(Z). Substituindo
esses valores em (5.3) temos:
(n+1)
(Z) =
(n)
(Z) yZ
(nm)
(m)
(Z) (5.3)
(0+1)
(Z) =
(0)
(Z) yZ
(0(1))
(1)
(Z)
(1)
(Z) =
(0)
(Z) yZ
(1)
(1)
(Z)
(1)
(Z) = 1 yZ
Para determinarmos o valor de y resolvemos a equa cao d
n
yd
m
= 0, onde n = 0 e
m = 1. Portanto:
110
d
0
yd
1
= 0
(022020) y(1) = 0
y = (022020)
Com isso, determinamos que
(1)
(Z) = 1 (022020)Z.
Note que os valores de
(0)
(Z) = 1,
(1)
(Z) = 1, d
0
= (022020) e d
1
= 1 foram
obtidos na Tabela 5.1 (Passo 1).
Passo 5- Determinar d
1
:
O valor de d
1
sera calculado atraves de (5.4), considerando n = 0. Portanto:
d
n+1
= s
n+2
+s
n+1
(n+1)
1
+. . . +s
n+2
l
n+1
(n+1)
l
n+1
(5.4)
d
0+1
= s
0+2
+s
0+1
(0+1)
1
d
1
= S
1
+S
0
(1)
1
d
1
= (222020) + (022020)(022020)
d
1
= (222020)
(5.5)
Preenchendo a Tabela 5.2 para n = 1 temos:
n
(n)
(X) d
n
l
n
n l
n
-1 1 1 0 -1
0 1 (022020) 0 0
1 1+(022020)Z (222020) 1 0
2
Passo 6- Determinar l
2
:
Considere n = 1 para que l
n+1
= l
2
e calcule a equa cao (5.2) para m = 1 e m = 0
escolhendo sempre o menor valor para l
n
. Substituindo esses valores em (5.2), temos:
111
Para m = 1 temos:
l
n+1
= max(l
n
, l
m
+n m)
l
1+1
= max(l
1
, l
1
+ 1 + 1)
l
2
= max(1, 0 + 1 + 1)
l
2
= max(1, 2)
l
2
= 2
Para m = 0 temos:
l
n+1
= max(l
n
, l
m
+n m)
l
1+1
= max(l
1
, l
0
+ 1 0)
l
2
= max(1, 0 + 1 0)
l
2
= max(1, 1)
l
2
= 1
Escolhendo o menor l
n
temos l
2
= 1 e m = 0.
Passo 7- Determinar n l
n
:
Do Passo 2 temos que l
n
= l
2
= 1, portanto n = 2 e n l
n
= 2 1 = 1.
Passo 8- Determinar
(2)
(Z):
Nesse passo, considere m = 0 e n = 1 para que
(n+1)
(Z) =
(2)
(Z). Substituindo esses
valores em (5.6) temos:
(n+1)
(Z) =
(n)
(Z) yZ
(nm)
(m)
(Z) (5.6)
(1+1)
(Z) =
(1)
(Z) yZ
(1(0))
(0)
(Z)
(2)
(Z) =
(1)
(Z) yZ
(0)
(Z)
(2)
(Z) = [1 + (022020)Z] yZ
Para determinarmos o valor de y resolvemos a equa cao d
n
yd
m
= 0, onde n = 1 e
m = 0. Portanto:
112
d
1
yd
0
= 0
(222020) y(022020) = 0
y = (211012)
Com isso, determinamos que
(2)
(Z) = 1 + (211012)Z.
Note que os valores de
(0)
(Z),
(1)
(Z), d
0
= (022020) e d
1
= (222020) foram obtidos
da Tabela 5.2 do Passo 5. Observe que d
2
nao foi calculado pelo fato de termos duas
sndromes, S
0
e S
1
.
Preenchendo a Tabela 5.3 para n = 2 temos:
n
(n)
(X) d
n
l
n
n l
n
-1 1 1 0 -1
0 1 (022020) 0 0
1 1+(022020)Z (222020) 1 0
2 1+(211012)Z - 1 1
Passo 9- Determinar p(Z):
Nesse passo, calculamos as razes do polinomio recproco (p(Z)) do polinomio
(2)
(Z).
Temos:
(2)
(Z) = 1 + (211012)Z
Logo,
p(Z) = (211012) +Z
Portanto, a raiz de p(Z) e Z
1
= (233032).
Passo 10- Determinar X
1
:
Para determinar a localiza cao do erro, X
1
, usamos a rela cao:
113
X
1
Z
1
= 0
X
1
(233032) = 0
X
1
= (233032)
Observe que X
1
e o elemento
21
da Tabela 4.4 do Passo 6 da Se cao 4.1 do Captulo 4.
Passo 11- Determinar Y
1
:
Quanto ao calculo da magnitude dos erros, Y
1
, usamos a seguinte equa cao:
Y
j
=
v1
l=0

jl
s
(h)
vl
X
b+c
2
h
j
v1
l=0

jl
X
c
1
(vl)
j
para 1 j v, e onde os
jl
sao obtidos recursivamente a partir de X
i
e
i
atraves da
rela cao:
ji
=
i
+X
j
j,i1
Portanto, susbtituindo os valores de i = 0 e j = 1 em
ji
, temos:
10
=
0
+X
1
1,01
= 1 + (233032) = (333032)
Substituindo
10
em Y
j
, temos:
Y
1
=

10
S
0
10
X
1
1
=
(022020)
(233032)
= 2
Conclumos que a magnitude de erro e Y
1
= 2.
Passo 12- Regeneracao das Sequencias de DNA:
Neste passo o algoritmo localiza e corrige o erro introduzido na sequencia do NCBI
transformando-a na sequencia reproduzida pelo codigo. Do ponto de vista biologico
podemos considerar este passo como um processo de regenera cao de sequencias.
114
Cada uma das oito permuta coes do Passo 1 corresponde a uma linha da matriz R
,
onde cada linha e considerada como uma palavra recebida r = (r
0
r
1
... r
n1
)
correspondente a sequencia do NCBI. No Passo 10 calculamos que X
1
=
21
= (233032),
portanto a localiza cao do erro esta na posi cao 21 (potencia de ) da palavra recebida
r = (r
0
r
1
... r
n1
).
R
=
_
_
_
_
_
_
_
_
_
032331022101313313120131130213121211011010032222322123121111331
012113022303131131320313310231323233033030012222122321323333113
123220133010202202031020021302030300100101123333233032030000220
103002133212020020231202201320232322122121103333033230232222002
230331200121313313102131132013101011211212230000300103101111331
210113200323131131302313312031303033233232210000100301303333113
321220311030202202013020023102010100300303321111211012010000220
301002311232020020213202203120212122322323301111011210212222002
_
_
_
_
_
_
_
_
_
No Passo 11 determinamos a magnitude do erro Y
1
= 2, portanto na posi cao 21 de
cada linha da matriz R
ocorreu um erro de magnitude igual a 2. Para corrigir este erro

devemos somar nesta posi cao o complementar de Y
1
que denimos como Y
1
. O valor
de Y
1
e determinado da seguinte forma: Y
1
+Y
1
= 0 (mod4), Tabela 5.4. Sendo assim,
temos que Y
1
= 2 e somando este valor na posi cao 21 de cada linha de R
temos,
Y
1
+ Y
1
= 0
0+0=0
1+3=0
3+1=0
2+2=0
Tabela 5.4: Complementares.
R
=
_
_
_
_
_
_
_
_
_
032331022101313313120[(1 + 2)mod4]31130213121211011010032222322123121111331
012113022303131131320[(3 + 2)mod4]13310231323233033030012222122321323333113
123220133010202202031[(0 + 2)mod4]20021302030300100101123333233032030000220
103002133212020020231[(2 + 2)mod4]02201320232322122121103333033230232222002
230331200121313313102[(1 + 2)mod4]31132013101011211212230000300103101111331
210113200323131131302[(3 + 2)mod4]13312031303033233232210000100301303333113
321220311030202202013[(0 + 2)mod4]20023102010100300303321111211012010000220
301002311232020020213[(2 + 2)mod4]02203120212122322323301111011210212222002
_
_
_
_
_
_
_
_
_
Resulta em:
115
R
=
_
_
_
_
_
_
_
_
_
032331022101313313120331130213121211011010032222322123121111331
012113022303131131320113310231323233033030012222122321323333113
123220133010202202031220021302030300100101123333233032030000220
103002133212020020231002201320232322122121103333033230232222002
230331200121313313102331132013101011211212230000300103101111331
210113200323131131302113312031303033233232210000100301303333113
321220311030202202013220023102010100300303321111211012010000220
301002311232020020213002203120212122322323301111011210212222002
_
_
_
_
_
_
_
_
_
Passo 13- Visualizando o resultado:
Para facilitar a compreensao do processo da decodica cao mostramos na Figura 5.1
o caso referente a primeira linha da matriz R
, onde o erro foi localizado e corrigido

transformando a sequencia de direcionamento do NCBI na sequencia reproduzida pelo
codigo Z
2
Z
2
( BCH (63,57,3), rotulamento B.
Processodacodificao
Processodadecodificao
Caso 1 - (0,1,2,3) = (A,C,G,T)
Olb: 032 331 022 101 313 313 120 131 130 213 121 211 011 010 032 222 322 123 121 111 331
Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Caso 1 - (0,1,2,3) = (A,C,G,T)
Oaa: M F R H S S R F L A R A T T M G W R R P F
Ont: ATG TTC AGG CAC TCT TCT CGA TTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Olb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Figura 5.1: SD NCBI em SD reproduzida pelo codigo.
Observe que, uma vez que se conhece a palavra-codigo, o processo inverso tambem
pode ser realizado pelo algoritmo, isto e, o algoritmo e capaz de transformar a sequencia
reproduzida pelo codigo na sequencia do NCBI (Figura 5.2). Neste caso devemos somar
na sequencia reproduzida pelo codigo e na posi cao onde o erro ocorreu o valor de Y
1
= 2.
5.2 Resultados da Decodica cao
Na Figura 5.3 mostramos as tas codante (5 para 3) e nao codante (3 para 5) da
sequencia da Ipomoea batatas que foram reproduzidas pelo polinomio gerador g(x) = x
6
+
116
Processodacodificao
Processodadecodificao
Caso 1 - (0,1,2,3) = (A,C,G,T)
Olb: 032 331 022 101 313 313 120 131 130 213 121 211 011 010 032 222 322 123 121 111 331
Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Caso 1 - (0,1,2,3) = (A,C,G,T)
Olb: 032 331 022 101 313 313 120 131 130 213 121 211 011 010 032 222 322 123 121 111 331
Glb: 032 331 022 101 313 313 120 131 130 213 121 211 011 010 032 222 322 123 121 111 331
Gnt: ATG TTC AGG CAC TCT TCT CGA CTC CTA GCT CGC GCC ACC ACA ATG GGG TGG CGT CGC CCC TTC
Gaa: M F R H S S R L L A R A T T M G W R R P F
Figura 5.2: SD reproduzida pelo codigo em SD NCBI.
3x
5
+ x
3
+ x
2
+ 2x + 1 do codigo, bem como a ta nao codante (5 para 3) reproduzida
pelo polinomio recproco de g(x), isto e, pelo polinomio g
(x) = x
6
+ 2x
5
+x
4
+x
3
+ 3x + 1.
Ressaltamos que a leitura destas tas e considerada no sentido da esquerda para a direita
pelo codigo e que o algoritmo da decodica cao foi aplicado nestes tres tipos de tas para
cada sequencia reproduzida pelo codigo.
Fitacodante(5'para3')efitanocodante(3'para5')
Fitanocodante(5'para3')
5'-ATGTTCAGGCACTCTTCTCGATCCTAGCTCGCGCCACCACAATGGGGTGGCGTCGCCCCTTC-3 T '
3'-TACAAGTCCGTGAGAAGAGCTAAGGATCGAGCGCGGTGGTGTTACCCCACCGCAGCGGGGAAG-5'
5'-GAAGGGGCGACGCCACCCCATTGTGGTGGCGCGAGCTAGGAATCGAGAAGAGTGCCTGAACAT-3
Figura 5.3: Fitas codante e nao codante.
Na Tabela 5.5 mostramos que para determinadas sequencias de direcionamento o pro-
cesso de decodica cao obteve a mesma classe sndrome (S
0
e S
1
) para as oito permuta coes
relacionadas com as sequencias. Porem em outros casos, as oito permuta coes com um erro
se dividiram em duas classes de sndromes (S
0
e S
1
; S
0
e S
1
), Tabela 5.6. O mesmo ocorreu
com o processo de decodica cao da ta complementar (5 para 3), Tabelas 5.7 e 5.8.
Nos casos de duas classes de sndromes, Tabela 5.6, podemos observar que as sndromes
S
0
e S
1
sao complementares a S
0
e S
1
, respectivamente. Outro ponto a ser considerado e que
se denirmos o localizador de erros como X
1
e seu complementar como X
1
, entao podemos
determinar o polinomio
(2)
(Z) atraves da rela cao
(2)
(Z) = 1 +X
1
Z.
Note que nas Tabelas 5.6 e 5.8 as sequencias SD01, SD03, SD04 e SD18 possuem duas
117
classes de sndromes e o mesmo rotulamento, porem elas se diferem em rela cao a magnitude
dos erros Y
1
. Observe que nas sequencias SD01, SD03 e SD18 as classes A(2, 9, 18, 20) possuem
magnitude Y
1
= 3 enquanto que a sequencia SD04 possui magnitude Y
1
= 1.
n
o
Organismo Organela Rotulamento Sndromes
(2)
(Z) X
1
Y
1
SD02 I. batatas M B S
0
= (022020), S
1
= (222020) 1 + (211012)Z
21
= (233032) 2
SD06 T. sativum RE C S
0
= (000220), S
1
= (200220) 1 + (202310)Z
21
= (202130) 2
SD08 S. cerevisiae M B S
0
= (022222), S
1
= (202202) 1 + (031313)Z
6
= (013131) 2
SD20 P. dominulus RE A S
0
= (202202), S
1
= (222200) 1 + (321323)Z
12
= (123121) 2
SD20 P. dominulus RE B S
0
= (000220), S
1
= (200220) 1 + (202310)Z
21
= (202130) 2
Tabela 5.5: Sequencias de direcionamento com uma classe de sndrome. Fita codante 5 para
3 e ta nao codante 3 para 5.
n
o
(2)
(Z) X
1
Y
1
(Casos)
SD01 B. napus M A (2,9,18,20) S
0
= (110110), S
1
= (330323) 1 + (110110)Z
62
= (330330) 3
A (6,7,16,23) S
0
= (330330), S
1
= (110121) 1 + (110110)Z
62
= (330330) 1
SD03 A. thaliana RE A (2,9,18,20) S
0
= (330230), S
1
= (011020) 1 + (330230)Z
18
= (110210) 3
A (6,7,16,23) S
0
= (110210), S
1
= (033020) 1 + (330230)Z
18
= (110210) 1
SD04 N. tabacum RE A (2,9,18,20) S
0
= (032213), S
1
= (310300) 1 + (012231)Z
26
= (032213) 1
A (6,7,16,23) S
0
= (012231), S
1
= (130100) 1 + (012231)Z
26
= (032213) 3
SD13 A. thaliana M B (1,10,17,19) S
0
= (211312), S
1
= (233022) 1 + (211312)Z
38
= (233132) 3
B (5,8,15,24) S
0
= (233132), S
1
= (211022) 1 + (211312)Z
38
= (233132) 1
SD17 H. sapiens M C (3,12,14,21) S
0
= (322301), S
1
= (131332) 1 + (122103)Z
50
= (322301) 1
C (4,11,13,22) S
0
= (122103), S
1
= (313112) 1 + (122103)Z
50
= (322301) 3
SD18 M. martensii RE A (2,9,18,20) S
0
= (001221), S
1
= (103301) 1 + (001221)Z
38
= (003223) 3
A (6,7,16,23) S
0
= (003223), S
1
= (301103) 1 + (001221)Z
38
= (003223) 1
Tabela 5.6: Sequencias de direcionamento com duas classes de sndromes. Fita codante 5
para 3 e ta nao codante 3 para 5.
n
o
(2)
(Z) X
1
Y
1
SD02 I. batatas M B S
0
= (022202), S
1
= (022222) 1 + (213301)Z
41
= (231103) 2
SD06 T. sativum RE C S
0
= (220200), S
1
= (020002) 1 + (132100)Z
41
= (312300) 2
SD08 S. cerevisiae M B S
0
= (020220), S
1
= (220200) 1 + (230130)Z
56
= (210310) 2
SD20 P. dominulus RE A S
0
= (002202), S
1
= (220002) 1 + (203321)Z
50
= (201123) 2
SD20 P. dominulus RE B S
0
= (000220), S
1
= (200220) 1 + (132100)Z
41
= (312300) 2
Tabela 5.7: Sequencias de direcionamento com uma classe de sndrome. Fita complementar
invertida 5 para 3.
5.3 Reprodu cao das Sequencias de DNA atraves do
LFSR
O objetivo desta se cao e mostrar que as sequencias de direcionamento reproduzidas pelos
codigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear podem ser reproduzidas atraves de um circuito
118
n
o
(2)
(Z) X
1
Y
1
(Casos)
SD01 B. napus M A (2,9,18,20) S
0
= (3), S
1
= (3) 1 + (3)Z
0
= (1) 3
A (6,7,16,23) S
0
= (1), S
1
= (1) 1 + (3)Z
0
= (1) 1
SD03 A. thaliana RE A (2,9,18,20) S
0
= (303322), S
1
= (012302) 1 + (303322)Z
44
= (101122) 3
A (6,7,16,23) S
0
= (101122), S
1
= (032102) 1 + (303322)Z
44
= (101122) 1
SD04 N. tabacum RE A (2,9,18,20) S
0
= (123211), S
1
= (113212) 1 + (321233)Z
36
= (123211) 1
A (6,7,16,23) S
0
= (321233), S
1
= (331232) 1 + (321233)Z
36
= (123211) 3
SD13 A. thaliana M B (1,10,17,19) S
0
= (032130), S
1
= (103332) 1 + (012310)Z
24
= (032130) 3
B (5,8,15,24) S
0
= (012310), S
1
= (301112) 1 + (012310)Z
24
= (032130) 1
SD17 H. sapiens M C (3,12,14,21) S
0
= (302030), S
1
= (301120) 1 + (302030)Z
12
= (102010) 1
C (4,11,13,22) S
0
= (102010), S
1
= (103320) 1 + (302030)Z
12
= (102010) 3
SD18 M. martensii RE A (2,9,18,20) S
0
= (110121), S
1
= (000113) 1 + (110121)Z
24
= (330323) 3
A (6,7,16,23) S
0
= (330323), S
1
= (000331) 1 + (110121)Z
24
= (330323) 1
Tabela 5.8: Sequencias de direcionamento com duas classes de sndromes. Fita complementar
invertida 5 para 3.
de deslocamento com realimenta cao linear (LFSR). Este processo fornece um embasamento
para uma proposta futura que permite reproduzir sequencias de DNA atraves do LFSR e
utiliza-las para a realiza cao da analise espectral via transformada de Fourier Discreta sobre
aneis, bem como da densidade espectral.
Na Subse cao 4.2.5, Captulo 4, mostramos que existem algumas sequencias de direciona-
mento que possuem o mesmo polinomio gerador/primitivo (SD01, SD03 e SD04). Isso
signica que todas estas sequencias sao identicadas como palavras-codigo pertencentes ao
mesmo codigo, embora diferindo atraves da sua sequencia de informa cao (u). Cada sequencia
de informa cao esta associada a uma unica palavra-codigo. Portanto, a distin cao entre estas
sequencias e realizada atraves da sequencia de informa cao.
Uma vez que a matriz geradora G(x) e a palavra-codigo (v) sao conhecidas, usamos a
rela cao u.G(x) = v para determinar a sequencia de informa cao. Atraves de um sistema de
equa coes lineares que obedecem as opera coes de adi cao e multiplica cao segundo a estrutura
algebrica de anel, ou seja, soma e produto modulo 4, determinamos o vetor u para cada
sequencia de direcionamento reproduzida pelo codigo. Nas Figuras 5.4 e 5.5 mostramos as
sequencias de informa cao (u) referentes a reprodu cao da sequencia de direcionamento da
Ipomoea batatas. Observe que os Casos (1 e 5), (8 e 19), (15 e 17), (10 e 24) possuem a
mesma sequencia de informa cao em termos de nucleotdeos e aminoacidos.
Apresentamos os circuitos de deslocamentos com realimenta cao linear de comprimento
L = 7 que consiste de uma cascata de L atrasadores (registros de deslocamentos) e alguns
multiplicadores e somadores capazes de gerar uma combina cao linear dos conte udos destes
registros. Estes circuitos reproduzem as sequencias de direcionamento referentes à ta co-
dante da protena F1-ATPase delta subunit, Figura 5.6, e a sua respectiva ta nao codante,
Figura 5.7.
119
Caso 1 - (0,1,2,3) = (A,C,G,T)
u = { 030 001 100 013 333 012 031 323 122 221 032 311 100 131 113 003 131 333 301 }
ATA AAC CAA ACT TTT ACG ATC TGT CGG GGC ATG TCC CAA CTC CCT AAT CTC TTT TAC
I N Q T F T I C R G M S Q L P N L F Y
Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Caso 5 - (0,3,2,1) = (A,C,G,T)
u = { 010 003 300 031 111 032 013 121 322 223 012 133 300 313 331 001 313 111 103 }
Glb: 012 113 022 303 131 131 320 113 310 231 323 233 033 030 012 222 122 321 323 333 113
Caso 8 - (1,0,3,2) = (A,C,G,T)
u = { 102 122 131 331 023 212 331 111 020 100 132 233 013 320 102 113 130 020 020 }
ACT ATT AGA GGA CTG TAT GGA AAA CTC ACC AGT TGG CAG GTC ACT AAG AGC CTC CTC
T I R G L Y G K L T S W Q V T K S L L
Glb: 123 220 133 010 202 202 031 220 021 302 030 300 100 101 123 333 233 032 030 000 220
Caso 10 - (1,2,3,0) = (A,C,G,T)
u = { 122 120 331 313 201 232 313 313 220 102 112 011 213 102 320 111 312 202 222 }
ACC ACT GGA GAG CTA CGC GAG GAG CCT ATC AAC TAA CAG ATC GCT AAA GAC CTC CCC
T T G E L R E E P I N sto Q I A K D L P
Glb: 103 002 133 212 020 020 231 002 201 320 232 322 122 121 103 333 033 230 232 222 002
Figura 5.4: Vetor u .
Na Figura 5.8 mostramos a sequencia de informa cao que reproduz a sequencia de dire-
cionamento referente a ta codante (5 para 3) da protena F1-ATPase delta subunit relativa
ao Caso 1. Os dgitos que estao em vermelho e azul foram usados na Figura 5.9 que mostra
em detalhes como a sequencia de direcionamento e reproduzida pelo circuito.
Primeiramente, todos os registros sao zerados. A sequencia de informa cao (u) e denida
como u = u
0
, u
1
, ..., u
56
, onde o ultimo dgito u
56
= 1 e o primeiro dgito a entrar no primeiro
registro do circuito que denimos como registro (x
6
). A entrada deste dgito resulta em uma
sada igual a v
62
= 1 pois nao existe multiplicador associado a este registro e nenhum valor
a ser somado nos demais registros (Passo 1).
O segundo passo e a entrada do dgito u
55
= 0 no primeiro registro (x
6
) deslocando o dgito
u
56
= 1 para o segundo registro (x
5
). Observe que existe um multiplicador igual a 3 associado
ao segundo registro resultando em uma sada igual a v
61
= u
55
+3(u
56
) = 0 +3(1) = 3 mod4,
isto e, v
61
= 3 (Passo 2).
O terceiro passo e a entrada do dgito u
54
= 3 no primeiro registro (x
6
) deslocando
o dgito u
55
= 0 para o segundo registro (x
5
) e o dgito u
56
= 1 para o terceiro registro
(x
4
). Nao existe multiplicador ou somador associado ao terceiro registro, portanto a sada
120
Caso 15 - (2,1,0,3) = (A,C,G,T)
u = { 230 201 322 231 331 032 213 101 122 021 212 333 122 331 313 221 311 333 301 }
ATG AGC TAA ATC TTC GTA ACT CGC CAA GAC ACA TTT CAA TTC TCT AAC TCC TTT TGC
M S sto I F V T R Q D T F Q F S N S F C
Glb: 230 331 200 121 313 313 102 331 132 013 101 011 211 212 230 000 300 103 101 111 331
Caso 17 - (2,3,0,1) = (A,C,G,T)
u = { 210 203 122 213 113 012 231 303 322 023 232 111 322 113 131 223 133 111 103 }
ATG AGC TAA ATC TTC GTA ACT CGC CAA GAC ACA TTT CAA TTC TCT AAC TCC TTT TGC
M S sto I F V T R Q D T F Q F S N S F C
Glb: 210 113 200 323 131 131 302 113 312 031 303 033 233 232 210 000 100 301 303 333 113
Caso 19 - (3,0,1,2) = (A,C,G,T)
u = { 302 322 313 113 021 232 113 333 020 300 312 211 031 120 302 331 310 020 020 }
ACT ATT AGA GGA CTG TAT GGA AAA CTC ACC AGT TGG CAG GTC ACT AAG AGC CTC CTC
T I R G L Y G K L T S W Q V T K S L L
Glb: 321 220 311 030 202 202 013 220 023 102 010 100 300 303 321 111 211 012 010 000 220
Caso 24 - (3,2,1,0) = (A,C,G,T)
u = { 322 320 113 131 203 212 131 131 220 302 332 033 231 302 120 333 132 202 222 }
ACC ACT GGA GAG CTA CGC GAG GAG CCT ATC AAC TAA CAG ATC GCT AAA GAC CTC CCC
T T G E L R E E P I N sto Q I A K D L P
Glb: 301 002 311 232 020 020 213 002 203 120 212 122 322 323 301 111 011 210 212 222 002
Figura 5.5: Vetor u .
v
60
= u
54
+ 3(u
55
) = 3 + 3(0) = 3mod4, v
60
= 3 (Passo 3).
O mesmo procedimento e realizado ate que todos os dgitos do vetor u passem por todos
os registros. Observe que apos a entrada do ultimo dgito do vetor u, u
0
= 0, novamente os
registros come cam a ser zerados (Passos 59 ao 62).
Um dos grandes desaos da ciencia e compreender os mecanismos moleculares que ocor-
rem dentro das celulas. O transporte de protenas organelares e fundamental para manter
as celulas saudaveis, portanto estudos sobre os mecanismos que governam a distribui cao e
transporte de protenas nas celulas podem contribuir para se obter uma compreensao mais
apurada desta complexa maquinaria, e como seu funcionamento inadequado poderia dea-
grar uma doen ca. Ressaltamos que, ate onde e de nosso conhecimento, pela primeira vez e
proposto um modelo de decodica cao biologico utilizando o algoritmo de Berlekamp-Massey
modicado em importa cao de protenas.
121
u = {u
0
, u
1
, ..., u
56
}
v = {v
0
, v
1
, ..., v
62
}
3
+
u
2
+ + + + v
x
6
x
5
x
4
x
3
x
2
x 1
g(x) = x
6
+3x
5
+x
3
+x
2
+2x+1
Figura 5.6: LFSR ta codante 5 para 3.
2
+
u
3
+ + + +
u = {u
0
, u
1
, ..., u
56
}
v = {v
0
, v
1
, ..., v
62
}
x
6
x
5
x
4
x
3
x
2
x 1
v
2
+
3
+ + + +
g(x) = x
6
+2x
5
+x
4
+x
3
+3x+1
Figura 5.7: LFSR ta nao codante 5 para 3.
Caso 1 - (0,1,2,3)=(A,C,G,T)
u = { 030 001 100 013 333 012 031 323 122 221 032 311 100 131 113 003 131 333 301 }
Glb: 032 331 022 101 313 313 120 331 130 213 121 211 011 010 032 222 322 123 121 111 331
Figura 5.8: Fita codante 5 para 3.
122
1) u = {030001100 ... 131333301}
v62 = 1
x
6
x
5
x
4
x
3
x
2
x 1
2) u = {030001100 ... 131333301}
1+3(0)+0+0+2(0)+0=0 mod4 = 1
3
+
u56
2
+ + + +
{
1
v61 = 3
3
+
u55
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
0 1
0+3(1)+0+0+2(0)+0=0 mod4 = 3
{
-
-
-
59) u = {030001100 ... 131333301}
V3 = 3
3
+
u0
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
0 0 0 3 0 0 0
0+3(0)+0+3+2(0)+0=0 mod4 = 3
{
0 0 0 0 0 0
0 0 0 0 0
3) u = {030001100 ... 131333301}
v60 = 3
3
+
u55
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
3 0
3+3(0)+0+0+2(0)+0=0 mod4 = 3
{
0 0 0 0
4) u = {030001100 ... 131333301}
V59 = 1
3
+
u55
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
3 3
3+3(3)+1+0+2(0)+0=0 mod4 = 1
{
0 1 0 0 0
u55
6) u = {030001100 ... 131333301}
V57 = 1
3
+
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
3 3
3+3(3)+3+0+2(1)+0=0 mod4 = 1
{
3 3 0 1 0
5) u = {030001100 ... 131333301}
V58 = 1
3
+
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
3 3
3+3(3)+0+1+2(0)+0=0 mod4 = 1
{
3 0 1 0 0 u55
61) u = {030001100 ... 131333301}
V1 = 3
3
+
u0
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
3 0 0 0 0 0 0
0+3(0)+0+0+2(0)+3=0 mod4 = 3
{
-
-
-
60) u = {030001100 ... 131333301}
V2 = 2
3
+
u0
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
0 0 3 0
0 0 0
0+3(0)+0+0+2(3)+0=0 mod4 = 2
{
62) u = {030001100 ... 131333301}
V0 = 0
3
+
u0
2
+ + + +
x
6
x
5
x
4
x
3
x
2
x 1
0 0 0 0 0 0 0
0+3(0)+0+0+2(0)+0=0 mod4 = 0
{
1
Figura 5.9: Reprodu cao atraves do LFSR da ta codante 5 para 3.
123
Captulo 6
Analises de Muta coes e de
Polimorsmos em Sequencias de DNA
As muta coes sao mudan cas que ocorreram na sequencia de nucleotdeos do material
genetico de um organismo. As muta coes sao consideradas o mecanismo que permite a a cao
da sele cao natural, ja que insere a varia cao genetica sobre a qual ela ira agir, fornecendo
as novas caractersticas vantajosas que sobrevivem e se multiplicam nas gera coes subse-
quentes ou as caractersticas hereditarias deleterias que desaparecem em organismos mais
fracos. Existem diversos tipos de muta coes e que podem ser resumidas em muta coes benecas
(muta coes que levam a novas versoes de protenas que ajudam o organismo e futuras gera coes
a adaptar-se melhor a mudan cas no seu ambiente) ou muta coes malecas (muta coes que al-
teram uma protena que tem um papel importante no corpo podendo resultar em uma doen ca
ou muta coes criando protenas parciais ou completamente nao-funcionais).
Um problema de grande interesse teorico e aplicado e determinar a regiao ou as regioes
com conte udo de informa cao nas sequencias de nucleotdeos.

E de conhecimento que deter-
minadas regioes estao relacionadas ao conte udo responsavel pela fun cao da protena e que
muta coes nessas regioes acarretariam em muta coes malecas ou benecas. Ao contrario, de
determinadas regioes onde as muta coes nao alteram a fun cao da protena. Atualmente, para
se alcan car esse objetivo sao realizados testes laboratoriais extensivos com um alto custo e
um tempo muito elevado.
Em sistemas de comunica cao codicado a informa cao a ser transmitida e composta de
uma sequencia que contem uma regiao responsavel pela informa cao propriamente dita e
outra regiao que e conhecida como verica cao de paridade. Para simplicar a complexidade
do processo essas regioes sao separadas de duas formas: a regiao de verica cao de paridade
esta posicionada apos ou antes da regiao responsavel pela informa cao. Se pensarmos em
termos de conforma coes topologicas, essas sequencias teriam apenas um tipo de conforma cao
125
Captulo 6. Analises de Muta coes e de Polimorsmos em Sequencias de DNA
espacial.
E de conhecimento biologico a grande variedade de conforma coes espaciais das sequencias

de DNA. Portanto, a nossa hipotese e que em sequencias de DNA os dgitos de verica cao de
paridade estao distribudos ao longo da palavra-codigo, garantindo assim, as diversas formas
espacias que as sequencias de DNA apresentam.
O nosso interesse consiste em reproduzir a referida sequencia de direcionamento (palavra-
codigo) e utiliza-la para a realiza cao de analises mutacionais via codigos corretores de er-
ros. Ressaltamos que o modelo nao leva em considera cao os aspectos bioqumicos, fsicos e
biologicos que inuenciam os processos analisados. Neste momento o nosso objetivo e com-
preender os resultados do modelo para futuramente rena-lo, possibitando o desenvolvimento
de procedimentos capazes de diferenciar esses dois tipos regioes e consequentemente simular
muta coes ocorrendo nessas regioes com o objetivo de detectar que tipo de muta cao seria
maleca ou beneca.
Neste captulo apresentamos algumas aplica coes do modelo proposto no Captulo 4. As
aplica coes da Se cao 6.1, mostram que o modelo reproduz os resultados comprovados em
laboratorio nas analises de substitui coes de resduos de argininas em oligopeptdeos sinteticos.
Na Se cao 6.2, realizamos um estudo logenetico da protena Malate desidrogenase 1 da
Arabidopsis thaliana reproduzida pelo codigo. Na Se cao 6.3 simulamos algumas muta coes
em sequencias de direcionamento mitocondriais.
6.1 Analises da Importancia dos Resduos de Argininas
A maioria das protenas mitocondriais sao codicadas nos genes nucleares e sintetizadas
como precursores que possuem uma extensao peptidase amino-terminal, a qual contem in-
forma cao suciente para a sinaliza cao e localiza cao da mitocondria. Apos a importa cao
dos precursores na mitocondria, a extensao peptidase e proteoliticamente removida do pre-
cursor na matriz mitocondrial. A clivagem da extensao peptidase na matriz e catalisada
por dois tipos de processos proteolticos (enzimas que quebram liga coes peptdicas entre os
aminoacidos das protenas). O processo proteoltico mais comum catalisa a maioria das
protenas precursoras e e conhecido como MPP (mitochondrial processing peptidase). O
outro processo, mitochondrial intermediate peptidase, catalisa uma segunda clivagem em um
segundo passo do processamento proteoltico em algumas protenas precursoras [63]. A ativi-
dade da MPP e estritamente especca para protenas precursoras mitocondriais. Outras
protenas, incluindo protenas maduras mitocondriais e protenas precursoras secretoras, nao
sao reconhecidas pela MPP. Isto indica que a extensao peptidase das protenas precursoras
mitocondriais possuem alguma informa cao para o reconhecimento da MPP.
126
6.1.1 Resultados das analises via laboratorio
Em [63] foi realizado um estudo laboratorial para examinar se os resduos de argininas
nas posi coes 14 e 15 sao necessarios para o reconhecimento e a clivagem correta da extensao
peptidase. Oligopeptdeos foram usados como substrato com o objetivo de analisar a con-
tribui cao desses resduos de argininas nas intera coes entre o precursor e a peptidase, bem
como, alguns parametros cineticos. O precursor escolhido para as analises foi o precursor
da pre-malate dehydrogenase, porque possui uma curta extensao peptdica. Baseados nas
sequencias de aminoacidos da extensao peptdica do precursor da pre-malate dehydrogenase
(o precursor PMD), foram analisados varios oligopeptdeos sinteticos de diferentes compri-
mentos e diferentes sequencias de aminoacidos para determinar quais destas sequencias pos-
suem parametros cineticos das rea coes de clivagem semelhantes aos parametros cineticos
do precursor PMD. Destes oligopeptdeos sinteticos, o peptdeo sintetico MDH1-21 foi o
que obteve parametros cineticos semelhantes ao peptdeo sintetico MDH1-30 que contem
a sequencia inteira da extensao peptidase e os cinco resduos adicionais amino-terminal da
por cao madura do precursor contendo o resduo da cistena no carboxi-terminal da protena,
Tabela 6.1. Por este motivo o peptdeo sintetico MDH1-21 foi usado como modelo para
analises da importancia dos resduos de argininas para a clivagem correta do peptdeo.
Peptdeo Sequencia
PMD MLSALARPVGAALRRSFSTSAQNNAKVAVLGAS ...
MDH1-30 MLSALARPVGAALRRS-FSTSAQNNAKVAVC
MDH1-21 MLSALARPVGAALRRS-FSTSA
Tabela 6.1: Extensoes peptidases analisadas.
Estudos anteriores sugerem que os resduos de arginina na extensao peptidase de varias
protenas precursoras sao importantes para o processo de clivagem realizado pela MPP. Dois
conjuntos de aminoacidos basicos se mostraram importantes para o reconhecimento pela
MPP, um deles e o par de argininas R
14
e R
15
que se encontram na posi cao proximal e a
outra e a R
7
que esta na posi cao distal. Para determinar o papel dos resduos de argininas
no reconhecimento pela MPP, tres resduos de argininas nas posi coes 7, 14 e 15 em MDH1-21
foram sistematicamente substitudos por resduos de alaninas e lisinas, Tabela 6.2. Observe
que nos peptdeos MDHKR, MDHRK e MDHKK ocorreram substitui coes de um resduo de
arginina na posi cao 14 por alanina.
Os resultados indicam que as substitui coes em MDHKK de dois resduos de argininas
por lisina nas posi coes 7 e 15 e a substitui cao em MDHRK do resduo de arginina por lisina
na posi cao 15 promoveram mudan cas mais drasticas nos parametros cineticos. Por outro
127
Peptdeo Sequencia V
max
/K
m
pmol/min
MDH1-21 MLSALARPVGAALRRS-FSTSA 12
MDHKR MLSALAKPVGAALARS-FSTSA 7.7
MDHRK MLSALARPVGAALAKS-FSTSA 0.46
MDHKK MLSALAKPVGAALAKS-FSTSA 0.23
Tabela 6.2: Efeitos das substitui coes dos resduos de argininas por alaninas e lisinas na
clivagem pela MPP.
lado, a substitui cao em MDHKR do resduo de arginina da posi cao 7 por lisina obteve menos
signicancia na rea cao de clivagem do que a substitui c ao do resduo de arginina por lisina
na posi cao 15. Resumindo, as substitui coes efetuadas nos peptdeos MDHRK e MDHKK
foram mais drasticas em termos dos parametros cineticos do que as substitui coes efetuadas
no peptdeo MDHKR.
6.1.2 Resultados das analises via codigos corretores de erro
Nesta subse cao, apresentamos uma aplica cao de codigos corretores de erros bastante
promissora para analises dos parametros cineticos. Na Subse cao 6.1.1, descrevemos o pro-
cedimento laboratorial realizado para analises dos parametros cineticos de oligopeptdeos
sinteticos. Com o objetivo de realizar estas analises atraves dos codigos corretores de erros,
primeiramente reproduzimos a sequencia de peptdeo (GI : 56643, organismo: Rattus norvegi-
cus) que e identica em aminoacidos ao oligopeptdeo sintetico utilizado via laboratorio. A
reprodu cao desta sequencia ocorreu atraves do codigo G-linear sobre a estrutura de anel com
parametros (63, 57, 3), polinomio primitivo p(x) = x
6
+x
5
+x
4
+x + 1 e polinomio gerador
g(x) = x
6
+x
5
+x
4
+ 2x
2
+ 3x + 1. A reprodu cao foi possvel atraves dos tres rotulamentos
A, B e C (codigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear, respectivamente), Figura 6.1.
Note que a diferen ca de nucleotdeos (CGC CGA) ocorrida no resduo de arginina
da posi cao 15 na sequencia reproduzida pelo rotulamento C, nao implicou na troca de
aminoacidos. As sequencias reproduzidas pelo codigo nos rotulamentos A e B sofreram
altera coes de aminoacidos. Por este motivo, escolhemos a sequencia reproduzida pelo codigo
no rotulamento C, que denotamos por MDH1-21
, para realizarmos as analises. Em seguida,

efetuamos todas as substitui coes realizadas em [63] na sequencia MDH1-21
que e identica
a sequencia MDH1-21 em termos de aminoacidos. Ressaltamos que o codigo foi construdo
utilizando o alfabeto 4-ario, o qual representa os quatro nucleotdeos, portanto para cada
substitui cao de aminoacido consideramos todas as trincas relativas a este aminoacido. Como
mostra a Tabela 6.3, efetuamos todas as substitui coes de aminoacidos realizadas in vitro.
128
Caso1(A,C,G,T)=(0,1,2,3)-RotulamentoB
Caso2(A,C,G,T)=(0,1,3,2)-RotulamentoA
Caso3(A,C,G,T)=(0,2,1,3)-RotulamentoC
Oaa:MLSLARPVGAALRRSFSTSA
Ont:ATGCTGTCCGTCTCGCCCGTCCTGTCGGTGCCGCTCTCCGCCGCAGCTTCAGCACTTCAGCC
Olb:03213231123131211123113231223211213131121121021331021013310211
Glb:03213231123131211123113231223211213131121121021331021013310211
Gnt:ATGCTGTCCGTCTCGCCCGTCCTGTCGGTGCCGCTCTCCGCCGCAGCTTCAGCACTTCAGCC
Gaa:MLSLARPVGAALRRSFSTSA
Oaa:MLSALARPVGAARRSFSTSA
Ont:ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCCCGCCGCAGCTTCAGCACTTCAGCC
Olb:02312321131212131113211232133231131211131131031221031012210311
Glb:02312321131212131113211232133231131211131131031221031012210311
Gnt:ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCCCGCCGCAGCTTCAGCACTTCAGCC
Gaa:MLSALARPVGAARRSFSTSA
Oaa:MLSALARPVGAALRSFSTSA
Ont:ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCCGCCGAGCTTCAGCACTTCAGCC
Olb:03123132212323212221322313211312212323221221012332012023320122
Glb:03123132212323212221322313211312212323221221012332012023320122
Gnt:ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCCGCCGAGCTTCAGCACTTCAGCC
Gaa:MLSALARPVGAALRSFSTSA
A
C
1
3
T
V
L
T
2
0
A
H
R
C
2
0
A
R
Figura 6.1: Peptdeo reproduzido nos tres rotulamentos.
Observe que nos peptdeos MDHKR, MDHRK e MDHKK ocorreram substitui coes de um
resduo de arginina na posi cao 14 por alanina. Consideramos nesta posi cao, todas as possi-
bilidades de trincas do resduo de alanina.
A sequencia da Tabela 6.3 que se encontra na cor azul, foi a unica sequencia da tabela
reproduzida pelo codigo BCH. A Figura 6.2 mostra a sequencia reproduzida pelo codigo
Z
2
Z
2
-linear.
Caso1-(A,C,G,T)=(0,1,2,3)-RotulamentoB
Oaa:MLSALAKPVGALARSFSTSA
Ont:ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCCTCGCGCGAAGCTTCAGCACTTCAGCC
Olb:03213231121313121100011323122321121131212120021331021013310211
Glb:03213231121313121100011323122321121131212120021331021013310211
Gnt:ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCCTCGCGCGAAGCTTCAGCACTTCAGCC
Gaa:MLSALAKPVGALARSFSTSA
A
T
3
2
G
A
Figura 6.2: Sequencia reproduzida pelo codigo BCH.
Os resultados indicam que as substitui coes em MDHKK de dois resduos de argininas por
lisina nas posi coes 7 e 15 e a substitui cao em MDHRK do resduo de arginina por lisina na
posi cao 15 nao foram reproduzidas pelo codigo. Por outro lado, a substitui cao em MDHKR
do resduo de arginina da posi cao 7 por lisina foi reproduzida pelo codigo utilizando as
trincas: (AAA) para lisina na posi cao 7, (GCG) para alanina na posi cao 14 e (CGA) para
arginina na posi cao 15 (Figura 6.2). Estes resultados indicam que as substitui coes efetuadas
nos peptdeos MDHRK e MDHKK foram mais drasticas do que as substitui coes efetuadas no
peptdeo MDHKR, pois as substitui coes em MDHRK e MDHKK n ao foram reproduzidas pelo
codigo enquanto que uma das substitui coes em MDHKR foi reproduzida pelo rotulamento
129
Sequncia MDH1-21* em nucleotdeos
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCCGCCGAAGCTTCAGCACTTCAGCC
Sequncia MDHKR em nucleotdeos
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCACGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCACGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCCCGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCCCGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCGCGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCGCGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCTCGAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCTCGAAGCTTCAGCACTTCAGCC
Sequncia MDHRK em nucleotdeos
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCAAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCAAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCCAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCCAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCGAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCGAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCTAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCCGTCCTGTCGGTGCCGCTCTCGCTAAGAGCTTCAGCACTTCAGCC
Sequncia MDHKK em nucleotdeos
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCAAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCAAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCAAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCAAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCCAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCCAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCCAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCCAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCGAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCGAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCGAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCGAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCTAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCTAAAAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAACCTGTCGGTGCCGCTCTCGCTAAGAGCTTCAGCACTTCAGCC
ATGCTGTCCGCTCTCGCCAAGCCTGTCGGTGCCGCTCTCGCTAAGAGCTTCAGCACTTCAGCC
Tabela 6.3: Efeitos das substitui coes dos resduos de argininas por alaninas e lisinas na
clivagem pela MPP atraves de codigos corretores de erros.
B.
Os resultados encontrados sao interessantes considerando o fato que os resultados dos
parametros cineticos podem ser reproduzidos atraves de codigos corretores de erros.
6.2 Estudo de Filogenia
O estudo logenetico apresentado nesta se cao, surgiu atraves dos resultados obtidos no
Captulo 4 onde observa-se que sempre existe uma diferen ca de nucleotdeo entre a sequencia
reproduzida pelo codigo e a sequencia do NCBI. No contexto biologico, esse descasamento
(mismatch) e conhecido como polimorsmo de unico nucleotdeo (SNPs - single nucleotide
130
polymorphism). Diante deste fato, conjecturamos que as sequencias do NCBI sao SNPs das
sequencias reproduzidas pelos codigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear, ou vice-versa.
Para realizar o estudo logenetico apresentamos uma hipotese logenetica para as protenas
Malato desidrogenase 1 de Arabidopsis thaliana reproduzida pelo codigo Klein-linear com
parametros (1023, 1013, 3) atraves do polinomio primitivo p(x) = x
10
+ x
9
+ x
8
+ x
7
+ x
6
+
x
4
+ x
3
+ x + 1, do polinomio gerador g(x) = x
10
+ x
9
+ x
8
+ 3x
7
+ x
6
+ x
4
+ x
3
+ 3x + 1
e rotulamento C. Em [64], ate onde e de nosso conhecimento, e apresentada pela primeira
vez a reprodu cao de uma protena inteira atraves do codigo Klein-linear resultando em uma
extensao dos resultados apresentados neste trabalho.
O objetivo deste estudo logenetico e propor uma hipotese evolutiva para as protenas
Malato desidrogenase 1 identicando o tempo de divergencia entre a protena original e a
protena gerada pelo codigo. Este estudo foi realizado em parceria com o Laboratorio de
Biologia Molecular de Plantas da ESALQ/USP, sob a responsabilidade do Dr. Marcelo M.
Brandao.
A hipotese logenetica foi proposta baseada em duas abordagens distintas. A primeira,
utilizou o metodo Neighbor-Joining para calculo da dist ancia evolutiva baseando-se no modelo
de Jukes-Cantor. A consistencia dos clados, grupos de organismos originados de um unico
ancestral comum, foi calculada utilizando-se o teste nao parametrico de bootstrap [65] com
1000 replica coes. Todas estas analises foram realizadas utilizando-se o programa MEGA 4.0
[66]. As analises das distancias indicam que todas as sequencias de Arabidopsis thaliana sao
monoleticas, grupos de taxons que incluem todos os descendentes do ancestral comum mais
recente de todos membros deste grupo, com forte suporte bootstrap.
Uma analise mais profunda do ramo onde as sequencias de Arabidopsis thaliana foram
agrupadas, indica que a sequencia gerada pelo codigo Klein-linear representado por Code
generated (890C-T)na Figura 6.3 se apresenta como um grupo externo a este ramo.
A segunda abordagem foi a analise Bayesiana. Esta foi empregada para se investigar
os efeitos nos resultados da analise dos dados sob presun coes mais restritas, uma vez que
emprega modelos de substitui cao particulares para as an alises logeneticas. Outra vantagem
da analise logenetica com o metodo Bayesiano e que este permite que os parametros de
frequencia e de substitui cao de nucleotdeos sejam especcos para cada conjunto de dados.
O primeiro passo para a realiza cao da analise logenetica foi a determina cao de um modelo
de substitui cao que melhor se enquadrava aos nossos dados. Para isso utilizamos o programa
MODELTEST 3.06[67] e [68] com os parametros padrao do software. O modelo indicado
foi o GTR + G + I (General Time-Reversible model [69] e [70], com a distribui cao gamma
(G) e com a propor cao de stios invariaveis (I).
A proposi cao logenetica por metodos Bayesianos foi realizada utilizando-se o programa
131
Figura 6.3: Phenogram inferred using the Neighbor-Joining method with the evolutionary
distances computed using the Jukes-Cantor model. The percentage of replicate trees in which
the associated taxa clustered together in the bootstrap test (1000 replicates).
Mrbayes CVS[71] congurado para computa cao paralela. Seis cadeias simultaneas foram
conduzidas para 5, 0x106 gera coes, com amostragem de arvores a cada 500 ciclos. As
primeiras 2500 arvores foram descartadas como burn in. Para todas as analises, a protena
hipotetica PH-1 Gibberella zeae (parcial da sequencia do RNA mensageiro) foi usada como
um grupo externo. Novamente, as sequencias de Arabidopsis thaliana formam um grupo
monoletico enraizado com forte suporte pela sequencia gerada atraves do codigo Klein-
linear representada por Code generated (890C-T)na Figura 6.4.
As analises combinadas do fenograma e da arvore logenetica apontam que, a substitui cao
de um simples nucleotdeo presente na sequencia gerada pelo algoritmo e relevante o suciente
para divergi-lo do ramo dos paralogos de Arabidopsis thaliana. Para propor este tempo de
divergencia utilizamos o tempo de divergencia entre fungos e plantas [72], musgos e plantas
vasculares [72] e [73] e entre as eudicotes rosdeas e asterdeas [74] foi utilizado para estimar
os tempos de divergencia para o grupo de Arabidopsis thaliana.
Uma logenia, ao nvel de especies, foi gerada utilizando-se o modelo Bayesiano de relogio
nao restrito e nao relacionado presente no programa Beast version 1.4.8 [75]. A matriz de da-
132
Figura 6.4: Phylogenetic tree inferred by Bayesian analysis from the data set. Values close
to the branches indicate Bayesian posterior probability..
dos moleculares (alinhamento das sequencias) usada segue o modelo de substitui cao GTR+F,
implementado no BEAST. Duas analises de MCMC (Markov chain Monte Carlo) foram rea-
lizadas com 90.000.000 de gera coes, usando o modelo de especia cao de Yule, com amostragem
das arvores a cada 10.000 gera coes e 10% de burn-in inicial. Esta analise demonstrou que
o ramo com a sequencia gerada pelo codigo e, aproximadamente, um milhao de anos mais
antiga do que o ramo dos outros paralogos de Malato desidrogenase de Arabidopsis thaliana.
O estudo infere que a protena gerada pelo codigo e a ancestral da protena encontrada
no banco de dados NCBI. Neste caso o resultado conrma a nossa hipotese inicial de que as
sequencias do NCBI sao SNPs das sequencias reproduzidas pelos codigos Z
4
-linear, Z
2
Z
2
-
linear e Klein-linear.
6.3 Simula coes de Muta coes em Sequencias de Dire-
cionamento Mitocondriais
A maioria das protenas precursoras mitocondriais carregam a sequencia de direciona-
mento na extensao N-terminal. Estas sequencias de direcionamento nao sao extremamente
conservadas entre as protenas, mas possuem algumas caractersticas comuns, por exemplo o
133
alto conte udo dos resduos de serina, arginina, alanina e leucina [76]. Estes resduos repre-
sentam um papel importante na importa cao de protenas mitocondriais atraves da intera cao
com as chaperonas citosolicas e mitocondriais. A dele cao parcial da sequencia ou analises
de muta coes mostram que a sua parte N-terminal contem informa cao necessaria para o reco-
nhecimento e a importa cao das protenas precursoras, enquanto que a sua parte C-terminal
contem sinais para a peptidase de processamento mitocondrial [76].
Embora a importancia destes resduos (em especial a arginina que e mais estudada) seja
bem conhecida no contexto biologico [77], o nosso objetivo e fornecer uma caracteriza cao
matematica no contexto de codigos corretores de erros para a importancia dos resduos de
argininas. Nesta se cao apresentamos as simula coes de muta coes nos resduos de argininas
nas sequencias de direcionamento mitocondriais SD01, SD02, SD08, SD13 e SD17 que foram
reproduzidas pelos codigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear com parametros (63, 57, 3).
As muta coes denem-se pela codica cao de um aminoacido diferente do aminoacido ori-
ginal/normal, em alguns casos a muta cao pode ocorrer silenciosamente (quando a troca de
nucleotdeos nao acarreta na troca do aminoacido). Os efeitos fenotpicos sao em princpio
tanto mais drasticos quanto maior for a diferen ca na natureza qumica das cadeias laterais
dos resduos dos aminoacidos em causa (por exemplo a substitui cao de um resduo polar
por um apolar, ou a inversao da carga eletrica do resduo), mas tambem dependem alta-
mente do papel que esse resduo desempenha na estrutura e fun cao da sequencia de DNA
em questao. Mesmo as chamadas substitui coes conservadoras (entre resduos quimicamente
semelhantes, por exemplo leucina, L, e isoleucina, I), se incidirem numa posi cao sensvelda
sequencia de DNA podem resultar na inativa cao desta sequencia, ou numa atividade anor-
mal da mesma. Diante desta complexidade nas analises dos resultados das simula coes de
muta coes nao levaremos em considera cao se as trocas de aminoacidos ocorreram dentro da
mesma classe hidrofobica ou hidroflica.
Os resultados das simula coes de muta coes nas sequencias de direcionamento mitocondriais
mostrados nas Tabelas 6.4 à 6.8 foram analisados considerando as altera coes de nucleotdeos
pelo fato do alfabeto do codigo ser os nucleotdeos e os seguintes aspectos matematicos:
O codigo com o objetivo de manter a mesma estrutura matematica e o mesmo conte udo
de informa cao da sequencia de direcionamento mostra qual substitui cao de aminoacido
e possvel ou nao. Os resultados apresentaram tres situa coes. A primeira e quando
a substitui cao nao e permitida de maneira alguma, ou seja, o codigo mostra que nao
existe nenhuma palavra-codigo quando e realizada a susbtitui cao do aminoacido em
questao. Esta situa cao e a mais drastica porque o codigo indica que esta substitui cao
causa danos no conte udo de informa cao da sequencia. A segunda situa cao e quando o
codigo indica que a substitui cao do aminoacido e possvel atraves de um rearranjo nos
134
aminoacidos da sequencia. O codigo alem de mostrar a posi cao do aminoacido a ser
trocado, indica pelo qual aminoacido (mais especicamente pela qual trinca) que deve
ser trocado para que o conte udo de informa cao da sequencia seja mantido. A terceira
situa cao e quando o codigo aceita a substitui cao sem alterar nenhum aminoacido na
sequencia, ou seja, o codigo indica que esta substitui c ao nao causa danos no conte udo
de informa cao da sequencia.
Levando em considera cao a propriedade geometrica intrnsica relacionada com os ro-
tulamentos, teoricamente podemos sugerir que as substitui coes de aminoacidos que
exigem mudan cas de rotulamento sao mais drasticas. Em um nvel maior a mudan ca
do rotulamento A para um rotulamento B ou C (ou vice-versa) e mais drastica do que
uma mudan ca do rotulamento B para C ou vice-versa. Do ponto de vista matematico,
a mudan ca de uma sequencia nao-linear (rotulamento A) para uma sequencia linear
(rotulamento B e C) ou vice-versa e complexa. Neste momento nao podemos concluir
se esta mudan ca na conforma cao geometrica acarreta em algum benefcio ou dano na
importa cao desta sequencia.
Na Tabela 6.4 realizamos as substitui coes dos resduos de argininas na sequencia de dire-
cionamento do organismo Brassica napus reproduzida pelo codigo Z
4
-linear (rotulamento A).
Observe que a sequencia possui quatro resduos de argininas nas posi coes 2, 7, 18 e 19 desta-
cados na cor vermelha. Cada um dos quatro resduos de argininas (R) foram substitudos
por resduos de acido aspartico (D), acido glutamico (E), lisina (K), histidina (H) e alanina
(A). De acordo com as colunas da tabela apresentada na Figura 6.4, consideramos todas as
trincas relativas aos aminoacidos citados anteriormente. Na primeira coluna da tabela temos
as seguintes informa coes: R= a quantidade de resduos de argininas na sequencia e P(T)=
posi cao da arginina na sequencia e a sua respectiva trinca. Sendo assim, podemos inter-
pretar (1
a
R, 2
o
aa, AGA) como o primeiro resduo de arginina que corresponde ao segundo
aminoacido da sequencia de direcionamento, cuja trinca correspondente e (AGA).
Na substitui cao do primeiro resduo de arginina que possui a trinca (AGA) correspon-
dente ao segundo aminoacido da sequencia podemos observar que so algumas substitui coes
foram aceitas pelo codigo: (D) com a trinca (GAC) e (A) com as trincas (GCT)-(GCG).
Observe que a substitui cao por lisina (quarta coluna da tabela) nao foi aceita pelo codigo. A
importancia do resduo de arginina nesta posi cao e evidenciada pelo codigo que indica que
o aminoacido (K) com a trinca (AAA) deve ser alterado pelo aminoacido (R) com a trinca
(AGA) nesta posi cao. Isto e, o codigo conrma que caso ocorra esta substitui cao tanto a
estrutura matematica quanto o conte udo de informa cao da sequencia podem ser comprometi-
dos.
135
R D E K H A
P (T) GAC GAT GAA GAG AAA AAG CAT CAC GCT GCC GCA GCG
1 R
2 aa
(AGA)
(B)-15
S
TCG
TCT
S
- - -
(A)-2
K
AAA
AGA
R
- - -
(C)-3
S
TCC
ACC
T
- -
(A)-7
R
CGA
CAA
Q
2 R
7 aa
(CGA)
- - - - -
(C)-15
S
TCG
TAG
sto
(C)-6
V
GTC
GGC
G
-
(A)-1
F
TTC
ATC
I
-
(A)-9
S
TCC
TCG
S
-
3 R
18 aa
(CGC)
- - - - -
- - (A)-18
H
CAC
CGC
R
-
(A)-20
S
AGC
AGG
R
-
(A)-12
A
GCG
CCG
P
4 R
19 aa
(CGC)
- - -
(B)-12
A
GCG
TCG
S
- - - - -
(A)-21
F
TTT
TTA
L
-
(A)-13
K
AAG
TAG
sto
Tabela 6.4: Resultados das substitui coes dos resduos de argininas.
Na segunda coluna da tabela mostramos que a substitui cao da trinca (GAC) do acido
aspartico (D) na segunda posi cao da sequencia foi aceita pelo codigo. Observe que (B)
15 indica que o rotulamento foi trocado de A para B e que na posi cao 15 da sequencia
de direcionamento ocorreu uma altera cao na trinca do aminoacido S de (TCG TCT).
Inferimos que o codigo com o objetivo de manter a mesma estrutura matematica e o mesmo
conte udo de informa cao da sequencia, indica que esta substitui cao e possvel somente quando
ocorrer um rearranjo nos nucleotdeos que representam o aminoacido da posi cao 15.
Em rela cao a mudan ca do rotulamento, do ponto de vista matematico inferimos que a
conforma cao geometrica foi alterada para que se mantenha o mesmo conte udo de informa cao
na sequencia. Do ponto de vista biologico, neste momento nao podemos concluir se esta
mudan ca na conforma cao geometrica acarreta em algum benefcio ou dano na importa cao
desta sequencia. Por tratar-se de resultados que nao constam anteriormente na literatura nao
temos parametros de compara cao para analisarmos os resultados do ponto de vista biologico.
Ressaltamos que somente atraves de testes laboratoriais poderemos interpretar e compreender
melhor o que o modelo matematico descreve.
No caso da substitui cao do primeiro resduo de arginina por alanina (sexta coluna da
tabela) o codigo foi capaz de reproduzir duas sequencias relacionadas as trincas (GCT) e
(GCG). Para a trinca (GCT) a substitui cao e possvel somente se o terceiro aminoacido for
136
trocado de S(TCC) T(ACC), como consequencia desta substitui cao temos a mudan ca
do rotulamento A para o rotulamento C. No caso da trinca (GCG) a substitui cao e possvel
somente trocando o setimo aminoacido R (CGA) por Q (CAA), neste caso nao ocorre a
mudan ca de rotulamento. Conclumos que a substitui cao pela trinca (GCT) e mais drastica
do que a substitui cao pela trinca (GCG), pela necessidade de trocar de rotulamento.
De uma forma bem geral podemos relatar as analises dos resultados das simula coes da
seguinte forma:
1. Analises dos resultados das simulacoes da B. napus, Tabela 6.4:
1.1) Muta coes por (D) e (E): As substitui coes relativas às posi coes 7 e 18 da sequencia
(2
a
R e 3
a
R) nao foram aceitas pelo codigo, consideramos estas substitui coes as mais
drasticas. Enquanto que as substitui coes nas posi coes 2 e 19 (1
a
R e 4
a
R) foram aceitas
pelo codigo com a mudan ca do rotulamento A para B e com um rearranjo nos nu-
cleotdeos da posi cao 15 e 12, respectivamente. Observe que a substitui cao na posi cao
2 nao exige a troca de aminoacidos, por este motivo consideramos esta substitui cao
menos drastica que a substitui cao da posi cao 12 que exige a troca de aminoacido
A(GCG) S(TCG).
1.2) Muta coes por (K) e (H): As substitui coes na posi cao 2 (2
a
R) foram aceitas pelo
codigo atraves da mudan ca de rotulamento A para C. A substitui cao por (K) e mais
drastica que por (H) nesta posi cao, pelo fato do codigo ter inserido um codon de
parada (TAG) na posi cao 15 da sequencia S(TCG) sto(TAG). As substitui coes
nas posi coes 2 e 18 evidenciam a importancia do resduo de argina nesta posi cao.
Observe que o codigo indica que nesta posi cao e necessario o aminoacido (R) para que o
conte udo de informa cao da sequencia seja preservado. Conclumos que as substitui coes
nas posi coes 2, 18 e 19 sao mais drasticas que a substiui cao da posi cao 7. Nestes casos
nenhum rearranjo dos nucleotdeos foi possvel para manter a estrutura matematica da
sequencia.
1.3) Muta coes por (A): As substitui coes nas posi coes 7, 18 e 19 nao exigiram a troca
de rotulamento, enquanto que na posi cao 2 a troca pela trinca (GCT) exige a mudan ca
do rotulamento A por C. Deste modo, conclumos que as substitui coes mais drastica
se encontram na posi cao 2 (GCT) pela troca de rotulamento e na posi cao 19 (GCG)
pela inser cao de um codon de parada. A substitui cao mais simples, do ponto de vista
matematico, e a substitui cao da posi cao 7 (GCA), S(TCC) S(TCG), porque nao
foi necessario nem a troca de rotulamento e nem a troca de aminoacido para manter a
estrutura matematica da sequencia.
2. Analises dos resultados das simulacoes da I. batatas, Tabela 6.5:
137
R D E K H A
1 R
3 aa
(AGG)
(C)-6
S
TCT
ACT
T
(A)-6
S
TCT
CCT
P
(B)-18
R
CGT
TGT
C
(B)-5
S
TCT
TCC
S
(B)-6
S
TCT
CCT
P
(B)-3
K
AAG
AGG
R
(B)-8
F
TTC
TGC
C
- -
(A)-4
H
CAC
CAG
Q
(C)-6
S
TCT
CCT
P
(A)-21
F
TTC
TAC
Y
2 R
7 aa
(CGA)
(B)-12
A
GCC
GAC
D
- - - - - - -
(A)-3
R
AGG
CGG
R
- - -
3 R
11 aa
(CGC)
- - - -
(B)-16
G
GGG
GTG
V
-
(B)-14
T
ACA
GCA
A
(B)-11
H
CAC
CGC
R
- - -
(C)-17
W
TGG
TAG
sto
4 R
18 aa
(CGT)
- -
(B)-2
F
TTC
TGC
C
(A)-15
M
ATG
GTG
V
-
(B)-2
F
TTC
TAC
Y
(B)-18
H
CAT
CGT
R
(B)-21
F
TTC
CTC
L
- - - -
5 R
19 aa
(CGC)
- - - -
(B)-3
R
AGG
ATG
M
-
(B)-1
M
ATG
GTG
V
(B)-19
H
CAC
CGC
R
- - - -
2.1) Muta coes por (D) e (E): As substitui coes mais drasticas se encontram nas posi coes
11 e 19, pois o codigo nao foi capaz de encontrar nehuma palavra-codigo que mantenha
a estrutura matematica com esta substui cao. Na posi cao 3 as substitui coes por (E)
sao menos drasticas que as substitui coes por (D), pelo fato de nao exigirem a troca de
rotulamento. Observe a troca por (E) com a trinca (GAG) nesta posi cao e a mais sim-
ples, pois nao exige nenhuma troca de aminoacido para manter a estrutura matematica
da sequencia. Outro ponto a ser observado nesta posi cao e a troca por (D), neste caso
inferimos que a troca pela trinca (GAC) e menos danosa do que a troca pela trinca
(GAT). Do ponto de vista matematico, a troca de um rotulamento B por C e menos
complexa do que a troca de um rotulamento B por A. Na posi cao 7 da sequencia a
substitui cao por (E) e mais drastica que por (D). Neste caso apenas um rearranjo dos
aminoacidos da posi cao 12 A(GCC) D(GAC) e necessario para garantir o conte udo
da informa cao da sequencia. As substitui coes na posi cao 18 apresenta ser mais drastica
na troca por (D) do que por (E). No caso da troca por (E) nesta posi cao, o codigo
mostra preferencia pela trinca (GAA) por nao necessitar da troca de rotulamento.
2.2) Muta coes por (K) e (H): As substitui coes na posi cao sao as mais drasticas, pois
o codigo nao aceita nenhum rearranjo do rotulamento ou dos aminoacidos. As subs-
titui coes nas posi coes 3, 11, 18 e 19 podem ser consideradas menos drasticas por nao
138
R D E K H A
1 R
6 aa
(AGA)
(C)-3
E
GAA
CAA
Q
-
(B)-4
I
ATT
ACT
T
(B)-19
K
AAA
GAA]
E
(B)-6
K
AAA
AGA
R
(C)-4
I
ATT
ATC
I
-
(B)-2
Q
CAA
CAT
H
- - - -
2 R
12 aa
(AGA)
- -
(B)-10
L
TTA
TCA
S
(B)-4
I
ATT
GTT
V
(B)-12
K
AAA]
AGA
R
(B)-10
L
TTA
TTG
L
-
(B)-8
F
TTC
TTA
L
- - - -
mudarem de rotulamento. Porem as substitui coes na posi cao 3 por (K) pela trinca
(AAG), a posi cao 11 por (H) pela trinca (CAC), a posi cao 18 por (H) pela trinca (CAT)
e a posi cao 19 por (H) pela trinca (CAC) mostram a importancia do resduo de arginina
nesta posi cao para garantir o conte udo de informa cao da sequencia. Ressaltamos que
neste momento nao estamos considerando as trocas de amino acidos que ocorreram
dentro da mesma classe, conforme mencionamos anteriormente este tipo de analise
torna-se complexo por depender de varios aspectos.
2.3) Muta coes por (A): Nas posi coes 18 e 19 as substitui coes sao mais drasticas. Na
substitui cao da posi cao 11 ocorre a inser cao de um codon de parada (TAG) na posi cao
17 da sequencia e a troca do rotulamento B por C. Do ponto de vista matematico esta
troca de rotulamento nao e drastica e sobre a inser cao de um codon de parada nesta
posi cao podemos inferir que pode acarretar danos ao mecanismo de importa cao se os
aminoacidos seguintes (R R P F) forem essenciais para a importa cao. Neste caso uma
analise laboratorial e essencial para analisar se a sequencia montada somente com os
16 primeiros aminoacidos e suciente ou nao para realizar a importa cao da protena. A
substitui cao da posi cao 7 exige somente a troca de rotulamento, porem neste momento
nao podemos inferir se esta troca sera prejudicial ao mecanismo de importa cao. Na
posi cao 3 as substitui coes relativas às trincas (GCC) e (GCG) sao mais drasticas do
que a substitui cao pela trinca (GCA), pois a troca do rotulamento B por A e mais
complexa do que a troca do rotulamento B por C.
3. Analises dos resultados das simulacoes da S. cerevisiae, Tabela 6.6:
139
R D E K H A
1 R
2 aa
(AGA)
- -
(B)-10
A
GCC
GTC
V
(A)-3
S
TCT
TAT
Y
(B)-
12
A
GCG
ACG
T
(B)-2
K
AAA
AGA
R
(B)-10
A
GCC
GCT
A
-
(B)-18
R
CGC
CGA
R
- -
(C)-19
R
CGT
CCT
P
-
2 R
7 aa
(CGA)
(B)-2
R
AGA
AGT
S
- - -
(C)-4
M
ATG
ACG
T
- - - - - - -
3 R
18 aa
(CGC)
- - -
(B)-13
N
AAT
AAG
K
(B)-13
N
AAT
AAA
K
-
(B)-5
L
CTC
CTT
L
(B)-18
H
CAC
CGC
R
- - - -
4 R
19 aa
(CGT)
- -
(B)-14
Q
CAG
CAC
H
(A)-18
R
CGC
TGC
C
-
(B)-14
Q
CAG
CAT
H
(B)-19
H
CAT
CGT
R
(B)-6
V
GTC
CTT
V
(C)-
18
R
CGC
GGC
G
- -
(C)-15
A
GCG
GGG
G
-
3.1) Muta coes por (D) e (E): As substitui coes na posi cao 6 e 12 por (D) sao drastica,
enquanto que as substitui coes por (E) exigem um rearranjo dos aminoacidos. Por exem-
plo, na posi cao 12 para trinca (GAA) o codigo indica uma troca dos aminoacidos na
posi cao 10 L(TTA) S(TCA) e para a trinca (GAG) o codigo aponta uma troca nos
aminoacidos da posi cao 4 I(ATT) V (GTT).
3.2) Muta coes por (K) e (H): Nas posi coes 6 e 12 por (K) com a trinca (AAA) o codigo
aponta a importancia da arginina nestas posi coes. Na substitui cao da posi cao 6 por
(K) pela trinca (AAG) o codigo exige apenas a troca de rotulamento enquanto que pela
troca por (H) pela trinca (CAC) o codigo exige apenas um rearranjo dos aminoacidos
na posi cao 2 Q(CAA) H(CAT), inferimos que a troca de rotulamento e mais danosa
que um simples rearranjo dos aminoacidos. Na posi cao 12 a substitui cao mais simples
ocorreu na troca por (K) pela trinca (AAG), observe que o codigo aceita a troca sem
a mudan ca do rotulamento e sem rearranjos nos aminoacidos.
3.3) Muta coes por (A): As substitui coes por (A) sao as mais drasticas, porque o codigo
nao consegue encontrar nenhuma palavra-codigo, dentro da capacidade de corre cao do
codigo, com esta substitui cao que preserve o conte udo de informa cao da sequencia.
4. Analises dos resultados das simulacoes da A. thaliana, Tabela 6.7:
140
4.1) Muta coes por (D) e (E): Na posi cao 2 a troca por (D) e drastica enquanto que
a troca por (E) e possvel realizando um rearranjo nos aminoacidos. Observe que no
caso da troca por (E) com a trinca (GAG) o codigo aceitou a substitui cao em dois
rotulamentos ao mesmo tempo (A)-3 e (B)-12, matematicamente inferimos que a troca
de rotulamento e mais prejudicial ao sistema de importa c ao. Nas posi coes 7 e 18 temos
que a troca por (D) e por (E) sao as mais drasticas, respectivamente. Na posi cao
19 as substitui coes por (E) sao menos drasticas que por (D). A substitui cao com a
trinca (GAG) e mais drastica do que com a trinca (GAA) por necessitar da troca de
rotulamento B por A.
4.2) Muta coes por (K) e (H): A posi cao 7 foi a que menos aceitou as substitui coes
por (K) e (H). Nas demais posi coes as substitui coes foram aceitas sem a mudan ca do
rotulamento. As trocas na posi cao 2 por (K) com a trinca (AAA), a posi cao 18 por
(H) com a trinca (CAC) e a posi cao 19 por (H) com a trinca (CAT) evidenciam a
necessidade do resduo de argina nesta posi cao. Outro ponto e a substitui cao por (H)
com a trinca (CAC) onde o codigo aceita a substitui cao em dois rotulamentos B e C,
inferimos que para o caso onde ocorreu a troca de rotulamwento B por C esta troca
nao seria prejudicial ao sistema de importa cao.
4.3) Muta coes por (A): As substitui coes nas posi coes 7 e 18 sao as mais drasticas. Nas
posi coes 2 e 19 a troca de (A) com a trinca (GCA) muda o rotulamento de B para C.
Do ponto de vista matematico esta troca nao e drastica.
5. Analises dos resultados das simulacoes da H. sapiens, Tabela 6.8:
5.1) Muta coes por (D) e (E): As substitui coes nas posi coes 7 e 13 sao as mais drasticas.
Nas posi coes 8 e 16 a troca por (E) e mais danosa do que a troca por (D). Nos dois
casos a troca por (D) exige a troca do rotulamento C por B, inferimos que esta troca
nao e drastica. Na posi cao 19 a troca por (E) exige a mudan ca do rotulamento C por
A, este caso a troca e mais drastica porque ocorre uma troca de sequencia linear para
uma sequencia nao-linear.
5.2) Muta coes por (K) e (H): As substitui coes por (H) com a trinca (CAT) na posi cao
19 e a trinca (CAC) nas posi coes 7, 8, 13 e 16 evidenciam a importancia do resduo
de arginina nestas posi coes. Na posi cao 16 a troca por (K) com a trinca (AAA) exige
somente a troca do rotulamento C por B, inferimos que esta troca nao e prejudicial ao
sistema de importa cao.
5.3) Muta coes por (A): Todas as substitui coes realizadas por alanina nao foram aceitas
pelo codigo. Inferimos que estas substitui coes nestas posi coes sao drasticas pera o
sistema de importa cao.
141
R D E K H A
1 R
7 aa
(CGC)
- - - - - - -
(C)-7
H
CAC
CGC
R
- - - -
2 R
8 aa
(CGC)
(B)-11
L
CTT
CGT
R
- - - - - -
(C)-8
H
CAC
CGC
R
- - - -
3 R
13 aa
(CGC)
- - - - - - -
(C)-13
H
CAC
CGC
R
- - - -
4 R
16 aa
(CGC)
(B)-15
V
GTC
GAC
D
- - -
(B)-8
R
CGC
CGG
R
- -
(C)-16
H
CAC
CGC
R
- - - -
5 R
19 aa
(CGT)
- -
(A)-2
P
CCC
CCT
P
- - -
(C)-19
H
CAT
CGT
R
- - - - -
Neste momento nao consideramos os aspectos qumicos, fsicos ou biologicos dos resulta-
dos. Ressaltamos que diversos aspectos podem ser explorados neste contexto de muta coes,
tais como: vericar que tipos de muta coes seriam mais danosas ao sistema, analisar as
muta coes de transi cao e transversao que ocorreram, analisar as posi coes mais protegidas
das sequencias, vericar quais aminoacidos poderiam ser substitudos em cada posi cao da
sequencia, etc. Diante das diversas possibilidades de interpreta coes uma intera cao entre os
resultados obtidos via codigos corretores de erros e as an alises laboratoriais destes resultados
e fundamental para uma melhor compreensao do modelo. Essa parceria entre engenharia,
matematica e biologia e necessaria para um avan co nas interpreta coes dos dados obtidos no
presente trabalho, bem como para renar o modelo acrescentando aspectos fsicos, qumicos
e biologicos de acordo com o interesse em questao.
142
Captulo 7
Conclusoes e Perspectivas Futuras
Um dos grandes desaos em teoria de codica cao genetica e descobrir uma estrutura de
codigos corretores de erros na estrutura do DNA. Este trabalho mostra a existencia de codigos
corretores de erros associados com as sequencias de DNA (sequencias de direcionamento)
e suas respectivas tas complementares atraves de seus polinomios primitivos/geradores e
seus polinomios recprocos. Estas sequencias sao identicadas como palavras-codigo de um
codigo G-linear sobre a extensao de um anel de Galois. Alem disso, usando os conceitos da
teoria de comunica cao propomos um modelo para o sistema de codica cao e decodica cao
do mecanismo de importa cao de protenas mitocondriais. Este modelo assemelha-se ao mais
eciente sistema de comunica cao digital.
O sistema de codica cao consiste de um mapeador (respons avel por transformar os nu-
cleotdeos (A, C, G, T) no alfabeto (0, 1, 2, 3) usado pelo codigo sobre a estrutura de anel);
um codicador (codigo BCH) e um modulador (codigo genetico). O mapeador e o codicador
de um codigo BCH formam o codicador de um codigo G-linear, uma importante classe dos
codigos geometricamente uniformes. O mapeamento entre a estrutura algebrica do codigo
BCH e o codigo genetico e vista como um mapeamento casado. Essa propriedade matematica
implica que a estrutura algebrica do codicador seja a mesma, a menos de um isomorsmo,
que a da constela cao de sinais, garantindo assim, a menor complexidade possvel do sistema.
O sistema de decodica cao baseia-se em uma analogia entre o processo de decodica cao
(Berlekamp-Massey para Aneis) utilizado em sistemas de comunica coes e o complexo TOM
que e um dos translocons responsaveis por reconhecer as protenas precursoras mitocondri-
ais. Este sistema que consiste de um demodulador e representado pelas protenas Tom 70
e Tom20 que formam o complexo receptor principal das protenas precursoras mitocondri-
ais. Tom22 interage com precursores contendo sequencias de direcionamento internas ou
no amino-terminal, enquanto que Tom20 reconhece especicamente pre-sequencias amino-
terminais. O decodicador e representado pelo poro geral de inser cao conhecido como o
143
Captulo 7. Conclusoes e Perspectivas Futuras
complexo GIP (GIP general insertion pore), enquanto que o receptor representa o subcom-
partimento mitocondrial para onde a protena esta sendo enviada.
O grande diferencial deste modelo esta na possibilidade de identicar uma estrutura
matematica bem denida nas sequencias de DNA reproduzidas pelo modelo. Enquanto que
os demais modelos utilizam um processo estatstico para analisar muta coes em sequencias de
DNA, o modelo do presente trabalho utiliza um processo determinstico para realizar estas
analises. Ate onde e de nosso conhecimento, no momento n ao existe um metodo matematico
que calcule deterministicamente as muta coes em sequencias de DNA, sejam elas atraves da
evolu cao biologica, in vitro evolution ou por manipula cao genetica.
7.1 Desenvolvimento do Trabalho
O Captulo 2 e introdutorio, nele apresentamos de forma sucinta alguns conceitos sobre os
topicos abordados neste trabalho referentes a importa c ao de protenas mitocondriais, a teoria
de codigos corretores de erros e a decodica cao de codigos corretores de erros. O objetivo
deste captulo e introduzir o leitor aos temas de carater interdisciplinar do presente trabalho.
As contribui coes deste trabalho encontram-se nos Captulos 3, 4, 5 e 6. No Captulo 3
propomos um modelo de comunica cao genetica para o no sistema de importa cao de protenas
organelares, mais especicamente, a importa cao de protenas mitocondriais. O modelo de-
talha a parte de codica cao das sequencias de direcionamento que sao responsaveis pelo
encaminhamento das protenas nas respectivas organelas, bem como a parte da decodica cao
destas sequencias. Este modelo destaca-se dos demais por fazer o uso de conceitos recente-
mente usados na teoria da comunica cao, tais como: codigos G-lineares, mapeamento casado,
codigos geometricamente uniformes, e principalmente, c odigos sobre aneis.
Nos Captulos 4 e 5 desenvolvemos uma rotina computacional responsavel pela codica cao
e decodica cao das sequencias de direcionamento, respectivamente. Estes algoritmos alem
de identicar uma estrutura de codigos corretores de erros nas sequencias de direcionamento,
permitem uma nova abordagem para a classica cao destas sequencias sob um ponto de vista
matematico. As sequencias de direcionamento que foram reproduzidas pelo codigo Z
4
-linear
(codigo BCH sobre anel e rotulamento A) sao classicadas como sequencias nao-lineares.
Enquanto, que as sequencias reproduzidas pelos codigos Z
2
Z
2
-linear e Klein-linear (codigos
BCH sobre anel rotulamento B e rotulamento C, respectivamente) sao classicadas como
sequencias lineares. Destas analises, direcionamos o estudo quanto ao entendimento das
muta coes e polimorsmos nas sequencias reproduzidas por codigos corretores de erros.
No Captulo 6 propomos uma interpreta cao das muta coes e polimorsmos ocorridos nas
sequencias de DNA, sob o ponto de vista de codigos corretores de erros, bem como uma
144
interpreta cao logenetica dos resultados obtidos no trabalho. Os resultados encontrados nas
aplica coes da Se cao 6.1 mostram que um procedimento sistematico utilizando codigos corre-
tores de erros pode ser usado para gerar e reproduzir sequencias de DNA com o objetivo de
analisar as substitui coes de nucleotdeo(s) ou de aminoacido(s) no interior destas sequencias
propiciando a realiza cao de analises de polimorsmo(s) ou muta cao(oes). O estudo de loge-
nia, Se cao 6.2, infere que a protena gerada pelo codigo e a ancestral da protena encontrada
no banco de dados NCBI. Este resultado mostra que o codigo foi capaz de gerar a protena que
existia a milhoes de anos atras e que a protena que e encontrada hoje nos bancos de dados
e um polimorsmo da protena gerada pelo codigo. Na Se c ao 6.3 mostramos que o modelo
pode ser usado para simular muta coes em sequencias de DNA (sequencias de direcionamento)
considerando os aspectos matematicos, podendo contribuir para uma melhor compreensao
dos mecanismos de importa cao e para uma redu cao de tempo e custos laboratoriais.
7.2 Contribui coes do Trabalho
Os resultados do presente trabalho contribuem para os campos da teoria da comunica cao
genetica e da teoria da codica cao genetica, bem como para o campo da bioinformatica
computacional biologica atraves da aplica cao dos princpios das teorias da codica cao e da
comunica cao ao estudo do mecanismo de importa cao de protenas mitocondriais e às analises
de muta coes em sequencias de direcionamento. Este trabalho contribui da seguinte forma:
O uso de conceitos modernos de sistemas de comunica coes para o sistema de comu-
nica cao biologico;
Desenvolvimento e verica cao de uma teoria de codica c ao, do ponto de vista do pro-
cesso de importa cao de protenas organelares;
Desenvolvimento e verica cao de uma teoria de decodica cao, do ponto de vista do
processo de importa cao de protenas mitocondriais;
Desenvolvimento de um modelo de comunica cao para o sistema de importa cao de
protenas mitocondriais;
Fortalecimento da hipotese de existencia de codigos concatenados na estrutura do DNA
(nested codes);
Constru cao e analises de sequencias de direcionamento reproduzidas por codigos corre-
tores de erros para a importa cao de protenas organelares;
145
Constru cao e analises do processo de decodica cao das sequencias de direcionamento
reproduzidas por codigos corretores de erros para a importa cao de protenas mitocon-
driais;
Classica cao das sequencias de direcionamento, sob o ponto de vista matematico:
sequencias nao-lineares (codigo Z
4
-linear), sequencias lineares (codigos Z
2
Z
2
-linear
e Klein-linear);
Identica cao de uma rela cao matematica entre as tas codantes e nao codantes atraves
dos seus polinomios primitivos/geradores e seus recprocos;
Compara cao das analises de muta coes em oligopeptdeos sinteticos via laboratorio e via
codigos corretores de erros;
Explora cao do uso do modelo de codica cao para investigar a rela cao logenetica entre
as sequencias reproduzidas pelos codigos e as sequencias do NCBI;
7.3 Propostas Futuras
Apresentamos nesta se cao algumas avalia coes acerca do trabalho desenvolvido e, decor-
rentes dessas, algumas sugestoes para pesquisas futuras.
A restri cao quanto ao estudo apenas de sequencias de direcionamento com comprimen-
tos iguais a 63 nucleotdeos no presente trabalho deve-se ao fato da complexidade do
assunto. Salientamos que e de grande interesse que os resultados apresentados neste
trabalho sejam generalizados para diversas sequencias biologicas com diversos compri-
mentos;
A capacidade de corre cao dos codigos que reproduziram as sequencias de direcionamento
e igual a d 3. Consideramos apenas os erros iguais a t = 1 neste trabalho. Pelo fato
destes codigos, atraves do seu arranjo padrao, serem capazes de corrigir alguns padroes
de 2 erros, consideramos de grande importancia a exibiliza cao destes codigos e uma
analise detalhada dos resultados desta exibiliza cao;
A constru cao de codigos sobre aneis mostrou-se muito promissora para a reprodu cao de
sequencias de DNA. Porem a constru cao de codigos sobre outras estruturas matematicas,
por exemplo sobre corpos, poderao contribuir para o desenvolvimento nesta area;
Estudo da prote cao desigual em rela cao aos nucleotdeos associados às sequencias de
DNA;
146
Estudo sobre as semelhan cas entre a topologia das estruturas primarias das sequencias
reproduzidas pelos codigos Z
4
-linear, Z
2
Z
2
-linear e Klein-linear e as estruturas se-
cundarias da alpha-helice, folha beta paralela e folha beta anti-paralela.
7.4 Considera coes Finais
Com a necessidade da redu cao de tempo e custos nos experimentos laboratoriais, o pre-
sente trabalho propoe uma abordagem matematica capaz de gerar e reproduzir sequencias de
DNA, atraves de codigos corretores de erros, conduzindo a uma metodologia para a realiza cao
de analises mutacionais/polimorsmos nestas sequencias. Como resultado, e com um apri-
moramento do modelo, poderao ser realizados estudos de predi cao de muta coes/polimorsmos
em sequencias de DNA, RNA e protenas, incluindo protenas completas e tambem sequencias
de direcionamento para organelas, protein motifs, peptdios hormonais, ntrons, DNA
repetitivo, ncRNA, etc), implicando em uma consideravel redu cao de experimentos labo-
ratoriais extensivos.
Este metodo pode ser aplicado em projetos e pesquisas com a nalidade de criar novas
fun coes para uma determinada sequencia de DNA atraves das muta coes segundo as neces-
sidades comerciais e cientcas. Alem disso, permite gerar muta coes com ganho de fun coes
para as protenas, como maior estabilidade, maior anidade por substrato, maior atividade
especca, etc. Ate onde e de nosso conhecimento, nao existe um metodo matematico que cal-
cule deterministicamente as muta coes em sequencias de DNA, sejam elas atraves da evolu cao
biologica, in vitro evolution ou por manipula cao genetica alem do metodo apresentado no
presente trabalho.
Outra aplica cao importante e utilizar esta abordagem matematica em estudos indivi-
duais e populacionais a m de vericar se a ocorrencia de muta coes/polimorsmos em genes
associados a doen cas em seres humanos, animais, plantas e microrganismos favorecem ou
predispoem ao desenvolvimento de doen cas. Esta metodologia podera ser utilizada como
um teste para diagnostico nos diferentes organismos a m de detectar em fases iniciais a
predisposi cao ou o diagnostico de doen cas.
147
Referencias Bibliogracas
[1] G. Battail, An Outline of Informational Genetics, Morgan & Claypool Publishers, 2008.
[2] Ramon Roman-Roldan, Pedro Bernaola-Galvan, and Jose L. Oliver, Application of
information theory to DNA sequence analysis: a review, Pattern Recognition, vol. 29,
no. 7, pp. 1187.1194, 1996.
[3] Elebeoba E. May, Comparative analysis of information based models for initiating protein
translation in Escherichia coli K-12, M.S. thesis, NCSU, Dezembro 1998.
[4] G. Battail, Does information theory explain biological evolution?, Europhysics Letters,
vol. 40, pp. 343-348, 1997.
[5] Alberts, Bruce; Johnson, Alexander; Lewis, Julian; Ra, Martin; Roberts, Keith; Wal-
ter, Peter New York and London, Molecular Biology of the Cell, Editora Artmed, 4
a
Edi cao, 2005.
[6] Lodish, Harvey; Berk, Arnold; Zipursky, S. Lawrence; Matsudaira, Paul; Baltimore,
David; Darnell, James E., Molecular Cell Biology, Editora 4th ed.
[7] Almeida, J. D., Origem, Evolu cao e Direcionamento da Protena THl1 Em Plantas, Tese
de Doutorado, ESALQ/USP 2004.
[8] Duby, G.; Boutry, M.; Mitochondrial protein import machinery and targeting informa-
tion, Plant Science, Vol. 162, no. 4, pp. 477-490, 2002.
[9] Truscott, K. N.; Brandner, K.; Pfanner, N.; Mechanisms of Protein Import into Mito-
chondria, Current Biology, vol. 13, pp. 326-337, 2003.
[10] Pfanner, N.; Wiedemann, N.; Meisinger, C.; Lithgow, T.; Assembling the Mitochondrial
Outer Membrane, Nature Structural & Molecular Biology, vol. 11, pp. 1044-1048, 2004.
[11] Dekker, P. J. T.; Ryan, M. T.; Brix, J.; M uller H.; Honlinger, A.; Pfanner, N.; Pre-
protein Translocase of the Outer Mitochondrial Membrane: Molecular Dissection and
149
Assembly of the General Import Pore Complex, Molecular and Cellular Biology, vol.
18, pp. 6515-6524, 1998.
[12] Van Wilpe, S.; Ryan, M. T.; Maarse, A. C.; Meisinger, C.; Brix, J.; Dekker, P. J.;
Moczko, M.; Wagner, R.; Meijer, M.; Guiard, B; Honlinger, A.; Pfanner, N., Tom 22
is a multifunctional organizer of the mitochondrial preprotein translocase, Nature, vol.
401, no. 6752, pp. 485-489, 1999.
[13] Mokranjac, D.; Neupert, W.; Protein import into mitochondria, Biochemical Society,
Vol. 33, pp. 1019-1023, 2005.
[14] Ryan, K. R.; Leung, R. S.;Jensen, R. E., Characterizacion of the mitochondrial inner
membrane translocase complex: the Tim23p hydrophobic domain interacts with Tim17
but not with other Tim23p molecules, Molecular and Cellular Biology, vol.18, no.1, pp.
178-187, 1998.
[15] Strub, A.; Lim, J. H.; Pfanner, N.; Voos, W., The mitochondrial protein import motor,
The Journal of Biological Chemistry, vol.381, no.9-10, pp. 943-949, 2000.
[16] Maxi Endres, M.; Neupert, W.; Brunner, M.; Transport of the ADP/ATP carrier of
mitochondria from the TOM complex to the TIM2254 complex, The EMBO Journal,
Vol.18, no.12, pp.3214-3221, 1999.
[17] Pfanner,N.; Neupert,W.; Distinct steps in the import of ADP/ ATP carrier into mito-
chondria, J. Biol. Chem., vol.262, pp. 7528-7536, 1987.
[18] Rocha, A. S. L. Modelo Matematico Para a Previsao de Recombina cao Stio-Especca
do DNA, Tese de Mestrado, UNICAMP, 2004.
[19] Freese, E.; The Dierence between Spontaneous and Base-Analogue Induced Mutations
of Phage T4, Proc. of PNAS, vol.45, pp. 622-633, 1959.
[20] Freese, E.; The Specic Mutagenic Eect of Base Analogues on Phage T4, Journal
Molecular Biology, vol.1, pp. 87-105, 1959.
[21] Sawyer, S. A.; Parsch J.; Zhang Z.; Hartl, D. L.; Prevalence of positive selection among
nearly neutral amino acid replacements in Drosophila, Proceedings of the National
Academy of Sciences U.S.A, vol.104, pp. 6504-6510, 2007.
[22] Ionov, Y.; Peinado, M. A.; Malkhosyan, S.; Shibata, D.; Perucho, M.; Ubiquitous
somatic mutations in simple repeated sequences reveal a new mechanism for colonic
carcinogenesis, Nature, vol.363, pp. 558-561, 1993.
150
[23] Galvani, A.; Slatkin, M.; Evaluating plague and smallpox as historical selective pres-
sures for the CCR5 32 HIV-resistance allele, Proceedings of the National Academy
of Sciences U.S.A, vol.100, pp. 15276-15279, 2003.
[24] C.E.Shannon, A Mathematical theory of communication, Bell Sust., Tech. J., vol.27,
pp. 397-423, julho 1948, and pp. 623-656, outubro 1948.
[25] M.J.E. Golay, Notes on digital coding, Proc. IEEE, vol.37, pp.657, 1949.
[26] R.W. Hamming, Error detecting and error correcting codes, Bell Syst. Tech. J., vol.29,
pp.147-160, 1950.
[27] G. Ungerboeck, Channel coding with multilevel/phase signals, IEEE Trans. Inform.
Theory, vol.IT-28, p. 56-67, 1982.
[28] G. D. Forney, Jr., Geometrically uniform codes, IEEE Trans. Inform. Theory, vol.IT-
37, pp.1241-1260, 1991.
[29] I.N. Herstein, Topics in Algebra, John Wiley and Sons, New York, 1975.
[30] J.B. Fraleigh, A First Course in Abstract Algebra, Addison-Wesley Publishing Co., 1982.
[31] P.R. Barbosa, Constru cao de Codigos Z
2
k -pseudolineares atraves de Alica coes
Isometricas e Extensoes de Galois sobre Aneis Locais, Tese de Mestrado, FEEC-
UNICAMP, 2000.
[32] H.A. Loeliger, Signal setes matched to groups, IEEE Trans. Inform. Theory, vol.IT-37,
pp. 1675-1682, 1991.
[33] J.R.Geronimo, Extensao da Z
4
-Linearidade via grupo de simetrias , Tese de Doutorado,
FEEC-UNICAMP, 1997.
[34] A.R. Hammons, Jr., A.R. Calderbank, P.V. Kumar, N.J.A. Sloane and P. Sole, The
Z
4
-linearity of Kerdock, Preparata, Goethals, and related codes, IEEE Trans. Inform.
Theory, vol.IT-40, pp.301-319, 1994.
[35] J.C.Interlando, Uma contribui cao aos Codigos Lineares sobre Aneis Locais, Tese de
Doutorado, FEEC-UNICAMP, 1994.
[36] J.C.Interlando, R.Palazzo Jr., J.R.Geronimo, A.A.Andrade, O.M.Favareto, e T.P. da
Nobrega Neto, Codigos Corretores de Erros sobre Estruturas de Corpos, Aneis e Grupos,
DT-FEEC-UNICAMP, 1998.
151
[37] B.R.McDonald, Finite Rings with Identity, Marcel Dekker, New York, 1974.
[38] P.Shankar, On BCH codes over arbitrary integer rings, IEEE Trans. Inform. Theory,
vol. IT-25, pp.480-483, July 1979.
[39] W.W.Peterson and E.J.Weldon, Jr., Error Correcting Codes, 2nd.ed.,MIT Press, Cam-
bridge, Mass., 1972.
[40] G.D.Forney Jr, On decoding BCH codes, IEEE Trans. Inform. Theory, vol.IT-11,
pp.549-557, October 1965.
[41] J.C. Interlando, R. Palazzo, Jr., and M. Elia, On the decoding of Reed-Solomon and
BCH codes over integer residue rings, IEEE Trans. Inform. Theory, vol.43, pp. 1013-
1021, 1997.
[42] J.C.Interlando, Uma contribui cao à Constru cao e Decodica cao de Codigos Lineares
sobre Grupos Abelianos via Concatena cao de Codigos sobre Aneis de Inteiros Residuais,
Tese de Doutorado, Fee-Unicamp, Dezembro de 1994.
[43] E.R.Berlekamp, Algebraic Coding Theory, McGraw Hill, New York, 1968.
[44] J.L.Massey, Shift register synthesis and BCH decoding, IEEE Trans. Inform. Theory,
vol. IT-15, pp.122-127, January 1969.
[45] E.Weiss, First course in Algebra and Number Theory, Academic Press, 1971.
[46] G.L. Feng and K.K. Tzeng, A generalization of the Berlekamp-Massey Algorithm for
Multisequence Shift-Register Synthesis with Applications to Decoding Cyclic Codes,
IEEE Trans. Inform. Theory, vol.37, n
o
5, pp.1274-1287, September 1991.
[47] C.R.P. Hartmann and K.K. Tzeng, Generalizations of the BCH Bound, Inform.
Contr., 20, N
o
5, pp. 489-498, June 1972.
[48] B.R.McDonald, Linear Algebra over Commutative Rings, Marcel Dekker, New York:
Marcel Dekker, 1993.
[49] A.A.Andrade, Uma contribui cao à Constru cao e Decodica cao de Codigos de Bloco Lin-
eares sobre Aneis Finitos, Tese de Doutorado, FEEC-UNICAMP, 1996.
[50] Thomas D. Schneider. Information content of individual genetic sequences. Journal of
Theoretical Biology, 189:427-441, 1997.
152
[51] Thomas D. Schneider, Gary D. Stormo, Larry Gold, and Andzej Dhrenfeucht. Informa-
tion Content of Binding Sites on Nucelotide Sequences. Journal of Molecular Biology,
vol.188, pp. 415-431, 1986.
[52] Thomas D. Schneider and R. Michael Stephens. Sequence Logos: a NewWay to Display
Consensus Sequences. Nucleic Acids Research, vol.18, no. 20, pp. 6097-6100, 1990.
[53] H. Yockey, Information Theory and Molecular Biology, Cambridge University Press:
Cambridge, 1992.
[54] D.R. Forsdyke, Are introns in-series error detecting sequences?, Intl. J. Theor. Biol.,
vol.93, pp. 861-866, 1981.
[55] D.R. Forsdyke, Conservation of stem-loop potential in introns of snake venom phos-
pholipase A2 genes. An application of FORS-D analysis, Mol. Biol. and Evol., vol.12,
pp. 1157-1165, 1995.
[56] Rzeszowska-Wolny, J., Is genetic code error-correcting?, J. Theor. Biol., vol.104, pp.
701-702, 1983.
[57] L.S. Liebovitch, Y. Tao, A.T. Todorov, and L. Levine, Is there an error correcting code
in the base sequence in DNA?, Biophysical Journal, vol.71, pp. 1539-1544, 1996.
[58] G.L. Rosen, Examining coding structure and redundancy in DNA, IEEE Engineering
in Medicine and Biology, vol.25, pp. 62-68, 2006.
[59] G. Battail, Information Theory and error correcting codes in genetics and biological
evolution, Introduction to Biosemiotics. Springer: New York, USA, 2006.
[60] E. May, M. Vouk, D. Bitzer and D. Rosnick, An error-correcting code framework for
genetic sequence analysis, Journal of the Franklin Institute, vol.34, pp. 89-109, 2004.
[61] Mac Donnaill D.A., Why nature chose A, C, G, U/T: an error-coding perspective of
nucleotide alphabet composition. Origins of Life and Evolution of the Biosphere, vol.33,
pp. 433-455, 2003.
[62] R. Sanchez, L.A. Perfetti, R. Grau, E. Morgado, A new DNA sequences vector space
on a genetic code Galois eld, MATCH Commun. Math. Comput. Chem., vol.54, 2005.
[63] T. Niidome, S. Kitada, K. Shimokata, T. Ogishima, and A. Ito, Arginine residues in the
extension peptide are required for cleavage of a precursor by mitochondrial processing
peptidase, The Journal of Biological Chemistry, vol.269, pp. 24719-24722, 1994.
153
[64] Faria, L. C. B., Existencia de Codigos Corretores de Erros em Sequencias de DNA, Tese
de Doutorado, UNICAMP, 2010.
[65] Felsenstein, J., Condence-Limits on Phylogenies - an Approach Using the Bootstrap,
Evolution, 39, 783-791, 1985.
[66] Tamura, K., et al., MEGA4: Molecular evolutionary genetics analysis (MEGA) soft-
ware version 4.0, Mol Biol Evol, 24, 1596-1599, 2007.
[67] Posada, D. Using MODELTEST and PAUP* to select a model of nucleotide substitution,
Current protocols in bioinformatics / editoral board, Andreas D. Baxevanis ... et al,
Chapter 6, Unit 6 5, 2003.
[68] Posada, D. ModelTest Server: a web-based tool for the statistical selection of models of
nucleotide substitution online, Nucleic Acids Res, 34, W700-703, 2006.
[69] Rodriguez, F., et al. The general stochastic model of nucleotide substitution, J Theor
Biol, vol.142, pp. 485-501, 1990.
[70] Schoniger, M. and von Haeseler, A. Simulating eciently the evolution of DNA se-
quences, Comput Appl Biosci, vol.11, pp. 111-115, 1995.
[71] Huelsenbeck, J.P. and Ronquist, F. MRBAYES: Bayesian inference of phylogenetic
trees, Bioinformatics, vol.17, pp. 754-755, 2001.
[72] Hedges, S. B., J. E. Blair, et al. A molecular timescale of eukaryote evolution and the
rise of complex multicellular life., BMC Evol Biol, vol.4, pp. 2, 2004.
[73] Heckman, D. S., D. M. Geiser, et al. Molecular evidence for the early colonization of
land by fungi and plants., Science, vol.293 , no. 5532, pp. 1129-33, 2001.
[74] Sanderson, M. J., J. L. Thorne, et al. Molecular evidence on plant divergence times,
American Journal of Botany, vol.91, pp. 1656-1665, 2004.
[75] Drummond, A. J. and A. Rambaut BEAST: Bayesian evolutionary analysis by sampling
trees., BMC Evol Biol, vol.7, pp. 214, 2007.
[76] Francoise Ambard-Bretteville, Ian Small, Olivier Grandjean and Catherine Colas des
Francs-Small, Discrete mutations in the presequence of potato formate dehydrogenase
inhibit the in vivo targeting of GFP fusions into mitochondria. Biochemical and Bio-
physical Research Communications, vol.311, pp. 966-971, 2003.
154
[77] Claire Pujol, Laurence Marechal-Drouard and Anne-Marie Duchene, How can organel-
lar protein N-terminal sequences be dual targeting signals? In silico analysis and muta-
genesis approach., J. Mol. Biol, vol.369, pp. 356-367, 2007.
155

Rocha, AndreaSantosLeiteda Doutorado

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Rocha, AndreaSantosLeiteda Doutorado

Uploaded by

Copyright:

Available Formats

Universidade Estadual de Campinas

Faculdade de Engenharia Eletrica e de Computa cao

(4, 6) em nota cao de r-uplas . . . . . . . . . . . . . . . . . 87

e a fun cao (ou mapeamento)

. Dizemos que e um homomorsmo de G em G

e um homomorsmo onde a fun cao

e bijetora. Dizemos que G e G

sao isomorfos e escrevemos G

, ) de elementos nao nulos

) um corpo nito e GF(q) um subcorpo de GF(q

) e GF(q) como denidos acima. Cada ele-

) tem um unico polinomio minimal sobre GF(q). Mais do que isso, se

de um grupo gerador mnimo U(S) induz uma parti cao de um

, e uma parti cao

de U(S). Os elementos de S/S

uma parti cao geometricamente uniforme e G um grupo

(S). Um rotulamento isometrico e uma fun cao injetora m : G S/S

(S) e a fun cao injetora induzida por

estao na mesma classe lateral `a esquerda de H em G.

. Diremos que C e G-linear se C,

, for imagem de um codigo de grupo C sobre o grupo C, isto e,

, e um grupo abeliano multi-

, que contem todas as razes de (x

cuja ordem e relativamente

(grupo multiplicativo de GF(p

, onde d e um inteiro maior ou igual a

(onde e um elemento primitivo

, e assim as razes de (Z) (o polinomio

(4, r), grupo das unidades,

A seguir determinaremos os elementos de GR

(4, 6). Sabemos que as opera coes em

(4, 6) sao realizadas modulo (x

(4, 6) em nota cao de r-uplas

(4, 6), onde

(4, 6). Sendo assim,

(4, 6). Logo, =

(4, 6) (onde e um elemento primitivo em G

ocorreu um erro de magnitude igual a 2. Para corrigir este erro

, onde o erro foi localizado e corrigido

E de conhecimento biologico a grande variedade de conforma coes espaciais das sequencias

, para realizarmos as analises. Em seguida,

You might also like