You are on page 1of 6

` Sequ Reconhecimento Qu antico de Padr oes Aplicados a encias de DNA

Patr cia Silva Nascimento Barros1 , Adenilton J. Silva2 , Wilson R. Oliveira1


1

Departamento de Estat stica e Inform atica Universidade Federal Rural de Pernambuco Rua Dom Manoel de Medeiros, s/n, Dois Irm aos Recife PE Brasil Centro de Inform atica Universidade Federal de Pernambuco Av. Prof. Moraes Rego, 1235 - Cidade Universit aria Recife PE Brasil
2

patriciajp1408@hotmail.com, adenilton.silva@gmail.com, wilson.rosa@gmail.com

Abstract. Nucleotides are molecules that, when joined together, constitute the structural units of RNA and DNA. Mitochondrial DNA (mtDNA) is the DNA located in the mitochondria. Taxonomic closer species have similar patterns in their DNA sequence. This work analyses the 15,000 rsts nucleotides of mtDNA from 16 animals species obtained from the National Center for Biotechnology Information (NCBI). The Boltzmann distribution, derived from a quantum associative memory proposed by Carlo A. Trugenberger, is employed and gives the probability that a given input pattern is a stored pattern. The results show that this probability is very efcient to recognize the nucleotides patterns from the mtDNA of the species investigated. Resumo. Nucleot deos s ao mol eculas que, quando juntas, constituem a unidades estruturais do RNA e DNA. DNA mitocondrial (DNAmt) e o DNA localizado na mitoc ondria. As esp ecies taxon omicas t em padr oes similares em sua sequ encia de DNA. Este trabalho analisa os primeiros 15 mil nucleot deos do DNA mitocondrial a partir de 16 esp ecies de animais obtidos a partir do Centro Nacional de Biotecnologia da Informac a a o (NCBI). Utilizou-se da distribuic o de Boltzmann derivada de uma mem oria associativa qu antica proposta por Carlo A. Trugenberger, que d a a probabilidade de um dado padr ao de entrada ser um padr ao armazenado. Os resultados mostram que essa probabilidade e muito eciente para reconhecer os padr oes das sequ encias de DNA das esp ecies investigadas.

o 1. Introduc a
o Qu Recente sucesso da Computac a antica [Nielsen and Chuang 2000] em propor algoritmos mais r apidos que os correspondentes cl assicos, como o algoritmo de Grover o de algoritmos qu [Grover 1996], possibilita a investigac a anticos para tarefas com alto custo computacional (cl assico) tais como as encontradas em Biologia Computacional [Accardi et al. 2008]. Em particular [Sato and Ohya ] prop oe um algoritmo qu antico para o alinhamento m ultiplo de sequ encias de genes ou de amino acidos. Em [Trugenberger 2002b] o modelo de mem oria qu antica associativa proposto revisto e ampliado. Neste modelo os padr recentemente em [Trugenberger 2002a] e oes o qu bin arios de n bits s ao armazenadas na superposic a antica do subconjunto apropriado

o pode ser recuperada executando uma da base computacional de n qbits. A informac a o entrada-dependente da mem rotac a oria do estado qu antico dentro deste subconjunto e medindo o estado resultante. A precis ao do padr ao recordado pode ser anado ajustando um par ametro que representa o papel de uma temperatura efetiva. Este modelo resolve o problema de escassez de capacidade, bem conhecido nas mem orias associativas cl assicas, meprovendo uma melhoria grande em capacidade. A eci encia do reconhecimento e muito grande enquanto a eci lhor quando o n umero de padr oes armazenados e encia o e melhor para os padr de identicac a oes isolados que s ao muito diferentes de todas as outras. Neste trabalho aplicaremos esta t ecnica para reconhecimento de padr oes em pro rea de Bio-Inform blemas reais na a atica.

2. Materiais e M etodos
2.1. Sequ encias de DNA cido desoxirribonucleico (ADN, em portugu Oa es, ou DNA, em ingl es: deoxyribonucleic um composto org es gen acid), e anico cujas mol eculas cont em as instruc o eticas que coordenam o desenvolvimento e funcionamento de todos os seres vivos e alguns v rus. Os o gen segmentos de DNA que s ao respons aveis por carregar a informac a etica s ao denomi respons nados genes. O DNA e avel pela transmiss ao das caracter sticas heredit arias de cada ser vivo. A estrutura da mol ecula de DNA foi descoberta conjuntamente pelo estadunidense James Watson e pelo brit anico Francis Crick em 7 de Marc o de 1953, o que lhes valeu o Pr emio Nobel de Fisiologia/Medicina em 1962, juntamente com Maurice Wilkins. Os nucleot deos s ao mol eculas que, quando juntas, constituem a unidades estruturais do RNA e DNA. H a quatro bases de nucleot deos de uma ta de DNA - adenina (A), citosina (C), guanina (G), timina (T). As bases purina s ao a guanina e a adenina, e as bases pirimidina s ao a citosina e a timina. Devido a isto, temos que G e A s ao bioquimicamente semelhantes e C e T s ao bioquimicamente semelhantes. As formas e estrutura qu mica es de hidrog das bases permitem ligac o enio para formar com eci encia apenas entre A e T e entre G e C. uma organela citoplasm A mitoc ondria e atica (fora do n ucleo) de membrana fe` s vezes descrito como usinas celulares, porque eles geram a maior parte do chada, a abastecimento da c elula de adenosina trifosfato (ATP), utilizado como fonte de energia o DNA localizado na mitoc qu mica. O DNA mitocondrial (DNAmt) e ondria. O DNAmt o gen carrega a informac a etica diferente da que a encontrada no DNA nuclear. Cada mitoc ondria tem 2-10 c opias do DNAmt, que por sua vez, cerca de 16.000 pares de bases u til para o estudo de nucleot deos, variando seu n umero conforme a esp ecie. O DNAmt e o de relacionamentos - logenia - dos organismos, pois n altamente conda evoluc a ao e o r servada e tem uma taxa de mutac a apida. Os bi ologos podem determinar e comparar as es para construir uma sequ encias de mtDNA entre esp ecies diferentes e usar as comparac o rvore evolucion transmitido de m a aria para as esp ecies analisadas. O DNAmt e ae para til na pesquisa lho (ambos do sexo masculino e feminino), pode ser uma ferramenta u geneal ogica em linha materna de uma pessoa. Esp ecies taxon omicas apresentam padr oes mais similares em sua sequ encia de DNA. Este trabalho analisa os 15.000 primeiros nucleot deos do DNAmt de 16 esp ecies de animais (os mam feros, aves, crust aceos, moluscos e peixes) descritos a seguir: atum (1), avestruz (2), boi (3), b ufalo (4), cabra (5),

camar ao cinza(6), cavalo (7), galinha (8), jumento (9), linguado (10), ovelha (11), peru (12), polvo (13), porco (14), salm ao (15) e zebu (16), obtido a partir do Centro Nacional es sobre Biotecnologia (NCBI). de Informac o 2.2. Reconhecimento Qu antico de Padr oes [Trugenberger 2002a] mostra que o emaranhamento qu antico fornece um mecanismo natural para melhorar a capacidade de armazenamento de mem orias associativas. Na verdade, o n umero de padr oes bin arios que podem ser armazenados em tal mem oria qu antica exponencial no n ideal no sentido de que todos e umero de n qubits, pmax = 2n , ou seja, e os padr oes bin arios que podem ser formados com os n bits podem ser armazenados. Dado dif p padr oes bin arios pi de tamanho n, n ao e cil imaginar como uma mem oria qu antica fornecida pela seguinte superposic o de pode armazen a-las. Na verdade, essa mem oria e a n qubits emaranhado [Trugenberger 2002a]: 1 p |M = |pi p i=1 (1)

o e armazenada e recuperada num sistema Analisando a forma com que a informac a o ser recuperada. Dado o padr qu antico chegamos a uma probabilidade da informac a ao dado por: i a probabilidade dele ser do padr ao pk e Pb (pk |i) = 1 cos2b dH (i, pk ) Z 2n (2)

2b a dist em que Z = p prec = p d (i, pk ) , dH (i, pk ) e ancia de Hammming, b k=1 cos 2n H o n o n o tamanho do padr be umero de qubits de controle, k e umero de padr oes e n e ao.

Evidentemente essa probabilidade tem pico em torno dos padr oes que tem menor o e portanto dist ancia de Hamming para a entrada. A maior probabilidade de recuperac a mais pr ` vers realizada pelo padr ao que e oximo da entrada. Contrariamente a ao mais simples do modelo apresentado em [Trugenberger 2001], aqui h a um segundo par ametro ajust avel, ou seja, o n umero b de qubits de controle. Este novo par ametro b controla o da mem o de a eci encia de identicac a oria qu antica, pois aumentando b, a distribuic a probabilidade Pb (pk |i) torna-se mais e mais um pico onde a dist ancia de Hamming e menor [Trugenberger 2002a]. o qu equivalente a uma distribuic o de A distribuic a antica desta probabilidade e a Boltzman can onica com temperatura 1 e n veis de energia: b Ek = 2 log cos o partic o. com Z sendo a func a a es podemos escrever a distribuic o de probabilidade Pb (pk |i) Com essas informac o a da seguinte forma: 1 (4) Pb (pk |i) = e(2log[cos( 2n dH (i,pk ))]b) Z em que Z = p e(2log[cos( 2n dH (i,pk ))]b) .
k=1

dH (i, pk ) 2n

(3)

3. Resultados
Utilizou-se a probabilidade P (pk |i) para reconhecer os padr oes dos 15.000 primeiros nucleot deos de mtDNA de 16 esp ecies de animais (mam feros, aves, crust aceos, moluscos e peixes). As sequ encias de DNA foram transformados em n umeros bin arios substituindo A e G por 1 e C e T por 0. Na Figura 1, tem-se o gr aco da probabilidade P (pk |i), para b = 1 com ru dos de 5%, 10%, 15%, 20%, 25%, 30% e 50% comparando o atum com os outros animais. boa para reconhecer sequ Observa-se que esta probabilidade e encias de DNA mesmo com ru dos. Nota-se na Figura 2 e Figura 3 que aumentando o valor de b para 10 e para 100, a igual a 1 exceto para o ru probabilidade do padr ao ser reconhecido e do de 50%.

Figura 1. Graco da Probabilidade P (pk |i), para b = 1

Figura 2. Graco da Probabilidade P (pk |i), para b = 10

Figura 3. Graco da Probabilidade P (pk |i), para b = 100

Observa-se na Figura 4, que para b = 1 e b = 10 a probabilidade de reconhecimento das sequ encias de DNA vai diminuindo a medida que aumenta o ru do, sendo que mais pr para b = 10 e oximo de 1. Nota-se tamb em que para b = 100, esta probabili 1 para todos os ru o do ru dade e dos, com excec a do de 50%. Desta forma, verica-se que aumentando o par ametro de controle b aumenta a eci encia do reconhecimento das sequ encias de DNA dos animais investigados.

i ser da classe pk com ru Figura 4. Probabilidade do padrao dos de 5% a 50%, para b = 1, 10 e 100

4. Conclus oes
Este trabalho analisou os 15.000 primeiros nucleot deos de DNAmt de 16 esp ecies de animais (mam feros, aves, crust aceos, moluscos e peixes), obtido a partir do Centro Na es sobre Biotecnologia (NCBI). As sequ cional de Informac o encias de DNA foram transformados em n umeros bin arios substituindo A e G por 1 e C e T por 0. Os resultados muito eciente para reconhecer os padr mostram que a probabilidade (P (pk |i)) e oes de nucleot deos a partir do DNA mitocondrial das esp ecies investigadas. O algoritmo n ao e extremamente eciente computacionalmente eciente em um computador cl assico, mas e em um computador qu antico.

Refer encias
Accardi, L., Freudenberg, W., and Ohya, M. (2008). Quantum Bio-Informatics: From Quantum Information to Bio-informatics., volume 1 and 2 of Quantum Probability and White Noise Analysis. World Scientic Publishing Company, Tokyo Univeristy of Science, Japan. Grover, L. K. (1996). A fast quantum mechanical algorithm for database search. Nielsen, M. A. and Chuang, I. L. (2000). Quantum Computation and Quantum Information. Cambridge University Press. Sato, K. and Ohya, M. [Accardi et al. 2008]. Trugenberger, C. A. (2001). 87(6):067901. Mathematical approach to bio-informatics. Probabilistic quantum memories. In in

Phys. Rev. Lett.,

Trugenberger, C. A. (2002a). Phase transitions in quantum pattern recognition. Phys. Rev. Lett., 89(27):277903. Trugenberger, C. A. (2002b). Quantum pattern recognition. Quantum Information Processing, 1(6):471493.

You might also like