You are on page 1of 121

Universidade Federal Fluminense

Instituto de computao








Keity Yamamoto




Arredondamento Randmico e
o Problema da Seqncia mais Prxima








DEZEMBRO DE 2004
i
Universidade Federal Fluminense
Instituto de computao




Arredondamento Randmico e
o Problema da Seqncia mais Prxima


Keity Yamamoto





Dissertao apresentada ao Curso de Ps-Graduao em
Computao Aplicada e Automao da Universidade Federal
Fluminense como parte dos requisitos necessrios obteno do
ttulo de Mestre em Computao Aplicada e Automao.








Orientadores: Carlos Alberto de Jesus Martinhon
Helena Cristina da Gama Leito
ii
Arredondamento Randmico e
o Problema da Seqncia mais Prxima



Keity Yamamoto



Dissertao apresentada ao Curso de Ps-Graduao em
Computao Aplicada e Automao da Universidade Federal
Fluminense como parte dos requisitos necessrios obteno do
ttulo de Mestre em Computao Aplicada e Automao.





BANCA EXAMINADORA




_______________________________________________________________________________
Prof. Dr. Carlos Alberto de Jesus Martinhon (Orientador)




_______________________________________________________________________________
Prof. Dr. Carlile Campos Lavor




_______________________________________________________________________________
iii
Prof. Dr. Fbio Protti



















































Aos meus pais, esposa e filha.
iv



Agradecimentos

Caminho difcil, tortuoso, longo, mas consegui chegar at seu final. Com muita vontade,
esforo, dedicao e colaborao de muitos, pude realizar este sonho, esta grande conquista.
Gostaria de deixar registrado aqui, meus sinceros e profundos agradecimentos a todos
envolvidos direta ou indiretamente neste trabalho.
Inicio meus agradecimentos primeiramente a Deus, por ter me dado esta oportunidade
de cursar o mestrado e estar sempre ao meu lado em todos os momentos de minha vida.
Na UFF, gostaria de agradecer aos meus orientadores Dr. Carlos Alberto Martinhon e
Dr. Helena Cristina da Gama Leito, que estiveram sempre presentes e com quem aprendi
muito em relao rea de otimizao e biologia molecular. Tambm cito aqui, os
professores que tem acompanhado minha evoluo desde a graduao, e pude novamente
estar em sala de aula com eles no mestrado. A galera que me acompanha desde a graduao,
Dalboni, Dayse e Dudu. E a galera que conheci no mestrado.
Agradeo aos membros da banca examinadora, professor Dr. Carlile Campos Lavor e
professor Dr. Fbio Protti, pelas suas disposies e boa vontade em julgar este trabalho.
Tenho muita satisfao em t-los presente a minha defesa.
Na Acol, empresa onde trabalho desde que me formei na graduao da UFF (1999),
gostaria de agradecer aos diretores Srgio Pinna e Eriton Santana por me apoiarem em todos
os momentos desde minha contratao, e principalmente no perodo que estive realizando
este trabalho no mestrado. todos os companheiros e companheiras da Acol que estiveram
me acompanhando e apoiando.
minha famlia boliviana, Jorge (pai), Beatriz (me), Jorge, Gabriel e Suzana (irmos),
que sempre estiveram presentes em minha vida, desde os meus dois anos de idade. todos
meus amigos que torceram por mim, e tia J (in memorian).
famlia Yamamoto. Meus pais Itaru Yamamoto e Ana Tomico Yamamoto que
souberam construir nossa maravilhosa famlia. Tenho muito orgulho deles, e tudo que sou
v
devo a eles. Por isso, tudo que fao, fao para eles com muito amor. Completando a famlia,
as minhas irms Lue e Tie, seu marido Cezar e o mais novo integrante da famlia David. Em
especial minha esposa, Tatiana, pelo amor, companheirismo, apoio e compreenso, e minha
filha Ana Zlia, esta sim, sempre presente nos meus estudos, rabiscando todos os meus
materiais de estudo.
Aos meus avs paternos Sho Yamamoto (in memorian) e Kazue Yamamoto e maternos
Tiyoiti Hosaku e Yoshiko Hosaku (in memorian).
Obrigado, este trabalho nosso!





















vi




Resumo

Neste trabalho, apresentamos inicialmente alguns conceitos bsicos e definies
presentes na biologia molecular, visando uma maior compreenso de alguns dos problemas
combinatrios mais freqentes descritos na literatura.
Daremos uma ateno especial ao problema da seqncia mais prxima (PSMP), que
consiste na determinao de uma seqncia de caracteres que mais se aproxima, segundo uma
dada mtrica, de um conjunto pr-definido S de seqncias. Assim, dado um conjunto
S = {s
1
,s
2
,...,s
m
} de seqncias (todas de tamanho n) sobre um alfabeto , deseja-se
determinar uma seqncia s
H
de tamanho n que minimize a maior distncia entre s
H
e s
i
, para
todo i {1...m}.
Estudamos a prova de NP-Completude do PSMP e fizemos uma anlise detalhada dos
principais algoritmos aproximativos, determinsticos e randmicos, existentes na literatura.
Na verdade, a grande maioria dos procedimentos existentes para o problema so baseados em
mtodos probabilsticos. Desta forma, fazemos uma descrio mais detalhada das tcnicas de
arredondamento randmico e derandomizao, em particular o mtodo das probabilidades
condicionais, mostrando os avanos mais recentes obtidos at o momento.
Desenvolvemos finalmente, uma estratgia de derandomizao baseada no mtodo de
estimadores pessimistas introduzida por Raghavan em 1988.

Palavras-chave: Problema da seqncia mais prxima, biologia computacional,
derandomizao, arredondamento randmico.


vii




Abstract

In this work, we first present some basic concepts and definitions normally used in
molecular biology. They are used, in order to describe some of most important combinatorial
problems posed by the biologists.
We will give a special attention to the Closest String Problem (CSP), which consists in
the determination of a sequence s
H
of characters (belong to some alphabet ) that is closer to
a given set S = {s
1
,s
2
,...,s
m
}of strings of each of length n. The objective in this case is to
find a sequence s
H
such that the maximum distance (according to a given metric) between s
H

and s
i
for i=1...m is minimized.
We study the proof of completeness of the CSP and concentrate our attention in the
deterministic and randomized approximation algorithms listed in the literature. In fact, the
major part of these techniques are based on probabilistic methods. For this reason, we present
the most recent results, and give a detailed description of these strategies such as the
randomized rounding procedure and the derandomization techniques, in particular, the
method of conditional probability.
Finally, we develop a derandomization strategy using pessimistic estimators as
proposed by Raghavan in 1988.

Keywords: closest string problem, computational biology, derandomization, randomized
round.




viii




Sumrio


CAPTULO 1 Introduo Biologia Molecular................................................................1
1.1 Introduo.....................................................................................................................1
1.2 cidos nuclicos (DNA e RNA)..................................................................................2
1.2.1 DNA......................................................................................................................3
1.2.2 RNA......................................................................................................................5
1.3 Gene, cromossomo e genoma.......................................................................................5
1.4 Protenas.......................................................................................................................6
1.5 Mutao........................................................................................................................7
1.6 Mapeamento e Sequenciamento de DNA.....................................................................8
1.7 Fragmentao................................................................................................................9
1.8 Clonagem....................................................................................................................10
CAPTULO 2 Problemas Combinatrios em Biologia Molecular..................................12
2.1 Introduo...................................................................................................................12
2.2 Comparao e Alinhamento de Seqncias................................................................12
2.2.1 Aplicaes da comparao de seqncias..........................................................15
2.2.2 Discusso............................................................................................................16
2.3 Alinhamento de Mltiplas Seqncias ......................................................................16
2.3.1 Discusso............................................................................................................17
2.4 Problema de Digesto Dupla (Double Digest Problem (DDP)).................................18
2.4.1 Variaes do Problema.......................................................................................20
2.4.2 Discusso............................................................................................................21
2.5 Problema de Digesto Parcial (Partial Digest Problem (PDP))..................................21
2.5.1 Variaes do Problema.......................................................................................22
2.5.2 Discusso............................................................................................................23
2.6 Mapeamento Fsico Usando Hibridizao..................................................................23
ix
2.6.1 Variaes do Problema.......................................................................................25
2.6.2 Discusso............................................................................................................26
2.7 Problema da Menor Super-Cadeia Comum (Shortest Common Superstring (SCS)).26
2.7.1 Discusso............................................................................................................27
2.8 Rearranjo de Genoma.................................................................................................27
2.8.1 Discusso............................................................................................................31
CAPTULO 3 Arredondamento Randmico e o Problema da Seqncia Mais
Prxima PSMP)...........................................................................................................32
3.1 Introduo...................................................................................................................32
3.1.1 Definio do Problema e Conceitos Bsicos......................................................33
3.2 Complexidade do PSMP.............................................................................................35
3.3 Algoritmos Aproximativos: Determinsticos e Randmicos......................................41
3.3.1 Arredondamento Randmico (Randomized Rounding).....................................46
3.3.2 Derandomizao.................................................................................................48
CAPTULO 4 Algoritmos aproximativos para o PSMP..................................................53
4.1 Introduo...................................................................................................................53
4.2 Algoritmo 2-aproximado............................................................................................53
4.3 Algoritmo aproximado de Ben-dor et al.[1997].........................................................54
4.3.1 Introduo...........................................................................................................54
4.3.2 Anlise de Aproximao....................................................................................55
4.3.3 Outra Abordagem...............................................................................................60
4.4 Derandomizao.........................................................................................................61
CAPTULO 5 Um algoritmo 4/3(1+)-aproximado.........................................................68
5.1 Introduo...................................................................................................................68
5.2 Algoritmo de Lanctot et al..........................................................................................68
5.3 Anlise de Aproximao............................................................................................72
CAPTULO 6 Esquema de aproximao polinomial para o PSMP...............................79
6.1 Introduo...................................................................................................................79
6.2 Algoritmo de Li et al. ................................................................................................79
x
6.3 Anlise de Aproximao............................................................................................83
Concluso................................................................................................................................94
Referncias Bibliogrficas.....................................................................................................96

























xi




Lista de Figuras

Figura 1.1: DNA....................................................................................................................4
Figura 1.2: Uma dupla fita de seqncia de DNA representada por uma seqncia de
letras....................................................................................................................5
Figura 1.3: Tabela do Cdigo Gentico.................................................................................6
Figura 2.1: Exemplo do DDP..............................................................................................20
Figura 2.2: Exemplo do PDP...............................................................................................22
Figura 2.3: Deteco de sobreposio por hibridizao......................................................24
Figura 2.4: Entrada e sada para o SCS...............................................................................27
Figura 2.5: Genoma cloroplasta da alfafa (genoma inicial) e genoma cloroplasta da
ervilha (genoma final).......................................................................................29
Figura 2.6: Soluo para blocos orientados da figura II.5...................................................30
Figura 2.7: Soluo para blocos no-orientados da figura II.6............................................30
Figura 3.1: Instncia S
m,n,d
...................................................................................................39
Figura 3.2: Razo de Performance em Problemas de minimizao e maximizao...........43
Figura 3.3: rvore de deciso para busca de uma soluo vivel.......................................49
Figura 4.1: Razo de aproximao......................................................................................56
Figura 5.1: Determinao de d
H
(s
1
, s
2
) ...............................................................................69
Figura 5.2: Razo de aproximao para o PSMP................................................................73
Figura 6.1: Razo de aproximao do PTA para o PSMP...................................................83
Figura 6.2: (6.9) = (6.10).............................................................................................................................88


xii




Introduo


Desde a descoberta da estrutura do DNA em 1953 por Watson e Crick [Watson &
Crick, 1953a], [Watson & Crick, 1953b], grandes avanos tm sido presenciados na biologia
molecular, que tem como principal objetivo o estudo dos cidos nuclicos e protenas. A
principal dificuldade desta rea a grande quantidade de dados envolvida.
Conseqentemente, muitos dos problemas prticos relevantes so altamente combinatrios
(muitos deles NP-Difceis), sendo portanto, fundamental o desenvolvimento de tcnicas
eficientes para sua soluo.
Daremos uma ateno especial ao Problema da Seqncia Mais Prxima-PSMP
(Closest String Problem), apresentando uma coletnea dos principais algoritmos
aproximativos (determinsticos e randmicos) existentes na literatura. Formalmente falando,
seja S = {s
1
,s
2
,...,s
m
} um conjunto de seqncias (todas de tamanho n) sobre um alfabeto . O
objetivo ser encontrar uma seqncia s
H
de tamanho n que minimize a maior distncia d
entre s
H
e s
i
, i=1...m, ou seja, desejamos minimizar d, onde d
H
(s
H
, s
i
) d, para todo i=1...m.
Este trabalho est organizado da seguinte forma. O captulo 1 apresenta uma descrio
sucinta dos principais conceitos e definies da biologia molecular necessrios para uma
melhor compreenso de alguns dos problemas combinatrios mais freqentes encontrados na
literatura. No captulo 2, apresentamos uma pequena amostra destes problemas, destacando
dentre outros, o problema de comparao de seqncias, sequenciamento e mapeamento de
DNA, e rearranjo de genomas. No captulo 3, definimos o problema da seqncia mais
prxima (PSMP), estudamos sua prova de NP-Completude e descrevemos as tcnicas de
arredondamento randmico e derandomizao, em particular estudamos o mtodo das
probabilidades condicionais e o mtodo dos estimadores pessimistas. No captulo 4,
xiii
apresentamos um algoritmo 2-aproximado bastante natural para o problema e o algoritmo
aproximativo de Ben-Dor et al. [Ben-Dor et al., 1997], um algoritmo com razo de
performance prximo do valor timo para d suficientemente grande. Desenvolvemos ainda, a
estratgia de derandomizao baseada no mtodo dos estimadores pessimistas sugerida em
[Ben-Dor et al., 1997]. No captulo 5, apresentamos o algoritmo 4/3(1+)-aproximado de
Lanctot et al. [Lanctot et al., 1999]. No captulo 6, apresentamos o esquema de aproximao
polinomial desenvolvido por Li et al. [Li et al., 2002] e, finalmente, apresentamos as
concluses e sugestes para trabalhos futuros.

xiv
Captulo 1

Introduo Biologia Molecular

1.1 Introduo

Desde a descoberta da estrutura do DNA em 1953 por Watson e Crick [Watson &
Crick, 1953a], [Watson & Crick, 1953b], grandes avanos tm sido presenciados na biologia
molecular, cujo principal objetivo o estudo dos cidos nuclicos e protenas. Seu problema
mais conhecido a obteno do sequenciamento completo do genoma dos organismos. O
genoma contm a informao necessria para a existncia dos seres vivos, controlando
processos vitais, dentre eles a sntese protica.
A principal dificuldade no estudo de um genoma a quantidade de dados envolvida. A
informao bsica que se deseja extrair do DNA a seqncia de pares de base, processo
conhecido como sequenciamento. Considere por exemplo, o genoma humano (o organismo
humano possui 23 pares de cromossomos). Um cromossomo humano tem aproximadamente
10
8
pares de base (unidade de medida do DNA). Por outro lado, a maior seqncia que um
laboratrio pode sequenciar de aproximadamente 700 pares de base. Desta forma, observe-
se que existe uma diferena de aproximadamente 10
5
entre a capacidade atual dos
laboratrios e o tamanho de um cromossomo, aumentando ainda mais, quando comparada ao
genoma completo. Esta diferena o cerne da maioria dos problemas encontrados na biologia
molecular (em sua maioria problemas combinatrios). Portanto, a biologia molecular sozinha
no seria capaz de lidar com os desafios do sequenciamento gentico, na verdade, tais
propsitos somente foram possveis graas aos avanos conseguidos na cincia da
computao. Esta colaborao tornou-se to importante que deu origem a uma nova rea,
conhecida como biologia computacional [Waterman, 1995], [Gusfield, 1997], [Pevzner,
2000], [Meidanis & Setbal, 1997], que se dedica ao estudo de problemas de biologia
1
molecular (DNA e protenas), e como a computao pode auxiliar na soluo destes
problemas.
Na verdade, em relao ao papel da computao na biologia molecular alguns autores
[Lancia, 2004] dividem os problemas de biologia molecular em duas reas principais: a
primeira seria a bioinformtica, que estuda os problemas de armazenamento, organizao e
distribuio da grande quantidade dos dados genmicos hoje existentes, e a segunda, a
biologia computacional, que estuda os problemas de interpretao e anlise dos dados
genmicos. Seguindo essa definio, sero tratados aqui os problemas voltados para biologia
computacional.
A computao possibilita tambm que os genomas seqenciados, seqncia de
protenas, dentre outras informaes, sejam armazenados em grandes bancos de dados
( GenBank (http://www.ncbi.nm.nih.gov/) mantido pela National Center for Biotechnology
Information (NCBI), EMBL (http://www.embl-heidelberg.de/), PIR ( http://www.gbd.org/ e
http://www.mips.biochem.mpg.de/ ) , PDB (http://www.pdb.bnl.gov/ ), etc), em sua maioria
disponveis na internet para pesquisa, possibilitando o acesso de pesquisadores das mais
diversas reas de atuao, auxiliando portanto, no diagnstico e tratamento de doenas,
projetos de novas drogas farmacuticas, preveno de pragas, etc.
A seguir sero apresentadas algumas definies importantes da biologia molecular
[Brown, 1999], [Cantor & Smith, 2000] para melhor compreenso dos prximos captulos
deste trabalho.

1.2 cidos nuclicos (DNA e RNA)

cidos nuclicos so macromolculas que armazenam as informaes relativas ao
desenvolvimento e diviso das clulas, as quais formam os organismos vivos. Os cidos
nuclicos tambm so responsveis pela manuteno dos organismos em toda sua vida. Na
natureza existem dois tipos de cidos nuclicos: DNA (cido desoxirribonuclico) e RNA
(cido ribonuclico).
2
A estrutura primria do cido nuclico pode ser vista como uma cadeia linear composta
de simples unidades qumicas chamadas bases nitrogenadas, so elas: Adenina (A), Citosina
(C), Guanina (G), Timina (T) e Uracila (U). No DNA so encontradas as bases nitrogenadas
A, G, C e T; e no RNA so encontradas as bases A, C, G e U.

1.2.1 DNA

O DNA formado por uma dupla fita de cadeias de nucleotdeos que formam uma
estrutura helicoidal [Brown, 1999], [Cantor & Smith, 2000]. Cada nucleotdeo formado por
uma molcula de acar, um fosfato e uma base nitrogenada. Nas molculas de acar so
encontrados cinco tomos de carbono, que so enumerados de 1 a 5 (vide Figura 1.1). Estes
carbonos so importantes para formao de uma fita do DNA.
Em uma fita de nucleotdeos, estes so ligados pelo carbono 3 de um nucleotdeo e o
carbono 5 do nucleotdeo vizinho. Por essa razo uma fita de nucleotdeos segue uma
orientao, convencionalmente definida no direcionamento do carbono 5 para o carbono 3
entre nucleotdeos vizinhos (vide Figura 1.1). Note tambm, que as duas fitas tem orientaes
opostas.
Ligado ao carbono 1 est a base nitrogenada (A, C, G ou T), que responsvel pela
ligao entre as duas fitas, formando assim, a dupla fita do DNA. Cada base nitrogenada de
uma fita est ligada outra base da fita complementar. Nota-se que a base A est sempre
ligada base T, e a base C est sempre ligada base G. Estes pares de bases so
complementares, e so utilizados como unidade de medida de comprimento de uma molcula
de DNA, denotado por bp (pares de bases).

3

Figura 1.1: DNA

Convencionalmente, o DNA representado como uma seqncia de letras (A, C, G, T),
onde cada letra representa uma base. A Figura 1.2 apresenta um exemplo de uma dupla fita de
uma seqncia de DNA, colocando uma fita em cima da outra. Observe que a figura mostra a
paridade entre as bases (A com T e C com G). Nota-se, na figura, que o fim 3 de uma fita
corresponde ao fim 5 da outra fita. Esta propriedade mais conhecida como antiparalelo. A
conseqncia fundamental desta estrutura o fato de que, dada uma fita, pode-se inferir a
outra fita correspondente (fita complementar). A operao que possibilita a obteno da fita
correspondente chamada complementar reversa. Por exemplo, dada uma fita s = AGACGT,
pode-se obter sua complementar reversa da seguinte forma: primeiramente reverte-se s
obtendo s = TGCAGA, posteriormente substitui-se cada base com sua base complementar,
obtendo s = ACGTCT.

4

Figura 1.2: Uma dupla fita de seqncia de DNA
representada por uma seqncia de letras

1.2.2 RNA

A molcula de RNA tem apenas uma fita, e bem curta se comparada fita de DNA.
Existem trs tipos de molculas de RNA: RNA mensageiro (mRNA), RNA transportador
(tRNA) e RNA ribossomal (RNA). O RNA tambm tem funo importante na sntese de
protenas.

1.3 Gene, cromossomo e genoma

O genoma encontra-se no interior das clulas dos organismos, armazenado em
estruturas chamadas cromossomos. Nos cromossomos localizam-se os genes que so
responsveis pela sntese protica. Os genes podem ser considerados como segmentos
contguos e discretos de molculas de DNA, onde so armazenadas as informaes genticas.
A informao contida em cada gene responsvel pela construo de uma protena que tem
uma funo especfica num organismo vivo.
Os organismos vivos podem ser divididos em dois grupos:
- Eucariotos: organismos cujas clulas possuem ncleo, onde se encontram os
cromossomos. Incluem-se neste grupo os animais, plantas, fungos e protozorios.
- Procariotos: organismos cujas clulas no possuem ncleo (bactrias)
Uma outra diferena entre estas duas divises est relacionada ao nmero de
cromossomos presentes em cada clula. Uma clula de procarioto em geral possui apenas um
cromossomo, enquanto uma clula eucaritica, tem um nmero fixo de cromossomos que
varia de espcie para espcie (por exemplo, a clula humana possui 23 pares de
cromossomos).
5
Nos procariotos todo o trecho de um gene codifica a protena. Entretanto, nos
eucariotos, um gene composto de subtrechos conhecidos como introns e exons. No processo
de construo de uma protena, apenas os exons so utilizados para codific-la. No segmento
de exons de um gene, cada tripla de nucleotdeos forma um codon que codificar um
aminocido que formar uma protena. Apesar de existirem 64 combinaes entre triplas de
nucleotdeos (4
3
combinaes), apenas 20 aminocidos so codificados (vide Figura 1.3). Isso
ocorre, devido a um aminocido poder ser representado por mais de uma tripla ou uma tripla
no representar nenhum aminocido (vide Figura 1.3, a tripla ATC no codifica nenhum
aminocido). Assim, a seqncia gerada de aminocidos corresponde a uma protena.


Figura 1.3: Tabela do Cdigo Gentico

1.4 Protenas

As protenas so macromolculas orgnicas que desempenham muitas funes num
organismo vivo. As protenas mais importantes so as enzimas que catalizam (aceleram) os
processos qumicos indispensveis vida dos organismos.

6
1.5 Mutao

A mutao definida como uma alterao na seqncia de nucleotdeos no DNA,
causada por uma falha no processo de replicao. Essa falha no processo de replicao pode
ser causada por exposio radiao ultravioleta, ou por outras condies ambientais.
Existem dois diferentes nveis de mutao. Um ao nvel de gene, e outro ao nvel de
cromossomo. Neste ltimo, segmentos do DNA podem ser trocados no mesmo cromossomo
ou entre cromossomos.
Na mutao ao nvel de gene, podem ocorrer:
- Substituio: A alterao de um nucleotdeo na seqncia de DNA.
- Insero: A insero de um ou mais nucleotdeos na seqncia de DNA.
- Remoo: A remoo de um ou mais nucleotdeos na seqncia de DNA.

Este tipo de mutao pode ser dividido de acordo com sua influncia na protena
resultante:
- Missense: A mutao altera o codon. Este codon alterado codifica um aminocido
diferente.
- Silent: A mutao no altera o codon. Essa mutao no acarreta nenhuma alterao
na codificao do aminocido.

No entanto, deve ser mencionado que apesar da mutao alterar um aminocido, no
necessariamente afetar a funo da protena. Isso porque a similaridade qumica entre
diferentes aminocidos pode resultar em um pequeno ou nenhum impacto na estrutura final
da protena, preservando assim sua funo.
As mutaes tm uma importncia relevante na biologia molecular. Dentre outras
coisas, criam novas espcies e adaptam as espcies j existentes para as alteraes das
condies ambientais.

7
1.6 Mapeamento e Sequenciamento de DNA

Um intenso esforo tem sido feito por vrios cientistas em todo mundo para sequenciar
o DNA dos diferentes organismos vivos existentes na natureza, processo conhecido como
Projeto Genoma. Cada organismo tem seu Projeto Genoma, que pode ser desenvolvido por
vrias comunidades cientficas e estar espalhada em diferentes localizaes no mundo. Este
trabalho tem revolucionado a pesquisa mdica e biolgica e de outras reas afins.
Uma importante parte deste processo consiste no mapeamento fsico. O mapeamento
fsico mostra localizaes e estima distncias entre marcaes ao longo do genoma,
cromossomo, ou mesmo uma grande cadeia do genoma. Estas marcaes podem ser genes ou
simplesmente subseqncias arbitrrias do DNA.
O mapeamento do genoma uma ferramenta essencial para encontrar novos genes. A
construo do mapeamento fsico de um DNA pode ser feita atualmente por diferentes
tcnicas; utilizando enzimas de restrio, hibridizao, dentre outras. Em particular trabalha-
se com pedaos do DNA bem menores que um cromossomo, mas bem maiores uma
seqncia que pode ser seqenciada diretamente pelos laboratrios.
Uma outra parte do Projeto Genoma o sequenciamento, que deseja encontrar a
seqncia completa de nucleotdeos do DNA (uma viso mais detalhada do DNA).
Apesar dos avanos tecnolgicos na manipulao de molculas de DNA, existe ainda
um limitante nos procedimentos laboratoriais para leitura de uma seqncia de DNA,
restringindo-se leitura de uma seqncia de aproximadamente 700 bp. Desta forma, para
que os processos de mapeamento e sequenciamento sejam realizados, a seqncia de DNA
clivada (cortada) em grandes cadeias, estas cadeias so fragmentadas em cadeias ainda
menores, at que alcancem o tamanho adequado para leitura nos laboratrios (com tamanhos
de aproximadamente 700 bp). Aps o estudo destas pequenas cadeias, inicia-se o processo
inverso de remontagem das cadeias, at alcanar a cadeia original (DNA completo). neste
processo de remontagem que se encontram os problemas computacionais mais importantes.
Nota-se que existem duas vises para o trabalho de leitura e estudo das seqncias de
DNA. O mapeamento fsico, onde se tem uma viso mais macro da cadeia de DNA,
8
trabalhando com grandes blocos de DNA; e o sequenciamento com uma viso micro, onde se
tm pequenos fragmentos de DNA que podem ser lidos pelos laboratrios.
Para que o mapeamento e sequenciamento possam ser realizados, muitas outras tcnicas
de laboratrio so necessrias, tais como: fragmentao, clonagem, medio de fragmentos,
etc, que sero discutidas a seguir.

1.7 Fragmentao

Atualmente, existem duas tcnicas bsicas para clivar uma molcula de DNA: o mtodo
que utiliza enzimas de restrio e o mtodo do canho (shotgun).
No mtodo que utiliza enzimas de restrio, as enzimas clivam o DNA em segmentos
especficos chamados de stios de restrio. Os stios de restrio tm sua seqncia
conhecida e possuem tamanhos curtos (4, 6 ou 8 bp). Cada enzima de restrio tem seu stio
de restrio especfico. Quando uma enzima de restrio aplicada em uma molcula de
DNA, esta clivada em todas as ocorrncias do stio de restrio especfico enzima de
restrio aplicada. Existem centenas de enzimas que reconhecem, respectivamente, diversos
stios de restrio.
Um dos problemas encontrados na utilizao desta tcnica que podem ser gerados
fragmentos excessivamente grandes. Por outro lado, podem ser gerados fragmentos muito
pequenos, que no so teis nos processos que necessitam utilizar a tcnica de fragmentao.
No mtodo do canho, uma soluo contendo uma seqncia de DNA submetida a
elevadas taxas de vibrao, fazendo com que as molculas sejam clivadas aleatoriamente em
diferentes pontos. O processo de vibrao pode ser acionado com ar ou com ultra-som,
respectivamente chamados de nebulizao e sonificao.
Aps a clivagem dos fragmentos, os tamanhos dos fragmentos podem ser calculados
atravs da tcnica conhecida como eletroforese em gel. Neste processo, os fragmentos de
DNA so colocados num gel, onde as molculas do gel, quando resfriadas, formam uma
matriz de poros. Quanto mais concentrada a soluo do gel, mais a matriz se concentra, e os
poros se tornam menores. Desta forma, aplicando-se uma corrente eltrica nesta soluo, as
9
molculas de DNA carregadas negativamente se movem para o plo positivo do campo
eltrico. Como as molculas de DNA se movem pelos poros formados no gel, as molculas
mais longas encontram maior resistncia, movendo-se mais vagarosamente.
Conseqentemente, os fragmentos menores movem-se mais rapidamente. Desta forma, aps
um certo tempo, pode-se separar as molculas de DNA pelos seus tamanhos.

1.8 Clonagem

Para fazer experimentos (estudos) com DNA, necessria uma quantidade razovel do
mesmo material, a fim de obter uma maior confiana nos resultados dos experimentos. Por
isso, a necessidade de se clonar vrias vezes as seqncias de DNA.
Uma das maneiras de clonar um DNA usar uma clula hospedeira (vrus e bactria).
Nessa abordagem, uma seqncia de DNA fonte (chamaremos neste trabalho de inserto), que
se deseja clonar, introduzida no DNA da clula hospedeira, que ao multiplicar-se, replica
seu material gentico para seus descendentes junto com a seqncia de DNA inserida. Assim,
aps um determinado perodo de incubao, uma quantidade celular exponencial produzida,
com uma cpia da seqncia de DNA fonte. As cpias da seqncia de DNA so retiradas
das clulas pelo processo de purificao.
A molcula de DNA que recebe o inserto chamada de vetor. O DNA resultante da
combinao entre o vetor e o inserto chamado de DNA recombinante. Seguem abaixo,
alguns dos principais vetores usados na clonagem de DNA.
- Plasmdeos: Plasmdeos so molculas de DNA circulares autnomas encontradas em
bactrias e leveduras. Seu comprimento em geral varia entre 1 e 10 kb (1000 pares de
base). Os vetores de plasmdeos tm em geral 3kb de comprimento. Desta forma, isso
implica na limitao dos tamanhos dos insertos.
- Bacterifagos: Bacterifagos so vrus que infectam bactrias. Os vrus possuem uma
estrutura simples, composta em geral de uma molcula de DNA ou RNA envolvida
por uma cpsula formada de protenas. Ao infectar uma clula, o vrus pode exibir um
comportamento ativo, do qual so produzidas cpias do DNA viral. Ou podem
10
assumir um comportamento passivo, ficando incubado na clula at que
eventualmente assumam seu estado ativo. Os bacterifagos, tambm conhecidos como
fagos, tem seu comportamento e estruturas moleculares bem conhecidos. Um exemplo
desse tipo de vetor o fago . Esse fago possui uma cabea em forma hexagonal que
envolve o DNA genmico viral de aproximadamente 50 kb. Para ser usado como
vetor de clonagem, o DNA do fago foi modificado, sendo removido o gene que faz
com que o vrus tenha o comportamento passivo (outros segmentos tambm foram
removidos), desta forma o vrus ter um comportamento sempre ativo. Este vetor
permite um inserto de no mximo 25 kb.
- Cosmdeos: O vetor fabricado com elementos do fago e do plasmdeo chamado de
cosmdeo. Este vetor permite inserto de 35 a 45 kb.
- Outros vetores: Existem outros vetores que visam aceitar insertos mais longos, como:
vetores de YACs, do bacterifago P1, de BACs e de PACs.
11
Captulo 2

Problemas Combinatrios em Biologia Molecular

2.1 Introduo

Muitos dos problemas relevantes na biologia molecular tem natureza altamente
combinatria e envolvem uma grande quantidade de dados e informao, sendo portanto, de
fundamental importncia o desenvolvimento de tcnicas e estratgias eficientes para sua
resoluo. Dentre as reas da cincia da computao, a otimizao combinatria uma
parceira importante para auxiliar a biologia molecular na soluo de seus problemas.
Neste captulo, sero apresentados alguns dos principais problemas de biologia
molecular que esto relacionados rea de otimizao combinatria. Nas Sees 2.2 e 2.3,
so apresentados problemas de comparao de seqncias, de duas seqncias e mltiplas
seqncias respectivamente. Nas Sees 2.4 a 2.6 so apresentadas algumas das tcnicas de
mapeamento de DNA que tm como funo o sequenciamento de grandes seqncias. Sobre
este tema sero citadas nas Sees 2.4 e 2.5 as tcnicas de mapeamento utilizando enzimas de
restrio e na Seo 2.6 apresentamos o problema de mapeamento por hibridizao. Na Seo
2.7, abordamos uma das tcnicas de remontagem de fragmentos, que trata do problema de
sequenciamento de DNA e finalmente, na Seo 2.8 discute-se sobre o problema de rearranjo
genmico.

2.2 Comparao e Alinhamento de Seqncias

A comparao de seqncias a operao primitiva mais importante dentro da biologia
molecular computacional [Waterman, 1995], [Gusfield, 1997], [Pevzner, 2000], [Meidanis &
12
Setbal, 1997]. A grosso modo, esta operao consiste em encontrar que partes das
seqncias so parecidas e que partes so diferentes.
Existem vrios problemas onde esta tcnica pode ser aplicada. Segue abaixo, alguns
exemplos apresentados em Meidanis e Setbal [Meidanis & Setbal, 1997]:
1) Sejam duas seqncias do mesmo alfabeto, ambas com o mesmo tamanho (dezenas de
milhares de caracteres). Sabe-se que as seqncias so similares, com poucas
diferenas isoladas. A mdia freqente dessas diferenas baixa (uma em cada 100).
Deseja-se encontrar os locais onde estas diferenas ocorrem. Este problema aparece
quando o mesmo gene seqenciado por diferentes laboratrios e deseja-se comparar
os resultados.
2) Sejam duas seqncias do mesmo alfabeto, com poucas centenas de caracteres cada.
Deseja-se saber se existe um prefixo de uma cadeia o qual similar a um sufixo de
outra cadeia. Este problema e o prximo (3), aparecem no contexto do
sequenciamento de fragmentos, em programas que ajudam no sequenciamento de
larga escala de fragmentos de DNA.
3) Considere novamente o mesmo problema descrito em (2), desta vez, vrias centenas
de seqncias devem ser comparadas. Alm disso, sabe-se que a grande maioria dos
pares de seqncia no se relaciona, isto , no tem um grau requerido de
similaridade.
4) Sejam duas seqncias do mesmo alfabeto com poucas centenas de caracteres cada.
Deseja-se saber se existem duas sub-cadeias, uma em cada seqncia, que so
similares. Este problema e o prximo (5), aparecem no contexto de busca por locais
similares usando grandes base de dados de bio-seqncias.
5) Dado o mesmo problema (4), mas ao invs de duas seqncias, uma seqncia deve
ser comparada com milhares de outras.

Para comparao de seqncias, duas etapas bsicas so fundamentais:

13
1) Alinhamento: faz o emparelhamento das seqncias, de modo que fique clara sua
correspondncia. No alinhamento so adicionados espaos em localizaes arbitrrias
nas seqncias para que elas fiquem com o mesmo tamanho (vide Exemplo 2.1).

Dadas duas seqncias s=s
1
...s
m
e t=t
1
...t
n
, com smbolos pertencentes ao mesmo
alfabeto , onde m, n 0. Um alinhamento de s e t representa um mapeamento de s e t nas
seqncias s e t, respectivamente, cujos smbolos pertencem ao alfabeto = {-}, onde
o smbolo - chamado de espao, tal que:
- |s| = |t| = l, onde |x| representa o tamanho da seqncia x;
- A remoo dos espaos em s e t levam s seqncias originais s e t, respectivamente;
- No permitido um espao (-) em uma mesma posio de s e t.

2) Similaridade: funo que mede o quanto as seqncias so similares. Uma das formas
mais utilizadas para calcular a similaridade entre as seqncias de DNA ou RNA,
atribuindo valores na comparao de cada posio em todo comprimento das
seqncias. No caso das protenas so utilizadas as matrizes PAM [George et al.,
1990], [Dayhoff et al., 1978]. A atribuio de valores para seqncias de DNA ou
RNA pode ser dada da seguinte forma (vide Exemplo 2.1):
- Se os caracteres forem iguais soma-se +1;
- Se os caracteres forem diferentes soma-se 1;
- Se tiver espao soma-se 2.

O clculo da similaridade dado por:

sim = ( )
i i
l
i
t s ' , '
1

=
, (2.1)

onde :

uma funo simtrica tal que



(a,b) denota o valor da comparao,
como definido anteriormente, entre o smbolo a e o smbolo b, a e b

.

14
Definio 2.1: Dadas duas seqncias s e t, encontrar o alinhamento entre elas, de forma a
maximizar a funo de similaridade sim (2.1).

Exemplo 2.1: Na comparao de seqncias buscamos o alinhamento de similaridade
mxima, ou seja, que torne as seqncias as mais parecidas possveis. Veja a seguir, o
alinhamento com similaridade mxima entre as seqncias s = GACGGATTAG e
t = GATCGGAATAG.



2.2.1 Aplicaes da comparao de seqncias

O primeiro sucesso na comparao de seqncias foi a descoberta da ligao entre os
genes que causam cncer e um gene envolvido no crescimento e desenvolvimento celular
[Doolittle et al., 1983], [Waterfield et al., 1983]. Oncogenes so genes do vrus que causam
um tipo de cncer nas clulas infectadas. O Oncogene v-sys do simian sarcoma vrus causa
um descontrole no crescimento da clula e leva os macacos ao cncer. Muito parecido com
growth factor PDGF, uma protena que estimula o crescimento da clula. Quando estes genes
foram comparados, significantes similaridades foram encontradas. Esta descoberta confirmou
uma conjectura de que o cncer pode ser causado por um gene normal de crescimento, onde o
tempo de crescimento alterado para um tempo errneo.
Outra aplicao para comparao de seqncias o estudo da evoluo de espcies. A
evoluo dos organismos conserva padres de seqncias por vrias geraes. Quando uma
nova seqncia tem uma grande similaridade com alguma seqncia j cadastrada na base de
dados de seqncias, existe uma grande chance das seqncias serem homlogas, ou seja,
oriundas de um ancestral comum. Assim, novas e teis hipteses biolgicas so formadas
com a comparao de seqncias.
15
2.2.2 Discusso

A programao dinmica resolve o problema de comparao de duas seqncias em
tempo polinomial. Needleman e Wunsch [Needleman & Wunsch, 1970] foram os pioneiros
na utilizao da programao dinmica nos problemas de comparao de seqncias. Eles
apresentaram um algoritmo que maximizava o nmero de coincidncias subtraindo o nmero
de inseres e remoes, conhecido como critrio de similaridade mxima. Associando
apenas pesos no negativos para substituies, inseres e remoes no alinhamento, Sellers
[Sellers, 1974] apresentou um algoritmo de programao dinmica, onde o alinhamento
timo corresponde a menor distncia (soma de todos os pesos) do alinhamento, conhecido
como critrio de distncia mnima. Uma referncia clssica na comparao de seqncias o
livro de Sankoff e Kruskal [Sankoff & Kruskal, 1983]. Uma boa reviso sobre alinhamento
timo, similaridade, distncias e algoritmos relacionados ao assunto podem ser encontrados
em [Waterman, 1989]. Vrios mtodos utilizando a programao dinmica podem ser
encontrados em [Pearson & Miller, 1992]. Outra referncia muito utilizada o livro de Heijne
[Heijne, 1987] para estudo da comparao de seqncias.

2.3 Alinhamento de Mltiplas Seqncias

No alinhamento mltiplo, comparam-se mais de duas seqncias. Utilizado em
diferentes aplicaes na biologia molecular, como: encontrar informaes sobre funo e
estrutura das molculas, estimar distncias evolucionrias entre as espcies, dentre outras
aplicaes. Muitas vezes a comparao de duas seqncias no mostra padres biolgicos
importantes que somente so mostradas na comparao de mltiplas seqncias.
Existem vrias formas de se calcular a similaridade entre as seqncias no alinhamento
mltiplo. Uma delas seria calcular para cada coluna (de todas as seqncias) um valor de
similaridade, seguindo algum critrio, e no final teramos uma somatria destes valores, onde
o alinhamento timo seria definido como o alinhamento que minimize esta somatria final. A
soma de pares (Sum-of-Pairs) um exemplo (desta forma de clculo de similaridade)
16
bastante comentado na literatura, onde para um alinhamento mltiplo A = (a
ih
), o alinhamento
A
ij
entre duas seqncias a
i
e a
j
pode ser dada por:

( ) (

=
=
m
h
jh ih ij
a a d A s
1
, , )

onde d representa a distncia entre smbolos do alfabeto = {-} e m o tamanho final
das seqncias (aps o alinhamento). A soma de pares para o alinhamento A ser dada por
( )

j i
ij
A s
,
.

Definio 2.2: O alinhamento mltiplo das seqncias s
1
, s
2
, ..., s
n
ser representado pelo
conjunto de seqncias s
1
, s
2
, ..., s
n
(com espaos), que obtenham a maior similaridade do
alinhamento mltiplo, dado que:
- |s
1
| = |s
2
| = ... = |s
n
|, onde |s| o tamanho de s;
- Removendo os espaos de s
1
, s
2
, ..., s
n
obtm-se respectivamente s
1
, s
2
, ..., s
n
.

2.3.1 Discusso

A programao dinmica resolve o problema de alinhamento mltiplo para k seqncias
de tamanho n, em tempo de O((2n)
k
). Diferentes algoritmos de programao dinmica foram
apresentados [Sankoff, 1975], [Sankoff, 1985], [Waterman et al., 1976]. Entretanto,
algoritmos exatos para o problema de alinhamento mltiplo para valores de k muito grande
(muitas seqncias) so inviveis [Wang & Jiang, 1994]. Wang e Jiang mostraram que o
problema NP-difcil quando utilizado a medida de soma-de-pares (SP measure) e o
alinhamento em rvore, para resoluo do problema. Kececioglu [Kececioglu, 1993]
formalizou a noo de que o alinhamento mltiplo pode ser considerado como um conjunto
de alinhamento de duas seqncias, conhecido como problema do peso mximo (maximum
weight trace problem). Ele provou que o problema NP-difcil e apresentou um algoritmo
branch-and-bound. Feng e Doolittle [Feng & Doolittle, 1987] usam um par de seqncias
17
com a melhor similaridade e a partir destas duas seqncias gera-se uma nova, preservando o
princpio de once a gap, always a gap (isso implica que no processo de alinhamento,
sempre que se adiciona um gap na seqncia resultante tambm deve ser adicionado um gap
nas seqncias j alinhadas). Como resultado, o alinhamento mltiplo de k seqncias
reduzido para o alinhamento de k-1 seqncias, e assim por diante. Muitos outros algoritmos
de alinhamento mltiplos usando estratgia similar foram apresentados na literatura [Barton
& Sternberg, 1987], [Taylor, 1987], [Bains, 1986], [Higgins et al., 1996].
Apesar do algoritmo de Feng e Doolittle [Feng & Doolittle, 1987] trabalhar bem para
seqncias prximas (similares), este mtodo no garantia performance. O primeiro algoritmo
aproximativo para o problema de alinhamento mltiplo a garantir performance (com razo de
aproximao 2-2/k) foi proposto por Gusfield [Gusfield, 1993].

2.4 Problema de Digesto Dupla (Double Digest Problem (DDP))

Duas enzimas de restrio so aplicadas nas seqncias de DNA clivando-as em
pequenos fragmentos. Os tamanhos destes fragmentos so medidos utilizando a tcnica de
eletroforese em gel. Conhecendo os tamanhos dos fragmentos gerados pela aplicao
individual das duas enzimas enz1 e enz2, e a aplicao das duas enzimas juntas, sobre estas
trs seqncias iguais (clonadas), o objetivo ser determinar a seqncia original.
Aplicando as enzimas enz1 e enz2 separadamente e, enz1 e enz2 juntas, em trs
seqncias iguais clonadas, obtm-se os respectivos conjuntos:

{ } n i a A
i
= 1 , , { } m i b B
i
= 1 , e { } l i c C
i
= 1 , ,

onde cada elemento dos conjuntos acima representa o tamanho de cada fragmento
criado. O total de elementos de cada conjunto A, B e C representado respectivamente por n,
m e l.
Seja L o tamanho da seqncia original (antes da ao das enzimas de restrio) e
supondo que os tamanhos dos fragmentos so medidos sem erros (caso ideal do problema),
pode-se garantir que:
18

L c b a
l i
i
m i
i
n i
i
= = =
1 1 1


Seja uma permutao do conjunto A e uma permutao do conjunto B, pode-se
obter a partir destas permutaes o conjunto das localizaes de corte (esta definio pode ser
melhor entendida no Exemplo 2.2).

( ) ( ) , :
1 1
)
`

= = =
r j t j
j b s ou j a s s S

onde 1 r n e 1 t m, sem
repeties.

Reordenando o conjunto S, obtm-se:

S = { s
j
, 1 j l }, onde s
i
s
j
, i j.

Isto implica que C(,) pode ser definido da seguinte forma:

C( , ) = { c
j
( , ) = s
j
- s
j-1
}, para todo 1 j l.

Definio 2.3: Dados 3 conjuntos A, B e C de inteiros, encontrar as permutaes e , do
conjunto A e B respectivamente, de forma que C = C(, ).

Segue abaixo um exemplo ilustrativo para melhor compreenso (Exemplo 2.2).

Exemplo 2.2: Sejam 3 seqncias iguais (clonadas). Aplicando a enzima enz1 numa
seqncia de DNA, esta enzima cliva a seqncia em pequenos fragmentos que so medidos
pelo processo eletroforese em gel resultando no conjunto de inteiros A = {3,8,6,10}.
Aplicando a enzima enz2 na segunda seqncia clonada, obtm-se o conjunto B = {4,5,11,7}
e aplicando as enzimas enz1 e enz2 juntas na terceira e ltima seqncia clonada, obtm-se o
conjunto C = {3,1,5,2,6,3,7} (vide Figura 2.1).

19

Figura 2.1: Exemplo do DDP

O objetivo permutar o conjunto A e o conjunto B, de forma a sobrepor um conjunto no
outro em diferentes ordens dos fragmentos, observando que os conjuntos esto desordenados,
e a partir desta sobreposio os novos tamanhos resultem no conjunto C.

S = ( ) ( )


+
r j t j
j b j a
1 1


( )

r j
j a
1

= {3,11,17,27}
( )

t j
j b
1

= {4,9,20,27}
S = {3,4,9,11,17,20,27}
C = {3,1,5,2,6,3,7}

Desta forma, o conjunto C obtido representa uma soluo para o problema.

2.4.1 Variaes do Problema

Neste problema pode-se encontrar alguns erros de experimentos de laboratrio que no
sero modelados aqui, so eles:
- Clivagem parcial. A enzima pode falhar e no clivar a cadeia no local devido. Assim,
existiro grandes fragmentos na instncia do problema.
- Tamanho do fragmento. O processo de medida dos fragmentos (eletroforese em gel)
no consegue medir os tamanhos dos fragmentos com exatido, admitindo erros
tpicos entre 2% e 7%.
20
- Pequenos fragmentos podem ser perdidos.
- Doublets. Dois fragmentos com o mesmo tamanho podem se sobrepor, e um pode ser
perdido.

2.4.2 Discusso

Muitos algoritmos tm sido propostos para este problema [Pevzner, 1992], [Pevzner,
1995], [Schmitt & Waterman, 1991], [Waterman & Griggs, 1986], dentre outros. Goldstein e
Waterman [Goldstein & Waterman, 1987] provaram que este problema NP-completo e
mostraram que o nmero de solues para o DDP cresce exponencialmente medida que o
nmero de cortes aumenta (isto , medida que aumenta o nmero de posies onde as
enzimas clivam a seqncia de DNA). Em 1991, Schmitt e Waterman, mostraram que apesar
do nmero de solues crescer exponencialmente, como mostrado em [Goldstein e
Waterman, 1987], a maioria das solues so similares.

2.5 Problema de Digesto Parcial (Partial Digest Problem (PDP))

Este problema similar ao DDP. No entanto, utiliza-se apenas uma nica enzima de
restrio. Esta enzima de restrio aplicada vrias vezes em uma cadeia de DNA em
perodos diferentes de tempo. O resultado dessa ao um multi-conjunto de fragmentos
(vide Figura 2.2), onde n representa o nmero de posies onde a enzima de restrio cliva a
cadeia de DNA. Similarmente ao DDP, o propsito encontrar a seqncia original a partir
do multi-conjunto dado.
|
|
.
|

\
|
2
n

Definio 2.4: Seja a seqncia original X = {X
1
, X
2
, ..., X
n
|X
1
< X
2
< ... < X
n
}, onde cada X
i

representa uma posio onde a enzima cliva a seqncia X, para 1 i n. Dado o conjunto de
inteiros D = {|X
i
X
j
||1 i j n} (resultado da aplicao da enzima de restrio na cadeia
de DNA), reconstruir a srie original X
1
, X
2
, ..., X
n
.
21
Exemplo 2.3:

Entrada: D = {2, 5, 7, 7, 9, 9, 14, 14, 16, 23}
Sada: X = {0, 7, 9, 14, 23}


Figura 2.2: Exemplo do PDP

2.5.1 Variaes do Problema

No PDP ocorrem os mesmos erros laboratoriais do problema anterior, desta forma,
vrias extenses do problema clssico citado anteriormente foram apresentados na literatura.
Sero citadas a seguir, duas extenses na verso de otimizao, buscando solues para
alguns desses erros laboratoriais [Cieliebak et al., 2003].

O problema de minimizao do super-conjunto do PDP, modela a situao de omisso
de alguns fragmentos, buscando o conjunto de pontos cujo nmero de fragmentos omitidos
seja mnimo.

Definio 2.5: Dado um conjunto D = {d
1
,d
2
,...,d
k
} de k inteiros (onde alguns fragmentos
foram perdidos), encontrar o menor conjunto P = {p
1
,...,p
m
} de m inteiros, tal que
. } 1 | | | { m j i p p D
j i


22
O problema de maximizao do sub-conjunto do PDP modela a situao de fragmentos
adicionados erroneamente, buscando o conjunto de pontos cujo nmero de fragmentos
adicionais seja mnimo, maximizando o conjunto P de pontos.

Definio 2.6: Dado um conjunto D = {d
1
,d
2
,...,d
k
} de k inteiros, encontrar o maior conjunto
P = {p
1
,...,p
m
} de m inteiros, tal que } 1 | | | { m j i p p D
j i
.

2.5.2 Discusso

Este problema tambm conhecido como problema rodovirio (turnpike problem),
onde so dadas as distncias entre cada uma das cidades, que se encontram numa rodovia
(no se conhece a ordem das cidades ao longo da rodovia), deseja-se encontrar a ordem das
cidades ao longo da rodovia [Dakic, 2000]. O PDP pode ser resolvido em tempo pseudo-
polinomial [Lemke & Werman, 1988], [Rosenblatt & Seymour, 1982]. Skiena et al. [Skiena
et al., 1990] propuseram um algoritmo backtracking que tinha uma performance muito boa na
prtica, mas em alguns casos requeria tempo exponencial. Em 1994, Skiena e Sundaram,
propuseram um algoritmo branch-and-bound. Entretanto, ainda no se conhece um algoritmo
polinomial para este problema. Cieliebak et al. [Cieliebak et al., 2003] provaram que para o
PDP considerando o caso real, onde erros so encontrados nas informaes de entrada (no
conjunto de fragmentos), a complexidade do problema se torna NP-difcil.

2.6 Mapeamento Fsico Usando Hibridizao

No mapeamento fsico usando hibridizao so utilizadas as informaes de
sobreposio entre os fragmentos. Os fragmentos so replicados usando a tcnica de
clonagem. Depois de copiados, os clones da seqncia de DNA original so clivados com
diferentes tcnicas (processo de clivagem). As informaes dos clones so obtidas atravs de
experimentos de hibridizao. Nestes experimentos tenta-se verificar se pequenas seqncias,
chamadas de sondas (probes), hibridizam o clone (isto , se a sonda est presente no clone).
23
A impresso digital (fingerprint) de um clone representada pelo conjunto de sondas que o
hibridizam. Para dois clones que compartilham parte destas impresses digitais muito
provvel que estes tenham regies sobrepostas na cadeia de DNA original, conseqentemente
muito provvel que os fragmentos sejam adjacentes.
Dada uma biblioteca de clones CL, cujos clones correspondem a subintervalos de
grandes fragmentos de um determinado DNA S, e um conjunto P de sondas. Cada sonda p
j

P rotulada e testada contra os clones da biblioteca. Se um clone contm uma seqncia que
corresponda a sonda testada, esta seqncia ser hibridizada. O resultado destes experimentos
uma matriz A
clonesxsondas
que mostra a relao clone x sonda (vide Figura 2.3) onde a
ij
= 1, se
a sonda p
j
hibridiza o clone c
i
, e a
ij
= 0 caso contrrio, para 1 i |CL| e 1 j |P|.


Figura 2.3: Deteco de sobreposio por hibridizao

O problema consiste em encontrar a ordem das sondas P que correspondam a suas reais
posies no DNA S, de forma que a ordem dos fragmentos do DNA seja encontrada,
conseqentemente, a seqncia de DNA original encontrada. A seguir, apresentado um
modelo clssico para resoluo do problema de mapeamento com hibridizao sem
24
considerar erros de experimentos de laboratrio e considerando tambm as seguintes
premissas:
- Sondas so nicas no fragmento, em um nico fragmento de DNA uma sonda aparece
apenas uma vez.
- No existem erros
- Todos clones x sondas so encontrados na matriz.

Definio 2.7: Dada uma matriz hibridizada, encontrar a permutao das colunas (sondas)
tal que a nova matriz reordenada contenha em cada linha i no mximo um bloco consecutivo
de uns (de sondas marcadas).

2.6.1 Variaes do Problema

Considerando o problema citado anteriormente, conhecido como mapeamento com
sondas nicas, pode ser resolvido em tempo polinomial. No entanto, o problema se torna NP-
difcil [Golumbic et al., 1994], quando so considerados erros de experimentos laboratoriais,
como:
- Falsos positivos, uma sonda que hibridizou onde no existe.
- Falsos negativos, uma sonda que falhou na hibridizao onde deveria existir.
- Inconsistncia causada por repetidas seqncias
- Clones com informaes deletadas, includas ou alteradas.

Uma definio similar a anterior, pode ser modelada da seguinte forma na verso de
otimizao:

Definio 2.8: Dada uma matriz hibridizada, encontrar a permutao das colunas (sondas)
tal que a nova matriz reordenada minimize, em cada linha i, o nmero de blocos consecutivos
de uns (de sondas marcadas).

25
2.6.2 Discusso

Para a primeira definio (Definio 2.7), um algoritmo polinomial (consecutive ones)
foi apresentado por Booth e Lueker [Booth & Lueker, 1976]. Este algoritmo roda em
O(n+m+r) e codifica de maneira compacta todas as solues possveis (onde r o nmero
total de 1s na matriz). Entretanto, melhorias foram apresentadas por [Hsu, 1992], [Meidanis
& Munuera, 1996]. Outras referncias para o mapeamento por hibridizao com sondas
nicas foram estudadas em [Greenberg & Instrail, 1994], [Greenberg & Instrail,1995],
[Alizadeh et al., 1995]. A segunda referncia contm uma excelente descrio de vrios
aspectos do problema, e vrios algoritmos foram apresentados. O mapeamento por
hibridizao com sondas no nicas foi sugerido por Poustka et al. [Poustka et al., 1986]. Em
[Mayraz & Shamir, 1999] foram apresentados algoritmos que trabalham bem com a presena
de erros de hibridizao. Muitas outras extenses do problema clssico so encontradas na
literatura.

2.7 Problema da Menor Super-Cadeia Comum (Shortest
Common Superstring (SCS))

A idia do modelo da menor super-cadeia comum consiste em: dado um conjunto de
cadeias, encontrar a menor cadeia possvel de modo que todas as cadeias originais sejam sub-
cadeias da cadeia soluo.

Definio 2.9: Dado um conjunto S = {s
1
,s
2
,...,s
n
} de cadeias, encontrar a menor cadeia X tal
que cada cadeia s
i
S seja uma sub-cadeia de X.

Veja a figura 2.4 a seguir ilustrando este mtodo de sequenciamento de DNA.

26

Figura 2.4: Entrada e sada para o SCS

2.7.1 Discusso

Este problema NP-completo [Gallant et al., 1980]. Turner [Turner, 1989] apresentou
vrios algoritmos, incluindo o mtodo guloso. O primeiro algoritmo de aproximao
constante relacionado ao tamanho da menor superstring foi apresentado por Blum et al.
[Blum et al., 1994], que desenvolveram um algoritmo 3-aproximado. Este trabalho se baseou
na relao do SCS com os problemas do caixeiro viajante e o problema de cobertura cclica
(cycle cover problem) [Turner, 1989]. A partir de ento, vrias melhorias na razo de
aproximao foram apresentadas. Em [Teng & Yao, 1993] foi apresentado uma razo de
performance 2+8/9; Czumaj et al. [Czumaj et al., 1994] apresentaram uma razo de
performance 2+5/6; Kosaraju et al. [Kosaraju et al., 1994] apresentaram uma razo de
performance 2+50/63; e Armen e Stein apresentaram uma razo de performance 2+3/4
[Armen & Stein, 1995] e 2+2/3 [Armen & Stein, 1996]. A maioria destes algoritmos rodam
no tempo O(|S| + n
3
), onde |S| representa o tamanho da superstring e n representa o nmero de
fragmentos.

2.8 Rearranjo de Genoma

Atualmente, uma grande quantidade de informaes genticas se encontram disponveis
para pesquisa. Desta forma, um desafio importante para biologia molecular obter
27
concluses biolgicas relevantes. Uma das formas de se estudar estas informaes atravs
da comparao de genomas, que tem como objetivo buscar semelhanas e diferenas entre os
genomas dos organismos, desejando encontrar uma distncia entre as espcies analisadas
[Pevzner, 2000], [Meidanis & Setbal, 1997].
Observa-se que da mesma forma que seqncias de um gene so alteradas (ao nvel de
bases) no decorrer da evoluo molecular, isso tambm ocorre em um nvel mais alto, onde
grandes trechos de um cromossomo podem ser movidos ou copiados para outra localizao,
no mesmo cromossomo ou entre cromossomos. Esses movimentos so conhecidos como
rearranjo genmico. O principal propsito no estudo do rearranjo de genomas encontrar
uma srie de operaes, rearranjos, que transformem um genoma em outro. As duas
principais operaes estudadas no rearranjo de genomas so: a reverso e a transposio. A
reverso inverte a ordem do gene (ou bloco), e a transposio corta e cola em outra posio
um gene (ou bloco).
Um modelo possvel para estudar a evoluo dos genomas representar os genomas
como permutao de genes. O objetivo encontrar a menor distncia, ou seja, o menor
nmero de operaes, para transformar um genoma em outro.
Considere os genes representados como inteiros de 1 a n , e um genoma , representado
pela permutao de genes, onde :{1,2,...,n}a{1,2,...,n} pode ser descrito por (
1

2
...
n
), e
i

representa um gene (ou bloco), para 1 i n. O gene
i
, para 1 i n, pode possuir sinal
positivo ou negativo para modelar a orientao do gene.
Considere a ordem e orientao dos genes em um cromossomo representada pela
permutao =(
1

2
...
n
), onde cada
i
um inteiro com sinal, para 1 |
i
| n e |
i
| |
j
|
onde ij.
A funo reverso r(i,j), definida por dois inteiros i e j, onde 1 i j n, reverte a
ordem e o sinal de
k
, para i k j. Assim, tem-se:

( ) j i r , . ( )
n j j i i
L L L
1 1 1 +
= ( )
n j i i j i
L L L
1 1 1 1 + +


onde
k
significa
k
com o sinal oposto.
28

A funo transposio t(i,j,k) definida por trs inteiros i, j e k, onde 1 i < j n+1, e
k[i,j]. Esta funo corta a poro entre as posies i e j-1(inclusive) e cola na posio k.
Assim, se i < j < k, pode-se escrever:

( ) ( )=
n k k j j i i
k j i t L L L L
1 1 1 1
. , , ( )
n k j i k j i
L L L L
1 1 1 1


Definio 2.10: Dadas duas permutaes e

, deseja-se computar a menor srie de
operaes (reverso e transposio) para transformar em .

Assim, deseja-se encontrar
1
,
2
, ...,
u
, onde
i
uma operao de reverso ou de
transposio tal que
u
.
u-1
...
2
.
1
. = e u seja mnimo, onde u representa o nmero de
operaes (distncia) de reverso e de transposio entre e .

Segue abaixo, um exemplo para o clculo da menor distncias entre dois genomas
conhecidos utilizando a operao de reverso.
Considere os genomas da alfafa e ervilha (vide Figura 2.5). Cada seta denota um bloco.
Um bloco uma seo do genoma que contm mais de um gene. A seta denota que o bloco
tem orientao. A razo pelo qual cada bloco tem orientao est diretamente ligada a
orientao da fita de DNA (5 3). Dois blocos em diferentes genomas tm o mesmo
nmero (label da seta) se eles so homlogos, isto , contm os mesmos genes.

Alfafa

9 10 11 1 2 3 4 5 6 7 8


Ervilha

9 10 11 6 5 1 7 8 2 3 4

Figura 2.5: Genoma cloroplasta da alfafa (genoma inicial) e
genoma cloroplasta da ervilha (genoma final)

29
A operao reverso inverte as setas e os blocos. O objetivo encontrar o menor
nmero de reverses para chegar ao genoma final (genoma da ervilha) a partir do genoma
inicial (genoma da alfafa).
Uma soluo possvel considerando blocos orientados dada pela Figura 2.6. A
primeira linha representa o genoma da alfafa, e a ltima linha o genoma da ervilha. A partir
da segunda linha, cada linha obtida a partir da linha anterior aplicando-se a reverso dos
blocos sublinhados.


9 10 11 1 2 3 4 5 6 7 8


9 10 11 1 2 3 4 5 6 7 8


9 10 11 1 7 6 5 4 3 2 8


9 10 11 6 7 1 5 4 3 2 8


9 10 11 6 7 1 5 8 2 3 4


9 10 11 6 5 1 7 8 2 3 4


9 10 11 6 5 1 7 8 2 3 4


9 10 11 6 5 1 7 8 2 3 4

Figura 2.6: Soluo para blocos orientados da figura 2.5

Em alguns casos no se tem informao suficiente da orientao dos blocos. Assim, o
problema ser tratado sem orientao (vide Figura 2.7).

8 7 6 5 4 3 2 1 11 10 9
8 7 1 2 3 4 5 6 11 10 9
4 3 2 1 7 8 5 6 11 10 9
4 3 2 8 7 1 5 6 11 10 9
Figura 2.7: Soluo para blocos no-orientados da figura 2.6

30
2.8.1 Discusso

Em [Bafna & Pevzner, 1996], [Hannenhalli & Pevzner, 1999], [Kececioglu & Sankoff,
1995] foram apresentadas grandes contribuies para o assunto rearranjo de genomas. Outras
contribuies importantes devem ser citadas; [Berman & Hannenhalli, 1996] que
apresentaram a implementao mais eficiente para o algoritmo de reverso ordenada.
Hannenhalli e Pevzner [Hannenhalli & Pevzner, 1995b] apresentaram uma soluo
polinomial para o problema de rearranjo de genoma envolvendo conjunto de cromossomos.
Ferreti et al. [Ferreti et al., 1996] estudaram o problema da evoluo inferida nas informaes
sobre que genes ocorrem em qual cromossomo.
Uma anlise da evoluo genmica foi apresentada por Sankoff [Sankoff, 1993].
Caprara et al. [Caprara et al., 1995] propuseram um algoritmo para ordenao de
permutaes no orientadas com bons resultados na prtica. Caprara [Caprara, 1997] mostrou
que para as permutaes no orientadas este problema NP-difcil. Para as permutaes
orientadas existem algoritmos polinomiais (citados anteriormente).
31
Captulo 3

Arredondamento Randmico e o Problema da
Seqncia Mais Prxima (PSMP)

3.1 Introduo

Em muitos problemas da biologia molecular deseja-se comparar e encontrar regies
comuns ou que sejam prximas a um conjunto de seqncias de DNA, RNA ou protenas.
Estes problemas so encontrados em vrias aplicaes como: busca de regies conservadas
em seqncias no alinhadas, identificao de drogas genticas, formulao de sondas
(probes) genticas, entre outras [Hertz & Stormo, 1995], [Lawrence & Reilly, 1990], [Posfai et
al., 1989], [Lucas et al., 1991], [Proutski & Holme, 1996], [Stormo, 1990], [Stormo & Hartzell,
1991], [Waterman et al., 1984], [Waterman & Griggs, 1986], [Waterman & Perlwitz, 1984]. No
Problema da Seqncia Mais Prxima PSMP (Closest String Problem) deseja-se determinar
a seqncia que mais se aproxima, segundo alguma mtrica, de um dado conjunto de
seqncias.
O problema da seqncia mais prxima tem sido muito estudado. Frances e Litman
[Frances & Litman, 1997] mostraram que o problema NP-difcil. Berman et al. [Berman et
al., 1997] apresentaram um algoritmo exato polinomial de uma verso parametrizada. Neste
caso, a distncia d entre a seqncia a ser determinada e o conjunto dado de seqncias
constante. Ben-Dor et al. [Ben-Dor et al., 1997] e Gasieniec et al. [Gasieniec et al., 1999]
apresentaram um algoritmo aproximativo, com razo de performance prxima do valor timo
para d suficientemente grande. Lanctot et al. [Lanctot et al., 1999] obtiveram um algoritmo
(4/3+)-aproximado (para >0). Li et al. [Li et al., 2002] apresentaram um esquema de
aproximao polinomial para o problema. Finalmente, Pardalos et al. [Pardalos et al., 2004]
propuseram mtodos exatos baseados em branch-and-bound e trs novas formulaes de
32
programao linear inteira para o problema. Propuseram tambm uma heurstica usada para
limitar superiormente o valor da soluo tima do PSMP.
Neste captulo sero apresentados primeiramente a definio do problema e os conceitos
bsicos necessrios. Posteriormente, sero analisadas a prova de NP-completude e a
utilizao da tcnica de arredondamento randmico (Randomized Rounding). Nesta tcnica,
basicamente, formula-se o problema original como um problema de programao linear
inteira, encontra-se a soluo relaxada deste modelo, que definir probabilidades a serem
utilizadas na etapa randmica para gerao de uma soluo aproximada.
Ser apresentada tambm a tcnica de derandomizao, que consiste na construo de
algoritmos determinsticos, a partir de probabilidades definidas pela relaxao linear. Uma
ateno especial ser dada ao mtodo das probabilidades condicionais e o mtodo dos
estimadores pessimistas.

3.1.1 Definio do Problema e Conceitos Bsicos

Vrias medidas tm sido propostas para medir a distncia (ou diferena) entre
seqncias. Utilizaremos a distncia de Hamming, denotada pela funo d
H
(.). A distncia de
Hamming entre duas seqncias de mesmo tamanho calculada simplesmente contando-se o
nmero de posies correspondentes dos caracteres onde as duas seqncias diferem (uma
justificativa mais tcnica no uso freqente da distncia de Hamming para comparao de
seqncias na biologia molecular, pode ser encontrada em [Lanctot et al., 1999]).
Considere um alfabeto finito . Seja s uma seqncia finita do alfabeto , onde |s|
denota o tamanho de s e s[i] o i-simo caractere de s.
Considere um conjunto S = {s
1
,s
2
,...,s
m
} de seqncias (todas de tamanho n), sobre um
alfabeto . No PSMP deseja-se encontrar uma seqncia s
H
de tamanho n que minimize d
onde, para cada s
i
S, tenhamos d
H
(s
H
, s
i
) d, para i=1...m.
Formalmente, temos:

33
( )


=
n
H
i H H
s
m i d s s d
a s
d
,..., 1 , ,
.
min

onde
n
representa o conjunto de todas as seqncias com n caracteres.

So apresentados alguns lemas auxiliares [Motwani & Raghavan, 1995], desigualdades
de Chernoff-Hoeffding (Lemas 3.1, 3.2, 3.3 e 3.4), que sero utilizados posteriormente na
anlise da razo de aproximao dos algoritmos propostos na literatura.

Lema 3.1: Sejam X
1
, X
2
, ..., X
n
, variveis 0-1 aleatrias independentes, onde X
i
= 1 com
probabilidade p
i
, 0 < p
i
<1. Seja e = E[X], ento para qualquer > 0,
=
=
n
i i
X X
1
( ) ,
) 1 (
) 1 (
) exp(
) 1 ( Pr ) 1 (



(
(

+
+
< + > X
( ) .
2
2
1
exp ) 1 ( Pr ) 2 ( |
.
|

\
|
< X

Do Lema 3.1, pode-se provar os seguintes resultados:

Lema 3.2: Sejam X
i
, para 1 i n, X e , como definidos no Lema 3.1. Ento, para qualquer
0 < 1,
( ) ,
2
3
1
exp Pr ) 1 ( |
.
|

\
|
< + > n n X
( ) .
2
2
1
exp Pr ) 2 ( |
.
|

\
|
< n n X

Lema 3.3: Sejam X
1
, X
2
, ..., X
n
, variveis aleatrias independentes, onde X
i
assume valores
no intervalo real [a,b]. Seja e > 0 ento:
=
=
n
i
i
X X
1

34
( ) ( )
( )
|
|
.
|

\
|

+
2
3
2
] [
exp ] [ 1 Pr
a b
X E
X E X



Lema 3.4: Sejam X
1
, X
2
, ..., X
n
, variveis aleatrias independentes, onde X
i
assume valores
no intervalo real [a,b]. Seja e > 0 ento:
=
=
n
i
i
X X
1

( )
( )
|
|
.
|

\
|

>
n a b
X E X
2
2
2
exp ] [ Pr



Considere finalmente o seguinte lema auxiliar:

Lema 3.5: Sejam X
1
, X
2
, ..., X
n
, variveis aleatrias arbitrrias. Ento, max (E[X
1
], ..., E[X
n
])
E[max(X
1
, ..., X
n
)]. Equivalentemente, min (E[X
1
], ..., E[X
n
]) E[min(X
1
, ..., X
n
)].

3.2 Complexidade do PSMP

O PSMP classificado como NP-Difcil. Em [Lanctot et al., 1999] foi mostrado
inicialmente, que o problema 3-SAT (NP-Completo) redutvel ao Problema da Seqncia
Mais Distante na verso deciso (PSMD-Deciso). Logo aps, mostrou-se que o PSMD-
Deciso redutvel ao PSMP-Deciso.
Para provar que um problema P
1
redutvel a um problema P
2
(representado por
), basta transformar uma instncia I
2 1
P P
1
do problema P
1
em uma instncia I
2
do problema
P
2
em tempo polinomial, de tal maneira que, resolvendo-se P
2
, resolve-se P
1
implicitamente.
Segue abaixo, a definio do problema auxiliar 3-SAT.

Definio 3.1: (Problema 3-SAT) Seja B uma expresso booleana qualquer na Forma
Normal Conjuntiva - FNC, ou seja, B ser formada por uma conjuno de clusulas e uma
disjuno de literais. Considere um conjunto C = {c
1
,c
2
,...,c
m
} de clusulas onde |c
i
| = 3, para
35
i = 1,...,m. Desejamos saber se existe ou no uma atribuio aos literais de B que a torne
verdadeira.

Definio 3.2: (Problema PSMD-Deciso) Dado um conjunto S = {s
1
,s
2
,...,s
m
} de
seqncias, todas de tamanho n, sobre um alfabeto e d um inteiro positivo. Desejamos saber
se existe uma seqncia s
F

n
tal que d
H
(s
F
, s
i
) d, i {1...m}.

A seguir, ser mostrada a prova de NP-Completude do PSMD-Deciso. Esta prova ser
dividida em dois casos: para o alfabeto || > 2 e para o alfabeto binrio (|| = 2).

Proposio 3.1: O PSMD-Deciso NP-Completo para o caso || > 2.
Prova: Primeiramente ser analisado o caso particular || = 3, onde ={0,1,*}. Logo aps,
ser mostrado a generalizao para qualquer alfabeto || > 2.
Seja dada uma instncia I
m,n
do problema 3-SAT com m clusulas {C
1
, C
2
, ..., C
m
} e n
literais {l
1
, l
2
, ..., l
n
}. O objetivo ser transformar a instncia I
m,n
numa instncia do problema
PSMD-Deciso (representada por S
m,n,d
) de maneira que, ao resolver o PSMD-Deciso
estaremos resolvendo o problema 3-SAT implicitamente.
Cada clusula C
i
(onde i=1..m) da instncia I
m,n
estar associada a uma seqncia s
i
de
S
m,n,d
, onde |s
i
| = n+2. A seqncia s
i
ser codificada da seguinte forma, para j = 1..n+2, onde
j representa a j-sima posio da seqncia s
i
:

| |

+ + =

=
2 , 1 *,
*,
, 1
, 0
n n j se
C em aparece no l se
C l se
C l se
j s
i j
i j
i j
i


Alm das m seqncias codificadas, como definido acima, sero adicionadas mais 9
seqncias instncia S
m,n,d
, que serviro para garantir que a soluo gerada seja uma soluo
vlida para os problemas 3-SAT e PSMD-Deciso.
36
No entanto, estas 9 seqncias adicionadas sero codificadas diferentemente. As n
primeiras posies contero sempre o caracter *, e as duas ltimas posies sero diferentes
para cada uma das 9 seqncias, visto que, so duas posies para combinao dos 3
caracteres {0,1,*} do alfabeto.
Agora, deseja-se mostrar que a instncia I
m,n
satisfatvel se, e somente se, existir uma
seqncia s
H
de tamanho n+2 cuja d
H
(s
H
, s
i
) d, para 1 i m+ 9 e d = n.
Primeiramente, considere a instncia I
m,n
satisfatvel para uma atribuio s
H
{0,1}
n
.
Define-se ento, s
H
= s
H
00 = s
H
[1]s
H
[2]...s
H
[n]00 como soluo de S
m,n,n
. Para as primeiras
m seqncias de S
m,n,n
, se s
H
satisfaz C
i
, logo, os trs pontos seguintes ocorrem.
- Existe no mnimo uma diferena entre as seqncias s
H
e s
i
, entre os caracteres 1 e 0,
nas primeiras n posies.
- Existem n - 3 diferenas nas primeiras n posies, entre o caracter 0 ou 1 da seqncia
s
H
, com o caracter * da seqncia s
i
.
- Finalmente, existem mais duas diferenas nas duas ltimas posies entre as
seqncias s
H
e s
i
.

Nas ltimas 9 seqncias, como s
H
no contm nenhum smbolo *, logo, d
H
(s
H
,s
m+j
) n,
para todo 1 j 9. Finalmente, conclui-se que d
H
(s
H
, s
i
) n, para 1 i m+9.
Reciprocamente, se s
H
contiver *, no mnimo, uma das 9 ltimas seqncias invalidar o
PSMD-Deciso. Esta a razo pela qual s
H
{0,1}
n
, induzindo uma atribuio para os
literais l
j
, para j = 1..n. Esta atribuio ser satisfatria para o problema 3-SAT, desde que, no
mnimo um literal de cada clusula seja verdadeiro em funo da diferena entre s
H
e as n
primeiras posies de s
i
, para 1 i m. Desta forma, pode-se construir uma soluo para o
problema 3-SAT atribuindo-se verdadeiro a l
j
, se s
H
[j] = 1, e falso caso contrrio, para
j=1..n.
Desta forma, pode-se garantir que a seqncia s
H
satisfaz o problema 3-SAT, se, e
somente se, a seqncia s
H
satisfizer o PSMD-Deciso.

37
Agora, considere a generalizao para o alfabeto || > 2. Seja um alfabeto de tamanho p,
onde p > 2, (p-2)p
2
seqncias extras devero ser adicionadas ao conjunto de m seqncias, o
qual sero grupados em p-2 grupos, onde cada grupo conter p
2
seqncias. Em cada um dos
(p-2) grupos, suas respectivas seqncias contero nas primeiras n posies apenas um dos
caracteres do alfabeto -{0,1} (|-{0,1}| = p-2), e as duas ltimas posies a combinao (p
2
)
de 2 caracteres do alfabeto.
Considere o exemplo ilustrativo a seguir:

Exemplo 3.1: Considere a seguinte instncia I
m,n
do problema 3-SAT,

( ) ( ) ( ) ( ) ( ) { }
4 3 1 4 3 2 4 3 2 4 2 1 3 2 1 ,
l l l l l l l l l l l l l l l I
n m
= .

onde se destacam as seguintes clusulas,

( )
( )
( )
( )
( )
4 3 1 5
4 3 2 4
4 3 2 3
4 2 1 2
3 2 1 1
l l l C
l l l C
l l l C
l l l C
l l l C
=
=
=
=
=


Neste caso, m = 5 e n = 4. Pode-se construir a seguinte instncia S
m,n,d
em tempo
polinomial (vide Figura 3.1).
Pode-se observar, que dada uma seqncia s
H
= s
H
00 {0,1}
n+2
que satisfaa o PSMD-
Deciso, o problema 3-SAT tambm ser satisfeito por s
H
. Exemplo: s
H
= 100000.
Note, que as seqncias extras (s
6
,...,s
14
) servem para garantir que a soluo
s
H
[j]{0,1}, onde j=1..|s
H
|. Desta forma, se garante soluo para os dois problemas citados.
Caso contrrio (se no adicionasse as seqncias extras), existiriam casos onde no se
garantiria soluo vivel para os dois problemas. Veja contra-exemplo: s
H
= 1*00**,
soluo para o problema 3-SAT, entretanto, no soluo para o PSMD-Deciso.

38

Figura 3.1: Instncia S
m,n,d
.

Proposio 3.2: O PSMD-Deciso NP-Completo para o caso do alfabeto binrio || = 2.
Prova: Seja dada uma instncia I
m,n
do problema 3-SAT com m clusulas {C
1
, C
2
, ..., C
m
} e
n literais {l
1
, l
2
, ..., l
n
}. Para cada clusula C
i
, constri-se uma seqncia s
i
= s
i
[1]s
i
[2]...s
i
[n]
de tamanho 2n {00,01,11}
n
, onde s
i
[j] segue o formato definido abaixo, para i=1..m e
j=1..n:

=
i j
i j
i j
i
C em aparece no l se
C l se
C l se
j s
, 01
, 11
, 00
] [

Seja a funo p(x,i) representada pela seqncia (10)
i-1
x(10)
n-i
, e P
n
(x) o conjunto de n
seqncias, onde {p(x,i) | 1 i n}. Da mesma forma, seja a funo q(x,i) representada pela
39
seqncia (01)
i-1
x(01)
n-i
, e Q
n
(x) o conjunto de n seqncias, onde {q(x,i) | 1 i n}. A
instncia S
m,n,d
do PSMD-Deciso ser representada da seguinte forma:

} 1 | { } ) 01 {( ) 10 ( ) 11 ( ) 00 ( } ) 10 {( ) 01 ( ) 11 ( ) 00 (
, ,
m i s Q Q Q P P P S
i
n
n n n
n
n n n d n m
= U U U U U U U U

Claramente, pode ser observado que a instncia S
m,n,d
computada em tempo
polinomial, e igualmente a Proposio 3.1, o propsito da incluso de vrios conjuntos de
seqncias extras servem para forar uma soluo s
H
{00,11}
n
.
Agora, ser mostrado que a instncia I
m,n
satisfeita se, e somente se, existir uma
seqncia s
H
de tamanho 2n que tenha no mnimo n-1 diferenas para cada seqncia do
conjunto S
m,n,d
.
Primeiramente, assume-se que existe uma soluo s
H
para o problema 3-SAT. Assim,
uma seqncia s
H
= s
H
[1]s
H
[2]...s
H
[n], onde s
H
{00,11}
n
pode ser construda de forma que
exista no mnimo n-1 diferenas entre s
H
e cada seqncia s
i
S
m,n,d
. Segue abaixo a
construo da seqncia s
H
, para j = 1..n.

=
Falso l se
Verdadeiro l se
j s
j
j
H
, 00
, 11
] [

Desde que s
H
{00,11}
n
, a distncia para todas as seqncias do conjunto S
m,n,d
ser no
mnimo n-1 (d = n-1). Caso contrrio, s
H
no satisfaz o PSMD-Deciso.
Portanto, seja s
H
{00,11}
n
uma seqncia que satisfaz o PSMD-Deciso, tambm ser
uma soluo do problema 3-SAT, visto que para uma diferena entre as subseqncias 00 e
11 ou 11 e 00, entre s
H
e s
i
, corresponde a um literal verdadeiro na clusula C
i
(similar a
Proposio 3.1), para i=1..m.

Proposio 3.3: PSMD-Deciso PSMP-Deciso
40
Prova: Esta proposio mostra a reduo do PSMD-Deciso para o PSMP-Deciso,
garantindo desta forma, que o PSMP-Deciso NP-Completo. Conseqentemente, o PSMP
NP-Difcil.
Primeiramente, considera-se o caso onde ||= 2. Se existe, para o PSMD-Deciso, uma
seqncia s
F
e uma distncia d
F
, onde d
H
(s
F
, s
i
) d
F
, para todo s
i
S, logo, existe no mnimo
d
F
diferenas entre s
F
e s
i
. Conseqentemente sero encontradas no mximo d
H
= n - d
F

diferenas (no-coincidncias) entre s
H
e s
i
, onde s
H
a seqncia complementar de s
F
.
Assim, teremos para o PSMP-Deciso, d
H
(s
H
, s
i
) d
H
para cada s
i
S.
O caso binrio pode ser generalizado para o caso || > 2 da seguinte forma: dada uma
instncia S do PSMP-Deciso, sem perda de generalidade pode-se utilizar uma funo no-
binria para converter a instncia de entrada, onde || > 2, numa instncia binria.
Posteriormente, resolve-se o problema no formato binrio e no final converte a soluo
binria para o alfabeto original. Finalmente, provou-se que o PSMP NP-Difcil.

3.3 Algoritmos Aproximativos: Determinsticos e Randmicos

Em um problema de otimizao combinatria deseja-se minimizar (ou maximizar) uma
funo objetivo f(.) sujeita a um conjunto discreto X de solues viveis. Seja um
problema de otimizao combinatria, e I uma instncia qualquer de (representada por
I ). Se A um algoritmo aproximativo (determinstico ou randmico) para , ento x
A
(I)
o valor da funo objetivo gerado por A, I . O valor da soluo tima associada ser
representado por x*(I).
Idealmente, nos algoritmos aproximativos, deseja-se obter uma soluo que difira da
soluo tima apenas por uma pequena constante. Medidas desse tipo sero denominadas
medidas de aproximao absoluta. Algoritmos aproximativos que se encaixam nesse
conceito para algum k positivo sero chamados algoritmos de aproximao absoluta. Mais
formalmente, tem-se a seguinte definio:

Definio 3.3: (Algoritmos de aproximao absoluta)
Um algoritmo aproximativo A ser de aproximao absoluta para um problema se, e
somente se, para algum inteiro positivo k, tem-se | x
A
(I) x*(I) | k, I .
41

Note que a definio acima se aplica indistintamente para problemas de minimizao e
maximizao. Eliminando-se o mdulo da desigualdade, conclui-se diretamente que:
x
A
(I) x*(I)+k para problemas de minimizao, e x
A
(I) x*(I)-k para problemas de
maximizao (vide Figura 3.2(a)).
Claramente, conseguir um algoritmo de aproximao absoluta o melhor que se espera
obter para problemas NP-rduos. Infelizmente, para uma grande quantidade de problemas,
algoritmos de aproximao absoluta s existiro se P=NP! Em outras palavras, encontrar um
algoritmo de aproximao absoluta para um problema de otimizao (NP-rduo) poder
ser to difcil quanto encontrar um algoritmo de complexidade polinomial para o problema de
deciso associado! Em funo disso, criou-se uma outra medida de desempenho denominada
medida de performance relativa.
Garey et al. [Garey et al., 1972] e posteriormente Johnson [Johnson, 1974]
formalizaram o conceito de algoritmos aproximativos. Como discutido anteriormente, um
algoritmo aproximativo dever, necessariamente, ser polinomial no tamanho de qualquer
instncia para o problema. Considere ento as seguintes definies:

Definio 3.4: (Algoritmo f(n)-aproximativo)
Um algoritmo A com soluo x
A
(I) f(n)-aproximado para um problema de
minimizao (de maximizao) se, e somente se, qualquer que seja a instncia I de
tamanho n, a soluo obtida no mximo (no mnimo) f(n) vezes o valor da soluo tima
x*(I).

Observe atravs da definio acima que, se A f(n)-aproximado, ento x
A
(I) f(n).x*(I)
para problemas de minimizao, e x
A
(I) f(n).x*(I) para problemas de maximizao.
Normalmente, em problemas de maximizao assume-se que x*(I) > 0.



42
Definio 3.5: (Algoritmo

-aproximativo)
Um algoritmo A f(n)-aproximado

-aproximado para um problema de minimizao
(de maximizao) se, e somente se, f(n) (f(n) ) para algum > 0.

Naturalmente, deve-se ter 1 em problemas de minimizao, e 0 < 1 em
problemas de maximizao. Observe ainda que, quanto mais se aproxima de 1, melhor a
qualidade da soluo obtida pela heurstica. O parmetro tambm conhecido como razo
de performance absoluta ou fator de aproximao do algoritmo A. Em problemas de
maximizao tambm comum representar o fator de aproximao por 1/ (vide Figura
3.2(b)).

Figura 3.2: Razo de Performance em Problemas de minimizao e maximizao

De maneira geral, se um algoritmo aproximativo A (1+)-aproximado para um
problema , ento:

( ) ( )
( )

I
I x
I x I x
A
,
*
*
e > 0

Neste caso, basta fazer = 1 - em problemas de maximizao, e = 1 + em
problemas de minimizao.
43
Definio 3.6: (Esquema de aproximao polinomial)
Uma famlia de algoritmos aproximativos para um problema , {A

chamada um
esquema de aproximao polinomial se, e somente se, o algoritmo A

for (1+)-aproximado e
seu tempo de processamento for polinomial no tamanho da entrada para fixo.

Em outras palavras, o algoritmo polinomial A (1+)-aproximado pode ser visto como
uma famlia de algoritmos {A

| >0}. Vale ressaltar ainda que, se A

algoritmo (1+)-
aproximado para um problema de maximizao ento 1/ = 1 + fator de aproximao.
Desta forma, o fator de aproximao dos problemas de maximizao e minimizao so
sempre maiores que 1, e a Definio 3.6 se aplica a ambos os casos.
Para exemplificar esta definio, suponha que um algoritmo A

para um problema
qualquer tenha complexidade igual a n
1/
, onde >0 e n o tamanho do problema. Note que,
embora n
1/
represente uma funo polinomial em n, o tempo de processamento cresce
bastante quando 0. Idealmente, deseja-se que o tempo de processamento cresa mais
lentamente quando decresce. Esta situao pode ser mais bem formalizada atravs da
definio de esquemas de aproximao totalmente polinomiais.

Definio 3.7: (Esquema de aproximao totalmente polinomial)
Uma famlia de algoritmos aproximativos para um problema , {A

chamada de
esquema de aproximao totalmente polinomial se, e somente se, o algoritmo A

for (1+)-
aproximado e seu tempo de processamento for polinomial no tamanho da entrada n e 1/.

Como exemplo, se A

tem complexidade igual (1/)


2
n
4
para um problema qualquer,
ento A

define um esquema de aproximao totalmente polinomial para .



Definio 3.8: (Razo de performance em uma instncia I)
Seja A um algoritmo aproximativo para um problema de minimizao . A razo de
performance na instncia I, representada por R
A
(I) definida como:
44

( )
( )
( )
1
*
=
I x
I x
I R
A
A


Se um problema de maximizao ento:

( )
( )
( )
1
*
=
I x
I x
I R
A
A


Note que, independentemente do problema ser de maximizao ou minimizao, a
performance do algoritmo melhor quando R
A
(I) se aproxima de 1.
Considere agora a seguinte definio de algoritmo randmico -aproximado:

Definio 3.9: (Algoritmo randmico -aproximado)
Seja um problema de minimizao. Um algoritmo randmico A de complexidade
polinomial -aproximativo para se, e somente se, E(x
A
(I)) .x*(I), onde 1 e x
A
(I)
uma varivel aleatria. Se um problema de maximizao ento A -aproximativo para
se, e somente se, E(x
A
(I)) .x*(I), onde 1.

Em outras palavras, pode-se dizer que, se A um algoritmo randmico -aproximativo
para um problema de minimizao ento Pr[x
A
(I) .x*(I)] 1/2 onde 1. Analogamente,
Pr[x
A
(I) .x*(I)] 1/2 para 1 em problemas de maximizao.
Na determinao de uma soluo randmica aproximada, pode-se por exemplo, atribuir
valores aleatoriamente s variveis associadas ao problema, satisfazendo obviamente, alguma
distribuio estatstica. Outra possibilidade interessante a adoo de Programao Linear ou
Programao Semidefinida na gerao de probabilidades para o algoritmo randmico
considerado. Nos dois modelos ser possvel utilizar algoritmos polinomiais baseados nos
mtodos de pontos interiores [Wright, 1997]. Essa tcnica mais conhecida na literatura
como arredondamento randmico e ser discutida a seguir.

45
3.3.1 Arredondamento Randmico (Randomized Rounding)

Na tcnica de arredondamento randmico, introduzida inicialmente por Raghavan e
Thompson [Raghavan & Thompson, 1987], formula-se primeiramente um modelo de
programao linear inteira associado ao problema original. Em seguida resolve-se o problema
relaxado obtendo-se limitantes inferiores para o valor timo do problema original. A soluo
relaxada gerada definir probabilidades a serem utilizadas na etapa randmica, que
corresponde gerao de valores inteiros em funo das probabilidades definidas pelas
relaxaes.
Sem perda de generalidade, considere o seguinte modelo geral de programao linear
inteira 0-1:
( )
{ }

=
n
T
x
b Ax
x c I x
1 , 0
min *
(PPL)

onde I representa a instncia formada pelas matrizes A, b e c sendo A
mxn
, c
nx1
e
b
mx1
. A Relaxao Linear (RL) do PPL acima obtida substituindo-se a restrio
x{0,1}
n
, por x [0,1]
n
.
Pode-se resumir a tcnica de arredondamento randmico no procedimento genrico a
seguir (Algoritmo 3.1).
No passo (1) o algoritmo resolve o modelo de relaxao linear, obtendo uma soluo
fracionria y. No passo (2) atribui-se inicialmente ao valor da soluo heurstica.
Posteriormente, no passo (3), a soluo fracionria y define probabilidades na gerao de uma
soluo inteira x (arredondamento randmico). fundamental que a soluo gerada
randomicamente no passo 3 seja vivel com probabilidade constante maior que zero (mesmo
que pequena). Desta forma, repeties adicionais do passo 3, sempre salvando a melhor
soluo vivel a cada passo, reduzem arbitrariamente a probabilidade de falha. Neste caso,
uma falha (ou mau evento) pode indicar uma soluo invivel ou uma soluo cuja razo de
aproximao esteja fora de um limite pr-estabelecido (razo de performance).
46
O critrio de parada no Algoritmo 3.1 ser discutido mais adiante quando falamos do
Mtodo de Monte Carlo.


Algoritmo 3.1: Arredondamento Randmico

Pode-se utilizar as probabilidades obtidas no arredondamento randmico para gerao
de uma soluo determinstica (derandomizao). Desta forma, basta provar que uma soluo
randmica gerada no passo 3 do Algoritmo 3.1 soluo vivel com probabilidade no nula.
Segue, uma sntese do algoritmo para gerao de uma soluo determinstica.


Algoritmo 3.2: Tcnica de Arredondamento Randmico para gerao de uma soluo determinstica

47
No passo (1) o algoritmo resolve o modelo de relaxao linear, obtendo uma soluo
fracionria y. Posteriormente, no passo (2), pode-se usar a soluo fracionria y para gerao
de uma soluo determinstica do problema (derandomizao). fundamental provar que a
soluo gerada randomicamente no passo 3 do Algoritmo 3.1, ocorra com probabilidade de
sucesso maior que zero! Executa-se ento a etapa de derandomizao (passo 2 do algoritmo
3.2), que ser discutida a seguir.

3.3.2 Derandomizao

Em algumas situaes possvel construir algoritmos determinsticos com o auxlio de
tcnicas probabilsticas. Em outras palavras, deseja-se construir um algoritmo determinstico
sem que se sacrifique muito a qualidade da soluo e/ou tempo de processamento obtidos no
procedimento randmico. Infelizmente, no se conhece um mecanismo universal de
converso que seja aplicvel a todas as situaes.
Apesar de no existir um termo apropriado em portugus para esta tcnica, talvez o
mais conveniente seja cham-la simplesmente de derandomizao (semelhante ao termo
ingls derandomization). Entre os mtodos de derandomizao mais conhecidos na literatura
pode-se citar: o mtodo de expectncias condicionais, o mtodo dos estimadores pessimistas,
k-wise independence [Alon & Spencer, 1992] entre outros. Neste captulo ser enfatizado o
mtodo das probabilidades condicionais e o mtodo dos estimadores pessimistas introduzido
inicialmente por [Raghavan, 1988]. Neste trabalho, Raghavan mostra que, uma vez garantida
uma soluo vivel com probabilidade de sucesso estritamente positiva (passo 3 do
arredondamento randmico), uma soluo vivel x{0,1}
n
do PPL pode ser obtida
deterministicamente.
No mtodo das probabilidades condicionais, faz-se uma analogia com rvores de
deciso, construindo deterministicamente um vetor x, correspondente ao caminho de descida
da rvore de deciso.
Considere uma rvore binria completa T com n nveis. O j-simo nvel de T (onde
j{1..n}) ir representar a atribuio de valores 0-1 varivel aleatria x
j
. Cada folha da
48
rvore ir corresponder a um bom ou mau evento. O evento ser bom, se a soluo x obtida
for vivel ou dentro da razo de aproximao e mau, caso contrrio. Em outras palavras, um
mau evento B representa uma soluo invivel ou uma soluo que no satisfaz razo de
performance pretendida. O objetivo ser percorrer a rvore T da raiz at uma folha boa em
tempo determinstico polinomial (vide Figura 3.3).


Figura 3.3: rvore de deciso para busca de uma soluo vivel

A caminhada na rvore de deciso realizada da seguinte forma. Se varivel aleatria
x
1
atribudo o valor 1, percorre-se da raiz para seu filho direita. Se x
1
= 0, percorre-se para
o filho esquerdo e assim sucessivamente at que se chegue a uma folha da rvore T.
Note que, cada folha de T, corresponde a uma entre 2
n
(representada na Figura 3.3 por
x
i
, onde i {1.. 2
n
}) seqncias possveis de x = (x
1
x
2
...x
n
).
49
No mtodo probabilstico precisa-se mostrar inicialmente que Pr(B)<1 (probabilidade de
um mau evento), ou equivalentemente, Pr( B )>0 (onde B representa um evento
complementar ou bom evento). A questo natural que se coloca agora : como percorrer da
raiz at uma folha boa de T ?
Seja P
1
= Pr(B) e seja Y = (y
1
, y
2, ...,
y
n
) a soluo da Relaxao Linear RL discutida na
seo precedente. Da expresso de probabilidade absoluta tem-se [Meyer, 1983]:

P
1
= Pr(x
1
=1).P
2
(B|x
1
=1) + Pr(x
1
=0).P
2
(B|x
1
=0)

Como Pr(x
1
=1) = y
1
e Pr(x
1
=0) = 1 - y
1
, tem-se:

P
1
y
1
.min{ P
2
(B|x
1
=1) ; P
2
(B|x
1
=0) } + (1 - y
1
).min{ P
2
(B|x
1
=1) ; P
2
(B|x
1
=0) }
= P
2
(B| )
1
x
P
1
P
2
(B| ),
1
x

onde = 1 se, e somente se, P
1
x
2
(B|x
1
=1) P
2
(B|x
1
=0) e = 0, caso contrrio.
1
x

De maneiro geral, seja j um nvel de T, para j {1..n}, e P
j
(B| , ..., ) a
probabilidade condicional da ocorrncia de um mau evento, dado que os valores , ...,
j tenham sido obtidos. Tem-se ento que:
1
x
1

j
x
x
1
x
1 j

( ) ( ) ( ) ( ) 0 , ..., , 1 1 , ..., , ,...,
1 1 1 1 1 1 1 1 + +
+ =
j j j j j j j j
x x B P y x x B P y x x B P

( ) ( ) ( ) { } ( )
j j j j j j j j
x x B P x x B P x x B P x x B P ,..., 0 , ..., , , 1 , ..., , min ,...,
1 1 1 1 1 1 1 1 1 1 + + +
=

Desta forma, a probabilidade de P
j
ser sempre maior ou igual a probabilidade de P
j+1
.
O algoritmo determinstico sugerido ser apresentado a seguir (Algoritmo 3.3).
Observe finalmente que, se P
1
= Pr(B) < 1:

( ) ( ) ) Pr( ... ... 1
1 1 1 2 1
folha x x B P x B P P
n n
= >
+

50

Como Pr(folha) < 1, ento se garante que a soluo escolhida ser uma boa folha, visto
que, ( ) ( ) 0 Pr . ...
1 1
= =
+
folha x x B P
n n
. Em outras palavras, a soluo determinstica obtida ocorre
com probabilidade de erro zero. Como as probabilidades condicionais nem sempre so
determinadas facilmente, outras tcnicas de derandomizao podero ser utilizadas [Alon &
Spencer, 1992].


Algoritmo 3.3: Algoritmo de derandomizao, utilizando o mtodo de probabilidades condicionais.

No mtodo dos Estimadores Pessimistas introduzido por Raghavan [Raghavan, 1988],
as probabilidades condicionais so limitadas superiormente atravs de uma funo
U : [0,1]
n
[0,1) (denominada estimador pessimista) satisfazendo s seguintes condies:

1) U
1
(y
1
,..., y
n
) < 1, onde y uma soluo da relaxao linear do PPL descrito na Seo
3.3.1.
2) ( ) ( )
j j n j j j
x x B P y y x x U ,..., ,..., , ,...,
1 1 1 1 1 + + +
, onde para k=1,...,j uma atribuio
dada s variveis x
k
x
k
{0,1} e j {1,...,n}.
3) ( ) ( ) ( ) { }
n j j j n j j j n j j j
y y x x U y y x x U y y x x U ,..., , 0 , ,..., ; ,..., , 1 , ,..., min ,..., , ,...,
1 1 1 1 1 1 1 1 1 1 + + + +


51
O algoritmo de derandomizao ser idntico quele descrito acima, bastando substituir
as probabilidades condicionais pelos estimadores pessimistas correspondentes. Obviamente,
neste caso, a funo U : [0,1]
n
[0,1) dever ser computada facilmente.
52
Captulo 4

Algoritmos aproximativos para o PSMP

4.1 Introduo

Neste captulo e nos dois captulos seguintes (Captulos 5 e 6), sero apresentados os
principais algoritmos aproximativos citados na literatura para o PSMP. Aqui, dois algoritmos
sero apresentados. Na Seo 4.2 apresentado um algoritmo 2-aproximado bastante natural
para o problema. Na Seo 4.3, apresentado o algoritmo aproximativo de Ben-Dor et al.
[Ben-Dor et al., 1997], um algoritmo com razo de performance prximo do valor timo para
d suficientemente grande, onde d representa a maior distncia a ser minimizada (vide Seo
3.1.1). Finalmente, na ultima seo, desenvolvemos a estratgia de derandomizao sugerida
em [Ben-Dor et al., 1997]. Atravs do mtodo dos estimadores pessimistas, mostramos como
construir uma soluo determinstica atravs das probabilidades geradas na relaxao linear.

4.2 Algoritmo 2-aproximado

Como discutido anteriormente, considere um conjunto S = {s
1
,s
2
,...,s
m
} de seqncias,
todas de tamanho n, sobre um alfabeto . Seja s
opt

n
uma soluo tima e d
opt
a distncia
tima para o PSMP. Logo, para cada s
i
S, tem-se d
H
(s
opt
, s
i
) d
opt
, para i=1...m (vide Seo
3.1.1).
Na primeira heurstica apresentada, seleciona-se uma seqncia s
H
qualquer do conjunto
S como soluo do problema. Desta forma, pode-se garantir que d
H
(s
H
, s
i
) 2d
opt
, para
i=1...m. Esse resultado pode ser facilmente provado como a seguir.
Pela desigualdade triangular tem-se, d
H
(s
H
, s
i
) d
H
(s
H
, s
opt
)+ d
H
(s
i
, s
opt
). Como para
qualquer s
i
S, d
H
(s
i
, s
opt
) d
opt
, pode-se garantir que, para qualquer seqncia s
i
S,
53
d
H
(s
H
, s
i
) 2d
opt
, sendo s
H
S uma seqncia escolhida arbitrariamente como soluo do
problema.

4.3 Algoritmo aproximado de Ben-dor et al.[1997]

4.3.1 Introduo

A estratgia adotada por Ben-Dor et al. [Ben-Dor et al., 1997] foi formular um modelo
de programao linear inteira para o PSMP, resolver o modelo de relaxao linear, e utilizar
as componentes desta soluo relaxada como probabilidades no arredondamento randmico
(randomized rounding).
Poder ser observado mais adiante (Captulos 5 e 6) que as diferenas entre os
resultados obtidos na qualidade dos algoritmos randmicos aproximativos apresentados na
literatura para o PSMP, so referentes a pequenas adaptaes na tcnica de arredondamento
randmico, visto que, esta abordagem empregada na maioria dos algoritmos aqui
apresentados.
Seja = {
1
,

2
,
...
,

P
} um alfabeto finito de smbolos, S um conjunto de m seqncias
s
i

n
, e s
opt
a seqncia que se deseja encontrar (soluo tima). Define-se, para cada
caracter e cada caracter s
opt
[j], para j = 1..n, uma varivel binria x
j,
, onde x
j,
= 1 se,
e somente se, s
opt
[j] =

, caso contrrio x
j,
= 0. Considere agora o seguinte modelo de
programao linear inteira:

( )
{ }

=
=
= =
=
=

) 4 . 4 ( ; .. 1 , 1 , 0
) 3 . 4 ( .. 1 , ] [ ,
) 2 . 4 ( .. 1 , 1
.
) 1 . 4 ( min
,
,
1
,


n j x
m i d j s d x
n j x
a s
d d
j
i H j
n
j
j
opt


No modelo apresentado, (4.1) representa a funo objetivo que se deseja minimizar. As
restries (4.2) asseguram que somente um smbolo ser selecionado em cada posio
54
da soluo s
opt
. As desigualdades (4.3) especificam que a distncia entre cada seqncia de S
e s
opt
, deve ser menor ou igual a d
opt
. As desigualdades (4.4) indicam que somente valores 0
ou 1 podem ser atribudos s variveis x
j,
.
Segue abaixo a descrio detalhada do algoritmo aproximativo.


Algoritmo 4.1: Algoritmo aproximativo de Ben-Dor et al.[1997]

No passo (1), resolve-se o modelo de relaxao linear obtendo-se valores fracionrios
para
, j
x , onde 1 j n e . Com os valores de
, j
x no passo (2), constri-se a soluo
s
H
atravs do processo de arredondamento randmico. Finalmente, no passo (3), calcula-se a
maior distncia d
H
, comparando a soluo s
H
com todas as seqncias do conjunto S.

4.3.2 Anlise de Aproximao

Como observado no algoritmo acima, sejam
, j
x e d solues obtidas na relaxao
linear. Claramente, observa-se que d d
opt
. Os valores de
, j
x so valores fracionrios, no
representando, necessariamente, uma soluo vivel para o problema. Note que estes valores
55
sero usados como probabilidades no arredondamento randmico. A soluo heurstica
obtida, aps o arredondamento randmico, ser sempre vivel j que o valor da soluo d
H

calculado posteriormente obteno da seqncia s
H
.
Suponha que s
H
seja uma soluo (1+)-aproximada para algum > 0. Da definio de
algoritmo randmico aproximativo deve-se provar que E(d
H
)

(1+)d
opt
para algum > 0,
onde d
H
= max {d
H
(s
H
,s
i
); i=1..m} (vide Figura 4.1). Equivalentemente, pode-se provar que
Pr(d
H
> (1+)d
opt
) < 1, ou seja, a probabilidade de falha estritamente menor que 1. Desta
forma, no mtodo de Monte Carlo, discutido mais adiante, a probabilidade de falha se
aproxima arbitrariamente de 0 aps sucessivas repeties dos passos 2 e 3 do algoritmo
definido anteriormente (vide Algoritmo 4.1), sempre salvando-se a melhor soluo a cada
iterao.

Figura 4.1: Razo de aproximao

O estudo da soluo gerada pela heurstica, ser baseado na probabilidade de falha,
representada pelo evento B (d
H
> (1+)d
opt
). Como discutido anteriormente, necessrio
provar que a probabilidade de falha ser estritamente menor que 1. Dessa forma garante-se
que a probabilidade de sucesso ser sempre maior que 0.
Seja X
i
= d
H
(s
i
,s
H
) (para i=1,...,m) variveis aleatrias representado a distncia entre as
seqncias s
i
e s
H
. Considere ento, o seguinte resultado preliminar:

Lema 4.1: E[X
i
] d
opt
, i=1..m.
Prova:
| | ( ) | | ( )
(

= =
=
n
j
i H H i H H i
j s j s d E s s d E X E
1
] [ ], [ ,
56
(pela linearidade da expectncia) ( | =
=
n
j
i H H
j s j s d E
1
] [ ], [ )|
Da desigualdade (4.3) tem-se que:
| | ( ) =
=
n
j
i H j
j s d x E
1
,
] [ , .


( )
opt
n
j
i H j
d d j s d x =
= 1
,
] [ , .



Note agora que um mau evento ocorre (i.e., B (d
H
> (1+)d
opt
)) se, e somente se,
B
i
(X
i
> (1+)d
opt
) ocorre para pelo menos um ndice i {1..m}. Assim, dado 0 < < 1,
deve-se provar ento que:
( ) 1 Pr Pr
1
< |
.
|

\
|
=
=
U
m
i
i
B B


Logo, como E[X
i
] d
opt
para i=1..m, e > 0, espera-se que:

( ) ( ) ( ) ( ) ( ) ( )
m
X E X d X B
i i opt i i

+ > + > = 1 Pr 1 Pr Pr , i=1..m.

Da desigualdade de Chernoff-Hoeffding (Lema 3.3), tem-se que:

( ) | | ( )
| |
( )
|
|
.
|

\
|

+
2
2
3
exp 1 Pr
a b
X E
X E X
i
i i

, i=1..m.

onde , e X =
=
n
j
ij i
X X
1
ij
= d
H
(s
i
[j],s
H
[j]), para j=1..n, so variveis aleatrias
independentes assumindo valores no intervalo [0, D], sendo D = max
,
{d
H
(, )} a maior
distncia entre dois caracteres do alfabeto . Neste caso, a = 0 e b = D.
Finalmente, espera-se que:
57
| |
|
|
.
|

\
|

2
2
3
exp
D
X E
m
i

, i=1..m.

Ou ainda, como E[X
i
] d
opt
:

( ) ( )
| |
m
D
X E
D
d
d X
i opt
opt i



|
|
.
|

\
|

|
|
.
|

\
|
+ >
2
2
2
2
3
exp
1
3
exp
1
1 Pr , i=1..m. (4.5)

Portanto,
( )
opt
d
m
D

/ ln 3
, i=1..m.

Assim, obtm-se um algoritmo
( )
|
|
.
|
\
|
+
opt
d
m
D
/ ln 3
1

-aproximado, com probabilidade de


sucesso maior ou igual a (1-). Equivalentemente, tem-se:

( ) ( ) + / ln 3 Pr m d D d d
opt opt H
, para 0 < < 1.

Observe que a qualidade desta aproximao dependente de d
opt
. Em outras palavras,
quanto maior o valor de d
opt
, melhor a aproximao obtida.
Note tambm que a razo de aproximao do algoritmo de Ben-Dor et al. [Ben-Dor et
al., 1997] est diretamente relacionada probabilidade de falha , onde 0 < < 1. Desta
forma, para melhorar a aproximao, deve-se aumentar a probabilidade de falha ( prximo
de 1). Logo, surge a seguinte questo: melhora-se a aproximao aumentando-se a
probabilidade de falha, ou piora-se a aproximao diminuindo-se a probabilidade de fracasso
de uma iterao do algoritmo? Vejamos como tratar desta questo utilizando o mtodo de
Monte Carlo.
A tcnica de Monte Carlo pode ser empregada da seguinte forma: fixa-se uma
probabilidade de falha suficientemente prxima de 1, melhorando desta forma a
58
aproximao (1+) da soluo randmica. Agora, o algoritmo pode ser parametrizado,
recebendo como dado de entrada um erro > 0 desejado, arbitrariamente pequeno. Portanto,
se Pr(B) < 1, ento
(
log / log iteraes, ou seja, um nmero constante de repeties do
Algoritmo 4.1, sero necessrias para que o resultado seja (1+)-aproximado com
probabilidade de sucesso 1-.
De fato, espera-se que aps k repeties do algoritmo se tenha
k
, onde Pr(B) = e
arbitrariamente pequeno. Logo, klog log. Como, log e log so negativos (pois <1 e
<1) e k um nmero inteiro, tem-se finalmente:

k(-log) (-log)
(
(
(

log
log
k .

O algoritmo de Monte Carlo sintetizado a seguir.


Algoritmo 4.2: Algoritmo aproximativo de Ben-Dor et al. [1997] - verso Monte Carlo
59
4.3.3 Outra Abordagem

Na anlise vista anteriormente, no foi possvel explicitar , j que este funo de d
opt
.
Utilizando uma verso diferente da desigualdade de Chernoff-Hoeffding (descrita no Lema
3.4) onde X uma soma de variveis aleatrias independentes, tem-se:

( )
|
|
.
|

\
|
>
n D
X E X
2
2
2
exp ] [ Pr

.

Logo, obtm-se um valor de

limitado inferiormente por:

( ) / ln
2
m
n
D ,

e com probabilidade de fracasso dada por:

( ) + >
opt H
d d Pr , onde 0 < < 1 uma constante.

De fato, para um algoritmo de aproximao d
opt
+ (vide Definio 3.3 de aproximao
absoluta), deve-se provar que E(d
H
)

d
opt
+ , para algum > 0, onde d
H
= max {d
H
(s
H
,s
i
);
i=1..m}. Equivalentemente, pode-se provar que Pr(d
H
> d
opt
+ ) < 1, ou seja, que a
probabilidade de falha estritamente menor que 1.
O estudo da soluo gerada ser baseada na probabilidade de falha, representada pelo
mau evento B (d
H
> d
opt
+ ).
Note agora que um mau evento ocorre se, e somente se, B
i
(X
i
> d
opt
+ ) ocorre para
pelo menos um ndice i {1..m}. Assim, dado 0 < < 1, deve-se provar ento que:

( ) 1 Pr Pr
1
< |
.
|

\
|
=
=
U
m
i
i
B B

Logo, como E[X
i
] d
opt
, para i=1..m e > 0, espera-se que:

60
( ) ( ) ( ) ( )
m
X E X d X B
i i opt i i

+ > + > = Pr Pr Pr , i=1..m.

Da desigualdade de Chernoff-Hoeffding (Lema 3.4), tem-se que:

( )
( )
|
|
.
|

\
|

>
n a b
i
X E
i
X
2
2
2
exp ] [ Pr

, i=1..m.
onde , e X =
=
n
j
ij i
X X
1
ij
= d
H
(s
i
[j],s
H
[j]), para j=1..n, so variveis aleatrias assumindo
valores no intervalo [0,D]. Novamente neste caso, a = 0 e b = D.
Finalmente, espera-se que:
|
|
.
|

\
|

n D
m
2
2
2
exp



Portanto,
( ) / ln
2
m
n
D

Assim, obtm-se um algoritmo com probabilidade de sucesso maior ou igual a (1-),
onde ( )
|
|
.
|

\
|
+ / ln
2
Pr m
n
D d d
opt H
, para 0 < < 1.

4.4 Derandomizao

Conforme discutido na Seo 3.3.2, para aplicao do mtodo das probabilidades
condicionais fundamental que se garanta inicialmente Pr(B) < 1, onde B representa um mau
evento. Se (1+) razo de aproximao, no PSMP, um mau evento ocorre sempre que
B (d
H
> (1+)d
opt
), onde d
H
varivel aleatria representando o valor da funo objetivo.
Veremos mais adiante que as probabilidades condicionais no so obtidas diretamente, logo
definiremos um estimador pessimista como mostrado na Seo 3.3.2.
61
Antes de desenvolvermos a derandomizao sugerida em Ben-Dor et al. [Ben-Dor et
al., 1997], considere a seguinte notao auxiliar. Representaremos por
onde j {1, ..., n} e || = p, o vetor de variveis associado j-sima posio de s
p
j j j j
x x x x

,..., ,
2 1
=
H
(soluo
heurstica). Se todas as componentes de x
j
j forem conhecidas teremos ento
. Note neste caso, que cada vetor ir representar uma seqncia de
valores onde apenas uma coordenada 1 e as demais so 0. Para aplicao da tcnica de
derandomizao fundamental que se calcule, na k-sima iterao, a probabilidade
Pr(B|A
p
j j j j
x x x x

,..., ,
2 1
=
'
j
x
k
( )) onde ( ) ( )

= =

' 1 , ,..., , '
' 1 2 1 k k k
x e x x x x 0
k
A e .
Portanto, o caracter escolhido na k-sima iterao dever ser tal que:

( ) ( ) ( ) { } ( )
k k k k
x x x B A B x x B , ,..., Pr ' Pr min ,..., Pr
1 1
'
1 1



O processo dever ser repetido at que tenhamos uma soluo onde (
n
x x x ,...,
1
= )
( ) 0 ,..., Pr
1
=
n
x x B .
Seja , para i=1,...,m. Se k = 1 ento faremos = 0. Na
k-sima iterao, calculamos o seguinte problema relaxado RL(k, ) associado ao caracter
| | (


j s d x d
i H j
k
j
k i
,

1
1
1 ,
)
0 ,

i
d
' .
( )
| |

+ =
=
=
= =
=
+ = =
=

=

) 12 . 4 ( ; .. 1 , 1 , 0
) 11 . 4 ( ' , 0
) 10 . 4 ( ' lg , 1
) 9 . 4 ( ; 1 .. 1 ,
) 8 . 4 ( .. 1 ,

] [ ,
) 7 . 4 ( .. 1 , 1
.
) 6 . 4 ( min
'
1 ,
' ,

n k j x
para x
um a para x
k j x x
m i d d j s d x
n k j x
a s
d d
j
k
k
j j
k i i H j
n
k j
j
k


62
Este modelo bastante semelhante quele apresentado em (4.1)-(4.4). Neste caso
entretanto, deve ser observado que o valor uma constante obtida pelas atribuies
dadas na restrio (4.9). As restries (4.10) e (4.11) asseguram que somente um smbolo
1 ,

k i
d
' ser selecionado na k-sima posio da soluo heurstica s
H
. Note que, uma soluo
de RL(k, ' ) ser do tipo ( ) onde tal que e
n
x ,...,
k k k
x x x x , , ,...,
1 1 1 + k
x 1
'
=
k
x 0 =
k
x , para
todo ' . Observe que para cada componente k {1, ..., n-1} resolvemos p problemas de
programao linear, ou seja, faremos 1
'
=
k
x para cada ' em .
Sem perda de generalidade, poderemos assumir que um mau evento B ocorre sempre
que ( ) ( ) d d B
H
+ > 1 onde
opt
d d o valor da relaxao linear de (4.1)-(4.4). Seguindo-
se o mesmo raciocnio desenvolvido em 4.3.2 obtemos um algoritmo (1+)-aproximado para:

( )
d
m
D

ln 3
=

Alm disso, ( ) ( ) ( ) 1 1 Pr Pr < + > = d d B
H
.
Seja (para cada i=1,...,m) uma varivel aleatria
representando uma soluo heurstica obtida atravs das relaxaes
| | | | (

+ =
+
=
n
k j
i H H k i
j s j s d X
1
1 ,
, )
j
x para j = k+1,...,n e
(soluo de (4.6)-(4.12)).
Considere agora o seguinte resultado auxiliar:
Lema 4.2: | | | | ( ) k s d d d X E
i H k i k k i
, '

1 , ' , 1 ,


+
, i=1,...,m, k {1,...,n} e ' .

Prova: Como , temos que: | | | | (

+ =
+
=
n
k j
i H H k i
j s j s d X
1
1 ,
, )
| | | | | | ( )
(

=
+ =
+
n
k j
i H H k i
j s j s d E X E
1
1 ,
,
Das desigualdades (4.8)-(4.11) e da linearidade do valor esperado temos:
63
| | | | ( ) | | ( ) = =
+ =
+
n
k j
i H H k i
j s d j s X E
1
1 ,
, Pr


| | ( ) | | ( ) k s d d d j s d x
i H k i
n
k j
i H j
, '

,
1 ,
1
,


=
+
+ =

fcil ver que
' , k
d d . Portanto:
| | | | ( ) k s d d d X E
i H k i k k i
, '

1 , ' , 1 ,


+ +


Note que ( ) ( ) d X B
i i
+ > 1 i=1,...,m. Portanto:

( ) ( ) ( ) | | ( ) ( ) k s d d d X A B
i H k i k k i k i
, '

1 '
1 , ' , 1 ,


+ > =
+


Temos ento que:

( ) ( ) ( ) | | ( ) ( ) k s d d d X A B
i H k i k k i k i
, '

1 Pr ' Pr
1 , ' , 1 ,


+ > =
+
, p/ i=1,...,m e k {1,...,n}.

Logo do Lema 4.2, temos para i=1,...,m:

( ) ( ) | | ( ) ( )
' 1 , ' 1 ,
, '

Pr ' Pr


k i H k i k k i k i
d k s d d d X A B + > =
+

| | ( )
' 1 , 1 ,
Pr

k k i k i
d X E X + >
+ +


Para utilizao da desigualdade de Chernoff-Hoeffding conforme descrito no Lema 3.2,
consideraremos o caso binrio onde d
H
(,) {0,1}, , . Neste caso, teremos:

(4.13) | | | | ( ) = =
+ = + =
+
n
k j
j
n
k j
i H H k i
y j s j s d X
1 1
1 ,
,

e portanto X
i,k+1
pode ser visto como uma soma de variveis aleatrias independentes
y
j
{0,1}. Assim y
j
= 1 sempre que s
H
[j] s
i
[j] e, y
j
= 0 caso contrrio. Temos ento que:

64
( ) ( )
m
d A B
k k i



|
.
|

\
|

2
'
3
1
exp ' Pr , para i=1,...,m.

Segue ento que:

( ) ( ) ( ) ( ) ( ) 1
3
exp
' Pr ' Pr ' Pr
1
2
' ,
1
< <
|
|
.
|

\
|
|
.
|

\
|
=
= =

m
i
k
k i
m
i
k i k
d
m
A B A B A B U

onde,
( )
d
m
D

ln 3
= (4.14)

Logo, um estimador pessimista U : [0,1]
pn
[0,1) pode ser obtido diretamente para as
probabilidades condicionais fazendo-se:

( ) ( ) ( )
|
|
.
|

\
|
= = = =

3
exp
' 0 1 , ,..., '
2
'
' 1 1


k
k k k k
d
m
para x e x x x U A U , k{1,...,n} e .

Substituindo d
opt
por d , fcil ver de (4.5) e (4.14) que: ( ) 1
3
exp
,...,
2
1
<
|
|
.
|

\
|
=
d
m
x x
n
U
e, portanto, a condio 1 da definio de estimador pessimista satisfeita.
A condio 2 tambm pode ser verificada diretamente pois:

( ) ( ) ( ) ( ) ' ' Pr
k k
A U A B , k {1,...,n} e .

Finalmente, devemos provar que:

( ) ( ) ( ) { } ' min ,..., , ,...,
'
1 1

k n k k
A U x x x x U

, onde k {1,...,n}.
65
De fato, note que:

( ) ( ) ( )
|
|
.
|

\
|
= =


3
exp
' lg , ' ,..., , ,...,
2
' , 1
1 1 1


k
k n k k
d
m
um a para A U x x x x U

Como



,
, ' , 1 k k
d d , temos em particular que { }
' ' , , ' , 1
, max


k k k
d d d =

.
Segue ento que:

( ) ( ) ( ) { }
|
|
.
|

\
|
=
|
|
.
|

\
|
=

3
exp
, min
3
exp
,..., , ,...,
2
' ' ,
2
' , 1
1 1

k
k
k
n k k
d
m
A U
d
m
x x x x U

Observe portanto que a funo U : [0,1]
pn
[0,1) define um estimador pessimista para
nossas probabilidades condicionais. Logo, temos o seguinte algoritmo de derandomizao
(vide Seo 3.3.2) sintetizado a seguir.


Algoritmo 4.3: Derandomizao de Ben-Dor et al. [Ben-Dor et al., 1997]
66
Como cada problema de programao linear tem complexidade O(n
3
L) o algoritmo
acima ter complexidade total igual a O(n
4
L||) onde L representa o nmero total de bits
utilizado na entrada do problema de programao linear [Wright, 1997].
Observe agora no caso geral que, para d
H
(,) [0,D] e , onde D
+
(como
definido em [Ben-Dor et al., 1997]), no poderemos considerar o Lema 3.2 utilizado para
construo do estimador pessimista U : [0,1]
pn
[0,1), como descrito acima. Note que, nas
hipteses do Lema 3.2, deveremos considerar apenas variveis 0-1, aleatrias e independentes
entre si (vide (4.13)). O caso geral pode ser convertido em binrio utilizando-se as variveis
x
j,
{0,1}, para j=1,...,n e . Entretanto, as variveis x
j,
para j fixo no so
independentes entre si, o que inviabiliza a aplicao do Lema 3.2.
Outra alternativa seria a utilizao do Lema 3.3, onde temos:

( ) ( )
( )
|
|
.
|

\
|
+
2
2
3
exp 1 Pr(
D
X E
X E X
i
i i


onde , para j=1,...,n. | | | | ( j s j s d X e X X
i H H ij
n
j
ij i
,
1
= =

=
)

Embora tenhamos X
ij
independentes entre si (onde X
ij
[0,D]) no conseguimos
eliminar E[X
i
] atravs de uma majorao conveniente, no obtendo portanto, um estimador
pessimista.
Como trabalho futuro uma outra alternativa pesquisar o caso geral utilizando-se outras
desigualdades (majoraes) distintas daquelas apresentadas por Chernoff-Hoeffding.
67
Captulo 5

Um algoritmo 4/3(1+)-aproximado

5.1 Introduo

Neste captulo estudamos o algoritmo aproximativo apresentado em [Lanctot et al.,
1999]. Atravs de pequenas adaptaes nas idias apresentadas em [Ben-Dor et al., 1997] e
ainda utilizando a tcnica de arredondamento randmico, os autores exibem um fator de
aproximao constante independente de n, m e d
opt
. Basicamente na estratgia adotada por
Lanctot, consideram-se apenas as k posies no coincidentes (k n) entre as duas piores
seqncias de S.

5.2 Algoritmo de Lanctot

Antes de apresentar a abordagem de Lanctot et al. [Lanctot et al., 1999] para o PSMP,
considere a seguinte notao auxiliar.
Seja x uma seqncia qualquer em
n
. As subseqncias x e x representam
respectivamente, os primeiros p caracteres e os ltimos n-p caracteres de x. Por exemplo,
x = xx, onde x = x[1]x[2]...x[p] e x = x[p+1]x[p+2]...x[n], isto , x

a concatenao de x e
x.
Considere novamente, a seguinte formulao matemtica (simplificada) para o PSMP
original:

( )


=
n
i H
s
m i d s s d
a s
d
,..., 1 , ,
.
min


68
onde
n
representa o conjunto de todas as seqncias possveis dentro do alfabeto ,
s
i
S e S
n
.
Com o auxlio da notao definida anteriormente, o problema original pode ser reescrito
da seguinte forma:

{ ( ) ( ) m i d s s d s s d a s
d
i H i H
..., , 1 , " , " ' , ' . .
min
= +


onde s, s
i

p
e s, s
i

n-p
.

Na estratgia adotada por Lanctot et al. [Lanctot et al., 1999], inicialmente compara-se
par a par todas as seqncias do conjunto S e utiliza-se as posies coincidentes das duas
piores seqncias, s
1
e s
2
como parte da soluo heurstica a ser obtida. Considerando-se k
posies no-coincidentes entre as seqncias s
1
e s
2
, pode-se garantir um limite superior de k
para o valor da distncia tima para o problema original. Diz-se que o par (s
1
,s
2
) define o pior
par de seqncias de S, se d
H
(s
1
,s
2
) d
H
(s
i
,s
j
), i,j {1,..,m} e i j.


Figura 5.1: Determinao de d
H
(s
1
, s
2
) .

Seja k = d
H
(s
1
,s
2
), sem perda de generalidade pode-se assumir que as k diferenas entre
s
1
e s
2
ocorrem nas primeiras k posies, isto , s
1
[j] s
2
[j] se 1 j k e s
1
[j] = s
2
[j] se k<j n
(vide Figura 5.1). Isto vlido porque os caracteres e seqncias do conjunto S podem ser
permutados sem que o valor da soluo tima seja alterado. Seja uma permutao em
1,...,n. Para todo comprimento n de uma seqncia t, pode-se usar t

para denotar a seqncia


69
t[(1)] t[(2)]...t[(n)]. Claramente, s
opt
uma soluo tima para as seqncias (s
1
, ..., s
m
) se,
e somente se, s

uma soluo tima para as seqncias ( ) com o mesmo custo d.



m
s s ,...,
1
Na estratgia apresentada por Lanctot et al. [Lanctot et al., 1999], introduz-se
inicialmente o seguinte modelo de programao linear inteira auxiliar:

( ) ( )
{ }

=
=
= =
=
=

) 4 . 5 ( ; .. 1 , 1 , 0
) 3 . 5 ( .. 1 , " , " ] [ ,
) 2 . 5 ( .. 1 , 1
.
) 1 . 5 ( min
,
1 ,
1
,
, 1


k j y
m i s s d d j s d y
k j y
a s
d d
j
i H i H j
k
j
j
opt


Seja s
1,opt
= s
1,opt
s
1
a seqncia que se deseja encontrar (soluo tima), onde s
1,opt

uma seqncia desconhecida de tamanho k. Define-se, para cada caracter e cada
caracter s
1,opt
[j], para j = 1..k, uma varivel binria y
j,
, onde y
j,
= 1 se, e somente se,
s
1,opt
[j] = e y
j,
= 0, caso contrrio.
Observe que este modelo bastante semelhante quele apresentado por Ben-Dor et al.
[Ben-Dor et al., 1997]. Neste caso entretanto, as desigualdades (5.3) especificam que a
distncia entre cada seqncia de S e a soluo tima s
1,opt
s
1
, deve ser menor ou igual a
d
1,opt
. As desigualdades (5.4) indicam que somente valores 0 ou 1 podem ser atribudos s
variveis y
j,
.
Note que impossvel computar d
1,opt
eficientemente, a menos que P=NP. Entretanto,
pode-se afirmar que para uma soluo tima de (5.1)-(5.4) da forma s
1,opt
s
1
, tem-se d
opt

d
1,opt
. Alm disso, note que d
H
(s
1
,s
i
) k, i {1,..,m}. Logo, se s
1,opt
s
1
uma soluo
tima de (5.1)-(5.4), segue que d
H
(s
1,opt
s
1
, s
i
) d
H
(s
1
,s
i
) k, i {1,..,m}, ou seja d
opt

d
1,opt
k.
O algoritmo de Lanctot et al. [Lanctot et al., 1999] tambm baseado na idia de
arredondamento randmico e ir buscar solues do tipo s
H
s
1
. Ele pode ser descrito
sinteticamente como a seguir:

70
Caso 1: Valor de k pequeno.
Pode-se usar uma simples busca exaustiva para encontrar uma soluo tima s
1,opt
s
1
para (5.1)-(5.4). Sero necessrias ||
k
seqncias de tamanho k sobre o alfabeto para
encontrar uma soluo tima. Cada seqncia pode ser comparada s m seqncias de S em
tempo O(mk). O tempo de processamento total ser ento O(||
k
mk), polinomial em termos
de m.
Caso 2: Valor de k grande.
Resolve-se o modelo de relaxao linear associado formulao (5.1)-(5.4). Seja d o
valor da soluo relaxada
, j
y . Claramente pode-se ver que d d
opt

, 1
. A soluo relaxada
, j
y fracionria no representa necessariamente uma soluo vivel para (5.1)-(5.4). Em
seguida, arredondam-se estes valores (arredondamento randmico) para 0 ou 1 visando a
determinao de uma soluo vivel para (5.1)-(5.4). O algoritmo aproximativo detalhado a
seguir (Algoritmo 5.1).

Observe que a soluo vivel s
H
obtida uma soluo heurstica obtida atravs da
relaxao linear de (5.1)-(5.4), e portanto, tambm uma soluo vivel para o problema
original.
No passo (1) calculada a maior distncia k entre duas seqncias do conjunto S. Se k
um valor pequeno, faz-se uma busca exaustiva para encontrar a soluo tima do problema,
passo (2). Caso contrrio, no passo (3), resolve-se o modelo de relaxao linear proposto para
o PSMP, obtendo-se valores fracionrios
, j
y . Estes valores sero utilizados como
probabilidades no processo de arredondamento randmico para gerao de uma soluo
inteira. A partir da soluo inteira encontrada, compara-se com o resultado obtido no passo
(1), retornando em seguida a melhor soluo obtida (passo 4).
Observe que a complexidade deste algoritmo no passo 1 ser polinomial em m (nmero
de seqncias de S) mesmo quando k = n. Neste caso, o procedimento de fora bruta, para k
pequeno, ter complexidade igual a O(m
ln||
). No passo 2, para k grande, a complexidade da
relaxao linear ser O(n
3
L) onde L representa o nmero total de bits utilizados na entrada de
71
dados (para maiores detalhes sobre a complexidade do problema de programao linear, vide
[Wright, 1997]). Segue portanto que a complexidade total ser O(max{m
ln||
; n
3
L}).


Algoritmo 5.1: Algoritmo 4/3(1+)-aproximado

5.3 Anlise de Aproximao

A idia central nesta abordagem utilizar a formulao auxiliar (5.1)-(5.4) na soluo
do problema original, apoiando-se nos mesmos passos da heurstica anterior; relaxao linear
e arredondamento randmico. Observa-se entretanto, que a relaxao linear e o
arredondamento randmico sero aqui aplicados no subconjunto de k posies,
diferentemente da heurstica de [Ben-Dor et al., 1997] que eram aplicados indistintamente
para todas as n posies.
72
Logo, se s
H
= ss
1
uma soluo randmica (1+)-aproximada de (5.1)-(5.4) para
algum > 0 (vide Figura 5.2), segue ento que: E(d
H
)

(1+)d
1,opt
, onde d
H
varivel
aleatria representando o valor da soluo heurstica. Equivalentemente, para algum > 0,
tem-se que Pr(d
H
> (1+)d
1,opt
) < 1, em uma iterao do Algoritmo 5.1.


Figura 5.2: Razo de aproximao para o PSMP

Considere agora a seguinte proposio:
Teorema 5.1: d
1,opt
4/3d
opt
Prova: Suponha inicialmente:

d
1,opt
d
opt
, para algum 1. (5.5)

Considere agora d
H
(s
1
,s
2
) > d
opt
para algum 1 (caso contrrio, se d
H
(s
1
,s
2
) d
opt

basta fazer s
H
= s
1
no Algoritmo 5.1 implicando diretamente em d
1,opt
4/3d
opt
). Logo, como
d
H
(s
1
,s
2
) = 0, segue que:

d
H
(s
1
,s
2
) = d
H
(s
1
,s
2
) > d
opt
. (5.6)

Pela desigualdade triangular, conclui-se que:

( ) ( ) ( )
opt H opt H H
s s d s s d s s d ' , ' ' , ' ' , '
2 1 2 1
+ (5.7)

73
onde s
opt
= s
opt
s
opt
soluo tima do problema original. Portanto, substituindo (5.7) em
(5.6) obtm-se:
( ) ( )
opt opt H opt H
d s s d s s d > + ' , ' ' , '
2 1


Sem perda de generalidade, seja d
H
(s
1
,s
opt
) > (/2)d
opt
. Como d
H
(s
1
,s
opt
) +
d
H
(s
1
,s
opt
) d
opt
, conclui-se diretamente que:

( ) |
.
|

\
|
=
opt opt opt opt
d d d s s d
2
2
2
" , "
1

(5.8)

Agora, da desigualdade triangular:

( ) ( ) ( )
i opt H opt H i H
s s d s s d s s d " , " " , " " , "
1 1
+

( ) ( ) ( )
opt H i H i opt H
s s d s s d s s d " , " " , " " , "
1 1
, i=1,...,m. (5.9)

Como:
( ) ( ) ( )
i opt H i opt H i opt H
s s d s s d s s d " , " ' , ' , + =

( ) ( ) ( )
i opt H i opt H i opt H
s s d s s d s s d " , " , ' , ' = , i=1,...,m. (5.10)

Substituindo (5.9) em (5.10),

( ) ( ) ( ) ( ) ( )
opt H i H i opt H i opt H
s s d s s d s s d s s d " , " " , " , ' , '
1 1


( ) ( ) ( ) ( )
opt H i H i opt H i opt H
s s d s s d s s d s s d " , " " , " , ' , '
1 1
+ , i=1,...,m (5.11)

Como ( )
opt i opt H
d s s d , , substituindo (5.8) em (5.11) obtm-se:

74
( ) ( )
i H opt opt i opt H
s s d d d s s d " , "
2
2
' , '
1
|
.
|

\
|
+



Portanto:

( ) ( ) ( )
opt i H i opt H i opt H opt
d s s d s s d s s s d d |
.
|

\
|
+ =
2
4
" , " ' , ' , " '
1 1 , 1

, i=1,...,m.

Logo,
opt opt
d d |
.
|

\
|

2
4
, 1

(5.12)

Como 1, segue de (5.5) e (5.12) que:

3 4
2
4
=

=



Lembre-se que o objetivo inicial provar que Pr(d
H
> (1+)d
1,opt
) < 1, para algum > 0.
Assim, sem perda de generalidade, do Teorema anterior considere d
1,opt
= 4/3d
opt
. Portanto, se
B representa um mau evento e > 0, deve-se provar que:

( ) ( ) ( ) ( ) 1 1 Pr 1
3
4
Pr Pr
, 1
< + > = |
.
|

\
|
+ > =
opt H opt H
d d d d B

Seja B
i
um evento representando falha de uma soluo s
H
= ss
1
com relao a uma
determinada seqncia s
i
, ou seja, B
i
ocorre sempre que:

( ) ( ) ( )
i H opt i H
s s d d s s d " , " 1 ' , '
1 , 1
+ > , para i {1,...,m}.

Pode-se dizer que um mau evento B ocorre, sempre que B
i
ocorre para pelo menos um
ndice i=1,...,m. Em outras palavras, espera-se que, para uma seqncia s
i
S e > 1:

75
( )
m
B
i

1
Pr , para m i .. 1 = (5.13)

Desta forma:
( ) 1
1
Pr Pr
1
< |
.
|

\
|
=
=

U
m
i
i
B B .

Observe, equivalentemente, que a probabilidade de sucesso 0 Pr
1
> |
.
|

\
|
=
I
m
i
i
B , ser sempre
estritamente positiva, onde
i
B , indicando sucesso, representa o evento complementar de B
i
.
Note ainda que, com alta probabilidade, pode-se garantir atravs do mtodo de Monte
Carlo que:
) " , " (
3
4
) ' , ' (
1 , 1 i H opt opt i H
s s d d d s s d + , i=1,...,m.

Considere agora o seguinte resultado auxiliar:
Lema 5.1:
i
= E[d
H
(s, s
i
)] d
1,opt
- d
H
(s
1
, s
i
), i=1,...,m.

Prova: Considere a seguinte notao:
Seja Y . Note que as variveis Y ( ) ( = =
=
k
j
i H i H i
j s j s d s s d
1
] [ ], [ ' ' , ' )
)
i
, para i=1..m, podem ser
vistas como somas de variveis aleatrias independentes. Assim:

( ) | | ( )
(

=
=
k
j
i H i H
j s j s d E s s d E
1
] [ ], [ ' ' , '
( ) ( = =
=
k
j
i H
j s d j s
1
] [ , ] [ ' Pr

( ) =
=
k
j
i H j
j s d y
1
,
] [ ,


( ) | | ( )
opt i H i H
d d s s d s s d E
, 1 1
" , " ' , ' +
76
Ou seja:

i
= E[d
H
(s, s
i
)] d
1,opt
- d
H
(s
1
, s
i
), para i =1, ..., m.

Como d
1,opt
= 4/3d
opt
k, tem-se da desigualdade de Chernoff-Hoeffding (Lema 3.2) e
do Lema anterior que:

( ) ( ) ( )
|
.
|

\
|
+ > =
opt i H opt i H i
d s s d d s s d B
3
4
" , " ' , ' Pr Pr
1 , 1

( ) ( )
opt i i H
d s s d + > ' , ' Pr
|
.
|

\
|
<
2
3
1
exp
opt
d , i=1,...,m. (5.14)

De (5.13) e (5.14) espera-se que:

) ln(
3
1
3
1
exp
3
1
exp
1 1
2 2
2
m d m d
d
m
opt opt
opt

> > |
.
|

\
|

|
.
|

\
|
>

Finalmente, se Pr(B) < 1 ento:

2
) ln( 3

m
d
opt
> (5.15)

Portanto, como k 2d
opt
(pois s
1
S soluo 2-aproximada) temos que, se:

2
) ln( 3
2

m k
d
opt
>

temos que (5.15) ser verdadeira sempre que
2
) ln( 6

m
k > .

77
Desta forma, garante-se Pr(B) = 1/ < 1 (probabilidade de um mau evento) sempre que
k = d
H
(s
1
,s
2
) for maior que 6ln(m)/
2
. Caso contrrio, executa-se o procedimento exato de
complexidade polinomial.
Apesar das heursticas de Ben-Dor et al. (Captulo 4) e Lanctot et al., apresentado neste
captulo, serem diferentes em suas razes de aproximao, existe um ponto comum entre os
dois modelos utilizados. Isto ocorre quando em Lanctot et al. k = n, ou seja, a pior distncia
entre duas seqncias do conjunto S corresponde ao prprio tamanho da seqncia. Logo,
pode-se dizer que os dois modelos utilizados so coincidentes. Desta forma, como Ben-Dor et
al. trabalha com d
opt
, isto , com o problema original, pode-se considerar, neste caso
especfico, que em Lanctot et al. tem-se um esquema de aproximao polinomial, visto que,
d
1,opt
= d
opt
. Entretanto, para aquelas instncias onde k < n vale a relao d
1,opt
4/3d
opt
.
A anlise de derandomizao no algoritmo de [Lanctot et al., 1999] pode ser realizada
analogamente quela desenvolvida no captulo anterior para o algoritmo de Ben-Dor et al.

78
Captulo 6

Esquema de aproximao polinomial para o PSMP

6.1 Introduo

No esquema de aproximao para o PSMP, foram utilizadas algumas das caractersticas
de cada um dos algoritmos anteriores (Captulo 4 e Captulo 5). Uma descrio simplificada
da heurstica dada a seguir. Dado um subconjunto r (r fixo) de seqncias do
conjunto S = {s
r
i i
s s ,...,
1
1
,s
2
,...,s
m
}, considere os caracteres onde todas as r seqncias coincidem.
Intuitivamente, existe uma grande chance de que estes caracteres, nas suas respectivas
posies, estejam prximos da soluo tima. possvel mostrar que isto ocorre para pelo
menos um subconjunto de r seqncias. Assim, considerando esses caracteres como parte da
soluo heurstica, aplica-se otimizao apenas as posies onde as r seqncias no
coincidem. Muito parecida com a estratgia de [Lanctot et al.,1999], a principal diferena est
em como [Li et al., 2002] definem inicialmente a parte fixa da soluo heurstica (parte pr-
determinada). No entanto, deve ser observado que o esquema de aproximao exige um
maior tempo de processamento, comparado aos algoritmos anteriores, necessrio para
garantir a aproximao e a probabilidade de sucesso desejada. Ser mostrado um algoritmo
com razo de aproximao 1+O(1/r) e complexidade polinomial igual a m
O(r)
.

6.2 Algoritmo de Li et al. [Li et al., 2002]

79
Considere r seqncias (onde r < m) de S escolhidas arbitrariamente. O
conjunto de posies coincidentes nas r seqncias ser representado por (ou
simplesmente Q
r
i i
s s ,...,
1
r
i i
Q
,...,
1
r
). Por outro lado, o conjunto complementar de posies, ser representado
por { }
r r
i i i i
Q n P
,..., ,...,
1 1
,..., 1 = (ou simplesmente P
r
). Similar ao algoritmo de [Lanctot et
al.,1999] (Captulo 5) pode-se assumir o conjunto P
r
de posies como sendo as primeiras |P
r
|
posies das seqncias de S. Conseqentemente, o conjunto Q
r
representa as ltimas |Q
r
|
posies das seqncias de S.
Seja = {
1
,

2
,
...
,

p
} um alfabeto finito de smbolos (p 2), S = {s
1
, s
2
,
...
,

s
m
} um
conjunto de seqncias, onde cada seqncia s
i

n
, e seja s
H
=
r
Q i
ys
1
a seqncia que se
deseja encontrar (soluo heurstica), onde y uma seqncia desconhecida de tamanho |P
r
|.
Define-se, para cada caracter e cada caracter y[j], para j = 1..|P
r
|, uma varivel binria
y
j,
, onde y
j,
=1 se, e somente se, y[j]= , caso contrrio y
j,
=0.
Li et al. [Li et al., 2002] introduzem inicialmente o seguinte modelo de programao
linear inteira auxiliar:

( ) ( )
{ }

=
=
= =
=

=

) 4 . 6 ( ; | | .. 1 , 1 , 0
) 3 . 6 ( .. 1 , , ] [ ,
) 2 . 6 ( | | .. 1 , 1
.
) 1 . 6 ( min
,
,
| |
1
,
,
1


r j
Q i Q i H i j
P
j
r j
opt Q
P j y
m i s s d d j s y
P j y
a s
d d
r r
r
r


No modelo apresentado, (6.1) representa a funo objetivo que se deseja minimizar. As
restries (6.2) asseguram que somente um smbolo ser selecionado em cada uma das
|P
r
| posies da seqncia y. As desigualdades (6.3) especificam que a distncia entre cada
seqncia de S e
r
Q i
ys
1
, deve ser menor ou igual a d. Alm disso, ( ) ] [ , j s
i
= 0, se s
i
[j] =
e ( ] [ , j s
i
) = 1, caso contrrio. Finalmente, as restries (6.4) indicam que somente valores
0 ou 1 podem ser atribudos s variveis y
j,
.
Note que impossvel computar eficientemente, a menos que P=NP. Entretanto,
pode-se afirmar que para uma soluo tima de (6.1)-(6.4) da forma
opt Q
r
d
,
r
Q i
ys
1
, tem-se
d
opt
.
opt Q
r
d
,
O algoritmo de Li et al. [Li et al., 2002], pode ser descrito sinteticamente como a
seguir:
80
Para cada subconjunto de r seqncias de S, executam-se as etapas a seguir.
Primeiramente, descobre-se o conjunto de posies Q
r
i i
s s ,...,
1
r
, onde as r seqncias coincidem.
Conseqentemente, obtm-se o conjunto P
r
de posies, onde as r seqncias diferem.
Caso 1: Valor de |P
r
| pequeno.
Pode-se usar uma simples busca exaustiva para encontrar uma soluo tima
r
Q i
ys
1

para (6.1)-(6.4). Sero necessrias
r
P
seqncias de tamanho |P
r
| sobre o alfabeto para
encontrar uma soluo tima. Cada seqncia pode ser comparada s m seqncias de S em
tempo O(m|P
r
|). Como veremos adiante |P
r
| ser igual a O(ln m) e portanto, o tempo de
processamento total ser O(m
ln||
mlnm), polinomial em termos de m e n.
Caso 2: Valor de |P
r
| grande.
Resolve-se o modelo de relaxao linear associado formulao (6.1)-(6.4). Seja d o
valor da soluo relaxada
, j
y , no representando necessariamente uma soluo vivel para
(6.1)-(6.4). Em seguida, arredondam-se estes valores (arredondamento randmico) para 0 ou
1 visando a determinao de uma soluo vivel para (6.1)-(6.4). O algoritmo aproximativo
detalhado a seguir.
Observe que a soluo s
H
obtida uma soluo heurstica do problema auxiliar (6.1)-
(6.4), e portanto, uma soluo para o problema original.
O passo (1) ser executado

|
vezes, onde cada iterao representa um subconjunto
de r seqncias do conjunto S. No passo (1.a), encontra-se o conjunto Q
|
|
.
|
\
r
m
r
de posies onde as
r seqncias coincidem. Conseqentemente, obtm-se o conjunto P
r
. Se |P
r
| um valor
pequeno, faz-se uma busca exaustiva para encontrar a soluo tima para o problema auxiliar
(6.1)-(6.4), passo (1.b). Caso contrrio, no passo (1.c), resolve-se o modelo de relaxao
linear proposto para o PSMP, obtendo-se valores fracionrios
, j
y . Estes valores sero
utilizados como probabilidades no processo de arredondamento randmico para gerao de
uma soluo inteira. Para cada iterao do passo (1), armazena-se sempre a melhor soluo.
Na etapa (2), cada seqncia do conjunto S ser considerada soluo do problema, desta
81
forma, obtm-se a melhor soluo dentre as seqncias do conjunto S. Finalmente, na terceira
e ltima etapa, retorna-se a melhor soluo das duas etapas anteriores (1) e (2).


Algoritmo 6.1: Esquema de aproximao polinomial para o PSMP




82
6.3 Anlise de Aproximao

A idia central nesta abordagem utilizar a formulao auxiliar (6.1)-(6.4) na soluo
do problema original, apoiando-se nas mesmas idias apresentadas nas heursticas anteriores;
relaxao linear e arredondamento randmico. Similar heurstica de [Lanctot et al.,1999],
que utiliza relaxao e o arredondamento randmico em um subconjunto de k posies, [Li et
al., 2002] aplicam as mesmas idias no conjunto P
r
de posies. Logo, para algum
subconjunto de ndices {i
1
,..., i
r
} {1,...,n} escolhido convenientemente, se s
H
=
r
Q i
ys
1

uma soluo randmica (1+)-aproximada de (6.1)-(6.4) para algum > 0 (vide Figura 6.1),
segue ento que: E(d
H
)

(1+) , onde d
opt Q
r
d
,
H
= max {d
H
(
r
Q i
ys
1
, s
i
); i=1..m} varivel
aleatria representando o valor da funo objetivo. Equivalentemente, para algum > 0,
pode-se provar que em uma iterao do Algoritmo 6.1:

Pr(d
H
> (1 + ) ) Pr(d
opt Q
r
d
,
H
> (1 + + ) ) < 1, para algum [0,1].
opt
d


Figura 6.1: Razo de aproximao do PTA para o PSMP

Antes de provar o resultado acima, ser garantida, inicialmente, a existncia de ndices
i
1
, i
2
, ..., i
r
tal que os caracteres do conjunto Q
r
representem uma boa aproximao da soluo
r
Q opt
s (soluo tima restrita a Q
r
), onde para todo s
l
S,

( ) ( )
opt Q opt Q l H Q i Q l H
d
r
s s d s s d
r r r r
1 2
1
, ,
1

(6.5)
83
Para mostrar (6.5), e s
1
i
s
opt
no sero comparadas diretamente em Q
r
. Na verdade,
considera-se o conjunto ( ) | | | | | | | | { } j s j s e j s j s Q j
opt i l i i i i
r
=
1 1 2 1
..., , ,
l J , para todo s
l
S.
Desta forma, ser mostrado que para cada s
l
S , |J(l)| 1/(2r-1).
Seja ( )
k k k
Q opt Q i H i i i
s s d p ,
1 2 1
,..., ,
= , para qualquer 2 k < r e 1 i
1
, i
2
, ..., i
k
m. Define-
se ainda
opt
i i
m i i
k
d
p
k
k
,...,
,..., 1
1
1
min

= . Note que, aumentando k, o nmero de posies onde todos
diferem (para j=1,...,k), diminui. Conseqentemente, o conjunto Q
j
i
s
k
diminui, e portanto,
k

tambm diminui.
A estratgia mostrar que:
1) |J(l)| (
k
-
k+1
)d
opt
, para todo s
l
S e 2 k r.
2) Pelo menos uma das sentenas
2
-
3
,
3
-
4
, ...,

r
-
r+1
no mximo 1/(2r-1).

Seja
( )
opt
j i H
m j i d
s s d ,
max
, 1
0

= , pela desigualdade triangular
0
2 (no pior caso). O Lema
a seguir, garante a desigualdade (6.5) para
0
> 1+1/(2r-1), isto , quando a pior distncia
entre duas seqncias de S no encontra um bom resultado, representado aqui por
(1+1/(2r-1))d
opt
. Caso contrrio, simplesmente utiliza-se como resultado a pior distncia entre
duas seqncias de S.
Lema 6.1: Para um r constante, onde 2 r < n, se
0
> 1+1/(2r-1), ento existem ndices
i
1
, ..., i
r
, tal que para todo 1 l n,

( ) ( )
opt Q opt Q l H Q i Q l H
d
r
s s d s s d
r r r r
1 2
1
, ,
1



Prova: Primeiramente, considere o seguinte resultado auxiliar, Parte 1.
Parte 1 Para todo valor de k, onde 2 k r e r constante, existem ndices 1 i
1
, i
2
, ..., i
r
m,
tal que para todo s
l
S,
84
|J(l)| (
k
-
k+1
)d
opt
.

Prova: Considere os ndices 1 i
1
, ..., i
k
m, onde p
k
=
k
d
opt
. Note que isso sempre ser
verdade, pois para todas as combinaes de existiro ndices 1 i
|
|
.
|

\
|
k
n
1
, ..., i
k
m, onde
p
k
=
k
d
opt
. Ento, para todo 1 i
k+1
, i
k+2
, ..., i
r
m e 1 l m, tem-se:

( ) | | | | | | | | { } j s j s e j s j s Q j l J
opt i l i i i
r
=
1 1 1
..., ,

| | | | | | | | { } j s j s e j s j s Q j
opt i l i i i
k

1 1 1
..., ,
(6.6)
| | | | { } | | | | | | | | { } j s j s e j s j s Q j j s j s Q j
opt i l i i i opt i i i
k k
= =
1 1 1 1 1
,..., ..., ,

| | | | { } | | | | { } j s j s Q j j s j s Q j
opt i l i i opt i i i
k k
=
1 1 1 1
, ..., , ..., ,

| | | | { } | | | | { } j s j s Q j j s j s Q j
opt i l i i opt i i i
k k
=
1 1 1 1
, ..., , ..., ,
(6.7)
l i i i i
k k
p p
, ..., , ..., ,
1 1
=
( ) ( )
opt k k
d l J
1 +


Observe que a desigualdade (6.6) se baseia em Q
r
Q
k
. A igualdade (6.7) pode ser
justificada porque o conjunto { j Q
k,l
| [j] s
1
i
s
opt
[j] } { j Q
k
| [j] s
1
i
s
opt
[j] }.

Considere agora o limite superior para r-1 termos, min{
2
-
3
,
3
-
4
, ...,

r
-
r+1
}.
Somando-se os r-1 termos, tm-se: (
2
-
3
) + (
3
-
4
) + ... + (
r
-
r+1
) =
2
-
r+1

2
. Se

k
= min p
k
/d
opt
e p
k
d
opt
, tem-se
k
1. Logo,
2
1.
Portanto, pelo menos um dos termos (
2
-
3
) + (
3
-
4
) + ... + (
r
-
r+1
) ser 1/(r-1).
Nota-se que 1/(r-1) j representa um limite superior para os r-1 termos. No entanto, [Li et al.,
2002] mostram um limite melhor considerando a mdia ponderada de r termos, como a
seguir.

85
Parte 2 Para 2 r < m, min{
0
-1,
2
-
3
,
3
-
4
, ...,

r
-
r+1
} 1/(2r-1).
Prova: Considerando, 1 i,j n, onde d
H
(s
i
,s
j
) =
0
d
opt
(pior caso), e o conjunto de
posies onde s
i
e s
j
diferem (conjunto P
r
), pela desigualdade triangular, tem-se:

( ) ( ) ( )
r r r r r r
P opt P j H P opt P i H P j P i H
s s d s s d s s d , , , +
( ) ( )
r r r r
P opt P j H P opt P i H opt
s s d s s d d , ,
0
+

Sem perda de generalidade, seja ( ) ( )
opt P opt P i H
d s s
r r
2 ,
0
d . Logo, no conjunto de
posies onde s
i
e s
j
coincidem (conjunto Q
r
), as diferenas entre s
i
e s
opt
sero dadas por:

( ) ( ) ( )
opt i H P opt P i H Q opt Q i H
s s d s s d s s d
r r r r
, , , = +
( ) ( )
opt opt Q opt Q i H
d d s s d
r r
2 ,
0

( ) ( )
opt Q opt
r
Q i H
d s s d
r
2 1 ,
0
(6.8)

Assim, seja
k
= min p
k
/d
opt
, onde ( )
r r
Q opt Q i H k
s s d p ,
1
= , de (6.8), tem-se que:

k
= min p
k
/d
opt
(1-
0
/2)d
opt
/d
opt

k
1-
0
/2

2
1-
0
/2

Portanto, obtm-se da somatria abaixo,

( )( ) ( ) ( ) ( )
( ) 1 2 1
... 1 2 1
1 5 4 3 2 0
+
+ + + +
+
r
r r


( )
1 2
1
2 1
2 1 2 1
2 0

r r



86
Assim, no mnimo um dos termos {
0
-1,
2
-
3
,
3
-
4
, ...,

r
-
r+1
} menor ou igual a
1/(2r-1).

Se
0
>1 + 1/(2r-1), ento pela Parte 2, existe no mnimo um k, onde 2 k < r, tal que

k
-
k+1
1/(2r-1). Pela Parte 1, |J(l)| 1/(2r-1). Assim, existem no mximo 1/(2r-1) posies
em Q
r
onde s
l
difere de enquanto coincide com s
1
i
s
opt
, como demonstrado a seguir.
Considerando o conjunto de posies | | | | { } j s j s Q j
l i i i r
r
=
1 1
..., ,
' Q , para todo s
l
S,
tem-se do conjunto J(l) aplicado em Q
r
que:

( ) | | | | | | | | { } ( )
r r r
Q opt Q i H opt i l i i i
s s d j s j s e j s j s Q j l J
' ' ..., ,
,
1 1 1 1
= =

e do conjunto de posies onde s
l
difere de enquanto coincide com s
1
i
s
opt
(representado
por (6.9)) tambm aplicado em Q
r
que:

| | | | | | | | { } j s j s e j s j s Q j
opt l l i i i
r
=
1 1
..., ,
(6.9)
( ) ( )
r r r r
Q opt Q l H Q i Q l H
s s d s s d
' '
, ,
1
= ( ) ( )
r r r r
Q opt Q l H Q i Q l H
s s d s s d
' ' ' '
, ,
1
= (6.10)

Observe na Figura 6.2, o detalhamento da passagem de (6.9) para (6.10). A funo (6.9)
est representada por 6.2(a) e a funo (6.10) por 6.2(b).
Pela desigualdade triangular, ( ) ( ) ( )
r r r r r r
Q opt Q i H Q opt Q l H Q i Q l H
s s d s s d s s d
' ' ' ' ' '
, , ,
1 1
.
Logo,
| | | | | | | | { } ( ) l J j s j s e j s j s Q j
opt l l i r
=
1


Nota-se que para o conjunto Q
r
e Q
r
o resultado anterior o mesmo. Segue, tambm
que Q
r
Q
r
. Conseqentemente, qualquer distncia entre duas seqncias em Q
r
ser
menor ou igual a distncia em Q
r
. Portanto, ( ) ( )
r r r r
Q opt Q l H Q opt Q l H
s s d s s d
' '
, , .
87

Figura 6.2: (6.9) = (6.10)

Finalmente, tem-se:

( ) ( ) ( ) ( )
r r r r r r r r
Q opt Q l H Q i Q l H Q opt Q l H Q i Q l H
s s d s s d s s d s s d
' '
, , , ,
1 1

( ) ( ) | | | | | | | | { } j s j s e j s j s Q j s s d s s d
opt l l i r Q opt Q l H Q i Q l H
r r r r
=
1 1
, ,
( ) ( ) ( )
opt Q opt Q l H Q i Q l H
d
r
l J s s d s s d
r r r r
1 2
1
, ,
1


( ) ( )
opt Q opt Q l H Q i Q l H
d
r
s s d s s d
r r r r
1 2
1
, ,
1



O Lema 6.1 mostrou como encontrar uma boa aproximao uma soluo tima no
conjunto de posies Q
r
para algum i
1
, i
2
, ..., i
r
. O Lema 6.4 mostrar como usar a soluo do
Lema 6.1 para construir uma boa soluo para todo conjunto de posies n, ou seja, uma
soluo no formato s
H
=
r
Q i
ys
1
como descrito inicialmente.
Seja , considere agora, os seguintes resultados auxiliares. { }
k k
i i i i
Q n P
,..., ,...,
1 1
,..., 1 =

88
Lema 6.2: |P
k
| kd
opt

Prova: Considere o conjunto P
k
de posies onde as seqncias diferem. Seja q
uma posio em P
k
i i
s s ,...,
1
k
, existe ento uma seqncia , onde j = 1..k, tal que [q] s
j
i
s
j
i
s
opt
[q], caso
contrrio teramos | | | | | | q s q s q s
opt i i
k
= = = ...
1
e portanto q pertenceria a Q
k
. Logo,

| | | | ( )

= =

| |
1 1
,
k
j
P
q
k
j
opt i H k
q s q s d P
| | | | ( )

= =
=
k
j
P
q
opt i H
k
j
q s q s d
1
| |
1
,
Como a distncia ( )
opt opt i H
d s s d
j
, , onde j = 1..k

k
j
opt
d
1

opt k
d k P

Lema 6.3:
i
= E[d
H
(y,
k
P i
s )] - d
opt Q
k
d
,
H
(
k
Q i
s
1
,
k
Q i
s ), i=1,...,m.

Prova: Para cada 1 j |P
k
|, independentemente, y
j,
= 1 com probabilidade
, j
y e
y
j,
= 0 para todo - {}. Desta forma, assegura-se que apenas um nico smbolo
representar a posio j, onde y
j,
= 1. Logo, ( )




,
' ] [ ,
j i
y j s obtm valores 0 ou 1
aleatoriamente. Desde que o arredondamento seja independente para os diferentes js,
so variveis 0-1 aleatrias independentes para 1 j |P ( )




,
' ] [ ,
j i
y j s
k
|, temos ento:
( ) | | ( )
(

=
=
k
k
P
j
j i P i H
y j s E s y d E
1
,
' ] [ , , '



( ) | |

=
=
k
P
j
j i
y E j s
1
,
' ] [ ,



89
( )

=
=
k
P
j
j i
y j s
1
,
] [ ,



( ) | | ( )
opt Q Q i Q i H P i H
k k k k
d d s s d s y d E
,
, , '
1
+

Ou seja:

i
= E[d
H
(y,
k
P i
s )] - d
opt Q
k
d
,
H
(
k
Q i
s
1
,
k
Q i
s ), para i =1, ..., m.

Lema 6.4: Seja S = {s
1
,s
2
,...,s
m
}, onde |s
i
| = n para i=1,...,m. Considere s
opt
uma soluo
tima para o problema e
opt opt i H
n i 1
d s s d = , max . Dada uma seqncia s e um conjunto de
posies Q de tamanho n-O(d
opt
) tal que para cada i=1,...,m,
( )

( ) ( )
opt Q opt Q i H Q Q i H
d s s d s s d , ' , (6.11)

onde 0 1, pode-se obter uma soluo com razo de aproximao (1 + + )d
opt
em
tempo polinomial para um valor 0.
Prova: Considere soluo tima de (6.1)-(6.4), temos ento (para i = 1,...,m):
opt Q
d
,

d
H
(s
i
|
Q
, s
opt
|
Q
) + d
H
(s
i
|
P
, s
opt
|
P
) = d
H
(s
i
, s
opt
)
d
H
(s
i
|
P
, s
opt
|
P
) = d
H
(s
i
, s
opt
) - d
H
(s
i
|
Q
, s
opt
|
Q
)
Da desigualdade (6.11),
d
H
(s
i
|
P
, s
opt
|
P
) d
H
(s
i
, s
opt
) - (d
H
(s
i
|
Q
, s|
Q
) - d
opt
)
d
H
(s
i
|
P
, s
opt
|
P
) d
opt
- (d
H
(s
i
|
Q
, s|
Q
) - d
opt
)
d
H
(s
i
|
P
, s
opt
|
P
) + d
H
(s
i
|
Q
, s|
Q
) d
opt
+ d
opt

d
H
(s
i
|
P
, s
opt
|
P
) + d
H
(s
i
|
Q
, s|
Q
) (1+)d
opt

opt Q
d
,

(1+)d
opt


90
Lembre-se que se deseja provar que Pr(d
H
> (1+) d ) < 1, para algum > 0. Assim,
sem perda de generalidade, do resultado acima considere d = (1+)d
opt Q,
Q opt ,
opt
. Portanto, se B
representa um mau evento e > 0, deve-se provar que:

( ) ( ) ( ) ( )
opt Q opt Q H opt Q H
d d d d d B
, , ,
Pr 1 Pr Pr + > = + > =
( ) ( )
opt Q opt H
d d d
,
1 Pr + + > =
( ) ( ) ( ) ( ) 1 1 Pr 1 Pr < + + > = + + >
opt H opt opt H
d d d d d

Desta forma, esperamos que:
( ) 1 Pr Pr
1
<
|
|
.
|

\
|
=
=
U
m
i
i
B B .

Onde B
i
um evento representando falha de uma soluo s
H
=
Q
ys' com relao a uma
determinada seqncia s
i
, ou seja, B
i
ocorre sempre que:

( ) ( ) ( )
Q i Q H opt Q P i H
s s d d s y d , ' 1 ,
,
+ > , para i {1,...,m}.

Como = (1+)d
opt Q
d
,
opt
, segue que:

( ) ( ) ( ) ( )
opt Q Q i Q H opt Q P i H i
d s s d d s y d B
, ,
, ' , Pr Pr + > =
( ) ( ) ( )
opt Q i Q H opt Q P i H
d s s d d s y d + > , ' , Pr
,

Pelo Lema 6.2, seja =/r. Logo, |P| d
opt
.
( ) ( ) ( ) P s s d d s y d
Q i Q H opt Q P i H
' , ' , Pr
,
+ >
Do Lema 6.3, temos:
( ) ( ) P s y d
i P i H
' , Pr + >
Finalmente, da desigualdade de Chernoff-Hoeffding (Lema 3.2), temos:
91
( )
|
.
|

\
|
<
2
'
3
1
exp Pr P B
i
, i=1,...,m.

Logo, ( ) 1 '
3
1
exp Pr
2
< |
.
|

\
|
< P m B . Portanto:

( )
2
'
ln 3

m
P >

Logo, se ( )
2
' / ln 4 m P obtm-se uma soluo s
H
com custo d
H
+ |P| com
probabilidade de sucesso 1- m
opt Q
d
,
-1/3
.
Se ( )
2
' / ln 4 m P < , a busca exaustiva encontra a soluo tima para (6.1)-(6.4) em
tempo polinomial.
Desde que |P| seja da ordem de d
opt
, onde |P| rd
opt
para r constante (Lema 6.2), e
=/r, podemos obter s
H
=
Q
s y '
0
soluo heurstica para (6.1)-(6.4), onde y
0
soluo
inteira de y, para todo i=1,...,m, ou seja:
d
H
(s
i
, s
H
) = d
H
(s
i
|
P
, y
0
) + d
H
(s
i
|
Q
, s|
Q
)
+ |P|
opt Q
d
,
(1+)d
opt
+ d
opt

(1 + + )d
opt


Agora o algoritmo 6.1 ser descrito em detalhes.

Teorema 6.1: O algoritmo 6.1 um PTAS para o PSMP.
Prova: Dada uma instncia do PSMP, seja s
opt
uma soluo tima com distncia d
opt
, onde
d
opt
= max {d
H
(s
opt
, s
i
); i=1..m}. Seja P definido no passo (1.a) do algoritmo, logo pelo Lema
6.2, P = O(d
opt
). Note que para r constante, como definido no Lema 6.1, os passos (1.b) e
(1.c) so executados em tempo polinomial como provados no Lema 6.4. Obviamente, para r
constante, fcil ver que os outros passos tambm so executados em tempo polinomial.
92
Observe que se
0
1+1/(2r-1), pela definio de
0
, o passo (2) encontra uma soluo
com razo
0
d
opt
1+1/(2r-1)d
opt
. Entretanto, se
0
> 1+1/(2r-1), pelo Lema 6.1 e 6.4, o
passo (1) encontra uma razo limitada superiormente por (1+1/(2r-1)+)d
opt
.
Portanto, a razo de aproximao do algoritmo ser (1+1/(2r-1)+)d
opt
, provando o
teorema.

Note por exemplo, que se r = 2 temos
0
= 1/(2r-1) = 1/3 e portanto, teremos um
algoritmo (4/3+)-aproximado igualando a razo de aproximao de Lanctot et al.[Lanctot et
al.,1999] (vide Captulo 5).

93
Concluses


Neste trabalho, apresentamos alguns conceitos bsicos e definies presentes na
biologia molecular, visando uma maior compreenso de alguns dos problemas combinatrios
mais freqentes descritos na literatura (captulo 2). Em particular, concentramos nossa
ateno ao problema da seqncia mais prxima (PSMP).
Nosso objetivo foi estudar os principais algoritmos aproximativos existentes na
literatura para o PSMP, em sua maioria baseados em mtodos probabilsticos. Desta forma,
fazemos uma descrio mais detalhada das tcnicas de Monte Carlo, arredondamento
randmico e derandomizao, em particular o mtodo das probabilidades condicionais,
mostrando os avanos mais recentes obtidos at o momento. Outra contribuio importante
foi o desenvolvimento da derandomizao sugerida por Ben-Dor et al.[ Ben-Dor et al.,
1997], onde utilizamos o mtodo dos estimadores pessimistas, determinando assim limitantes
superiores para as probabilidades condicionais associadas.
Apresentamos de maneira detalhada, o algoritmo (4/3+)-aproximado de Lanctot et
al.[Lanctot et al.,1999] e o esquema de aproximao polinomial de Li et al.[Li et al., 2002].
Como sugesto para trabalhos futuros podemos citar o problema da subseqncia mais
prxima (PSSMP), uma extenso do PSMP, utilizando a mesma abordagem apresentada neste
trabalho. Dado um conjunto S = {s
1
,s
2
,...,s
m
} de seqncias (todas de tamanho maior ou igual
a n), sobre um alfabeto , o PSSMP consiste em encontrar uma seqncia s
H
de tamanho n,
de forma que s
H
minimize d onde, para cada s
i
S e y
i
uma subseqncia de tamanho n de s
i
,
tenhamos d
H
(s
H
, y
i
) d, para i=1...m.
Uma outra questo a ser investigada a utilizao dos modelos de programao linear
inteira apresentados recentemente por Pardalos et al. [Pardalos et al., 2004] combinados com
as tcnicas de arredondamento randmico e derandomizao.
94
Outro aspecto a ser considerado, a determinao de estimadores pessimistas para um
alfabeto (de cardinalidade || > 2) onde as distncias d
H
(, s
i
[j]) [0,D] para s
i
S e
D = max
,
{d
H
(, )}.
Neste caso, outras desigualdades (tail inequalities) devero ser pesquisadas na literatura
visando a determinao de um limitante superior para as probabilidades condicionais.
95
Referncias Bibliogrficas

[Alberts et al., 1994] Alberts, B., Bray, D., Lewis, J., Raff, M., Roberts, K. and Watson, J.D.
Molecular Biology of the Cell. New York & London: Garland Publishing.
[Alizadeh et al., 1995] Alizadeh, F., Karp, R.M., Weisser, D.K. and Zweig, G. Physical mapping of
chromosomes using unique probes. J. Comput. Biol., 2(2):159-184.
[Almeida & Setbal, 2003] Almeida, N.F.Jr. e Setbal, J.C. Ferramentas para comparao genmica,
Anais do XXIII Congresso da Sociedade Brasileira de Computao, Campinas, SP, pp 13-20.
[Alon & Spencer, 1992] Alon, N. and Spencer, J. The Probabilistic Method. Wiley, New York.
[Altschul & Lipman, 1989] Altschul, S.F. and Lipman, D.J. Trees, stars, and multiple biological
sequence alignment. SIAM Journal on Applied Mathematics, 49(1):197-209.
[Armen & Stein, 1995] Armen, C. and Stein, C. Short superstrings and the structure of overlapping
strings. Journal of Computational Biology, 2(2):307-332.
[Armen & Stein, 1996] Armen, C. and Stein, C. A 2 2/3-approximation algorithm for the shortest
superstring problem. In proceedings of the Seventh Symposium on Combinatorial Pattern
Matching, volume 1075 of Lecture Notes in Computer Science, pages 87-103. Berlin:
Springer-Verlag.
[Arora et al., 1995] Arora, S., Karger, D. and Karpinski, M. Polynomial time approximation schemes
for dense instances of NP-hard problems. Proc. 27th Ann. ACM Symp. on Theory of Comp. ,
ACM, 284-293.
[Atlan & Koppel, 1990] Atlan, H. and Koppel, M. The cellular computer DNA: program or data?
Bulletin of Mathematical Biology, 52(3):335-348.
[Bafna & Pevzner, 1996] Bafna, V. and Pevzner, P.A. Genome rearrangements and sorting by
reversals. SIAM Journal on Computing, 25(2):272-289.
[Bains, 1986] Bains, W. Multan: a program to align multiple DNA sequences. Nucleic Acids
Research, 14:159-177.
[Barton & Sternberg, 1987] Barton, G.J. and Sternberg, M.J.E. A strategy for the rapid multiple
alignment of protein sequences. Journal of Molecular Biology, 198:327-337.
96
[Batzoglou, 2000] Batzoglou, S. Computational Genomics: Mapping, Comparison, and Annotation of
Genomes. Ph.D. Dissertation, Department of Electrical Engineering and Computer Science,
MIT.
[Ben-Dor et al, 1997] Ben-Dor, A., Lancia, G., Perone, J. and Ravi, R. Banishing Bias from
Consensus Sequences, Combinatorial Pattern Matching, 8th Annual Symposium, Springer-
Verlag, Berlin.
[Berman & Hannenhalli, 1996] Berman, P. and Hannenhalli, S. Fast sorting by reversal. In
Proceedings of the Seventh Symposium on Combinatorial Pattern Matching, volume 1075 of
Lecture Notes in Computer Science, pages 168-185. Berlin: Springer-Verlag.
[Berman et al., 1997] Berman, P., Gumucio, D., Hardison, R., Miler, W. and Stojanovic, N. A linear-
time algorithm for the 1-mismatch problem, Workshops on Algorithms and Data Structures,
pp. 126-135.
[Blum et al., 1991] Blum, A., Jiang, T., Li, M., Tromp, J. and Yannakakis, M. Linear approximation
of shortest superstrings. In Proceedings of the Twenty-Third Annual ACM Symposium on
Theory of Computing, pages 328-336.
[Blum et al., 1994] Blum, A., Jiang, T., Li, M., Tromp, J. and Yannakakis, M. Linear approximation
of shortest superstrings. Journal of the ACM, 41(4):630-647.
[Booth & Lueker, 1976] Booth, K.S. and Lueker, G.S. Testing of the consecutive ones property,
interval graphs, and graph planarity using PQ-tree algorithms. Journal of Computer and
System Sciences, 13(3):335-379.
[Branden & Tooze, 1991] Branden, C. and Tooze, J. Introduction to protein structure. New York &
London: Garland Publishing.
[Brown, 1999] Brown, T.A. Genomes. Wiley-Liss Bros.
[Cantor & Smith, 2000] Cantor, C. and Smith, C.L. Genomics: The Science and Technology Behind
the Human Genome Project. Wiley-Interscience, New York.
[Caprara et al., 1995] Caprara, A., Lancia, G. and Ng, S.K. A column-generation-based branch-and-
bound algorithm for sorting by reversals. Presented at the 4
th
DIMACS Implementation
Challenge Work-shop.
[Caprara, 1997] Caprara, A. Sorting by reversals is difficult. In proceedings of the First Annual
International Conference on Computational Molecular Biology.
[Carrillo & Lipman, 1988] Carrillo, H. and Lipman, D.J. The multiple sequence alignment problem in
biology. SIAM J. Appl. Math, 48(5):1073-1082.
[Chao et al., 1994] Chao, K.M., Hardison, R.C. and Miller, W. Recent developments in linear-space
alignment methods: a mini survey. Journal of Computational Biology, 1:271-291.
97
[Cieliebak et al, 2003] Cieliebak, M., Eidenbenz, S. and Penna, P. Noisy Data Make the Partial Digest
Problem NP-Hard. In Proc. of the 3rd Workshop on Algorithms in Bioinformatics (WABI
2003), pages 111-123.
[Czumaj et al., 1994] Czumaj, A., Gasienec, L., Piotrow, M. and Rytter, W. Parallel and sequential
approximations of shortest superstrings. In Proceedings of the Fourth Scandinavian Workshop
on Algorithm Theory, pages 95-106.
[Dayhoff et al., 1978] Dayhoff, M., Schwartz, R.M. and Orcutt, B.C. A model of evolutionary change
in proteins. In M.Dayhoff, editor, Atlas of Protein Sequence and Structure, volume 5, pages
345-352. National Biomedical Research Foundation, Silver Spring, MD, Supplement 3.
[Dakic, 2000] Dakic, T. On the turnpike problem. PhD thesis, Simon Fraser University.
[Dean & Staden, 1991] Dean, S. and Staden, R. A sequence assembly and editing program for
efficient management of large projects. Nucleic Acids Research, 19(14):3907-3911.
[Devereux et al., 1984] Devereux, J., Haeberli, P. and Smithies, D. A comprehensive set of sequence
analysis programs for the VAX. Nucleic Acids Research, 12:387-395.
[Dias, 2002] Dias, Z. Rearranjo de Genomas: Uma Coletania de Artigos. Tese de Doutorado,
Unicamp.
[Doolittle et al., 1983] Doolittle, R.F., Hunkapiller, M.W., Hood, L.E., Devare, S.G., Robbins, K.C.,
Aaronson, S.A. and Antoniades, H.N. Simian sarcoma virus one gene, v-sis, is derived from
the gene (or genes) encoding a platelet-derived growth factor. Science, 221:275-277.
[Doolittle, 1985] Doolittle, R.F. Proteins. Scientific American, 253(4):74-83.
[Eppstein et al., 1992] Eppstein, D., Galil, Z., Giancarlo, R. and Italiano, G. Sparse dynamic
programming I: Linear cost functions. Journal of the ACM, 39:519-545.
[Fauron & Havlik, 1989] Fauron, C. and Havlik, M. The maize mitochondrial genome of the normal
type and the cytoplasmic male sterile type have very different organization. Current Genetics,
15:149-154.
[Fellows et al., 1993] Fellows, M.R., Hallett, M.T. and Wareham, H.T. DNA physical mapping: Three
ways difficult. In Proceedings of the First Annual European Symposium on Algorithms,
volume 726 of Lecture Notes in Computer Science, pages 157-168. Berlin: Springer-Verlag.
[Feng & Doolittle, 1987] Feng, D. and Doolittle, R. Progressive sequence alignment as a prerequisite
to correct phylogenetic trees. Journal of Molecular Evolution, 25:351-360.
98
[Ferreti et al., 1996] Ferreti, V., Nadeau, J.H. and Sankoff, D. Original synteny. In Proceedings of the
Seventh Symposium on Combinatorial Pattern Matching, number 1075 in Lecture Notes on
Computer Science, pages 159-167. Berlin: Springer-Verlag.
[Fitch et al., 1983] Fitch, W.M., Smith, T.F. and Ralph, W.W. Mapping the order of DNA restriction
fragments. Gene, 22:19-29.
[Formaneck, 2003] Formaneck, S. Methods of Multiple Sequence Alignment. Department of
Combinatorics & Optimization, University of WaterLoo.
[Frances & Litman, 1997] Frances, M. and Litman, A. On Covering Problems of Codes. Theory of
Computing Systems, vol. 30, pp. 113-119.
[Frenkel, 1991] Frenkel, K.A. The human genome project and informatics. Communications of the
ACM, 34(11).
[Fulkerson & Gross, 1965] Fulkerson, D.R. and Gross, O.A. Incidence matrices and interval graphs.
Pacific Journal of Mathematics, 15(3):835-855.
[Gallant et al., 1980] Gallant, J., Maier, D. and Storer, J. On finding minimal length superstrings.
Journal of Computer and System Science, 20:50-58.
[Garey et al., 1972] Garey, M.R., Graham, R.L. and Ullman, J.D. Worst case analysis of memory
allocation algorithms. In Proc. of the 4
th
ACM Symp. on Theory of Computing. 143-150.
[Gasieniec et al., 1999] Gasieniec, L., Jansson, J. and Lingas, A. Efficient approximation algorithms
for the Hamming center problem, Proc. 10
th
ACM-SIAM Symposium on Discrete Algorithms,
pp. S905-S906.
[Gates & Papadimitriou, 1979] Gates, W.H. and Papadimitriou, C.H. Bounds for sorting by prefix
reversal. Discrete Mathematics, 27:47-57.
[George et al., 1990] George, D.G., Barker, W.C. and Hunt, L.T. Mutation data matrix and its uses. In
Doolittle [51], pages 333-351.
[Gingerias et al., 1979] Gingerias, T., Milazzo, J., Sciaky, D. and Roberts, R. Computer programs for
assembly of DNA sequences. Nucleic Acids Research, 7:529-545.
[Goldberg et al., 1993] Goldberg, P.W., Golumbic, M.C., Kaplan, H. and Shamir, R. Three strikes
against physical mapping of DNA. Unpublished manuscript.
[Goldstein & Waterman, 1987] Goldstein, L. and Waterman, M.S. Mapping DNA by stochastic
relaxation. Advances in Applied Mathematics, 8:194-207.
[Golumbic et al., 1994] Golumbic, M.C., Kaplan, H. and Shamir, R. On the complexity of DNA
physical mapping. Adv. Appl. Math., 15:251-261.
99
[Green & Green, 1991] Green, E.D. and Green, P. Sequence-tagged site (STS) content mapping of
human chromosomes: Theoretical considerations and early experiences. PCR Methods and
Appl., pages 77-90.
[Greenberg & Istrail, 1994] Greenberg, D. and Istrail, S. The chimeric mapping problem: Algorithmic
strategies and performance evaluation on synthetic genomic data. Computers and Chemistry,
18(3):207-220.
[Greenberg & Istrail, 1995] Greenberg, D. and Istrail, S. Physical mapping by STS hybridization:
Algorithmic strategies and the challenge of software evaluation. Journal of Computational
Biology, 2(2):219-274.
[Gupta et al., 1995] Gupta, S.K., Kececioglu, J., Schffer, A.A. Improving the practical space and
time efficiency of the shortest-paths approach to sum-of-pairs multiple sequence alignment.
Journal of Computational Biology, 2(3):459-472.
[Gusfield et al., 1992] Gusfield, D., Landau, G.M. and Schieber, B. An efficient algorithm for the all
pairs suffix-prefix problem. Information Processing Letters, 41:181-185.
[Gusfield, 1993] Gusfield, D. Efficient methods for multiple sequence alignment with guaranteed
error bounds. Bulletin of Mathematical Biology, 55(1):141-154.
[Gusfield, 1994] Gusfield, D. Faster implementation of a shortest superstring approximation.
Information Processing Letters, 51:271-274.
[Gusfield, 1997] Gusfield, D. Algorithms on Strings, Trees, and Sequences. Cambridge University
Press.
[Hannenhalli & Pevzner, 1995a] Hannenhalli, S. and Pevzner, P.A. Transforming cabbage into turnip
(polynomial algorithm for sorting signed permutations by reversals). In Proceedings of
Twenty-Seventh Annual ACM Symposium on Theory of Computing, pages 178-189.
[Hannenhalli & Pevzner, 1995b] Hannenhalli, S. and Pevzner, P.A. Transforming men into mice
(polynomial algorithm for genomic distance problem). In Proceedings of the IEEE Thirty-
Sixth Annual Symposium on Foundations of Computer Science, pages 581-592.
[Hannenhalli & Pevzner, 1999] Hannenhalli, S. and Pevzner, P. Transforming cabbage into turnip
(polynomial algorithm for sorting signed permutations by reversals). Journal of ACM 46(1):1-
27.
[Heijne, 1987] von Heijne, G. Sequence Analysis in Molecular Biology: Treasure Trove or Trivial
Pursuit? New York: Academic Press.
100
[Hertz & Stormo, 1995] Hertz, G. and Stormo, G. Identification of Consensus Patterns in Un-aligned
DNA and Protein Sequences: A Large-Deviation Statistical Basis for Penalizing Gaps, in
Proceedings of the 3rd International Conference on Bioinformatics and Genome Research,
p201-216.
[Higgins et al., 1996] Higgins, D.G., Thompson, J.D. and Gibson, T.J. Using CLUSTAL for multiple
sequence alignments. Methods in Enzymology, 266:383-402.
[Hirschberg, 1975] Hirschberg, D. A linear space algorithm for computing maximal common
subsequences. Communications of the ACM, 18:341-343.
[Ho et al., 1990] Ho, S.T., Allison, L. and Yee, C.N. Restriction site mapping for three or more
enzymes. Comp. Appl. Biosciences, 6:195-204.
[Hofstadter, 1979] Hofstadter, D. Gdel, Escher, Bach. New York: Basic Books.
[Hsu, 1992] Hsu, W.L. A simple test for the consecutive ones property. In Proceedings of the
International Symposium on Algorithms & Computation (ISAAC).
[Huang et al., 1990] Huang, X., Hardison, R.C. and Miller, W. A space-efficient algorithm for local
similarities. Computer Applications in the Biosciences, 6(4):373-381.
[Huang, 1992] Huang, X. A contig assembly program based on sensitive detection of fragment
overlaps. Genomics, 14:18-25.
[Huang, 1996] Huang, X. An improved sequence assembly program. Genomics, 33:21-31.
[Jiang et al., 1996] Jiang, T., Jiang, Z. and Breslauer, D. Rotation of periodic strings and short
superstrings. Technical Report, Max-Planck-Institut f. Informatik, Saarrucken, Germany.
[Johnson, 1974] Johnson, D.S. Approximation algorithms for combinatorial problems. J. Comput.
System Sci., 9, 256-278.
[Kaplan et al., 1994] Kaplan, H., Shamir, R. and Tarjan, R.E. Tractability of parameterized
completion problems on chordal and interval graphs: Minimum fill-in and physical mapping.
In Proceedings of the IEEE Thirty-Fifth Annual Symposium on Foundations of Computer
Science, pages 780-791.
[Karp, 1993] Karp, R.M. Mapping the Genome: some combinatorial problems arising in molecular
biology. ACM Symposium on Theory of Computing93, 278-285.
[Kececioglu, 1993] Kececioglu, J. The maximum weight trace problem in multiple sequence
alignment. In Proc. 4-th Symp. Combinatorial Pattern Matching, pages 106-119. Springer-
Verlag.
101
[Kececioglu & Sankoff, 1995] Kececioglu, J. and Sankoff, D. Exact and approximation algorithms for
the inversion distance between two permutations. Algorithmica, 13:180-210.
[Kececioglu & Myers, 1995] Kececioglu, J.D. and Myers, E.W. Combinatorial algorithms for DNA
sequence assembly. Algorithmica, 13:7-51.
[Koonin & Dolja, 1993] Koonin, E.V. and Dolja, V.V. Evolution and taxonomy of positive-strand
RNA viruses: implications of comparative analysis of amino acid sequences. Critical Reviews
in Biochemistry and Molecular Biology, 28(5):375-430.
[Kosaraju et al., 1994] Kosaraju, R., Park, J. and Stein, C. Long tours and short superstrings. In
Proceedings of the IEEE Thirty-Fifth Annnual Symposium on Foundations of Computer
Science, pages 166-177.
[Lancia, 2004] Lancia, G. Applications to Computational Molecular Biology, Kluwer International
Series in Operations Research and Management Science, Volume on Modeling for Discrete
Optimization, (G. Appa and P. Williams eds).
[Lanctot et al., 1999] Lanctot, K., Li, M., Ma, B., Wang, S. and Zhang, L. Distinguishing string
selection problems. Proc. 10
th
ACM-SIAM Symp. On Discrete Algorithms, pp. 633-642.
[Lawrence & Reilly, 1990] Lawrence, C. and Reilly, A. An expectation maximization (EM) algorithm
for the identification and characterization of common sites in unaligned biopolymer
sequences. Proteins, 7, 41-51.
[Lewin, 1994] Lewin, B. Genes V. Oxford: Oxford University Press.
[Lemke & Werman, 1988] Lemke, P. and Werman, M. On the complexity of inverting the
autocorrelation function of a finite integer sequence, and the problem of locating n points on a
line, given the unlabelled distances between them. Preprint 453, Institute for Mathematics
and its Application IMA.
[Lewontin, 1993] Lewontin, R. Biology as Ideology. New York: HarperPerennial.
[Li, 1990] Li, M. Towards a DNA sequencing theory. In Proc. 31-th Annual IEEE Symp. Found.
Comput. Sci., pages 125-134.
[Li et al., 2002] Li, M., Ma, B. and Wang, L. [2002] On the closest string and substring problems.
Journal of the ACM, 49(2):157-171.
[Lucas et al., 1991] Lucas, K., Busch, M., Mossinger, S. and Thompson, J.A. An improved
microcomputer program for finding gene or gene family-specific Abd-Elsalam 95
oligonucleotides suitable as primers for polymerase chain reactions or as probes. Comput.
Appl. Biosci. 7: 525-529.
102
[Ma, 2000] Ma, B. A polynomial time approximation scheme for the closest substring problem. In
Proceedings of the Annual Symposium on Combinatorial Pattern Matching (CPM), volume
1848 of Lecture Notes in Computer Science, pages 99-107.
[Mathews & Holde, 1990] Mathews, C.K. and van Holde, K.E. Biochemistry. Redwood City, CA:
Benjamin/Cummings.
[Mayraz & Shamir, 1999] Mayraz, G. and Shamir, R. Construction of physical maps from
oligonucleotide fingerprints data. Journal of Computational Biology, 6(2):237-252.
[Meidanis & Munuera, 1996] Meidanis, J. and Munuera, E.G. A theory for the consecutive ones
property. In Proceedings of the Third South American Workshop on String Processing,
volume 4 of International Informatics Series, pages 194-202. Carleton University Press.
[Meidanis & Setbal, 1997] Setbal, J.C. and Meidanis, J. Introduction to Computacional Molecular
Biology. PWS Publishing Company.
[Messing et al., 1981] Messing, J., Crea, R. and Seeburg, P.H. A system for shotgun DNA sequencing.
Nucleic Acids Research, 9:309-321.
[Meyer, 1983] Meyer, P. Probabilidade: Aplicaes Estatstica. (2 edio) Livros Tcnicos e
Cientficos Editora S.A.
[Mott et al., 1993] Mott, R., Grigoriev, A., Maier, J.H.E. and Lehrach, H. Algorithms and software
tools for ordering clone libraries: application to the mapping of the genome of
schzosaccharomyces pombe. Nucleic Acid Research, 21(8):1965-1974.
[Motwani & Raghavan, 1995] Motwani, R. and Raghavan, P. Randomized Algorithms, Cambrigde
Univ. Press.
[Myers & Miller, 1988] Myers, E.W. and Miller, W. Optimal alignments in linear space. Computer
Applications in the Biosciences, 4(1):11-17.
[Needleman & Wunsch, 1970] Needleman, S.B. and Wunsch, C.D. A general method applicable to
the search for similarities in the amino acid sequence of two proteins. Journal of Molecular
Biology, 48:443-453.
[NewBerg & Naor, 1993] NewBerg, L.A. and Naor, D. A lower bound on the number of solutions to
the exact probed partial digest problem. Adv. Appl. Math. 14:172-185.
[Okura, 2002] Okura, V.K. Bioinformtica de Projetos Genoma de Bactrias. Tese de M.Sc.,
Universidade Estadual de Campinas.
[Palmer, 1987] Palmer, J.D. Chloroplast DNA evolution and biosystematic uses of chloroplast DNA
variation. The American Naturalist, 130:S6-S29, Supplement.
103
[Palmer & Herbon, 1987] Palmer, J.D. and Herbon, L.A. Unicircular structure of the brassica hirta
mitochondrial genome. Current Genetics, 11:565-570.
[Palmer et al., 1988] Palmer, J.D., Osrio, B. and Thompson, W.F. Evolutionary significance of
inversions in legume chloroplast DNAs. Current Genetics, 14:65-74.
[Pandurangan & Ramesh, 2002] Pandurangan, G. and Ramesh, H. The Restriction Mapping Problem
Revisited. Journal of Computer and System Sciences (special issue on Computational
Biology), 65, 526-544 (invited paper).
[Pardalos et al., 2004] Pardalos, P.M., Meneses, C.N., Lu, Z., Oliveira, C.A.S. Optimal Solutions for
the Closest String Problem via Integer Programming. To appear in INFORMS Journal on
Computing.
[Pearson & Miller, 1992] Pearson, W.R. and Miller, W. Dynamic programming algorithms for
biological sequence comparison. In L. Brand and M. L. Johnson, editors, Numerical
Computer Methods, volume 210 of Methods in Enzymology, pages 575-601. New York:
Academic Press.
[Peltola et al., 1984] Peltola, H., Sderlund, H. and Ukkonen, E. SEQAIDS: A DNA sequence
assembling program based on a mathematical model. Nucleic Acids Research, 12:307-321.
[Pevzner, 1992] Pevzner, P.A. DNA physical mapping, flows in networks and minimum cycles mean
in graphs. DIMACS Series in Discrete Mathematics and Theoretical Computer Science, 8:99-
112.
[Pevzner, 1995] Pevzner, P.A. DNA physical mapping and alternating Eulerian cycles in colored
graphs. Algorithmica, 13(1/2):77-105.
[Pevzner, 2000] Pevzner, P. Computational Molecular Biology - An Algorithmic Approach. MIT
Press,
[Posfai et al., 1989] Posfai, J., Bhagwat, A.S., Posfai, G. and Roberts, R.J. Predictive motifs derived
from cytosine methyltransferases. Nucleic Acids Res 17 (7), 2421-2435.
[Poustka et al., 1986] Poustka, A., Pohl, T., Barlow, D.P., Zehetner, G., Craig, A., Michiels, F.,
Ehrich, E., Frischauf, A.M. and Lehrach, H. Molecular approaches to mammalian genetics.
Cold Spring Harbor Symposium on Quantitative Biology, 51:131-139.
[Proutski & Holme, 1996] Proutski, V. and Holme, E.C. Primer Master: a new program for the design
and analysis of PCR primers. CABIOS 12:253-255.
[Raghavan & Thompson, 1987] Raghavan, P., Thompson, C.D. Randomized Rounding: Provably
good algorithms and algorithmics proofs. Combinatorica 7, 365-374.
104
[Raghavan, 1988] Raghavan, P. A probabilistic construction of deterministic algorithms:
Approximating packing integer programs. Journal of Computer and System Sciences, 37:130-
143.
[Robbins, 1992] Robbins, R.J. Challenges in the human genome project. IEEE Engineering in
Medicine and Biology, 11(1):25-34.
[Rosenblatt & Seymour, 1982] Rosenblatt, J. and Seymour, P. The structure of homometric sets.
SIAM Journal of Algorithms and Discrete Mathematics, 3(3):343-350.
[Rosenfeld et al., 1984] Rosenfeld, I., Ziff, E. and van Loon, V. DNA for beginners. Writers and
Readers.
[Sankoff, 1975] Sankoff, D. Minimal mutation trees of sequences. SIAM Journal on Applied
Mathematics, 28:35-42.
[Sankoff & Kruskal, 1983] Sankoff, D. and Kruskal, J.B. Time Warps, String Edits, and
Macromolecules: the Theory and Practice of Sequence Comparison. Reading, MA: Addison-
Wesley.
[Sankoff, 1985] Sankoff, D. Simultaneous solution of the RNA folding, alignment and protosequence
problems. SIAM Journal on Applied Mathematics, 45:810-825.
[Sankoff, 1993] Sankoff, D. Analytical approaches to genomic evolution. Biochimie, 75(409-413).
[Schmitt & Waterman, 1991] Schmitt, W. and Waterman, M.S. Multiple solutions of DNA restriction
mapping problem. Advances in Applied Mathematics, 12:412-427.
[Sellers, 1974] Sellers P. H. On the theory and computation of evolutionary distances. SIAM J. Appl.
Math. 26:787-793.
[Sim & Park, 2001] Sim, J.S. and Park, K. The Consensus String Problem for a Metric is NP-
Complete. J. of Discrete Algorithms, 2(1), 115121.
[Simon, 1987] Simon, I. Sequence comparison: some theory and some practice. In Proceedings of the
LITP Spring School on Theoretical Computer Science, volume 377 of Lecture Notes in
Computer Science, pages 79-92. Berlin: Springer-Verlag.
[Sivakumar, 2002] Sivakumar, D. Algorithmic Derandomization via Complexity Theory. In
Proceedings of the thirty-fourth annual ACM symposium on Theory of computing, pages 619-
626. ACM Press.
[Skiena et al., 1990] Skiena, S.S., Smith, W.D. and Lemke, P. Reconstructing sets from interpoint
distances. In Proc. 6-th Ann. ACM Symp. on Computational Geometry, pages 332-339.
105
[Skiena & Sundaram, 1994] Skiena, S.S. and Sundaram, G. A Partial Digest Approach to Restriction
Site Mapping. Bulletin of Mathematical Biology, 56(2), pp. 275-294.
[Smith & Waterman, 1981] Smith, T.F. and Waterman, M.S. Identification of common molecular
subsequences. Journal of Molecular Biology, 147:195-197.
[Srinivasan, 1999] Srinivasan, A. Approximation algorithms via randomized rounding: a survey.
Series in Advanced Topics in Mathematics, pages 9-71.
[Staden, 1979] Staden, R. A strategy of DNA sequencing employing computer programs. Nucleic
Acids Research, 6:2601-2610.
[Stefik, 1978] Stefik, M. Inferring DNA structure from segmentation data. Artificial Intelligence,
11:85-114.
[Stormo, 1990] Stormo, G.D. Consensus patterns in DNA. InDoolittle, R. F., ed., Molecular
Evolution: Computer Analysis of Protein and Nucleic Acid Sequences, Methods
inEnzymology, volume 183. Academic Press. 211-221.
[Stormo & Hartzell, 1991] Stormo, G.D. and Hartzell, G.W. Identifying protein-binding sites from
unaligned DNA fragments,Proc. Natl. Acad. Sci. USA, 88:56995703.
[Tamarin, 1991] Tamarin, R. Principles of Genetics. Duduque, IA: Wm. C. Brown.
[Tarhio & Ukkonen, 1998] Tarhio, J. and Ukkonen, E. A greedy approximation algorithm for
constructing shortest common superstrings. Theoretical Comput. Sci., 57:131-145.
[Taylor, 1987] Taylor, W.R. Multiple sequence alignment by a pairwise algorithm. Computer
Applications in Biosciences, 3:81-87.
[Teng & Yao, 1993] Teng, S.-H. and Yao, F. Approximating shortest superstrings. In Proceedings of
the IEEE Thirty-Fourth Annual Symposium on Foundations of Computer Science, pages 158-
165.
[Turner, 1989] Turner, J. Approximation algorithms for the shortest common superstring problem.
Information and Computation, 83:1-20.
[Vigron, 1996] Vigron, M. Near-optimal sequence alignment. Currenty Opinion in Struct. Biol.,
6(3):346-352.
[Zehetner et al., 1988] Zehetner, G., Frischauf, A. and Lehrach, H. Approaches to restriction map
determination, pages 147-164. IRL Press, Oxford. M. J. Bishop and C. J. Rawling (eds.),
Nucl. Acid and Protein Sequence Analysis, Pratical Approaches.
[Zhang et al., 1994] Zhang, Z., Raghavachari, B., Hardison, R. and Miller, W. Chaining multiple-
alignment blocks. J. Comput. Biol., 1:217-226.
106
[Wang & Jiang, 1994] Wang, L. and Jiang, T. On the complexity of multiple sequence alignment. J.
Comput. Biol., 1:337-348.
[Waterfield et al., 1983] Waterfield, M.D., Scrace, G.T., Whittle, N., Stroobant, P., Johnsson, A.,
Wasteson, A., Westermark, B., Heldin, C.H., Huang, J.S. and Deuel, T.F. Platelet-derived
growth factor is structurally related to the putative transforming protein p28sis of simian
sarcoma virus. Nature, 304:35-39.
[Waterman et al., 1976] Waterman, M.S., Smith, T.F. and Beyer, W.A. Some biological sequence
metrics. Advances in Mathematics, 20:367-387.
[Waterman & Perlwitz, 1984] Waterman, M.S. and Perlwitz, M.D. Line Geometries for Sequence
Comparisons. Bull Math Biol;46(4):567-577.
[Waterman et al., 1984] Waterman, M.S., Arratia, R. and Galas, D.J. Pattern Recognition in Several
Sequences: Consensus and Alignment. Bull. Math. Biol. 46, 515-527.
[Waterman & Griggs, 1986] Waterman, M.S. and Griggs, J.R. Interval graphs and maps of DNA.
Bulletin of Mathematical Biology, 48(2):189-195.
[Waterman, 1986] Waterman, M.S. Multiple sequence alignment by consensus. Nucleic Acids Res.
14(22):9095-102.
[Waterman, 1989] Waterman, M.S. Mathematical Methods for DNA Sequences. Boca Raton, FL:
CRC Press. Editor 1989.
[Waterman, 1995] Waterman, M.S. Introduction to Computational Biology, Chapman and Hall.
[Watson & Crick, 1953a] Watson, J.D. and F.H.C. Crick. Molecular structure of nucleic acid. A
structure for deoxyribose nucleic acid. Nature 171:737-738.
[Watson & Crick, 1953b] Watson, J.D. and F.H.C. Crick. Genetic implications of the structure of
deoxyribonucleic acid. Nature 171:964-967.
[Watson et al., 1987a] Watson, J.D. et al. Molecular Biology of the Gene, volume 1. Redwood City,
CA: Benjamin/Cummings.
[Watson et al., 1987b] Watson, J.D. et al. Molecular Biology of the Gene, volume 2. Redwood City,
CA: Benjamin/Cummings.
[Watterson et al., 1982] Watterson, G.A., Ewens, W.J., Hall, T.E. and Morgan, A. The chromosome
inversion problem. Journal of Theoretical Biology, 99:1-7.
[Wright, 1997] Wright, S.J. Primal-Dual Interior-Point Methods. SIAM Society for Industrial and
Applied Mathematics.

107

You might also like