You are on page 1of 56

UNIVERSIDADE FEDERAL

DE

PERNAMBUCO

GRADUAO EM ENGENHARIA DA COMPUTAO CENTRO DE INFORMTICA 2008.1

UM ESTUDO SOBRE PROCESSAMENTO E ANLISE DE IMAGENS DE MICROARRANJOS DE DNA


TRABALHO DE GRADUAO

Aluno: Rodrigo Silva Campos (rsc3@cin.ufpe.br) Orientador: Tsang Ing Ren (tir@cin.ufpe.br)

Recife, julho de 2008

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Agradecimentos

Agradeo ao meus pais, os quais me ensinaram importantes valores que carregarei sempre. Obrigado por todo o carinho, por sempre quererem o melhor para os seus filhos e por dar total apoio na busca pelos meus objetivos. Agradeo s minhas irms por serem compreensivas com a minha ausncia e ainda sim terem boas palavras para se dizer nos momentos de encontros da famlia. Agradeo Mila, que soube durante esse perodo ser compreensiva e paciente, que sempre esteve pronta para dar carinho nas horas de sufoco e disposta a ajudar. No posso esquecer tambm de sua famlia que no deixaram de me apoiar alm de intercederem por mim nos momentos de crise, obrigado a todos. Agradeo Tsang, pelo apoio e incentivo nesse trabalho, por estar presente nas horas em que precisei alm de dar boas orientaes. Agradeo todos os meus companheiros de turma no Cin, principalmente queles que preferiram sempre fazer os projetos durante a madrugada, sempre com bom humor e competncia. Obrigado todos que tentaram e conseguiram me carregar para longe do computador quando eu no reconhecia que estava precisando esquecer o peso das responsabilidades.

Rodrigo Silva Campos

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Resumo
Microarranjos de DNA consistem num conjunto ordenado de milhares de molculas de DNA cuja seqncia conhecida. Dessa forma criada uma matriz de fragmentos genticos distintos e posicionados numa ordem pr-definida, a qual pode ter sua imagem capturada bem como digitalizada. Isso permite avaliar a expresso de milhares de genes simultaneamente atravs de mtodos de processamento computacional de imagens. A tcnica que utiliza microarranjos de DNA tem se revelado uma poderosa ferramenta para a anlise de experimentos genticos contribuindo, por exemplo, na busca de tratamento e descoberta de novos tipos de doenas alm de predizer ou diagnosticar aquelas cuja expresso gentica conhecida. Este trabalho prope a pesquisa das principais tcnicas utilizadas no processamento e anlise de imagens de microarranjos de DNA com o intuito principal de obter o arcabouo necessrio comparao de resultados e sugesto de melhorias. Palavras-chave: microarranjos de DNA, expresso gnica, processamento de imagens, algoritmos de clusterizao.

Rodrigo Silva Campos

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Abstract
Microarrays of DNA consist of an ordered set of thousands of molecules of DNA whose sequence is known. Thus is created a matrix of different genetic fragments and placed in a pre-defined order, which can have their image captured and digitized. This allows evaluating the expression of thousands of genes simultaneously through computational methods for processing of images. The technique that uses microarrays DNA has revealed a powerful tool for the analysis of genetic experiments contributing, for example, in the search for treatment and discovery of new types of diseases in addition to predict or diagnose those whose gene expression is unknown. This paper proposes a search of the main techniques used in the processing and analysis of images from microarrays DNA with the primary purpose of getting the framework necessary for the comparison of results and suggestions for improvements. Keywords: DNA microarrays, gene expression, image process, algorithms of clustering.

Rodrigo Silva Campos

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Sumrio
1. Introduo ..................................................................................................................... 6 2. A tecnologia de Microarranjos .................................................................................. 10 2.1 Fundamentos Biolgicos ....................................................................................... 10 2.2 Microarranjos de DNA ......................................................................................... 12 2.3 Metodologia de Preparao ................................................................................. 12 2.3 Fluxo do Processamento de Dados ...................................................................... 14 3. Gerao das Imagens .................................................................................................. 16 3.1 Layout do microarranjo ....................................................................................... 16 3.2 Impresso do microarranjo ................................................................................. 17 3.3 Formato do arquivo .............................................................................................. 17 3.4 Imagem ideal ......................................................................................................... 18 3.5 Fontes de variaes na imagem ........................................................................... 19 4. Processamento das Imagens ....................................................................................... 24 4.1 Alinhamento de grids ............................................................................................ 24 4.2 Definio dos spots ................................................................................................ 29 5. Anlise das Imagens .................................................................................................... 32 5.1 Avaliao da qualidade dos spots ........................................................................ 32 5.2 Quantificao dos Dados ...................................................................................... 37 5.3 Normalizao dos Dados ...................................................................................... 40 6. Experimentos ............................................................................................................... 43 6.1 Mtodo das estimativas para alinhamento do grid ............................................ 43 6.2 Classificao das regies de foreground e background ..................................... 49 6.3 Desenvolvimento de ferramenta para iterao com usurio ............................ 50 7. Consideraes Finais .................................................................................................. 52 7.1 Concluses ............................................................................................................. 52 7.2 Trabalhos Futuros ................................................................................................ 53 Referncias Bibliogrficas .............................................................................................. 54

Rodrigo Silva Campos

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

ndice de Figuras
Figura 1: Estrutura do DNA ............................................................................................. 10 Figura 2: Sntese de protenas .......................................................................................... 11 Figura 3: Construo dos Microarranjos .......................................................................... 13 Figura 4: Imagem digitalizada dos microarranjos de DNA .............................................. 14 Figura 5: Fluxo do processamento de dados de microarranjos. ........................................ 15 Figura 6: Imagem de microarranjo subdividido em 3x4 grids ......................................... 16 Figura 7: Impresso de microarranjos............................................................................... 17 Figura 8: Imagem ideal de um microarranjo..................................................................... 18 Figura 9: Imagem com spots verdes e vermelhos. ............................................................ 19 Figura 10: Espaamento e geometria irregular do grid de spots do microarranjo ............ 20 Figura 11: Lmina de microarranjo .................................................................................. 21 Figura 12: Variao de background ................................................................................. 21 Figura 13: Rudos de background modelados . ................................................................ 22 Figura 14: Variaes espaciais e morfolgicas dos spots. ................................................ 22 Figura 15: Microarranjos com diferentes marcadores ..................................................... 23 Figura 16.: Imagem de um grid. ....................................................................................... 25 Figura 17: Alinhamento baseado em modelo de grids com a ferramenta ScanAlyse. ..... 27 Figura 18: Ilustrao de uma clula de grid e a separao utilizando modelo espacial com crculos concntricos. ........................................................................................................ 29 Figura 19: Ilustrao da calibrao linear dos canais verde e vermelho. .......................... 39 Figura 20: Visualizao dos descritores de spots ............................................................. 39 Figura 21: Trecho de experimento de microarranjo de DNA com os respectivos grficos das intensidades mdias dos pixels nas direes horizontal e vertical. ............................ 44 Figura 22: Estimativa de localizao fornecida na fase 2 do algoritmo. .......................... 46 Figura 23: Subimagem correspondente a um grid submetido ao refinamento de posio. ........................................................................................................................................... 47 Figura 24: Novas posies dos grids aps o refinamento................................................. 48 Figura 25: Subimagem correspondente a uma clula de grid submetida ao refinamento de posio. ............................................................................................................................. 48

Rodrigo Silva Campos

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Figura 26: Novas posies das clulas aps o ltimo passo de refinamento de localizao. ........................................................................................................................................... 49 Figura 27: Spots segmentados pelo k-Means aps o refinamento das posies ............... 50 Figura 28: Ferramenta desenvolvida para testes com o alinhamento manual de grid. ..... 51 Figura 29: Exemplos de grids criados .............................................................................. 51

Rodrigo Silva Campos

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

ndice de Equaes
Equao 1: mtrica de qualidade ...................................................................................... 33 Equao 2: mtrica de qualidade ...................................................................................... 33 Equao 3: mtrica de qualidade estatstica...................................................................... 33 Equao 4: mtrica de qualidade utilizando valores de intensidade absolutos ................. 34 Equao 5: mtrica de qualidade utilizando valores de intensidade absolutos ................. 34 Equao 6: mtrica de saturao contnua ....................................................................... 34 Equao 7: mtrica de saturao discreta ......................................................................... 34 Equao 8: mtrica de qualidade baseada em valores mdios ou medianos .................... 35 Equao 9: mtrica de qualidade baseada em valores mdios ou medianos .................... 35 Equao 10: mtrica de qualidade baseada no formato da rea ....................................... 35 Equao 11: mtrica de qualidade baseada no formato da rea ....................................... 35 Equao 12: mtrica de qualidade baseada no permetro da forma ................................. 36 Equao 13: mtrica de qualidade baseada no tamanho do dimetro. .............................. 36 Equao 14: mtrica de qualidade baseada no tamanho do dimetro ............................... 36 Equao 15: composio de mtricas de qualidade .......................................................... 37 Equao 16: composio de mtricas de qualidade .......................................................... 37 Equao 17: descritor estatstico utilizando razo simples ............................................... 38 Equao 18: descritor relativo estatstico utilizando razo logartmica............................ 38 Equao 19: normalizao pela transformada-Z .............................................................. 41 Equao 20: modelo de normalizao por anlise de regresso. ...................................... 41 Equao 21: normalizao global. .................................................................................... 42

Rodrigo Silva Campos

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

1. Introduo
O rpido crescimento do volume de dados gerados pelo seqenciamento de genomas assim como a quantidade de dados sobre expresso gnica vm tornando cada vez mais complexo o entendimento das funes dos genes nos organismos. Dessa forma, h sempre a demanda por mtodos que possibilitem o processamento e a anlise dos dados no somente de maneira mais eficiente, mas que tambm mantenham um alto grau de confiabilidade. A tcnica que utiliza microarranjos de DNA surge nesse cenrio, possibilitando o estudo da expresso gnica sob diversas condies e a um custo de tempo cada vez menor. Nos experimentos de microarranjos de DNA so produzidas imagens de expresses gnicas de um organismo. A partir do processamento dessas imagens possvel identificar e quantificar os dados biolgicos cuja anlise tem levado vrias descobertas e implicaes. Por exemplo, os dados obtidos de experimentos com microarranjos vm auxiliando a busca, diagnstico e tratamento de diversos tipos de doenas, assim como na previso da reao de organismos sob diversas condies de interesse. O processamento de imagens de microarranjos de DNA tem de lidar com vrios desafios que envolvem desde a correta identificao dos sinais de expresso gnica necessidade de detectar e eliminar as expresses invlidas. Devido existncia de diferentes modos de se preparar os microarranjos, comum o desenvolvimento de ferramentas orientadas a um determinado padro de imagens, o que dificulta a comparao de resultados. Assim, necessrio o conhecimento das diversas tcnicas empregadas atualmente, para poder decidir qual a melhor forma de se conduzir os experimentos na busca por concluses biolgicas mais precisas. Esse trabalho traz um resumo das principais tcnicas de processamento e anlise de imagens de microarranjos de DNA com o intuito principal de fornecer o arcabouo necessrio comparao e sugesto de melhorias. Aps a abordagem dos tpicos tericos so realizados experimentos que reproduzem os principais passos necessrios ao tratamento das imagens. Os captulos a seguir esto organizados de modo a apresentar as etapas consecutivas no processamento das imagens. Antes, no segundo captulo, procura-se entender os principais conceitos biolgicos por trs da tecnologia de microarranjos. No terceiro captulo explorada a importncia dos diversos procedimentos e as possveis influncias externas durante a aquisio das imagens. O quarto captulo envolve a busca e definio das reas de interesse atravs de diversos mtodos. Fechando o fluxo de eventos, segue o quinto captulo introduzindo o problema da quantificao dos dados sob variadas exigncias. O stimo captulo diz respeito a realizao de experimentos utilizando algumas das tcnicas abordadas modificadas a fim de aumentar o desempenho. Finalizando, so expostas algumas concluses retiradas a partir do que foi pesquisado.

Rodrigo Silva Campos

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

2. A tecnologia de Microarranjos
Nesse captulo so introduzidos alguns conceitos fundamentais da Biologia Molecular e como eles so aplicados na construo dos microarranjos de DNA.

2.1 Fundamentos Biolgicos


A biologia molecular retrata o estudo das clulas e molculas. Uma clula definida como a unidade fundamental dos seres vivos, ou a menor unidade capaz de manifestar as propriedades de um ser vivo. Estruturalmente, uma clula classificada como procaritica caso seja de um organismo unicelular ou eucaritica quando faz parte de um organismo pluricelular. Elas esto envolvidas numa membrana chamada citoplasma. O citoplasma compreende todo o volume da clula, com exceo do ncleo. O ncleo das clulas eucariticas controla todas as suas atividades (sintetizar seus componentes, crescer, se multiplicar, etc.) [1]. 2.1.1 cidos Nuclicos Todo organismo vivo armazena informao biolgica na forma de molculas de cidos nuclicos, formadas por nucleotdeos. Cada nucleotdeo por sua vez, consiste de: uma molcula de acar (desoxirribose ou ribose), um grupo fosfato e, uma base nitrogenada. Os cidos nuclicos so, portanto, classificados como Desoxirribonuclico (DNA) ou Ribonuclico (RNA) [2]. No DNA so encontrados quatro tipos de bases nitrogenadas: adenina (A), citosina (C), guanina (G) e timina (T). representado por uma fita dupla (emparelhamentos de nucleotdeos) complementar e antiparalela. No esquema de emparelhamento, o nucleotdeo A sempre se liga ao nucleotdeo T e o nucleotdeo C sempre se liga ao G atravs de pontes de hidrognio [2].

Figura 1: Estrutura do DNA [34]

Rodrigo Silva Campos

10

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

O RNA tambm engloba cinco tipos de bases trocando-se timina pela uracila (U). Apresenta-se como uma cadeia nica de tamanho menor que o DNA e com grande diversidade de estruturas secundrias relacionadas s suas funes desempenhadas na clula. So reconhecidos trs tipos: 1. mRNA (mensageiro), que contm a informao para a codificao de protenas; 2. tRNA (transportador), que responsvel pelo transporte de aminocidos; 3. rRNA (ribossomal), que possui papel estrutural. Quando duas seqncias complementares de cido nuclicos se combinam, esse processo bioqumico chamado de hibridizao [2]. 2.1.2 Expresso Gnica A seqncia de milhes de bases emparelhadas que formam o DNA subdividida em fragmentos de diversos tamanhos denominados genes. Neles esto contidas as informaes que especificam a estrutura das protenas, macromolculas que de fato realizam as principais aes nos organismos. Por expresso gnica, entende-se o processo em que um gene utilizado na construo de uma protena ou para controlar a expresso de outros genes. A sntese das protenas pode ser resumida em dois passos: 1. O DNA transcrito ao ribonuclico mensageiro (mRNA) em um processo chamado transcrio; 2. O mRNA transformado em protena ou em parte dela (aminocido), em um processo chamado traduo.

Figura 2: Sntese de protenas [35]

Rodrigo Silva Campos

11

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

A transcrio a reproduo de uma fita de DNA em uma seqncia de RNA complementar. O modelo onde o DNA serve como molde para a sntese de molculas de RNA, que por sua vez, coordenam a sntese de protenas, conhecido como o Dogma Central da Biologia Molecular. Outro mecanismo importante a replicao dos genes que permite a hereditariedade das informaes carregadas no DNA. O conjunto de toda a informao codificada no DNA de um organismo chamado de genoma. Numa clula caracterstica, cerca de 10.000 a 20.000 genes so expressos simultaneamente. O nvel de expresso gnica um nmero que mede a quantidade de mRNA associado a um gene particular e est relacionado com a quantidade de protena que ele produz [1]. As tcnicas de anlise de expresso gnica consistem principalmente em interceptar a etapa de transcrio. Desta forma, possvel estudar os comandos ativos nos organismos em diferentes estados biolgicos. Uma das principais tcnicas modernas utilizadas para a anlise em larga-escala o microarranjo [3].

2.2 Microarranjos de DNA


Os microarranjos de DNA (traduo do termo em ingls microarray), ou chips de DNA, consistem num conjunto ordenado de milhares de molculas de DNA cujas seqncias so conhecidas. So utilizados em experimentos de anlise de expresso gnica em larga escala. Essa tcnica foi impulsionada pela necessidade de se analisar a grande quantidade de informao gerada pelo seqenciamento de genomas. Os spots (sondas) representam as amostras microscpicas depositadas na superfcie para atuar como detectores dos genes expressos. O material detector pode ser composto de: 1. Oligonucleticos - pequenas molculas de DNA com pouca quantidade de nucleotdeos (bases), constitudas por segmentos no repetidos e que hibridizam apenas com um dos mRNA a ser utilizado; 2. cDNA - molcula sinttica de DNA mais estvel obtida a partir da transcrio reversa do mRNA que se deseja observar.

2.3 Metodologia de Preparao


A tecnologia de microarranjos um processo baseado em hibridizao que possibilita observar a concentrao de mRNA de uma amostra de clulas analisando a luminosidade de sinais fluorescentes [1]. A preparao de um experimento envolve a escolha dos genes que se deseja estudar e a sntese dos seus detectores correspondentes. Em resumo, o processo pode ser dividido nas seguintes fases: 1. Clulas cujo DNA possui os genes de interesse so cultivadas em duas solues distintas: uma correspondendo situao biolgica normal (padro), outra correspondendo situao a ser estudada;

Rodrigo Silva Campos

12

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

2. Recolhe-se o mRNA das duas solues, marcando os mRNA de cada soluo com uma substncia fluorescente. Normalmente so utilizados corantes cy3 (verde) e cy5 (vermelho); 3. Os mRNA marcados so misturados e aplicados nos microarranjos de DNA; 4. Ocorre a hibridizao dos microarranjos com a mistura de mRNA.

Figura 3: Construo dos Microarranjos [36]

A base de um experimento envolvendo microarranjos de DNA o processo de hibridizao. Somente os genes que possurem seqncias complementares aos mRNA marcados devero apresentar algum nvel de expresso. A partir da utilizao de luz adequada possvel excitar o material fluorescente contido nas amostras de mRNA que hibridizaram com os detectores genticos dos microarranjos. A intensidade de fluorescncia proporcional ao mRNA original, porm a constante de proporcionalidade desconhecida, inviabilizando a quantificao absoluta. Nesse modelo, assume-se que a razo de expresso gnica entre as duas condies biolgicas de interesse estimada pela razo dos nveis de hibridizao entre seus respectivos mRNA. Assim, pode-se procurar por diferenas importantes entre as condies, ou como conhecido na rea de anlise de microarranjos, descobrir a expresso gnica diferencial entre as duas amostras [3]. Essa questo volta a ser abordada no Captulo 5, quando os dados das intensidades so quantificados. As imagens so geradas por dispositivos de varredura (escaner) especiais que utilizam lasers microscpicos. Cada imagem uma representao do microarranjo varrido com

Rodrigo Silva Campos

13

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

vrias matrizes em duas dimenses. Como resultado, as imagens digitalizadas apresentam a reao de fluorescncia de todos os spots contidos na lmina varrida pelo laser. A intensidade da reao representa o nvel de expresso diferencial de cada gene e est relacionada com a abundncia do respectivo mRNA na soluo. Os spots da que contm amostras marcadas com o fluorforo cy3 devem aparecer na imagem como crculos verdes intensos, aqueles com amostras marcadas com o fluorforo cy5 aparecem como crculos vermelhos, no caso de quantidades iguais dos dois corantes os crculos devem aparecer amarelos.

Figura 4: Imagem digitalizada dos microarranjos de DNA

O mtodo bsico para extrao de dados de uma imagem de microarranjo envolve a identificao e medio da intensidade de fluorescncia de cada elemento individual sobre a seqncia da matriz atravs de sistemas computacionais. O software de aquisio de dados precisa identificar o formato dos microarranjos, incluindo o esquema de distribuio, tamanho, forma e intensidade do spots, distncia entre spots, resoluo da imagem, alm da fluorescncia do plano de fundo (mais conhecido como background).

2.3 Fluxo do Processamento de Dados


Desde a inveno da tecnologia de microarranjos em 1995 [4], foram desenvolvidos vrios mtodos de processamento de imagens, modelos estatsticos e tcnicas de minerao de dados especficos para anlise de microarranjos de DNA [5]. Essa anlise faz parte de um fluxo de dados comum durante o processamento de imagens de microarranjos que inclui: 1. 2. 3. 4. 5. Alinhamento da grade; Segmentao dos spots; Avaliao da qualidade; Quantificao e normalizao dos dados; Identificao dos genes diferencialmente expressos;

Rodrigo Silva Campos

14

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA 6. Minerao dos dados (interpretao dos resultados).

07/2008

O processo ilustrado na Figura 5 logo abaixo. O subconjunto de passos realtivos ao processamento de imagem est dedelimitado por uma linha tracejada. O principal passo da anlise de microarranjos a extrao dos descritores de intensidade de cada spot que representam os nveis de expresso gnica. Tais valores so posteriormente utilizados para anlises mais aprofundadas. Deste modo so obtidas concluses biolgicas baseadas nos resultados da minerao de dados e anlise estatstica de todas as caractersticas extradas.

Figura 5: Fluxo do processamento de dados de microarranjos.

Rodrigo Silva Campos

15

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

3. Gerao das Imagens


Esse captulo rene informaes sobre como so geradas as imagens dos microarranjos. Mesmo seguindo todos os procedimentos, existem diversos fatores incontrolveis que contribuem para a insero de rudos nos experimentos. Por isso tambm so abordadas as causas e formas comuns dos problemas de variao nas imagens.

3.1 Layout do microarranjo


O layout de uma imagem de microarranjo refere-se forma como so dispostos os spots onde ocorre cada expresso gnica. Em quase todos os esquemas encontrados, os spots so organizados em grupos maiores, limitados por um grid bidimensional (2D) que define a localizao de cada spot do grupo pela linha e coluna ou pelas coordenadas absolutas (x, y). O termo comumente aceito para denominar cada conjunto de spots dentro em uma imagem de microarranjos seria grid. Abaixo demonstrado um exemplo de organizao dos microarranjos em grids.

Figura 6: Imagem de microarranjo subdividido em 3x4 grids

O planejamento da organizao dos grids influencia diretamente no modo como ser tratada a imagem aps a digitalizao. Basicamente a definio do layout de qualquer imagem de microarranjo dependente de fatores como o tipo de equipamento a ser utilizado para sintetizar o microarranjo, e de consideraes para a posterior anlise da imagem. Muitas tecnologias comerciais mantm um layout fixo com mecanismos de anlise das imagens otimizados para um esquema particular. Desse modo, os sistemas de processamento de imagens de microarranjos funcionam com bastante eficincia quando tratam de chips de DNA produzidos pelo mesmo centro de pesquisas onde foram desenvolvidos.

Rodrigo Silva Campos

16

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

3.2 Impresso do microarranjo


Embora existam diferentes abordagens na impresso dos microarranjos, nesse trabalho considerado o procedimento mais conhecido por Stanford/Pat Brow [33]. Essa abordagem alm de ser mais barata quando comparada a outras tecnologias, a mais utilizada nos centros acadmicos para a produo personalizada dos microarranjos cujos exemplos sero considerados mais adiante. Ha tambm uma maior flexibilidade para o estudo das seqncias de DNA, a partir da sntese de longas seqncia de cDNA. A construo dos microarranjos segue exatamente o padro descrito no Captulo 2, sendo que os spots so impressos nos chips mecanicamente atravs de pinos microscpicos que depositam o material gentico controlados por um rob.

Figura 7: Impresso de microarranjos

Cada unidade de impresso, ou pino, cria um bloco individual de spot. O nmero de pinos pode ser modificado de maneira a produzir um novo layout para a imagem do microarranjo. A distncia entre os spots e nmero de linhas e colunas dentro de cada grid controlada pelo sistema de impresso. Um arquivo de anlise criado contendo informaes relativas quantidade de blocos, linhas, colunas, distncia entre blocos, dimetro aproximado do spot, alm da anotao dos genes (ou fragmento de genes representados por cada bloco). Uma abordagem alternativa utilizada pela empresa Affymetrix [6] na produo de chips comerciais. Os spots so definidos coma tecnologia Nimblegem que utiliza repetitivos processos de fotolitografia. A abordagem mais custosa e so utilizadas seqncias menores de cdigos genticos (oligonucleotdeos) que podem ser sintetizadas com maior facilidade que o cDNA [5].

3.3 Formato do arquivo


Tipicamente, a varredura a laser de um cDNA gera dois arquivos TIFF (Tagded Image Format File). Estes dois arquivos contm informaes das florescncias detectadas durante a excitao pelo laser. No caso dos experimentos com microarranjos, os arquivos so gerados com 16 bites para cada canal de cor RGB. A escolha baseada na faixa

Rodrigo Silva Campos

17

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

alcance das intensidades de fluorescncia e sensibilidade do escaner. Os valores de fluorescncia detectados aps a amplificao e converso de analgico-digital devem ficar dentro do intervalo [0, 65.535] (2^16-1 = 65.535). Caso contrrio os valores mais elevados so truncado para o mximo (pixel saturado) [5]. O formato TIFF tambm inclui opes de compresso de imagens (com ou sem perdas), porm no recomendado utiliz-las a fim de prevenir a perda de informaes dos spots e evitar a queda de preciso na extrao das caractersticas. Outro formato utilizado para representar imagens de microarrajos o JPG. O JPG ocupa menos espao que o TIFF, mas alm de possuir menor qualidade, utiliza algoritmos de compresso que levam a perda de dados.

3.4 Imagem ideal


Idealmente o contedo da imagem gerada deveria ser caracterizado por uma geometria determinstica do grid, formas pr-definidas dos spots, intensidades constantes e proporcionais ao fenmeno biolgico (tanto de background quanto de foreground). A Figura abaixo ilustra um exemplo de uma imagem ideal de microarranjo.

Figura 8: Imagem ideal de um microarranjo

Do ponto de vista estatstico, a aquisio de uma imagem ideal est diretamente relacionada quantidade de pixels destinada a cada spot (resoluo da imagem). Logo, o custo dos experimentos, as limitaes do escaner e as dificuldades para se armazenar resolues extremamente altas so os reais impedimentos gerao de imagens mais prximas da ideal. Embora na prtica seja impossvel encontrar uma imagem ideal de microarranjos, um bom ponto inicial para entender as variaes da imagem e possivelmente simul-las [7]. Simulaes so teis na gerao de conjunto de dados para testes dos algoritmos de processamento das imagens. Alm disso, tambm podem prover inferncias sobre os impactos causados por diferentes fatores na construo dos microarranjos e na preciso das concluses biolgicas finais.

Rodrigo Silva Campos

18

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

3.5 Fontes de variaes na imagem


A tecnologia de microarranjos de DNA um complexo processo que envolve vrias etapas. Portanto, existem vrios fatores aleatrios atuando em cada fase numa proporo difcil de ser estimada. A seguir so abordadas algumas fontes de variaes de imagem comumente observadas na rea dos spots (foreground), no plano de fundo dos spots (background) e na informao de intensidade. 3.5.1 Variaes nos canais da imagem Dependendo do tipo de marcao do cDNA durante a preparao do microarranjo (hibridizao), pode-se obter: nicas, duplas ou mltiplas fluorescncias numa mesma imagem. mais comum encontrar fontes de dados que representam imagens duplamente fluorescentes produzidas por dispositivos que operam em dois comprimentos de onda. Na Figura abaixo so observadas as fluorescncias detectadas com o escaner operando com comprimentos de onda 532 nm (vermelho) e 632 nm (verde) [5].

Figura 9: Imagem com spots verdes e vermelhos.

Em geral, os dados da imagem de microarranjo podem consistir em um nmero qualquer de canais. possvel prever a utilizao de mais de dois ou trs canais, no futuro, atravs de imagens hiperespectrais [5]. Outra variao consiste na forma como o arquivo armazenado, se houve compresso dos dados e qual foi a preciso utilizada (nmero de bytes por pixel). Por exemplo, um arquivo armazenado num formato com perda de dados introduz borramento espacial dos spots e a anlise da imagem torna-se menos precisa. Similarmente, o nmero de bytes por pixel precisa acomodar a faixa do sinal analgico produzido pela excitao dos corantes fluorescentes. Essa faixa corresponde a mxima menos a mnima medida de amplitude, e qualquer valor fora do intervalo [min, max] mapeado para um dos extremos. Para um nmero fixo de bytes, o aumento da faixa conseqentemente diminui a preciso de cada medida de intensidade.

Rodrigo Silva Campos

19

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Os algoritmos de processamento de imagens devem ser capazes de tratar qualquer nmero de canais de entrada, formato de arquivos e preciso dos dados. De qualquer maneira a anlise dos resultados da imagem ir conter alguma incerteza devido ao processo de armazenagem do arquivo e as restries da impreciso dos dados. 3.5.2 Variaes da geometria dos grids A prpria preparao das lminas de microarranjos considerada uma fonte de variao na geometria do grid. Por exemplo, uma mquina que deposita amostras genticas atravs de pinos de imerso imprime mltiplas matrizes de spots. Ao longo do tempo a imerso dos pinos pode se alterar, causando irregularidades na disposio dos spots impressos [8]. Similarmente, qualquer deslocamento rotacional de uma lmina ou dos pinos causar uma rotao do grid na imagem do microarranjo em relao borda da imagem. A Figura 10 demonstra um exemplo de um grid rotacionado com linhas e colunas espaadas irregularmente.

Figura 10: Espaamento e geometria irregular do grid de spots do microarranjo

A localizao dos spots tambm afetada pelo material da lmina (vidro, nylon) e os tipos de sondas utilizados (marcao com elementos radioativos ou qumicos fluorescentes) [9]. As variaes tm diferentes causas: Esforos mecnicos (nylon); Baixa potncia de discriminao (vidro); Forte sinal de background (marcao fluorescente); Interferncia do sinal pelos sinais dos spots vizinhos (marcao radioativa). A baixa potncia de discriminao merece ateno especial porque devido a ela, muitos spots deixam de ser detectados [8]. A Figura 11 ilustra que muitos spots esto faltando na matriz porque seus sinais no foram distinguidos do background. A ausncia de spots introduz um desafio para o alinhamento automtico do grid. Por exemplo, um mtodo de alinhamento totalmente automtico de grids dever falhar em detectar corretamente um grid se uma linha de spots longo da borda estiver faltando completamente (nenhuma evidncia de existncia da linha). Rodrigo Silva Campos 20

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Figura 11: Lmina de microarranjo (o grid embaixo direita possui uma linha a menos que os outros).

3.5.3 Variaes de background As diferenas de background ocorrem devido a: a. Preparao da lmina do microarranjo; b. Procedimentos inapropriados de aquisio (presena de poeira ou sujeira); c. Instrumentos de aquisio. Os tipos (a) e (b) de variaes de background devem ser detectadas pela avaliao da qualidade do microarranjo. A variao devido aos instrumentos de aquisio pode ser removida por um usurio.

Figura 12: Variao de background (contaminao do fundo com um dos corantes).

Rodrigo Silva Campos

21

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Muitos algoritmos de processamento de imagens compensam as variaes de background atravs da modelagem via funes de distribuio de probabilidade (FDP). O modelo mais utilizado a FDP Gaussiana (tambm chamada de Normal) [7]. Outros modelos estatsticos considerados so a distribuio Uniforme e a distribuio Funcional, dependendo das propriedades observadas nas imagens adquiridas. A Figura 13 mostra exemplos de background modelados por distribuies de probabilidade.

Figura 13: Rudos de background modelados (FDP Normal esquerda e FDP t-Student direita).

Vale ressaltar que, embora todos os canais das imagens dos microarranjos possam seguir a mesma FDP, cada canal precisa de seus prprios parmetros para o modelo de distribuio escolhido. 3.5.4 Variaes da formas dos spots Tambm preciso considerar a forma dos elementos dos grids no microarranjo (ou formas primitivas do grid). Apesar de a maioria dos atuais microarranjos de cDNA serem produzidos com spots circulares, pode-se encontrar o uso de outras formas, como linhas ou retngulos. Para os spots circulares, existe um grande nmero de desvios a serem modelados. A Figura 14 mostra algumas classes de desvios morfolgico encontradas em imagens de microarranjos.

Figura 14: Variaes espaciais e morfolgicas dos spots.

Rodrigo Silva Campos

22

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Existem muito mais variaes de forma que precisam ser analisados durante a avaliao da qualidade dos spots a fim de determinar a validade da medida de intensidade. A anlise dos desvios dos spots ajuda a identificar o sucesso ou a falha da um experimento particular. 3.5.5 Variaes das intensidades de foreground e background Variaes nas intensidades do foreground e do background esto tambm presentes na anlise das imagens dos microarranjos devido ao material da lmina e as variadas tcnicas de marcao. Enquanto o tipo de marcao de fluorescncia conduz a imagens com fundos escuros e spots brilhantes (foreground claro contrastando com o background escuro), outro tipo de marcao com radio-istopo leva a imagens com fundo claro e spots escuros.

Figura 15: Microarranjos com diferentes marcadores (radioativo esquerda e fluorescente direita).

A diferena de intensidade do background e do foreground bastante relevante para o significado biolgico como ser demonstrado posteriormente. Por isso de vital importncia a separao precisa dessas duas classes. Entretanto, a faixa de diferena de intensidade (max - min) e a amplitude das variaes afetam a discriminao das classes, influenciando diretamente na definio das reas de interesse.

Rodrigo Silva Campos

23

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

4. Processamento das Imagens


Nesse captulo so encontrados os principais mtodos de processamento das imagens de microarranjos. Basicamente, essa etapa no tratamento de microarranjos de DNA consiste no alinhamento dos grids seguida e na definio das regies de background e foreground. Diante das variaes das imagens dos microarranjos, desejvel desenvolver algoritmos de processamento automtico de imagens que sejam robustos todas ou maioria delas. A robustez deve incluir: 1. 2. 3. 4. 5. 6. 7. Qualquer nmero de canais; Qualquer armazenamento e representao computacional; Localizaes variveis dos grids e spots; Rudo de background desconhecido; Esquemas variveis de background e foreground; Desvios nas formas dos spots; Desvios dos perfis de intensidades esperados dos spots.

Alm disso, os algoritmos devem reconhecer aqueles casos em que faltam spots para desabilitar a automao devido falta de evidncias da forma real do grid. Para qualquer pesquisador que realiza experimentos com a tecnologia microarranjo, importante para garantir o determinismo do processamento das imagens. Assumindo que um algoritmo executado com os mesmos dados, esperada a obteno dos mesmos resultados aps a execuo. A fim de conseguir essa meta, os algoritmos devem ser o mximo possvel livres de parmetros, para que seus resultados possam facilmente ser repetidos sem tanta dependncia do usurio. Tomando como exemplo o posicionamento manual de um padro de grid. Alm de ser tedioso e de consumir bastante tempo, tambm indesejvel, j que o passo de alinhamento do grid no pode ser repetido facilmente. Um exemplo concreto da questo de repetio apresentado em [10].

4.1 Alinhamento de grids


O alinhamento de grid (tambm conhecido como endereamento ou procura de spot consiste no passo de processamento de imagens de microarranjos que registra um conjunto de linhas e colunas paralelas desigualmente espaadas. Os padres encontrados representam partes do contedo da imagem como uma matriz bi-dimensional de spots [11]. Como dito anteriormente, essas matrizes so conhecidas como grids (grades). O objetivo encontrar todos os padres na imagem que definem um conjunto de spots, ou seja, as coordenadas das linhas e suas orientaes, de modo que os pares de linhas perpendiculares definam localizaes aproximadas dos spots (clulas do grid).

Rodrigo Silva Campos

24

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Figura 16.: Imagem de um grid.

4.1.1 Alinhamento do ponto de vista da automao Alinhamento manual Considerando o fato de que a geometria do spot seja muito similar a de um grid (ou de um conjunto de subgrids), esse mtodo de alinhamento baseado em um modelo de grid definido manualmente. Um usurio especifica as dimenses do grid e um raio para o spot criando assim o modelo. De posse dessas informaes um grid construdo na imagem sem a preocupao inicial com a localizao correta dos spots. Em seguida, atravs dos mecanismos de iterao com o usurio oferecidos pelo sistema (ex: mouse), a posio do grid pode ser ajustada de modo a corresponder ao layout dos spots no microarranjo. possvel obter um alinhamento de grid perfeito assumindo que o software de interao com o usurio d suporte ao ajuste individual da forma e da localizao de cada spot. No entanto, evidente que essa abordagem, alm de consumir muito tempo, exige pacincia e dificilmente pode ser repetida de modo a obter os mesmos resultados. Logo, no um mtodo interessante quando se visa um alto rendimento na anlise de imagens de microarranjos. Alinhamento semi-automtico Em geral, h algumas etapas do alinhamento de grid que podem ser executadas pelos computadores de forma confivel, enquanto outras que so dependentes das entradas do usurio. Assim, pode-se definir um mtodo de alinhamento que utiliza alguns dados de entrada definidos pelo usurio para construir um modelo do grid. Alm da reduo do esforo do usurio, o alinhamento semi-automtico do grid tambm contribui para a gerao de resultados determinsticos. Todavia, o mtodo pode no ser adequado quando levadas em conta as exigncias de alto rendimento da anlise de imagens de microarranjos.

Rodrigo Silva Campos

25

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Como exemplo dessa abordagem basta considerar uma inicializao manual (seleo dos spots das bordas, especificao das dimenses do grid) seguida de uma procura automtica das linhas do grid [12]. O componente automatizado pode se basear nas propriedades dos dados observadas durante a varredura da imagem ou utilizar tcnicas de correlao de imagens com um modelo de grid previamente definido. Alinhamento totalmente automtico Esse mtodo consiste em identificar todos os spots sem qualquer interveno humana, baseado em uma ao nica. Essa ao nica serve para opcionalmente incorporar qualquer conhecimento prvio sobre um layout da imagem no algoritmo de alinhamento a fim de reduzir seu espao de busca. Muitas vezes, o desafio no desenvolvimento de mtodos totalmente automticos consiste em identificar e calcular todos os parmetros que representam o conhecimento a priori alm de quantificar restries para todos eles. Tipicamente, esses mtodos so orientados aos valores de intensidade dos pixels e precisam otimizar internamente vrios parmetros do algoritmo durante a busca espacial para compensar as variaes de imagem descritas anteriormente. Essa abordagem depende inteiramente do contedo dos dados. Por exemplo, no caso de uma linha de spots faltando na imagem (a cor do spot no distinguvel do background), um algoritmo automtico na deve ser capaz de encontrar qualquer evidncia da linha do grid. Grids de baixa confiabilidade devem ser definidos parte atravs da inspeo humana. Outra alternativa definir na imagem algum spot de confiana que possa servir de guia (modelo padro) durante o processamento e assim prover um mecanismo de altocorreo. 4.1.2 Alinhamento do ponto de vista de anlise da imagem Abordagem baseada em modelos Nesse mtodo, so definidos modelos que se aproximam do layout dos grids. O mais comum envolve a utilizao de spots circulares com tamanhos e quantidades prdefinidas. A partir do grid gerado busca-se o casamento de padro com uma subimagem do microarranjo. A abordagem baseada em modelo a mais comum na literatura, estando presente em ferramentas conhecidas: GenePix Pro [13], ScanAnalyse [14], entre outras. A maioria dos softwares disponveis permite o ajuste da correspondncia de padres manualmente (tamanho do spot, espaamento entre spots, localizao dos grids). Outros j incorporam um refinamento automtico da localizao do grid a partir do tamanho e do espaamento dos spots [13]. O refinamento executado pela maximizao da correlao com uma imagem padro formada a partir das entradas do usurio ou com uma imagem do microarranjo processada sobre um conjunto de possveis modelos de localizaes (ex: translao e rotao da posio inicial definida pelo usurio). Tambm possvel

Rodrigo Silva Campos

26

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

empregar modelos deformveis [15] para alcanar certas flexibilidades no alinhamento do grid. Essa abordagem considerada apropriada quando a geometria do grid observado no se desvia muito do modelo definido como padro. Se as medidas dos spots so imprevisivelmente irregulares ento os resultados tornam-se imprecisos. Um exemplo de alinhamento impreciso demonstrado a seguir.

Figura 17: Alinhamento baseado em modelo de grids com a ferramenta ScanAlyse.

Na imagem esquerda, o modelo de grid apresenta spots mal definidos nas ltimas colunas. Na tentativa de se melhorar o casamento de padres, translada-se o modelo para a direita, porm o espaamento irregular dos spots leva a desvios nas primeiras colunas. Abordagem orientada a dados Essa abordagem equivalente ao alinhamento automtico de grids. Os algoritmos que seguem esse mtodo podem ser divididos em vrios componentes, cada um responsvel por resolver uma parte do quebra-cabea do alinhamento. Definio das linhas A partir da anlise das projees unidimensionais da imagem possvel descobrir as provveis localizaes das linhas que definiro os grids. Para isso so executados seguintes passos: Um somatrio de todas as intensidades em uma direo computado e denotado como um vetor de projeo (das linhas se a direo for vertical ou das colunas se a direo for horizontal); Os extremos locais so detectados entres os vetores das projees. Eles representam uma aproximao dos centros dos spots; Um conjunto de linhas determinado a partir dos extremos locais levando-se em conta alguns parmetros de entrada (por exemplo, nmero de linhas) ou pela procura de inconsistncias no espaamento entre os extremos locais; Todas as interseces de linhas perpendiculares so calculadas para estimar as localizaes dos spots.

Rodrigo Silva Campos

27

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

A outra abordagem algortmica para encontrar linhas de grid baseada na segmentao da imagem [16] utilizando limiarizao adaptativa e operaes morfolgicas para detectar spots guias. Spots guias so definidos como sendo aqueles de boa qualidade (forma circular, tamanho apropriado, intensidade constante e maior que o background). Com a ajuda dos spots guias e da informao sobre o layout do microarranjo, o grid final pode ser estimado automaticamente. A limitao dessa abordagem a suposio da existncia dos spots guias livres de contaminao. Processamento de mltiplos canais O segundo componente aborda o problema da fuso de mltiplos canais da imagem (tambm chamados de bandas). Como cada canal da imagem adquirido em tempos diferentes, pode ocorrer um deslocamento espacial entre as aquisies, resultando no registro de canais cruzados. A existncia de mltiplas bandas tratada com a fuso dos canais atravs de operaes lgicas como OR ou AND [11]. A fuso de todos os canais com a operao OR ir propagar as variaes de intensidades do foreground e do background aumentando a robustez do algoritmo de alinhamento. Alm disso, a opo de fundir os canais antecipadamente reduz a quantidade de processamento e evita o problema de fundir os mltiplos grids detectados em cada canal. Definio da rotao do grid O terceiro est relacionado ao problema da rotao do grid. Uma abordagem deste problema uma busca exaustiva por todos os ngulos de rotao possveis [11]. Essa abordagem motivada pelo fato de que a faixa de rotao do grid pode ser construda analisando as quatro bordas da matriz 2D. A desvantagem que um pequeno ngulo de rotao da imagem introduz distores nos pixels, pois as novas posies no-inteiras so arredondadas para a posio inteira mais prxima. Definio de mltiplos grids O quarto componente do problema de mltiplos grids (matrizes 2D de spots). Grids distintos no microarranjo tambm so arrumados em uma matriz, dessa forma o nmero de grids pode determinado pelas quantidades observadas ao longo dos eixos horizontal e vertical. Essas quantidades podem ser especificadas como parmetros de entrada e so utilizadas pelo algoritmo para particionar a imagem original em sub-reas contendo grids individuais. Se os parmetros de entrada no esto disponveis, ento o problema pode ser abordado pelo tratamento da imagem inteira, buscando por todas as linhas irregulares e analisando o espaamento entre todas elas. Toda descontinuidade grande no espaamento entre as linhas indicar o fim de um grid e o incio de outro.

Rodrigo Silva Campos

28

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

4.2 Definio dos spots


O resultado do alinhamento de grid uma aproximao das localizaes dos spots. Uma localizao de spot normalmente definida como uma rea retangular da imagem que encapsula uma expresso gnica (tambm chamada de clula do grid). O prximo passo identificar os pixels que fazem parte do foreground (sinal propriamente dito) e do background. A extrao dos pixels de interesse envolve a segmentao e a clusterizao da imagem. A segmentao da imagem est associada ao problema de particionar uma imagem em regies espacialmente contguas com propriedades similares (exemplo: cor ou textura), enquanto que a clusterizao se refere ao problema do particionamento de uma imagem em conjuntos de pixels com propriedades similares (exemplo: intensidade, cor ou textura) mas no necessariamente conectados. O objetivo da segmentao dentro de uma clula do grid encontrar uma regio que contenha a informao do foreground (rea de interesse). Se um spot formado por um conjunto de regies/pixels no contguos, ento a clusterizao pode ser aplicada. Embora a segmentao e a clusterizao da imagem resultem em agrupamentos de pixels baseados nas similaridades da intensidade, tambm freqente utilizar uma extrao baseada em um modelo espacial, onde o modelo segue uma forma padro de spot. 4.2.1 Modelos espaciais Este tipo de separao assume que um spot est centralizado dentro da clula do grid e ele aproximadamente corresponde morfologia esperada para um spot. Um modelo espacial consiste tipicamente de dois crculos concntricos, onde os pixels dentro do crculo menor so marcados como foreground (sinal da expresso gnica) e os pixels fora do crculo maior so marcados com background.

Figura 18: Ilustrao de uma clula de grid e a separao utilizando modelo espacial com crculos concntricos.

Todos os pixels entre os dois crculos concntricos so considerados de transio e no so utilizados. Claramente, esse tipo de marcao do foreground falhar para spots com raio varivel ou com deslocamento espacial do centro dentro da clula. Alm disso, pixels

Rodrigo Silva Campos

29

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

invlidos (contaminados por poeira ou sujeita) podem ser includos na rea de foreground sem nenhuma verificao. 4.2.2 Agrupamento baseado na intensidade Nessa abordagem a definio da rea de interesse se resume ao problema do agrupamento de duas classes [17]. Esse um problema comum na rea de processamento de imagens existindo, portanto, vrias formas de trat-lo. Um modo simples envolve a tcnica de limiarizao. A limiarizao da imagem executada pela escolha de um valor de intensidade limite (limiar) e marcao de todos os pixels cujas intensidades esto abaixo ou acima desse valor, dependendo do esquema de cor para foreground e background adotado no microarranjo. O valor do limiar pode ser escolhido levando-se em conta a porcentagem esperada de pixels do spot dentro de uma clula. Mas necessrio o conhecimento prvio da resoluo da imagem e do raio do spot. A abordagem de limiarizao neste caso vista como um agrupamento por determinar a fronteira de separao entre os grupos. Uma abordagem mais completa atravs de algoritmos de clusterizao propriamente ditos utiliza intensidades representantes de cada grupo como o k-Means ou k-Medoids. Os pixels da imagem so agrupados de acordo com a similaridade entre suas intensidades e os representantes dos grupos. A cada definio dos grupos, os representantes so atualizados levando-se em conta os novos valores agrupados. At que os representantes dos grupos no se modifiquem ou tenham mudanas mnimas, o processo de reagrupamento prossegue. Normalmente a distncia euclidiana utilizada como funo para clculo da similaridade e a mdia ou mediana so utilizadas para o clculo dos representantes. Detalhes dos algoritmos k-Means so encontrados em [18] e do kMedoids em [19]. 4.2.3 Segmentao baseada na intensidade Existem muitos mtodos de segmentao disponveis na literatura do processamento de imagens [20]. No caso de imagens de microarranjos so conhecidas a segmentao com crescimento de regio e a segmentao em cascata. A segmentao com crescimento de regio comea com um conjunto inicial de posies de pixels (sementes) [20]. O algoritmo agrupa simultaneamente os pixels com intensidades similares s das sementes de modo a formar um conjunto de pixels contguos (regies). O agrupamento executado incrementalmente ao mesmo tempo em que o limiar de similaridade decresce. A segmentao completada quando todos os pixels so marcados para uma das regies crescidas a partir das sementes iniciais. Em imagens de microarranjos, a semente do foreground pode ser escolhida como sendo a posio do centro de uma clula de grid (centro mais provvel do spot) ou o pixel de mxima intensidade dentro da clula. Similarmente, a semente do background pode ser Rodrigo Silva Campos 30

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

selecionada como sendo o ponto mdio entre dois spots ou o pixel de intensidade mnima dentro da clula de grid. A segmentao via transformaes em cascata realizada com operadores de imagem derivados de morfologia matemtica [21]. So utilizados dois operadores bsicos, dilatao e eroso, e dois operadores compostos, fechamento e abertura. Esses operadores favorecem a filtragem de estruturas claras ou escuras de imagens de acordo com tamanho e forma pr-definidos. No caso das imagens de microarranjos, operadores morfolgicos podem filtrar grupos de pixels que se desviam muito da forma e tamanho esperado para um spot. O resultado desse tipo de segmentao a regio mais provvel que corresponde ao sinal do spot (foreground). 4.2.4 Mtodos hbridos Vrios mtodos de separao de foreground tentam integrar o conhecimento prvio sobre a morfologia do spot, localizao do spot e distribuio de intensidade esperada. Na abordagem hbrida, as tcnicas so combinadas a fim de se refinar a extrao dos pixels de interesse. Segmentao e Agrupamento espacialmente restritos Por exemplo, a separao de foreground usando segmentao leva a uma regio conectada que ajustada para um modelo espacial [16]. Se o melhor crculo de ajuste desvia muito do modelo ento o spot marcado como invlido. Outro exemplo seria a separao de foreground utilizando agrupamento com minimizao restringida pela disperso do grupo [22]. Ajuste espacial e de intensidade A partir da anlise da distribuio de intensidade dos pixels do foreground e do background definidos por um modelo espacial, so descartando aqueles pixels classificados como fora do padro (outliers) da distribuio [23]. O ajuste espacial alcanado pela marcao inicial do foreground e background sobre um modelo de spot, enquanto que o ajuste de intensidade conseguido pela remoo dos pixels com intensidade fora do padro em relao s distribuies do foreground e do background. Assim, esperado que se remova os pixels considerados invlidos (alterados por poeira ou sujeira) nas regies de foreground e background e que contribuem para o desvio da forma normal do spot.

Rodrigo Silva Campos

31

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

5. Anlise das Imagens


Nesse captulo so definidas formas de se decidir sobe a validade ou no das regies de foreground definidas para cada spot. Aps o controle de qualidade, as medies enfim podem ser realizadas. Para isso so demonstradas algumas tcnicas comuns na literatura pesquisada.

5.1 Avaliao da qualidade dos spots


De posse da forma mais aproximada do spot real aps a definio dos pixels de foreground e background, necessrio tambm identificar e eliminar as clulas dos grids que contendo spots invlidos. Esse passo importante porque na quantificao dos dados assumido que todos os spots disponveis so vlidos e, portanto, contribuem para uma anlise precisa das expresses gnicas. A fim de detectar spots invlidos ou defeituosos, so definidos critrios de validade (mtricas) e valores limites de desvio para classificar os spots como vlidos ou invlidos. Em geral, o critrio de avaliao da validade de um spot dividido em dois tipos: 1. Avaliao a partir das intensidades do foreground e do background, que inclui a determinao de: a. Nveis absolutos do background e foreground; b. Variao do background; c. Saturao do foreground; d. Razo entre as intensidades do foreground e do background (ou razo do sinal pelo rudo). 2. Avaliao a partir das propriedades morfolgicas do foreground, tais como: a. Forma do spot; b. Irregularidades no tamanho do spot; c. Localizao do spot. Alm disso, preciso entender o relacionamento entre os defeitos detectados de spots invlidos e as fontes daqueles defeitos no experimento de microarranjo. Dessa forma considera-se esse tipo de anlise como controle de qualidade do spot. A avaliao da qualidade do spot necessria para a gerao de dados confiveis, sendo considerada a ltima etapa onde os defeitos dos spots podem se detectados. Nas sees seguintes, ser focada a avaliao da qualidade baseada na imagem do spot. 5.1.1 Critrios para avaliao das intensidades Variaes da intensidade do background Existem dois tipos de critrios de avaliao das variaes do background. No primeiro, mtricas variabilidades local e global do background so modeladas para avaliar o rudo Rodrigo Silva Campos 32

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

da regio. Elas so indiretamente proporcionais variao do background, ou seja, definidas como uma multiplicao das estimativas do desvio padro do background [24]. Embora as mtricas locais possam detectar a presena de rudos numa clula de grid, as mtricas globais fornecem indicaes sobre a variao em toda a lmina de microarranjo. No segundo critrio, as mtricas so modeladas baseadas na observao de que algumas clulas de grid devem ter mdias de rudo de background maiores que a lmina geralmente. Por exemplo, de acordo com as frmulas abaixo [13], a mtrica de qualidade q deveria se aproximar de um para spots vlidos e zero spots invlidos.
Equao 1: q a mtrica de qualidade, m a mediana, a mdia. A notao BKG se refere ao background.

Equao 2: q a mtrica de qualidade, m a mediana, a mdia. A notao BKG se refere ao background.

Uniformidade na intensidade de foreground e background Neste caso assume-se que o foreground e o background possuem uma distribuio de intensidade uniforme. Dessa forma, uma grande variao de intensidade no foreground indica um spot menos confivel, enquanto que uma grande variao de intensidade no background significa que o sinal foi corrompido durante a preparao da lmina do microarranjo (spot com rudo). Para detectar os defeitos de foreground, utilizam-se mtricas estatsticas como a Equao 3 [23]. A mtrica se aproxima de um para spots vlidos (varincia zero) e compensa o fato de que spots com maiores magnitudes de intensidade possam ter maiores variaes (diviso pela mdia amostral do foreground).
Equao 3: q a mtrica de qualidade estatstica, a mdia e o desvio padro dos pixels de foreground (FRG).

Outro par de mtricas para o foreground e o background relaciona os valores absolutos das intensidades [13]:

Rodrigo Silva Campos

33

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Equao 4: q a mtrica de qualidade utilizando valores de intensidade absolutos, I a intesidade mxima ou mnima do foreground (FRG) e RANGE uma faixa de intensidade.

Equao 5: q a mtrica de qualidade utilizando valores de intensidade absolutos, I a intesidade mxima ou mnima do background (BKG), e RANGE uma faixa de intensidade.

Saturao da intensidade do foreground Anteriormente foi visto que a saturao da intensidade ocorre quando as intensidades dos pixels excedem a faixa de deteco do dispositivo de varredura, acarretando na gravao de um valor truncado. Em decorrncia da saturao, as estimativas das expresses gnicas so corrompidas [25]. Ainda que no seja possvel diferenciar os pixels saturados de genes altamente expressos daqueles saturados por variaes externas (contaminaes). Porm, uma forma de minimizar o impacto do problema envolve a aplicao de mtricas de saturao para todos os tipos de pixels saturados seguida da aplicao de mtricas da forma do spot para um posterior refinamento dos resultados. A fim de detectar a saturao, mtricas contnuas e categricas tm sido propostas. Uma mtrica contnua utiliza a proporo de pixels saturados no spot [13]:
Equao 6: q a mtrica de saturao contnua, count indica a quantidade de pixels total ou saturados do spot.

Uma mtrica discreta (ou melhor, binria) classifica um spot como vlido ou invlido baseada numa quantidade limite de pixels saturados do spot [24].
Equao 7: q a mtrica de saturao discreta, count a porcentagem de pixels saturados na imagem do spot, T a porcentagem que limita a validade do spot.

Rodrigo Silva Campos

34

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA Razo do sinal pelo rudo

07/2008

Esse valor representa a propriedade mais explorada (SNR) na avaliao de qualidade do spot [13]. O critrio SNR elimina spots com sinal muito fraco (1 < SNR < limiar), nenhum sinal (SNR 1), ou spots fantasmas (SNR < 1). Ela baseada na informao de intensidade e definida com valores da mdia e da mediana conforma a frmula abaixo.
Equao 8: q a mtrica de qualidade baseada em valores mdios ou medianos, m a mediana, a mdia. A notao FRG se refere ao foreground.

Equao 9: q a mtrica de qualidade baseada em valores mdios ou medianos, m a mediana, a mdia. A notao BKG se refere ao background.

5.1.2 Critrios para avaliao de propriedades morfolgicas Forma do spot Quando se leva em considerao a forma do spot, vrias mtricas so propostas. As mais comuns basicamente utilizam as informaes espaciais dos spots como: rea, permetro e dimetro. As mtricas de qualidade baseadas na rea do spot podem ser computadas de acordo com as seguintes frmulas [23]:
Equao 10: q a mtrica de qualidade baseada no formato da rea, A a rea dos pixels marcados como foreground e a rea esperada para o spot.

Equao 11: q a mtrica de qualidade baseada no formato da rea, A a rea dos pixels marcados como foreground e a rea esperada para o spot.

Mtricas da qualidade baseadas no permetro do spot so computadas de acordo com as frmulas 10 e 11, com A e substitudos pelo permetro da rea marcada como foreground e da circunferncia de um spot respectivamente. Entretanto, para pequenos permetros de spot estimados a mtrica se torna muito imprecisa devido natureza das imagens digitais. Assim, outra forma de se avaliar a qualidade do spot com relao ao permetro demonstrada a seguir [13]: Rodrigo Silva Campos 35

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Equao 12: q a mtrica de qualidade baseada no permetro da forma, A a rea estimada e C a circunferncia esperada para o spot.

As mtricas de qualidade baseada no dimetro do spot avaliam o desvio da forma circular esperada pela estimativa do dimetro da rea ou pela medio dos tamanhos das sees transversais que passam pelo centro do spot em mltiplas direes angulares [28]. Se o dimetro estimado ou o tamanho da seo transversal desvia do valor esperado por mais que uma porcentagem especificada ento o spot considerado invlido.
Equao 13: q a mtrica de qualidade baseada no tamanho do dimetro, L o tamanho da seo transversal dos pixels marcados como foreground e o tamanho esperado.

Equao 14: q a mtrica de qualidade baseada no tamanho do dimetro, L o tamanho da seo transversal dos pixels marcados como foreground e o tamanho esperado.

Localizao do spot A mtrica de localizao do spot definida como uma distncia euclidiana entre o centride de todos os pixels marcados como foreground e o centro esperado do spot. Neste caso supe-se que o algoritmo de alinhamento do grid tenha uma preciso muito boa. Dessa forma possvel considerar o centro de cada clula do grid como sendo o centro esperado do spot. 5.1.3 Aplicao de critrios de qualidade A aplicao dos critrios de qualidade realizada atravs da combinao de mtricas de qualidade. Para isso, cada uma tem de ser normalizada dependendo da faixa de seus valores. Em seguida, uma composio do escore de qualidade formada pela aplicao de operadores para o conjunto de mtricas selecionadas. Normalmente so utilizados os operadores de multiplicao (para mtricas contnuas) e de lgica booleana como o AND (para mtricas categricas) conforme as Equaes 15 e 16 respectivamente. A escolha desses operadores se deve ao fato de que todos os critrios precisam ser aplicados simultaneamente durante a avaliao da qualidade do spot. Porm, um tratamento especial normalmente dado para a incorporao de mtricas de saturao [25].

Rodrigo Silva Campos

36

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA


Equao 15: q a mtrica de qualidade resultante da multiplicao de critrios.

07/2008

Equao 16: q a mtrica de qualidade resultante da aplicao da operao lgica AND de todos os critrios.

Em se tratando de imagens com mltiplos canais, geralmente cada canal tem sua qualidade avaliada separadamente. A deciso final sobre a validade de cada spot definida por um mecanismo de votao, ou seja, se as avaliaes de um canal definido como majoritrio levam a uma classificao invlida ento o spot marcado como invlido. Tambm possvel criar composies dos escores de qualidade do spot pela combinao de mtricas para todos os canais. A maioria das ferramentas comerciais de anlise de expresses gnicas utiliza as mtricas de avaliao mais comuns. Por exemplo, todas as mtricas definidas aqui so encontradas nos sistemas GenePix e QuantArray.

5.2 Quantificao dos dados


Dado um conjunto vlido de spots com suas respectivas regies de foreground e background delimitadas, a prxima etapa na anlise de imagens de microarranjos consiste em extrair as informaes de cada spot e, baseado nelas, tirar concluses a respeito da regulao dos genes. Esse processo chamado de quantificao de dados, refere-se extrao de valores descritivos dos pixels de foreground e background de cada spot. Idealmente, as informaes obtidas (tambm chamados de caractersticas ou atributos) devem ser diretamente proporcional quantidade de mRNA na soluo que foi depositada num spot, representando assim o nvel de expresso do gene depositado. 5.2.1 Extrao dos atributos do spot Em geral, os atributos do spot se encaixam em duas categorias: 1. Caractersticas absolutas e relativas; 2. Caractersticas estatsticas e determinsticas. Conforme visto no Captulo 3, as intensidades puras do microarranjo no podem ser interpretadas como medidas absolutas devido variabilidade aleatria e sistemtica na preparao dos dados da imagem do microarranjo. Por essa razo, em experimentos com microarranjos de DNA o interesse est nas diferenas estatsticas entre os nveis de

Rodrigo Silva Campos

37

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

expresso de genes na amostras de referncia e teste (hibridizao da mistura de mRNA). Portanto, as consideraes a seguir so focadas nos atributos estatsticos relativos. Clculo de descritores As caractersticas relativas de spots das seqncias de cDNA so computadas em termos de razes (simples, logartmica, regresso) dos valores de intensidades puras derivados dos canais vermelho e verde [25]. Enquanto que as caractersticas estatsticas so obtidas considerando-se os conjuntos de intensidades como aproximaes de alguma funo de probabilidade. Os descritores estatsticos mais comuns dos conjuntos de pixels do foreground e do background so suas mdias, medianas e modas [5]. Abaixo, so demonstradas formas de se quantizar os descritores de spot a partir de valores relativos estatsticos:
Equao 17: des o descritor estatstico utilizando razo simples, X o smbolo para a mdia, mediana ou moda, o sobrescrito FRG refere-se ao foreground e o sobrescrito CHANNEL aos canais de cor da imagem.

Equao 18: des o descritor relativo estatstico utilizando razo logartmica, X o smbolo para a mdia, mediana ou moda, os sobrescritos FRG e BGK referem-se ao foreground e ao background e o sobrescrito CHANNEL aos canais de cor.

Enquanto a Equao 17 representa uma razo direta de valores absolutos, a Equao 18 uma razo logartmica de diferenas relativas. Com a utilizao de diferenas relativas reduz-se os efeitos da fluorescncia no especfica (por exemplo, auto-fluorescncia em lminas de vidro), porm preciso verificar os casos de spots fantasmas (quando as intensidades de foreground so menores que as de background). Alm disso, parmetros estatsticos podem ser calculados a fim de medir o formato da distribuio de intensidade (espalhamento, inclinao, simetria) e indicar intervalos de confiana para os descritores extrados. Por exemplo, um alto desvio padro observado entre as mdias computadas de diferentes spots, significa uma grande variao dos valores. Conseqentemente, a confiana em obter repetidamente o descritor exato baixa (alta incerteza de valores absolutos para experimentos repetidos) [5]. Existe tambm a razo de regresso, que supe a existncia de uma relao de dependncia linear entre as intensidades dos pixels dos canis verde e vermelho da

Rodrigo Silva Campos

38

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

imagem [26]. A razo de regresso significa uma estimativa dessa relao e pode ser calculada atravs de anlises de correlao. Dessa forma, espera-se que as caractersticas extradas se ajustem s diferentes eficincias dos marcadores fluorescentes quando detectados (corantes vermelhos tm maior eficincia que os verdes) e s diferentes quantidades de mRNA das amostras. A razo computada ajustando-se uma linha reta com nenhuma interseo no grfico de disperso formado pelas intensidades vermelho e verde dos pixels de foreground e background. Se o valor utilizado no ajuste da reta Y=*X + para Y=X ento a anlise tambm chamada de regresso linear dos canais [5]. O mecanismo de regresso ilustrado a seguir:

Figura 19: Ilustrao da calibrao linear dos canais verde e vermelho.

Visualizao dos descritores O jeito mais comum de se visualizar os descritores extrados dos spots consiste na inspeo de uma tabela. Porm, como o nmero de spots vem aumentando nos experimentos de microarranjos, uma tabela com milhares de linhas equivalentes a cada spot analisado no fornece um mecanismo muito eficiente de visualizao. Considerando o de que os spots nos microarranjos so organizados sob uma forma padro de grids regulares, torna-se natural apresentar os descritores de spot extrados da mesma forma. Essa abordagem de visualizao preserva a localizao espacial relativa dos spots, alm de possibilitar a inspeo diretamente atravs de imagens caractersticas. Um exemplo desse tipo de visualizao demostrado na Figura 20 abaixo:

Figura 20: Visualizao dos descritores de spots

Rodrigo Silva Campos

39

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

O objetivo a longo prazo poder combinar descritores de expresses gnicas com informaes extras sobre os genes. Por exemplo, seria possvel demonstrar em vrias escalas a informao da expresso gnica do microarranjo aliada estrutura 3D das seqncias [27]. Seleo de Descritores de Spot importante entender os prs e contras de cada tipo de descritor de spot, a fim de escolher os mais apropriados para a anlise dos dados de microarranjos. Os descritores determinsticos absolutos, como a soma das intensidades so dependentes do tamanho dos spots e sensveis contaminao alm da saturao dos pixels. Similarmente, os descritores absolutos so inapropriados para spots de microarranjos de cDNA j que as medidas da intensidade fluorescente dependem dos marcadores de referncia. Em relao aos descritores estatsticos, o uso da mdia amostral reduz a variao de intensidade do spot, mas sensvel a intensidades fora do padro (outliers). A mediana por sua vez mais resistente a outliers, mas tambm mais cara computacionalmente. O descritor moda definido como a intensidade mais freqente ocorrendo num conjunto de intensidades de foreground ou background. resistente aos outliers e simples de se computar. No entanto, difcil de estimar a confiabilidade quando a freqncia de ocorrncias de intensidade (histograma de intensidade) contm mltiplos picos (distribuio de intensidade multimodal) [5]. Quando a distribuio de intensidade unimodal e simtrica, as estimativas da mdia, mediana e moda so todas iguais. No caso da computao de descritores relativos, aborda-se o problema sob os pontos de vista da modelagem estatstica e da anlise de correlao. Do ponto de vista de uma modelagem estatstica, prefervel usar operadores (transformaes) que levem a uma varivel aleatria segundo uma distribuio Gaussiana devido facilidade de manipulao matemtica. Do ponto de vista da anlise de correlao, a razo de regresso no descreve bem as caractersticas da maioria das imagens, visto que na prtica a relao entre os pixels das diferentes bandas da imagem no deve ser linear. Assim, a razo de regresso um descritor mais apropriado para imagens microarranjos com contrastes de alta intensidade entre foreground e background [5].

5.3 Normalizao dos Dados


As medidas da intensidade da fluorescncia em cada canal de cor da imagem podem ser distorcidas durante os passos de preparao de dados. Logo, para garantir a confiabilidade nas comparaes entre os resultados obtidos de diferentes lminas de microarranjos, so utilizadas tcnicas de normalizao dos dados. A dificuldade de realizar comparaes significativas decorre das diferenas entre as preparaes das lminas de microarranjos com relao a: quantidades de mRNA, conFiguraes do scanner, protocolos de microarranjos ou marcaes especficas. O Rodrigo Silva Campos 40

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

propsito da normalizao o ajuste dessas variaes, principalmente da eficincia da marcao e da hibridizao das amostras. Dessa forma espera-se descobrir as verdadeiras variaes biolgicas resultantes da anlise dos nveis de expresses gnicas. Nas prximas sees so discutidas as principais abordagens para normalizao dos dados. 5.3.1 Normalizao utilizando descritores estatsticos Descritores estatsticos incluem mdia, mediana, moda ou percentil da distribuio de intensidade das amostras. A normalizao pode ser realizada pela diviso ou subtrao dos descritores estatsticos. A Equao 5.18 abaixo representa a transformada-Z [26].
Equao 19: Normalizao pela transformada-Z, onde I o valor de intensidade de um pixel numa determinada posio (x, y), a mdia e o desvio padro das intensidades da imagem.

5.3.2 Normalizao utilizando spots de controle Nessa abordagem, so inseridos spots de intensidades conhecidas ou genes de nvel de expresso conhecidos na lmina de microarranjo. As intensidades desses spots so utilizadas como referncia (controle) para a normalizao das intensidades de todos os outros spots. Nesse caso, a fim de se obter uma maior preciso, inclusive nas variaes locais, os spots de controle so espalhados ao longo da lmina do microarranjo. 5.3.3 Normalizao utilizando anlise de regresso As razes de regresso so freqentemente usadas como partes da normalizao dos canais da imagem de microarranjos. Entre os mtodos de normalizao que utilizam anlise de regresso o mais utilizado o Intra-lmina (withinslide) que consiste na subtrao de um fator de normalizao c das razes logartmicas individuais das intensidades [28].
Equao 20: Modelo de normalizao por anlise de regresso.

I(row, col) = log2R/G c


O fator de normalizao calculado separadamente para cada lmina de microarranjo, utilizando somente os dados das seqncias que hibridizaram. Como c uma funo, h diversas maneiras de defini-la sendo a mais comum a tcnica de normalizao global, onde assumido que as intensidades verde e vermelha se relacionam por um fator constante (relao linear, R = *G). Assim, assumindo um deslocamento nulo para a dependncia linear entre os canais:

Rodrigo Silva Campos

41

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA


Equao 21: Normalizao global.

07/2008

I(row, col) = log2R/G c = log2R/G log2 = log2R/(*G)

Rodrigo Silva Campos

42

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

6. Experimentos
Esse captulo direcionado demonstrao da realizao de alguns experimentos utilizando os conceitos propostos. Em virtude da existncia de vrias ferramentas consolidadas e dos desafios que existem na rea de processamento de imagens de microarranjos, preferiu-se direcionar os esforos no desenvolvimento de um mtodo automatizado de definio e anlise dos spots de microarranjos de DNA.

6.1 Mtodo das estimativas para alinhamento do grid


Conforme o Captulo 4, para alcanar altos rendimentos no processamento de imagens de microarranjos, alm dos requisitos de robustez e confiabilidade, os algoritmos precisam ser o mximo possvel livre de parmetros determinados por um usurio. Alm disso, mtodos automatizados precisam identificar, calcular e restringir os parmetros que representariam o conhecimento priori, ou seja, parmetros que necessitariam da interveno de um usurio. Basicamente a proposta se enquadra na classe de abordagem totalmente automtica do ponto de vista da automao e na classe da abordagem orientada aos valores dos dados do ponto de vista de anlise. 6.1.1 Algoritmo das estimativas O passo nico de interao com o usurio incorpora apenas dois parmetros de inicializao: 1. Quantidade de spots por microarranjo na horizontal; 2. Quantidade de spots por microarranjo na vertical. Todos os demais valores necessrios so inferidos a partir desses dois parmetros. Uma viso bsica das tcnicas utilizadas para estimativas explicada na seo seguinte. A implementao foi realizada na ferramenta Matlab. Basicamente, o algoritmo de processamento da imagem, dividido em trs fases: 1. Deteco da quantidade e das fronteiras dos elementos; a. Somatrio das intensidades dos pixels na direo horizontal; i. Estimativa da quantidade de grids na direo horizontal; ii. Estimativa da quantidade de spots em cada grid na direo horizontal. b. Somatrio das intensidades dos pixels na direo vertical; i. Estimativa da quantidade de grids na direo horizontal; ii. Estimativa da quantidade de spots em cada grid na direo horizontal. 2. Definio das localizaes a partir das estimativas da fase 1; Rodrigo Silva Campos 43

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA a. Estimativa da localizao da rea de cada grid; b. Estimativa da localizao de cada spot dentro de um grid.

07/2008

3. Refinamento das localizaes dos spots aplicando-se as fases 1 e 2 em cada subimagem formada por um grid; 4. Refinamento das localizaes dos spots a partir de cada subimagem formada por uma clula de grid. 6.1.2 Descrio de passo a passo Deteco da quantidade e das fronteiras dos elementos Utilizando o somatrio das intensidades dos pixels numa determinada direo, possvel inferir caractersticas importantes da imagem, dentre elas quantos e como esto distribudos os grids nos microarranjos [29]. Para auxiliar na visualizao, basta observar o padro grfico dos valores apresentados conforme a Figura abaixo:

Figura 21: Trecho de experimento de microarranjo de DNA com os respectivos grficos das intensidades mdias dos pixels nas direes horizontal e vertical.

Percebe-se que tanto na direo horizontal quanto na vertical, existe uma queda brusca nos valores das intensidades que caracteriza o espaamento entre os grids. Alm disso, cada pico observado interpretado como o centro aproximado de um spot. Dessa forma possvel estimar alm das quantidades de grids, o tamanho mdio dos spots em cada direo. Rodrigo Silva Campos 44

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Primeiramente o tamanho dos spots calculado observando as transies entre os picos de intensidade segundo a rotina:
1. Dado o vetor AvgIntensity[] contendo o somatrio mdio dos pixels em uma determinada direo; 2. Detecte todos os picos de intensidade observando as transies entre os pixels; a. Para cada pixel p(i) = AvgIntensity[i]: i. Se p(i-1) < p(i) > p(i+1) o pixel marcado como pico positivo ii. Se p(i-1) > p(i) < p(i+1) o pixel marcado como pico negativo iii. Caso contrrio o pixel no marcado 3. Calcule o tamanho de cada spot observado a quantidade de pixels entre dois picos negativos consecutivos; 4. Estime o tamanho do spot a partir da mediana dos valores calculados anteriormente.

Nesse caso, a escolha da mediana ao invs da mdia se deve ao fato dessa mtrica ser menos sensvel influncia de provveis spots de baixa confiana (contaminao, rudos) presentes no vetor de intensidade. Definio das localizaes Dado o tamanho escolhido para o spot, com o conhecimento priori da quantidade desse elemento em determinada direo, possvel estimar o tamanho mdio dos grids. Para isso, uma janela de pixels criada com o tamanho do grid calculado (quantidade de spots vezes o tamanho mediano do spot) e percorre-se todo vetor de intensidades a fim de se delimitar as fronteiras dos grids em cada direo. As fronteiras so marcadas de modo a maximizar uma funo que determina o peso de cada delimitao de fronteira possvel para o grid. No algoritmo, o peso foi definido pelo somatrio de todas as intensidades englobadas pelas fronteiras do grid. Durante a varredura do vetor de intensidades na direo horizontal ou vertical, verificado se houve aumento no peso do grid, se sim, continua-se a varredura. A busca pra quando aps cinco iteraes, no ocorre melhora no valor da soma das intensidades dos pixels delimitados pela janela. A estratgia de cinco iteraes baseada no fato de que o espaamento entre os grids maior que cinco pixels (emprico). Outra forma de se estimar o valor seria atravs do padro grfico de espaamento entre os grids demonstrado na Figura 20. O ideal seria o valor padro do layout de espaamento entre os grids, porm como foi visto no Captulo 2, no h uma padronizao que regule o layout de preparao de lminas com as variadas tecnologias de microarranjos. Abaixo se encontra uma demonstrao da rotina utilizada para a delimitao das fronteiras dos grids:
1. Dado o vetor AvgIntensity[] contendo o somatrio dos pixels em uma determinada direo; 2. Dado o tamanho em pixels da janela do microarray; 3. Percorre-se o vetor AvgIntensity[] com a janela window de pixels

Rodrigo Silva Campos

45

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

a. s(i) = somatrio das intensidades dos pixels cobertos pela janela window(i) com pixel inicial na posio i de AvgIntensity[] b. Se s(i) > s(i - 1), ento houve melhora, a window(i) marcada como fronteira do microarray e a varredura continua c. Se no houver melhora aps 5 iteraes, passe para a definio do prximo microarray 4. Continua at que toda a quantidade de pixels no varridos do vetor de intensidades no seja suficiente para delimitar um novo microarray com o tamanho calculado

Para a os grids na imagem, realizado um casamento da posio de cada fronteira marcada na direo horizontal com a posio da fronteira na direo vertical.
1. 2. 3. Dado o vetor Columns[] contendo as fronteiras de cada microarray na direo horizontal; Dado o vetor Rows[] contendo as fronteiras de cada microrarray na direo vertical; Para cada par c(i) = Columns[i], e r(i) = Rows[i] a. Define as coordenadas que localizam as fronteiras de um microarray
i.

(x1, y1) = (r(i), c(i))

ii. (x2, y2) = (r(i), c(i+1)) iii. (x3, y3) = (r(i+1), c(i))
iv.

(x4, y4) = (r(i+1), c(i+1))

Similarmente, a posio de cada spot tambm calculada dentro de cada grid. Para a de microarranjo representa pela Figura 20 acima, obtm-se o seguinte resultado na fase 2 do algoritmo:

Figura 22: Estimativa de localizao fornecida na fase 2 do algoritmo.

Rodrigo Silva Campos

46

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA Refinamento das Localizaes

07/2008

A primeira estimativa de localizao na imagem apresenta spots sobrepostos pelas divises das reas, ou seja, baixa preciso na localizao. Caso fosse aplicado algum dos critrios de avaliao de spot definidos no Captulo 5, as regies de foreground e background seriam de baixa confiana para as subimagens formadas para esses spots. Uma forma encontrada para diminuir os erros, foi submeter as primeiras estimativas de localizao a um refinamento. No algoritmo proposto, tal refinamento realizado utilizando os mesmos passos descritos. Porm, uma vez que j se possui uma localizao razovel dos grids, no necessrio usar toda a imagem no refinamento. Por isso so utilizadas apenas a subimagem correspondente a cada grid, extrapolando o tamanho real, para permitir uma possvel correo na posio. A Figura abaixo ilustra uma subimagem representante de um grid, obtida a partir de sua primeira estimativa de posio:

Figura 23: Subimagem correspondente a um grid submetido ao refinamento de posio.

Dessa vez os grficos na direo horizontal e vertical apresentam-se mais suaves e com picos bem definidos. Como somente a subimagem do prprio grid est sendo utilizada, elimina-se a influncia das outras distribuies de intensidades. As linhas verticais representam a delimitao das fronteiras do grid. Como resultado do refinamento das localizaes, cada grid torna-se independente dos demais e por isso h uma melhora na definio dos spots. A seguir, demonstrado o refinamento das posies dos grids para a imagem de microarranjo da Figura 21.

Rodrigo Silva Campos

47

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Figura 24: Novas posies dos grids aps o refinamento.

Enquanto as primeiras estimativas so obtidas a partir de toda imagem (global), o refinamento atua localmente para cada subimagem aumentando a preciso da localizao. Embora seja constatada a melhoria na preciso dos spots definidos, ainda pode no ser suficiente para os critrios de controle de qualidade. Para alguns grids, essa melhora ainda no o suficiente de acordo a Figura 24. Numa inspeo mais detalhada so encontradas clulas mal delimitadas, cuja rea abrange mais de um spot. Uma alternativa para remover esse tipo de erro aplicar um novo refinamento, dessa vez utilizando somente a subimagem do prprio spot. O ajuste novamente realizado a partir da anlise do padro de distribuio de intensidade nas direes horizontal e vertical.

Figura 25: Subimagem correspondente a uma clula de grid submetida ao refinamento de posio.

Rodrigo Silva Campos

48

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Idealmente, o padro de intensidade mdia de um spot caracterizado pela presena de um pico central, dividindo a rea do grfico em duas partes simtricas. Ento, neste novo refinamento, as fronteiras de cada spot so delimitadas de modo a obter uma subimagem que contenha um padro de distribuio de intensidade o mais prximo possvel do ideal. Espera-se que dessa forma a influncia das intensidades de outros spots seja eliminada o que aumentaria as chances da classificao precisa das regies de foreground e background. O ltimo passo de ajuste aplicado ento para todas as clulas de cada grid, contribuindo para uma melhor definio dos spots. A Figura 25 reflete o resultado final do alinhamento dos grids pelo mtodo das estimativas, com cada spot individualmente localizado.

Figura 26: Novas posies das clulas aps o ltimo passo de refinamento de localizao.

6.2 Classificao das regies de foreground e background


Como parte do fluxo de dados (ver Captulo 2) do processamento de imagens de microarranjos de DNA, aps o alinhamento dos grids, segue-se o processo de definio das regies de foreground e background nos spots localizados. A fim de se observar as regies geradas a parir das localizaes estimadas pelo algoritmo de alinhamento de grid proposto, foi aplicado um algoritmo de clusterizao nas subimagens representantes de cada spot definido. O algoritmo escolhido foi o k-Means, o qual utilizado com bastante freqncia na segmentao de imagens de microarranjos [31]. Para a utilizao do k-Means foram utilizadas as seguintes consideraes:

Rodrigo Silva Campos

49

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Base de dados: subimagem definida pela localizao aproximada de um spot, sendo os pixels as amostras a serem agrupadas; Atributos da amostra: coordenadas relativas (x, y) e intensidade do pixel; Funo de similaridade: distncia euclidiana s intensidades dos pixels.

Embora seja prtico, esse tipo de agrupamento apresenta a limitao de gerar resultados imprevisveis. A fim de eliminar o no-determinismo das regies geradas (caracterstica indesejvel nos algoritmos de processamento de imagens de microarranjos (ver Captulo 4), foi utilizada uma regra de inicializao do k-Means. Ao invs de escolher representantes iniciais para os grupos de forma aleatria, passou-se a adotar os pixels mais distantes em termos de intensidade, ou seja, aqueles com o maior e o menor valor de intensidade. Segue o resultado da aplicao do k-Means nos grids representados na Figura 26:

Figura 27: Spots segmentados pelo k-Means aps o refinamento das posies (os pixels classificados como foreground foram marcados com a cor branca).

6.3 Desenvolvimento de ferramenta para interao com usurio


Tambm em carter experimental, foi desenvolvida uma ferramenta de alinhamento manual de grid com funcionalidades que melhorariam a preciso das subimagens representantes dos spots. Vista a necessidade de interagir com um usurio, optou-se pela implementao em linguagem de programao Java, pelas facilidades de se criar interfaces.

Rodrigo Silva Campos

50

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Figura 28: Ferramenta desenvolvida para testes com o alinhamento manual de grid.

Figura 29: Exemplos de grids criados

O intuito posteriormente integrar a agilidade do algoritmo das estimativas ao ajuste manual das posies dos grids baseado na viso do usurio. Como o algoritmo fornecendo as primeiras estimativas das localizaes, o aumento no rendimento do processamento das imagens de microarranjos nesse caso evidente.

Rodrigo Silva Campos

51

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

7. Consideraes Finais
7.1 Concluses
Em busca do entendimento da rea de processamento de imagens de microarranjos de DNA, descobriu-se que existe um complexo fluxo de eventos que divide o experimento com microarranjos em vrias etapas: 1. 2. 3. 4. 5. Preparao Aquisio Processamento Anlise Interpretao

A primeira, relacionada preparao do experimento, utiliza-se o conhecimento de diversos mecanismos da biologia molecular para obter as chamadas expresses gnicas. A segunda diz respeito a forma como so organizados os microarranjos, onde h uma preocupao especial em evitar e conhecer as diversas formas de variaes que diminuem a qualidade das imagens geradas pelos detectores especiais de fluorescncia. A terceira envolve a aplicao de algoritmos para definir as regies de interesse na imagem, ou seja, escolher os pixels que sero utilizados na quantificao da expresso gnica. Sendo um grande desafio o desenvolvimento de tcnicas automatizadas que diminuam o esforo humano ao mesmo tempo em que mantenham as exigncias de desempenho e de preciso. A quarta, exige uma seleo das imagens processadas a fim de se manter os nveis de qualidade que garantam uma boa preciso durante a transformao das caractersticas em valores comparveis e interpretveis. Uma reviso das principais tcnicas de processamento assim como os desafios a serem superados foram reunidos nesse trabalho. Pretendeu-se com isso, prover um conhecimento mnimo para auxiliar na deciso quanto s abordagens a serem seguidas durante a execuo de um experimento envolvendo imagens de microarranjos. Ainda sim, percebeu-se a escassez de formas de se comparar os resultados obtidos de diferentes ferramentas computacionais que tratam diferentes tecnologias de microarranjos de DNA Por fim, foi possvel pelo que foi exposto, desenvolver uma nova abordagem automtica para a definio das clulas dos grids que delimitam as imagens dos microarranjos. Essa abordagem necessita de apenas dois parmetros que devem ser fornecidos por um usurio e permite a obteno de resultados determinsticos. Os resultados experimentais demonstram que a modelagem factvel, sendo possvel ainda a realizao de vrias melhorias que levem a um aumento de preciso assim como a eliminao de parmetros.

Rodrigo Silva Campos

52

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

7.2 Trabalhos Futuros


As tcnicas de anlise foram abordadas de forma superficial, portanto encontra-se a, uma oportunidade de expandir o trabalho, com um detalhamento matemtico mais formal assim como a pesquisa de outras abordagens. Alm disso, como o foco esteve nas aes aplicadas s imagens, no foi pesquisada a parte de interpretao de dados que leva a construo das concluses biolgicas. Esta outra rea a ser considerada para a continuidade do trabalho. esperado que, com o conhecimento mnimo de todas as etapas do processo, seja possvel a construo de uma ferramenta genrica, capaz de lidar com diversos formatos e padres de imagens e permitir a obteno de resultados confiveis com a mnima dependncia de interao com o usurio. Antes disso, contudo, necessrio encontrar uma forma confivel de se comparar os mtodos pesquisados.

Rodrigo Silva Campos

53

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA

07/2008

Referncias Bibliogrficas
[1] RUIVO, H. M. Anlise Integrada de Dados Ambientais Utilizando Tcnicas de Classificao e Agrupamento de Microarranjos de DNA: Dissertao de mestrado em Computao Aplicada. So Jos dos Campos: Instituto Nacional de Pesquisas Espaciais. 2007. MENA-CHALCO, J. P. Indentificao de regies codificantes de protena atravs da transformada modificada de Morlet. Dissertao de mestrado em Cincias da Computao. So Paulo: Universidade de So Paulo. 2005. VNCIO, R. Z. N. Anlise Estatstica na Interpretao de Imagens: microarranjos de dna e ressonncia magntica funcional: Dissertao de doutorado em Bioinformtica. So Paulo: Universidade de So Paulo. 2006. SCHENA, M.; SHALON, D.; DAVIS, R.W.; BROWN, P.O. Quantitative monitoring of gene expression patterns with complementary DNA microarray. Science, n. 270, p. 467-470. 1995 KAMBEROVA, G.; SHAH, S. DNA Array Image Analysis: Nuts & Bolts, DNA Press. 2007. 280p. (Nuts & Bolts) Affymetrix. GENECHIP ARRAYS. [on line]. Disponvel em: http://www.affymetrix.com/index.affx. ltimo acesso: 10, junho, 2008. BALAGURUNATHAN, Y. et al. Simulation of cDNA Microarrays via a Parameterized Random Signal Model, Journal of Biomedical Optics. 2002. BUHLER, J.; IDEKER, T.; HAYNOR, D. Dapple: Improved Techniques for Finding Spots on DNA Microarrays. UV CSE Technical Report UWTR. 2000. STEINFATH, M. et al. Automated image analysis for array hybridization experiments, Bioinformatics, v. 17, p. 634-641. 2001.

[2]

[3]

[4]

[5] [6] [7] [8] [9]

[10] LAWRENCE, N. D. et al. Reducing the variability in cDNA microarray image processing by Bayesian inference, Bioinformatics, v. 20, n. 4, p. 518-526. 2004. [11] BAJCSY P. Gridline: Automatic Grid Alignment in DNA Microarray Scans. IEEE Transactions on Image Processing, v. 13, n. 1, p. 15-25. 2004. [12] BRANDLE, N.; BISCHOF, H.; LAPP, H. Robust DNA Microarray Image Analysis. Machine Vision and Applications, v. 15, p. 11-28. 2003. [13] Molecular Devices. GenePix Pro Microarray Image Analysis. Disponvel em: http://www.moleculardevices.com/pages/software/gn_genepix_pro.html. ltimo acesso: 10, junho, 2008. [14] Eisen M. ScanAlyze. [on line]. Disponvel em: http://rana.lbl.gov/EisenSoftware.htm. ltimo acesso: 08, maio, 2008.

Rodrigo Silva Campos

54

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA [15] HARTELIUS, K.; CARTSTENSEN, J. M. Bayesian Grid matching. IEEE Transactions on Pattern Analysis and Machine Intelligence. v. 25, n. 2, p.162-173. 2003. [16] LIEW, A.; YAN, H.; YANG, M. Robust Adapttive Spot Segmentation of DNA Microarray Images. Pattern Recognition. v. 36, p. 1251-1254. 2003. [17] STEINFATH, M. et al. Automated image analysis for array hybridization experiments. Bioinformatics. v. 17, p. 634-641. 2001. [18] HARTIGAN, J. A.; WONG, M. A. A K-Means Clustering Algorithm. Applied Statistics. v. 28, n. 1, p. 100-108. 1979

07/2008

[19] BELACEL, N.; WANG, Q.; CUPERLOVIC-CULF, M. Clustering Methods for Microarray Gene Expression Data. OMICS: A Journal of Integrative Biology. v.10, n.4, p. 507-531. 2006 [20] GONZALEZ, R. C.; WOODS, R. E. Processamento de Imagens Digitais. 1. ed. So Paulo: E. Blcher, 2005. 509 p. [21] ANGULO, J.; SERRA, J. Automatic Analysis of DNA Microarray Images Using Mathematical Morphology. Bioinformatics. v. 19, n. 5, p. 553-562. 2003. [22] BOZINOV, D.; RAHNENFUHRER, Unsupervised Technique for Robust Target Separation and Analysis of DNA Microarray Spots Through Adaptive Pixel Clustering. Bioinformatics. v. 18, n. 5, p. 747-756. 2002. [23] DRAGHICI, S. Data Analysis Tools for DNA Microarrays. Chapman & Hall, 2003. 512p. (CRC Mathematical Biology and Medicine Series). [24] WANG, X.; GOSH, S.; GUO, S-W. Quantitative quality control in microarray image processing and data acquisition. Nucleic Acids Research, v. 29. 2001. [25] DODD, L. E. et al. Correcting Log Ratios for Signal Saturation in cDNA Microarrays. Bioinformatics. v. 20, n. 16, p. 2685-2693. 2004. [26] QUACKENBUSH, J. Computational analysis of microarray data. Nature Reviews Geneticst.v. 2, p. 418-427. 2001. [27] ADAMS, R. M. et al. Case Study: A Virtual Environment for Genomic Data Visualization. IEEE Transactions on Visualization. 2002. [28] KNUDSEN, S. Guide to Analysis of DNA Microarray Data. Wiley-Liss, 2004. 184 p. [29] JAIN A. N. et al. Fully Automated Quantification of Microarray Image Data Genome Research, v. 12, n. 2, p. 325-332. 2002 [30] KOIDE, T. Anlise global da expresso gnica de Xyella fastidiosa submetida a estresses ambientais. Dissertao de doutorado em Cincias Biolgicas: Universidade de So Paulo, 2006. [31] PEREIRA, O. Anlise de Dados de Microarrays de DNA. Genmica Funcional. Universidade de Aveiro, 2003.

Rodrigo Silva Campos

55

Um Estudo sobre Processamento e Anlise de Imagens de Microarranjos de DNA [32] TAN. P. K. et al. Evaluation of gene expression measurements from commercial microarray platforms. Nucleic Acids Research. v. 31, p. 5676-5684. 2003. [33] GRADINER-GARDEN, M.; LITTLEJOHN, G. A comparison of microarray databases Margaret. Briefings In Bioinformatics. v. 2, n. 2, p. 143-158. 2001. [34] FREUDENRIC, C. How DNA Works. [on line]. Disponvel em: http://science.howstuffworks.com/dna1.htm. ltimo acesso: 27, abril, 2008.

07/2008

[35] JNIOR, C. S.; SASSON, S. Biologia: O Metabolismo Celular. 7. ed. So Paulo: Saraiva, 2002. 400 p. [36] WIKIPEDIA. DNA Microarray.[on line]. Disponvel em: http://en.wikipedia.org/wiki/DNA_microarray. ltimo acesso: 27, abril, 2008.

Rodrigo Silva Campos

56

You might also like