You are on page 1of 97

Anlisis de datos de

microarray
Rodrigo Santamara

S
Anlisis de datos de
microarray
Introduccin
Tecnologa de microarrays
Esquema de anlisis
Fabricantes y BBDDs
Preprocesamiento
Anlisis
Validacin
Otras tecnologas

S
Introduccin

S Los experimentos de microarray son la herramienta ms popular


para realizar anlisis de la expresin gentica a gran escala

S A un nivel bioinformtico, recibimos una matriz de intensidad


con la que
S Calculamos una matriz numrica normalizada (preprocesamiento)
S Determinamos qu genes estn ms expresados (estadstica
inferencial)
S Determinamos patrones de comportamiento comunes a distintos
genes (estadstica exploratoria y mtodos de clasificacin)
Expresin gentica
DNA La tecnologa de
microarrays se basa en el
dogma central de la
biologa molecular
transcription Mide los niveles de
transcripcin de mRNA
en un determinado caso
de estudio
mRNA El nivel de transcripcin
NO es equivalente al nivel
de expresin, aunque se
suele hacer dicha
translation asuncin
La degradacin del
mRNA y otros procesos
Protein pos-transcripcionales
influyen en la expresin y
no son cuantificables con
microarrays
Tecnologa de microarray

mRNA

microarray chip
Con la tecnologa de
microarray se De manera que
podemos cuantificar
imprimen las
secuencias biolgicas
en un chip
~ el nivel de
transcripcin en una
matriz numrica
Microarray
En cada celda de un chip se
pegan miles de copias de un
segmento de mRNA (sonda)
Celdas distintas contienen
secuencias de mRNA distintas
Todas las celdas contienen el
mismo n de segmentos

Se prepara una muestra con


mRNA de nuestro caso de
estudio
La muestras se marcan con
una etiqueta fluorescente
Nuestra muestra de estudio
tendr un nmero variable de
mRNAs de cada segmento,
segn cunto se transcriba
Hibridacin: proceso por el que
dos cadenas de RNA
complementarias se combinan
por atraccin bioqumica

Anlisis de la imagen:
conversin de la cantidad de
secuencias hibridadas (con
etiqueta fluorescente) en una
intensidad de luz (un nmero)
Matriz de expresin
h1 d1 conditions
h1 h2 d1 d2
Matriz de expresin:
cada matriz de
intensidad se estira a
una columna de la
matriz de expresin
Columna: condiciones
(arrays, ensayos, casos,

probes
h2 d2 muestras, factores
experimentales)
Fila: sondas o
conjuntos de sondas. Se
resumirn en genes en
el preprocesamiento

healthy patients diseased patients


Matriz de expresin
conditions
h1 h2 d1 d2

Una matriz de

103-4 genes
expresin tiene un
tamao considerable
necesidad de mtodos
genes

informticos para su
anlisis

101-2 conditions
Anlisis de datos de microarray

Qu genes influyen en el cncer de mama?

Decidir sobre los pacientes y los controles


(edad, grado de la enfermedad, etc.)

Construir chips de microarray con las


muestras recogidas

Convertir la informacin del microarray


a una matriz numrica analizable

Realizar anlisis inferenciales o


exploratorios

Validar los resultados a partir


del conocimiento existente y del
diagnstico en nuevos casos
Principales fabricantes

S Affymetrix
S Es el principal fabricante y vendedor de chips
S Muchos de los mtodos de preprocesamiento han sido desarrollados por
Affymetrix o para chips de Affymetrix
S Los ficheros de intensidad de Affymetrix tienen extensin .cel

S Agilent
S La segunda compaa en microarrays, heredera de HP

S Illumina
S Introduce el concepto de microarray beads
S Ms centrada en la fabricacin de secuenciadores (Solexa)
Terminologa

S Sobre-regulado (upregulated): un transcrito con ms


intensidad que la intensidad base
S Tambin llamado activado, activo, sobreactivado

S Infra-regulado (downregulated): un transcrito con menor


intensidad que la intensidad base
S Tambin llamado inhibido, inactivo o desactivado

S N-veces sobre/infra-regulado (n-fold up/down regulation):


transcrito con intensidad N veces mayor/menor que una
intensidad de referencia
Herramientas

S Existen dos BBDD principales que mantienen informacin


sobre experimentos de microarray
S GEO (NCBI) http://www.ncbi.nlm.nih.gov/geo/
S ArrayExpress (EBI) http://www.ebi.ac.uk/arrayexpress/

S Existen distintas herramientas para adquisicin de


experimentos de microarray y su anlisis
S La ms utilizada es el lenguaje de programacin R junto con el
paquete BioConductor
Preparacin del entorno R

S Descargar R: http://www.r-project.org/

S Instalar Bioconductor: http://www.bioconductor.org/install/


source("http://bioconductor.org/biocLite.R")!
biocLite() #Para instalar la base!
biocLite(ArrayExpress) #Adquisicin de microarrays!
biocLite(GEOquery) #Adquisicin de microarrays!
biocLite(arrayQualityMetrics) #Anlisis exploratorio!
biocLite(affy) #Preprocesamiento (RMA)!
biocLite(limma) #Paquetes adicionales microarrays!
Preparacin del entorno

S Para las explicaciones de esta sesin, usaremos dos


experimentos de microarray:
S GSE1397 (GEO): Experimento con muestras de cerebro de
pacientes sanos y con sndrome de Down
S Plataforma HG_U133A de Affymetrix
S E-TABM-25 (ArrayExpress-AE): Experimento con muestras
de distintas partes del cerebro de chimpanc a distintas edades
S Plataforma HG_U95Av2 de Affymetrix
S Los datos en crudo de intensidad estn disponibles
Adquisicin de datos

S Directamente a travs de las pginas web de GEO y


ArrayExpress

S Mediante BioConductor
S bibliotecas GEOquery y ArrayExpress

library(GEOquery)
geo=getGEO("GSE1397)

library(ArrayExpress)
ae=ArrayExpress("E-TABM-25)
Anlisis de datos de
microarray
Introduccin
Preprocesamiento
Anlisis exploratorio
Correccin de fondo
Normalizacin
RMA
Anlisis
Validacin

S
Preprocesamiento

S La tecnologa de microarrays y la preparacin experimental pueden


introducir ciertos artefactos en la medida de la expresin gentica:
S Artefactos debidos a la fluorescencia
S Distinta eficiencia de las etiquetas fluorescentes
S Variaciones en el rendimiento del escner de fluorescencia
S Artefactos debidos a la impresin
S Variaciones en la densidad de impresin, superficies irregulares
S Artefactos debidos al experimento biolgico
S Diferencias en la pureza o calidad de las muestras biolgicas
S Diferencias en la manipulacin de las muestras biolgicas
Preprocesamiento

S El preprocesamiento trata de eliminar estas variaciones


sistemticas en los datos de la manera ms completa
posible, pero preservando la variacin biolgica real

S Hay cuatro pasos principales


S Cuantificacin de la imagen (no entraremos en detalle)
S Exploracin de los datos
S Correccin del fondo, normalizacin y sumarizacin
S Determinacin de la calidad
Exploracin de los datos

S Revisin inicial, mediante representaciones grficas


S Scatterplots: diagramas de dispersin que muestran la
correlacin de los niveles de expresin entre dos muestras
S MA plots: evolucin de los scatterplots que muestran los ratios
de correlacin
S Histogramas: diagramas de distribucin de los niveles de
expresin en cada muestra del experimento
S Boxplots: otro modo de mostrar la distribucin de los niveles
de expresin a lo largo de las muestras

S Su principal uso es detectar errores de bulto en el microarray


Exploracin de los datos
Correlacin sustancial de
las muestras (diagonal)

S Scatter plots (diagramas de


dispersin):
S punto=transcrito
S X=nivel de expresin para Preponderancia de
intensidades bajas
una condicin o conjunto de
condiciones
S Y=nivel de expresin para
otra condicin o conjunto de
condiciones Expresin diferencial
separacin de la diagonal
S Figura: caso tpico de diagrama
Diagramas de dispersin

S Se suele usar el logaritmo de las


intensidades para que los datos
estn distribuidos ms
uniformemente
MA plot

S Un diagrama de dispersin girado Valores sobre-regulados


45 grados
S La intensidad no se suele medir
contra la base del chip, si no con
respecto a las muestras de
control ratios
de la activacin
del control
S Punto: transcrito
Valores infra-regulados
S Y=log ratio de caso vs control (M)

S X=log de la media de la intensidad


en todas las muestras (A)
Ratios

Comportamiento Nivel Nivel Ratio Log Ratio


Control (C) Muestra (M) (M/C) log2(M/C)
Nivel base de expresin 50 50 1.0 0.0
Sin cambio 50 50 1.0 0.0
Activacin doble 50 100 2.0 1.0
Inhibicin doble 50 25 0.5 -1.0

Ejemplo de ratios para varios niveles de activacin


Los ratios tienen la interpretacin ms matemtica
Los los log ratios normalizan valores muy altos y tienen una
interpretacin simtrica y quizs ms intuitiva
MA plots

S Uno de los cometidos principales de los MA plots es conocer si los


datos tienen una desviacin dependiente de la intensidad de la
seal debera ser constante en cero (lnea recta)

Cinco MA plots de distintas


muestras contra el control
La muestra 12 presenta una
desviacin clara
Histogramas

S Representacin de la distribucin
de intensidades para cada Esta chepa puede Algunas muestras
muestra en el experimento indicar un error discrepan de la
sistemtico media
S Evaluacin de la calidad de las
muestras, se esperan
S Formas similares
S Alturas y anchuras
S Posicin
S Distribucin normal
Boxplots
La muestra 12 se desva de nuevo
del comportamiento general

S Caja de Tukey: resumen grfico


de algunos valores indicativos de
la distribucin
mximo

percentil 75

mediana
percentil 25

mnimo
Normalizacin

S Correccin de dos o ms muestras antes de comparar sus valores


de expresin

S Suele constar de tres pasos


S Correccin del fondo (background)
S Estimar y eliminar la intensidad de ruido de fondo
S Normalizacin global o local
S Asegurar que la mayora de las sondas varen igual
S Sumarizacin
S Conversin de sondas o conjuntos de sondas a transcritos o genes
Correccin de fondo

S Affymetrix
S En las celdas del chip, por cada sonda con la secuencia
deseada, de 25 nucletidos normalmente (PM), se coloca
tambin una sonda con esa misma secuencia, pero con el
nucletido 13 cambiado al complementario (MM)
S PM: Perfect Match, secuencia exacta
S MM: MisMatch, secuencia cambiada
S MM permite medir la hibridacin no especfica
S Aqullas sondas que se pegan sin tener la secuencia buscada
S Es decir, mide el fondo debido a esta causa
Correccin de fondo

ACGTTGCACGTGGTGCCCGATGATCGCTCGATCCAACTCG !
CACGTGGTGCCCGATGATCGCTCGA!PM
CACGTGGTGCCCCATGATCGCTCGA MM

PMs

MMs
Normalizacin

S Parte de la hiptesis de que la mayora de los genes en un microarray


no varan su valor bajo diferentes condiciones experimentales
S Su expresin media es cero (o su ratio medio es uno)

S Normalizacin paramtrica
S Asume que los datos se parecen a una distribucin normal
S ANOVA y t-test son normalizaciones paramtricas muy usadas

S Normalizacin no paramtrica
S No se asume ninguna distribucin por defecto
S La normalizacin por cuantiles es muy utilizada en microarrays
Normalizacin por cuantiles

S Asume que todos los arrays de nuestro experimento tienen


la misma distribucin (aunque no asume ninguna en
particular)

S Mtodo
S Ordenar las columnas de la matriz de intensidad X Xsort
S Calcular la media de las filas de Xsort, y aplicar dichos valores a
cada elemento Xsort
S Restaurar el orden original de X Xnorm
Normalizacin por cuantiles

X Xsort Xsort Xnorm


0 0 3! 0 0 3! 0 0 3 1! 1 1 1! 1 1 1!
3 4 6! 3 0 3! 3 0 3 2! 2 2 2! 2 5 5!
5 0 7! 5 4 6! 5 4 6 5! 5 5 5! 5 2 7!
8 6 3! Ordenamos
columnas
8 6 7! Medias
por fila
8 6 7 7!Asignamos
medias 7 7
Restablecemos
7! orden 7 7 2!

S Es la normalizacin ms usada
S Utilizada por Affymetrix
S Incorporada por RMA
S Artculo original: Bolstad et al.
2003
S http://bmbolstad.com/misc/
normalize/normalize.html

MAplot antes y despus de la normalizacin por cuantiles


(tomado de las figuras de Bolstad et al. 2003)
Housekeeping genes

S Genes que tienen una intensidad constante


independientemente de las condiciones experimentales
S P. ej. debido a que son fundamentales para que la clula viva

S Se pueden utilizar para normalizar


S Dividiendo todas las intensidades por la expresin media de
los housekeeping genes
S Problema: la asuncin de que no varan no siempre es cierta
S HuGE: proyecto que analiza 7000 genes en 19 tejidos para
determinar una lista de 451 genes que nunca varan
Sumarizacin

S Para cada transcrito (o gen) tenemos varias sondas que


miden su intensidad
S Por ejemplo, en chips affy suele haber 11 sondas para cada
transcrito (o conjunto de sondas probeset)

S La sumarizacin es el proceso por el que determinamos la


intensidad del transcrito a partir de la intensidad de sus
sondas
S Suele ser un proceso simple (calcular una media)
Precisin y Puntera

S El preprocesamiento busca mejorar la puntera (disminuir las


tendencias errneas) y la precisin (disminuir la varianza)
Precisin y Puntera

S Precisin
S Una buena precisin se caracteriza por resultados reproducibles
S Se comprueba mediante medidas repetidas de la misma muestra
(rplicas tcnicas)

S Puntera (accuracy)
S Una buena puntera se comprueba mediante resultados bien
conocidos, independientes de nuestro experimento
S Por ejemplo, el uso de spike-in ARN, medidas conocidas de las
concentraciones de unas determinadas sondas
Robust Multiarray Analysis
(RMA)

S Mtodo para realizar la correccin de


fondo, normalizacin y sumarizacin en
chips de Affymetrix

S Tiene una precisin mucho mayor que


MAS 5.0 (el mtodo de Affymetrix para
preprocesar sus chips)
S Correccin de fondo sin contar MM
S Normalizacin por cuantiles
S Estimacin por median polish
RMA

S Correccin de fondo
S RMA estima que MM contiene hibridacin especfica e
inespecfica y no es por tanto til para corregir el fondo
S Los MMs se descartan
S Sea n la sonda, j el conjunto de sondas al que pertenece e i el array
S Se estima que PMijn = bgijn + sijn
S bgijn es el fondo, tanto debido a hibridacin inespecfica como a
errores en el reconocimiento ptico, igual para todas las sondas
de un mismo array i
S sijn es la seal biolgica que nos interesa extraer
S Se utiliza un modelo de convolucin para separar bgijn de sijn
RMA

S Normalizacin por cuantiles de los PMs

S Clculo del log2 de los niveles de expresin

S Ajuste por median polish, considerando =0

xijn = !in + " jn + rijn

S Artculo original (difcil de leer)


S Irizarry et al. Exploration, Normalization, and Summaries of High Density
Oligonucleotide Array Probe Level Data. 2003
Median polish

S Mtodo de ajuste lineal para matrices introducido por John


Tukey (1977)
S Utilizado en RMA por Irizarry et al. (2003) para la estimacin
de los valores de expresin

S La idea es que un valor de intensidad se puede ajustar como


la suma de una constante de fondo, constantes por filas y
columnas y residuos para cada valor

xij = + !i + " j + rij


Median polish

X 0 0 2! j
0 0 3! -4.5! 0 0 1!
3 4 6! Median -0.5! -1 0 0!
5 0 7! polish
=4.5!
0.5! 0 -5 0!
8 6 3! 1.5! 2 0 -5!
i
residuos (rij)
RMA

S GCRMA
S Ajuste de RMA para la extraccin de hibridacin no especfica
S Mejora la puntera de RMA, manteniendo su precisin

S fRMA (frozen RMA)


S Modificacin del mtodo para el anlisis de varios experimentos
de microarray
S No es lo mismo analizar varias muestras del mismo experimento que
analizar varias muestras de distintos experimentos
S Factores de variacin introducidos por los laboratorios,
preparacin de las muestras, etc.
Anlisis de datos de
microarray
Introduccin
Preprocesamiento
Anlisis
Estadstica inferencial
Test-t, ANOVA, limma
Estadstica descriptiva
Clustering, PCA

Validacin

S
Anlisis

S Una vez preprocesados, tenemos dos tipos de anlisis sobre


datos de microarrays
S Estadstica inferencial: determinar qu genes estn expresados
diferencialmente (DEGs) y si dicha expresin es significativa
S Estadstica descriptiva: determinar grupos de genes que
presentan patrones similares
S Anlisis no-supervisado: sin tener informacin de la estructura de
los datos en el microarray
S Anlisis supervisado: contando con informacin de la estructura
Estadstica inferencial

S Umbrales de expresin
S La forma ms evidente y sencilla de determinar DEGs es
realizar el ratio de expresin entre una condicin experimental
y el control, y tomar los genes con un ratio mayor (o menor)
que un umbral
S Es una forma rpida de determinar los genes muy expresados
diferencialmente, pero
S Los umbrales slo se pueden establecer de una manera arbitraria
S No podemos determinar la significatividad estadstica de su
expresin diferencial
Test-t

S Testeo de hiptesis
S Hiptesis nula H0: no hay diferencia de seal entre las
condiciones que estamos testeando
S Estadstico: figura matemtica que caracteriza los datos de
expresin y en funcin suya rechacemos o aceptemos H0
S Nivel de significacin (): probabilidad de rechazar H0
cuando es verdadera ( ~ probabilidad de un falso positivo)
S Tpicamente<0.05 (ver temas anteriores sobre la significatividad
estadstica y la probabilidad de rechazo)
Test-t

S Estadstico-t
S Es el ms usado para probar H0 en microarrays
S Sea una matriz de expresin con n condiciones experimentales
de tipo A y m condiciones de tipo B
S A y B pueden significar, por ejemplo, enfermedad y control
S Para un determinado gen, tenemos los niveles de expresin:
S (xa1, , xan) y (xb1, , xbm)
S Con media y varianza (para la condicin A, anlogo para B):
a a
1 n 1 n
x A = ! xi 2
s =
A ! (xi " x A )2
n i=a1 n "1 i=a1
Test-t

S El estadstico-t mide la expresin diferencial teniendo en cuenta el


ratio entre seal (~media) y ruido (~varianza) en el experimento:

xA ! xB
estadstico ! t =
sA2 sB2
+
n m
S A partir del estadstico-t podemos calcular un p-valor que comparar
con el nivel de significatividad para aceptar o rechazar H0
S Un p = 0.01 quiere decir que de cada 100 tests uno ser un falso
positivo
Test-t

S Un test-t asume que los valores de expresin siguen una


distribucin normal (tests paramtricos)
S Los tests no paramtricos (como el de Wilcoxon) no asumen una
distribucin normal, pero no se suelen usar en microarrays

S Es importante tener en cuenta el diseo experimental cuando se


aplica un test-t
S Cada condicin puede tener uno o ms factores experimentales
S Por ejemplo: edad (31), estado (leucemia A), sexo (M)
S Podemos comparar factores siempre que sea razonable, lo que
generalmente implica tener intersecciones nulas
S Por ejemplo, pacientes masculinos con leucemia A vs sanos
S Probablemente no tendr sentido comparar pacientes masculinos con
pacientes con leucemia B
Mltiples comparaciones

S Un p < 0.01 para un test nos dice que hay un 1% de obtener un


falso positivo
S Si tenemos 10000 tests, quiere decir que tendremos ~100 falsos
positivos!

S Necesitamos redefinir los lmites cuando hacemos mltiples


comparaciones para evitar
S Errores tipo I (falsos positivos)
S Errores tipo II (falsos negativos)

S Correccin de Bonferroni, FDR, FWER ver temas anteriores


Volcano plot

S Representacin de genes segn su


expresin diferencial y
significatividad estadstica
S Punto = gen
S X = expresin diferencial
S Y = significatividad estadstica

S Figura: volcano plot para genes de levadura a los 0


minutos y a los 60 minutos de aplicarle calor
S Eje Y: -log10(p-valor)
S Eje X: log2(ratio)
ANOVA

S El anlisis de varianza (ANalysis Of VAriance) es un


mtodo apropiado si queremos comparar ms de dos
condiciones
S Por ejemplo, mltiples puntos temporales, o control contra dos
tipos de tratamiento o de enfermedad

S ANOVA es un modelo que toma la siguiente forma:


Y = + !1 x1 + ! 2 x2 +... + ! n xn + "
S Y es una funcin de X bajo distintas condiciones (x1xn)
S 1n son los pesos dados a estas condiciones
S es el error o residuo, no explicable por el modelo
limma

S El modelo lineal de anlisis (limma) es un modelo de


ANOVA, pero diseado para cada gen por separado, en vez
de hacer un nico modelo general y aplicrselo a cada gen
S Es muy utilizado en anlisis de datos de microarray

S Todos estos modelos, al igual que el test-t, nos darn un p-


valor para la significatividad de la expresin gentica en
cada contraste de condiciones
Estadstica descriptiva

S La maldicin de la dimensionalidad
S Cada una de nuestras muestras tiene tantas dimensiones como
genes (para humano, aprox. 20000)
S Cada condicin se puede ver como un punto de 20000 dimensiones
S Es imposible imaginar un espacio de 20000 dimensiones
S Comparar dos puntos de 20000 dimensiones generalmente dar
distancias muy largas y aproximadamente iguales
S Anlogamente, cada gen tiene tantas dimensiones como condiciones
S Necesitamos mtodos matemticos para explorar estos datos que se
encuentran en un espacio altamente dimensional
Estadstica descriptiva

S Hay muchas tcnicas en estadstica descriptiva, nos


centraremos en las dos ms utilizadas
S Clustering
S Anlisis de Componentes Principales (PCA)

S En ambos casos, tratamos de reducir la dimensionalidad del


problema para extraer conclusiones sobre el
comportamiento de los genes en nuestros experimentos.
S En ambos casos, necesitaremos definir alguna medida de
similitud entre los datos
Clustering

S Es probablemente la tcnica ms utilizada para encontrar grupos de


genes o condiciones en microarrays
S Eisen et. al (1998) popularizaron su uso en microarrays

S El clustering es la agrupacin (cluster significa literalmente racimo,


se traduce por grupo) de elementos segn las distancias entre ellos
S Tpicamente, se usa la distancia eucldea

S El resultado de estas agrupaciones se representa mediante


S Dendrogramas (rboles de similitud)
S Diagramas de dispersin

S El clustering jerrquico tiene dos fases


S Clculo de distancias entre genes o condiciones (eucldea, pearson, etc.)
S Construccin del rbol a partir de las distancias (aglomerativo o divisivo)
Clustering jerrquico

S Clculo de distancias S Sean dos puntos n-dimensionales


S Hay varias, las ms usadas son x = (x1,, xn) e y = (y1, , yn)
S Distancia Eucldea
n
S Coeficiente de correlacin 2
de Pearson deuclidea = " i i
(x ! y )
S Otras distancias son i=1
S Manhattan
S Canberra
cov(x, y)
rpearson =
S Binaria ! x! y
S Minkowski
n
S Informacin mutua
dmanhattan = " ( xi ! yi )
i=1
Coeficiente de correlacin
de Pearson

S Si dos variables X e Y varan juntas, se dice que correlacionan

S El coeficiente de correlacin de Pearson (r) vara entre -1


(perfecta correlacin negativa) a 1 (perfecta correlacin
positiva), pasando por 0 (no correlacin o independientes)

S Para dos series de valores X={X1, , Xn} e Y={Y1, , Yn}, con


medias X e Y y desviaciones tpicas x, y:
N

&"#( X ! X ) (Y ! Y )$%
i i
i=1
r=
(N !1)! x! y
Clustering jerrquico

S Construccin del rbol


S Tcnica aglomerativa: se
considera cada elemento por
separado y se van uniendo los
que tienen distancias ms
pequeas
S Tcnica divisiva: tcnica inversa,
se considera todo el conjunto de
elementos y se van separando los
que tienen distancias ms grandes
Clustering jerrquico

S Aunque muy similares, el clustering aglomerativo suele dar ms precisin en la


raz del rbol y el divisivo en las hojas

aglomerativo divisivo
Clustering jerrquico

S Linkage: modo de definir la distancia


entre dos clusters
S Single: dada por los elementos ms
cercanos
S Problema: fenmeno de la cadena
S Complete: dada por los ms lejanos
S Centroid: dada por el centroide del cluster
Clustering jerrquico

Distancia Eucldea Distancia Canberra


Enlace completo Enlace completo
Clustering jerrquico

Distancia Eucldea Distancia Eucldea


Enlace completo Enlace simple
Clustering jerrquico

S A partir del rbol, debemos


determinar qu grupos hay
en nuestros datos
S Necesidad de establecer
un umbral
S No es trivial decidir cul
es el mejor corte
S Uso de ndices para
determinar
S La cohesin interna
de los clusters
S La separacin entre
clusters
S Eisen et al. 1998
S Levadura bajo estrs en distintos
momentos
S Se identifican grupos de genes con
patrones similares de activacin (A-E)
S A travs de un clustering jerrquico
Clustering de k-medias

S Generacin de clusters si sabemos exactamente el nmero de


grupos (k) en que estn divididos nuestros datos
S Por ejemplo, si tenemos muestras de dos tipos de enfermedades y
de control, tendremos k=3

S No se genera una jerarqua, simplemente los k clusters

S Es un mtodo iterativo
S Se asigna aleatoriamente cada elemento a un grupo
S En cada iteracin, se reasignan los grupos intentando minimizar
la distancia media entre elementos de un grupo
Clustering jerrquico

S Software
S Hierarchical Clustering Explorer (HCE)
S http://www.cs.umd.edu/hcil/hce/ (slo para Windows)
S TreeView
S http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

S Mtodos y paquetes R
S Mtodo hclust para clustering jerrquico aglomerativo
S Biblioteca cluster y mtodo diana para clustering jerrquico divisivo
S Mtodo kmeans para clustering de k-medias
S Biblioteca pvclust para significatividad estadstica
Biclustering

S En clustering, buscamos grupos de genes con similar expresin bajo


todas las condiciones del experimento (anlogo para condiciones)

S En biclustering, se buscan grupos solapables de genes con similar


expresin bajo algunas condiciones
S La activacin de un gen puede deberse a varias funciones
S Los genes colaboran bajo unas condiciones pero no bajo otras

S Tcnica nueva y todava no demasiado implantada


S Mejora los resultados de clustering en precisin y puntera
S An no existen benchmarks y es difcil determinar su calidad
biclustering
clustering
Biclustering
PCA

S Anlisis de Componentes Principales


S Reduce la dimensionalidad del problema de n a 2 3
dimensiones
S A cada gen/condicin se le asigna un punto en una representacin
bi/tri-dimensional.
S Para ello, se extraen los componentes principales de los
puntos n-dimensionales
S Las caractersticas ms relevantes de su expresin gnica
S Generalmente las 2-3 primeras componentes caracterizan la
mayora del comportamiento
PCA

http://www.embl.de/aboutus/communication_outreach/media_relations/2010/100408_Hinxton/press08apr10.pdf
Brazma et al. A human map of gene expression (2010).
Las 2 primeras componentes para la expresin gnica Representacin de tres componentes (asociadas a
de 8 genes en pacientes de control (Cx) y pacientes neurologa, hematopoiesis y malignidad) para 5372
con sndrome de Down (DSx) muestras de tejido humano. Se identifican 6 grupos
Anlisis de datos de
microarray
Introduccin
Preprocesamiento
Anlisis
Validacin
Anotacin biolgica
Validacin estructural
Validacin biolgica

S
Anotacin biolgica

S Contamos con mucha ms informacin de


nuestro experimento que los niveles de
transcripcin
S Condiciones
S Factores experimentales (edad, sexo,
estado, tiempo, localizacin) y sus
valores (31 aos, mujer, cncer, 3
meses, pecho)
S Genes
S Funciones conocidas (anotaciones)
S Relaciones conocidas (redes)

S Veremos cmo utilizar esta informacin para


realizar y validar anlisis de expresin
Anotacin funcional

S Gene Ontology (GO)


S Vocabulario controlado de informacin acerca de los genes
S Funcin molecular (MF)
S Qu hace su producto a nivel molecular: catlisis, enlazado del DNA
S Proceso biolgico (BP)
S Qu hace su producto a nivel biolgico: respuesta a estrs, biosntesis de grasas
S Componente celular (CC)
S Dnde se localiza su producto: mitocondria, pared celular

S Podemos utilizar esta anotacin (trminos GO) para


S Evaluar la coherencia biolgica de los grupos encontrados (p.ej. todos los
genes del grupo se relacionan con la respuesta a estrs)
S Guiar la bsqueda de grupos
Anotacin relacional

S Muchos repositorios mantienen informacin sobre relaciones


entre genes a varios niveles, en forma de redes
S Topolgico:
S Interacciones a nivel fsico o de co-locacin.
S Tpicamente a nivel de protenas (protein-protein interaction PPI)
S Cualitativo:
S Existencia de una relacin causal de algn tipo
S P.ej. regulacin (activacin o inhibicin) o colaboracin en una red
metablica (KEGG pathways)
S Cuantitativo:
S Correlacin entre valores, por ejemplo, de expresin
S Correlacin NO implica por s sola una relacin causal
Anotacin relacional

R Santamaria et al. (2011) Systems biology of infectious diseases: a


focus on fungal infections Immunobiology 216: 11. 1212-1227 11
Anotacin biolgica

tool for bicluster visualization Bioinformatics 24: 9. 1212-1213 05


R. Santamara, R. Thern, L. Quintales (2008) BicOverlapper : A
Los niveles de expresin
nos permiten extraer
correlaciones

Los genes correlacionados


pueden tener relaciones
funcionales

Red de correlacin (izquierda) determinada a partir de niveles de expresin (derecha, arriba).


Un grupo de 15 genes bien relacionados en la red (en azul) muestran una clara relacin funcional
de traduccin (14 de ellos anotados con translation, 9 con regulation of translation)
Anotacin biolgica

S Ventaja
S Dota a nuestros resultados de un valor biolgico aadido

S Desventaja
S Si se usa para guiar el anlisis, puede desviar los resultados
hacia el conocimiento biolgico ya conocido

S Si un grupo no tiene sentido biolgico segn lo conocido


S Es resultado de un mal anlisis
S o hemos encontrado informacin nueva?
Validacin basada
en anotaciones

S Determinar el grado de significatividad estadstica de alguna


anotacin biolgica en un grupo encontrado
S Si el grupo hace significativa dicha anotacin, se dice que el grupo
enriquece la anotacin.

S Bsicamente, se trata de ejecutar un test estadstico


S Sea S una anotacin biolgica, con ne genes anotados con S en
nuestro experimento, y ng genes anotados con S en nuestro grupo
S Tratamos de determinar si ng es un nmero significativamente alto
de anotaciones respecto a ne, o si seguramente se debe al azar
Anlisis basado
en anotaciones

S Gene Set Enrichment Analysis (GSEA)


1. Se escogen dos conjuntos de muestras A y B, y se calcula su expresin
diferencial para todos los genes
S Se ordenan los genes segn su nivel de expresin diferencial
2. Se escoge una anotacin funcional S
S P.ej. genes anotados con el trmino GO respuesta a estrs
3. Se calcula el valor de enriquecimiento ES de la anotacin S entre los
genes ordenados
S Se suma un valor por cada gen anotado y se resta otro por cada uno no anotado
S Se toma como ES el valor mximo de dicha funcin
4. Se repiten los pasos 2 y 3 para muchas anotaciones distintas Si, calculando
sus ESi, y se lleva a cabo un test estadstico para determinar la
significatividad estadstica de cada ESi
5. Se reportan las Si con p-valor menor que el nivel de significatividad fijado
GSEA

2)
1)

3)

Subramanian et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. 2005
Anlisis de datos de
microarray
Introduccin
Preprocesamiento
Anlisis
Validacin
Otras tecnologas
Tiling arrays y RNA-seq
ChIP-on-chip

S
Otras tecnologas

S Con un microarray medimos el nivel de expresin de unas


determinadas secuencias de DNA

S Existen tecnologas derivadas de un modo u otro de este concepto


S Incremento de la densidad de las sondas en el array tiling
S Tcnicas de captura de secuencias de ADN ChIP-on-chip

S Adems, como veremos en el tema siguiente, las nuevas tcnicas


de secuenciacin pueden aplicarse a la medicin de niveles de
transcripcin
S RNA-Seq, ChIP-Seq
Tiling arrays

S tile 1 /tal/ sustantivo


S (for floor) baldosa f, losa f;
S (for wall) azulejo m

S Llevan la hibridacin al mximo de las capacidades tcnicas


S Usamos como sondas un conjunto de secuencias cortas de
nucletidos (~25 bases) solapadas (~5 bases)
S No slo secuencian el transcriptoma, si no el genoma completo a
una resolucin muy alta

S Tcnica intermedia que no se ha explotado demasiado debido a la


aparicin de la secuenciacin de alto rendimiento
ChIP-on-chip

S Chromatin ImmunoPrecipitation (ChIP)


S Tcnica experimental para investigar la interaccin entre el
ADN y protenas que se asocian con regiones del ADN
S Son tpicamente factores de transcripcin que se unen a regiones
promotoras o sitios de enlace (DNA binding sites)
S La tcnica se puede combinar con otras
S ChIP-on-chip: combinacin de ChIP y microarrays
S ChIP-seq: combinacin de ChIP y secuenciacin
ChIP

1. Se mezclan las protenas de inters (POI, en azul) con el ADN para


que se acoplen a su sitio de enlace (rojo)

2. Se rompe la cadena de ADN, separando as la cromatina


(combinacin de protena y ADN)

3. Se disea un anticuerpo que ligue la protena en cuestin y recoja


slo los fragmentos de cromatina (immunoprecipitacin)

4. Estos fragmentos se amplifican mediante PCR para su medida,


secuenciacin, etc.
ChIP-on-chip

S Las secuencias extradas mediante ChIP pueden lanzarse sobre un microarray para
medir el nivel de enlace de la POI a las distintas sondas
Preguntas a debate

S Se te ocurre una situacin en que un ratio de expresin sea


significativo estadsticamente, pero probablemente irrelevante
biolgicamente?

S Consideraras el mismo umbral de p-valor en un anlisis de


expresin de una levadura y en un anlisis de humano?
S Si aplicas una correccin conservadora, y el resultado es que ningn gen
cambia significativamente, es esto un resultado posible biolgicamente?

S Qu opinas del uso de anotaciones funcionales para guiar y validar el


anlisis de expresin? Es til? Es correcto?
S Qu otros modos hay de determinar la bondad de un grupo o de un
conjunto de genes expresados diferencialmente? Se pueden aplicar los
conceptos de precisin y puntera?
Resumen

S La tecnologa de microarrays mide el nivel de S Hay que tener en cuenta que la expresin depende
expresin (transcripcin), resultando en una en gran medida del tipo de tejido y del momento
matriz de expresin de genes (filas) bajo distintas celular, y que el nivel de transcripcin no es
condiciones (columnas) directamente el nivel de expresin

S El anlisis de expresin gnica tiene como S Muchos anlisis caen en errores a la hora de
objetivo determinar qu genes se encuentran identificar grupos, siendo los ms corrientes 1) no
diferencialmente expresados entre dos hacer correcciones para contrastes de mltiples
condiciones (estadstica inferencial), y qu grupos hiptesis, 2) no hacer una normalizacin
de genes/condiciones tienen un patrn de adecuada, ni chequeos de la calidad de los arrays,
expresin similar (estadstica descriptiva) 3) exceso de libertad paramtrica en el anlisis de
los datos y 4) exceso de limitaciones biolgicas en
el anlisis de los datos
S Existen una gran cantidad de mtodos de anlisis.
Casi todos devuelven una salida. Lo difcil es
confirmar que esa salida es vlida desde un punto S Las correlaciones entre genes a nivel de expresin
de vista biolgico y estructural que queramos concluir como causales deben
acompaarse de experimentos de laboratorio que
aseguren que la relacin a nivel transcriptmico se
mantiene a niveles superiores (qRT-PCR, chIP-
on-chip, etc.)
Lecturas adicionales

S Pevsner, 2009: Ch 9 Gene Expression: Microarray Data Analysis

S Eisen et al. Cluster analysis and display of genome-wide expression


patterns. PNAS 95(25): 14863-14868. 1998

S Ashburner et al. Gene Ontology: tool for the unification of biology. Nat
Genet 25(1): 25-29. 2000. PMCID: PMC3037419

S Subramanian et al. Gene set enrichment analysis: a knowledge-based


approach for interpreting genome-wide expression profiles. PNAS 102
(43): 15545-15550. 2005
BicOverlapper es una herramienta desarrollada en la Universidad de Salamanca para la integracin y anlisis de datos de
expresin gnica, desde redes de correlacin y ontologa GO hasta expresin diferencial, GSEA y biclustering

http://carpex.usal.es/~visusal/bicoverlapper/

You might also like