You are on page 1of 66

Medida de la Expresin de Genes mediante Microarreglos (Microarrays)

Jos Luis Vicente Villardn Departamento de Estadstica

Introduccin
Los experimentos con microarreglos (microarrys) forman parte de lo que se ha dado en llamar Bioinformtica. En sta se integran mtodos matemticos, estadsticos y de ciencias de la computacin, para analizar datos que provienen de la biologa molecular. La tecnologa de los microarreglos tiene una importancia creciente, en especial debido al avance de los resultados de la genmica estructural (el mapa genmico humano fue completado en 2003 con el secuenciamiento de los pares de bases que constituyen el ADN cromosmico). Es parte de la genmica funcional en la que se desarrollan modelos para explicar el funcionamiento de las diferentes secuencias genmicas. El nmero de publicaciones cientficas relacionadas con el tema ha crecido exponencialmente en los ltimos aos.

El dogma central de la biologa molecular


http://www.phschool.com/science/biology_place/biocoach/transcription/overview.html

El dogma central de la biologa molecular se describe mediante un proceso en dos pasos, transcripcin y translacin, por los que la informacin contenida en los genes se transforma en proteinas: DNA RNA proteina.

Transcripcin es la sntesis de una copia de RNA a partir de un segmento de DNA. El RNA se sintetiza mediante la enzima RNA polimerasa. Translacin es la sntesis de un polipptido especificado por un mRNA

Transcripcin y Traslacin en Clulas


En una clula procariota la transcripcin y la traslacin estn emparejadas; esto es, el proceso de traslacin comienza cuando el mRNA est siendo an sintetizado. En una clula eucariota, la transcripcin se realiza en el ncleo mientras que la traslacin se realiza en el citoplasma. Debido a que no hay ncleo para separar los procesos de transcripcin y traslacin, cuando se transcriben los genes de las bacterias, sus transcripciones pueden trasladarse inmediatamente.

En las clulas eucariotas ambos procesos estn espacial y temporalmente separados; la transcripcin se lleva acabo en el ncleo produciendo una molcula de pre-mRNA. La molcula de pre-mRNA se procesa para producir el mRNA maduro, que sale del ncleo y es trasladado en el citoplasma.

Diferentes genes para diferentes RNAs


Hay 4 tipos de RNA. El DNA genmico contiene toda la informacin de la estructura y funcionamiento de un organismo. En cada clula, solamente algunos de los genes se expresan, es decir se transcriben en RNA.

Hay 4 tipos de RNA, cada uno codificado por un tipo de gen: mRNA - RNA mensajero: Codifica la secuencia de aminocidos de un polipptido. tRNA - RNA transferente: Lleva los aminocidos a los ribosomas durante la traslacin. rRNA - RNA ribosmico: Con proteinas ribosmicas, constituye los ribosomas, encargados de la traslacin de mRNA. snRNA - RNA pequeo nuclear: Est implicado en el proceso de maduracin del RNA en las clulas eucariotas.

Estructura bsica de un gen codificador de protenas


Un gen codificador de protenas consiste en un promotor, seguido de la secuencia de codificacin de la protena y de un terminador.

El promotor es una secuencia de pares de bases que especifica dnde debe comenzar la transcripcin. El terminador es una secuencia que especifica el final de la transcripcin en mRNA.

La Molcula de RNA
El RNA es estructuralmente similar al DNA.

Los nucletidos de DNA y RNA tienen estructuras similares

El proceso de Transcripcin
La sntesis de RNA implica la separacin de las cadenas de DNA y la sntesis de una molcula de RNA, mediante la enzima RNA polimerasa, utilizando las cadenas de DNA como patrn.

La RNA polimerasa cataliza una reaccin qumica que resulta en la sntesis de RNA a partir de la cadena patrn de DNA.

En los pares complementarios, A, T, G, y C en la cadena patrn de DNA se convierten en U, A, C, y G, respectivamente, en la cadena de RNA que est siendo sintetizada.

Transcripcin completa de una molcula de RNA


La transcripcin comienza en el promotor, por toda la regin de codificacin, y se acaba en el terminador.

mRNA en Clulas Procariotas


La secuencia de un gen codificador de protenas en una clula procariota es colinear con el mRNA trasladado; esto es, la transcripcin del gen es la molcula que se traslada en un polipptido.

mRNA en Clulas Eucariotas


La secuencia de un gen codificador de protenas en una clula eucariota no es normalmente colineal con el mRNA trasladado; esto es, la transcripcin de un gen es una molcula que debe ser procesada para eliminar las secuencias extra (intrones) antes de trasladarlo en un polipptido.

Procesado del pre-mRNA (Splicing)

La mayor parte de los genes codificadores de protenas en las clulas eucariotas contienen segmentos denominados intrones, que dividen la secuencia codificadora de aminocidos en segmentos denominados exones. La transcripcin de estos genes es pre-mRNA (mRNA precursor). El pre-mRNA es procesado en el ncleo para eliminar los intrones y unir los exones en una cadena de mRNA trasladable. Este mRNA sale del ncleo y se traslada en el citoplasma.

Medida de la presencia y/o expresin de genes (Microarrays)


Medida de la expresin de genes (mRNA microarrays)
Plataformas de un color Plataforma de dos colores

Medida de la presencia de DNA (DNA microarrays) Medida de la expresin de protenas

Medida de la expresin de genes (mRNA microarrays)- Introduccin


El proyecto Genoma Humano ha documentado nuestra secuencia gentica y ha descubierto que es idntica en un 99.9% en todos los seres humanos. Sin embargo, incluso pequeas diferencias en la secuencia de DNA pueden tener un efecto importante sobre la salud y la enfermedad. El mismo gen puede trabajar correctamente en una persona, pero una mutacin puede causar que no trabaje correctamente en otra. Aunque todas las clulas poseen el cdigo gentico completo, no todos los genes producen protenas (se expresan) en todas las clulas. Esto es lo que determina la diferencia en las funciones especficas de cada clula el los distintas partes del cuerpo.

Medida de la expresin de genes (mRNA microarrays) - Introduccin


Con respecto a la enfermedad, la diferencia del 0.1% ciertamente contribuye, pero las influencias ambientales juegan un papel igualmente importante en determinar cuales de nuestros genes se expresan de manera diferente. Por ejemplo, la exposicin al humo del tabaco o los rayos X puede cambiar la forma en que se expresan los genes, resultando en la aparicin de enfermedades como el cncer. Aunque todas las clulas del cuerpo tienen la misma secuencia, cada clula no est afectada de la misma manera. Esto puede producir enfermedades ms especficas como cnceres de pulmn, colon, piel, etc. Los investigadores estudian la expresin de genes midiendo la cantidad de copias de mRNA que produce un gen. El microarray de expresin de genes es una herramienta que nos dice la cantidad de RNA que cada gen est fabricando, si es que lo est fabricando. Comparando la expresin del gen con la de una persona sana, el microarray ayuda a los cientficos a encontrar que genes estn fabricando demasiado o demasiado poco RNA en la persona enferma, ayudndoles a asociar un gen o grupo de genes con una enfermedad as como a a desarrollar drogas para tratar la enfermedad y pruebas diagnsticas para detectar o clasificar la enfermedad.

Medida de la expresin de genes (mRNA microarrays) - Introduccin


La expresin de genes ha sido utilizados para estudiar casi todos los tipos de enfermedad en la esperanza de encontrar una base molecular que permita el tratamiento. La revolucin proporcionada por los microarrys es que permiten al investigador comenzar sin ninguna hiptesis previa. Los microarrays permiten a los investigadores medir la expresin de cada gen del genoma humano, incluso aquellos con funciones desconocidas. Estudiando los patrones de expresin de genes de, por ejemplo, 100 personas sanas y 100 enfermas los cientficos pueden pueden investigar rpidamente las diferencias en los patrones. Si observan un patrn de genes expresado (o no expresado) en los pacientes con la enfermedad, ah es dnde deben comenzar su bsqueda. El proceso de expresin de genes en RNA es conocido desde 1963. Hasta 1977 no se desarroll un procedimiento prctico de medida, que slo permita un gen. En 1989 se desarrollan, basados en la tecnologa de construccin de microchips, que permiten fijar millones de cadenas de DNA sobre una placa (los microarrays).

Medida de la expresin de genes (mRNA microarrays) - Hibridacin


Como ya vimos, cuando una cadena de DNA (ATCATG) se corresponde con una cadena de RNA (UAGUAC), la dos cadenas son complementarias y pueden pegarse la una a la otra. Sin embargo, si las bases no son complementarias, no pueden unirse. Con una sola base que no sea complementaria, ambas cadenas no se unen

Los microarrays usa esta propiedad de atraccin de los pares de bases conocida como hibridacin- para ayudar a los investigadores a identificar que secuencias de RNA estn presentes en una muestra y cual es la medida de la expresin de los mismos.

mRNA microarrays - Probes


El primer paso consiste en fijar una cadena corta de DNA en la superficie de cristal del microarray. Estas cadenas son denominadas sondas (o probes en ingls). La cadena est formada por slo 25 bases de las 100 que podra tener el gen. Las cadenas se comprueban para asegurarse de que no est presente en ningn otro gen, de esta manera, cuando una molcula de RNA se une al probe los cientficos saben que el gen se ha expresado. Es como identidicar una cancin con slo unos compases.

Para asegurarse de que se est midiendo el gen correcto, los chips de Affimetrix toman 11 cadenas cortas pertenecientes al mismo gen.

mRNA microarrays - Pareja de probes


Los probes buscan un alineamiento perfecto con el RNA que se trata de detectar. Por cada uno de los probes para alineamiento perfecto, se coloca un probe modificado (mismatch) en el que la base central se modifica para que no haya un alineamiento perfecto con el gen objetivo. Esto se hace as porque, aunque en teora solo se adhieren al probe las secuencias complementarias, en la prctica se producen errores de adherencia no especficos. Se aade el probe modificado para saber si estos errores se producen.

Si el RNA se adhiere al probe modificado, es posible que la medida no sea fiable. Si solo se adhiere al probe objetivo podemos decir que el gen se est expresando realmente. Sin este procedimiento es difcil saber si se est alineando el RNA correcto o una secuencia ligeramente diferente.

mRNA microarrays - Probes por gen


En total hay 22 probes diferentes, o puntos de datos, usados para asegurarse de que el microarray est detectando la cadena correcta de RNA. Midiendo dicho RNA con 11 pares de probes podemos estar absolutamente seguros de que el gen que pensamos es el que se expresa realmente.

Si

mRNA microarrays - Features y probes


La superficie de un microarray es como un tablero de ajedrez gigante que ha sido comprimido al tamao de un solo cuadro. Cada uno de los cuadrados del tablero contiene un nico tipo de probe. Cada probe se construye molcula a molcula, usando el mismo tipo de tecnologa que la que se utiliza para construir semiconductores de ordenador. Las molculas se van construyendo base a base aadiendo una encima de la otra. El microarray ms reciente de Affimetrix para el genoma humano tiene 1.3 millones de cuadrados denominados features. Representa aproximadamente 47000 RNAs diferentes, prcticamente todos los que pueden expresarse y producir protenas. Cada feature sobre el arreglo tiene un lado de 11 micrones, la quinta parte de un cabello humano.

A efectos de simplicidad hemos representado aqu solo un cuadrado y hemos reducido la longitud del probe a 6 bases, ATCATG.

mRNA microarrays - Extraccin y preparacin del RNA


Una vez que hemos diseado un probe para medir la expresin de RNA, tenemos que extraer el RNA de una muestra de sangre o saliva, por ejemplo. Los investigadores extraen RNA de la muestra y hacen miles de copias en un proceso en varios pasos. Copiar el RNA permite que sea ms facilmente detectable sobre el array. Al mismo tiempo que se copia el RNA, se adjuntan a cada cadena molculas de biotina (copa naranja en el dibujo). Estas molculas de biotina actan como un pegamento molecular para molculas fluorescentes que posteriormente se lavarn sobre el array. Cuando los investigadores pasen un scanner lser sobre el array, las molculas fluorescentes brillarn, mostrando donde se han fijado las muestras de RNA sobre los probes de DNA del array. Usando otro proceso qumico, se fragmentan las cadenas de RNA en millones de piezas ms cortas que todava tienen las molculas de biotina adheridas.

mRNA microarrays - Lavado de la muestra sobre el array


Las muestras preparadas del RNA se lavan sobre el array por un periodo de 14 a 16 horas. El nmero de molculas implicado en el proceso es enorme. Hay millones de copias de cada probe de DNA (ATCATG) en cada cuadrado del chip, y miles de millones de molculas de RNA de cada gen que se expresa en la muestra.

Una parte de las molculas de RNA encontrarn su complemento. Si la secuencia de bases del RNA encaja en la del probe de DNA, habr un alineamiento perfecto y la muestra se pegar al probe.

mRNA microarrays - Marcando el RNA


Supongamos que tenemos alineamientos y que el RNA de la muestra se ha unido a los probes colocados en el array. Entonces aclaramos el array para eliminar el RNA que no se ha alineado. Recordemos que el RNA haba sido marcado con biotina.

Como no podemos ver el RNA, no podemos saber cuanto se ha pegado en cada probe. Slo una cadena, o quizs 1000000. Para poderlo ver haremos que brille en la oscuridad usando un tinte fluorescente que se pegue a la biotina.

mRNA microarrays - Un gen expresado


La molculas fluorescentes se pegarn solamente en aquellos puntos donde se produjo un alineamiento de RNA. Tras aclarar el tinte se pasa una luz lser sobre el array, haciendo que el tinte fluorescente brille. Si el gen est altamente expresado, muchas molculas de RNA se pegarn al probe, y su posicin brillar intensamente al pasar el lser. Si en gen se expresa en un nivel inferior, se pegar menos RNA al probe, y por comparacin, el punto ser mucho menos brillante cuando se pase el lser.

mRNA microarrays - Un gen no expresado


Si la muestra de RNA no se complementa, ser rechazada por el probe del array.

Sabemos que el gen no se ha expresado porque el punto correspondiente no brilla.

mRNA microarrays - Expresin simultnea de todos los genes


El chip puede medir la expresin de cientos de genes. Veamos solo unos pocos (4). En el ejemplo los genes 1, 2 y 3 se expresan porque el RNA fluorescente se ha unido a los probes.

Como los genomas humanos son casi idnticos, todo el mundo tiene estos tres genes, aunque no se expresan de la misma manera en todos los humanos. De esta forma, aunque no conozcamos su funcionamiento, es posible determinar que genes se expresan diferente en personas enfermas y sanas. El paso siguiente es investigar como afectan las protenas que producen en el desarrollo de la enfermedad.

mRNA microarrays - Comparacin de la expresin


El objetivo es, entonces, comparar la expresin de los genes en dos muestras (enfermos y sanos, por ejemplo). Para presentar esto se utilizan mapas de color, normalmente los genes con expresiones altas se codifican en colores rojos y los genes con expresiones bajas en azul. Los genes que tienen el mismo color en todos los pacientes enfermos son los que se expresan diferente en ellos. Los genes no relacionados con la enfermedad no muestran patrones de color claros.

mRNA microarrays - La imagen real de un microarray


En la realidad, los arrays de expresin de genes humanos tienen 1.3 millones de probes diferentes usados para detectar casi 50000 secuencias diferentes de RNA. El resultado final es una imagen como la que aparece a la izquierda. La fluorescencia de cada uno de los cuadrados le dice al investigador si el gen se ha expresado o no. Algunos de los probes miden altas concentraciones (altas intensidades, cuadrados rojos y blancos) y otros no (bajas intensidades, cuadros azules y negros.

mRNA microarrays - La imagen real de un microarray

mRNA microarrays - El equipo

DNA microarrays - El problema


El mismo gen puede trabajar correctamente en una persona, pero una pequea mutacin puede hacer que no trabaje en absoluto en otra. Para encontrar las mutaciones que pueden causar una enfermedad los investigadores usan microarray para genotipar el DNA de los pacientes y determinar la secuencia exacta A, T, C, or G para miles de polimorfismos de un solo nucletido (SNPs) distribuidos a travs del genoma. Supongamos que queremos encontrar un tratamiento para una determinada enfermedad, primero tendremos que encontrar la causa, una mutacin o una disfuncin en uno o varios genes, pero no tenemos investigaciones previas, y no tenemos ninguna idea de que genes presentan la mutacin o disfuncin que causa la enfermedad. La mutacin que buscamos puede estar en cualquiera de los 3.1 billones de pares de bases en el genoma humano. Dnde comenzamos?. Antes de la aparicin de los microarrays los investigadores buscaban una conexin con enfermedades similares suficientemente documentadas. Ahora es posible mirar directamente al DNA para explorar todo el genoma y buscar similitudes entre las personas que padecen la enfermedad. Es posible buscar entre 10000 o 100000 SNPs para determinar que gen o grupo de genes que contribuyen a la enfermedad. Por ejemplo, si un grupo de 500 enfermos comparten media docena de SNPs que no tiene un grupo de 500 sanos, los investigadores comenzarn a buscar, por mutaciones tras la enfermedad, entre estos SNPs. Los SNPs no dan la mutacin exacta, pero indican en que parte del genoma buscar la mutacin. Esta forma de proceder es posible solamente con microarrys de alta densidad.

DNA microarrays - Funcionamiento.


El procedimiento bsico es el mismo que en los chips de expresin, es decir, se basan en los procesos de hibridacin. La diferencia bsica es que utilizan DNA en lugar de mRNA ya que aquel est presente en todas las clulas. El trabajo de secuenciacin del genoma humano nos dice la secuencia existente alrededor de cada uno de los SNPs que queremos buscar. Los microarrys usan esa informacin para determinar los SNPs presentes en el genotipo.

Como vemos, el SNP est en el centro de la cadena. Por el procedimiento habitual sabremos cual de los dos genotipos est presente en el paciente. En este caso se utilizan 40 probes para determinar cada SNP.

DNA microarrays - La muestra.


Extraemos ahora una muestra de DNA del paciente, al contrario que en caso anterior en el que no todos los genes se expresan en cada clula, ahora el DNA est presente en todas por lo que la muestra puede ser de cualquier parte (saliva, sangre, etc.)

Antes de continuar es necesario hacer miles de copias del DNA. El resto del proceso es similar al ya descrito.

cDNA microarrays - Dos colores


El procedimiento bsico es similar con la diferencia de que las cadenas de DNA utilizadas son ms largas y que en el mismo array se comparan muestras de tejido enfermo y sano procedentes del mismo tejido y del mismo paciente.

cDNA microarrays - Cdigo de colores


Los puntos del array son circulares en lugar de cuadrculas. Si se utilizo el color verde para los sanos y el rojo para los enfermos, los puntos que aparecen en rojo correspondern a los genes que se expresan con mayor intensidad en los enfermos, los puntos verdes a los que se expresan con mayor intensidad en sanos y los amarillos a los que se expresan de forma similar en ambos. Como medida final se suele utilizar el cociente entre las expresiones en ambos canales o su logaritmo.

cDNA microarrays - La imagen

cDNA microarrays - La imagen real

Microarrays Procesamiento de la imagen


Bsqueda de los puntos (spots) Segmentacin Cuantificacin Calidad de la medida

Bsqueda de los puntos


Como conocemos de antemano cuantos puntos hay, el patrn con el que se imprimieron y su tamao, en principio un programa de ordenador simple podra procesar la imagen superponiendo una matriz de crculos (rectngulos) con las dimensiones y el espaciado dado en la imagen. Los pixels contenidos en los crculos seran la seal y los que estn fuera, el fondo. En el mundo real la localizacin exacta puede variar en distintos chips incluso aunque las cuadrculas fueran perfectas, que no lo son. En la prctica hay diversas imperfecciones debidas a los procesos mecnicos de construccin del chip, a la lectura de la imagen y a la necesidad de imprimirla en un dispositivo de baja resolucin.

Manual Semiautomtica Automtica

Segmentacin
Segmentacin es el proceso de partir una imagen en un conjunto de regiones no solapadas cuya unin es la imagen completa. El propsito de la segmentacin es descomponer la imagen de forma que los puntos con informacin queden separados del fondo.

Espacial Basada en la intensidad Mann-Whitney Combinada (espacial-Intensidad)

Cuantificacin
El propsito es combinar los valores de la intensidad en una nica medida cuantitativa que pueda usarse para representar el nivel de expresin del gen depositado en la cuadrcula. Normalmente se cuantifica utilizando el total, la media, la mediana o la moda de las intensidades de todos los pixels. En condiciones ideales la intensidad total debera ser proporcional a la magnitud de la expresin.
La concentracin de cDNA (mRNA) se hace correctamente de forma que su concentracin es proporcional a la del tejido. La hibridacin se hace adecuadamente de forma que la concentracin que se adhiere a las cuadrculas es proporcional a la que hay en el tejido. La cantidad de DNA depositada en cada cuadrcula, en el proceso de fabricacin, es constante. No hay contaminacin. Los pixels se leen correctamente en el procesamiento de la imagen.

En general supondremos que las dos primeras condiciones se cumplen, esto se consigue diseando correctamente el experimento. En la mayor parte de los casos las dos ltimas condiciones no se verifican.

Medidas de la intensidad
Intensidad total:
Sensible a la cantidad de DNA depositada, la contaminacin y las anomalas en la lectura de la imagen.

Media:
Utilizar la media reduce el problema de la cantidad de DNA al no depender del tamao. Buena sin contaminacin o con la contaminacin separada. Muy sensible a los outliers.

Mediana:
Resistente a los outliers (Reduce problemas de contaminacin y procesamiento). Muy til cuando el software no distingue bien entre seal, fondo y contaminacin. Una alternativa es la media truncada (Media eliminando los valores extremos en ambas colas)

Moda
Resistente a los outliers. Muy sesgada en distribuciones multimodales.

Volumen: Suma de la intensidad de la seal por encima del fondo.


(media de la seal - media del fondo) x area de la seal. Supone que la seal tiene una componente aditiva debida al alineamiento no especfico igual a la del fondo.

Cociente (dos canales): Cociente entre la media mediana o moda de los dos canales.
No sensible a la cantidad exacta de DNA depositada al ser un cociente.

Medidas de la calidad del punto


Razn entre el rea de la seal y el rea del punto.
El rea del punto es el rea de la seal ms el rea contaminada colindante. Informacin sobre el rea ignorada. Menor razn implica mayor rea ignorada y menor calidad. Medida de la contaminacin local.

Regularidad de las formas


Razn del nmero de pixels eliminados entre el rea del crculo.

Razn entre el rea del punto y el permetro.


Mxima para los puntos perfectamente circulares.

Desplazamiento
Distancia desde el centro esperado hasta su localizacin real.

Uniformidad del punto


1-(varianza/media) Un punto perfecto tendra una varianza 0 y uniformidad 1. Varianzas grandes en la intensidad producen ndices de calidad pequeos. Se divide por la media porque los puntos con mayor intensidad tienen mayor variabilidad.

Procesamiento de los microarrays de Affimetrix - Introduccin


- Como ya vimos, este tipo de microarrys utiliza secuencias ms cortas para
detectar los genes. Para compensar esto se utilizan varias de dichas secuencias. El primer problema es cmo combinar los resultados para obtener una nica medida.

- La segunda diferencia es que en stos no hay fondo, toda la superficie del


chip est cubierta por los probes y no puede usarse un valor de fondo como indicacin de nivel de intensidad cuando no hay hibridacin. En lugar de esto se utilizan secuencias en las que se ha cambiado una de las bases (mismatch, MM) junto con las que se desea medir (perfect match, PM). Los RNAs se consideran presentes si la mezcla de seales de los probes PM estn significativamente por encima del fondo despus de restarle las intensidades de la seal de los MM.

- Para cada gen tenemos entonces un conjunto de pares de probes PM/MM. - Un gen est presente si la mayor parte de valores de PM son mayores que
los MM el gen es considerado presente; si la mayor parte son menores ausente y si es el 50% aproximadamente marginal. La fiabilidad de la clasificacin se mide mediante un p-valor procedente de un test U de MannWhitney.

Procesamiento de los microarrays de Affimetrix - Medida cuantitativa


- El propsito final consiste en calcular una medida cuantitativa que sea
proporcional a la expresin del gen.

- Una medida comn es la media de las diferencias entre los valores PM y MM. - Pueden detectarse diferencias entre la clasificacin cualitativa y la
cuantificacin numrica en el sentido de que una llamada ausente puede tener valores mayores en la cuantificacin.

Microarrays - Preprocesamiento y Normalizacin


Pre-procesamiento: Paso inicial que permite extraer caracteristicas significativas de los datos, preparndolos para el anlisis posterior. Por ejemplo tomar logaritmos de los valores originales. Normalizacin: Un tipo particular de preprocesamiento para eliminar las diferencias sistemticas entre conjuntos de datos. Por ejemplo, modificar los valores para compensar las diferencias en las eficiencias de los dos canales en los experimentos con dos colores. Algunos de los mtodos sirven para todos los microarrays, otros son especficos de cada plataforma.

Microarrays - Tcnicas generales de preprocesamiento


Transformacin logaritmica.
Valores ms interpretables desde el punto de vista biolgico. Simetriza la distribucin de la expresin. La base del logaritmo es normalmente 2.

Combinacin de rplicas y eliminacin de outliers.


Promedio de diferentes spots en el mismo array o valores diferentes de diferentes arrays. Conlleva una prdida de informacin y debe hacerse con cuidado. Conviene guardar medidas adicionales al promedio: nmero de rplicas, variabilidad, .

Normalizacin por array : Para hacerlos comparables.


Dividir por la media del array (o la mediana, o la moda) Restar la media (con logaritmos) Utilizar puntos de control con valores similares en distintos arrays. Regresin lineal iterativa con los dos canales

Microarrays - Normalizacin en cDNA


Correccin con el fondo.
Local. Subgrid. Con grupos de puntos. Con puntos sin informacin. Puntos de control.

Otros preprocesados a nivel de punto.


Descartar los puntos no fiables

Normalizacin de color
Se basa en el hecho de que la mayor parte de los genes no cambian y por tanto hay una relacin lineal en los dos colores). Ajuste de curvas y correccin posterior. LOWESS/LOESS (LOcally WEighted polinomial regreSSion). Normalizacin a trozos (ajuste lineal a por trozoa).

Microarrays - Normalizacin Affimetrix


Correccin con el fondo.
No hay fondo propiamente dicho. Se corrige con la zonas adyacentes a cada cuadrcula.

Clculo de la seal.
Correccin con la hibridacin no especfica.

Deteccin calls
Clasificacin en categoras: Presente, ausente y marginal. Utiliza el test U de Mann-Whitney.

Valores relativos de la expresin

Microarrays - Anlisis Estadstico


- Estadstica Descriptiva. - Comparacin de medias. - Diseo de Experimentos (ANOVAS). -Correcciones para comparaciones mltiples. - Descomposicin en valores singulares : Componentes principales, correspondencias. - Mtodos de clasificacin: Anlisis Discriminante y variantes. - ANALISIS DE CLUSTER. - ANALISIS DE CLUSTER DE INDIVIDUOS Y GENES SIMULTANEAMENTE.

Clasificacin de cnceres
Aunque la clasificacin del cncer ha mejorado en los ltimos aos, no hay una forma general de identificar nuevos tipos de cncer (class discovery) o de asignar tumores a tipos ya conocidos (class prediction). Una metodologa prometedora es la utilizacin de microarrays de DNA (mRNA) para detectar los genes alterados, es decir con expresin diferencial en tipos distintos de cncer y en clulas sanas. Si bien sta no es la solucin completa del problema, al menos es una forma d empezar a buscar los genes diferenciados que permiten iniciar la investigacin en causas concretas, tratamiento basados en los genes y nuevos mtodos de diagnstico.

Leucemias ALL-AML
Clasifiacin de Leucemias Acute myeloid leukemia (AML) Acute lymphoblastic leukemia (ALL)

Gen U29656_at
Summary Official Symbol NME3 Official Full Name protein expressed in non-metastatic cells 3 Primary source 1 cgctcccgca ccgccatcat gatctgcctg gtgctgacca tcttcgctaa cctcttcccc 61 gcggcctgca ccggcgcaca cgaacgcacc ttcctggccg tgaagccgga cggcgtgcag HGNC:7851 121 cggcggctgg tgggcgagat tgtgcggcgc ttcgagagga agggcttcaa gttggtggcg See related 181 ctgaagctgg tgcagtcctc cgaggagctg ctgcgtgagc actacgccga gctgcgtgaa HPRD:03488; MIM:601817 241 cgcccgttct acggccgcct tgtcaagtat atggcctccg ggccggtggt ggccatggtt 301 tggcaggggc tggacgtggt gcgcacctcg cgggcgctca tcggagccac gaacccggcc Gene type 361 gacgccccgc ccggcaccat ccgcggggat ttctgcatcg aggttggcaa cctgattcac protein coding 421 ggcagcgact cggtggagag tgcccgccgc gagatcgctc tctggttccg cgcagacgag 481 ctcctctgct gggaggacag cgctgggcac tggctgtatg agtagcccgg cagatgcgcg Location : 16q13 541 tcacagaggc tctcacattc cagcctcctc cagggcccag gtgggcggct tctggcccca RefSeq status 601 ccccacagcg cttggagcat ccctttggac gggctgctga acatccacct gtctggacgt Validated 661 tgcatggagg gtggcgcagc ctctccaatc cctggcgtac agggtttcct gcccgaggac 721 ctgctccagg agcctgcgcg gctcgcctgg aaacgtgcca ggagcactgt cctggtgccc Organism 781 agcccaacgt ggtccaaggt ttttttataa ttaaagtcct cgttttcgtt aaaaaaaaaa Homo sapiens 841 aaaaaaaaa Lineage Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo Also known as DR-nm23; KIAA0516; c371H6.2

Descriptiva
ALL U29656_at Media Intervalo de confianza para la media al 95% Lmite inferior 382.53 Lmite superior Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis 501.18 428.85 425.00 40824.434 202.051 117 1114 997 273 1.058 1.753 .347 .681 603.67 833.85 710.93 759.00 77742.023 278.823 102 1531 1429 344 .482 2.272 .464 .902 Estadstico 441.85 Error tp. 29.472 AML Estadstico 718.76 Error tp. 55.765

Histograma
U29656_at Media Estadstico 441.85 Error tp. 29.472 Estadstico 718.76 Error tp. 55.765

Estimadores M (robustos)
Estimadores M leucemia ALL AML Estimador-M a de Huber 420.67 721.00 Biponderado b de Tukey 409.92 713.90 Estimador-M c de Hampel 419.28 712.43 Onda de d Andrews 409.90 714.14 U29656_at

a. La constante de ponderacin es 1.339. b. La constante de ponderacin es 4.685. c. Las constantes de ponderacin son 1.700, 3.400 y 8.500. d. La constante de ponderacin es 1.340*pi.
er e tiles Percentiles 50 425.00 759.00 425.00 759.00

Promedio ponderado(definicin 1) Bisagras de Tukey

U29656_at U29656_at

leucemia ALL AML ALL AML

5 162.00 174.90

10 217.80 370.80

25 293.00 536.50 298.50 561.00

75 566.00 880.50 557.00 853.00

90 701.60 989.80

95 874.60 1376.20

Normalidad-Homoscedastidad
r e a de omo e eidad de la aria tad ti o de Levene 2.081 1.897 1.897 2.113 l1 1 1 1 1 a l2 70 70 61.851 70 Si . .154 .173 .173 .150 29656_at a ndo e en la media a ndo e en la mediana. a ndo e en la mediana on l orre ido a ndo e en la media re ortada

r e as de ormalidad Kolmo orov-Smirnov tad ti o l Si . .110 47 .200 .104 25 .200


a

29656_at . te e

le emia LL L

Sha iro-Wilk tad ti o l .936 47 .951 25

Si . .012 .262

n lmite inferior de la i nifi a i n verdadera.

a. Corre i n de la i nifi a i n de Lillief r

Tallo y Hojas
U29656_at Stem-and-Leaf Plot for leucemia= ALL Frequency Stem & Leaf U29656_at Stem-and-Leaf Plot for leucemia= AML Frequency Stem & Leaf

3.00 1 . 149 9.00 2 . 023344559 9.00 3 . 013456777 12.00 4 . 012556666788 7.00 5 . 4467788 3.00 6 . 117 1.00 7. 9 2.00 8 . 58 1.00 Extremes (>=1114) Stem width: Each leaf: 100 1 case(s)

1.00 Extremes (=<102) 2.00 3 . 48 1.00 4. 1 5.00 5 . 11669 3.00 6 . 889 4.00 7 . 5899 3.00 8 . 135 4.00 9 . 0137 1.00 10 . 1 1.00 Extremes (>=1531) Stem width: Each leaf: 100 1 case(s)

Grficos de normalidad

Box-Plot

Barras de error

Diagrama de dispersin

Contraste t Datos Independientes


stad sti os de r po l U29656_at c mi N 47 25 Media 441. 718.76 Desviaci t . . 1 278.823 rr r t . de la media 29.472 55.765

Sig. .154

t -4.837 -4.390

gl 70 37.744

Sig. (bilateral) .000 .000

U29656_at

Se an as mido varianzas ig ales No se an as mido varianzas ig ales

2. 81

-276.909 -276.909

Pr eba de evene para la ig aldad de varianzas

r e a de

estras independientes

Prueba

para la igualdad de medias 95% Intervalo de confianza para la diferencia Inferior Superior -391.084 -404.623 -162.734 -149.195

Diferencia de medias

rror tp. de la diferencia 57.247 63.074

Varianzas distintas
Estadsticos de grupo leucemia ALL AML N 47 25 Media 70.62 -55.76 Desviacin tp. 122.598 69.884 Error tp. de la media 17.883 13.977 M63488_at

rue a de

M63488_at

Se han asumido varian as i uales No se han asumido varian as i uales

8.030

.006

4.750 5.568

70

.000 .000

126.377 126.377

26.605 22.697

69.592

 

Si .

Si .

ilateral

Di erencia de medias

Error tp. de la di erencia

73.315 81.105

rue a de Levene para la i ualdad de varian as

uestras independientes

          

rue a T para la i ualdad de medias 95% ntervalo de con ian a para la di erencia n erior Superior 179.439 171.649

U de Mann- hitney
Est sti s scri ti s Per entile 50 (Mediana) 1.50 1.00 M63488 at le e ia 2 72 Media 2 . 4 1. 5 e ia i n t i a 122. 18 .479 Mni -184 1 M i 4 2 25 -56.50 1.00 75 89.50 2.00

Rangos

le e ia M63488 at ALL AML T tal

47 25 72

an r edi 44.56 21.34

a de ran 2094.50 533.50

a Estadsticos de contraste

U de Mann- hitney W de Wil n Z i . a int t. ( ilateral) a. aria le de a r

M63488 at 208.500 533.500 -4.483 .000 a i n le e ia

You might also like