Professional Documents
Culture Documents
Introduccin
Los experimentos con microarreglos (microarrys) forman parte de lo que se ha dado en llamar Bioinformtica. En sta se integran mtodos matemticos, estadsticos y de ciencias de la computacin, para analizar datos que provienen de la biologa molecular. La tecnologa de los microarreglos tiene una importancia creciente, en especial debido al avance de los resultados de la genmica estructural (el mapa genmico humano fue completado en 2003 con el secuenciamiento de los pares de bases que constituyen el ADN cromosmico). Es parte de la genmica funcional en la que se desarrollan modelos para explicar el funcionamiento de las diferentes secuencias genmicas. El nmero de publicaciones cientficas relacionadas con el tema ha crecido exponencialmente en los ltimos aos.
El dogma central de la biologa molecular se describe mediante un proceso en dos pasos, transcripcin y translacin, por los que la informacin contenida en los genes se transforma en proteinas: DNA RNA proteina.
Transcripcin es la sntesis de una copia de RNA a partir de un segmento de DNA. El RNA se sintetiza mediante la enzima RNA polimerasa. Translacin es la sntesis de un polipptido especificado por un mRNA
En las clulas eucariotas ambos procesos estn espacial y temporalmente separados; la transcripcin se lleva acabo en el ncleo produciendo una molcula de pre-mRNA. La molcula de pre-mRNA se procesa para producir el mRNA maduro, que sale del ncleo y es trasladado en el citoplasma.
Hay 4 tipos de RNA, cada uno codificado por un tipo de gen: mRNA - RNA mensajero: Codifica la secuencia de aminocidos de un polipptido. tRNA - RNA transferente: Lleva los aminocidos a los ribosomas durante la traslacin. rRNA - RNA ribosmico: Con proteinas ribosmicas, constituye los ribosomas, encargados de la traslacin de mRNA. snRNA - RNA pequeo nuclear: Est implicado en el proceso de maduracin del RNA en las clulas eucariotas.
El promotor es una secuencia de pares de bases que especifica dnde debe comenzar la transcripcin. El terminador es una secuencia que especifica el final de la transcripcin en mRNA.
La Molcula de RNA
El RNA es estructuralmente similar al DNA.
El proceso de Transcripcin
La sntesis de RNA implica la separacin de las cadenas de DNA y la sntesis de una molcula de RNA, mediante la enzima RNA polimerasa, utilizando las cadenas de DNA como patrn.
La RNA polimerasa cataliza una reaccin qumica que resulta en la sntesis de RNA a partir de la cadena patrn de DNA.
En los pares complementarios, A, T, G, y C en la cadena patrn de DNA se convierten en U, A, C, y G, respectivamente, en la cadena de RNA que est siendo sintetizada.
La mayor parte de los genes codificadores de protenas en las clulas eucariotas contienen segmentos denominados intrones, que dividen la secuencia codificadora de aminocidos en segmentos denominados exones. La transcripcin de estos genes es pre-mRNA (mRNA precursor). El pre-mRNA es procesado en el ncleo para eliminar los intrones y unir los exones en una cadena de mRNA trasladable. Este mRNA sale del ncleo y se traslada en el citoplasma.
Los microarrays usa esta propiedad de atraccin de los pares de bases conocida como hibridacin- para ayudar a los investigadores a identificar que secuencias de RNA estn presentes en una muestra y cual es la medida de la expresin de los mismos.
Para asegurarse de que se est midiendo el gen correcto, los chips de Affimetrix toman 11 cadenas cortas pertenecientes al mismo gen.
Si el RNA se adhiere al probe modificado, es posible que la medida no sea fiable. Si solo se adhiere al probe objetivo podemos decir que el gen se est expresando realmente. Sin este procedimiento es difcil saber si se est alineando el RNA correcto o una secuencia ligeramente diferente.
Si
A efectos de simplicidad hemos representado aqu solo un cuadrado y hemos reducido la longitud del probe a 6 bases, ATCATG.
Una parte de las molculas de RNA encontrarn su complemento. Si la secuencia de bases del RNA encaja en la del probe de DNA, habr un alineamiento perfecto y la muestra se pegar al probe.
Como no podemos ver el RNA, no podemos saber cuanto se ha pegado en cada probe. Slo una cadena, o quizs 1000000. Para poderlo ver haremos que brille en la oscuridad usando un tinte fluorescente que se pegue a la biotina.
Como los genomas humanos son casi idnticos, todo el mundo tiene estos tres genes, aunque no se expresan de la misma manera en todos los humanos. De esta forma, aunque no conozcamos su funcionamiento, es posible determinar que genes se expresan diferente en personas enfermas y sanas. El paso siguiente es investigar como afectan las protenas que producen en el desarrollo de la enfermedad.
Como vemos, el SNP est en el centro de la cadena. Por el procedimiento habitual sabremos cual de los dos genotipos est presente en el paciente. En este caso se utilizan 40 probes para determinar cada SNP.
Antes de continuar es necesario hacer miles de copias del DNA. El resto del proceso es similar al ya descrito.
Segmentacin
Segmentacin es el proceso de partir una imagen en un conjunto de regiones no solapadas cuya unin es la imagen completa. El propsito de la segmentacin es descomponer la imagen de forma que los puntos con informacin queden separados del fondo.
Cuantificacin
El propsito es combinar los valores de la intensidad en una nica medida cuantitativa que pueda usarse para representar el nivel de expresin del gen depositado en la cuadrcula. Normalmente se cuantifica utilizando el total, la media, la mediana o la moda de las intensidades de todos los pixels. En condiciones ideales la intensidad total debera ser proporcional a la magnitud de la expresin.
La concentracin de cDNA (mRNA) se hace correctamente de forma que su concentracin es proporcional a la del tejido. La hibridacin se hace adecuadamente de forma que la concentracin que se adhiere a las cuadrculas es proporcional a la que hay en el tejido. La cantidad de DNA depositada en cada cuadrcula, en el proceso de fabricacin, es constante. No hay contaminacin. Los pixels se leen correctamente en el procesamiento de la imagen.
En general supondremos que las dos primeras condiciones se cumplen, esto se consigue diseando correctamente el experimento. En la mayor parte de los casos las dos ltimas condiciones no se verifican.
Medidas de la intensidad
Intensidad total:
Sensible a la cantidad de DNA depositada, la contaminacin y las anomalas en la lectura de la imagen.
Media:
Utilizar la media reduce el problema de la cantidad de DNA al no depender del tamao. Buena sin contaminacin o con la contaminacin separada. Muy sensible a los outliers.
Mediana:
Resistente a los outliers (Reduce problemas de contaminacin y procesamiento). Muy til cuando el software no distingue bien entre seal, fondo y contaminacin. Una alternativa es la media truncada (Media eliminando los valores extremos en ambas colas)
Moda
Resistente a los outliers. Muy sesgada en distribuciones multimodales.
Cociente (dos canales): Cociente entre la media mediana o moda de los dos canales.
No sensible a la cantidad exacta de DNA depositada al ser un cociente.
Desplazamiento
Distancia desde el centro esperado hasta su localizacin real.
- Para cada gen tenemos entonces un conjunto de pares de probes PM/MM. - Un gen est presente si la mayor parte de valores de PM son mayores que
los MM el gen es considerado presente; si la mayor parte son menores ausente y si es el 50% aproximadamente marginal. La fiabilidad de la clasificacin se mide mediante un p-valor procedente de un test U de MannWhitney.
- Una medida comn es la media de las diferencias entre los valores PM y MM. - Pueden detectarse diferencias entre la clasificacin cualitativa y la
cuantificacin numrica en el sentido de que una llamada ausente puede tener valores mayores en la cuantificacin.
Normalizacin de color
Se basa en el hecho de que la mayor parte de los genes no cambian y por tanto hay una relacin lineal en los dos colores). Ajuste de curvas y correccin posterior. LOWESS/LOESS (LOcally WEighted polinomial regreSSion). Normalizacin a trozos (ajuste lineal a por trozoa).
Clculo de la seal.
Correccin con la hibridacin no especfica.
Deteccin calls
Clasificacin en categoras: Presente, ausente y marginal. Utiliza el test U de Mann-Whitney.
Clasificacin de cnceres
Aunque la clasificacin del cncer ha mejorado en los ltimos aos, no hay una forma general de identificar nuevos tipos de cncer (class discovery) o de asignar tumores a tipos ya conocidos (class prediction). Una metodologa prometedora es la utilizacin de microarrays de DNA (mRNA) para detectar los genes alterados, es decir con expresin diferencial en tipos distintos de cncer y en clulas sanas. Si bien sta no es la solucin completa del problema, al menos es una forma d empezar a buscar los genes diferenciados que permiten iniciar la investigacin en causas concretas, tratamiento basados en los genes y nuevos mtodos de diagnstico.
Leucemias ALL-AML
Clasifiacin de Leucemias Acute myeloid leukemia (AML) Acute lymphoblastic leukemia (ALL)
Gen U29656_at
Summary Official Symbol NME3 Official Full Name protein expressed in non-metastatic cells 3 Primary source 1 cgctcccgca ccgccatcat gatctgcctg gtgctgacca tcttcgctaa cctcttcccc 61 gcggcctgca ccggcgcaca cgaacgcacc ttcctggccg tgaagccgga cggcgtgcag HGNC:7851 121 cggcggctgg tgggcgagat tgtgcggcgc ttcgagagga agggcttcaa gttggtggcg See related 181 ctgaagctgg tgcagtcctc cgaggagctg ctgcgtgagc actacgccga gctgcgtgaa HPRD:03488; MIM:601817 241 cgcccgttct acggccgcct tgtcaagtat atggcctccg ggccggtggt ggccatggtt 301 tggcaggggc tggacgtggt gcgcacctcg cgggcgctca tcggagccac gaacccggcc Gene type 361 gacgccccgc ccggcaccat ccgcggggat ttctgcatcg aggttggcaa cctgattcac protein coding 421 ggcagcgact cggtggagag tgcccgccgc gagatcgctc tctggttccg cgcagacgag 481 ctcctctgct gggaggacag cgctgggcac tggctgtatg agtagcccgg cagatgcgcg Location : 16q13 541 tcacagaggc tctcacattc cagcctcctc cagggcccag gtgggcggct tctggcccca RefSeq status 601 ccccacagcg cttggagcat ccctttggac gggctgctga acatccacct gtctggacgt Validated 661 tgcatggagg gtggcgcagc ctctccaatc cctggcgtac agggtttcct gcccgaggac 721 ctgctccagg agcctgcgcg gctcgcctgg aaacgtgcca ggagcactgt cctggtgccc Organism 781 agcccaacgt ggtccaaggt ttttttataa ttaaagtcct cgttttcgtt aaaaaaaaaa Homo sapiens 841 aaaaaaaaa Lineage Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo Also known as DR-nm23; KIAA0516; c371H6.2
Descriptiva
ALL U29656_at Media Intervalo de confianza para la media al 95% Lmite inferior 382.53 Lmite superior Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis 501.18 428.85 425.00 40824.434 202.051 117 1114 997 273 1.058 1.753 .347 .681 603.67 833.85 710.93 759.00 77742.023 278.823 102 1531 1429 344 .482 2.272 .464 .902 Estadstico 441.85 Error tp. 29.472 AML Estadstico 718.76 Error tp. 55.765
Histograma
U29656_at Media Estadstico 441.85 Error tp. 29.472 Estadstico 718.76 Error tp. 55.765
Estimadores M (robustos)
Estimadores M leucemia ALL AML Estimador-M a de Huber 420.67 721.00 Biponderado b de Tukey 409.92 713.90 Estimador-M c de Hampel 419.28 712.43 Onda de d Andrews 409.90 714.14 U29656_at
a. La constante de ponderacin es 1.339. b. La constante de ponderacin es 4.685. c. Las constantes de ponderacin son 1.700, 3.400 y 8.500. d. La constante de ponderacin es 1.340*pi.
er e tiles Percentiles 50 425.00 759.00 425.00 759.00
U29656_at U29656_at
5 162.00 174.90
10 217.80 370.80
90 701.60 989.80
95 874.60 1376.20
Normalidad-Homoscedastidad
r e a de omo e eidad de la aria tad ti o de Levene 2.081 1.897 1.897 2.113 l1 1 1 1 1 a l2 70 70 61.851 70 Si . .154 .173 .173 .150 29656_at a ndo e en la media a ndo e en la mediana. a ndo e en la mediana on l orre ido a ndo e en la media re ortada
29656_at . te e
le emia LL L
Si . .012 .262
Tallo y Hojas
U29656_at Stem-and-Leaf Plot for leucemia= ALL Frequency Stem & Leaf U29656_at Stem-and-Leaf Plot for leucemia= AML Frequency Stem & Leaf
3.00 1 . 149 9.00 2 . 023344559 9.00 3 . 013456777 12.00 4 . 012556666788 7.00 5 . 4467788 3.00 6 . 117 1.00 7. 9 2.00 8 . 58 1.00 Extremes (>=1114) Stem width: Each leaf: 100 1 case(s)
1.00 Extremes (=<102) 2.00 3 . 48 1.00 4. 1 5.00 5 . 11669 3.00 6 . 889 4.00 7 . 5899 3.00 8 . 135 4.00 9 . 0137 1.00 10 . 1 1.00 Extremes (>=1531) Stem width: Each leaf: 100 1 case(s)
Grficos de normalidad
Box-Plot
Barras de error
Diagrama de dispersin
Sig. .154
t -4.837 -4.390
gl 70 37.744
U29656_at
2. 81
-276.909 -276.909
r e a de
estras independientes
Prueba
para la igualdad de medias 95% Intervalo de confianza para la diferencia Inferior Superior -391.084 -404.623 -162.734 -149.195
Diferencia de medias
Varianzas distintas
Estadsticos de grupo leucemia ALL AML N 47 25 Media 70.62 -55.76 Desviacin tp. 122.598 69.884 Error tp. de la media 17.883 13.977 M63488_at
rue a de
M63488_at
8.030
.006
4.750 5.568
70
.000 .000
126.377 126.377
26.605 22.697
69.592
Si .
Si .
ilateral
Di erencia de medias
73.315 81.105
uestras independientes
rue a T para la i ualdad de medias 95% ntervalo de con ian a para la di erencia n erior Superior 179.439 171.649
U de Mann- hitney
Est sti s scri ti s Per entile 50 (Mediana) 1.50 1.00 M63488 at le e ia 2 72 Media 2 . 4 1. 5 e ia i n t i a 122. 18 .479 Mni -184 1 M i 4 2 25 -56.50 1.00 75 89.50 2.00
Rangos
47 25 72
a Estadsticos de contraste