You are on page 1of 8

2/11/2011

1
RNASeq
Anintroductiontohighthroughput
sequencingfortranscriptomeanalysis
AnnaEsteve Codina
anna.esteve@uab.cat
11febrero 2011
MsterRVCA, Facultad
de Veterinaria
UAB
Transcriptomics
Importanteenbiologamoleculardurantedcadas:
Cmopuedeungenomadardistintostiposcelularesenunorganismo
multicelular?
Discrepanciaentre24.000genescodificantespredichosenelgenoma
humanoy100.000protenasdistintassintetizadas
Diferentestiposcelularesexpresandiferentesgenesdandolugara
diferentesformasyfuncionescelulares
Transcriptoma:formadoportodoslosmRNAyncRNAproducidos
porunaclulaparticular,tejidocelularuorganismo.
Transcriptomics:estudiodeltranscriptoma deunaclula,tejido
celularuorganismo(=geneexpression profiling)
Prqueestudiamostranscriptomasen
elcampodelaagrigenmica?
Interseconmicoy/ocuestionesbiolgicas
Agricultura:
Resistenciaaplagas
Calidadyrendimiento
Adaptacionesaclimasextremos(calor,fro,salinidad)
S l d t i i ( i i ti id t ) Saludynutricin(composicinantioxidante)
Animalbreeding:
Estudiarlahuelladeseleccinenelgenomadeunaespeciedomesticada
Optimizaruncarcterparticularenlassiguientesgeneraciones
Cmoinfluyeladietayelambienteenlaproduccin?
Construirgenenetworksyregulatory pathways
Evolucindelastecnologasparael
estudiodetranscriptomas
Candidategenebaseddetection(Northernblot)
Expressionprofiling(hybridization:microarrays,tilingarrays)
Alternativesplicingprofiling(splicingjunctionarrays)
Variation(SNParrays)
Nextgenerationsequencing(RNASeq)
Next next generation sequencing
Microarrays geneexpression analysis
Mtodoparaestudiarperfilesdeexpresingnicaagranescalaen
elquesehibridamRNAconunarrayquecontienesondasdeADN
complementarioyquecorrespondenagenesdeinters
Laintensidaddehibridacindeunasondaestrelacionadaconla
expresindeltranscritoencuestin
Puedemedirlaexpresindemilesdegenessimultneamamente
Estemtodohadominadolosestudiosdeperfilesdedelapasada
dcada
Costefficient
Limitaciones
Puedehaberhibridacincruzadaconotrosdegenesde
secuenciasimilar
Bajaafinidadparaalgunassondas
Dynamicrangelimitado:nivelesdeexpresinlimitadosa
1000foldrange (3rdenesdemagnitud)
Notenemosinformacinsobrelalongitudexactay
secuenciadelosmRNAanalizados
Nosepuedendetectartranscritosnuevos
2/11/2011
2
RNAsequencing
Nuevomtodoparamapearycuantificartranscriptomas
Generamillonesdesecuenciascortas(shortreads)
ConstruiryanotartranscritosdemRNA:
Estructuracompletadeexones/intrones
Variantesdesplicing
5,3ends,alternatives transcription start sites,alternative poly(A)sites , , p , p y( )
Secuenciasreguladoras
DescubrirncRNAsypequeosRNAs
Estimarnivelesdeexpresindegenes
Estimarnivelesdeexpresindeexonesalternativos
Identificarvariacionesenlasecuencia(ejSNP)
Hademostradoquelamayoradelosgeneshumanossufrenalternativesplicingy
quelamayoradelosexonesalternativospresentanregulacintejidoespecfica.
Variantesdesplicing
Example from mosquitoe RNA-Seq study
5 extension of an
existing gene model
Novel gene alternatively spliced
between male and female
G. Koscielny (ECCB 2010)
Alternative splicing example
. Nat Genet. 42(12):1060-7 (2010)
Ventajas
Bajoruidodefondo
Ampliodynamicrangedenivelesdeexpresin(9000foldchange)
Altareproducibilidad(replicadostcnicosybiolgicos)
RequieremenosmuestradeRNA
Desafos
Cuantificacinprecisadelaabundanciadelosexones
alternativos
Cuantificacinprecisadelosexoneseisoformas
diferencialmenteexpresadas
A view from the EBI SRA
1,200 studies
13,000 experiments
2/11/2011
3
A view from the EBI SRA
Terabytes Terabases
Preparacindelamuestra
Sanger sequencing:
Muestracortadaenfragmentos
Subclonaje envectores
Amplificacinenbacteriasolevaduras
AislarDNAamplificadoysecuenciarconSanger(chainterminated
method)
Plataformasdesegundageneracin:
Nohayclonacininvivo
HayPCR(emulsin:454,puente:illumina)
Plataformasdetercerageneracin:
EliminaelpasodeamplificacinporPCR
Puedereducirloscostes
EnelcasodeRNAseq esmejortrabajarcontcnicasquenoalterenla
cantidaddelasmolculasdeRNA(noamplified template resources)
Preparacindelalibrera
Esunpasocrtico
1) ExtraertodoelRNAdeuntejido
2) RNAfragmentation ocDNA fragmentation
3) PurificarlapoblacindeRNAextrado
4) EliminarposiblecontaminacindeDNA
5) Eliminar rRNA aislar polyA RNA (oligodT beads) 5) EliminarrRNA,aislarpolyA RNA(oligodT beads)
6) cDNAsntesis
7) Ligacindeadaptadores
8) AislarlosfragmentosdecDNA enungeldeelectroforesis
9) PCRamplification
10) Strand specific libraries (informacinsobrelaorientacindelos
transcritos)
11) ChequearlaintegridadycalidaddelRNA
RNA-Seq experiment
Wang et al. Nat Rev Genet. 2009J an;10(1):57-63
RNA vs cDNA fragmentation
Wanget al. Nat Rev Genet. 2009J an;10(1):57-63
Pairedend reads
Consingleendreadsnotenemosinformacinsobrela
connectividadentreexonesdeunaunidaddetranscripcin
Fragmentaralazarysecuenciarlosdosextremosdecada
fragmento
Sepuedenidentificartranscritosfusionados p
Ejemplodeunestudiode
variantesestructuralesconunalibrerade
fragmentosde3kB.Separacinentrelospairedend
readsmapeados:
J O Korbel et al. Science 2007;318:420-426
2/11/2011
4
Preparation and isolation of paired ends
fragments
AAAAA
AAAAA
AAAAA
AAAAA
AAAAA
circularization
AAAAA
AAAAA
AAAAA
AAAAA
AAAAA
Protection and
Adapter ligation
Randomcleavage
FORMATOS
@HWUSIEAS100R:6:73:941:1973#0/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***+*''))**55CCF>>>>>>CCCCCCC65
Range of score
Source: wikipedia (http://en.wikipedia.org/wiki/FASTQ_format)
OutputofFastQC
2/11/2011
5
HWIEAS249:3:81:267:813 972 15574255 40M=160300
GAAGGTGGAGCCTAATGCACACAAGATAATCTAACCTCGC
BCACB?A=)>BAB:@@ABA?B?6<8887:'&(=?*9@9=
Capturandoexonexon junctions
Alineamientocontrauntranscriptomadereferencia(Wang
etal.):
Identificarconocidasopredichascombinacionesde
exones
Analisisdeundatasetcompletodereadsmapeadospara
identificarsplicesitejunctionsentreexonesdentrodeun
espacio prximo (Tophat): espacioprximo(Tophat):
Serequiereexonesaltamenteexpresados
Sepierdeneventosdesplicingqueestncubiertosa
bajocoverage
Alineamientodereadsindividualescontraexonexon
junctionsusandoelSmithWatermantypealignmentsycon
unmodelodesplicingentrenado(QPALMA):
Permiteensamblareventosdefusindegenes
intercromosomales olejosenelespacio.
Poliadenilacin alternativa
LosPoly(A)sitessepuedenidentificarcomocolas
largasdeAodeTalextremodealgunosreads
Mtodo:
Quedarseconlosreads conpoly(A)tails
CortarlascolaspolyA opolyT
Alinearlosreads conelgenomadereferencia(se
necesitanalmenos20bases)
Mtodosdereconstruccindetranscritos
Primeroalinearydespusensamblar:
Alinearshortreads contraelgenoma
Identificarloseventosdesplicing
Reconstruirlostranscritosapartirdelosalineamientoscon
splicing
Softwares: Cufflinks Scripture (los dos usan Tophat) Softwares:Cufflinks,Scripture (losdosusanTophat)
Esmssensible
Primeroensamblarydespusalinear:
Ensamblarlostranscritosdenovo(apartirdelosshortreads)
Alinearcontraelgenomaparadelinearlasestructurasintron
exon yloseventosdesplicing diferencial.
Softwares:ABySS,Oases
Seusaparatranscritosabundantes
Quantifying the transcriptome
Nat Biotechnol 28(5):421-423 (2010)
Nat Biotechnol. 28(5):503-10 (2010)
2/11/2011
6
Ventajas
CufflinksyScripture:identificanmilesdenuevostranscritos,desdenuevas
isoformasdegenesyaconocidos,ascomonuevosgenescodificantesyno
codificantes
Ayudanamejorarlaanotacindegenomas(bienymalanotados)
Desafos
UngrannmerodetranscritosidentificadosporCufflinksyScriptureson
consistentesconconocidasisoformasperoincompletosacausadeuna
faltadecoverage
Sehanaplicadoaltranscriptomadelratn,peroansenecesitafeedback
congenomascondiferentescaractersticasaniveldedensidaddegenes,
tamaodeintronesyprevalenciadesplicingalternativo.
Anlisisdeexpresingnica
Ensayosbasadosencounts
Objetivo:compararlosreadcountsentrediferentescondiciones
biolgicasoentreindividuosgenticamentedistintos.
Softwares: Cufflinks, MyRNA Softwares:Cufflinks,MyRNA
PaquetesestadsticosenR:EdgeR,DESeq,DEGseq,Bayseq
ParaRNAseq,sehavistoquelosreadcountsestnlinearmente
relacionadosconlacantidaddeltranscrito
Perocmopodemosestarsegurosqueladiferenciaobservadaen
readcountsessignificativa?
Clculodelacantidad:RPKM
ReadsPerKilobaseperMillionreads
Mtodo:
Contarelnmerodereadsnicosquemapeandentrodelosexonesde
modelosdegenesyaexistentes(C)
NormalizarladensidaddereadsexnicosconlalongitudpredecidademRNA(L)
Normalizarconlapoblacindereadsmapeadosenelexperimento(N)
TheRPKMmeasureofreaddensityreflectsthemolarconcentrationofatranscript
inthestartingsamplebynormalizingforRNAlengthandforthetotalreadnumberin
themeasurement
Thisfacilitatestransparentcomparisonoftranscriptlevelsbothwithinand
betweensamples
ENSSSCT00000000705
Fpkm
1010.63
C t Counts
1101
Fpkm
37.9012
Counts
39
2/11/2011
7
Ejercicio1.Controldecalidad
catSRR031665.fastq|perlcomputeRange.pl
LascalidadesestnenformatoSangeroIllumina?
Ejercicio2.ConvertircalidadesconEMBOSS
ConvertircalidadSangeraIllumina:
seqret sformat fastqsangersequenceReads/SRR031665.fastqosformat
fastqilluminaoutseq Reads/SRR031665.converted
Ejercicio3.fastxtoolkit
Qualitycontrolwithfastxtoolkit:
fastx_quality_statsiReads/SRR031665.convertedoReads/SRR031665_fastxqc.txt
catSRR031665_fastxqc.txt
Createaqualityplotfromthefile:
fastq_quality_boxplot_graph.shiReads/SRR031665_fastxqc.txttSRR031665po
Reads/SRR031665_fastxqc.ps
Createanucleotidedistributionplotfromthefile:
fastx_nucleotide_distribution_graph.shiReads/SRR031665_fastxqc.txttSRR031665po
Reads/SRR031665_fastxdist.ps
Ejercicio4.FastQC
QualitycontrolwithFASTQC:
Runfastqcfromthecommandline
Opentheoriginalfastqfile
Generateandsavethereport
OpenthereportinaWebbrowser
http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/
2/11/2011
8
Ejercicio5.trimming
TrimthesequencebasedonaqualitycutoffofQ20usingfastx_trimmer
fastx_trimmerf<first>l<last>i Reads/SRR031665.fastqo Reads/SRR031665.trimmed
ClipthePoly(A)sequenceswithfastx_clipper (takesafastq fileandsearchesforagiven
adaptorsequenceatthe3'endofthesequence)
Discardsequencesshorterthan20nucleotides
Ejercicio6.BAMVisualizationwithIGV
OpenIGVbyrunning./igvlinux.sh
ChoosetheOsativagenome(release6)
OpenthefollowingURLs:
http://www.ebi.ac.uk/~koscieln/courses/Athens_2010/alignments/9311L1_Round28_Lane3.PE.sorted.bam
http://www.ebi.ac.uk/~koscieln/courses/Athens_2010/alignments/Gla4L1_Round28_Lane4.PE.sorted.bam
Jumptolocationchr2:17,799,52817,803,337
Ejercicio7.BEDVisualizationwithIGV
OpenthefollowingURLs:
http://www.ebi.ac.uk/~koscieln/courses/Athens_2010/alignments/9311L1_Round28_Lane3.PE_junctions.bed
http://www.ebi.ac.uk/~koscieln/courses/Athens 2010/alignments/Gla4L1 Round28 Lane4.PE junctions.bed http://www.ebi.ac.uk/ koscieln/courses/Athens_2010/alignments/Gla4 L1_Round28_Lane4.PE_junctions.bed

You might also like