PŘEHLED SEKVENAČNÍCH METOD Letní škola bioinformatiky 2014, Brno Ing.Matej Lexa, Phd (FI MU Brno) CO JE TO SEKVENACE A CO SE BUDE SEKVENOVAT? POŘADÍ NUKLEOTIDU V DNA ONA SEKVENOVÁNÍ DNA od manuálních metod po plně automatizované 1. generace (od cca 1976): Maxam-Gilbert (čtyři štěpící reakce - G, AG, C, TC) Sangerova metoda (terminace syntézy druhého vlákna) HEL Applied Biosystemí 2. generace (next-gen; NGS; od cca 2000-2005): Solexa/Illumina (polymerace fluorescenčně značených oligonukleotidů) 454/Roche (pyrosekvenace, PP enzymaticky vázán na emisi světla) SOLiD/LifeTechnologies (ligace fluorescenčně znač. oligonukleotidů) Polonator (ligace fluorescenčně znač. oligonukleotidů) Complete Genomics (nepoužívá PCR, ligace na shluky ssDNA) Sekvenování jednotlivých molekul: Helicos (optika) SMRT/Pacific Biosciences (nanopovrch s ukotvenou polymerázou) IonTorrent (polovodičové sekvenování, místo světla protony) Sekvenování na membránách: Oxford Nanopore a pacific Complete é illumine 1 genomics life NABSys NobleGen BIOSCIENCES Helicos NANOPORE NobleGen řÝNABsys ion rorrent KRITICKÁ FÁZE ANALÝZ 1. a 2. GENERACE Příprava knihovny Sekvenace Analýza dat PRINCIPY SEKVENACE DNA sekvenčně-specifické štěpení DNA polymerace: ATCAGTGCGATGCA- (ANCHOR) TAGTCACG DNA pol <-C* hybridizace: ATCAGTGCGATGCA - ANCHOR TAGTCACGCTACGT* ligace: ATCAGTGCGATGCA - ANCHOR TAGTCACG—-CTacgt* DNA lig nanopory a průchod membránou DŮVODY SEKVENACE - de novo sekvenace - organismy - populace (metagenomika) - resekvenování - detekce polymorfismů - SNP - rekombinace - zjištění stavu metylace - měření exprese (jako náhrada technik založených na hybridizaci) DRUHY SEKVENACE dle způsobu přípravy vzorků a použitých reaktantů DNA-seq ChIP-seq (imunoprecipitace chromatinu) RNA-seq sRNA-seq Bis-seq, BisChIP-seq (metylační analýza) CLIP-seq ("cross-linking immunopreciputation"; RNA-prot) Ig-seq,... (viz *Seq @ http://liorpachter.wordpress.com/seq/ Klíčové kroky a parametry sekvenování DNA - izolace DNA - fragmentace DNA - ligace adaptérů - namnožení sekvencí - typ podložky nebo média - typ enzymů (pol, lig) - typ detekce (světlo, proud) Shotgun genome sequencing Hierarchical shotgun sequencing Genomic DNA BAG library Organized mapped large clone contigs BAG to be sequenced Shotgun clones _C — f- _+ S r * -f — Shotgun sequence , AC CGTAAATGGGC TGATCATGC TTMA TGATCATGCTTAAACCCTGTGCATCCTACTG Assembly ACCGTA.AATGGGCTGATCATGC'rTAMCCCTGTC-CATCCTACTG Figure 4A.4 Sequencing an oligonucleotide by the Maxam-Gilbert method Q Preparation of homogeneous single-strand DNA : T T A G C C3' Q Addition of 32P as 5' phosphate IjTTAGCC Q Cleavage at specific nucleotides i'ATTGAC -A T T G A C Maxam-Gilbert G reaction A reaction, T reaction, C reaction with some with some G cleavage C cleavage (underlined) (underlined) "ATTGACTTAGCC -ATTGACTTA *ATT Whole oligonucleotide Fragment length (bases) 'ATTGACTTAGCC ■ATTGACTTA ■ATTGACTT ■ATTG -AJJ 'ATTGACTTAGCC 'ATTGACTTAGCC ATTGACTTAGC 'ATTGACTTAGC 'ATTG ACT TAG "ATTGACTTAG ATTG ACT VATTGA 'ATTGAC 'ATTGA 'AT 'A Q Electrophoresis O Radioautography Q Read sequence DMS Pi peri dine From Mathews and van Holds: Biochemistry 2/e. © The Benjamln/Cummings Publishing Co., Inc. Maxam-Gilbert G C + + Maxam-Gilbert 3' Sangerova metoda (terminace dideoxynukleotidy) Gel: Normal nucleotides: Dideoxy Chan Terminators: OH z , O Q H 0 (H z , O H H * Spr br H H GCGRRTGCGTCCRCRRCGCTRCRGGTG GCGRRTGCGTCCRCRRCGCTRCRGGT GCGRRTGCGTCCRCRRCGCTRCRGG GCGRRTGCGTCCRCRRCGCTRCRG GCGRRTGCGTCCRCRRCGCTRCfl GCGRRTGCGTCCRCRRCGCTRC GCGRRTGCGTCCRCRRCGCTH GCGRRTGCGTCCRCRRCGCT GCGRRTGCGTCCRCRRCGC GCGRRTGCGTCCRCRRCG GCGRRTGCGTCCRCRRC GCGRRTGCGTCCRCRfl GCGRRTGCGTCCRCfl GCGRRTGCGTCCRC GCGRRTGCGTCCfl GCGRRTGCGTCC GCGRRTGCGTC GCGRRTGCGT GCGRRTGCG GCGRRTGC GCGRRTG GCGRRT Sangerova metoda Sangerova metoda 454 (pyrosekvenování) 454 (pyrosekvenování) Ugřrt +■ My lucif«in 454 (pyrosekvenování GS FLX Data 3, Read datu canvertéd kula "fluwüränia Roche 454 GS FLX Genomic DIVA POLONATOR 0) Sheering to small fragments (5b) Ligation with oligo pools added in cycles and four-color imaging SOLID (sekvenace ligací, "polony" = polymerase colony SOLiD SOLiD SOLiD 3 Plus IUumina Illumina ("bridge amplification") 1. PREPARE GENOMIC DNA 2. ATTACH DNA TO SURFACE 3. BRIDGE AMPLIFICATION SAMPLE Randomly fragment genomic DNA Bind single-stranded fragments Add unlabeled nucleotides and an- and ligate adapters to both ends of randomly to the inside surface of the zyme to initiate solid-phase bridge the fragments. flow cell channels. amplification. Illumina ("bridge amplification") 4. FRAGMENTS BECOME 5. DENATURE THE DOUBLE- S. COMPLETE AMPLIFICATION DOUBLE-STRANDED STRANDED MOLECULES The enzyme incorporates nucleotides Denature tion leaves single-stranded Several million de nee clusters of to buiId double-stranded bridges on tamptatof. flnchored to the eubstrate. double-stranded DNA are generat- the solid-phase substrate. in aacr. channel of the flow call. 63 Illumina 7. DETERMINE FIRST BASE 8. IMAGE FIRST BASE 9. DETERMINE SECOND BASE G The first sequencing cycle begins by adding four labeled reversible terminators, primers, and DNA polymerase. After laser excitation, the emitted fluorescence from each cluster is captured and the first base is identified. The next cycle repeats the incorporation of four labeled reversible terminators, primers, and DNA polyineraie. Illumina 10. IMAGE SECOND CHEMISTRY 11. SEQUENCING OVER MUL- 12. ALIGN DATA CYCLE TIPLE CHEMISTRY CYCLES After laser excitation, the image is captured as before., and the identity of The second base is recorded. The sequencing cycles are repeated to determine the sequence of bases in a fragment, one base at a time. The data are aligned and compared to ■ reference, and sequencing differences are identified. Complete Genomics - zhluky DNA "nanoballs" (nepoužívá PCR, ale rolling circle replication) Complete Genomics 300 nm pozic, 2.8 mid na jednom sekvenovacim sklicku DNBs T'x3" slide Patterned substrates Each spot contains a single DNB Complete Genomics Si Ikon substrate consisting of 12 slides Magnification of a section; Each spot will accommodate only a single DNB Complete Genomics cPAL - "Probe-Anchor Ligation sequencing", 70 bazi / zhluk Probes mwmf Matching \ probe binds to | DNA licmse binds oenomk DNA J matching probe to anchor Anchor mm Adaptor Genomic DNA Ion Torrent (polovodičové sekvenování) dnes součást LifeTechnologies detekuje protony uvolněné při polymerizaci DNA tSMS - "single molecule sequencing" Helicos (existuje jenom několik strojů) SMRT - "single molecule real time" Pacific Biosciences Sekvenovanf nanopory The Envisioned Device: A Solid State Nanopore with Embedded Nanotube Sensor Oxford Nanopore Technologies Nanopor tvořen proteinem alpha-hemolysin s cyclodextrinovým adapterem (místo detekce nukleotidů). Typický postup zpracování NGS dat Kontrola kvality a čistení dat Zastoupení nukleotidů Kvalita nukleotidů na pozicích (log skóre "phred"; 10 = 90%) Kontaminace adaptéry a jinými cizími sekvencemi Stupeň duplikca sekvencí Zkrácení sekvencí na společnou délku Např.: http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/ http://hannonlab.cshl.edu/fastx_toolkit/ Mapování sekvencí • Index _ Tabulky slov, hešovací tabulky _ Suffixové stromy a pole _ Burrows-Wheelerova-Transformace (BWT) sufixového pole _ FM-Index • Filtrování _ S jednou nebo více shodami • Verifikace _ prodloužení - Dynamické programování BWA, Bowtie2, Soap2 mrFAST, SHRÍMP2, RazerS3, Masai GSNAP, Stampy, BWA mem (tolerují mezery) • RNA-Seq, Bis-Seq, speciální obsluha repetitivních sekvencí TopHat, STAR, Bismark, lobSTR,... Analýza DNA pomoci STM (scanning tunelling microscope) (c) l 4 Sl M Z 5 V H—t- T=ftT r> Ä 1 1 (e) T=7B K ■ i MM v TI M 'Ty ■t j 1 1 4 -7 ■f 1 j a _ . půlytĚÍ-půlyfO Tunnel Junction I Tmiiifl Ai»poľf4$}-pgly(a Data growth in DNA sequencing Ding et al., 2010. Analysis of next-generation genomic data in cancer: accomplishments and challenges. Hum Mol Gen 19 http://www.thegeneticgenealogistxom/2008/09/24/ancestral-gps-pinpointing-the-geographic-origin-of-autosomal-dna-sequence http://en.wikipedia.org/wiki/Genealogical_DNA_test http://wwwiiercebiotechitxom/story/illumina-backs-venters-plan-create-worlds-largest-human-genome-sequencing-c/2014-03-05