Next-generation sequencing (NGS) Sanger sequencing TTCAGTCAGATTTACGCTAACCCT •Rev. Primer - F •Primer - R •Primer - F • - AAGTC=O •Primer - F • - AAGTCAGTCTA=O •Primer - F • - AAGTCAGTCTAA=O •Primer - F • - AAGTCA=O •Primer - F • - AAGTCAGTCT=O •Primer - F • - AAGTCAGTC=O •Primer - F • - AAGTCAGT=O •Primer - F • - AAGTCAG=O •- •+ Fig1 AAGTCAGTCTAAATGCGATTGGGA •Primer - F •Rev. Primer - R •krátké -------------- dlouhé •(rychlé) ------------ (pomalé) Sequencing – Sangerova metoda Fig1 •DNA • •PCR product •cloned fragment • •- •+ • •laser beam • •detector •capillary electrophoresis •G •C •G •A •G •C •T Sanger tools_1a •4-kapilární sekvenátor •= • 96 x 500 bp/12 hodin •= •cca 100 000 bp/den Evoluce Sangerova sekvenování Sequencing – Sangerova metoda Fig1 •DNA • •PCR product •cloned fragment • •- •+ • •laser beam • •detector •capillary electrophoresis •G •C •G •A •G •C •T Sanger tools_1a •96-kapilární sekvenátor •= •2304 x 500 bp/12 hodin •= •cca 2 400 000 bp/den •NGS (Illumina HiSeqX10) •= • cca 600 000 000 000 bp/den Next-generation sequencing (NGS) • • • •Next Generation Sequencing Historie „Next generation sequencing“ •454 pyrosequencing ... první komerčně dostupná NGS technologie od srpna 2007 • •2016 – ohlášené stažení z trhu (Roche) Široké spektrum technologií Ale jen některé přežijí Dnes dostupné NGS platformy •Roche 454 •Illumina HiSeq a MiSeq •ABI SOLiD •IonTorrent (Life Technologies) •SMRT (Pacific Biosciences) •Oxford Nannopore •… 454 pyrosequencing • •emulzní techniky amplifikace pikolitrové objemy • •simultánní sekvenování na destičce z optických vláken detekce pyrofosfátů uvolňovaných při inkorporaci bazí • •První generace GS20 → 200 000 reakcí najednou (zhruba 20 milionů bp) FLX systém → 400 000 reakcí najednou = eukaryotní genom za týden!!! • •Délka jednotlivých sekvencí 100 – 400 (800 bp) • •1 600 000 well plate •DNA Fragmentation •(Nebulization): •Adaptor Ligation: •Adaptor A + Adaptor B -Slouží jako vazebné místo primerů pro následnou PCR amplifikaci a sekvenování -Slouží k uchycení na kuličky (na adaptor B je připojen biotin) •Library Immobilization: • ssDNA Library Isolation: •1. Příprava jednořetězcové DNA knihovny (ssDNA library preparation) •2. Namnožení každé jednotlivé molekuly pomocí emulzní PCR (emPCR) •Preparation of the •Amplific. Mixes •DNA Library Capture: •Emulsification: •emPCR Amplification: •- poměry nastavit tak aby 1kulička ≤ 1 molekula DNA •Sequencing Primer Annealing: •3. Pyrosekvenování („sequencing by synthesis“) •pikotitrační destička •Na jedné desticče 400 000 až 1milión jamek -postupně se přidávají nukleotidy v definovaném pořadí: např. TACG TACG TACG -po přidání každého nukleotidu a detekci signálu se nukleotid odmyje a přidá se další • C T CC G • T A C G T A C G •DNA sekvence: C T C C G •Problém!!!! Homoplymery např. AAAAAAAAAA •3. Pyrosekvenování – detekce signálu •http://www.youtube.com/watch?v=bFNjxKHP8Jc High-throughput – paralelní sekvenování •!!! Samozřejmě nestačí mít každou bázi osekvenovanou 1x !!! - Pospojování (reads assembly) do souvislé sekvence - Nepřesnosti – pokrytí (coverage) •Mus: 2700 Mb → 7 run 1x coverage •Caenorhabditis: 100 Mb → 1 run 4x coverage •E. coli: 5 Mb → 1 run 80x coverage •mitoch. Mus: 0.016 Mb → 1 run 25000x coverage •HIV: 0.01 Mb → 1 run 40000x coverage • •Kapacita destičky 400 Mb (GS FLX Titanium): -k dispozici 12 odlišných MID •(„multiplexing“) •16 „gaskets“ •V každém max. 12 vzorků (každý označen svým MID) •12 MID •X •16 gaskets •= •max. 192 vzorků 1.CCCCCCCCCC 2.GGGGGGGGG •. •. •. •12. CCCCCAAAG • - v současné době nejrozšířenější typ (cca 70%) na trhu • - v horizontu následujících let její používání spíš poroste • •https://www.youtube.com/watch?annotation_id=annotation_228575861&feature=iv&src_vid=womKfikWlxM&v= fCd6B5HRaZ8 •Illumina HiSeq/MiSeq •Illumina HiSeq •Illumina MiSeq • • •https://www.youtube.com/watch?annotation_id=annotation_228575861&feature=iv&src_vid=womKfikWlxM&v= fCd6B5HRaZ8 •NovaSeq 6000 Sequencing System (2017) •ca. 48 human genomes/run •https://emea.illumina.com/systems/sequencing-platforms/comparison-tool.html?langsel=/cz/ NGS technologie •454 pyrosequencing •(Roche) •Illumina •Ion sequencing: Life Technologies • •Ion Torrent technology Využívá změny pH při syntéze DNA SMRT („single molecule real-time sequencing“) – Pacific Biosciences •dlouhé čtení (15 kb), hodně chyb •http://www.youtube.com/watch?v=v8p4ph2MAvI 3rd generation: Oxford Nannopore •„Run until sequencing ...“ Princip technologie •http://www.youtube.com/watch?v=3UHw22hBpAk Sekvenování přímo v terénu (?) Deployment of the portable genome surveillance system in Guinea. •Ebola outbreak •Quick et al., Nature 2016 Přehled současných metod NGS Výkonnost jednotlivých metod Chybovost jednotlivých metod Bioinformatika – největší brzda dalšího rozvoje Sekvenační strategie •nutno velmi dobře počítat než se začne sekvenovat • •celkový výtěžek sekvenování = počet „reads“ * délka „reads“ * coverage • •zásadně závisí na konkrétním cíli výzkumu a použité technologii • •…JEDEN VZOREK NA RUN JE MÁLO • • • • • • • • • • •Sekvenační strategie •Kapilární sekvenátor •Sekvenátor druhé generace •U kapilárních sekvenátorů není problém přiřadit sekvenci k jednotlivým vzorkům na základě pozice na platíčku •U sekvenátorů druhé generace se najednou sekvenuje pool desítek až stovek vzorků •…JEDEN VZOREK NA RUN JE MÁLO • • • • • • • • • • •Sekvenační strategie •Jednotlivé vzorky pro sekvenátory druhé generace se značí tzv. barcody (midy, tagy) • •Krátká (obvykle 6-12bp) oligonukleotidová sekvence před primerem, která je specifická pro daný vzorek • •Přiřazení identity jednotlých sekvencí k vzorkům probíhá bioinformaticky • • •AGCGTAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. •TTCGTAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. •TGGGTAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. •TGCCTAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. •TGCGCAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. •TGCGTTGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. •BARCODE PRIMER SEQUENCE •AMPLIKONOVÉ SEKVENOVÁNÍ • • • • • • • • •SHOT GUN SEKVENOVÁNÍ • • • • • • • • • •Fragmetace celogenomové DNA • •Ligace sekvenačních adaptorů • •Následná sekvenace náhodných fragmentů • •De novo assembly, resekvenování, transkriptomika, funkční složení daného společenstva •PCR Amplifikace konkrétního úseku daného genomu pomocí specifických primerů (se sekvenačními adaptory) • •Následná sekvenace • •Taxonomické složení daného vzorku („metabarcoding“), variabilita konkrétních genů apod. •Sekvenační strategie •TO NENÍ VŠECHNO.............. •Sequence capture + shot gun • • • • • • • • •Separace úseků genomu které nás zajímají na základě jejich hybridizace • •Následná sekvenace obohacených knihoven („enrichement“) • •Nové markery (mikrosatelity apod.), kódující oblasti genomu („exom“), „anchored phylogenomics“ apod. •Sekvenační strategie •Anchored phylogenomics • •hundreds of conserved loci •hybridization enrichement •u velmi příbuzných taxonů bude málo variability TreeOfBirdsResolved Anchored Phylogenomics •198 species •259 nuclear loci (ca 1500 bp each) •> 390 000 bp •October 2015 •Long range PCR + shot gun • •Dlouhé PCR produkty, které nejdou vcelku osekvenovat • •Jejich fragmentace • •Sekvenování fragmetů • •Zpětná rekonstrukce původní sekvence („assembly“) • •Použitelné pokud nás zajímá variablita v jednolitém úseku DNA. Např. sekvenace mitochodrální DNA (3 různé PCR produkty). •Sekvenační strategie •Sekvenování podél restrikčních míst • • • • • • • • • •Fragmetace gelogenomové DNA po mocí restrikčních enzymů • •Ligace sekvenačních adaptorů na výsledné fragmenty • •Následná sekvenace podél restrikčních míst • •Celogenomové scany genetické variablility • •Hledání SNPs, populační genomika (např. RAD-SEQ) apod. • •Sekvenační strategie Aplikace 1.Celogenomové sekvenování de novo 2. 2.Celogenomové resekvenování 3. 3.Sekvenování amplikonů (PCR produktů) 4. 4.Další aplikace – např. hledání klasických DNA markerů (mikrosatelity, SNPs) •1. Celogenomové sekvenování de novo •Problém: KRÁTKÝ READ LENGTH - 400bp 454 FLX Roche (dnes i Illumina), 35-75bp Solid •× vs 800-1000bp Sanger •- nové technologie (PacBio, Nannopore) už s tím takový problém nemají •!!!!! REPETITIVNÍ OBLASTI delší než read length !!!!! •GTAAAAAAAAAAAAAAAAAAAAC •Zvláště komplexní eukaryotické genomy – úseky souvislých oblastí přerušených mezerami •→ Uspořádání (assembly) ještě stále může být problém z hlediska výpočetní kapacity • •získání kompletní uspořádané sekvence celých velkých eukaryotních genomů pomocí next-generation sequencing de novo je problém (ale to je nakonec i u Sangera) •viry, prokaryota, malá eukaryota, mitochondrie/plastidy/plasmidy •1. Celogenomové sekvenování de novo •2009 •2015 •2. Celogenomové resekvenování • KOMPARATIVNÍ GENOMIKA - viry, prokaryota, malá eukaryota - mitochondrie/plastidy/plasmidy •- podobné problémy jako u de novo, ale méně (větší strukturální přestavby..) • ANCIENT (mt) DNA - různé směsné, degradované vzorky, např. fosilie • •Degraded state of the sample à mitDNA sequencing •Nuclear genomes of ancient remains: cave bear, mommoth, Neanderthal (106 bp ) C:\Documents and Settings\Antonio\Escritorio\mammoth.jpg C:\Documents and Settings\Antonio\Escritorio\neardenthal.jpg C:\Documents and Settings\Antonio\Escritorio\cavebear.jpg •Problems: contamination modern humans and coisolation bacterial DNA •3.Sekvenování amplikonů (PCR produktů) •SMĚSNÉ VZORKY – paralelní sekvenování nahrazuje klonování •Metagenomika (= hlavně prokaryota) •Celé společenstvo půdních, vodních mikroorganismů, střevní mikroflóra - mikrobiom •PCR genu 16S rRNA •lze i kvantifikovat •Metabarcoding (= hlavně eukaryota, ale dnes používáno jako obecný termín) •COI gen, příp. jiný barcodingový marker •složení potravy, monitoring společenstev • •Metabarcoding: Taxonomické složení společenstva v environmentální DNA na základě taxonomicky informativního úseku DNA (cyt b, COI, ITS, rRNA...) • • • •Princip •Směsný vzorek enviromentální DNA •Amplifikace pomoci primerů specifických pro cílovou skupinu, pokrývající taxonomicky informativní úsek (COI, 16s/18s RNA...) •Paralelni sekvenování •Filtrování nekvalitních sekvencí •Klastrování na základě sekvenční podobnosti do OTUs („operational taxonomic units“) •Jejich taxonomické zařazení na základě referenčních databází • •Využití: Analýza druhového vzorků kde lze makroskopicky jednotlivé druhy obtížně odlišit •Potravní analýza z trusu •Vzorky půdy •Mikrobiální společenstva •Permafrost •Exotická/špatně probádaná společenstva •Druhově bohatá společenstva („insect traps“ v tropech) •Rutinní analýza velkého množství vzorků • • •Metabarcoding • • •Taxonomické složení společenstva na základě taxonomicky informativního úseku DNA • •Alternativy: • Klonování amplikonů a sekvenování klonů • Specifické elektroforézy – např. DGGE • •Výhody paralelního sekvenování •Cenově i časově míň nákladné •Lépe se zachytí vzácné taxony (zlomky promile) • •Ale: •Riziko umělého navýšení diversity díky chybám při procesování dat •Do jaké míry jsou referenční databáze dostatečné ke klasifikaci vzorků? •Lze použít tato data kvantitativně a nebo vypovídají jen o přítomnosti/nepřítomnosti? •Metabarcoding – příklady využití •Mark Blaxter, Edinburgh Genomics •Společenstvo eukaryot ve vrchní vrstvě půdy •Metabarcoding – příklady využití •Mark Blaxter, Edinburgh Genomics •Společenstvo eukaryot ve vrchní vrstvě půdy •Metabarcoding – příklady využití •Mark Blaxter, Edinburgh Genomics •Metabarcoding – příklady využití •Mark Blaxter, Edinburgh Genomics •Metabarcoding – příklady využití •Monitoring vzácných, nedávno popsaných druhů savců na základě sekvenování krve pijavic • •Výrazně větši úspěšnost prokázání přítomnosti než za použití klasických technik – fotopasti, terénní pozorování apod. •Metabarcoding – příklady využití •Detekce ryb pomocí izolace eDNA z mořské vody •-taky jedna z nejefektivnějších metod •Metabarcoding – příklady využití •Analýza potravy • •Podíl hospodářských zvířat v potravě irbise je minimální • •Metabarcoding – příklady využití •Analýza složení společenstva na základě ancient DNA z koprolitů moa (Nový Zéland) • •Umožňuje odhadnout typ prostředí které jednotlivé druhy obývaly a separaci ekologických nik • •3.Sekvenování amplikonů (PCR produktů) •Genové duplikace kachna-divoka-1 •A-adaptor •MID •Target specific •Amplifikuje všechny kopie MHC genů •Označí jedince •Potřeba k emPCR, sekvenování.. •192 jedinců u 454 pyrosekvenování •Amplikonové sekvenování •MHC u hýla rudého • •- 454 má větší rozlišovací schopnost než SSCP + klonování • •4. Další aplikace – hledání nových genetických markerů •Mikrosatelity •sekvenování obohacených knihoven •SNPs •kompletní genomické sekvence pro hledání diagnostických SNPs •např. RAD-sequencing • •Hledání nových genetických markerů - mikrosatelity •Obvyklý postup: • -Obohacení genomické knihovy o mikrosatelitové motivy – sequence capture • -Sekvenování obohacených knihoven • -Detekce mikrosatelitů a navržení vhodných primerů mys2 musculus domesticus mys2 mys2 mys2 mys2 mys2 mys2 mys2 mys2 mys2 •1 •2 •3 •4 •5 •6 •7 •8 •9 •10 • •smíchat a osekvenovat •G •G •T •G •G •T •T •G •10 jedinců •10 jedinců •G •G •G •G •G •G •G •G •T •T •T •T •T •T •T •T • • •Hledání diagnostických SNP (např. pro studium hybridizace) •Sekvenování podél restrikčních míst • • • • • • • • • •Fragmetace gelogenomové DNA po mocí restrikčních enzymů • •Ligace sekvenačních adaptorů na výsledné fragmenty • •Následná sekvenace podél restrikčních míst • •Celogenomové scany genetické variablility • •Hledání SNPs, populační genomika (např. RAD-SEQ) apod. • •Hledání nových SNPs – RAD-sequencing Sekvenování podél restrikčních míst •„genotyping by sequencing“ RAD vs. ddRAD Sekvenování podél restrikčních míst •Review a příklady •Review a příklady Příště: Analýza genové exprese