Next-generation sequencing (NGS) Sanger sequencing TTCAGTCAGATTTACGCTAACCCT •Rev. Primer - F •Primer - R •Primer - F • - AAGTC=O •Primer - F • - AAGTCAGTCTA=O •Primer - F • - AAGTCAGTCTAA=O •Primer - F • - AAGTCA=O •Primer - F • - AAGTCAGTCT=O •Primer - F • - AAGTCAGTC=O •Primer - F • - AAGTCAGT=O •Primer - F • - AAGTCAG=O •- •+ Fig1 AAGTCAGTCTAAATGCGATTGGGA •Primer - F •Rev. Primer - R •krátké -------------- dlouhé •(rychlé) ------------ (pomalé) Sequencing – Sangerova metoda Fig1 •DNA • •PCR product •cloned fragment • •- •+ • •laser beam • •detector •capillary electrophoresis •G •C •G •A •G •C •T Sanger tools_1a •4-kapilární sekvenátor •= • 96 x 500 bp/12 hodin •= •cca 100 000 bp/den Evoluce Sangerova sekvenování Sequencing – Sangerova metoda Fig1 •DNA • •PCR product •cloned fragment • •- •+ • •laser beam • •detector •capillary electrophoresis •G •C •G •A •G •C •T Sanger tools_1a •4-kapilární sekvenátor •= • 96 x 500 bp/12 hodin •= •cca 100 000 bp/den •Next-generation sequencing •= • cca 5 000 000 000 bp/den Next-generation sequencing (NGS) • • • •Next Generation Sequencing Historie „Next generation sequencing“ •454 pyrosequencing ... první komerčně dostupná NGS technologie od srpna 2007 • •2016 – ohlášené stažení z trhu (Roche) Široké spektrum technologií Ale jen některé přežijí Dnes dostupné NGS platformy •Roche 454 •Illumina HiSeq a MiSeq •ABI SOLiD •IonTorrent (Life Technologies) •SMRT (Pacific Biosciences) •Oxford Nannopore •… 454 pyrosequencing • •emulzní techniky amplifikace pikolitrové objemy • •simultánní sekvenování na destičce z optických vláken detekce pyrofosfátů uvolňovaných při inkorporaci bazí • •První generace GS20 → 200 000 reakcí najednou (zhruba 20 milionů bp) FLX systém → 400 000 reakcí najednou = eukaryotní genom za týden!!! • •Délka jednotlivých sekvencí 100 – 400 (800 bp) • •1 600 000 well plate •DNA Fragmentation •(Nebulization): •Adaptor Ligation: •Adaptor A + Adaptor B -Slouží jako vazebné místo primerů pro následnou PCR amplifikaci a sekvenování -Slouží k uchycení na kuličky (na adaptor B je připojen biotin) •Library Immobilization: • ssDNA Library Isolation: •1. Příprava jednořetězcové DNA knihovny (ssDNA library preparation) •2. Namnožení každé jednotlivé molekuly pomocí emulzní PCR (emPCR) •Preparation of the •Amplific. Mixes •DNA Library Capture: •Emulsification: •emPCR Amplification: •- poměry nastavit tak aby 1kulička ≤ 1 molekula DNA •Sequencing Primer Annealing: •3. Pyrosekvenování („sequencing by synthesis“) •pikotitrační destička •Na jedné desticče 400 000 až 1milión jamek -postupně se přidávají nukleotidy v definovaném pořadí: např. TACG TACG TACG -po přidání každého nukleotidu a detekci signálu se nukleotid odmyje a přidá se další odmyje • C T CC G • T A C G T A C G •DNA sekvence: C T C C G •Problém!!!! Homoplymery např. AAAAAAAAAA •3. Pyrosekvenování – detekce signálu •http://www.youtube.com/watch?v=bFNjxKHP8Jc High-throughput – paralelní sekvenování •!!! Samozřejmě nestačí mít každou bázi osekvenovanou 1x !!! - Pospojování (reads assembly) do souvislé sekvence - Nepřesnosti – pokrytí (coverage) •Mus: 2700 Mb → 7 run 1x coverage •Caenorhabditis: 100 Mb → 1 run 4x coverage •E. coli: 5 Mb → 1 run 80x coverage •mitoch. Mus: 0.016 Mb → 1 run 25000x coverage •HIV: 0.01 Mb → 1 run 40000x coverage • •Kapacita destičky 400 Mb (GS FLX Titanium): -k dispozici 12 odlišných MID •(„multiplexing“) •16 „gaskets“ •V každém max. 12 vzorků (každý označen svým MID) •12 MID •X •16 gaskets •= •max. 192 vzorků 1.CCCCCCCCCC 2.GGGGGGGGG •. •. •. •12. CCCCCAAAG • - v současné době nejrozšířenější typ (cca 70%) na trhu • - v horizontu následujících let její používání spíš poroste • • • http://www.youtube.com/watch?v=womKfikWlxM:: • •Illumina HiSeq/MiSeq •Illumina HiSeq •Illumina MiSeq • • •https://www.youtube.com/watch?annotation_id=annotation_228575861&feature=iv&src_vid=womKfikWlxM&v= fCd6B5HRaZ8 NGS technologie •454 pyrosequencing •(Roche) •Illumina •Ion sequencing: Life Technologies • •Ion Torrent technology Využívá změny pH při syntéze DNA SMRT („single molecule real-time sequencing“) – Pacific Biosciences •dlouhé čtení (15 kb), hodně chyb •http://www.youtube.com/watch?v=v8p4ph2MAvI 3rd generation: Oxford Nannopore •„Run until sequencing ...“ Princip technologie •http://www.youtube.com/watch?v=3UHw22hBpAk Sekvenování přímo v terénu (?) Deployment of the portable genome surveillance system in Guinea. •Ebola outbreak •Quick et al., Nature 2016 Přehled současných metod NGS Výkonnost jednotlivých metod Chybovost jednotlivých metod Bioinformatika – největší brzda dalšího rozvoje Sekvenační strategie •nutno velmi dobře počítat než se začne sekvenovat • •celkový výtěžek sekvenování = počet „reads“ * délka „reads“ * coverage • •zásadně závisí na konkrétním cíli výzkumu a použité technologii • •…JEDEN VZOREK NA RUN JE MÁLO • • • • • • • • • • •Sekvenační strategie •Kapilární sekvenátor •Sekvenátor druhé generace •U kapilárních sekvenátorů není problém přiřadit sekvenci k jednotlivým vzorkům na základě pozice na platíčku •U sekvenátorů druhé generace se najednou sekvenuje pool desítek až stovek vzorků •…JEDEN VZOREK NA RUN JE MÁLO • • • • • • • • • • •Sekvenační strategie •Jednotlivé vzorky pro sekvenátory druhé generace se značí tzv. barcody (midy, tagy) • •Krátká (obvykle 6-12bp) oligonukleotidová sekvence před primerem, která je specifická pro daný vzorek • •Přiřazení identity jednotlých sekvencí k vzorkům probíhá bioinformaticky • • •AGCGTAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. •TTCGTAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. •TGGGTAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. •TGCCTAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. •TGCGCAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. •TGCGTTGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. •BARCODE PRIMER SEQUENCE •AMPLIKONOVÉ SEKVENOVÁNÍ • • • • • • • • •SHOT GUN SEKVENOVÁNÍ • • • • • • • • • •Fragmetace celogenomové DNA • •Ligace sekvenačních adaptorů • •Následná sekvenace náhodných fragmentů • •De novo assembly, resekvenování, transkriptomika, funkční složení daného společenstva •PCR Amplifikace konkrétního úseku daného genomu pomocí specifických primerů (se sekvenačními adaptory) • •Následná sekvenace • •Taxonomické složení daného vzorku („metabarcoding“), variabilita konkrétních genů apod. •Sekvenační strategie •TO NENÍ VŠECHNO.............. •Sequence capture + shot gun • • • • • • • • •Separace úseků genomu které nás zajímají na základě jejich hybridizace • •Následná sekvenace obohacených knihoven („enrichement“) • •Nové markery (mikrosatelity apod.), kódující oblasti genomu („exom“), „anchored phylogenomics“ apod. •Sekvenační strategie Anchored phylogenomics •hundreds of conserved loci •hybridization enrichement •u velmi příbuzných taxonů bude málo variability TreeOfBirdsResolved Anchored Phylogenomics •198 species •259 nuclear loci (ca 1500 bp each) •> 390 000 bp •October 2015 •Long range PCR + shot gun • •Dlouhé PCR produkty, které nejdou vcelku osekvenovat • •Jejich fragmentace • •Sekvenování fragmetů • •Zpětná rekonstrukce původní sekvence („assembly“) • •Použitelné pokud nás zajímá variablita v jednolitém úseku DNA. Např. sekvenace mitochodrální DNA (3 různé PCR produkty). •Sekvenační strategie •Sekvenování podél restrikčních míst • • • • • • • • • •Fragmetace gelogenomové DNA po mocí restrikčních enzymů • •Ligace sekvenačních adaptorů na výsledné fragmenty • •Následná sekvenace podél restrikčních míst • •Celogenomové scany genetické variablility • •Hledání SNPs, populační genomika (např. RAD-SEQ) apod. • •Sekvenační strategie Aplikace 1.Celogenomové sekvenování de novo 2. 2.Celogenomové resekvenování 3. 3.Sekvenování amplikonů (PCR produktů) 4. 4.Další aplikace – např. hledání klasických DNA markerů (mikrosatelity, SNPs) •1. Celogenomové sekvenování de novo •Problém: KRÁTKÝ READ LENGTH - 400bp 454 FLX Roche (dnes i Illumina), 35-75bp Solid •× vs 800-1000bp Sanger •- nové technologie (PacBio, Nannopore) už s tím takový problém nemají •!!!!! REPETITIVNÍ OBLASTI delší než read length !!!!! •GTAAAAAAAAAAAAAAAAAAAAC •Zvláště komplexní eukaryotické genomy – úseky souvislých oblastí přerušených mezerami •→ Uspořádání (assembly) ještě stále může být problém z hlediska výpočetní kapacity • •získání kompletní uspořádané sekvence celých velkých eukaryotních genomů pomocí next-generation sequencing de novo je problém (ale to je nakonec i u Sangera) •viry, prokaryota, malá eukaryota, mitochondrie/plastidy/plasmidy •1. Celogenomové sekvenování de novo •2009 •2015 •2. Celogenomové resekvenování • KOMPARATIVNÍ GENOMIKA - viry, prokaryota, malá eukaryota - mitochondrie/plastidy/plasmidy •- podobné problémy jako u de novo, ale méně (větší strukturální přestavby..) • ANCIENT (mt) DNA - různé směsné, degradované vzorky, např. fosilie • •Degraded state of the sample à mitDNA sequencing •Nuclear genomes of ancient remains: cave bear, mommoth, Neanderthal (106 bp ) C:\Documents and Settings\Antonio\Escritorio\mammoth.jpg C:\Documents and Settings\Antonio\Escritorio\neardenthal.jpg C:\Documents and Settings\Antonio\Escritorio\cavebear.jpg •Problems: contamination modern humans and coisolation bacterial DNA •3.Sekvenování amplikonů (PCR produktů) •SMĚSNÉ VZORKY – paralelní sekvenování nahrazuje klonování •Metagenomika (= hlavně prokaryota) •Celé společenstvo půdních, vodních mikroorganismů, střevní mikroflóra - mikrobiom •PCR genu 16S rRNA •lze i kvantifikovat •Metabarcoding (= hlavně eukaryota, ale dnes používáno jako obecný termín) •COI gen, příp. jiný barcodingový marker •složení potravy, monitoring společenstev • •Metabarcoding: Taxonomické složení společenstva v environmentální DNA na základě taxonomicky informativního úseku DNA (cyt b, COI, ITS, rRNA...) • • • •Princip •Směsný vzorek enviromentální DNA •Amplifikace pomoci primerů specifických pro cílovou skupinu, pokrývající taxonomicky informativní úsek (COI, 16s/18s RNA...) •Paralelni sekvenování •Filtrování nekvalitních sekvencí •Klastrování na základě sekvenční podobnosti do OTUs („operational taxonomic units“) •Jejich taxonomické zařazení na základě referenčních databází • •Využití: Analýza druhového vzorků kde lze makroskopicky jednotlivé druhy obtížně odlišit •Potravní analýza z trusu •Vzorky půdy •Mikrobiální společenstva •Permafrost •Exotická/špatně probádaná společenstva •Druhově bohatá společenstva („insect traps“ v tropech) •Rutinní analýza velkého množství vzorků • • •Metabarcoding • • •Taxonomické složení společenstva na základě taxonomicky informativního úseku DNA • •Alternativy: • Klonování amplikonů a sekvenování klonů • Specifické elektroforézy – např. DGGE • •Výhody paralelního sekvenování •Cenově i časově míň nákladné •Lépe se zachytí vzácné taxony (zlomky promile) • •Ale: •Riziko umělého navýšení diversity díky chybám při procesování dat •Do jaké míry jsou referenční databáze dostatečné ke klasifikaci vzorků? •Lze použít tato data kvantitativně a nebo vypovídají jen o přítomnosti/nepřítomnosti? •Metabarcoding – příklady využití •Mark Blaxter, Edinburgh Genomics •Společenstvo eukaryot ve vrchní vrstvě půdy •Metabarcoding – příklady využití •Mark Blaxter, Edinburgh Genomics •Společenstvo eukaryot ve vrchní vrstvě půdy •Metabarcoding – příklady využití •Mark Blaxter, Edinburgh Genomics •Metabarcoding – příklady využití •Mark Blaxter, Edinburgh Genomics •Metabarcoding – příklady využití •Monitoring vzácných, nedávno popsaných druhů savců na základě sekvenování krve pijavic • •Výrazně větši úspěšnost prokázání přítomnosti než za použití klasických technik – fotopasti, terénní pozorování apod. •Metabarcoding – příklady využití •Detekce ryb pomocí izolace eDNA z mořské vody •-taky jedna z nejefektivnějších metod •Metabarcoding – příklady využití •Analýza potravy • •Podíl hospodářských zvířat v potravě irbise je minimální • •Metabarcoding – příklady využití •Analýza složení společenstva na základě ancient DNA z koprolitů moa (Nový Zéland) • •Umožňuje odhadnout typ prostředí které jednotlivé druhy obývaly a separaci ekologických nik • •3.Sekvenování amplikonů (PCR produktů) •Genové duplikace kachna-divoka-1 •A-adaptor •MID •Target specific •Amplifikuje všechny kopie MHC genů •Označí jedince •Potřeba k emPCR, sekvenování.. •192 jedinců u 454 pyrosekvenování •Amplikonové sekvenování •MHC u hýla rudého • •- 454 má větší rozlišovací schopnost než SSCP + klonování • •4. Další aplikace – hledání nových genetických markerů •Mikrosatelity •sekvenování obohacených knihoven •SNPs •kompletní genomické sekvence pro hledání diagnostických SNPs •např. RAD-sequencing • •Hledání nových genetických markerů - mikrosatelity •Obvyklý postup: • -Obohacení genomické knihovy o mikrosatelitové motivy – sequence capture • -Sekvenování obohacených knihoven • -Detekce mikrosatelitů a navržení vhodných primerů mys2 musculus domesticus mys2 mys2 mys2 mys2 mys2 mys2 mys2 mys2 mys2 •1 •2 •3 •4 •5 •6 •7 •8 •9 •10 • •smíchat a osekvenovat •G •G •T •G •G •T •T •G •10 jedinců •10 jedinců •G •G •G •G •G •G •G •G •T •T •T •T •T •T •T •T • • •Hledání diagnostických SNP (např. pro studium hybridizace) •Sekvenování podél restrikčních míst • • • • • • • • • •Fragmetace gelogenomové DNA po mocí restrikčních enzymů • •Ligace sekvenačních adaptorů na výsledné fragmenty • •Následná sekvenace podél restrikčních míst • •Celogenomové scany genetické variablility • •Hledání SNPs, populační genomika (např. RAD-SEQ) apod. • •Hledání nových SNPs – RAD-sequencing Sekvenování podél restrikčních míst •„genotyping by sequencing“ RAD vs. ddRAD Sekvenování podél restrikčních míst •Review a příklady •Review a příklady Příště: Analýza genové exprese