Next-generation sequencing (NGS) High-throughput sequencing (HTS) Sanger sequencing TTCAGTCAGATTTACGCTAACCCT Rev. Primer - F Primer - R Primer - F - AAGTC=O Primer - F - AAGTCAGTCTA=O Primer - F - AAGTCAGTCTAA=O Primer - F - AAGTCA=O Primer - F - AAGTCAGTCT=O Primer - F - AAGTCAGTC=O Primer - F - AAGTCAGT=O Primer - F - AAGTCAG=O - + Fig1 AAGTCAGTCTAAATGCGATTGGGA Primer - F Rev. Primer - R krátké -------------- dlouhé (rychlé) ------------ (pomalé) Sequencing – Sangerova metoda Fig1 DNA PCR product cloned fragment - + laser beam detector capillary electrophoresis G C G A G C T Sanger tools_1a 4-kapilární sekvenátor = 96 x 500 bp/12 hodin = cca 100 000 bp/den Evoluce Sangerova sekvenování Sequencing – Sangerova metoda Fig1 DNA PCR product cloned fragment - + laser beam detector capillary electrophoresis G C G A G C T Sanger tools_1a 96-kapilární sekvenátor = 2304 x 500 bp/12 hodin = cca 2 400 000 bp/den HTS (Illumina NovaSeq 6000) = cca 6 000 000 000 000 bp/den Next-generation sequencing (NGS) Next Generation Sequencing Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky Lidský genom = 3 Gb cca 5000 lidských genomů/run Historie „Next generation sequencing“ 454 pyrosequencing ... první komerčně dostupná NGS technologie od srpna 2007 2016 – ohlášené stažení z trhu (Roche) Široké spektrum technologií Ale jen některé přežijí Dnes dostupné NGS platformy •Roche 454 •Illumina (MiSeq, NextSeq, HiSeq, NovaSeq) •ABI SOLiD •IonTorrent (Life Technologies) •SMRT (Pacific Biosciences) •Oxford Nannopore •… - v současné době nejrozšířenější typ (cca 70%) na trhu - v horizontu následujících let její používání spíš poroste - NextSeq, NovaSeq, etc. https://www.illumina.com/systems/sequencing-platforms.html Illumina HiSeq/MiSeq https://www.youtube.com/watch?annotation_id=annotation_228575861&feature=iv&src_vid=womKfikWlxM&v=f Cd6B5HRaZ8 = one „read“ up to 16 Data analysis in Geneious individual reads reference (in resequencing) consensus Data analysis in Geneious individual reads reference (in resequencing) consensus Další NGS technologie 454 pyrosequencing (Roche) Illumina Ion sequencing: ThermoFisher Scientific Ion Torrent technology Využívá změny pH při syntéze DNA DNBSEQ technology https://www.youtube.com/watch?v=xUVdJN0m38c „DNA Nanoballs (DNB)“ - MGI https://en.mgi-tech.com/products/ 3rd generation of sequencing (TGS) •Dlouhá délka čtení, bez amplifikace •Přímé čtení oblastí genomu, které je složité analyzovat metodami s krátkými ready •Rovnoměrné pokrytí genomu – nejsou sensitivní na obsah GC (na rozdíl od platform s krátkými ready) •(1) PacBio •(2) Oxford Nanopore SMRT („single molecule real-time sequencing“) – Pacific Biosciences dlouhé čtení (15 kb), hodně chyb http://www.youtube.com/watch?v=v8p4ph2MAvI HiFi long-read sequencing dlouhé čtení, velmi přesné Oxford Nannopore „Run until sequencing ...“ Princip technologie https://www.youtube.com/watch?v=CGWZvHIi3i0 Sekvenování přímo v terénu (?) Deployment of the portable genome surveillance system in Guinea. Ebola outbreak Quick et al., Nature 2016 Obsah obrázku text, snímek obrazovky, diagram, mapa Popis byl vytvořen automaticky Bioinformatika – největší brzda dalšího rozvoje Sekvenační strategie •nutno velmi dobře počítat než se začne sekvenovat • •celkový výtěžek sekvenování = počet „reads“ * délka „reads“ * coverage • •zásadně závisí na konkrétním cíli výzkumu a použité technologii • …JEDEN VZOREK NA RUN JE MÁLO Sekvenační strategie Kapilární sekvenátor Sekvenátor druhé generace U kapilárních sekvenátorů není problém přiřadit sekvenci k jednotlivým vzorkům na základě pozice na platíčku U sekvenátorů druhé generace se najednou sekvenuje pool desítek až stovek vzorků …JEDEN VZOREK NA RUN JE MÁLO Sekvenační strategie Jednotlivé vzorky pro sekvenátory druhé generace se značí tzv. barcody (midy, tagy) Krátká (obvykle 6-12bp) oligonukleotidová sekvence před primerem (pokud sekvenujeme PCR amplikon) nebo adaptorem (u ostatních genomických knihoven), která je specifická pro daný vzorek (tj. jedince) Přiřazení identity jednotlých sekvencí k vzorkům probíhá bioinformaticky AGCGTAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. TTCGTAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. TGGGTAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. TGCCTAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. TGCGCAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. TGCGTTGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT.................. BARCODE PRIMER SEQUENCE Příklad amplikonů AMPLIKONOVÉ SEKVENOVÁNÍ (amplikony kratší než délka readů) SHOT GUN SEKVENOVÁNÍ LONG-RANGE PCR + SHOT GUN (amplikony delší než délka readů) Sekvenační strategie AMPLIKONOVÉ SEKVENOVÁNÍ SHOT GUN SEKVENOVÁNÍ Fragmetace celogenomové DNA (ultrazvukem nebo enzymaticky = „fragmentáza“) Ligace sekvenačních adaptorů Následná sekvenace náhodných fragmentů De novo assembly, resekvenování, transkriptomika, funkční složení daného společenstva PCR Amplifikace konkrétního úseku daného genomu pomocí specifických primerů (se sekvenačními adaptory) Následná sekvenace Taxonomické složení daného vzorku („metabarcoding“), variabilita konkrétních genů apod. Sekvenační strategie LONG RANGE PCR + SHOT GUN Dlouhé PCR produkty, které nejdou vcelku osekvenovat Jejich fragmentace Sekvenování fragmetů Zpětná rekonstrukce původní sekvence („assembly“) Použitelné pokud nás zajímá variablita v jednolitém úseku DNA. Např. sekvenace kompletní mitochodrální DNA (3 různé PCR produkty). Sekvenační strategie AMPLIKONOVÉ SEKVENOVÁNÍ (amplikony kratší než délka readů) SHOT GUN SEKVENOVÁNÍ LONG-RANGE PCR + SHOT GUN (amplikony delší než délka readů) Sekvenační strategie KOMPLETNÍ GENOM (např. virový genom z obohacených vzorků) REDUKOVANÝ GENOM •PCR amplicons •Knihovny obohacené hybridizací (development of microsatellite markers, exom, anchored phylogenomics, UCE = ultraconserved elements, etc.) •Knihovny obohacené o restrikční fragmenty (RAD sequencing) •RNAseq (transkriptomika – soubor všech mRNA) Sekvenační strategie Fuentes-Pardo & Ruzzante 2017 Sekvenační strategie Separace úseků genomu které nás zajímají na základě jejich hybridizace Následná sekvenace obohacených knihoven („enrichment by baits“) Nové markery (mikrosatelity apod.), kódující oblasti genomu („exom“), „anchored phylogenomics“ apod. Sekvenační strategie Anchored phylogenomics •hundreds of conserved loci •hybridization enrichement •u velmi příbuzných taxonů bude málo variability Obohacené knihovny + shot gun TreeOfBirdsResolved Anchored Phylogenomics 198 species 259 nuclear loci (ca 1500 bp each) > 390 000 bp October 2015 https://www.ultraconserved.org/ 100 USD/sample Sekvenování podél restrikčních míst (Enriched libraries by restriction enzymes) Fragmetace celogenomové DNA pomocí restrikčních enzymů Ligace sekvenačních adaptorů na výsledné fragmenty Následná sekvenace podél restrikčních míst Celogenomové scany genetické variablility Hledání SNPs, populační genomika (např. RAD-SEQ) apod. RAD = „Restriction sites Associated Dna“ Sekvenační strategie RAD vs. ddRAD Postup ddRAD analýzy •1 – Štěpení •2 – Size-selekce na magnetických kuličkách •3 – Ligace adaptorů •4 – Přečištění na magnetických kuličkách •5 – PCR (namnožení RAD fragmentů, primery s barcody) •6 – Pooling (ve stejných koncentracích pro různé vzorky = multiplexování) •7 – Size-selekce (Pippin prep) a kontrola na Bioanalyser •8 – qPCR (kvantifikace knihovny) •9 – High-throughput sekvenování • •(podle Adapterama) • (podle Peterson 2012) ddRAD library o tuto sekvenci nám jde! sekvenační primery Illumina adapter Illumina adapter identifikace vzorku (jedince) Analýza dat z ddRADseq program Skewer program iPyrad - stovky až desítky tisíc lokusů Aplikace 1.Celogenomové sekvenování de novo 2. 2.Celogenomové resekvenování 3. 3.Sekvenování amplikonů (PCR produktů) 4. 4.Další aplikace – např. hledání klasických DNA markerů (mikrosatelity, SNPs) 1. Celogenomové sekvenování de novo Problém: KRÁTKÝ READ LENGTH - max 300bp u Illumina, 35-75bp Solid × vs 800-1000bp Sanger - nové technologie (PacBio, Nannopore) už s tím takový problém nemají -> celé genomy se sekvenují kombinací přístupů s krátkými a dlouhými ready !!!!! REPETITIVNÍ OBLASTI delší než read length !!!!! GTAAAAAAAAAAAAAAAAAAAAC Zvláště komplexní eukaryotické genomy – úseky souvislých oblastí přerušených mezerami („contigs“) → Uspořádání (assembly) ještě stále může být problém z hlediska výpočetní kapacity •získání kompletní uspořádané sekvence celých velkých eukaryotních genomů pomocí next-generation sequencing de novo byl donedávna problém (dnes se kombinují dlouhé a krátké ready) •viry, prokaryota, malá eukaryota, mitochondrie/plastidy/plasmidy – rutinní screening („pathogen hunting“) 1. Celogenomové sekvenování de novo 2009 2015 2. Celogenomové resekvenování KOMPARATIVNÍ GENOMIKA - viry, prokaryota, malá eukaryota - mitochondrie/plastidy/plasmidy - podobné problémy jako u de novo, ale méně ANCIENT (mt) DNA - různé směsné, degradované vzorky, např. fosilie •Degradovaná DNA à sekvenování mtDNA •ale dnes i jaderná DNA ze subfosilního materiálu (jeskynní medvědi, mamuti, neandrtálci ....) C:\Documents and Settings\Antonio\Escritorio\mammoth.jpg C:\Documents and Settings\Antonio\Escritorio\neardenthal.jpg C:\Documents and Settings\Antonio\Escritorio\cavebear.jpg Analýza muzejního materiálu (např. holotypy) Genome skimming (low coverage sekvenování kompletní vyizolované DNA) 3.Sekvenování amplikonů (PCR produktů) SMĚSNÉ VZORKY – paralelní sekvenování nahrazuje klonování Metagenomika (= hlavně prokaryota) •Celé společenstvo půdních, vodních mikroorganismů, střevní mikroflóra - mikrobiom •PCR genu 16S rRNA •lze i kvantifikovat Metabarcoding (= hlavně eukaryota, ale dnes používáno jako obecný termín) •COI gen, příp. jiný barcodingový marker Metabarcoding eDNA = environmental DNA Metabarcoding: Taxonomické složení společenstva v environmentální DNA na základě taxonomicky informativního úseku DNA (cyt b, COI, ITS, rRNA...) •Směsný vzorek enviromentální DNA •Amplifikace pomoci primerů specifických pro cílovou skupinu, pokrývající taxonomicky informativní úsek (COI, 16s/18s RNA...) •Paralelni sekvenování •Filtrování nekvalitních sekvencí •Klastrování na základě sekvenční podobnosti do OTUs („operational taxonomic units“) •Jejich taxonomické zařazení na základě referenčních databází Využití: Analýza druhového složení vzorků kde lze makroskopicky jednotlivé druhy obtížně odlišit •Potravní analýza z trusu •Vzorky půdy •Mikrobiální společenstva („mikrobiom“ – nejen baktérie, ale i houby, prvoci, fágy, ...) •Permafrost •Exotická/špatně probádaná společenstva •Druhově bohatá společenstva („insect traps“ v tropech) •Rutinní analýza velkého množství vzorků Metabarcoding – příklady využití Monitoring vzácných, nedávno popsaných druhů savců na základě sekvenování krve pijavic Výrazně větši úspěšnost prokázání přítomnosti než za použití klasických technik – fotopasti, terénní pozorování apod. Metabarcoding – příklady využití Detekce ryb pomocí izolace eDNA z mořské vody -taky jedna z nejefektivnějších metod Metabarcoding – příklady využití Analýza potravy Podíl hospodářských zvířat v potravě irbise je minimální Metabarcoding – příklady využití Analýza složení společenstva na základě ancient DNA z koprolitů moa (Nový Zéland) Umožňuje odhadnout typ prostředí které jednotlivé druhy obývaly a separaci ekologických nik 3.Sekvenování amplikonů (PCR produktů) Genové duplikace (např. MHC geny) kachna-divoka-1 A-adaptor MID Target specific Amplifikuje všechny kopie MHC genů Označí jedince Potřeba k HTS sekvenování Amplikonové sekvenování MHC u hýla rudého - HTS má větší rozlišovací schopnost než SSCP + klonování 4. Další aplikace – hledání nových genetických markerů Mikrosatelity •sekvenování obohacených knihoven SNPs •kompletní nebo redukované („enriched“) genomické sekvence pro hledání diagnostických SNPs •např. RAD-sequencing • Hledání nových genetických markerů - mikrosatelity Obvyklý postup: -Obohacení („enrichment“) genomické knihovy o mikrosatelitové motivy – sequence capture -Sekvenování obohacených knihoven -Detekce mikrosatelitů a navržení vhodných primerů mys2 musculus domesticus mys2 mys2 mys2 mys2 mys2 mys2 mys2 mys2 mys2 1 2 3 4 5 6 7 8 9 10 smíchat a osekvenovat G G T G G T T G 10 jedinců 10 jedinců G G G G G G G G T T T T T T T T Hledání diagnostických SNP (např. pro studium hybridizace) •hledání zafixovaných polymorfismů - bioinformaticky •např. pro analýzu v hybridních zónách – identifikace genomických fragmentů, které nepřecházejí hybridní zónu a jsou zodpovědné za udržování druhových hranic (pokud máme referenční genom) Sekvenování podél restrikčních míst Fragmetace gelogenomové DNA po mocí restrikčních enzymů Ligace sekvenačních adaptorů na výsledné fragmenty Následná sekvenace podél restrikčních míst Celogenomové scany genetické variablility Hledání SNPs, populační genomika (např. RAD-SEQ) apod. Hledání nových SNPs – RAD-sequencing Př.: Fylogenomika hlodavců rodu Lophuromys •ancestral lineage „trapped“ in Ethiopian highlands, where diversified and sourced the colonization of other mountains (mostly in Pleistocene) • •Lophuromys flavopunctatus complex (9 Ethiopian species) • • • 9 endemic species in Ethiopia Lophuromys - questions •Are there really 9 well delimited species? •Are they easily (genetically) recognizable? (e.g. mtDNA-barcoding) •What is their distribution and ecological requirements? -> IUCN assessment, etc. Material and Methods •cca 500 specimens from all major mountain ranges • mtDNA marker (CYTB) •4 nuclear markers (2 introny + 2 exony) •genomic approach – ddRAD sequencing Analýza dat z ddRADseq program Skewer program iPyrad - stovky až desítky tisíc lokusů Retaining well-covered & informative loci •All loci •HQ loci •No. of individuals: 213 •No. of loci: 15164 •No. of informative loci: 15164 •No. of SNPs / PISs per informative locus: • Min: 1 / 1 • 25%: 17 / 14 • 50%: 25 / 21 • 75%: 32 / 28 • Max: 57 / 54 •Loci per individual: • Min: 3393 • 25%: 6912 • 50%: 8074 • 75%: 9297 • Max: 11912 •Individuals per locus: • Min: 54 • 25%: 74 • 50%: 103 • 75%: 149 • Max: 208 •Proportion of missing data: 0.47 •No. of individuals: 213 •No. of loci: 80570 •No. of informative loci: 69724 •No. of SNPs / PISs per informative locus: • Min: 1 / 1 • 25%: 5 / 4 • 50%: 10 / 9 • 75%: 20 / 17 • Max: 60 / 57 •Loci per individual: • Min: 5178 • 25%: 9719 • 50%: 12000 • 75%: 14607 • Max: 23205 •Individuals per locus: • Min: 4 • 25%: 6 • 50%: 13 • 75%: 37 • Max: 208 •Proportion of missing data: 0.85 ✔ ✔ 80 570 loci → filtering → 15 164 loci ddRADseq: co-ancestry matrix lophuromys_eth-SimpleCoancestry.png 209 individuals 15 623 informative loci 9 „gene pools“ Maximum likelihood analysis of concatenated nuclear dataset 4 nuclear markers (V. Komarova et al.) (2 604 bp concatenated dataset) Sanger sequencing ddRADseq 15 623 informative loci 100 100 100 100 100 100 99 100 100 100 100 100 100 100 100 100 97 44 88 100 100 94 95 100 98 92 83 91 94 77 86 77 brevicaudus flavopunctatus brunneus 2n = 68 melanonyx chrysopus menangeshae pseudosikapusi chercherensis 2n = 70 simensis 2n = 60 2n = 54 And what about mtDNA? ddRADseq 15 623 informative loci 100 100 100 100 100 100 99 100 100 100 100 100 100 100 100 100 brevicaudus flavopunctatus brunneus melanonyx chrysopus menangeshae pseudosikapusi chercherensis simensis 100 100 96 93 96 97 96 100 82 89 88 100 100 100 100 100 100 97 mtDNA cytochrome b (1140 bp) 2n = 68 2n = 70 2n = 60 2n = 54 ddRADseq 15 623 informative loci 100 100 100 100 100 100 99 100 100 100 100 100 100 100 100 100 brevicaudus flavopunctatus brunneus melanonyx chrysopus menangeshae pseudosikapusi chercherensis simensis 100 100 96 93 96 97 96 100 82 89 88 100 100 100 100 100 100 97 mtDNA cytochrome b (1140 bp) And what about mtDNA? „reticulate evolution“ resulting in mtDNA introgression