Next-generation sequencing
(NGS)


Sanger sequencing
TTCAGTCAGATTTACGCTAACCCT
Rev. Primer - F
Primer - R
Primer - F
 - AAGTC=O
Primer - F
 - AAGTCAGTCTA=O
Primer - F
 - AAGTCAGTCTAA=O
Primer - F
 - AAGTCA=O
Primer - F
 - AAGTCAGTCT=O
Primer - F
 - AAGTCAGTC=O
Primer - F
 - AAGTCAGT=O
Primer - F
 - AAGTCAG=O
-
+
Fig1
AAGTCAGTCTAAATGCGATTGGGA
Primer - F
Rev. Primer - R
krátké -------------- dlouhé
(rychlé) ------------ (pomalé)

Sequencing – Sangerova metoda
Fig1
DNA
PCR product
cloned fragment
-
+
laser beam
detector
capillary electrophoresis
G
C
G
A
G
C
T
Sanger tools_1a
4-kapilární sekvenátor
=
 96 x 500 bp/12 hodin
=
cca 100 000 bp/den

Evoluce Sangerova sekvenování


Sequencing – Sangerova metoda
Fig1
DNA
PCR product
cloned fragment
-
+
laser beam
detector
capillary electrophoresis
G
C
G
A
G
C
T
Sanger tools_1a
96-kapilární sekvenátor
=
2304 x 500 bp/12 hodin
=
cca 2 400 000 bp/den
NGS (Illumina HiSeqX10)
=
 cca 600 000 000 000 bp/den

Next-generation sequencing
(NGS)


Next Generation Sequencing


Historie „Next generation sequencing“
454 pyrosequencing ... první komerčně dostupná NGS technologie od srpna 2007
2016 – ohlášené stažení z trhu (Roche)

Široké spektrum technologií


Ale jen některé přežijí


Dnes dostupné NGS platformy
•Roche 454
•Illumina HiSeq a MiSeq
•ABI SOLiD
•IonTorrent (Life Technologies)
•SMRT (Pacific Biosciences)
•Oxford Nannopore
•…

454 pyrosequencing
•
•emulzní techniky amplifikace
pikolitrové objemy
•
•simultánní sekvenování
na destičce z optických vláken
detekce pyrofosfátů uvolňovaných při inkorporaci bazí
•
•První generace GS20
→ 200 000 reakcí najednou
(zhruba 20 milionů bp)
FLX systém → 400 000 reakcí najednou = eukaryotní genom za týden!!!
•
•Délka jednotlivých sekvencí 100 – 400 (800 bp)
•
1 600 000 well plate

DNA Fragmentation
(Nebulization):
Adaptor Ligation:
Adaptor A + Adaptor B
-Slouží jako vazebné místo primerů pro následnou PCR amplifikaci a sekvenování
-Slouží k uchycení na kuličky (na adaptor B je připojen biotin)
Library Immobilization:
 ssDNA Library Isolation:
1. Příprava jednořetězcové DNA knihovny (ssDNA library preparation)

2. Namnožení každé jednotlivé molekuly pomocí emulzní PCR (emPCR)
Preparation of the
Amplific. Mixes
DNA Library Capture:
Emulsification:
emPCR Amplification:
- poměry nastavit tak aby 1kulička ≤ 1 molekula DNA
Sequencing Primer Annealing:

3. Pyrosekvenování („sequencing by synthesis“)
pikotitrační destička
Na jedné desticče 400 000 až 1milión jamek


-postupně se přidávají nukleotidy v definovaném pořadí: např. TACG   TACG   TACG
-po přidání každého nukleotidu a detekci signálu se nukleotid odmyje a přidá se další
                  C               T             CC    G
 T       A      C    G      T     A       C      G
DNA sekvence: C T C C G
Problém!!!! Homoplymery např. AAAAAAAAAA
3. Pyrosekvenování – detekce signálu
http://www.youtube.com/watch?v=bFNjxKHP8Jc

High-throughput – paralelní sekvenování
!!! Samozřejmě nestačí mít každou bázi osekvenovanou 1x !!!
- Pospojování (reads assembly) do souvislé sekvence
- Nepřesnosti – pokrytí (coverage)

Mus: 2700 Mb → 7 run 1x coverage
Caenorhabditis: 100 Mb      → 1 run 4x coverage
E. coli:  5 Mb → 1 run 80x coverage
mitoch. Mus: 0.016 Mb → 1 run 25000x coverage
HIV:  0.01 Mb → 1 run 40000x coverage
Kapacita destičky 400 Mb (GS FLX Titanium):
-k dispozici 12 odlišných MID
(„multiplexing“)
16 „gaskets“
V každém max. 12 vzorků (každý označen svým MID)
12 MID
X
16 gaskets
=
max. 192 vzorků
1.CCCCCCCCCC
2.GGGGGGGGG
.
.
.
12. CCCCCAAAG

- v současné době nejrozšířenější typ (cca 70%) na trhu
- v horizontu následujících let její používání spíš poroste
https://www.youtube.com/watch?annotation_id=annotation_228575861&feature=iv&src_vid=womKfikWlxM&v=f
Cd6B5HRaZ8
Illumina HiSeq/MiSeq
Illumina HiSeq
Illumina MiSeq


https://www.youtube.com/watch?annotation_id=annotation_228575861&feature=iv&src_vid=womKfikWlxM&v=f
Cd6B5HRaZ8


NovaSeq 6000 Sequencing System (2017)
ca. 48 human genomes/run
https://emea.illumina.com/systems/sequencing-platforms/comparison-tool.html?langsel=/cz/

NGS technologie
454 pyrosequencing
(Roche)
Illumina

Ion sequencing: Life Technologies
Ion Torrent technology


Využívá změny pH při syntéze DNA


SMRT („single molecule real-time sequencing“) – Pacific Biosciences
dlouhé čtení (15 kb), hodně chyb
http://www.youtube.com/watch?v=v8p4ph2MAvI


3rd generation: Oxford Nannopore


„Run until sequencing ...“


Princip technologie
http://www.youtube.com/watch?v=3UHw22hBpAk


Sekvenování přímo v terénu (?)
Deployment of the portable genome surveillance system in Guinea.
Ebola outbreak
Quick et al., Nature 2016


Přehled současných metod NGS


Výkonnost jednotlivých metod


Chybovost jednotlivých metod


Bioinformatika – největší brzda dalšího rozvoje


Sekvenační strategie
•nutno velmi dobře počítat než se začne sekvenovat
•
•celkový výtěžek sekvenování = počet „reads“ * délka „reads“ * coverage
•
•zásadně závisí na konkrétním cíli výzkumu a použité technologii
•

…JEDEN VZOREK NA RUN JE MÁLO

Sekvenační strategie
Kapilární sekvenátor
Sekvenátor druhé generace
U kapilárních sekvenátorů není problém přiřadit sekvenci k jednotlivým vzorkům na základě pozice na
platíčku
U sekvenátorů druhé generace se najednou sekvenuje pool desítek až stovek vzorků

…JEDEN VZOREK NA RUN JE MÁLO

Sekvenační strategie
Jednotlivé vzorky pro sekvenátory druhé generace se značí tzv. barcody (midy, tagy)
Krátká (obvykle 6-12bp) oligonukleotidová sekvence před primerem (pokud sekvenujeme PCR amplikon),
která je specifická pro daný vzorek
Přiřazení identity jednotlých sekvencí k vzorkům probíhá bioinformaticky
AGCGTAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT..................
TTCGTAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT..................
TGGGTAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT..................
TGCCTAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT..................
TGCGCAGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT..................
TGCGTTGGTCATTTCGATGCGGTCATGCCTGGATTAAAGCT..................
BARCODE      PRIMER                SEQUENCE

AMPLIKONOVÉ SEKVENOVÁNÍ
SHOT GUN SEKVENOVÁNÍ
Fragmetace celogenomové DNA
Ligace sekvenačních adaptorů
Následná sekvenace náhodných fragmentů
De novo assembly, resekvenování, transkriptomika, funkční složení daného společenstva
PCR Amplifikace konkrétního úseku daného genomu pomocí specifických primerů (se sekvenačními
adaptory)
Následná sekvenace
Taxonomické složení daného vzorku („metabarcoding“), variabilita konkrétních genů apod.
Sekvenační strategie
TO NENÍ VŠECHNO..............

Sequence capture + shot gun
Separace úseků genomu které nás zajímají na základě jejich hybridizace
Následná sekvenace obohacených knihoven („enrichement“)
Nové markery (mikrosatelity apod.), kódující oblasti genomu („exom“), „anchored phylogenomics“
apod.
Sekvenační strategie
Anchored phylogenomics
•hundreds of conserved loci
•hybridization enrichement
•u velmi příbuzných taxonů bude málo variability

TreeOfBirdsResolved Anchored Phylogenomics


198 species
259 nuclear loci (ca 1500 bp each)
> 390 000 bp
October 2015


Long range PCR + shot gun
Dlouhé PCR produkty, které nejdou vcelku osekvenovat
Jejich fragmentace
Sekvenování fragmetů
Zpětná rekonstrukce původní sekvence („assembly“)
Použitelné pokud nás zajímá variablita v jednolitém úseku DNA. Např. sekvenace mitochodrální DNA (3
různé PCR produkty).
Sekvenační strategie

Sekvenování podél restrikčních míst
Fragmetace gelogenomové DNA po mocí restrikčních enzymů
Ligace sekvenačních adaptorů na výsledné fragmenty
Následná sekvenace podél restrikčních míst
Celogenomové scany genetické variablility
Hledání SNPs, populační genomika (např. RAD-SEQ) apod.
Sekvenační strategie


Aplikace
1.Celogenomové sekvenování de novo
2.
2.Celogenomové resekvenování
3.
3.Sekvenování amplikonů (PCR produktů)
4.
4.Další aplikace – např. hledání klasických DNA markerů  (mikrosatelity, SNPs)


1. Celogenomové sekvenování de novo
Problém: KRÁTKÝ READ LENGTH
- 400bp 454 FLX Roche (dnes i Illumina),  35-75bp Solid
× vs 800-1000bp Sanger
- nové technologie (PacBio, Nannopore) už s tím takový problém nemají
!!!!! REPETITIVNÍ OBLASTI delší než read length !!!!!
GTAAAAAAAAAAAAAAAAAAAAC
Zvláště komplexní eukaryotické genomy – úseky souvislých oblastí přerušených mezerami
→ Uspořádání (assembly) ještě stále může být problém z hlediska výpočetní kapacity

•získání kompletní uspořádané sekvence celých velkých eukaryotních genomů pomocí next-generation
sequencing de novo je problém (ale to je nakonec i u Sangera)
•viry, prokaryota, malá eukaryota, mitochondrie/plastidy/plasmidy
1. Celogenomové sekvenování de novo
2009
2015

2. Celogenomové resekvenování
 KOMPARATIVNÍ GENOMIKA
- viry, prokaryota, malá eukaryota
- mitochondrie/plastidy/plasmidy
- podobné problémy jako u de novo, ale méně (větší strukturální přestavby..)
 ANCIENT (mt) DNA
- různé směsné, degradované vzorky, např. fosilie

•Degraded state of the sample à mitDNA sequencing
•Nuclear genomes of ancient remains: cave bear, mommoth, Neanderthal (106 bp )
C:\Documents and Settings\Antonio\Escritorio\mammoth.jpg C:\Documents and
Settings\Antonio\Escritorio\neardenthal.jpg C:\Documents and
Settings\Antonio\Escritorio\cavebear.jpg
Problems: contamination modern humans and coisolation bacterial DNA

3.Sekvenování amplikonů (PCR produktů)
SMĚSNÉ VZORKY – paralelní sekvenování nahrazuje klonování
Metagenomika (= hlavně prokaryota)
•Celé společenstvo půdních, vodních mikroorganismů, střevní mikroflóra - mikrobiom
•PCR genu 16S rRNA
•lze i kvantifikovat
Metabarcoding (= hlavně eukaryota, ale dnes používáno jako obecný termín)
•COI gen, příp. jiný barcodingový marker
•složení potravy, monitoring společenstev
•

Metabarcoding: Taxonomické složení společenstva v environmentální DNA na základě taxonomicky
informativního úseku DNA (cyt b, COI, ITS, rRNA...)

Princip
•Směsný vzorek enviromentální DNA
•Amplifikace pomoci primerů specifických pro cílovou skupinu, pokrývající taxonomicky
informativní úsek (COI, 16s/18s RNA...)
•Paralelni sekvenování
•Filtrování nekvalitních sekvencí
•Klastrování na základě sekvenční podobnosti do OTUs („operational taxonomic units“)
•Jejich taxonomické zařazení na základě referenčních databází
Využití: Analýza druhového vzorků kde lze makroskopicky jednotlivé druhy obtížně odlišit
•Potravní analýza z trusu
•Vzorky půdy
•Mikrobiální společenstva
•Permafrost
•Exotická/špatně probádaná společenstva
•Druhově bohatá společenstva („insect traps“ v tropech)
•Rutinní analýza velkého množství vzorků

Metabarcoding
Taxonomické složení společenstva na základě taxonomicky informativního úseku DNA
Alternativy:
Klonování amplikonů a sekvenování klonů
Specifické elektroforézy – např. DGGE
Výhody paralelního sekvenování
•Cenově i časově míň nákladné
•Lépe se zachytí vzácné taxony (zlomky promile)
Ale:
•Riziko umělého navýšení diversity díky chybám při procesování dat
•Do jaké míry jsou  referenční databáze dostatečné ke klasifikaci vzorků?
•Lze použít tato data kvantitativně a nebo vypovídají jen o přítomnosti/nepřítomnosti?

Metabarcoding – příklady využití
Mark Blaxter, Edinburgh Genomics
Společenstvo eukaryot ve vrchní vrstvě půdy

Metabarcoding – příklady využití
Mark Blaxter, Edinburgh Genomics
Společenstvo eukaryot ve vrchní vrstvě půdy

Metabarcoding – příklady využití
Mark Blaxter, Edinburgh Genomics


Metabarcoding – příklady využití
Mark Blaxter, Edinburgh Genomics


Metabarcoding – příklady využití
Monitoring vzácných, nedávno popsaných druhů savců na základě sekvenování krve pijavic
Výrazně větši úspěšnost prokázání přítomnosti než za použití klasických technik – fotopasti,
terénní pozorování apod.

Metabarcoding – příklady využití
Detekce ryb pomocí izolace eDNA z mořské vody
-taky jedna z nejefektivnějších metod

Metabarcoding – příklady využití
Analýza potravy
Podíl hospodářských zvířat v potravě irbise je minimální

Metabarcoding – příklady využití
Analýza složení společenstva na základě ancient DNA z koprolitů moa (Nový Zéland)
Umožňuje odhadnout typ prostředí které jednotlivé druhy obývaly a separaci ekologických nik

3.Sekvenování amplikonů (PCR produktů)
Genové duplikace
kachna-divoka-1
A-adaptor
MID
Target specific
Amplifikuje všechny kopie MHC genů
Označí jedince
Potřeba k emPCR, sekvenování..
192 jedinců u 454 pyrosekvenování

Amplikonové sekvenování
MHC u hýla rudého
- NGS má větší rozlišovací schopnost než SSCP + klonování

4. Další aplikace – hledání nových genetických markerů
Mikrosatelity
•sekvenování obohacených knihoven
SNPs
•kompletní genomické sekvence pro hledání diagnostických SNPs
•např. RAD-sequencing
•

Hledání nových genetických markerů - mikrosatelity
Obvyklý postup:
-Obohacení genomické knihovy o mikrosatelitové motivy – sequence capture
-Sekvenování obohacených knihoven
-Detekce mikrosatelitů a navržení vhodných primerů

mys2 musculus domesticus mys2 mys2 mys2 mys2 mys2 mys2 mys2 mys2 mys2
1
2
3
4
5
6
7
8
9
10
smíchat a osekvenovat
G
G
T
G
G
T
T
G
10 jedinců
10 jedinců
G
G
G
G
G
G
G
G
T
T
T
T
T
T
T
T
Hledání diagnostických SNP (např. pro studium hybridizace)

Sekvenování podél restrikčních míst
Fragmetace gelogenomové DNA po mocí restrikčních enzymů
Ligace sekvenačních adaptorů na výsledné fragmenty
Následná sekvenace podél restrikčních míst
Celogenomové scany genetické variablility
Hledání SNPs, populační genomika (např. RAD-SEQ) apod.
Hledání nových SNPs – RAD-sequencing

RAD vs. ddRAD


Sekvenování podél restrikčních míst


Phylogenomics of Lophuromys
•ancestral lineage „trapped“ in Ethiopian highlands, where diversified and sourced the colonization
of other mountains (mostly in Pleistocene)
•
•Lophuromys flavopunctatus complex (9 Ethiopian species)
•
•
•

9 endemic species in Ethiopia


Lophuromys - questions
•Are there really 9 well delimited species?
•Are they easily (genetically) recognizable? (e.g. mtDNA-barcoding)
•What is their distribution and ecological requirements? -> IUCN assessment, etc.

Material and Methods
•cca 500 specimens from all major mountain ranges
• mtDNA marker (CYTB)
•4 nuclear markers (2 introny + 2 exony)
•genomic approach – ddRAD sequencing

Retaining well-covered & informative loci
•All loci
•HQ loci
•No. of individuals: 213
•No. of loci: 15164
•No. of informative loci: 15164
•No. of SNPs / PISs per informative locus:
• Min: 1 / 1
• 25%: 17 / 14
• 50%: 25 / 21
• 75%: 32 / 28
• Max: 57 / 54
•Loci per individual:
• Min: 3393
• 25%: 6912
• 50%: 8074
• 75%: 9297
• Max: 11912
•Individuals per locus:
• Min: 54
• 25%: 74
• 50%: 103
• 75%: 149
• Max: 208
•Proportion of missing data: 0.47
•No. of individuals: 213
•No. of loci: 80570
•No. of informative loci: 69724
•No. of SNPs / PISs per informative locus:
• Min: 1 / 1
• 25%: 5 / 4
• 50%: 10 / 9
• 75%: 20 / 17
• Max: 60 / 57
•Loci per individual:
• Min: 5178
• 25%: 9719
• 50%: 12000
• 75%: 14607
• Max: 23205
•Individuals per locus:
• Min: 4
• 25%: 6
• 50%: 13
• 75%: 37
• Max: 208
•Proportion of missing data: 0.85
✔
✔
80 570 loci → filtering → 15 164 loci

ddRADseq: co-ancestry matrix
lophuromys_eth-SimpleCoancestry.png
209 individuals
15 623 informative loci
9 „gene pools“

Maximum likelihood analysis of concatenated nuclear dataset
4 nuclear markers (V. Komarova et al.)
(2 604 bp concatenated dataset)
Sanger sequencing
ddRADseq
15 623 informative loci
100
100
100
100
100
100
99
100
100
100
100
100
100
100
100
100
97
44
88
100
100
94
95
100
98
92
83
91
94
77
86
77
brevicaudus
flavopunctatus
brunneus
2n = 68
melanonyx
chrysopus
menangeshae
pseudosikapusi
chercherensis
2n = 70
simensis
2n = 60
2n = 54

And what about mtDNA?
ddRADseq
15 623 informative loci
100
100
100
100
100
100
99
100
100
100
100
100
100
100
100
100
brevicaudus
flavopunctatus
brunneus
melanonyx
chrysopus
menangeshae
pseudosikapusi
chercherensis
simensis
100
100
96
93
96
97
96
100
82
89
88
100
100
100
100
100
100
97
mtDNA
cytochrome b (1140 bp)
2n = 68
2n = 70
2n = 60
2n = 54

ddRADseq
15 623 informative loci
100
100
100
100
100
100
99
100
100
100
100
100
100
100
100
100
brevicaudus
flavopunctatus
brunneus
melanonyx
chrysopus
menangeshae
pseudosikapusi
chercherensis
simensis
100
100
96
93
96
97
96
100
82
89
88
100
100
100
100
100
100
97
mtDNA
cytochrome b (1140 bp)
And what about mtDNA?
„reticulate evolution“