Detekce biomarkerů z omics experimentů •Mgr. Eva Budinská, PhD •RECETOX •eva. budinska@recetox.muni.cz •Podzim 2023 Jak se hledá potenciální biomarker v omics datech Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza Sekvenování technologií Illumina Illumina Sequencing Technology - YouTube Kroky sekvenování technologií Illumina 1.Fragmentace genomické DNA, např. sonikátorem 2. 2.Ligování adaptérů na oba konce fragmentů 3. 3.PCR amplifikace fragmentů s adaptéry 4. 4.Rozprostření molekul DNA napříč flowcelami. Cílem je získat přesně jednu molekulu DNA na každý potenciální shluk primerů. To závisí čistě na pravděpodobnosti, založené na koncentraci DNA. 5. 5.Použití bridge PCR k amplifikaci jedné molekuly na každém shluku, k získání dostatečně silného signálu pro detekci. Obvykle to vyžaduje několik set nebo málo tisíc molekul. 6. 6.Sekvence syntézou komplementárního vlákna: chemie reverzibilního terminátoru. Zdroj chyb: ligování adaptérů Sekvenování náhodných fragmentů DNA je možné přidáním krátkých nukleotidových sekvencí, které slouží k: 1) Navázání fragmentů na NGS flow cell 2) PCR pouze fragmentů DNA ligovaných s adaptérem 3) Indexování nebo „čárové kódování“ vzorků pro smíchání více knihoven v jednom běhu (multiplexing) 4) Značení pro zjištění chyb v sekvenaci (PCR duplikátů...) • •V kroku 2 jsou adaptéry ligovány na konec fragmentů From: http://tucf-genomics.tufts.edu/documents/protocols/TUCF_Understanding_Illumina_TruSeq_Adapters.pdf Co vše se liguje •Adaptery •Primery •Tagy •Barkódy •UMIs •Spacery •Linkery Chart, timeline Description automatically generated Co vše se liguje •Musí být přítomny: •P5/P7 – adaptéry pro vazbu na flow cell •SP1/SP2 – vazebné místo sekvenačního primeru • •Volitelné – ale často používané: •i5/i7 – Index vzorku – k rozpoznání sekvenovaných knihoven • •Volitelné: •Barcode - jedinečná sekvence pro rozpoznání vzorku •UMI – Unique Molecular Identifikátor – k identifikaci technických duplikátů Graphical user interface Description automatically generated Indexed Sequencing Overview Guide (15057455) (ox.ac.uk) Spacery - Pokud kombinujeme různé délky knihoven Linkery - pro lepší slučování sekvencí Odstranění adaptérů z knihovny •Nutný krok! •Odstranění neligovaných adaptérů a adaptérových dimerů (dva adaptéry vzájemně ligované) je zásadní pro zlepšení výstupu a kvality dat •Přebytečné adaptéry často soutěží s fragmenty knihovny ve vazbě na průtokovou buňku, čímž se snižu je datový výstup. •Adaptérové dimery mohou také klonálně amplifikovat a generovat sekvenační „šum“, který musí být bě hem analýzy dat odfiltrován. •Přebytek neligovaných adaptérů činí knihovny náchylnějšími k indexovému přeskakování během sekveno vání • Zdroj chyb: PCR duplikáty •V kroku 3 záměrně vytváříme více kopií každé původní molekuly genomové DNA, abychom jich měli dostatek. • •K duplikátům PCR dochází, když se dvě kopie stejné původní molekuly dostanou na různé primerové oblasti ve flowcele • •V důsledku toho čteme stejnou sekvenci dvakrát! • •Vyšší četnosti PCR duplikátů, např. 30 % vznikají, když máte příliš málo výchozího materiálu, takže je potřeba větší amplifikace knihovny v kroku 3, nebo když máte příliš velký rozptyl ve velikosti fragmentu, takže menší fragmenty, které se snadněji amplifikují pomocí PCR jsou overreprezentovány Dense lawn of primers Adapter Adapter DNA fragment Find beautiful explanation of probabilities and much more at: https://www.cureffi.org/2012/12/11/how-pcr-duplicates-arise-in-next-generation-sequencing/ Během sekvencování se tvoří shluky stejných sekvencí - clusters • Text Description automatically generated Krok 0 analýzy •Identita každé báze ve shluku se odečítá ze sekvenčních obrázků •Jeden cyklus -> čtyři snímky! > A picture containing text, kitchen appliance Description automatically generated Jak to probíhá A picture containing graphical user interface Description automatically generated Trochu počítejme •100 tiles na lane, 8 lanes na flow cell, 36 cyklů •4 obrázky (A,G,C,T) na dlaždici a cyklus = 115 200 obrázků •Každý obrázek tiff má ~ 7 MB = 806 400 MB dat •1,6 TB na 70 nt čtení, 3,2 TB pro 70 nt párové čtení •Většina technologií při sekvenování vymazává intenzity, a to z důvodu tak velkého množství dat Zdroj chyb: Koncentrace knihovny > A picture containing diagram Description automatically generated •Koncentrace připravených knihoven NGS se mohou široce lišit kvůli rozdílům v množství a kvalitě vstupu nukleové kyseliny, stejně jako v cílové metodě obohacení, která může být použita. •podshlukování v důsledku nadhodnocených koncentrací knihoven může mít za následek snížený počet readů proti kapacitě •nadměrné množství shluků může mít za následek nízké skóre kvality a problematickou následnou analýzu - shluky se špatně odlišují programem pro analýzu obrazu! • Zdroje chyb: sekvenování syntézou – fluorescence V kroku 5 zesilujeme signál a detekujeme fluorescenci každé báze • Předpokladem je, že v cyklu je každá molekula na průtokové cele prodloužena o jednu bázi • Realita: • •Některé molekuly nejsou prodlouženy nebo jejich báze nemá fluorescenční barvivo • •Předchozí fluorescenční barvivo není štěpeno – signál z klastru po několika cyklech je směsí signálů z předchozích bází Sekvenační pokrytí (coverage) Pokrytí v sekvenování DNA je počet jedinečných čtení, která zahrnují daný nukleotid v referenční sekvenci.   Hloubka pokrytí (coverage depth) Jak silně je genom „pokryt“ sekvenovanými fragmenty (krátké čtení)? Pokrytí na bázi (per-base coverage) je průměrný počet, kolikrát byla sekvenována daná báze genomu (jinými slovy, kolik čtení ji pokrývá).  Hloubka pokrytí genomu se vypočítá jako počet bází všech krátkých čtení, která odpovídají genomu, podělené délkou tohoto genomu. Často se vyjadřuje jako 1X, 2X, 3X,... (1, 2 nebo 3násobné pokrytí). Průměrné pokrytí genomu (Av) Av = (NxL)/G G - délka původního genomu N - počet čtení L - průměrná délka čtení Šířka krytí (breadth of coverage). Jaká část genomu je „pokryta“ krátkým čtením? Existují oblasti, které nejsou pokryty, a to ani jedním přečtením? Šířka krytí je procento bází referenčního genomu, které jsou pokryty určitou hloubkou. Například: "90 % genomu je pokryto v hloubce 1X a stále 70 % je pokryto v hloubce 5X."   Doporučení pro pokrytí •Určuje se na základě : •Délky čtení •Velikost genomu •Aplikace •Doporučení v literatuře •Úrovně genové exprese •Složitosti genomu, opakujících se oblastí •Chybovosti sekvenačního nástroje nebo metodologie •Algoritmu analýzy Průměrné pokrytí genomu (Av) Av = (NxL)/G G - délka původního genomu N - počet čtení L - průměrná délka čtení Doporučení pro pokrytí - DNA Coverage and Read Depth Recommendations for Next-Generation Sequencing Applications (genohub.com) Average coverage of the genome (Av) Av = (NxL)/G G - length of the original genome N - number of reads L - average read length Doporučení pro pokrytí - RNA Coverage and Read Depth Recommendations for Next-Generation Sequencing Applications (genohub.com) Table Description automatically generated Různé transkripty jsou exprimovány na různých úrovních => více čtení bude zachyceno z vysoce exprimovaných genů Složitost transkriptomu, alternativní exprese, 3' související zkreslení a distribuce úrovní exprese ztěžují stanovení pokrytí. PŘI VÝPOČTU POZOR ! Potřebujeme počítat s namapovanými čteními, ne s celkovým počtem čtení. Doporučení pro pokrytí - dle aplikace Table Description automatically generated Coverage and Read Depth Recommendations for Next-Generation Sequencing Applications (genohub.com) Doporučení pro pokrytí - dle aplikace Table Description automatically generated Coverage and Read Depth Recommendations for Next-Generation Sequencing Applications (genohub.com) Doporučení pro pokrytí - dle aplikace Table Description automatically generated Coverage and Read Depth Recommendations for Next-Generation Sequencing Applications (genohub.com) Kolik vzorků na běh? •Závisí od použité platformy a jejího maxima a požadovaného počtu čtení na vzorek (v milionech) Table Description automatically generated Designing Next-Generation Sequencing Runs (genohub.com) Single nebo paired- end? •Single-end sekvencování •Výhody: rychlé, levné •Nevýhody: omezené použití •Použití: obvykle postačuje pro studie, jejichž cílem je zjistit spíše počet molekul, než jejich typ, jako je RNA-Seq nebo ChIP-Seq • • • Fragment DNA Čtení Genom Čtení Čtení Čtení Čtení Single nebo paired- end? Paired-end sekvencování •Výhody: •větší přesnost, v jednom běhu dvounásobný počet čtení na vzorek (větší kapacita) za méně než cena dvou sekvenačních běhů •Nevýhody: pomalejší, dražší (relativně) •Použití: •de novo sestavení genomu •Analýza strukturálních změn (delece, inzerce, inverze) a SNP •Studium sestřihových variant •Epigenetické modifikace (metylace) • • Fragment DNA Čtení R1 Genom Čtení R2 Čtení R1 Čtení R2 Čtení R1 Čtení R2 Čtení R1 Čtení R2 Délka čtení •Delší délky čtení poskytují přesnější informace o relativních pozicích bazí v genomu, jsou dražší než kratší. •50-75 cyklů je typicky dostačujících pro jednoduché mapování čtení do referenčního genomu a experimenty s kvantifikující třeba genovou expresi (RNA-Seq) •Délky čtení větší nebo rovné 100 se typicky volí pro studie genomu nebo transkriptomu, které vyžadují větší přesnost •Přesná délka záleží na délce insertů!!! Fragment DNA Read R1 Read R2 Fragment DNA Read R1 Read R2 Délka čtení a cílové fragmenty! •Délka fragmentů by měla zhruba odpovídat délce čtení (v případě paired-end readů jejich součtu) •Uniformita velikostí fragmentů je zásadní, protože délka čtení je omezená •Podstatně delší inzerty DNA => některé části inzertů zůstanou nesekvenované. •Kratší než doporučené => neoptimální využití sekvenačních činidel a zdrojů. •Kombinace krátkých a dlouhých insertů => snižuje efektivitu sekvenování a představuje problémy při analýze dat. • Chart Description automatically generated Preparation of DNA Sequencing Libraries for Illumina Systems—6 Key Steps in the Workflow | Thermo Fisher Scientific - CZ Délka čtení a cílové fragmenty! •Délka čtení je omezena sekvenační platformou a reagenčním kitem Table Description automatically generated How many cycles of SBS chemistry are in my kit? (illumina.com) Table Description automatically generated Maximum read length for Illumina sequencing platforms Užitečné zdroje •Praktické laboratorní tipy pro knihovny: •Preparation of DNA Sequencing Libraries for Illumina Systems—6 Key Steps in the Workflow | Thermo Fisher Scientific - CZ • •Praktické tipy pro nastavení sekvenačního běhu: •Designing Next-Generation Sequencing Runs (genohub.com) •Optimizing Cluster Density on Illumina Sequencing Systems • •Indexed sequencing Illumina guide: • Indexed Sequencing Overview Guide (15057455) (ox.ac.uk) •Další zdroje •Sequencing depth and coverage: key considerations in genomic analyses | Nature Reviews Genetics