Jak vypadají genomická data (a co se s nimi dělá) Jaroslav Juráček SitSem 2023 Co je to genom? Genom – celková genetická informace nebo genetický materiál, který je obsažen v jádře buňky organismu. Genom zahrnuje celkovou DNA a obsahuje informace o všech vlastnostech jedince. Gen – základní informační a funkční jednotka dědičné informace v živých organismech. Geny obsahují informace pro vytváření proteinů a regulačních molekul, které jsou nezbytné pro fungování organismu. Každý gen má specifickou funkci a přispívá k určitým vlastnostem a charakteristikám jedince. * Lidský genom zahrnuje cca 20 000 protein-kódujících genů ** To představuje jen asi 1-2 % lidského genomu Obsah obrázku text, kresba, diagram, Dětské kresby Popis byl vytvořen automaticky Začnu biologií ze základní školy. Všichni víme, že základní jednotkou organizmů je buňka. Ta má nějaké jádro a uvnitř v tomto jádře se nacházejí chromozomy. Ty jsou tvořeny kondenzovanou DNA, tedy deoxyribonukleovou kyselinou. A právě celková DNA, tedy celkový genetický materiál představuje něco, čemu se říká genom. Na genomu potom rozlišujeme inf. a funkční jednotky, které obsahují informace pro tvorbu proteinů a kterým se říká geny. Obsah obrázku diagram Popis byl vytvořen automaticky * V lidském genomu se nachází asi 3,2 miliardy párů bází Když se podíváme ještě více zblízka, tak DNA je tvořena ze dvou řetězců tzv. cukr fosfátové kostry, které jsou mezi sebou navzájem spojeny přes dusíkaté baze, adenin, guanin, cytosin a thymin. Ty se párují přes tzv. vodíkové můstky, specificky dochází k párování A-T a C-G. Obsah obrázku umění, květina, Barevnost, Výrazná modrá Popis byl vytvořen automaticky Obsah obrázku skica, kresba, Grafika, ilustrace Popis byl vytvořen automaticky Stavební jednotky Pokud si vezmeme jakýkoliv gen, tak ten je definován pořadím těchto dusíkatých bazí. Ty jsou postupně, pokud je třeba, přepsány do mRNA a potom překládány do proteinu, což je základní stavební jednotka živých organizmů. Já to často přirovnávám ke kuchařce, kdy DNA je původní recept, která se nachází v každé buňce, mRNA je takový přepis na papírek, kdy si opíšeme ingredience, teplotu trouby, aminokyseliny jsou suroviny a protein je ten výsledek, který třeba upečeme. Genová exprese Studium evoluce/biodiverzity Studium mikrobiomu … Proč nás zajímá primární struktura DNA? 2 Principy dědičnosti Studiem primární struktury můžeme lépe porozumět tomu, jak se genetická informace ukládá, replikuje a předává z jednoho pokolení na druhé 3 Medicína Genetické choroby jsou spojeny s konkrétními změnami v primární struktuře DNA. Studium těchto změn je nezbytné pro diagnostiku genetických onemocnění a vývoj léčebných postupů. 4 Genové inženýrství Manipulace s primární strukturou DNA vede k vytvoření nových genetických konstrukcí, transgenních organismů a terapeutických postupů, jako je genová terapie. 1 Výjimečnost Genom každého člověka je unikátní (99,9 % genetického materiálu sdílíme, 0,1 % unikátní). Studium DNA a její primární struktury je klíčové pro forenzní vědu a identifikaci osob. 5 6 7 8 Obsah obrázku klipart, kreslené, ilustrace, kresba Popis byl vytvořen automaticky Proč by nás ale primární struktura měla zajímat? Prvním důvodem je výjimečnost této struktury pro každého člověka. Genomická data jsou soubory informací získaných z analýzy genetického materiálu (DNA nebo RNA) organismu. Tato data obsahují podrobné informace o struktuře, sekvenci a funkci genů a dalších genetických elementů v genomu daného organismu. Genomická data mohou zahrnovat následující informace: Co jsou tedy genomická data? 1.Sekvence DNA: Pořadí nukleotidů (A, C, G, T) v molekule DNA. Sekvence DNA umožňují identifikovat geny, regulační sekvence a další důležité úseky DNA. 2.Geny: Genomická data obsahují informace o umístění a struktuře genů v genomu. Identifikujeme, jaký protein nebo RNA každý gen kóduje, a jakým způsobem může ovlivnit funkci organismu. 3.Genetické varianty: Změny v sekvenci DNA, jako jsou jednonukleotidové polymorfismy (SNP), delece, inzerce a další mutace. Genomická data obsahují informace o těchto variantách, které mohou mít význam pro dědičnost, vývoj chorob a individuální rozdíly mezi lidmi. 4.Genová exprese: Informace aktuální aktivaci genů a jak se projevují prostřednictvím produkce proteinů nebo RNA molekul. To umožňuje studovat, jaké geny jsou zapojeny do různých biologických procesů a jak mohou být ovlivněny různými podmínkami. 5.Struktura chromozomů: Data mohou obsahovat informace o uspořádání chromozomů v jádře buňky, což je důležité pro studium chromozomálních abnormalit a genetických onemocnění. 6.Mikrobiom: Analýza genetického materiálu mikroorganismů v rámci lidského těla – zastoupení a funkce/vliv těchto mikroorganismů. SNP = variace v jediném nukleotidu, která se vyskytuje v určité pozici v genomu, přičemž každá taková variace je přítomna v populaci alespoň v jisté patrné míře Malý je doplňující text The Human Genome Project Human Genome Project měl za cíl zmapovat a rozluštit celý lidský genom. Projekt byl zahájen v roce 1990 a oficiálně dokončen v roce 2003. Jednalo se o společný úsilí mezinárodního vědeckého komunity. Klíčové cíle projektu zahrnovaly: 1. Obsah obrázku Barevnost, Šeřík, snímek obrazovky, Grafika Popis byl vytvořen automaticky 1. Zmapování lidského genomu: Pořadí nukleotidů v lidské DNA v každém z 23 lidských chromozomů. 2. 2. Identifikace genů: Identifikace a anotace všech genů v lidském genomu. To zahrnovalo určení, kde se jednotlivé geny nacházejí, jaké mají funkce a jaké proteiny kódují. 3. 3. Studium genetických variant: Projekt zkoumal genetické varianty, jako jsou SNP (jednonukleotidové polymorfismy). 4. 4. Aplikace v medicíně: Využití genomických znalostí pro zlepšení diagnostiky, prevence a léčby genetických chorob. 5. Dokončení projektu v roce 2003 bylo historickým milníkem v oblasti biologie a genetiky. Výsledky projektu poskytly základ pro rozvoj genomiky a personalizované medicíny. Důležitým aspektem projektu bylo, že data z něj byla veřejně dostupná pro vědeckou komunitu, což umožnilo mnoha dalším výzkumným projektům a studiím využívat tuto cennou informační základnu pro další pokroky v oblasti genetiky a biomedicíny. The Human Genome Project Na sekvenování lidského genomu se podíleli vědci z 20 různých univerzit a výzkumných center ze Spojených států, Velké Británie, Francie, Německa, Japonska a Číny. Sekvence lidského genomu nepochází od jediného člověka, ale několika lidí, jejichž identita byla záměrně anonymizována, aby bylo chráněno jejich soukromí. Původně předpokládané náklady činily 3 miliardy dolarů, přičemž předpokládaná doba trvání projektu byla 15 let. Tato přibližná částka se blíží přesnému číslu. Projekt ve výsledku nevygeneroval kompletní lidský genom. V dubnu 2003 konsorcium oznámilo, že vytvořilo v podstatě kompletní sekvenci lidského genomu. Konkrétně představovala 92 % lidského genomu a obsahovala méně než 400 mezer. Dne 31. března 2022 konsorcium Telomere-to-Telomere (T2T) oznámilo, že doplnilo zbývající mezery a vytvořilo první skutečně kompletní sekvenci lidského genomu. Jak přečíst primární sekvenci DNA? Určení sekvence = metoda SEKVENOVÁNÍ Obsah obrázku text, snímek obrazovky, diagram, Písmo Popis byl vytvořen automaticky SANGEROVA METODA Založená na selektivním začleňování dideoxyribonukleotidů (ddNTP) – přerušení syntézy DNA. Vzorek DNA je rozdělen do 4 oddělených reakcí, které obsahují všechny standardní deoxynukleotidy. Ke každé reakci je přidán pouze jeden ze čtyř dideoxynukleotidů (ddATP, ddGTP, ddCTP, nebo ddTTP). Dochází k syntéze komplementárního řetězce do začlenění značených ddNTP. Fragmenty jsou separovány pomocí GE a analyzován fluorescenční signál (každý ddNTP jiná barva). MAXAM-GILBERTOVA METODA Vysoce toxické chemikálie (radioaktivní značení 5′ konce DNA pomocí 32P), štěpení DNA činidly, gelová elektroforéza, autoradiografie Malý je doplňující text Sekvenování nové generace (NGS) •Miniaturizace a paralelizace sekvenačních technologií •Analýza mnoha molekul/fragmentů najednou •Rychlejší než tradiční metody •Snížené náklady na sekvenování (automatizace) •Vyšší přesnost sekvenování •Fragmentace DNA – 50 až 500 bazí •Několik technologií (každá má výhody i omezení a je vhodná pro různé typy aplikací) Obsah obrázku elektronika, přístroj, Elektronické zařízení, Komunikační zařízení Popis byl vytvořen automaticky Náklady na sekvenování lidského genomu. Odklon křivky nákladů na sekvenování od Moorova zákona se shoduje s nástupem sekvenování nové generace (NGS). Moorův zákon pochází z odvětví počítačového hardwaru, který zahrnuje zdvojnásobení "výpočetního výkonu" každé dva roky. Má se za to, že technologie, které se řídí tímto zákonem, jsou považovány za úspěšné. Představuje tedy užitečný vztah pro porovnávání technologického pokroku. Metoda Sangerova Illumina Kapacita (bp / hod) 76 000 1 800 000 000 Cena (€ / Gbp) 1 250 000 50 Illumina •Dříve Solexa •Momentálně nejrozšířenější technologie masivně paralelního sekvenování •Princip sekvenování syntézou za pomoci reverzibilních terminátorů •Klonální amplifikace (můstková PCR) •99% přesnost Obsah obrázku text, Písmo, Grafika, logo Popis byl vytvořen automaticky + vysoká přesnost nejnižší cena za jednu osekvenovanou bázi množství publikací využívající Illumina technologii množství komerčně dostupných kitů pro různé aplikace - vysoké pořizovací náklady - krátká délka čtení – max 300 bazí – pouze některé přístroje komplikovaná de novo assembly z Illumina NGS dat dlouhá doba sekvenování 12h až 4 dny Obsah obrázku Elektronické zařízení, elektronika, tiskárna, design Popis byl vytvořen automaticky Obsah obrázku text, Paralelní, řada/pruh, měřicí tyč Popis byl vytvořen automaticky Illumina – příprava sekvenační knihovny Obsah obrázku text, snímek obrazovky, design Popis byl vytvořen automaticky Adaptery slouží k uchycení k povrchu flow cely, pokud sekvenujeme větší množství vzorků/pacientů, tak odlišujeme pomocí Unique molecular identifiers (UMIs), fragmenty jsou amplifikovány pomocí můstkové PCR, dochází k tvorbě klastrů (jeden fragment=jeden klastr, tisíce až miliony kopií) Obsah obrázku snímek obrazovky, text, Barevnost, design Popis byl vytvořen automaticky Illumina – amplifikace Fragmenty jsou amplifikovány pomocí můstkové PCR, dochází k tvorbě klastrů (jeden fragment = jeden klastr, obsahuje tisíce až miliony kopií) Illumina – sekvenace Obsah obrázku text, snímek obrazovky, nachový Popis byl vytvořen automaticky Adaptery slouží k uchycení k povrchu flow cely, pokud sekvenujeme větší množství vzorků/pacientů, tak odlišujeme pomocí Unique molecular identifiers (UMIs), fragmenty jsou amplifikovány pomocí můstkové PCR, dochází k tvorbě klastrů (jeden fragment=jeden klastr, tisíce až miliony kopií) Bioinformatická analýza NGS dat 1 Primární Konverzi surových přístrojových dat na sekvenční data sestávající z pořadí nukleotidových bází. Často prováděna přímo na sekvenátoru. 2 Sekundární Sestavení genomu/ části genomu a detekce variací. 3 Terciární Anotace získaných dat, biologický kontext. Obsah obrázku snímek obrazovky, text, design Popis byl vytvořen automaticky Surová obrazová data se převedou do tabulky intenzity, která zaznamenává umístění každého klastru a hodnoty intenzity barev (jedna barva pro každou ze čtyř bází). Tyto číselné hodnoty se převedou na tzv. base call a použijí se k přiřazení hodnoty kvality pro dané pořadí bazí. Primární analýza dat Obsah obrázku snímek obrazovky, Barevnost, umění Popis byl vytvořen automaticky 4,8 TB * Každý z miliard klastrů vytvoří 150 bp čtení Jen pro zajímavost velikost dat Primární analýza dat Obsah obrázku snímek obrazovky, design Popis byl vytvořen automaticky Pre-procesování dat Filtrování: Čtení jsou z dat filtrována na základě kvality base call a délky čtení. Báze s nízkou intenzitou mohou vést k detekci falešně pozitivních variant, proto je třeba je odstranit. Čtení, která jsou příliš krátká, se pravděpodobně zarovnávají k více oblastem v genomu a způsobují špatné mapovací metriky. Demultiplexování: Multiplexování v NGS znamená sekvenování více vzorků současně na stejném přístroji. Demultiplexování znamená rozdělení sekvenačních čtení do samostatných souborů podle indexu „čárového kódu“ použitého pro každý vzorek. Ořezávání: Adaptorové sekvence ligované na konce knihoven během procesu přípravy knihovny je třeba ze sekvenačních čtení odstranit, protože mohou narušovat mapování a sestavování. Obsah obrázku text, snímek obrazovky, Písmo, řada/pruh Popis byl vytvořen automaticky Obsah obrázku text, Písmo, řada/pruh, snímek obrazovky Popis byl vytvořen automaticky Jen pro zajímavost velikost dat Sekundární analýza dat Obsah obrázku text, snímek obrazovky, diagram, design Popis byl vytvořen automaticky Obsah obrázku text, snímek obrazovky, design, Písmo Popis byl vytvořen automaticky De novo sestavení Obsah obrázku puzzle, hračka Popis byl vytvořen automaticky Sestavení na základě referenčního genomu Obsah obrázku text, oblečení, Lidská tvář, dívka Popis byl vytvořen automaticky Obsah obrázku puzzle, hračka Popis byl vytvořen automaticky Čtení se zarovnávají navzájem na základě jejich sekvenční podobnosti, aby se vytvořila dlouhá konsenzuální sekvence nazývaná kontig. Jen pro zajímavost velikost dat Sekundární analýza dat Obsah obrázku text, snímek obrazovky, Písmo, číslo Popis byl vytvořen automaticky Cílem zarovnání sekvencí je najít místo, odkud čtení pochází, a určit, kolik čtení se k tomuto místu zarovnalo. Obsah obrázku text, snímek obrazovky, diagram, Písmo Popis byl vytvořen automaticky Sekundární analýza dat Identifikace variací Obsah obrázku text, diagram, Vykreslený graf, řada/pruh Popis byl vytvořen automaticky Strukturní variace na úrovni chromozomu Referenční genom je standard, dokážeme identifikovat odchylky. Sekundární analýza dat Používané formáty souborů Terciální analýza dat Biologický kontext získaných dat Anotace variant je proces předpovídání biologického vlivu nebo funkce genetických variant. Využívají se anotační nástroje, které pracují s VCF soubory, výstupem je zpráva o anotovaných variantách a jejich biologickém účinku. Interpretaci variant obvykle provádí kvalifikovaná osoba, například klinický genetik. Jejich práce zahrnuje shromáždění všech dostupných informací o pacientovi, včetně rodinné anamnézy onemocnění, a porovnání genotypu pacienta s klinickým fenotypem. Součástí je také statistická analýza a vizualizace dat. Další aplikace NGS Genová exprese Proces, kterým je v genu uložená informace převedena v reálně existující buněčnou strukturu (RNA) – množství transkriptu je úměrné míře genové exprese genů. Jedná se o reakci organismu na vnější i vnitřní vlivy. Obsah obrázku text, snímek obrazovky, Písmo, Elektricky modrá Popis byl vytvořen automaticky U sekvenace RNA se provádí zpětný přepis do DNA, tzv. reverzní transkripce. Další aplikace NGS Epigenetika Změny v genové expresi, které nejsou způsobeny změnou nukleotidové sekvence DNA. Metylace DNA, acetylace histonů, mikroRNA, … Obsah obrázku text, skica, kresba, snímek obrazovky Popis byl vytvořen automaticky Obsah obrázku osoba, oblečení, muž, venku Popis byl vytvořen automaticky Tady si přihřeju polívčičku Shrnutí na závěr •Genomická data jsou unikátní a vysoce citlivá data, která do určité míry předpovídají délku života a dispozice k onemocněním jedince •Znalost primární struktury (pořadí nukleotidů) umožňuje získat informace o umístění, struktuře i funkci genů a dalších oblastí DNA •Zlatá metoda analýzy primární struktury NK je Sekvenování nové generace (NGS) •Součástí procesu je jak práce v laboratoři (wet lab), tak bioinformatické zpracování dat •NGS generuje velké množství dat (TB / genom) • • > Obsah obrázku oblečení, osoba, Lidská tvář, černobílá Popis byl vytvořen automaticky DĚKUJI ZA POZORNOST! J juracek@ics.muni.cz