1 Novinky v analýze genomu – GWAS, funkční genomika Osnova ̶ Vymezení pojmů ̶ Projekt lidského genomu ̶ HapMap ̶ GWAS ̶ GWAS a nemoci dutiny ústní ̶ GRS 2 Vymezení pojmů ̶ Alela ̶ Lokus ̶ Single nucleotide polymorphism (SNP) ̶ Haplotyp ̶ Linkage disequilibrium (LD) ̶ Imputace ̶ Genome wide association studies (GWAS) ̶ Genetic risk score (GRS) 3 Alela a lokus ̶ Alela je konkrétní varianta genu ̶ Lokus je konkrétní pozice na chromozomu 4 Single nucleotide polymorphism (SNP) 5 Jedná se o jednobodovou záměnu nukleotidu s frekvencí v populaci větší než 1%. Tato záměna může a nemusí mít vliv na funkci genu/proteinu. Haplotyp ̶ Jedná se o kombinaci alel na různých místech DNA (jednom chromozomu nebo jeho oblasti), které se dědí společně ̶ Kombinace SNP, které se společně dědí 6 Linkage disequilibrium (LD) a imputace ̶ Česky - vazbová nerovnováha 7 Projekt lidského genomu ̶ Projekt zahájen v 80. letech, publikování výsledků 2001 ̶ Odhadované náklady cca $3 mld a 50 tisíc „člověkolet“ ̶ Cca 1/3 úsilí a nákladů pro přistání na měsíci ̶ Nejprve pod patronátem ministerstva energetiky USA (do projektu byli zapojené laboratoře a vědci z celého světa), později vznikla konkurence v podobě soukromé společnosti (Celera Genomics). ̶ Probíhal tak závod v sekvenování 8 Projekt lidského genomu ̶ Celera si chtěla nechat výsledky pro sebe a zároveň je prodávat „předplatitelům“ – velká rozepře s vládním projektem. ̶ Výsledky nakonec publikovány 15.2.2001 v Nature (vládní projekt) a 16.2.2001 v časopise Science (Celera) ̶ Podařilo se získat jakousi mapu lidského genomu, ovšem bez variability mezi jednotlivci 9 Projekt HapMap ̶ DNA mezi jednotlivci se liší jen asi v 0,1% nukleotidů – nejčastěji SNP, kterých je známo cca 10 miliónů. To představuje 90% veškeré variability v genomu (zbytek jsou mutace, delece, inzerce) ̶ Cca 45 nepříbuzných vzorků by mělo být schopno najít 99% všech haplotypů s frekvencí větší než 5% 10 Projekt HapMap ̶ Zahájen 2002 – dvě fáze – nejprve tvorba jakési hrubé mapy a poté zaplnění prázdných míst ̶ V první fázi cca 1 milión SNP – výsledky 2005 ̶ Druhá fáze cca další 2 milióny SNP - výsledky 2007 ̶ Objev asi 1 miliónu LD bloků ̶ Účast vědců z celého světa ̶ Vzorky z USA, Číny, Japonska, Keni, UK, Kanady 11 Celogenomové asociační studie Kombinace epidemiologické studie a nových možností genotypizace Stanovují se desetitisíce až stovky tisíc SNP (imputace a LD) Potřeba velikého souboru pacientů, tisíce, spíše desetitisíce pacientů (kontrolní skupina a pacienty s daným fenotypem) Potřeba mít dobře popsaný fenotyp pacientů i kontrol Genome-wide association studies (GWAS) 12 GWAS 13 GWAS ̶ Pro hodnocení je potřeba velká výpočetní síla a skladovací kapacita (několik set GB na jednoho pacienta, cca 15 TB na 10 000 pacientů) ̶ Jako statisticky významné se považuje P < 5*10-8 ̶ P hodnoty pro SNP mezi 1*10-6 a 5*10-8 se replikují pro možnou asociaci 14 + GWAS – výhody a nevýhody ̶ Velmi úspěšná metoda pro nalezení nových variant asociovaných s daným znakem ̶ Cca 40 000 SNP asociovaných s různými rysy (rakoviny, T2DM, anorexie, deprese, schizofrenie, BMI, nespavost,…) ̶ Mohou vést k objevu nových biologických mechanismů ̶ Rsp. studium nalezených SNP a jejich funkcí ̶ Široké klinické aplikace ̶ Identifikace rizikových skupin/pacientů ̶ Genetické rizikové skóre ̶ GWAS mohou poskytnou vysvětlení pro rozdílnost mezi různými etniky u komplexních znaků ̶ Např. T2DM ̶ Každá varianta má sama o sobě malou vypovídající hodnotu ̶ Je třeba velikého souboru pacientů ̶ Kvůli vysokému nároku na statistický rozdíl ̶ Varianty asociované v GWAS představují jen zlomek celkové „dědičnosti“ komplexních chorob ̶ Odhady, že SNP odhalí cca 1/3 – 2/3 celkové dědičnosti kompl. chorob ̶ GWAS označují pouze lokus asociovaný se znakem ̶ Pro identifikaci kauzálních variant je třeba provést další kroky ̶ Nemohou nalézt všechny varianty asociované s daným znakem ̶ Problém s nalezením běžných variant s malým účinkem nebo velmi vzácných variant s velkým účinkem 15 + GWAS – výhody a nevýhody ̶ Jsou schopny nalézt varianty s nízkou frekvencí výskytu ̶ Čím větší soubor, tím vzácnější varianty lze nalézt a asociovat ̶ Data se dají využít i jinak než identifikaci genů ̶ Určení předků, odhadnutí místa narození, forenzní analýza, určení otcovství,… ̶ Data se snadno sdílí přes veřejné databáze ̶ Data doposud prezentovaná představují jen špičku ledovce ̶ Čím více dat o pacientech a větší soubory, tím přesnější informace budeme schopni zjistit ̶ Jedná se o spolehlivou genotypizační technologii ̶ Relativně levná metoda (poměr cena/výkon) ̶ Population stratification ̶ Rozdíl ve frekvenci jednotlivých alel mezi pacienty a kontrolami může být způsoben rozdílnými předky spíše než asociací genu s chorobou ̶ Omezená klinicky prediktivní schopnost ̶ Málo kdy lze díky konkrétní variantě spolehlivě předpovídat nemoc ̶ Viz GRS ̶ Potřeba znát genetický základ zkoumané populace ̶ LD se může lišit mezi jednotlivými etniky – potřebuji znát genom dané populace ̶ Problém např. u Indiánů, ostrovních národů v Pacifiku, Pygmejů ̶ Neberou v potaz interakci gen-prostředí ̶ Potřeba pracovat s velkým týmem, s různou specializací 16 Co říkají konkrétní studie? ̶ První GWAS zkoumající kazivost zubů u dětí ̶ 1305 dětí ve věku 3-12 let ̶ Genotypizováno 580 000 SNPs, pomocí imputace dohromady 1,4 M SNPs ̶ Žádné signifikantní SNP nenalezeny 17 Shaffer et al. ̶ Žádné signifikantní SNP nenalezeny 18 Shaffer et al. ̶ 920 participantů ve věku 18-75 let ̶ 520 000 SNPs ̶ Pacienti rozděleni podle DMFS (decay-missing-filled surface index) 19 ̶ Celkem 2 signifikantní lokusy ̶ AJAP1 – podílí se na vývoji zubů společně s MMP ̶ LYZL2 – lysozyme-like gene, bakteriolytický faktor ̶ Dalších 31 „podezřelých“ lokusů 20 Zeng et al. ̶ Dva soubory 1006 dětí ve věku 3-12 (SM) a 979 dětí ve věku 4-14 (PF) ̶ Autoři rozdělili DMFS na dva fenotypy – s hladkým povrchem zubů a zuby s fisuramy ̶ Genotypizováno 530 000 SNPs, s imputací 1 200 000 SNPs 21 ̶ U PF skupiny byl asociován gen KPNA4 ̶ U SM skupiny nebyla nalezena žádná asociace ̶ Dalších 5 podezřelých lokusů 22 Shungin et al. ̶ Využití dvou biobank – UKB a GLIDE (Gene-lifestyle interactions in dental endpoints) ̶ Dohromady přes 500 000 pacientů ̶ Genotypyzováno cca 500 000 SNP + imputace (dohromady cca 8,9M SNPs) ̶ Celkem asociováno 47 nových variant 23 Genetické/polygenní rizikové skóre (GRS/PRS) ̶ Číslo, které vyjadřuje riziko sledovaného fenotypu ̶ Vážené a nevážené GRS 24 Genetické/polygenní rizikové skóre (GRS/PRS) 25 ̶ Vzali 40 nejsilněji asociovaných SNP z GWASu a sestavili nevážené GRS ̶ Teoretické hodnoty 0-80, průměr byl 37,1 ± 3,9; rozmezí 24 – 52 ̶ Evropsko-americká populace Morelli et al. 26 27 Morelli et al. ̶ Sami autoři uvádějí tři důvody, proč toto skóre je třeba i dále upravit ̶ SNP použité v této studii byli asociované pouze na jedné kohortě pacientů – nemusí tedy platit pro všechna etnika, na jiné kohortě. Pro zavedení do praxe je potřeba nejprve zvalidovat a zreplikovat výsledky. ̶ Participanti jen v středním věku, s Evropsko-Americkými předky ̶ Další faktory, jiné než genetické, se účastní na rozvoji nemoci v dutině ústní (návyky, socioekonomický status, přístup k zubní péči,…) ̶ Snaha vytvořit univerzální GRS, které by bylo schopno určit jedince s větší predispozicí pro danou nemoc. Tito jedinci by byli pod častější kontrolou svého lékaře, mohou upravit návyky,… 28 Závěr ̶ Shrnutí před GWASové éry ̶ Co to jsou GWAS, jaké jsou jejich výhody a nevýhody ̶ Shrnutí recentních GWAS studií ̶ Využití informací z GWAS pro tvorbu GRS 29 Doporučená literatura 30 Příběhy vědy: rakovina Bi0001 Příběhy vědy: gen Bi0002 https://www.ceskatelevize.cz/ porady/10441294653-hyde- park- civilizace/220411058090919/