GENOVÉ TECHNOLOGIE – Genomika a genová exprese1 GENOVÉ TECHNOLOGIE Genomika a genová exprese techniky mapování genů, nekódující části genomu, bioinformatické nástroje, farmakogenetika, DNA mikroarrays, RNA-seq techniky, metagenomika, epigenetika GENOVÉ TECHNOLOGIE – Genomika a genová exprese2 Sekvenace lidského genomu ̶ v době počátku (rok 1990) monumentální úkol ̶ započat v roce 1990 za účasti DOE and NIH ̶ sekvenace prováděna pomocí kontigových map a BACs ̶ prvotní plán počítal s dobou trvání 15 let ̶ nakonec sekvenace pomocí Sangerovy metody téměř dokončena již v roce 2000 ̶ výsledná sekvenční mapa publikována 14. dubna 2003, 99.99% přesnost (National Human Genome Research Institute) ̶ celkové náklady projektu 3 miliardy dolarů ̶ v roce 2000 prezident Bill Clinton ujistil o nepatentovatelnosti lidské DNA https://https://www.genome.gov/25019885/online-education-kit-how-to-sequence-a-human-genome// GENOVÉ TECHNOLOGIE – Genomika a genová exprese3 Celera Genomics Project ̶ založena vědcem Craig Venterem a v roce 1998 započala sekvenační projekt ̶ celkové náklady 300 mil. dolarů byly hrazeny plně s privátních zdrojů ̶ poprvé použita metoda „whole genome shotgun sequencing“ ̶ k analýze sekvenačních dat použit přístup vyvinutý Gene Myersem ̶ tento přístup však vyžadoval extrémní výpočtové požadavky ̶ finální výpočet prováděn na 7000 procesorech k získání 1000-násobné rychlosti oproti Pentium počítačům ̶ tento inovativní přístup dovolil dokončit sekvenaci již za 9 měsíců GENOVÉ TECHNOLOGIE – Genomika a genová exprese4 Silná role diplomacie It is hard to imagine today’s politicians reminding scientists that cooperation has as much value as competition. In 26 June 2000, US President Bill Clinton and UK Prime Minister Tony Blair presided over a carefully choreographed piece of scientific theatre. Through a video link connecting Washington DC and London, they announced to the world that scientists had completed a rough first draft of the human genome sequence. Craig Venter (vlevo), Francis Collins (uprostřed), Bill Clinton (vpravo) GENOVÉ TECHNOLOGIE – Genomika a genová exprese5 Mapovací techniky ̶ Genomové mapy poskytují lineární sérii značek pro skládání sekvenčních dat ̶ Tvorba genomové mapy: - genetické mapy (křížení, analýza rodokmenu, přenos genů) – vazebné mapy - fyzikální mapy (radiační hybridní panel, FISH) ̶ Genetické mapy založeny na vazbě = pravděpodobnosti, že se dva mapované znaky od sebe v rámci křížení oddělí ̶ Pro určení relativní vzdálenosti markerů zásadní procento případů, kdy jsou nalezeni spolu ̶ Dnes je používána celá řada markerů Typ mapování Markery Metody lokalizace Genetické Gen, biochemická vlastnost, DNA markery (RFLP, VNTRs, mikrosatelity, SNPs) Vazebná analýza využívající křížení nebo páření, Analýza příbuznosti Fyzikální STSs, EST, VNTRs, mikrosatelity Restrikční analýza, Radiační hybridní panel FISH, Cytogenetické mapování GENOVÉ TECHNOLOGIE – Genomika a genová exprese6 Genetické markery ̶ RFLP analýza příbuzných jedinců, snadná identifikace ̶ Variable Number Tandem Repeat (VNTR, minisatelity) – tandemové repetice o délce 9-80bp (forenzní testování, paternitní testy) ̶ Mikrosatelitní polymorfismus – tandemová repetice o délce 2 – 5bp ̶ Single Nucleotide Polymorphism (SNP) ̶ SNPs, VNTRs RFLPs jsou rovněž používány ve fyzikálním mapování ̶ Pro velké genomy potřebujeme další markery - STSs (Sequence Tagged Sites) – unikátní sekvence 100-500 bp - ESTs (Expressed Sequence tags) – identifikace v cDNA knihovnách ̶ Digesce gDNA pomocí restrikčních enzymů – metoda fyzikálního mapování Clark and Pazdernik, 2016 GENOVÉ TECHNOLOGIE – Genomika a genová exprese7 Genetické markery Clark and Pazdernik, 2016 GENOVÉ TECHNOLOGIE – Genomika a genová exprese8 Fyzikální mapovací techniky ̶ FISH (Fluorescence in-situ hybridization) – umístění konkrétní DNA próby u chromozómů v metafázi vzhledem k proužkování (chromosome painting) ̶ radiační hybridní mapování – velké segmenty klonovaného genomu mohou obsahovat dva fragmenty z různých částí genom Clark and Pazdernik, 2016 GENOVÉ TECHNOLOGIE – Genomika a genová exprese9 Mezery v rámci lidského genomu ̶ Pro doplnění mezer použití techniky „chromosome walking“ ̶ První klon je většinou lokalizován pomocí známého markeru (STS nebo RFLP) ̶ Nejvíc mezer je v oblastech repetitivní DNA – heterochromatin - hypoacetylace - metylace H3 na specifických Lys - methylace CpG nebo CpNpG ̶ Fakultativní X Konstitutivní heterochromatin Clark and Pazdernik, 2016 GENOVÉ TECHNOLOGIE – Genomika a genová exprese10 Počet genů X Genom Organismus Velikost genomu (Mbp) Počet protein-kódujcích genů Pšenice 17 000 95 000 Rýže 520 45 000 Paris Japonica (Pieris japonský) 149 000 26 000 Trichomonas vaginalis 160 46 000 Encephalozoon intestinalis 2.25 1833 Bahník východoafrický 130 000 ? Člověk 3200 21 850 Háďátko 97 20 493 Octomilka 180 13 600 Streptomyces coelicolor 8.7 7800 E. coli 4.6 4300 Mycoplasma genitalium 0.58 470 GENOVÉ TECHNOLOGIE – Genomika a genová exprese11 Nékódující genom ̶ Protein-kódující geny tvoří pouze malou část genomu člověka ̶ V rámci různých druhů celá řada CNE (conserved non-coding elements) ̶ Možné zesilovače transkripce nebo izolační sekvence ̶ 25% lidského genomu tvoří geny pro proteiny, z toho ale jen 1% CDS ̶ Zbývá objasnit roli intronů ̶ Další velká část = repetitivní sekvence - ribozomální RNA geny (kódující) - LINE (long interspersed element) (nekódující) – až 20% genomu, retrovirus-like elementy - SINE (short interspersed element) –až 13% genomu, Alu elementy Clark and Pazdernik, 2016 GENOVÉ TECHNOLOGIE – Genomika a genová exprese12 Maxam-Gilbertova sekvenační metoda • Touto metodou jsme schopni sekvenonat přibližně 250- 300 bp dlouhé fragmenty • Musíme pracovat s velkým množstvím DNA • Velká pracnost metody (několik purifikačních kroků), nemožnost plné automatizace, práce s mutagenními chemikáliemi • Používá se stále pro “footprinting“ GENOVÉ TECHNOLOGIE – Genomika a genová exprese13 Sekvenační metoda dle Sangera • Syntéza DNA in-vitro za použití “terminátorů“ – dideoxynukleotidů zabraňujících po svém začlenění do DNA její další elongaci. Deoxyribosa Dideoxyribosa • Vyžaduje použití iniciálního primeru, DNA polymerázy a směsi dNTPs se značenými ddNTPs • Nasyntetizované řetězce jsou poté separovány pomocí polyakrylamidové gelové elektroforézy nebo kapilární elektroforézy • Možnost plně automatizované separace za použití fluorescenčně značených ddNTPs GENOVÉ TECHNOLOGIE – Genomika a genová exprese14 Sekvenační metoda dle Sangera Throughput/Performance by Run Module XLRseq: 768 samples per day (690 Kbases) LongSeq: 1152 samples/day (980 Kbases) StdSeq: 2304 samples/day (1550 Kbases) FastSeq: 2304 samples/day (1600 Kbases) RapidSeq: 3840 samples per day (2100 Kbases) GENOVÉ TECHNOLOGIE – Genomika a genová exprese15 Pyrosekvenování (1990) • umožňuje rychlou sekvenaci krátkých úseků DNA - sekvenace 30 až 50 bazí trvá přibližně 30 až 45 minut. • Jedná se o bio-luminometrické sekvenování DNA založené na detekci anorganického pyrofosfátu (PPi) uvolněného během inkorporace nukleotidů. GENOVÉ TECHNOLOGIE – Genomika a genová exprese16 454 a GS Junior systém Průchodnost 1 miliarda bazí za den Doba analýza 10.0 hodin Délka čtení 400 Počet čtení/analýzu 1 000.000 Správnost >99.0% správnost jednoho čtení na 400 bazích Potřebné množství DNA Méně než 100 ng DNA Multiplexování Až 192 vzorků/běh GENOVÉ TECHNOLOGIE – Genomika a genová exprese17 Akumulace mutací v DNA ̶ Projekt HUGO otevřel mnoho nových možností ̶ V rámci miliónů let dochází k hromadění mutací v rámci genomu ̶ Většina defektních buněk umírá procesem apoptózy (řízené buněčné smrti) ̶ Mutace - v somatických buňkách – nepřenáší se na potomstvo - v zárodečných buňkách – přenáší se na potomstvo GENOVÉ TECHNOLOGIE – Genomika a genová exprese18 Typy mutací Tranzice GAACGT → GAGCGT Transverze GAACGT → GATCGT Missense mutace GAACGT → GATCGT Glu Arg Asp Arg Konzervativní substituce ACTCGT → TCTCGT Thr Arg Ser Arg Radikální nahrazení GATCGT → GCTCGT Asp Arg Ala Arg Nonsense mutace GAACGT → TAACGT Asp Arg STOP Inzerce GAACGT → GAAACGT Delece GAACGT → GACGT Mutační hot-spoty – oblasti s vyšším výskytem mutací (metylace cytosinu, prokluz v repetitivních oblastech) Genetická variabilita zohledňuje rekombinační hot-spoty = haplotypové bloky (haplobloky) GENOVÉ TECHNOLOGIE – Genomika a genová exprese19 Míra mutací v genomech GENOVÉ TECHNOLOGIE – Genomika a genová exprese20 Genomika v medicíně ̶ Největší aplikace genomických dat v diagnostice onemocnění ̶ Genetické testování – stanovení přítomnosti genu asociovaného s onemocněním: - svalová dystrofie (gen pro dystrophin) - cystická fibróza (gen CFTR) - Huntingtonova choroba (HTT gen) GENOVÉ TECHNOLOGIE – Genomika a genová exprese21 Genomika v medicíně ̶ Pro identifikaci kauzálních mutací výhodnější sekvenovat exom (2%) než genom ̶ V současné době více než 3000 onemocnění identifikováno pomocí genomiky a rodokmenové analýzy - tzv. Mendelovy choroby (mutace v jednom genu vede k onemocnění) ̶ Celá řada onemocnění je polygenních (příspěvek více genů pro rozvoj onemocnění) - Crohnova choroba - autoimunitní onemocnění - psychiatrické poruchy (schizofrenie, AD, mírná kognitivní porucha) ̶ V rámci těchto onemocnění využití GWAS (genome-wide association study) - analýza jednobodových polymorfismů (SNPs) – frekvence nižší než 1% - vliv genotypu a prostředí na rozvoj onemocnění GENOVÉ TECHNOLOGIE – Genomika a genová exprese22 Zipcode analysis Clark and Pazdernik, 2016 GENOVÉ TECHNOLOGIE – Genomika a genová exprese23 Metoda Infinium • Celogenomové typizace SNPs • Možnost provádění CNV analýz (copy number variation) • Průměrná call rate > 99% • 1 072 820 SNPs/vzorek • 4 až 48 vzorků najednou Infinium HD BeadChips Samples per BeadChip Markers per Sample HumanOmni1-Quad 4 > 1 million* Human1M-Duo 2 > 1 million HumanOmniExpress 12 > 700,000 Human660W-Quad 4 > 658,000 HumanCytoSNP-12 12 ~ 300,000 Semi-Custom Human1M-Duo+, and HumanHap550-Quad+ 2 / 4 standard content and up to 60,800 customized SNPs per sample GENOVÉ TECHNOLOGIE – Genomika a genová exprese24 CNVs (copy number variants) analýza ̶ Pomůcka pro detekci celé řady geneticky-podmíněných onemocnění ̶ Analýza chromozomálních aberací (delece, inzerce, multiplikace, přesupení Gross et al. 2018 GENOVÉ TECHNOLOGIE – Genomika a genová exprese25 Farmakogenetika a genomika ̶ Vývoj celé řady léčiv byl řízen omylem (penicilin, paralen, viagra, atd.) ̶ Velký problém při vývoji léčiv je ADR (adverse drug reaction) – přibližně u 7% lidí ̶ Farmakogenetika – studium dědičných rozdílů v metabolismu léků ̶ Farmakogenomika – studium všech genů ovlivňujících odpověď na léčivo ̶ Roche Diagnostics' AmpliChip P450 2D6/2C19 – první diagnostická analýza SNPs spojených s metabolismem léčiv pomocí DNA čipu GENOVÉ TECHNOLOGIE – Genomika a genová exprese26 Genová exprese - Microarrays ̶ cDNA microarrays: - nanesení části cDNA knihoven, PCR produktů na čip (25tis. genů u člověka) - přímá syntéza oligonukleotidů na čipu pomocí fotolitografie ̶ Výběr vhodných oblastí pro sondy (GC poměr, sek. struktury) Clark and Pazdernik, 2016 Clark and Pazdernik, 2016 GENOVÉ TECHNOLOGIE – Genomika a genová exprese27 Genová exprese – WGAs, ChIP ̶ WGAs (whole-genome tiling arrays pokrývají celý genom ̶ Poprvé u Arabidopsis (25-merní oligonuleotidy) ̶ Objevení nových genů, sestřihových variant ̶ ChIP (chromatin immunoprecipitation): - analýza DNA oblastí jednotlivých transkripčních faktorů - analýza DNA oblastí asociovaných s PTMs histonů Clark and Pazdernik, 2016 GENOVÉ TECHNOLOGIE – Genomika a genová exprese28 Genová exprese - RNAseq ̶ Výhody RNAseq metody: - není závislý na sondách (správnější kvantifikace daných RNA molekul) - velký dynamický rozsah - detekce alternativních sestřihů a možnost jejich kvantifikace - možnost provedení i bez znalosti genomové sekvence - možnost provedení i z jedné buňky Clark and Pazdernik, 2016 GENOVÉ TECHNOLOGIE – Genomika a genová exprese29 MetaRibo-Seq Fremin et al. 2020 ̶ Riboseq – zastavení translace a následná sekvenace translatomu GENOVÉ TECHNOLOGIE – Genomika a genová exprese30 Metagenomika ̶ Studium genetického materiálu obsaženého ve vzorku ̶ ShotGun přístup X sekvenace specifických fylogenetických oblastí (16S, 18S, ITS, mcrA) Johnson et al. 2019 Microbiome Microbiota Metagenome Microorganisms (and their genes) living in a specific environment Microorganisms (by type) living in a specific environment The genes of microorganisms in a specific environment Gohl et al. 2016 GENOVÉ TECHNOLOGIE – Genomika a genová exprese31 Sledování genové exprese ̶ Celá řada detailů o genu získána pomocí reportérových genů - přidání reportérového genu za promotor - přidání reportérového genu za CDS ̶ Použití následujících genů: - lacZ gen (b-galaktozidáza) - phoA gen (alkalická fosfatáza) - lux/luc gen (luciferáza) - gfp gen (Green Fluorescent Protein) Clark and Pazdernik, 2016 GENOVÉ TECHNOLOGIE – Genomika a genová exprese32 Sledování methylomu ̶ Analýza míst metylace gDNA ̶ Metylací většinou umlčení transpozonové elementy ̶ Umlčení jedné kopie chromozomu X u žen ̶ Analýza pomocí bisulfitové metody - přidání siřičitanu sodného vede k konverzi nemetylovaných cytosinů na uracil - následná sekvenace bez a s přídavkem siřičitanu vede k odhalení metylačních míst ̶ sekvenátory 3. generace (Nanopores, PacBIO) jsou schopny přímo číst metylaci na cytosinu Clark and Pazdernik, 2016 GENOVÉ TECHNOLOGIE – Genomika a genová exprese33 Sekvenátor PacBio ̶ Sekvenace založena na Single Molecule, Real-Time (SMRT®) technologii ̶ Vyžívá tzv. Zero-Mode Waveguides (ZMWs) umožňujcící osvícení pouze spodní části jamky, ve které je dole imobilizována DNA polymeráza ̶ Hlavní výhoda je možnost dlouhého čtění (až 20 kb) ̶ Další výhoda je možnost přímé detekce methylovaných bazí (epigenom) https://www.youtube.com/watch?v=v8p4ph2MAvI PacBio RS II GENOVÉ TECHNOLOGIE – Genomika a genová exprese34 Sekvenátor Oxford Nanopores ̶ Základem technologie jsou nanopóry (nanodíry) ̶ Na začátku sekvenace je NK navázána na nanopór tvořený proteinem ̶ Poté je rozpletena a prochází přes nanopór, což generuje změnu proudu ̶ Na základě pozorované změny jsou odečítání v reálním čase jednotlivé báze ̶ Umožňuje sekvenaci velmi dlouhých úseku (desítky až stovky kilobází) ̶ Nevýhodou je vyšší chybovost, správnost >90% GENOVÉ TECHNOLOGIE – Genomika a genová exprese35 Editace genomu ̶ Všechny techniky pracují na základě tvorby dvou-řetězcových zlomů ̶ Tyto zlomy jsou následně opraveny nehomologním párováním konců (NHEJ) nebo homologní rekombinací (HR) ̶ V rámci procesu může dojít k začlenění nového genu nebo vnesení krátké inzerce/delece inaktivujích daný gen ̶ Dvě základní metody pro tvorby dvou-řetězcových zlomů: - endonukleázy nebo restrikční enzymy s dlouhou rozpoznávací sekvencí (až 40 bp) - použití CRISPR/Cas9 systému ̶ ZFNs (Zinc Finger Nucleases) – doména zinkového prstu rozpoznává sekvenci, DNA je štěpena FokI restriktázou. ̶ TALE nukleázy (TALENs) – rozpoznávací doména pochází z TALE (Transcription Activator-Like Effector) proteinu, DNA je štěpena FokI restriktázou GENOVÉ TECHNOLOGIE – Genomika a genová exprese36 ZFNs a TALENs Clark and Pazdernik, 2016 GENOVÉ TECHNOLOGIE – Genomika a genová exprese37 CRISPR/Cas9 ̶ Co-exprese endonukleázy Cas9 nebo Cas12a a gRNA specifické k cílovému genu (ropoznávaná sekvence ∼20 nukleotidů) ̶ Nutno splnit dvě podmínky: 1. Sekvence je unikátní v genomu 2. Cílová sekvence je přítomna hned za Protospacer Adjacent Motif (PAM) – vazba Cas9 endonukleázy Clark and Pazdernik, 2016