Molekulární biologie člověka : Mutace a nestability v lidském genomu Dynamické mutace, repetitivní DNA Multigenové rodiny Marie Vojtíškova OGMB, MU Brno 2007 Lidský génom •kompletní sekvence 3miliard párů bází •20 000 - 30 000 genů jaderné DNA •37 genů mitochondriální DNA (103 kopií) •poznání sekvence LG • geny obsahují cca 3% celkové DNA •(TESIMESENAVASISPOLUPRACI) •Aplikace studia lidského genomu (LG) % kompletní sekvence LG vzhledem k jednotlivým chromosomům Science 296, 2002, 1600 12 3 4 5 JÍ )! H (f i« 72.2% 89.3% 53.8% 83.5% 74,2% 6 M 96.4% 7 B (( n 96.2% 64.3% 9 10 (f ti 91.8% 83.5% 11 n 71.2% 12 «/ 66.1% 13 14 15 16 17 18 it 93.2% 11 93.8% U 61.8% »8 72.2% Í« 51.7% Í8 46.2% 19 20 21 22 23 S 81.% 24 M 66.8% U 99.0% « 99.5% M 96.5% 1 93.6% DNA uchovaní genetické informace Posloupnost čtyř baží A, G, T, C O* svs^| jfckA^ . ** m % m*^ jg ^■g^,: «fr 3L. «H^L .- 1 - "^T i ^ iL .4 jm íl- -í & «IÍP i lb MT - Reasociační kinetiky lidské DNA prokázaly tři skupiny pakujících se sekvencí: 60 % velmi nízký počet kopií 30% středně repetitivní 10% vysoce repetitivní Metody: DNA sekvencování DNA hybridizace PCR Základní třídy tandemových repeticí v lidské DNA Satelitní DNA ( bloky od 100 kb do několika Mb) Satelity 2,3 — velikost jednotky repetice 5 pb. Lokalizace většinou na všech chromozomech Satelity 1 ( AT bohaté oblasti) o velikosti 25 - 48 bp, především lokalizovaných v centromerických a jiných heterochromatinových oblastech. Alfa ( alfoidní DNA) o velikosti repetitivní jednotky 171 pb s výskytem v centromerách všech chromozomů. Beta ( Sau3A rodina) s jednotkou 68 pb, zvláště se nacházející v centromerickém heterochromatinu chromosomů 1,9,13,14,15,21,22 a Y. MinisatelitníDNA (bloky od 0.1 do 20kb) Telomerickíé sekvence T2AG3, na koncích chromozomů Hypervariabilní sekvence v blízkosti telomer MicrosatelitniDNA ( bloky méně nežl50 pb) Krátké repetitivní sekvence např. typu (CA)n, výskyt po celém genomu non B struktury DNA Závislost na sekvenci repetice Structure Slipped (Hairpin) Structure DNA Unwinding Element Tetraplex Triplex Sticky DNA Conformation 9 -vľ\ 1 I >, "VV.I* > >v V"~V ">,> \ vv Vv vv vvW WvVvV V Vv vv\v\ n r \3 u *** X X. V ) f r ff fffffffffff **\\ <»yji í** V ** £ » OOOmSO General Seq. Requirements Direct Repeats A-T rich Regions Single-Strand Oligo (G)n Tracts (R*Y)n Mirror Repeats 2 G-A rich Tracts Direct Repeats Sequence CNGCNGCNG GNCGNCGNC ATTCTATTCT TAAGATAAGA CGGCGGCGG GCCGCCGCC GAAGAiAGAAG CTTCTITCTTC GAAGAAGAA CTTCTTCTT Struktura tří vláken DNA - Intermolekulární triplex Vazba třetího vlákna do velkého žlábku - stabilní triplex Homopurin. hompyrimidinová sekvence Uplatnění v humánní medicine? Možnost aktivace nebo potlačení exprese genů LG: i r ■ ■ - ■ __ □ = - «^ ^^^^^ Triplex-forming Mirror Repeats ft*" M y» i o TATMWWpW i-ii f-K H I I H C*ÚCb*Mirtp)M T-A A-T g-c 3r T-A T-A-T c—a—c T-A-T c—o-C T-A-T c-a-c T-A-T T-A-T C-Ö c T-A-T 7-A-T T-A-T T-A-T •t-a-t T-A A-T T-A A-T r-A A-T T-A A-T T-A A-I Mutace LG- změny v genotypu Četnost spontánních mutací nízká, pravděpodobnost 107 •Normální karyotyp člověka 46 chromosomů (XX/XY)/buňka (gamety 23 chromosomů) •Mutace chromosomové (duplikace, delece, inverse, translokace, fragmentace, isochromosom, ring Chromosom) •Mutace genomové,polyplodie •Mutace v genech, informace v genech, mutace na úrovni nukleotidů (inzerce, delece, substituce) • dynamické mutace v závislosti na sekvenci •buňky zárodečná linie - vrozené mutace •maligní linie buněk - získané a neopravené mutace, vedoucí k neoplastické transformaci •mRNA reflekce exprese genů fyzioL/patol. •protein / funkce - fyziol. /patol. Poškození DNA na úrovni somatických buněk: Intracelulární -inkorporace chybného nukleotidu při replikaci -náhodné chemické změny DNA v buňce -reaktivní produkty metabolismu, kyslíkové radikály - viry- inkorporace do genomu infikové buňky - mobilní elementy (transpozony a retrotranspozony Extracelulární - chemické látky, mutagenní vlivy vnějšího prostředí - ionizační záření, UV záření Cílené - terapeutické působení cytostatik Repetitive DNA DNA eukaryot a také člověka obsahuje značný podíl nekódujících sekvencí. Tak jako kódující DNA i nekódující může být unikátní anebo se může nacházet v genomu ve více identických nebo podobných kopiích. Sekvence DNA s vysokým množstvím kopií se nazývají repetitivní sekvence. Pokud jsou kopie sekvenčního motivu v blocích, v řadě za sebou, hovoříme o tandemových repeticích, od nich odlišujeme repetitivní sekvence rozptýlené v genomu jako jednotlivé kopie (rozptýlené repetice - anglicky interspersed repeats). Podstata rozptýlených repetic - transpozony Většina rozptýlených repetic vzniká procesem transpozice, což je "skákání" segmentu DNA na jiné místo genomu. Rozlišujeme v podstatě dva typy transpozibilních elementů DNA, neboli transpozonů: DNA transpozony a retrotranspozony. Hlavní skupiny rozptýlených repetic se schopností transpozice : LINE (long interspersed repeats), př. LI; LTR-retrotranspozon; l,2kb -gen pro transpozásu je obklopen ITR, duplikace cílového místa; SINE -( short interspread repeat) př. 282 bp dlouhý Alu element DNA transpozony DNA transpozony jsou v lidském genomu považovány za inaktivní, díky akumulaci mutací v průběhu fylogeneze obratlovců, a tak můžeme najít pouze jejich evolučně staré zbytky, neboli "fosilie". Nicméně aktivní transpozon odvozený z lidských fosilních elementů může být "vyroben" s použitím informací získaných z lidského genomu i genomu ostatních obratlovců. Jedním z příkladů je transpozon "Sleeping Beauty" (Šípková Růženka), který by se mohl např. stát základem další generace genové terapie, díky více specifickému místu integrace, než je tomu např. u retrovirů. Jak funguje typický DNA transpozon? Jádrem je sekvence kódující enzym transpozázu. Tento enzym se váže k oběma koncům repetitivního elementu, které jsou tvořeny invertovanými repeticemi. Tyto invertované konce si tedy mohou "vyměnit" řetězce a stabilizovat tak strukturu stopka-klička, nezbytnou pro aktivitu transpozázy. Transpozáza pak vy štěpí transpozon a liguje takto vzniklé volné konce chromozomální DNA. [Téměř shodný mechanismus je činný během maturace genů pro imunoglobuliny (V-D-J rekombinace) a TCR (T-cell receptor, receptor T-lymfocytu) při vy štěpení mezilehlých sekvencí. Je zajímavé, že enzym katalyzující tuto reakci (skládá se z dvou podjednotek RAG1 a RAG2) se skutečně pravděpodobně vyvinul z transpozázy.]. Uvolněný komplex transpozon-transpozáza se váže na specifický sekvenční motiv jinde v genomu, transpozáza štěpí hostitelskou DNA a liguje transpozon na nové místo. Takto se transpozon pohybuje mechanismem vyjmout-vložit (cut and paste) a počet kopií zůstává stabilní Retrotranspozony Retrotranspozony jsou v lidském genomu mnohem důležitějšími transpozibilními elementy. Zaprvé jsou daleko hojnější, přímo tvoří nejméně 45% lidského genomu (odhady se různí, ale mnoho výzkumníků věří, že by to mělo být více, neboť starobylé retrotranspozony které byly inaktivovány, divergovaly díky mutacím tak, že jsou již nerozeznatelné). Zadruhé jsou retrotranspozony v lidském genomu stále aktivní. Pro "skákání" vyžadují buněčné RNA polymerázy (II nebo III), kterými jsou přepsány do RNA, zatímco původní kopie zůstává na svém místě. RNA kopie podléhá reverzní transkripci do DNA, která je vložena do genomu na nové místo. Tyto elementy tedy expandují (co do množství) mechanismem duplikace (kopírovat-vložit, copy and paste). Jak je dále popsánu pro LI retrotranspozon, proces retrotranspoziceje náchylný k různorodým chybám, atakjsou nově vzniklé kopie většinou inaktivovány delecemi nebo bodovými mutacemi. Protože je většina kopií inaktivní, další expanze dané rodiny retrotranspozonů je řízena několika aktivními úplnými elementy. Avšak i když by později během fylogeneze došlo ke ztrátě všech aktivních elementů, genom může být doslova přeplněn fosilními členy dané rodiny sekvencí. Retrotranspozony mohou být dále klasifikovány jako autonomní nebo neautonomní. Autonomní retrotranspozony kódují proteiny nezbytné k jejich transpozici, ačkoli pro úspěšné "skákání" jsou také závislé na hostitelových RNA polymerázách a enzymech opravujících DNA. Neautonomní retrotranspozony nekódují proteiny a musí tak zneužít enzymy jiného transpozonu aby byly schopné transpozice. LTR retrotranspozony - endogenní retroviry Endogenní retroviry, také nazývané LTR retrotranspozony, připomínají svým složením pro viry skutečných retrovirů - obsahují LTR (long terminal repeats, dlouhé terminálni repetice) a geny gag, pol, env aprt, ale alespoň jeden z genů nezbytných pro sestavení infekčních virových částic je mutován nebo chybí, zvláště se to týká genu env. Proto semohou endogenní retroviry pohybovat pouze uvnitř buněk, jinak je jejich životní cyklus podobný infekčním retro virům, jako je HIV. Ačkoli jsou endogenní retroviry aktivní u mnoha savců, včetně šimpanze, lidský génom v současné době obsahuje pouze fosilie endogenních retrovirů (mutované a neschopné transpozice), které zaplňují asi 8% genomu. Intaktní endogenní retroviry jsou dlouhé 7-9 kb, ale stejně jako u LI retrotranspozonu (viz dále) mnoho z nich je zkrácených, zejména na 5' konci. Často také můžeme najít pouze samostatné LTR, jako výsledek integrace retrovirů a následné intrachromozomální rekombinace mezi oběma LTR nebo nerovnoměrné rekombinace dvou homologních chromozomů vedoucí k deleci kódující části retrovirů . Non-LTR retrotranspozony LINE LINE (long interspersed nuclear elements = dlouhé rozptýlené jaderné elementy) jsou autonomní retrotranspozony. Tvoří asi 21% lidského genomu. Aktivní elementy patří k nejhojnější rodině LINE-1 neboli LI, která sama o sobě zahrnuje 17% genomu. Ze zhruba půl milionu kopií LI v našem genomu, skoro 10 000 má úplnou velikost a asi 100 je stále schopno retrotranspozice. Aktivní LI element je dlouhý asi 6 kb a obsahuje dva otevřené čtecí rámce (open reading frames), ORFl a ORF2. 5' UTR (untranslated region, nepřekládaná oblast) funguje také jako promotor, 3' UTR obsahuje signál k polyadenylaci. Funkce ORFl není jasná, známo je jen, že se váže na LI mRNA. ORF2 obsahuje doménu s aktivitou reverzní transkriptázy a endonukleázovou doménu a je enzymem zodpovědným za integraci. Životní cyklus LI začíná transkripcí LI DNA buněčnou RNA polymerázou II a standardní maturací v mRNA molekulu. LI mRNA je transportována do cytoplazmy, kde je syntetizován protein ORFl. Pak je translace reiniciována na "vnitřním místě pro vstup ribozomu" (internal ribosomal entry site, IRES) (proces to nekanonický a tím neefektivní u eukaryot, a tak jen část LI mRNA molekul získá svůj protein ORF2). Oba proteiny se po své translaci neprodleně váží na LI mRNA. Tento komplex protein-mRNA je transportován do jádra. ORF2 štěpí chromosomální DNA v cílovém místě (cílové místo není úplně specifické jak je tomu např. v případě restrikčních endonukleáz, ale je zde určitá preference pro sekvence bohaté A a T, místo štěpení je přibližně TT/AAAA). Štěpení DNA je nerovnoměrné (vytváří se kohézni konce). Volná 3' OH skupina na jedné straně štěpené DNA molekuly je užita reverzní transkriptázou proteinu ORF2 k zahájení syntézy prvního řetězce cDNA (target primed reverse transcription, reverzní transkripce s cílovou sekvencí jako primerem). Detailní mechanismus syntézy druhého řetězce cDNA je stále předmětem diskuse, proces však končí stabilní integrací dvouvláknové LI DNA na novém místě genomu. Díky stupňovitému zlomu cílové DNA vyrobenému endonukleázou transpozonu je integrovaný LI element obklopen duplikací cílového místa o velikosti 7-20 párů baží. Reverzní transkriptáza je většinou neschopna ukončit syntézu prvního řetězce, což vede ke zkrácení nové kopie na 5' konci. Reverzní transkriptáza také nemá 3' - 5'exonukleázovou aktivitu a tak často zavádí do nové kopie bodové mutace. Je zajímavé, že LI mRNA je exprimována zejména v meiotických a postmeiotických spermatocytech, zvyšujíc tak potential LI pro expanzi (kopie introdukované to zárodečné linie jsou na rozdíl od nových somatických integrací dědičné). Neautonomní retrotranspozony - SINE SINE (short interspersed nuclear elements = krátké rozptýlené jaderné elementy) jsou typicky kratší než 500 bp a nemají žádný kódující potenciál. Hlavní rodinou SINE u člověka jsou Alu elementy (jméno je odvozeno od jejich objevu spojenému s párem konzervovaných restrikčních míst pro endonukleázu Alul). Více než 1 milión Alu elementů tvoří asi 11% lidského genomu. Alu elementy sdílí konsenzus 282 bp který je příbuzný a byl patrně odvozen z RNA podjednotky SRP (zvané 7SL RNA). SRP (signal recognition particle = částice rozpoznávající signál) je ribonukleoproteinový komplex, který rozpoznává signální peptid, váže se na něj a přemístí komplex ribozom-mRNA-nascentní peptid ke kanálu endoplazmatického retikula (ER), skrz nějž je nascetní peptid translokován do lumen ER nebo integrován v membráně ER. Alu jsou, stejně jako gen pro 7SL RNA transkribovány RNA polymerázou III. Alu RNA váže dva proteiny SRP (9 a 14). Pravděpodobně se tak může Alu vázat na ribozom a díky svému "ocasu" bohatému na adenin také (pokud ribozom zrovna zpracovává LINE-1 mRNA) na nascentní protein ORF2 a zneužít ORF2 k reverzní trnaskripci a integraci vlastní RNA a nikoli LINE-1. Funkce transpozonů Z bezprostředního pohledu nemají transpozony žádnou důležitou funkci v buňce - hovoří se oMstarém harampádí" - odpadní DNA (junk DNA); nebo o sobecké DNA, neboť se transpozony propagují na úkor buněčných energetických zdrojů. Z širšího úhlu pohledu může být mobilita retrotranspozonů důležitá pro plasticitu genomu. Příležitostná inzerce do genu může vyřadit gen z funkce a způsobit dědičné onemocnění. LTR a LINE elementy mohou také měnit genovou expresi, pokud se inzerují do blízkosti nějakého genu, neboť LTR a LINE 5TJTR mají silnou promotorovou aktivitu v obou směrech . Protože má LINE-1 retrotranspozon relativně slabý polyadenylacní signál, stává se, že RNA polymeráza II se skrz něj pročte, a tak připojí k LI mRNA i následující sekvenci, která podlehne reverzní transkripci a přesunu na nové místo. Tak může být LINE-1 vektorem pro mobilitu samostatně nemobilních sekvencí. Navíc jsou retrotransponované kopie LI často zkrácené na 5'konci, a tak se mobilizovaná DNA (která je na 3'konci) může dostat na nové místo i beze zbytků LI sekvence. To může mít význam hlavně pro mobilitu menších DNA fragmentů - např. k výměně exonů mezi geny. Retrotransposice LI může dokonce vyústit v delece a inverze. Zřídka je normální buněčná mRNA předmětem reverzní transkripce a transpozice enzymem z LI nebo z jiného retrotranspozonu. V tomto případě dochází k duplikaci genu. Nová kopie se nazývá "procesovaný pseudogen" (processed pseudogene), neboť je odvozena ze zralé "zpracované" mRNA bez intronů, a je obvykle nefunkční, díky chybějícímu promotoru. Zřídka však může procesovaný pseudogen přijmout novou funkci pod selekčním tlakem. Velmi známý příklad je gen pro podjednotku Elalfa pyruvátdehydrogenázy. Tento gen (PDHA1) leží u placentálních savců na chromozomu X. Ale exprese mnoha genů na chromozomu X je v průběhu spermatogeneze zastavena, včetně PDHA1, ačkoli jeho produkt je nezbytný pro funkci všech buněk. Tato chybějící funkce byla očividně zachráněna retrotranspozicí: na chromozomu 4 se nachází velmi podobný gen PDHA2, ale tento gen postrádá introny - a to je pro procesované pseudogeny typické. Vysoce exprimované "provozní" (housekeeping) geny mají samozřejmě větší pravděpodobnost retrotranspozice. Nacházíme tak mnoho procesovaných pseudogenů pro ribozomální proteiny, glykolytické enzymy, beta-aktin, a podobně. Procesované pseudogeny by neměly být zaměňovány za druhou kategorii "obyčejných" pseudogenů, které vznikají duplikací genomické DNA (napr.pseudogeny ve skupině genů pro hemoglobin) a zachovávají proto původní strukturu (exony, introny, promotor...i když s porušenou funkcí Bylo objeveno několik genů přímo odvozených z retrotranspozonů. Poslední přídavek je gen Peg 10 (paternally expressed 10, paternálně exprimovaný gen 10), odvozený z LTR retrotranspozonů z rodiny Ty3/gypsy (velmi podobný retrotranspozon byl nalezen v aktivní formě u ryby fugu {Takifugu rubripes}). Peg 10 je nezbytný pro vývoj placenty u myší a stejnou funkci bude mít pravděpodobně u člověka. Jiné příklady zahrnují geny pro syncytin, odvozené z endogenních retrovirů z rodiny HERV-W. Produkty těchto genů jsou důležité pro vytvoření syncytia z buněk trofoblastu, mechanismus fůze membrán připomíná vstup retrovirů do buňky. I neaktivní repetitivní elementy zvětšují plasticitu genomu tím, že podporují mezichromozomový nerovnoměrný crosing-over nebo intrachromozomovou rekombinaci V neposlední řadě se uvažuje o tom, že by transpozony mohly mít nějakou reálnou fyziologickou funkci, např. proto, že jejich exprese je obecně zvýšena během stresové odpovědi. Ale různé hypotézy, které mohou být koncipovány na základě takových pozorování jsou v současné době nepotvrzené. Tandemové repetice Tandemové repetice jsou tvořeny za sebou jdoucími identickými a nebo téměř identickými jednotkami. Tolik se však různí v délce jednotky repetice i celé repetice, že je jakákoli klasifikace neuspokojivá, a je nutno ji brát "cum grano salis". Největší repetice, které mají dendenci být složeny z relativně dlouhých jednotek se nazývají satelity. Jméno satelity je pochází z centrifugace DNA v hustotních gradientech. Nejprve, během konvenční izolace DNA, je tato předmětem namáhání smykem (shear stress), s výslednou fragmentací DNA (in vivo obsahuje jeden chromosom v Gl fázi 1 molekulu DNA). Tyto fragmenty mohou být centrifugovány v hustotních gradientech tak, že molekuly DNA obsazují v gradientu místa se stejnou hustotou prostředí jako má molekula DNA. Většina DNA vytvoří jednotný "proužek". Ale fragmenty DNA se signifikantně odlišným obsahem CG/AT, způsobeným např. rozsáhlými monotónními repeticemi vytvoří méně intenzivní přídavné "satelitní" proužky. Označení satelitní DNA bylo později rozšířeno a zahrnuje i podobně repetitivní sekvence, které však nevytváří tyto satelitní proužky. Primární jednotky repetice u satelitů jsou různorodé, od GGAAT u satelitu 2 a 3 až po 171 bp u alfa satelitu. Ale tyto primární jednotky jsou často degenerované, s určitými nepravidelnostmi. Tyto nepravidelnosti se mohou periodicky opakovat a tak tvořit sekundární jednotky. Satelitní DNA je hojná v oblasti centromer a konstitutivního heterochromatinu. Přestože je lidský genom považován za úplně sestavený, oblasti centromer a heterochromatin obsahující satelitní sekvence nejsou zahrnuly, neboť sekvenování takových oblastí je z různých důvodů problematické (absence patřičných restrikčních míst, obtížné sekvenování, téměř nemožné sestavení jednotlivých sekvencí do tzv. kontigu apod.). Z mnoha satelitů nacházených v oblasti centromer, tvoří rodina alfa satelitu (s primární jednotkou dlouhou 171 bp) pravděpodobně funkční jádro centromery, neboť je důležitá pro "poskládání" kinetochory během buněčného dělení (některé proteiny kinetochory se váží na alfa satelit v centromere a tím zahajují sestavování kinetochory). Funkce ostatních satelitů je neznámá, jsou považovány obvykle za odpadní (junk) DNA. Minisatelity jsou kratší tandemové repetice, v rozsahu kilobazí, které se více vyskytují v subtelomerických oblastech chromozomů. Jsou obvykle vysoce polymorfní co do počtu opakování jednotky repetice (mnoho alel v populaci) a mohou být použity jako genetické markery - VNTR (variable number of tandem repeats = variabilní množství tandemových repetic). VNTR jsou často příliš dlouhé pro amplifikaci pomocí PCR a jsou tudíž typicky stanovovány pomocí Southernova blotu (a jejich obliba tudíž klesá). Někdy se uvažuje o tom, že by některé minisatelity mohly mít regulační funkce, jako např. VNTR v promotoru inzulínového genu, kde byla různá délka VNTR asociována s různými typy diabetů. Telomery lidských chromozomů, Tvořené několika kilobazemi hexamerové repetice TTAGGG patří rozsahem také k minisatelitům, i když vznikají specifickým mechanismem - pomocí enzymu telomerázy. Telomerázaje složena z bílkovinné podjednotky a z RNA podjednotky obsahující sekvenci komplementární k TTAGGG, která slouží jako templát pro elongaci telomery (bílkovinná podjednotka je příbuzná reverzním trankriptázám non-LTR retrotranspozonů). Nicméně se mohou telomery elongovat i pasivně, mechanismem nerovnoměrného crossing-overu, např. v nádorových buňkách. (Výzkum struktury telomer - tetraplexy) Možná by stálo za to na tomto místě znovu připomenout, že sekvence lidsého genomu zahrnuje euchromatické úseky, ohraničené proximálně (ale nezahrnující) centromerou a pericentromerickým heterochromatinem a distálně telomery, které také, spolu se subtelomerickými oblastmi, nejsou obsaženy Microsatelity jsou zpravidla tvořeny opakováním 1-5 bp, s množstvím opakování zřídka překračujícím stovky. Nejčastější jsou dinukleotidové repetice, ze kterých převažuje typ (CA)n. Mikrosatelity jsou v genomu velice časté, vysoce polymorfní a jsou často používány jako genetické markery (příklady mikrosatelitů jako genetických markerů jsou pro genetickém mapování) 8 u in o í B 8 o c DNA ^Satellites Main band 1.800 1. Cesium chloride density gradient >- >r 2. Classic satellite DNA (100-6500 bp repeats) --------DOCX'H 3. Minisatellite DNA (20-100 bp repeats) -OOOO 4. Microsatellite DNA (CA)n repeats (n = 2-10 bp) A. Satellite DNA Highly repetitive Moderately repetitive Single copy 1. Nucleotide bases in DNA Highly repetitive Gene 1 Regulatory sequences Exon Intron IT Transcription unit Regulatory sequences 2. Singular DNA sequences D. Repetitive and singular sequences -□- -CT> 1. Gene cluster on the 2. Multigene families on same chromosome different chromosomes E. Gene cluster and multigene families LINE sequences 0RF1 ORF2 -c Repeats l Z>-AAAA(A)n -0- Exon 1 Intron Exon 2 •H Z3— DNA >AAAA(A)n -Q_ >-AAAA(A)n -Q- Nonsense Mutation Stop-Codon -ill Transcription ■*---------- ca. 6000 bp----------- B. Long interspersed repeat sequences ^ZTZZD- DNA Conventional pseudogene (not transcribed) Splicing SINE sequences 120 135 RNA mRNA -c GC-rich A-rich GC-rich •------------ca. 300 bp----------- 290 bp 1 An Reverse Transcriptase Single-strand DNA« Exon 1 Exon 2 Insertion Alu sequences -C ZlAnt )Ca. 130bp( 31bp ■4-----------ca. 290 bp----------------1 C. Short interspersed repeat sequences Conversion into double-strand DNA Retropseudogene (processed) F. Pseudogenes Integration into the genome Nemoci způsobené expanzí trinukleotidových repetic Pokud jsou uvnitř nebo v blízkosti genů, mohou mít mikrosatelity, resp. jejich různá délka, závažné důsledky, např. v heterogenní skupině monogenních nemocí podmíněných expanzí trinukleotidových repetic. Nejznámějším příkladem je Huntingtonova chorea, fatální neurologické onemocnění s nástupem v dospělosti, projevující se jako demence s extrapyramidovou poruchou motoriky. V genu pro huntingtin je repetitivní sekvence (CAG)n, která kóduje úsek bílkoviny tvořený zbytky glutaminu (polyglutaminový úsek, polyglutamine tract). Za normálních okolností mají lidé méně než 20 trinukleotidů CAG a tedy i glutaminu v huntingtinu, kde tyto tvoří důležitou doménu pro interakce s jinými proteiny. Pokud se však mutací toto množství zvětší nad 30 glutaminu, protein nepracuje správně (jak přesně je předmětem rozsáhlého výzkumu) s výsledným progresivním odumíráním neuronů v nucleus caudatus. U jiného onemocnění, myotonické dytrofie (svalová dystrofie se svalovou slabostí provázenou paradoxně zvýšeným svalovým tonem) se nachází patologická expanze trinukleotidů CTG v 3' nepřekládané oblasti genu DMPK (dystrophia myotonica protein kinase). Mutantní mRNA má sama o sobě patogenní potenciál, škodí pravděpodobně sekvestrací různých trankripčních faktorů. Nový mutační mechanismus - expanze trinukleotidů - Genomová nestabilita spojená s opakováním trinukleotidů, (tetra -, penta.....dodekanukleotidu) Počet dosud známých chorob spojený s expanzí cca 15 Rozdílná fyziologická a patologická hladina počtu opakování Společný prvek: na příslušném místě příslušného lokusu existuje tandemová repetice tripletu (tetra .. penta —) bází, přičemž zvýšení aktuálního počtu repeticí vede ke vzniku choroby patologie spojené s expanzí trinukleotidů: a) dědičné b) genetická nestabilita v somatických nádorových buňkách ( poruchy reparačních mechanismů - NER, reparace chybného párování c) genetická nestabilita v somatických buňkách v závislosti na věku Charakteristický rys dynamických mutací - prodlužování nestabilní repetice během mezigeneračních transmisí Exprese patologie dynamických mutací pouze u člověka Unstable CTG repeats in the DM family i. I. / / 5/EXP 13/100 / 13/870 Family pedigree. Numbers of CTG repeats on both alleles are shown. EXP denoted long range pathological CTG repeats determined by TP- PCR. Individuals III/l, 1/3,4 are with DM phenotype. Mother II/2 is healthy. Arrows represented investigated member of the family. Molekulární příčiny genetické nestability dynamických mutací: Trinukleotidové repetice - specifická podskupina STR-mikrosatelitů, vysoká frekvence (1/300- 500 kb) v lidském genomu Sekvenční homogennost, symetrie repetitivních úseků -tandemový motiv [NNN]n n = počet opakování tvorba non B struktur dvoušroubovice DNA: např. vlásenky (hairpins), lokální posun ( klouzání) řetězců Hoogsteenovo párování - triplexy, tetraplexy Mutace způsobené expanzí trinukleotidových repeticí Expanze trinukleotidových repeticí představuje nový mutační mechanismus, jehož kauzální role v oblasti výlučně lidských chorob se dotýká stále se rozšiřujícího počtu onemocnění, jejichž společným znakem je primární zasažení nervové tkáně . Podle typu sekvence trinukleotidů na patologické alele mohou být choroby rozděleny na skupiny s expanzí v kodónu (CAG)n pro glutamin, choroby polyglutaminového traktu a na skupinu chorob s velkými expanzemi v nekódujících oblastech genů ( SyFraX, Myotonická dystrofie, Friedreichova ataxie). Původ mutací expandujících trinukleotidů dosud není spolehlivě vysvětlen. Bylo prokázáno, že nepřerušovaná sekvence C AG repetic je více náchylná k expanzi, než sekvence se vsuvkou CAT. Faktory ovlivňující molekulární podstatu nestability dynamických mutací trinukleotidového opakování 1) typ sekvence 2) počet opakování 3) přerušení 4) oreintace sekvence ve směru k počátku replikace Navržený a diskutovaný model expanze/delece trínukleotídových repeticí během replikace v závislosti na výskytu pseudosekundárních vlásenkových struktur ve fragmentech DNA bohatých na CGG? CTG a CAG sekvence (SLD, Wells, Nature Gen- 10(1995)213) a, delece je způsobena přeskočením vytvořené vlásenkové struktury na opožďujícím se DNA řetězci DNA polymerázou b, expanze je způsobena opakující se replikací vytvořené vlásenkové struktury v Okazaki fragmentu Model chybného párovaní sklouznutím řetězce (SSM) během DNA replikace v repetitivních sekvencích může způsobit zejména v dlouhých sekvencích inzerci až expanzi alely vedoucí k patologii nebo deleci v dceřiném řetězci v závislosti na tom, na kterém řetězci se „ bublina" chybného párování nachází. Je-li „bublina" na dceřiném řetězci, tak dojde k inzerci, jeli na rodičovském, tak dochází k deleci. Normální alely vykazují určitou variabilitu v počtu opakování repetic ve fyziologickém rozhraní. Mutation and instability of human DNA (A) Normal replication 1 2 3 C ' CAG ffiŕ"Í CAG —► 3' O ' OAo GTC GTC GTC 3 - 5' Backward slippage causes insertion 5' 3' ^ CAG - CAG GTC - GTC - GTC 1 U r^ 2 3 4 CAG - CAG - - GTC ____________W O ' 5 ------ \/ ----------^ o GTC - GTC - - GTC 3 •* Forward slippage causes deletion 5' 3' 5' 3' ® :& s~ CAG CAG GTC - GTC I 1 CAG - CAG GTC - GTC Figure 10.5: Slipped strand mispairing during DNA replication can cause insertions or deletions. ->- 3' (where n = age in years - 15) 0.---p—gýsCD D- n/l J 6 12/13 D-T—O 5/14 Š/11 D rfVa 5--1 l U/13 11/13 14/22 5/12 O-r-D Ó DDG n-:: 5/14 ŕ 5/14 11/14 -a p4 5/14 D í O 5/14 Ô 5/14 D 5/14 14/15 Fyziologické zastoupení alel (CTG)n v genu pro myotonickou dystrofii (19ql3.3) TaAJte L iMfeüiolojical disorders due (o unstable trinucleotide repeats. Trans Chromo* , ,. . Trinucleotide repeat Nor- Pre-mu* _., «v . . . . implicated ... Disease , ,,..., SMioratrs mission some to* mal tatwn instability mode ctis * Type Localisation range range * —---------------------—■——---------------------- -' v—ŕ—-------------------------------------------------------------------------------------------------------------------------------------------------------------- Fragile X Dominant Xq27.3 FMR-l CGG No« coding 6-54 54-200 200-4000 Maternal lyndfome region Spinal and bulbar Recessive Xq2l.3 Androgen C AC Coding region 11-33 Un- 40-62 Paternal muscular atrophy receptor known ■ Myotonic Dominant I9ql3,3 Myoionin CTC Non coding 5-30 Un- 45-3000 Paternal dystrophy protein region known maternal for kinase congenita! DM Huntington's Dominant 4pl6,3 1X15 CAG Coding region 1104 , ? 37-121 Paternal disease Spinocerebellar Dominant 6p24 SCAI CAG Coding re* 25-3fi Un- 4,VHI Paternal ataxia type I gion? known Denlatorubral- Dominant I2pl2-ier DRPLA CAG Coding re- 7-25 Un- 49-68 Paternal pallid Jlusian gion? known atrophy FraX (CGG)n FMR1 transcription Absence of FMR 1 protein Disruption of RNA processing in brain and testes DM (CUG)n Altered expression of RNA CUG-binding proteins Altered processing of CUG containing mRNAs in skeletal muscle, heart, brain, and testes Metody pro detekci expandujících tripletů (CTG)n Algoritmus DNA diagnostiky 1. krok: PCR (P1,P2) alely pro n< 100 2. krok:TP PCR (PÍ, P3,P4CTG/P2,P3,P4CAG pro n>100, bez omezení 3. krok: XL PCR (+ 7-deaza-dGTP) pro n>100 n= (300-800) Časový faktor: 1 den 4. krok: Southern blott/p5B1.4 EcoRI/BglI pro n > 300 -800 Časový faktor: 1 týden TP PCR • PCR metoda pro detekci dlouhých opakujících se CAG(CTG) sekvencí • metoda využívá současně jak specifický značkující primer pro C AG (CTG) repetici tak dvojici primem syntetizujících z několikanásobných míst v mezích rozsahu opakování • Výsledkem TP syntézy je žebříček různě dlouhých fragmentů, lišících se ojeden trinukleotid • Separace a detekce : Genomový analyzátor na principu kapilární elektroforézy a detekce LIF , • PAGE a barvení AgN03 PCR P1,P2 (fragment 75pb pro n=5) Al« pi sla CTG cca 100 CTG P2 A1^1q 1 Alela > PI cca 100 CTG P2 Alela 1 PI I >2 41e1a"> PI «^^ P? non j a ~ PCR-ELFO A Alela 2 Alela 2 Alela 1 Alela 1 Princip TP PCR PI ___ P2 > ±100 CTG PI P4 / P4/P4/(5'tail) Počáteční hybridizace P4 CTG P1 P3 (complementar to the ±=- 5'-end of P4-primer) P3 není homologní k LG ffiék °~*~" EC 90 120 GeneScan™ Pro*cl-2/1/2001 Dtsptay-18 ISO 160 210 1 ol 1 Z40 270 HU ľ * ■ Simp!-: 11 \MUM 11R : Samplel 1 / GS Standard Size Marker 500 Tue. Jan 2. 2001 -1- Not For Use In Diagnostic Procedures P1/P2-PCR TP-PCR 60 90 120 150 180 210 240 270 300 [bp] 0 5 / 5 (CTG) li 2 3 4 5 6 7 °l 1|80 i 2|40l 3P° l 3l60 i I201 4|60 lbpl 5 (CAG)n 0 90 120 150 180 210 240 270 300 330 [bp] 60 90 120 150 180 210 240 270 [bp] 12 (CTG) 36 (CTG) .-^i— 60 90 120 150 180 210 240 270 300 330 [bp] 60 5 15 25 35 '(CAG)n 90 120 150 180 210 240 270 [bp] * (CTG>n 6^ 15 25 35 45 55 65 75(CAG)n Zastoupení alel v souboru vyšetřených jedinců normál D MD ffl "\"\"\"\ ,'"i"','T"i M 13 ~7-m-r. &rzzrnSi3kziA Z i' .'/mi m/M/m/ m/mim/ m/ ii i i i i i i i i i i i i i i i i i i i i i i i i r "77T IfUfíJ 30 n>100 Myotonická dystrofie typu 2 - DM2 - (3q21), expanze (CCTG)n v intronu 1 ( ZNF9) genu- protein zinkového prstu Normální alela - počet opakování tetranukleotidu do n = 30 Patologická alela - expanze n = ( 75 -11 000) CCTG Instability of DM2 CCTG-CAGG Repeats 41717 (CCTG«CAGG)n repeals cloned into .S'///flI site /^"-^"""^--^n^MO ori If Smal3^%(CCTG*CAGG)n AmpR \v, #Ne°R pUC ori (CCTG»CAGG)n repeats cloned into Mfe\ site (CCTG«CAGG)n^fK ^--------w '^-k^T ~^^SV40ori AmpR \ l M., r pUC ori Plasmid Number of orientation Repeats (n) m j Number of n ■ . Plasmid _ . . Orientation Repeats (n) pRW5110 30 II pRW51Il 30 I pRW5H2 114 II pRW5113 114 I pRW5114 200 II pRW5115 200 I pRW5II6 30 II pRW5ll7 30 I pRW5H8 114 II pRW5119 114 I pRW5120 200 II pRW5121 200 I Fic. 1. Plasmids used in the study. The (CCTG-CAGG),, repeats (where ;i = 30, 114, or 200) were cloned into the Smal site (proximal to the SV40 origin of replication) or the Mfel site (distal to the SV40 origin of replication I of pcDNA3.1 in both orientations relative to the bidirectional SV40 origin of replication. Orientations I and II are defined under "Experimental Procedures." 41718 Instability of DM2 CCTG-CAGG Repeats Vic. 2. Experimental strategy using the mammalian cell culture assay. The (CCTG-CAGG),, tracts (where n = 30, 114, or 200) were cloned cither proximal to the origin of replication in the Smal site (map position 2078) or distal to the origin of replication in the Mfel site (map position 162) (Fig. 1). These plasmids were then transfected into COS-7 cells, cultured for both 48 h and 2 weeks, and the episomal DNA was isolated using the alkaline lysis method. The episomal DNA was digested with Dpnl to fragment the unreplicated DNA. The episomal DNA was transformed into E. coli HB101 and individual colonies were analyzed using biochemical analyses. Simultaneously, plasmids that were not replicated in COS-7 cells were also transformed into E. coli HB101 and individual colonics were subjected to similar biochemical analyses (sec "Experimental Procedures"). Plasmid harboring tetranucleotidc repeats Transformation of E.coli Transfection of COS-7 cells S 5 Isolation of DNA, Dpnl digestion I Transformalion of E.coli \ S 3 Biochemical analyses • Restriction Analyses • Southern Hybridization • Sequencing A 'c-A-G-G-2C-A-G-G-C-A-G-G-C-A-G-G-5C Gq • ••'•■- •• •• T G-G-A-C^G-G-A-CjG-G-A-C-jG-G-A-C-G., C lC-A-G-G-2C-A-G-G-C-A-G-G-C-A-G-G-5C-A'G~C\6 G-G-A-C-G-G-A-CjG-G-A-CjG-G-A-CjG-q^/ C 'c-A-G-G-t-A-G-G-fc-A-G-G-t-A-G-G-t-A-G^V G-G-A-C-G-G-A-C-G-G-A-C-G-G-A-C-G.-, a 10 •> * 7 G-^ D b-A-G-G-íľ-A-G-G-5C-A-G-G-4C-A-G-G-t-A-G-G^N • •■•■• • ■ o • o • c A G-G-A-C-G-G-A-C-G-G-A-C-G-G-A-C-G>o' m 9 * y w "c-C-T-G-r-C-T-Gi-C-T-G-t-C-T-G-C ľG -C|7iG-T-C-C-G.T-C-C8-G-T-C-C-Gv_c/Cs G-T-C F (ľ-C-T-G-t-C-T-G-C-C-T-G-C-C-T-G-Cľ-c'1 °> • • • •«■ • •• c G-T-C-^-G-T-C-CjG-T-C-C^G-T-C-C-G^ J O. b-C-T-GÍ-C T-G-l-C-T-G-Ľ-C-T-G-l'-C-l' "t G-T-C-C|-G-T-C-CÍG-T-C-C8-G-T-C-C-GVFC 11 C-C-T-G-C-C-T-G-C-C-T-G-C-C-T-G-C-C-I-G-Cn G-T-C-C-G-T-C-C;G-ľ-C-C-G-1-C-C;-G>T-' Fíg. 7. Theoretical hairpin structures formed by d(CAGG) and d(CCTG) oligonucleotides. A portion of the various folded-back structures that can be formed by the d(CAGG) and d(CCTG) oligomers are shown. Hairpin structures with 6, 5, 4, or 3 residues in the terminal loop formed by slippage and misalignment of 0,1,2, or 3 nucleotides are shown for the d(CAGGI