Projekt ľudského g r p Prehistória História Ciele Metódy Priebeh Výsledky Využitie Perspektívy základná www stránka: www.doegenomes.org .....™«l«a iCG T AH CACCT CCQACATOAQ ACAGTTAGGT ATCGTCCAGA OTTACAASCT CTG CAT CTG A ŕ\GCCGCTGAA GTTCTACTAA GGGTGGATAA GAÄCCCCCAA TAGACAaCAT ATCTAACATA TTTÁGGATAT CCACACTGTC ATT ATT ATA A TT AG A A AC-AG A AC G CA AAA A AGACG-CGAAA AAAAAAGAAC AACGCGTCAT AÖAACTTTTG ATTTTGQQAA CTTAT8TTTC CTCTTCGAQC AOTACTCQAG ŤTTACÍTCTCA GATCCTŮTAíl TŮATTOACAC TO CA Á0 AC ACAATTAeTT AATŕQAAAAA TTATATCTT 1 Prehistória: Watson a Crick 1953 2 A STRUCTURE FOR DEOXYRIBOSE NUCLEIC ACID J.D.Watson F.H.C.Crick Nature, April 25,1953 „It has not escaped our notice that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material" Genetika človeka v r. 1953 hodnotenie rodokmeňov štúdium dvojčiat cca 50 monogénnych ochorení 5 monogénnych znakov (ABO, Rh...) 48 chromozómov 5 miliónov génov žiadna DNA (podľa učebníc) 60-te roky: cytogenetika človeka ■ 1956: 46 chromozómov ■ 1959: chromozómové aberácie a choroby ■ 1960: nomenklatúra a metodika ■ chromozómy a nádory ■ chromozómy: „orgán" lekárskej genetiky ■ ľudských génov jeden milión, o DNA stále ani zmienka... H 70-te roky: žeby DNA?V ■ polymorfizmy (sérové skupiny, izoenzýmy...) ■ väzba a chrom, lokalizácia ■ bunkové hybridy ■ biochemická genetika Ale už aj: ■ prvé RFLP v ľudskej DNA (1978) ■ DNA diagnostika chorob (1979) ■ 100 000 génov ^ 6 Human Genome Project: história ■ 1986: Santa Fe - DoE Intl. Meeting ■ James Watson: „vystúpiť na cestu od dvojitej závitnice k 3 miliardám schodov ľudského genómu" ■ 1988: Kongres USA schválil 15 ročný projekt a dotáciu 3 mld USD ■ 1990: začiatok projektu ■ 2005: predpokladané ukončenie Koordinácia: 1988: HUGO (Human Genome Organization) HUGO Europe - Americas - Pacific HGP: rozsah ■ 3 200 x 106 bp (dĺžka Dunaja v mm !) ■ dovtedy najdlhší sekvenovaný úsek: ľudská mtDNA(16 500bp, 1981) ■ vtedajšia rýchlosť: 100 bp / osoba / deň ■ cena: 5-10 USD/bp Oficiálny začiatok HGP: 1990 ■ 20 pracovísk zo 6 štátov ■ 3 mid USD ■ cca 15 rokov práce (t.j. do r. 2005) -^^ História sekvenovania DNA bp/osoba/rok rok udalosť 1 1965 Holky sekv. alanyl tRNA S. cerev. 15 1970 Wu sekvenoval 12 bp lambda fága 150 1 500 1977 1978 Sanger dideoxy, Gilbert ehem. sekv. Sanger sekv. phi-xl 74 (5375 bp) 15 000 1980 Missing vyvinul Ml 3 vektor 25 000 1986 Hood — čiastočne automat, sekv. 1,000 000 1995 Venter— autom, fluoresc. sekv. 150,000 000 1999 Perkin-Elmer 96 kapilárny sekv. | ? 000, 000 000 dnes každý kto má vybavenie 9 HGP: ciele ■ Triangulovať genóm pomocou DNA markerov ■ Identifikovať a mapovať gény, určiť ich štruktúru a funkciu v zdraví aj v patológii ■ Identifikovať dôležité mimogénové sekvencie ■ Určiť úplnú sekvenciu genómu (3,2 Gb) ■ Všetky dáta uložiť vo verejne prístupných databázach ■ Sekvenovať genómy modelových organizmov (drozofila, myš, C. elegans, A. thaliana a i.) ■ Skúmať etické, legálne a sociálne aspekty 10 Metódy mapovania Genetické mapovanie ■ rodokmenová analýza (rekombinácia) ■ triangulácia pomocou markerov Fyzické mapovanie - nízke rozlíšenie: hybridizácia somat. buniek in situ hybridizácia (FISH) vysoké rozlíšenie: reštrikčné mapovanie STS mapovanie EST mapovanie sekvenovanie Triangulácia ľudského genómu Genetické markery: história 1900 krvné skupiny cca 20 1960 sérové proteiny a izoenzýmy 102 1980 DNARFLP 103 1985 minisatelity 104 1990 mikrosatelity 105 1995 SNP (single nt polymorphisms) 106 12 Triangulácia genómu: genetické mapy 1987 RFLP 402 nadlOcM 1992 STR 813 cca 5 cM 1996 STR 5262 1,6 cM 1997 integrovaná 6800 0,7 cM podrobnejšia triangulácia nieje potrebná (v súčasnosti cca 2 x 106 mapovaných SNP) International Human Genome Sequencing Consortium Genomic DNA BAC library Organized mapped large clone contigs BAC to be sequenced Shotgun clones Shotgun sequence Hierarchical shotgun sequencing í . ACCGTAAATGGGCTGATCATGCTTAAA TGATCATGCTTAAACCCTGTGCATCCTACTG. Assembly . . . accgtaaatgggctgatcatgcttaaaccctgtgcatcctactg . Hierarchická metóda (clone-by-clone): •Triangulácia genómu pomocou STR markerov •100 až 200 kb dlhé BAC klony, mapovanie týchto klonov do STR mapy •Zostrojiť kontigy •Štiepiť BACy na náhodné („shotgun") fragmenty •Sekvenovať fragmenty •Zoradiť do sekvencie u HGP: hierarchická stratégia sekvenovania („clone-by-clone") Hierarchical Shotgun Sequencing Method Genomic DNA BAC Library Create Cnntig Map Sequence Each Cnntig with Shntgun Approach Align CoiíQgtiffus__SequÉiices GCflTTTCGflGTTOCCPGGňCflňCCňGTG ~~~~^ GCTTGflTTGGCCňflmflmGmTOT CCňGTGGmCTGflGGflCGCňflGňGGCTTGfl GCňTWPCGňGT^mCCTGGňCňňCCňGTGGTVlCTGňGGňCGCňňGňGGCT^PGňT^PGGCCňňTVlňT¥lGT¥lTVlT Generate Finished Sequence triangulovať genóm pomocou STR zostrojiť BAC-knižnice mapovať klony do STR mapy utvoriť BAC kontigy štiepiť BAC-y náhodne na sekvenovateľné fragmenty sekvenovať fragmenty zoradiť do konečnej sekvencie klonu zoradiť sekvencie klonov do definitívnej sekvencie ^ anotovať sekvenciu 15 HGP: Francis Collins a Eric Lander uuí^A'Ut-c-.ínr.cíc; 16 ^k 1 17 Nárast údajov o sekvencii 1996-2001 5,000 -i 4,500 \ 4,000 \ ~ 3,500 \ S 3,000 j § 2,500 j | 2,000 j w 1,500 j 1,000 j 500 j 0 I Month Craig J. Venter a Celera Genomic Stratégia sekvenovania: Celera Genomics Whole (J enom e Shotgun Sequencing Method Genomic DNA Sequence Each Fragment Shotgun Approach GCATTTCCATTACCT1GCACÄACCAGTG ^ GCTTCATTCGCCAAIAATAGT.ATAT CCAGIGGTACTGAGGACGCAAGAGGCTTGA Align Contiguous Sequences flCTnCMCTTACCTGGACAACCA^GTGGTACTUACCACGCAAGACŮCTTCAITŮCCCAATAATAGTATAT Celogenómová shotgun stratégia sekvenovania Skombinovanie s dátami HGP Utvorenie knižníc s definovanými dĺžkami (2,10,50 kb) Generate Finished Sequence 21 articles Initial sequencing and analysis of the human genome International Human Genome Sequencing Consortium* *A partial lisl of authors appears on the opposite page. Affiliations are listed at the end of the paper. ___________________.........I..LLILIII'TT......"_____________________......______ii±i±±±i±i±..«^MM.jj.....——......*.*ÉÉHUHH«HMMHmimilllWKtWH*MM»******WH 99% euchromat. genómu sekvenačné chyby zriedkavejšie ako 1 : 100 000, priemerné pokrytie 11-násobné len <350 medzier (väčšinou heterochrom. úseky a vysoko repetitívne sekvencie) 20 000 - 25 000 proteiny kódujúcich génov (22 287) priemerne 9 génov na Mb; veľká variabilita 232 000 exónov; v priemere 10,4 exónu na gén; exóny tvoria len 1,2% dĺžky sekvencie identifikovaných cca 20 000 pseudogénov, asi ich je viac ako génov segmentové duplikácie tvoria 5,3% euchromatickej sekvencie („evolutionary gene nurseries") ^^^^ ale pozor: anotácia sekvencie stále ešte nieje dokončená! 29 Obsah GC párov v ľudskom genóme: 20 Mb okná o T3 -í: i O OJ 12,000 JTi 10,000 H I 8,000 i h 6,000 1—1 i—i 1 1 1 1 1 L—| 4,000 In 2,000 0 , JUHU [—i 1 rL ,H M M M 1 M M M1 ^^ i-------1 20 25 30 35 40 45 GC content 50 55 60 65 70 30 Zastúpenie rozličných typov rozptýlených repetícií Glesses Qf inten LINEs Autonomous SINEs NorvaulQfiurTiDJS R&troírirus-Hke elements Autonomous ■ ;\Dn-auľanorr!DLu DNA tignsposon fossils Autonomous Mcn-auíanurnDLŕS OfiFl QFF2 rpol) A8 ■AAA gag ooi leng) JSESSL trarraposasa »—i n Length Copy Fraction of number gsnarne 6-3 kb 650.000 2^% 100-300 bp 1.500,000 13% 6-11 kb- 1,5-3 kt>^ 4S0.000 2-3 kb S0-3rO0Q bp } 300.000 GW 3% 31 Triedy rozptýlených repetícií Table 11 Number of copies and fraction of genome for classes of inter- spersed repeat Number of Total number of Fraction of the Number of copies (x 1,000} bases in the draft draft genome families genome sequence (%) (subfamilies) sequence (Mb) SINEs 1,558 359.6 13.14 AlU 1.090 290.1 10.60 1 (-20) MIR 393 60,1 2,20 1(1) MIR3 75 9,3 0,34 1(1) LINES 868 553.8 20.42 UNE1 516 462,1 16.89 1 (-55) LINE2 315 88,2 3,22 1(2) LINE3 37 8.i 0,31 1(2) LTR elements 443 227.0 8.29 ERV-class I 112 79.2 2.89 72 (132) ERV(K)-class II S 6,5 0,31 10(20) ERV (L)-ciass HI 83 39,5 1,44 21 (42) MaLR 240 99.8 3.65 1 (31) DNA elements 294 77,6 2.84 hAT group MER1 -Charlie 182 38,1 1,39 25 (50) Zaphod 13 4.3 C.15 4(10) Tc-1 group MER2-Tigger 57 28,0 1.0" 12(20) Tc2 4 0,9 0,03 1(5) Mariner 14 2.6 0.10 4(5) Piggy Bac-like 2 0,5 0,02 10(20) Unclassified 22 3,2 0,12 7(7} Unclassified 3 3.8 0.14 3(4) Total interspersed 1,226.8 44.83 repeats ~X_______!_____________ Hustota hlavných tried repetícií ako funkcia obsahu GC párov 9 o u i» E o oi 'S c o ^n J □ SSR D LINE2 D WIR □ ONA DlINEl D ALU | nu* [j o..« n h h 40 J 30 J 20 J o J ^_J ------ | ; 3 _^_^_ ■ L — ■ 1 1 ' ____ ------ i i 1 1 1 1 1 — ___ L 1 L ^^^^^^ ^^^^^^ ^^T^^^ ^^T^^^ ^^^^^^ ^^^^^^™ ^^T^^^ ^^^^^^^ ^^^^^^ <36 36^6& 36-^0 40-42 42-44 44^6 46-46 46-50 50-52 52-54 GC content (%) >54 33 et génov u rozličný organizmov Človek okolo 25 000 Caenorhabditis elegaňš okolo 20 000 Drosophila melanogaster 14 000 E, coli -------- okolo 6000 34 Dlžková distribúcia (človek, drozofila, C. e.): exonov: intrónov: V) O 03 0 100 200 300 400 500 500 700 B00 900 1,000 Exon length (bp) <100bp 101 bp-2kb 2 kb-5 kb Intron length 5-30 kb >30 kb C 25 2U t/) o £ 15 o o i 10 h -------Human -------Worm ft i-iy |- t 1 U AW- 0 20 40 60 80100 120 140 160 Intron length (bp) o E 2 c (J E MC C o c B b 12q 140h 13oL 12oL 11qL 100^ 90 V 801 70 L 60 L 50 L 401 301 20 L 10r °r 10r 201 1?P 30[i 40 50 60 Chromozóm 12: Mb / cM il E / a— r ■ • J * t 1 * 4 E*. W* .V* -t* » • Sex-averaged Male Female 0 10 20 30/40 50 60 70 80 90 100 110 120 130 140 Centromere Position (Mb) 36 Distribúcia homologov ľudských proteínov Prokaryotes only <1% Vertebrate only 22% Vertebrates and other animals 24% No animal homology Eukaryote and prokaryote 21% Animals and other eukaryotes 32% Proportion of interspersed repeats (%) nriiii A A A A A V tn —t —i- M ro PO 'S O CJl O ^ < cd o N 3 O CD < cd c o Konzervované segmenty ľudského a myšieho genómu r=\ A i 1 2 3 4 5 6 7 8 i y 9 10 11 12 Q1 §Q« r^ i w w vy ^ ^^ Bio i 13 14 15 16 17 18 19 20 21 22 X Y 123456789 10 ■ ■■■■■■ ■■ 11 12 13 14 15 16 17 18 19 X Y Segmentové duplikácie v ľudskom genome Ír, ;>n 1 ■s «i 1G IndeperdsíTrt eeümalB 11 -ull] jjj J 1 í 3 4 5 6 7 9 10 11 12 13 U 15 1É 17 16 1fl 20 Zi ZZ * Y Total Chrürrwaünr* Table 26 Disease genes positions lly cloned using the draft genome seq u e n ce___________________________________________________________ Pozične klonované gény s využitím HGP sekvencie (kandidátne gény) Locus Disorder Reference® BRCA2 Breast cancer susceptibility 55 AIRE Autoimmune polyglandular syndrome type 1 (APS1 or APECED) 389 PEX1 Peroxisome biogenesis disorder 390,391 PDS Pendred syndrome 392 XLP X-linked lymphoproliferative disease 393 DFNA5 Non syndromic deafness 394 ATP2A2 Darier"s disease 395 SEDL X-linked spondyloepiphyseal dysplasia tarda 396 WISP3 Progressive pseudorheumatoid dysplasia 397 CCM1 Cerebral cavernous malformations 396, 399 COL11A2/DFNA13 Non syndromic deafness 400 ĹGMD2G Limb-girdle muscular dystrophy 401 a/c E His-Van Creveld syndrome, Weyer's acrodental dysostosis 402 AOTN4 Familial focal segmental glomerulosclerosis 403 SCN1A Generalized epilepsy with febrile seizures plus type 2 404 AASS Familial hyperlysinaemia 405 NDRG1 Hereditary motor and sensory neuropathy-Lom 406 GNGB3 Total colour-blindness 407, 408 MUL Mulibrey nanism 409 USH1C Usher type 1C 410,411 MYH9 May-Hegglin anomaly 412, 413 PRKAR1A Carney's complex 414 MYH9 Non syndromic hereditary deafness DFNA17 415 SCA10 Spinocerebellar ataxia type 10 416 OPA1 Optic atrophy 417 XLCSNB X-lInked congenital stationary night blindness 418 FGF23 Hypophosphataemic rickets 419 GAN Giant axonai neuropathy 420 AAAS Triple-A syndrome 421 HSPG2 Schwartz-Jampel syndrome 422 HGP: možnosti využitia ■ Etiológia genetických a nádorových ochorení ■ Diagnostika monogénnych a nádorových ochorení ■ Diagnostika multifaktoriálnych ochorení ■ Génová terapia (genetických a nádorových ochorení) ■ Cielená liečba („molekulárna farmakológia") ■ Štúdium biologických funkcií na molekulárnej úrovni (diferenciácia, starnutie ...) ■ Evolúcia človeka a pôvod ľudských populácií ■ Nosce te ipsum: podstatný krok k poznaniu biológie nášho druhu ■ Podstatná časť práce je ešte len pred nami ^^0 42