Lidský genom tcacaatttagacatctagtcttccacttaagcatatttagattgtttccagttttcagcttttatgactaaatcttctaaaattgtttttccctaaatgtatattttaatttgtctcaggagtagaatttctgagtcataaagcggt catatgtataaattttaggtgcctcatagctcttcaaatagtcatcccattttatacatccaggcaatatatgagagttcttggtgctccacatcttagctaggatttgatgtcaaccagtctctttaatttagatattctagtacat acaaaataatacctcagtgtaacctctgtttgtatttcccttgattaactgatgctgagcacatcttcatgtgcttattgaccattaattagtcttatttgttaaatgtctcaaatattttatacagttttacattgtgttattcatt ttttaaaaaattcattttaggttatatgtatgtgtgtgtcaaagtgtgtgtacatctatttgatatatgtatgtctatatattctggataccatctctgtttcatgcattgcatatatatttgcctatttagtggtttatcttttcat tttcttttggtatcttttcattagaaatgttatttattttgagtaagtaacatttaatatattctgtaacatttaatgaatcattttatgttatgtttagtattaaatttctgaaaacattctatgtattctactagaattgtcataa ttttatcttttatatacattgatatttttatgtcaaatatgtaggtatgtgatattatgcacatggttttaattcagttaattgttcttccagatgtttgtaccattccaacatcatttaaatcattaaatgaaaagcctttccttac tagctagccagctttgaaaatccattcatagggtttgtgttaatatatttttgttcttttttttcctttctactgatctctttatattaatacctactgtggctttatatgaagtcatggaataatacgtagtaagccctctaacact gttctgttactgttgttattgttttctcagggtactttgaaatattcgagattttattattttttagtagcctagatttcaagattgttttgacgatcaatttttgaatcaattgtcaatatttttagtaataaaatgatgatttttg attggaaatacattaaatctataagccaaattggagattattgatatattaacaaaaatgagttttccagtccatgaatgtatgcacattataaaattcattcttaagtatgtcattttttaagttttagtttcagcagtatatgttt gttacataggtaaactcctgtcatgggggttagttgtacaggttattttatcatccaggcataaagcccagtacccagtagttatcttttctgctcctctccctcctgtcaccctccactctcaagtagaccccagtttctgttgttc tcttctttgcattaatgacttctcatcatttagattgcacttgtaagtgagaacaggacgtatgtggttttctactcctgtgttagtttgctaaggataaccacctccatctccatccatgttcccacaaaagacatgatctcctttt ttatggctgcatattattccatggtatatatgtaccacattttctttatccaatctgtcattgatggacatttaggttgtttccacatcattgccgttgtaaatactgctgcagtgaatattcgtgtgtatgtctttatggtagaatg atttatattcctctgggtatatttccaagtaatgggatggttgggtcaaatggtaattctgcttttagctttttgaggaattgccatattgcctttcacaacggttgaactaatttatactcccaagagtgtataagttgttcctttt tctctgcaacctcgacatcacctgttatttatgacttttatataatagccattctgctggtctgagatggtatctcattatgattttgatttgcatttctctaatgctcagtgatattgagcttggctgcatatatgtcttcttttaa aaatatctgttcatgtcctttgcctaatttataacggggttgtttgtttttctcttgtaaatttgtttaagttccttatagattctaggtattaaaccttttttcagaggcgtggcttgcaaatattttctcccattctataggttgt ctgtttattctgttgatagtttcccttgctgtgcagaagctcttaactttaattagatccgacttgtcaatttttgctttggtcgcaattgcttttgatgttattgtcgtgaaatctttgctagttcttaggtccaggatgatattgc ccaagttgtcttccagggcttttataattttggattttacatttaagtcttaatatatttattaaatttgttagggtttcaggatacaaggacaatatagcagcaaacaatgtaaaagtaaaatctgaaaaataatagaaaacagttt aattgaacactttaccattatgtaatgcccttctttgtctttcctgatctttgttggtttgaagttcaaaaaagacaaacttaatggtacaataggtattgtagatttcaggactttctgtataaaatattttgtatatatgaataga tcattttttatttccagtctttaaacattttcttaacattttcttctattgcttcacttcactcgctaggaccatcaggacagtgttgaacagaaattgtcagactgatcatcacaactttttctagattttagaaggaaatttttct ttatttcaacataaagcagcatgttaatgccaagttttaatatgtgttatcagattgaaatttttttgtatatttctacattaccaagaatttttagcaagagtttttgttgagttttaatttaaaaatcatttgttaatttcatctg atttttttatttctctttttaccttaagagattaaactgactacagattgaatataaacaaacaaacaaacaaacaaaaactctaaaatgctgtggatcaacaccacttagtaatttgtatacttggattcaatttgctgaaattttg ttagacatttttgcgtcgatatttatgagggatgttgatctgtaaaagtattaaaatgcctttgacagattttgatagcagtgttattctggcctaataaatcaaactgaggtatgatccttccttttctatttcttaatagcatttt taaaattggtggttttttccttccttagtgaaatttaccagcaaagtaacaggccttatatttctcttgtggaaatattttaatttcaaattaatggtattttgttcttgtagggtggtaattttctctgtgtttggtcttaatggac tcttagctgatcacccagttactcagcgaggtctcttcactctggaagagctggaactccagtgtgttttagtgcagcatgaccacgggtattaccgttcaacatttaggctttatcagtgataactatttgtcctcatggagttttt gccgctgggcctacacagtttaggcttcagcttagaacacataatgaattcttatgcagatttctgcccacctttgacctttcatgatttcctcttcttgggtaagctgccttattaatctgatacacttcagcagtccagaactaca ctctttcccttctctgctcttggagatgactcttttgtctgagattcactttgctgtgctgaaaaagaaaagtgcttcaaggaagataccaaggaaaatcacagggctcatttatgtatttctcttctttcaaggactacagctttgt gttgcctatgttcaatttctgaaaataattagagcatatatactctgtgtgagaaggcaaatccagacagttagtttgtatgactagaagcagaagtctacatggagaattttacttaactgtgttatagtttctttaattatttcaa gagtatgtttaatgttccacagatctcattctataaatctttatcatcttagagctctgatactatttagaattactattccttcaaataagagattagaaacagggttatatttggggtaggttgacttacttttctgggaaccaaa gcatattaaattgaccagttttaacacacttctatgtatgcacaaagatatatatttacattctgcaaaatcattctttcctttttgaatttgaaaaggatctttggtatacagatattcaatagccagcctgaagattcatttgaat tcatttaatgtttagattcactacatgaaatgatccagaagagagtactcaaatataagtatctataacgatggaaatatacatctccactgcccaagatggtagtcatgagtcaatattgatcatgtgagacgtggcaagtgttact cagggtctcaatatttaaatgtattaagctttaattaatgtaaatttgaatttagcaaaacatgtatagcttgtggttactgttttattcagtgccaatatagaacatttccatgattacagaaagttatcttagaatactcagttct ggactattttatctggctaaattaaatgttaaaatattacaaattcatcttcaggctggctgttgaatatttttatagcaaaagtcatttataaatttaaaactcaaataattatctttttcaatatgtaaaatatgtctttacatat tctactcccttcttacatacatattctgatgtaacataggtattctcttattcatgcacactgaaatgacaacataaataattttactaagtgtcaccatataaaaaactttgaacaaaatcagattatatcactgtggatatttcta ttttgaactaacttagatgataattttaatctatatcctagatgaactttaaatcaataaaatctctcaatggtgttataaatctcaagccattagccactgattatcccatttttattcttttcatattaattttattgccatgtat gaatgctgtagcatccatgtttaaatactagttaacaaaatgcactggcatcagatacaataaggatgaaatgagatataattaggactctggtaacacacataaaattggaaagat,7' * * * r-r-r-T, * ™ ■» ™ ™ t-t-t-t, t- ccagcttattttattttgagacagagtcttgctctctcactcaggctggagtgcagtggaccattctaggctcgctccaacctctgtctcccaaattgaagtaattctcgtgcctcaH GTCACCAAGCCTGGCTGATTTTTGTAGTTTTAGTAGAGACGGGGTTTCACCATGATGGCCAGGCTGGTCTTGAACTCCTGGCCTCAAGTGACTGGAACACCTCGGCCTCCTAAAGTGi tttgatccaacttatttggatgaatgagttacatattttacattaaatctgttattgtgataattcttcatgttattttccatgtatagatttatatataatgtaattttaatttttbhppi^^ 4^é|^^^ tataaacaggataataaaaataagacaaaaattgttgaaatgtcttcatttgactactaactttttacatgtttgttactttgaagctgttatcaatacttgtgatgtattacaatt, tattatgacacaaagtctataaattcttatattttgagatttgtatttaaataacttgtgaaatttaattttaaaataaaatttcttctatggattggtcttcaatcgaggcataaaK tatattgaatttctatattatttaacacaattataattttgctaatgaattgtaatgtttttaaaaagctaggtgaattttattaaattcattacatggcgataacacagagaaaacb aaaagcttaaaagttgttatgtagtggcagagataaaaaagtaaaacaaaaaaaagcttaaaagtttgctttactatttataggctcataagtgtaagtgtgccagaaaatgaaaaai -. gj^s^feel^ti aaaacacagataaagcataaagatagaatataaagatagaagcattttaatatgaggcagtgatggctttttgaagaatcccaactaaggacctacttttagttaataaataatatg' bB^^P^I^B TTTTAGGACATGGAGCAGTGACTATGAGTGCCAGAAGGCAAGAGTAGAAGCAATTGTAAAATCATGAACACTAGTTTGTAAAATCCTCACTGAGATATAATATCTGTTTGCCTCTAcB 1000 telefonních seznamů 2001, HGP - 10 let, $3 miliardy USD 2001, Celera - 2 roky, $300 milionů USD 2001, James Watson, $2 miliony USD 2008, komerčně dostupná sekvenace, $100,000 USD Applied Biosystems, 2 týdny, $60,000 USD Intelligent Bio-systems, 24 hodin, $5,000 USD 100 genomů za $10,000 USD za 10 dnů. Odměna 10 milionů USD, platí do 4. října 2013 Pracoviště, které sekvencovaly 85% genomové sekvence 1. Whitehead Institute for Biomedical Research, Center for Genome Research, Cambridge, MA 2. The Sanger Centre, Cambridge, UK 3. Washington University Genome Sequencing Center, St. Louis, MI 4. US Department of Energy, JGI, Walnut Creek, CA 5. Baylor College of Medicine Human Genome Sequencing Center, Houston, TX USA, UK, Japan, Germany, China, France Icetand umu* Pjj^^vEŽS * Russia France-I ■ * Spain-' - f|t South Alric Jak jsme genom sekvencovali? Co lze nalézt v genomu? Jaké je využití znalosti genomu? ^Geny podmiňující gen. choroby - poziční klonování (30 genů) >Paralogní geny (achromatopsie, CNGA3, CNGB3); (971 známých genů => 286 paralogních genů) ^Cfle zásahu medikamentů - recentni kompendium = 483 cílů, 18 nově identifikovaných; (Alzheimer's disease, ^-amyloid is generated by processing APP by BACE; BACE2 in obligatory Down's syndrom region of chromosome 21) ^Obecná biologie - hořká chuť - nová rodina G-proteinových receptoru Jak si stojíme ve srovnání s nejbližšími příbuznými? Které další projekty z HGP vycházejí? Kontrolní otázky: 1. Kolik protein-kódujících genů obsahuje lidský genom? 2. Jsou neprocesované pseudogeny duplikované geny nebo retrotransponované geny? Jak? Sekvenace genomu Genom: 3 Gb Štěpit genom na větší kusy DNA Klonovat do BACs: 100 kb Mapování BAC klonů podél chromosomů Princip sekvenace DNA polymerase 5'-TGGGCTAACAAGCAAATGATCTGTAG 3'-ACCCGATTGTTCGTTTACTAGACATC T G G G C T A A C A A G c A A A I G A T C T G T A G T T G G G C T A A C A A G C A A A T G A T C T G T A G r G G G C T A A C A A G c A A A T G A T C T G T A T G G G C T A A C A A G c A A A T G A T C T G T T G G G C T A A C A A G C A A A T G A T C T G T G G G C T A A C A A G c A A A T G A T C T T G G G C T A A C A A G c A A A 1 G A T C T G G G C T A A C A A G c. A A A T G A T T G G G C T A A C A A G c A A A T G A a ■ he TfGOCGTftflTCRTOGTCflTftGCTGTirCCTGTCTGflflflTTBTTflTCC 99_188_ ne 1?6 138 Sekvenační gel Kompletace lidské genomové sekvence International Human Genome Sequencing Consortium. Finishing the euchromatic sequence of the human genome. Nature 2004 Oct 21;431(7011):931-45. „The current genome sequence (Build 35) contains 2.85 billion nucleotides interrupted by only 341 gaps. It covers approximately 99% of the euchromatic genome and is accurate to an error rate of approximately 1 event per 100,000 bases. Human genome seems to encode only 20,000-25,000 protein-coding genes" 2.85 miliard nt a 341 neosekvencovaných oblastí. 1 chyba na 100 000 nt. 20 000-25 000 genů kódujících proteiny. Co lze nalézt v genomu? Geny (tj. protein kódující oblasti) jen <2% genomu kóduje proteiny • geny pro nekódující RNA (rRNA, tRNA, miRNAs, atp.) • strukturální sekvence (scaffold attachment regions) • pseudogeny Regulační sekvence • "junk" (zahrnující transposony, retroviry, atp.) • 3 miliony konzervovaných nekódujících oblastí (4.7 % genomu) O 10 20 30 40 50 60 70 80 90 100 I-1-1-1-1-1-1-1-1-1-1 %CorG 41 % A orT 21% 34% 42% 45% 48% 53% 90.5% -,92% 100 LINEs SINEs DNA trans poson fossils' Retro vi rus-Hke elements Segmental duplications Simple sequence repeats _II_ Intro ns Genes Hetero chrom Protein coding regions REPEATS UNIQUE Classes of interspersed repeat in the human genome LINEs SINEs Retrovirus-like elements DNA transposon fossils Autonomous Non-autonomous Autonomous ■ Non-autonomous Autonomous Non-autonomous ORF1 ORF2 (pol) AB -AAA gag pol (env) Length AAA 6-8 kb 100-300 bp -mm 6-11 kb- transposase 1.5-3 kb- 2-3 kb- 80-3,000 bp Copy number 850,000 1,500,000 450,000 300,000 Fraction of genome 21% 13% 8% 3% Pseudogeny • 70 % procesované pseudogeny (retrotransponované geny) • 30 % neprocesované pseudogeny (duplikované geny) • -20,000 Torrents et al. Genome Res. 2003 13: 2559-67. Number of pseudogenes and genes per Mb Mclean et al., 2011 Nature Bylo nalezeno 510 delecí (v regulačních oblastech) Delece enhanceru specifického pro mozek (subventricular zone enhancer), vedoucí k expanzi mozku Delece enhanceru pro hmatové vousky a penilní spiny Shrnutí > Variabilní distribuce řady parametrů (GC, CpG islands, repetice) > 21.000±1.000 protein-kódujících genů > Proteom je mnohem komplexnější než u bezobratlých > Ho^^tální transfer genů vs. ztráta genu u bezobratlých (113 genů připomíná geny bakteriální) > 20.000-30.000 pseudogenů > V genomu se vyskytuje asi 20 miliónů SNP Jaké je využití znalosti genomu? Aplikace znalostí lidského genomu > Geny podmiňující gen. choroby - poziční klonování >rok 2000 - 1300 genů pro choroby s jednoduchou mendelovskou dědičností >rok 2010 - 2900 genů > Zbývá asi 1800 >1100 genů asociovaných s 165 častými chorobami(včetně chorob infekčních) >(např. IBD 70-100 genů) Jaké je využití znalosti genomu? Aplikace znalostí lidského genomu >Paralogní geny (achromatopsie, CNGA3, CNGB3); (971 známých genů => 286 paralogních genů) > >Cfle zásahu medikamentů - recentní kompendium = 483 CÍ1Ů, 18 nově identifikovaných; (Alzheimer's disease, P-amyloid is generated by processing APP by BACE; BACE2 in obligatory Down's syndrom region of chromosome 21) > > Obecná biologie - hořká chuť - nová rodina G-proteinových receptom (TAS2R38, Kim et al. 2003) Sekvenace genomu šimpanze Chimpanzee Sequencing and Analysis Consortium Initial sequence of the chimpanzee genome and comparison with the human genome. Nature 2005 Sep l;437(7055):69-87. ^™ Thirty-five million single-nucleotide changes, five million insertion/deletion events, and various chromosomal rearrangements. 98,6 % identitity to human genome sequence Differences in gene/exon structures 35 miliónů záměn nt, 5 miliónů inzercí, delecí a dalších změn 96% identita s lidskou genomovou sekvencí Změny ve struktuře genů popř. exonů Definitivní HIV progrese v AIDS Symptomatologie chřipky A Komplikace u hepatitídy B/C Malárie (P. falciparum) Menopauza Pravděpodobné E. coli K99 gastroenteritida Rozvoj m. Alzheimer Koronárni atero skleróza Karcinomy častá středně těžká až závažná středně těžké až závažné citliví obligátní rezistentní kompletní častá časté sensitivní? částečný vzácná vzácné Genetické rozdíly mezi současným člověkem (Člověk moudrý, Horno sapiens) a vybranými organismy na celogenomové úrovni a odhadovaná evoluční vzdálenost od posledního společného předka Neandertálci Hominidé nejvíce příbuzní moderním lidem Objevili se asi před 500.000 lety Evropa and západní Asie Vyhynuli před 30.000 lety bc.msn.com/id/13154 Území pravděpodobného rozšíření člověka neandertálského DNA > Kost nalezena v roce 1980 v chrorvatské jeskyni * Radioizotopové datování: 38,310 ±2,130 let Neandertálci a lidé dnešního typu se zřejmě vůbecJřT^QŽili V naší DNA jsou stopy po neandertálské DNA (v mikrosatelitech) 1- 4 % Kost Vi-80 (z jeskyně Vin< No hit (200,829; 79,0%) Pa cific Ocean Homo floresiensis SINGAPORE I Pematangsiantar ■ [ Pontianaks Malmlfisi: Samarinda buine:0«f Sulawesi l^ÄT Hornsea BAR I SAN MIS PAPUA NEW GUINEA! aPalembang giB ani a rm a si n JavaSea Ujungpandang JAKARTA Mount Madura B * Meraci Flores Sea Bandung • , Surabaya >,1ataram YogyakarlaJ^ ^ » . Sumbawa Moluccas IS Banda Sea Jayapura(- 'MÄOKE MTS IRtAN JAVA M ew Guinea žil před 94.000 - 13.000 lety Homo floresiensis H. floresiensis was part of the Asian dispersals of the descendants of H. ergaster and H. erectus. Genetická diverzita současného člověka (a) rrrtDNA HVS I; unraoted and pruned Které další projekty z HGP vycházejí? The Cancer Genome Atlas (TCGA) >Jde o vysokokapacitní sekvenaci (tj. sekvenaci téměř celého genomu) mnoha nádorových vzorků jednoho typu nádoru od mnoha různých pacientů. > Tohle vseje plánováno pro mnoho typů nádorů. Jde tedy o jakýsi frontální útok na odhalení genetického pozadí nádorových onemocnění. Potřebujeme sekvencovat cca 1 milion genomů ENCODE {Encyclopedia of DNA Elements) >Transkripčně aktivní jsou také podstatné části genomu (molekuly DNA), o kterých se dosud soudilo, že jsou nefunkční a jsou pouhým „balastem". Přitom tato DNA tvoří okolo 98 % veškeré lidské DNA. >Znamená to tedy, že i když RNA kódovaná touto „nefunkční" DNA není přepisována do bílkovin, tvoří se v takovém množství a na tak rozsáhlé části DNA, že nějakou její funkci lze oprávněně očekávat. Projekt HapMap m > Vzorky DNA od z 269 lidí z Afriky, Japonska, Číny a USA >Bylo identifikováno okolo 20 miliónů míst, ve kterých se lidé čtyř různých populací liší nejčastěji. (To přibližně odpovídá shodě 99,9 % mezi kterýmikoliv dvěma osobami.) >Tato místa se označují jako SNP (jednonukleotidové polymorfismy). > Platí přitom, že jednotlivé SNP se dědí po určitých blocích (haplotypech). Z toho vyplývá možnost definovat genom individuálního člověka jako kombinaci určitých haplotypů a pro zjištění genotypu konkrétní osoby tedy není třeba mapovat všech 10 miliónů jeho genomových míst, ale stačí genotypovat jen 300.000 - 600.000 klíčových SNP. Zdravé lidské tělo je osídleno mnoha různými symbiotickými mikroorganismy, a to na nejrůznějších svých místech. Ačkoliv úhrnná hmotnost těchto mikroorganismů tvoří jen 1 - 2 % hmotnosti člověka, počet buněk těchto symbiontů přesahuje počet lidských buněk nejméně desetinásobně. Odhaduje se, že jen v lidském střevě žije asi tisíc bakteriálních druhů a asi sedm tisíc individuálních bakteriálních kmenů. Toto společenství mikrobů se - mimo jiné - podílí na přeměně živin, syntéze vitaminů, metabolismu cizorodých látek (např. léčiv), na stimulaci obnovování střevního epitelu, stimulaci imunitního systému atp. Soubor všech těchto mikroorganismů žijících v lidech a na nich označujeme jako lidský mikrobiom. Projekt lidského mikrobiomu Studium nasální mikroflóry Studium orální mikroflóry Studium gastrointestinální mikroflóry Studium kožní mikroflóry Studium vaginální mikroflóry Mají odlišní jedinci stejný mikrobiom? Existuje vztah mezi mikrobiomem a lidským zdravím? Bakterií je v lidském těle asi 10x víc než eukaryotických buněk Kultivovat dokážeme asi méně než 1 % bakterií Seznam chorob a příznaků, u kterých je předběžně uvažováno o podílu lidského mikrobiomu na jejich vývoji choroba/príznak Orgánová soustava * o v kuze lupenka (psoriasis) akné atopická dermatitida trávicí trakt obezita Crohnova choroba jícnový adenocarcinom nekrotizující enterokolitida ulcerózní kolitida syndrom dráždivého tračníku urogenitální trakt bakteriálni vaginóza sexuálne prenosné choroby kombinace orgánových systémů imunodeficience horečnaté stavy Studium kožní mikroflóry Actinobacteria ■ Corynebacterineae ■ Propionibacterineae ■ Micrococcineae Other Actinobacteria Bacteroidetes iCyanobacteria Firmicutes ■ Other Firmicutes ■ Staphylococcaceae Proteobacteria i Divisions contributing < 1 % Unclassified 4 (Gb) Glabella (Al) Alar crease (Ea) External auditory canal (Na) Nare (Mb) Manubrium (Ax) Axillary vault- (Ac) Antecubital fossa (Vf) Volar forearm (Id) Interdigital web space (Hp) Hypothenar palm (Ic) Inguinal crease (Urn) Umbilicus-/ (Tw) Toe web space-' I I Retroauricular crease (Ra) Occiput (Oc) — Back (Ba) -Buttock (Bt) Gluteal crease (Gc) Popliteal fossa (Pc) Plantar heel (Ph) 14 Hlavními záměry projektu lidského mikrobiomu je zjistit: >nakolik je lidská mikroflóra stabilní a proměnná v čase (např. v průběhu dne a v průběhu celého individuálního života jedince) >nakolik jsou si vzájemně podobné mikrobiomy u členů rodiny eventuálně u členů určitého lidského společenstva a nakolik se tyto mikrobiomy liší od mikrobiomu pocházejících z jiných lidských společenství >zda lze definovat základní mikrobiom společný všem lidem, jak je získáván a přenášen >co ovlivňuje genetickou diverzitu mikrobiomu a jak se mění mikrobiom za různých fyziologických a patologických podmínek Sylabus: historie projektu sekvenace lidského genomu; počet genů; repetitivní sekvence; velikost lidského genomu; velikost genomů příbuzných genomu lidskému; jednonukleotidové polymorfismy; mobilní genetické elementy; horizontální transfer; kapilární sekvenace DNA; mitochondriální DNA; geny pro RNA