IVWBioinformatika I -Přednáška 4 IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Katedra informačních technologií Masarykova Univerzita Brno Jaro 2010 □ rS1 :|= -O^O Před týdnem IVWBioinformatika I -Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a godoOnost Příště Existují techniky pro manipulaci, modifikaci, kopírování a detekci DNA, RNA a proteinů. ► rekombinace a klonování DNA ► PCR ► hybridizace DNA a RNA ► měření aktivity proteinů ► DNA čipy, microarray, proteinové čipy ► zjišíování sekvence □ g - _= = >T)(\(y Outline Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Bioinformatické databázy IVWBioinformatika I -Přednáška 4 Anotace sekvence a genů lomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy □ g - _= = >T)(\(y Sekvence DNA IVWBioinformatika I -Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a godoOnost Příště >P12345 Yeast chromosome1 GATTACAGATTACAGATTACAGATTACAGATTACAG ATTACAGATTACAGATTACAGATTACAGATTACAGA TTACAGATTACAGATTACAGATTACAGATTACAGAT TACAGATTAGAGATTACAGATTACAGATTACAGATT ACAGATTACAGATTACAGATTACAGATTACAGATTA CAGATTACAGATTACAGATTACAGATTACAGATTAC AGAT TACAGATTACAGAT TACAGAT TACAGAT TACA GATTACAGATTACAGATTACAGATTACAGATTACAG ATTACAGATTACAGATTACAGATTACAGATTACAGA TTACAGATTACAGATTACAGATTACAGATTACAGAT An otova n á sekvence DNA IVWBioinformatika I -Přednáška 4 >P12345 Genl - protein alkoholdehydrogenáza TATA TATAAA CGATTGACGATGACGAT Start ATG exonl TACAGATTACAGATTACAGATTAAGATGT intronl CAGATTACAGATTACAGATTACACAGATTCA exon2 AGATTACAGATTACAGATTACAGA Stop TAA Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy >P12346 Proteinl MASAQSFYLLDHNQNQNFDDHLAVDIVMILSHERFMN □ ö :|= -O^O Anotace genomu ■iiiwti Senes l GC Genes Repeats CliroBEone í p25,l p24,3 IV107Bioinformatika I -Přednáška 4 Anotace sekvence a genů Anotace genomu Homologie a podobnost Příště Bioinformatické databázy □ gi - = _= = -f)<\(y Anotace genomu Hao sapiens cliroiios« 6 J/ IV107Bioinformatika I -Přednáška 4 Anotace sekvence a genů Anotace genomu Homologie a podobnost Příště Bioinformatické databázy □ g - -= = >T)(\(y Anotace génom u http://www.ensembl.org/ IVWBioinformatika I -Přednáška 4 Features t ComparativeT DAS Sources t Repeats t Decorations? Export t Image size t HelpT Jump to region 5 : 8992G433-90311256 Lei-Qtl-i Chr. 6 band RelSeq NT Gontigs Ersembl Genes rcRNA Genes r| Human tilepath ebnes tofietíti 90.00 Mb BCOSMb 30.10 Mb 90.15 Mb 9020 Mb 3025 Mb 60.31 GerelD:135233 ff] Gj?nelD22M1[ia] LACY1lb LGABRR1 LGABRI RelSeq Length Gere legend GíľBlD2569[12] —_ llJbE2JI LRäeudogere LRR4GD &nelD2570[11] Gb neÍD;58S2£pl ___ ___ ___ _fenelD5HG5j10] _i___ "ANKRDG S9S5Mb 90.00 Mb 9005 Mb 90.10 Mb 90.15 Mb 9020 Mb ---------------------------------------------------------------------------3B4.77 Kb---------------------------------------------- 9025 Mb 90.31 Ffe verses! rand ^BEnsembl Novel PseuJcgene Metged Known Proteincoding RNA Pseudcgene (Novel) There aiecurrertly 481 [acte switched off. use t he menus above the image to turn themon. Anotace sekvence a genů Anotace genornu Hümülügie ď podobnost Příště Bioinformatické databázy Způsoby identifikace genů in silico ► Experimentální metody (cDNA, EST) ► Komparativní metody - Selekční tlak - Druh zachovaných mutací ► Strukturní metody (GeneMark, GeneScan.GeneID) ► Detekce charakteristických signálů IVWBioinformatika I -Přednáška 4 Anotace sekvence a genů Identifikace genů Homologie a podobnost Příště Bioinformatické databázy ■= = -00,0 Identifikace genů podle charakteru mutací IVWBioinformatika I -Přednáška 4 Gene Intergenic Anotace sekvence a genů Identifikace genů Hümülügie ď podobnost Příště Bioinformatické databázy D Conserved 1" Mutation [J Gap ■ Frameshift □ rS - _= = ^<\(y Využití známé struktury genů IVWBioinformatika I -Přednáška 4 ► intergenova DNA ► geny - kódující protein ►• statistika sekvence ► ORF ►• exon/intron (u eukaryotu) ►• promotor ► RNA geny (rRNA, tRNA, jiné) Anotace sekvence a genů Identifikace genů Hemülügie ď podobnost Příště Bioinformatické databázy □ S1 :|= -O^O IVWBioinformatika I -Přednáška 4 U prokaryotů 95-100% spolehlivost, u složitějších eukaryotů 90% na úrovni baží, 70% na úrovni exonů/intronů ► existence intronů ► větší genomy ► nízká hustota genů (<30%; 3% u Homo sapiens) ► alternativní splicing (zhruba u poloviny genů) velké množství repetitivních sekveních ► občasný překryv genů Anotace sekvence a genů Identifikace genů Hümülügie ď podobnost Příště Bioinformatické databázy □ rS1 :|= -O^O Struktura genu (prokaryotická) RSÍ 3'UTR 5" UTR f■ .. Promoter sľ 1 Coding regie 5' M^^^^^^^^H 3' RNA t \ Start Stop □ ö - IV107Bioinformatika I -Prednáška 4 DNA Anotace sekvence a genů Identifikace genů Hümülügie ď podobnost Příště Bioinformatické databázy :|= -O^O Vztah transkripce a translace u prokaryotů IVWBioinformatika I -Přednáška 4 Coupled Transcription and Translation DNA New Polypeptide %^^ RNA Polymerase mRNA Ribosome Anotace sekvence a genů Identifikace genů Hümülügie ď podobnost Příště Bioinformatické databázy C □ gi - _= = ^<\(y Struktura genu (eukaryotická) IVWBioinformatika I -Přednáška 4 final inRNA (in cytoplasm) Anotace sekvence a genů upstream enhancers TATA box Coding region Intron 1 intron 2 Initial transcript 5' cap (still in nucleus) 3' Poly-A tail IAAAAA Identifikace genů r íuiiiuiuyie a púdobnost Příště Bioinformatické databázy □ g - _= = ^)c\r> Typické sekvence v eukaryotických genech IVWBioinformatika I -Přednáška 4 Anotace sekvence a genů ► t n n a nee r Mom««» go* ► Promotor + vazební místo transkripčního faktoru (aktivátor, represor) »- TATA-box ► 5'-UTR - Začátek transkripce ► Kódující oblast - Začátek translace (často ATG) *■ exony *■ introny ►• donor (ag/GTaagt) ►• akceptor (cAG/gt) ► lariat (CU[AG]A[CU]) »- terminátor translace (stop kodon = UAG—UAA—UGA) ► 3'-UTR •• polyadenylačnísignál (AATAAA) Příště Bioinformatické databázy Sestřih m RNA Intron Retention (IR) Exon /ExorK Exon Form 1 GT AG Form2 Cassette Exon (CE) A ^-<^\ A r- Form 1 I Exon /^\ txon~-y^\ Exon ^GT AG GT AG Form 2 Multiple Splice Sites (MS) Form 1 _Exon_AA. Exon /^ Exon Fom2 Form 3 Form 4 GT GT IV107Bioinformatika I -Prednáška 4 Anotace sekvence a genů Identifikace genu rioiiioioyio d púdobnost Příště Bioinformatické databázy 9 l\= -00,0 Sekvenční logo intronu IV107Bioinformatikal -Přednáška 4 i Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy □ f5" detaily sestřihu pre-mRNA 5' iBSSaB»! pGpUp €) pCpUpRpApYp 5 spíice site < ■--- :\ \=\ 4© / OH" V V ApGlf 3' splsce sřte pCpUpRpApYp ApGmGp 3' [S'.5') Splice lunciion Exůíi 1 r Exon 2 pCpUpRpApYp ApC Oir caused iriiron in lariat form C^VMyiinfj&^ntVdWBrJSi IV107Bioinformatika I -Přednáška 4 Anotace sekvence a genů Identifikace genů Homologie a podobnost Příště Bioinformatické databázy •T) C\ Qu Identifikace genů podle struktury Reverse strand: mirror reftection of above Nature Reviews | Genetics l_l Qľ _ IVWBioinformatika I -Prednáška 4 Anotace sekvence a genů Identifikace genů Homologie a podobnost Příště Bioinformatické databázy -š = ^O^O Úspěšnost identifikace genů f s \\\ V *\ v' Guigo et al, Genome Biology (2006) IVWBioinformatika I -Přednáška 4 Anotace sekvence a genů Identifikace genů Homologie a podobnost Příště Bioinformatické databázy ^) C\ Q- Príbuzné geny mají podobnou funkci i sekvenci Rost studoval proteiny s různou sekvenční podobností. Zjistil, že když je víc než 30% aminokyselin identických, proteiny mají velmi podobnou strukturu. IVWBioinformatika I -Přednáška 4 Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy □ ö :|= -O^O Rost - prostor podobnosti □ ö IVWBioinformatika I -Přednáška 4 Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy :|= -O^O Sít proteinů podle sekvenční podobnosti IVWBioinformatika I -Přednáška 4 Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Proteiny přepojené podle sekvnenční podobnosti. Každý z 30727 vrcholů reprezentuje protein, každá z 1.206.654 hran oodobnost. Seed Maaazine. Červenec^ homologie IVWBioinformatika I -Přednáška 4 homo logs /" \ orlhologs paralügs orlholoas \ X < frog a chick« mous e (7, m ous e ß \ V \ chickfí frogß / CC-chain gene R- chain gene ^■csŕne duplication r early alobin gene Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy □ rJi - _= = -£~)<\q> Příbuznost a podobnost sekvencí IVWBioinformatika I -Přednáška 4 ► Homologie buď je nebo není Podobnost lze kvantifikovat a stupňovat Od určitého stupně podobnosti je homologii velmi pravděpodobná. U proteinových sekvencí od cca. 30% identity. Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy □ rS1 :|= -O^O Rost - "twilight zone" - true -false -10 -5 0 5 Distance from HSSPthresholi Percentage sequence identity 10 15 20 25 30 1............ i . ~-H---■_ __ I 6 0 5 Distance from HSSP threshold IVWBioinformatika I -Přednáška 4 Anotace sekvence a genů lomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy ^) C\ Q- Podobnost sekvencí IVWBioinformatika I -Přednáška 4 ► bez zarovnání (přiložení) ► např obsah n-gramů ► se zarovnáním (přiložením) ► stejná délka, pozice si odpovídají ► libovolná délka, pozice přiřazujeme Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy □ rS1 M= -O^O Rozdíl mezi lokálním a globálním porovnáváním (A) local Pß-kinase |»bhhsn|iiwk[>[>iíCVGUEVVRNSBTItia-I«CKGGLKGAL CAMPPK —VKH«ETGNHVAI«ILÍKSKVVK--------------LKA1E HT LNE ERI LftAVN FPFLVKLE F 60 70 80 90 100 120 130 140 150 160 PI3-kinase ífksut-lhívilkiknkgeiíiia»—jdlftiscígícväifilgisSMIIiiibkd-ii CAMPPK SFKPMSMLTHVHE YVPGGEliFSHLRRI GRFSEPHARFYHAaiVLT F ETLHS LD LI Y RlETT 110 120 130 140 150 160 170 180 190 200 210 220 IVWBioinformatika I -Přednáška 4 Anotace sekvence a genů lomu Identifikace genů Homologie a gododnost Příště Bioinformatické datadázy _^ = -00,0 Matice pro hodnocení podobnosti proteinových sekvencí c 9 s -1 4 T -1 1 5 P -3 -1 -1 7 A 0 1 0 -1 4 G -3 0 -2 -2 0 6 N -3 1 0 -2 -2 0 e D -3 0 -1 -1 -2 -1 i 6 E -4 0 -1 -1 -1 -2 0 2 5 Q -3 D -1 -1 -1 -2 0 0 2 5 H -3 -1 -2 -2 -2 -2 i -1 0 0 8 R -3 -1 -1 -2 -1 -2 0 2 0 1 0 5 K -3 0 -1 -1 -1 -2 0 -1 1 1 -1 2 b M -1 -1 -1 -2 -1 -3 -2 -3 -2 0 -2 -1 -1 5 I -1 -2 -1 -3 -1 -4 -3 -3 -3 -3 -3 -3 -3 1 '1 L -1 -2 -1 -3 -1 -4 -3 -4 -3 -2 -3. -2 -2 2 2 1 V -1 -2 0 -2 0 -3 -3 -3 -2 -2 :■ -3 -2 1 3 I 'í F -2 -2 -2 -4 -2 -3 -3 -3 -3 -3 -1 -3 -3 0 0 0 -1 6 Y -2 -2 -2 -3 -2 -3 -2 -3 -2 -1 2 -2 -2 -1 -1 -1 -1 3 7 W -2 -3 -2 -4 3 2 -'i 1 -3 -2 -2 - j -3 -1 -3 -2 -3 1 2 IVWBioinformatika I -Přednáška 4 Anotace sekvence a genů lomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy •T) C\ Qu Tabulka pro algoritmus dynamického programování y\ ľ2 >'3 >'i ft ft yi >'s ft 1 S A L I G N E B T H [ S L I N E OH -S l ► -B*-1ó^.-24Hŕ-32*-40«*--48-»--5ó*--ó4.»--72 ■*- Saj *! *2 T -16 x *1 T -24 1 I4 T -52 1 *5 T -40 *fi T -48 1 *7 T -56 ■ *8 -64 IVWBioinformatika I -Přednáška 4 Anotace sekvence a genů lomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy □ ö :|= -O^O Tabulka pro algoritmus dynamického programování 7-1 j IVWBioinformatika I -Přednáška 4 Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy M SM,/-1 S: ; CTI U-1 © 5v >l= -00,0 Tabulka pro algoritmus dynamického programování IVWBioinformatika I -Přednáška 4 Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy (A) I N O* -* "*-a-»-12*-16-»-20*-24»-28*-32"»-36 T -4 -1 -3* -7*-11*-15"»-19»-23»-27"»-31 H -8 -5 -2 -5 -«-►-l3*-l?»-18*-22*-26 4^ N. V ^ I -12 -4 -6 -3 -3 -5*> -9^-13^-17^-21 I IS "V «V >» » L -20 -12 -4 -1 O -3 -7^ -8 -11*-15 |S( S(\ v I -24 -16 -8-5 1 4 * 0» -4» -8*-12 N -28 -20 -12 -9 -3 0 4 < * 2 ■*■ -2 » * **♦ » * *** N Ä E -32 -24 -16 -13 -7-4 0 4 11*7 (B) THIS-LI-NE-I II I --ISALIGNED □ g t\= -O". O •CoO ==■! = - ě1 n G3NSIT/ST-- II II I -3N-n-STHl (8) £ US 1 1-1- N N N t N 1- l- ■;■ 1 a 1 I N Nt S Nt Zl- S- 8- a *■ 8 6 í E- E- 0 Nt N t N z- s s- o N N Nt NNtNNtN 01- 6- Z- S- S- í 2 0 Z Q N N N N N N Nt tN 1- 9-9-1 1-5-0*8 2-0 NNNNNN NtN £- í- 9- Z- * l l S- S- t- 0 N. N , N „ . N f N , N , N s N NtN L- O N N N N N N N t- L- 0 l- L- L- 0 L l- íl NNNNNNNNN o o o o c o ■: o ■: 3 i (vi Azeqejep ei-ptieujj jsouqopod e ejĎoiowoH pueĎ eoeiüüiuepi nujoueĎ eoejouv puaß e aou8A>|8s aoejouv t^e^seupajd -1 e>|!ieiujQiu!0!a ZCHAI JUBAOLUBjßOJd 0L|8>|0!LUBuÁp snuji!Joß|B ojd B>||nqBi Tabulka pro algoritmus dynamického programování {A) I S ALIGN E D 0 0 0 0 0 0 0 0 0 0 T 0,0 1 0 0 0 0 0 0 0 H To v ^o o 0 0 0 0 1 s. N» 0 0 I _ 0 2 4 0 0 *V N N 0 0 S 0 0 -„ 0 0 - ,0 0 4 1 0 0 ÄN > * N. L Q 2 0 0-^0-2 o 1 0 0 N X N. S"s ----------. I 0 4*0 0 2-0 0-0 0 0 * N ----------. "-**» v N 0 0 5 ■* 1 0 0 0 - 0 " 0 1 s^ S"^ --s E 0 0 1 4»a o o o - 0 2 (B) IN IS IV107Bioinformatika I -Přednáška 4 Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy □ ö :|= "O 0*0 Pří^tp IV107 Bioinformatika ■ - Přednáška 4 Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Bioinformatické databázy □ g - _= = ^<\(y Outline IVWBioinformatika I -Přednáška 4 Dodatek For Further Reading Dodatek □ g - _= = ^<\(y For Further Reading IV107Bioinformatika I -Prednáška 4 Dodatek For Further Reading X □ gi - _= = ^<\(y