IV107 Bioinformatika I - Přednáška 4 IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinform atické databázy Katedra informačních technologií Masarykova Univerzita Brno Jaro 2009 □ rS1 :|= -O^O IV107 Bioinformatika I - Přednáška 4 Před týdnem Existují techniky pro manipulaci, modifikaci, kopírování a detekci DNA, RNA a proteinů. ► rekombinace a klonování DNA ► PCR ► hybridizace DNA a RNA ► měření aktivity proteinů ► DNA čipy, microarray, proteinové čipy ► zjišíování sekvence Anotace sekvence a genů Homologie a podobnost Příště Bioinformatické databázy Outline Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Bioinformatické databázy IVWBioinformatikal -Přednáška 4 Anotace sekvence a genů lomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy □ g - _= = >T)(\(y IV107 Přednáška 4 Sekvence DNA Anotace sek w wix v wi i ww l^ ■ 1/ i genu Anotace genornu Identifikace genů >P12345 Yeast chromosomel Příště GATTACAGATTACAGATTACAGATTACAGATTACAG ATTACAGATTACAGATTACAGATTACAGATTACAGA TTACAGATTACAGATTACAGATTACAGATTACAGAT TACAGATTAGAGATTACAGATTACAGATTACAGATT ACAGATTACAGATTACAGATTACAGATTACAGATTA CAGATTACAGATTACAGATTACAGATTACAGATTAC AGAT TACAGATTACAGAT TACAGAT TACAGAT TACA GATTACAGATTACAGATTACAGATTACAGATTACAG ATTACAGATTACAGATTACAGATTACAGATTACAGA TTACAGATTACAGATTACAGATTACAGATTACAGAT Přednáška 4 Anotovaná sekvence DNA >P12345 Genl - protein alkoholdehydrogenáza TATA TATAAA CGATTGACGATGACGAT Start ATG exonl TACAGATTACAGATTACAGATTAAGATGT intronl CAGATTACAGATTACAGATTACACAGATTCA exon2 AGATTACAGATTACAGATTACAGA Stop TAA Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy >P12346 Proteinl MASAQSFYLLDHNQNQNFDDHLAVDIVMILSHERFMN Anotace genomu ■iiioiiti Genes l GC Gens Repeats t f ChromcEon? P25,l p24,3 IV107Bioinformatikal -Přednáška 4 Anotace sekvence a genů Anotace genomu nuniuiuyit; d podobnost Příště Bioinform atické databázy □ g - _= = >T)(\(y Anotace genomu Herno sapiens ctirnosme 6 IVWBioinformatikal -Přednáška 4 Anotace sekvence a genů Anotace genomu nuiiiuiuyit; d podobnost Příště Bioinformatické databázy □ g - _= = >T)(\(y Anotace genomu httpV/vwwv.ensembl.org/ IVWBioinformatikal -Přednáška 4 Features t ComparativeT DAS Sources t Repeats t Decorations? Export t Image size t HelpT Jump to region 5 : 8992G433-90311256 Band: , Zoom + -■■! Length Chr. 6 band RefSeq NT Gontigs ErBembl Genes rcRNA Genes r| Human tilepath ebnes *:.-:'\';,.Mb 9000 Mb BCOSMb 30.10 Mb 90.15 Mb 9020 Mb 3025 Mb 60.31 GerelD:135233 ff] Gj?nelD22M1[ia] At« LSABR[fc LÜBE2JI LRääU(tosene LRRHGD ■ANKKDG WLUkJ &relD2569[l2] &nelD2570[11] _&relD£1465[10] GenelD5&52ap] _ Length Gere legend 2895 Mb 9000 Mb 9005 Mb 90.10 Mb 90.15 Mb 9020 Mb 9025 Mb 90.31 ---------------------------------------------------------------------------324.77 Kb-------------------------------------------------------Ffe-^tse slrand ■iEreemb! Novel Pseulcgene Ntetged Known Proteincoding RNA Pseudcgene (Novel) There aiecunenlly 481 [acte switched off. use t he menus above the image to tum themon. Anotace sekvence a genů Anotace genomu Homologie ď podobnost Příště Bioinform atické databázy •f) c\ (y IV107 Bioinformatika I - Přednáška 4 Anotace sekvence a genů Způsoby identifikace genů in silico ZzEL» Experimentální metody (cDNA, EST) Bioinformatické databázy ► Komparativní metody - Selekční tlak - Druh zachovaných mutací ► Strukturní metody (GeneMark, GeneScan.GeneID) ► Detekce charakteristických signálů IV107 Bioinformatika I - Přednáška 4 Identifikace genů podle charakteru mutací Gene Intergenic En 11 n 11 iTFTi i iniiTii imi in i titttm iiiruTi .' 111111111111 n i "thtttt n mi MINIM ^T TT TT 11111 u urn 1111111 u H i rn tri r^r iti*ti rrm-rn ri:rriTssľUľm. rrr tt^tt Anotace sekvence a genů Identifikace genů Hümülügie a podobnost Příště Bioinform atické databázy 3 Conserved ."Mutation Li Gap | Frameshift □ g - _= = ^<\(y IV107 Bioinformatika I - Přednáška 4 Využití známé struktury genů ► intergenová DNA ► geny - kódující protein ►• statistika sekvence ► ORF ►• exon/intron (u eukaryotu) ►• promotor ► RNA geny (rRNA, tRNA, jiné) Anotace sekvence a genů Identifikace genů Hemülügie a podobnost Příště Bioinform atické databázy □ rS1 :|= -O^O IV107 Bioinformatika I - Přednáška 4 U prokaryotů 95-100% spolehlivost, u složitějších eukaryotů 90% na úrovni baží, 70% na úrovni exonů/intronů ► existence intronů ► větší genomy ► nízká hustota genů (<30%; 3% u Homo sapiens) ► alternativní splicing (zhruba u poloviny genů) velké množství repetitivních sekveních ► občasný překryv genů Anotace sekvence a genů Identifikace genů Hümülügie a podobnost Příště Bioinformatické databázy □ rS1 :|= -O^O IV107 Bioinformatika I - Přednáška 4 Struktura genu (prokaryotická) RBS 5" UTR f■ .. Promoter s! 1 Coding regie 5"-^------------^1-------------------- 3'UTR Anotace sekvence a genů Identifikace genů Hümülügie a podobnost Příště Bioinform atické databázy 3' DNA 3' RNA Start Stop □ gi - = _^ = ^0,0 IV107 Bioinformatika I - Přednáška 4 Vztah transkripce a translace u prokaryotu Coupled Transcription and Translation DNA New Polypeptide %^^ RNA Polymerase mRNA Ribosome Anotace sekvence a genů Identifikace genů Hümülügie a podobnost Příště Bioinform atické databázy □ g - _= = ^<\(y IV107 Bioinformatika I - Přednáška 4 Struktura genu (eukaryotická) Anotace sekvence a genů upstream , enhancers TATA box\ * Coding region Intron 1 intron 2 Initial transcript 5' cap (still in nucleus) 3' Poly-A tail IAAAAA Identifikace genů r íuiiiuiuyie a púdobnost Příště Bioinformatické databázy final inRNA (in cytoplasm) □ g - _= = ^)c\r> Typické sekvence v eukaryotických genech ► Enhancer ► Promotor - vazební místo transkripčního faktoru (aktivátor, represor) ► TATA-box ► 5'-UTR - Začátek transkripce ► Kódující oblast - Začátek translace (často ATG) *■ exony *■ introny ►• donor (ag/GTaagt) akceptor (cAG/gt) ► lariat (CU[AG]A[CU]) - terminátor translace (stop kodon = UAG—UAA—UGA) ► 3'-UTR - polyadenylačnísignál (AATAAA) - terminátor transkripce IVWBioinformatikal -Přednáška 4 Anotace sekvence a genů Identifikace genů Hemelegie ď podobnost Příště Bioinformatické databázy □ g t\= -O". O Sestřih mRNA Intron Retention (IR) Exon /Exon\ Exon Form 1 GT AG Form2 Cassette Exon (CE) A ^-<^\ A r- F0rm 1 Exon /Ji^Exon^^CA Exon ^GT AG GT AG Form 2 Multiple Splice Sites (MS) Form 1 Exon fx \ Exon /\A Exon GT GT IV107 Bioinformatika I -Přednáška 4 Anotace sekvence a genů Identifikace genů Hümolügie a püdübnost příště B i oi nf or m ati c ké databázy S1 :|= -O^O Sekvenční logo intronu exon 5' donor intron tuŽiŠ acceptor IV107Bioinformatikal -Prednáška 4 ) Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy □ r3" detaily sestřihu pre-mRNA 5' ■■■ApA EjLCsedinlron in lariat ľomi C^M^inl laus Jrfií m*f «rJ 5v™, Irti M r|J,Iŕ w—^ Spliced exons □ rS1 - IV107Bioinformatikal -Přednáška 4 Anotace sekvence a genů Identifikace genů nuniuiuyit; d podobnost Příště Bioinform atické databázy ^) C\ Q- Identifikace genů podle struktury IVWBioinformatikal -Přednáška 4 Reverse strand: mirror reffection of above Nature Reviews | Genetics Anotace sekvence a genů Identifikace genů Hümülügie a podobnost Příště Bioinform atické databázy □ rJi - :|= -O^O Úspěšnost identifikace genů Guigo et al, Genome Biology (2006) □ ö IVWBioinformatikal -Přednáška 4 Anotace sekvence a genů Identifikace genů nuniuiuyie a púdobnost Příště Bioinformatické databázy ^) C\ Q- IV107 Bioinformatika I - Přednáška 4 Příbuzné geny mají podobnou funkci i sekvenci Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Rost studoval proteiny s různou sekvenční podobností. Zjistil, že když je víc než 30% aminokyselin identických, proteiny mají velmi podobnou strukturu. □ rS1 :|= -O^O Rost - prostor podobnosti □ g IVWBioinformatikal -Přednáška 4 Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy :|= -O^O Sít proteinů podle sekvenční podobnosti IVWBioinformatikal -Přednáška 4 Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Proteiny přepojené podle sekvnenční podobnosti. Každý z 30727 vrcholů reprezentuje protein, každá z 1,206,654 hran podobnost. Seed Magazine, Červenec 2006 □ rS1 :|= -O^O Rost - "twilight zone" - true -false -10 -5 0 5 Distance from HSSPthreslioli Percentage sequence identity 15 20 25 30 ']............ -5 0 5 Distance from HSS P threshold IV107Bioinformatikal -Prednáška 4 Anotace sekvence a genů lomu Identifikace genů Homologie a godoOnost Příště Bioinfomnatické dataOázy □ g - = _= = -o^O IV107 Bioinformatika I - Přednáška 4 homologie hömo loos ortliüloüs paralogs ortholog» i frog fí chick a mouse (t. m ous e ß chick ß frogß í i -chain gene K-chain gene gynť duplication Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy early globin gene □ g - _= = ^<\(y IV107 Bioinformatika I - Přednáška 4 Pnbuznost a podobnost sekvencí ► Homologie buď je nebo není Podobnost lze kvantifikovat a stupňovat Od určitého stupně podobnosti je homologii velmi pravděpodobná. U proteinových sekvencí od cca. 30% identity. Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy □ rS1 :|= -O^O IV107 Bioinformatika I - Přednáška 4 Podobnost sekvencí ► bez zarovnání (přiložení) - např obsah n-gramů ► se zarovnáním (přiložením) - stejná délka, pozice si odpovídají - libovolná délka, pozice přiřazujeme Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a godoOnost Příště Bioinfomnatické dataOázy □ g t\= -00,0 Rozdíl mezi lokálním a globálním porovnáváním IVWBioinformatikal -Přednáška 4 (A) local Anotace sekvence a genů PI3-kinaSe |»BHNSN|HW»[>SaLFKIp5| Anotace genomu CAMPPK iDLťPE^LLiattaGTiaťTJBTei Identifikace genu Homologie a podobnost Příště Bioinformatické databázy (B) global 10 20 JO w 50 PI3-kinase HaLBtJLR—LEECRI — MSSA>1 I s >'3 A a -»--s*-16. -16 4 -24 * -32 4 -40 4 -48 4 -56 4 -64 t Sifi >'4 L ft I S JV N E 56 ► -64* y? D Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy □ ö :|= -O^O Tabulka pro algoritmus dynamického programování y-i M IVWBioinformatikal -Přednáška 4 Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy □ g - _= = ^<\(y IV107 Bioinformatika I - Přednáška 4 Tabulka pro algoritmus dynamického programování 9* -4 -►-8"»-12»-1ó-»-20*-24»-28*-32"»-36 -4 -1 -3* -T*-11*-15*-19-»-23*-27*-31 -8 -5 -Z -5 -9»-1J»-l?-»-18*-22*-26 »«s, v -v -9^-13^-17^-21 * * v ** n. >» -s -16 -8 0»-4 -5 -S -5» -8»-12»-16 \ * 'S "V ^ ^ «. -20 -12 -4 -1 0 -3 -7^ -8 -11^-15 *>» \ S(\ -v -24 -16 -8-5 1 4 * 0» -4» -S*-12 -28 -20 -12 -9 -3 0 4 6 ■» 2-* -2 -32 -24 -16 -13 -7-4 0 4 11»? --ISALIGNED Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a godoOnost (A) I S A L I G N E D (B) THIS-LI-NE- Bioinfomnatické dataOázy □ gl - = _^ = ■ť^Q.O IV107 Bioinformatika I - Přednáška 4 Tabulka pro algoritmus dynamického programování I S A L 1 C N £ P 0000000000 NNNNNNNNN 7 0-1 1 0-1-1-2 0 -1 -1 ÄN *NNNNNNNN H_ "3 -2 -1 -3 -4 -3 -1 0 -2 **N N N N *N N N N H I 0 -í -5 -3 1 1 * -7 -ň -4 -3 N|S NNNNNN S 0-2 8*0-5-1 1-6-6 -4 Nl IN N N N N N N L 0 2 0 7 4-3-5-2-9 -1Ü NIN NIN N IN N N I 0 4 0-1 9 S » 0 ■» -8 -5 -12 N|N N |N N |N N N 0-3 5-2 1 6 8 6 t-i -4 N|N |N N |N N N E 0-3-3 Í -4 -2 4 S 11 3 — ISňLIGNEQ Anotace sekvence a genů Anotace genornu Identifikace genů Homologie a podobnost (A) I 5 A L I 6 N í P (B) THÍ5-LI-NE- " ľ Bioinformatické databázy □ ť? - -= = ^}Q^ IV107 Bioinformatika I - Přednáška 4 Anotace sekvence a Tabulka pro algoritmus dynamického programování I S ALIGN E C 0 0 0 0 0 0 0 0 0 0 T 0,0 1 0 0 0 0 0 0 0 H To - ^o o 0 0 0 0 1 s. N» 0 0 I iff-- 0^-0 0 2 4 0 0 0 0 * "» % N. S 0 0 -„ 0 0 - ,0 0 4 1 0 0 AN - „ > 4 V L O 2 0 0-^0-2 0 1 0 0 N "Si N. S-s ----------'. I 0 4*0 0 2-0 0-0 0 0 »