IV107 Bioinformatika I Přednáška 4 Katedra informačních technologií Masarykova Univerzita Brno Jaro 2015 Před týdnem Existují techniky pro manipulaci, modifikaci, kopírovania detekci DNA, RNA a proteinů. ► rekombinace a klonování DNA ► PCR ► hybridizace DNA a RNA ► měření aktivity proteinů ► DNA čipy, microarray, proteinové čipy ► zjišíování sekvence Outline Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Bioinformatické databázy Sekvence DNA >P12345 Yeast chromosomel GAT TACAGATTACAGAT TACAGAT TACAGAT TACAG AT TACAGAT TACAGAT TACAGAT TACAGAT TACAGA T TACAGAT TACAGAT TACAGAT TACAGAT TACAGAT TACAGAT TAGAGAT TACAGAT TACAGAT TACAGAT T ACAGAT TACAGAT TACAGAT TACAGAT TACAGAT TA CAGAT TACAGAT TACAGAT TACAGAT TACAGAT TAC AGAT TACAGAT TACAGAT TACAGAT TACAGAT TACA GAT TACAGAT TACAGAT TACAGAT TACAGAT TACAG AT TACAGAT TACAGAT TACAGAT TACAGAT TACAGA T TACAGAT TACAGAT TACAGAT TACAGAT TACAGAT □ i5P Anotovaná sekvence DNA >P12345 Genl - protein alkoholdehydrogenaza TATA TATAAA C GAT T GAC GAT GAC GAT start ATG e x o n1 TACAGAT TACAGAT TACAGAT TAAGATGT intronl CAGATTACAGATTACAGATTACACAGATTCA exon2 AGATTACAGATTACAGATTACAGA stop TAA >P12346 Proteinl MASAQSFYLLDHNQNQNFDDHLAVDIVMILSHERFMN □ i5P - = Anotace genomu ^^85868983898^898^ Anotace genomu Hcroo sapiens chronosome 6 Anotace genomu http://www.ensembl.org/ Features t Comparative? DAS Sources t Repeats t Decorations t Export t Image size t Help t Jump to region |s~ : |S992 G483 -|903112 5 5 Refresh Refresh 12MB I «1MB I'.Window . Zoom + -ill Window > 11MB >■ 2MB > Length Chr. 6 bard Fb wand si rand ■£4.77 Kb q15 B8J95 Mb 9OJ0O Mb B0JQ5 Mb RefSeq NTGontigs ErBembl Genes rtRNA Genes Human tilepath clones RefSeq Lergth Gere legend Gene ID: 155293 PI 90.10 Mb 90.15 Mb 9020 Mb 9025 Mb _GenelD22Sai[1S] M.3C NT 037299 LACY1|2 LGABRR1 i LGABRR2 LUjBE2JI LRsudogei* hANKRDQ GenelD2569[12] GenelD2570[11] GerelD5S52Sp] RP3-322A2 3SS5 Mb MJOOMb 90J05 Mb 90.10 Mb 90.15 Mb 9020 Mb 9025 Mb 90.3(1 -334.77 Kb-Ffeieise sliand — ■f Ense in bJ Nove I Pse dogene Me iged Known Protei n cod ing RNAPseudogene (Novel) There a is currertly 48 tracls switched off, use the menus above the image to turn them on. Způsoby identifikace genů in silico ► Experimentální metody (cDNA, EST) ► Komparativní metody ► Selekční tlak ► Druh zachovaných mutací ► Strukturní metody (GeneMark, GeneScan,GenelD) ► Detekce charakteristických signálů Identifikace genů podle charakteru mutací Gene i i i-h ITTTTT i i i i n I hrt rrr r*t ii I ť M ffljHffl111 í f f l H Mj-ttittWtŕ d "ttt j.LUlľi 1111 f 11 H 111PI I t+i ttt ..U 11.1.'' ľT: Hr ľrl" lilii im ~ti m m ^ jimji iiMjj ÉÉ EESSfl ÉÉItWh ; ÍĚlíílHIÍIS l Intergenic flŤP^Jť hÍ *' j-"T Í • ■■i-JUi Srí ::: Ubílili liilililiiliiiliiilffiŠÉ iiiiiiiiiiiieiiiiiiiiii m i i:: i ; 11 i ■ j t r I I " 11 r 11 m i! 11 r 11! FE IM111H lÍTffR ■ Conserved □ Mutation fjGap ■ Frameshift □ i5P Využití známé struktury genů ► intergenová DNA ► geny ► kódující protein ► statistika sekvence ► ORF ► exon/intron (u eukaryotů) ► promotor ► RNA geny (rRNA, tRNA, jiné) U prokaryotů 95-100% spolehlivost, u složitějších eukaryotů 90% na úrovni bazí, 70% na úrovni exonů/intronů ► existence intronů ► větší genomy ► nízká hustota genů (<30%; 3% u Horno sapiens) ► alternativní splicing (zhruba u poloviny genů) ► velké množství repetitivních sekveních ► občasný překryv genů = Struktura genu (prokaryotická) Vztah transkripce a translace u prokaryotů Coupled Transcription and Translation DNA <3> □ i5P Struktura genu (eukaryotická) 5' UTR Coding region upstream enhancers TATA box\ + i Pr0m^ter \ \ Exon 1 Exon 2 ' 5' __í 1 ■_L Intron 1 intron 2 Initial transcript 5' cap (still in nucleus) final mRNA (in cytoplasm) Typické sekvence v eukaryotických genech ► Enhancer ► Promotor ► vazební místo transkripčního faktoru (aktivátor, represor) ► TATA-box ► 5'-UTR ► Začátek transkripce ► Kódující oblast ► Začátek translace (často ATG) ► exony ► introny ► donor (ag/GTaagt) ► akceptor (cAG/gt) ► lariat (CU[AG]A[CU]) ► terminátor translace (stop kodon = UAG—UAA—UGA) ► 3'-UTR ► polyadenylačnísignál (AATAAA) ► terminátor transkripce Sestřih mRNA Intron Retention (IR) Exon Form 1 Exon Exon Form 2 Cassette Exon (CE) Form 1 Exon T AG Form 2 GT AG Multiple Splice Sites (MS) Form 1 Exon AG AG GT GT Form 2 Form 3 Form 4 Sekvenční logo intronu daily sestřihu Excn 1—>* pre-mHfJA 5' -ApA pCpUp U1 5' spíice site Intron Ol J pCpUpRpApYp ApGipGp" 3' 1 3' splice unction ;2'.'3 >'4 ^5 ye yi I s A L I G N E D 0 -8 -fr -16 -32* ► -40"^-48^-56 ►-6 4 N -72 - T -8 1 -16 4 -24 ■ H I S -32 4 -40 4 -48 4 -56 4 -64 L H I N *8 E t S,,o Tabulka pro algoritmus dynamického programování Tabulka pro algoritmus dynamického programování (A) I S A L I G N E D (B) THIS-LI-NE- — ISALIGNED i S A L I G N E D 0 '* -4 -8*- 12*- 16*- 20*- 24*- 28*- 32*- 36 T N* T -4 -1 -3* -7*>- 11 *- 15*- 19*- 23*- 27*- 31 4 4 H -S -5 -2 -5 -9*- 13*- 17*- 18*- 22*- 26 4 N, I -12 -4 -6 -3 -3 -5* -9*- 13*- 17*- 21 4 4 S -16 -8 0 * -4 -5 -5 -5* -8*- 12*- 16 1 4 N* >* L -20 12 -4 -1 0 -3 -7 * -8 - 11 *- 1 5 I 4 4 V I -24 1 6 -8 -5 1 4 * 0* -4* -8*- 12 1 4 4 4 4 Sl N -28 20 - -9 -3 0 4 6 * 2 * -2 1 4 4 4 4^ E -32 24 - 16 - ■13 -7 -4 0 4 11 * 7 4 □ ► i" Tabulka pro algoritmus dynamického programování (A) 1 S A L I 6 N £ 0 (6) TH1S-LI-NE- OOQOOOOQOG --ISAUGNEE) T 0 -1 1 D -1 -1 -2 0-1 -1 -3 -2 -1 -3 -4 -3 -1 0 -2 N S N S |N N X S I 0 -i* -5 -3 1 1^-7-6 -4 -3 N * X X X X X X X S 0 -2 S ^ 0 -5 -1 1-6-6-4 X* IX X S X S S S L 0 2 0 7 4-3-5-2-9 -10 SIS N 4 N S *X X X 10 4 D -1 9 S 0^-8 -5-12 N 4 S N |\ \|\ S NO -3 5-2 1 6 8 6 ^-2-4 X * X #X S |\ S V Tabulka pro algoritmus dynamického programování Příště Bioinformatické databázy Outline Příloha For Further Reading x