IV107 Bioinformatika I Přednáška 4 Katedra informačních technologií Masarykova Univerzita Brno Jaro 2015 Před týdnem Existují techniky pro manipulaci, modifikaci, kopírovania detekci DNA, RNA a proteinů. ► rekombinace a klonování DNA ► PCR ► hybridizace DNA a RNA ► měření aktivity proteinů ► DNA čipy, microarray, proteinové čipy ► zjišíování sekvence Outline Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Bioinformatické databázy Sekvence DNA >P12345 Yeast chromosomel GAT TACAGAT TACAGAT TACAGAT TACAGAT TACAG AT TACAGAT TACAGAT TACAGAT TACAGAT TACAGA T TACAGAT TACAGAT TACAGAT TACAGAT TACAGAT TACAGAT TAGAGAT TACAGAT TACAGAT TACAGAT T ACAGAT TACAGAT TACAGAT TACAGAT TACAGAT TA CAGAT TACAGAT TACAGAT TACAGAT TACAGAT TAC AGAT TACAGAT TACAGAT TACAGAT TACAGAT TACA GAT TACAGAT TACAGAT TACAGAT TACAGAT TACAG AT TACAGAT TACAGAT TACAGAT TACAGAT TACAGA T TACAGAT TACAGAT TACAGAT TACAGAT TACAGAT Anotovaná sekvence DNA >P12345 Genl - protein alkoholdehydrogenaza TATA TATAAA C GAT T GAC GAT GAC GAT start ATG e x o n1 TACAGAT TACAGAT TACAGAT TAAGATGT intronl CAGATTACAGATTACAGATTACACAGATTCA exon2 AGATTACAGATTACAGATTACAGA stop TAA >P12346 Proteinl MASAQSFYLLDHNQNQNFDDHLAVDIVMILSHERFMN Anotace genomu Anotace genomu Hcroo sapiens chronosome 6 Anotace genomu http://www.ensembl.org/ Features t Comparative? DAS Sources t Repeats t Decorations t Export t Image size t Help t Jump ta region |T~ : |S992 G4S3 -|903112 5 S Refresh Refresh < 2MB I 1MB I * Window —■mi Window > 11MB > 12MB Length Onr. 6 bard 'Fbiwandaliand ■384.77 Kb q1S RefSeq NT Gontigs ErBembl Genes rtRNA Genes Human tilepath ebnes RefSeq Lergth Gere legend B835 Mb 9OJ0O Mb B0JQ5 Mb Gene ID; 155293 jjj_! 10 Mb BQ.15Mb B020Mb 0025 Mb 90.3(] _GenelD22Sai[ia] NT 007259 |i L"_|BE2J I LFfeudogere Gen9lD2569[12] ANKRDG G§n9lD257D[11] Geneitt5&52&|9] QmelDf 1465(1P1 38S5 Mb 9OJ0O Mb 9QJÜ5 Mb 90.10 Mb 90.15 Mb 9020 Mb -384.77 Kb- RP3-322A2 'Ftveiseilrand ■I Ense in bJ Nove I Pse uJogene ä Me iged Known Protei n cod ing RNAPseudogene (Novel) There aie cumertly 48 tiachs switched off, LBeths menus above ths image to turn them on. Způsoby identifikace genů in silico ► Experimentální metody (cDNA, EST) ► Komparativní metody ► Selekční tlak ► Druh zachovaných mutací ► Strukturní metody (GeneMark, GeneScan,GenelD) ► Detekce charakteristických signálů Identifikace genů podle charakteru mutací Gene m m m m m ittttittttľmtiiiim Hiii i ■ -j- ■ |fr"-r|-|--H rrljTrH m m m m WMMĚMMM m i: IffiiiilÄiillüI Intergenic IB í HUB I —m B r......mum.....w □ Conserved L Mutation fjGap ■ Frameshift Využití známé struktury genů ► intergenová DNA ► geny ► kódující protein ► statistika sekvence ► ORF ► exon/intron (u eukaryotů) ► promotor ► RNA geny (rRNA, tRNA, jiné) U prokaryotů 95-100% spolehlivost, u složitějších eukaryotů 90% na úrovni bazí, 70% na úrovni exonů/intronů ► existence intronů ► větší genomy ► nízká hustota genů (<30%; 3% u Horno sapiens) ► alternativní splicing (zhruba u poloviny genů) ► velké množství repetitivních sekveních ► občasný překryv genů Struktura genu (prokaryotická) Vztah transkripce a translace u prokaryotů Coupled Transcription and Translation DNA <3> Struktura genu (eukaryotická) ******** s' utr coding region upstream . _ 3'UTR enhancers TATA box\ * * / J Prom^ter \ \ Exon 1 Exon 2 \ [ / DNA Intron 1 intron 2 Initial transcript 5' cap (still in nucleus) II 3' Poly-A tail X _t_ / 0 ^^^m l^^fc I HAAAAA final mRNA (in cytoplasm) Typické sekvence v eukaryotických genech ► Enhancer ► Promotor ► vazební místo transkripčního faktoru (aktivátor, represor) ► TATA-box ► 5'-UTR ► Začátek transkripce ► Kódující oblast ► Začátek translace (často ATG) ► exony ► introny ► donor (ag/GTaagt) ► akceptor (cAG/gt) ► lariat (CU[AG]A[CU]) ► terminátor translace (stop kodon = UAG—UAA—UGA) ► 3'-UTR ► polyadenylačnísignál (AATAAA) ► terminátor transkripce Sestřih mRNA Intron Retention (IR) Exon Form 1 Exon ^y^Exon^2^^ Exon Form 2 Cassette Exon (CE) Form 1 Form 2 T AG GT AG Multiple Splice Sites (MS) Form 1 Exon í^^^ Exon / ^ Exon AG-AG GT GT Form 2 Form 3 Form 4 Sekvenční logo intronu detaily sestřihu Excn 1—*- pre-mRNA 6' ■ ApA Intron ■01J pCpUp 5' splice site pCpUpRpApYp w ^ pCpLpRpApYp ApCjpGp-- 3' 1 3' splits ApGfpÓt>~3' Splice unction pCpUpRpApYp Exon 1 v Exon 2 ApC oir Excised i n iron in lariat form 1- Spllced exons Identifikace genů podle struktury Úspěšnost identifikace genů i I i i i i i—i \ i i i—i \ i i i—i—i—i—i i i i—M Guigo et al, Genome Biology (2006) Příbuzné geny mají podobnou funkci i sekvenci Rost studoval proteiny s různou sekvenční podobností. Zjistil, že když je víc než 30% aminokyselin identických, proteiny mají velmi podobnou strukturu. Rost - prostor podobnosti Síí proteinů podle sekvenční podobnosti Proteiny přepojené podle sekvnenční podobnosti. Každý z 30727 vrcholů reprezentuje protein, každá z 1,206,654 hran podobnost. Seed Magazíne, Červenec 200§n homologie homologs orthologs s- frog O. paralogs orthologs 1 chick a mouse a mouse p (/-chain gene p -chain gene I gene duplication early globin gene Příbuznost a podobnost sekvencí ► Homologie bud je nebo není ► Podobnost lze kvantifikovat a stupňovat Od určitého stupně podobnosti je homologii velmi pravděpodobná. U proteinových sekvencí od cca. 30% identity. Podobnost sekvencí ► bez zarovnání (přiložení) ► např obsah n-gramů ► se zarovnáním (přiložením) ► stejná délka, pozice si odpovídají ► libovolná délka, pozice přiřazujeme Rozdíl mezi lokálním a globálním porovnáváním (A) local Pl3-kinase |OflHNSN|IMVKDt>G(lLFHI CAMPPK [D LKPEHJLLI DQQG YIQ VTfĎTGI (B) global 10 20 30 40 50 leecr1—HSSAKRPLVlLNUENPDlMSELLFaNNEII FKNGODLftftDHLT Pf3-kinase h&lgnlr CAMPPK GNAAAAKKGXEftESVKEFLAKAKED FLKKWENPAQNTAHLDQFERIKTLGTGSFGRyML 20 30 40 50 10 60 70 30 90 100 110 PI3-kinase lqiirihe—niwqnqgldlrmlpygclsigdcvglievvrnshtinq-iqckgglkgal CAMPPK ---VKHMETGNHYAnKlLKůKWK--------LKŮIE HT LN F. KR I LÚfl V N fPFLVKLEF go 70 80 90 100 120 130 PI3-kinase qfnsht-lhqwlkdknkgeiydaa- 140 150 160 ■IDLFTRSCAGYCVATFILGIGÜRHNSNIMVKD-Ü CAMPPK SFKONSNLYWVHEYVPGGEHFSHLRRIGRFSEPHARFYAAQIVLTFEYLHSHÍLIY 110 120 130 140 150 160 220 170 180 100 200 210 P!3"kinase gqlfhi|Tfg)hfldhkkkkfgy0<\O Matice pro hodnocení podobnosti proteinových sekvencí c 9 s -1 4 T -1 ■ 5 P -3 -1 -1 7 A 0 1 0 -I G -3 0 -2 -2 0 6 N -3 1 0 -2 -2 0 6 D -3 0 -1 -1 -2 -1 1 6 E -4 0 -1 -1 -1 -2 0 2 5 Q -3 0 -1 -1 -1 -2 0 0 2 5 H -3 -1 -2 -2 -2 -2 1 -1 0 0 8 R -3 -1 -1 -2 -1 -2 0 -2 0 1 0 5 K -3 0 -1 -1 -1 -2 0 -1 1 1 -1 2 5 M -1 -1 -1 -2 -1 -3 -2 -3 -2 0 -2 -1 -1 5 I -1 -2 -1 -3 -1 -4 -3 -3 -3 -3 -3 -3 -3 1 4 L -I -2 -1 -3 -1 -4 -3 -4 -3 -2 -3 -2 -2 2 2 4 V -1 -2 Q -2 0 -3 -3 -3 -2 »2 -3 -3 -2 1 3 1 4 F -2 -2 -2 -4 -2 -3 -3 -3 -3 -3 -1 -3 -3 0 0 0 -1 6 Y -2 -2 -2 -3 -2 -3 -2 -3 -2 -1 2 -2 -2 -1 -1 -1 -1 3 7 W -M -3 -2 -4 -3 -ši -4 -4 -3 -2 -2 -3 -3 -1 -3 -2 -3 1 2 11 c S T P A G N D E Q H R K M I L V F Y W ^11= >OQ,0 Tabulka pro algoritmus dynamického programování yi >s ys *8 I S I S A L I G N E D 0 1 ► -8 -* -16H ► -24N -321 , -40^.-48- ŕ>-56^-64^ ► -72 t -16 ▼ -32 -40 4 -48 4 -56 4 -64 % < □ ► •< g ► < 3 ► < = ► .11 = Q, O Tabulka pro algoritmus dynamického programování »Oi-'Of-'OUliVlM Kl Kl OJ OJ í- T- T- I t I I I I I I A ttttttt^ ŕO oj oj «- *- r- I t t t t t/1 t t/ zookiookicooo-4--o rg o\j *- *- i i i t t/t t/t/t tZ / -i oj i q oj i I -o i OJ i^- o* m o- r- I I I i ir\ Kl in u í í//'/ / í- O* ro m o I m to t t/ / w oo m oj i i I o i CO OJ I 1^1 1^1 ^r-^T-^OJ™*™ t/ / / Tabulka pro algoritmus dynamického programování (A) 0 □ s o A L I G 0 0 0 0 D -1 -i -2 0 -1 -1 1 0-1 -1 -2 0 -1 O|MS % N V S V V N -3 -2 -1 -3 -4 -3 -1 0 -2 X N N «v #X N X N 10 -4-5 -3 1 1^-7 -6 -4 -3 \|\ X X <* X N X S 0 -2 8^0-5-1 1-6 -6 -4 S* IN X X X X N X L 0 2 0 7 4-3-5-2-9 -10 X * X X *X X *X X X 10 4 0 -1 9 S 0 ■*> -8 -5-12 N l X X J X S *X S N 0 -3 5 -2 1 6 8 6 ^-2-4 \|\|\ S |\ s X E 0 -3 -3 4 -4 -2 4 8 11 ^ 3 (3) TH1S-L1-NE---ISAL1GNED Tabulka pro algoritmus dynamického programování Příště Bioinformatické databázy Outline Příloha For Further Reading x