Katedra informačních technologií Masarykova Univerzita Brno Jaro 2008 IV107Bioinformatikal -Přednáška 6 IV107 Bioinformatika I Přednáška 6 Vizualizace proteinů Predikce domén Predikce sekundární struktury Predikce 3D struktury Predikce funkce Příště Jiné analýzy □ rS1 M= -O^O IV107 Bioinformatika I - Přednáška 6 Předchozí týden ► GenBank ► UniProt ► PDB ► Gene Ontology KEGG Pathways ► genomické a proteomické databáze Vizualizace proteinů Predikce domén Predikce sekundární struktury Predikce 3D struktury Predikce funkce Příště Jiné analýzy □ ö :|= -O^O Vizualizace proteinů ► QuickPDB (Java) & Co. ► Povray + pdb2pov (CSG language,C) ► PyMol (Python) IV107Bioinformatikal -Přednáška 6 Vizualizace proteinů men ■kundární struktury Predikce 3D struktury Predikce funkce Příště Jiné analýzy □ rS1 M= -O^O IV107 Bioinformatika I - Přednáška 6 PovRay raytracing - používá CSG constructive solid geometry sphere { <0,0,0>,180 pigment {colorYellow} } cylinder{ < 0,0, 0 >, < 150,200, 300 >, 60 pigment { colorWhite } } camera{ location < 0.0,0.0,800.0 > direction < 0.0,0.0, -1.0 > } lightsource{< 0,0,1000 > colorWhite} Vizualizace proteinů Predikce domén Predikce sekundární struktury Predikce 3D struktury Predikce funkce Příště Jiné analýzy □ rS1 M= -O^O IV107 Bioinformatika I - Přednáška 6 Analýza proteinové sekvence ► strukturní «- predikce domén «- predikce sekundární struktury - predikce a modelování 3D ►• homolognf ►• "threading"/"fold recognition" (navlékánf) ►• z fragmentů ►• ab initio ► funkční (anotace) - přenos funkce sekvenční podobností (BLAST + GO) - podle příslušnosti k rodině proteinů - podle obsahu motivů (PRINTS—BLOCKS + GO) Vizualizace proteinů Predikce domén Predikce sekundární struktury Predikce 3D struktury Predikce funkce Příště Jiné analýzy □ rS1 M= -O^O IV107 Bioinformatika I - Přednáška 6 Vizualizace proteinů Predikce domén Predikce ;- irni struktury Fredikce 3D struktury Predikce funkce Příště 0 01 masaqsfynqssvlkinvmvvdddhvfIdimsrmlqhskyrdpsvmeiaviav 061 stlkiqrdnidliitdyympgmnglqlkkqitqefgnlpvlvmssdtnkeees 121 fipkpihptdltkiyqfalsnkrngkstlsteqnhkdadvsvpqqitlvpeqa 181 kncsfksdsrtvnstngscvstdgsrknrkrkpnggpsddgesmsqpakkkki 2 41 dlflqairhigldkavpkkilafmsvpyltrenvashlqkyriflrrvaeqgl 3 01 gidsmfrqthikepyfnyytpstswydtrlnnrsfyskpvhgfgqskllsttr 3 61 mpynymnrsstyephrigsgsnltlpiqsnlsfpnqpsqneerrsffeppvma 421 qvlgfgqlgpsaisghnfnnnmtsrygslipsqpgpshfsygmqsflnnenvt 4 81 nattqpnldelpqlenlnlyndfgntselpynisnfqfddnkhqqgeadptkf 541 stelnheddgdwtfvninqgqsngetsntiaspetntpilninhnqnqgqdvp 6 01 ldpqelvdddfmnslfnndmn Metody predikce domén ► vyskytují se ve mnoha proteinech (BLAST) ► kostra mezi doménami je flexibilní ► vlastnosti aminokyselin se liší podle pozici vůči prostředí ► motivy v rámci jedné domény spolu souvisí IV107Bioinformatikal -Přednáška 6 Vizualizace proteinů Predikce domén : srní struktury r reStee .jO struktury ikce Příště Jiné analýzy ► -š|= -OQ.O Identifikace domén na základě podobnosti (BLAST) IV107Bioinformatikal -Přednáška 6 Vizualizace proteinů Predikce domén Color key for alignment scores 100 200 300 400 500 600 r iBuiftOB o u auüktury Predikce funkce Příště Jiné analýzy □ ö :|= -O^O Identifikace domén na základě podobnosti (BLAST + CDD) http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml IV107Bioinformatikal -Přednáška 6 Vizualizace proteinů Predikce domén r iBuiftOB o u auuktury Predikce funkce Příště Jiné analýzy □ Ö - :|= -O^O Source Domain Start End PlamA Response req Uvb DNA-bindinc 16 128 PfamA m n\ PfamB Plam-B 108046 276 592 IV107Bioinformatikal -Přednáška 6 Identifikace domén na základě podobnosti (BLAST + PFAM) Vizualizace proteinů Predikce domén r iBuiftOB ovj BLiüktury Predikce funkce Příště Jiné analýzy □ ö - :|= -O^O http://pfam.sanger.ac.uk/ IV107 Bioinformatika I - Přednáška 6 Vizualizace proteinů Predikce domén PFAM A a PFAM B pokrývají 86 % známých sekvencí r iBuiftOB o u auüktury Predikce funkce Příště Jiné analýzy □ g - _= = ^<\(y Frekvence aminokyselin na rozhraní domén Tahlť I. Lmkur pnifoíMtiĽN All 1-linker 2-linkĽi 3-liisker Small Medium Lonß Helical Non-helical Pra 1.2» 1.362 1.266 1.332 1.241 1.314 1.309 O.S1 1.816 AI) Phe l.ej Olu Gin Met Thr His 1.129 1.122 1.11 1.137 1.11 1069 1.131 0.981 1.368 1.132 1.164 1239 1 038 1.151 0 8BÍ 0.9 0.966 0 878 1.121 1.106 I 055 0594 '.09 14276 1.199 1.124 1171 1 1,193 1.192 1.051 1.047 1.032 1.017 1.014 ' .05-1 1.139 0.Ě32 0.736 1.053J 0,999 1.115 1,2 I.092 0.923 1.023 0 945 0.916 1.077 1.018 ■QU] 0.661 a.99sHMRS 0.992 0.822 1.034 0.973 1.093 0.988 0.782 1.11 0 832 1.169 1.054 0992 1012 1-05 Tyr 1 0.902 \^B5 0.836 159 0.866 1.075 0-945 Ala 0.964 0.974 0.938 1.042 1.065 IBS 0.892 1J»2 0.843 Val 0.955 0.923 o.sia 1.001 ^Hsl 0.957 0.9 0.908 0.999 Ser Asn 0.947 0,944 0.932 0.989 0.33G um 0.964 1.097 0,828 0.762 0.911 o.oas 0.B86 0.927 1.003 0.956 0873 1.™ Lys 0.944 0.946 0.952 0.379 0.478 1.003 0.944 1.008 0.893 He 0,922 0929 0.986 0.652 1.189 0.95 0.817 0912 [,.946 Asp 0.91« 0892 0,857 097 o.soo 0*5 0-925 0.919 0.906 TT 0.895 0.879 0.971 0.96 1.017 0.939 0.841 0.391 0.852 Ol) 0.835 0.845 0832 0.743 1022 0.765 0.917 0.698 0.978 Cys 0.77S 0.972 0.6856 0.5 1.015 0.644 1.035 0.662 0.896 Převzato z George and Heringa (2002) IV107Bioinformatikal -Přednáška 6 Vizualizace proteinů Predikce dornen r icuiivL-t; oi_) auüktury Predikce funkce Příště Jiné analýzy □ rS1 M= -O^O DSSP je standardem přirazení sekundární struktury proteinům v PDB ► helix H alpha helix G 3-helix (3/10 helix) I 5 helix (pi helix) strand loop coil residue in isolated beta-bridge E extended strand, participates in beta ladder T turn (hydrogen bonded) S bend (curvature only) C coil IV107Bioinformatikal -Přednáška 6 Vizualizace proteinů Predikce sekundární struktury Predikce funkce Příště Jiné analýzy □ rS1 M= -O^O IV107 Bioinformatika I - Přednáška 6 Přirazení sekundární struktury rodině proteinů z PDB HQKVILVGD GAVGSSYAFAHVLQGI AQEIGIVDI GARVVV1GA GFVGASYUFALHNG1GI ADEIVLIDA BCKITVVGV GDVGHACA1S1LLKGL ADELALVDA YNKITVVGV GAVGMACA1S1LMKDL ADEVALVDV DNKITVVGV GQVGMACA1SILGKSL TDELALVDV PIRVLVTGAAG0IAYSLLYS1GNGSVFGKDQPIILVLLDI CCCBBBCCC CHHHHHHHHHHHHHCC CCCBBBCCC CCBBBBBCC CHHHHHHHHHHHCC C C CCBBBBBCC CCBBBBBCC CHHHHHHHHHHHC C C C CCBBBBBCC CCBBBBBCC CHHHHHHHHHHHHCC C CCBBBBBCC CCBBBBBCC CHHHHHHHHHHHCC C C CCBBBBBCC CCCBBBCCC CHHHHHHHHHHHHHCC CCCBBBCCC CCBBBBBCCCCHHHHHHHHHHHCCCCCCCCCCBBBBBBCC CCCBBBCCCCCHHHHHHHHHHHCCCCCCCCCCCBBBBCCC minimum consensus CBBBBBBCCCCHHHHHHHHHHHHHCCCCCCCCBBBBBBCC maximum consen5us Vizualizace proteinů Predikce sekundární struktury Predikce funkce Příště Jiné analýzy multiple alignment DSSP assignment □ rS1 M= -O^O 99999 Použití metody Chou-Fasman, 1978 ■i.........i.........i.........i.........i.........r 1 10 ZO 3fl 4fl 5« ftfl Metoda založena na zastoupení aminokyselin v jednotlivých typech sekundární struktury IV107Bioinformatikal -Přednáška 6 Vizualizace proteinů Predikce sekundární struktury Predikce funkce Příště Jiné analýzy □ ö :|= -O^O Blízké a vzdálené interakce IV107Bioinformatikal -Přednáška 6 Vizualizace proteinů Predikce sekundární struktury Predikce funkce Příště Jiné analýzy □ Ö - :|= -O^O Predikce sekundární struktury neuronovými sítěmi N-terminaĽ.TH I S I S Aŕfíl^PE N PI E S S AG E...C-ternninal input layer IV107Bioinformatikal -Prednáška 6 Vizualizace proteinů Predikce sekundární struktury Predikce funkce Příště Jiné analýzy hidden layer output layer a P coil firing result prediction result I 0.7 a I 01 1 0.2 □ rJi - _= = ^<\(y IV107 Bioinformatika I - Přednáška 6 Vizualizace proteinů Predikce sekundární struktury Predikce sekundární struktury různými nástroji Predikce funkce Příště Jiné analýzy X-ray: GOR IV: PredS: PredM: PROF: l-JNSSP: PSIPRED: J net: □ rS1 M= -O^O Pokročilá predikce sekundární struktury first neural alignment I sequence-to-structure neural net net second neural net I structure-to-structure neural net 1 jury decision 1 3-state prediction □ ö IV107Bioinformatikal -Přednáška 6 Vizualizace proteinů Predikce sekundami struktury ikce Příště Jiné analýzy ^) C\ Q- IV107 Bioinformatika I - Přednáška 6 Predikce závisí od existenci homologů homologní Je k dispozici struktura s podobností > 20 - 30% identity "threading" Protein je členem rodiny se známými strukturami fragmentova Protein nese lokální strukturní podobnosti k mnoha proteinem se známou strukturou ab initio Realistické pro krátké sekvence Vizualizace proteinů Predikce domén Predikce sekundární struktury Predikce 3D struktury Predil ■ Příště □ rS1 :|= -O^O Princip modelování podle homologů iß) HEWL: -KVFGfi] LactB: AEQLTKj HEWL: LactB: "SGVSLGMWV AAKFF.SriFHTQAT 'GGVSIPEIIV TTFHTSSVCTQÄI lLLSSĎITAÍÍVH' AKnVSKNS^SAlVAWRNFi; Eíí ;ÉlDD|L|DDIM|vBÍL-DKVGTNYw:.;=i:K,r-..: IRHTDGSTDYGTLQlHSFľlH tíDGFTP IVíMWD-ETE¥GLrQTKMK:W KODONS ■GTDVQA Ľ-KLDQ Pis 1=1 rS1 IV107Bioinformatikal -Přednáška 6 Vizualizace proteinů men Predikce sekundární struktury Predikce 3D struktury Predil Příště Jiné analýzy ^) C\ Q- Princip "threadingu" IV107Bioinformatikal -Přednáška 6 MYTARGETSEQINTHREADING i__________,__________I i________,________i Vizualizace proteinů Predikce domén Predikce sekundární struktury Predikce 3D struktury Predil ■ Příště □ rS1 :|= -O^O IV107 Bioinformatika I -Přednáška 6 Určité posloupnosti aminokyselin mají vždy stejnou strukturu Vizualizace proteinů Predikce domén Predikce sekundární struktury Predikce 3D struktury Predikce funkce Příště Jiné analýzy (A) (B) 1 i MIL i -É.Q -120 l . . . . 1 BÉ! Hi E l L F C □ S1 ~ = ^ = -OQ>0 IV107 Bioin form atika I-Pŕednáška 6 Ab initio modelování- hledání globálního minima Vizualizace proteinu Predikce 3D struktury Predikce funkce Příště Jiné analýzy □ g - = ^ = 'OQ.O Modelování smyček Target: Template: VLVATY HOFVLI VLHSYFGNSGREFVIL 5-residue insertion database search for a 9-resídue fragment annealing anchor points {2 residues) IV107Bioinformatikal -Přednáška 6 Vizualizace proteinů men 'kundární struktury Predikce 3D struktury Predil Příště S1 :|= -O^O CATH - Class, Architecture, Topology, Homology *?*■ homologous superfamily IV107Bioinformatika I -Přednáška 6 Vizualizace proteinů Predikce domén Predikce sekundární struktury Predikce 3D struktury Predikce funkce Příště Jiné analýzy _E = ^0,0 Charakterizace sady genů pomocí GO ■■ ^-—'■■■" ri**ü*r\ c ****** a c ä's'o £2ET) (™Z) (ušľ) g'») cHr) f Cell-m u r In^ «EtiHniii 1a uiíl f (mnuriD \ V ar wriw» ^ l n«P«iE