IV107 Bioinformatika I Přednáška 6 Katedra informačních technologií Masarykova Univerzita Brno Jaro 2023 □ i5P /mnt/lexc /Pictures/loc o-fi-m Předchozí týden ► GenBank ► UniProt ► PDB ► Gene Ontology ► KEGG Pathways ► genomické a proteomické databáze /mnt/lexc /Pictures/loc o-fi-m □ S1 Vizualizace proteinů ► QuickPDB (Java) & Co. -c Molsoft web app (https://www.molsoft.com/pdbv.html) ► PyMol (Python) ► VMD+Povray (https://www.youtube.com/watch?v=wJo3zjRAQoo) /mnt/lex /Pictures/loc o-fi-rr PovRay raytracing - používá CSG constructive solid geometry sphere{ < 0,0,0 >, 180 pigmenti colorYellow} } cylinder{ < 0,0,0 >,< 150,200,300 >,60 pigmenti colorWhite} } camera{ location < 0.0,0.0,800.0 > direction < 0.0,0.0, -1.0 > } light-source{< 0,0,1000 > colorWhite} /mnt/lexc /Pictures/loc o-fi- Analýza proteinové sekvence ► strukturní ► predikce domén ► predikce sekundární struktury ► predikce a modelování 3D ► homologní ► "threading"/"fold recognition"(navlékání) ► z fragmentů ► ab initio ► funkční (anotace) ► přenos funkce sekvenční podobností (BLAST + GO) ► podle příslušnosti k rodině proteinů ► podle obsahu motivů (PRINTS—BLOCKS + GO) □ i5P 0 01 masaqsf ynqssvlkmvmvvdddhvf ldimsrmlqhskyrdpsvmeiaviav 0 61 stlkiqrdnidliitdyympgmnglqlkkqitqefgnlpvlvmssdtnkeees 121 fipkpihptdltkiyqfalsnkrngkstlsteqnhkdadvsvpqqitlvpeqa 181 kncsfksdsrtvnstngscvstdgsrknrkrkpnggpsddgesmsqpakkkki 2 41 dlflqairhigldkavpkkilafmsvpyltrenvashlqkyriflrrvaeqgl 301 gidsmfrqthikepyfnyytpstswydtrlnnrsfyskpvhgfgqskllsttr 3 61 mpynymnrsstyephrigsgsnltlpiqsnlsfpnqpsqneerrsffeppvma 421 qvlgfgqlgpsaisghnfnnnmtsrygslipsqpgpshfsygmqsflnnenvt 4 81 nattqpnldelpqlenlnlyndfgntselpynisnfqfddnkhqqgeadptkf 541 stelnheddgdwtfvninqgqsngetsntiaspetntpilninhnqnqgqdvp 601 ldpqelvdddfmnslfnndmn □ i5P Metody predikce domén ► vyskytují se ve mnoha proteinech (BLAST) ► kostra mezi doménami je flexibilní ► vlastnosti aminokyselin se liší podle pozici vůči prostředí ► motivy v rámci jedné domény spolu souvisí □ i5P Identifikace domén na základě podobnosti (BLAST) Color key for alignment scores <40 40-50 80-200 >=200 1 1 0 100 I 200 I 300 I I I 400 500 eoo □ i5P /mnt/lexc /Pictures/loc o-fi-m Identifikace domén na základě podobnosti (BLAST + CDD) 125 25 0 375 500 >:-:i http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml □ i5P /m n t/l exa/P i ct u re s/l odo-f i-m Identifikace domén na základě podobnosti (BLAST + PFAM) Source Domain Siuri End PfamA Response jeq 16 123 PfemA Myb_DNA-bindinq 224 274 PfamB Plarn-B 109046 276 592 □ i5P /mnt/lexc /Pictures/loc o-fi-m Frekvence aminokyselin na rozhraní domén TahLť I. Linker propensities j -tinker 2-) inker 3-li n Ker Smalt Medium Long Helical Non-he I ieal 0.902 0.974 0.923 0.932 0.988 0.946 0.928 0.892 0,879 0.845 0,972 1.2S6 1.333 1.241 1.137 1.069 1.131 1,11 0,981 1.368 1 1.139 0.992 0.736 0.916 0.S61 1.077 0.990 1.018 0.992 0.B32 1.109 1.034 0,973 1.157 0.836 0.936 1.042 1.065 0.959 1.001 1.14 0.956 0.984 1.097 0.902 0.623 0.762 0.952 0.979 0.478 0,986 0.85Ě 1.189 0.857 0-97 0.836 0.971 098 1.017 0.892 0.743 1.022 0,8858 0.5 1.015 1.314 1.132 1,121 1.053 0.999 1.093 0.988 1.054 1.09 0.99 0.957 0.911 0.673 1.003 095 0.915 0939 0 785 0.644 1.309 1.154 1.056 0 994 1.-15 1.2 0.7Ö2 1.11 0.992 0.866 0.892 0.9 o.ses 0944 0.817 0.925 0.841 0.917 1,035 0,8 1.230 1.09 1.276 1.199 1.124 1.171 0.832 1,012 1,075 1,092 0.90Ö 0.886 0 927 1.008 0.912 0919 0.981 0696 0662 1J316 I 030 1.151 0885 0.9 0.966 0.878 IM 1.05 0.945 0.843 0.993 1.003 0956 0.893 0.94S Ů.9G5 0.B52 0 978 0.896 Převzato z George and Heringa (2002) □ i5P /mnt/lexE /Pictures/loc o-fi-m DSSP je standardem přirazení sekundární struktury proteinům v PDB ► helix ► strand ► loop ► coil H alpha helix G 3-helix (3/10 helix) I 5 helix (pi helix) B residue in isolated beta-bridge E extended strand, participates in beta ladder T turn (hydrogen bonded) S bend (curvature only) C coil □ i5P /mnt/lexE /Pictures/loc o-fi-m Přirazení sekundární struktury rodině proteinů z PDB HQKVI LVGE) GARVVVIGA RCKITVVGV YNKITVVGV DNKITVVGV GAVGSSYAFAHVLQGI G FVGASYVFALMNQGI GDVGHACAI SILLKGL GAVGHACAISILMKDL GQVGMACAI SILGKS L AQEIGIVDI ADEI VLI E)A ADÉLALVDA ADEVALVDV TDELALUDV multiple alignment PIRVLVTGAAG&IAYSILYSIGNGSVFGKDQPIILVLLDI CCCBBBCCC CCBBBBBCC CCBBBBBCC CCBBBBBCC CCBBBBBCC C C CBBBC C C CHHHHHHHHHHHHHCC CHHHHHHHHHHHCCCC CHHHHHHHHHHHCCCC CHHHHHHHHHHHHCCC CHHHHHHHHHHHCCCC CHHHHHHHHHHHHHCC CCCBBBCCC CCBBBBBCC CCBBBBBCC CCBBBBBCC DSSP assignment CCBBBBBCC C C CBBBC C C CCBBBBBCCCCHHHHHHHHHHHCCCCCCCCCCBBBBBBCC CCCBBBCCCCCHHHHHHHHHHHCCCCCCCCCCCBBBBCCC minimum consensus CBBBBBBCCCC C C C C C C C CBBBBBBC C maximum consensus /mnt/lexc /Pictures/loc o-fi-m <□► < rS1 ► < -š ► < ■= ► -= I = ^00,0 Použití metody Chou-Fasman, 1978 4. B-4.4" 4" 3.6 3^2" Z.T 2.4 1.6" ^.■/r , Í I V(3 PHWI^prjřVtj PĎQRL?g.§P IEI VPAPQPPSPLNT& YPPSTTSTPSTSPTS PSVPQPPP Metoda založena na zastoupení aminokyselin v jednotlivých typech sekundární struktury /mnt/lexci /Pictures/loc o-fi-m Blízké a vzdálené interakce Predikce sekundární struktury neuronovými sítěmi N-terminal...T H I S I S A l-fllD D ENME S SAGE ...C-termínal input layer hidden layer output layer firing result prediction result a □ up /mnt/lexc /Pictures/log o-fi-m Predikce sekundární struktury různými nástroji Pokročilá predikce sekundární struktury first neural net second neural net alignment i sequence-to-structure neural net st ru et u re-t o-s t r uct u r e neural net i jury decision i 3-state prediction □ i5P /mnt/lexa/Pictures/lodo-fi-m Predikce závisí od existenci homologů homologní Je k dispozici struktura s podobností > 20 - 30% identity threading Protein je členem rodiny se známými strukturami fragmentová Protein nese lokální strukturní podobnosti k mnoha proteinem se známou strukturou ab initio Realistické pro krátké sekvence □ i5P /mnt/lexE /Pictures/loc o-fi-m ncip modelování podle homologů (A) HEWL: LactB: HEWL: LactB: -KVFG1 AEQLT s EL K EV lAAAMKRMGiDNYRGYSIiťjNflfV AňKFESNFNTQATNRNTDGSTPYGTT.QINSRWW KDGRTP FRELK— D1KGYGGVSLPEMV TTFHTSGYDT.QAIVQNND-STEYGLFQINNiCW KDDQKE GS.RNL NI? 5ALL3SOITASVN AKKIV£■ QGHGKNAWVAWRNR: KGTDVQAJJIRG: R íiSSNI NIS DKFLÍDDDTjTDDTM VKKIí.-DKVG"NVW:.AliKř.í. 5F,-KLDQWL-- E □ i5P /mnt/lexc /Pictures/loc o-fi-m Princip "threadingu M YTARG ETSEQINTHREADING i_._J I_._J /m n t/l exa/P i ct u re s/l oqb-f i-m <□► < rS1 ► < ► < 3 ► _ě|= -o Určité posloupnosti aminokyselin mají vždy stejnou strukturu Ab initio modelování - hledání globálního minima Modelování smyček Target: Template: VLVATY HDFVLI VLIISYFGNSGREFVIL 5-residue insertion database search for a 9-resídue fragment anchor points (2 residues) annealing □ i5P /mnt/lexa/Pictures/loqb-fi-m CATH - Class, Architecture, Topology, Homology AlphaFold https://en.wikipedia.org/wiki/AlphaFold /m n t/l exa/P i et u re s/l oojo-f i-rr Outline Příloha /m n t/1 exa/P i et u re s/l oqb-f i-m <□► < rS1 ► < -E ► < ■= ► -= I = ^O^O For Further Reading x /m n t/l exa/P i ct u re s/l oqb-f i-rr