Vv Blok 3 Funkce proteinů C3211 Aplikovaná bioinformatika Přednášející: Josef Houser Funkce proteinů • Jako funkci označujeme obvykle činnost, kterou je protein schopen provádět v organismu • Protein může mít jen jednu funkci, ale také více funkcí • Část proteinu, která má vlastní funkci, je obvykle označovaná jako doména Funkce proteinů Podle hlavních funkcí rozeznáváme mezi proteiny: • Enzymy - 7 hlaywrcn tříd • Strukturní proteiny - keratin, kolagen • Transportní proteiny - přenašeče, kanály • Obranné proteiny - protilátky • Regulátory a receptory - hormony, A&ranskfitó£i1í faktory, rhodopsin ..o Klasifikace enzymů Enzymy jsou proteiny, které katalyzují chemickou reakci - snižují aktivační energii nutnou pro přeměnu substrátu na produkt Dělíme je podle typu reakce, kterou katalyzují U) o c o o c <0 Aktivační energie reakce bez enzymu Aktivační energie reakce s enzymem initial state final state Course of reaction Upraveno z http://www1 .lsbu.ac.uk/ Klasifikace enzymů Dle IUBMB: https://www.qmul.ac.uk/sbcs/iubmb/enzyme/ Třída Charakteristika 1 Oxidoreduktasy Katalyzují různé redoxní reakce - přenos vodíku, kyslíku, elektronů (obvykle s využitím koenzymů, např. NADH, NADPH, FADH2 nebo hernu) 2 Tra n sf e rasy Katalyzují přenos skupin: amino-, metyl-, acyl-, glykosyl-, fosforyl- 3 Hydrolasy Katalyzují hydrolytické štěpení vazeb mezi atomem uhlíku a jinými atomy (spotřebování molekuly H20) 4 Lyasy Katalyzují adiční reakci na dvojné vazbě nebo eliminační reakci mezi 2 atomy uhlíku za vzniku dvojné vazby 5 Isomerasy Katalyzují racemizaci optických izomerů nebo vytvoření polohových izomerů 6 Ligasy Katalyzují tvorbu vazeb mezi uhlíkem a jinými atomy spojenou se štěpením ATP 7 Translokasy Membránové enzymy, které zajišťují aktivní transport látek s využitím energie ATP Transportní proteiny Jejich funkcí je přo^^ratebAř@5 membránu. Přenášena může být molekula (např. glukosa), iont (např. K+) nebo elektron. Přenos může probíhat pasivně (ve směru koncentrace) nebo aktivně (proti směru koncentrace). U aktivního transportu je typicky přenášena víc nezjedná částice (přenos jedné částice ve směru koncentračního gradientu umožňuje přenos druhé částice proti směru jejího koncentračního gradientu) nebo je* přenos spojený s chemickou reakcí » • • Extracellular space # # £ • • • o m o 8 Protein ^ # O O ô. channel • o * n O + § membrane ', TO • Carrier ^ O proteins o 0 -c Intracellular space Transportní proteiny Dle TCDB (transporter classification database): http://qmul.ac.uk/sbcs/iubmb/mtp/ Třída 1 Póry a kanály 2 Přenašeče řízené elektrochemickým potenciálem 3 Přenašeče řízené chemickou reakcí 4 Skupinové přenašeče 5 Transmembránové elektronové přenašeče 6 Nepřiřazeno 7 Nepřiřazeno 8 Accessory factors involved in transport 9 Nedostatečně charakterizované transportní systémy Protilátky • Protilátky slouží jako obrana organismu proti patogenům • U člověka existuje několik typů protilátek, které se liší funkcí, strukturou i relativním zastoupením v krevní plazmě • Protilátky jednotlivých typů mají velmi konzervovanou celkovou strukturu, liší se zejména v sekvenci krátkých variahrfxfich (\$£ky* • U jiných živočichů se vyskytují i jiné typy protilátek 8 Lidské protilátky Subtypů (člověk) Charakteristika IgA 2 Monomer/dimer, přítomna ve slinách, slzách (15%) IgD 1 Monomer, funkce neznámá (0,2%) IgE 1 Monomer, obrana proti parazitům, význam pro alergické reakce (0,002%) IgG 4 Monomer, hlavní lidská protilátka v sekundární imunitní odpovědi (75%) IgM 1 Pentamer, hlavní protilátka v primární imunitní odpovědi (10%) Protilátky obratlovců • Většinu protilátek máme společnou s dalšími obratlovci • Příklady dalších protilátek některých obratlovců: - IgY-ptáci (např. kur domácí) - hdgG-velbloudi, lamy - IgNAR-žraloci člověk ^pták velbloud žralok IgG IgY hdgG IgNAR Upraveno dle Kalenik 2014 Určení funkce proteinu • Experimentální^ weí& - Lokalizace - predikce lokalizace (např. hledání signálních peptidů) může napovědět KDE se daný protein realizuje - Hydrofobicita - může napovědět, že protein se nachází v membráně nebo uvnitř proteinového komplexu - pl - některé proteiny mají typické hodnoty izoelektrického bodu (např. histony jsou bazické —> pl > 7) ^aIP « 16 Predikce funkce proteinu Je nutno znát sekvenci: ^\>Je • Databáze - pracujeme-li se známým proteinem • Sekvenace - pracujeme-li s neznámým proteinem nebo pro ověření identity proteinu Ještě lepší je znát strukturu (2D, 3D) • Databáze - u známých proteinů ^^HlrčaipKáD struktury (viz. minuláj^Wraška)^0 • Určení 3D struktury (viz. příští přednáška) Proteinové domény • Doména - část proteinu s vlastní aktivitou nebo strukturní funkcí (více v bloku o 3D a 4D struktuře protah]' • Domény často obsahují sekvenční motiv, který můžeme nalézt u více proteinů se stejnou nebo podobnou funkcí - konzervované domény _a 18 Vícedoménové proteiny • Mnoho proteinů obsahuje více než jednu funkční • V jednom proteinu se mohou zároveň vyskytovat enzymatické, strukturní i interakční domény • Vzájemné uspořádání domén může být J(^0 charakteristické pro některé proteinové rodiny Proteinové rodiny • Proteiny se na základě své struktury (a funkce) řadí do hierarchických skupin. Většinou rozlišujeme: - Proteinová nadrodina - Proteinová rodina - Proteinová podrodina • Pro charakterizaci proteinových rodin se často používá Multiple sequence alignment (MSA) s aplikací skrytých ft^v Markovových modelů (HMM) V\Y>° • Dělení na základě doménového uspořádání a proteinových <2j(S rodin může ale nemusí být totožné 20 Databáze strukturních a funkčních motivů o Neanotované, nerevidované - „slepé" přebírání dat o Anotované, revidované - probíhá kontrola vkládaných dat • Obsahují různé informace - sekvenční, strukturní, odkazy na experimentální data,... , wy< • Slouží jako zdroj informací pro nadstavbové programy 21 Často navzájem provázané. Např.: UniProtKB - kombinovaná proteinová databáze, vč biologických dat Pfam - databáze proteinových rodin odvozená z UniProtKB .y^ KEGG - složená databáze obsahující systémové, .A genomické a chemické informace VC^0 o CD D - databáze proteinových dqm€$íV 22 Nejčastěji využíváme vyhledávání pomocí sekvence (prohledávání pomocí párového alignmentu, např. BlJwl") Méně časté je vyhledávání pomocí klíčových slov (např. lokalizace, známé vlastnosti,...) Známe-li konkrétní záznam, je možno hledat rovněž pomocí identifikačního čísla 23 Úloha 1 > Vyhledejte homologní proteiny k následující sekvenci pomocí nástoje BLAST na serveru UniProt (http://www.uniprot.org/). Lze na základě výsledku určit funkci tohoto proteinu? SHLSQPWPITCFADRPTPRRSSPDASGQTMHSVFVVHVPYPVVFLKPAH LTPQWYBj^VN PV^J^QPHLPVLYPAPNAG HTPAHSRQGL^^QPLF SVPQTVN PTG PVIHG DVAKQKPDTGQSWALN PYCT^N^RI LRJSR^S HGQRMPLTTLLQKTSGRNATLITKNSDQNTTTSIVSESSMTISACCHSAIL RNN 24 (Protein Families) ^atf http://pfam.xfam.org/ Pförn • Spravuje ji EBI (Evropský institut pro bioinformatiku) • Databáze proteinových rodin, vytvořená na základě Multiple sequence alignmentů (MSA) a Skrytých , w Markovových modelů (HMM) Q>j^ , • Na základě výsledků je možné určovat typické oblasti -.•fitáieinové domény asiS^ Úloha 2 > Pokuste se určit funkci následujícího proteinu pomocí databáze Pfam (https://pfam.xfam.org/). Sekvence: MRYIRLCIISLLATLPLAVHASPQPLEQIKQSESQLSGRVGMIEMDLASGRTLTAWRADERFPMMSTFKVVLCGAMLA RVDAGDKQLERKIHYRQQDLVDYSPVSEKHLADGMTVGELCAAAITMSDNSAANLLLATVGGPAGLTAFLRQIGDNV TRLDRWETELNEALPGDARDTTTPASMAATLRKLLTSQRLSARSQRQLLQWMVDDRVAGPLIRSVLPAGWFIADKTG ASKRGARGIVALLGPNNKAERIVVIYLRDTPASMAERNQQIAGIGAAL IEHWQR > Oá&3^ět^)?í«éré z vyznačených aminokyselin mají P^iv^^právnou funkci či struktuřa^rotei^^ 26 SMART (Simple Modular Architecture Research Tool) http://smart.embl-heidelberg.de/ • Rozpoznává přes 500 rodin proteinových domén • Prohledávání dle sekvencí, domén, druhů i vyšších taxonů • Umožňuje také vyhledávání podle zvolených kombinací domén - vhodné pro vícedoménové proteiny 27 Úloha 3 > PomOCÍ Serveru SMART (http://smart.embl-heidelberg.de/) identifikujte domény v následující sekvenci. Sekvence: MSIEHIUIDDDPHILALLSEILGARNFSVSSAPGVKQAIKQISNCPFDUISDMNMPDGSGLDII QYTKQHRPQTPILVITAFGTIQNAVEAMRFGAFNYLTKPFSPDALFTLIAKAEELQALQQDNLF LQSQGSSISHPLIAESPSMKQLLDKARRAANSSANIFVHGESGCGKENLSFFIHKHSPRSTKPYI KVNCAAIPDTLLESEFFGHEKGAFTGATTKKVGRFELAHQGTLLLDEITEIPIHLQAKLLRAIQE ^QEFEHIGGIKTLPVNIRFLATSNRDLEEAIETKVLRQDLYYRLSVISLHIPPLRDRKEDILPLAHYYL ? EKFCKMNNKPPKTLSLEAQRNLLDYSWPGNVR ELSNVLERTVILENDPAITPSMLALL 28 CDD Databáze konzervovaných domén - conserved domain database xifc http://www.ncbi.nlm.nih.Rov/Structure/cdd/cdd.shtml • Spravovaná Národním centrem pro biotechnologické informace (NCBljý^ • Obsahuje přehledné informace o známých . proteinových doménách bjC^ \ť& • Shromažďuje data z různých zdroj*?'*' _cflJtS CDD zdroje Abbreviation Database Name Description SMART Simple ModularArchitecture ResearchTool SMART is a web tool for the identification and annotation of orotein domains, and provides a platform for the comparative study of complex domain architectures in genes and proteins. SMART is maintained by Chris Ponting, Peer Bork and colleagues, mainly at the EMBL Heidelberg. CDD contains a large fraction of the SMART collection. Pfam Protein families Pfam is a lame collection of multiple sequence alianments and hidden Markov models covering many common protein domains and families. Pfam is maintained by Alex Bateman and colleagues, mainly at the Wellcome Trust Sanger Institute. CDD contains a large fraction of the Pfam collection. COGs Clusters of OrthologousGroups of proteins COGs is an NCBI-curated protein classification resource. Sequence alignments corresponding to COGs are created automatically from constituent sequences and have not been validated manually when imported into CDD. TIGRFAM The Institute forGenomic Research's database of proteinfamilies TIGRFAM. a research proiect of the J. Craia Venter Institute, is a collection of manually curated protein families from The Institute for Genomic Research and consists of hidden Markov models (HMMs), multiple sequence alignments, Gene Ontology (GO) terminology, cross-references to related models in TIGRFAM and other databases, and pointers to literature. PRK PRotein K(c)lusters Protein Clusters is an NCBI collection of related protein sequences (clusters') consistina of Reference Seauence oroteins encoded bv comolete orokarvotic and chloroplast plasmids and genomes. It includes both curated and non-curated (automatically generated) clusters. 30 Úloha 4 > Vyhledejte pomocí nástroje CD search (NCBI) (https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi) konzervované domény následujícího proteinu. Sekvence: pevrsstqsesgmsqwmgkilsirgagliigvfglcaliaatsvtlppeqqlivafvcvviffivghkpsrrsqiflevlsglvslryltwrlt etlsfdtwlqgllgtmllvaelyalmmlflsyfqtiaplhraplplppnpdewptvdifvptyneelsivrltvlgslgidwppekvrvhil ddgrrpefaafaaecganyiarptnehakagnlnyaightdgdyiufdcdhvptraflqltmgwmvedpkialmqtphhfyspdpf qrnlsagyrtppegnlfygvvqdgndfwdatffcgscailrrtaieqiggfatqtvtedahtalkmqrlgwstaylriplagglaterli lhigqrvrwargmlqifridnplfgrglswgqrlcylsamtsflfavprviflssplaflffgqniiaasplallayaiphmfhavgtaski nkgwrysfwsevyettmalflvrvtivtllspsrgkfnvtdkggllekgyfdlgavypniilglimfgglargvyelsfghldqiaerayl lnsawamlsliiilaaiavgretqqkrnshripatipvevanadgsiivtgvtedlsmggaavkmswpaklsgptpvyirtvldgeelilpa riiragngrgifiwtidnlqqefsvirlvfgradawvdwgnykadrpllslmdmvlsvkglfrssgdivhrssptkpsagnalsddtnn psrkervlkgtvkmvsllalltfassaqaasapravaakapahqpeasdlpplpallpatsgaaqagsgdagadgpgsptgqplaadsa dalvenaentsdtatvhnytlkdlgaagsitmrglaplqgiefgipsdqlvtsarlvlsgsmspnlrpetnsvtmtlneqyigtlrpdpa hptfgpmsfeinpiffvsgnrlnfnfasgskgcsditndtlwatisqnsqlqittialpprrllsrlpqpfydknvrqhvtvpmvlaqtyd pqilksagilaswfgkqtdflgvtfpvsstipqsgnaiugvadelptsfgrpqvngpavlelpnpsdanatilvvtgrdrdevitaskgiaf wplptdshmdvapvdiaprkpndapsfiamdhpvrfgdlvtasklqgtgftsgvlsvpfrippdlytwrnrpykmqvrfrspagea kdveksrldvginevylhsyplrethgligavlqgvglarpasgmqvhdldvppwtvfgqdqlnfyfdamplargicqsgaannaf 'hlgldpdstidfsrahhiaqmpnlaymatvgfpfttyadlsqtavvlpehpnaatvgayldlmgfmgaatwypvagvdivsadhvsd vadrnllvistlatsgeiapllsrssyevadghlrtvshasaldnaikavddpltafrdrdskpqdvdtpltggvgamieaespltagrtvl allssdgaglnnllqmlgerkkqaniqgdlvvahgedlssyrtspvytigtlplwlwpdwymhnrpvrvllvgllgcilivsvlarala rhaarrfkqlederrks CDART (Conserved domain architecture retrieval tool) http://www.ncbi.nlm.nih.gov/Structure/lexington/lexington.cgi • Využívá anotované informace z databází Pfam a SMART • Nevyhledává pouze izolované domény, ale zohledňuje jejich kombinace a vzájemná umístění v jednom proteinovém řetězci. .JC^0 Úloha 5 > V násIedujícúcri>f|Srotei^CK^cřyla zjištěna kombinace rhodanasové a ankyrinové domény. Zjistěte, zda je tento případ unikátní a v jakých jiných kombinacích se tyto domény v přírodě vyskytují. Použijte aplikaci CDART (http://www.ncbi.nlm.nih.gov/Structure/lexington/ lexington.cgi). ofc^ Sekvence: JOmntrsfhridvhkarellqrpdtvlldcrhpsdfraghiagasplgdynaddhvlniakhrpvliycyhg nasqmraqlfadfgfaevysldggyeawrkvhtpansqltealqcwlmaqefpaadihartrdgvtpl mraagegdparvaellaagadphqrnndgnqalwfacvsenldtldllvavgahlnhqndngatcl myaasa gktavverllafgadrsllslddftaldmaanleclnllretprrikavt 33 J. Mol. Biol. (1995) 251. 390-399 Proteiny, které nemají blízké homology je těžké predikovat PROPSEARCH neprovádí alignment Porovnává složení (zastoupení) aminokyselin, molekulovou hmotnost, izoelektrický bod, atd. > celkem 144 různých parametrů Snaha zařadit protein do funkční Další studium sekvence nutné ! JMB A Sequence Property Approach to Searching Protein Databases Uwe Hobohm and Chris Sander" EMBL-Europeau Molecular Biology Laboratoři/, D-69012 Heidelberg, Germany *ComSfOttálng author Currently available sequence alignment programs are generally not capable of detecting functional and structural homologs in the twilight zone of sequence similarity, i.e. when the sequence identity falls below about 25%. Here we attempt to detect such weak similarities using an approach based on a notion of protein sequence similarity radically different from that used in sequential alignment. The approach defines protein sequence dissimilarity (or distance) as a weighted sum of differences of compositional properties such as singlet and doublet amino acid composition, molecular weight, isoelectric point (protein property search or PropSearch). With PropSearch, either single sequences can be used for a database query, or multiple sequences can be merged into an "average" sequence reflecting the average composition of a protein family First, we show that members of structural protein families have a low mutual PropSearch distance when the weights are optimized to discriminate maximally between structural families. Second, we demonstrate the results of database searches using the PropSearch method. Such searches are very rapid when scanninga preprocessed database and do not require alignments. In cases in which conventional alignment tools fail to detect similarities, PropSearch can be used to generate hypotheses about possible structural or functional relationships between a new sequence and sequences in the database. i 1995 Academic Press Limited Kiyuvrtls: amino acid composition; database search; structural homologs Introduction After sequencing a novel gene or protein of all cases the researcher is left without functional or structural information (Borkt'M/., 1992). However, in 34 V kombinaci je síla... • Máme-li možnost, je vždy lépe kombinovat informace z různých zdrojů Minimalizujeme tak náhodné chyby a maximalizujeme pravděpodobnost správné predikce 35 http://www.ebi.ac.uk/Tools/pfa/iprscan/ Společné vyhledávací rozhraní, které využívá různé databáze pro maximalnOTci výstupu Slouží pro analýzu proteinové sekvence pomocí 14 různých aplikací v jednom běhu Spravuje jej EBI (Evropský institut pro bioinformatiku) InterP ro Classification of protein families 36 Úloha 6 > Pokuste se určit funkci následujícího proteinu pomocí serveru InterProScan (http://www.ebi.ac.uk/Tools/pfa/iprscan/). Sekvence: MTELKNDRYLRALLRQPVDVTPVWMMRQAGRYLPEYKATRAQAGDFMSLCKNAELACEV TLQPLRRYPLDAAILFSDILTIPDAMGLGLYFEAGEGPRFTAPVTCKADVDKLPIPDPEDELGYV MNAVRTIRRELKGEVPLIGFSGSPWTLATYMVEGGSSKAFTVIKKMMYADPQALHLLLDKLA KSVTLYLNAQIKAGAQSVMIFDTWGGVLTGRDYQQFSLYYMHKIVDGLLRENDGRRVPVTLF TKGGGQWLEAMAETGCDALGLDWTTDIADARRRVGHKVALQGNMDPSMLYAPPARIEDE VATILAGFGQGEGHVFNLGHGIHQDVPPEHAGAFVEAVHRLSAQYHN 37 http://string-db.org STRING Vyhledává funkční vazby mezi proteiny Po zadání zkoumaného proteinu (sekvence, názvu) vyhledá další proteiny ve vztahu k zadanému Souvislosti hledá na základě: databázových informací výskytu v genomu jft^abQij^^ch drah Ä^erimentálních interakcí textového hledání gene neighborhoods in S. cerevisia: in other organisms: none 38 neighborhoods gene fusions » cz> in S. cerevisia: none in other organisms: none •/MX/. gene cooccurrence in S. cerevisiae: in other organisms: co-expression in S. cerevisiae: in other organisms: \ 6 non-random pairs 10 coexpressed pairs support from 14 organisms experiments in S. cerevisiae in other organsims: 562 interaction records 1178 records from 15 orgs. databases in S. cerevisiae: in other organisms: 85 annotated pathways 300 pathways from 26 orgs. textmining in S. cerevisiae: in other organsims: 1817 publications 2436 publications, 52 orgs. Úloha 7 > Pomocí serveru STRING (http://string-db.org) prozkoumejte zapojení tohoto lidského proteinu v metabolismu. Sekvence: mqrsplekasvvsklffswtrpilrkgyrqrlelsdiyqipsvdsadnlseklerewdrelaskknpklinalrrcffwrfmfygiflylge vtkavqplllgriiasydpdnkeersiaiylgiglcllfivrtlllhpaifglhhigmqmriamfsliykktlklssrvldkisigqlvsllsnnl nkfdeglalahfvwiaplqvallmgliwellqasafcglgflivlalfqaglgrmmmkyrdqragkiserlvitsemieniqsvkay eeamekmienlrqtelkltrkaayvryfnssafffsgffvvflsvlpyalikgiilrkifttisfcivlrmavtrqfpwavqtwydslgainki * qdflqkqeyktleynltttevvmenvtafweegfgelfekakqnnnnrktsngddslffsnfsllgtpvlkdinfkiergqllavagstg agktsllmmimgelepsegkikhsgrisfcsqfswimpgtikeniifgvsydeyryrsvikacqleediskfaekdnivlgeggitlsggqr arislaravykdadlylldspfgyldvltekeifescvcklmanktrilvtskmehlkkadkililhegssyfygtfselqnlqpdfssklmgc dsfdqfsaerrnsiltetlhrfslegdapvswtetkkqsfkqtgefgekrknsilnpinsirkfsivqktplqmngieedsdeplerrlslvp dseqgeailprisvistgptlqarrrqsvlnlmthsvnqgqnihrkttastrkvslapqanlteldiysrrlsqetgleiseeineedlkecf fddmesipavttwntylryitvhkslifvliwclviflaevaaslvvlwllgntplqdkgnsthsrnnsyaviitstssyyvfyiyvgvadtll amgffrglplvhtlitvskilhhkmlhsvlqapmstlntlkaggilnrfskdiailddllpltifdfiqlllivigaiavvavlqpyifvatvpvi vafimlrayflqtsqqlkqlesegrspifthlvtslkglwtlrafgrqpyfetlfhkalnlhtanwflylstlrwfqmriemifviffiavt^ isilttgegegrvgiiltlamnimstlqwavnssidvdslmrsvsrvfkfidmptegkptkstkpykngqlskvmiienshvkkddiw gqmtvkdltakyteggnailenisfsispgqrvgllgrtgsgkstllsaflrllntegeiqidgvswdsitlqqwrkafgvipqkvfifsgt frknldpyeqwsdqeiwkvadevglrsvieqfpgkldfvlvdggcvlshghkqlmclarsvlskakillldepsahldpvtyqiirrtlk qafadctvilcehrieamlecqqflvieenkvrqydsiqkllnerslfrqaispsdrvklfphrnsskckskpqiaalkeeteeevqdtrl Porovnání predikce a experimentu • Predikce: í^ - Finančně (i miliony Kč) a časově náročný (minuty-hodiny + [Y* příprava vzorku = týdny až roky) ™ 40 Rady do života O daném proteinu získej maximum informací Kombinuj různé predikční programy a přístupy ti Kriticky kontroluj SW výstupy 41