Blok 3 Funkce proteinů C3211 Aplikovaná bioinformatika Přednášející: Josef Houser Funkce proteinů •Enzymy – 6 hlavních tříd •Strukturní proteiny – keratin, kolagen •Transportní proteiny – albumin, hemoglobin •Obranné proteiny – protilátky •Regulátory a receptory – hormony, transkripční faktory, rhodopsin •… • •2 http://t1.gstatic.com/images?q=tbn:ANd9GcRqsWAohDIdrrnKV81GYNupe6obMIX-RrIp6FSPAQd6LyFon7ssUg http://www.top-pracovni-odevy.cz/galerie_clanky/11.jpg Klasifikace enzymů Třída Charakteristika Počet Podtříd 1 Oxidoreduktasy Katalyzují různé redoxní reakce – přenos vodíku, kyslíku, elektronů (obvykle s využitím koenzymů, např. NADH, NADPH, FADH2 nebo hemu) 23 2 Transferasy Katalyzují přenos skupin: amino-, metyl-, acyl-, glykosyl-, fosforyl- 10 3 Hydrolasy Katalyzují hydrolytické štěpení vazeb mezi atomem uhlíku a jinými atomy (spotřebování molekuly H2O) 13 4 Lyasy Katalyzují adiční reakci na dvojné vazbě nebo eliminační reakci mezi 2 atomy uhlíku za vzniku dvojné vazby 7 5 Isomerasy Katalyzují racemizaci optických izomerů nebo vytvoření polohových izomerů 6 6 Ligasy Katalyzují tvorbu vazeb mezi uhlíkem a jinými atomy spojenou se štěpením ATP 6 •3 Dle IUBMB: http://www.chem.qmul.ac.uk/iubmb/enzyme/ Transportní proteiny •Dle TCDB (transporter classification database): •http://www.chem.qmul.ac.uk/iubmb/mtp/ •4 Třída 1 Póry a kanály 2 Přenašeče řízené elektrochemickým potenciálem 3 Přenašeče řízené chemickou reakcí 4 Skupinové přenašeče 5 Transmembránové elektronové přenašeče 6 Nepřiřazeno 7 Nepřiřazeno 8 Accessory factors involved in transport 9 Nedostatečně charakterizované transportní systémy Protilátky Subtypů (člověk) Charakteristika IgA 2 Monomer/dimer, přítomna ve slinách, slzách (15%) IgD 1 Monomer, funkce neznámá (0,2%) IgE 1 Monomer, obrana proti parazitům, význam pro alergické reakce (0,002%) IgG 4 Monomer, hlavní lidská protilátka v sekundární imunitní odpovědi (75%) IgM 1 Pentamer, hlavní protilátka v primární imunitní odpovědi (10%) •5 Isotype form of IgM Isotype form of IgG Isotype forms of IgA Isotype forms of IgD and IgE Určení funkce proteinu •Experimentální –Izolace proteinu s konkrétní funkcí –Stanovení funkce u konkrétního proteinu • •Predikce – na základě podobnosti –Lokalizace –Multiple sequence alignment (BLAST, Pfam) –Struktura molekuly (ProFunc, Catalytic site atlas) –Textové hledání v publikacích (STRING) •6 http://t2.gstatic.com/images?q=tbn:ANd9GcRlclAuN6rTeQxlDhbCNndKIa325X3YMZEyZrf0tiCd-qQyje-W • • http://t3.gstatic.com/images?q=tbn:ANd9GcSYpoJbiDU0cUb5UbTwfKR6IHs9I60yQg5t2HNFH3TLXVh9d190Xg Určení funkce proteinu •Nezavrhujte jednoduchá řešení •7 • • Jakou funkci má tento protein? http://t1.gstatic.com/images?q=tbn:ANd9GcReA1JSm-oUne8pDujIfFqLmjsQx3WhY2uqand4GzROxN015EPE •Taq DNA polymerase • Predikce funkce proteinu •Nutno znát sekvenci •Databáze •Sekvenace • •Lépe znát strukturu (2D, 3D) •Databáze •Určení 2D struktury viz. předchozí blok •Určení 3D struktury viz. následující blok •8 Databáze strukturních a funkčních motivů oNeanotované, nerevidované – „slepé“ přebírání dat oAnotované, revidované – probíhá kontrola vkládaných dat • •Obsahují různé informace – sekvenční, strukturní, odkazy na experimentální data,… •Slouží jako zdroj informací pro nadstavbové programy. •9 •Často navzájem provázané. Např.: •UniProtKB – kombinovaná proteinová databáze, vč. biologických dat •Pfam – odvozená z UniProtKB •KEGG – složená databáze obsahující systémové, genomické a chemické informace •CDD – proteinové domény a další data •… •10 Databáze strukturních a funkčních motivů UniProt http://www.uniprot.org/ •Kombinace několika databází •Vyhledávání pomocí klíčových slov i pomocí sekvence •11 http://www.uniprot.org/images/logo.gif •SHLSQPWPITCFADRPTPRRSSPDASGQTMHSVFVVHVPYPVVFLKPAHLTPQWYRHPIPVNPVVRQPHLPVLYPAPNAGHTPAHSRQGDAALQPLFS VPQTVNPTGPVIHGDVAKQKPDTGQSWALNPYCTENWRRILRISRNSHGQRMPLTTLLQKTSGRNATLITKNSDQNTTTSIVSESSMTISACCHSAILR NN •12 Úloha ØVyhledejte homologní proteiny k následující sekvenci pomocí Blastu na serveru UniProt. Pokuste se na základě výsledku určit funkci tohoto proteinu. • •13 UniProt - New style • •14 CDD (conserved domain database) •http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml •Doména – část proteinu s vlastní aktivitou nebo strukturní funkcí (více v bloku o 3D a 4D struktuře proteinů) •Domény často obsahují sekvenční motiv, který můžeme nalézt u více proteinů s určitou funkcí – konzervované domény •15 CDD zdroje Abbreviation Database Name Description SMART Simple ModularArchitecture ResearchTool SMART is a web tool for the identification and annotation of protein domains, and provides a platform for the comparative study of complex domain architectures in genes and proteins. SMART is maintained by Chris Ponting, Peer Bork and colleagues, mainly at the EMBL Heidelberg. CDD contains a large fraction of the SMART collection. Pfam Protein families Pfam is a large collection of multiple sequence alignments and hidden Markov models covering many common protein domains and families. Pfam is maintained by Alex Bateman and colleagues, mainly at the Wellcome Trust Sanger Institute. CDD contains a large fraction of the Pfam collection. COGs Clusters of OrthologousGroups of proteins COGs is an NCBI-curated protein classification resource. Sequence alignments corresponding to COGs are created automatically from constituent sequences and have not been validated manually when imported into CDD. TIGRFAM The Institute forGenomic Research's database of proteinfamilies TIGRFAM, a research project of the J. Craig Venter Institute, is a collection of manually curated protein families from The Institute for Genomic Research and consists of hidden Markov models (HMMs), multiple sequence alignments, Gene Ontology (GO) terminology, cross-references to related models in TIGRFAM and other databases, and pointers to literature. PRK PRotein K(c)lusters Protein Clusters is an NCBI collection of related protein sequences (clusters) consisting of Reference Sequence proteins encoded by complete prokaryotic and chloroplast plasmids and genomes. It includes both curated and non-curated (automatically generated) clusters. •16 • CD search - NCBI •17 Možnost hledání záznamů v CDD dle klíčového slova nebo identifikace konzervované domény v zadané sekvenci (CDS) http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi Úloha ØVyhledejte pomocí nástroje CD search (NCBI) konzervované domény následujícího proteinu. •18 Sekvence: PEVRSSTQSESGMSQWMGKILSIRGAGLIIGVFGLCALIAATSVTLPPEQQLIVAFVCVVIFFIVGHKPSRRSQIFLEVLSGLVSLRYLTWRLTETLSF DTWLQGLLGTMLLVAELYALMMLFLSYFQTIAPLHRAPLPLPPNPDEWPTVDIFVPTYNEELSIVRLTVLGSLGIDWPPEKVRVHILDDGRRPEFAAFA AECGANYIARPTNEHAKAGNLNYAIGHTDGDYILIFDCDHVPTRAFLQLTMGWMVEDPKIALMQTPHHFYSPDPFQRNLSAGYRTPPEGNLFYGVVQDG NDFWDATFFCGSCAILRRTAIEQIGGFATQTVTEDAHTALKMQRLGWSTAYLRIPLAGGLATERLILHIGQRVRWARGMLQIFRIDNPLFGRGLSWGQR LCYLSAMTSFLFAVPRVIFLSSPLAFLFFGQNIIAASPLALLAYAIPHMFHAVGTASKINKGWRYSFWSEVYETTMALFLVRVTIVTLLSPSRGKFNVT DKGGLLEKGYFDLGAVYPNIILGLIMFGGLARGVYELSFGHLDQIAERAYLLNSAWAMLSLIIILAAIAVGRETQQKRNSHRIPATIPVEVANADGSII VTGVTEDLSMGGAAVKMSWPAKLSGPTPVYIRTVLDGEELILPARIIRAGNGRGIFIWTIDNLQQEFSVIRLVFGRADAWVDWGNYKADRPLLSLMDMV LSVKGLFRSSGDIVHRSSPTKPSAGNALSDDTNNPSRKERVLKGTVKMVSLLALLTFASSAQAASAPRAVAAKAPAHQPEASDLPPLPALLPATSGAAQ AGSGDAGADGPGSPTGQPLAADSADALVENAENTSDTATVHNYTLKDLGAAGSITMRGLAPLQGIEFGIPSDQLVTSARLVLSGSMSPNLRPETNSVTM TLNEQYIGTLRPDPAHPTFGPMSFEINPIFFVSGNRLNFNFASGSKGCSDITNDTLWATISQNSQLQITTIALPPRRLLSRLPQPFYDKNVRQHVTVPM VLAQTYDPQILKSAGILASWFGKQTDFLGVTFPVSSTIPQSGNAILIGVADELPTSFGRPQVNGPAVLELPNPSDANATILVVTGRDRDEVITASKGIA FASAPLPTDSHMDVAPVDIAPRKPNDAPSFIAMDHPVRFGDLVTASKLQGTGFTSGVLSVPFRIPPDLYTWRNRPYKMQVRFRSPAGEAKDVEKSRLDV GINEVYLHSYPLRETHGLIGAVLQGVGLARPASGMQVHDLDVPPWTVFGQDQLNFYFDAMPLARGICQSGAANNAFHLGLDPDSTIDFSRAHHIAQMPN LAYMATVGFPFTTYADLSQTAVVLPEHPNAATVGAYLDLMGFMGAATWYPVAGVDIVSADHVSDVADRNLLVISTLATSGEIAPLLSRSSYEVADGHLR TVSHASALDNAIKAVDDPLTAFRDRDSKPQDVDTPLTGGVGAMIEAESPLTAGRTVLALLSSDGAGLNNLLQMLGERKKQANIQGDLVVAHGEDLSSYR TSPVYTIGTLPLWLWPDWYMHNRPVRVLLVGLLGCILIVSVLARALARHAARRFKQLEDERRKS • •19 •Conserved domain search (CDS) CDART •(Conserved domain architecture retrieval tool) •http://www.ncbi.nlm.nih.gov/Structure/lexington/lexington.cgi •Nevyhledává pouze izolované domény, ale zohledňuje jejich kombinace a vzájemná umístění v jednom proteinovém řetězci. •20 Úloha ØV následujícím proteinu byla zjištěna kombinace rhodanasové a ankyrinové domény. Zjistěte, zda je tento případ unikátní a v jakých jiných kombinacích se tyto domény v přírodě vyskytují. Použijte aplikaci CDART. •21 Sekvence: MNTRSFHRIDVHKARELLQRPDTVLLDCRHPSDFRAGHIAGASPLGDYNADDHVLNIAKHRPVLIYCYHG NASQMRAQLFADFGFAEVYSLDGGYEAWRKVHTPANSQLTEALQCWLMAQEFPAADIHARTRDGVTPLMRAAGEGDPARVAELLAAGADPHQRNNDGNQ ALWFACVSENLDTLDLLVAVGAHLNHQNDNGATCLMYAASA GKTAVVERLLAFGADRSLLSLDDFTALDMAANLECLNLLRETPRRIKAVT •Conserved domain architecture retrieval tool (CDART) • •22 PFAM http://pfam.xfam.org/ •Databáze proteinových rodin, vytvořená na základě Multiple sequence alignmentů (MSA) a Skrytých Markovových modelů (HMM) •23 Úloha ØPokuste se určit funkci následujícího proteinu pomocí databáze Pfam. Ø Ø Ø ØOdhadněte, které z vyznačených aminokyselin mají vliv na správnou funkci či strukturu proteinu. •24 Sekvence: MRYIRLCIISLLATLPLAVHASPQPLEQIKQSESQLSGRVGMIEMDLASGRTLTAWRADERFPMMSTFKVVLCGAMLARVDAGDKQLERKIHYRQQDLV DYSPVSEKHLADGMTVGELCAAAITMSDNSAANLLLATVGGPAGLTAFLRQIGDNVTRLDRWETELNEALPGDARDTTTPASMAATLRKLLTSQRLSAR SQRQLLQWMVDDRVAGPLIRSVLPAGWFIADKTGASKRGARGIVALLGPNNKAERIVVIYLRDTPASMAERNQQIAGIGAAL IEHWQR PFAM http://pfam.xfam.org/ • •25 V kombinaci je síla… • •26 http://t3.gstatic.com/images?q=tbn:ANd9GcT5eEDrWzTrjEfAXTuGjHAuOMrans9E4zxsHRyqYF4JBJq0F_cNMQ •Kombinovaný nástroj pro analýzu proteinové sekvence pomocí různých databází •14 aplikací v jednom běhu •27 InterProScan http://www.ebi.ac.uk/interpro/search/sequence-search InterProScan • •28 Úloha ØPokuste se určit funkci následujícího proteinu pomocí serveru InterProScan. Ø Ø Ø •29 Sekvence: MTELKNDRYLRALLRQPVDVTPVWMMRQAGRYLPEYKATRAQAGDFMSLCKNAELACEVTLQPLRRYPLDAAILFSDILTIPDAMGLGLYFEAGEGPRF TAPVTCKADVDKLPIPDPEDELGYVMNAVRTIRRELKGEVPLIGFSGSPWTLATYMVEGGSSKAFTVIKKMMYADPQALHLLLDKLAKSVTLYLNAQIK AGAQSVMIFDTWGGVLTGRDYQQFSLYYMHKIVDGLLRENDGRRVPVTLFTKGGGQWLEAMAETGCDALGLDWTTDIADARRRVGHKVALQGNMDPSML YAPPARIEDEVATILAGFGQGEGHVFNLGHGIHQDVPPEHAGAFVEAVHRLSA QYHN • •30 • •31 http://themedicalbiochemistrypage.org/images/urod-reaction.jpg Úloha http://upload.wikimedia.org/wikipedia/commons/f/fb/5-Methyltetrahydrofolate.png •5-methyltetrahydrofolát PROPSEARCH – Když selže alignment •http://abcis.cbs.cnrs.fr/propsearch/ • •Neprovádí alignment •Porovnává složení (zastoupení) aminokyselin, molekulovou hmotnost, izoelektrický bod, atd. > celkem 144 parametrů •Snaha zařadit protein do funkční rodiny •Další studium sekvence nutné ! •32 Úloha ØNásledující sekvenci hypotetického proteinu analyzujte pomocí serveru Propsearch. Ø Ø Ø •33 Sekvence: MASPSILKKYGKYFEYCPLEERMIELAKKGEIADAMLLFEKEKPSEFVYKGDAIEKRLRNIYLSTRLGVKAKINFNDYVIPRDLRWMLDIYESYLNMGE NKVFLILGGELRYLIDFFESYLQFKGFYLLVVKEAKDLLRFRNTCHYDAIIFSDSSILEYQNVDELKNLFNSLETTLKVHNRKNSVKVLLSPALPKAIM SSKPYKVLEQFFKEKGIEMEGILPYQLNADDKLLPPHFHNSEMEKSKEYRELESKTKVYIQEFLKKANMNDENEGNDNQKNTN • •34 SMART http://smart.embl-heidelberg.de/ •Analýza zastoupení proteinových domén •Prohledávání dle sekvencí, domén, taxonů •35 STRING http://string-db.org Funkční vazby různých proteinů Na základě výskytu v genomu, zapojení do metabolických drah, textového hledání,… SMART Úloha ØPomocí serveru SMART analyzujte domény v následující sekvenci a následně pomocí serveru STRING prozkoumejte pravděpodobné zapojení v metabolismu. Ø Ø Ø •36 Sekvence: MSIEHILIIDDDPHILALLSEILGARNFSVSSAPGVKQAIKQISNCPFDLIISDMNMPDGSGLDIIQYTKQHRPQTPILVITAFGTIQNAVEAMRFGAF NYLTKPFSPDALFTLIAKAEELQALQQDNLFLQSQGSSISHPLIAESPSMKQLLDKARRAANSSANIFVHGESGCGKENLSFFIHKHSPRSTKPYIKVN CAAIPDTLLESEFFGHEKGAFTGATTKKVGRFELAHQGTLLLDEITEIPIHLQAKLLRAIQEQEFEHIGGIKTLPVNIRFLATSNRDLEEAIETKVLRQ DLYYRLSVISLHIPPLRDRKEDILPLAHYYLEKFCKMNNKPPKTLSLEAQRNLLDYSWPGNVR ELSNVLERTVILENDPAITPSMLALL • •37 • •38 Porovnání predikce a experimentu •Predikce: +Rychlá (sekundy-hodiny), levná/dostupná (Freeware) +Spolehlivá pro známé (!) proteiny a pro proteiny s vysokou homologií –Pouze kvalitativní –Málo spolehlivá pro neznámé proteiny –Nepoužitelná pro unikátní případy •Experiment: +Teoreticky použitelný pro libovolný protein –Finančně (i miliony Kč) a časově náročný (minuty-hodiny + příprava vzorku = týdny až roky) •39 Rady do života •O daném proteinu získej maximum informací • •Kombinuj různé predikční programy a přístupy • •Kriticky kontroluj SW výstupy •40