8. Bioinformatika a proteiny I David Potěšil Proteomika, Podzim 2019 Core Facility – Proteomics CEITEC-MU Masaryk University Kamenice 5, A26 telefon: +420 54949 8426 email: david.potesil@ceitec.muni.cz 2 Obsah přednášky 1.Co je to bioinformatika? 2.Taxonomie a fylogeneze 3.Evoluce proteinů, proteinové domény 4.BLAST, srovnávání sekvencí 1. Co je to bioinformatika? 3 1. Co je to bioinformatika? Co představuje „bioinformatika“? •vícero názorů...1 •Bioinformatics is conceptualizing biology in terms of macromolecules (in the sense of physical-chemistry) and, then, applying “informatics” techniques (derived from disciplines such as applied math, computer science, and statistics) to understand and organize the information associated with these molecules, on a large scale. (Luscombe, 2001, p. 346) •The mathematical, statistical and computing methods that aim to solve biological problems using DNA and amino acid sequences and related information. (Tekaia, n.d.) •Bioinformatics is the field of science in which biology, computer science, and information technology merge to form a single discipline. The ultimate goal of the field is to enable the discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be discerned. (National Center for Biotechnology Information, n.d.) •Computational biology is not a “field”, but an “approach” involving the use of computers to study biological processes and hence it is an area as diverse as biology itself. (Schulte, n.d.) •Biomedical informatics is the science underlying the acquisition, maintenance, retrieval and application of biomedical knowledge and information to improve patient care, medical education and health sciences research. (Friedman, n.d.) 4 1. Fenstermacher, D. Introduction to bioinformatics. Journal of the American Society for Information Science and Technology 56, 440–446 (2005). Na otázku „co představuje bioinformatika?“ je více názorů jak je vidět z uvedených citací. Je to disciplína s relativně velkým přesahem, díky kterému je využívána pro různé aplikace. 1. Co je to bioinformatika? Co představuje „bioinformatika“? (2) •„The enormous amount of data gathered by biologists – and the need to interpret it – requires tools that are in the realm of computer science. Thus, bioinformatics.“ 2 5 2. Cohen, J. Bioinformatics - an introduction for computer scientists. ACM Comput. Surv. 36, 122–158 (2004). corntruck_615 •studium a aplikace metod pro uchování, zpětné vyvolání a analýzu biologických dat •sekvence nukleových kyselin (NK) a proteinů •proteinové struktury •funkce proteinů •metabolické a regulační dráhy (pathways) •molekulární interakce (např. protein-protein, protein-NK, NK-NK) Osobně mi přijde adekvátní tato definice a to, že bioinformatika nám prostě pomáhá zpracovat obrovské množství dat, na která v poslední době narážíme v mnoha vědních oborech včetně např. uvedené biologie. Konkrétněji zahrnuje studium a aplikaci metod více či méně automatizovaných pro uchování, zpětné vyvolání a analýzy různých typů biologických dat jako jsou sekvence nukleových kyselin a proteinů, proteinové struktury, proteinové funkce a další. 1. Co je to bioinformatika? Příbuzné disciplíny •data mining •analýza dat z různých perspektiv a „dolování“ shrnujících (zobecněných) informací •matematická a teoretická biologie •matematická prezentace, zpracování a modelování biol. procesů •lékařská informatika •tvorba databází medicínských informací a jejich další využití •biostatistika •aplikace a vývoj statistických metod pro řešení biologických a klinických problémů • •častý překryv s těmito i s dalšími obory (záleží na konkrétní aplikaci) 6 Vzhledem k širokému použití se často více či méně překrývá a doplňuje s těmito disciplnínami: data mining, matematická a teoretická biologie, lékařská informatika, biostatistika a další. 1. Co je to bioinformatika? Příklad využití bioinformatických nástrojů •protein-protein interakce založené na datech z hmotnostní spektrometrie spojené s kapalinovou chromatografií (LC-MS(/MS) analýza peptidů) 7 ... Figure-1-hplc-chromatogram-of-BSA-tryptic-peptides http://mippi.ornl.gov/images/palustris_network.png protein-protein interakční síť ? bioinformat. nástroje („black box“) „standardní“ nastavení závěry z analýze této sítě? kvant. informace Jedním z příkladů, jak lze využít bioinformatiku a celou paletu bioinformatických nástrojů je studium protein-protein interakcí s využitím LC-MS(/MS) dat získaných analýzou peptidových směsí s pomocí kapalinové chromatografie s hmotnostní spektrometrií. LC-MS(/MS) data se sestávají z LC-MS záznamů obsahující informaci o kvantitě jednotlivých složek a sady MS/MS spekter, které nám slouží k identifikaci v analyzované směsi přítomných peptidů a na konci proteinů příomných v původním vzorku. Za vhodně nastavených podmínek stačí „pouze“ nahrát tato data do sady bioinformatických nástrojů a člověk je schopen relativně snadno získat „nějaký“ výstup. Optimálním výstupem z analýzy takového typu dat je protein-protein interakční síť, která nám další analýzou poskytne obecnější informace pro naše další studium. Uvedený „black box“ však skrývá velké množství individuálních nastavení, která do značné míry ovlivní výstup celého zpracování. Bez použití poloautomatických bioinformatických nástrojů bychom podobný úkol pravděpodobně za celý život nezvládli vyřešit. Je tedy nutné bioinformatické nástroje využít. Je však také nutné znát do patřičné hloubky význam jednotlivých nastavení a neponechávat vše na „standardním“ nastavení, které autor programu zamýšlel třebas i pro úplně jiiný účel. S velkými možnostmi bioinformatických nástrojů tak přichází na řadu i velká zodpovědnost jejich uživatelů jak a na co je budou využívat. Při nesprávě zvoleném nastavení lze snadno skončit v lepším případě s na první pohled nesmyslnými výsledky. V horším případě budou výsledky dávat na oko smysl, ale podstatná část skutečných výsledků nám zůstane díky nevhodnému nastavení skryta či podána jinak a interpretace pak bude chybná. 1. Co je to bioinformatika? 8 ... Figure-1-hplc-chromatogram-of-BSA-tryptic-peptides http://mippi.ornl.gov/images/palustris_network.png protein-protein interakční síť bioinformat. nástroje („white box“) vҰstupům přizpůsobené nastavení Příklad využití bioinformatických nástrojů •protein-protein interakce založené na datech z hmotnostní spektrometrie spojené s kapalinovou chromatografií (LC-MS(/MS) analýza peptidů) analýza sítě: úloha proteinu A z jeho interakcí kvant. informace Naproti tomu, pokud si dáme tu práci s pochopením jednotlivých nastavení a z „black box“ se nám stane čitelný „white box“, budou výsledky odpovídat provedení experimentu a výsledky analýz, potažmo výstupy analýzy získané interakční sítě budou platné a mohou posunout nás, či naše kolegy kupředu. 2. Evoluce proteinů, proteinové domény 9 V bioinformatice se zaměřením na proteinu je nutné si uvědomit souvislosti spojené s evolucí proteinů a proteinových domén a proto se jim nyní budeme věnovat. 10 Jedna z prvních aplikací bioinformatiky – srovnání primárních sekvencí (sekvenční homologie) • •BLAST – Basic Local Alignment Search Tool (dále podrobněji) • •proč srovnávat primární sekvence? •podobnost v primární sekvenci proteinů Þ podobnost ve struktuře proteinů Þ podobnost ve funkci proteinů... Není tak jednoduché... 2. Evoluce proteinů, proteinové domény Jako jedna z prvních aplikací bioinformatiky se uvádí srovnání primárních sekvencí proteinů či nukleových kyselin. Důvodem proč proteiny či nukl. kyseliny srovnávat je převážně následující dedukce: podonost na úrovni primární sekvence povede k podobnosti na strukturní úrovni (sekundární a terciární struktura); a podobná struktura nám následně bude značit podobnou funkci původně porovnávaích proteinů, respektive jejich primárních sekvencí. Jak už to tak ale bývá, situace není tak jednoduchá, jak by se z této dedukce zdálo. 11 Proteinová evoluce a proteinové domény •proteinová doména = nezávislá strukturní, funkční a evoluční jednotka •2/3 proteinů jednobuněčných a 80% proteinů mnohobuněčných organizmů je složených z více domén •vznik „nových“ proteinů (proteinová, molekulární evoluce) •kombinace, duplikace, změna stávajících domén (na úrovni genů) •kombinace/duplikace/změna domén Þ často odlišná funkce proteinu •změna struktury, spolupráce se sousedními doménami... •jednodoménové proteiny, stejná doména: ~67% šance na podobnou funkci •dvoudoménový protein, 1 stejná doména: ~35% šance na podobnou funkci •v průběhu evoluce dále nastávaly mutace v duplikovaných či kombinovaných doménách, často se zachováním strukturní podobnosti Þ sekvenčně odlišné, strukturně podobné 2. Evoluce proteinů, proteinové domény Prvně je důležité uvědomit, že základní nezávislou strukturní, funkční a evoluční jednoutkou jsou proteinové domény. Přičemž většina proteinů je složena z více než jedné domény. „Nový“ protein tak může jednoduše vzniknout pohou kombinací, duplikací či divergencí původně samostatných či jinak použitých domén. Tímto také často dochází ke změně ve funkci takto vzniklého proteinu oproti funkci proteinu původního. Nad tyto změny ve velkém měřítku na úrovni celých proteinových domén pak v průbehu proteinové evoluce docházelo i k pozvolným změnám formou mutací, které ne nutně vedli ke změně funkčnosti proteinu, ale naopak takto postupně vznikali sice sekvenčně odlišné, zato strukturně i funkčně podobně proteiny. 12 Proteinová evoluce a proteinové domény – příklad • P K Pr C E přidání P K P Pr inzerce Pr K P C Pr P C Pr K P C K duplikace delece 2× inzerce Pr P C E E K K prarodiče (ancestors) proteinová evoluce v čase a událostech 2. Evoluce proteinů, proteinové domény Zde je proteinová evoluce v čase na příkladu několikadoménového proteinu. Jak je vidět, je zde řada možností, jak se může protein v čase vyvíjet z pohledu jeho domén. Mimo uvedené změny v doménovém složení pak nastávají také změny způsobené mutací. Doménové superrodiny a rodiny (superfamilies, families) •proteinové domény je možné klastrovat na základě podobnosti •podobnost možná na více úrovních •sekvenční podobnost (primární struktura proteinu/domény) •strukturní podobnost (sekundární a terciární struktura proteinu/domény) •funkční podobnost (nezávislá na sekvenční a strukturní podobnosti) • •doménové rodiny a superrodiny a podobnost •sekvenční podobnost Þ doménová rodina •evolučně mladší (mutace v krátké době Þ sekv. podobnost zachována) •strukturní, funkční podobnost Þ doménová superrodina •stejní proteinoví prarodiče, evolučně starší (dlouhodobá mutace sekvence Þ sekv. podobnost nemusí být zachována) 13 2. Evoluce proteinů, proteinové domény Domény lze také klastrovat do takzvaných rodin a superrodin. Klastrování probíhá na základě podobnosti domén, přičemž tato podobnost se může zvažovat z několika hledisek: sekvenční podobnost, strukturní podobnost a podobnost funkční. V případě, že jsou domény podobné na úrovni sekvence, jedná se o domény, které se nezávisle vyvíjí relativně krátkou dobu – jsou evolučně mladší. Takto podobné domény řadíme do doménové rodiny. Naproti tomu do doménové superrodiny patří i proteiny, které nemusí vykazovat sekvenční podobnost, ale jsou si podobné strukturně a funkčně. Proteiny v superrodině obsahují i ty evolučně starší. Hlavní zdroje pro klasifikaci domén •klasifikace domén do superrodin a rodin • •CATH (Class, Architecture, Topology, Homologous Superfamily) •http://www.cathdb.info/ • •SCOP (Structural Classification Of Proteins) •http://scop.mrc-lmb.cam.ac.uk/scop/ • •čerpají známé proteinové sekvence z Protein Data Bank (PDB) •zpracovávanou jednotkou je proteinová doména 14 2. Evoluce proteinů, proteinové domény Zde jsou uvedeny hlavní zdroje s informacemi o klasifikaci proteinových domén. Jako zdrojová data pro klastrování domén používají známé struktury z PDB. 15 2. Evoluce proteinů, proteinové domény Proteinové rodiny a superrodiny •obdobně jako u proteinových domén •častější klastrování na základě „sekvenční podobnosti“ (převážně multiple sequence alignment algoritmy) Þ sequence signatures •využití primárních sekvencí proteinů ve zvolené databázi •při klastrování je možno zvažovat různé části proteinu •funkční místa proteinu •funkční konzervativní motivy •funkční domény •strukturní domény • •proteinová rodina = „sekvenčně podobné“ proteiny •proteinová superrodina = evolučně spjaté proteinové rodiny (není nutná sekvenční podobnost) – souhrn proteinů v evolučně spjatých prot. rodinách Whole proteins can be clustered in a similar way like protein domains. Obdobně jako proteinové domény lze klastrovat celé proteiny. Oproti doménám se u proteinů nejčastěji využívá podobnosti primárních struktur dle zvolené proteinové databáze. Mimo klastrování proteinů dle celkové proteinové sekvence lze pro klastrování použít jen část zahrnující funkční místo, či doménu. A obdobně jako u domén i zde jsou rozděleny rodiny a superrodiny proteinů což i zde je spojeno s podobností na sekvenční úrovni - proteinovou rodinu tvoří sekvenčně podobné proteiny, do proteinové superrodiny patří také proteiny sekvenčně nepodobné, ale evolučně spjaté, s podobnou funkcí. Proteinové rodiny a superrodiny – online zdroje •různé databáze proteinových rodin a superrodin (viz. dále) A.používají různé proteinové databáze (primární sekvence) pro klasifikaci •UniProtKB (SwissProt a TrEMBL) •NCBI RefSeq •proteinové databáze pro vybrané kompletně sekvenované organizmy •... • B.používají různé části proteinu pro predikci rodin/superrodin • •integrální zdroje •sbírají informace z více zdrojů a prezentují na jediném místě •InterPro (http://www.ebi.ac.uk/interpro/) – příklad P12345, P04637 •CDD (Conserved Domain Database) 16 2. Evoluce proteinů, proteinové domény U online zdrojů informací o proteinových rodinách a superrodinách je nutno zmínit souvislost s proteinovou databází, kterou zdroje používají pro klastrování. Stejně tak různé zdroje mohou za účelem klastrování používat jiné proteinové části. Optimální zdrojen informací jsou pak integrální zdroje, které shrnují informace z více míst. Příkladem je databáze InterPro 1. Chothia, C. & Gough, J. Genomic and structural aspects of protein evolution. Biochemical Journal 419, 15 (2009). Zde je číselně již neaktuální seznam několika vybraných zdrojů informací o proteinových rodinách s vyznačením subjektivně nejvíce používaných zdrojů. Všimněte si také různých databází, klastrovacích metod a informačních jednotek ke klastrování používaných. Co získám znalostí proteinové rodiny/superrodiny? •předpokládaná funkce proteinu •pokud není protein sám o sobě již detailně prostudován... •navazující GO (gene ontology) termíny – viz. příští přednáška • •klasifikace v systému proteinových rodin/superrodin •návaznosti na jiné rodiny, metabolické dráhy atd. • •důležité např. při studiu seznamu proteinů/genů se změněnou hladinou/expresí •datamining •proteiny většinou nepůsobí samostatně, paralelní dráhy, atd. •případně lze pozorovat změny u proteinů následujících/předcházejících v kaskádě změn v reakci na konkrétní stimul 18 2. Evoluce proteinů, proteinové domény A co je vlastně zajímavé na informaci o proteinové rodině, ke které patří můj protein? Na základě příslušnosti do určité proteinové rodiny je možné předpokládat např. jeho funkci i přes to, že ještě nebyla experimentálně ověřena. Na základě sekvenční podobnosti tak lze přiřadit informace z již lépe prostudovaných proteinů a tyto použít při studiu „mého“ proteinu. Proteinové rodiny často kooperují s jinými rodinami, lze tedy získat i informace o souvisejících proteinových rodinách z již známých informací. Obecně lze tyto informace ve velké míře použít např. při dalším studiu seznamu proteinů se změněnou expresí po aplikaci stimulující látky. Zde je často patrný sjednocující povaha informací o proteinových rodinách a účasti proteinů v metabolických drahách atd. Proteiny totiž většinou neoperují samostantě a lze tak často pozorovat množství proteinů spolu více či méně souvisejících. 3. Taxonomie a fylogeneze 19 To by bylo k evoluci proteinů. O evoluci se ale častěji mluví na úrovni celých organizmů, o které si nyní také něco řekneme. Taxonomie •taxon •skupina žijících či již vymřelých organizmů se společnými znaky, jimiž se odlišují od jiných taxonů (organizmů v těchto taxonech) •taxonomické dělení •při objevení nového organizmu •manuální třídění dle společných a jedinečných znaků •snaha o shodu s fylogenezí – evolučním vývojem organizmu •základní taxonomické kategorie – viz. obr. • •http://www.ncbi.nlm.nih.gov/taxonomy 20 3. Taxonomie a fylogeneze Soubor:Biological classification L Pengo cs.svg wikipedie Taxonomie se zabývá klasifikací organizmů. Hovoříme zde o tzv. taxonu, což je skupina žijících či již vymřelých organizmů se společnými znaky, jimiž se odlišují od jiných taxonů, respektive organizmů v těchto jiných taxonech. V praxi se každý nově objevený organismus zařadí do již existujících taxonů, případně se vytvoří taxon nový. Jedná se o manuální zařazení dle společních a jediněčných znaků. Je přitom kladen důraz na shodu s evolučním vývojem u daného organizmu. Základní taxonomické kategorie jsou uvedené na obrázku vpravo. Odkaz je na online zdroj, který shraňuje aktuální informace o manuálním dělení známých organizmů, který obsahuje přibližně 10% známých organizmů – více zmíněno dále. Fylogeneze (fylogenetický vývoj) •evoluční vztah organizmů •využití morfologických dat a v poslední době hlavně výsledky molekulárního sekvenování Þ evoluční vývoj organizmů Þ fylogenetický strom 21 File:Haeckel arbol bn.png fylogenetický strom - Haeckel (1866) 3. Taxonomie a fylogeneze Fylogeneze je, jak bylo naznačeno na předchozím obrázku, evoluční vztah organizmů. Při odhadování evolučního vývoje organizmů se využívají morfologická data – tj. jak organizmus vypadá – v poslední se stále častěji využívá i metod molekulárního sekvenování. Z těchto dostupných dat se pak pokoušíme sestavit zmíněný evoluční vývoj a tzv. fylogenetický strom. Jak je ukázáno na obrázku, tyto snahy sahají až do 19. století, takže se nejedná o žádnou novinku. 22 Fylogenetické stromy •grafické znázornění příbuzenských vztahů mezi různými taxonomickými jednotkami / jednotlivými druhy / geny •tvorba fylogenetických stromů •definování „podobnosti“ mezi např. taxonomickými jednotkami •morfologické vlastnosti – vzdálenost dána důležitostí morf. znaků •sekvenční podobnost na úrovni genomů (i proteinů) •podobnější tax. jednotky jsou si ve fylogenetickém stromu blíže •různé zobrazení fyl. stromů: nezakořeněný (A), zakořeněný (B), aj. http://www.funpecrp.com.br/gmr/year2005/vol3-4/images/wob09fig1.jpg 3. Taxonomie a fylogeneze Fylogenetické stromy graficky znázorňují zmíněné evoluční vztahy mezi jednotlivými taxonomickými jednotkami. Pro exaktní tvorbu fylogenetických stromů je nezbytné definovat pravidla pro jejich tvorbu, kde je kritická definice „podobnosti“ mezi např. taxonomickými jednotkami. Těmi mohou být např. definované důležitosti určitých morfologických znaků případně sekvenční podobnost na úrovni genomu či proteinů. Fylogenetický strom lze navíc vizualizovat odlišnými způsoby. Nejdčastějšími jsou nezakořeněný a zakořenený strom. 23 Fylogenetické stromy (2) – příklad komplexnosti •tvorba fylogenetických stromů •možnosti pro případ 4 organizmů Þ celkem 3 (nezakořeněný), resp. 15 (zakořeněný) Fig. 5.1 Fig. 5.1 •možnosti pro případ 10 organizmů – celkem ~2 resp. ~34 M... Pouze jeden je správný... Þ využití morfologických, sekvenčních či jiných informací 3. Taxonomie a fylogeneze Pro lepší představu jak složité je poskládat všechny známé organizmy do fylogenetického stromu na základě dostupných informací zde uvednu příklad s pouze 4-mi organizmy. Počet kombinací nezakořeněného stromu jsou 3, u zakořeněného je to již 15. V případě 10 organizmů se bude jednat již o přibližně 2 milióny kombinací nezakořeněného stromu a 34 miliónů zakořeněného fylogenetického stromu. Fakticky je však pouze jedna z možností ta spravná, nebo alespoň nejvíce se přibližující skutečnosti. 24 Fylogenetické stromy (3) – vybrané nástroje •iTOL – interactive Tree Of Life (http://itol.embl.de/index.shtml) •automatizované zobrazení fylogenetického stromu – sekvenční data •pro organizmy se známým genomem, případně vlastní data •struktura nemusí nutně odpovídat evoluci – nepřesná data, gen. anomálie (např. horizontální přenos genů) • •phyloT (http://phylot.biobyte.de/) •pracuje s taxonomickým zařazením dle NCBI (http://www.ncbi.nlm.nih.gov/taxonomy/) •manuálně editované řazení organizmů, které jsou přítomné ve veřejných sekvenčních databázích (~10% z celkového počtu známých organizmů...) •export výsledků; zobrazení v iTOL s obdobnými možnostmi zobrazení 3. Taxonomie a fylogeneze Zde jsou pak uvedeny nástroje, které nám dokáží fylogenetické stromy zkonstruovat, ať už z veřejně dostupných nebo našich vlastních dat. iTOL využívá čistě sekvenční data. phzloT pak pracuje čistě z taxonomickým řazením jak je uvedeno v NCBI databázi (viz. odkaz). Výhodou je možnost exportu dat z provedeného srovnání a jeho vizualizace v nástroji iTOL. 25 Fylogenetická podobnost – organizmy s nezveřejněným genomem •použití dostupných informací pro evolučně co nejbližší organizmy •příklad 1 – identifikace proteinů pomocí hmotnostní spektrometrie (MS) •běžně se vychází ze známých prot. sekvencí (znám genom) •co když organizmus nemá zveřejněný genom? •použití proteinové databáze pro evolučně blízký organizmus •A) databázové hledání přímo proti této databázi •B) de novo sekvenace peptidů a BLAST de novo peptidů •například Trichinella spiralis versus Trichinella pseudospiralis •dříve T.pseudospiralis bez veřejně dostupného genomu/proteomu •využíván proteom pro T. spiralis •dnes už sekvenční informace pro oba organizmy... •jen další ukázka dynamiky celého odvětví!!! 3. Taxonomie a fylogeneze Organizmy s nezveřejněným genomem jsou pak ty, kde využíváme evolučních souvislostí na úrovni celých organizmů. Podobně jak bylo uvedeno u sekvenčně podobných, potažmo evolučně spjatých proteinů i zde lze analogicky očekávat podobně „vlastnosti“ evolučně spjatých organizmů. Můžeme tak u organizmu s nezveřejněným genomem využít genom evolučně co nejbližšího organizmu, který je navíc dobře popsán a např. proteiny, které bychom rádi studovali má dobře anotované (je u nich známa či je alespon předpokládaná funkce, participace v metabolických drahách atd.). Databázi pro evolučně podobný organizmu můžeme pak použít přímo pro databázové hledání MS/MS dat a nebo lze provést tzv. de novo identifikaci/sekvenaci a s takto určenými sekvencemi provést Blast s využitím proteinové databáze pro zmíněný evolučně co nejbližší organizmus. Konkrétním příkladem může být T.spiralis a T.pseudospiralis, kdy ještě nedávno nebyla sekvenční informace pro oba organizmy a tak se s výhodou používala jejich blízká evoluční podobnost... Nyní už mají oba známé genomy, takže tato starost téměř odpadá. Proto je důležité si informace ověřovat v momentě jejich potřeby, nespoléhat na situaci před několika lety!!! 26 Fylogenetická podobnost – organizmy s nezveřejněným genomem •příklad 2 – nedostačující anotace proteinů pro organizmus zájmu •genom/proteom znám, ale není známa funkce/popis daných proteinů •použití modelového organismu s lepší anotací proteinů a evolučně blízkého •BLAST jednotlivých proteinů vůči databázi model. organizmu •například N.tobaccum versus A.thaliana •zlepšení anotace proteinů tabáku tím, že provedeme BLAST jednotlivých tabákových proteinů proti A.thaliana databázi •nejlepší hit z A.thaliana se vezme pro anotaci tabákového proteinu •je možné použít i více modelových organizmů... 3. Taxonomie a fylogeneze 4. BLAST, srovnávání sekvencí 27 A nyní se budeme věnovat aplikaci BLAST, která se velmi často používá pro srovnávání nejen proteinových sekvencí. 28 4. BLAST, srovnání sekvencí Základní formáty proteinových sekvencí/databází •FASTA formát – hlavička specifická pro zdrojovou databázi, relativně málo informací; postačuje pro získání a další zpracování proteinové sekvence >sp|P04637|P53_HUMAN Cellular tumor antigen p53 OS=Homo sapiens GN=TP53 PE=1 SV=4 MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGP DEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAK SVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHE RCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNS SCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELP PGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPG GSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD •xml formát •komplexní forma s kompletní informací k danému proteinu ze zdrojové databáze •konkrétní forma specifická pro zdrojovou databázi – xml schéma •obsahuje např. kompletní taxonomii zdrojového organizmu; známé modifikace; výčet interakčních partnerů, označení v jiných databázích a jiné bioinformaticky (automaticky) zpracovatelné informace Na tomto místě je dobré zmínit nejběžnější formáty proteinových sekvencí či databází. Často se člověk setkává s FASTA formátem, který je jednoduchý textový formát obsahující „hlavičku“ začínající znakem „>“ a pak už jen konkrétní proteinovou sekvenci. Více sekvencí se uvádí za sebe na vlastní řádky FASTA souboru. Hlavička uvozující proteinovou sekvenci je pak specifická pro zdroj dané databáze. Na obrázku je např. uveden formát z UniProtKB databáze, kde je specifickým způsobem pomocí hraničních znaků („|“) a kódových označení (např. „OS“ označující zdrojový organizmus) uvedeno několik vybraných informací o daném proteinu jako jeho kódové označení v databázi (accession; P04637), název, organizmus ze kterého pochází atd. Vedle tohoto relativně jednoduchého textového formátu je dalším často používaným formátem XML formát, který obsahuje často kompletní známé informace o zvoleném proteinu v dané databázi, kde je jeho sekvence jen jednou z mnoha informací. Formát XML databáze má strukturu jako ostatní XML soubory (lze si jej představit jako různě rozvětvený strom informací strukturovaný dle logických souvislostí). XML soubor je také specifický pro zdroj databáze s tím rozdílem, že u XML formátu databáze je specifický přímo celý obsah databáze a jeho struktura. XML formáty mají zveřejněné tzv. XML schéma, které umožňuje informace v něm obsažené strojově vyhledat. 29 BLAST – Basic Local Alignment Search Tool •srovnání proteinových či nukleotidových sekvencí (většinou FASTA formát) •různé algoritmy dle vstupu (protein či nukleotid) a typu srovnání •nejběžnější algoritmy (pro proteiny) •blastp – protein-proteinová databáze •blastx – nukleotid (překlad na proteinovou sekvenci)-proteinová databáze •vybrané speciální algoritmy – k hledání vzdáleně příbuzných proteinů •PSI-BLAST – Position Specific Iteration BLAST •po blastp ze zvoleného počtu sekvencí vytvoří novou pozičně-specifickou skórovací matrici (PSSM), kterou použije v dalším hledání; tento postup je možno několikrát opakovat •DELTA-BLAST – obdoba PSI-BLAST; využívá předpřipravené PSSM dle konzervativních domén v NCBI databázi Þ rychlejší a citlivější 4. BLAST, srovnání sekvencí Co se týče BLAST jako takového, jedná se o proces srovnávání proteinových či nukleotidových sekvencí. Využívá rozdílných algoritmů dle vstupní sekvence a také dle typu srovnání. Mezi nejběžnější algoritmy patří blastp a blastx. Existují i speciální algoritmy jako je PSI-BLAST či DELTA-BLAST. 30 Základní kroky BLAST algoritmů 1.generování k-písmenných úseků – „slov“ (parametr word size) •proteiny – běžně K = 3; nukleotidy – běžně K = 11 2.prohledání každého „slova“ vůči cílové databázi a ponechání těch slov, kde se našla shoda překračující stanovené limitní skóre Þ high scoring words 3.hledání high scoring words z databáze; hledána úplná shoda – exact match 4.rozšíření exact match na obě strany původního k-písmenného slova a hledání high-scoring segment pairs (HSPs) pro každý exact match – rozšiřování do doby, dokud neklesá skóre pro původní exact match 5.zhodnocení statistické významnosti jednotlivých HSPs 6.spojení HSPs do delších úseků 7.výpočet expectation value (E) http://upload.wikimedia.org/wikipedia/commons/5/56/Query_word.jpg 4. BLAST, srovnání sekvencí Základní kroky BLAST algoritmů jsou následující: 1)ze zadaného proteinu se sestaví sada „slov“ postupným posunem čtecího rámce po zadané sekvenci. Velikost slova se volí dle typu sekvence i např. dle délky sekvence. 2)každé v prvním kroku vytvořené slovo se hledá ve zvolené databázi a ze všech možných se ponechají pouze ta, u kterých se našla „shoda“ překračující limitní skóre. Získáme tak sadu tzv. high scoring words 3)hledání high scoring words z databáze – hledá se úplna shoda (exact match) slova s dalšími sekvencemi přítomnými v databázi 4)všechny exact match se následně rozšiřují na obě dvě strany a hledají se high scoring segment pairs (HSPs); rozšiřování se provádí do doby, dokud neklesá skóre 5)následně se statisticky zhodnocují jednotlivé HSPs 6)HSPs se spojují se delších celků 7)posledním krokem je pak výpočet tzv. expectation value, závěrečného skóre. 31 Substituční skórovací matice pro výpočet skóre •matice „substitučních“ skóre pro jednotlivé AK, které se uvažují při srovnávání prvotních k-písmenných slov i při jejich rozšiřování a hledání HSPs •nejběžnější matice BLOSUM62 •skóre se odvíjí od četnosti aminokyselinové záměny v reálných proteinech jejichž identita je větší než 62% •+ hodnoty – častější substituce •- hodnoty – méně časté subst. •po diagonále největší skóre (62% ident. Þ nejčastější jev) •zaokrouhleno na celá čísla Protein Scores 4. BLAST, srovnání sekvencí Pro výpočet skóre se používá substituční matice. Matice obsahuje celočíselné hodnoty, které znamenají skóre pro záměnu jedné aminokyseliny za jinou. Tato skóre se uvažují při výpočtu prvotního pro high scoring words a následně i při jejich rozšiřování na HSPs. Nejběžnější je matice BLOSUM62. Zde se skóre odvíjí od četnosti záměny daných dvou aminokyselin v reálních proteinech jejichž identita je větší než 62 %. Kladné hodnoty značí častější záměny a záporné pak méně časté. Po diagonále, kde jsou největší skóre což vyplývá z faktu, že jsou použity relativně podobné proteinové sekvence (identita >62 %). Skóre jsou zaokrouhleny na celé čísla. 32 Substituční skórovací matice pro výpočet skóre (2) •typ matice by měl být uzpůsoben délce hledané sekvence •word size se doporučuje snížit u proteinů na 2 v případě krátkých sekvencí (peptidy či menší proteiny) 4. BLAST, srovnání sekvencí Délka (počet AK) Substituční matice <35 PAM-30 35-50 PAM-70 50-85 BLOSUM-80 >85 BLOSUM-62 Zde dovětek k substituční matici. Ta by měla být uzpůsobena délce prohledávané sekvence dle uvedené tabulky. V případě krátkách sekvencí jako jsou peptidy se doporučuje i snížit word size na 2. 33 Substituční skórovací matice – skóre jednoho HSP • Protein Scores 4. BLAST, srovnání sekvencí http://upload.wikimedia.org/wikipedia/en/8/87/Extension_process.jpg Zde je uveden příklad pro výpočet skóre dle BLOSUM62 matice. Ukázán je high scoring word (PEG) odpovídající jednomu slovu ze zadané sekvence (PQG). V řádku pod databázovým záznamen jsou uvedena skóre pro jednotlivé dvojice aminokyselin jak jsou uvedena v BLOSUM62 matici. HSP (PPQGL ze zadané sekvence a PPEGV z použité databáze) je jak vidíme rozšířením původních tří aminokyselin až do doby, než začne celkové skóre klesat. 34 Příklady webových BLAST rozhraní •Pubmed (http://blast.ncbi.nlm.nih.gov/Blast.cgi) •UniProt (http://www.uniprot.org/blast/) • Offline možnosti •BioEdit (http://www.mbio.ncsu.edu/bioedit/bioedit.html) •nejen pro BLAST... •možnost použití vlastních databází atd. •blast+ (ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/) •sada nástrojů pro práci v příkazové řádce •příklad příkazu: •blastp -db „databáze“ -out „kam zapsat výstup“ -word_size 3 -gapopen 11 -gapextend 1 -threshold 11 -outfmt "6 std positive ppos" -num_threads 4 -comp_based_stats 2 •http://www.ncbi.nlm.nih.gov/books/NBK279675/ - seznam možností 4. BLAST, srovnání sekvencí Zde uvádím odkazy na BLAST implementace na serverech Pubmed a UniProt. Offline je uživatelský příjemné použití např. programu BioEdit, který nabízí i další aplikační možnosti. Blast+ je pak možno si stáhnout přímo ze serveru NCBI a běžet si lokálně z příkazové řádky. Je zde uveden i příklad příkazu s vyznačenými možnostmi, které je potřeba zadat a v případě „-outfmt“ jde o nastavení formátu výstupu (6 značí tabulární formu výstupu) s možností blíže specifikovat jaké sloupce chcete mít ve výsledné tabulce mít. Kompletní seznam možností nastavení pak naleznete na uvedeném odkazu. 35 4. BLAST, srovnání sekvencí Zhodnocení výstupu BLAST •expectation value (E) – hlavní parametr •počet sekvencí z databáze, které se přiřadí hledané sekvenci se stejným skóre pouze dílem náhody – relevantní E pod ~0,05-0,001 •záleží na konkrétní aplikaci a následné validaci výstupů... •hodnotí se i délka sekvence Þ u krátkých sekvencí obecně vyšší E •identities – počet identických aminokyselin (AK) z hledaného proteinu •positives – počet AK s podobnými fyzikálně chemickými vlastnostmi Výstup z BLAST je pak nejčastější podle vrácene hodnoty E, která znamená počet sekvencí v databízi, které se přiřadí hledané sekvenci se stejným skóre pouze dílem náhody. Relevantní hodnoty E jsou pod přibližně 0,05-0,001 podle typu konkrétní aplikace. Důležitým faktorem je také procento či absolutní počet identických aminokyselin připadně takzvaných positives, které označují aminokyseliny ne nutně totožné, ale s podobnými fyzikálně chemickými vlastnostmi jako je velikost, bazicita atd. 36 Možnosti dávkové BLAST (Pubmed) •https://blast.ncbi.nlm.nih.gov/Blast.cgi •několik desítek až stovek proteinů •možnost procházet individuální výsledky •možnost stažení shrnutých výsledků + zpracování v externím programu •příklad – proteiny Nicotiana tabacum 4. BLAST, srovnání sekvencí Srovnání sekvencí dvou či více proteinů (UniProt) •http://www.uniprot.org/align/ •obdobný přístup jako při BLAST •křížové srovnání v případě více srovnávaných sekvencí •příklad: srovnání vybraných sekvencí Ig Light Chain gammna Zde bych uvedl dvě praktické ukázky pro použití BLAST programu na serveru Pubmed a UniProt. Zde je možné dávkově prohledat několik desítek až stovek proteinů a následně individuálně procházet jednotlivé výsledky. Vedle tohoto je možnost si výsledky exportovat v xml či tsv formátu pro následné automatické zpracování. Druhým příkladem je srovnání několika sekvencí uvedených lehkých řetězců Ig. Zde je možné použít např. nástroj na serveru UniProt, který nám přehledně i s možností zobrazení různých typů aminoyselin výstup srovnání více proteinů zprostředkuje. Děkuji za pozornost 37 Děkuji za pozornost.