BIOINFORMATIKA V PRAXI – CVIČENÍ 2 SEQUENCE ALIGNMENT STUDIJNÍ MATERIÁLY Studijní materiály předmětu C2130 Úvod do chemoinformatiky a bioinformatiky, přednáška Sequence alignment. VYUŽITÍ SEKVENČNÍHO PŘILOŽENÍ PRO IDENTIFIKACI GENU V ONLINE DATABÁZÍCH Pro vyhledávání v internetových databázích lze použít několik přístupů (viz. Bioinformatika v praxi – cvičení 1). Pokud máme jako vstupní údaj sekvenci genu/proteinu, využíváme hledání na základě podobnosti sekvencí. Typickou ukázkou je aplikace BLAST na serveru NCBI (http://blast.ncbi.nlm.nih.gov/Blast.cgi). ÚKOL 1 Pomocí aplikace BLAST identifikujte následující sekvence: Sekvence 1: mngtegpnfyvpfsnktgvvrspfeypqyylaepwqfsmlaaymfllivlgfpinfltlyvtvqhknvrtplnyillnlavanhfmvfggftttlytsl hgyfvfgstgcnlegffatlggeialwslvvlaieryvvvckpmsnfrfgenhaimgvaftwvmalacaapplvgwsryipegmqcscgidyytlkpev nnesfviymfvvhftipmtiiffcygqlvftvkeaaaqqqesattqkaekevtrmviimviaflicwvpyasvafyifthqgsdfgpilmtlpaffaks saiynpviyimmnkqfrncmltticcgknpfgeeegsttasktetsqvapa Název genu/proteinu: Číslo záznamu v databázi NCBI: Míra shody zadané a nalezené sekvence: Sekvence 2: atgtcgagcgttcagaccgctgccacttcgtggggaaccgtcccgtcgatccgtgtgtacacggccaataatggcaagatcaccgagcgttgctgggac gggaaggggtggtacacgggtgccttcaacgagcccggcgataacgtctccgtgaccagctggctggtcggcagcgcgatccatatccgcgtctatgca agcaccggcaccacgaccacagagtggtgctgggacggcaacggctggaccaagggcgcctacaccgccaccaactga Název genu/proteinu: Číslo záznamu v databázi NCBI: Míra shody zadané a nalezené sekvence: Sekvence 3: mglsdgewqmvlniwgkvegdlaghgqevlislfkahpetlekfdkfknlkseeemkssedlkkhgctvltalgtilkkkgqhaaeiqplaqshatkhk ipvkylefiseviiqvlkkrysgdfgadaqgamskalelfrndiaakykelgfqg Název genu/proteinu: Číslo záznamu v databázi NCBI: Míra shody zadané a nalezené sekvence: VYHLEDÁNÍ PODOBNÝCH SEKVENCÍ A URČENÍ PŘÍBUZNOSTI Výhodou použití sequence alignmentu je schopnost nalezení nejen shodného záznamu, ale i záznamů podobných. Tak lze na základě podobných sekvencí identifikovat i dosud neznámou sekvenci a odhadnout její „příbuzenské“ vztahy. ÚKOL 2 Nalezněte 4 nejpodobnější sekvence k sekvenci zadané. Použijte aplikaci BLAST. Sekvence: mntrsfhridvhkarellqrpdtvlldcrhpsdfraghiagasplgdynaddhvlniakhrpvliycyhgnasqmraqlfadfgfaevysldggyeawr kvhtpansqltealqcwlmaqefpaadihartrdgvtplmraagegdparvaellaagadphqrnndgnqalwfacvsenldtldllvavgahlnhqnd ngatclmyaasagktavverllafgadrsllslddftaldmaanleclnllretprrikavt Číslo záznamu Protein Organismus Score VLIV POUŽITÉ MATICE NA VÝSLEDEK ALIGNMENTU Dalším parametrem, který může ovlivnit výsledek alignmentu je použitá matice. Většina programů detekuje automaticky nukleotidovou sekvenci a použije příslušnou matici, v případě proteinových sekvencí je však situace komplikovanější. ÚKOL 3 Následující sekvence identifikujte a přiložte v programu ClustalW (http://www.ebi.ac.uk/Tools/clustalw2/index.html). Poté proveďte alignment s použitím matice PAM, BLOSUM, Gonnet a ID a výsledky porovnejte. Která matice je použita při základním nastavení? Sekvence 1: MPGIRLRYALLALVFAIYYYIVLSYRDQFSDIKKCFSSIRAKIEDYDSSKKGQPKLASNSYLEADMLYRD RTQVGIENATMVMLVRNRELEGALSSMRSLEDRFNRQYKYPWVFLNDEPFTEEFIEQTMLMASSQTFYEL IPSSDWNMPDFIDNERVEQNIANSTDVIYGFSKSYRNMCHFNSGYFYKQKRLLNYDWYFRVEPDVEYMCD FQYDPFTLLRTNNKIYGFVIAIHEYENTIPTLWPTVEKFMQTYPDLIHANNSLKFITTNESSLNHWVTPI QSSSDYNLCHFWSNFEIGNLNFFRGEAYNKYFDFLDRAGGFYYERWGDAPVHSIGLNLLADKNSIHHFED IGYYHPPYLACPSSKDVIAAKRCVCRKRGNDGEVIDSAIDVNVFSCLSRWWRYGAGKRFLNEIDYTFNN Sekvence 2: MPESGVPAGRRRLLAPLLLVTSAAALLAVTMANPPDLVDFHVYMLGGVALDRPDTLYSFAYSDQSPDQPL PFVYPPFAAILFRPLTALPFVVAGVLWQLGILAAVYGIVRISQRLLGGGSHRTAMLWTAGLIWLEPVRVA LDLGQVGIFLTLAVLYAVCSRRWWLSGLLVGLAAGVKLTPAITGLYFLGVRRWTAAAFSAVVFVATIGLS YLVVGDQVRNYFTRVMGDTSINPIGIALNQSWRGAISRFLGHDAGGSALVIAAIAGTAVLALFAWAALGA GSRPRDRLGSVLVVQLFGLLMSPISWVHHWAWVVPLVLWLLSGPWRNEPGARVLGWGWLALTFVGVPSQL SLLEPSLWEISRPWYLAWAGLAYVVAAVATLGWIVLTGRRNAAPTPPVRRRFARVVGTRGKQIACEEHRA GR Sekvence 3: MELQSLIDTVSLQKLLLLGALLRLILIAYAFFHDQWFRVKYTDIDYMIVVDGARHMWNGGSPFDRTTFRY TPLLAALVMPSIWIANPMGKLIFASSDLGAAWYCYGVLKSFAKERSAKWMVSLFILFNPIVLSVSTRGNS DMLVTFMSLMVLSKFARRKCYQAAAVLGFAVHFKIYPIIYALPLTLGVWEQSVAASTNTWRRVVKTAVVV SICALMAAISFAVPTVLCYMKYGQQYLNEAFIYHVYREDHRHNFSPYWLLMYLNMARRHLGQGVDFSPRL VAFAPQAVVLSFVSYKLRRNTAHACCVQTVLFVAFNKVCTVQYFVWFIPFLAFLFCEPKEVEDDESGGSG AFKFFSWVKALGVVLMWAATIPLWVTTAVPLEFHGYSDFAQLWIVSCLFFLAMVVLASMLARIAYRVQCT KCSAKSIKVA Sekvence 4: mdastpnpptlgtdavastivffhpdlgiggaerlvvdaavglqtrghkvviftnhcdpthcfdecrdgt ldvrvrgnsivppsifsrltilcailrhihllltihltgelaalsprafivdqlsaglplmrflapdvpv lfychfpdlllaqgrqslvkrlyrvpfdrleewsmgfahavavnskftrgivgntwpalqnkvpinvvyp cvdthtthetapdeaklaagkklilsinrferkkdiglairafaqipeeqrrgarlvlaggydarvsenv lyhaelqalatslslahhtltpaelgsaaappdaqhfgivpleamlarvpvlaantggpvetvadretgw lrdpadapawtdvmarclalpddqlaamgdagrrrvrelfgrdkmaqtldeslvqiaglaeerrvsgaag fgvlaafiaacavlaawfaf VLIV MEZER NA VÝSLEDEK ALIGNMENTU Možnost vložení mezer významně zvyšuje šance na úspěšný alignment sekvencí. Při změně nastavení parametrů se mění skóre určující podobnost sekvencí a ty tak mají vliv i na určení vzájemné přibuznosti sekvencí. Při špatném nastavení pak umožňují provést alignment i u naprosto nepodobných sekvencí. ÚKOL 4 Proveďte multiple alignment následujících sekvencí pomocí programu ClustalW. V prvním případě nastavte parametr GAP OPEN na 1, ve druhém případě na 100 a výsledky porovnejte. Sekvence 1: trypsin [Homo sapiens] – AAZ40216.1 riqvrlgehnievlegneqfinaakiirhpkydrktlnndimliklssravinarvstislptappatgtkclisgwgntassg Sekvence 2: FlgA [Agrobacterium tumefaciens] – AAB71791.1 mrfgrnnsscrtalvrmclasafslgalapalaqapmalvpvrtiypgeaispeqvksvevtnpnisagyasdisevegmiskqtllpgrtipiaalre pslvvrgtsvklvfhignmtlmasgtpmsdgslgevvrvrnidsgvmvsgtvmkdgtiqvmak Sekvence 3: collagen [Caenorhabditis elegans] – CAA35955.1 msedlkqiaqeteslrkvaffgiavstiatltaiiavpmlynymqhvqsslqsevefcqhrsnglwdeykrfqgvsgvegrikrdayhrslgvsgasrk arrqsygndaavggfggssggsccscgsgaagpagspgqdgapgndgapgapgnpgqdasedqtagpdsfcfdcpagppgpsgapgqkgpsgapgapgq sggaalpgppgpagppgpagqpgsngnagapgapgqvvdvpgtpgpagppgspgpagapgqpgqagssqpggpgpqgdagapgapgapgqagapgqdge sgsegacdhcppprtapgy Gap open = 1 Vzájemně příbuznější sekvence: Gap open = 100 Vzájemně příbuznější sekvence: ALIGNMENT NA GENOVÉ vs. PROTEINOVÉ ÚROVNI Často se setkáváme se situací, kdy alignment na genové úrovni není pro naše potřeby vhodný. Je tedy zapotřebí výsledné sekvence porovnat i na úrovni proteinu. ÚKOL 5 U následujících dvojic sekvencí proveďte sequence alignment na genové úrovni (program lalign – http://www.ch.embnet.org/software/LALIGN_form.html). Tyto sekvence přeložte do sekvence aminokyselin programem Translate – server ExPassy (http://www.expasy.ch/tools/dna.html) a proveďte alignment těchto – přeložených sekvencí. Porovnejte množství nespárovaných nukleotidů/aminokyselin (resp. procento identity) v obou případech. Sekvence a1 atg tgc gca gtg cgc agg gcc ggc tcg aag cgc aag cag gaa gcg ttt gcg gtg atc ccg gcg act gcg ctg gct aat gcg gta ccg gct agc gtg gct tct gca ccc cgc act gcc cag cac ctt ccg ctc agt cct cgg cgc ccg cc t gcc gcc tcc gga gcg cct gtg tgg ttt cca aaa aaa gac tta cag caa aat gaa tac tcc agc cat caa gag a at agg aaa tca cat tac caa gtc tcc tga Sekvence a2 atg tgt gca gtg cgc cga gcc ggc tcc aag agg aag caa gaa gcg ttt gcg gtt atc ccg gcg act gct ctg gct aat gca gta ccg gct agc gtg gct tct gca ccg cgc act gcc cag cat tta ccg ctg agt cct cgc cgg ccg cc t gca gct tcc gga gcg cca gtg tgg ttc cca aaa aaa gat ttg cag caa aat gaa tat tcc agc cac cag gag a at agg aag tcc cat tac caa gtc tca tga Identita nt sekvencí a1-a2: Identita ak sekvencí a1-a2: Sekvence b1 atg tgc gca gtg cgc agg gcc ggc tcg aag cgc aag cag gaa gcg ttt gcg gtg atc ccg gcg act gcg ctg gct aat gcg gta ccg gct agc gtg gct tct gca ccc cgc act gcc cag cac ctt ccg ctc agt cct cgg cgc ccg cc t gcc gcc tcc gga gcg cct gtg tgg ttt cca aaa aaa gac tta cag caa aat gaa tac tcc agc cat caa gag a at agg aaa tca cat tac caa gtc tcc tga Sekvence b2 atg tgc gca gtg cgc agg gcc ggc tcg aag cgc aag cag gaa gcg tgt gcg gtg atc ccg gcg act gcg ctg gct aat gcg gaa ccg gct agc gtg gct tct gca ccc cgc act gcc cag cac ctt ccg ctc agt cct cgg cgc ccg cc t gcc gcc tcc cga gcg cct gtg tgg ttt cca aaa aaa gac tta cag caa aat gaa tac tcc agc cat taa gag a at agg aaa tca cat tac caa gtc tcc tga Identita nt sekvencí b1-b2: Identita ak sekvencí b1-b2: VYUŽITÍ ALIGNMENTU PRO INTERPRETACI VÝSLEDKŮ SEKVENACE Běžným užítím sequence alignmentu je analýza výstupu po sekvenaci. Detekujeme tak mutace (inzerce, delece, substituce), které mohou mít vliv na sekvenci kódovaného proteinu – záměna aminokyseliny, posunutí čtecího rámce, vytvoření nebo odstranění STOP kodonu, atd. Můžeme aplikovat pairwise alignment nebo u více sekvencí multiple alignment. ÚKOL 6 Následující sekvence obsahují inzerce. Určete, která z obou sekvencí je vhodnější pro budoucí práci s proteinem a proč. Pro alignment použijte vámi zvolený program (lalign, ClustalW, případně jiný). Původní gen: atggctgattctcaaacgtcatccaaccgcgccggcgaattctcgattccgccgaataccgatttccgcgcgattttcttcgcgaatgccgccgagcaa cagcacatcaaattgttcatcggcgacagccaggaacccgccgcgtatcacaagctgacgacgcgcgacggcccgcgcgaagccacgctgaattccggc aacggcaagatccgtttcgaggtgtcggtgaacggcaagccgtcggcgaccgacgcgcgtctcgcgccgatcaacggcaagaagtcggacggctcgccg ttcacggtcaacttcgggatcgtcgtgtcggaagacggccacgacagcgactacaacgacggcatcgtcgtgctccagtggccgatcggctga Sekvence 1: atggctgattctcaaacgtcatccaaccgcgccggcgaattctcgattccgccgaataccgatttccgcgcgattttcttcgcgaatgccgccgagcaa cagcacatcaaaaatttgttcatcggcgacagccaggaacccgccgcgtatcacaagctgacgacgcgcgacggcccgcgcgaagccacgctgaattcc ggcaacggcaagatccgtttcgaggtgtcggtgaacggcaagccgtcggcgaccgacgcgcgtctcgcgccgatcaacggcaagaagtcggacggctcg ccgttcacggtcaacttcgggatcgtcgtgtcggaagacggccacgacagcgactacaacgacggcatcgtcgtgctccagtggccgatcggctga Sekvence 2: atggctgattctcaaacgtcatccaaccgcgccggcgaattctcgattccgccgaataccgatttccgcgcgattttcttcgcgaatgccgccgagcaa cagcacatcaaattgttcatcggcgacagccaggaacccgccgcgtatcacaagctgacgacgcgcgacggcccgcgcgaagccacgctgaattccggc aaaacggcaagatccgtttcgaggtgtcggtgaacggcaagccgtcggcgaccgacgcgcgtctcgcgccgatcaacggcaagaagtcggacggctcgc cgttcacggtcaacttcgggatcgtcgtgtcggaagacggccacgacagcgactacaacgacggcatcgtcgtgctccagtggccgatcggctga Vhodnější sekvence: Důvod: ÚKOL 7 Následující sekvence obsahují různé mutace. Určete, které z těchto sekvencí jsou použitelné pro budoucí práci s proteinem a proč. Označte nejvhodnější sekvenci. Originální sekvence: atggctgattctcaaacgtcatccaaccgcgccggcgaattctcgattccgccgaataccgatttccgcgcgattttcttcgcgaatgccgccgagcaa cagcacatcaaattgttcatcggcgacagccaggaacccgccgcgtatcacaagctgacgacgcgcgacggcccgcgcgaagccacgctgaattccggc aacggcaagatccgtttcgaggtgtcggtgaacggcaagccgtcggcgaccgacgcgcgtctcgcgccgatcaacggcaagaagtcggacggctcgccg ttcacggtcaacttcgggatcgtcgtgtcggaagacggccacgacagcgactacaacgacggcatcgtcgtgctccagtggccgatcggctga Sekvence 1: atggctgattctcaaacgtcatccaaccgcgccggcgagttctcgattccgccgaataccgatttccgcgcgattttcttcgcgaatgccgccgagcaa cagcacatcaaattgttcatcggcgacagccaggaaccagccgcgtatcacaagctgacgacgcgcgacggcccgcgcgaagccacgttgaattccggc aacggcaagatccgtttcgaggtgtcggtgaacggcaagccgtcggcgaccgacgcgcgtctcgcgccgatcaacggcaagaagtcggacggctcgccg ttcacggtcaacttcgggatcgtcgtgtcggaagacggccacgacagcgactacaacgacggcatcgtcgtgctccagtggccgatcggctga Sekvence 2: atggctgattctcaaacgtcatccaaccgcgccggcgaattctcgattccgccgaataccgatttccgcgcgattttcttcgcgaatgccgccgagcaa cagcacatcaaattgttcatcggcgacagccaggaacccgccgcgtatcacaagctgacgacgcgcgacggcccgcgcgtagccacgctgaattccggc aacggcaagatccgtttcgaggtgtcggtgaacggcaagccgtcggcgaccgacgcgcgtctcgcgccgatcaacggcaagaagtcggacggctcgccg ttcacggtcaactttgggatcgtcgtgtcggaagacggccacgacagcgactacaacgacggcatcgtcgtgctccagtggccgatcggctga Sekvence 3: atggctgattctcaaacgtcatccaaccgcgccggcgaattctcgattccgccgaataccgatttccgcgcgattttcttcgcgaatgccgccgagcaa cagcacatcaaattgttcatcggcgacagccaggaacccgccgcgtatcacaagctgacgacgcgcgacggcccgcgctaagccacgctgaattccggc aacggcaagatccgtttcgaggtgtcggtgaacggcaagccgtcggcgaccgacgcgcgtctcgcgccgatcaacggcaagaagtcggacggctcgccg ttcacggtcaacttcgggatcgtcgtgtcggaagacggccacgacagcgactacaacgacggcatcgtcgtgctccagtggccgatcggctga Sekvence 4: aaggctgattctcaaacgtcatccaaccgcgccggcgaattctcgattccgccgaataccgatttccgcgcgattttcttcgcgaatgccgccgagcaa cagcacatcaaattgttcatcggcgacagccaggaacccgccgcgtatcacaagctgacgacgcgcgacggcccgcgcgaagccacgctgaattccggc aacggcaagatccgtttcgaggtgtcggtgaacggcaagccgtcggcgaccgacgcgcgtctcgcgccgatcaacggcaagaagtcggacggctcgccg ttcacggtcaacttcgggatcgtcgtgtcggaagacggccacgacagcgactacaacgacggcatcgtcgtgctccagtggccgatcggctga Sekvence Charakter mutace z hlediska genu Charakter mutace z hlediska proteinu Použitelná pro další práci (ANO/NE) 1 2 3 4 PROBLÉM REPETIC Při porovnávání dvou celkově podobných sekvencí užíváme zpravidla metody globálního alignmentu. V případě sekvencí, které jsou podobné jen v určité své části (např. jedné z domén), je vhodnější použít lokální alignment. Ten má svůj význam i v případě proteinů s tzv. repeticemi. ÚKOL 8 Proveďte alignment následujících dvou sekvencí programem Align (http://www.ebi.ac.uk/Tools/emboss/align) s použitím algoritmu needle (globalní alignment) a water (lokální alignment). V obou případech nastavte parametr Gap open na 15.0 a výsledky porovnejte. Sekvence 1 PTEFLYTSKIAAISWAATGGRQQRVYFQDLNGKIREAQRGGDNPWTGGSSQNVIGEAKLFSPLAAVTWKSAQGIQIRVYCVNKDNILSEFVYDGSKWIT GQLGSVGVKVGSNSKLAALQWGGSESAPPNIRVYYQKSNGSGSSIHEYVWSGKWTAGASFGSTVPGTGIGATAIGPGRLRIYYQATDNKIREHCWDSNS WYVGGFSASASAGVSIAAISWGSTPNIRVYWQKGREELYEAAYGGSWNTPGQIKDASRPTPSLPDTFIAANSSGNIDISVFFQASGVSLQQWQWISGKG WSIGAVVPTGTPAGW Sekvence 2 SSVQTAATSWGTVPSIRVYTANNGKITERCWDGKGWYTGAFNEPGDNVSVTSWLVGSAIHIRVYASTGTTTTEWCWDGNGWTKGAYTATN Identické ak Podobné ak Mezery Needle Water Výše uvedené sekvence jsou příkladem repetic, tj. opakujících se podobných (homologních) úseků v rámci jedné sekvence. Přítomnost repetic lze zjistit/ověřit programem RADAR (http://www.ebi.ac.uk/Tools/Radar/). ÚKOL 9 V sekvencích z úkolu 8 detekujte repetice pomocí programu Radar. Uveďte počet repetic zjištěných u každé sekvence: Sekvence 1: Sekvence2: Sekvenci s více repeticemi rozdělte na jednotlivé repetice a proveďte multiple alignment pomocí programu ClustalW. Která z residuí jsou v repeticích konzervována (zcela, částečně)? Využijte tzv. consensus.