BIOINFORMATIKA V PRAXI – CVIČENÍ 2


SEQUENCE ALIGNMENT


STUDIJNÍ MATERIÁLY

Studijní materiály předmětu C2130 Úvod do chemoinformatiky a bioinformatiky, přednáška Sequence
alignment.


ÚVOD

Sekvence v biochemii

Při práci s biologickými makromolekulami (nukleové kyseliny, proteiny, sacharidy) hovoříme často o
jejich sekvenci. Pod tímto pojmem rozumíme pořadí a identitu jednotlivých stavebních prvků, z nichž
se makromolekula skládá (v případě sacharidů i typ vazby mezi sousedními jednotkami). Pro
jednotlivé stavební prvky existují obvykle třípísmenné zkratky, v bioinformatice však častěji
používáme jednopísmenné zkratky. V tomto předmětu se budeme zabývat jen problematikou nukleových
kyselin a proteinů. V případě sacharidů je celá situace komplikovaná množstvím různých stavebních
jednotek a možností větvení řetězce. S tím souvisí větší náročnost určení sekvence
oligo-/poly-sacharidu a též menší počet dostupných sacharidových sekvencí v databázích.


Nukleové kyseliny

Nukleové kyseliny (DNA, RNA) jsou tvořeny kombinací čtyř prvků (nukleových bazí) spojených
prostřednictvím tzv. cukr-fosfátové kostry. V případě DNA se jedná o adenin, cytosin, guanin a
thymin, v případě RNA pak adenin, cytosin, guanin a uracil. Tyto báze jsou uvedeny v přiložené
tabulce.


                                              Adenin

                                              Cytosin

                                              Guanin

                                              Thymin

                                              Uracil

                                                Ade

                                                Cyt

                                                Gua

                                                Thy

                                                Ura

                                                 A

                                                 C

                                                 G

                                                 T

                                                 U

                                             DNA, RNA

                                             DNA, RNA

                                             DNA, RNA

                                                DNA

                                                RNA

Pozn.: Používaní zkratek a názvů pro různé části nukleových kyselin (nukleotidy, nukleosidy, báze)
je poměrně komplikované. V případě zájmu lze detailní doporučení názvoslovné komise nalézt např. na
stránkách: http://www.chem.qmul.ac.uk/iupac/misc/naabb.html


Sekvenci nukleové kyseliny zapisujeme v pořadí od 5‘-konce (nukleotid s volnou OH skupinou na 5.
uhlíku) směrem k 3‘-konci (nukleotidu s volnou OH skupinou na uhlíku číslo 3). V tomto směru je
také v živých organismech DNA resp. RNA syntetizována.


Proteiny

Proteiny jsou sestaveny z 20 standardních aminokyselin (22, počítáme-li selenocystein a pyrrolysin)
– viz tabulka. Dle různých charakteristik můžeme proteinogenní aminokyseliny rozdělit do několika
skupin – nejčastěji rozlišujeme aminokyseliny nabité (kyselé a bazické), nenabité polární,
hydrofobní a malé (s krátkým postranním řetězcem). Při analýze proteinových sekvencí obvykle
neuvažujeme možné posttranslační modifikace, jako je např. hydroxylace či glykosylace.


Není-li uvedeno jinak, zapisujeme sekvenci proteinů od N-konce (volná NH[2]- skupina) k C-konci
(volná COOH- skupina). Tento směr je opět totožný se směrem, v němž je protein v živém organismu
syntetizován.


Sekvenční přiložení (Sequence alignment)

Porovnání dvou (nebo více) sekvencí mezi sebou označujeme jako sekvenční přiložení (častěji
anglicky sequence alignment). Cílem je určení vzájemné podobnosti těchto sekvencí. Vizuálním
výstupem je zarovnání sekvencí tak, aby sobě odpovídající residua ležela nad sebou. Detaily viz.
přednáška Sequence alignment předmětu C2130.


              VYUŽITÍ SEKVENČNÍHO PŘILOŽENÍ PRO IDENTIFIKACI GENU V ONLINE DATABÁZÍCH

Pro vyhledávání v internetových databázích lze použít několik přístupů (viz. Bioinformatika v praxi
– cvičení 1). Pokud máme jako vstupní údaj sekvenci genu/proteinu, využíváme hledání na základě
podobnosti sekvencí. Typickou ukázkou je aplikace BLAST na serveru NCBI
(http://blast.ncbi.nlm.nih.gov/Blast.cgi).


ÚKOL 1

Pomocí aplikace BLAST identifikujte následující sekvence:


Sekvence 1:

mngtegpnfyvpfsnktgvvrspfeypqyylaepwqfsmlaaymfllivlgfpinfltlyvtvqhkNVrtplnyillnlavanhfmvfggftttlytsl
hgyfvfgstgcnlegffatlggeialwslvvlaieryvvvckpmsnfrfgenhaimgvaftwvmalacaapplvgwsryipegmqcscgidyytlkpev
nnesfviymfvvhftipmtiiffcygqlvftvkeaaaqqqesattqkaekevtrmviimviaflicwvpyasvafyifthqgsdfgpilmtlpaffaks
saiynpviyimmnkqfrncmltticcgknpfgeeegsttasktetsqvapa


Název genu/proteinu:

Číslo záznamu v databázi NCBI: X

Míra shody zadané a nalezené sekvence:


Sekvence 2:

atgtcgagcgttcagaccgctgccacttcgtggggaaccgtcccgtcgatccgtgtgtacacggccaataatggcaagatcaccgagcgttgctgggac
gggaaggggtggtacacgggtgccttcaacgagcccggcgataacgtctccgtgaccagctggctggtcggcagcgcgatccatatccgcgtctatgca
agcaccggcaccacgaccacagagtggtgctgggacggcaacggctggaccaagggcgcctacaccgccaccaactga


Název genu/proteinu:

Číslo záznamu v databázi NCBI:

Míra shody zadané a nalezené sekvence:


Sekvence 3:

mglsdgewqmvlniwgkvegdlaghgqevlislfkahpetlekfdkfknlkseeemkssedlkkhgctvltalgtilkkkgqhaaeiqplaqshatkhk
ipvkylefiseviiqvlkkrysgdfgadaqgamskalelfrndiaakykelgfqg


Název genu/proteinu:
Číslo záznamu v databázi NCBI:

Míra shody zadané a nalezené sekvence:


                         VYHLEDÁNÍ PODOBNÝCH SEKVENCÍ A URČENÍ PŘÍBUZNOSTI

Výhodou použití sequence alignmentu je schopnost nalezení nejen shodného záznamu, ale i záznamů
podobných. Tak lze na základě podobných sekvencí identifikovat i dosud neznámou sekvenci a
odhadnout její „příbuzenské“ vztahy.


ÚKOL 2

Identifikujte zadanou sekvenci a nalezněte 4 další nejpodobnější sekvence. Použijte aplikaci BLAST.


Sekvence:

mntrsfhridvhkarellqrpdtvlldcrhpsdfraghiagasplgdynaddhvlniakhrpvliycyhgnasqmraqlfadfgfaevysldggyeawr
kvhtpansqltealqcwlmaqefpaadihartrdgvtplmraagegdparvaellaagadphqrnndgnqalwfacvsenldtldllvavgahlnhqnd
ngatclmyaasagktavverllafgadrsllslddftaldmaanleclnllretprrikavt


Číslo záznamu

             Protein

                    Organismus

                              Score


Volitelný ÚKOL

Z nalezených sekvencí v úkolu 2 sestavte Multiple sequence alignment a vytvořte fylogenetický strom
(phylogenetic tree).


                            VLIV POUŽITÉ MATICE NA VÝSLEDEK ALIGNMENTU

Jedním z parametrů, který může ovlivnit výsledek alignmentu je použitá matice. Většina programů
detekuje automaticky nukleotidovou sekvenci a použije příslušnou matici, v případě proteinových
sekvencí je však situace komplikovanější.


ÚKOL 3

Následující sekvence identifikujte a přiložte v programu ClustalW
(http://www.ch.embnet.org/software/ClustalW.html). Poté proveďte alignment s použitím matice PAM,
BLOSUM, Gonnet a Identity a výsledky porovnejte. Která matice je použita při základním nastavení?


Sekvence 1:

MPGIRLRYALLALVFAIYYYIVLSYRDQFSDIKKCFSSIRAKIEDYDSSKKGQPKLASNSYLEADMLYRD

RTQVGIENATMVMLVRNRELEGALSSMRSLEDRFNRQYKYPWVFLNDEPFTEEFIEQTMLMASSQTFYEL

IPSSDWNMPDFIDNERVEQNIANSTDVIYGFSKSYRNMCHFNSGYFYKQKRLLNYDWYFRVEPDVEYMCD

FQYDPFTLLRTNNKIYGFVIAIHEYENTIPTLWPTVEKFMQTYPDLIHANNSLKFITTNESSLNHWVTPI

QSSSDYNLCHFWSNFEIGNLNFFRGEAYNKYFDFLDRAGGFYYERWGDAPVHSIGLNLLADKNSIHHFED

IGYYHPPYLACPSSKDVIAAKRCVCRKRGNDGEVIDSAIDVNVFSCLSRWWRYGAGKRFLNEIDYTFNN


Sekvence 2:

MPESGVPAGRRRLLAPLLLVTSAAALLAVTMANPPDLVDFHVYMLGGVALDRPDTLYSFAYSDQSPDQPL

PFVYPPFAAILFRPLTALPFVVAGVLWQLGILAAVYGIVRISQRLLGGGSHRTAMLWTAGLIWLEPVRVA

LDLGQVGIFLTLAVLYAVCSRRWWLSGLLVGLAAGVKLTPAITGLYFLGVRRWTAAAFSAVVFVATIGLS

YLVVGDQVRNYFTRVMGDTSINPIGIALNQSWRGAISRFLGHDAGGSALVIAAIAGTAVLALFAWAALGA

GSRPRDRLGSVLVVQLFGLLMSPISWVHHWAWVVPLVLWLLSGPWRNEPGARVLGWGWLALTFVGVPSQL

SLLEPSLWEISRPWYLAWAGLAYVVAAVATLGWIVLTGRRNAAPTPPVRRRFARVVGTRGKQIACEEHRA

GR


Sekvence 3:

MELQSLIDTVSLQKLLLLGALLRLILIAYAFFHDQWFRVKYTDIDYMIVVDGARHMWNGGSPFDRTTFRY

TPLLAALVMPSIWIANPMGKLIFASSDLGAAWYCYGVLKSFAKERSAKWMVSLFILFNPIVLSVSTRGNS

DMLVTFMSLMVLSKFARRKCYQAAAVLGFAVHFKIYPIIYALPLTLGVWEQSVAASTNTWRRVVKTAVVV

SICALMAAISFAVPTVLCYMKYGQQYLNEAFIYHVYREDHRHNFSPYWLLMYLNMARRHLGQGVDFSPRL

VAFAPQAVVLSFVSYKLRRNTAHACCVQTVLFVAFNKVCTVQYFVWFIPFLAFLFCEPKEVEDDESGGSG

AFKFFSWVKALGVVLMWAATIPLWVTTAVPLEFHGYSDFAQLWIVSCLFFLAMVVLASMLARIAYRVQCT

KCSAKSIKVA


Sekvence 4:

mdastpnpptlgtdavastivffhpdlgiggaerlvvdaavglqtrghkvviftnhcdpthcfdecrdgt

ldvrvrgnsivppsifsrltilcailrhihllltihltgelaalsprafivdqlsaglplmrflapdvpv

lfychfpdlllaqgrqslvkrlyrvpfdrleewsmgfahavavnskftrgivgntwpalqnkvpinvvyp

cvdthtthetapdeaklaagkklilsinrferkkdiglairafaqipeeqrrgarlvlaggydarvsenv

lyhaelqalatslslahhtltpaelgsaaappdaqhfgivpleamlarvpvlaantggpvetvadretgw

lrdpadapawtdvmarclalpddqlaamgdagrrrvrelfgrdkmaqtldeslvqiaglaeerrvsgaag

fgvlaafiaacavlaawfaf


                                 VLIV MEZER NA VÝSLEDEK ALIGNMENTU

Možnost vložení mezer významně zvyšuje šance na úspěšný alignment sekvencí. Při změně nastavení
parametrů se mění skóre určující podobnost sekvencí a ty tak mají vliv i na určení vzájemné
přibuznosti sekvencí. Při špatném nastavení pak umožňují provést alignment i u naprosto nepodobných
sekvencí.


ÚKOL 4

Proveďte multiple alignment následujících sekvencí pomocí programu ClustalW. V prvním případě
nastavte parametry Opening gap penalty a Ending gap penalty na 1, ve druhém případě na 10 a ve
třetím na 100 a výsledky porovnejte.


Sekvence 1:

trypsin [Homo sapiens] – AAZ40216.1

riqvrlgehnievlegneqfinaakiirhpkydrktlnndimliklssravinarvstislptappatgtkclisgwgntassg


Sekvence 2:

FlgA [Agrobacterium tumefaciens] – AAB71791.1

mrfgrnnsscrtalvrmclasafslgalapalaqapmalvpvrtiypgeaispeqvksvevtnpnisagyasdisevegmiskqtllpgrtipiaalre
pslvvrgtsvklvfhignmtlmasgtpmsdgslgevvrvrnidsgvmvsgtvmkdgtiqvmak


Sekvence 3:

collagen [Caenorhabditis elegans] – CAA35955.1

msedlkqiaqeteslrkvaffgiavstiatltaiiavpmlynymqhvqsslqsevefcqhrsnglwdeykrfqgvsgvegrikrdayhrslgvsgasrk
arrqsygndaavggfggssggsccscgsgaagpagspgqdgapgndgapgapgnpgqdasedqtagpdsfcfdcpagppgpsgapgqkgpsgapgapgq
sggaalpgppgpagppgpagqpgsngnagapgapgqvvdvpgtpgpagppgspgpagapgqpgqagssqpggpgpqgdagapgapgapgqagapgqdge
sgsegacdhcppprtapgy


Gap open = 1, 1

Počet zcela identických residuí:


Gap open = 10, 10

Počet zcela identických residuí:


Gap open = 100, 100

Počet zcela identických residuí:


                                 ALIGNMENT POMOCÍ RŮZNÝCH PROGRAMŮ

Běžně používané programy typu ClustalW využívají pro určení příbuznosti sekvencí tvorbu tzv. guide
tree, na jejichž základě následně provádějí vlastní alignment. Novější verze, Clustal Omega,
využívá oproti tomu skryté Markovovy modely (HMM), což umožňuje zpracovat větší množství sekvencí
v kratším čase při zachování vysoké spolehlivosti.


ÚKOL 5

Proveďte přiložení následujících sekvencí pomocí programů ClustalW, T-Coffee (oba
http://pir.georgetown.edu/cgi-bin/multialn.pl) a programu Clustal Omega
(http://www.ebi.ac.uk/Tools/msa/clustalo/). Výsledky porovnejte a okomentujte.


DIR5

MKSFLFLFVFLVLTKTVISARKPSKSQPKPCKNFVLYYHDIMFGVDDVQNATSAAVTNPPGLGNFKFGKLVIFDDPMTIDKNFQSEPVARAQGFYFYDM
KNDYNAWFAYTLVFNSTQHKGTLNIMGADLMMVQSRDLSVVGGTGDFFMSRGIVTFETDTFEGAKYFRVKMDIKLYECY


DIR6

MAFLVEKQLFKALFSFFLLVLLFSDTVLSFRKTIDQKKPCKHFSFYFHDILYDGDNVANATSAAIVSPPGLGNFKFGKFVIFDGPITMDKNYLSKPVAR
AQGFYFYDMKMDFNSWFSYTLVFNSTEHKGTLNIMGADLMMEPTRDLSVVGGTGDFFMARGIATFVTDLFQGAKYFRVKMDVKLYECY


DIR13

MANQIYIISLIFLSVLLYQSTTVLSFRQPFNLAKPCKRFVFYLHNVAYDGDNTDNATSAAIVNPLGLGDFSFGKFVIMDNPVTMDQNMLSEQVARVQGF
FFYHGKTKYDTWLSWSVVFNSTQHKGALNIMGENAFMEPTRDLPVVGGTGDFVMTRGIATFMTDLVEGSKYFRVKMDIKLYECYY


DRR206

MGSKLPVLFVFVMLFALSSAIPNKRKPYKPCKNLVLYFHDILYNGKNAANATSAIVAAPEGVSLTKLAPQSHFGNIIVFDDPITLSHSLSSKQVGRAQG
FYIYDTKNTYTSWLSFTFVLNSTHHQGTITFAGADPIVAKTRDISVTGGTGDFFMHRGIATITTDAFEGEAYFRLGVYIKFFECW


                             ALIGNMENT NA GENOVÉ vs. PROTEINOVÉ ÚROVNI

Často se setkáváme se situací, kdy alignment na genové úrovni není pro naše potřeby vhodný. Je tedy
zapotřebí výsledné sekvence porovnat i na úrovni proteinu.


ÚKOL 6

U následujících dvojic sekvencí proveďte sequence alignment na genové úrovni (program lalign –
http://www.ch.embnet.org/software/LALIGN_form.html). Tyto sekvence přeložte do sekvence
aminokyselin programem Translate – server ExPassy (http://www.expasy.ch/tools/dna.html) a proveďte
alignment těchto – přeložených sekvencí. Porovnejte množství nespárovaných nukleotidů/aminokyselin
(resp. procento identity) v obou případech.


Sekvence A1
atg tgc gca gtg cgc agg gcc ggc tcg aag cgc aag cag gaa gcg ttt gcg gtg atc ccg gcg act gcg ctg gct
 aat gcg gta ccg gct agc gtg gct tct gca ccc cgc act gcc cag cac ctt ccg ctc agt cct cgg cgc ccg cc
t gcc gcc tcc gga gcg cct gtg tgg ttt cca aaa aaa gac tta cag caa aat gaa tac tcc agc cat caa gag a
at agg aaa tca cat tac caa gtc tcc tga


Sekvence A2
atg tgt gca gtg cgc cga gcc ggc tcc aag agg aag caa gaa gcg ttt gcg gtt atc ccg gcg act gct ctg gct
 aat gca gta ccg gct agc gtg gct tct gca ccg cgc act gcc cag cat tta ccg ctg agt cct cgc cgg ccg cc
t gca gct tcc gga gcg cca gtg tgg ttc cca aaa aaa gat ttg cag caa aat gaa tat tcc agc cac cag gag a
at agg aag tcc cat tac caa gtc tca tga


Identita nt sekvencí a1-a2:

Identita ak sekvencí a1-a2:


Sekvence B1
atg tgc gca gtg cgc agg gcc ggc tcg aag cgc aag cag gaa gcg ttt gcg gtg atc ccg gcg act gcg ctg gct
 aat gcg gta ccg gct agc gtg gct tct gca ccc cgc act gcc cag cac ctt ccg ctc agt cct cgg cgc ccg cc
t gcc gcc tcc gga gcg cct gtg tgg ttt cca aaa aaa gac tta cag caa aat gaa tac tcc agc cat caa gag a
at agg aaa tca cat tac caa gtc tcc tga


Sekvence B2
atg tgc gca gtg cgc agg gcc ggc tcg aag cgc aag cag gaa gcg tgt gcg gtg atc ccg gcg act gcg ctg gct
 aat gcg gaa ccg gct agc gtg gct tct gca ccc cgc act gcc cag cac ctt ccg ctc agt cct cgg cgc ccg cc
t gcc gcc tcc cga gcg cct gtg tgg ttt cca aaa aaa gac tta cag caa aat gaa tac tcc agc cat taa gag a
at agg aaa tca cat tac caa gtc tcc tga


Identita nt sekvencí b1-b2:

Identita ak sekvencí b1-b2:


                      VYUŽITÍ ALIGNMENTU PRO INTERPRETACI VÝSLEDKŮ SEKVENACE

Běžným užítím sequence alignmentu je analýza výstupu po sekvenaci. Detekujeme tak mutace (inzerce,
delece, substituce), které mohou mít vliv na sekvenci kódovaného proteinu – záměna aminokyseliny,
posunutí čtecího rámce, vytvoření nebo odstranění STOP kodonu, atd. Můžeme aplikovat pairwise
alignment nebo u více sekvencí multiple alignment.


ÚKOL 7

Následující sekvence obsahují inzerce. Určete, která z obou sekvencí je vhodnější pro budoucí práci
s proteinem a proč. Pro alignment použijte vámi zvolený program (lalign, ClustalW, případně jiný).


Původní gen:

atggctgattctcaaacgtcatccaaccgcgccggcgaattctcgattccgccgaataccgatttccgcgcgattttcttcgcgaatgccgccgagcaa
cagcacatcaaattgttcatcggcgacagccaggaacccgccgcgtatcacaagctgacgacgcgcgacggcccgcgcgaagccacgctgaattccggc
aacggcaagatccgtttcgaggtgtcggtgaacggcaagccgtcggcgaccgacgcgcgtctcgcgccgatcaacggcaagaagtcggacggctcgccg
ttcacggtcaacttcgggatcgtcgtgtcggaagacggccacgacagcgactacaacgacggcatcgtcgtgctccagtggccgatcggctga


Sekvence 1:

atggctgattctcaaacgtcatccaaccgcgccggcgaattctcgattccgccgaataccgatttccgcgcgattttcttcgcgaatgccgccgagcaa
cagcacatcaaaaatttgttcatcggcgacagccaggaacccgccgcgtatcacaagctgacgacgcgcgacggcccgcgcgaagccacgctgaattcc
ggcaacggcaagatccgtttcgaggtgtcggtgaacggcaagccgtcggcgaccgacgcgcgtctcgcgccgatcaacggcaagaagtcggacggctcg
ccgttcacggtcaacttcgggatcgtcgtgtcggaagacggccacgacagcgactacaacgacggcatcgtcgtgctccagtggccgatcggctga


Sekvence 2:

atggctgattctcaaacgtcatccaaccgcgccggcgaattctcgattccgccgaataccgatttccgcgcgattttcttcgcgaatgccgccgagcaa
cagcacatcaaattgttcatcggcgacagccaggaacccgccgcgtatcacaagctgacgacgcgcgacggcccgcgcgaagccacgctgaattccggc
aaaacggcaagatccgtttcgaggtgtcggtgaacggcaagccgtcggcgaccgacgcgcgtctcgcgccgatcaacggcaagaagtcggacggctcgc
cgttcacggtcaacttcgggatcgtcgtgtcggaagacggccacgacagcgactacaacgacggcatcgtcgtgctccagtggccgatcggctga


Vhodnější sekvence:

Důvod:


ÚKOL 8

Následující sekvence obsahují různé mutace. Určete, které z těchto sekvencí jsou použitelné pro
budoucí práci s proteinem a proč. Označte nejvhodnější sekvenci.


Originální sekvence:

atggctgattctcaaacgtcatccaaccgcgccggcgaattctcgattccgccgaataccgatttccgcgcgattttcttcgcgaatgccgccgagcaa
cagcacatcaaattgttcatcggcgacagccaggaacccgccgcgtatcacaagctgacgacgcgcgacggcccgcgcgaagccacgctgaattccggc
aacggcaagatccgtttcgaggtgtcggtgaacggcaagccgtcggcgaccgacgcgcgtctcgcgccgatcaacggcaagaagtcggacggctcgccg
ttcacggtcaacttcgggatcgtcgtgtcggaagacggccacgacagcgactacaacgacggcatcgtcgtgctccagtggccgatcggctga


Sekvence 1:

atggctgattctcaaacgtcatccaaccgcgccggcgagttctcgattccgccgaataccgatttccgcgcgattttcttcgcgaatgccgccgagcaa
cagcacatcaaattgttcatcggcgacagccaggaaccagccgcgtatcacaagctgacgacgcgcgacggcccgcgcgaagccacgttgaattccggc
aacggcaagatccgtttcgaggtgtcggtgaacggcaagccgtcggcgaccgacgcgcgtctcgcgccgatcaacggcaagaagtcggacggctcgccg
ttcacggtcaacttcgggatcgtcgtgtcggaagacggccacgacagcgactacaacgacggcatcgtcgtgctccagtggccgatcggctga


Sekvence 2:

atggctgattctcaaacgtcatccaaccgcgccggcgaattctcgattccgccgaataccgatttccgcgcgattttcttcgcgaatgccgccgagcaa
cagcacatcaaattgttcatcggcgacagccaggaacccgccgcgtatcacaagctgacgacgcgcgacggcccgcgcgtagccacgctgaattccggc
aacggcaagatccgtttcgaggtgtcggtgaacggcaagccgtcggcgaccgacgcgcgtctcgcgccgatcaacggcaagaagtcggacggctcgccg
ttcacggtcaactttgggatcgtcgtgtcggaagacggccacgacagcgactacaacgacggcatcgtcgtgctccagtggccgatcggctga


Sekvence 3:

atggctgattctcaaacgtcatccaaccgcgccggcgaattctcgattccgccgaataccgatttccgcgcgattttcttcgcgaatgccgccgagcaa
cagcacatcaaattgttcatcggcgacagccaggaacccgccgcgtatcacaagctgacgacgcgcgacggcccgcgctaagccacgctgaattccggc
aacggcaagatccgtttcgaggtgtcggtgaacggcaagccgtcggcgaccgacgcgcgtctcgcgccgatcaacggcaagaagtcggacggctcgccg
ttcacggtcaacttcgggatcgtcgtgtcggaagacggccacgacagcgactacaacgacggcatcgtcgtgctccagtggccgatcggctga


Sekvence 4:

aaggctgattctcaaacgtcatccaaccgcgccggcgaattctcgattccgccgaataccgatttccgcgcgattttcttcgcgaatgccgccgagcaa
cagcacatcaaattgttcatcggcgacagccaggaacccgccgcgtatcacaagctgacgacgcgcgacggcccgcgcgaagccacgctgaattccggc
aacggcaagatccgtttcgaggtgtcggtgaacggcaagccgtcggcgaccgacgcgcgtctcgcgccgatcaacggcaagaagtcggacggctcgccg
ttcacggtcaacttcgggatcgtcgtgtcggaagacggccacgacagcgactacaacgacggcatcgtcgtgctccagtggccgatcggctga


Sekvence

        Charakter mutace
        z hlediska genu

                        Charakter mutace
                        z hlediska proteinu

                                           Použitelná pro další práci (ANO/NE) a proč

1


2


3


4


                                          PROBLÉM REPETIC

Při porovnávání dvou celkově podobných sekvencí užíváme zpravidla metody globálního alignmentu. V
případě sekvencí, které jsou podobné jen v určité své části (např. jedné z domén), je vhodnější
použít lokální alignment. Ten má svůj význam i v případě proteinů s tzv. repeticemi, tj.
opakujícími se úseky, které jsou si navzájem podobné.


ÚKOL 9

Proveďte alignment následujících dvou sekvencí programem Align (http://www.ebi.ac.uk/Tools/psa/) s
použitím algoritmu Needle (globalní alignment) a Water (lokální alignment). V obou případech
nastavte parametr Gap open na 15.0 a výsledky porovnejte.


Sekvence 1 (AAL)

PTEFLYTSKIAAISWAATGGRQQRVYFQDLNGKIREAQRGGDNPWTGGSSQNVIGEAKLFSPLAAVTWKSAQGIQIRVYCVNKDNILSEFVYDGSKWIT
GQLGSVGVKVGSNSKLAALQWGGSESAPPNIRVYYQKSNGSGSSIHEYVWSGKWTAGASFGSTVPGTGIGATAIGPGRLRIYYQATDNKIREHCWDSNS
WYVGGFSASASAGVSIAAISWGSTPNIRVYWQKGREELYEAAYGGSWNTPGQIKDASRPTPSLPDTFIAANSSGNIDISVFFQASGVSLQQWQWISGKG
WSIGAVVPTGTPAGW


Sekvence 2 (RSL)

SSVQTAATSWGTVPSIRVYTANNGKITERCWDGKGWYTGAFNEPGDNVSVTSWLVGSAIHIRVYASTGTTTTEWCWDGNGWTKGAYTATN


      Identické ak

                  Podobné ak

                            Mezery

Needle


Water


Výše uvedené sekvence jsou příkladem repetic, tj. opakujících se podobných (homologních) úseků v
rámci jedné sekvence. Přítomnost repetic lze zjistit/ověřit programem RADAR
(http://www.ebi.ac.uk/Tools/Radar/).


ÚKOL 10

V sekvencích z úkolu 8 detekujte repetice pomocí programu Radar. Uveďte počet repetic zjištěných u
každé sekvence:


Sekvence 1:

Sekvence 2:


Sekvenci s více repeticemi rozdělte na jednotlivé repetice a proveďte multiple alignment pomocí
programu ClustalW. Která z residuí jsou v repeticích konzervována (zcela, částečně)? Využijte tzv.
consensus.