16/04/2015 Aminokyseli V Q* v" ' irf ** V*" B*" i'* * ,......,z ^ Mm4 ^duV ^ftu" K S*** Im ^ . Gly Ala G A Val Leu lie A V L 1 C 1. & I p Asn Gill Gl N E 0 R K H t s 1 f Phe Ser Thr Tyr F S T Y Trp Met Cys W M C 1 § oT Pro Sec Pyr P U O Třídění aminokyselin Aminokyseliny s podobnými \/Y "n f /\ ™" vlastnostmi mohou plnit v proteinu stejné funkce - bývají í1 m. /název(upopis dle vlastní volby)J SEKVENCESEKVENCESEKVENCESEKVENCES EKVENCESEKVENCEJ POVINNÉ VOLITELNÉ Scoring matrix (skórovací matice) Dvě sekvence považujeme za příbuzné, vycházejí-li ze společného předka; pak dobu potřebnou k jejich evoluci můžeme odvodit z množství rozdílů mezi nimi • Záměna aa je častější než inserce/delece. Pravděpodobnost změny jedné aminokyseliny na jinou je přímo úměrná podobnosti obou aminokyselin. Matice vzniká přiřazením hodnoty (pravděpodobnosti) jednotlivým dvojicím aminokyselin v závislosti na jejich vzájemné „zastupitelnosti" - pravděpodobnosti substituce Typy matic • PAM (Point Accepted Mutation) - založena na mutacích v rámci globálního alignmentu, tj. ve vysoce konzerovovaných i mutabilních Oblastech. PAM 250 znamená, že 250 mutací na 100 AA může nastat, PAM 10 akceptuje pouze 10 na 100, takže pouze velice podobné sekvence dosáhnou na pozitivní skóre. • BLOSUM (Blocks Substitution Matrix) - je odvozena z vysoce konzervovaných oblastí neobsahujících mezery - z těch počítá relativní zastoupení aa a pravděpodobnost jejich substitucí -» lepší pro lokální alignment. Je využívána v blastp, vhodná pro identifikaci neznámé nukleotidové sekvence. BLOSUM matňces vysokými čísly je dobrá pro porovnáni vysoce příbuzných sekvencí, zatímco nízké pro relativně vzdálené podobnosti • GONNET- vytvořena 1992, postupným opakováním cyklu: pairwise alignment - nová matice - nový pairwise alignment - nová matice... • DNA identity matrix V rámci jednoho typu existuje více jednotlivých matic založených na stejném principu, které se však liší konkrétními hodnotami a tedy i oblastí použití (vysoce příbuzné nebo naopak velmi vzdálené sekvence). PAM - Point Accepted Mutation Constructed by Margaret Dayhoff in 1978. Zahrnuje pravděpodobnost záměny jedné aminokyseliny v druhou během evoluce Předpokládá, že každá další mutace nezávisí na předchozí. Odvozena z globálního alignmentu 71 rodin proteinů (Podobnost sekvencí v rodině > 85%) vysoká spolehlivost alignmentu vysoká pravděpodobnost, že záměna aminokyseliny je dána jedinou mutací Vypočtena pravděpodobnost s jakou jedna AA se změní na jakoukoliv jinou Matice PAM 250 c 12 G -3 5 í f P -3 -1 6 h2n S 0 1 1 1 1 T A -2 1 1 1 2 hc T -2 0 0 1 1 3 D -5 1 -1 0 0 0 4 Val i n Isoleucin G E -5 0 -1 0 0 0 3 4 N -4 0 -1 1 0 0 2 1 2 Q -5 -1 0 -1 0 -1 2 2 1 4 H -3 -2 0 -1 -1 -1 1 1 2 3 6 K -5 -2 -1 0 -1 0 0 0 1 1 0 5 R -4 -3 0 0 -2 -1 -1 -1 0 1 2 3 6 V -2 -1 -1 -1 0 0 -2 -2 -2 -2 -2 -2 -2 4 M -5 -3 -2 -2 -1 -1 -3 -2 0 -1 -2 0 0 2 6 I -2 -3 -2 -1 -1 0 -2 -2 -2 -2 -2 -2 -2 4 2 5 L -6 -4 -3 -3 -2 -2 -4 -3 -3 -2 -2 -3 -3 2 4 2 6 F -4 -5 -5 -3 -4 -3 -6 -5 -4 -5 -2 -5 -4 1 0 12 9 Y 0 -5 -5 -3 -3 -3 -4 -4 -2 -4 0 -4 -5 2 -2 -1 -1 7 10 W -8 -7 -6 -2 -6 -5 -7 -7 -4 -5 -3 -3 2 6 -4 -5-2 0 0 17 C P S A T D E N Q H K R V M I L F Y W Glycin BLOSUM (Blocks Amino Acid Substitution) 1992, Henikoff and Henikoff database BLOCKS- používá koncept „bloků" k identifikaci proteinových rodin sekvenční motiv - konzervovaný aminokyselinový úsek conserved stretch of amino acids spojený se specifickou funkcí proteinu sekvenční blok - spárované motivy ze stejné proteinové rodiny bez mezer BLOSUM matrice byly vytvořeny na základě substitučních vzorů více než > 2 000 bloků (< 60 residuí) z 500 skupin proteinů nebere v potaz evoluci 3 16/04/2015 • BLOSUM62 - znamená, že ke konstrukci matrice byly použity proteiny s průměrnou identitou 62%. a — c = 4 • výskyt každého páru AA v každém a — e = 2 sloupci každého bloku je sečten c - e = 2 . Qjsia získána ze všech bloků slouží a - a = i pro výpočet BLOSUM matricí c - c = i Číslování BLOSUM jde v obráceném pořadí oproti PAM - čím menší číslo, tím odlišnější sekvence byly použity Matrix_I Best use_| Similarity (%) Pam40 Short highly similar alignments 70-90 PAM160 Detecting members of a protein family 50-60 PAM250 Longer alingments of more divergent sequences -30 BLOSUM90 Short highly similar alignments 70-90 BLOSUM80 Detecting members of a protein family 50-60 BLOSUM62 Most effective in finding all potential similarities 30-40 BLOSUM30 Longer alingments of more divergent sequences <30 Similarity column gives range of similarities that the matrix is able to best detect. Mezery (Gaps) Příčiny vzniku mezer: • Bodová mutace (velmi častá příčina) • Nepřesný crossover při meióze (inzerce nebo delece řetězce bází) • DNA slippage během replikace (vzniká repetice -opakující se sekvence v řetězci) • Inzerce retroviru • Translokace DNA mezi chromozomy Mezery nacházíme na začátku řetězce, uprostřed nebo na jeho konci. O ctgcggg---ggtaat i i i i i i i i —gcgg-agagg-aa- Mezery umožňují alignment sekvencí, kdy v jedné z nich došlo k deleci. Zvyšují však také možnost alignmentu náhodných sekvencí. Jejich přítomnost je proto vždy „penalizována . často více než substituce. Čím nižší je penalizace mezer, tím lepší (dokonalejší) bude alignment, ovšem z biologického hlediska může jít o nesmysl. Jednotlivé programy obvykle penalizují přítomnost mezery (gap open) a také zvyšují penalizaci s délkou mezery (gap ext). Krátká mezera: atcttcagtgtttcccctgttttgccc-atttagttcgctc ii i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i ii atcttcagtgtttcccctgttttgcccgatttagttcgctc Dlouhá mezera: atcttcagtgtttcccctgttttgccc--------------------atttagttcgctc ii i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i ii atcttcagtgtttcccctgttttgcccgcccccccccccccccccccatttagttcgctc Skóre Každé dvojici sekvencí je ve výsledku přiřazeno číslo - skóre, které určuje míru jejich podobnosti A TTGTCAAAGACfTTGÁGCTGATGCA T ■ II..... 1 1 !Jl ggcagaq tga^tgacaagggta tcg s= Síiůertfities, mismatches) - Z (gap penalties) Score . Max(S) Čím vyšší je skóre, tím vyšší je podobnost. Podle použité matice může být skóre i záporné. Příklad výpočtu AAEECCDDEEF AADDKKKEFGG Ve chvíli, kdy zafixujeme pozici dvou sekvencí, pak můžeme snadno vypočítat skóre pro dané přiložení (příklad BLOSUM 62): skóre pro dané přiložení = skóre na bázi jednotlivých aa + celková penalizace Například, celkové pozitivní skóre na úrovni jednotlivých aa aaeeccdd--eef aa----ddkkkefgg 4 + 4 +6+6 +1+5+6 = 32 Naopak, pro každou mezeru (-) je dána penalizace: první výskyt zleva -10, každá následující-1. aaeeccdd--eef aa----ddkkkefgg -10-1-1-1 -10-1 = -24 Celkové skóre 32 - 24 = 8 4 16/04/2015 DNA matice A 1 T -10000 1 G -10000 -10000 1 C -10000 -10000 -10000 1 A T G C Jako pozitivní je uvažována pouze shoda, jakákoliv substituce je vysoce penalizována; jsou však povoleny mezery. Multiple sequence alignment - MSA (mnohonásobné přiložení) Multiple alignment slouží k: • Nalezení „diagnostického vzoru" (diagnostic patterns) na jehož základě jsou charakterizovány proteinové rodiny • Odhalení či dokázání homologie mezi novou sekvencí a sekvencemi v databázích • Určení vzájemné příbuznosti sekvencí v rámci skupiny -tvorba fylogenetických stromů • Predikci sekundární a terciární struktury nových proteinů • Navržení primem (oligonukleotidů) pro PCR Metody MSA Dynamické programování (dynamic programming) - rozšíření pairwise alignmentu - náročné na paměť a čas, nevhodné pro více než 3-4 sekvence (n=rozměrný prostor) Progresivní alignment (progressive sequence alignment) - nejčastěji používaný k vytvoření alignmentu; využívá fylogenetické informace - hierarchický, nejdříve identifikuje nejpodobnější sekvence a následně inkorporuje ostatní Iterativní alignment (iterative sequence alignment) - odstraňuje problémy progresivního alignmentu, který je závislý na prvotním přiložení nejpodobnějších sekvencí pomocí opakování alignmentu pro podskupiny sekvencí následující po globálním alignmentu Hledání motivů - nalezení částí konzervovaných sekvenčních motivů pomocí globálního přiložení a následně „hodnocení" těcto úseků nezávisle na celé sekvenci Dynamické programování Simultánní alignment všech sekvencí - analogické pairwise alignmentu Programové balíky: MSA (Lipman et al., 1989) a DCA (Stoye et al., 1997), založené na Carrilově a Lipmanově algoritmu (1988) Využívá skórovací matice, ale vytváří n-rozměrný prostor (n = počet sekvencí) Extrémně náročný na výpočetní kapacity I při zjednodušení nepoužitelné pro více než cca 20 sekvencí Progresivní multiple alignment • Používá ho většina programů • Vznik-1987 Feng, D.-F. and Doolittle, R.F. (1987) J. Mol. Evol. 25, 351-360. 1) sestavení příbuzenského stromu (guide tree) na základě distanční matice (distance matrix) z nepřiložených sekvencí 0.92 0.65 A 0.79 B Počet exaktně stejných shod dělená celkovou délkou sekvence (ignoruje mezery)_ Progresivní multiple alignment Nejdříve provede pairwise alignment A a B 0.79 Pak přidá sekvenci C do předešlého alignmentu (inzerce mezer, pokud je potřeba) 2) tvorba párových alignmentu postupně podle příbuznosti (topologie guide tree) • Dnes obsahuje často iterativní smyčku 5 16/04/2015 Guide tree vs. phylogenetic tree Guide tree je vypočítán na základě matice vzdáleností (distance matrix) vytvořené podle skóre pairwise alignmentu. Výstupem je .dnd soubor. NEMA fylogenetický význam Phylocienetic tree je vypočten na základe vytvořeného MSA. Vzdálenosti mezi sekvencemi jsou vypočteny a uloženy jako .ph soubor. Následně je možno je využít pro konstrukci fylogenetického stromu (soubory .nj, .ph, .dst) pomocí zvolené metody (nj, phylip, dist). .dnd soubor ( ( PAIIĽ0.16435, RSIIĽ0.13654) :0.03384, ( CVIIĽ0.16563, BCLB:0.26800) :0.02264, ( ( BCLA:0.17899, BCLD:0.26633) :0.18717, BCLC:0.29707) :0.03484); Phylogram a cladogram Phylogram (phylogeny tree) - je rozvětvený diagram (strom), který naznačuje fylogenezi (postupný vývoj). Délka jednotlivých větví je úměrná velikosti změny v průběhu evoluce. Cladogram - rovněž strom, v němž však všechny větve mají stejnou délku. Ukazuje tak sice „společné předky" pro jednotlivé sekvence, ale ne množství změn, jež od té doby prodělaly (evoluční dobu). Phylogram a cladogram i-C Phylogram Cladogram Iterativní přístup (Gotoh, 1996; Notredame & Higgins, 1996) Vzniklý strom i alignment jsou následně optimalizovány do konvergence. Jinak jsou chyby vzniklé při prvním alignmentu (tvorba stromu) zachovány i ve výsledku. Nezaručuje nalezení nejlepšího výsledku, ale -na rozdíl od deterministických alternativ-je dostatečně robustní a dobře použitelný i pro velký počet sekvencí. Kombinace local a global alignment • S výhodou lze kombinovat lokální a globální alignment. • Lokální alignment může být reprezentován sadou kotvících bodů v místě dobré shody • Následný globální alignment pak tyto odpovídající úseky sekvencí zahrnuje (využito např. v ClustalW2) Programové balíky • Existují programy pro pairwise alignment i pro MSA • Využívají lokální nebo globální alignment nebo příp. kombinaci obou • Neexistuje univerzální „nejlepší" program - záleží na konkrétním použití 6 16/04/201 Pairwise alignment „programy" Oblasti použití: • Přímé porovnání dvou sekvencí • Vyhledávání podobných sekvencí v databázích íMltlQSS Needle & Water • vytvořeny 1970 Needleman S.B. and Wunsch CD. (1970) A general method applicable to the search for similarities in the amino acid sequence of two proteins. Journal of Molecular Biology 48: 443-453. • využívají dynamické programování • umožňují vložení mezer Needle - globální pairwise alignment, Needleman-Wunsch algoritmus Water - lokální pairwise alignment, Smith-Waterman algoritmus Nelze však spoléhat na zdánlivě dobrá řešení PLLSASIVSAPVVTSETYVDIPGLYLDVAKAGIRDGKLQVILNVPTPYATGNNFPGIYFAIATNQGWADGCFTYSSKV PESTGRMPFTLVATIDVGSGVTFVKGQWKSVRGSAMHIDSYASLSAIWGTAAPSSQGSGNQGAETGGTGAGNIG GGGERDGTFNLPPHIKFGVTALTHAANDQTIDIYIDDDPKPAATFKGAGAQDQNLGTKVLDSGNGRVRVIVMANGR PSRLGSRQVDIFKKSYFGIIGSEDGADDDYNDGIVFLNWPLG ERDGTFNLPPHIKFGVTALTHAANDQTIDIYIDDDPKPAATFKGAGAQDQNLGTKVLDSGNGRVRVIVMANGRPSR LGSRQVDIFKKSYFGIIGSEDGADDDYNDGIVFLNWPLGPLLSASIVSAPVVTSQTYVDIPGLYLDVAKAGIRDGKLQ VILNVPTPYATGNNFPGIYFAIATNQGWADGCFTYSSKVPESTGRMPFTLVATIDVGSGVTFVKGQWKSVRGSAM HIDSYASLSAIWGTAAPSSQGSGNQGAETGGTGAGNIGGGGKLAAALEIKRASQPELAPEDPEDVEHHHHHH X BLAST algoritmus BLAST (Basic Local Alignment Search Tool) Heuristický algoritmus jehož základem je hledání slov (několikapísmenných sekvencí), s dostatečnou podobností (poskytují dostatečně vysoké skóre v substituční matici) The BLAST Search Algorithm vnrd (IV = if g; [i— BCDre1l¥«hoM Hi tjfi-3í oŕing Stgmsnl Pa ■ i HÍP; • Tvorba k-písmenných slov ze vstupní sekvence pro proteiny typicky 3-písmenných (v případě DNA 11 -písmenných) • Porovnání slov na základě substituční matice algoritmus BLAST hledá na základě vloženého skóre slova, která jsou podobná každému slovu v zadané sekvenci. Vyhovující slova jsou následně uspořádána. • Prohledání databázových sekvencí Je hledána shoda s nalezenými vysoce podobnými slovy. • Rozšíření slov na segmenty D Přesné shody slov s databázovými sekvencemi jsou rozšiřovány oběma směry. To pokračuje dokud skóre pro tuto dvojici sekvencí je dostatečně vysoké. Novější verze BLAST u (BLAST2) má mj. níže nastavenu hladinu pro hledání podobných slov, což rozšiřuje možnost nalezení vzdálenějších homologů. f PQGEFŮ V.r.:: i-CJ-ľi U=d S írTT FASTA algoritmus Na rozdíl od algoritmu BLAST jsou zde tolerovány mezery. Proces: Obě porovnávané sekvence tvoří horizontální a vertikální osu grafu. Následně jsou jednotlivá slova z jedné sekvence porovnávána se slovy sekvence druhé. Odpovídající páry pak vytvoří sadu bodů. Body na úhlopříčce signalizují významnou shodu (či podobnost). Cílem je nalezení nejdelšího shodného úseku (úseku s nejvyšším skóre). aacggcttacg V dalších krocích jsou zahrnuty konzervativní změny pro nejlepší úseky z prvního prohledání. Program pak vyhledává možnost spojení více takových úseků (může mezi nimi být mezera, či jsou na různých diagonálách) a tyto spojené úseky jsou posouzeny z hlediska zadaných kriterií. Příklad porovnání sekvencí GGCTTTCGG a AACGGCTTACG 16/04/2015 MSA „programy" • Za posledních 15 let vzniklo pres 50 MSA programových balíků (Wallace, I. M., O'Sullivan, O., Higgins, D. G. and Notredame, C. (2006). M-Coffee: combining multiple sequence alignment methods with T-Coffee. Nucleic Acids Res. 34, 1692-1699.) • Clustal W (Thompson et al., 1994) • Clustal X (Thompson et al., 1997) • Dialign2 (Morgenstern, 1999) • T-Coffee (Notredame et al., 2000) • MAFFT (Katoh et al., 2002) • MUSCLE (Edgar, 2004) • Kalign (Lassmann, 2005) http://www.ebi.ac.uk/clustalw/ • V současné době nejužívanější program • První verze 1988 Higgins,D.G. and Sharp,P.M. (1988) CLUSTAL: a package for performing multiple sequence alignment on a microcomputer. Gene, 73, 237-244. • Dnes používané verze: Clustal W (Thompson et al., 1994) Clustal X (Jeanmougin et al., 1998) • Využívá progresivní alignment ClustalW: Jednotlivým sekvencím přiřazuje váhy (weight -W) podle četnosti zastoupení (čím více jsou si sekvence podobné, tím nižší mají váhu a naopak) a penalizuje přítomnost mezer v závislosti na jejich pozici (position-specific gap penalties) ClustalW2 - postup 1. Provedení pairwise alignmentů pro každou dvojici sekvencí a určení jejich podobnosti - v závislosti na množství neodpovídajících residuí a mezer 2. Sestavení příbuzenského stromu (similarity tree) 3. Kombinace alignmentů (viz. 1.) v pořadí dle příbuznosti - od nejvíce podobných k nejméně příbuzným (viz. 2.). Jednou vložené mezery jsou zachovány. Clustal W/Clustal X »d Pod alignmentem je uváděn tzv. consensus -dohodnuté symboly vyjadřující „konzervovanosť každého sloupce: * - identické residuum ve všech sekvencích - silně konzervovaný sloupec - slabě konzervovaný sloupec IPPNTiÍ^AIFFANAAEQQII^SLFIGDSQEPAAYHKLTTRDGe|rE—ATLNSGNGKIRFE LPPNTŕFI :aifyanaadrqi 'lklfiddapepaatfvgnsedg\ LPPNIř Fí rVTALVNSSAPQ LPPHIB Fí .VTALTHAANDQ i ívfvddnpkpaatfqgagtqd/n: i 3iyidddpkpaatfkgagaqdcn: —ftlnskggkirie ntqivnsgkgkvrw gtkvldsgngrvrvi Zlepšení přesnosti -strukturní informace • Sekvence s vyšší homologií (>40%) - vysoká přesnost alignmentů • Bez homologie - nepoužitelné • Tzv. twilight zone - málo podobné sekvence (nižší než 20% homologie) = špatná (méně než 30%) přesnost alignmentů Řešení: nejčastěji využití znalosti strukturní podobnosti (2D nebo 3D), která se během evoluce zachovává více než sekvence AK. Zopakování / shrnutí Alignment - přiložení sekvencí (2 nebo více) na základě podobnosti Využití pro hledání příbuznosti sekvencí, tvorba profilů proteinových rodin, aj. Řada programů využívajících rozdílné přístupy - použití závisí na vstupních datech a účelu Nejčastěji používaný (ClustalW) neznamená nejpřesnější - každý program je kompromisem mezi přesností a rychlostí Každý alignment potřebuje lidskou kontrolu !!! 8