Posuzování podobnosti sekvencí Nástroje pro párové přiložení (pairwise alignment) a vyhledávání lokálních podobností sekvencí Hledání v databázích • Textové vyhledávání příbuzných sekvencí v databázích - Neefektivní - chybí anotace řady sekvencí • Prohledávání databází podle podobnosti sekvencí -Výpočet lokálního přiložení (alignment) = uspořádání do 2 pod sebou ležících řádků tak, aby identické zbytky ležely pod sebou - Identifikace podobnosti a evoluční vzdálenosti Nástroje pro vyhledávání lokálních podobností sekvencí Sady programů zahrnujících algoritmy pro vyhledávání podobnosti v dostupných databázích sekvencí bez ohledu na to zdali dotazovaná sekvence je DNA nebo protein. • BLAST • FASTA • Altschul et al., 1990 • Lipman a Pearson 1985 • dostupný na serveru • dostupný na serveru NCBI EBI Princip hledání podobnosti • Sekvence jsou tvořeny symboly abecedy • Komplexita sekvence je určena počtem různých znaků, které se mohou vyskytovat v sekvenci (DNA = 4, proteiny = 20) • Algoritmy využívají heuristickou analýzu pro identifikaci krátkých homologických subsekvencí bez mezer s následným rozšiřováním vyhledávání v okolí subsekvencí s cílem získat lokálně uspořádané sekvence, do nichž mohou být vloženy mezery tak, aby přiložení bylo optimální Co je to BLAST? Basic Local Alignment Search Tool - Hledání lokálních podobností - Heuristický přístup založený na Smith-Watermanově algoritmu - Vyhledá nejoptimálnější přiložení sekvencí - Poskytuje data o statistické významnosti - Zobrazuje vzájemně párové přiložení sekvencí - Lokalizuje oblasti sekvencí s vysokou podobností a umožňuje zobrazení jejich primární struktury a funkce Výchozí stránka BLAST BLAST ► NCBIj BLAST Home Basic Local Alignment Search Tool BLAST finds regions of similarity between biological sequences, more,,. Learn more about how to use the new BLAST design BLAST Assembled Genomes Choose a species genome to search, or list all genomic BLAST databases. D Human ° Mouse ° Rat D Arabidopsis thatiana ° Oryza sativa " Bos taurus n Danio rerio ° Drosophila melanooaster n Gallus gallus D Pan troglodytes B Microbes n Apis mellifera I [Sign Inl EReqiste News New Human and Mouse pre-indexed databases Human and mouse genomic + transcript meg a blast searches now use a faster, indexed algorithmthat typically reduces run time by two thirds, as compared with standard meg a blast. 2007-09-0410:55:0(1 H| More BLAST news... Basic BLAST Tip of The Day Choose a BLAST program to run. nucleotide blast protein blast blastx cb lasen tblastx Search a nucleotide database using a nucleotide query Algorithms: blastn. megablast. discontiguous megablast Search protein database using a protein query Algorithms: blastp. psi-blast. phi-blast Search protein database using a translated nucleotide query Search translated nucleotide database using a protein query Search translated nucleotide database using a translated nucleotide query Specialized BLAST Using Genomic BLAST Genomic BLAST pages are helpful because they allow the genomic context of a BLAST search to be displayed in the Map Viewer. For example, discontiguous [cross-species) UegaBLAST against the human RefSeq transcript for albumin [NM_000477) can be used to identify the homolog in the rat genome. |i| More tips,,, Choose a type of specialized search (or database name in parentheses.) D Search trace archives D Find conserved domains in your sequence (cds) " Find sequences with similar conserved domain architecture (cdart) n Search sequences that have gene expression profiles [GEO) n Search immunoglobulins (IgBLAST) ° Search for SNEs (snp) http://www.ncbi-nlm.nih.gov/BLAST Uživatelské rozhraní BLAST • Home Tab: Odkaz na úvodní stránku • Recent Results Tab: Odkaz na výsledky, které jste získali za posledních 36 hodin • Saved Strategies Tab: Vyplněné vstupní formuláře pro hledání, které jste uložili do MyNCBI • Help Tab: Katalog s dokumentací a nápovědou profil je potom srovnán a lokálně přiřazen k sekvencím v proteinové databázi PSI-BLAST 15 aminokyselinových zbytků nebo delší Vyhledání proteinů podobných dotazovanému v okolí určitého vzoru PHI-BLAST Konzervativ ní domény Vyhledání konzervativních domén v dotazované sekvenci CD-search (RPS-BLAST) Konzervati vní domény Vyhledání konzervativních domén v dotazované sekvenci a identifikace ostatních proteinů s podobnou architekturou domén Conserved Domain Architecture Retrieval Tool (CDART) DNA Vyhledání podobných proteinů v přeložených databázích DNA Translated BLAST (tblastn) 5-15 zbytků Protein Hledání peptidových motivů Search for short, nearly exact matches Jak používat BLAST? http://blast.ncbi.nlm.nih.gov/Blast.cgi 1. Vybrat příslušný BLAST-program (blastn, blastp, blastx, tblastn, tblastx, specializované varianty algoritmů) 2. Vložit sekvenci (DNA nebo protein nebo Accession number) 3. Vybrat databázi, která má být prohledána 4. Upřesnit nastavení parametrů algoritmu 5. Odeslat požadavek na vyhledání Vložení sekvence Enter Query Sequence Enter accession numh&r. gl, or FASTA sequence [7] clear Query subrange (73 Fřůrti [ Tor Or, upload fil. I J Brows e... \m Job Title I Enter 5 descriptive [ide fůr your BLAST «örcH Eft >priklad sekvence GAATTCTTCAAAAAAGTATTCGTTGGATACACGGACAGTGAAGATCATTCAGAGGATTCTGCAAGTTCGTTACCCAGCTAACCCCCA AAATGTTGAAGTAGCAGTTAATTCAAAATCTGCAACAGTTTCAGCAGAATAGGGGCTTTCAAAATAAATCAAAGGAGAATAATTTAT GACTAAAACTTTAAAGGTTTATAAAGGAGACGACGTCGTAGCTTCTGAACAAGGTGAAGGCAAAGTGTCAGTAACTTTATCTAATTT AGAAGCGGATACAACTTATCCAAAAGGTACTTACCAAGTGGCATGGGAAGAAAATGGTAAAGAATCTAGTAAAGTTGATGTACCTCA ATTCAAAACCAATCCAATTCTAGTCTCAGGCGTATCATTTACACCCGAAACTAAATCAATCACGGTAAATGCTGATGACAATGTTGA ACCAAACATTGCACCAAGTACAGCAACGAATAAAACGTTGAAATATACAAGTGAACATCCAGAGTTTGTTACTGTTGATGAGAGAAC AGGAGCAATTCACGGTGTAGCTGAGGGAACTTCAGTTATCACTGCTACGTCTACTGACGGAAGTGACAAGTCTGGACAAATTACAGT AACAGTAACAAATGGATAATTATTTGAGACGCAGAATATCTGCGTCT Výběr databáze Choose Search Set Database Organum Optional Etitraz Query Optlonid C Human genomic + transcript C Moose genomic + iran&cript & Others (nr etcV | Reference mRJNA sequences (refseq.rna) ^| E] C Any r Human C A.thali&ta r Mouse Custom... F.I HI d ucMjJNed ypus (tajdd^2 561 S63 platypus (taxld:925ft) nduckbill p.Htypu$ (taxirj :9258) Platyh-Blmlnihes (taxid:61S7} End puityiThini (taxirj:9479) PtatJdiihys (Caxid 6259) Pr^ehlbys flesus rtaxld"B250} r> be shown. Others (nr etc.) = celá databáze (neredundantní nukleotidová nr/nt) Výběr podprogramu Program selection Op t im ii ď for <í HigWy similar sequer»ces (rnegablaat) C More dissimilar sequences {discontiguous moaaWast) ť~ Somewhat similar sequences (Wastn) Ahoose a BLAST aloorltnm [7] Úprava parametrů algoritmu T Algorithm parameters General Parameters Note: Parameter values that differ from the default are highlighted in yellow Max target sequences 100 Select the maximum number of aligned sequences to display >@j Short queries r^j Automatically adjust parameters for short input sequences '® Expect threshold 10 Word size 11 v Scoring Parameters Match/Mismatch Scores Gap Costs 2 -3 v Existence: 5 Extension: 2 v Filters and Masking Filter Mask 0 Low complexity regions '® D Species-specific repeats for: Human 0 Mask for lookup table only □ PJlask lower case letters "@ V7 BLAST Search database nr using Blastn (Optimize for somewhat similar sequences) ^]5how results in a new window Jak BLAST pracuje? • Proces zahrnuje 3 kroky 1. Příprava dotazu - rozseká zkoumanou sekvenci na krátké úseky a sestaví z nich vhodnou tabulku 2. Vyhledává shody v databázi 3. Rozšiřuje vyhledávání v oblasti nalezených shod, tak aby byla splněna zadaná kritéria Slova pro nukleotidové sekvence Dotaz: GTACTGGACATGGACCCTACAGGAA GTACTGGACAT . . , ... . -, Velikost slova = 11 minimální velikost = 7 TACTGGACATG blastn default = 11 tabulka se všemi ACTGGACATGG megablast default = 28 slovy dotazu CTGGACATGGA TGGACATGGAC GGACATGGACC GACATGGACCC ACATGGACCCT Slova pro proteinové sekvence Dotaz: GTQITVEDLFYNIATRRKALKN Velikost slova může být 2 nebo 3 (default = 3] ITV — LTV, MTV, ISV, LSV, etc. TVE VED EDL DLF = 3 tabulka se všemi slovy dotazu TQI QIT Sousedící slova Minimální požadavek pro shodu ATCGCCATGCTTAATTGGGCTT CATGCTTAATT přesná shoda slova 1 nalezená shoda • Nucleotidový BLAST vyžaduje jednu přesnou shodu • Proteinový BLAST vyžaduje dvě sousedící shody v úseku 40 aa GTQITVEDLFYNI SEI YYN sousedící slova 2 nalezené shody přiložení sekvencí, které BLAST může nalézt 1 AATGGTAAAGACTACTGGATCATTAAGAACTCCTGGGGAG I I I I I I I I I I I I I I I I I I I I I I II I I I I I I I I I I I I I 1 AATGGAAAAGACTACTGGATCATCAAAAACTCCTGGGGAG sekvence obsahují definovanou shodu slova přiložení sekvencí, které BLAST nemůže nalézt 1 GAATATATGAAGACCAAGATTGCAGTCCTGCTGGCCTGAACCACGCTATTCTTGCTGTTG I I I I I I I I I I I I I I I I II I I I I I I I I I I I I I I I I I I I 1 GAGTGTACGATGAGCCCGAGTGTAGCAGTGAAGATCTGGACCACGGTGTACTCGTTGTCG 61 GT TACGGAACCGAGAATGGTAAAGACTACT GGATCATTAAGAACT CCT GGGGAGCCAGT T I I I I I II I I I I I I I I I I I I I I I I I I I I I I I I I I I I 61 GCTATGGTGTTAAGGGTGGGAAGAAGTACTGGCTCGTCAAGAACAGCTGGGCTGAATCCT 121 GGGGTGAACAAGGTTATTTCAGGCTTGCTCGTGGTAAAAAC I I I I I I I I I I I I I II I I I I I I I I I I I 121 GGGGAGACCAAGGCTACATCCTTATGTCCCGTGACAACAAC BLASTn - Možnosti nastavení t Algorithm parameters General Parameters Note: Parameter values that differ from the default are highlighted in yellow Max target sequences Short queries Expect threshold Word size 100 Select the maximum number of aligned sequences to display 0 Automatically adjust parameters for short input sequences 10 11 v 9 < Scoring Param^is Match/Mismatch Scores Gap Costs 2.-3 v Existence: 5 Extension: 2 v Filters and Masking Filter Mask 0 Low complexity regions '® 0 Species-specific repeats for: 0 Mask for lookup table only ^ □ Mask lower case letters ^ 3AQRF1 MIiai^Tt^DTiTVliSEQSEGKV^VT LSNLEADIIYPKSI Y£VAWEENSKE 5 5K\OVTQFKINFILV^OT3F TPETK51 r^TIÄDDNVE FNIAFST ATNKTLKYT 5EHPE FVTVBERTGAIHGVAE ST SVÍTAT STDGS DK5GQI TVTVTNG From To Or, upload file Job Title Procházet.. 'Of 3A0RF-1 Enter a descriptive title for your BLAST search •£> Choose Search Set Database Swissprot protein sequencesfswissprot Organism Optional Entrez Query Optional Enter organism name or id-completions will be suggested 1 Protein database Enter organism common name, binomial, ortax id. Only 20 top taxa will be shown. Enter an Entrezquery to limit search Program Selection Algorithm,-, @ b|astp [pro.te.jn_pro.t&jn BLAST) O PSI-BLAST [Position-Specific Iterated BLAST} O PHI-BLAST (Pattern Hit Initiated BLAST) Choose a BLAST algorithm yj \7 Search database swissprot using Blastp (protein-protein BLAST) BLASTp - Možnosti nastavení t Algorithm parameters General Parameters Note: Parameter values that differ from the default are highlighted in yellow Max target sequences Short queries Expect threshold Word size 100 v < Select the maximum number of aligned sequences to display 85% - PAM1 reprezentuje 1% změn (1 mutace na 100 aminokyselinových zbytků) - PAM250 = (PAM1)250 PAM versus BLOSUM • PAM Matice (Percent Accepted Mutation) - Odvozené z pozorování; malé množství srovnávaných dat - vhodné pro evoluční modely - Všechny výpočty vycházejí z PAM1 - PAM250 je nejpoužívanější • BLOSUM (BLOck SUbstitution Matrices) - Odvozené z pozorování; velké množství vysoce konzervovaných sekvencí (BLOCKS) - Každá matice odvozená samostatně podle definované procentuální identity - BLOSUM62 - výchozí matice pro BLAST Blosum 45 Blosum 62 Blosum 90 PAM 250 PAM 150 PAM 100 Více divergentní ^^►Méně divergentní Obecné závěry • Klíčovým elementem vyhodnocujícím výsledky srovnání aminokyselinových sekvencí je substituční matice • Různé matice jsou přizpůsobené pro detekci podobností u sekvencí, které se vyznačují různým stupněm divergence • BLOSUM je vhodnější pro lokální srovnání - BLOSUM-62 je optimální pro detekci nízkých podobností proteinů - BLOSUM-45 je vhodnější pro detekci nízkých podobností u dlouhých sekvencí BLAST - grafický výstup Taxonomy reports Distribution of 30 Blast Hits on the Query Sequence P40692 DNA mismatch repair protein Mlhl (MutL protein homolog l..S= 233 E=8e-62 Color Key for Rlignnent Scores 50-80 ■ 80- 40-50 =200 1.1043G 0 50 -' 100 / pohyb myši Statistika lokálního přiložení • K posouzení významnosti shody nalezených úseků se používá numerická hodnota označovaná jako skóre sekvenčního přiložení (S) • Popisuje jeho celkovou kvalitu na základě porovnání pravděpodobnosti výskytu nalezených segmentů o určité sekvenční podobnosti s pravděpodobností, že se taková podobnost vyskytne mezi dvěma náhodnými sekvencemi • Vyšší číslo odpovídá vyšší podobnosti • Ekvivalentem skóre S je hodnota E („Expectation value"), která vyjadřuje počet různých sekvenčních přiložení se skórem shodným nebo vyšším než je hodnota S, jejíž výskyt je očekáván při náhodném vyhledávání v databázi. Výpočet hodnoty E (Expectation value) E = počet nálezů v databázi, které mohou být ojeveny náhodně E = mn 2 s Potom platí, že čím je hodnota E nižší, tím je skóre významnější. Score BLAST: popis výstupu Sequences producing significa seřazeno podle hodnot E ore E its) Value gi gi gi gi gi gi 730028 P40692|MLH1 HUMAN DNA mismatch repair protein 13878571 1709056 1171080 13431695 i n r^o n o o a i 13878583\sp|Q9JK91|MLH1 MOUSE DNA u P97 67 9IMLH1 RAT DNA mis MUTL p P38 92 0IMLHl YEAST 44494IMUTL HAEIN 4 X ÍO-56 otein . 1 (DNA. link to entrez DNA mismatch repair protein. 5788 6IMUTL PASMU DNA mismatch repair protei. DNA mismatch repair protein. DNA mismatch repair prote> nil gi 127553 sp P14161 MUTL SALTY MUTL THEMA 1 IMUTL BACHD MUTL ECOLI gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi 6225738 IspIQ9ZC88IMUTL RICPR 14194944 IspIQ9PJG5IMUTL CHLMU DNA mismatch repair protj DNA mismatch r DNA mismatch DNA mismatch. LocusLink 8928218 IspI 084579IMUTL CHLTR 20043258 IspIQ9KV13IMUTL VIBCH DNA mismatch repair protein. DNA mismatch repair protei. DNA mismatch repair protei. DNA mismatch repair protein. DNA mismatch repair protein. 8039787|sp|083325IMUTL TREPA DNA mismatch repair protein. 13631230 IspIQ9RP66IMUTL CAUCR 8928214 IspI 051229IMUTL BORBU 1709188 IspIP49850IMUTL BACSU 19856116 IspIP14160|HEff r-r-,-!--. -T-.-F. -r 3914082|sp|P70754|MUTI hßfnult £ Value CUtoff 10 11386926 I sp | P57633IMUŤ1 *^mUM & VUIUC LU,U| 1 ±KJ 8928240 I sp I Q9Z7 94 IMUTL CHLPN DNA mismatch re^ 1709684 IspIP54280IPMS1 SCHPO 233 8e-62 4e-56^B 212 le^5 72 ^^-13 ^/e-08 le-06 4e-06 46 le-05 44 5e-05 44 7e-05 40 7e-04 40 0.001 39 0.001 39 0.002 39 0.002 39 0.002 38 0.005 36 0.013 36 0.020 35 0.020 35 0.026 35 0.026 3914081 IspI 067518IMUTL AQUAE 1709685 IspIP54278IPMS2 HUMAN 1709686 IspIP54279IPMS2 MOUSE 8928222 IspIP73349IMUTL SYNY3 1709683 IspIP54277IPMS1 HUMAN 126232 IspIP02239ILGB1 LUPLU 126238 IspIP02240ILGB2 LUPLU DNA mism< ^ . . , , . . . . dna mism< Bacterial mismatch repair proteins PMSl protein homolog 2 fas. \ 33 0.16 PMS1 PROTEIN HOMOLOG 2 (DNA> DNA mismatch repair protein. PMSl protein homolog 1 (DNA. Leghemoglobin I Leghemoglobin II BLASTp - hledání konzervativních domén proteinů <Ž NCBÍ formatting JJíjAÄÍ Nucleotide Protein Translations Retrieve results for an RID Your request has been successfully submitted and put into the Blast Queue. Query = Mutated in Colon Cancer (131 letters) Putative conserved domains have been detected, click on the image below for detailed results. 30 40 60 80 100 130 131 DNR_nis_repair The request ID is |1038888657-012751-16086 The results are estimated to be ready in 36 seconds but may be done sooner. BLAST - výstup u srovnání proteinových sekvencí >gi|127552|sp|P23367|MUTL_ECOLI DNA mismatch repair protein mutL Length = 615 Score =44.3 bits (103), Expect = 5e-05 Identities = 25/59 (42%), Positives = 33/59 (55%), Gaps = 8/59 (13%) Query: 9 LPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHF-----LHE---ESILERVQQHIESKL 59 L + P L LEI P VDVNVHP KHEV F +H+ + +L +QQ +E+ L Sbjct: 280 LGADQQPAFVLYLEIDPHQVDVNVHPAKHEVRFHQSRLVHDFIYQGVLSVLQQQLETPL 338 BLAST - výstup filtrování sekvencí >gi|730028|sp|P40692|MLH1_HUMAN DNA mismatch repair protein Mlhl 1) Length = 756 Score = 233 bits (593), Expect = 8e-62 Identities = 117/131 (89%), Positives = 117/131 (89%) Query: 1 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 60 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL Sbjct: 276 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 335 Query: 61 GSNS SRMYF TQTLLP GLAGP SGEtiVKXXXXXXXXXXXXXXDJKVYAHQMVRTD SREQKLDA 120 GSNSSRMYFTQTLLPGLAGPSGEMVK DKVYAHQMVRTDSREQKLDA Sbjct: 336 GSNSSRMYFTQTLLPGIiAGPSGEMVKSTTSLTSSSTSGSSDKVYAHQMVRTDSREQKLDA 395 Query: 121 flqplskplss 131 sekvence s nízkou komplexitou FLQPLSKPLSS Sbjct: 396 FLQPLSKPLSS 406 BLAST - příklad výstupu u DNA 40-50 50-80 80-200 0 500 1000 1500 2000 2500 3000 3500 4000 4500 'SS SS nun Score = 202 bits (102) , Expect = 5e-48 identities = 179/207 (86%) Strand = Plus / Plus Query: 2500 aagttaacttaaataatgcgcaaggc-------gatttgggatatttaactgctggtaat 255 9 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I Sbjct: 36439 aagttaacttaaataatgcgcaagggcgtttgggatttgggatatttaactgctggtaat 364 98 Query: 2560 tactatgcaacaagagtgccggatttaccaggtagcgttgaaagttatgagggttattta 2619 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I Sbjct: 36499 tactatgcaacaagagtgccggattt-ccaggtagcgttgaaagttatgagggttattta 36558 Query: 2620 actttagatgctatccagagggaaagacagatagacgnnnnnnnnnngaaagaaaacgac 2 67 9 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I Sbjct; 36559 accttagatgctattcaaaaagaaagagaaatagatgaaaagaaaaagaaagaaaatgat 36618 Query: 2680 aaaaatatacgcgatatgaaaatgtgg 2706 II II I I I I I I I I I I I I I I I I I I I I Sbjct: 36619 aagaacatacgtgatatgaaaatgtgg 36645 EB-evE Search Go Reset ® Advanced Search Cr; t us feedback IS EBI Groups Training Industry About Us Help Site Index Ma Fasta3 (EBI) Help Index General Help Formats Gaps Matrix References Fasta Help MView Help VisualFasta Help View all Fasta's at EBI Fasta Programmatic Access Database Information Similar Applications ■Fasta ■Blast ■MPsrch ■scanps EBI > Tools > Similarity & Hamrjbgy > Fasta Fasta - Nucleotide Similarity Search Provides sequence similarity searching against nucleotide and protein databases using the Fasta programs. Fasta can be very specific when identifying long regions of low similarity especially for highly diverged sequences. You can also conduct sequence similarity searching against complete proteome or genome databases using the Fasta programs . I Download Software PROGRAM DATABASES RESULTS fasta3 V Nucleic Acid V email V fasta3 II EMBL Release A-l tfastx3 tfasty3 EMBL Updates EMBL Coding Sequence v. SEARCH TITLE .Sequf YOUR EMAIL jence MATRIX GAP OPEN GAP EXTEND KTUP EXPECTATION EXPECTATION UPPER VALUE LOWER VALUE none -14 v -4 10.0 default v D NA STRAN D HI STO G RAM MOLECULE TYPE both nc DNA SCORES ALIGNMENTS 50 v 50 v SEQUENCE RANGE START-END DATABASE RANGE START-END FILTER STATISTICAL ESTIMATES none V Regress V Enter or Paste a DNA/RNA v Sequence in any format: |" Help Upload a file: Procházet.. Run Fssta3 Metoda tečkové (Dot-Plot) matice Bodový diagram vzájemné podobnosti sekvencí - nejjednodušší pomůcka pro posouzení podobnosti Každý zbytek z jedné sekvence je srovnáván s každým zbytkem ve druhé sekvenci První sekvence tvoří osu x a druhá sekvence osu y; shoda je vyjádřena tečkou V oblastech, kde jsou si obě sekvence navzájem podobné tvoří řádek vysokých skóre diagonální linii přes tečkovou matici Podobné sekvence pak tvoří přerušované diagonální linie. Po odfiltrování diagonál kratších než 3 tečky ■ je výsledkem grafické vykreslení podobností [ sekvencí ve formě čtvercové nebo j trojúhelníkové matice zobrazené ; v sedé škále j MTFRDLLSVSFEGPRPOSSAGGSSAGG X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X Příklad: Dot-plot pro 3 virové genomy s různým stupněm podobnosti Globální sekvenční přiložení posuzuje podobnost celých dlouhých sekvencí Nalezení nej efektivnější transformace jedné sekvence do druhé vyžaduje využití dynamického programování AGTGCCCTGGAACCCTGACGGTGGGTCACAAAACTTCTGGA • Bodové změny, delece • Inverze • Translokace • Duplikace • Kombinace uvedených změn Lokální versus globalizované sekvenční přiložení • Pro optimální lokální alignment požadujeme dosažení nejlepšího skóre kdekoli v matrici LOKÁLNÍ - nejlepší sekvenční přiložení segmentů bez ohledu na zbytek sekvence Smithův-Watermanův algoritmus • Pro optimální globální alignment požadujeme dosažení nejlepšího skóre v celém řádku/sloupci GLOBÁLNÍ - nejlepší sekvenční přiložení celých sekvencí Needlemanův-Wunschův algoritmus Lokální sekvenční přiložení 1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAATTAAAGAGGAGGTAGACCG.... 6 7 1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 7 0 14 TCAGAAGCAGCTAAAGCGT I I I I I I I I I I I I I I I I I I 4 2 TCAGAAGCA.CTAAAGCGT 1 AGGATTGGAATGCT I I I I I I I I I I I I I I 1 AGGATTGGAATGCT 3 9 AGGATTGGAAT I I I I I I I I I I I 1 AGGATTGGAAT 62 AGACCG I I I I I I 6 6 AGACCG Globální sekvenční přiložení 1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAATTAAAGAGGAGGT---AGACCG 67 1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 7 0 Dvě sekvence sdílejí oblasti s lokální podobností (end-to-end alignment) Adresy služeb pro lokální přiložení http://www.ebi.ac.uk/Tools/sss/ FASTA FASTA© FASTA is another commonly used sequence similarity search tool which uses heuristics for fast local alignment searching. Protein Nucleotide Genomes Whole Genome Shotgun SSEARCH © SSEARCH is an optimal (as opposed to heuristics-based) local alignment search tool using the Smith-Waterman algorithm, Optimal searches guarantee you find the best alignment score For your given parameters, Protein Nucleotide Genomes Whole Genome Shotgun PSI-Search © PSI-Search combines the sensitivity of the Smith-Waterman search algorithm (SSEARCH) with the PSI-BLAST profile construction strategy to find distantly related protein sequences. Protein GGSEARCH © GGSEARCH performs optimal global-global alignment searches using the Needleman-Wunsch algorithm, Protein Nucleotide GLSEARCH © GLSEARCH performs an optimal sequence search using alignments that are global in the query but local in the database sequence. This can be useful when you want to match all of a short query sequence to part of a larger database sequence. Protein Nucleotide BLAST NCBI BLAST© NCBI BLAST is the most commonly used sequence similarity search tool. It uses heuristics to perform fast local alignment searches. Protein Nucleotide A, Vectors WU-BI AST © WU-BLAST is similar to MCBI BLAST but combines multiple parameter options into a simpler 'sensitivity' setting, Protein Nucleotide PSI BLAST© PSI-BLAST allows users to construct and perform a BLAST search with a custom, position-specific, scoring matrix which can help find distant evolutionary relationships. PHI-BLAST functionality is also available to restrict results using patterns. Protein ENA Sequence Search EMBL-EBI has a new nucleotide search tool which is far faster than BLAST for large datasets, with only a marginal loss in search sensitivity. Try it out at ENA Sequence Search.