Posuzování podobnosti sekvencí Nástroje pro párové přiložení (pairwise alignment) a vyhledávání lokálních podobností sekvencí Hledání v databázích • Textové vyhledávání příbuzných sekvencí v databázích - Neefektivní - chybí anotace řady sekvencí • Prohledávání databází podle podobnosti sekvencí -Výpočet lokálního přiložení (alignment) = uspořádání do 2 pod sebou ležících řádků tak, aby identické zbytky ležely pod sebou - Identifikace podobnosti a evoluční vzdálenosti Nástroje pro vyhledávání lokálních podobností sekvencí Sady programů zahrnujících algoritmy pro vyhledávání podobnosti v dostupných databázích sekvencí bez ohledu na to zdali dotazovaná sekvence je DNA nebo protein. • BLAST • FASTA • Altschul et al., 1990 • Lipman a Pearson 1985 • dostupný na serveru • dostupný na serveru NCBI EBI Princip hledání podobnosti • Sekvence jsou tvořeny symboly abecedy • Komplexita sekvence je určena počtem různých znaků, které se mohou vyskytovat v sekvenci (DNA = 4, proteiny = 20) • Algoritmy využívají heuristickou analýzu pro identifikaci krátkých homologických subsekvencí bez mezer s následným rozšiřováním vyhledávání v okolí subsekvencí s cílem získat lokálně seřazené sekvence, do nichž mohou být vloženy mezery Co je to BLAST? Basic Local Alignment Search Tool - Hledání lokálních podobností - Heuristický přístup založený na Smith-Watermanově algoritmu - Vyhledá nejoptimálnější přiložení sekvencí - Poskytuje data o statistické významnosti - Zobrazuje vzájemně párové přiložení sekvencí - Lokalizuje oblasti sekvencí s vysokou podobností a umožňuje zobrazení jejich primární struktury a funkce Výchozí stránka BLAST O BLAST Basic Coca/ Alignment Search Toot I Mv HCBI B I Home Recent Results Saved Strategies Help iJrSkin lni [Reciisterl|| ► NCBiy BLAST Home BLAST finds regions of similarity between biological sequences, more.. Learn more about how to use the new BLAST design BLAST Assembled Genomes Choose a species genome to search or list all genomic BLAST databases. n Human n Mouse ° Rat n Arabidopsis thaliana ° Oryza sativa ° Bos taurus n Banio rerio n Drosophila metanogaster D Gaitus gaitus n Pan troglodytes ° Microbes n Apis meltifera News New Human and Mouse pre-indexed databases Human and mouse genomic + transcript megablast searches now use b faster, indexed algorithm that typically reduces run time by two thirds, as camp a red with standard meg a blast. 2DQ7-0B-Q41Q: 55:00 |e| More BLAST news,. Basic BLAST Tip of the Day Choose a BLAST program to run. nucleotide blast protein blast blastx tblastn tblastx Search a nucleotide database using a nucleotide query Algorithms: blastn. megablast. discontiguous megablast Search protein database using a protein query Algorithms: blast p. psi-blast. phi-blast Search protein database using a translated nucleotide query Search translated nucleotide database using a protein query Search translated nucleotide database using a translated nucleotide query Specialized BLAST Choose a type of specialized search (or database name in parentheses.) n Search trace archives n Find conserved domains in your sequence [cds) n Find sequences with similar conserved domain architecture (cdart) n Search sequences that have gene expression profiles [GEO) n Search immunoglobulins (IgBLAST) ° Search For SNPs(snp) Using Genomic BLAST Genomic BLAST pages are helpful because they allow the genomic context of a BLAST search to be displayed in the Hap Viewer. For example, discontiguous [cross-species} MegaBLAST against the human RefSeq transcript for albumin ftKJXKMTT) can be used to identify the homo log in the rat genome. |s| More lips., http://www.ncbi.nlm.nih.gov/BLAST Uživatelské rozhraní BLAST BLAST Hum flacD-nt Result* iavad SlralDglcs Help Basic Locat Alignment and Search Toot • Home Tab: Odkaz na úvodní stránku • Recent Results Tab: Odkaz na výsledky, které jste získali za posledních 36 hodin • Saved Strategies Tab: Vyplněné vstupní formuláře pro hledání, které jste uložili do MyNCBI • Help Tab: Katalog s dokumentací a nápovědou NCBL Horned Genomic Biology*- BLAST Search | Map Viewer y Go Clear ► NCBIi BLAST Home BLAST finds regions of similarity between biolot seqi Learn more about how to use the new BLAST design BLAST Assembled Genomes Choose a species genome to search, or list all genomic BLA D Human a Mouse a Rat n Arabidopsis tbatiana Basic BLAST Q Oryza sativa ° Bos taurus n Panto rerio n Drosophila metat Choose a BLAST program to run nucleotide blast protein blast blastx '.bias t»i Lblaslx Search a nucleotide database using a n Algorithms: blastn megablast. disco Search protein database using a proteir Algorithms: blast p. psi-blast. phi-bla: Search protein database using a transla Search translated nucleotide database Search translated nucleotide database Specialized BLAST Choose a type of specialized search (or database name in pare D Search trace archives n Find conserved domains in your sequence (cds) ° Find sequences with similar conserved domain architect D Search sequences that have gene expression profiles (G D Search immunoglobulins (IgBLAST) n Search for SHPs (snp) BLAST Overview FAQs News Manual References Retrieve results Genome Project BLAST Drosophila melanogaster Sequences. © Enter an accession, gi, or a sequence in FASTA format: O Or, choose a file to upload Procházet.. Set subsequence: (optional) From: To: Database: genome (reference only) 6 sequences Program: megaBLAST: Compare highly related nucleotide sequences Optional parameters Expect Filter Descriptions Alignments 100 v 100 v Advanced options: Begin Search Clear Input Get the URL with preset values 7 | G&t URL Basic BLAST - výběr programů Využití jednotlivých programu BLAST Program Dotaz Databáze blastn DNA DNA blasp Protein Protein blastx DNA Protein tblastn Protein DNA tblastx DNA DNA Úroveň srovnání DNA Protein Protein Protein Protein Použití Hledání identických sekvencí DNA Hledání homologních proteinů Hledání genů a homologních proteinů na DNA Hledání genů u necharakterizovaných DNA Studium struktury genů Příklady využití programů Volba programu, jestliže Vaše sekvence je NUKLEOTIDOVÁ Délka Databáze Účel vyhledávání BLAST Program 20 bp nebo delší DNA Identifikace dotazované sekvence MEGABLAST Standard BLAST (blastn) Vyhledání podobných sekvencí jako dotazovaná Standard BLAST (blastn) Vyhledání podobných proteinů k překladu dotazované sekvence v přeložených databázích DNA Translated BLAST (tblastx) Protein Vyhledání podobných proteinů k překladu dotazované sekvence v databázích proteinů Translated BLAST (blastx) 7 - 20 bp DNA Vyhledání vazebných míst primem nebo krátkých motivů Search for short, nearly exact matches Volba programu, jestliže Vaše sekvence je PROTEIN Délka Databáze Účel vyhledávání BLAST program 15 aminokyselinových zbytků nebo delší Protein Identifikace dotazované sekvence nebo vyhledání sekvencí podobných proteinů Standard Protein BLAST (blastp) Vyhledání členů proteinové rodiny, tvorba vlastní pozičně-specifické matice a konstrukce profilu profil je potom srovnán a lokálně přiřazen k sekvencím v proteinové databázi PSI-BLAST Vyhledání proteinů podobných dotazovanému v okolí určitého vzoru PHI-BLAST Konzervativní domény Vyhledání konzervativních domén v dotazované sekvenci CD-search CRPS-BLAST) Konzervativní domény Vyhledání konzervativních domén v dotazované sekvenci a identifikace ostatních proteinů s podobnou architekturou domén Conserved Domain Architecture Retrieval Tool (CDART) DNA Vyhledání podobných proteinů v přeložených databázích DNA Translated BLAST (tblastn) 5-15 zbytků Protein Hledání peptidových motivů Search for short, nearly exact matches Jak používat BLAST? http://www.ncbi.nlm.nih.gov/BLAST 1. Vybrat příslušný BLAST-program (blastn, blastp, blastx, tblastn, tblastx) 2. Vložit sekvenci (DNA nebo protein nebo Accession number) 3. Vybrat databázi, která má být prohledána 4. Upřesnit nastavení parametrů algoritmu 5. Odeslat požadavek na vyhledání Vložení sekvence Enter Que ry Sequence Enter accession numbarh gi, or FASTA sequence [?1 Clear Fřůrfl \ To I Or, upload fill Job Till t Browse... I Enter a descriptive title for your BLAST searcM >priklad sekvence GAATTCTTCAAAAAAGTATTCGTTGGATACACGGACAGTGAAGATCATTCAGAGGATTCTGCAAGTTCGTTACCCAGCTAACCCCCA AAATGTTGAAGTAGCAGTTAATTCAAAATCTGCAACAGTTTCAGCAGAATAGGGGCTTTCAAAATAAATCAAAGGAGAATAATTTAT GACTAAAACTTTAAAGGTTTATAAAGGAGACGACGTCGTAGCTTCTGAACAAGGTGAAGGCAAAGTGTCAGTAACTTTATCTAATTT AGAAGCGGATACAACTTATCCAAAAGGTACTTACCAAGTGGCATGGGAAGAAAATGGTAAAGAATCTAGTAAAGTTGATGTACCTCA ATTCAAAACCAATCCAATTCTAGTCTCAGGCGTATCATTTACACCCGAAACTAAATCAATCACGGTAAATGCTGATGACAATGTTGA ACCAAACATTGCACCAAGTACAGCAACGAATAAAACGTTGAAATATACAAGTGAACATCCAGAGTTTGTTACTGTTGATGAGAGAAC AGGAGCAATTCACGGTGTAGCTGAGGGAACTTCAGTTATCACTGCTACGTCTACTGACGGAAGTGACAAGTCTGGACAAATTACAGT AACAGTAACAAATGGATAATTATTTGAGACGCAGAATATCTGCGTCT Výběr databáze Choose Search Set Organism Options C Human genomic + iranscnpr Mouse ^ůrtomlc + iran&cript ŕ Othere (nr etc); Reference m RNA sequences (refseq^rnaj _^J [?] ť Any ť* Human ^ A.thůíiofíů C Mouse ť* Custom,., duckbilled yfH«(tBKíd^2&B) Sea plaiypua [taxIdiSÍSS] Eľitru Qu«ry Options r íuCHblIŕ p-iHĽypu-H r.iŕ-:>iri Platytwlmlriihes (taxid:615T} EnH Piaty rmink (ta xitj^479j Platlctiihys (taxid 6259) fr'^lehlhvs flesus ftaxId-SÍSO} be shown Others (nr etc.) = celá databáze (neredundantní nukleotidová nr/nt) Výběr podprogramu Program selection Opti-nize for Short queries [7] Automatically adjust parameters for short input sequences $ Expect threshold [TTj I Word size 11 v Scoring Parameters Match/Mismatch Scores Gap Costs 2 -3 v Existence: 5 Extension: 2 v Filters and Masking Filter 0 Low complexity regions ^ □ Species-specific repeats for: Human 0 Mask for lookup table only □ Mask lower case letters '© Search database nr using Blastn (Optimize for somewhat similar sequences) Z|5how results in a new window Jak BLAST pracuje? • Proces zahrnuje 3 kroky 1. Příprava dotazu - rozseká zkoumanou sekvenci na krátké úseky a sestaví z nich vhodnou tabulku 2. Vyhledává shody v databázi 3. Rozšiřuje vyhledávání v oblasti nalezených shod, tak aby byla splněna zadaná kritéria Slova pro nukleotidové sekvence Dotaz. GTACTGGACATGGACCCTACAGGAA GTACTGGACAT . . , ... . -, Velikost slova = 11 minimální velikost = 7 TACTGGACATG blastn default = 11 tabulka se všemi ACTGGACATGG me9ablast default = 28 slovy dotazu CTGGACATGGA TGGACATGGAC GGACATGGACC GACATGGACCC ACATGGACCCT Slova pro proteinové sekvence Dotaz. GTQITVEDLFYNIATRRKALKN Velikost slova může být 2 nebo 3 (default = 3; ITV — LTV, MTV, ISV, LSV, etc. TVE VED EDL DLF tabulka se všemi slovy dotazu TQI QIT Sousedící slova Minimální požadavek pro shodu ATCGCCATGCTTAATTGGGCTT catgcttaatt přesná shoda slova 1 nalezená shoda • Nucleotidový BLAST vyžaduje jednu přesnou shodu • Proteinový BLAST vyžaduje dvě sousedící shody v úseku 40 aa GTQITVEDLFYNI SEI YYN sousedící slova 2 nalezené shody přiložení sekvencí, které BLAST může nalézt 1 AATGGTAAAGACTACTGGATCATTAAGAACTCCTGGGGAG I I I I I I I I I I I I I I I I I I I I I I II I I I I I I I I I I I I I 1 AATGGAAAAGACTACTGGATCATCAAAAACTCCTGGGGAG sekvence obsahují definovanou shodu slova přiložení sekvencí, které BLAST nemůže nalézt 1 GAATATATGAAGACCAAGATTGCAGTCCTGCTGGCCTGAACCACGCTATTCTTGCTGTTG I I I I I I I I I I I I I I I I II I I I I I I I I I I I I I I I I I I I 1 GAGTGTACGATGAGCCCGAGTGTAGCAGTGAAGATCTGGACCACGGTGTACTCGTTGTCG 61 GTTACGGAACCGAGAATGGTAAAGACTACTGGATCATTAAGAACTCCTGGGGAGCCAGTT I I I I I II I I I I I I I I I I I I I I I I I I I I I I I I I I I I 61 GCTATGGTGTTAAGGGTGGGAAGAAGTACTGGCTCGTCAAGAACAGCTGGGCTGAATCCT 121 GGGGTGAACAAGGTTATTTCAGGCTTGCTCGTGGTAAAAAC I I I I I I I I I I I I I II I I I I I I I I I I I 121 GGGGAGACCAAGGCTACATCCTTATGTCCCGTGACAACAAC BLASTn - Možnosti nastavení T Algorithm parameters Genera! Parameters Max target Note: Parameter values that differ from the default are highlighted in yellow sequences ^ Select the maximum number of aligned sequences to display >Qf Short queries g Automatically adjust parameters for short input sequences Expect threshold >Qj) Word size 11 v Scoring Param«Q| Match/Mismatch Scores Gap Costs 2 -3 - Existence: 5 Extension: 2 Fffters and Masking Filter Mask 0 Low complexity regions '® 0 Species-specific repeats for: Human Human v 0 Mask for lookup table only Rodents i—i .d, Arabidopsis |_| Mask lower case letters * pjjc& Mammals Fungi C. elegans A. gambiae Zebrafish Search database nr using Blast 0Show results in a new window Fruit fly somewhat similar sequences) Proteinový BLAST NCBiy BLAST/ blastp suite: BLASTP programs search protein databases using a protein query, mere.. Reset page Bookmark Enter Query Sequence Enter accession number, gi, or FASTA sequence >3AORFl 1ÍIKT LKVYKSDDVVA5EÍÍGEGKV3V1 LSNIZMTCIYPKGTYQVAWEENGKE 5 SKVDVTQFKINPILVSGV5 F I FE IKS I IVNAJDNVE FNIAFSIAIHKILKYT 5E fiFE FvTVDERT Säl fiSVAE SI 3VII AI 51DSS DKS SQI TVTVTNG ■v; From To Or, upload file Job Title Procházet.. ] ® 3A0RF1 Enter a descriptive title for your BLAST search Choose Search Set Database Swissprot protein sequencesfswissprot Organism Optional Entrez Query Optional Enter organism name or id-completions will be suggested Protein database Enter organism common name, binomial, ortax id. Only 20 top taxa will be shown. .£j> Enter an Entrezqueryto limit search í významnost šší významnost -1 0-2-3-2 1 2-1 5 -2 -3 -3-3-1 O 0-3 O 6 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 O O 0-1-2-2 O -1 -2 -1 4 1 5 f-1 -2 -1 Negativní pro málo pravděpodobné substituce ^ x _4 _3 _2Q Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 V 0-3-3 -3 -1 -2 -2 -3 -3 3_1 X 0 - Pozitivní pro více pravděpodobné substituce —n-d-c-q-e-g-n-1-~n-r "KT -3 -2-2 2 7 -2 -2 0-3-1 4 2 0 0-2-1-1 P S T W Y V -1 X Matice PAM • PAM - Percent Accepted Mutation - založeny na konceptu akceptovatelných bodových mutací za 108 let v globálních mnohonásobných přiloženích - Stanoveny na základě výpočtů u blízce příbuzných proteinů s identitou > 85% - PAM1 reprezentuje 1% změn (1 mutace na 100 aminokyselinových zbytků) - PAM250 = (PAM1)250 PAM versus BLOSUM • PAM Matice (Percent Accepted Mutation) - Odvozené z pozorování; malé množství srovnávaných dat - vhodné pro evoluční modely - Všechny výpočty vycházejí z PAM1 - PAM250 je nejpoužívanější • BLOSUM (BLOck SUbstitution Matrices) - Odvozené z pozorování; velké množství vysoce konzervovaných sekvencí (BLOCKS) - Každá matice odvozená samostatně podle definované procentuální identity - BLOSUM62 - výchozí matice pro BLAST Blosum 45 Blosum 62 Blosum 90 PAM 250 PAM 150 PAM 100 Více divergentr <^ ^^►Méně divergentní Obecné závěry • Klíčovým elementem vyhodnocujícím výsledky srovnání aminokyselinových sekvencí je substituční matice • Různé matice jsou přizpůsobené pro detekci podobností u sekvencí, které se vyznačují různým stupněm divergence • BLOSUM je vhodnější pro lokální srovnání - BLOSUM-62 je optimální pro detekci nízkých podobností proteinů - BLOSUM-45 je vhodnější pro detekci nízkých podobností u dlouhých sekvencí BLAST - grafický výstup Taxonomy reports Distribution of 30 Blast Hits on the Query Sequence IP40692 t>NA mismatch repair protein Mini (MutL protein homolog 1, , S= 233 E=Be-62 Color Key far fllignnent Scares 50-80 1.10436, ^^^^^^^ 51J ^^^^^^^ T—p 10 D pohyb myši Významnost shody • K posouzení významnosti shody nalezených úseků se používá numerická hodnota označovaná jako skóre sekvenčního přiložení (S) • Popisuje jeho celkovou kvalitu na základě porovnání pravděpodobnosti výskytu nalezených segmentů o určité sekvenční podobnosti s pravděpodobností, že se taková podobnost vyskytne mezi dvěma náhodnými sekvencemi • Vyšší číslo odpovídá vyšší podobnosti • Ekvivalentem skóre S je hodnota E („Expectation value"), která vyjadřuje počet různých sekvenčních přiložení se skórem shodným nebo vyšším než je hodnota S, jejíž výskyt je očekáván při náhodném vyhledávání v databázi. E = mn 2 -s • Potom platí, že čím je hodnota E nižší, tím je skóre významnější. BLAST: popis výstupu Sequences producing significa seřazeno podle hodnot E ore E its) Value gi gi gi gi gi gi 730028 P4 0 6 92IMLH1 HUMAN 13878571 1709056 1171080 1343169 i n n o n o o a i 13878583\spIQ9JK91IMLH1 MOUSE DNA m P97 67 9IMLH1 RAT DNA mis MUTL p DNA mismatch repair protein P38 920IMLH1 YEAST 44494 IMUTL HAEIN 4 X 10-56 link to ertrez otein . 1 (DNA. DNA mismatch repair protein. DNA mismatch repair protei. DNA mismatch repair protein. DNA mismatch repair prote, I MUTL THEMA 1 IMUTL BACHD gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi MUTL ECQLI DNA mismatch repair protj 127553|sp|P14161IMUTL SALTY DNA mismatch rf 6225738|sp|Q9ZC88IMUTL RICPR DNA mismatch 14194944 IspIQ9PJG5IMUTL CHLMU DNA mismatch LocusLink 8928218 IspI 084579IMUTL CHLTR 20043258 IspIQ9KV13IMUTL VIBCH 13631230 IspIQ9RP66IMUTL CAUCR 8928214 IspI 051229IMUTL BQRBU 1709188 IspIP49850IMUTL BACSU 8039787 IspI 083325IMUTL TREPA -J- -IX J- j- J- - - - -L. ■ DNA mismatch repair protein. DNA mismatch repair protei. DNA mismatch repair protei. DNA mismatch repair protein. DNA mismatch repair protein. DNA mismatch repair protein. 198 5 6116 IspIP14160|HE}ľ 3914082ISPIP70754IMUTI hßfnult £ VülUß CUtoff 10 11386926|sp|P57633|MOT UC,UUM & ' 1 ±KJ 8928240 I sp I Q9Z794 IMUTL CHLPN DNA mismatch re"pv^ 1709684 IspIP54280IPMS1 SCHPO DNA mism< 233 8e -62 4e -5 6^n 212 le 72 -13 -08 le -06 4e -06 46 le -05 44 5e -05 44 7e -05 40 7e -04 40 0. 001 39 0. 001 39 0. 002 39 0. 002 39 0. 002 38 0. 005 36 0. 013 36 0. 020 35 0. 020 35 0. 026 35 0. 026 3914081 IspI 067518IMUTL AQUAE Bacterial mismatch repair proteins 1709685 IspIP54278IPMS2 HUMAN 1709686 IspIP54279IPMS2 MOUSE 8928222 IspIP73349IMUTL SYNY3 1709683 IspIP54277IPMS1 HUMAN 126232 IspIP02239ILGB1 LUPLU 126238 IspIP02240ILGB2 LUPLU DNA mism; PMS1 protein homolog 2 PMS1 PROTEIN HOMOLOG 2 (DNA" DNA mismatch repair protein PMS1 protein homolog 1 (DNA... Leghemoglobin I Leghemoglobin II BLASTp - hledání konzervativních domén proteinů <^ NCBI formatting JJ1j/\Ä* Nucleotide Protein Translations Retrieve results for an RID Your request has been successfully submitted and put into the Blast Queue. Query = Mutated in Colon Cancer (131 letters) Putative conserved domains have been detected, click on the image below for detailed results. 20 40 Mi SO 100 1_ 120 131 DNfl_nis_repair The request ID is |1 038888657-01 £751-16086 ^TjrjjTji| or ^ygyyyjj The results are estimated to be ready in 36 seconds but may be done sooner. BLAST - výstup u srovnání proteinových sekvencí >gi|127552|sp|P23367|MUTL_ECOLI DNA mismatch repair protein mutL Length = 615 Score =44.3 bits (103), Expect = 5e-05 Identities = 25/59 (42%), Positives = 33/59 (55%), Gaps = 8/59 (13%) Query: 9 LPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHF-----LHE---ESILERVQQHIESKL 59 L + P L LEI P VDVNVHP KHEV F +H+ + +L +QQ +E+ L Sbjct: 280 LGADQQPAFVIiYLEIDPHQVDVNVHPAKHEVRFHQSRLVHDFIYQGVLSVLQQQLETPL 338 BLAST - výstup filtrování sekvencí >gi|730028|sp|P40692|MLH1_HUMAN DNA mismatch repair protein Mlhl 1) Length = 756 Score = 233 bits (593), Expect = 8e-62 Identities = 117/131 (89%), Positives = 117/131 (89%) Query: 1 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 60 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL Sbjct: 276 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 335 Query: 61 GSNSSRMYFTQTLLPGLAGPSGENIVKXXXXXXXXXXXXXXĽ KVYAHQMVRTDSREQKLDA 120 GSNS SRMYFTQTLLPGLAGP SGEř IVK Sbjct: 336 GSNSSRMYFTQTLLPGLAGPSGEMVKSTTSLTSSSTSGSSĽKVYAHQMVRTDSREQKLDA 395 Ľ KVYAHQMVRTDSREQKLDA Query: 121 FLQPLSKPLSS 131 FLQPLSKPLSS Sbjct: 396 FLQPLSKPLSS 406 sekvence s nízkou komplexitou BLAST - příklad výstupu u DNA 40-50 50-80 80-200 >=200 0 500 1000 1500 2000 2500 3000 3500 4000 4500 ***** ****** ***** ***** ******* ****** ******** ******* ***** ****** ******* ******************************* ******* ******* ****** Score = 202 bits (102), Expect = 5e-48 Identities = 179/207 (86%) Strand - Plus / Plus Query: 2500 aagttaacttaaataatgcgcaaggc-------gatttgggatatttaactgctggtaat 2559 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I 1 I I I I I I I I I I I I I I Sbjct: 3643 9 aagttaacttaaataatgcgcaagggcgtttgggatttgggatatttaactgctggtaat 3649B Query: 2560 tactatgcaacaagagtgccggatttaccaggtagcgttgaaagttatgagggttattta 2619 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I 1 I I I I I I I Sbjct: 36499 tactatgcaacaagagtgccggattt-ccaggtagcgttgaaagttatgagggttattta 3655S Query: 2620 actttagatgctatccagagggaaagacagatagacgnrinnnnnnringaaagaaaacgac 267 9 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I Sbjct: 36559 accttagatgctattcaaaaagaaagagaaatagatgaaaagaaaaagaaagaaaatgat 36618 Query: 2680 aaaaatatacgcgatatgaaaatgtgg 2706 II II I I I I I I I I I I I I I I I I I I I I Sbjct: 36619 aagaacatacgtgatatgaaaatgtgg 36645 Aplikace pro lokální přiložení sekvencí na serveru EBI lita Sirnlcrrty arm Hnmclcgy Searchirg » FAS TA - http://www.ebi.ac.uk/fasta/ VVU-Blastg ípsie LůcďI íllgnrri&ňf Search Tů&I »WU Blast (gapped blast) - http://\AAAAA/.ebi.ac.uk/blast2/ »MP Search (Smith and Waterman algorithm) http://\AAAAA/.ebi.ac.uk/MPsrch/ Sürth Q0 Reset ® Advanced Saarcři Give us feedback )IS EBI Groups Training Industry About Us Help Sito Index Fasta3 (EBI) Help Index General Help Formats Gaps Matrix References Fasta Help MView Help VisualFasta Help View all Fasta's at EBI Fasta Programmatic Access Database Information Similar Applications Fasta Blast MPsrch scanps EBI > i□ aIb * Similarity & HamnlDgy > Fasta Fasta - Nucleotide Similarity Search Provides sequence similarity searching against nucleotide and protein databases using the Fasta programs. Fasta can be very specific when identifying long regions of low similarity especially for highly diverged sequences. You can also conduct sequence similarity searching against complete proteome or genome databases using the Fasta programs . 3 1 Download Software PROGRAM DATABASES RESULTS SEARCH TITLE YOUR EMAIL fasta3 v- Nucleic Acid V email v [Sequence fasta3 1EMBL Release /V tfastx3 tfasty3 EMBL Updates EMBL Coding Sequence v MATRIX GAP OPEN GAP EXTEND KTTJP EXPECTATION UPPER VALUE EXPECTATION LOWER VALU E none -14 -4 10.0 default v □ NA STRAND HISTOGRAM MOLECULE TYPE both v no v DNA v SCORES ALIGNMENTS SEQUENCE RANGE DATABASE RANGE FILTER STATISTICAL ESTIMATES 50 50 START-END | START-END none Regress v Enter or Paste a | DNA/RNA v | Sequence in any format: | Help Upload a file: [ Procházet. Run Fasta3 Metoda tečkové (Dot-Plot) matice Bodový diagram vzájemné podobnosti sekvencí - nejjednodušší pomůcka pro posouzení podobnosti Každý zbytek z jedné sekvence je srovnáván s každým zbytkem ve druhé sekvenci První sekvence tvoří osu x a druhá sekvence osu y; shoda je vyjádřena tečkou V oblastech, kde jsou si obě sekvence navzájem podobné tvoří řádek vysokých skóre diagonální linii přes tečkovou matici Podobné sekvence pak tvoří přerušované diagonální linie. Po odfiltrování diagonál kratších než 3 tečky je výsledkem grafické vykreslení podobností sekvencí ve formě čtvercové nebo trojúhelníkové matice zobrazené v šedé škále MTFRDLLSVSFEGFRPDSSAGGSSAGG X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X Příklad: Dot-plot pro 3 virové genomy s různým stupněm podobnosti Lokální versus globalizované sekvenční přiložení B B B Local B B Local B B Global B Global Globální sekvenční přiložení posuzuje podobnost celých dlouhých sekvencí Nalezení nejefektivnější transformace jedné sekvence do druhé vyžaduje využití nových přístupů (podrobněji viz přednáška srovnávací genomika) AGTGCCCTGGAACCCTGACGGTGGGTCACAAAACTTCTGGA > O H O > n n H o o o > > n n n H > n n n H o o o H o > n H o m m m 11 \ i; \ m Bodové změny, delece Inverze Translokace Duplikace Kombinace uvedených změn