Posuzování podobnosti sekvencí Nástroje pro párové přiložení (pairwise alignment) a vyhledávání lokálních podobností sekvencí Hledání v databázích • Textové vyhledávání příbuzných sekvencí v databázích - Neefektivní - chybí anotace řady sekvencí • Prohledávání databází podle podobnosti sekvencí -Výpočet lokálního přiložení (alignment) = uspořádání do 2 pod sebou ležících řádků tak, aby identické zbytky ležely pod sebou - Identifikace podobnosti a evoluční vzdálenosti Nástroje pro vyhledávání lokálních podobností sekvencí Sady programů zahrnujících algoritmy pro vyhledávání podobnosti v dostupných databázích sekvencí bez ohledu na to zdali dotazovaná sekvence je DNA nebo protein. • BLAST • FASTA • Altschul et al., 1990 • Lipman a Pearson 1985 • dostupný na serveru • dostupný na serveru NCBI EBI Princip hledání podobnosti • Sekvence jsou tvořeny symboly abecedy • Komplexita sekvence je určena počtem různých znaků, které se mohou vyskytovat v sekvenci (DNA = 4, proteiny = 20) • Algoritmy využívají heuristickou analýzu pro identifikaci krátkých homologických subsekvencí bez mezer s následným rozšiřováním vyhledávání v okolí subsekvencí s cílem získat lokálně uspořádané sekvence, do nichž mohou být vloženy mezery tak, aby přiložení bylo optimální Co je to BLAST? Basic Local Alignment Search Tool - Hledání lokálních podobností - Heuristický přístup založený na Smith-Watermanově algoritmu - Vyhledá nejoptimálnější přiložení sekvencí - Poskytuje data o statistické významnosti - Zobrazuje vzájemně párové přiložení sekvencí - Lokalizuje oblasti sekvencí s vysokou podobností a umožňuje zobrazení jejich primární struktury a funkce Výchozí stránka BLAST Basic Local Alignment Search Tool ► NCBU BLAST Home BLAST finds regions of similarity between biological sequences, more.. Learn more about how to use the new BLAST design BLAST Assembled Genomes Choose a species genome to search, or list all genomic BLAST databases. D Human n Mouse ° Rat n Arabidopsis tbaiiana n Oryza sativa n Bos taurus D Danio rerio ° Brosophita metanogaster D Gaitus gattus n Pan troglodytes n Microbes n Apis mettifera [Sign Inl TReqisterl News New Human and Mouse pre-indexed databases Human and mouse genomic + transcript meg a blast searches now use a faster, indexed algorithm that typically reduces run time by two thirds, as compared with standard meg a blast. 2007-09-0410:55:00 |e| More BLAST news,, Basic BLAST Tip of the Day Choose a BLAST program to run. nucleotide blast protein blast blastx tblastn tblastx Search a nucleotide database using a nucleotide query Algorithms: blastn, megablast. discontiguous megablast Search protein database using a protein query Algorithms: blastp. psi-blast. phi-blast Search protein database using a translated nucleotide query Search translated nucleotide database using a protein query Search translated nucleotide database using a translated nucleotide query Specialized BLAST Using Genomic BLAST Genomic BLAST pages are helpful because they allow the genomic context of a BLAST search to be displayed in the Map Viewer. For example, discontiguous (cross-species) Meg a BLAST against the human RefSeq transcript for albumin (NM_OQ0477} can be used to identify the homolog in the rat genome. |s| More tips... Choose a type of specialized search (or database name in parentheses.) D Search trace archives n Find conserved domains in your sequence (cds) n Find sequences with similar conserved domain architecture (cdart) n Search sequences that have gene expression profiles [GEO) n Search immunoglobulins (IqBLAST) ° Search for SHPs [snp) http://www.ncbi.nlm.nih.gov/BLAST Uživatelské rozhraní BLAST Basic Locat Atignment and Search Tool • Home Tab: Odkaz na úvodní stránku • Recent Results Tab: Odkaz na výsledky, které jste získali za posledních 36 hodin • Saved Strategies Tab: Vyplněné vstupní formuláře pro hledání, které jste uložili do MyNCBI • Help Tab: Katalog s dokumentací a nápovědou BLAST Basic if Home Recent Results Saved Strategies Help NCBI Home*- Genomic Biology* BLAST Search Map Viewer v ► NCBI.' BLAST Home BLAST finds regions of similarity between bioloi Learn more about how to use the new BLAST desigr BLAST Assembled Genomes seqi Choose a species genome to search, or list all genomic BLA n Human ° Mouse □ Rat D Arabidopsis tbaliana Basic BLAST n Otyza sativa n Bos teurus D Danio rerio n Drosopbila melai Choose a BLAST program to run nucleotide blast protein blast blastx tblastn tblastx Search a nucleotide database using a n Algorithms: blastn, meg a blast, disco Search protein database using a proteir Algorithms: blast p. psi-blast. phi-bias Search protein database using a transla Search translated nucleotide database Search translated nucleotide database Specialized BLAST Choose a type of specialized search (or database name in pare " Search trace archives n Find conserved domains in your sequence feds) n Find sequences with similar conserved domain architect n Search sequences that have gene expression profiles (G " Search immunoglobulins (IgBLAST) n Search for JsNPs [snp) Go Clear BLAST Overview FAQs News Manual References Retrieve results Genome Project BLAST Drosophila melanogaster Sequences. © Enter an accession, giy or a sequence in FASJA format: O Or, choose a file to upload Procházet. Set subsequence: (optional) From: To: Database: genome (reference only) v 6 sequences Program:_ megaBLAST: Compare highly related nucleotide sequences Optional parameters Expect Filter Descriptions Alignments 0.01 v default_v 100 v 100 v 100 v Advanced options: Begin Search Clear Input Get the URL with preset values ? [ Get URL Basic BLAST - výběr programů Využití jednotlivých programu BLAST Program Dotaz Databáze Úroveň srovnání Použití blastn DNA DNA DNA Hledání identických sekvencí DNA blasp Protein Protein Protein Hledání homologních proteinů blastx DNA Protein Protein Hledání genů a homologních proteinů na DNA tblastn Protein DNA Protein Hledání genů u necharakterizovaných DNA tblastx DNA DNA Protein Studium struktury genů Příklady využití algoritmů BLAST Volba programu, jestliže Vaše sekvence je NUKLEOTIDOVÁ Délka Databáze Účel vyhledávání BLAST Program Identifikace dotazované sekvence MEGABLAST Standard BLAST (blastn) 20 bp nebo delší DNA Vyhledání podobných sekvencí jako dotazovaná Standard BLAST (blastn) Vyhledání podobných proteinů k překladu dotazované sekvence v přeložených databázích DNA Translated BLAST (tblastx) Protein Vyhledání podobných proteinů k překladu dotazované sekvence v databázích proteinů Translated BLAST (blastx) 7 - 20 bp DNA Vyhledání vazebných míst primerů nebo krátkých motivů Search for short, nearly exact matches Příklady využití algoritmů BLAST Volba programu, jestliže Vaše sekvence je PROTEIN Délka Databáze Účel vyhledávání BLAST program Identifikace dotazované sekvence nebo vyhledání sekvencí podobných proteinů Standard Protein BLAST (blastp) Protein Vyhledání členů proteinové rodiny, tvorba vlastní pozičně-specifické matice a konstrukce profilu -> profil je potom srovnán a lokálně přiřazen k sekvencím v proteinové databázi PSI-BLAST 15 aminokyselinových zbytků nebo delší Vyhledání proteinů podobných dotazovanému v okolí určitého vzoru PHI-BLAST Konzervativ ní domény Vyhledání konzervativních domén v dotazované sekvenci CD-search (RPS-BLAST) Konzervati vní domény Vyhledání konzervativních domén v dotazované sekvenci a identifikace ostatních proteinů s podobnou architekturou domén Conserved Domain Architecture Retrieval Tool (CDART) DNA Vyhledání podobných proteinů v přeložených databázích DNA Translated BLAST (tblastn) 5-15 zbytků Protein Hledání peptidových motivů Search for short, nearly exact matches Jak používat BLAST? http://blast.ncbi.nlm.nih.gov/Blast.cqi 1. Vybrat příslušný BLAST-program (blastn, blastp, blastx, tblastn, tblastx, specializované varianty algoritmů) 2. Vložit sekvenci (DNA nebo protein nebo Accession number) 3. Vybrat databázi, která má být prohledána 4. Upřesnit nastavení parametrů algoritmu 5. Odeslat požadavek na vyhledání Vložení sekvence Enter Query Sequence ErtlBf aecassiofi number, tii. or FABTA saquwica í?l cinar ÄJtfv*Arang&(T; Or. u p I o a d lil. J BrQWS e I m Job Titli Enter a rJewripliv-e title tor your BLAST seôrtfi {?] >priklad sekvence GAATTCTTCAAAAAAGTATTCGTTGGATACACGGACAGTGAAGATCATTCAGAGGATTCTGCAAGTTCGTTACCCAGCTAACCCCCA AAATGTTGAAGTAGCAGTTAATTCAAAATCTGCAACAGTTTCAGCAGAATAGGGGCTTTCAAAATAAATCAAAGGAGAATAATTTAT GACTAAAACTTTAAAGGTTTATAAAGGAGACGACGTCGTAGCTTCTGAACAAGGTGAAGGCAAAGTGTCAGTAACTTTATCTAATTT AGAAGCGGATACAACTTATCCAAAAGGTACTTACCAAGTGGCATGGGAAGAAAATGGTAAAGAATCTAGTAAAGTTGATGTACCTCA ATTCAAAACCAATCCAATTCTAGTCTCAGGCGTATCATTTACACCCGAAACTAAATCAATCACGGTAAATGCTGATGACAATGTTGA ACCAAACATTGCACCAAGTACAGCAACGAATAAAACGTTGAAATATACAAGTGAACATCCAGAGTTTGTTACTGTTGATGAGAGAAC AGGAGCAATTCACGGTGTAGCTGAGGGAACTTCAGTTATCACTGCTACGTCTACTGACGGAAGTGACAAGTCTGGACAAATTACAGT AACAGTAACAAATGGATAATTATTTGAGACGCAGAATATCTGCGTCT Výběr databáze Choose Search Set Organism C Human genomic t iranscript C Mouse flenomic + inan&cript ŕ Othere (nr etc-V I Reference m RNA sequences (refseq.rna) EJ ť Arty C Human ť* Athallona C Mouse ^ Custoni. duckbilled ypu Short queries r^] Automatically adjust parameters for short input sequences '® Expect threshold 10 Word size 11 Scoring Parameters Match/Mismatch Scores Gap Costs 2 -3 v Existence: 5 Extension: 2 v Filters and Masking Filter Mask 0 Low complexity regions ^ D Species-specific repeats for: Human 0 Mask for lookup table only '® D Mask lower case letters '® BLAST Search database nr using Blastn (Optimize for somewhat similar sequences) ^Show results in a new window Jak BLAST pracuje? • Proces zahrnuje 3 kroky 1. Příprava dotazu - rozseká zkoumanou sekvenci na krátké úseky a sestaví z nich vhodnou tabulku 2. Vyhledává shody v databázi 3. Rozšiřuje vyhledávání v oblasti nalezených shod, tak aby byla splněna zadaná kritéria Slova pro nukleotidové sekvence Dotaz: GTACTGGACATGGACCCTACAGGAA GTACTGGACAT . . . ... . 7 Velikost slova = 11 minimální velikost = 7 TACTGGACATG blastn default = 11 tabulka se všemi ACTGGACATGG me9ablast default = 28 slovy dotazu CTGGACATGGA TGGACATGGAC GGACATGGACC GACATGGACCC ACATGGACCCT Slova pro proteinové sekvence Dotaz: GTQITVEDLFYNIATRRKALKN Velikost slova může být 2 nebo 3 (default = 3] ITV — LTV, MTV, ISV, LSV, etc. TVE VED EDL DLF ikest = 3 tabulka se všemi slovy dotazu TQI QIT Sousedící slova Minimální požadavek pro shodu ATCGCCATGCTTAATTGGGCTT catgcttaatt přesná shoda slova 1 nalezená shoda • Nucleotidový BLAST vyžaduje jednu přesnou shodu • Proteinový BLAST vyžaduje dvě sousedící shody v úseku 40 aa GTQITVEDLFYNI SEI YYN sousedící slova 2 nalezené shody přiložení sekvencí, které BLAST může nalézt 1 AATGGTAAAGACTACTGGATCATTAAGAACTCCTGGGGAG I I I I I I I I I I I I I I I I I I I I I I II I I I I I I I I I I I I I 1 AATGGAAAAGACTACTGGATCATCAAAAACTCCTGGGGAG sekvence obsahují definovanou shodu slova přiložení sekvencí, které BLAST nemůže nalézt 1 GAATATATGAAGACCAAGATTGCAGTCCTGCTGGCCTGAACCACGCTATTCTTGCTGTTG I I I I I I I I I I I I I I I I II I I I I I I I I I I I I I I I I I I I 1 GAGTGTACGATGAGCCCGAGTGTAGCAGTGAAGATCTGGACCACGGTGTACTCGTTGTCG 61 GTTACGGAACCGAGAATGGTAAAGACTACTGGATCATTAAGAACTCCTGGGGAGCCAGTT I I I I I II I I I I I I I I I I I I I I I I I I I I I I I I I I I I 61 GCTATGGTGTTAAGGGTGGGAAGAAGTACTGGCTCGTCAAGAACAGCTGGGCTGAATCCT 121 GGGGTGAACAAGGTTATTTCAGGCTTGCTCGTGGTAAAAAC I I I I I I I I I I I I I II I I I I I I I I I I I 121 GGGGAGACCAAGGCTACATCCTTATGTCCCGTGACAACAAC BLASTn - Možnosti nastavení T Algorithm parameters General Parameters Mote: Parameter values that differ from the default are highlighted in yellow Max target sequences Short queries Expect threshold 100 v Select the maximum number of aligned sequences to display 0 Automatically adjust parameters for short input sequences '® 10 & Word size 11 v Scoring Paramo 15 3AORFl IfiiniJÍVTníGDrjWJ^EQGEGKV^ I FE IKS ITVWADDNVE FNIAFSIAIHKILKYT SE fiFE F/TVDERT SMHSVSE SI SVITAISIDSS DKS SQI TVTVING Clear Query subrange ^ From To Or, upload file Job Title Procházet.. 3AORF1 Enter a descriptive title for your BLAST search Choose Search Set Database Organism Optional Entrez Query Optional Swissprot protein sequencesfswissprot Enter organism name or id-completions will be suggested Protein database Enter organism common name, binomial, ortax id. Only 20 top taxa will be shown. ^ Enter an Entrezquery to limit search >|£i Program Selection Algorithm,-, 0 blastp [protein-protein BLAST) O PSI-BLAST [Position-Specific Iterated BLAST) O PHI-BLAST [Pattern Hit Initiated BLAST) Choose a BLAST algorithm •£/ BLAST Search database swissprot using Blastp (protein-protein BLAST) BLASTp - Možnosti nastavení T Algorithm parameters General Parameters Note: Parameter values that differ from the default are highlighted in yellow Max target sequences Short queries Expect threshold Word size 100 v < Select the maximum number of aligned sequences to display >Q) 0 Automatically adjust parameters for short input sequences ^ 10 3 v < Scoring Parameters Matrix BLOSUM62 v < Gap Costs Compositional adjustments Existence: 11 Extension: 1 v Composition-based statistics Filters and Masking '~'n-er 0 Low complexity regions "® Mask D Mask fof lookup table only ^ □ Mask lower case letters '® BLAST ^ I Search database swissprot using Blastp (protein-protein BLAST) rjshow results in a new window Typy matic pro výpočet skóre • Matice identity - Především pro nukleotidové sekvence - Neschopné transformovat na jiné zbytky - Pro přiložení velmi podobných sekvencí • Matice podobnosti - Používané u proteinových sekvencí -Vyjadřují biochemické/biologické vlastnosti aminokyselin -Vyšší účinnost při srovnávání sekvencí Matice identity A G C T A +1 -3 -3 -3 G -3 +1 -3 -3 C -3 -3 +1 -3 T -3 -3 -3 +1 CAGGTAGCAAGCTTGCATGTCA II I I I I I I I I I I I I I I I I I CACGTAGCAAGCTTG-GTGTCA skóre = 19-9 = 10 Penalizace mezer Kvalitní (optimální) přiložení podobných sekvencí • maximalizuje počet srovnatelných protějšků • minimalizuje počet mezer Povolení vložení mnohá náhodných mezer vede k dosažení přiložení nehomologních sekvencí s vysokými skóre Penalizace mezer má za výsledek přiložení s relativně málo mezerami a nehomologní sekvence nejsou přiloženy Příklad penalizace mezer Celkové skóre: TATGTGCGTATA ATGTTATAC Celkové skóre: 8 + (-3.2) = 4.8 TATGTGCGTATA ATGT---TATAC Gap parameters: d = 3 (gap opening) e =0.1 (gap extension) g = 3 (gap length) Y(g)= -d-(g-1)e= -3-(3-1)0.1 = -3.2 match = 1 mismatch = 0 Substituční Matice • Co je substituční matice? - Kompletní sada skóre pro všechny kombinace párů zbytků se nazývá substituční matice - Stanovuje frekvenci při které každý možný zbytek v sekvencích může být změněn za kterýkoli jiný zbytek během času (evoluce) - Např., hydrofobní zbytek má vyšší pravděpodobnot zachování v příslušné pozici sekvence než jiný. - Každá matrice je určená pro určitý typ vyhledávání -JE TŘEBA VĚDĚT CO HLEDÁME! Substituční Matice • Proč používat substituční matice? 1. Stanovit pravděpodobnou homologii dvou proteinových sekvencí. 2. Substituce, které jsou více pravděpodobné získají vyšší skóre 3. Substituce, které jsou méně pravděpodobné obdrží nižší skóre. Matice BLOSUM • BLocks Substitution Matrix • Změny probíhající během dlouhodobé evoluce nejsou často vhodné pro výpočty a sledování malých recentních změn • Matice BLOSUM jsou sestaveny na základě analýzy mnohonásobných přiložení evolučně příbuzných proteinů v databázi BLOCKS • BLOSUM-x používá analýzu pouze těch proteinů, které mají alespoň x % identitu Příklad matice BLOSUM62 L-phenylalaiiine £[Q L-tyrosine £Y) í významnost sší významnost _L M -1 -1 -2 -i-l 0 -2 -3 -2 1 2 -1 5 F -2 -3 -3 ^3^-2 -3 -3 -3 -1 0 0 -3 0 6 P -1 -2 -2-\r -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 S 1^^^ D -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 hl -2-1 1 5 Negativní pro málo pravděpodobné substituce ^ x _4 _3 ^J-2 -2 0 -3 -1 2 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 V 0-3-3 -3 -1 -2 -2 -3 -3 3 __J—= 0 - X -4 -3 -2(lí) -3 -2 -2 ^ 7 Pozitivní pro více pravděpodobné substituce a-c-2-e 0 0-2-1 -1 -1 S T W Y V X Matice PAM • PAM - Percent Accepted Mutation - založeny na konceptu akceptovatelných bodových mutací za 108 let v globálních mnohonásobných přiloženích - Stanoveny na základě výpočtů u blízce příbuzných proteinů s identitou > 85% - PAM1 reprezentuje 1% změn (1 mutace na 100 aminokyselinových zbytků) - PAM250 = (PAM1)250 P A M versus BLOSUM • PAM Matice (Percent Accepted Mutation) - Odvozené z pozorování; malé množství srovnávaných dat - vhodné pro evoluční modely - Všechny výpočty vycházejí z PAM1 - PAM250 je nejpoužívanější • BLOSUM (BLOck SUbstitution Matrices) - Odvozené z pozorování; velké množství vysoce konzervovaných sekvencí (BLOCKS) - Každá matice odvozená samostatně podle definované procentuální identity - BLOSUM62 - výchozí matice pro BLAST Blosum 45 Blosum 62 Blosum 90 PAM 250 PAM 150 PAM 100 Více divergentr ^^►Méně divergentní Obecné závěry • Klíčovým elementem vyhodnocujícím výsledky srovnání aminokyselinových sekvencí je substituční matice • Různé matice jsou přizpůsobené pro detekci podobností u sekvencí, které se vyznačují různým stupněm divergence • BLOSUM je vhodnější pro lokální srovnání - BLOSUM-62 je optimální pro detekci nízkých podobností proteinů - BLOSUM-45 je vhodnější pro detekci nízkých podobností u dlouhých sekvencí BLAST - grafický výstup Taxonomy reports Distribution of 30 Blast Hits on the Query Sequence P40692 DNA mismatch repair protein Mini (MutL protein homolog 1..S= 233 E=8e-62 Color Key for fllignnent Scores 50-80 40-50 1_1043Gi 50 100 pohyb myši Statistika lokálního přiložení • K posouzení významnosti shody nalezených úseků se používá numerická hodnota označovaná jako skóre sekvenčního přiložení (S) • Popisuje jeho celkovou kvalitu na základě porovnání pravděpodobnosti výskytu nalezených segmentů o určité sekvenční podobnosti s pravděpodobností, že se taková podobnost vyskytne mezi dvěma náhodnými sekvencemi • Vyšší číslo odpovídá vyšší podobnosti • Ekvivalentem skóre S je hodnota E („Expectation value"), která vyjadřuje počet různých sekvenčních přiložení se skórem shodným nebo vyšším než je hodnota S, jejíž výskyt je očekáván při náhodném vyhledávání v databázi. Výpočet hodnoty E (Expectation value) E = počet nálezů v databázi, které mohou být ojeveny náhodně E = mn 2 s Potom platí, že čím je hodnota E nižší, tím je skóre významnější. expected number of random hits Score BLAST: popis výstupu Sequences producing signifies seřazeno podle hodnot E ore E its) Value gi gi gi gi gi gi 730028 P40692IMLH1 HUMAN DNA mismatch repair protein 13878571 1709056 1171080 1343169 i n no n o o a i 13878583\sp | Q9 JK91 | MLHl MOUSE DNA rr P97 67 9IMLH1 RAT DNA mis MUTL p P38920 1MLHl YEAST 44494 IMUTL HAEIN 4 X ÍO"56 link to entrez otein . 1 (DNA. DNA mismatch repair protein. 5788 6 IMUTL PÁSMU DNA mismatch repair protei. DNA mismatch repair protein. DNA mismatch repair prote no ir IMUTL THEMA 1 IMUTL BACHD MUTL ECOLI gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi DNA mismatch repair prot DNA mismatch r 6225738|sp|Q9ZC88IMUTL RICPR DNA mismatch 127553 IspIP14161|MUTL SALTY 14194944 IspIQ9PJG5IMUTL CHLMU DNA mismatch LocusLink 8928218 IspIQ84579IMUTL CHLTR 20043258 IspIQ9KV13IMUTL VIBCH 13631230 IspIQ9RP66IMUTL CAUCR 8928214 IspIQ51229IMUTL BORBU 1709188 IspIP49850IMUTL BACSU 8039787 IspI 083325IMUTL TREPA DNA mismatch repair protein. DNA mismatch repair protei. DNA mismatch repair protei. DNA mismatch repair protein. DNA mismatch repair protein. DNA mismatch repair protein. rHm^ T-*-* T 19856116 I sp I P14160IHEX 3914082|sp|P70754|MUTI hßfnult £ VülUß CUtoff 10 11386926|sp|P57633|MU1 UC,UUM & ' 1 ±KJ 8928240 I sp I Q9Z794 IMUTL CHLPN DNA mismatch reK^ 1709684 IspIP54280IPMS1 SCHPO DNA mi srn; 3914081 IspI 067518IMUTL AQUAE 1709685 IspIP54278IPMS2 HUMAN 1709686 IspIP54279IPMS2 MOUSE 8928222 IspIP73349IMUTL SYNY3 1709683 IspIP54277IPMS1 HUMAN 126232 IspIP02239ILGB1 LUPLU 126238 IspIP02240ILGB2 LUPLU dna misml Bacterial mismatch repair proteins PMSl protein homolog 2 fas^ \ 33 0.16 PMS1 PROTEIN HOMOLOG 2 DNA mismatch repair protein. PMSl protein homolog 1 (DNA... Leghemoglobin I Leghemoglobin II BLASTp - hledání konzervativních domén proteinů <"Ž NCBÍ formatting JpJ^/VoH Nucleotide Protein Translations Retrieve results for an RID Your request has been successfully submitted and put into the Blast Queue. Query = Mutated in Colon Cancer (131 letters) Putative conserved domains have been detected, click on the image below for detailed results. 20 +0 60 ■b SO -b 100 ISO 131 DNfl_nis_repair The request ID is |1038888657-01 2751 -1 6086 or The results are estimated to be ready in 36 seconds but may be done sooner. BLAST - výstup u srovnání proteinových sekvencí >gi|127552|sp|P23367|MUTL_ECOLI DNA mismatch repair protein mutL Length = 615 Score =44.3 bits (103), Expect = 5e-05 Identities = 25/59 (42%), Positives = 33/59 (55%), Gaps = 8/59 (13%) Query: 9 LPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHF-----LHE---ESILERVQQHIESKL 59 L + P L LEI P VDVNVHP KHEV F +H+ + +L +QQ +E+ L Sbjct: 280 LGADQQPAFVLYLEIDPHQVDVNVHPAKHEVRFHQSRLVHDFIYQGVLSVLQQQLETPL 338 BLAST - výstup filtrování sekvencí >gi|730028|sp|P40692|MLHl_HUMAN DNA mismatch repair protein Mlhl 1) Length = 756 Score = 233 bits (593) , Expect = 8e-62 Identities = 117/131 (89%), Positives = 117/131 (89%) Query: 1 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 60 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL Sbjct: 276 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 335 Query: 61 gsnssrmyftqtllpglagpsge: gsnssrmyftqtllpglagpsge: Sbjct: 336 gsnssrmyftqtllpglagpsge: xxxxxxxxxxxxxxekvyahqmvrtdsreqklda 120 ľ kvyahqmvrtd sreqklda sttsltssstsgssľ kvyahqmvrtdsreqklda 395 Query: 121 FLQPLSKPLSS 131 FLQPLSKPLSS Sbjct: 396 FLQPLSKPLSS 406 sekvence s nízkou komplexitou BLAST - příklad výstupu u DNA 40-50 50-80 80-200 >=200 0 500 1000 1500 2000 2500 3000 3500 4000 4500 Score = 202 bits (102), Expect Identities = 179/207 (86%) Strand = Plus / Plus 5e-48 Query: 2500 aagttaacttaaataatgcgcaaggc-------gatttgggatatttaactgctggtaat 255 9 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I Sbjct: 36439 aagttaacttaaataatgcgcaagggcgtttgggatttgggatatttaactgctggtaat 36493 Query: 25 60 tactatgcaacaagagtgccggatttaccaggtagcgttgaaagttatgagggttattta 2 619 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I Sbjct: 36499 tactatgcaacaagagtgccggattt-ccaggtagcgttgaaagttatgagggttattta 36558 Query: 2620 actttagatgctatccagagggaaagacagatagacgnnnnnnnnnngaaagaaaacgac 2679 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I Sbjct: 36559 accttagatgctattcaaaaagaaagagaaatagatgaaaagaaaaagaaagaaaatgat 36618 Query: 2680 aaaaatatacgcgatatgaaaatgtgg 2706 II II I I I I I I I I I I I I I I I I I I I I Sbjct: 36619 aagaacatacgtgatatgaaaatgtgg 36645 Go 1 Is EBI Groups Training | Incfustry About Us Help Fasta3 (EBI) i Help Index i General Help i Formats i Gaps i Matrix i References i Fasta Help | MView Help i VisualFasta Help i View all Fasta's at EBI i Fasta Programmatic Access Database Information Similar Applications Fasta Blast MPsrch scanps EBI > Tnnls > Similarity & Hamclr>gy > Fasta Fasta - Nucleotide Similarity Search Provides sequence similarity searching against nucleotide and protein databases using the Fasta programs. Fasta can be very specific when identifying long regions of low similarity especially for highly diverged sequences. You can also conduct sequence similarity searching against complete proteome or genome databases using the Fasta programs . [Download Software PROGRAM DATABASES RESULTS SEARCH TITLE YOUR EMAIL fasta3 v Nucleic Acid V email v .Sequence fasta3 Iembl Release EXPECTATION EXPECTATION KTUP UPPER VALUE LOWER VALUE tfastx3 tfasty3 embl Updates embl Coding Sequence l""l' w MATRIX GAP OPEN GAP EXTEND none -14 v A t 6 v 10.0 default DNA STRAND HISTOGRAM MOLECULE TYPE both no DNA SCORES ALIGNMENTS SEQUENCE RANGE DATABASE RANGE FILTER STATISTICAL ESTIMATES 50 50 START-END START-END Regress Enter or Paste a □NA/RNA v Sequence in any format: I Help I Upload a file: Procházet.. Run Fasta3 Metoda tečkové (Dot-Plot) matice Bodový diagram vzájemné podobnosti sekvencí - nejjednodušší pomůcka pro posouzení podobnosti Každý zbytek z jedné sekvence je srovnáván s každým zbytkem ve druhé sekvenci První sekvence tvoří osu x a druhá sekvence osu y; shoda je vyjádřena tečkou V oblastech, kde jsou si obě sekvence navzájem podobné tvoří řádek vysokých skóre diagonální linii přes tečkovou matici Podobné sekvence pak tvoří přerušované diagonální linie. Po odfiltrování diagonál kratších než 3 tečky ■ je výsledkem grafické vykreslení podobností [ sekvencí ve formě čtvercové nebo i trojúhelníkové matice zobrazené | v sedé škále i MTFRDLISVSFEGPRPDSSAGGSSAGG X X X X X X X X X X X X X X X X X X X X X X X X Příklad: Dot-plot pro 3 virové genomy s různým stupněm podobnosti Globální sekvenční přiložení posuzuje podobnost celých dlouhých sekvencí Nalezení nejefektivnější transformace jedné sekvence do druhé vyžaduje využití dynamického programování AGTGCCCTGGAACCCTGACGGTGGGTCACAAAACTTCTGGA • Bodové změny, delece • Inverze • Translokace • Duplikace • Kombinace uvedených změn Lokální versus globalizované sekvenční přiložení • Pro optimální lokální alignment požadujeme dosažení nejlepšího skóre kdekoli v matrici LOKÁLNÍ - nejlepší sekvenční přiložení segmentů bez ohledu na zbytek sekvence Smithův-Watermanův algoritmus • Pro optimální globální alignment požadujeme dosažení nejlepšího skóre v celém řádku/sloupci GLOBÁLNÍ - nejlepší sekvenční přiložení celých sekvencí Needlemanův-Wunschův algoritmus Lokální sekvenční přiložení 1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAATTAAAGAGGAGGTAGACCG.... 6 7 1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 7 0 14 TCAGAAGCAGCTAAAGCGT 42 TCAGAAGCA.CTAAAGCGT 1 AGGATTGGAATGCT 1 AGGATTGGAATGCT 3 9 AGGATTGGAAT 1 AGGATTGGAAT 62 66 Globální sekvenční přiložení 1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAATTAAAGAGGAGGT---AGACCG 6 7 1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 7 0 Dvě sekvence sdílejí oblasti s lokální podobností (end-to-end alignment) Adresy služeb pro lokální přiložení http://www.ebi.ac.uk/Tools/sss/ FASTA FASTA © FASTA is another commonly used sequence similarity search tool which uses heuristics for fast local alignment searching. Protein A Nucleotide ^ Genomes Whole Genome Shotgun SSEARCH ® SSEARCH is an optimal (as opposed to heuristics-based) local alignment search tool using the Smith-Waterman algorithm. Optimal searches guarantee you find the best alignment score "C" ycjr g ver pa"a~eters. Protein A Nucleotide ^ Genomes Whole Genome Shotgun PSI-Search © PSI-Search combines the sensitivity of the Smith-Waterman search algorithm (SSEARCH) with the PSI-BLAST profile construction strategy to find distantly related protein sequences. Protein BL7\ST NCBI BLAST® MCBI BLAST is the most commonly used sequence similarity search tool. It uses heuristics to perform fast local alignment searches. Protein \ Nucleotide Vectors wu-blast © WU-BLAST is similar to NCBI BLAST but combines multiple parameter options into a simpler 'sensitivity' setting. Protein Nucleotide PSI Bl AST® PSI-BLAST allows users to construct and perform a BLAST search with a custom, position-specific, scoring matrix which can help find distant evolutionary relationships. PHI-BLAST functionality is also available to restrict results using patterns. Protein GGSEARCH © GGSEARCH performs optimal global-global alignment searches using the Needleman-Wunsch algorithm, Protein Nucleotide GLSEARCH © GLSEARCH performs an optimal sequence search using alignments that are global in the query but local in the database sequence. This can be useful when you want to match all of a short query sequence to part of a larger database sequence. Protein Nucleotide ENA Sequence Search EMBL-EBI has a new nucleotide search tool which is far faster than BLAST for large datasets, with only a marginal loss in search sensitivity. Try it out at ENA Sequence Search.