Bioinformatika je nová disciplína na rozhraní počítačových věd, informačních technologií, matematiky a biologie * Bioinformatika zahrnuje -- studium -- praktické uchovávání -- vyhledávání -- zobrazování -- manipulaci -- a modelování biologických dat * Vývoj vysoce výkonných technologií umožňujících získání molekulárně biologických dat přispěl k jejich dramatickému nárůstu a tím současně zvýšil obtížnost jejich zkoumání a hodnocení ve vztahu k biologickým otázkám. Základní zdroje a aplikace bioinformatiky Současné biotechnologické nástroje * Mezi hlavní oblasti zájmu bioinformatiky patří studium širokého rozmezí biologických dat, zejména -- sekvencí nukleových kyselin -- sekvencí proteinů -- genů a genových map -- expresních profilů -- organizace genomů -- interakce proteinů -- mechanizmy fyziologických funkcí * Primárním cílem těchto analýz je objasnění informačního obsahu biomaromolekul a porozumění, jak bioinformace přímo ovlivňují vývoj a funkce u živých organizmů. -- Hledání v databázích -- Srovnávání sekvencí nukleových kyselin a proteinů -- Hledání genů -- Funkční genomika -- Klasifikace proteinů -- Fylogenetické studie Výuková stránka http://orion.sci.muni.cz/kgmb/bioinformat/ Nejdůležitější instituce zabývající se shromažďováním biomedicínských informací * V současné době je prostřednictvím Internetu dostupných přibližně 550 databází zabývajících se shromažďováním bioinformací. -- Jejich přehled a popis je každoročně publikován ve specializovaném, volně dostupném čísle časopisu Nucleic Acids Research. * K nejdůležitějším institucím zabývajícím se, správou dat a vývojem nástrojů pro jejich analýzu a poskytováním informací patří: -- Evropský institut pro bioinformatiku (EBI) se sídlem v Hinxtonu v UK (http://www.ebi.ac.uk/), -- Národní centrum pro biotechnologické informace (NCBI) založené původně v rámci Národní lékařské knihovny (NLM) v USA (http://www.ncbi.nlm.nih.gov/), -- Centrum pro informační biologii (CIB) založené jako oddělení Národního genetického institutu (NIG) v Mishimě, Japonsko (http://www.cib.nig.ac.jp/). Nejdůležitější databáze sekvencí nukleových kyselin a proteinů * V každém ze tří hlavních bioinformatických center je spravována genomová databáze sekvencí nukleových kyselin a odpovídajících, z nich přeložených proteinů. -- EMBL Nucleotide Sequence Database (v rámci institutu EBI) -- 1980 -- GenBank (v rámci institutu NCBI) -- 1982 -- DDBJ (The DNA Data Bank of Japan) - 1984 * Tři samostatné báze vznikly v důsledku potřeby rychlé dostupnosti databáze sekvencí na jednotlivých kontinentech v době, kdy ještě nebyly rozvinuté vysokorychlostní komunikační sítě. * Všechny tři genomové databáze jsou volně dostupné a přijímají data získaná v genomových centrech nebo na odborných pracovištích zabývajících se skvencováním nukleových kyselin. * V současné době si jednotlivé databáze předávají získaná data, takže databanky GenBank/EMBL/DDBJ prakticky sdílejí stejná data v jakoukoli dobu. * V současné době databáze EMBL obsahuje xxxxxxxxx sekvencí a xxxxxxxxx nukleotidových bází pocházejících celkem od více než 60 000 různých organizmů nebo virů. * Nové sekvence nukleových kyselin se do databází vkládají pomocí speciálního WWW formuláře nazvaného BankIt pro databázi GenBank, WebIn pro databázi EMBL nebo Sakura pro databázi DDBJ. Genomové databáze v NCBI -- prokaryota Genomové databáze v NCBI - eukaryota Gemonové mapy - MapView http://www.ncbi.nlm.nih.gov/mapview/ Databáze sekvencí proteinů * Sekvence proteinů, u nichž byly experimentálně stanoveny jejich aminokyselinové sekvence, charakterizovány jednotlivé proteinové domény a stanovena jejich funkce jsou ukládány v databázi SWISS-PROT založené na Univerzitě v Ženevě v roce 1986. * Databázi spravuje Švýcarský institut pro bioinformatiku (SIB), který se podílí na vytváření sítě propojených databází sekvencí. * Kompletní databázi sekvencí proteinů obsahuje SWISS-PROT spolu s doplňkem označeným TrEMBL, který obsahuje automaticky doplňované překlady kódujících oblastí z databáze sekvencí nukleových kyselin EMBL. Textové vyhledávání v databázích * Množství důležitých molekulárně-biologických dat se zvyšuje tak rychle, že je nezbytné mít k dispozici prostředky, pomocí kterých můžeme k těmto datům snadno přistupovat. * Existují tři prostředky na získávání informací, které umožňují vyhledávání v molekulárně biologických databázích. * Tyto prostředky jsou vstupním bodem do mnoha integrovaných databází a každý z nich byl vyvinut v jednom ze tří hlavních center pro bioinformatiku. * Navzájem se liší v databázích, které mohou prohledávat, ve vazbách, které vytvářejí mezi jednotlivými databázemi a ve vazbách vztahujcích se k dalším informacím Entrez http://www.ncbi.nlm.nih.gov/Entrez/ * Entrez je vyhledávací systém pro molekulárně biologické databáze vyvinutý v NCBI * Je vstupním bodem pro průzkum 45 různých integrovaných databází z nichž řada je virtuálních. SRS http://srs.ebi.ac.uk/ * SRS je homogenní rozhraní pro přístup k více než 160 molekulárně biologickým databázím vyvinuté v EBI * Typy databází zahrnují -- sekvence a z nich odvozená data -- metabolické dráhy -- transkripční faktory -- 3-D struktury -- Genomy -- Mapování -- Mutace -- jednonukleotidové polymorfizmy -- výsledky získané pomocí analytických nástrojů * Webové rozhraní umožňuje provádět před vyhledáváním výběr z jednotlivých databází a poskytuje alternativní formuláře pro zadávání vyhledávacích dotazů. * Na Internetu běží několik verzí SRS a každá z nich obsahuje jinou sadu databází a analytických nástrojů. SRS DBGET/Link DB http://www.genome.ad.jp/dbget * DBGET/Link DB je integrovaný systém pro získávání dat z databází vyvinutý v Institutu pro chemický výzkum na Univerzitě Kyoto v Japonsku * Poskytuje přístup do databází, které mohou být dotazovány samostatně. * Jako výsledek DBGET prezentuje kromě seznamu vyhledaných záznamů také přehled vazeb na související informace ve všech integrovaných databázích. * Další ojedinělou vlastností je propojení na databázi KEGG (Kyoto Encyclopedia of Genes and Genomes), což je databáze regulačních a metabolických drah u organizmů ze známým genomem. * V porovnání se SRS a Entrez je však DBGET jednodušší a omezenější vyhledávací prostředek. DBGET/Link DB Nástroje pro vyhledávání lokálních podobností sekvencí *Sady programů zahrnujících algoritmy pro vyhledávání podobnosti v dostupných databázích sekvencí bez ohledu na to zdali dotazovaná sekvence je DNA nebo protein. Využívají heuristickou analýzu pro identifikaci krátkých homologických subsekvencí bez mezer s následným rozšiřováním vyhledávání v okolí subsekvencí s cílem získat lokálně seřazené sekvence, do nichž mohou být vloženy mezery * BLAST * Altschul et al., 1990 * dostupný na serveru NCBI * FASTA * Lipman a Pearson 1985 * dostupný na serveru EBI Co je to BLAST? * Basic Local Alignment Search Tool -- Hledání lokálních podobností -- Heuristický přístup založený na Smith-Watermanově algoritmu -- Vyhledá nejoptimálnější seřazení sekvencí -- Poskytuje data o statistické významnosti -- Zobrazuje vzájemně seřazené sekvence -- Lokalizuje oblasti sekvencí s vysokou podobností a umožňuje zobrazení jejich primární struktury a funkce Řada variant programu BLAST Jak používat BLAST? * http://www.ncbi.nlm.nih.gov/BLAST * Vybrat příslušný BLAST-program (blastn, blastp, blastx, tblastn, tblastx) * Vybrat databázi, která má být prohledána * Vložit sekvenci (DNA nebo protein) * Odeslat požadavek na vyhledání Jak BLAST pracuje? * Proces zahrnuje 3 kroky -- Příprava dotazu -- rozseká sekvenci na krátké úseky a sestaví z nich vhodnou tabulku 2. Vyhledává shody v databázi 3. Rozšiřuje vyhledávání v oblasti nalezených shod, tak aby byla splněna zadaná kritéria Slova pro nukleotidové sekvence Slova pro proteinové sekvence Minimální požadavek pro shodu Seřazení sekvencí, které BLAST může nalézt BLAST - Možnosti nastavení Substituční Matice * Co je substituční matice? -- Kompletní sada skóre pro všechny kombinace párů zbytků se nazývá substituční matice -- Stanovuje frekvenci při které každý možný zbytek v sekvencích může být změněn za kterýkoli jiný zbytek během času (evoluce) -- Např., hydrofobní zbytek má vyšší pravděpodobnot zachování v příslušné pozici sekvence než jiný. -- Každá matrice je určená pro určitý typ vyhledávání -- JE TŘEBA VĚDĚT CO HLEDÁME! Substituční Matice * Proč používat substituční matice? * Stanovit pravděpodobnou homologii dvou sekvencí. * Substituce, které jsou více pravděpodobné získají vyšší skóre * Substituce, které jsou méně pravděpodobné obdrží nižší skóre. Příklad matice BLOSUM62 Různé typy substitučních matic * Matice identity -- Především pro nukleotidové sekvence -- Neschopné transformovat na jiné zbytky -- Pro seřazení velmi podobných sekvencí -- Vypadá následovně .... Matice identity Matice PAM * PAM -- Percent Accepted Mutation -- založeny na konceptu akceptovatelných bodových mutací za 10^8 let v globálních mnohonásobných seřazeních blízce příbuzných proteinů -- Stanoveny na základě výpočtů u blízce příbuzných proteinů -- PAM1 reprezentuje 1% změn ^-- PAM250 = (PAM1) ^250 Matice BLOSUM * BLocks Substitution Matrix * Změny probíhající během dlouhodobé evoluce nejsou často vhodné pro výpočty a sledování malých recentních změn * Matice BLOSUM jsou sestaveny na základě analýzy mnohonásobných seřazení evolučně příbuzných proteinů v databázi BLOCKS * BLOSUM-x používá analýzu pouze těch proteinů, které mají alespoň x % identitu PAM versus BLOSUM * PAM Matice (Percent Accepted Mutation) -- Odvozené z pozorování; malé množství seřazených dat -- vhodné pro evoluční modely -- Všechny výpočty prováděny s PAM1 -- PAM250 je nejpoužívanější * BLOSUM (BLOck SUbstitution Matrices) -- Odvozené z pozorování; velké množství vysoce konzervovaných sekvencí (BLOCKS) -- Každá matice odvozená samostatně podle definované procentuální identity -- BLOSUM62 -- výchozí matice pro BLAST -- PAM versus BLOSUM * PAM100 Blosum90 * PAM120 Blosum80 * PAM160 Blosum60 * PAM200 Blosum52 * PAM250 Blosum45 Obecné závěry * Klíčovým elementem vyhodnocujícím výsledky srovnání aminokyselinových sekvencí je substituční matice * Různé matice jsou přizpůsobené pro detekci podobností u sekvencí, které se vyznačují různým stupněm divergence * BLOSUM je vhodnější pro lokální srovnání -- BLOSUM-62 je optimální pro detekci nízkých podobností proteinů -- BLOSUM-45 je vhodnější pro detekci nízkých podobností u dlouhých sekvencí Významnost shody * K posouzení významnosti shody nalezených úseků se používá numerická hodnota označovaná jako skóre seřazení sekvencí (S) * Popisuje celkovou kvalitu seřazení sekvencí na základě porovnání pravděpodobnosti výskytu nalezených segmentů o určité sekvenční podobnosti s pravděpodobností, že se taková podobnost vyskytne mezi dvěma náhodnými sekvencemi * Vyšší číslo odpovídá vyšší podobnosti * Ekvivalentem skóre S je hodnota E ("Expectation value"), která vyjadřuje počet různých seřazení sekvencí se skórem shodným nebo vyšším než je hodnota S, jejíž výskyt je očekáván při náhodném vyhledávání v databázi. E = mn 2 ^-S * Potom platí, že čím je hodnota E nižší, tím je skóre významnější. BLAST - Možnosti nastavení BLAST - Možnosti nastavení BLAST -- Výstup (Výsledky) Skládají se ze 4 částí 1) úvud, který informuje o tom kde bylo vyhledání provedeno a jaké databáze byly použity 2) seznam sekvencí v databázi, obsahující segmenty podobných sekvencí, jejichž skóre je alespoň tak vysoké jako zadané parametry 3) seřazení podobných sekvencí s vysokým skóre 4) kompletní seznam parametrů použitých pro vyhledání. Proteinový BLAST BLAST -- stránka pro formátování BLAST -- grafický výstup BLAST Output: Descriptions BLAST -- výstup seřazení sekvencí BLAST -- výstup filtrování sekvencí BLAST -- příklad výstupu u DNA BLAST -- výstup, přehled parametrů Mnohonásobné seřazení sekvencí (multiple alignment) Definice: Mnohonásobné seřazení sekvencí je srovnání tří a více sekvencí nukleových kyselin nebo proteinů s mezerami vloženými do sekvencí tak, že úseky sekvencí s úplnou nebo částečnou homologií jsou seřazeny nad sebou ve stejném sloupci. Lokální versus mnohonásobné srovnání * Dosud jsme srovnávali pouze dvě sekvence navzájem * Podobnosti mezi dvěma sekvencemi se stávají významnými, pokud se vyskytují i u dalších sekvencí * Mnohonásobné seřazení může identifikovat podobnosti a identifikovat konzervativní motivy, které nejsme schopni identifikovat lokálním srovnáním Důvody provedení mnohonásobného seřazení * Organizace dat a manipulace s daty týkajícími se podobných sekvencí * Dedukce fylogeneze * Vyhledání konzervativních míst nebo oblastí * Vyhledání variabilních oblastí * Odhalení změn ve stuktuře genů Algoritmus: mnohonásobné seřazení = hledání optimální cesty více konzervativních sloupců = lepší seřazení Výpočet skóre seřazení Vytvoření konsenzní sekvence Vytvoření profilu ClustalW * Obecně používaným programem pro mnohonásobné seřazení sekvencí je Clustal W (Higgins et al., 1994), který počítá optimální shodu mezi sekvencemi a umožňuje i grafické znázornění jejich podobnosti formou kladogramu nebo fylogenetického stromu. * Proces zahrnuje 3 kroky: 1.) Konstrukce všech párových seřazení 2.) Výpočet vodícího stromu 3.) Progresivní seřazení dle vodícího stromu ClustalW: krok 1 * Seřazení všech párů sekvencí * Výpočet matice podobností (hodnoty procentuální identity) ClustalW: krok 2 * Z matice podobností vypočísá shlukovou analýzou vodící strom * Používá statistickou metodu Neighbor-joining * Strom hrubě odráží evoluční souvislosti ClustalW: krok 3 * Začíná seřazením 2 nejpodobnějších sekvencí * Sleduje vodící strom a přidává další nejpodobnější sekvenci * Podle potřeby vkládá mezery Princip progresivního seřazení Problém přesnosti Prakticky prováděné kroky * Získání sekvencí (databáze, sekvencování) * Manipulace se sekvencemi (změna formátu, orientační párové seřazení) * Výběr vzájemně odpovídajících úseků * Mnohonásobné seřazení * Následné fylogenetické analýzy Lokální (párové) seřazení * BLAST 2 Sequences (NCBI) http://www.ncbi.nlm.nih.gov/blast/bl2seq/bl2.html * LALIGN local alignment program is available at several servers: http://www2.igh.cnrs.fr/bin/lalign-guess.cgi http://www.ch.embnet.org/software/LALIGN_form.html * LFASTA uses FASTA for local alignment of 2 sequences: http://pbil.univ-lyon1.fr/lfasta.html Software pro mnohonásobné seřazení Webové stránky Editory mnohonásobných seřazení: GeneDoc Editory mnohonásobných seřazení: BioEdit (North Carolina State University) Globalizované lokální seřazení Formát sekvencí -- multi FASTA >S.nepalensis AATACATGCAAGTCGAGCGAACAGATAAGGAGCTTGCTCCTTTGACGTTAG CGGCGGACGGGTGAGTAACACGTGGGTAACCTACCTATAAGACTGGAATAACTCCGGGAAACCGGGGCTA ATGCCGGATAATATTTAGAACCGCATGGTTCTAAAGTGAAAGATGGTTTTGCTATCACTTATAGATGGAC CCGCGCCGTATTAGCTAGTTGGTGGGGTAATGGCTTACCAAGGCAACGATACGTAGCCGACCTGAGAGGG TGATCGGCCACACTGGAACTGAGACACGGTCCAGACTCCTACGGGAGGCAGCAGTAGGGAATCTTCCGCA ATGGGCGAAAGCCTGACGGAGCAACGCCGCGTGAGTGATGAAGGTCTTCGGATCGTAAAACTCTGTTATT AGGGAAGAACAAATGTGTAAGTAACTGTGCACGTCTTGACGGTACCTAATCAGAAAGCCACGGCTAACTA CGTGCCAGCAGCCGCGGTAATACGTAGGTGGCAAGCGTTATCCGGAATTATTGGGCGTAAAGCGCGCGTA GGCGGTYTTCTTAAGTCTGATGTGAAAGCCCACGGCTCAACCGTGGAGGGTCATTGGAAACTGGGAAACT TGAGTGCAGAAGANGAAAGTGGAATTCC >S.cohnii.Lepidoptera AATACATGCAAGTCGAGCGAACAGATAAGGAGCTTGCTCCTTTGACGTTAGCGGCGGACGGGTGAGTA ACACGTGGGTAACCTACCTATAAGACTGGAATAACTCCGGGAAACCGGGGCTAATGCCGGATAATATTTA GAACCGCATGGTTCTAAAGTGAAAGATGGTTTTGCTATCACTTATAGATGGACCCGCGCCGTATTAGCTA GTTGGTGGGGTAATGGCTCACCAAGGCAACGATACGTAGCCGACCTGAGAGGGTGATCGGCCACACTGGA ACTGAGACACGGTCCAGACTCCTACGGGAGGCAGCAGTAGGGAATCTTCCGCAATGGGCGAAAGCCTGAC GGAGCAACGCCGCGTGAGTGATGAAGGTCTTCGGATCGTAAAACTCTGTTATTAGGGAAGAACAAATGTG TAAGTAACTGTGCACGTCTTGACGGTACCTAATCAGAAAGCCACGGCTAACTACGTGCCAGCAGCCGCGG TAATACGTAGGTGGCAAGCGTTATCCGGAATTATTGGGCGTAAAGCGCGCGTAGGCGGTTTCTTAAGTCT GATGTGAAAGCCCACGGCTCAACCGTGGAGGGTCATTGGAAACTGGGAAACTTGAGTGCAGAAGAGGAAA GTGGAATTCC >S.cohnii.cohnii AATACATGCAAGTCGAGCGAACAGATAAGGAGCTTGCTCCTTTGAC GTTAGCGGCGGACGGGTGAGTAACACGTGGGTAACCTACCTATAAGACTGGAATAACTCCGGGAAACCGG GGCTAATGCCGGATAACATTTAGAACCGCATGGTTCTAAAGTGAAAGATGGTTTTGCTATCACTTATAGA TGGACCCGCGCCGTATTAGCTAGTTGGTAAGGTAACGGCTTACCAAGGCAACGATACGTAGCCGACCTGA GAGGGTGATCGGCCACACTGGAACTGAGACACGGTCCAGACTCCTACGGGAGGCAGCAGTAGGGAATCTT CCGCAATGGGCGAAAGCCTGACGGAGCAACGCCGCGTGAGTGATGAAGGTCTTCGGATCGTAAAACTCTG TTATTAGGGAAGAACAAATGTGTAAGTAACTATGCACGTCTTGACGGTACCTAATCAGAAAGCCACGGCT AACTACGTGCCAGCAGCCGCGGTAATACGTAGGTGGCAAGCGTTATCCGGAATTATTGGGCGTAAAGCGC GCGTAGGCGGTTTCTTAAGTCTGATGTGAAAGCCCACGGCTCAACCGTGGAGGGTCATTGGAAACTGGGA AACTTGAGTGCAGAAGAGGAAAGTGGAATTCC >S.cohnii.urealyt AATACATGCAAGTCGAGCGAACAGATAA GGAGCTTGCTCCTTTGACGTTAGCGGCGGACGGGTGAGTAACACGTGGGTAACCTACCTATAAGACTGGA ATAACTCCGGGAAACCGGGGCTAATGCCGGATAACATTTAGAACCGCATGGTTCTAAAGTGAAAGATGGT TTTGCTATCACTTATAGATGGACCCGCGCCGTATTAGCTAGTTGGTAAGGTAACGGCTTACCAAGGCAAC GATACGTAGCCGACCTGAGAGGGTGATCGGCCACACTGGAACTGAGACACGGTCCAGACTCCTACGGGAG GCAGCAGTAGGGAATCTTCCGCAATGGGCGAAAGCCTGACGGAGCAACGCCGCGTGAGTGATGAAGGTCT TCGGATCGTAAAACTCTGTTATTAGGGAAGAACAAATGTGTAAGTAACTGTGCACGTCTTGACGGTACCT AATCAGAAAGCCACGGCTAACTACGTGCCAGCAGCCGCGGTAATACGTAGGTGGCAAGCGTTATCCGGAA TTATTGGGCGTAAAGCGCGCGTAGGCGGTTTCTTAAGTCTGATGTGAAAGCCCACGGCTCAACCGTGGAG GGTCATTGGAAACTGGGAAACTTGAGTGCAGAAGAGGAAAGTGGAATTCC >S.xylosus.type AATACATGCAAGTCGAGCGAACAGATAAGGAGCTTGCTCCTTTGAA GTTAGCGGCGGACGGGTGAGTAACACGTGGGTAACCTACCTATAAGACTGGGATAACTTCGGGAAACCGG AGCTAATACCGGATAACATTTAGAACCGCATGGTTCTAAAGTGAAAGATGGTTTTGCTATCACTTATAGA TGGACCCGCGCCGTATTAGCTAGTTGGTAAGGTAACGGCTTACCAAGGCGACGATACGTAGCCGACCTGA GAGGGTGATCGGCCACACTGGAACTGAGACACGGTCCAGACTCCTACGGGAGGCAGCAGTAGGGAATCTT CCGCAATGGGCGAAAGCCTGACGGAGCAACGCCGCGTGAGTGATGAAGGGTTTCGGCTCGTAAAACTCTG TTATTAGGGAAGAACAAATGTGTAAGTAACTGTGCACATCTTGACGGTACCTAATCAGAAAGCCACGGCT AACTACGTGCCAGCAGCCGCGGTAATACGTAGGTGGCAAGCGTTATCCGGAATTATTGGGCGTAAAGCGC GCGTAGGCGGTTTCTTAAGTCTGATGTGAAAGCCCACGGCTCAACCGTGGAGGGTCATTGGAAACTGGGA AACTTGAGTGCAGAAGAGGAAAGTGGAATTCC