Vybrané aplikace informatiky v biologii

Týden 7

Cviceni k stringologii a podobnosti.

Cilem bude seznamit Vas s nekolika nastroji pro vyhledavani podobnych retezcu znaku v textech ci genomech. U nekterych si vyzkousite instalaci, jine budou jiz nainstalovany predem. Krome seznamovani zamerime cviceni na porovnani casove a pametove narocnosti jednotlivych metod, na konci cviceni odevzdejte vyplnenou tabulku, kde na radcich budou nastroje, ve sloupcich pouzite datove sady a v polich tabulky cas a prostor nutny pro vypocet. K monitorovani doby vypoctu muzete pouzit funkce "time" a "top" bezne pristupne s prikazove radky systemu s OS Linux.

Pracujte ve dvou.

Pro numericke experimenty pouzijte genomova data ze stranky ftp://ftp.ncbi.nlm.nih.gov/genomes/ nebo priklady programu MUMmmer (http://www.no.embnet.org/manuals/mummer/examples/) a pro urcite srovnani sbirku textu romanu Jacka Londona napr. z projektu Gutenberg (www.gutenberg.org), pripadne dalsich autoru, aby vysledny soubor byl radove velikosti desitek Mbp/MB.

Pokuste se zjistit narocnost vyhledani vsech podobnosti retezce o delce cca 10 znaku a 100 znaku v prislusnem genomu/textovem souboru. Pokud to software umoznuje, pouzijte nastaveni, ktere vrati jenom nekolik nejlepsich vysledku a nastaveni, kteremu budou odpovidat desitky az stovky podobnych retezcu. V mnohych pripadech je prvni uloha rychlejsi nebo ma nizsi pametove naroky.

Seznam nastroju k testovani: textove editory a procesory, grep, agrep, CGC findpatterns/EMBOSS fuznuc, SimString, BLAST, BLAT, MUMmer, Primex,..

OSNOVA CVICENI:

1. Pripravte si datove soubory pro srovnavaci studie (4 typy dotazu, 2 soubory k prohledavani).

2. Instalujte simstring. Pracujte s grep, agrep, simstring, vyplnte cast tabulky.

3. Pracujte s programy BLAST a BLAT (sformatujte prohledavany text pro oba programy), vyplnte dalsi cast tabulky.

4. Seznamte se s programem MUMmer. Dokoncit studii a tabulku.

5. a) srovnejte dva pribuzne genomy z FTP serveru NCBI nebo jejich odpovidajicich si casti a vygenerujte vizualizaci.

PS: /usr/local/share/MUMmer3.22/

b) Naleznete v jednom z genomu vsechna presna opakovani nukleotidu o delce >100bp, nekolik takovych opakovani vizualizujte.

SimString

MUMmer Manual

Agrep Homepage

perl -n -e "while(s/.(...)/\$1/){print \"\$1\n\"}" < track.txt

perl -n -e "while(s/([acdefghiklmnpqrstvwyACDEFGHIKLMNPQRSTVWYZ])//){print \"\$1\"};print\"\n\"" < track.txt

perl -p -i -e "s/ /\n/g"

Předchozí

Následující

Vybrané aplikace informatiky v biologii
- Nyní studovat
  
  Týden 1 - Úvod do bioinformatiky a systémové biologie 18. 2. 2014
- Nyní studovat
  
  Týden 2
- Nyní studovat
  
  Týden 3
- Nyní studovat
  
  Týden 4
- Nyní studovat
  
  Týden 5
- Nyní studovat
  
  Týden 6
- Nyní studovat
  
  Týden 7
- Nyní studovat
  
  Týden 8
- Nyní studovat
  
  Tyden 9
- Nyní studovat
  
  Týden 10
- Nyní studovat
  
  Týden 11
- Nyní studovat
  
  Týden 10
- Nyní studovat
  
  Týden 11
- Nyní studovat
  
  Týden 12

Operace

Prohlédnout vše

Interaktivní osnova

Týden 7

Operace