IV108 Bioinformatika II

9.-11.týden 8.11 - 22. 11. 2023


Trimming

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2023/IV108/um/cviceni_ngs.txt

UPRESNENI POSTUPU Z CVICENI A UKOLU 8 a 9

Prace se sekvenacnimi 'ready' v IGV:

Dle popisu vyse ziskame referencni sekvenci zajmove oblasti (cluster genu S100A u cloveka) jako A format) a anotaci transkriptu s exony (BED/GFF3 format). Vyzkousejte zobrazeni ziskane anotace v prohlizeci IGV.

Ukol 10 (1b)

Zobrazte v IGV spolu s anotaci z predchoziho kroku sekvenacni data ze sekvenatoru (soubor http://www.fi.muni.cz/~lexa/S100_cluster_mapped.fastq). K tomu je potreba

1) Namapovat sekvence z FASTQ na referencni sekvenci (FASTA), napr. pomoci software BOWTIE2 (bowtie2-build vytvori index, bowtie2 pak provede mapovani; vsimejte si statistiku namapovanych sekvenci na vystupu). Vystupem je SAM soubor.

2) Konvertovat SAM na BAM, aby bylo mozne tento pouzit k vizualizaci nampaovanych sekvenci v IGV. Pouzijte software samtools, po konverzi pres 'samtools view' jeste sort a index. Serazeny a indexovany BAM pak lze do IGV nacist, index musi zustat ve stejnem adresari.

Odevzdavejte kratky komentar a screenshot vizualizace v IGV, kde je videt anotaci a namapovane sekvence bud nektereho z genu nebo cele oblasti.

Ukol 11 (2b)

Vykonejte obdobnou analyzu s RNA-seq daty (viz take Cviceni NGS vyse). Cilem bude krome kontrolni vizualizace spocitat sekvence namapovane na jednotlive geny v zajmove oblasti a timto odhadnout relativni expresi techto genu. K pocitani lze vyuzit samtools s prepinacem -c a zadanym regionem. Odevzdavejte kratky komentar se screenshotem podobne jako v ukolu 8, ale jeste s tabulkou relativnich poctu namapovanych sekvenci na jednotlive geny (relativni exprese).

=============================================================================


Rodriguez-Ezpeleta et al. (2012). Bioinformatics for High-Throughput Sequencing. Springer


- ch6 De novo short-read assembly


- ch13 Analysis of metagenomic data


- ch14 High-throughput sequencing data analysis software: current state and future developments


Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2023/IV108/um/lecture_09b.pdf

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2023/IV108/um/cviceni_metagenomika.txt


Soubory pro MEGAN a DIAMOND na stroji hedron.fi.muni.cz:


/mnt/nas/software/megan/data #Soubory pro MEGAN s mapovanim na nr.faa (taxonomie nebo funkce)

/mnt/nas/biodata/nr.dmnd #Soubor vytvoren z neredundantnich sekvenci proteinu z NCBI nr.faa


E.coli: https://www.ncbi.nlm.nih.gov/sra/SRX22587772[accn]

Salmonella: https://www.ncbi.nlm.nih.gov/sra/SRX22588223[accn]


fastq-dump

fasterq-dump


Ukol 12 (3b)

Simulovana metagenomicka analyza. Namichejte si sekvenacni ready v pomeru pokryti genomu 2x z E.coli a 10x z bakterie Salmonela. Takto ziskana cvicna data analyzujte poskladanim do contigu nastrojem VELVET (1b), namapovanim contigu na metagenomickou referenci nr nastrojem DIAMOND s nastavenim pro dlouhe ready (1b), s naslednim binningem a vizualizaci v nastroji MEGAN. Odevzdejte seznam pouzitych prikazu, strucny popis postupu a vystupy (v pripade vetsich souboru muze byt i sample). Minimalni vystupy: contigs, mapovaci tabulka (napr. rma6 format z diamondu) a screenshot z MEGANu s taxonomickou analyzou. Jaky pomer techto dvou druhu Vam vysel? Odpovida to ocekavani?


Real world example: