Pokročilé metody bioinformatiky

GRAPH ALGORITHMS AND DATA STRUCTURES 27. 3. 2023


CVIČENÍ - jednoduchý příklad tvorby "variation graph"

1. VSTUPNÍ DATA: Připravte FASTA soubor s jednou sekvencí délky několika 1000 bp, např. jeden z retrotransposonů z minulého týdne (/home/lexa/pv269/tenesteer/127.fa). Vytvořte 2 kopie této sekvence, které se budou lišit 3-4 delecemi a inzercemi v délce kolem 100bp.  Jednu použijte k rozšíření FASTA souboru, aby obsahoval dvě sekvence (poslouží k tvorbě ukázkového grafu), druhou si nechte bokem (budem ji do grafu přidávat).

2. K manipulaci souborů použijeme:

  a) MSA a vg toolkit

  b) PGGB pipeline (wfmash, seqwish, atd. https://github.com/pangenome/pggb/blob/master/README.md)

3. Vytvořte graf v GFA formátu (pggb nebo vg construct). U vg toolkit lze konvertovat nativní vg formát příkazem "vg view". Další informace k práci s vg toolkit najdete na https://gtpb.github.io/CPANG18/pages/toy_examples

4. K zobrazení grafu použijte program Bandage (https://rrwick.github.io/Bandage/). Dopadlo všechno podle očekávání? Jak se liší dva vytvořené variační grafy? V případě nespokojenosti, zkuste upravit parametry výpočtu.

5. V programu Bandage vizualizujte jednu ze sekvencí příkazem BLAST a nastavením příslušného zobrazení.

6. Přidejte do grafu třetí sekvenci (přes GAM formát z "vg map/align" a "vg mod"). Ověřte úspěšnost této operace vizualizací grafu (Bandage nebo příslušná část příkladu z odkazu výše).


PROJEKT - varianta 2

Zkonstrujte pangenom bakterie https://www.ncbi.nlm.nih.gov/data-hub/genome/GCF_022870485.1/a její nejbližších dostupných příbuzných. Viz doporučení pro PGGB:

https://pggb.readthedocs.io/en/latest/rst/organism_example_parameters.html

případně použijte metody vycházející ze zarovnání genomů. Odevzdejte zapsaný postup s důrazem na použité programy/příkazy a jejich parametrizaci. Odevzdejte pangenom, k tomu variační graf některé části genomu, kde variační graf ukazuje variaci (oba ve formátu GFA) a vizualizaci zmíněné variace.