Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat

Přírodovědecká fakulta
jaro 2019
Rozsah
0/1/0. 2 kr. Ukončení: z.
Vyučující
RNDr. Martin Komenda, Ph.D., MBA (přednášející)
Mgr. Matěj Karolyi (přednášející)
Mgr. Martin Víta, Ph.D. (přednášející)
Mgr. Jakub Ščavnický (přednášející)
Garance
RNDr. Martin Komenda, Ph.D., MBA
RECETOX – Přírodovědecká fakulta
Kontaktní osoba: RNDr. Martin Komenda, Ph.D., MBA
Dodavatelské pracoviště: RECETOX – Přírodovědecká fakulta
Předpoklady
Předpokladem je zájem o oblast zpracování, analýzy a vizualizace dat.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 12 stud.
Momentální stav registrace a zápisu: zapsáno: 0/12, pouze zareg.: 0/12, pouze zareg. s předností (mateřské obory): 0/12
Mateřské obory/plány
Cíle předmětu
Předmět detailně představí vybraná témata z oblasti zpracování, analýzy a vizualizace dat. Vždy budou vybrány 4 aktuální projekty, která budou ve formě interaktivních workshopů pod vedením zkušených mentorů prezentovat použití ověřených metodik a metod dolování dat, analytických postupů a technik v praxi. Každá část bude vždy rozdělena na blok představující nezbytné teoretické pozadí a blok, který se bude věnovat praktickým výstupům a řešení výzkumných otázek ve spolupráci se studenty.
Výstupy z učení
Student porozumí potřebnosti systematického používání metodik a metod pro dolování dat.
Student se seznámí s aktuálními trendy ve zpracování, analýzu a vizualizaci dat.
Student si osvojí nové postupy při řešení zadaných výzkumných problémů.
Osnova
  • Témata pro období jaro 2019 jsou následující:
  • - Mapování medicínského kurikula – blok věnovaný pochopení problematiky budování, struktury, správy a mapování medicínských studijních programů. V souladu s metodikou CRISP-DM budou představena řešení konkrétních úloh společně s reálnými výstupy v podobě interaktivních analýz a reportů.
  • - Strojové zpracování a analýza – studenti budou seznámeni s technikami strojového procházení, zpracování a ukládání textového obsahu z elektronických zdrojů. Pozornost bude zaměřena především na automatizaci celého procesu s použitím vhodných nástrojů a knihoven třetích stran. Po vhodném předzpracování uložených dat proběhne analýza a popis základních statistických charakteristik datové sady.
  • - Výběr správné vizualizace a „data storytelling“ – v rámci přednášky a průběžných aktivit tohoto bloku bude věnován důraz na kritické uvažování při výběru koncové vizualizace, která bude prezentována publiku. Budou probírána témata související s touto problematikou: (i) rozdíly mezi průzkumovou a vysvětlující analýzou, (ii) vyprávění příběhů pomocí dat, (iii) příběhové struktury, (vi) autorem vs. uživatelem řízené vizualizace, (v) výhody a nevýhody různých typů grafů. Studenti si prakticky vyzkouší některé z prezentovaných technik na modelových úkolech.
  • - Deep learning (2 bloky) – nejprve budou vyloženy hlavní principy a pojmy z oblasti neuronových sítí a jejich základní architektury (dopředné: fully connected a konvoluční, dále pak rekurentní: LSTM). Následovat bude praktická implementace těchto architektur pro řešení jednoduchých klasifikačních a regresních úloh z různých oblastí (mj. zpracování obrazu, zpracování přirozeného jazyka). K tomuto účelu bude využito prostředí R + knihovna Keras. Informativně budou zmíněny též regularizační techniky (především dropout) a principy transfer learningu a využití předtrénovaných modelů. V závěru se podíváme na workflow vývoje deep learningových modelů za pomoci knihovny tfruns.
Metody hodnocení
Docházka – účast 100 %. Aktivní účast na seminářích.
Informace učitele
Výuka probíhá blokově.
Poznámka k četnosti výuky: Výuka pro semestr jaro 2019 bude probíhat 5 x za semestr v blocích (2,5 hodiny) v kampusu MU v Bohunicích (učebna bude specifikována emailem v dostatečném předstihu). Tyto bloky budou prokládané interakcemi se studenty (interaktivní kvízy, zjednodušené úkoly k vypracování, aplikace CRISP-DM na doménu, diskuse ve dvojicích). Na lekcích budou přítomni všichni lektoři.

Terminy pro období jaro 2019: 1. března, 15. března, 29. března, 12. dubna, 26. dubna - vždy od 9,00h do 11,30h v zasedací místnosti IBA, Kamenice 3, 6. patro.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Výuka probíhá blokově.
Předmět je zařazen také v obdobích jaro 2020, jaro 2021.