M7DataSP Praktikum z pokročilé datové vědy

Přírodovědecká fakulta
podzim 2020
Rozsah
0/2/1. 3 kr. (příf plus uk k 1 zk 2 plus 1 > 4). Ukončení: z.
Vyučující
Mgr. Petr Šimeček, MSc., Ph.D. (přednášející)
Garance
doc. PaedDr. RNDr. Stanislav Katina, Ph.D.
Ústav matematiky a statistiky – Ústavy – Přírodovědecká fakulta
Dodavatelské pracoviště: Ústav matematiky a statistiky – Ústavy – Přírodovědecká fakulta
Rozvrh seminárních/paralelních skupin
M7DataSP/01: Po 12:00–13:50 MP2,01014a, P. Šimeček
Předpoklady
Je výhodou, pokud student z předchozích přednášek zná nějaký programovací jazyk vhodný pro zpracování dat, nejlépe R či Python.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 30 stud.
Momentální stav registrace a zápisu: zapsáno: 5/30, pouze zareg.: 0/30, pouze zareg. s předností (mateřské obory): 0/30
Mateřské obory/plány
Cíle předmětu
Hlavní cíl předmětu je získat praktickou znalost metod používaných v datové analýze a strojovém učení. Vedlejším cílem je, aby se studenti procvičili v daném programovacím jazyku.
Výstupy z učení
Studenti by po absolvování předmětu měli být schopni
- predikce pomocí lineární či logistické regrese
- prozkoumat neznámá data pomocí metody hlavních component či shlukování
- rozdělit data na trénovací a testovací množinu, rozumět variance vs bias tradeoff
- použít stromy, lesy, bagging and boosting na predikci spojité či kategoriální veličiny (XGBoost, LightGBM, CatBoost)
- zvládnout základy TensorFlow 2.0 a Keras, učení neuronových sítí a fine-tuning u obrazových a textových dat
- doporučovací algoritmy (collaboration filtering)

Vedlejší znalosti získané při procvičování výše uvedeného
- čištění dat
- kreslení grafů
- trasformace dat (group by, summary)
- práce s git a GitHubem
- reproducibilní analýza a dokumenty (RMarkdown, Jupyter notebooks)
- sociální dovednosti získané při práci ve skupině
Osnova
  • Podrobnou osnovu spolu s použitými daty lze nalézt na stránce předmětu https://github.com/simecek/dspracticum2020
Výukové metody
Každá hodina bude zaměřena na jednu datovou sadu a problém, na kterém si vysvětlíme danou metody strojového učení či analýzy dat (např. logictickou regresi). Předpokládá se samostatná práce doma a průběžné odevzdávání úkolů.
Metody hodnocení
Studenti mohou získat 50% bodů za skupinovou práci během semestru (domácí úkoly odevzdávané přes GitHub) a 50% bodů za individuální závěrečný projekt. Pro získání zápočtu je třeba alespoň 60% bodů.
Informace učitele
https://github.com/simecek/dspracticum2020
Další komentáře
Studijní materiály
Předmět je zařazen také v obdobích podzim 2021, podzim 2023, podzim 2024.