M7DataSP Praktikum z pokročilé datové vědy

Přírodovědecká fakulta
podzim 2023
Rozsah
0/2/1. 3 kr. (příf plus uk k 1 zk 2 plus 1 > 4). Ukončení: z.
Vyučující
Mgr. Eva Maršálková (přednášející)
Mgr. Petr Šimeček, MSc., Ph.D. (přednášející)
Mgr. Denisa Šrámková (přednášející)
Garance
doc. PaedDr. RNDr. Stanislav Katina, Ph.D.
Ústav matematiky a statistiky – Ústavy – Přírodovědecká fakulta
Dodavatelské pracoviště: Ústav matematiky a statistiky – Ústavy – Přírodovědecká fakulta
Rozvrh seminárních/paralelních skupin
M7DataSP/01: Po 8:00–9:50 MP1,01014, P. Šimeček
Předpoklady
Je výhodou, pokud student z předchozích přednášek zná nějaký programovací jazyk vhodný pro zpracování dat, nejlépe Python či R. Příklady budou dávány v Pythonu.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 30 stud.
Momentální stav registrace a zápisu: zapsáno: 6/30, pouze zareg.: 0/30, pouze zareg. s předností (mateřské obory): 0/30
Mateřské obory/plány
Cíle předmětu
Hlavní cíl předmětu je získat praktickou znalost metod používaných v datové analýze a strojovém učení. Vedlejším cílem je, aby se studenti procvičili v daném programovacím jazyku.
Výstupy z učení
Studenti by po absolvování předmětu měli být schopni
- predikce pomocí lineární či logistické regrese
- prozkoumat neznámá data pomocí metody hlavních component či shlukování
- rozdělit data na trénovací a testovací množinu, rozumět variance vs bias tradeoff
- použít stromy, lesy, bagging and boosting na predikci spojité či kategoriální veličiny (XGBoost, LightGBM, CatBoost)
- zvládnout základy PyTorch, učení neuronových sítí a fine-tuning u obrazových a textových dat
- velké jazykové modely
- doporučovací algoritmy (collaboration filtering)

Vedlejší znalosti získané při procvičování výše uvedeného
- čištění dat
- kreslení grafů
- trasformace dat (group by, summary)
- práce s git a GitHubem
- reproducibilní analýza a dokumenty (Jupyter notebooks, Markdown, quatro)
- sociální dovednosti získané při práci ve skupině
Osnova
  • Podrobnou osnovu spolu s použitými daty lze nalézt na stránce předmětu https://github.com/simecek/dspracticum2023
Výukové metody
Každá hodina bude zaměřena na jednu datovou sadu a problém, na kterém si vysvětlíme danou metody strojového učení či analýzy dat (např. logictickou regresi). Předpokládá se samostatná práce doma a průběžné odevzdávání úkolů.
Metody hodnocení
Studenti získávají body za skupinovou práci během semestru (domácí úkoly odevzdávané přes GitHub) a mohou získat extra 30% bodů za individuální závěrečný projekt. Pro získání zápočtu je třeba alespoň 70% bodů.
Informace učitele
https://github.com/simecek/dspracticum2023
Další komentáře
Studijní materiály
Předmět je zařazen také v obdobích podzim 2020, podzim 2021, podzim 2024.