PřF:M7DataSP Praktikum z pokr. datové vědy - Informace o předmětu
M7DataSP Praktikum z pokročilé datové vědy
Přírodovědecká fakultapodzim 2023
- Rozsah
- 0/2/1. 3 kr. (příf plus uk k 1 zk 2 plus 1 > 4). Ukončení: z.
- Vyučující
- Mgr. Eva Maršálková (přednášející)
Mgr. Petr Šimeček, MSc., Ph.D. (přednášející)
Mgr. Denisa Šrámková (přednášející) - Garance
- doc. PaedDr. RNDr. Stanislav Katina, Ph.D.
Ústav matematiky a statistiky – Ústavy – Přírodovědecká fakulta
Dodavatelské pracoviště: Ústav matematiky a statistiky – Ústavy – Přírodovědecká fakulta - Rozvrh seminárních/paralelních skupin
- M7DataSP/01: Po 8:00–9:50 MP1,01014, P. Šimeček
- Předpoklady
- Je výhodou, pokud student z předchozích přednášek zná nějaký programovací jazyk vhodný pro zpracování dat, nejlépe Python či R. Příklady budou dávány v Pythonu.
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 30 stud.
Momentální stav registrace a zápisu: zapsáno: 6/30, pouze zareg.: 0/30, pouze zareg. s předností (mateřské obory): 0/30 - Mateřské obory/plány
- Aplikovaná matematika (program PřF, N-APM) (2)
- Cíle předmětu
- Hlavní cíl předmětu je získat praktickou znalost metod používaných v datové analýze a strojovém učení. Vedlejším cílem je, aby se studenti procvičili v daném programovacím jazyku.
- Výstupy z učení
- Studenti by po absolvování předmětu měli být schopni
- predikce pomocí lineární či logistické regrese
- prozkoumat neznámá data pomocí metody hlavních component či shlukování
- rozdělit data na trénovací a testovací množinu, rozumět variance vs bias tradeoff
- použít stromy, lesy, bagging and boosting na predikci spojité či kategoriální veličiny (XGBoost, LightGBM, CatBoost)
- zvládnout základy PyTorch, učení neuronových sítí a fine-tuning u obrazových a textových dat
- velké jazykové modely
- doporučovací algoritmy (collaboration filtering)
Vedlejší znalosti získané při procvičování výše uvedeného
- čištění dat
- kreslení grafů
- trasformace dat (group by, summary)
- práce s git a GitHubem
- reproducibilní analýza a dokumenty (Jupyter notebooks, Markdown, quatro)
- sociální dovednosti získané při práci ve skupině - Osnova
- Podrobnou osnovu spolu s použitými daty lze nalézt na stránce předmětu https://github.com/simecek/dspracticum2023
- Výukové metody
- Každá hodina bude zaměřena na jednu datovou sadu a problém, na kterém si vysvětlíme danou metody strojového učení či analýzy dat (např. logictickou regresi). Předpokládá se samostatná práce doma a průběžné odevzdávání úkolů.
- Metody hodnocení
- Studenti získávají body za skupinovou práci během semestru (domácí úkoly odevzdávané přes GitHub) a mohou získat extra 30% bodů za individuální závěrečný projekt. Pro získání zápočtu je třeba alespoň 70% bodů.
- Informace učitele
- https://github.com/simecek/dspracticum2023
- Další komentáře
- Studijní materiály
- Statistika zápisu (podzim 2023, nejnovější)
- Permalink: https://is.muni.cz/predmet/sci/podzim2023/M7DataSP