FF:PLIN080 Tvorba datových sad - Informace o předmětu
PLIN080 Tvorba datových sad pro strojové učení
Filozofická fakultapodzim 2023
- Rozsah
- 0/2/0. 4 kr. Ukončení: z.
- Vyučující
- prof. Radek Čech, Ph.D. (přednášející)
Mgr. Helena Medková (přednášející) - Garance
- prof. Radek Čech, Ph.D.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Jaroslava Vybíralová
Dodavatelské pracoviště: Ústav českého jazyka – Filozofická fakulta - Rozvrh
- Po 16:00–17:40 G13, kromě Po 13. 11.
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 3/20, pouze zareg.: 0/20, pouze zareg. s předností (mateřské obory): 0/20 - Mateřské obory/plány
- Počítačová lingvistika (program FF, B-PLIN_) (3)
- Cíle předmětu
- Předmět je určen pro studenty bohemistiky a počítačové lingvistiky, kteří mají základní či nulovou znalost dané problematiky a chtějí v této oblasti získat dovednosti využitelné v praxi. Studenti si rozšíří své znalosti o základy počítačového zpracování přirozeného jazyka, a to především v oblasti vytváření trénovacích / testovacích sad pro strojové učení aplikovaného na lingvistický výzkumný problém.
- Výstupy z učení
- Student v kurzu získá praktické zkušenosti se sběrem dat pomocí korpusového manažeru Sketch Engine, s vytvořením trénovací / testovací datové sady, s úpravou dat a jejich manipulací pomocí jazyka Python a vybraných knihoven (Pandas, re, NLTK, Scikit-Learn, Matplotlib aj.) pro čištění dat, popř. jejich vizualizaci.
- Osnova
- 1. Úvodní hodina: zadání úlohy, úvod do metod strojového učení.
- 2. Typy datových sad: dataset podle úlohy učení, vytyčení výzkumného cíle v oblasti lingvistiky, vytvoření datového souboru.
- 3. Předzpracování dat: čištění dat, odstranění duplicit, tokenizace, lemmatizace, morfologická analýza, syntaktická analýza (nástroj UD Pipe, majka, desamb).
- 4. Anotace dat: anotační schéma, měření mezianotátorské shody.
- 5. Analýza lingvistických dat: statistika datového souboru a vizualizace v grafech.
- 6. Strojové učení: bez učitele/s učitelem, trénování jazykového modelu pro úlohu klasifikace, evaluace úspěšnosti modelu, cross validace.
- Literatura
- GÉRON, Aurélien. Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow : concepts, tools, and techniques to build intelligent systems. Third edition. Beijing: O'Reilly, 2022, xxv, 834. ISBN 9781098125974. info
- Výukové metody
- Seminář, cvičení na počítači (nástroj Google Colaboratory), samostatná práce, konzultace.
- Metody hodnocení
- Odevzdání dvou kvalitně anotovaných datových sad každé v rozsahu 1000 vět. Průběžné odevzdávání domácích úloh, aktivita v hodině.
- Informace učitele
- Předmět je koncipován tak, že se střídá výuka se samostatnou prací studenta.
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
- Statistika zápisu (podzim 2023, nejnovější)
- Permalink: https://is.muni.cz/predmet/phil/podzim2023/PLIN080