FF:PLIN080 Tvorba datových sad - Informace o předmětu
PLIN080 Základy zpracování jazykových dat pro strojové učení v humanitních oborech
Filozofická fakultapodzim 2024
- Rozsah
- 0/2/0. 4 kr. Ukončení: z.
- Vyučující
- prof. Radek Čech, Ph.D. (přednášející)
Mgr. Helena Medková (přednášející) - Garance
- prof. Radek Čech, Ph.D.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Bc. Silvie Hulewicz, DiS.
Dodavatelské pracoviště: Ústav českého jazyka – Filozofická fakulta - Rozvrh
- Po 16:00–17:40 G13, kromě Po 18. 11. až Ne 24. 11.
- Předpoklady
- FAKULTA(FF) && FORMA(P)
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 14/20, pouze zareg.: 0/20, pouze zareg. s předností (mateřské obory): 0/20 - Mateřské obory/plány
- Počítačová lingvistika (program FF, B-PLIN_) (3)
- Cíle předmětu
- Předmět je určen pro studenty bohemistiky a počítačové lingvistiky, kteří mají základní či nulovou znalost dané problematiky a chtějí v této oblasti získat dovednosti využitelné v praxi. Studenti si rozšíří své znalosti o základy počítačového zpracování přirozeného jazyka, a to především v oblasti vytváření trénovacích / testovacích sad pro strojové učení aplikovaného na lingvistický výzkumný problém.
- Výstupy z učení
- Student v kurzu získá praktické zkušenosti se sběrem dat pomocí korpusového manažeru Sketch Engine, s vytvářením trénovací / testovací datové sady, s úpravou dat a jejich manipulací pomocí jazyka Python a vybraných knihoven (Pandas, re, NLTK, Scikit-Learn, Matplotlib aj.).
- Osnova
- 1. Úvodní hodina: úvod do metod strojového učení, úvodní cvičení v Pythonu, práce s nástrojem Google Colab.
- 2. Typy datových sad: dataset podle úlohy učení, vytyčení výzkumného cíle v oblasti lingvistiky, vytvoření datového souboru.
- 3. Předzpracování dat: čištění dat, odstranění duplicit, tokenizace, lemmatizace, morfologická analýza, syntaktická analýza (nástroj UD Pipe, majka, desamb).
- 4. Anotace dat: anotační schéma, měření mezianotátorské shody.
- 5. Analýza lingvistických dat: statistika datového souboru a vizualizace v grafech.
- 6. Učení s učitelem: trénování jazykového modelu pro úlohu klasifikace, evaluace úspěšnosti modelu, cross validace.
- Literatura
- GÉRON, Aurélien. Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow : concepts, tools, and techniques to build intelligent systems. Third edition. Beijing: O'Reilly, 2022, xxv, 834. ISBN 9781098125974. info
- Výukové metody
- Seminář, cvičení na počítači (nástroj Google Colaboratory), samostatná práce, konzultace. Výuka bude probíhat v online formě.
- Metody hodnocení
- Odevzdání anotovaného souboru dat v rozsahu 500 vět, průběžné odevzdávání domácích úloh, aktivita v hodině.
- Informace učitele
- Předmět je koncipován tak, že se střídá výuka se samostatnou prací studenta.
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
- Statistika zápisu (nejnovější)
- Permalink: https://is.muni.cz/predmet/phil/podzim2024/PLIN080