PLIN080 Základy zpracování jazykových dat pro strojové učení v humanitních oborech

Filozofická fakulta
podzim 2024
Rozsah
0/2/0. 4 kr. Ukončení: z.
Vyučující
prof. Radek Čech, Ph.D. (přednášející)
Mgr. Helena Medková (přednášející)
Garance
prof. Radek Čech, Ph.D.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Bc. Silvie Hulewicz, DiS.
Dodavatelské pracoviště: Ústav českého jazyka – Filozofická fakulta
Rozvrh
Po 16:00–17:40 G13, kromě Po 18. 11. až Ne 24. 11.
Předpoklady
FAKULTA(FF) && FORMA(P)
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 14/20, pouze zareg.: 0/20, pouze zareg. s předností (mateřské obory): 0/20
Mateřské obory/plány
Cíle předmětu
Předmět je určen pro studenty bohemistiky a počítačové lingvistiky, kteří mají základní či nulovou znalost dané problematiky a chtějí v této oblasti získat dovednosti využitelné v praxi. Studenti si rozšíří své znalosti o základy počítačového zpracování přirozeného jazyka, a to především v oblasti vytváření trénovacích / testovacích sad pro strojové učení aplikovaného na lingvistický výzkumný problém.
Výstupy z učení
Student v kurzu získá praktické zkušenosti se sběrem dat pomocí korpusového manažeru Sketch Engine, s vytvářením trénovací / testovací datové sady, s úpravou dat a jejich manipulací pomocí jazyka Python a vybraných knihoven (Pandas, re, NLTK, Scikit-Learn, Matplotlib aj.).
Osnova
  • 1. Úvodní hodina: úvod do metod strojového učení, úvodní cvičení v Pythonu, práce s nástrojem Google Colab.
  • 2. Typy datových sad: dataset podle úlohy učení, vytyčení výzkumného cíle v oblasti lingvistiky, vytvoření datového souboru.
  • 3. Předzpracování dat: čištění dat, odstranění duplicit, tokenizace, lemmatizace, morfologická analýza, syntaktická analýza (nástroj UD Pipe, majka, desamb).
  • 4. Anotace dat: anotační schéma, měření mezianotátorské shody.
  • 5. Analýza lingvistických dat: statistika datového souboru a vizualizace v grafech.
  • 6. Učení s učitelem: trénování jazykového modelu pro úlohu klasifikace, evaluace úspěšnosti modelu, cross validace.
Literatura
  • GÉRON, Aurélien. Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow : concepts, tools, and techniques to build intelligent systems. Third edition. Beijing: O'Reilly, 2022, xxv, 834. ISBN 9781098125974. info
Výukové metody
Seminář, cvičení na počítači (nástroj Google Colaboratory), samostatná práce, konzultace. Výuka bude probíhat v online formě.
Metody hodnocení
Odevzdání anotovaného souboru dat v rozsahu 500 vět, průběžné odevzdávání domácích úloh, aktivita v hodině.
Informace učitele
Předmět je koncipován tak, že se střídá výuka se samostatnou prací studenta.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích podzim 2023.
  • Statistika zápisu (nejnovější)
  • Permalink: https://is.muni.cz/predmet/phil/podzim2024/PLIN080