PLIN080 Tvorba datových sad pro strojové učení

Filozofická fakulta
podzim 2023
Rozsah
0/2/0. 4 kr. Ukončení: z.
Vyučující
prof. Radek Čech, Ph.D. (přednášející)
Mgr. Helena Medková (přednášející)
Garance
prof. Radek Čech, Ph.D.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Jaroslava Vybíralová
Dodavatelské pracoviště: Ústav českého jazyka – Filozofická fakulta
Rozvrh
Po 16:00–17:40 G13, kromě Po 13. 11.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 3/20, pouze zareg.: 0/20, pouze zareg. s předností (mateřské obory): 0/20
Mateřské obory/plány
Cíle předmětu
Předmět je určen pro studenty bohemistiky a počítačové lingvistiky, kteří mají základní či nulovou znalost dané problematiky a chtějí v této oblasti získat dovednosti využitelné v praxi. Studenti si rozšíří své znalosti o základy počítačového zpracování přirozeného jazyka, a to především v oblasti vytváření trénovacích / testovacích sad pro strojové učení aplikovaného na lingvistický výzkumný problém.
Výstupy z učení
Student v kurzu získá praktické zkušenosti se sběrem dat pomocí korpusového manažeru Sketch Engine, s vytvořením trénovací / testovací datové sady, s úpravou dat a jejich manipulací pomocí jazyka Python a vybraných knihoven (Pandas, re, NLTK, Scikit-Learn, Matplotlib aj.) pro čištění dat, popř. jejich vizualizaci.
Osnova
  • 1. Úvodní hodina: zadání úlohy, úvod do metod strojového učení.
  • 2. Typy datových sad: dataset podle úlohy učení, vytyčení výzkumného cíle v oblasti lingvistiky, vytvoření datového souboru.
  • 3. Předzpracování dat: čištění dat, odstranění duplicit, tokenizace, lemmatizace, morfologická analýza, syntaktická analýza (nástroj UD Pipe, majka, desamb).
  • 4. Anotace dat: anotační schéma, měření mezianotátorské shody.
  • 5. Analýza lingvistických dat: statistika datového souboru a vizualizace v grafech.
  • 6. Strojové učení: bez učitele/s učitelem, trénování jazykového modelu pro úlohu klasifikace, evaluace úspěšnosti modelu, cross validace.
Literatura
  • GÉRON, Aurélien. Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow : concepts, tools, and techniques to build intelligent systems. Third edition. Beijing: O'Reilly, 2022, xxv, 834. ISBN 9781098125974. info
Výukové metody
Seminář, cvičení na počítači (nástroj Google Colaboratory), samostatná práce, konzultace.
Metody hodnocení
Odevzdání dvou kvalitně anotovaných datových sad každé v rozsahu 1000 vět. Průběžné odevzdávání domácích úloh, aktivita v hodině.
Informace učitele
Předmět je koncipován tak, že se střídá výuka se samostatnou prací studenta.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích podzim 2024.