FF:PLIN080 Tvorba datových sad - Informace o předmětu

PLIN080 Základy zpracování jazykových dat pro strojové učení v humanitních oborech

Filozofická fakulta
podzim 2025

Rozsah

0/2/0. 4 kr. Ukončení: z.

Vyučující

prof. Radek Čech, Ph.D. (přednášející)
Mgr. Helena Medková (přednášející)

Garance

prof. Radek Čech, Ph.D.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Bc. Silvie Hulewicz, DiS.
Dodavatelské pracoviště: Ústav českého jazyka – Filozofická fakulta

Předpoklady

FAKULTA(FF) && FORMA(P)

Omezení zápisu do předmětu

Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 0/20, pouze zareg.: 0/20, pouze zareg. s předností (mateřské obory): 0/20

Mateřské obory/plány

Počítačová lingvistika (program FF, B-PLIN_) (3)

Cíle předmětu

Předmět je určen pro studenty bohemistiky a počítačové lingvistiky, kteří mají základní či nulovou znalost dané problematiky a chtějí v této oblasti získat dovednosti využitelné v praxi. Studenti si rozšíří své znalosti o základy počítačového zpracování přirozeného jazyka, a to především v oblasti vytváření trénovacích / testovacích sad pro strojové učení aplikovaného na lingvistický výzkumný problém.

Výstupy z učení

Student v kurzu získá praktické zkušenosti se sběrem dat pomocí korpusového manažeru Sketch Engine, s vytvářením trénovací / testovací datové sady, s úpravou dat a jejich manipulací pomocí jazyka Python a vybraných knihoven (Pandas, re, NLTK, Scikit-Learn, Matplotlib aj.).

Osnova

1. Úvodní hodina: úvod do metod strojového učení, úvodní cvičení v Pythonu, práce s nástrojem Google Colab.
2. Typy datových sad: dataset podle úlohy učení, vytyčení výzkumného cíle v oblasti lingvistiky, vytvoření datového souboru.
3. Předzpracování dat: čištění dat, odstranění duplicit, tokenizace, lemmatizace, morfologická analýza, syntaktická analýza (nástroj UD Pipe, majka, desamb).
4. Anotace dat: anotační schéma, měření mezianotátorské shody.
5. Analýza lingvistických dat: statistika datového souboru a vizualizace v grafech.
6. Učení s učitelem: trénování jazykového modelu pro úlohu klasifikace, evaluace úspěšnosti modelu, cross validace.

Literatura

GÉRON, Aurélien. Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow : concepts, tools, and techniques to build intelligent systems. Third edition. Beijing: O'Reilly, 2022, xxv, 834. ISBN 9781098125974. info

Výukové metody

Seminář, cvičení na počítači (nástroj Google Colaboratory), samostatná práce, konzultace. Výuka bude probíhat v online formě.

Metody hodnocení

Odevzdání anotovaného souboru dat v rozsahu 500 vět, průběžné odevzdávání domácích úloh, aktivita v hodině.

Informace učitele

Předmět je koncipován tak, že se střídá výuka se samostatnou prací studenta.

Další komentáře

Předmět je vyučován každoročně.
Výuka probíhá každý týden.

Předmět je zařazen také v obdobích podzim 2023, podzim 2024.

Statistika zápisu (podzim 2025, nejnovější)
Permalink: https://is.muni.cz/predmet/phil/podzim2025/PLIN080

FF:PLIN080 Tvorba datových sad - Informace o předmětu

PLIN080 Základy zpracování jazykových dat pro strojové učení v humanitních oborech

Další aplikace