FF:PLIN057 Strojové zpracování textu - Informace o předmětu
PLIN057 Strojové zpracování textu
Filozofická fakultapodzim 2023
- Rozsah
- 0/2/0. 4 kr. Ukončení: z.
- Vyučující
- prof. Radek Čech, Ph.D. (přednášející)
RNDr. Zuzana Nevěřilová, Ph.D. (přednášející)
Mgr. Hana Žižková, Ph.D. (přednášející) - Garance
- prof. Radek Čech, Ph.D.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Jaroslava Vybíralová
Dodavatelské pracoviště: Ústav českého jazyka – Filozofická fakulta - Rozvrh
- St 10:00–11:40 G13, kromě St 15. 11.
- Předpoklady
- Žádné.
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 10/20, pouze zareg.: 0/20, pouze zareg. s předností (mateřské obory): 0/20
Jiné omezení: Předmět není vhodný pro studenty prvního ročníku. - Mateřské obory/plány
- předmět má 13 mateřských oborů, zobrazit
- Cíle předmětu
- V rámci předmětu si studenti osvojí základní dovednosti nutné pro automatické zpracování textu v programu Python. Naučí se zpracovat text, získat z něj potřebné informace (zejména frekvenční charakteristiky), testovat hypotézy a tyto informace náležitě zpracovat dle standardů statistického výzkumu.
Předmět je určen především pro studenty, kteří nemají s touto problematikou žádné zkušenosti. - Výstupy z učení
- Po absolvování kurzu bude student seznámen s problematikou zpracování textu a bude umět:
- prohledávat texty
- vytvářet slovníky
- analyzovat je s ohledem na jejich lexikální diverzitu (slovní bohatství)
- používat regulární výrazy
- vizualizovat vlastnosti textu
- statisticky testovat rozdíly mezi texty.
- Osnova
- Základy programování v Pythonu - typy proměnných, základní funkce.
- Načtení textu, tokenizace, vytvoření slovníku, frekvenčního seznamu, relativní frekvence, uspořádané slovníky, stop list, vytvoření frekvenčního seznamu autosémantik.
- Vyhledávání slov textu, vytvoření konkordančních řádků.
- Regulární výrazy.
- Lexikální diverzita: TTR, TTR ze segmentu/segmentů textu, MATTR, proporce hapaxů legomenon, entropie.
- Délka slova: průměr, medián, modus, SD, distribuce délek, vizualizace (barplot, boxplot)
- Statistické testování průměrné délky slova v textech.
- UDPipe - automatická anotace dat a základy zpracování vertikály
- Vyhledávání podle 2 a více atributů.
- Porovnání proporcí POS, syntaktických funkcí - chi-kvadrát test.
- Délka věty, délka klauze. Měření readablity.
- Shluková analýza
- Literatura
- doporučená literatura
- Manuálové stránky jednotlivých utilit.
- BRANDEJS, Michal. UNIX - Linux : praktický průvodce. 1. vyd. Praha: Grada, 1996, 340 s. ISBN 8071691704. info
- Výukové metody
- výuka, procvičování, diskuse
- Metody hodnocení
- Zápočet bude udělen za docházku, aktivní účast a splnění zápočtového testu.
- Další komentáře
- Studijní materiály
- Statistika zápisu (nejnovější)
- Permalink: https://is.muni.cz/predmet/phil/podzim2023/PLIN057