PLIN057 Strojové zpracování textu

Filozofická fakulta
podzim 2024

Předmět se v období podzim 2024 nevypisuje.

Rozsah
0/2/0. 4 kr. Ukončení: z.
Vyučující
prof. Radek Čech, Ph.D. (přednášející)
Garance
prof. Radek Čech, Ph.D.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Bc. Silvie Hulewicz, DiS.
Dodavatelské pracoviště: Ústav českého jazyka – Filozofická fakulta
Předpoklady
Žádné.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 0/20, pouze zareg.: 0/20, pouze zareg. s předností (mateřské obory): 0/20
Jiné omezení: Předmět není vhodný pro studenty prvního ročníku.
Mateřské obory/plány
předmět má 13 mateřských oborů, zobrazit
Cíle předmětu
V rámci předmětu si studenti osvojí základní dovednosti nutné pro automatické zpracování textu v programu Python. Naučí se zpracovat text, získat z něj potřebné informace (zejména frekvenční charakteristiky), testovat hypotézy a tyto informace náležitě zpracovat dle standardů statistického výzkumu.
Předmět je určen především pro studenty, kteří nemají s touto problematikou žádné zkušenosti.
Výstupy z učení
Po absolvování kurzu bude student seznámen s problematikou zpracování textu a bude umět:
  • prohledávat texty
  • vytvářet slovníky
  • analyzovat je s ohledem na jejich lexikální diverzitu (slovní bohatství)
  • používat regulární výrazy
  • vizualizovat vlastnosti textu
  • statisticky testovat rozdíly mezi texty.
  • Osnova
    • Základy programování v Pythonu - typy proměnných, základní funkce.
    • Načtení textu, tokenizace, vytvoření slovníku, frekvenčního seznamu, relativní frekvence, uspořádané slovníky, stop list, vytvoření frekvenčního seznamu autosémantik.
    • Vyhledávání slov textu, vytvoření konkordančních řádků.
    • Regulární výrazy.
    • Lexikální diverzita: TTR, TTR ze segmentu/segmentů textu, MATTR, proporce hapaxů legomenon, entropie.
    • Délka slova: průměr, medián, modus, SD, distribuce délek, vizualizace (barplot, boxplot)
    • Statistické testování průměrné délky slova v textech.
    • UDPipe - automatická anotace dat a základy zpracování vertikály
    • Vyhledávání podle 2 a více atributů.
    • Porovnání proporcí POS, syntaktických funkcí - chi-kvadrát test.
    • Délka věty, délka klauze. Měření readablity.
    • Shluková analýza
    Literatura
      doporučená literatura
    • Manuálové stránky jednotlivých utilit.
    Výukové metody
    výuka, procvičování, diskuse
    Metody hodnocení
    Zápočet bude udělen za docházku, aktivní účast a splnění zápočtového testu.
    Další komentáře
    Studijní materiály
    Výuka probíhá každý týden.
    Předmět je zařazen také v obdobích jaro 2018, jaro 2019, podzim 2022, podzim 2023, jaro 2025.