IA161 Zpracování přirozeného jazyka v praxi

Fakulta informatiky
podzim 2022
Rozsah
1/1/0. 2 kr. (plus ukončení). Ukončení: k.
Vyučující
doc. RNDr. Aleš Horák, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (přednášející)
RNDr. Marek Medveď, Ph.D. (přednášející)
RNDr. Zuzana Nevěřilová, Ph.D. (přednášející)
RNDr. Adam Rambousek, Ph.D. (přednášející)
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Vít Suchomel, Ph.D. (přednášející)
Garance
doc. RNDr. Aleš Horák, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
Pá 10:00–11:50 A219
Předpoklady
Všichni studenti by měli mít praktické znalosti programování v jazyce Python. Předpokládají se přehledové znalosti o oblasti zpracování přirozeného jazyka na úrovni úvodových kurzů jako např. IB030 Úvod do počítačového zpracování přirozeného jazyka nebo PA153 Počítačové zpracování přirozeného jazyka. Seminář je veden v angličtině. Řešení úloh mohou být v angličtině, češtině nebo slovenštině.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
Studenti předmětu budou mít příležitost poznat, vyzkoušet a experimentovat s pokročilými technikami zpracování přirozeného jazyka a pochopit možnosti a omezení aktuálních nejlepších řešení. Cílem předmětu je představení současných nejlepších přístupů k řešení problémů jazykového inženýrství a praktické seznámení se s programovacími technikami využívanými v aplikacích jazykových technologií.
Výstupy z učení
Student bude po absolvování předmětu schopen:
- vysvětlit vybraný problém z oblasti NLP a vyjmenovat jeho hlavní aspekty;
- vytvořit základní či mírně pokročilou aplikaci pro obtížnější úkoly zpracování jazyka, typicky pro český, slovenský nebo anglický jazyk;
- vytvořit datové podklady (model, testovací sadu) pro vybraný problém z oblasti NLP a vyhodnotit jejich přínos;
- porovnat vybrané dostupné nástroje na řešení pokročilých úloh zpracování přirozeného jazyka a aplikovat je na zvolené datové sady, případně je upravit pro konkrétní úlohu.
Osnova
  • Prezentované úkoly zpracování přirozeného jazyka se soustředí na praktické problémy spojené se zpracování textových dat vytvořených lidmi. Konkrétní témata zahrnují:
  • Dolování názorů, analýza sentimentu (Opinion mining, sentiment analysis)
  • Strojový překlad (Machine translation)
  • Syntaktická analýza češtiny: Pravidla i statistika (Parsing of Czech: Between Rules and Statistics)
  • Rozpoznávání jmenných entit (Named Entity Recognition)
  • Tvorba jazykových zdrojů z webu (effective crawling, boilerplate removal, tokenisation, near duplicates identification)
  • Jazykové modelování (Language modelling)
  • Identifikace tématu, modelování tématu (Topic identification, topic modelling)
  • Extrakce strukturovaných informací z textu
  • Automatická extrakce relací (hypernyms, synonyms, ...)
  • Adaptivní elektronické slovníky
  • Identifikace terminologie (keywords, key phrases)
  • Rozpoznávání anaforických výrazů (Anaphora resolution)
  • Stylometrie
  • Automatické jazykové korekce
Literatura
  • Dan Jurafsky and James H. Martin. Speech and Language Processing (2020, 3rd ed. draft). https://web.stanford.edu/~jurafsky/slp3/
  • J. Eisenstein, Introduction to Natural Language Processing (2019), MIT Press.
  • https://www.aclweb.org/anthology/
Výukové metody
Každá přednáška se skládá z hodinového představení teorie a řešení vybraného problému zpracování přirozeného jazyka a hodinové praktické práce u počítače zaměřené na implementaci, úpravy a vyhodnocení prezentovaných technik na běžných datech.
Metody hodnocení
Řešení úkolů v praktické části přednášky případně domácí úkoly.
Vyučovací jazyk
Angličtina
Informace učitele
http://nlp.fi.muni.cz/NlpInPracticeCourse
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích podzim 2011, podzim 2013, podzim 2014, podzim 2015, podzim 2016, podzim 2017, podzim 2018, podzim 2019, podzim 2020, podzim 2021, podzim 2023, podzim 2024.