PB106 Projekt z korpusové lingvistiky

Fakulta informatiky
podzim 2021
Rozsah
0/2. 2 kr. (plus ukončení). Ukončení: z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
Garance
doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
Po 13. 9. až Po 6. 12. Po 12:00–13:50 B410
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
Účelem pracovního semináře je hlubší seznámení s vybranou oblastí korpusové lingvistiky řešenou v Centru zpracování přirozeného jazyka a aplikace získaných poznatků při zpracování samostatného projektu.
Základní informace o Centru zpracování přirozeného jazyka a korpusové lingvistice lze nalézt na adrese http://nlp.fi.muni.cz/.
Výstupy z učení
Student bude po absolvování předmětu schopen: vytvořit textový korpus z různých zdrojů; použít automatické nástroje pro anotaci korpusů nebo získávání informací z korpusů; vyhodnotit úspěšnost automatických nástrojů; prezentovat výsledky vyhodnocení.
Osnova
  • seznámení se s tématy: textové korpusy, paralelní korpusy, značkování, statistiky, uživatelská rozhraní
  • výběr projektu
  • řešení projektu
  • prezentace výsledků projektů a diskuse
Literatura
  • EISENSTEIN, Jacob. Introduction to natural language processing. Cambridge, Massachusetts: MIT Press, 2019, xiv, 519. ISBN 9780262042840. info
  • JURAFSKY, Dan a James H. MARTIN. Speech and language processing : an introduction to natural language processing, computational linguistics and speech recognition. 2nd ed. New Jersey: Pearson, 2009, 1024 s. ISBN 9780135041963. info
  • JACKSON, Peter a Isabelle MOULINIER. Natural language processing for online applications : text retrieval, extraction and categorization. Amsterdam: John Benjamins Publishing Company, 2002, x, 225. ISBN 902724989X. info
  • MANNING, Christopher D. a Hinrich SCHÜTZE. Foundations of statistical natural language processing. Cambridge: MIT Press, 1999, xxxvii, 68. ISBN 0-262-13360-1. info
  • Corpus processing for lexical acquisition. Edited by Bran Boguraev - J. (James) Pustejovsky. Cambridge: Bradford Book, 1996, xi, 245 s. ISBN 0-262-02392-X. info
Výukové metody
přednášky, práce na samostatném projektu, osobní konzultace, prezentace
Metody hodnocení
Projekt. Hodnocení na základě prezentace výsledků dosažených při řešení projektu.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích podzim 2002, podzim 2003, podzim 2004, podzim 2005, podzim 2006, podzim 2007, podzim 2008, podzim 2009, podzim 2010, podzim 2011, podzim 2012, podzim 2013, podzim 2014, podzim 2015, podzim 2016, podzim 2017, podzim 2018, podzim 2019, podzim 2020, podzim 2022, podzim 2023, podzim 2024.