PA107 Projekt z korpusových nástrojů

Fakulta informatiky
jaro 2021
Rozsah
0/2. 2 kr. (plus ukončení). Ukončení: z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
Garance
doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
St 14:00–15:50 Virtuální místnost
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 42 mateřských oborů, zobrazit
Cíle předmětu
Seminář umožňuje hlubší seznámení s vybranou oblastí korpusové lingvistiky při zpracování samostatného projektu v laboratoři zpracování přirozeného jazyka.
Výstupy z učení
Student bude po absolvování předmětu schopen: vytvořit textový korpus z různých zdrojů; použít automatické nástroje pro anotaci korpusů; vyhodnotit úspěšnost automatických nástrojů; prezentovat výsledky vyhodnocení.
Osnova
  • Účelem pracovního semináře je hlubší seznámení s vybranou oblastí korpusové lingvistiky řešenou v laboratoři zpracování přirozeného jazyka a aplikace získaných poznatků při zpracování samostatného projektu.
  • Studenti, kteří v předchozím semestru absolvovali první díl tohoto semináře (PB106 Corpus Linguistic Project I), mohou pokračovat v práci na započatých projektech. Absolvování prvního dílu semináře však není podmínkou účasti.
  • Základní informace o laboratoři zpracování přirozeného jazyka a korpusové lingvistice lze nalézt na adrese http://www.fi.muni.cz/nlp/.
Literatura
  • OAKES, Michael P. Statistics for corpus linguistics. Edinburgh: Edinburgh University Press, 1998, xvi, 287 s. ISBN 0-7486-0817-6. info
  • PALA, Karel, Pavel RYCHLÝ a Pavel SMRŽ. DESAM - Annotated Corpus for Czech. In Proceedings of SOFSEM 97. Heidelberg: Springer Verlag, 1997, s. 523-530. ISBN 3-540-63774-5. URL info
  • Corpus processing for lexical acquisition. Edited by Bran Boguraev - J. (James) Pustejovsky. Cambridge: Bradford Book, 1996, xi, 245 s. ISBN 0-262-02392-X. info
  • ALLEN, James. Natural language understanding. 2nd ed. Redwood City: Benjamin/Cummings Publishing Company, 1995, xv, 654 s. ISBN 0-8053-0334-0. info
  • SINCLAIR, John McHardy. Corpus, concordance, collocation. Edited by Ronald Carter. Oxford: Oxford University Press, 1991, xviii, 179. ISBN 0194371441. info
  • Computational lexicography for natural language processing. Edited by Ted Briscoe - Bran Boguraev. London: Longman, 1989, xiv, 310 p. ISBN 0-470-21187-3. info
Výukové metody
přednášky, práce na samostatném projektu, osobní konzultace, prezentace
Metody hodnocení
Projekt. Hodnocení na základě prezentace výsledků dosažených při řešení projektu.
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2022, jaro 2023, jaro 2024, jaro 2025.