IB047 Úvod do korpusové lingvistiky a počítačové lexikografie

Fakulta informatiky
jaro 2008
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
prof. PhDr. Karel Pala, CSc. (přednášející)
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
Garance
prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc.
Rozvrh
St 8:00–9:50 B410
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
Předmět poskytne základní znalosti v oblasti korusové lingvistiky a počítačové lexikografie. Seznámí studenty s typy korpusů, jejich budováním a používáním. Naučí studenty pracovat s korpusy a jinými zdroji pro potřeby tvorby elektronických slovníků.
Osnova
  • Informační technologie a jazykové korpusy. Počátky korpusové lingvistiky, význam korpusů.
  • Korpusová data, typy korpusů a standardizace, SGML, XML, TEI, CES. Anotované korpusy a značkování. Základní úroveň značkování -- metastruktura textu. Gramatické značkování na úrovni slovních druhů. Syntaktické značkování na úrovni větných struktur. Paralelní korpusy. Nástroje pro automatické a poloautomatické značkování, desambiguace.
  • Budování korpusů, údržba korpusů. Korpusové nástroje: korpusový manažer. Programy pro tvorbu konkordancí. Statistické nástroje (absolutní, relativní četnosti, MI, T-score). Práce s atributy a značkami (tagy).
  • Využití korpusů a korpusových dat. Ukázky práce s korpusem -- ČNK, SUSANNE, Pražský závislostní korpus. Studium kolokací a slovních spojení.
  • Počítačová lexikografie, lexikologie.
  • Způsoby popisu významů slov (sémantické rysy).
  • Typy elektronických slovníků. Výkladové -- heslo, struktura hesla a výběr hesel. Překladové -- vícejazyčné, vztah ke strojovému překladu. Lexikografické standardy.
  • Data pro tvorbu slovníků -- korpusy.
  • Softwarové nástroje pro lexikografy. Lexikografické stanice. Lemmatizátory. Zpracování homonymií a frazeologických spojení.
Literatura
  • SAMPSON, Geoffrey. English for the computer : the SUSANNE corpus and analytic scheme. Oxford: Clarendon Press, 1995, ix, 499. ISBN 0198240236. info
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • Computational lexicography for natural language processing. Edited by Ted Briscoe - Bran Boguraev. London: Longman, 1989, xiv, 310 p. ISBN 0-470-21187-3. info
  • SAMPSON, Geoffrey. Empirical linguistics. London: Continuum, 2001, viii, 226. ISBN 0-8264-4883-6. info
  • Corpus processing for lexical acquisition. Edited by Bran Boguraev - J. (James) Pustejovsky. Cambridge: Bradford Book, 1996, xi, 245 s. ISBN 0-262-02392-X. info
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024, jaro 2025.