IB047 Úvod do korpusové lingvistiky a počítačové lexikografie

Fakulta informatiky
jaro 2023
Rozsah
2/0/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (pomocník)
Garance
doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
Po 13. 2. až Po 15. 5. Po 12:00–13:50 B411
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 68 mateřských oborů, zobrazit
Cíle předmětu
Cílem předmětu je seznámit studenty: ;
- se základy korpusové lingvistiky a počítačové lexikografie;
- s typy korpusů podle účelů, k nimž jsou určeny;
- s technikami budování korpusů z webu;
- s nástroji pro práci s korpusy, zejména korpusovými manažery;
- s technikami zpracování korpusových dat, tj. s různými typy nástrojů pro značkování (morfologické, syntaktické, sémantické);
- se zpracováním kontextů a nástroji, které to umožňují - Sketch Engine;
Dále se studenti naučí pracovat: ;
- s korpusovými daty v rámci počítačové lexikografie;
- s principy tvorby elektronických slovníků;
- s nástroji pro budování elektronických slovníků a práci s nimi;
Výstupy z učení
Student bude po absolvování předmětu schopen: vybrat vhodný typ korpusu pro zvolené účely; interpretovat jednotlivé vrstvy anotace korpusů; použít statistické metody na textových korpusech; navrhnout strukturu slovníku; využít volně dostupných nástrojů pro vytváření slovníků.
Osnova
  • Informační technologie a jazykové korpusy;
  • Počátky korpusové lingvistiky, význam korpusů;
  • Korpusová data, typy korpusů a standardizace, SGML, XML, TEI, CES;
  • Anotované korpusy a značkování;
  • Základní úroveň značkování -- metastruktura textu;
  • Gramatické značkování na úrovni slovních druhů;
  • Syntaktické značkování na úrovni větných struktur;
  • Paralelní korpusy a jejich využití;
  • Nástroje pro automatické a poloautomatické značkování, desambiguace;
  • Budování korpusů z webu, údržba korpusů;
  • Programy pro tvorbu konkordancí;
  • Korpusové nástroje: korpusový manažer Manatee/Bonito aj.;
  • Statistické parametry (absolutní, relativní četnosti, MI, T-score);
  • Práce s atributy a značkami (tagy);
  • Využití korpusů a korpusových dat;
  • Zpracování kontextů a kolokací (slovních spojení);
  • Nástroj pro práci s kontexty - Sketch Engine;
  • Počítačová lexikografie;
  • Typy elektronických slovníků;
  • Nástroje pro počítačovou lexikografii - platforma DEB II;
  • Lexikografické stanice;
Literatura
    doporučená literatura
  • ATKINS, B. T. S. a Michael RUNDELL. The Oxford guide to practical lexicography. 1st pub. Oxford: Oxford University Press, 2008, xii, 540. ISBN 9780199277704. info
    neurčeno
  • Practical lexicography : a reader. Edited by Thierry Fontenelle. New York: Oxford University Press, 2008, vii, 405. ISBN 9780199292349. info
  • SAMPSON, Geoffrey. English for the computer : the SUSANNE corpus and analytic scheme. Oxford: Clarendon Press, 1995, ix, 499. ISBN 0198240236. info
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • SAMPSON, Geoffrey. Empirical linguistics. London: Continuum, 2001, viii, 226. ISBN 0-8264-4883-6. info
  • Corpus processing for lexical acquisition. Edited by Bran Boguraev - J. (James) Pustejovsky. Cambridge: Bradford Book, 1996, xi, 245 s. ISBN 0-262-02392-X. info
Výukové metody
přednášky
Metody hodnocení
písemná zkouška
Navazující předměty
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2024, jaro 2025.