FI:IB047 Úvod do korpus. lingvistiky - Informace o předmětu
IB047 Úvod do korpusové lingvistiky a počítačové lexikografie
Fakulta informatikyjaro 2020
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
prof. PhDr. Karel Pala, CSc. (náhr. zkoušející)
RNDr. Miloš Jakubíček, Ph.D. (pomocník) - Garance
- doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Rozvrh
- Po 17. 2. až Pá 15. 5. St 14:00–15:50 B411
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 68 mateřských oborů, zobrazit
- Cíle předmětu
- Cílem předmětu je seznámit studenty: ;
- se základy korpusové lingvistiky a počítačové lexikografie;
- s typy korpusů podle účelů, k nimž jsou určeny;
- s technikami budování korpusů z webu;
- s nástroji pro práci s korpusy, zejména korpusovými manažery;
- s technikami zpracování korpusových dat, tj. s různými typy nástrojů pro značkování (morfologické, syntaktické, sémantické);
- se zpracováním kontextů a nástroji, které to umožňují - Sketch Engine;
Dále se studenti naučí pracovat: ;
- s korpusovými daty v rámci počítačové lexikografie;
- s principy tvorby elektronických slovníků;
- s nástroji pro budování elektronických slovníků a práci s nimi; - Výstupy z učení
- Student bude po absolvování předmětu schopen: vybrat vhodný typ korpusu pro zvolené účely; interpretovat jednotlivé vrstvy anotace korpusů; použít statistické metody na textových korpusech; navrhnout strukturu slovníku; využít volně dostupných nástrojů pro vytváření slovníků.
- Osnova
- Informační technologie a jazykové korpusy;
- Počátky korpusové lingvistiky, význam korpusů;
- Korpusová data, typy korpusů a standardizace, SGML, XML, TEI, CES;
- Anotované korpusy a značkování;
- Základní úroveň značkování -- metastruktura textu;
- Gramatické značkování na úrovni slovních druhů;
- Syntaktické značkování na úrovni větných struktur;
- Paralelní korpusy a jejich využití;
- Nástroje pro automatické a poloautomatické značkování, desambiguace;
- Budování korpusů z webu, údržba korpusů;
- Programy pro tvorbu konkordancí;
- Korpusové nástroje: korpusový manažer Manatee/Bonito aj.;
- Statistické parametry (absolutní, relativní četnosti, MI, T-score);
- Práce s atributy a značkami (tagy);
- Využití korpusů a korpusových dat;
- Zpracování kontextů a kolokací (slovních spojení);
- Nástroj pro práci s kontexty - Sketch Engine;
- Počítačová lexikografie;
- Typy elektronických slovníků;
- Nástroje pro počítačovou lexikografii - platforma DEB II;
- Lexikografické stanice;
- Literatura
- SAMPSON, Geoffrey. English for the computer : the SUSANNE corpus and analytic scheme. Oxford: Clarendon Press, 1995, ix, 499. ISBN 0198240236. info
- RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
- Computational lexicography for natural language processing. Edited by Ted Briscoe - Bran Boguraev. London: Longman, 1989, xiv, 310 p. ISBN 0-470-21187-3. info
- SAMPSON, Geoffrey. Empirical linguistics. London: Continuum, 2001, viii, 226. ISBN 0-8264-4883-6. info
- Corpus processing for lexical acquisition. Edited by Bran Boguraev - J. (James) Pustejovsky. Cambridge: Bradford Book, 1996, xi, 245 s. ISBN 0-262-02392-X. info
- Výukové metody
- přednášky
- Metody hodnocení
- písemná zkouška
- Navazující předměty
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
- Statistika zápisu (jaro 2020, nejnovější)
- Permalink: https://is.muni.cz/predmet/fi/jaro2020/IB047