FI:IB047 Úvod do korpus. lingvistiky - Informace o předmětu
IB047 Úvod do korpusové lingvistiky a počítačové lexikografie
Fakulta informatikyjaro 2025
- Rozsah
- 2/0/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučováno kontaktně - Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Zuzana Nevěřilová, Ph.D. (pomocník) - Garance
- doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- Analýza a zpracování obrazu (program FI, N-VIZ)
- Bioinformatika a systémová biologie (program FI, N-UIZD)
- Computer Games Development (program FI, N-VIZ_A)
- Computer Graphics and Visualisation (program FI, N-VIZ_A)
- Computer Networks and Communications (program FI, N-PSKB_A)
- Cybersecurity Management (program FI, N-RSSS_A)
- Formální analýza počítačových systémů (program FI, N-TEI)
- Grafický design (program FI, N-VIZ)
- Graphic Design (program FI, N-VIZ_A)
- Hardware Systems (program FI, N-PSKB_A)
- Hardwarové systémy (program FI, N-PSKB)
- Image Processing and Analysis (program FI, N-VIZ_A)
- Informační bezpečnost (program FI, N-PSKB)
- Informatika (program FI, B-INF) (2)
- Informatika ve vzdělávání (program FI, B-IVV) (2)
- Information Security (program FI, N-PSKB_A)
- Kvantové a jiné neklasické výpočetní modely (program FI, N-TEI)
- Počítačová grafika a vizualizace (program FI, N-VIZ)
- Počítačová lingvistika (program FF, B-PLIN_) (3)
- Počítačové sítě a komunikace (program FI, N-PSKB)
- Principy programovacích jazyků (program FI, N-TEI)
- Programování a vývoj aplikací (program FI, B-PVA)
- Řízení kyberbezpečnosti (program FI, N-RSSS)
- Řízení vývoje služeb (program FI, N-RSSS)
- Řízení vývoje softwarových systémů (program FI, N-RSSS)
- Services Development Management (program FI, N-RSSS_A)
- Software Systems Development Management (program FI, N-RSSS_A)
- Software Systems (program FI, N-PSKB_A)
- Softwarové systémy (program FI, N-PSKB)
- Strojové učení a umělá inteligence (program FI, N-UIZD)
- Učitel informatiky a správce sítě (program FI, N-UCI)
- Učitelství informatiky pro střední školy (program FI, N-UCI) (2)
- Vývoj počítačových her (program FI, N-VIZ)
- Zpracování a analýza rozsáhlých dat (program FI, N-UIZD)
- Zpracování přirozeného jazyka (program FI, N-UIZD)
- Cíle předmětu
- Cílem předmětu je seznámit studenty: ;
- se základy korpusové lingvistiky a počítačové lexikografie;
- s typy korpusů podle účelů, k nimž jsou určeny;
- s technikami budování korpusů z webu;
- s nástroji pro práci s korpusy, zejména korpusovými manažery;
- s technikami zpracování korpusových dat, tj. s různými typy nástrojů pro značkování (morfologické, syntaktické, sémantické);
- se zpracováním kontextů a nástroji, které to umožňují - Sketch Engine;
Dále se studenti naučí pracovat: ;
- s korpusovými daty v rámci počítačové lexikografie;
- s principy tvorby elektronických slovníků;
- s nástroji pro budování elektronických slovníků a práci s nimi; - Výstupy z učení
- Student bude po absolvování předmětu schopen: vybrat vhodný typ korpusu pro zvolené účely; interpretovat jednotlivé vrstvy anotace korpusů; použít statistické metody na textových korpusech; navrhnout strukturu slovníku; využít volně dostupných nástrojů pro vytváření slovníků.
- Osnova
- Informační technologie a jazykové korpusy;
- Počátky korpusové lingvistiky, význam korpusů;
- Korpusová data, typy korpusů a standardizace, SGML, XML, TEI, CES;
- Anotované korpusy a značkování;
- Základní úroveň značkování -- metastruktura textu;
- Gramatické značkování na úrovni slovních druhů;
- Syntaktické značkování na úrovni větných struktur;
- Paralelní korpusy a jejich využití;
- Nástroje pro automatické a poloautomatické značkování, desambiguace;
- Budování korpusů z webu, údržba korpusů;
- Programy pro tvorbu konkordancí;
- Korpusové nástroje: korpusový manažer Manatee/Bonito aj.;
- Statistické parametry (absolutní, relativní četnosti, MI, T-score);
- Práce s atributy a značkami (tagy);
- Využití korpusů a korpusových dat;
- Zpracování kontextů a kolokací (slovních spojení);
- Nástroj pro práci s kontexty - Sketch Engine;
- Počítačová lexikografie;
- Typy elektronických slovníků;
- Nástroje pro počítačovou lexikografii - platforma DEB II;
- Lexikografické stanice;
- Literatura
- doporučená literatura
- ATKINS, B. T. S. a Michael RUNDELL. The Oxford guide to practical lexicography. 1st pub. Oxford: Oxford University Press, 2008, xii, 540. ISBN 9780199277704. info
- neurčeno
- Practical lexicography : a reader. Edited by Thierry Fontenelle. New York: Oxford University Press, 2008, vii, 405. ISBN 9780199292349. info
- SAMPSON, Geoffrey. English for the computer : the SUSANNE corpus and analytic scheme. Oxford: Clarendon Press, 1995, ix, 499. ISBN 0198240236. info
- RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
- SAMPSON, Geoffrey. Empirical linguistics. London: Continuum, 2001, viii, 226. ISBN 0-8264-4883-6. info
- Corpus processing for lexical acquisition. Edited by Bran Boguraev - J. (James) Pustejovsky. Cambridge: Bradford Book, 1996, xi, 245 s. ISBN 0-262-02392-X. info
- Výukové metody
- přednášky
- Metody hodnocení
- písemná zkouška
- Navazující předměty
- Další komentáře
- Předmět je vyučován každoročně.
Výuka probíhá každý týden.
- Statistika zápisu (nejnovější)
- Permalink: https://is.muni.cz/predmet/fi/jaro2025/IB047