FI:IB047 Úvod do korpus. lingvistiky - Informace o předmětu
IB047 Úvod do korpusové lingvistiky a počítačové lexikografie
Fakulta informatikyjaro 2008
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- prof. PhDr. Karel Pala, CSc. (přednášející)
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející) - Garance
- prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc. - Rozvrh
- St 8:00–9:50 B410
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- Aplikovaná informatika (program FI, B-AP)
- Bioinformatika (program FI, B-AP)
- Český jazyk a literatura (program FF, M-FI) (2)
- Český jazyk a literatura (program FF, M-HS)
- Informatika a druhý obor (program FI, B-BI)
- Informatika a druhý obor (program FI, B-FY)
- Informatika a druhý obor (program FI, B-GE)
- Informatika a druhý obor (program FI, B-GK)
- Informatika a druhý obor (program FI, B-CH)
- Informatika a druhý obor (program FI, B-IO)
- Informatika a druhý obor (program FI, B-MA)
- Informatika a druhý obor (program FI, B-SO)
- Informatika a druhý obor (program FI, B-TV)
- Informatika (program FI, B-IN)
- Matematická informatika (program FI, B-IN)
- Paralelní a distribuované systémy (program FI, B-IN)
- Počítačová grafika a zpracování obrazu (program FI, B-IN)
- Počítačové sítě a komunikace (program FI, B-IN)
- Počítačové systémy a zpracování dat (program FI, B-IN)
- Programovatelné technické struktury (program FI, B-IN)
- Umělá inteligence a zpracování přirozeného jazyka (program FI, B-IN)
- Cíle předmětu
- Předmět poskytne základní znalosti v oblasti korusové lingvistiky a počítačové lexikografie. Seznámí studenty s typy korpusů, jejich budováním a používáním. Naučí studenty pracovat s korpusy a jinými zdroji pro potřeby tvorby elektronických slovníků.
- Osnova
- Informační technologie a jazykové korpusy. Počátky korpusové lingvistiky, význam korpusů.
- Korpusová data, typy korpusů a standardizace, SGML, XML, TEI, CES. Anotované korpusy a značkování. Základní úroveň značkování -- metastruktura textu. Gramatické značkování na úrovni slovních druhů. Syntaktické značkování na úrovni větných struktur. Paralelní korpusy. Nástroje pro automatické a poloautomatické značkování, desambiguace.
- Budování korpusů, údržba korpusů. Korpusové nástroje: korpusový manažer. Programy pro tvorbu konkordancí. Statistické nástroje (absolutní, relativní četnosti, MI, T-score). Práce s atributy a značkami (tagy).
- Využití korpusů a korpusových dat. Ukázky práce s korpusem -- ČNK, SUSANNE, Pražský závislostní korpus. Studium kolokací a slovních spojení.
- Počítačová lexikografie, lexikologie.
- Způsoby popisu významů slov (sémantické rysy).
- Typy elektronických slovníků. Výkladové -- heslo, struktura hesla a výběr hesel. Překladové -- vícejazyčné, vztah ke strojovému překladu. Lexikografické standardy.
- Data pro tvorbu slovníků -- korpusy.
- Softwarové nástroje pro lexikografy. Lexikografické stanice. Lemmatizátory. Zpracování homonymií a frazeologických spojení.
- Literatura
- SAMPSON, Geoffrey. English for the computer : the SUSANNE corpus and analytic scheme. Oxford: Clarendon Press, 1995, ix, 499. ISBN 0198240236. info
- RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
- Computational lexicography for natural language processing. Edited by Ted Briscoe - Bran Boguraev. London: Longman, 1989, xiv, 310 p. ISBN 0-470-21187-3. info
- SAMPSON, Geoffrey. Empirical linguistics. London: Continuum, 2001, viii, 226. ISBN 0-8264-4883-6. info
- Corpus processing for lexical acquisition. Edited by Bran Boguraev - J. (James) Pustejovsky. Cambridge: Bradford Book, 1996, xi, 245 s. ISBN 0-262-02392-X. info
- Další komentáře
- Předmět je vyučován každoročně.
- Statistika zápisu (jaro 2008, nejnovější)
- Permalink: https://is.muni.cz/predmet/fi/jaro2008/IB047