FF:CJBB43 Úvod do korp. lingvistiky I - Informace o předmětu
CJBB43 Úvod do korpusové lingvistiky I
Filozofická fakultapodzim 2001
- Rozsah
- 2/0/0. 3 kr. Ukončení: k.
- Vyučující
- doc. PhDr. Klára Osolsobě, Dr. (přednášející)
- Garance
- doc. PhDr. Klára Osolsobě, Dr.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Jaroslava Vybíralová - Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- Český jazyk a literatura (program FF, M-FI) (2)
- Český jazyk a literatura (program FF, M-HS)
- Čeština pro cizince (program FF, B-FI)
- Cíle předmětu
- 1. Informační technologie a jazykové korpusy. 2. Vznik korpusové lingvistiky a k čemu jsou korpusy. 3. Budování korpusů, korpusová data - typy korpusů a standardizace, SGML, TEI - sběr dat pro korpusy a reprezentativnost korpusů - údržba korpusů - příklady - Britský národní korpus, Český národní korpus (ČNK) 4. Korpusové nástroje - manažery - korpusový administrátor (CQP, CUE) - programy pro tvorbu konkordancí (KWIC) - OCP, LEXA, WORDCRUNCHER, PAT - využití regulárních výrazů - statistické programy (absolutní, relativní četnosti, M/I, T-score) - třídicí programy pro konkordance - konverzní programy mezi různými kódy - práce s atributy a značkami (tagy) 5. Anotované korpusy a značkování - základní úroveň značkování - metastruktura textu - SGML - gramatické značkování na úrovni slovních druhů (CLAWS, CUTTING Tagger, LEMMA) - syntaktické značkování na úrovni větných struktur - treebanks, skeletonová analýza - paralelní korpusy 6. Využití korpusů a korpusových dat - ukázky práce s korpusem - ČNK - studium kolokací a slovních spojení - aplikace v oblasti teorie komunikace - budování slovníků.
- Osnova
- 1. Informační technologie a jazykové korpusy. 2. Vznik korpusové lingvistiky a k čemu jsou korpusy. 3. Budování korpusů, korpusová data - typy korpusů a standardizace, SGML, TEI - sběr dat pro korpusy a reprezentativnost korpusů - údržba korpusů - příklady - Britský národní korpus, Český národní korpus (ČNK) 4. Korpusové nástroje - manažery - korpusový administrátor (CQP, CUE) - programy pro tvorbu konkordancí (KWIC) - OCP, LEXA, WORDCRUNCHER, PAT - využití regulárních výrazů - statistické programy (absolutní, relativní četnosti, M/I, T-score) - třídicí programy pro konkordance - konverzní programy mezi různými kódy - práce s atributy a značkami (tagy) 5. Anotované korpusy a značkování - základní úroveň značkování - metastruktura textu - SGML - gramatické značkování na úrovni slovních druhů (CLAWS, CUTTING Tagger, LEMMA) - syntaktické značkování na úrovni větných struktur - treebanks, skeletonová analýza - paralelní korpusy 6. Využití korpusů a korpusových dat - ukázky práce s korpusem - ČNK - studium kolokací a slovních spojení - aplikace v oblasti teorie komunikace - budování slovníků.
- Literatura
- CHRIST, O., The XKWIC User Manual. Universität Stuttgart. Institut für maschinelle Sprachverarbeitung - Computerlinguistik. Stuttgart 1995.
- Manuál lexikografie. Edited by František Čermák - Renata Blatná. 1. vyd. Jinočany: H & H, 1995, 283 s. ISBN 80-85787-23-7. info
- ŠULC, Michal. Korpusová lingvistika : první vstup. 1. vyd. Praha: Karolinum, 1999, 94 s. ISBN 8071848476. info
- Studie z korpusové lingvistiky. Acta Universitatis Carolinae. Philologica 3-4. 1997.
- Metody hodnocení
- Podmínkou pro udělení kolokvia je znalost probrané látky.
- Navazující předměty
- Další komentáře
- Předmět je dovoleno ukončit i mimo zkouškové období.
Výuka probíhá každý týden.
Na přednášku navazuje v dalším semestru Úvod do korpusové lingvistiky II (CJBB23).
- Statistika zápisu (nejnovější)
- Permalink: https://is.muni.cz/predmet/phil/podzim2001/CJBB43