FF:CJBB43 Corpus Linguistics I - Course Information
CJBB43 Introduction into Corpus Linguistics, Pt. I
Faculty of ArtsAutumn 2001
- Extent and Intensity
- 2/0/0. 3 credit(s). Type of Completion: k (colloquium).
- Teacher(s)
- prof. PhDr. Klára Osolsobě, Dr. (lecturer)
- Guaranteed by
- prof. PhDr. Klára Osolsobě, Dr.
Department of Czech Language – Faculty of Arts
Contact Person: Jaroslava Vybíralová - Course Enrolment Limitations
- The course is also offered to the students of the fields other than those the course is directly associated with.
- fields of study / plans the course is directly associated with
- Czech Language and Literature (programme FF, M-FI) (2)
- Czech Language and Literature (programme FF, M-HS)
- Czech Language for Foreigners (programme FF, B-FI)
- Course objectives (in Czech)
- 1. Informační technologie a jazykové korpusy. 2. Vznik korpusové lingvistiky a k čemu jsou korpusy. 3. Budování korpusů, korpusová data - typy korpusů a standardizace, SGML, TEI - sběr dat pro korpusy a reprezentativnost korpusů - údržba korpusů - příklady - Britský národní korpus, Český národní korpus (ČNK) 4. Korpusové nástroje - manažery - korpusový administrátor (CQP, CUE) - programy pro tvorbu konkordancí (KWIC) - OCP, LEXA, WORDCRUNCHER, PAT - využití regulárních výrazů - statistické programy (absolutní, relativní četnosti, M/I, T-score) - třídicí programy pro konkordance - konverzní programy mezi různými kódy - práce s atributy a značkami (tagy) 5. Anotované korpusy a značkování - základní úroveň značkování - metastruktura textu - SGML - gramatické značkování na úrovni slovních druhů (CLAWS, CUTTING Tagger, LEMMA) - syntaktické značkování na úrovni větných struktur - treebanks, skeletonová analýza - paralelní korpusy 6. Využití korpusů a korpusových dat - ukázky práce s korpusem - ČNK - studium kolokací a slovních spojení - aplikace v oblasti teorie komunikace - budování slovníků.
- Syllabus (in Czech)
- 1. Informační technologie a jazykové korpusy. 2. Vznik korpusové lingvistiky a k čemu jsou korpusy. 3. Budování korpusů, korpusová data - typy korpusů a standardizace, SGML, TEI - sběr dat pro korpusy a reprezentativnost korpusů - údržba korpusů - příklady - Britský národní korpus, Český národní korpus (ČNK) 4. Korpusové nástroje - manažery - korpusový administrátor (CQP, CUE) - programy pro tvorbu konkordancí (KWIC) - OCP, LEXA, WORDCRUNCHER, PAT - využití regulárních výrazů - statistické programy (absolutní, relativní četnosti, M/I, T-score) - třídicí programy pro konkordance - konverzní programy mezi různými kódy - práce s atributy a značkami (tagy) 5. Anotované korpusy a značkování - základní úroveň značkování - metastruktura textu - SGML - gramatické značkování na úrovni slovních druhů (CLAWS, CUTTING Tagger, LEMMA) - syntaktické značkování na úrovni větných struktur - treebanks, skeletonová analýza - paralelní korpusy 6. Využití korpusů a korpusových dat - ukázky práce s korpusem - ČNK - studium kolokací a slovních spojení - aplikace v oblasti teorie komunikace - budování slovníků.
- Literature
- CHRIST, O., The XKWIC User Manual. Universität Stuttgart. Institut für maschinelle Sprachverarbeitung - Computerlinguistik. Stuttgart 1995.
- Manuál lexikografie. Edited by František Čermák - Renata Blatná. 1. vyd. Jinočany: H & H, 1995, 283 s. ISBN 80-85787-23-7. info
- ŠULC, Michal. Korpusová lingvistika : první vstup. 1. vyd. Praha: Karolinum, 1999, 94 s. ISBN 8071848476. info
- Studie z korpusové lingvistiky. Acta Universitatis Carolinae. Philologica 3-4. 1997.
- Assessment methods (in Czech)
- Podmínkou pro udělení kolokvia je znalost probrané látky.
- Language of instruction
- Czech
- Follow-Up Courses
- Further comments (probably available only in Czech)
- The course can also be completed outside the examination period.
The course is taught every week.
General note: Na přednášku navazuje v dalším semestru Úvod do korpusové lingvistiky II (CJBB23).
- Enrolment Statistics (recent)
- Permalink: https://is.muni.cz/course/phil/autumn2001/CJBB43