Korpusová lingvistika – 1 Úvod – korpus a korpusová lingvistika, základní pojmy Mgr. Dana Hlaváčková, Ph.D. CJBB105 Organizace • CJBB105 Korpusová lingvistika – přednáška • PRZA009 Korpusová lingvistika • Počítačová lingvistika, Český jazyk a literatura • Překladatelství románských a germánských jazyků • zakončení – zkouška – písemný test • přednáška, částečně praktické ukázky (notebook) • prezentace z přednášek ve studijních materiálech IS • CJBB75 Základy využití korpusů (pro praxi) • CJBB84 Morfologie a korpus • PLIN032 Gramatika a korpus • PLIN022 Využití korpusů při výuce češtiny jako cizího jazyka • 28. 2. Ing. A. Rosen, Ph.D. – Paralelní korpus InterCorp, 13 h, D51 • Korpusový workshop v Praze Osnova • Úvod – korpus a korpusová lingvistika, základní pojmy • Vývoj korpusové lingvistiky • Typy korpusů, české korpusy (ČNK) • Budování korpusů, reprezentativnost • Mluvené korpusy • Korpusové manažery • Morfologické značkování • Využívání korpusů • Časopisy, konference, publikace Doporučená literatura • Čermák, F. Korpus a korpusová lingvistika. Praha: Nakladatelství Karolinum, 2017. • Studie z korpusové lingvistiky. Čermák, F., Klímová, J. a Petkevič, V. (eds.). Praha: Karolinum, 2000. • McEnery, T. and Wilson, A. Corpus Linguistics: An Introduction. Edinburgh: Edinburgh University Press, 1996. • McEnery, T. and Hardie, A. Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press, 2012. • http://korpus.cz – Český národní korpus • http://wiki.korpus.cz – výklad termínů • NESČ https://www.czechency.org/ Instituce • Ústav Českého národního korpusu FF UK • Ústav teoretické a komputační lingvistiky FF UK • Ústav formální a aplikované lingvistiky MFF UK • Ústav pro jazyk český AV ČR • Centrum zpracování přirozeného jazyka FI MU • Ústav českého jazyka FF MU Korpusová lingvistika • vymezení v systému věd • průnik humanitních (lingvistika) a přírodních (matematika, informatika) věd – studium přirozeného jazyka s využitím metod přírodních věd • empirie, observace (x introspekce) • objektivita a evidence • opakovaný experiment • počítače a software • dostatečné množství autentických jazykových dat Korpusová lingvistika • užší vymezení – vztah k NLP • lingvistika, matematika a informatika • počítačová lingvistika – počítačové zpracování přirozeného jazyka, Natural Language Processing – NLP • korpusová lingvistika • vymezení v rámci lingvistiky • samostatný obor (corpus-driven) • metodologie pro všechny části lingvistiky (corpus-based) • poskytuje zdroj jazykových dat Co je to korpus Jazykový korpus (z lat. corpus „tělo, těleso“) je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby v jednotném formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy, zejména slova a slovní spojení. Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný. http://wiki.korpus.cz/doku.php/pojmy:korpus Co je to korpus Rozsáhlý soubor elektronicky uložených jazykových dat, obvykle označkovaný, organizovaný se zřetelem k využití pro určitý cíl, vůči němuž je také považován za reprezentativní. Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Studie z korpusové lingvistiky. Praha: Karolinum, 2000, s. 15–38. Elektronický text v korpusu • lineární řetězec znaků • jednotný kód (Unicode – UTF-8) a formát (txt) • psaný a mluvený • autentičnost – data se neupravují – „Korpusová data jsou posvátná.“ • etický kodex • autorská práva Co je to korpus • elektronický soubor textů (rozsáhlý) • autentické texty, slova v přirozeném kontextu – konkordance • jednotný formát – strojově čitelný, machine readable format/MRF – jednotné kódování • označkovaná data (přidané informace) • reprezentativní vůči svému účelu Jak korpus vypadá • vertikál • token (tokenizace) – řetězec znaků ohraničený z obou stran mezerami • type (word, slovní tvar) • token – type, token-type ratio (vysoké číslo = bohatost slovníku) • pro uživatele – korpusové manažery • konkordance, KWIC (key word in context) 2 3 Pro 4 představu 5 6 , 7 jakým 8 přívětivým 9 místem 10 byl 11 Americký 12 park 13 v 14 minulosti 15 16 , 17 uvádíme 18 několik 19 historických 20 fotografií 21 22 . 23 Obsah a rozsah korpusu • typ komunikace – korpusy psané, mluvené, multimodální • obsah – typy textů – beletrie, odborné texty, publicistické texty – texty z internetu – soukromá korespondence – přepisy mluvených nahrávek – texty zahraničních studentů češtiny (žákovské korpusy) • vyváženost (poměr kategorií) Obsah a rozsah korpusu • rozsah – velikost korpusu – počet tokenů – počet slov (type, word) • opravdu velké korpusy (web jako korpus, webové korpusy – několik miliard pozic) – frekvenční studie • malé specializované korpusy (stovky tisíc pozic, jednotky milionů) Obsah a rozsah korpusu • celé texty • vzorky (sampling) – vybraná část textu • rozsah – vymezený rozsah, uzavřený (předem stanoven) - referenční – otevřený/monitorovací korpus (plynule se zvětšuje) – nereferenční Značkování korpusu • značkování – zvyšuje informační hodnotu korpusu (vždy nutná dostupná interpretace značek) • vnitřní značkování (vnitrotextové) – strukturní atributy (opus, doc, s) – morfologické značky • vnější značkování, (vnětextové) – na úrovni textu, metatextové informace (autor, název díla, rok vydání atd.) Hlavní rysy korpusu • aneb čím se korpus liší od webu nebo elektronického archivu • elektronické texty v jednotném formátu • značkování • zobrazení konkordancí v korpusových manažerech