Korpusová lingvistika – 1 Úvod – korpus a korpusová lingvistika, základní pojmy Mgr. Dana Hlaváčková, Ph.D. CJBB105 Osnova • Úvod – korpus a korpusová lingvistika, základní pojmy • Vývoj korpusové lingvistiky • Typy korpusů, české korpusy • Budování korpusů • Morfologické značkování • Korpusové manažery • Využívání korpusů • Časopisy, konference, publikace Korpusová lingvistika • počítačová lingvistika (počítačové zpracování přirozeného jazyka, Natural Language Processing – NLP) • korpusová lingvistika • směr lingvistiky založený na empirii, observaci, zkoumání jazykového materiálu • využití počítačové techniky a nástrojů • poskytuje zdroj jazykových dat Co je to korpus Jazykový korpus (z lat. corpus „tělo, těleso“) je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby v jednotném formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy, zejména slova a slovní spojení. Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný. http://wiki.korpus.cz/doku.php/pojmy:korpus Co je to korpus Rozsáhlý soubor elektronicky uložených jazykových dat, obvykle označkovaný, organizovaný se zřetelem k využití pro určitý cíl, vůči němuž je také považován za reprezentativní. Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Studie z korpusové lingvistiky. Praha: Karolinum, 2000, s. 15–38. Co je to korpus • elektronický soubor textů (rozsáhlý) • autentické texty, přirozený kontext • jednotný formát – strojově čitelný, machine readable format/MRF – jednotné kódování • označkovaná data • reprezentativní vůči svému účelu Jak korpus vypadá • vertikál, pozice (token, tokenizace) • slovo (word) – řetězec znaků ohraničený z obou stran mezerami • pro uživatele – korpusové manažery • konkordance, KWIC (key word in context) 2 3 Pro 4 představu 5 6 , 7 jakým 8 přívětivým 9 místem 10 byl 11 Americký 12 park 13 v 14 minulosti 15 16 , 17 uvádíme 18 několik 19 historických 20 fotografií 21 22 . 23 Obsah a rozsah korpusu • korpusy psané a mluvené • obsah – typy textů – beletrie, odborné texty, publicistické texty – texty z internetu – soukromá korespondence – přepisy mluvených nahrávek – texty zahraničních studentů češtiny (žákovské korpusy) • vyváženost (poměr kategorií) Obsah a rozsah korpusu • rozsah – velikost korpusu – počet pozic – počet slov • opravdu velké korpusy (webové, několik miliard pozic) – frekvenční studie • malé specializované korpusy (stovky tisíc pozic, jednotky milionů) Obsah a rozsah korpusu • celé texty • vzorky (sampling) – vybraná část textu • rozsah – vymezený rozsah (předem stanoven) – otevřený korpus (plynule se zvětšuje) Značkování korpusu • značkování – zvyšuje informační hodnotu korpusu (vždy nutná dostupná interpretace značek) • vnitřní značkování (vnitrotextové) – strukturní atributy (opus, doc, s) – morfologické značky • vnější značkování, (vnětextové) na úrovni textu, metatextové informace (autor, název díla, rok vydání atd.)