CJDSL001 Korpusová lingvistika (3) Klára Osolsobě osolsobe@phil.muni.cz Experimentální a počítačová lingvistika DO1 1 O čem budeme mluvit v kurzu •Krátký historický exkurz •Definice korpusu v moderním slova smyslu •Dva metodologické přístupy k vytěžování korpusu •Dva pohledy na korpus (lingvista a informatik) •Filologie a korpusy •Výuka jazyků a korpusy DO1 2 Korpusová lingvistika – empirická disciplína kde je možné užití korpusu •Myšlenka korpusu ve strukturalistickém přístupu •Korpus – dotazník – introspekce •Volba/tvorba jazykového korpusu •Typy korpusů •Dostupné korpusy •Problémové otázky •Tvorba korpusu DO1 3 Otázky, které je třeba vyřešit •Je korpusový přístup vhodný pro náš výzkumný záměr ? •Pokud je vhodný, existuje/existují vhodné korpus(y)? •Pokud existují, existují i vhodné nástroje, které mi pomohou při plnění mého záměru? •Pokud neexistují, je možné, aby vznikly? DO1 4 Typologie korpusů •Synchronní a diachronní (Je můj záměr orientován na současný jazyk, nebo na jazyk v diachronní perspektivě?) •Psaný a mluvený (Je problém, který sleduji, typický pro psaný/mluvený jazyk, nebo je nezávislý na těchto aspektech?) •Obecný a autorský (Je můj výzkumný problém orientován na jazyk jednoho/více autorů, nebo je otázka autorství textů druhořadá?) •Specializovaný (Zaměřuji se na specifický problém, existuje k tomuto specifickému problému specificky zaměřený korpus?) •Webový (Potřebuji k řešení svého výzkumného záměru především „velká data“?) •Paralelní (Zajímá mě komparace více jazyků?) •Srovnatelný (Zajímá mě komparace analogických jevů v různých jazycích? ) DO1 5 Otázky •Máte přehled o dostupných korpusech jazyků, které alespoň částečně ovládáte? •Korpusy v českém prostředí? •Korpusy na MU? DO1 6 Jak se orientovat v korpusech ČNK https://www.korpus.cz/ •akademický projekt 1994 •systematicky mapuje češtinu i další jazyky •po bezplatné registraci otevřeny všem zájemcům (https://www.korpus.cz/signup) •Korpusy – přehledně (https://wiki.korpus.cz/doku.php/cnk:uvod) DO1 7 Jak číst jednotlivé charakteristiky a nad čím přemýšlet •Velikost korpusu (počet slov ve vztahu k tokenizace) •Lemmatizace •Morfologické značky •Verzovaný korpus •Referenční korpus •Klasifikace textů – vnější anotace / metadata •Citování korpusů DO1 8 Jak se orientovat v korpusech dostupných přes Sketch engine DO1 9 Pokročilé DO1 10 Podle klasifikace DO1 11 Některé starší i novější projekty MU •BMK (https://wiki.korpus.cz/doku.php/cnk:bmk) •KSK (https://wiki.korpus.cz/doku.php/cnk:ksk-dopisy) •Elektronická knihovna překladů anglických dramat (https://www.phil.muni.cz/kapradi/) •UčKo DO1 12 Korpusové nástroje •Vyhledávání přes webové rozhraní KonText a Sketch Engine •Funkce – vyhledávání, zobrazování, třídění, počítání frekvencí, ukládání, využití statistických měr •Další korpusové nástroje: SyD, Morfio, Treq, KWords DO1 13 Vlastní korpus •Tvorba subkorpusu z dostupného korpusu (https://www.korpus.cz/kontext/subcorpus/new?corpname=codit) •Tvorba vlastního korpusu (https://app.sketchengine.eu/#ca-create?corpname=preloaded%2Fd gt__sh_hr) DO1 14 Co je třeba řešit, chceme-li vytvořit vlastní korpus? •Máme texty v elektronické podobě? Máme na ně právo? •Jak dostat text do el. podoby? •Čeká nás scanování a přepisy tetxů? •Máme k dispozici vhodné OCR nástroje? •Jsme dostatečně informováni o tom, jak udělat přepis? •Jak zajistit kvalitu (konzistenci) přepisu? Mám prostředky na kontrolu přepisu? •Jak budu zacházet s metadaty? DO1 15 Tvorba korpusu a dostupné nástroje DO1 16 Závěr •Máme k dispozici velké množství korpusů •Korpusové nástroje jsou dostupné a mají množství funkcí •Nástroje k vytvoření korpusu i pracoviště, na která je možno se obrátit existují •Důležitost přípravných fází pro úspěšnost práce DO1 17 Vyzkoušejte •V nástroji SyD porovnejte distribuci spojení je třeba a je potřeba. •Jazykový humor a počítačové nástroje. Starý vtip: „Koupil jsem si paštiku, bylo na ní napsáno ‚zaječí‘, a neječí a neječí.“ Pomocí nástroje Morfio vyhledejte homonymní dvojice adjektivum/tvar slovesa podobné těm, které se objevují v uvedené anekdotě. •Vyzkoušejte aplikaci KWords (vezměte svoji diplomovou práci/článek/referát, nahrajte ji/jej do nástroje KWord a podívejte se, nakolik se liší vámi sestavený seznam klíčových slov od seznamu vytvořeného automaticky uvedeným nástrojem. Udělejte totéž s originálem/překladem uměleckého textu. Vyzkoušejte obdobnou funkci v rozhraní Sketch engine •Vyzkoušejte nástroj Treq (např. vyhledejte překlady vulgarismů, okazionalismů, podívejte se na falešné přátele) DO1 18 Je mi to jedno/fuk. DO1 19 vlastnit/vlastní a další DO1 20 antroponymum; oikonymum; zakončení na -slav/-slava; korpus; morfologické značkování; desambiguace DO1 21 Funkce KEYWORDS ve Sketch engine DO1 22 jak říci italsky děvka? DO1 23 Otázky •Máte pro svou disertaci vybrán korpus, se kterým chcete pracovat? •Budete tvořit vlastní korpus? •Máte rozmyšlené, jak budou vypadat metadata? •Zajímáte se o korpusově orientované konference a víte, že se chystá jedna na příští rok v Praze (https://tt2022.ff.cuni.cz/calls-and-circulars/first-call-for-papers/)? DO1 24 Děkuji vám za pozornost DO1 25