KonText a Sketch Engine – shody a rozdíly korpusových vyhledávačů v českém prostředí Klára Osolsobě osolsobe@phil.muni.cz 20.2.2019 LŠSS 2018 1 O čem budeme mluvit •Dostupné korpusy a dostupné nástroje (korpusové manažery) •ÚČNK – KonText (uložení/ zobrazení/ kolokace) •FI MU – Sketch Engine (slovní profily/ podobná slova / rozdílná slova) •Využití nástroje Treq jako dvojjazyčného slovníku •Využití nástroje SkeLL jako výkladového slovníku 20.2.2019 LŠSS 2018 2 Český národní korpus •Ústav ČNK (http://ucnk.ff.cuni.cz/cs/) •Přístupová práva (https://www.korpus.cz/signup) •Co je k dispozici (http://wiki.korpus.cz/doku.php/cnk:uvod) •Manuály a nápovědy (http://wiki.korpus.cz/doku.php/manualy:kontext:index) •Vyhledávač KonText (https://kontext.korpus.cz/first_form) • • 20.2.2019 LŠSS 2018 3 Volba korpusu 20.2.2019 LŠSS 2018 4 Korpusy ÚČNK (http://wiki.korpus.cz/doku.php/cnk:uvod) •Psané synchronní obecné i specializované (lemmatizované a tagované morfologicky a částečně i syntakticky) •Mluvené synchronní obecné i specializované •Diachronní •Vícejazyčné – paralelní •Cizojazyčné webové •Cizojazyčné speciální 20.2.2019 LŠSS 2018 5 Volba typu dotazu a jeho zápis v dotazovacím okně 20.2.2019 LŠSS 2018 6 Typ dotazu •Word •Lemma •Fráze •Cql (corpus querry language) 20.2.2019 LŠSS 2018 7 Konkordanční seznam 20.2.2019 LŠSS 2018 8 Uložení (XLSX) of line 20.2.2019 LŠSS 2018 9 Zobrazení • • •Lemma (KWIC) – základní tvar •Tag (KWIC) – morfologická značka •Typ dokumentu (zdroj) 20.2.2019 LŠSS 2018 10 Zobrazení lemma/tag u KWIC a zdroje (titul dokumentu) 20.2.2019 LŠSS 2018 11 Jak číst tag (https://wiki.korpus.cz/doku.php/seznamy:tagy) •Poziční značky •Pozice – gramatická kategorie •Obsazení pozice – gramatický význam 20.2.2019 LŠSS 2018 12 Češi/Čech/NNMP1-----A---- •N – substantivum •N – obyčejné substantivum •M – maskulinum životné •P – plurál •1 – nominativ •A – bez negativního prefixu ne- • 20.2.2019 LŠSS 2018 13 Jsou/být/VB-P---3-AA----I •V – sloveso •B – prézentní tvar •P – plurál •3 – 3. osoba •A – bez prefixu ne- •A – aktívum •I – nedokonavý vid 20.2.2019 LŠSS 2018 14 Zdroj (doctype) 20.2.2019 LŠSS 2018 15 Kolokace (bezprostředně po frázi – interval <1,1> hledáme statisticky významné kolokace slovních tvarů podle míry MI-score) 20.2.2019 LŠSS 2018 16 Z výsledného seznamu kolkátů můžeme pomocí volby p/n (pozitivní/negativní) filtr získat konkordance se zvoleným kolokátem 20.2.2019 LŠSS 2018 17 20.2.2019 LŠSS 2018 18 Jakým národem jsme ? Opět můžeme zopakovat hledání kolokací, tentokrát v intervalu <2,2> 20.2.2019 LŠSS 2018 19 Další nástroje nabízené v rámci aplikace KonText 20.2.2019 LŠSS 2018 20 SketchEngine (učo+sekundární heslo) 20.2.2019 LŠSS 2018 21 Sketch Engine access funded by ELEXIS: 2018–2022 20.2.2019 LŠSS 2018 22 SketchEngine •Nástroj disponuje dalšími funkcemi zpracování jednotek (slovních tvarů/lemmat) v korpusech •Slovní profily (wordsketches) – gramatická kombinovatelnost slov •Zobrazování slov na základě podobností ve výskytu (thesaurus) 20.2.2019 LŠSS 2018 23 Sketch Engine a KonText - shody 20.2.2019 LŠSS 2018 24 Funkce Word Sketch •Umožňuje vytvářet vizualizace frekvenčně uspořádaných gramaticky definovaných relací, do kterých vstupuje klíčové slovo v daném korpusu •Nástroj má zabudována pravidla parciální syntaktické analýzy založené na morfologických značkách •Tak například na základě toho, že se v bezprostředním levém kontextu substantiva vyskytuje adjektivum, které se shoduje se substantivem v relevantních gramatických kategoriích, je vytvořen seznam a_modifier (adjektivních modifikátorů) typických (s relevantí frekvencí) pro klíčové substantivum • 20.2.2019 LŠSS 2018 25 Word sketch Čech 20.2.2019 LŠSS 2018 26 Funkce Thesaurus (zobrazení podobných slov) •Na základě porovnání kontextů je vytvořen seznam a vizualizace slov, která mají podobné (gramaticko-lexikální) kontexty 20.2.2019 LŠSS 2018 27 Thesaurus (zobrazení podobných slov) 20.2.2019 LŠSS 2018 28 Sketch rozdíl (vizualizace kontextu dvojice) •Společné kontexty (bíle podbarvené) •Kontexty typické pro každý člen dvojice (zeleně a červeně podbarvené) 20.2.2019 LŠSS 2018 29 Sketch rozdíl (Čech/Němec) 20.2.2019 LŠSS 2018 30 Sketch rozdíl (Čech/Američan) 20.2.2019 LŠSS 2018 31 Korpusová lexikografie •http://www.juls.savba.sk/pub_sssj.html •http://ucnk.ff.cuni.cz/cs/veda-a-vyzkum/publikace/ • • 20.2.2019 LŠSS 2018 32 Treq: nástroj propojený s paralelními korpusy (překladový slovník) 20.2.2019 LŠSS 2018 33 SkeLL: https://www.sketchengine.co.uk/skell/ 20.2.2019 LŠSS 2018 34 Příklady: hledání slov nebo frází a jejich zobrazení až ve 40 vhodných příkladových větách. 20.2.2019 LŠSS 2018 35 Word sketch = kolokační profil slov: vyhledá pro základní tvar slova (např. „voda“ či „začít“) jeho nejčastější vazby zachycující kolokační a gramatické chování tohoto slova 20.2.2019 LŠSS 2018 36 Podobná slova: hledá k základnímu tvaru slova další blízká slova, tj. nejen synonyma, ale i slova vyskytující se v podobných kontextech jako hledaný výraz (např. auto – vůz – loď ...). 20.2.2019 LŠSS 2018 37 Co znamenají slova? •Bezbřehý, bytelný, balamutit, cudný, horlivý, hvozd, chmurný, chrabrý, jihnout, jímavý, jízlivý, kasat se, kazajka, klání, kloudný, komolit, konejšit, lačný, láteřit, ledabylý, lomozit, lpět, mamon, mdlý, mimoděk, nedůtklivě, nejapný, niterný, okounět, osočit, ostýchavý, otálet, otrapa, perný, pohnutka, pokoutně, ponurý, pookřát, pověra, potutelný, proradný, prchlivý, předpojatý, pýřit se, rmoutit, se, rozšafný, rusý, schlíplý, slídit, spílat, srdnatý, strádat, střenka, svérázný, svízel, sudí, šev, tklivý, trýznit, úděl, uhranout, unylý, úlisný, upejpat se, úporný, úskalí, uštěpačný, útlocitný, vesměs, vzývat, záhy, zakabonit se, zakolísat, záludný, zášť, zesinat, zevrubný, zmerčit, zpupný, ztepilý. • 20.2.2019 LŠSS 2018 38 Závěr •Korpusové manažery/vyhledávače mají vcelku podobné funkce •Na MU je pro všechny, kteří mají UČO dostupný Sketch Engine (https://ske.fi.muni.cz/login/?next=/auth/corpora/) https://www.sketchengine.co.uk/user-guide/ •Učit se konkrétní nástroj a učit se přemýšlet, jak lze použít. •To, co nenajdeme v korpusu, se v jazyce vyskytovat může. •To, na co v korpusu náhodou narazíme, bychom v něm mnohdy vůbec nehledali. • • 20.2.2019 LŠSS 2018 39 Bibliografie •Jan Hajič (2004): Disambiguation of Rich Inflection (Computational Morphology of Czech). Vol. 1. Karolinum Charles University Press, Praha. •Milena Hnátková, Michal Křen, Pavel Procházka, Hana Skoumalová (2014): The SYN-series corpora of written Czech. In: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), s. 160–164. Reykjavík: ELRA. http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf •Adam Kilgarriff, Pavel Rychlý, Pavel Smrž, David Tugwell (2004). Itri-04-08 the sketch engine. Information Technology. •Adam Kilgarriff, Vojtěch Kovář, Simon Krek, Irena Srdanovič, Carole Tiberius (2010): A quantitative evaluation of word sketches. Proceedings of the 14th EURALEX International Congress, s. 372–379. •Adam Kilgarriff, Vít Baisa, Jan Bušta, Miloš Jakubíček, Vojtěch Kovvář, Jan Michelfeit, Pavel Rychlý, Vít Suchomel (2014): The Sketch Engine: ten years on. Lexicography, 1, s. 7–36. •Miloš Jakubíček, Adam Kilgarriff, Diana McCarthy, Pavel Rychlý (2010): Fast Syntactic Searching in Very Large Corpora for Many Languages. PACLIC, s. 741–747. •Tomáš Jelínek (2008): Nové značkování v Českém národním korpusu. In: Naše řeč, 91, 1,s. 13–20. •Vladimír Petkevič (2014): Problémy automatické morfologické disambiguace češtiny. In: Naše řeč, 97, 4, s. 194–207. •Pavel Rychlý (2008): A Lexicographer-Friendly Association Score. Proc. 2nd Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN, 2, s. 6–9. •Drahomíra Spoustová, Jan Hajič, Jan Votrubec, Pavel Krbec, Pavel Květoň (2007): The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In: Proceedings of the Workshop on Balto-Slavonic Natural Language Processing. ACL 2007, Praha, s. 67–74. •Elektronické korpusy a korpusové nástroje •Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: Korpus SYN, verze 6 z 18. 12. 2017. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz •FI MU – czTenTen12. Centrum zpracování přirozeného jazyka FI MU, Brno. Dostupný z: WWW: http://ske.fi.muni.cz/bonito. •Nástroj KonTetxt dostupný z: WWW: https://kontext.korpus.cz/first_form. •Nástroj Sketch Engine dostupný z: WWW: https://www.sketchengine.co.uk/. •Nástroj SkELL dostupný z: WWW: https://www.sketchengine.co.uk/skell/. • Nástroj Treq dostupný z: WWW: http://treq.korpus.cz/index.php. 20.2.2019 LŠSS 2018 40 Děkuji vám za pozornost 20.2.2019 LŠSS 2018 41