Základy využití korpusů (pro praxi) Domácí úkol 5 Vypracoval: Dušan PTÁČEK, 1.ročník, Počítačová lingvistika === Úvodné poznámky: Pre túto úlohu platí, že každé korpusové pozorovanie slovnedruhového značkovania zadaných jednotiek bude učinené v korpuse verzie synv8 [1]. Pre kontrolu a inšpiráciu - v korpuse priradené tagy všetkých prípustných slovných druhov danému slovnému tvaru budeme konfrontovať s Internetovou jazykovou príručkou, kde sú tiež dané slovné tvary popísané a slovnedruhovo interpretované [2]. Z internetovej jazykovej príručky vieme napísať, že žiadny zo slovných tvarov “kolem”, “místo” a “výchovné” by nemal byť interpretovaný inak ako substantivum (N), adjektivum (A), adverbium (D) alebo prepozice (R). Ďalej preto uvážme niektoré fakty, ktoré môžu byť implicitne uvažované pri určovaní rôznych kontextov: - substantiva obvykle plnia vo vete rolu podmetu a predmetu, a sú rozvíjané prívlastkom, - adjektiva sú vo vete spájané so substantivami a to v kongruentnom vzťahu. Preto spravidla plnia vo vete rolu zhodného prívlastku a jmenné časti prísudku, - adverbia obyčajne nájdeme vo vete plniť úlohu príslovečného určenia, - zároveň podľa [4] môžu byť adverbia vo vete aj ako nezhodný prívlastok, - prepozice sú zas vždycky súčasťou niektorého vetného členu spoločne so substantívami alebo zámenami a stoja pred nimi.[3] O tieto úvodné poznámky oprieme korpusové skúmanie slovných tvarov a ich slovnedruhovej interpretácie v tejto úlohe. V ďalšom texte sa môže ich použitie vyskytnúť bez explicitnej citácie prípadne bez priameho využitia. Vždy však platí, že pôvodnosť myšlienok vyššie uvedených samozrejme zostáva zachovaná a všetko odlišné bude dedukované (či už správne alebo nesprávne) práve na základe týchto poznatkov a korpusových výsledkov. === a) dotaz: [lc="kolem"] Slovo “kolem” má v korpuse priradené tri slovnedruhové tagy - adverbium, prepozice a substantivum. Najbežnejšia je slovnedruhová interpretácia slovného tvaru “kolem” ako adverbia = D (1 016 128 výskytov) a prepozice = R (900 110 výskytov). Menej bežne zas substantivum = N (84 300 výskytov). V korpuse sú teda zastúpené všetky možné slovnedruhové interpretácie slovného tvaru “kolem”, pretože v [2] sa píše rovnako - práve o interpretácii D, R a N (v 7.páde). Keď sa pozrieme letmo na prvé výskyty, uvidíme opakujúcu sa chybu, kde slovnedruhová interpretácia slovného tvaru “kolem” je N, ale evidentne ide o prepozici, teda R. Za zmienku a zamyslenie stojí i to, že veľké množstvo “kolem” = D nie je správne označkovaných, pretože v skutočnosti ide o “kolem” = R. Podrobnejšie: “kolem”&pos=”D” (zjednodušene budem ďalej písať len “slovný tvar” = slovnedruhová interpretácia) Zamyslime sa, aký slovný druh by sme mohli nájsť o jednu pozíciu naľavo resp. napravo od “kolem” v prípade, že by sme chceli vyhľadať výlučne “kolem” = D. Kedže adverbia najčastejšie plnia vo vete rolu príslovkového určenia, o jednu pozíciu naľavo od “kolem” = D hľadajme verbum. Zároveň ale s odvolaním sa k [4] môžeme nájsť adverbium aj ako prívlastok nezhodný (napríklad “cesta kolem”). Preto o jednu pozíciu naľavo sa môže vyskytovať aj substantivum. Zároveň sa ale na tejto pozícii môže vyskytovať aj adverbium (“Šel rychle kolem.”) O jednu pozíciu napravo nemusí byť nič a vetu ukončíme (napríklad “Rozhlížím se kolem.”). Alebo môžeme pokračovať (“Rozhlížím se kolem a nic nevidím.”). V takom prípade bude o jednu pozíciu napravo konjunkce. Tak isto by sme mohli na uvažovanej pozícii nájsť substantivum v nominatíve (“Šel kolem Martin.”) alebo verbum (“Kdo se prohnal kolem spadl.”). Ďalej by sme tam mohli nájsť i ďalšie adverbium (“Šel kolem rychle.”) Na základe týchto úvah sformulujme zložený dotaz: [pos="[NVD]"][lc="kolem"][pos="[VDJZ]" | (pos="[NAPC]" & case="1")] Takto by sme mali získať takmer výlučne “kolem” = D. Nájdu sa tu však opäť aj nesprávne otaggované (označené na obrázku vľavo pod “výběr řádku”): Všimnime si ale aj celkový počet výskytov. Po zadaní dotazu [pos="[NVD]"][lc="kolem"][pos="[VDJ]" | (pos="[NAPC]" & case="1")] sa našlo 101 866 záznamov. My ale vieme, že “kolem” = D je v korpuse synv8 viac ako miliónkrát. Problém je v už spomínanej chybne priradenej slovnedruhovej interpretácii. Jedná sa predovšetkým o prípady, kedy je v skutočnosti “kolem” = R, pretože sa spája ako prepozice s genitívom, teda druhým pádom. Avšak v korpuse je interpretované ako D. Ukážme pre ilustráciu, čo dostaneme po zadaní dotazu: [lc="kolem" & pos = “D”][pos="[NAPC]" & case="2")] Podľa [2] sa “kolem” ako prepozice spája s 2.pádom, teda s genitívnym tvarom určitých slovných druhov. A teda nemôže platiť rovnaké kriterium pre slovnedruhovú interpretáciu (D aj R) slovného tvaru “kolem”. Pretože ak by sme pripustili opak – teda že s genitívnym tvarom daných slovných druhov sa môže spájať “kolem” v oboch interpretáciách, nemali by sme ich ako jednoznačne odlíšiť. Zo zaujímavosti sa ešte môžeme podívať na frekvencie výskytov slovných druhov v kontexte naľavo i napravo od “kolem” = D. Naľavo o jednu pozíciu od “kolem” = D sa s najvyššou frekvenciou podľa korpusu synv8 vyskytuju tieto slovné druhy: Napravo o jednu pozíciu od “kolem” = D sa s najvyššou frekvenciou podľa korpusu synv8 vyskytujú tieto slovné druhy: “kolem” = R Ako sme už spomenuli, “kolem” ako prepozice sa spája s 2.pádom, teda s genitívom. Preto budeme hľadať o jednu pozíciu napravo od “kolem” = R ľubovoľný slovný druh v genitíve – teda substantivum, adjektivum, pronomen alebo numeralie. Dotaz: [lc="kolem"][pos="[NAPC]" & case="2"] Vidno, že už na prvej strane výskytov je väčšina výskytov “kolem” otaggovaná nesprávne (označené riadky). Špeciálne označený riadok “kolem” = N je úplne najvýraznejšou chybou, keďže zamieňanie značkovania, ako sme ukázali vyššie, “kolem” ako prepozice resp adverbium, je v korpuse bežné. Skúsme skontrolovať, ako často je takto nesprávne interpretované “kolem”, teda ako substantivum. Zadajme preto mierne upravený dotaz: [lc="kolem" & pos="N"][pos="[NAPC]" & case="2"] A všimnime si nesprávne priradenie tagu = N pre “kolem” v týchto prípadoch. “kolem” = N Ak by sme chceli nájsť správne otaggované “kolem” = N, mali by sme sa podívať naľavo o jednu pozíciu a hľadať tam buď Adjektivum (príklad: červeným kolem), Numerálie (príklad: čtvrtým kolem), Pronomen (tvým kolem) alebo Prepozice (s kolem). Treba si uvedomiť tiež zhodu týchto slovných druhov so slovným tvarom “kolem” = N v čísle (singulár) a páde (Instrumental, 7.pád). Zložený dotaz preto môže vyzerať takto: [tag="[APC][DZ8S].S7.*"][lc="kolem" & pos=”[DR]”] Upresnime kontext aj vpravo na pozícii +1 a zároveň chceme nájsť len tie slovné tvary “kolem”, ktoré nie sú interpretované ako N. Po zahrnutí týchto myšlienok by sme mohli dostať významnejší počet nesprávne otaggovaných “kolem” = [DR], ktoré sú v skutočnosti substantivami (N). Dotaz: [tag="[AC]..S7.*"][lc="kolem" & pos!="N"][pos="V"] Hneď na úvodnej strane výskytov vidno, že všetky intepretácie po zadanom dotaze je “kolem” = D chybné. b) dotaz: [lc="místo"] Vidíme, že najčastejšie sa v korpusu vyskytuje slovný tvar “místo” = N. Tento tvar sa môže objavovať ako substantivum v Nominative a Akuzatíve singuláru. Zamyslime sa bližšie nad kontextom, v akom sa môže nadobúdať substantívne tvary. Naľavo na pozícii -1 môže byť: verbum (príklad: zaplnit místo), adjektivum (tmavé místo), numerále (první místo) alebo prepozice (přišel na místo). Sformulujme zložený dotaz takto: [tag="[ACVR].*"][lc="místo"] To nám ale veľmi nepomohlo, pretože vidíme výskyty, ktoré sú otagované správne. Zamerajme sa na výskyty “místo” = N a zadajme: [tag="[ACVR].*"][lc="místo" & pos="N"] Vidíme, že v korpuse nie je na prvý pohľad vidno zvýšenú mieru chybovosti v správnom kontexte pre “místo” = N. Podívajme sa teda na substantívnu interpretáciu slova “místo” a zároveň nesprávny kontext. Tak napríklad v ľavom kontexte na pozícii -1 by nemalo byť substantivum. Dotaz: [pos="N"][lc="místo" & pos="N"] V tomto prípade už je chybovosť vysoká. Napríklad z prvých 20 výskytov je polovica nesprávne označkovaná (vybrané riadky) a zjavne nejde o substantiva: Poďme sa pozrieť ešte raz na dotaz [tag="[ACVR].*"][lc="místo" & pos="N"], kde bolo “místo” = N označkované pomerne správne. Pozmeňme ho však tak, aby sme vyhľadali v ľavom kontexte (-1) iba adjektiva a numerálie, ktoré sa s “kolem” = N nezhodujú v rode (teda nebudú stredného rodu.). Dotaz v ľavom kontexte upravíme takto: [tag="[AC].[MIF].*"][lc="místo" & pos="N"] Vybral som a zaklikol riadky, kde sa mylne označuje “místo” = N. Za chybné intepretácie samozrejme nepočítam prípady, kedy síce zhoda v rode nie je prítomná, ale ide skôr o gramaticky nesprávne použitie (napr: dobrý místo, neznámý místo, ..). Interpretácia N je v týchto prípadoch teda správna. “místo” = D Podľa [2] v prípade, že je “místo” adverbium, často ho nachádzame v spojení s “co by” alebo “aby”. Budeme preto hľadať v jednom prípade bigram takto: [lc="místo" & pos="[NR]"][word="aby"] pos=”[NR]” preto, že vieme, že tento bigram je interpretovaný ako D, čiže chceme nájsť všetky interpretácie, ktoré sú iné ako D, čo je v prípade slovného tvaru “místo” jedine N alebo R. Vidíme teda chybné interpretácie “místo” = N a jedno jediné, špeciálne zvyraznené ako R. V druhom prípade pôjde o trigram: [lc="místo" & pos="[NR]"][word="co"][word=”by”] chybné interpretácie “místo” = N pri trigrame “místo co by”. “místo” = R Pokiaľ chceme interpretovať “místo” ako prepozice, vieme, že sa spája s genitívom. Zadajme preto: [lc="místo" & pos="[ND]"][tag="[NAPC]...2.*"] Samozrejme, pre “místo” hľadáme interpretáciu N alebo D, keďže chceme v danom pravom kontexte nájsť nesprávne otaggované slovné tvary. A tu hneď na prvý pohľad prvej strany výskytov v korpuse vidno plno chybných intepretci ako “místo” = N, pričom v skutočnosti ide o R. c) dotaz: [lemma="výchovné"] Výsledky ma prekvapili, pretože určite existuje aj “výchovné” = A (napr. výchovné zařízení), ktoré sa však vo výsledkoch nezobrazilo. Uvedomil som si však, kde je asi problém: keď zadám dotaz v tvare lemma = “xyz(sufix3)”, tak mi síce zobrazí všetky slovné tvary ako “xyz(sufix1)”, “xyz(sufix2)” a tak podobne, avšak vždy to budú slová, ktoré majú priradený rovnaký základný tvar, čo je v tomto vymodelovanom prípade “xyz(sufix)”. Prenesene do našej úlohy, adjektivum “výchovné” bude mať priradený iný základný tvar než “výchovné” = N, konkrétne takýto: “výchovný”. Takže zmením dotaz: [lc="výchovné"] čím dostaneme takéto frekvencie výsykytu: A vidíme, že adjektívna interpretácia je v korpuse niekoľkonásobne rozšírenejšia. Poďme sa teraz podívať na chybné interpretácie. “výchovné” = A by malo mať napravo od seba na pozícii +1 substantivum, preto hľadajme [lc="výchovné" & pos="N"][pos="N"] čím vyhľadáme chybné intepretácie. A evidentne je hneď na prvej strane výskytov nesprávna interpretácia, pretože sa určite jedná v skutočnosti o “výchovné” = A a nie N. “výchovné” = N Skúsme nájsť chybnú intepretáciu, že ak je v skutočnosti “výchovné” = N, tak v korpuse nájdeme nesprávne “výchovné” = A. Takže v kontexte naľavo na pozicii -1 by mohlo byť adjektivum. [pos="[APCV]"][lc="výchovné" & pos="A"] To sme si ale veľmi nepomohli, tak pridajme napravo na pozíciu +1 [pos!=”N”]. Nepomohlo ani to. Skusme ďalší dotaz typu: [lc="výchovné" & pos="A"][pos!="[NAJ]"] Stále sa nepodarilo nájsť v korpuse “výchovné” = A, ktoré by ale bolo v skutočnosti substantívom. Kedže nepomohlo vyššie v kontexte naľavo Verbum (príklad: dostat výchovné(N)), skúsme zmeniť dotaz tak, že Verbum bude v pravom kontexte na pozícii +1. Teda dotaz bude: [lc="výchovné" & pos="A"][pos="V"] Podarilo sa teda vďaka poslednému dotazu nájsť aspoň 2 príklady, ktoré nesprávne slovnedruhovo interpretované ako A. Použité zdroje: [1] Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: SYN2015(synv8): reprezentativní korpus psané češtiny. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz [2] Ústav pro jazyk český AV ČR. Internetová jazyková příručka. [online]. Praha : Ústav pro jazyk český Akademie věd České republiky, ©2008–2012 [cit. 04. 05. 2020]. Dostupné na: . [3] Adam, R.: Morfologie. Příručka k povinnému předmětu bakalářského studia oboru ČJL. Praha: Univerzita Karlova v Praze, Nakladatelství Karolinum, 2015. ISBN 978-80-246-2800-4 (online : pdf) [4] Havránek, A. - Jedlička, A.: Stručná mluvnice česká. Praha: Nakladatelství Fortuna, 2002. ISBN 80-7168-555-0.