CJBB75 – 5. ÚLOHA Sleduj v korpusu slovnědruhové značkování jednotek (lc=kolem, lc=místo, lemma=výchovné), které lze interpretovat vícero způsoby a pokus se navrhnout, jak postupovat při odhalení chyb v disambiguaci. 1. lc=kolem Kolem může být interpretováno třemi způsoby: jako příslovce, předložka nebo podstatné jméno. Pro kolem=N by mělo platit, že nalevo od něj se nachází přídavné jméno nebo číslovka. Pro kolem=N následované číslovkou dostaneme například tyto konkordance, z nichž jen několik je se správně označkovaným kolem. Pokud bude před kolem=N stát přídavné jméno, mělo by se s ním shodovat v rodě, čísle a pádě. Použijeme pozitivní filtr CQL [pos="A" & tag="A[ACO]NS7.*"]. Žlutě zvýrazněné nálezy ukazují tvary kolem, které pravidlu sice vyhovují, ale pouze formálně. Kolem=D nebo kolem=R by se mělo nacházet napravo od slovesa, nalevo od podstatného jména. V této pozici se může nacházet i kolem=N (nejčastěji ve spojení “točit kolem dějin/štěstěny”), v případě žlutě zvýrazněných KWIC ale je ale kolem=N vedle slovesa chybně. (Postup: lc=kolem, kolem + sloveso na levé straně, pozitivní filtr na kolem pos=N) Pro hledané kolem nalevo od podstatného jména získám většinou kolem=D nebo kolem=R, v některých případech ale i chybné kolem=N (žlutě): Zvláštní je, že u “kolem hrdla” je kolem jednou označené jako R, podruhé jako N. (Postup: lc=kolem, kolem + substantivum na pravé straně) 2. lc=místo Stejně jako kolem, i místo lze interpretovat jako substantivum, adverbium a předložku. Místo=N by nalevo od sebe mělo mít přídavné jméno nebo číslovku. Naopak podstatné jméno by tam spíše být nemělo. Pro podstatné jméno + místo=N (jak to být nemá) vypadá výsledek takto: Žlutě označené případy, kdy je místo chybně označkováno jako substantivum. V případě číslovky a přídavného jména pro místo≠N by bylo dobré následovat vzorec “něco/nějaké místo něčeho/nějakého”, takže budu hledat místo=R|D z obou stran obklopené buď číslovkami, nebo přídavnými jmény, jak přídavná jména, tak číslovky, by se neměly místem shodovat v rodě. (postup: pozitivní filtr na pozici -1, v CQL [pos=”A|C” & tag=”..[MIF].*”], pozitivní filtr na pozici +1, v CQL [pos=”A|C” & tag=”..[MIF].*”]) Už když použiji filtr pro levou stranu (pos=C), dostávám několik chybně označkovaných míst: I pro pos=A: Pokud je místo předložka nebo příslovce, mělo by být následováno spojkou aby, ve většině případů by se před místem měla objevit čárka, hledám tedy trigram “, místo aby” (místo=N, abych získala chybně označkované). To se mi nepodařilo, takže jsem si při hledání vystačila s bigramem (bez čárky). Chyby v disambiguaci jsou tu způsobeny spojením přídavného jména a místa, zvláštního používání interpunkce a nesprávného použití “na místo” místo “namísto”. 3. lemma=výchovné Lemma=výchovné v korpusu vyhovuje pouze interpretaci výchovné=N. Pro výchovné=A by mělo platit, že bude v mnoha případech následováno substantivem. Najdu to pomocí pozitivního filtru pro 1 pozici napravo od KWIC. V tomto případě dostávám konkordance s výchovným=N, které je ale ve skutečnosti adjektivum. Naopak pro výchovné=N bude platit, že před ním stojí adjektivum (pozitivní filtr pro pos=A nalevo od výchovné). Další možností je, že za ním bude stát sloveso (pozitivní filtr pro pos=V napravo od výchovné). Pro adjektiva nalevo od výchovné: platí většinou, že adjektivum rozvíjí výchovné, které je také adjektivum (pravděpodobně na základě pravidla adjektivum-substantivum v korpusu označené jako substantivum), jindy jde o rozvinutí koordinace. V jednom případě je výchovné označeno jako substantivum správně. Pro slovesa napravo od výchovné: pokud stojí adjektivum výchovné samo nebo za substantivem, je označeno jako výchovné=N. V jednom případě (modře označené) může jít jak o výchovné=N, tak o výchovné=A. Citace: Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: Korpus SYN, verze 8 z 12. 12. 2019. Ústav Českého národního korpusu FF UK, Praha 2019 [cit. 2020-05-06]. Dostupný z WWW: https://www.korpus.cz