zmraženo Vztah NovaMorf a dosavadního brněnského a pražského systému V tomto textu nastíníme vztahy mezi značkováním morfologických kategorií a hodnot v návrhu NovaMorf a 1) v upravené verzi brněnského systému (Jakubíček, Kovář, Šmerk, 2011) a 2) v pražském tagsetu (https://wiki.korpus.cz/doku.php/seznamy:tagy). Pokusíme se formou komentovaných tabulkových přehledů porovnat vztah mezi kategoriemi i hodnotami. Vztah návrhu NovaMorf k současné podobě značkování pozičním tagsetem užívaným na pražských pracovištích (ÚJAL MFF UK, ÚČNK FF UK, ÚTKL FF UK) viz též Osolsobě a kol. 2017. V textu nebudeme podrobně probírat vše, co se týká otázky změn v tokenizaci a lemmatizaci navrhované v NovaMorf. Změny v lemmatizaci, jichž se zde okrajově dotkneme, se týkají zavedení tzv. vícenásobného lemmatu, lemmatizace tvarů derivovaných negujícím prefixem ne-, lemmatizace tvarů komparativu/superlativu od supletivních základů, lemmatizace tvarů komparativu/superlativu s nejasným vztahem ke tvaru pozitivu a lemmatizace tvarů komparativu/superlativu, jejichž formální pozitiv není adjektivum/adverbium, ale číslovka. Více o všech těchto změnách viz příslušné kapitoly. V tomto textu pomineme veškeré technické problémy, což neznamená, že bychom si jich nebyli vědomi.^^[1] K vzájemné konverzi značek dosavadního pražského systému na brněnský viz Pořízka, Schäfer, 2009. Slovní druh (POS/k/1. pozice) Tato kategorie existuje ve všech třech tagsetech a její hodnoty si rámcově odpovídají. Kromě deseti tradičních slovních druhů (substantiva: N/k1/N, adjektiva: A/k2/A, zájmena: P/k3/P, číslovky: C/k4/C, slovesa: V/k5/V, příslovce: D/k6/D, předložky: R/k7/R, spojky: J/k8/J, částice: T/k9/T a citoslovce: I/k0/I), u nichž existují dílčí neshody ve značkování na rovině slovníku,^^[2] a interpunkce značkované ve všech třech tagsetech jakožto slovní druh (Z/kI/Z), obsahuje návrh NovaMorf tři nové slovní druhy: cizí slovo, afixový segment a agregát [FSG]. Pro nově navržené slovní druhy existuje/existovala v brněnském tagsetu klasifikace, na kterou by bylo možné při snaze sjednotit datové zdroje ve smyslu návrhu NovaMorf navázat. Návrh NovaMorf přebírá z pražského systému označování slov, která nejsou v morfologickém slovníku POS=X. V tabulce 1 naznačíme vzájemné korespondence jednotlivých tagsetů pokud jde o široce pojaté označení slovnědruhové platnosti analyzovaných slovních tvarů a v poznámkách vysvětlíme případy neshod. Tabulka 1 NovaMorf Brno Praha Slovní druh POS k 1. pozice substantivum N k1 N adjektivum A k2 A zájmeno P k3 P číslovka^^[3] C k4^^[4] C sloveso V^^[5] k5 V příslovce D k6 D předložka R k7 R spojky J^^[6] k8 J částice T k9 T citoslovce I k0 I interpunkce Z kI Z cizí slovo F ---^^[7] --- afixový segment S ---^^[8] --- agregát G ---^^[9] --- neznámé slovo X k? X Poddruh (SUB a DEI/[zxyt]/2. pozice) Kategorie SUB je v návrhu NovaMorf relevantní pro všechny slovní druhy kromě předložek, citoslovcí, cizích slov a neznámých slov [RTIFX]. V případě nutnosti by nebyl problém hodnoty dodefinovat. V brněnském tagsetu je subkategorizace řešena pomocí čtyř různých atributů (obecné subklasifikace atributem z a subklasifikačních typů pomocí atributů x, y, t). Kromě toho jsou ještě v návrhu (Jakubíček a kol., 2011) obsaženy atributy k subklasifikaci frekvenčních charakteristik a stylových charakteristik, viz níže. Tyto čtyři subkategorizační atributy [zxyt] jsou relevantní pro všechny slovní druhy kromě předložek, částic a interjekcí k[790]. Atributy x a y se mohou kombinovat v jedné značce u zájmen, číslovek a zájmenných adverbií. Také subklasifikace zájmen, číslovek a adverbií na 2. pozici pražského systému popisuje poměrně značně heterogenní jevy. Z toho důvodu tabulkové přehledy pro tyto tři slovní druhy oddělíme zvlášť a porovnání značkování zájmen, číslovek a adverbií zahrneme níže do kapitoly věnované hodnotě kategorie SUB a druhé subklasifikační kategorie DEI v návrhu NovaMorf v porovnání s brněnským a pražským systémem značkování. V tabulce 2a uvedeme hodnoty kategorie SUB, x a kategorií značkovaných na 2. pozici pražského systému v závislosti na slovním druhu substantiv N/k1/N a adjektiv A/k2/A. Tabulka 2a NovaMorf Brno Praha Poddruh/ sublasifikace typu SUB x 2. pozice POS=N/k1 SUB=V^^[10] ---^^[11] N POS=N/k1 SUB=C^^[12] ---^^[13] N POS=N/k1 SUB=0^^[14] ---^^[15] N POS=N/k1 ---^^[16] xP^^[17] N POS=N/k1 ---^^[18] xF^^[19] N POS=A/k2 SUB=U^^[20] ---^^[21] U POS=A/k2 SUB=G^^[22] ---^^[23] G POS=A/k2 SUB=M^^[24] ---^^[25] M POS=A/k2 SUB=V^^[26] ---^^[27] A (C)^^[28] POS=A/k2 SUB=C^^[29] ---^^[30] A POS=A/k2 SUB=0^^[31] ---^^[32] A V tabulce 2b uvedeme korespondence hodnot kategorie SUB a atributů [xyz] v závislosti na slovním druhu spojek J/k8/J, a a G/---/---. Tabulka 2b NovaMorf Brno Praha Poddruh/ subklasifikace typu SUB [zxy] 2. pozice POS=J/k8 SUB=^ xC ^ spojka souřadicí POS=J/k8 SUB=, abych…, kdybych… jsou agregáty spojkového typu s první složkou POS=J & SUB=, xS , spojka podřadicí (vč. „aby“ a „kdyby“ ve všech tvarech) POS=J/k. SUB=*^^[33] ---^^[34] * slovo krát (slovní druh: spojka) POS=G/k. SUB^^[35] z=s^^[36] (např. [ps]^^[37]) Vztah návrhu NovaMorf k brněnskému tagsetu (hodnoty SUB a DEI společné zájmenům, zájmenným číslovkám a zájmenným adverbiím) U zájmen, zájmenných číslovek^^[38] a zájmenných příslovcí^^[39] se v návrhu NovaMorf rozlišují dva poddruhy. Dělení zájmen, zájmenných číslovek (kolik, tolik, několik) a zájmenných příslovcí v návrhu NovaMorf bere v úvahu dvojí podstatu užívaných hodnot. Např. zájmeno něčí je zároveň přivlastňovací i neurčité a vyjadřování obou významů v rámci jediného poddruhu by znepřehlednilo klasifikaci. Z tohoto důvodu byla v rámci NovaMorf vytvořena kategorie, kterou jsme nazvali Deixe. Inspirací byl brněnský systém, v němž dosud existuje dvojí (dva atributy x, y ve značce) subklasifikace zájmen a dokonce trojatributové značkování zájmenných adverbií (specifikace adverbií atributy x, z, t). Hodnoty obou kategorií, SUB i DEI, se samozřejmě mohou kombinovat (proto byly zavedeny), ovšem ne zcela libovolně. Přehled vzájemných vztahů hodnot kategorií SUB a DEI u zájmen, zájmenných číslovek a zájmenných adverbií je patrný ze samostatných tabulek. Tabulky 3a, 3b, 4a, 4b, 5a, 5b naznačují názorně vztah mezi hodnotami SUB a DEI v návrhu NovaMorf a subklasifikacemi atributů [xy] u k[346] v brněnském tagsetu. Tabulky 3c, 4c a 5c zaznamenávají značkování zájmen, číslovek a adverbií v pražském systému. V tabulce 3a je naznačen vztah mezi hodnotami SUB a DEI u zájmen (POS=P) v návrhu NovaMorf. V tabulce 3a jsou uvedeny reprezentativní příklady, kompletní informaci o značkování zájmen obsahuje kapitola věnovaná zájmenům. Tabulka 3a (NovaMorf) POS=P Určitá DEI=U Neurčitá DEI=N Záporná DEI=Z Tázací DEI=T Vztažná DEI=V Reflexivní DEI=S Ukazovací DEI=D Osobní/ SUB=o já, ty, ... ---- ---- ---- ---- se, ... ---- Substantivní/ SUB=N ---- někdo, ... nikdo, ... kdo, ... jenž, ... ---- ---- Přivlastňovací/ SUB=U můj, ... něčí, ... ničí, ... čí, ... jehož, ... svůj, ... ---- Vymezovací/ ostatní/ SUB=v týž, jiný, sám, každý, všechen, ... nějaký, některý, ... nijaký, žádný, nijeden[1] [2] ,... jaký, který, ... ---- ---- ten, takový, onen, ... V tabulce 3b je naznačen vztah mezi odpovídajícími hodnotami atributů u zájmen (k3.*) v brněnském tagsetu. Tagsety zachycují odpovídající si jevy obdobně. Rozdíly jsou u zájmen tázacích a vztažných. Návrh NovaMorf počítá u vztažných zájmen pouze se zájmeny jenž, an, zatímco v brněnském systému figurují mezi vztažnými zájmeny i zájmena tázací (homonyma: máš na mysli? × Volím toho, znám.). Ta sice plní funkce relativních spojovacích výrazů, nicméně od desambiguace obou funkcí na rovině morfologické analýzy návrh NovaMorf upouští (nejde o morfologickou, ale o syntaktickou analýzu). Další rozdíly jsou patrně na úrovni slovníku (například oba, obě je v brněnském i pražském slovníku značkovány jako číslovka, jiný, jediný jako adjektivum atd.). Domníváme se, že oba tagsety jsou v zásadě kompatibilní. Tabulka 3b (Brno) k3 neurčuje se I Indeterminate y=I N Negative y=N Q Interrogative y=Q R Relative y=R F Reflexive y=F vynechán P Personal x=P já, ty, … se vynechán někdo některý, ... nikdo, žádný, ... kdo, který, ... kdo, který, ... O Possessive x=O můj, tvůj, ... svůj, ... D Demonstrative x=D ten, takový, onen, ... T Delimitative x=T týž, sám, každý, všechen, ... V tabulce 3c je přehled značkování zájmen na 2. pozici v pražském systému. Tabulka 3c (Praha) 1. & 2. pozice tvary příklady popis P0 naň spřežka předložka+osobní zájmeno on P1 jehož vztažné zájmeno jehož P4 jaký, který tázací zájmeno který, jaký, čí, jakýpak, kterýpak, čípak, kterýž, jakýž, jakýže, ... P5 něj osobní zájmeno on tvary po předložce (n-) P6 sebe zvratné zájmeno tvary sebe, sobě, sebou P7 se, si zvratné zájmeno tvary se, si, ses, sis P8 svůj přivlastňovací zvratné zájmeno svůj^^[40] P9 něhož vztažné zájmeno jehož tvary po předložce (n-) PD tento ukazovací zájmena ten, tento, takový, tenhle, onen, týž, tentýž, takovýto, takovýhle, tenhleten, toť, tamten, taký, tamhleten, tadyten, tuhleten PE což vztažné zájmeno což PH mě krátké (příklonné) tvary osobních zájmen mi, mě, ti, tě, ji, je, ... PJ jenž vztažné zájmeno jenž PK kdo vztažné/tázací zájmeno kdo, kdopak, kdožpak, kdož, kdos PL všechen zájmena vymezovací (limitativa) všechno, všecek, sám, samý, veškerý PP ty osobní zájmena já (my), ty (vy), on tvar tys PQ co vztažné/tázací zájmeno co, copak, cožpak, cos, což PS můj přivlastňovací osobní zájmena můj, tvůj, jeho, náš, váš PW nic záporná zájmena nic, žádný, nikdo, pranic, nijaký, pražádný, nižádný PY oč spřežka vztažné/tázací zájmeno předložka+č (oč, nač, zač, več, ...) PZ nějaký, něco neurčitá zájmena některý, něco, nějaký, někdo, jakýsi, jakýkoli, jakýkoliv, cosi, cokoliv, málokdo, kdosi, kdokoli kterýkoli, leccos, kdokoliv, ničí, kterýkoliv, všelijaký, kdekdo, málokterý, leckdo, leckterý, něčí, ledacos, kdejaký, kterýsi, jakýs, kdeco, máloco, čísi, takýs^^[41], bůhvíjaký, ledajaký, bůhvíco, lecjaký, všelicos, kdovíjaký, lecco, kdekterý, kdože, kdovíco, ledasco, ký, ledaco, ledaskdo, nevímjaký, bůhvíkdo, kdovíkdo, všelico, čertvíkdo, čertvíco, číkoliv, nevímkdo, číkoli, nevímčí, ledakdo, kdovíčí, zřídkakdo, ledakterý, čertvíjaký, všelikerý Ve skupině osobních zájmen (tag=PP.*) mají zvláštní značku tvary zájmena on po předložce (tvary něho, němu, něj, ně, něm, ním, ni, ní, nich, nimi mají tag=P5.*) a krátké (příklonné) tvary osobních (tag=PH.*) i zvratných (tag=P7.*) zájmen. Lemmatem krátkých i dlouhých tvarů zájmen osobních jsou příslušné nominativní tvary. Lemmatem krátkých i dlouhých tvarů zvratného osobního zájmena (tag=P6.*) je tvar se. Tvar zájmena ty s nesamostatným morfémem -s za 2. os. pomocného slovesa být (tys) má stejnou značku jako ostatní tvary zájmena ty. Ve značce je uvedena kategorie osoby, ta ovšem je uvedena v tomto případě proto, že jde o zájmeno 2. osoby, nikoli proto, že jde o tvar s nesamostatným -s za tvar 2. osoby pomocného slovesa být. Lemma je ty a ne tys, takže se ztrácí informace o tom, že jde o spřežku s tvarem slovesa být na úrovni lemmatu, stejně je řešena lemmatizace tvarů ses, sis, které mají lemma se. Problematicky se řeší lemmatizace a značkování tvarů kdos... (viz kapitola věnovaná zájmenům). Zvláštní značku mají zájmenné spřežky předložka + tvar zájmena on (tvary naň, zaň, proň, doň mají tag=P0.*), chybí tvar oň, který má značku X (neznámé slovo). Důvodem samostatného označení těchto tvarů je jejich problematická lemmatizace, která je v rámci projektu NovaMorf vyřešena zavedením slovního druhu agregát (POS=G.*), viz více v příslušné kapitole. V rámci značky se uvádí pádová platnost příslušného tvaru. Lemma je tvar sám. Tázací a vztažná zájmena mají několik různých značek. Zájmena kdo, co a některá od nich odvozená jsou jakožto substantivní zájmena bezrodá označkována samostatně (tag=P[KQ].*), jiná nikoliv (záporná – tag=PZ.* a neurčitá – tag=PW.*). Tvary zájmena jenž na straně jedné a tvary téhož zájmena po předložce (tvary na n- např. o němž, s nímž, ...) na straně druhé jsou označkovány samostatně dvěma různými značkami (tag=P[J9].*). Tvary zájmen kdo, co, který, taký, jaký + -s jsou v pražském slovníku lemmatizovány a označkovány velmi nejednotně (viz podrobně kapitola Zájmena). Tvary zájmen kterýs, jakýs, takýs jsou lemmatizovány jako zkrácené tvary zájmen (kterýsF>I>N), viz více v kapitole Substantiva. Brněnský systém se sdruženými hodnotami explicitně nepracuje. Přesto v desambiguační praxi užívá pravidla, která zjednodušují tuto praxi a odpovídají tak jiným způsobem řešení (viz více Jakubíček a kol., 2011) na potřebu vyhnout se složité desambiguaci. Tabulka 7 NovaMorf Brno Praha číslo NUM n 4. pozice POS=[NAPCV]/k[12345] NUM=S nS S POS=[NAPCV]/k[12345] NUM=P nP P POS=[NAPCV]/k[12345] NUM=[SP] ---- X^^[59] Tabulka 8 NovaMorf Brno Praha pád CAS c 5. pozice POS=[NAPCR]/k[12347] CAS=[1234567] g[1234567] [1234567-] POS=[NAPCR]/k[12347] CAS=[1234567] ---- X^^[60] POS=[NAPCR]/k[12347] CAS=[24] | [17] | ...]^^[61] ---- ---- Značkování kategorií relevantních pro slovesa (POS=V/k5) v návrhu NovaMorf v porovnání s brněnským systémem Pro slovesa je v návrhu NovaMorf relevantní kategorie poddruh (SUB), vid (ASP), osoba (PER) a číslo (NUM viz výše), slovesný tvar (VRB) a pro krátké tvary n/t-ových příčestí^^[62] také kategorie jmenný tvar (NOM),^^[63] viz více v příslušných kapitolách věnovaných adjektivům a slovesům. Poddruh sloves má v návrhu NovaMorf dvě hodnoty. SUB=b pomocná (být,^^[64] bývat, bývávat) a SUB=0 (všechna ostatní), viz více v kapitole věnované morfologickým kategoriím a hodnotám. Ani brněnský, ani pražský systém subklasifikaci sloves nemají. Vzhledem k tomu, že návrh NovaMorf je značně restriktivní, domníváme se, že sjednocení obou systémů by nemělo narazit na vážné překážky. Hodnoty kategorií vid, osoba i číslo a slovesný tvar mají své protějšky v brněnském i pražském systému, takže sjednocení by nemělo narážet na významné překážky. Tabulky 9 a 10 ukazují korespondence mezi návrhem NovaMorf a brněnským i pražským systémem. Tabulka 9 NovaMorf Brno Praha vid ASP^^[65] a^^[66] 16. pozice POS=V/k5 ASP=[DNO-] a[PI]/aB^^[67] [PIB-] Tabulka 10 NovaMorf Brno Praha osoba PER p 8. pozice POS=V/k5 PER=[123-]^^[68] p[123] [123-] Návrh NovaMorf kopíruje do značné míry brněnský systém značkování slovesných subparadigmat (kategorie slovesného módu značkovaná atributem m). Odpovídající významy se v dosavadním pražském systému značkovaly na 2., 9. a 12. pozici. (Podrobné porovnání obou systému i s ohledem na to, jak se oba systémy zračí v tagsetu používaném k tagování Slovenského národního korpusu viz Osolsobě, 2007.) Korespondence mezi návrhem NovaMorf a brněnským systémem jsou patrné z tabulky 11. Tabulka 11 slovesný tvar/mód NovaMorf Brno Praha Praha Praha VRB m 2. pozice 9. pozice 12. pozice POS=V/k5 VRB=F mF f - - POS=V/k5 VRB=P mI B A PX POS=V/k5 VRB=I mR i - - POS=V/k5 VRB=L mA pq A RX POS=V/k[Y89]^^[69] VRB=K^^[70] mC|zY c - - POS=V/k5 VRB=p mS e - - POS=V/k5 VRB=m mD m - - POS=V/k5 VRB=B^^[71] mB^^[72] B - F POS=A/k[25]^^[73] VRB=T^^[74] mN/--- s P H^^[75] Značkování kategorie negace v návrhu NovaMorf v porovnání s brněnským a pražským systémem Značkování kategorie NEGACE v návrhu NovaMorf počítá se zachováním stávající praxe (lemmatizace tvaru derivovaného negativním prefixem ne- tvarem bez tohoto prefixu) pouze u sloves.^^[76] U adjektiv a adverbií i dalších slovních druhů^^[77] tuto praxi navrhujeme změnit. Je-li POS=[AD] & lc=ne.*, přičemž počáteční řetězec ne- má negující význam, pak bude lemmatem tvar s ne- a hodnota NEG=N (nedobrý, nerad, nešťastný, nepřítelův, nešťastně, nepřátelsky, ...). Nemá-li počáteční řetězec negující význam, pak bude pochopitelně lemmatem tvar s ne- a hodnota NEG=A (jednak adjektiva a adverbia typu neurotický, neteřin, neurotizovaně, neurotizujícně, …, jednak negativa tantum, přičemž máme na zřeteli, že vymezení této kategorie výčtem na rovině morfologického slovníku není triviální^^[78]). V brněnském systému je atribut e[AN] NEGACE relevantní pro adjektiva, slovesa a adverbia k[256]. Domníváme se, že sjednocení nestojí v cestě významné překážky. Značkování kategorie stupeň v návrhu NovaMorf v porovnání s brněnským a pražským systémem Všechna adjektiva i adverbia v pozitivu bez ohledu na sémantické rysy, které bývají uváděny jako rozhodující pro pravidelné (víceméně paradigmatické) odvozování tvarů komparativu sufixy -í/-ší/-[eě]jší nebo slovnědruhovými charakteristikami -e/-ě/-eji/-ěji a superlativu prefixem nej-, mají mít podle návrhu NovaMorf hodnotu DEG=1, pravidelně i nepravidelně odvozené tvary budou mít hodnotu komparativu, resp. superlativu DEG=[23], viz podrobněji kapitoly věnované adjektivům a adverbiím. Jedná se o změnu oproti dosavadní pražské praxi, která považovala některé typy adjektiv a adverbií za explicitně nestupňovatelné (tag=Db.*), jiné za explicitně stupňovatelné (tag=Dg.*). Tato změna zcela odpovídá praxi brněnského systému, je jí inspirována. Návrh NovaMorf navíc zavádí hodnotu DEG=s pro deriváty typu sebe + komparativ. Takto tvořená slova jsou v brněnském systému dosud značkována atributem d s hodnotou 1. V pražském systému je praxe nekonzistentní. Návrh NovaMorf počítá rovněž s některými změnami v lemmatizaci. U adjektiv a adverbií druhého a třetího stupně od supletivních kmenů a u adjektiv a adverbií bez jednoznačného vztahu ke tvaru pozitivu navrhuje lemmatizaci tvarem komparativu (viz více v příslušných kapitolách). Domníváme se, že sjednocení nestojí v cestě významné překážky. Značkování kategorie Zkratka (ABR) v návrhu NovaMorf v porovnání s brněnským a pražským systémem Tato kategorie je v návrhu NovaMorf relevantní pro všechny slovní druhy. Má pouze jednu hodnotu, a to ABR=+, kteroužto hodnotu dostávají zkratky, ostatní slovní tvary nemají tuto hodnotu definovanou, mají tedy ABR=-. Zkratka může být libovolný slovní druh, viz více pasáž v kapitole Morfologické kategorie a jejich hodnoty. V brněnském systému zkratky byly dříve značkovány na rovině slovního druhu jako kA, v návrhu Jakubíček a kol., 2011 je uvedena hodnota A (zkratka) u obecného subklasifikačního atributu z. V pražském systému existují na 2. pozici značky pro hodnoty zkratka jako substantivum (;), adjektivum (.), číslovka (3), sloveso (~), adverbium (!). Domníváme se, že sjednocení nestojí v cestě významné překážky. Subklasifikace vlastní brněnskému systému Statistické charakteristiky Brněnský systém (Jakubíček a kol., 2011) pracuje s atributem statistická charakteristika ~ nabývajícím hodnoty frekvence na škále 0-9 (~[0123456789]). Nakolik je toto značkování v praxi zahrnuto, není z dostupných publikací patrné. Subklasifikace interpunkce V novém revidovaném tagsetu (Jakubíček a kol., 2011) se uvádí seznam hodnot pro subklasifikaci interpunkce (kI). Nakolik je toto značkování v praxi zahrnuto, není z dostupných publikací patrné. I návrh NovaMorf bude mít vlastní klasifikační praxi pro interpunkci (je pojata do širší kategorie Symboly), viz více v příslušné kapitole. Subklasifikace vlastní pražskému systému: značkování posesivního rodu a čísla (6. a 7. pozice) Pražský systém zavádí ve značkování kategorii posesivní rod (6. pozice) a posesivní číslo (7. pozice). Je relevantní pro posesivní zájmena a adjektiva derivovaná sufixy -ův, -in. Označuje rod a číslo (ne u všech adjektiv a zájmen) osoby/osob, jíž/jimž se přivlastňuje. V případě adjektiv mají tedy všechna adjektiva na -ův vyplněnu hodnotu mužský životný (M) a všechna na –in hodnotu ženský (F), hodnota posesivního čísla se nevyplňuje. U posesivních zájmen mají hodnotu rodu i čísla vyplněna pouze zájmena 3. osoby, přičemž se (z důvodů zjednodušení disambiguace) používá sdružených hodnot. Zájmena 1. a 2. osoby mají uvedenu pouze hodnotu čísla. V návrhu NovaMorf se od značkování posesivního rodu a čísla ustupuje. Subklasifikace vlastní návrhu NovaMorf bez zřetelné opory v odpovídajících značkách v brněnském a pražském systému Na tomto místě shrnujeme to, co je uvedeno v kapitole Morfologické kategorie a jejich hodnoty. Návrh NovaMorf pracuje s těmito kategoriemi: 1. Slovní druh – POS (viz výše) 2. Poddruh – SUB (viz výše) 3. Deixe – DEI (viz výše) 4. Vid – ASP (viz výše) 5. Zkratka – ABR (viz výše) 6. Rod – GEN (viz výše) 7. Číslo – NUM (viz výše) 8. Pád – CAS (viz výše) 9. Osoba – PER (viz výše) 10. Stupeň – DEG (viz výše) 11. Negace – NEG (viz výše) 12. Slovesný tvar – VRB (viz výše) 13. Jmenný tvar přídavných jmen – NOM (viz výše) 14. Typ agregátu – AGR (viz výše a rovněž v samostatné kapitole věnované agregátům) 15. Globální mutace – GMU (slouží k zachycení variantnosti ve všech tvarech paradigmatu, tj. ve všech tvarech spadajících pod variantní lemma v konceptu vícenásobného lemmatu) 16. Flektivní mutace – FMU (slouží k zaznamenání varianty, která má stejné lemma a tag, FMU mají tedy pouze ohebné slovní druhy, neohebné mají jenom GMU, výjimkou jsou adverbia, neboť u nich se koncept FMU využívá u variantnosti ve stupňování). V brněnském systému není žádná explicitní opora pro tagování vlastností, které má zohledňovat značkování GMU a FMU (viz podrobně Hlaváčová, 2009, nejnověji Hlaváčová, 2017). Navržený systém mutací odpovídá rozsáhlému množství variant, a to jak ortografických, tak hláskoslovných, morfologických a v neposlední řadě i stylových. Cílem je odstranit případy, kdy více různých tvarů dosud charakterizuje stejná kombinace lemmatu a značky (požadavek jednoznačného popisu), a co nejúplněji popsat varianty stejného typu stejně (požadavek konzistentnosti popisu). Cílem není hodnotící klasifikace. Údaj o tom, jak se ta která varianta má k dosavadní kodifikaci či k interpretacím variet národního jazyka, nemá být vložen do automatické morfologické analýzy, protože se netýká interpretace na rovině morfologické analýzy, ale interpretace na rovině jiné (nemusí přitom jít jen o rovinu jazykové kultury).^^[79] Navržená klasifikace GMU a FMU neodpovídá tudíž hodnocení stylistických/stylových variant ve stávajícím pražském systému, přestože se tuto klasifikaci snaží nahradit. Subklasifikace pomocí atributu w (stylistický příznak) prošla až do nového revidovaného tagsetu (Jakubíček a kol., 2011) beze změn, přestože omezenost takové klasifikace je všeobecně známa (viz Osolsobě, 2006, poznámka o převzetí hodnot atributu w ze SSJČ). Domníváme se ovšem, že v návrhu na jednotnou klasifikaci variant by bylo možné zohlednit některé postřehy obsažené v disertaci P. Šmerka (Šmerk, 2010), popřípadě značku var, kterou disponuje derivační analyzátor Derivancze (více Pala, Šmerk, 2015, s. 519). V případě sjednocování obou systému bude třeba postupovat ve vzájemné koordinaci, protože půjde o velmi složitý systém.^^[80] Závěr Máme za to, že brněnský systém je v zásadě kompatibilní s návrhem NovaMorf. Rovněž pražský systém, který se (spolu s brněnským) stal výchozím bodem celého projektu NovaMorf, je s ním v souladu. Tento text pokládáme za otevření diskuse o praktických řešeních, o kterých lze s ohledem na nástroje, které jsou na obou slovnících závislé, v budoucnosti rozumně uvažovat. Bibliografie Benko V. (2016): Tvorba webových korpusov a ich využitie v lexikografii. Bratislava, FF UK. Disertační práce. Hajič J. (2004): Disambiguation of Rich Inflection (Computational Morphology of Czech). Praha, Karolinum. Hajič J. – Hlaváčová J. (2016): MorfFlex CZ, LINDAT/CLARIN digital library at Institute of Formal and Applied Linguistics, Charles University in Prague, http://hdl.handle.net/11858/00-097C-0000-0015-A780-9. Hájková V. (2014): Analýza jmenných tvarů adjektiv a pasivních příčestí ve slovníku morfologického analyzátoru ajka. Brno, FF MU. (Nepublikovaná bakalářská práce pod vedením K. Osolsobě.) Hladká Z. a kol. (2005): Čeština v současné soukromé korespondenci. Dopisy, e-maily, SMS. Brno, Masarykova univerzita. 68 s. Masarykova univerzita. Hlaváčková D. – Sedláček R. (2006): Morfologické značkování korpusu soukromé korespondence. In Varia XIV. 1. vyd. Bratislava, Slovenská jazykovedná spoločnosť pri SAV, s. 371–379, 453 s. Hlaváčková D. – Osolsobě K. (2008): Morfologické značkování mluvených korpusů, zkušenosti a otevřené otázky. In: Kopřivová M., Waclawičová M. (eds.), Čeština v mluveném korpusu. 1. vyd. Praha, Nakladatelství Lidové noviny/ Ústav Českého národního korpusu, s. 105–114. Hlaváčková D. (2013): Korpusové zpracování korespondenčních textů: morfologické značkování. In: Hladká Z. a kol. (eds.), Soukromá korespondence jako lingvistický pramen. Vyd. 1. Brno, Masarykova univerzita. s. 19–31. Hlaváčová J. (2009): Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. Praha, UK. (Disertační práce.) Dostupná z: Hlaváčová J. (2017): Golden Rule of Morphology and Variants of Word forms. Jazykovedný časopis, 2017, roč. 68, č. 2, s. 136–144. Hvězdová B. (1999): Tvoření adverbií paradigmaticky odvozených od adjektiv na materiálu ČNK. Brno, FF MU. (Diplomová práce pod vedením K. Osolsobě.) Jakubíček M. – Kovář V. – Šmerk P. (2011): Czech Morphological Tagset Revisited. In: Horák A., Rychlý P. (eds.), Proceedings of Recent Advances in Slavonic Natural Language Processing 2011. Brno, Tribun EU, s. 29–42. (https://nlp.fi.muni.cz/raslan/raslan11.pdf) Osolsobě K. (1996): Algoritmický popis české formální morfologie a strojový slovník češtiny. Brno, FF MU. Disertační práce. Osolsobě K. (2006): Korpus soukromé korespondence (KSK) z hlediska morfologického značkování. Linguistica Brunensia, Brno, Masarykova Univerzita, A 54, č. 1, s. 187–201. Osolsobě K. (2007): Popis gramatických významů (hodnot) jednoduchých slovesných tvarů v anotacích českých (slovenských) korpusů (Tagging of Verb Forms in Czech (Slovak) Corpora). Linguistica Brunensia, Brno, Masarykova Univerzita, A 55, No 1, s. 201–218. Osolsobě K. (2007): Syntetické futurum v češtině – gramatiky, slovníky, korpusy. In: Přednášky a besedy ze XL. běhu LŠSS. 1. vyd. Brno, Masarykova univerzita, s. 131–144. Osolsobě K. (2008): Značkování a status některých gramatických kategorií v ČNK (syntetické futurum, stupňování adjektiv, neurčité číslovky a příslovce míry). In: Grammar & Corpora / Gramatika a korpus 2007. 1. vyd. Praha, Academia, s. 407–416. Osolsobě K. – Hlaváčová J. – Petkevič V. – Šimandl J. – Svášek M. (2017): Nová automatická morfologická analýza češtiny. Naše řeč, AV ČR, Ústav pro jazyk český, roč. 2017, č. 4, s. 225–234. Pala K. – Šmerk P. (2015): Derivancze — Derivational Analyzer of Czech. In: Král P., Matoušek V. (eds.), TSD 2015: Text, Speech, and Dialogue. Berlin – Heidelberg, Springer Verlag, s. 515–523. Dostupný z: . Pořízka P. – Schäfer M. (2009): MorphCon – A Software for Conversion of Czech Morphological Tagsets. In: Levická K., Garabík R. (eds.), NLP, Corpus linguistics, Corpus Based Grammar Research. Brno, Tribun, s. 292–301. Šmerk P. (2010): Towards Computational Morphological Analysis of Czech. Brno, FF MU. Disertační práce. Šmerk P. (2011): A New Data Format for Czech Morphological Analysis. In: Sojka P., Horák A. (eds.), Proceedings of the Fourth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2010. Brno, Tribun EU, s. 3–8. (https://nlp.fi.muni.cz/raslan/raslan10.pdf) ________________________________ ^^[1] Máme na mysli tu skutečnost, že nad brněnským i pražským slovníkem (daty popisujícími vlastnosti jazyka, které se odrážejí v lemmatizaci a tagování) pracuje v současnosti řada aplikací. Každý větší zásah do dat nutně spouští potřebu učinit odpovídající zásahy na mnoha dalších místech, víceméně všude, kde se s daty pracuje. Takové zásahy mohou vést k dočasnému znefunkčnění nástrojů na datech závislých, popřípadě mohou vést ke kolapsu těchto nástrojů. I v případě, že technická stránka celého problému bude natolik náročná, že nedojde ke shodě na sjednocení v popisu dat, měl by být popis co nejkompatibilnější. Také se domníváme, že už z hlediska širšího okruhu uživatelů nástrojů spojených s oběma systémy i systémem novým je žádoucí mít k dispozici informace o jejich vzájemných vztazích, společných rysech a rozdílech. Takové informace totiž do značné míry nejsou širší veřejnosti dostupné. ^^[2] K neshodám na rovině slovníku odkazujeme v jednotlivých kapitolách věnovaných slovním druhům. ^^[3] Mezi daty, která mají v návrhu NovaMorf POS=C a těmi, který brněnský systém značkuje jako k4 a pražský jako C, jsou dosti velké rozdíly (viz níže). Na tomto místě chceme poznamenat, že zachování slovního druhu číslovek, jehož delimitace je založena převážně na sémanticky motivovaných kritériích (morfologicky jde o slova s adjektivní, zájmennou i substantivní flexí, nebo o nesklonné výrazy), je dobré mít, přestože například v UD je značkování slov, která NovaMorf navrhuje klasifikovat jako číslovky, blízké brněnskému systému (viz níže a v kapitole věnované UD). Dobrým důvodem je například využití morfologického značkování nástrojem Sketch Engine v lexikografické praxi. Slovní profily číslovek mohou být při tvorbě slovníku většího rozsahu stejně důležitým objektem výzkumu jako slovní profily základových autosémantických slovních druhů (viz Benko, 2016 : 84). ^^[4] V brněnském systému mají tag=k4.* pouze číslovky určité základní (jeden, dva, tři, … včetně těch se substantivní flexí – sto, tisíc, milion, …), násobné (první, druhý, třetí, ...) a některé vztažené k celku (dvoje, patery, čtverý, ...). Dále mají značku k4.* slova (málo, mnoho, pár, ...) a zájmenné číslovky (tolik, kolik, ...), viz níže. Zásadně se brněnský systém liší ve značkování násobných číslovek. Slova derivovaná pravidelně od číslovek základních určitých postfixem krát jsou interpretována jako adverbia, mají značku k6.*. Podobně i další deriváty od základů číslovek určitých, tedy slova na .*ina, .*ice, .*násobný, .*násob, .*násobně. Naopak některé deriváty adverbiální povahy po.*é (potřetí, pošesté, ...) číslovkovou interpretaci mají. Důvodem tohoto řešení je mimo jiné i to, že slova od číslovkových základů se chovají jako substantiva, adjektiva, popřípadě adverbia, takže pro aplikace zaměřené na syntaktickou analýzu, které pracují s výsledky automatického morfologického značkování (s tagy), není třeba přetěžovat množstvím pravidel zohledňujících sémantické kritérium vymezení slovního druhu číslovek. ^^[5] Jako POS=V & SUB=b & VRB=K jsou v NovaMorf značkovány tvary bych, bys, by, …, viz níže. Návrh NovaMorf se tak liší od návrhu in Jakubíček a kol. 2011, podle nějž tyto tvary mají mít k9zY náhradou za dřívější kY.*mC.*. Viz níže. ^^[6] Jako POS=J & SUB=, & VRB=K jsou v NovaMorf značkovány tvary aby, kdyby. Tvary abych, abys, ..., kdybych, kdybys jsou značkovány jako agregáty tvořené spojkou a prézentním tvarem slovesa být, viz níže. Návrh NovaMorf se tak liší od návrhu in Jakubíček a kol. 2011, podle nějž tyto tvary mají mít k8zY náhradou za dřívější kY.*mC.*. Viz níže. ^^[7] Pro tuto kategorii sice neexistuje v brněnském systému adekvátní značkování. Přesto je v textu (Jakubíček a kol. 2011, s. 35) uvedena tabulka s převodem mezi značkami Google Universal Tagset a značkami brněnského systému, v níž značce X definované jako „other, foreign words, typos, abbreviations“ odpovídá značka k0, která je ovšem všude jinde v textu charakterizována jako značka slovního druhu citoslovce/interjections. V textu je značkám k9 a k0 věnován samostatný odstavec, v němž se hovoří o obtížné desambiguaci neohebných slovních druhů. Je ovšem třeba poznamenat, že v historii brněnského systému značka pro cizí slova v minulosti existovala. Šlo o značkování Korpusu soukromé korespondence (dále ksk), pro které byla vytvořena varianta morfologického analyzátoru ajka (Hlaváčková, Sedláček, 2006). V rámci ruční desambiguace založené na datech označkovaných touto variantou (viz Hladká a kol., 2005) byly zavedeny tagy pro cizí slova (více Osolsobě, 2006). Některým frekventovaněji užitým anglickým, francouzským, německým, slovenským, ruským aj. slovům v textech jsou přiřazeny následující značky: [tag=””], [tag=””], [tag=””], [tag=””]. ^^[8] Pro tuto kategorii neexistuje v brněnském systému adekvátní značkování. ^^[9] Značku pro nově zavedený slovní druh přiřazený ke slovnímu tvaru, který „vznikl z více slov (většinou různých slovních druhů) a určení jeho slovního druhu je problematické (příklady: zač, oň, byls)“ lze v brněnském tagsetu alespoň z části konstruovat. Tomuto slovnímu druhu odpovídá kombinace k., kde za “.” doplníme hodnotu pro slovní druh slova s volným morfem -s (příklady: hlavous/k1 ani nepohnul, zdrávas/k2 Maria, kteréhos/k3 zabil, druhýs/k4 nebyl, šels/k5 tam, tams/k6 nešel, žes/k8 ho neviděl) a značka bude obsahovat atribut subklasifikace z=S, viz níže. ^^[10] Jako POS=N a SUB=V budou značkována substantiva tvořená od sloves (s opěrným tvarem shodným s trpným příčestím) pravidelně a neomezeně produktivně sufixy -n-í/-t-í. ^^[11] V brněnském tagsetu ve starší verzi a technicky patrně i nyní lze dogenerovat značkování substantiv slovesných na ní/tí tvořených pravidelně od kmene shodného s kmenem pro tvoření n/t příčestí. Původně označoval derivační historii slova v brněnském tagsetu atribut r, který nabýval hodnot D. Byl odstraněn a je dostupný ze samostatně budované databáze, v níž jsou uloženy informace o derivaci (viz více Jakubíček a kol., 2011, s. 34). V případě převodu by šlo pouze o úpravy slovníku (viz poznámky v kapitolách věnovaných substantivům a adjektivům). V derivačním analyzátoru Derivancze mají substantiva na ní/tí značku k1verb (viz více https://nlp.fi.muni.cz/projects/derivancze/index.cgi a také Pala, Šmerk, 2015). ^^[12] Jako POS=N & SUB=C budou značkovány výrazy substantivní povahy pravidelně odvozené od základů číslovek určitých a kompozita s prvním členem číslovkovým (trojhvězda, pětiboj, šestihran, čtyřstěn, osmiválec, ...). Konkrétně feminina na -ka/-ička/-ovka (například jednička, čtyřka, čtverka, pětka, desítka, stovka, tisícovka), maskulina na -ák (například prvák, prvňák, druhák, třeťák, čtvrťák, čtvrták, páťák, pěťák, ...), maskulina na -(n)ík (například dvojník, troník, trojník), neutra na -če (názvy mláďat z vícečetných vrhů/porodů, například dvojče, trojče, vícerče, …) a konečně názvy jubileí pluralia tantum feminina na -iny (padesátiny, šestnáctiny, ...), která jsou ovšem homonymní s pl. tvary dílových číslovek, které budou podle návrhu NovaMorf značkovány jako POS=C & SUB=h & DEI=U a které bude třeba desambiguovat. (K jednotlivým lemmatům i k problémům desambiguace viz kapitola věnovaná substantivům.) ^^[13] Pro tuto kategorii neexistuje v brněnském systému adekvátní značkování. Domníváme se ovšem, že nejde o kategorii problematickou. V případě úprav slovníků bude nutné vycházet z toho, že substantivum s tímto poddruhem bude obsahovat číslovkový kořen. Těchto kořenů je omezený počet a možnosti automatické detekce jsou dosti dobré. ^^[14] SUB=0 budou mít substantiva, která nemají SUB=[VC]. ^^[15] Pro tuto kategorii neexistuje v brněnském systému adekvátní značkování. Jde ovšem jen o doplňkovou množinu těch substantiv, která nemají SUB=[VC]. Převod by tudíž, pokud by se řešil komplexně, neměl činit potíže. ^^[16] Slovo půl (spolu se slovy polovic, čtvrt) je v návrhu NovaMorf značkováno jako číslovka dílová určitá (POS=C & SUB=h & DEI=U). ^^[17] Jde o značku slova půl. V korpusu czTenTen12 je lemma půl značkováno buď jako substantivum (k1xPqP), nebo jako adverbium (k6eAd1qP). Navíc ještě existuje lemma půle (substantivum s tvary podle vzoru růže). ^^[18] Pro tuto kategorii neexistuje v návrhu NovaMorf adekvátní značkování. Domníváme se ovšem, že doplňování substantiv typu Novákovi(c), Hlaváčovi(c), Petkevičovi(c), Šimandlovi(c), Sváškovi(c) atd. by mohlo být spíše kontraproduktivní. V czTenTen12 není značka tag="k1.*xF.*" použita ani jednou a doklady mající ve značce gR (podle Jakubíček a kol., 2011 je xF “dědicem” gR) nesvědčí o tom, že by existovala nějaká rozumná desambiguace, která by odlišila posesivní adjektiva od substantivizovaných názvů skupin tvořících rodinu/příbuzné, viz níže. ^^[19] Značka je dědictvím dřívější značky kategorie rodu (gR) pro substantivizovaná posesiva typu Novákovi. Substantivizace adjektiv je širší problém, týká se řady produktivních typů adjektiv. V kapitole věnované adjektivům se popisují konkrétní návrhy řešení projektu NovaMorf. Návrh NovaMorf souzní s tvrzením: „Je třeba, aby pro každé slovo/slovní tvar mající obě interpretace (substantivní i adjektivní), existovala přísně ověřená korpusová evidence o výskytu obou případů. V opačném případě je třeba vybrat jedinou možnost.“ (Jakubíček a kol., 2011, s. 31) Slovníky není třeba v tomto směru masivně přegenerovávat a přetěžovat desambiguaci. ^^[20] SUB=U mají adjektiva pravidelně tvořená od substantiv (v podstatě pojmenování mužských a ženských osob) pravidelně a produktivně sufixy -ův/-in, viz více kapitola Adjektiva. ^^[21] Pro tuto kategorii neexistuje v brněnském systému adekvátní značkování. Vzhledem k tomu, že tvary adjektiv produktivního slovotvorného typu tvořených od životných maskulin a od feminin označujících živé bytosti sufixy -ův/-in byly v pražském i brněnském slovníku rozgenerovány automaticky od příslušných substantiv, domníváme se, že informaci o poddruhu by nebylo nesnadné do brněnského slovníku doplnit, a to tím spíše, že ve starší verzi tagsetu (Jakubíček a kol., 2011, s. 40) se v tabulce uvádí značky _,hF a _,hM, které derivační historii zachycují. Derivační charakteristiky byly přesunutu do samostatné databáze, nicméně k dispozici jsou. V případě převodu by bylo třeba sjednotit značkování slovníku, viz příslušná pasáž v kapitole Adjektiva. V derivačním analyzátoru Derivancze mají adjektiva na -ův/-in značku k2pos (viz více https://nlp.fi.muni.cz/projects/derivancze/index.cgi a také Pala, Šmerk, 2015). ^^[22] SUB=G mají adjektiva pravidelně tvořená od sloves (s opěrným tvarem 3. osoby plurálu prézentu) pravidelně a produktivně sufixy -(ou)-c-í/-(í)-c-í, viz více v kapitole Adjektiva. ^^[23] Pro tuto kategorii neexistuje v brněnském systému adekvátní značkování. Vzhledem k tomu, že tvary adjektiv produktivního slovotvorného typu tvořených od sloves sufixy -(ou)-c-í/-(í)-c-í byly v pražském i brněnském slovníku rozgenerovány automaticky od příslušných sloves, domníváme se, že informaci o poddruhu by nebylo nesnadné do brněnského slovníku doplnit. Původně označoval derivační historii slova v brněnském tagsetu atribut r, který nabýval hodnot D. Byl odstraněn a je dostupný ze samostatně budované databáze, v níž jsou uloženy informace o derivaci (viz více Jakubíček a kol., 2011, s. 34).V případě převodu by bylo třeba sjednotit značkování slovníku, viz příslušná pasáž v kapitole Adjektiva. V derivačním analyzátoru Derivancze mají adjektiva na oucí/ící značku k2proc (viz více https://nlp.fi.muni.cz/projects/derivancze/index.cgi a také Pala, Šmerk, 2015). ^^[24] SUB=M mají adjektiva pravidelně tvořená od sloves (s opěrným tvarem činného příčestí) pravidelně a produktivně sufixy -š-í/-vš-í, viz více v kapitole Adjektiva. ^^[25] Pro tuto kategorii neexistuje v brněnském systému adekvátní značkování. Vzhledem k tomu, že tvary adjektiv produktivního slovotvorného typu tvořených od sloves sufixy -š-í/-vš-í byly v pražském i brněnském slovníku rozgenerovány automaticky od příslušných sloves, domníváme se, že informaci o poddruhu by nebylo nesnadné do brněnského slovníku doplnit. Původně označoval derivační historii slova v brněnském tagsetu atribut r, který nabýval hodnot D. Byl odstraněn a je dostupný ze samostatně budované databáze, v níž jsou uloženy informace o derivaci (viz více Jakubíček a kol., 2011, s. 34). V případě převodu by bylo třeba sjednotit značkování slovníku, viz příslušná pasáž v kapitole Adjektiva. V derivačním analyzátoru Derivancze mají adjektiva na ší/vší značku k2rakt (viz více https://nlp.fi.muni.cz/projects/derivancze/index.cgi a také Pala, Šmerk, 2015). ^^[26] SUB=V mají adjektiva pravidelně tvořená od sloves (s opěrným tvarem shodným s trpným příčestím) pravidelně a produktivně sufixy -n-ý/-t-ý a dále (s opěrným tvarem činného příčestí) pravidelně a produktivně sufixem -teln-ý, viz více kapitola Adjektiva. ^^[27] Pro tuto kategorii neexistuje v brněnském systému adekvátní značkování. Vzhledem k tomu, že tvary adjektiv produktivního slovotvorného typu tvořených od sloves sufixy -n-ý/-t-ý byly v pražském i brněnském slovníku rozgenerovány automaticky od příslušných sloves, domníváme se, že informaci o poddruhu by nebylo nesnadné do brněnského slovníku doplnit. Původně označoval derivační historii slova v brněnském tagsetu atribut r, který nabýval hodnot D. Byl odstraněn a je dostupný ze samostatně budované databáze, v níž jsou uloženy informace o derivaci (viz více Jakubíček a kol., 2011, s. 34). V případě převodu by bylo třeba sjednotit značkování slovníku, viz příslušná pasáž v kapitole věnované adjektivům a také doplnit značku u adjektiv na .*telný. V případě úprav brněnského slovníku bude třeba zrevidovat přegenerování (viz více k tomuto tématu Jakubíček a kol., 2011, s. 32; Hájková, 2013). V derivačním analyzátoru Derivancze mají adjektiva na ný/tý značku k2rpas, krátké tvary – pasivní participia na n/t mají zanačku k2pas (viz více https://nlp.fi.muni.cz/projects/derivancze/index.cgi a také Pala, Šmerk, 2015). ^^[28] Jmenné tvary adjektiv, mezi nimi i některé případy krátkých příčestí trpných (viz kapitola věnovaná Adjektivům), byly značkovány na 2. pozici jako C (adjektivum, jmenný tvar). ^^[29] SUB=C budou mít adjektiva (deriváty tvořené sufixy -ový, -itý, jako dvojkový, dvojitý, … a zejména kompozita jako dvojsečný, dvojstranný, dvouhodinový, tříletý, čtyřprocentní) z číslovkových kořenů s výjimkou adjektivně skloňovaných číslovek řadových (první, druhý, třetí, pátý, stý, …), číslovek vztažených k celku (paterý, šesterý, desaterý, …) a kompozitních číslovek násobných (dvojnásobný, osminásobný, dvacetinásobný, ...). Podrobnější rozbor viz kapitola věnovaná číslovkám. ^^[30] Pro tuto kategorii neexistuje v brněnském systému adekvátní značkování. Domníváme se ovšem, že nejde o kategorii problematickou. V případě úprav slovníků bude nutné vycházet z toho, že adjektivum s tímto poddruhem bude obsahovat číslovkový kořen. Těchto kořenů je omezený počet a možnosti automatické detekce jsou dosti dobré. ^^[31] SUB=0 budou mít adjektiva, která nemají SUB=[UGMVC]. ^^[32] Pro tuto kategorii neexistuje v brněnském systému adekvátní značkování. Jde ovšem jen o doplňkovou množinu těch adjektiv, která nemají SUB=[UGMVC]. Převod by tudíž, pokud by se řešil komplexně, neměl činit potíže. ^^[33] V návrhu NovaMorf mají mít samostatnou značku (*) matematické operace (plus, minus/mínus, krát, děleno – neplést s děleno jako jmenným tvarem přídavného jména dělený, případně s adjektivním tvarem trpného příčestí od slovesa dělit). Předpokládáme, že jde o technickou záležitost, kterou by bylo možné společně řešit. ^^[34] V brněnském systému adekvátní značka není navržena. Je ovšem možné, že se s nějakým systémem značkování obdobných jevů počítá. ^^[35] U agregátů nemluvíme o poddruhu, protože dědí poddruhy všech svých složek. Typologie agregátů se značí pomocí kategorie Typ agregátu (AGR), viz kapitola věnovaná agregátům. ^^[36] Subklasifikaci xS mají v brněnském systému slovní tvary s volným morfémem s za sponu nebo auxiliár být. Ty také tvoří většinu jednotek (otevřená množina), které by podle návrhu NovaMorf měly mít POS=G. Kromě nich se v návrhu NovaMorf počítá se zájmennými agregáty, spřežkami tvořenými spojením předložky + krátkého tvaru zájmen on nebo předložky + zkráceného zájmena co(pak) (-č, -čpak), tedy lc="(oň|proň|doň|zaň|naň|veň)|((nač|zač|oč|več)|(nač|zač|oč|več)pak)". Tyto tvary jsou v brněnském systému značkovány buď jako adverbia, nebo nejsou rozpoznány (jsou jim pak patrně na základě guesseru přiřazeny interpretace značně různorodé a budící rozpaky). Bylo by dobré koordinovat jejich doplnění do slovníku s jejich značkováním, které by umožnilo převod mezi oběma systémy. Jedná se o slova, jejichž správná desambiguace by mohla vylepšit i výsledky automatické syntaktické analýzy a aplikací na ní závisejících (například rozpoznání relativního več, načpak, … jako tvarů, před nimiž předchází příslušná interpunkce. ^^[37] V pražském slovníku nebyly agregáty značkovány. Např. slovesné tvary s volným morfem -s zde mají bez odlišení tvarů bez tohoto morfému na druhé pozici značku [ps]. Mají ovšem vyznačen odpovídající význam osoby na 8. pozici. Totéž platí i pro některá další slova s volným morfem -s (např. spojku žes atd.). ^^[38] Slovo kolik můžeme z dobrých důvodů pokládat za základní číslovku i tázací zájmeno a slovo kolikátý za řadovou číslovku a tázací zájmeno. Podobně slovo tolik můžeme z dobrých důvodů pokládat za základní číslovku i za ukazovací zájmeno a slovo tolikátý za řadovou číslovku a ukazovací zájmeno. Zájmennými číslovkami se vyjadřuje vztah k množství. Plní stejné funkce (i syntaktické) jako zájmena. ^^[39] Zájmenná adverbia mají zájmenné kořeny a zájmenné funkce. ^^[40] Pražský systém značkuje samostatně stojící tvary nesvůj, nesvá, nesvé jako slovní druh adjektivum, detailní určení slovního druhu má toto „adjektivum“ společné s tvary tentam, totam. Tvar tatam je označkován XX (neznámé slovo). (Mezi doklady z korpusu SYN2000 jsme nalezli doklad ... kdo se chytne nesvé hvězdy ..., kde by snad mohlo jít o negaci posesivního zájmena svůj, nikoli o frazeologismus. (Doklad pochází z beletristického textu – Vaculíkova románu „Jak se dělá chlapec“. Z kontextu lze předpokládat význam chytne se cizí – té, která není jeho – hvězdy, nikoliv chytne se hvězdy, která není ve své kůži.) ^^[41] Tvar takýs může být tvarem taký+s, kde -s zastupuje tvar 2. os. pomocného slovesa být. (V korpusu SYN v7 jsou ovšem pouze doklady na užití ve frazeologickém spojení jakýs takýs). Zájmeno jakýs se ve významu jaký+ -s za 2. os. pomocného slovesa být okrajově objevuje. Nesoustavnosti se vyskytují i ve značkování tvarů odvozených od zájmena který. Značku tag=PZ.* mají tvary kterýs, kterás, kterés, kteréhos, kterémus, kterýms, ale tvary kterous, kterýhos, kterejchs, kterýchžs nejsou rozpoznány automatickou morfologickou analýzou (mají značku tag=X.*). ^^[42] Zařazení dvou lemmat (padesátitisíce a statisíce) je patrně řešením ad hoc. V návrhu NovaMorf je nejeden neurčitá číslovka základní (POS=C & SUB=z & DEI=N), nijeden je záporné zájmeno vymezovací/ostatní (POS=P & SUB=v & DEI=Z), nejednou je adverbium číslovkové (POS=D & SUB=C) a nijednou je adverbium číslovkové (POS=D & SUB=C). ^^[43] Lemma je interpretováno i jako adverbium. ^^[44] V kapitole věnované zájmenům je podrobněji popsáno zdůvodnění nezavedení homonymních tázacích a vztažných zájmen do slovníku. Stejné principy platí i pro zájmenná adverbia. ^^[45] Stejnou funkci spojovacích vztažných výrazů ovšem mohou plnit i agregáty se zájmennou složkou (nač, zač, več, oč, cos, očs, …, tedy POS=(R&P|P&V|R&P&V) AGR=[cPG]). Ty by pak měly mít DEI=T, a to jak v případech jako se ptáš? / říkal? / narážel?, tak v případech jako To, nikdo z nás nebyl připraven, byla moje reakce. / Ta z fotky, našla u Kitty v ložnici. / Kadára sháním, abych mu od Tebe vyřídil, mě žádal. .... Viz kapitoly věnované agregátům a zájmenům. ^^[46] Značku budou mít adverbia tvořená ustrnutím předložkových pádů adjektiv (nikoli zájmen, ta budou zařazena mezi zájmenná adverbia) a substantiv (nikoli číslovek určitých a číslovky neurčité mnoho, viz podrobně kapitola Číslovky). Pomocí této značky se zachycuje derivační historie (vznik příslovečné spřežky). Návrh směřuje k tomu, aby bylo možné propojit spřežky typu natvrdo s dvouslovnými adverbiálními výrazy typu na tvrdo, viz více kapitola věnovaná adverbiím. ^^[47] Pro tuto kategorii neexistuje v brněnském systému adekvátní značkování. ^^[48] Návrh NovaMorf u adverbií na rovině SUB značkuje vztah k vyjádření množství (slovnědruhový přesah s kategorií číslovek). Je to návrh restriktivní. SUB=C budou mít adverbia derivovaná pravidelně z adjektiv, která budou mít SUB=C (například adverbia jako trojitě, dvojkově, čtyřprocentně viz více kapitoly věnované číslovkám a adjektivům) a adverbiální užití slovnědruhově přesažných číslovek (mnoho) a substantiv (málo, moc). Pomocí SUB=C je řešen statut vybraných měrových adverbií (hodně) a měrových adverbií druhého a třetího stupně, která nelze vztáhnout k jednoznačnému tvaru pozitivu (více, méně). Jako POS=D & SUB=C nebudou označkovány ustrnulé tvary substantivního původu označující množství jako trochu, trošku, kapku, trošinku, kapičku, trošičku, … Některé z nich jsou označkovány v současnosti jak jako adverbia (tag=Db.*), tak jako substantiva. Podobné (např. spoustu) pouze jako substantivum. Návrh NovaMorf směřuje ke zjednodušení desambiguace, pro kterou neexistuje všeobecná shoda, a k tomu, aby značkování slov různých slovních druhů, která plní funkci kvantifikátorů, nezatěžovalo automatickou morfologickou analýzu problémy, které na rovinu morfologie striktně vzato nepatří. Tato slova budou buď substantiva (například: moře, hromada, kupa, spousta, …), nebo substantiva i adverbia, tedy substantiva, pokud se skloňují a rozvíjejí jméno a adverbia, pokud v ustrnulém tvaru rozvíjejí sloveso: dej mi vody a já ti pomůžu). ^^[49] V brněnském slovníku jsou jako tag=”k6.*tQ.*” (adverbia míry) značkována kupříkladu lemmata tak, hodně, velmi, moc, daleko, málo, trochu, dost, zcela, příliš, docela, velice, mnohem, většinou, takhle, takto, pomalu, tolik, trošku, … Návrh NovaMorf je v případě POS=D & SUB=C restriktivní a zahrnuje lemmata, jejichž výběr působí méně nesourodě. Ke kritice lingvistické adekvátnosti sémantické klasifikace adverbií v brněnském systému, viz Hvězdová 1999. ^^[50] POS=D & SUB=V budou mít adverbia derivovaná pravidelně z adjektiv, která budou mít SUB=V (například: nepřejícně, pohnutě, nepokrytě, pochopitelně, ... viz více kapitola Adjektiva). ^^[51] Pro tuto kategorii neexistuje v brněnském systému adekvátní značkování. Existovalo v něm ovšem značkování derivační historie slova. Původně byla značkována atributem r, který nabýval hodnot D. Byl odstraněn a je dostupný ze samostatně budované databáze, v níž jsou uloženy informace o derivaci (viz více Jakubíček a kol., 2011, s. 34).V případě převodu by bylo třeba sjednotit značkování slovníku. ^^[52] POS=D & SUB=0 mají adverbia, která nemají SUB=[PsCV]. ^^[53] Pro tuto kategorii neexistuje v brněnském systému adekvátní značkování. Jde ovšem jen o doplňkovou množinu těch adverbií, která nemají SUB=[PsCV]. Převod by tudíž, pokud by se řešil komplexně, neměl činit potíže. ^^[54] Jediný problém představuje sjednocení tvarů by, aby, kdyby, …, neboť v brněnském návrhu (Jakubíček a kol., 2011) se, alespoň se tak zdá, nepočítá s tím, že by ve značkách byly uvedeny atributy p (osoba) a n (číslo) s příslušnými hodnotami. Vzhledem k flexibilitě brněnského systému by ovšem dodání těchto informací do značky neměl být problém. K tomuto bodu viz níže a též příslušná kapitola Spojky a partie o kondicionálu v kapitole Morfologické kategorie a jejich hodnoty. ^^[55] Sdružená hodnota pro libovolný rod. ^^[56] Ženský (v singuláru) nebo střední (v plurálu). ^^[57] Mužský neživotný nebo ženský (obojí v plurálu). ^^[58] Mužský životný nebo neživotný. ^^[59] Sdružená hodnota pro libovolné číslo. ^^[60] Sdružená hodnota pro libovolný pád. ^^[61] Disjunkce hodnot pro nedesambiguovatelné kombinace pádu, například a: kolísání mezi 2. a 4. pádem (ve větě Užívá stavení, kde stavení lze interpretovat jako 2. pád (užívá hezkého stavení), nebo jako 4. pád (užívá hezké stavení), viz více v kapitole Substantiva. ^^[62] Ta jsou v návrhu NovaMorf značkována jako POS=A. Také v brněnském systému je snaha sjednotit značkování těchto tvarů s jim odpovídajícími dlouhými tvary adjektiv (viz Jakubíček a kol., 2011, s. 33). Interpretace krátkých tvarů (pasivních příčestí) byla totiž v brněnském slovníku masivně přegenerována, a to tak, že krátké tvary měly jak interpretaci k5, tak k2. ^^[63] Kategorie NOM ve vztahu ke slovesům je zavedena jako prostředek pro řešení společné lemmatizace krátkých (jmenných) a dlouhých (složených) tvarů adjektiv a tvarů slovesných příčestí trpných v krátké i dlouhé podobě pod několikanásobné lemma (například {schopný, schopen}, {hrdý, hrd}, {ukrytý, ukryt}, {pokáraný, pokárán}). Krátké (jmenné tvary) budou mít NOM=J, dlouhé tvary NOM=0. Tato kategorie bude relevantní pro adjektiva (zejména adjektiva tvořená ze sloves), zájmena ({sám, samý}), číslovky (tvary jmenné a složené u číslovek typu devatero/devaterý) a pro adverbia (ustrnulé jmenné tvary adjektiv v adverbiální funkci po předložce, například za studena). Tato kategorie nemá sice obdobu v brněnském systému, přesto je její ideové východisko kompatibilní s brněnským systémem. ^^[64] Včetně kondicionálových tvarů bych, bys, by, bychom, ... ^^[65] Stejně jako dosavadní morfologické systémy nezavádí ani NovaMorf další hodnoty kategorie pro iterativní slovesa, i když jsou, pokud je to možné, při generování slovníku pravidelně doplňována. Ve valenčním slovníku VALLEX (viz http://ufal.mff.cuni.cz/vallex), ale i v systému užívaném na Slovensku pro značkování SNK, jsou vidové dvojice zpracovány jako jedno slovníkové heslo. V morfologickém slovníku se takto nepostupuje: členy vidové dvojice se považují za dvě různá slova. Nově se zavádí, že kromě sloves se vid určuje u deverbativních přídavných jmen (těch, která mají SUB=V), např. spící, , usnuvší, i u deverbativních podstatných jmen, např. dělání (ASP=N), vydělání (ASP=D), ^^[66] V brněnském systému je vid kategorií relevantní pouze pro slovesa. Doplnit v rámci sjednocení se systémem NovaMorf kategorii vidu s příslušnou hodnotou i k substantivům a adjektivům, která jsou pravidelně generována od sloves, by patrně nemělo představovat vážný problém, protože jde o údaj doplnitelný z derivační historie lemmatu/tvaru. ^^[67] Brněnský systém nemá hodnotu pro obouvidová slovesa, viz Jakubíček a kol., 2011, s. 33. U těch sloves, která měla dříve aB, je nyní a[PI] a hodnota se desambiguuje. Návrh NovaMorf na rozdíl od brněnského systému a v souladu s pražským má pro obouvidová slovesa hodnotu ASP=O. ^^[68] V návrhu NovaMorf se počítá s tím, že PER=2 budou mít i agregáty s volným morfem s za tvar auxiliáru/ spony slovesa být, a také osobní a přivlastňovací zájmena. Osobní zájmena mají v brněnském systému atribut p a hodnotu příslušné osoby vyznačenu. U tvarů, které mají zS v brněnském systému atribut p ve značce chybí. Vzhledem k tomu, že jde vždy o druhou osobu singuláru, by sjednocení nemělo představovat náročný problém. K řešení rozporů v kategorii čísla u agregátů (například …. umyla tu hlavu, aby ses zbavila vší … , kde kterými je v plurálu a morf -s zastupuje slovesný tvar v singuláru), viz více v kapitole věnované agregátům. ^^[69] V brněnském systému byly dříve tvary bych, bys, by, bychom, byste, abych, …, kdybych, … značkovány jednotně, buď jako k5.*mC.* (by) nebo jako kY.*mC.* (aby, kdyby). V textu Jakubíček a kol., 2011 se uvádí, že tento stav má být zjednodušen, a to tak, že tvary aby, kdyby, ... budou značkovány jako podřadící spojky (k8zY) a tvary by, … jako částice (k9zY). Ze specifikace atributem zY bude patrné, že jde o kondicionál. Na značkování kategorie osoby i čísla se rezignuje. ^^[70] VRB=K bude mít kondicionálový slovesný tvar by a rovněž kondicionálová složka slovesného agregátu bych, bys, bychom, byste, ale i další substandardní tvary bysem, byjsem, bysi, byjsi, bysme, byjsme, byjste. Ty budou značkovány jako POS=V & SUB=b. VRB=K budou mít dále spojky aby, kdyby a substandardní dyby a rovněž i) spojková složka spojkového agregátu abych, abys, abychom, abyste a také substandardní tvary abysem, abyjsem, abysi, abyjsi, abysme, abyjsme, abyjste; ii) spojková složka spojkového agregátu kdybych, kdybys, kdybychom, kdybyste a také substandardní tvary (k)dybysem, (k)dybyjsem, (k)dybysi, (k)dybyjsi, (k)dybysme, (k)dybyjsme, (k)dybyjste, dybych, dybys, dybychom, dybyste. Ty budou značkovány jako POS=J & SUB=,. Ke značkování kategorie osoby a čísla (u víceznačného tvaru .*by) a k lemmatizaci a tokenizaci viz příslušné kapitoly. ^^[71] Tuto značku měly v pražském systému jednak tvary budu, budeš, …, jednak tvary syntetického futura sloves typu jít, jet, ... (pojedu,..., půjdu, ...). K doplnění slovníku i s ohledem na problémy s desambiguací viz Osolsobě, 2007 a také kapitola věnovaná slovesům. ^^[72] V brněnském systému mají tuto značku pouze tvary budu, budeš, ... Na tvary syntetického futura nebere brněnský systém na rovině tagu zřetel (ve značce je uvedeno mI). Problém je (v obou systémech) nevyřešen u lemmatizace homonymních dvojic typu: Pak otřu, olivovým olejem, ... × Dáda se vzbudil a pro Klárku, …, v obou případech je uvedeno lemma pomazat, což je ve druhém případě lingvisticky neadekvátní. Správné lemma mají tvary slovesa jít (půjdu), jet (pojedu), běžet (poběžím), …, informace o tom, že jde o budoucí čas, lze získat právě kombinací lemmatu a značky ([lc="po.*" & lemma!="po.*" & tag="k5.*mI.*"]). Uvedeným dotazem lze z korpusu czTenTen12 získat seznam 13 lemmat. Máme za to, že v uvedeném korpusu výskyt slovesných tvarů syntetického futura představuje mnohem větší počet lemmat. Náš seznam totiž čítá přes 100 lemmat a byl získán z korpusových dat a z internetu v době, kdy velké webové korpusy ještě nebyly k dispozici. Naše analýzy ukazovaly, že tvoření futura tímto způsobem není v češtině ničím neobvyklým, o čemž svědčí nejrůznější aktualizace, jako např. … potom rozhodnout jako s kerou to . … ve významu „s kým se budeš spolčovat“ (doklad pochází z Brněnského mluveného korpusu -bmk). ^^[73] Podle stavu značkování tvarů participií n/t-ových v korpusu czTenTen12 je slovník, s nímž pracuje použitý tagger masivně přegenerovaný. Desiderata formulovaná v článku Jakubíček a kol., 2011 i v Hájková, 2014, nenašla kulantně řečeno adekvátní odezvu. Idea zahrnout tvary pasivních příčestí pod lemma adjektivizovaného tvaru a značkovat je jako slovní druh adjektiv má oporu i ve značkování v derivačním analyzátoru Derivancze (více Pala, Šmerk, 2015), v němž dlouhé tvary mají značku k2rpas a krátké/jmenné k2pas. ^^[74] Hodnotu VRB=T mají krátké tvary pasivních příčestí, které podle návrhu NovaMorf jsou lemmatizovány v naprosté většině případů tvarem dlouhým (.*[nt]ý) a značkovány jako POS=A & SUB=V & NOM=J, viz více kapitola Adjektiva. ^^[75] Tato značka je k dispozici pouze v korpusech: SYN2006PUB, SYN2005, SYN2000, ORWELL. ^^[76] Není to ovšem jediné možné řešení, neboť například Slovenský národní korpus (SNK) lemmatizuje tvary sloves s prefixem ne- tvarem negativního infinitivu. Toto řešení má dobrý důvod pro aplikace zaměřené na tvorbu slovníku, které využívají výsledků automatické morfologické analýzy (například Sketch Engine), neboť slovní profily dvojic lišících se v prefixu ne- bývají z hlediska lexikografického popisu odlišné (viz Benko, 2016). I tento fakt byl motivací námi navrhované změny. Z hlediska potřeb pravidlové desambiguace (obecnost pravidel) je ovšem dobré zachovat u sloves lemmatizaci negovaných tvarů lemmatem bez negujícího prefixu. ^^[77] Máme na mysli například deverbativní substantiva jako nepřítel, neplavec, neřidič, neplatič, nemakač, …,ale i další (spojení typu hlava nehlava). U zájmen, zájmenných adverbií a patrně i některých číslovek, která mají DEI=Z (záporné), je NEG=-, takže například žádný i nižádný se nebudou lišit značkou na rovině NEG. Naopak číslovky nejeden, nemnoho budou mít NEG=N. ^^[78] Podrobněji viz příslušné kapitoly věnované adjektivům a příslovcím. ^^[79] Užívá-li se substandardních tvarů v beletristické části obecného korpusu řady SYN, jde o jiný stylový příznak a jiný vztah ke kodifikaci, než když jsou tytéž varianty užity v lokální publicistice, v interview, soukromé korespondenci, neřkuli jako příklady v odborném textu (mnoho okrajových jazykových variant doložených v některém z korpusů řady SYN pochází z lingvistických textů, jde tedy o metatextové užití). Domníváme se, že pro výzkum zaměřený na uvedené jevy v jazyce lze kombinovat strukturní značkování (typ textu) a navržené značkování variant pomocí mutací. Jakákoliv další interpretace užité varianty je možná až na základě posouzení širšího kontextu (typu textu), a tudíž dalece přesahuje rámec automatické morfologické analýzy. ^^[80] Motivací pro zavedení kategorie GMU a FMU je snaha o realizaci zlatého pravidla morfologie (Hlaváčová, 2009). Jde o pravidlo, které se týká speciálního případu víceznačnosti. Tento případ není problematický pro desambiguaci při analýze textu nástroji NLP. Problém desambiguace se totiž netýká jistého typu víceznačného přiřazení, které představuje problém zejména v aplikacích zaměřených na syntézu textu (např. strojový překlad). Jedná se o případy, kdy více různým slovním tvarům je přiřazena jedna a táž interpretace na rovině lemmatu a tagu. Například slovní tvary pro lexém s významem „malé okno“ v instrumentálu singuláru mohou být realizovány následujícími (celkem osmi) textovými slovy: okénky, okýnky, vokénky, vokýnky, okénkama, okýnkama, vokénkama, vokýnkama. S využitím dosavadního pražského tagsetu (totéž platí i pro tagset brněnský) lze jednotlivé tvary popsat tagy lišícími se hodnotou na pozici 15 (varianta, stylový příznak), v brněnském systému je k dispozici atribut w. Projdeme-li ovšem nabízené hodnoty 15. pozice (popřípadě velmi podobnou nabídku u atributu w v brněnském systému), zjistíme, že není možné odpovídajícím způsobem rozdíly uvedených tvarů jednoznačně popsat tak, aby se každý z osmi tvarů lišil dvojicí lemma+tag. Navíc neexistuje jednotná a dodržovaná instrukce, kterou by se řídila lemmatizace variantních tvarů odpovídajících jednomu lexému. Bez takové instrukce a bez rozumněji navrženého tagsetu jsou výsledky automatického zpracování jazyka nejednoznačné, což může vadit zejména při některých aplikacích využívajících automatickou syntézu. Např. při strojovém překladu se na základě jedné dvojice lemma+tag vytvoří více slovních tvarů a bez přesnějšího popisu, který by je rozlišoval, není možno stanovit kritéria pro správný výběr jednoho. Požadavek jednoznačné interpretace lemmatu a tagu (pracovně nazvaný „zlaté pravidlo morfologie“) má být zajištěn právě zavedením kategorie GMU a FMU v návrhu NovaMorf. ________________________________ Doplněno nijeden. JK doplnil do zájmen. Odzeleňuji.