PLIN063_5 Algoritmický popis morfologie osolsobe@phil.muni.cz Vybrané problémy lemmatizace https://wiki.korpus.cz/doku.php/cnk:syn2020:lemmatizace •grafické varianty (konzistence značkování variant) •variantnost reprezentativního tvaru (nom.sg. a infinitiv) •lemmatizace tvarů komparativu, superlativu a deriváty typu sebe+komparativ •negace a negativa tantum (skrývaný, utuchající, ryzí, vídaný) •lemmatizace sólo tvarů v idiomech - problém Sublemmata jako synonymní varianty napříč celým paradigmatem •Základní variantnost. Ortografická a/nebo hlásková alternace je platná na všech pozicích paradigmatu. Příklady: •ortografická variantnost, zejména ve slovech cizího původu: s/z (filozof: filozof/filosof; organismus: organismus/organizmus), o/ó (citron: citron/citrón), t/th (teolog: teolog/theolog) a další změny (camping: camping/kempink; lobbista: lobbista/lobista; tsunami: tsunami/cunami; rádio: rádio/radio; brífink: brífink/briefing aj.) •hlásková variantnost: ý/ej (mýdlo: mýdlo/mejdlo), í/ej/é (vylézat: vylézat/vylízat/vylejzat) a další změny (seškrábat: seškrábat/seškrabat; dolík: dolík/ďolík; přilba: přilba/přílba aj.) •variantnost v použití spojovníku: (email: email/e-mail; gore-tex: gore-tex/goretex); variantní sublemmata s alternací spojovníku jsou uvedena ve zvláštním seznamu. •speciálním případem jsou alternace tvarů deverbativních adjektiv: (stažený: stažený/stáhnutý); tato variantní sublemmata jsou uvedena ve zvláštnímu seznamu. • dotaz na tvary lišící se variantou o/ó seznam lemmat/sublemmat varianty s ý/ej varianty s ý/ej lemma/sublemma ý/ej variantnost reprezentativního tvaru •Hláskoslovná variantnost (týká se celého paradigmatu) •Hláskoslovná variantnost (netýká se celého paradigmatu – většinou slovesa) •Morfologická variantnost (týká se celého paradigmatu) •Morfologická variantnost (netýká se celého paradigmatu) • Hláskoslovná variantnost (týká se celého paradigmatu) Hláskoslovná variantnost (týká se celého paradigmatu) • Sledujme nesrovnalosti Hláskoslovná variantnost (netýká se celého paradigmatu – většinou slovesa) Morfologická variantnost (týká se celého paradigmatu) •Kolísání v rodě •Přechody mezi třídami se zachováním kompletního souboru tvarů identifikovatelného podle třídy a vzoru Kolísání v rodě Přechody mezi třídami se zachováním kompletního souboru tvarů identifikovatelného podle třídy a vzoru Sublemmata jako synonymní varianty v části paradigmatu •Část tvarů substantiva má odlišný rod (např. akuzativ sg. životný u neživotných maskulin) •Přechody mezi třídami bez zachování kompletního souboru tvarů identifikovatelného podle třídy a vzoru •Sublemma zastupuje hláskovou nebo morfologickou alternaci, která je platná na pozici lemmatu a obvykle i na části dalších pozic v paradigmatu. Na pozicích, kde alternace není, se anotuje sublemma, které se rovná lemmatu: •Příklady variantních sublemmat u sloves: •alternace v infinitivech a minulém příčestí (myslet: myslet/myslit); seznam sloves s touto alternací je uveden na zvláštní stránce •alternace v infinitivech (péci: péci/péct/píct; být: být/bejt); seznam sloves s alternací pouze infinitivu je uveden na zvláštní stránce •kombinované alternace v infinitivech a dalších částech paradigmat (lít: lít/lejt; obléknout: obléknout/obléci/obléct/oblíknout/oblíct/vobléknout/vobléci/vobléct/voblíct); seznam sloves s dalšími kombinacemi alternací je uveden na zvláštní stránce • • Přechody mezi třídami bez zachování kompletního souboru tvarů identifikovatelného podle třídy a vzoru ??? ??? Substantivum má více tvarů nominativu •kolísání mezi vzory růže/píseň •https://wiki.korpus.cz/doku.php/cnk:syn2020:seznamy:substantiva_castecna_paradigmata_sublemmata#va riantni_sublemmata_u_neuter •Sledujte seznamy a doplňte chybějící • podobně např. země/zem Je seznam úplný? [vt]émě Existují substantivní varianta hloub/hloubě? Analogicky k výš/výše, níž/níže, šíř/šíře. •Houdek rozehrál na Šůchu a ten z hloubě pole vystřelil a trefil se. •Zardí se a zvolna padá, padá v neskončenou hloub, hlouběj v chuť, tu mou, se hříží sladkost svoji uhodnout. •Nám však je dáno v přístavu nespočinout, tratí se, klesají v bolestech lidé slepě od jedné chvíle k druhé, jak vodopád ze skály vržený k skále, po léta dlouhá v nejistou hloub. •Pak dělila nás mořská hloub, tak dávno, dávno již. lemma=on & sublemma=von lemma=osm Sublemma a stupňování tvary sebe.*í porovnejte - dříve sublemma a negace adjektiv a adverbií sublemma jmenných tvarů adjektiv ustrnulé tvary v idiomech a otázka lemmatizace Vícenásobné lemma agregátů (https://wiki.korpus.cz/doku.php/cnk:syn2020:agregat ) https://wiki.korpus.cz/doku.php/cnk:syn2020:seznamy:deverbativni_adj_sublemmata •Na této stránce naleznete seznamy variantních deverbativních adjektiv, která (v případě výskytu v korpusu) nesou vlastní sublemma a přitom tato jejich variantnost není pouhým odrazem plné variantnosti u sloves; jejich alternace odpovídá variantnosti na pozici trpného participia. •Zaznamenány jsou dvojice vycházející z hláskové/morfologické variantnosti tvaru pasivního participia (brzděný/bržděný, vytažený/vytáhnutý), viz 1. sekce, nebo dvojice reflektující částečně variantní paradigmata (posekaný/posečený, svlečený/svléknutý), viz 2. sekce. •Nejsou zde však uvedeny dvojice lemmat/sublemmat, u nichž je plná analogie mezi tvarem adjektiva a slovesa (oškrábaný/oškrabaný ~ oškrábat/oškrabat, zadýchaný/zadejchaný ~ zadýchat/zadejchat). Závěr •Lemmatizace se v korpusu SYN2020 velmi zlepšila •Přesto dosud existují drobné nesrovnalosti •Na vylepšeních se stále pracuje