Homonymní tvary proprií na slav/slava jako výzva pro pravidlovou desambiguaci Klára Osolsobě osolsobe@phil.muni.cz slav/slava/slavy • Substantiva jako Bohuslav, Boleslav, Borislav, Bořislav, Břetislav, Budislav, Domaslav, Jaroslav, Miroslav, Přibyslav, Soběslav, Sulislav, Svatoslav, Vladislav, Vlastislav, Vratislav, Zbraslav, Zbyslav, Zdeslav, Zdislav mají jak interpretaci antroponym (maskulin životných), tak oikonym (feminin) a většina má protějšky mezi femininy antroponymy na slava. • Chyby v pokrytí slovníku MorfFlex ponecháme stranou (připravujeme do článku). • Chyby v desambiguaci homonymních tvarů a pravidla pro jejich odhalení. Jestliže word="[[:upper:]].*slav", pak : • a) lemma=".*slav" & tag="NNFS[14].*" • b) lemma=".*slav" & tag="NNMS1.*" • c) lemma=".*slava" & tag="NNFP2.*" • Jestliže word="[[:upper:]].*slava", pak • d) lemma=".*slav" & tag="NNMS[24].*" • e) lemma=".*slava" & tag="NNFS1.*" • Jestliže word="[[:upper:]].*slavy", pak • mohou nastat tyto případy: • f) lemma=".*slav" & tag="NNMP[47].*" • g) lemma=".*slava" & tag="NNF(S2|P[14].*" Tabulka Desambiguace • Den s Mírou ve Veltrusech sobota 10 . března Veltruští zámečtí zvou všechny Miroslavy, Míry i Mirky, aby oslavili svůj svátek poněkud netradičně. Pokud jste nositelem/nositelkou jména Miroslav / Miroslava, přijeďte do Veltrus a vydejte se na komentovanou prohlídku s názvem Váhy, míry, závaží na zámku vám ukáží … [word="[[:upper:]].*(slav|slava)" & lemma! ="oslava"] • 3 716 726 výskytů tvarů sledovaných proprií • Chyby v desambiguaci (není jich moc, ale objevíme je poměrně snadno) • • • • • Je možná pravidlová desambiguace? • Kolokace a víceslovná pojmenování, která lze zařadit do databáze LEMUR (Mladá Boleslav, Bohuslav Martinů, …) • Fráze: .* slav .*ová • Návrh pravidel desambiguace proprií na slav/slava v koordinovaných skupinách (1-6) • Ověření možnosti pravidel desambiguace proprií na slav v kontextu vybraných substantiv označujících místo/sídlo (7) • Ověření možnosti pravidel desambiguace proprií na slav v kontextu substantiv označujících funkce (předseda, trenér, mluvčí, ...) (8) • Řada antroponym a řada oikonym jako další případy koordinace • Ověření možnosti pravidel desambiguace proprií zakončených na -slav v kontextu tvarů značkovaných jako l-ová příčestí Kolokace, které lze zařadit do databáze Lemur • Bohuslav Martinů • Jaroslav Seifert • Miroslav Horníček • Miroslav Donitil • Miroslav Kalousek • …. • Mladá Boleslav • Stará Boleslav [word="[[:upper:]].*slava" & tag! ="..FS1.*"] [word="[[:upper:]].*ová"] Jediný případ správné desambiguace • ... Snímky : Karel Čáslava Nová dětská hřiště jsou již v provozu. • Vzhledem k tomu, že k příjmení Čáslava by nemělo být ve slovníku uvedeno jako femininum antroponymum Čáslava, ale pouze jako maskulinum Čáslava a femininum oikonymum Čáslav, tvar by neměl být předmětem desambiguace, protože typ předseda nemá homonymní tvar na –a. 1. [word="[[:upper:]].*slav"& tag="NN(MS1|FS1|FS4|FP2).*"] • V případě že levý kontext <-2,-1> je • [word="[[:upper:]].*"][lc="a"] • KWIC je • [word="[[:upper:]].*slav"] • a pravý kontext <1,1> je • [word="[[:upper:]].*ovi"] • pak platí, že • [word="[[:upper:]].*slav"& tag="NNMS1.*" & lemma="[[:upper:]].*slav"] 1417 chyb v desambiguaci v syn v8 [word="[[:upper:]].*"] [lc="a"] [word="[[:upper:]].*slav"& tag!="..MS1.*"] [word="[[:upper:]].*ovi"] 1a [word="[[:upper:]].*slav"& tag="NN(MS1|FS1|FS4|FP2).*"] • pak v případě že levý kontext <-3,-1> je • [word=".*rodiče|.*manželé"][word="[[:upper:]].*"][lc="a"] • KWIC je • [word="[[:upper:]].*slav"] • a pravý kontext <1,1> je • [word!="[[:upper:]].*ovi"] • pak platí, že • [word="[[:upper:]].*slav"& tag="NNMS1.*" & lemma="[[:upper:]].*slav"] 212 chyb [lc=".*rodiče|.*manželé"][word="[[:upper:]].*"][lc="a"] [word="[[:upper:]].*slav"&tag!="..MS1.*"][word!="[[:upper:]].*ovi"] Všimněme si problémů s rodiči • S tím jsme ale nesouhlasili a trvali na tom , že začne chodit do základní školy a teprve když se ukáže , že to nepůjde , pak jej dáme na školu zvláštní , " popisují rodiče Marie a Jaroslav. • rodiče (M+J) Marie je tvar nominativu a Jaroslav je NNMS1.* • Mariiny rodiče a Jaroslav Marie je tvar genitivu a Jaroslav je NNMS1.* • ??? Mariiny rodiče, kteří jsou zároveň rodiči nějakých Jaroslav Marie je tvar genitivu a Jaroslav je tvar lemmatu Jaroslava v genitivu plurálu, takže pravidlo deklarované výše neplatí. Všimněme si problémů s rodiči • Radují se z ní rodiče Martina a Ladislav i sestřička Markétka z Mistrovic. • rodiče (M+L) Martina je tvar nominativu a Ladislav je NNMS1.* • (Martinovy rodiče) a Ladislav Martin je tvar genitivu a Ladislav je NNMS1.* • ??? Martinovy rodiče, kteří jsou zároveň rodiči nějakých Ladislav Martin je tvar genitivu a Ladislav je tvar lemmatu Jaroslava v genitivu plurálu, takže pravidlo deklarované výše neplatí. • • 2 [word="[[:upper:]].*slav"& tag="NN(MS1|FS1|FS4|FP2).*"] • v případě že pravý kontext <1,3> je • [lc="a"] [word="[[:upper:]].*"] [word="[[:upper:]].*ovi"] • pak platí, že • [word="[[:upper:]].*slav"& tag="NNMS1.*" & lemma="[[:upper:]].*slav"] 137 chyb [word="[[:upper:]].*slav" & tag!="..MS1.*"] [lc="a"] [word="[[:upper:]].*"] [word="[[:upper:]].*ovi"] 2a [word="[[:upper:]].*slav"& tag="NN(MS1|FS1|FS4|FP2).*"] • v případě, že levý kontext <-1,-1> je • [lc=".*rodiče|.*manželé"] • KWIC je • [word="[[:upper:]].*slav"] • a pravý kontext <1,3> je • [lc="a"] [word="[[:upper:]].*"] [word!="[[:upper:]].*ovi"] • pak platí, že • [word="[[:upper:]].*slav"& tag="NNMS1.*" & lemma="[[:upper:]].*slav"] 1 chyba [lc=".*rodiče|.*manželé"][word="[[:upper:]].*slav" & tag!="..MS1.*"] [lc="a"] [word="[[:upper:]].*"] [word!="[[:upper:]].*ovi"] 3 [word="[[:upper:]].*slav"& tag="NN(MS1|FS1|FS4|FP2).*"] • v případě že levý kontext <-2,-1> je • [word="[[:upper:]].*" & tag="...S1"][lc="a"] • KWIC je • [word="[[:upper:]].*slava"] • a pravý kontext <1,1> je • [word="[[:upper:]].*ovi"] • pak platí, že • [word="[[:upper:]].*slava"& tag="NNFS1.*" & lemma="[[:upper:]].*slava"] 4 chyby [word="[[:upper:]].*" & tag="...S1.*"][lc="a"] [word="[[:upper:]].*slava" & tag!="..FS1.*"][word="[[:upper:]].*ovi"] Problém desambiguace • Takto specifikovaný dotaz odhaluje pouze některé chyby v desambiguaci v okolí slova na .*slava. Je-li totiž chyba v desambiguaci (slovo v nominativu singuláru je interpretováno chybně), pak chybu uvedeným dotazem neodhalíme. • … Zpracovali Miroslav /Miroslav/NNFS4-----A----- a /a/J^-------------- Jaroslava /Jaroslav/NNMS4-----A----Prchalovi … • … Prosíme , poraďte ! Václav /Václava/NNFP2-----A----- a /a/J^-------------- Blahoslava /Blahoslav/NNMS2-----A----Pajurkovi …. 3a [word="[[:upper:]].*slav"& tag="NN(MS1|FS1|FS4|FP2).*"] • • • • • • • • v případě že levý kontext <-3,-1> je [lc=".*rodiče|.*manželé"][word="[[:upper:]].*" & tag="...S1"][lc="a"] KWIC je [word="[[:upper:]].*slava"] a pravý kontext <1,1> je [word!="[[:upper:]].*ovi"] pak platí, že [word="[[:upper:]].*slava"& tag="NNFS1.*" & lemma="[[:upper:]].*slava"] 0 chyb [lc=".*rodiče|.*manželé"][word="[[:upper:]].*"&tag="...S1.*"][lc="a"] [word="[[:upper:]].*slava"&tag!="..FS1.*"][word!="[[:upper:]].*ovi"] Problém desambiguace (a jeden z mála dokladů na genitivní postponovaný přívlastek substantiva rodiče) • Takto specifikovaný dotaz odhaluje pouze některé chyby v desambiguaci v okolí slova na .*slava. Je-li totiž chyba v desambiguaci (slovo v nominativu singuláru je patrně, nikoli nutně interpretováno chybně), pak chybu uvedeným dotazem neodhalíme. • … Nevěsta se obléká a netrpěliví rodiče /rodič/NNMP1----A----- Lucie /Lucie/NNFS1-----A----- a /a/J^-------------Stanislava /Stanislava/NNFS1-----A----- čekají … • … syna Miroslava Zemana, …, odvezli rodiče Iveta a Miroslava … Problémy s rodiči • Máme-li totiž kolokaci rodiče X a .*slava, pak X může být jak femininum, tak maskulinum. • Problém nastane, je-li tvar před a víceznačné femininum skloňované podle typu růže, (homonymní tvar nominativ/genitiv) • a) Mariin[iy] a .*slavov[iy] rodiče Marie je tvar genitivu a Jaroslava je NNMS2.* • b) Mariini rodiče a žena jménem .*slava Marie je tvar genitivu a Jaroslava je NNFS1 • c) Mariiny rodiče/Ak. a .*slav Marie je tvar genitivu a Jaroslava je NNMS4.* • d) rodiče/Nom. jménem Marie a .*slava (stejnopohlavní pár) Marie je tvar nominativu a Jaroslava je NNFS1.* Problémy s rodiči • Máme-li totiž kolokaci rodiče Ráchel a .*slava, • a) Ráchlein[iy] a .*slavov[iy] rodiče Ráchel je tvar genitivu a .*slava je NNMS2.* • b) Ráchelini rodiče a žena jménem .*slava Ráchel je tvar genitivu a .*slava je NNFS1.* • c) Rácheliny rodiče a muže .*slava Ráchel je tvar genitivu a .*slava je NNMS4.* • d) rodiče (akuzativ) jménem Ráchel a muže .*slava Ráchel je tvar akuzativu a .*slava je NNMS4.* • e) rodiče (nominativ) jménem Ráchel a žena .*slava (stejnopohlavní pár) Ráchel je tvar nominativu a .*slava je NNFS1.* • Problémy s rodiči • Máme-li totiž kolokaci rodiče Jiřího a .*slava, pak • a) Jiřího a .*slavov[iy] rodiče Jiřího je tvar genitivu a .*slava je NNMS2.* • b) Jiřího rodiče (nom.) a žena jménem .*slava Jiřího je tvar genitivu a .*slava je NNFS1.* • c) Jiřího rodiče (ak.) a muže jménem .*slav Jiřího je tvar genitivu a .*slava je NNMS4.* • d) rodiče (ak.) Jiří (ak.) a .*slav (ak.) (stejnopohlavní pár) Jiřího je tvar akuzativu a .*slava je NNMS4.* 4 [word="[[:upper:]].*slav"& tag="NN(MS1|FS1|FS4|FP2).*"] • v případě že pravý kontext <1,3> je • [lc="a"] [word="[[:upper:]].*"] [word="[[:upper:]].*ovi"] • pak platí, že • [word="[[:upper:]].*slava"& tag="NNFS1.*" & lemma="[[:upper:]].*slava"] 113 chyb [word="[[:upper:]].*slava" tag!="..FS1.*"][lc="a"] [word="[[:upper:]].*"& tag="...S1.*"][word="[[:upper:]].*ovi"] Problém desambiguace • Takto specifikovaný dotaz odhaluje pouze některé chyby v desambiguaci v okolí slova na .*slava. Je-li totiž chyba v desambiguaci (slovo v nominativu singuláru je interpretováno chybně), pak chybu uvedeným dotazem neodhalíme. • … radují její rodiče Miroslava /Miroslav/NNMS4-----A----- a /a/J^-------------- Vladislav /Vladislav/NNFS4-----A----- Brožkovi … • … Jaroslava /Jaroslav/NNMS2-----A----- a /a/J^-------------- Bohumil /Bohumila/NNFP2-----A----- Říhovi, kteří … • … rodiče Stanislava /Stanislav/NNMS2-----A----- a /a/J^-------------Jiří /Jiří/NNMS3-----A---2- Bendíkovi ….. • 4a [word="[[:upper:]].*slav"& tag="NN(MS1|FS1|FS4|FP2).*"] • v případě že levý kontext <-1,-1> je • [lc=".*rodiče|.*manželé"] • KWIC je • [word="[[:upper:]].*slava"] • a pravý kontext <1,3> je • [lc="a"] [word="[[:upper:]].*"] [word!="[[:upper:]].*ovi"] • pak platí, že • [word="[[:upper:]].*slava"& tag="NNFS1.*" & lemma="[[:upper:]].*slava"] 64 chyb [lc=".*rodiče|.*manželé"][word="[[:upper:]].*slava"&tag! ="..FS1.*"][lc="a"][word="[[:upper:]].*"& tag="...S1.*"][word! ="[[:upper:]].*ovi"] Chyby v desambiguaci • Takto specifikovaný dotaz odhaluje pouze některé chyby v desambiguaci v okolí slova na .*slava. Je-li totiž chyba v desambiguaci (slovo v nominativu singuláru je interpretováno chybně), pak chybu uvedeným dotazem neodhalíme. • … Radují se z něj manželé /manžel/NNMP1-----A----- Zdislava /Zdislav/NNMS2-----A----- a /a/J^-------------- Yassine /Yassin/NNMS5-----A----- z Ústí nad Orlicí … je tvar Yassine • 5 [word="[[:upper:]].*slav"& tag="NN(MS1|FS1|FS4|FP2).*"] • v případě že levý kontext <-2,-1> je • [word="[[:upper:]].*" & tag="...S4.*"][lc="a"] • KWIC je • [word="[[:upper:]].*slava"] • a pravý kontext <1,1> je • [word="[[:upper:]].*ovy"] • pak platí, že • [word="[[:upper:]].*slava"& tag="NNMS4.*" & lemma="[[:upper:]].*slav"] 22 chyb [word="[[:upper:]].*" & tag="...S4.*"][lc="a"] [word="[[:upper:]].*slava"& tag!="..MS4.*"][word="[[:upper:]].*ovy"] Chyby v desambiguaci • Takto specifikovaný dotaz odhaluje pouze některé chyby v desambiguaci v okolí slova na .*slava. Je-li totiž chyba v desambiguaci (slovo v nominativu singuláru je interpretováno chybně), pak chybu uvedeným dotazem neodhalíme. • 5a [word="[[:upper:]].*slav"& tag="NN(MS1|FS1|FS4|FP2).*"] • • • • • • • • v případě že levý kontext <-3,-1> je [lc=".*rodiče|.*manžele"][word="[[:upper:]].*" & tag="...S4.*"][lc="a"] KWIC je [word="[[:upper:]].*slava"] a pravý kontext <1,1> je [word="[[:upper:]].*ovy"] pak platí, že [word="[[:upper:]].*slava"& tag="NNMS4.*" & lemma="[[:upper:]].*slav"] 20 chyb [lc=".*rodiče|.*manžele"][word="[[:upper:]].*"&tag="...S4.*"][lc="a"] [word="[[:upper:]].*slava"&tag!="..MS4.*"][word!="[[:upper:]].*ovy"] Chyby v desambiguaci • [lc=".*manžele"][word="[[:upper:]].*"][lc="a"] [word="[[:upper:]].*slava"& tag!="..MS4.*"][word! ="[[:upper:]].*ovy"] • … Nepředvídaná sláva čekala na manžele Miluši /Miluše/NNFS3-----A----- a /a/J^-------------- Jaroslava /Jaroslava/NNFS1-----A----- Řezaninovi … • … je první radostí pro manžele Riu /Rio/NNNS3-----A----- a /a/J^-------------- Rostislava /Rostislav/NNMS2-----A----- .... 6 [word="[[:upper:]].*slav"& tag="NN(MS1|FS1|FS4|FP2).*"] • v případě že pravý kontext <1,3> je • [lc="a"] [word="[[:upper:]].*" & tag="...S4.*"] [word="[[:upper:]].*ovy"] • pak platí, že • [word="[[:upper:]].*slava"& tag="NNMS4.*" & lemma="[[:upper:]].*slav"] • 4 chyby [word="[[:upper:]].*slava"&tag!="..MS4.*"][lc="a"] [word="[[:upper:]].*" & tag="...S4.*"][word="[[:upper:]].*ovy"] Pravopisné chyby a chyby v desambiguaci • Miroslava /Miroslava/NNFS1-----A----- a /a/J^-------------Lubomír /Lubomír/NNMS1-----A----- Krupkovy /Krupkův/AUIP1M---------- studentům Gymnázia Písek předvedli … • … když ve finále zdolali dvojici Miroslava /Miroslava/NNFS1----A----- a /a/J^-------------- Martina /Martina/NNFS1-----A----Farkašovy /Farkašův/AUFS2M---------- … • … bratrskou dvojku Jaroslava /Jaroslav/NNMS2-----A----- a /a/J^-------------- Jiřího /Jiří/NNMS2-----A----- Holíkovy /Holíkův/AUFS2M---------- … 6a [word="[[:upper:]].*slav"& tag="NN(MS1|FS1|FS4|FP2).*"] • v případě že levý kontext <-1,-1> je • [lc=".*rodiče|.*manžele"] • KWIC je [word="[[:upper:]].*slava"] • a pravý kontext <1,3> je • [lc="a"] [word="[[:upper:]].*" & tag="...S4.*"] [word! ="[[:upper:]].*ovy"] • pak platí, že • [word="[[:upper:]].*slava"& tag="NNMS4.*" & lemma="[[:upper:]].*slav"] 1 chyba [lc=".*rodiče|.*manžele"][word="[[:upper:]].*slava"&tag!="..MS4.*"] [lc="a"][word="[[:upper:]].*" &tag="...S4.*"][word! ="[[:upper:]].*ovy"] 7. [word="[[:upper:]].*slav"& tag="NN(MS1|FS1|FS4).*"] • v případě že levý kontext <-1,-1> je • [lemma="obec|město|lokalita|vesnice|městys|oblast|zámek|ves|vesnička| městečko|víska|tvrz|hrad"] • KWIC je [word="[[:upper:]].*slav"] • a pravý kontext <1,1> je • [word!="[[:upper:]].*"] • pak pokud pravý kontext <1,2> není • [lemma="z"][word="[[:upper:]].*"] • platí, že • [word="[[:upper:]].*slav"& tag="NNFS1.*" & lemma="[[:upper:]].*slav"] 2370 chyb [lemma="obec|město|lokalita|vesnice|městys|oblast|zámek|ves|vesnička|městečko|víska|tvrz|hrad"] [word="[[:upper:]].*slav" &tag!="..F.*"][word!="[[:upper:]].*"] N-filtr <0,1> [lemma="z"][word="[[:upper:]].*"] 8. [word="[[:upper:]].*slav"& tag="NN(MS1|FS1|FS4).*"] • v případě že levý kontext <-1,-1> je • [lemma=".*starosta|.*předseda|trenér|mluvčí"] • KWIC je [word="[[:upper:]].*slav"] • a pravý kontext <1,1> je • [word="[[:upper:]].*"] • pak platí, že • [word="[[:upper:]].*slav"& tag="NNMS1.*" & lemma="[[:upper:]].*slav"] 166 chyb a 176 případů nepokrytí slovníku [lemma=".*starosta|.*předseda|trenér|mluvčí"] [word="[[:upper:]].*slav" & tag!="..M.*"][word="[[:upper:]].*"] Řada antroponym a řada oikonym jako další případy koordinace • 9a Pokud v kontextu <-2,-2> a <2,2> od KWIC na slav stojí tvar s počátečním velkým písmenem označkovaný jako maskulinum neživotné, femininum, či neutrum oddělený od KWIC na slav čárkami, jde s velkou mírou pravděpodobnosti o KWIC .*slav oikonymum, femininum. • 9b Pokud v kontextu <-2,-2> a <2,2> od KWIC na slav stojí tvary s počátečním velkým písmenem označkované jako maskulina životná oddělená od KWIC na slav čárkami, jde s velkou mírou pravděpodobnosti o antroponymum maskulinum životné. [word="\,"][word="[[:upper:]].*slav" & tag!="..F.*"][word="\,"] p-filtru <-1,-1> [word="[[:upper:]].*" & tag="..[IFN].*"] <1,1> [word="[[:upper:]].*" & tag="..[IFN].*"] [word="\,"][word="[[:upper:]].*slav" & tag!="..F.*"][word="\,"] p-filtr <-1,-1> [word="[[:upper:]].*" & tag="..M.*"] <1,1> [word="[[:upper:]].*" & tag="..M.*"] Problémy adresy, bibliografické údaje, homonyma apelativum/proprium • Zahrádka, Miroslav /Miroslav/NNMS1-----A----- , Dogmata a živý literární proces : … • … Čs. obec sokolská , 1926 ŠLAJER , Jaroslav /Jaroslav/NNMS1----A----- , Husitské revoluční hnutí a husitská tradice … • V obou případech je ve slovníku morfologického analyzátoru substantivum Zahrádka a Šlajer interpretováno jednak jako maskulinum životné – apelativum, jednak jako femininum – zahrádka nebo maskulinum neživotné – šlajer. Tyto interpretace byly chybně desambiguovány. Tvary Dogmata a Husitské jsou správně analyzovány jako neutra. Pravidlo 9b neplatí. Problémy s FEMININY • … Luka nad Jihlavou, Předboř, Svatoslav, Příseka či Bítovčice ... • Tvary Předboř a Příseka jsou správně analyzovány jako feminina. Pravidlo 9a platí. • … Lucie, Andrea, Jaroslav, Tereza a Marek ... • Tvary Andrea a Tereza jsou správně analyzovány jako feminina. Pravidlo 9a ne platí. • Tabulka – chyby v desambiguaci pokryté pravidly Závěr • Přesto, že v některých případech pravidla selžou, většina testovaných pravidel má dobré výsledky. • Pomocí pravidel jsme detekovali více než 20 000 chybně desambiguovaných tvarů na .*slav/.*slava, tj. cca. 0,54 % chybně označkovaných případů z celkového počtu tvarů (3,7 milionu tvarů). • Statisticky výsledek není až tak významný, ale je zajímavý. • Většina sledovaných výskytů – publicistika. • Lze aplikovat na skupiny podobně utvořených proprií (např. .*clav/.*clava, .*mil/.*mila, .*ír/.*íra, …). • Děkujeme za pozornost! • Dotazy? • Připomínky?