Deriváty od číslovek určitých PLIN033 Slovnědruhová povaha číslovek •Sémantické kritérium •Slovnědruhové přesahy •Adjektivní/substantivní flexe •Adverbiální povaha číslovek násobných •Velmi pravidelná derivace (potencialita neomezená) Značkování SD číslovka Slova s možnou číselnou platností •MČ 2 s. 101n. tab. na s. 113 •Číslovky velikostní: adjektiva na –ový (tisícový) •Číslovky skupinové: substantiva na –ice, -ka (trojice, čtyřka) • • Značkování v korpusu •.*ový • Jak vypadají a jak jsou značkována adjektiva s číselným významem •dvojkový, trojkový, … • Jak formulovat složitější dotaz •[lemma="(jed((not)|(nič)|(enáct))k)ový"] • Podobně •[lemma="(jed((not)|(nič)|(enáct))k)ový"] •[lemma="(((dvoj)|dva((náct)|(cít)))k)ový"] •[lemma="(dv((oj)|(anáct)|(acít))k)ový"] •[lemma="(((troj)|tři((náct)|(cít)))k)ový"] •[lemma="(t((roj)|(řináct)|(řicít))k)ový"] •[lemma="((([čš]ty[rř])|([čš]trnáct)|([čš]ty[rř][iy]cít))k)ový"] •[lemma="([čš]t((y[rř])|(rnáct)|(y[rř][iy]cít))k)ový"] •[lemma="(((pět)|(patnáct)|(padesát))k)ový"] •[lemma="(p((ět)|(atnáct)|(adesát))k)ový"] •[lemma="(((šest)|(šestnáct)|(šedesát))k)ový"] •[lemma="(še((st)|(stnáct)|(desát))k)ový"] •[lemma="(((sedmič)|(sedmnáct)|(sedmdesát))k)ový"] •[lemma="(((osmič)|(osmnáct)|(osmdesát))k)ový"] •[lemma="(((sedm)|(osm))((ič)|(náct)|(desát))k)ový"] •[lemma="(((devít)|(devatenáct)|(devadesát))k)ový"] •[lemma="(dev((ít)|(atenáct)|(adesát))k)ový"] •[lemma="(((desít)|(stov)|(tisícov))k)|(tisíc)|(nul)|(mili[oó]n)ový"] Ještě složitější dotaz •[lemma="(((((((((jed((not)|(nič)|(enáct))|dv((oj)|(anáct)|(acít))|t((roj)|(řináct)|(řicít))|[čš]t( (y[rř])|(rnáct)|(y[rř][iy]cít))|p((ět)|(atnáct)|(adesát))|še((st)|(stnáct)|(desát))|((sedm)|(osm))( (ič)|(náct)|(desát))|dev((ít)|(atenáct)|(adesát))|((desít)|(stov)|(tisícov))))))))))k)ový"] A všechno dohromady •[lemma="((((((((((jed((not)|(nič)|(enáct))|dv((oj)|(anáct)|(acít))|t((roj)|(řináct)|(řicít))|[čš]t ((y[rř])|(rnáct)|(y[rř][iy]cít))|p((ět)|(atnáct)|(adesát))|še((st)|(stnáct)|(desát))|((sedm)|(osm)) ((ič)|(náct)|(desát))|dev((ít)|(atenáct)|(adesát))|((desít)|(stov)|(tisícov))))))))))k)|(tisíc)|(nu l)|(mili[oó]n))ový"] Seznam lemat a značek (synv4) Nerozpoznáno automatickou analýzou rozšíříme •[lemma="((((((((((jed((not)|(nič)|(enáct))|dv((oj)|(anáct)|(acít))|t((roj)|(řináct)|(řicít))|[čš]t ((y[rř])|(rnáct)|(y[rř][iy]cít))|p((ět)|(atnáct)|(adesát))|še((st)|(stnáct)|(desát))|((sedm)|(osm)) ((ič)|(náct)|(desát))|dev((ít)|(atenáct)|(adesát))|((desít)|(stov)|(tisícov))))))))))k)|(tisíc)|(nu l)|(mili[oó]n))ov.*"] Zpřesníme •[lemma="((((((((((jed((not)|(nič)|(enáct))|dv((oj)|(anáct)|(acít))|t((roj)|(řináct)|(řicít))|[čš]t ((y[rř])|(rnáct)|(y[rř][iy]cít))|p((ět)|(atnáct)|(adesát))|še((st)|(stnáct)|(desát))|((sedm)|(osm)) ((ič)|(náct)|(desát))|dev((ít)|(atenáct)|(adesát))|((desít)|(stov)|(tisícov))))))))))k)|(tisíc)|(nu l)|(mili[oó]n))ov.*" & tag="[AX].*"] Více tvarů zpřesníme •[lemma=".*((((((((((jed((not)|(nič)|(enáct))|dv((oj)|(anáct)|(acít))|t((roj)|(řináct)|(řicít))|[čš ]t((y[rř])|(rnáct)|(y[rř][iy]cít))|p((ět)|(atnáct)|(adesát))|še((st)|(stnáct)|(desát))|((sedm)|(osm ))((ič)|(náct)|(desát))|dev((ít)|(atenáct)|(adesát))|((desít)|(stov)|(tisícov))))))))))k)|(tisíc)|( nul)|(mili[oó]n))ov.*" & tag="[AX].*"] výsledky •263 lemmat •Nerozpoznaných správných není mnoho •Nekonzistence slovníku (lemma osmdesátkový) nerozpoznáno Vyhledávání adjektivních derivátů a kompozit s prvním členem číslovkovým •[lemma="((jedn)|(jed[ie]n)|(dv[aoě])|(troj)|(tř[íi])|(čtve[rř])|(čty[rř])|(pět)|(šest)|(sedm)|(osm [aáeind])|(de[sv][áíaeě]t)|(čtrnáct)|(patnáct)|(pater)|(((pa)|(še)|(deva))des[áa]t)|(sto)).*" & tag="A.*"] přegenerovává Lze upravit •[lemma="((jedn)|(jed[ie]n)|(dv[aoě])|(troj)|(tř[íi])|(čtve[rř])|(čty[rř])|(pět)|(šest)|(sedm)|(osm [aáeind])|(de[sv][áíaeě]t)|(čtrnáct)|(patnáct)|(pater)|(((pa)|(še)|(deva))des[áa]t)|(sto)).*" & lemma!="((tříd[ií]c)|(třídn)|(tříděn)|(třineck)|(tříšt)|(třísk)|(třísel)|(třímaj)|(tříb[iíe][cn])|( třísovsk)|(tro[upbmflc])|(tro[cš]k)|(trojsk)|(tro[is])).*" & lemma!="((sto[lr]n)|(stočen)|(stockh)|(stoup)|(stopý)|(stomato)|(stopnut)|(sto[ph]ov)|(stopk[ao][vt ])|(stop[eé]r)|(stopař)|(stožár)|(stolov)|(stoluj)|(stonkov)|(stodol)|(stoli[čc])|(stolař)|(stonav) |(stoj[aiínk])|(stoi)|(stodsk)|(stochovsk)|(stoneovsk)).*" & lemma!="((dvo[rř])|(jedna[cn])|(jednajíc)|(jedený)|(osmán)|(osma[hžn])|(osmirk)|(pater[nů])).*" & tag="A.*"] Lze použít k detekci jednotek nerozpoznaných automatickou morfologickou analýzou •[lemma="((jedn)|(jed[ie]n)|(dv[aoě])|(troj)|(tř[íi])|(čtve[rř])|(čty[rř])|(pět)|(šest)|(sedm)|(osm [aáeind])|(de[sv][áíaeě]t)|(čtrnáct)|(patnáct)|(pater)|(((pa)|(še)|(deva))des[áa]t)|(sto)).*(([íáé] )|([éí]ho)|([éí]mu)|([éýí]m)|([ýí]ch)|([ýí]m)|([ýí]mi))" & lemma!="((tříd[ií]c)|(třídn)|(tříděn)|(třízen)|(třineck)|(tříšt)|(třísk)|(třísel)|(třímaj)|(tříb[ií e][cn])|(třísovsk)|(tro[upbmflc])|(tro[cš]k)|(trojsk)|(tro[is])).*(([íáé])|([éí]ho)|([éí]mu)|([éýí] m)|([ýí]ch)|([ýí]m)|([ýí]mi))" & lemma!="((sto[lr]n)|(stočen)|(stockh)|(stoup)|(stopý)|(stopn)|(stom)|(stopnut)|(sto[ph]ov)|(stopk[a o][vt])|(stop[eé]r)|(stopař)|(stožár)|(stolov)|(stoluj)|(stonkov)|(stodol)|(stoli[čc])|(stolař)|(st onav)|(stoj[aiínk])|(stoi)|(stodsk)|(stochovsk)|(stoneovsk)).*(([íáé])|([éí]ho)|([éí]mu)|([éýí]m)|( [ýí]ch)|([ýí]m)|([ýí]mi))" & lemma!="((dv[oě][rř])|(jedna[cn])|(jednajíc)|(jedený)|(osmán)|(osma[hžn])|(osmirk)|(pater[nů])).*(( [íáé])|([éí]ho)|([éí]mu)|([éýí]m)|([ýí]ch)|([ýí]m)|([ýí]mi))" & tag="X.*"] Které mohou být/jsou odvozeny od číslovkových základů Substantiva z číslovek na -iny •Homonymie .*ina a .* •iny .*iny •[lc="((deset)|(((jeden)|(dva)|(tři)|(čtr)|(pat)|(šest)|(sedm)|(osm)|(devate))(náct))|(((dva)|(tři) |(čtyři))(c[áe]t))|(((pa)|(še)|(sedm)|(osm)|(deva))(desát))|(set))iny" & tag="N.*"] • pouze Bez lemmatizace a tagování •[lc="(((deset)|(((jeden)|(dva)|(tři)|(čtr)|(pat)|(šest)|(sedm)|(osm)|(devate))(náct))|(((dva)|(tři )|(čtyři))(c[áe]t))|(((pa)|(še)|(sedm)|(osm)|(deva))(desát))|(set))in)|(((deset)|(((jeden)|(dva)|(t ři)|(čtr)|(pat)|(šest)|(sedm)|(osm)|(devate))(náct))|(((dva)|(tři)|(čtyři))(c[áe]t))|(((pa)|(še)|(s edm)|(osm)|(deva))(desát))|(set))in((y)|(ám)|(ách)|(ami)))"] • Lemmata a POS šestnáctiny Desambiguace (-1,-1:pos=C ) Desambiguace (-1,-1:pos!=C ) Chyby v desambiguaci [CN] dvanáctiny Kolokace (MI-score) • Úkol na 23. 11. 2016 •Kompozita s prvním členem číslovkovým tvoří adjektivní deriváty označující vztah k časovému údaji /roční, měsíční, denní, … •Které číslovkové základy se pojí s více než jedním adjektivem s časovým významem? •(Použijte nástroj Morfio.)