Deriváty od číslovek určitých PLIN033 Slovnědruhová povaha číslovek •Sémantické kritérium •Slovnědruhové přesahy •Adjektivní/substantivní flexe •Adverbiální povaha číslovek násobných •Velmi pravidelná derivace (potencialita neomezená) číslovkový vzor •+pades • <át,A> 4A,4A1,6KRAT • <át,B> PRT1,PRT2 • PRT1,VT • PRT2 • 6NASOB • <átk,K> V7 • <átek,K> V78X • <átc,K> V7A • <átin,L> V7,V7B,V78X • <átic,N> V8,V8A,V78X Značkování SD číslovka V korpusu sn2020 je nové členění číslovek Slova s možnou číselnou platností •MČ 2 s. 101n. tab. na s. 113 •Číslovky velikostní: adjektiva na –ový (tisícový) •Číslovky skupinové: substantiva na –ice, -ka (rojicet, čtyřka) Značkování v korpusu •.*ový Jak vypadají a jak jsou značkována adjektiva s číselným významem •dvojkový, trojkový, … Jak formulovat složitější dotaz •[lemma="(jed((not)|(nič)|(enáct))k)ový"] Podobně (na hnízdo derivátů jména každého čísla od 1 -10 / ?0) •[lemma="(jed((not)|(nič)|(enáct))k)ový"] •[lemma="(((dvoj)|dva((náct)|(cít)))k)ový"] •[lemma="(dv((oj)|(anáct)|(acít))k)ový"] •[lemma="(((troj)|tři((náct)|(cít)))k)ový"] •[lemma="(t((roj)|(řináct)|(řicít))k)ový"] •[lemma="((([čš]ty[rř])|([čš]trnáct)|([čš]ty[rř][iy]cít))k)ový"] •[lemma="([čš]t((y[rř])|(rnáct)|(y[rř][iy]cít))k)ový"] •[lemma="(((pět)|(patnáct)|(padesát))k)ový"] •[lemma="(p((ět)|(atnáct)|(adesát))k)ový"] •[lemma="(((šest)|(šestnáct)|(šedesát))k)ový"] •[lemma="(še((st)|(stnáct)|(desát))k)ový"] •[lemma="(((sedmič)|(sedmnáct)|(sedmdesát))k)ový"] •[lemma="(((osmič)|(osmnáct)|(osmdesát))k)ový"] •[lemma="(((sedm)|(osm))((ič)|(náct)|(desát))k)ový"] •[lemma="(((devít)|(devatenáct)|(devadesát))k)ový"] •[lemma="(dev((ít)|(atenáct)|(adesát))k)ový"] •[lemma="(((desít)|(stov)|(tisícov))k)|(tisíc)|(nul)|(mili[oó]n)ový"] Ještě složitější dotaz - lze spojit do jednoho dotazu [lemma="(((((((((jed((not)|(nič)|(enáct))|dv((oj)|(anáct)|(acít))|t((roj)|(řináct)|(řicít))|[čš]t(( y[rř])|(rnáct)|(y[rř][iy]cít))|p((ět)|(atnáct)|(adesát))|še((st)|(stnáct)|(desát))|((sedm)|(osm))(( ič)|(náct)|(desát))|dev((ít)|(atenáct)|(adesát))|((desít)|(stov)|(tisícov))))))))))k)ový"] A všechno dohromady (s 0 a substantivními číslovkami - sto, tisíc, milion, …) •[lemma="((((((((((jed((not)|(nič)|(enáct))|dv((oj)|(anáct)|(acít))|t((roj)|(řináct)|(řicít))|[čš]t ((y[rř])|(rnáct)|(y[rř][iy]cít))|p((ět)|(atnáct)|(adesát))|še((st)|(stnáct)|(desát))|((sedm)|(osm)) ((ič)|(náct)|(desát))|dev((ít)|(atenáct)|(adesát))|((desít)|(stov)|(tisícov))))))))))k)|(tisíc)|(nu l)|(mili[oó]n))ový"] Seznam lemmat a značek (synv12) • rozšíříme (lemma nerozpoznaného tvaru je tvar sám, takže nahradíme koncovku ý reg. výrazem .*) •[lemma="((((((((((jed((not)|(nič)|(enáct))|dv((oj)|(anáct)|(acít))|t((roj)|(řináct)|(řicít))|[čš]t ((y[rř])|(rnáct)|(y[rř][iy]cít))|p((ět)|(atnáct)|(adesát))|še((st)|(stnáct)|(desát))|((sedm)|(osm)) ((ič)|(náct)|(desát))|dev((ít)|(atenáct)|(adesát))|((desít)|(stov)|(tisícov))))))))))k)|(tisíc)|(nu l)|(mili[oó]n))ov.*"] Zpřesníme (značka A - adjektiva, značka X - nerozpoznaná slova) •[lemma="((((((((((jed((not)|(nič)|(enáct))|dv((oj)|(anáct)|(acít))|t((roj)|(řináct)|(řicít))|[čš]t ((y[rř])|(rnáct)|(y[rř][iy]cít))|p((ět)|(atnáct)|(adesát))|še((st)|(stnáct)|(desát))|((sedm)|(osm)) ((ič)|(náct)|(desát))|dev((ít)|(atenáct)|(adesát))|((desít)|(stov)|(tisícov))))))))))k)|(tisíc)|(nu l)|(mili[oó]n))ov.*" & tag="[AX].*"] Podívejte se na významy nerozpoznaných derivátů • Podívejte se na výskyt a významy derivátů na ován.* •[lemma="((((((((((jed((not)|(nič)|(enáct))|dv((oj)|(anáct)|(acít))|t((roj)|(řináct)|(řicít))|[čš]t ((y[rř])|(rnáct)|(y[rř][iy]cít))|p((ět)|(atnáct)|(adesát))|še((st)|(stnáct)|(desát))|((sedm)|(osm)) ((ič)|(náct)|(desát))|dev((ít)|(atenáct)|(adesát))|((desít)|(stov)|(tisícov))))))))))k)|(tisíc)|(nu l)|(mili[oó]n))ován.*" & tag="[NAVX].*"] • Výsledky • O co jde? •Druhá , nazvaná Ostravská věž , pak následující den před ostravskou Novou radnicí . Velký zájem o sprint Na porubské Hlavní třídě se v sobotu uskutečnil pátý ročník soutěže nazvané Hasičské stovkování . Jejím hlavním cílem bylo přiblížit požární sport běžným lidem . Dopoledne závodili na šedesát metrů dlouhé překážkové dráze žáci , odpoledne pak na stometrové trati muži a ženy . " Závodníci po odstartování uchopili požární hadice , běželi s nimi přes bariéry a po kladině , před koncem trati O co jde? • zpřesníme (přidáním reg. výr. .* na začátek vyhledáme potenciální kompozita) •[lemma=".*((((((((((jed((not)|(nič)|(enáct))|dv((oj)|(anáct)|(acít))|t((roj)|(řináct)|(řicít))|[čš ]t((y[rř])|(rnáct)|(y[rř][iy]cít))|p((ět)|(atnáct)|(adesát))|še((st)|(stnáct)|(desát))|((sedm)|(osm ))((ič)|(náct)|(desát))|dev((ít)|(atenáct)|(adesát))|((desít)|(stov)|(tisícov))))))))))k)|(tisíc)|( nul)|(mili[oó]n))ov.*" & tag="[AX].*"] výsledky • Jak jsou značkovány deadjektivní adverbia? •[lemma=".*((((((((((jed((not)|(nič)|(enáct))|dv((oj)|(anáct)|(acít))|t((roj)|(řináct)|(řicít))|[čš ]t((y[rř])|(rnáct)|(y[rř][iy]cít))|p((ět)|(atnáct)|(adesát))|še((st)|(stnáct)|(desát))|((sedm)|(osm ))((ič)|(náct)|(desát))|dev((ít)|(atenáct)|(adesát))|((desít)|(stov)|(tisícov))))))))))k)|(tisíc)|( nul)|(mili[oó]n))ově" & tag="[DX].*"] Výsledky • Vyhledávání adjektivních derivátů a kompozit s prvním členem číslovkovým •[lemma="((jedn)|(jed[ie]n)|(dv[aoě])|(troj)|(tř[íi])|(čtve[rř])|(čty[rř])|(pět)|(šest)|(sedm)|(osm [aáeind])|(de[sv][áíaeě]t)|(čtrnáct)|(patnáct)|(pater)|(((pa)|(še)|(deva))des[áa]t)|(sto)).*" & tag="A.*"] zjistíme přegenerováváná lemmata (náhodná shoda řetězce s číslovkovým řetězcem) Lze upravit (vyloučení náhodných shod) •[lemma="((jedn)|(jed[ie]n)|(dv[aoě])|(troj)|(tř[íi])|(čtve[rř])|(čty[rř])|(pět)|(šest)|(sedm)|(osm [aáeind])|(de[sv][áíaeě]t)|(čtrnáct)|(patnáct)|(pater)|(((pa)|(še)|(deva))des[áa]t)|(sto)).*" & lemma!="((tříd[ií]c)|(třídn)|(tříděn)|(třineck)|(tříšt)|(třísk)|(třísel)|(třímaj)|(tříb[iíe][cn])|( třísovsk)|(tro[upbmflc])|(tro[cš]k)|(trojsk)|(tro[is])).*" & lemma!="((sto[lr]n)|(stočen)|(stockh)|(stoup)|(stopý)|(stomato)|(stopnut)|(sto[ph]ov)|(stopk[ao][vt ])|(stop[eé]r)|(stopař)|(stožár)|(stolov)|(stoluj)|(stonkov)|(stodol)|(stoli[čc])|(stolař)|(stonav) |(stoj[aiínk])|(stoi)|(stodsk)|(stochovsk)|(stoneovsk)).*" & lemma!="((dvo[rř])|(jedna[cn])|(jednajíc)|(jedený)|(osmán)|(osma[hžn])|(osmirk)|(pater[nů])).*" & tag="A.*"] Lze použít k detekci jednotek nerozpoznaných automatickou morfologickou analýzou •[lemma="((jedn)|(jed[ie]n)|(dv[aoě])|(troj)|(tř[íi])|(čtve[rř])|(čty[rř])|(pět)|(šest)|(sedm)|(osm [aáeind])|(de[sv][áíaeě]t)|(čtrnáct)|(patnáct)|(pater)|(((pa)|(še)|(deva))des[áa]t)|(sto)).*(([íáé] )|([éí]ho)|([éí]mu)|([éýí]m)|([ýí]ch)|([ýí]m)|([ýí]mi))" & lemma!="((tříd[ií]c)|(třídn)|(tříděn)|(třízen)|(třineck)|(tříšt)|(třísk)|(třísel)|(třímaj)|(tříb[ií e][cn])|(třísovsk)|(tro[upbmflc])|(tro[cš]k)|(trojsk)|(tro[is])).*(([íáé])|([éí]ho)|([éí]mu)|([éýí] m)|([ýí]ch)|([ýí]m)|([ýí]mi))" & lemma!="((sto[lr]n)|(stočen)|(stockh)|(stoup)|(stopý)|(stopn)|(stom)|(stopnut)|(sto[ph]ov)|(stopk[a o][vt])|(stop[eé]r)|(stopař)|(stožár)|(stolov)|(stoluj)|(stonkov)|(stodol)|(stoli[čc])|(stolař)|(st onav)|(stoj[aiínk])|(stoi)|(stodsk)|(stochovsk)|(stoneovsk)).*(([íáé])|([éí]ho)|([éí]mu)|([éýí]m)|( [ýí]ch)|([ýí]m)|([ýí]mi))" & lemma!="((dv[oě][rř])|(jedna[cn])|(jednajíc)|(jedený)|(osmán)|(osma[hžn])|(osmirk)|(pater[nů])).*(( [íáé])|([éí]ho)|([éí]mu)|([éýí]m)|([ýí]ch)|([ýí]m)|([ýí]mi))" & tag="X.*"] Opakování kompozit • Substantiva z číslovek na -iny •Homonymie názvů zlomků .*ina a názvů jubileí .* iny .*iny (lemma je nom. pl.) •[lc="((deset)|(((jeden)|(dva)|(tři)|(čtr)|(pat)|(šest)|(sedm)|(osm)|(devate))(náct))|(((dva)|(tři) |(čtyři))(c[áe]t))|(((pa)|(še)|(sedm)|(osm)|(deva))(desát))|(set))iny" & tag="N.*"] pouze Bez lemmatizace a tagování •[lc="(((deset)|(((jeden)|(dva)|(tři)|(čtr)|(pat)|(šest)|(sedm)|(osm)|(devate))(náct))|(((dva)|(tři )|(čtyři))(c[áe]t))|(((pa)|(še)|(sedm)|(osm)|(deva))(desát))|(set))in)|(((deset)|(((jeden)|(dva)|(t ři)|(čtr)|(pat)|(šest)|(sedm)|(osm)|(devate))(náct))|(((dva)|(tři)|(čtyři))(c[áe]t))|(((pa)|(še)|(s edm)|(osm)|(deva))(desát))|(set))in((y)|(ám)|(ách)|(ami)))"] Lemmata a POS (zlomek - číslovka/C, jubileum - substantivum/N DESAMBIGUACE) šestnáctiny (patrně je problém ve slovníku nikoli v desambiguaci) Desambiguace (-1,-1:pos=C ) Desambiguace (-1,-1:pos!=C ) Chyby v desambiguaci [CN] dvanáctiny (která jubilea se slaví a o kterých se píše?) Kolokace (MI-score) Úkol na příště •Kompozita s prvním členem číslovkovým tvoří adjektivní deriváty označující vztah k časovému údaji /roční, měsíční, denní, týdenní •Které číslovkové základy se pojí s více než jedním adjektivem s časovým významem? •(Použijte nástroj Morfio.) •Zopakujte pro /minutový, hodinový •Zopakujte pro /patrový, podlažní •Zopakujte pro /hranný, stěnný • • •