IB047 Četnosti a kolokace Pavel Rychlý pary@fi.muni.cz 10. dubna 2017 Zipfův zákon Jaké je rozložení slov v korpusu? ■ ř*r = C součin četnosti a pořadí v seznamu četností je zhruba konstantní ■ slova, slovní spojení ■ vlastní jména, velikosti měst ■ nejfrekventovanější jevy pokrývají většinu jazyka Redukovaná četnost ■ pravděpodobnost výskytu slova vs. četnost slova v korpusu ■ některá slova jsou pouze v jenom dokumentu, ale mnohokrát ■ redukované četnosti normalizují výskyty ■ rf <= f ■ rf >= 1 ■ dokumentová četnost, ARF Ko lokace Jaká slova se vyskytují v kontextech daného výrazu? ■ četnosti ■ relativní četnosti ■ skóre - asociační míry Pavel Rychlý IB047 Asociační míry Počítáme na základě kontingenční tabulky. impeded frequencies V = v V jív U = u E»- N On 012 U jím _ faCi 17 ?éií 02] 022 = Jíl = Jí: = Ci = C2 = N observed frequencies 0,y - pozorované hodnoty (observed) E,y - očekávané hodnoty (expected) Asociační míry T-score: t = O11-C11 _ im_w_ \/Oy\ \/fxy -score: Ml = log2 §j| = log2 tyr Log-likelihood: / / - _ Inn UO11.fi ,r)UQ12,C2,r) - '^2 í.(Ol1)C,,ri)Z.(0,2,G»Ir2) L(/c, n, r) = r*(1 - r)""* r — Bl- n — Q11 ■ — ^12 ' — A/ ' '1 — Ci ' r2 — Pavel Rychlý IB047 Asociační míry Minimum sensitivity: MS = min{^, ^} = min{^, ff} - minimum z relativních četností Dice- D — 2°11 — 2fxy uioe. u - fli+Ci - fx+fy logDice: ID = 14 + log2 D = 15 + log2fxy - log2(fx + fy) Filtrovaní vybíráme jen ty kolokace, které splňují podmínku na značkách ADJ NN NN NN word sketches - jednostránkový souhrn chování slov Word Sketches Jak jej lze vytvořit ■ Velký vyvážený korpus ■ Vyhledáme závislé prvky (subjects, objects, heads, modifiers etc) ■ Seznam kolokací pro každou gramatickou relaci ■ Statistika pro třídění každého seznamu