Významy Podobnost kontextů ve velkých textových korpusech PA154 Jazykové modelování (9.1) Pavel Rychlý pary@fi.muni.cz April 27, 2021 Slovo (a jeho některé části) jsou základními nositeli významu ■ slovo bez kontextu - žádný význam, mnoho potenciálních významů ■ stejné slovo v různých kontextech - různé významy ■ slovo v pc :h kontextech - stejný význam co to je kontext? ▼ usually in plurals [99,1%. percentile 21,9) e velkých textových korpusech =•= n x :•: n X = • modifier modifies subject_of scientific grant aim recent project focus cancer laboratory ... investigate empirical institute ... show market finding examine further contract indicate Cray- programme suggest medical council reveal historical fellow explore applied centre concentrate PA154 Jazykové modelováni (9.1) Podobnost kontext j ve velkých textových korp n x Word Sketch Jak jej lze vytvořit Grammatical Relations Definition ■ Velký vyvážený korpus ■ Vyhledáme závislé prvky (subjects, objects, heads, modifiers etc) ■ Seznam kolokací pro každou gramatickou relaci ■ Statistika pro třídění každého seznamu Z Word Sketch můžeme vytvořit thesaurus. plain text file a set of queries for each GR queries contain labels for keyword and collocate processing options elkých textových korpusech PA154 Jazykové modeli elkých textových korpusech 6/ Definice gramatických relací Koeficient výnačnosti # 'modifier' and 'modify' gramrels definition *DUAL =modifier/modify 2:"AJ." 1:"N.." # 'and/or' gramrel definition =and/or *SYMMETRIC 1:[] [word="and" |word="or"] 2:[] & l.tag = 2.tag # 'adverb' gramrel definition =adverb 1: [] 2: "AV. " 2:"AV." 1: [] počty výskytů (word\, gramrel, word?) AScore{w1, R, w2) = 14 + log2 Dice(nwi'R'W211 i/i , i 2-11 wi, R, w? 11 Podobnost kontextů ve velkých textových korpusech 7/17 Podobnost kontextů ve velkých textových korpusech 8/17 Koeficient podobnosti Velikosti dat porovnání profilů slov i*í a w2 pouze důležité (význačné) kontexty jaký je překryv počty (wordi, {gramrel, wordf]) a (wordi, {gramrel, wordf]) ^(tup^tup^itup^ntups^} A$i + ASj - [ASi - ASj)2/50 iim(wi, W2j ľ tup; G {tupWl LJ tupW2 } AS; Velikosti korpusů, jejich slovníků a počty slov v kontextech Korpus Velikost Slov Lemat Různé k. Všechny k. BNC lllm 776 k 722 k 23m 63m SYN2000 114m l,65m 776 k 19m 58m OEC l,12g 3,67m 3,12m 84m 569m Itwac l,92g 6,32m 4,76m 67m 587m Velikosti slovníků i počty různých kontextů rostou sublineárně s velikostí korpusu. 10000, daný kontext přeskočíme. Matici sim(wi, v/2) během výpočtu nedržíme celou v paměti. Opakovaný běh hlavního cyklu pro omezený rozsah w\. Místo sim(wi, v/2)+ = x generujeme na výstup (wi, v/2,x). Výstupní seznam potom setřídíme a sčítáme jednotlivé x. Využití TMMS (Two Phase Multi-way Merge Sort) s průběžným sčítáním. Místo několika stovek GB třídíme jednotky GB. Podobnost kontextů ve velkých textových korpu: Podobnost kontextů ve velkých textových korpu: Výsledky Algoritmus je řádově rychlejší než přímočarý algoritmus. (18 dnů hodiny) Korpus MIN Lemmat KWIC CTX čas BNC 1 152k 5.7m 608k 13m 9s BNC 20 68k 5.6m 588k 9m 30s OEC 2 269 k 27.5m 994k lh 40m OEC 20 128k 27.3m 981k lh 27m OEC 200 48 k 26.7m 965k lh 10m Itwac 20 137k 24.8m l.lm lh 16m Bez omezení přesnosti. Možnost snadné paralelizace. Podobnost kontextů v /elkých textových korpu: