PLIN037 Sémantika a počítače Zuzana Nevěřilová 2020/21 Sémantika lexikální a distribuční •Význam slov •Význam syntaktických konstrukcí •Princip kompozicionality •Porušení principu kompozicionality •Četnost (frekvence) výskytu slov •Spoluvýskyt slov •Četnost výskytu syntaktických struktur •Rozložení (distribuce) výskytu jazykových jevů Znalosti Data •Realistický popis (jazykových) dat •Relevantní data: •Velikost dat (počet případů) •Reprezentativnost dat (distribuce jevů v datech odpovídá reálné distribuci jevů) •Původce dat: •Lidmi psané vs. strojově vygenerované texty •Jazyková úroveň autorů textů •Technické aspekty (OCR) • • Sémantika a data Charakteristika pomocí statistiky •Textový korpus: základní statistika •Velikost korpusu •Velikost slovníku •Hapax legomena •Stop slova •Frekventované n-gramy (n=1, 2, 3) Sémantika a statistika Proč to funguje? Díky distribuční sémantice. The underlying idea that "a word is characterized by the company it keeps" was popularized by Firth (1957), and it is implicit in Weaver's (1955) discussion of word sense disambiguation (originally written as a memorandum, in 1949). https://aclweb.org/aclwiki/Distributional_Hypothesis •Co je „zajímavé“ slovo („zajímavý“ n-gram)? •Celková četnost •Četnost v jednom dokumentu •Dokumentová četnost •Nesrovnatelné statistiky pro slova (1-gramy) a n-gramy pro různá n Sémantika a statistika Sémantika a spoluvýskyt I travel to Hong Kong, then to Tokyo. pmi(hong, kong) pmi(kong, then) > 9.7 0.1 Další rozšíření: nejen přímo sousedící slova, ale slova v určitém okně (± 3 slova) Modelování ve vektorových prostorech •Vektor = n-tice čísel (na pořadí čísel záleží) • •One-hot vektor •Sémantický vektor (sémantické rysy) •Doménový vektor •Kontextový vektor • Modelování ve vektorových prostorech •Vektor = n-tice čísel (na pořadí čísel záleží) • •One-hot vektor •Sémantický vektor (sémantické rysy) •Doménový vektor •Kontextový vektor • MALE ADULT Žena - + Chlapec + - Batole - Modelování ve vektorových prostorech •Vektor = n-tice čísel (na pořadí čísel záleží) • •One-hot vektor •Sémantický vektor (sémantické rysy) •Doménový vektor •Kontextový vektor • Zoologie Vaření Atmosféra Letectví Buňka 10 0 0 5 Tkáň 9 0 0 0 Let 4 0 1 10 Množství 4 5 4 5 Pára 0 6 5 1 Modelování ve vektorových prostorech •Vektor = n-tice čísel (na pořadí čísel záleží) • •One-hot vektor •Sémantický vektor (sémantické rysy) •Doménový vektor •Kontextový vektor – všechno dohromady? • MALE ADULT Letectví POS Žena -1 1 3 1 Chlapec 1 -1 0 1 Batole 0 -1 0 1 Let 0 0 9 1 Spadnout 0.4 -0.2 7 5 Modelování ve vektorových prostorech •K čemu jsou vektory? •Snadno se mezi nimi počítá úhel. buňka tkáň let množství pára buňka 0 27 42,2 50 86,6 tkáň 27 0 68 63,9 90 let 42,2 68 0 44,4 80 množství 50 63,9 44,4 0 40 pára 86,6 90 80 40 0 ) •Čím menší úhel, tím větší významová blízkost. •Distribuce úhlů není rovnoměrná, tudíž má smysl klastrovat vektory podle úhlů, které vzájemně svírají. Klastrování vektorů množství let pára buňka tkáň Creating Word Embeddings: Coding the Word2Vec Algorithm in Python using Deep Learning | by Eligijus Bujokas | Towards Data Science Vektorové reprezentace https://towardsdatascience.com/creating-word-embeddings-coding-the-word2vec-algorithm-in-python-usi ng-deep-learning-b337d0ba17a8 Vektorové reprezentace Creating Word Embeddings: Coding the Word2Vec Algorithm in Python using Deep Learning | by Eligijus Bujokas | Towards Data Science •Word embedding: výpočet •Vstup: korpus, velikost okna •Výstup: slovník (kódovací tabulka) • slovo + n-rozměrný vektor • Vektorové reprezentace MALE ADULT Letectví POS Žena -1 1 3 1 Chlapec 1 -1 0 1 Batole 0 -1 0 1 Let 0 0 9 1 Spadnout 0.4 -0.2 7 5 Žena -1 1 3 ... ... ... 1 Chlapec 1 -1 0 ... ... ... 1 Batole 0 -1 0 ... ... ... 1 Let 0 0 9 ... ... ... 1 Spadnout 0.4 -0.2 7 ... ... ... 5 •Matice spoluvýskytů the cat sat on mat . the 0.1 0.8 0.4 cat 0.3 0.2 sat on … mat . Word Embeddings: výpočet •Pohyblivé okno (sliding window) The cat sat on the mat •Cíl: předpovědět slovo, pokud známe kontext. •Možné řešení: vybrat slovo s největší pravděpodobností výskytu Word Embeddings: výpočet The cat ? on the mat Matice spoluvýskytů the cat sat on mat . the 0.1 0.8 0.4 cat 0.3 0.2 sat on … mat . Distribuční sémantika Literatura •Kenneth Ward Church and Patrick Hanks (March 1990). "Word association norms, mutual information, and lexicography". Comput. Linguist. 16 (1): 22–29. •Collobert, R., Weston, J., Bottou, L., Karlen, M.,Kavukcuoglu, K., and Kuksa, P. (2011). Natural language processing (almost) from scratch. J. Mach. Learn. Res., 12:2493–2537. • • • • •