PLIN021 SÉMANTICKÁ ANALÝZA V PRAXI ZUZANA NEVĚŘILOVÁ 2020/21 A bowl of oranges WORD SENSE DISCRIMINATION WORD SENSE INDUCTION ¡Grafy spoluvýskytu (sousednost, spoluvýskyt v pevně daném okně kontextu) Co-occurrence graphs ¡Slovní klastry Word clusters ¡Kontextové klastry Context clusters KONTEXTOVÉ VEKTORY (SCHÜTZE, 1998) ¡Zdá se, že některé významy jsou „víc spojeny“ než jiné. Např. „pták“ je víc spojený s „peří“ než se „strom“. ¡Algoritmus rozlišení kontextových skupin: context group discrimination ¡Výsledkem jsou výskyty víceznačného slova v různých shlucích. Každé slovo, kontext i shluk jsou reprezentovány vektorem v mnoharozměrném vektorovém prostoru. VEKTOR JAKO REPREZENTANT VÝSKYTU SLOVA V DOMÉNĚ VEKTOR JAKO REPREZENTANT VÝSKYTU SLOVA V DOMÉNĚ ¡Reprezentace domén pomocí výskytů slov v nich Zoologie Vaření Atmosféra Vojenské letectví Buňka 10 0 0 5 Tkáň 9 0 0 0 Let 4 0 1 10 Množství 4 5 4 5 Pára 0 6 5 1 VEKTOR JAKO REPREZENTANT VÝSKYTU SLOVA V DOMÉNĚ VEKTOR JAKO REPREZENTANT VÝSKYTU SLOVA V DOMÉNĚ ¡Čím menší úhel vektory svírají, tím bližší si slova jsou (protože se vyskytují v podobných kontextech) KLASTROVÁNÍ VEKTORŮ ¡Čím menší úhel vektory svírají, tím bližší si slova jsou (protože se vyskytují v podobných kontextech) množství let pára buňka tkáň VEKTOROVÉ REPREZENTACE BEZ (RUČNĚ) URČENÝCH DOMÉN Creating Word Embeddings: Coding the Word2Vec Algorithm in Python using Deep Learning | by Eligijus Bujokas | Towards Data Science https://towardsdatascience.com/creating-word-embeddings-coding-the-word2vec-algorithm-in-python-usi ng-deep-learning-b337d0ba17a8 VEKTOROVÉ REPREZENTACE BEZ (RUČNĚ) URČENÝCH DOMÉN ¡Jednotlivé složky jsou vypočítány podle spoluvýskytů slov v korpusu → model ¡Vektory svírají různé úhly ¡Čím menší úhel, tím častější výskyt v podobných kontextech LITERATURA ¡ ¡Schütze, H. (1998). Automatic word sense discrimination. Comput. Linguist., 24:97-123 ¡Wikipedia contributors. (2020, December 7). Word embedding. In Wikipedia, The Free Encyclopedia. Retrieved 11:03, December 7, 2020, from https://en.wikipedia.org/w/index.php?title=Word_embedding&oldid=992767743