Obsah přednášky Vektorové prostory Operace nad vektory Kosinová podobnost Word embeddings Základy matematiky a statistiky pro humanitní obory II Vojtěch Kovář Fakulta informatiky, Masarykova univerzita Botanická 68a, 602 00 Brno, Czech Republic xkovar3@fi.muni.cz část 8 Vojtěch Kovář FI MU Brno Základy matematiky a statistiky pro humanitní obory II Obsah přednášky Vektorové prostory Operace nad vektory Kosinová podobnost Word embeddings Obsah přednášky 1 Vektorové prostory 2 Operace nad vektory 3 Kosinová podobnost 4 Word embeddings Vojtěch Kovář FI MU Brno Základy matematiky a statistiky pro humanitní obory II Obsah přednášky Vektorové prostory Operace nad vektory Kosinová podobnost Word embeddings Vektorový prostor Základní pojem lineární algebry Abstrakce pro „šipky” nebo polynomy „šipky” = veličiny, které mají velikost a směr axiomatická definice Vektor uspořádaná n-tice (reálných) čísel n = dimenze vektorového prostoru skalár = číslo šipky → geometrická reprezentace (ve 2D, 3D) Operace nad vektory sčítání (po složkách) násobení vektoru skalárem skalární součin dvou vektorů Vojtěch Kovář FI MU Brno Základy matematiky a statistiky pro humanitní obory II Obsah přednášky Vektorové prostory Operace nad vektory Kosinová podobnost Word embeddings Operace nad vektory Sčítání (a1, a2, a3) + (b1, b2, b3) = (a1 + b1, a2 + b2, a3 + b3) Násobení vektoru skalárem c ∗ (a1, a2, a3) = (c ∗ a1, c ∗ a2, c ∗ a3) Velikost vektoru |(a1, a2, a3)| = a1 2 + a2 2 + a3 2 Skalární součin (dot product, inner product) dvě ekvivalentní definice (a1, a2, a3) ∗ (b1, b2, b3) = a1b1 + a2b2 + a3b3 u ∗ v = |u| ∗ |v| ∗ cosΦ Definovány pro libovolný počet rozměrů Vojtěch Kovář FI MU Brno Základy matematiky a statistiky pro humanitní obory II Obsah přednášky Vektorové prostory Operace nad vektory Kosinová podobnost Word embeddings Sčítání vektorů – geometrická reprezentace zdroj: https://commons.wikimedia.org/wiki/File:Two_noncolinear_vectors_plus_addition_dotted.png Vojtěch Kovář FI MU Brno Základy matematiky a statistiky pro humanitní obory II Obsah přednášky Vektorové prostory Operace nad vektory Kosinová podobnost Word embeddings Matice Lineární zobrazení mezi vektorovými prostory typ funkce nad vektory vektor * matice = jiný vektor „měníme obrázek vykreslený vektory” Uplatnění např. v kvantové mechanice Vojtěch Kovář FI MU Brno Základy matematiky a statistiky pro humanitní obory II Obsah přednášky Vektorové prostory Operace nad vektory Kosinová podobnost Word embeddings Cosine similarity (kosinová podobnost) Dva vektory spolu svírají úhel kosinus tohoto úhlu je měřítko podobnosti vektorů vektory směřující stejným směrem: 1 pravoúhlé (ortogonální) vektory: 0 vektory směřující opačným směrem: -1 Výpočet (z definice skalárního součinu) u ∗ v = |u| ∗ |v| ∗ cosΦ SC = cosΦ = u∗v |u|∗|v| Vojtěch Kovář FI MU Brno Základy matematiky a statistiky pro humanitní obory II Obsah přednášky Vektorové prostory Operace nad vektory Kosinová podobnost Word embeddings Word embeddings Slova reprezentovaná jako vektory Vojtěch Kovář FI MU Brno Základy matematiky a statistiky pro humanitní obory II Obsah přednášky Vektorové prostory Operace nad vektory Kosinová podobnost Word embeddings Word embeddings Podobnost mezi slovy: cosine similarity Vojtěch Kovář FI MU Brno Základy matematiky a statistiky pro humanitní obory II Obsah přednášky Vektorové prostory Operace nad vektory Kosinová podobnost Word embeddings Word embeddings Vojtěch Kovář FI MU Brno Základy matematiky a statistiky pro humanitní obory II Obsah přednášky Vektorové prostory Operace nad vektory Kosinová podobnost Word embeddings Word embeddings – ale: Ne 3 dimenze, ale např. 300 přesto: představa slov/frází jako míst na povrchu zeměkoule je celkem blízko realitě Dimenze neodpovídají „hezkým” vlastnostem slov jako např. věk, slovní druh, ... nejsme schopni dimenze pojmenovat ale jsou určeny kontexty většina „hezkých” vlastností slov je v nich nějakým způsobem zakódována Jsme schopni s takto reprezentovanými slovy pěkně počítat „king” - „man” + „woman” = nějaký vektor jehož nejbližší soused je „queen” Počátek: word2vec, Tomáš Mikolov (bývalý student VUT Brno) Vojtěch Kovář FI MU Brno Základy matematiky a statistiky pro humanitní obory II