Základy matematiky a statistiky pro humanitní obory II Vojtěch Kovář Fakulta informatiky, Masarykova univerzita Botanická 68a, 602 00 Brno, Czech Republic xkovar3@fi.muni.cz část 8 Vojtěch Kovář (FI MU Brno) PLIN004 část 8 1 / 11 Obsah přednášky Obsah přednášky Vektorové prostory Operace nad vektory Kosinová podobnost Word embeddings Vojtěch Kovář (FI MU Brno) PLIN004 část 8 2 / 11 Vektorové prostory Vektorový prostor ▶ Základní pojem lineární algebry ▶ Abstrakce pro „šipky” nebo polynomy ▶ „šipky” = veličiny, které mají velikost a směr ▶ axiomatická definice ▶ Vektor ▶ uspořádaná n-tice (reálných) čísel ▶ n = dimenze vektorového prostoru ▶ skalár = číslo ▶ šipky → geometrická reprezentace (ve 2D, 3D) ▶ Operace nad vektory ▶ sčítání (po složkách) ▶ násobení vektoru skalárem ▶ skalární součin dvou vektorů Vojtěch Kovář (FI MU Brno) PLIN004 část 8 3 / 11 Operace nad vektory Operace nad vektory ▶ Sčítání ▶ (a1, a2, a3) + (b1, b2, b3) = (a1 + b1, a2 + b2, a3 + b3) ▶ Násobení vektoru skalárem ▶ c ∗ (a1, a2, a3) = (c ∗ a1, c ∗ a2, c ∗ a3) ▶ Velikost vektoru ▶ |(a1, a2, a3)| = a1 2 + a2 2 + a3 2 ▶ Skalární součin (dot product, inner product) ▶ dvě ekvivalentní definice ▶ (a1, a2, a3) ∗ (b1, b2, b3) = a1b1 + a2b2 + a3b3 ▶ u ∗ v = |u| ∗ |v| ∗ cosΦ ▶ Definovány pro libovolný počet rozměrů Vojtěch Kovář (FI MU Brno) PLIN004 část 8 4 / 11 Operace nad vektory Sčítání vektorů – geometrická reprezentace zdroj: https://commons.wikimedia.org/wiki/File:Two_noncolinear_vectors_plus_addition_dotted.png Vojtěch Kovář (FI MU Brno) PLIN004 část 8 5 / 11 Operace nad vektory Matice ▶ Lineární zobrazení mezi vektorovými prostory ▶ typ funkce nad vektory ▶ vektor * matice = jiný vektor ▶ „měníme obrázek vykreslený vektory” ▶ Uplatnění např. v kvantové mechanice Vojtěch Kovář (FI MU Brno) PLIN004 část 8 6 / 11 Kosinová podobnost Cosine similarity (kosinová podobnost) ▶ Dva vektory spolu svírají úhel ▶ kosinus tohoto úhlu je měřítko podobnosti vektorů ▶ vektory směřující stejným směrem: 1 ▶ pravoúhlé (ortogonální) vektory: 0 ▶ vektory směřující opačným směrem: -1 ▶ Výpočet (z definice skalárního součinu) ▶ u ∗ v = |u| ∗ |v| ∗ cosΦ ▶ SC = cosΦ = u∗v |u|∗|v| Vojtěch Kovář (FI MU Brno) PLIN004 část 8 7 / 11 Word embeddings Word embeddings Slova reprezentovaná jako vektory Vojtěch Kovář (FI MU Brno) PLIN004 část 8 8 / 11 Word embeddings Word embeddings Podobnost mezi slovy: cosine similarity Vojtěch Kovář (FI MU Brno) PLIN004 část 8 9 / 11 Word embeddings Word embeddings Vojtěch Kovář (FI MU Brno) PLIN004 část 8 10 / 11 Word embeddings Word embeddings – ale: ▶ Ne 3 dimenze, ale např. 300 ▶ přesto: představa slov/frází jako míst na povrchu zeměkoule je celkem blízko realitě ▶ Dimenze neodpovídají „hezkým” vlastnostem slov ▶ jako např. věk, slovní druh, ... ▶ nejsme schopni dimenze pojmenovat ▶ ale jsou určeny kontexty ▶ většina „hezkých” vlastností slov je v nich nějakým způsobem zakódována ▶ Jsme schopni s takto reprezentovanými slovy pěkně počítat ▶ „king” - „man” + „woman” = nějaký vektor ▶ jehož nejbližší soused je „queen” ▶ Počátek: word2vec, Tomáš Mikolov (bývalý student VUT Brno) Vojtěch Kovář (FI MU Brno) PLIN004 část 8 11 / 11