Základy matematiky a statistiky pro humanitní obory II Vojtěch Kovář Fakulta informatiky, Masarykova univerzita Botanická 68a, 602 00 Brno, Czech Republic xkovar3@fi.muni.cz část 7 Vojtěch Kovář (FI MU Brno) PLIN004 část 7 1 / 15 Obsah přednášky Obsah přednášky Entropie Perplexita Vyhledávání kolokací Vyhodnocování úspěšnosti Lingvistická anotace Vojtěch Kovář (FI MU Brno) PLIN004 část 7 2 / 15 Entropie Entropie Entropie náhodné veličiny ▶ Míra informace náhodné veličiny ▶ kolik informace získáme, když se dozvíme hodnotu náhodné veličiny ▶ „hodnota informace”, kterou nám veličina dává ▶ měří se v bitech ▶ nulová entropie = jsme schopni určit hodnotu veličiny se 100% jistotou ▶ Počátky ▶ 40. léta (Shannon) ▶ potřeba přenést informaci co nejmenší možnou zprávou Vojtěch Kovář (FI MU Brno) PLIN004 část 7 3 / 15 Entropie Entropie Entropie ▶ Vzorec ▶ H(p) = H(X) = − x∈X p(x)log2p(x) ▶ X = množina možných hodnot ▶ p = pravděpodobnostní rozložení ▶ Příklad – hod dvěma mincemi, počítáme panny ▶ p(0) = 1/4, p(1) = 1/2, p(2) = 1/4 ▶ H(p) = −(1/4log2(1/4) + 1/2log2(1/2)) + 1/4log2(1/4)) = −(−2/4 − 1/2 − 2/4) = 1.5 bitu ▶ Pokud budou na obou mincích padat pouze panny ▶ p(0) = 0, p(1) = 0, p(2) = 1 ▶ H(p) = −(log2(1)) = −(0) = 0 ▶ → nemusíme předávat žádnou informaci, abychom zjistili, že padly dvě panny Vojtěch Kovář (FI MU Brno) PLIN004 část 7 4 / 15 Entropie Entropie Podmíněná entropie ▶ Podobně jako podmíněná pravděpodobnost ▶ H(X|Y) – entropie veličiny X za předpokladu, že známe hodnoty veličiny Y ▶ H(p) = H(X|Y ) = x∈X p(x)H(Y |X = x) ▶ Řetízkové pravidlo (chain rule) ▶ H(X, Y) = H(X) + H(Y|X) Vojtěch Kovář (FI MU Brno) PLIN004 část 7 5 / 15 Perplexita Perplexita ▶ 2H ▶ stejná(podobná) informace, jiné číslo ▶ „počet možností, které mohou nastat”, pokud by jejich rozložení bylo rovnoměrné ▶ Měřítko kvality jazykových modelů ▶ menší perplexita ⇒ lepší model ▶ (ale vždy to tak nemusí být) Vojtěch Kovář (FI MU Brno) PLIN004 část 7 6 / 15 Vyhledávání kolokací Vyhledávání kolokací ▶ Kolokace ▶ různé definice ▶ fráze, jejíž význam se neskládá z významů jejích částí ▶ nějakým způsobem „významné” spojení dvou slov ▶ např. idiomy, ale nejen ▶ základní škola, silný čaj, ... ▶ Jakým způsobem vyhledat v korpusu kolokace? ▶ případně statisticky určit „sílu” libovolné kolokace na základě dat? ▶ odlišit „strong tea” od „powerful tea” Vojtěch Kovář (FI MU Brno) PLIN004 část 7 7 / 15 Vyhledávání kolokací Jakým způsobem vyhledat v korpusu kolokace? ▶ Prosté frekvence sekvencí slov v korpusu? ▶ → „of the”, „in the”, ... ▶ Frekvence filtrovaných sekvencí slov? ▶ na základě slovních druhů jednotlivých slov ▶ → „New York”, „United States”, ... ▶ ale třeba i „last week” ▶ T-test ▶ aplikace testování hypotéz ▶ předpokládáme, že se slova chovají standardně (nulová hypotéza) = podle svých obvyklých pravděpodobnostních rozložení ▶ vyvrácení nulové hypotézy = kolokace ▶ problém: při dostatečně velkých datech je nulová hypotéza vyvrácena téměř vždy Vojtěch Kovář (FI MU Brno) PLIN004 část 7 8 / 15 Vyhledávání kolokací Mutual information (vzájemná informace) ▶ Míra informace, kterou jedna náhodná proměnná říká o jiné ▶ vzorec: MI(X; Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) ▶ 0, pokud jsou veličiny nezávislé ▶ čím vyšší, tím více hodnoty jedné vlastnosti určují hodnoty druhé vlastnosti ▶ Příklad použití – kolokace ▶ X: výskyt slova a (např. „základní”) v textu ▶ Y: výskyt slova b (např. „škola”) v textu ▶ MI je měřítkem „síly” kolokace těchto dvou slov ▶ je tím vyšší, čím vyšší je počet souvýskytů slov a tím nižší, čím jsou slova častější Vojtěch Kovář (FI MU Brno) PLIN004 část 7 9 / 15 Vyhledávání kolokací LogDice ▶ Dice ▶ 2fAB/(fA + fB) ▶ jednoduché, nezávislé na velikosti korpusu ▶ ale čísla, která z toho lezou, nejsou hezká ▶ logDice ▶ 14 + log2Dice ▶ většinou mezi 0 a 10 ▶ +1 znamená dvojnásobný počet souvýskytů ▶ 0 je méně než 1 souvýskyt na 16 tisíc výskytů Vojtěch Kovář (FI MU Brno) PLIN004 část 7 10 / 15 Vyhodnocování úspěšnosti Vyhodnocování úspěšnosti NLP nástrojů ▶ Gold standard (grand truth) ▶ správně označkovaná data, většinou manuálně ▶ považujeme je za správná (ale i lidé dělají chyby) ▶ porovnáváme výstup nástroje s gold standardem ▶ Příklad: klasifikace diskusních příspěvků ▶ 3 třídy: pozitivní, negativní, neutrální Vojtěch Kovář (FI MU Brno) PLIN004 část 7 11 / 15 Vyhodnocování úspěšnosti Confusion matrix (matice záměn) Příklad: V gold standard datech je 100 příspěvků z každé třídy. Řádky říkají, jak dokumenty z těchto tříd klasifikoval testovaný systém. pozitivní neutrální negativní pozitivní 65 5 5 neutrální 30 90 5 negativní 5 5 90 ▶ větší čísla na diagonále = lepší ▶ dobře znázorňuje nejčastější typy chyb ▶ (systém z příkladu je poměrně úspěšný, ale často označuje pozitivní příspěvky jako neutrální) Vojtěch Kovář (FI MU Brno) PLIN004 část 7 12 / 15 Vyhodnocování úspěšnosti Klasifikace do dvou tříd pozitivní negativní pozitivní true positives (TP) false positives (FP) negativní false negatives (FN) true negatives (TN) ▶ precision/přesnost: TP/(TP + FP) ▶ recall/pokrytí: TP/(TP + FN) ▶ F-score: 2 ∗ precision ∗ recall/(precision + recall) ▶ accuracy/přesnost: (TP + TN)/(TP + FP + TN + FN) v diagnostických testech (medicína apod.): ▶ sensitivity: TP/(TP + FN) (totéž, co recall) ▶ specificity: TN/(FP + TN) Vojtěch Kovář (FI MU Brno) PLIN004 část 7 13 / 15 Lingvistická anotace Lingvistická anotace dat ▶ Např. při vytváření gold standardu pro vyhodnocování ▶ Základní parametr: mezianotátorská shoda ▶ inter-annotator agreement ▶ podobné: intra-annotator agreement ▶ protože člověku se zdá, že je to jasné, ale není ▶ anotátoři se také mohou shodnout náhodou – tzv. chance agreement ▶ Často existuje velká šedá zóna ▶ kde lidé neví, nebo se neshodnou z principiálních důvodů ▶ můžeme se rozhodnout šedou zónu do gold standardu nezahrnout Vojtěch Kovář (FI MU Brno) PLIN004 část 7 14 / 15 Lingvistická anotace Mezianotátorská shoda ▶ Základní verze ▶ počet shod / celková velikost dat ▶ např. 100 komentářů, u 80 z nich se anotátoři shodli → 80 % ▶ dále Ao (observed agreement) ▶ Lépe: nechceme počítat náhodné shody ▶ Ae (expected agreement) ▶ Ao−Ae 1−Ae ▶ Cohen’s kappa (a další) Vojtěch Kovář (FI MU Brno) PLIN004 část 7 15 / 15