PLIN037 Sémantika a počítače Zuzana Nevěřilová 2020/21 •Vnitřní (Intrinsic): •jaké skóre model dosahuje? •porovnání s modely v „laboratorních“ podmínkách •reproducibilita •Vnější (Extrinsic): •jak užitečný je model pro jinou úlohu? •jak dobrý je model v praxi? •porovnání s předchozím stavem •nižší cena, vyšší bezpečnost, vyšší spokojenost uživatelů, ... Vyhodnocení •Hypotéza + Pozorování • • • • • • Kvantitativní a kvalitativní vyhodnocení •Spojitá data: •Vzdálenost •Podobnost (opačná hodnota) •Diskrétní data: •Přesnost, pokrytí •Jsou všechny kategorie vzdáleny stejně? • Jak daleko je hypotéza od pozorování? Proč a jaký to má dopad? Spojitá data: vzdálenost a metrika Triangle inequality - Wikipedia https://en.wikipedia.org/wiki/Triangle_inequality#/media/File:TriangleInequality.svg Spojitá data: vzdálenost bodů Taxicab geometry - Wikipedia https://en.wikipedia.org/wiki/Taxicab_geometry Spojitá data: vektorová podobnost Euclidean Distance and Cosine Similarity. Which One to Use and When? Math Philosophy Psychology Theory 60 20 25 Harmony 10 40 70 https://medium.com/swlh/euclidean-distance-and-cosine-similarity-which-one-to-use-and-when-28c97a18 fe68 Math Philosophy Psychology Theory 80 50 15 Harmony 45 60 20 •Když model predikuje hodnotu, kterou jsme chtěli. •Když model nepredikuje hodnotu, kterou jsme chtěli. •Je to stejně špatně, jako by predikoval náhodnou hodnotu? •Je možnost, že je predikce méně špatně? •Je možnost, že je predikce užitečná? •Je možnost, že predikce je horší než náhodná hodnota? Diskrétní data Sad face with solid fill with solid fill Loudly crying face with solid fill with solid fill Grinning face with solid fill with solid fill Nervous face with solid fill with solid fill Diskrétní data: Editační vzdálenost řetězců k i t t e n s i t t e n s i t t i n s i t t i n g Diskrétní data: vzdálenost množin Diskrétní data: Editační vzdálenost stromů •Binární klasifikace: rozpoznání jmen osob (Named Entity Recognition) • • • • •Kolik jmen model rozpoznal? •Kolik jmen model nenašel? •Kolik jmen, která nebyla jmény, model označil jako jména? Porovnání s „pravdou“: binární data April Jackson comes from Jackson , Mississippi . 1 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 Pravda Predikce Souhlasí? 1 0 no 1 1 yes 0 0 yes 0 0 yes 0 1 no 0 0 yes 0 0 yes 0 0 yes Binární data 1 0 1 1 1 0 1 5 pravda Šipka doprava: predikce predikce Matice záměn (Confusion matrix) April Jackson comes from Jackson , Mississippi . 1 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 TP 1 TN 5 FP 1 FN 1 Matice Záměn Confusion Matrix 1 0 1 1 1 0 1 5 pravda Šipka doprava: predikce predikce Typy chyb https://www.playinglean.com/blogs/playing-lean-blog/experiment-cards-under-the-magnifier-false-nega tives-and-false-positives type-i-and-type-ii-errors •Matice záměn neobsahuje kladné a záporné hodnoty. Od binární k n-ární klasifikaci Kočka Pes Myš Kočka 1 1 1 Pes 2 4 2 Myš 1 7 3 TP, TN, FP, FN je třeba spočítat pro všechny třídy odděleně. TP = 1 TN = 4 + 2 + 7 + 3 = 16 FP = 1 + 1 = 2 FN = 2 + 1 = 2 pravda Šipka doprava: predikce predikce Kočka Pes Myš TP 1 4 3 TN 16 6 8 FP 3 8 3 FN 2 4 8 P 0.25 0.33 0.5 R 0.33 0.5 0.27 F1 0.29 0.4 0.35 Od binární k n-ární klasifikaci Kočka Pes Myš Kočka 1 1 1 Pes 2 4 2 Myš 1 7 3 Vizualizace matice záměn Kočka Pes Myš Kočka 1 1 1 Pes 2 4 2 Myš 1 7 3 •Co je „pravda“ (ground truth, golden standard) a kde ji získat? • •Manuální anotace: •Anotační manuál, školení anotátorů •Vícenásobná anotace •Vyhodnocení anotátorů •Shoda a neshoda: •Jak rozhodnou v případě neshody? •Náhodná shoda? Porovnání s „pravdou“? Šipka doprava: Fleiss κ, Cohen κ Fleiss κ, Cohen κ •Predikce + Anotace •Metoda vyhodnocení Robustní evaluace Začátek dat Konec dat Zamíchat data Opakovat měření Křížová validace Kompromis mezi přesností a pokrytím Precision-Recall Tradeoff •Hypotéza + Pozorování • • • • • • Kvantitativní a kvalitativní vyhodnocení •Spojitá data: •Vzdálenost •Podobnost (opačná hodnota) •Diskrétní data: •Přesnost, pokrytí •Jsou všechny kategorie vzdáleny stejně? • Jak daleko je hypotéza od pozorování? Proč a jaký to má dopad? > Vyhrazeno: Analýza chyb Analýza chyb •Vyhodnocení typicky na menším vzorku dat •Otázky na celkový dopad modelu: •Jaký je přínos modelu? •Jaké pocity vzbuzují predikce? •Respondenti: •Pracovní pozice •Zkušenosti •... • • • • Kvalitativní vyhodnocení •Dotazník •Evaluační hra (gamification, •Serious games) •Sledování činnosti uživatele • •Gueter Josmy Faure: Euclidean Distance and Cosine Similarity. Which One to Use and When? Medium.com, September 2020. https://medium.com/swlh/euclidean-distance-and-cosine-similarity-which-one-to-use-and-when-28c97a18 fe68 •Benjamin Paassen: Revisiting the tree edit distance and its backtracing: A tutorial. Computer Science, Mathematics ArXiv. 2018. https://arxiv.org/abs/1805.06869v3 •Joydwip Mohajon: Confusion Matrix for Your Multi-Class Machine Learning Model: A beginner’s guide on how to calculate Precision, Recall, F1-score for a multi-class classification problem. Towards Data Science. 2020. https://towardsdatascience.com/confusion-matrix-for-your-multi-class-machine-learning-model-ff9aa3b f7826 •Wikipedia contributors. (2020, November 10). Precision and recall. In Wikipedia, The Free Encyclopedia. Retrieved 18:00, December 9, 2020, from https://en.wikipedia.org/w/index.php?title=Precision_and_recall&oldid=988053867 •Niklas Donges: Evaluation Metrics for Classification. 3. April 2018. machinelearning-blog.com. https://machinelearning-blog.com/2018/04/03/evaluation-metrics-for-classification/ • • Literatura