Vyhodnocení Mezianotátorská shoda Strojové učení PLIN037 Sémantika a počítače Zuzana Nevěřilová xpopelk@fi.muni.cz Centrum zpracování přirozeného jazyka, B203 Fakulta informatiky, Masarykova univerzita 11. dubna 2019 Vyhodnocení Mezianotátorská shoda Strojové učení Matice záměn matice záměn (confusion matrix): můžeme použít pro klasifikační úlohy o dvou třídách co určil systém správná klasifikace + − + true positive false negative − false positive true negative Vyhodnocení Mezianotátorská shoda Strojové učení Vytvoření matice záměn anotátor původce shoda 1 T T ok 2 F T ne 3 T T ok Vyhodnocení Mezianotátorská shoda Strojové učení Vytvoření matice záměn anotátor původce shoda 1 T T ok 2 F T ne 3 T T ok co určil systém (původce) správná klasifikace + − + 2 0 − 1 0 Vyhodnocení Mezianotátorská shoda Strojové učení Co plyne z matice záměn? co určil systém správná klasifikace + − + true positive false negative − false positive true negative celková správnost (overall accuracy):Acc = TP+TN TP+TN+FP+FN celková chyba (overall error):Err = FP+FN TP+TN+FP+FN Vyhodnocení Mezianotátorská shoda Strojové učení Co plyne z matice záměn? co určil systém správná klasifikace + − + true positive false negative − false positive true negative celková správnost (overall accuracy):Acc = TP+TN TP+TN+FP+FN celková chyba (overall error):Err = FP+FN TP+TN+FP+FN přesnost (precision): TP TP+FP pokrytí/úplnost (recall): TP TP+FN Vyhodnocení Mezianotátorská shoda Strojové učení Co plyne z matice záměn? co určil systém správná klasifikace + − + true positive false negative − false positive true negative celková správnost (overall accuracy):Acc = TP+TN TP+TN+FP+FN celková chyba (overall error):Err = FP+FN TP+TN+FP+FN přesnost (precision): TP TP+FP pokrytí/úplnost (recall): TP TP+FN průměr: P+R 2 míra F1 (F1 score): 2PR P+R Vyhodnocení Mezianotátorská shoda Strojové učení Co plyne z matice záměn? co určil systém (původce) správná klasifikace + − + 2 0 − 1 0 přesnost (precision): TP TP+FP pokrytí/úplnost (recall): TP TP+FN míra F1 (F1 score): 2PR P+R Vyhodnocení Mezianotátorská shoda Strojové učení Mezianotátorská shoda • počet anotací, na kterých se dva anotátoři neshodli / celkový počet anotací • co když se neshodnou náhodou? • co když se shodnou náhodou? • co když je anotátorů více? Vyhodnocení Mezianotátorská shoda Strojové učení Mezianotátorská shoda • počet anotací, na kterých se dva anotátoři neshodli / celkový počet anotací • co když se neshodnou náhodou? • co když se shodnou náhodou? • co když je anotátorů více? výpočty κ (najdete v příručkách z ekonomie) Cohen κ pro dva anotátory Fleiss κ pro více anotátorů Fleiss κ pro dva anotátory neodpovídá Cohen κ Vyhodnocení Mezianotátorská shoda Strojové učení Jak trénovat a testovat férově • testovací data bychom nikdy neměli vidět • testovací data částečně vidět můžeme, ale výsledek to může zkreslit: development a evaluation • křížová validace Vyhodnocení Mezianotátorská shoda Strojové učení Strojové učení • máme hotový program • program mění svoje chování na základě trénovacích dat • správnost programu ověříme na testovacích datech Vyhodnocení Mezianotátorská shoda Strojové učení