IB047 Automatické značkován Pavel Rychlý pary@fi.muni.cz 25. dubna 2013 Pavel Rychlý IB047 Automatické značkování ■ vstup text ■ výstup text + morfologické značky, příp. základní tvary ■ různé přístupy ■ pravidlové ■ statistické ■ trénování na označkovaných datech ■ vyhodnocení na nazávislých datech Vyhodnocení značkování precision - přesnost precision = tp+fp recall - pokrytí tp recall = tp+fn accuracy - úspěšnost tp+tn accuracy = tp+tn+fp+ f n Statistické značkování ■ pravděpodobnosti značek, slov, ... ■ volíme nepravděpodobnější značku ■ odhad pravděpodobností z trénovacích dat Vyhlazování pravděpodobností (ne-)nulová pravděpodobnost pro neviděné jevy snížení posti pro časté jevy, určení posti pro neviděné jevy Good-Turing N = Y!?™ rNr Po = A/1//V _ (r+1)S(/Vf+1) rr - rs(Nr)