IB047 Automatické značkován Pavel Rychlý pary@fi.muni.cz 25. dubna 2013 Pavel Rychlý IB047 Automatické značkování ■ vstup text ■ výstup text + morfologické značky, příp. základní tvary ■ různé prístupy ■ pravidlové ■ statistické ■ trénování na označkovaných datech ■ vyhodnocení na nazávislých datech Pavel Rychlý IB047 Vyhodnocení značkování precision - přesnost tp precision tp+fp recall - pokrytí recall — ^ tp+fn accuracy - úspěšnost tp+tn accuracy tp + tn + fp + f n Pavel Rychlý IB047 Statistické značkování ■ pravděpodobnosti značek, slov, ... ■ volíme nejpravděpodobněji značku ■ odhad pravděpodobností z trénovacích dat Pavel Rychlý IB047 « □ ► 4 Vyhlazování pravděpodobností (ne-)nulová pravděpodobnost pro neviděné jevy snížení posti pro časté jevy, určení posti pro neviděné jevy Good-Turing N = rNr Po = N,/N _ (r+1)S(A/f+1) & — rS(Nr)