Hodnocení kvality strojového překladu oooooooooooooo Další témata ooooooooo Ukázka možných otázek ooooo Závěr o PLIN009 - Strojový překlad Automatické hodnocení kvality SP Drobné kapitoly o SP Vít Baisa jaro 2012 Hodnocení kvality strojového překladu »0000000000000 Další témata 000000000 Ukázka možných otázek 00000 Závěr o Úvod Motivace • plynulost (fluency) - je překlad plynulý, má přirozený slovosled? « adekvátnost (adequacy) - zachovává překlad význam, nebo je změněn, nekompletní? • srozumitelnost (intelligibility) « neplést s přesností (precision) a pokrytím (recall) Hodnocení kvality strojového překladu o«oooooooooooo Další témata ooooooooo Ukázka možných otázek ooooo Úvod Stupnice hodnocení plynulost 5 | bezchybný jazyk 4 dobrý jazyk 3 nepřirozený 2 neplynulý jazyk 1 nesrozumitelný adekvátnost 5 veškerý význam 4 většina významu 3 dostatečně významu 2 málo z původního významu 1 žádný význam Hodnocení kvality strojového překladu oo»ooooooooooo Další témata ooooooooo Ukázka možných otázek ooooo Závér o Úvod Anotační nástroj Judge Sentence Y nu huvc already julIjciI 14 "I 3' "'4 scihcikc^. mľ. nic i-;i i 4 secnnds per sentence, Reference; rulhcr . llie Iv. n awiilrics liuni n Inhnralury needed Im ľ Ih c ii He m ;il v. ink ins nftbe eu . Translation Adequacy Fluency hiith ciiun tries arc rather a iiLVcsMiry lahitrjhtry Ihc ink'null i ipcralinii of the eu . 12 3 4 5 r r r r ŕ 1 2 3 4 5 both countries arc li ik\,ssliiv kil" > ruli >r- lil iiil.iiiliI functicining of the eu . r r c r r 1 2 3 4 5 r r p r r 1 2 3 4 5 the two countries liic r Lithe r li kit-i uliIi h y nceessLiry 1 "■ ■ i" Ihc inlcriiLiI ■• i ukings u 1" the- cu . c r r p r 1 2 3 4 5 C C C f C 1 2 3 4 5 the two countries Lire r Lithe r li lut^i ■ r nil ■ r y I'm' tlie iincnuil « likings of the eu . r r (f r r 1 2 3 4 5 r c c r f 1 2 3 4 5 the iv, li countries arc ralbcr li iiccessaiy kihniLili uy iiikTiuil vi i irk in as of theeu . c r p r r 1 2 3 4 5 r r p r r 1 2 3 4 5 Annotator: Philipp Koehn Tusk: WMT06 French-English ™, 1 Instructions 5= All Meaning 4= Most Meaning 3= Much Meaning 2= Little Meaning 1 - None 5= Flawless English 4= Good English 3= Non-native English 2= Disfluent English 1= Incomprehensible Hodnocení kvality strojového překladu 000*0000000000 Další témata ooooooooo Ukázka možných otázek ooooo Úvod Nevýhody ručního hodnocení « ruční hodnocení je pomalé, drahé, subjektivní • mezianotátorská shoda (MAS) ukazuje, že se lidé shodnou více na plynulosti než na adekvátnosti • jiné hodnocení: je X lepší překlad než Y? • ->•ještě větší MAS Hodnocení kvality strojového překladu 0000*000000000 Další témata ooooooooo Ukázka možných otázek ooooo Závěr o Automatické hodnocení kvality Automatické hodnocení překladu • výhody: rychlost, cena; nevýhody: měříme opravdu kvalitu? • gold standard: ručně připravené referenční překlady • kandidát c se srovnává s n referenčními překlady r, • paradox automatického hodnocení: úkol AHKSP odpovídá situaci, kdy má student hodnotit svou vlastní písemnou práci: jak pozná, v čem udělal chybu? • různé přístupy: n-gramová shoda mezi c a n, editační vzdálenost, ... Další témata ooooooooo Ukázka možných otázek ooooo Hodnocení kvality strojového překladu ooooo»oooooooo Automatické hodnocení kvality Pokrytí a přesnost na slovech Nejjednodušší způsob automatického hodnocení system a: Israeli officials rosponsibility ef airport safety reference: Israeli officials are responsible for airport security Závěr o přesnost pokrytí f-score correct _ 3 _ ^ output-length 6 correct 43% reference-length 7 precision x recall .5 x .43 {precision + recall)/2 (.5 + .43)/2 46% Hodnocení kvality strojového překladu oooooooooooooo Další témata ooooooooo Ukázka možných otázek ooooo Závěr o Automatické hodnocení kvality Pokrytí a přesnost - nedostatky system a: Israeli officials rosponsibility ef airport safety reference: Israeli officials are responsible for airport security system b: airport security Israeli officials are responsible metrika systém A systém B přesnost 50% 100% pokrytí 43% 100% f-score 46% 100% Nepostihuje se nesprávný slovosled. Hodnocení kvality strojového překladu ooooooo»oooooo Další témata ooooooooo Ukázka možných otázek ooooo Závěr o Automatické hodnocení kvality BLEU • nejznámější (standard), nejpoužívanější, nejstarší (2001) • IBM, Papineni • n-gramová shoda mezi referencí a kandidáty • počítá se přesnost pro 1 až 4-gramy • extra postih za krátkost (brevity penalty) BLEU = min (1, o^put-len9th \ « i V reference-length) lj Hodnocení kvality strojového překladu oooooooo#ooooo Další témata ooooooooo Ukázka možných otázek ooooo Automatické hodnocení kvality BLEU - příklad system a: | Israeli officials | responsibility of | airport | safety 2-gram match 1-gram match reference: Israeli officials are responsible for airport security system b: | airport security 11 Israeli officials are responsible! 2-gram match 4-gram match metrika systém A systém B přesnost (1gram) 3/6 6/6 přesnost (2gram) 1/5 4/5 přesnost (3gram) 0/4 2/4 přesnost (4gram) 0/3 1/3 brevity penalty 6/7 6/7 BLEU 0% 52% Hodnocení kvality strojového překladu Další témata Ukázka možných otázek Závěr ooooooooo»oooo ooooooooo ooooo o Automatické hodnocení kvality Další metriky • NIST • NIST: National Institute of Standards and Technology • vážení shod n-gramů podle informační hodnoty • velmi podobné výsledky jako BLEU (varianta) • N EVA • Ngram EVAluation • úprava BLEU skóre pro kratší věty • bere v potaz i synonyma (kladně hodnotí použití synonyma ve smyslu stylistické bohatosti) • WAFT • Word Accuracy for Translation • editační vzdálenost mezi car • WAFT = 1-^vj Hodnocení kvality strojového překladu oooooooooo#ooo Další témata ooooooooo Ukázka možných otázek ooooo Automatické hodnocení kvality Další metriky II TER • Translation Edit Rate • nejmenší počet kroků (smazání, přidání, prohození, změna) « TER — počet editací ~~ prum. počet ref. slov • r — dnes jsem si při fotbalu zlomil kotník • c — při fotbalu jsem si dnes zlomil kotník • TER = 4/7 HTER • Human TER • nejdříve ručně vytvořena r a na ni aplikováno TER METEOR • uvažuje synonyma (WordNet) a • morfologické varianty slov Hodnocení kvality strojového překladu ooooooooooo»oo Další témata ooooooooo Ukázka možných otázek ooooo Závěr o Hodnocení hodnocení Hodnocení hodnotících metrik Korelace automatického hodnocení s manuálním. ♦ Adequacy o Fluency 0 F R1 = 9C J - 88.0°. .t nnf E. -3.0 -1 E -1 0 -0 5 10 1 o : O < * Human Judgments Hodnocení kvality strojového překladu 000000000000*0 Další témata ooooooooo Ukázka možných otázek ooooo Hodnocení hodnocení Hodnocení překladu - EuroMatrix Euro! Matrix Hodnocení kvality strojového překladu ooooooooooooo* Hodnocení hodnocení Další témata ooooooooo Ukázka možných otázek ooooo Hodnocení překladu podle jazykových párů - II eh | i cs :=. ii.ň M TJ ň 23.7 EL 393 3Z4 ES 50.0 3L1 42.7 et ::; ;- ; 373 h 43j: 232 ff : A) 343 43.1 HU 43.0 ;i " 343 it eu 323 443 LT 313 37.6 333 LV 34.0 23.1 es.o mt Tli 322 372 NL ľi f 233 -f f PL 602 3J naz PT 50.7 514 423 KO SI E 33.1 333 SK f ľ. f ĽL6 ÍS.4 SL 61.0 33.1 373 SV 333 263 41J0 | :f | :f | r- | e. | 46.S ľ.I.S 30.0 41Ů i 3E.7 334 39.6 343 S 334 4i-l Í2.3 42j6 J1 43.6 34.6 44.1 33.7 343 433 37.7 44J. J 42.7 373 44.4 534 373 332 373 2SZ 56j0 32.0 373 272 43.1 iF ľ 47j4- 423 343 30.0 33ÍJ z?Ji 443 FF e 433 40£ 333 370 3S3 Z63 33j0 373 IF ľ 23.7 372 273 3B3 33.7 Z7JO 43.4 333 442 42.1 342 324 42-H 402 373 4