Hodnocení kvality strojového překladu oooooooooooooo Další témata ooooooooo Ukázka možných otázek ooooo Závěr o PLIN009 - Strojový překlad Automatické hodnocení kvality SP Drobné kapitoly o SP Vít Baisa jaro 2012 Hodnocení kvality strojového překladu »0000000000000 Další témata 000000000 Ukázka možných otázek 00000 Závěr o Úvod Motivace • plynulost (fluency) - je překlad plynulý, má přirozený slovosled? « adekvátnost (adequacy) - zachovává překlad význam, nebo je změněn, nekompletní? • srozumitelnost (intelligibility) « neplést s přesností (precision) a pokrytím (recall) Hodnocení kvality strojového překladu o«oooooooooooo Další témata ooooooooo Ukázka možných otázek ooooo Úvod Stupnice hodnocení plynulost 5 | bezchybný jazyk 4 dobrý jazyk 3 nepřirozený 2 neplynulý jazyk 1 nesrozumitelný adekvátnost 5 veškerý význam 4 většina významu 3 dostatečně významu 2 málo z původního významu 1 žádný význam Hodnocení kvality strojového překladu oo»ooooooooooo Další témata ooooooooo Ukázka možných otázek ooooo Závér o Úvod Anotační nástroj Judge Sentence Y nu huvc already julIjciI 14 "I 3' "'4 scihcikc^. mľ. nic i-;i i 4 secnnds per sentence, Reference; rulhcr . llie Iv. n awiilrics liuni n Inhnralury needed Im ľ Ih c ii He m ;il v. ink ins nftbe eu . Translation Adequacy Fluency hiith ciiun tries arc rather a iiLVcsMiry lahitrjhtry Ihc ink'null i ipcralinii of the eu . 12 3 4 5 r r r r ŕ 1 2 3 4 5 both countries arc li ik\,ssliiv kil" > ruli >r- lil iiil.iiiliI functicining of the eu . r r c r r 1 2 3 4 5 r r p r r 1 2 3 4 5 the two countries liic r Lithe r li kit-i uliIi h y nceessLiry 1 "■ ■ i" Ihc inlcriiLiI ■• i ukings u 1" the- cu . c r r p r 1 2 3 4 5 C C C f C 1 2 3 4 5 the two countries Lire r Lithe r li lut^i ■ r nil ■ r y I'm' tlie iincnuil « likings of the eu . r r (f r r 1 2 3 4 5 r c c r f 1 2 3 4 5 the iv, li countries arc ralbcr li iiccessaiy kihniLili uy iiikTiuil vi i irk in as of theeu . c r p r r 1 2 3 4 5 r r p r r 1 2 3 4 5 Annotator: Philipp Koehn Tusk: WMT06 French-English ™, 1 Instructions 5= All Meaning 4= Most Meaning 3= Much Meaning 2= Little Meaning 1 - None 5= Flawless English 4= Good English 3= Non-native English 2= Disfluent English 1= Incomprehensible Hodnocení kvality strojového překladu 000*0000000000 Další témata ooooooooo Ukázka možných otázek ooooo Úvod Nevýhody ručního hodnocení « ruční hodnocení je pomalé, drahé, subjektivní • mezianotátorská shoda (MAS) ukazuje, že se lidé shodnou více na plynulosti než na adekvátnosti • jiné hodnocení: je X lepší překlad než Y? • ->•ještě větší MAS Hodnocení kvality strojového překladu 0000*000000000 Další témata ooooooooo Ukázka možných otázek ooooo Závěr o Automatické hodnocení kvality Automatické hodnocení překladu • výhody: rychlost, cena; nevýhody: měříme opravdu kvalitu? • gold standard: ručně připravené referenční překlady • kandidát c se srovnává s n referenčními překlady r, • paradox automatického hodnocení: úkol AHKSP odpovídá situaci, kdy má student hodnotit svou vlastní písemnou práci: jak pozná, v čem udělal chybu? • různé přístupy: n-gramová shoda mezi c a n, editační vzdálenost, ... Další témata ooooooooo Ukázka možných otázek ooooo Hodnocení kvality strojového překladu ooooo»oooooooo Automatické hodnocení kvality Pokrytí a přesnost na slovech Nejjednodušší způsob automatického hodnocení system a: Israeli officials rosponsibility ef airport safety reference: Israeli officials are responsible for airport security Závěr o přesnost pokrytí f-score correct _ 3 _ ^ output-length 6 correct 43% reference-length 7 precision x recall .5 x .43 {precision + recall)/2 (.5 + .43)/2 46% Hodnocení kvality strojového překladu oooooooooooooo Další témata ooooooooo Ukázka možných otázek ooooo Závěr o Automatické hodnocení kvality Pokrytí a přesnost - nedostatky system a: Israeli officials rosponsibility ef airport safety reference: Israeli officials are responsible for airport security system b: airport security Israeli officials are responsible metrika systém A systém B přesnost 50% 100% pokrytí 43% 100% f-score 46% 100% Nepostihuje se nesprávný slovosled. Hodnocení kvality strojového překladu ooooooo»oooooo Další témata ooooooooo Ukázka možných otázek ooooo Závěr o Automatické hodnocení kvality BLEU • nejznámější (standard), nejpoužívanější, nejstarší (2001) • IBM, Papineni • n-gramová shoda mezi referencí a kandidáty • počítá se přesnost pro 1 až 4-gramy • extra postih za krátkost (brevity penalty) BLEU = min (1, o^put-len9th \ « i V reference-length) lj Hodnocení kvality strojového překladu oooooooo#ooooo Další témata ooooooooo Ukázka možných otázek ooooo Automatické hodnocení kvality BLEU - příklad system a: | Israeli officials | responsibility of | airport | safety 2-gram match 1-gram match reference: Israeli officials are responsible for airport security system b: | airport security 11 Israeli officials are responsible! 2-gram match 4-gram match metrika systém A systém B přesnost (1gram) 3/6 6/6 přesnost (2gram) 1/5 4/5 přesnost (3gram) 0/4 2/4 přesnost (4gram) 0/3 1/3 brevity penalty 6/7 6/7 BLEU 0% 52% Hodnocení kvality strojového překladu Další témata Ukázka možných otázek Závěr ooooooooo»oooo ooooooooo ooooo o Automatické hodnocení kvality Další metriky • NIST • NIST: National Institute of Standards and Technology • vážení shod n-gramů podle informační hodnoty • velmi podobné výsledky jako BLEU (varianta) • N EVA • Ngram EVAluation • úprava BLEU skóre pro kratší věty • bere v potaz i synonyma (kladně hodnotí použití synonyma ve smyslu stylistické bohatosti) • WAFT • Word Accuracy for Translation • editační vzdálenost mezi car • WAFT = 1-^vj Hodnocení kvality strojového překladu oooooooooo#ooo Další témata ooooooooo Ukázka možných otázek ooooo Automatické hodnocení kvality Další metriky II TER • Translation Edit Rate • nejmenší počet kroků (smazání, přidání, prohození, změna) « TER — počet editací ~~ prum. počet ref. slov • r — dnes jsem si při fotbalu zlomil kotník • c — při fotbalu jsem si dnes zlomil kotník • TER = 4/7 HTER • Human TER • nejdříve ručně vytvořena r a na ni aplikováno TER METEOR • uvažuje synonyma (WordNet) a • morfologické varianty slov Hodnocení kvality strojového překladu ooooooooooo»oo Další témata ooooooooo Ukázka možných otázek ooooo Závěr o Hodnocení hodnocení Hodnocení hodnotících metrik Korelace automatického hodnocení s manuálním. ♦ Adequacy o Fluency 0 F R1 = 9C J - 88.0°. .t nnf E. -3.0 -1 E -1 0 -0 5 10 1 o : O < * Human Judgments Hodnocení kvality strojového překladu 000000000000*0 Další témata ooooooooo Ukázka možných otázek ooooo Hodnocení hodnocení Hodnocení překladu - EuroMatrix Euro! Matrix Hodnocení kvality strojového překladu ooooooooooooo* Hodnocení hodnocení Další témata ooooooooo Ukázka možných otázek ooooo Hodnocení překladu podle jazykových párů - II eh | i cs :=. ii.ň M TJ ň 23.7 EL 393 3Z4 ES 50.0 3L1 42.7 et ::; ;- ; 373 h 43j: 232 ff : A) 343 43.1 HU 43.0 ;i " 343 it eu 323 443 LT 313 37.6 333 LV 34.0 23.1 es.o mt Tli 322 372 NL ľi f 233 -f f PL 602 3J naz PT 50.7 514 423 KO SI E 33.1 333 SK f ľ. f ĽL6 ÍS.4 SL 61.0 33.1 373 SV 333 263 41J0 | :f | :f | r- | e. | 46.S ľ.I.S 30.0 41Ů i 3E.7 334 39.6 343 S 334 4i-l Í2.3 42j6 J1 43.6 34.6 44.1 33.7 343 433 37.7 44J. J 42.7 373 44.4 534 373 332 373 2SZ 56j0 32.0 373 272 43.1 iF ľ 47j4- 423 343 30.0 33ÍJ z?Ji 443 FF e 433 40£ 333 370 3S3 Z63 33j0 373 IF ľ 23.7 372 273 3B3 33.7 Z7JO 43.4 333 442 42.1 342 324 42-H 402 373 4
  • • DET-| NN2 JJ3 | DET-| JJ3 • koncové pravidlo N dům | house • smíšené pravidlo N ->•la maison JJ-| | the JJ-i house Hodnocení kvality strojového překladu oooooooooooooo Další témata 0000*0000 Ukázka možných otázek ooooo Závér o Tree-based překladové modely Paralelní tree-bank shall be passing on to you some comments Ich werde Ihnen die entsprechenden Anmerkungen aushändigen PPER VAFIN PPER ART ADJ NN VVFIN Hodnocení kvality strojového překladu oooooooooooooo Další témata ooooo«ooo Ukázka možných otázek ooooo Tree-based překladové modely Extrakce syntaktických překladových pravidel Hodnocení kvality strojového překladu oooooooooooooo Další témata oooooo#oo Ukázka možných otázek ooooo Hybridní systémy strojového překladu Hybridní systémy strojového překladu • kombinace pravidlových a statistických systémů • pravidlový překlad s post-editací statistickým systémem (např. vyhlazení jazykovým modelem) • příprava dat pro SMT na základě pravidel, upravení výstupu SMT na základě pravidel Hodnocení kvality strojového překladu oooooooooooooo Další témata ooooooo»o Ukázka možných otázek ooooo Závěr o CAT - Computer-aided Translation Computer-aided Translation • CAT - computer-assisted (aided) translation • mimo rámec strojového překladu « využití počítače v procesu ručního překladu • nástroje spadající pod CAT: • kontrolory pravopisu (překlepy): hunspell • kontrolory gramatiky: Lingea Grammaticon • správa terminologie • elektronické překladové slovníky: Metatrans • korpusové manažery: Manatee/Bonito • překladové paměti ->• Hodnocení kvality strojového překladu Další témata Ukázka možných otázek Závěr oooooooooooooo oooooooo# ooooo o CAT - Computer-aided Translation Překladová paměť • databáze segmentů: nadpisy, fráze, věty, termíny • které byly již dříve přeloženy překladové jednotky • výhody: • vše se překládá pouze jednou • snížení nákladů (opakované překlady manuálů) • nevýhody: • většina systémů je komerčních • překladové jednotky nelze jednoduše získat • chyba v překladu se opakuje • systém navrhuje překlad na základě přesné shody a nebo shody na základě stejného kontextu • systém může automaticky nahradit shodné segmenty Hodnocení kvality strojového překladu oooooooooooooo Další témata ooooooooo Ukázka možných otázek •oooo Závěr o Otázky Otázky I • Vyjmenujte alespoň 3 pravidlové systémy SR • Co znamená zkratka FAHQMT? • Co přináší model IBM-2 oproti IBM-1 ? • Popište princip noisy channel (vzorec, co je co). • Uveďte alespoň 3 systémy hodnocení kvality SP. • Uveďte typy překladu podle R. Jakobsona. • Co tvrdí Sapir-Whorfova hypotéza? • Co víte o Georgetownském experimentu? • Uveďte alespoň 2 příklady morfologicky bohatých jazyků. Hodnocení kvality strojového překladu oooooooooooooo Další témata ooooooooo Ukázka možných otázek o»ooo Závěr o Otázky Otázky II • Jaká je výhoda systému s interlinguou oproti transferovému systému? Načrtněte diagram překladu mezi 5 jazyky pro tyto 2 typy překladových systémů. • Uveďte příklad problematického řetězce znaků pro tokenizaci češtiny. • Co je to tagset? • Co je to treebank? • Co je to POS tagging? • Co je to granularita významu? • Jakou výhodu má prostorová reprezentace významu? Další témata Ukázka možných otázek Závěr ooooooooo oo»oo o Otázky Otázky III Hodnoceni kvality strojového prekladu oooooooooooooo • Co je to WSD? • Do jakých dvou skupin se dělí metody WSD? • Načrtněte Vauquoisův trojúhelník a načrtněte do něj statistický SP typu IBM-1. • Vysvětlete pojem garden path a vymyslete příklad pro češtinu (ne ze slajdu). • Načrtněte závislostní strukturu pro větu Máma mele malou Emu. • Co je to FrameNet? • Co je to gisting. • Načrtněte schéma statistického SP. Další témata Ukázka možných otázek Závěr ooooooooo ooo»o o Otázky Otázky IV Hodnoceni kvality strojového prekladu oooooooooooooo • Uveďte alespoň 2 příklady zdrojů paralelních textů. • Vysvětlete Zipfův zákon. • Máme dvě kostky - modrou a zelenou a hážeme jimi zároveň. Jedna náhodná proměnná odpovídá číslu, které padne na zelené, druhá náhodná proměnná, co padne na modré kostce. Jde o závislé nebo nezávislé proměnné? • Vysvětlete na příkladu Bayesovo pravidlo (uveďte vzorec). • Co dělá dekódovací algoritmus? • Napište vzorec nebo popište slovy Markovůvpředpoklad. • > 3 příklady častých trigramů (slovních) pro češtinu. • > 3 příklady častých trigramů (znakových) pro angličtinu. Hodnocení kvality strojového překladu oooooooooooooo Další témata ooooooooo Ukázka možných otázek oooo» Závěr o Otázky Otázky V • Pro kvalitu jazykového modelu chceme nízkou nebo vysokou perplexitu? • Napište zarovnávací funkci pro dvojici frází very small house a velmi malý dům. • Vysvětlete princip a kroky EM algoritmu. • Popište stručně IBM modely 1-5. • Načrtněte matici zarovnání slov pro věty / am very hungry a Jsem velmi hladový. Hodnocení kvality strojového překladu Další témata Ukázka možných otázek Závěr oooooooooooooo ooooooooo ooooo • Závěr Finale O Domluva termínů. Q Zpětná vazba. a Co chybělo. • Co nemuselo být. a Co bylo špatně. • Co by mělo být jinak. • Byly prezentace přínosné? • Byly stránky přínosné? • Byly slajdy přehledné? • Byl výklad srozumitelný? • Mám připravit studijní text ze slajdů?