Úvod do strojového překladu  (PV061)
 Karel Pala
pala@fi.muni.cz
Centrum ZPJ FI MU
 podzim 2019

Výchozí body – vztah SP a NLP
•SP je testovacím prostředím pro NLP
•Techniky vyvinuté v oblasti NLP se ověřují       v systémech SP
•SP zahrnuje jednotlivé jazykové roviny:
-Morfologii – slova a jejich tvary
-Syntax – vztahy mezi slovy, struktura věty
-Sémantiku – význam slov a význam vět
-SP mluvené řeči – zahrnuje uvedené výše (ASR)
-V souč. statistické techniky, neuronové sítě

Historie strojového překladu
•C. Shannon, W. Weaver (1948-49): text v čínštině je stejný jako v angličtině, je jen v jiném kódu
(naivní)
•Georgetownský experiment – 1956,  R-A, P. Toma
•Rusové – O. Kulagina, I. Mel'čuk, 1958, Fr – Ruš.
•Systran, Peter Toma – později oficiální SP systém EU
•Hlasový SP – Verbmobil – 1993-2001, angličtina-japonština-němčina (Tuebingen, 100 mil. Dm)
•V poslední době: pravidlový vs. statistický přístup,
•RBMT v kombinaci se SMT + hybridní řešení
•Google Translator – uplatnění neuronových  sítí – lepší výsledky
•Existují rozdíly v kvalitě u jazykových dvojic (A – Č)

SP – pokračování historie
•Zpráva ALPAC, J. R. Pierce,1964(6), vláda USA
•(Automatic Language Processing Advisory Committee, 7 odborníků)
•Skepticky hodnotila výzkum v oblasti PL (CL) a SP
•Doporučení posílit základní výzkum v oblasti SP
•Zpráva vedla v USA ke snížení finanční podpory      v oblasti SP, zpomalení výzkumu
•https://en.wikipedia.org/wiki/ALPAC
•UK, Francie, později zpráva JTEC 1992 (J.Tech.C.),
•Velký projekt Eurotra – financován EK 1978-1992
•proj. EuroMatrix a EuroMatrix-plus 2006-09-12
•
•
•

SP v českém prostředí
•Seminář SP na FF UK, B. Palek, P. Sgall,
    (Novák, Konečná, Hajičová, Nebeský1958-60 a dále)
•Pokusy s českým SP z angličtiny – P. Sgall, E. Hajičová, počítače SAPO, LGP, EPOS •Po r. 1968
rozštěpení pražské skupiny na dvě, FF UK (Novák, Palek, Konečná), MFF UK (Sgall, Hajičová)
•Experimenty se systémem Ruslan, K. Oliva, J. Hajič (VÚMS, Svoboda, sálové počítače) •V současnosti
– ÚFAL MFF UK, J. Hajič, Bojar, systémy EuroMatrix, EUM+
•SP se zčásti věnuje pozornost v CZPJ (V. Baisa)

Příklad
Viz G. Translator
Shrinkage
Úbytek, ztráta, snížení, redukce
woman drive drunk

Systémy strojového překladu I
•pravidlové (RBMT) – vs. statistické (SMT) a s NS
•a) Přímé systémy – 1. generace, doslovný překlad                                       zdroj.text
-> MFA -> slovník -> přeuspořádání. -> cílový text, ruská věta My trebuem mira se přeloží do ang.
jako We want world nebo We want peace
•Nepřímé systémy – 2. generace                                  b) transferové - zdrojov. text ->
analýza: lex., mf.,synt. (Ri) -> transfer (Ri    -> Rj)  -> syntéza: synt., mf. -> cílový text
(postred.), novým prvkem je syntaktická (příp. i sém.)
•reprezentace, mezireprezentace, transferová (převodní) pravidla, jazyková závislost Ri  i Rj

Systémy SP II
•c) s převodním jazykem – univerzální, multilinguální.
•Zdrojový text -> nezávislá analýza -> reprez. v PJ -> nezávislá syntéza -> cílový
text,
 - poskytuje možnost zpětného překladu a testování – PJ
 - vhodný symbolický systém, logický kalkul, PK1 nebo
    formule v systému jako TIL, je jazykově nezávislý,
•přidání nového jazyka vyžaduje přidat jen 2 moduly, u transferových systémů – 4,
•u transferového překladu jsou komplikace s jazykově nezávislými reprezentacemi, rozdíly a-č, č-a
•Systém Rosetta 1986 – http://mt-archive.info/IAI-1986-Appelo.pdf

Systémy SP III
d) Statistický SP (SMT)
•Využití velkých dat, paralelních korpusů
•Jazykové modely, n-gramy
•Hlavní představitel: Google Translator a další
•Hybridní – Tecto SP (ÚFAL), Chimera: Mos.
•Rozšíření o neuronové sítě – nová verze Gtranl.
e) Systémy s překladovou pamětí – Trados
•Využití databází již přeložených textů,
•paralelních korpusů
•Používá se pro lokalizaci, práce s terminologií
•

 Některé příklady systémů SP
•TAUM Meteo 1981, ang.-franc., Montreal Univ – práce s podjazykem (počasí) – RBMT
•TAUM Aviation 1985, ang.-franc. – RBMT
•Další pravidlový syst.– Systran (Apollo, US AF, donedávna používán pro EU)
•Hlasový SP, Verbmobil, 1993-2001, ang. něm. jap
•Statistický – Moses, Google Tr., v současnosti
•Hybridní – faktorovaný – EuroMatrix – ÚFAL
•TectoMT – využití tektogramatické roviny
•PRESEMT – EU proj. 2011-2014 – naše účast

Kritéria kvality překladu
•Věrnost – překlad musí přenášet tutéž informaci (význam) jako originál, A student reads the book.
•Srozumitelnost – míra jasnosti každé přeložené věty musí odpovídat originálu
•Stylistická vhodnost – nakolik je cílový text vhodný pro cílového uživatele vzhledem k danému
komunikačnímu záměru, japonština
•To jsou základní a zcela obecná kritéria.
•Další parametry pro hodnocení kvality překladu a) jazyková obecnost – kolik vstupních a výstupních
jazyků daný systém SP pokrývá

Kritéria kvality překladu II
b) rozsah pokrytí ve slovníku – počet slovních druhů (otevřených, uzavřených) ve
slovníku,                         c) gramatické pokrytí – procento kompletních vět, jež systém SP
beze zbytku analyzuje nebo generuje,
d) procento negramatických vstupů, které je systém schopen zpracovat (podle testovacího seznamu),
e) hodnocení kvality přiřazení mezi lexikálními jednotkami v obecném slovníku systému,
f) aplikační a tematická obecnost – počet pokrytých věcných oblastí (domén) a rozsah jejich pokrytí

Kritéria kvality překladu III
•Stupeň automatizace – míra intervence v překladovém cyklu – čím méně, tím lépe – pre- a
posteditace, interaktivní desambiguace.
•Množství času potřebného pro lidský zásah
•Celkový čas potřebný pro úplný překlad
•Míra potřebné preeditace a posteditace
•Práce zkušeného překladatele, preeditor (desambiguátor) nemusí znát cílový jazyk, nižší
kvalifikace – nižší náklady

Kritéria kvality překladu IV
•Sémantická přesnost – míra, v níž přeložený text vyjadřuje stejný význam jako vstupní text
•centrální kritérium pro posouzení kvality překladu, důležité pro manuály, předpovědi počasí,
zákony a předpisy
•Termíny – jako: rozdělovač, hlava motoru, státní podpora, daňový poplatník musí být přeloženy
přesně
•Pochopitelnost – míra, v níž je přeložený text srozumitelný pro čtenáře cílového jazyka bez
nahlížení do zdrojového textu.

Kritéria kvality překladu V
•Stylistická adekvátnost (vhodnost) – míra, v níž je cílový text vhodný pro zamýšlené adresáty,
např. angl. – japonština – překlad může být srozumitelný i významově přesný, ale nevhodný sociálně
kvůli honorifikaci – zdvořilostních  obratů, bez nichž by se text nedal použít
•je tedy nutná posteditace – podobně v češtině existuje tykání a vykání (není v ang.)
•Podobně – text s odbornými termíny (pro odborníka) je nevhodný pro člověka z ulice, implicitní
presupozice – nevyslovený předpoklad, kvantifikace – číselné vyjádření aj. – stylistika

Kritéria kvality překladu VI
•Uvedené rozdíly je nesnadné kvantifikovat, viz dále.
•Tematická a jazyková portabilita – míra, s níž lze přidat k SP systému další věcné oblasti a
jazyky.
•Dá se měřit množstvím času potřebného pro přidání souboru gram. pravidel dalšího jazyka a slovníku
termínů pro novou oblast včetně přiřazení ekvivalentů cílového jazyka.
•Systémy s PJ, u nich pracujeme s jazykově nezávislou reprezentací dané tematické oblasti (domény).

Vlastnosti systémů SP I
•Rozšiřitelnost – míra, v níž MT systém dovoluje hladkou a inkrementální extenzi gramatických
pravidel a slovníku a věcné oblasti pro jazyk,        s nímž se už v systému pracuje. Závisí to na
míře deklarativnosti a transparence použité reprezentace gramatických pravidel a slovníkových hesel
a na nástrojích používaných pro údržbu systému.
•Dá se měřit množstvím času potřebného pro:                            - kódování gr. pravidel a
slovníkových hesel                                        - jejich testování
                    - verifikaci a kontrolu, že přidání nezpůsobí      nečekané a nežádoucí
konflikty.

Vlastnosti systémů SP II
•Zlepšitelnost – míra, v níž systém umožňuje zlepšit úroveň automatizace bez kompromisů       v
kvalitě překladu,
• je to míra otevřenosti systému: zlepšení bez přebudování designu.
•Ergonomičnost – míra odolnosti systému vůči  vzniku chyb, kvalita sw. rozhraní (pokročilost),
napojení na strojově čitelné slovníky, odkazy do textu překladu, vazby na databázi překladů
(systémy jako TRADOS).
•Integrovatelnost – možnost začlenění do jin.syst.
•Sw. portabilita – přenos na jiné sw. platformy

Statistický SP (evaluace SMT)
Automatické metriky (pokrytí a přesnost)
•Bleu – kandidátský překlad proti vícenásobným referenčním překladům (viz později)
•NIST – modifikace Bleu, n-gramy
•METEOR – vážený harmonický průměr  přesnosti a pokrytí unigramu •Levenshteinova vzdálenost mezi
dvěma slovy je minimální počet editačních kroků (vložení,přesunutí)
Manuální evaluace, meze automatických metrik
•Srozumitelnost a věrnost, už zmíněno

Složky SP – vstupy – výstupy
•Interaktivita na vstupu, řešení víceznačností.
•Psaný vstup – ošetření pravopisu, korigování, interp., oddělovače,  převod do výstupního jazyka
Př.: This year, the man, however, and his wife, too, will go on holiday. – Letos ale ten člověk a
taky jeho žena pojedou na dovolenou.),
•Fonty – odlišný úzus, pomlčky, uvozovky, užití kurzívy, polotučného písma apod.
•Sw. zajištění vstupů a výstupů není jednoduché a je softwarově pracné, samostatná úloha

Morfologie při pravidlovém SP
•Typy jazyků – analytické: angličtina, franc., němč.,   - syntetické, flektivní: slov.jazyky –
ruš., češ., polš.     - aglutinační: ugrofinské, maď., finština, turečtina,
•Pro každý typ jazyka – vlastní morfologická  analýza, tj. pro vstupní větu – zpracování slov,
rozpoznání kolokací (MWEs), pak vlastní analýza
•Segmentace slovních tvarů, získání kmenů a gramatické informace (koncovky, alternace),
•Morfologické analyzátory, viz např. MAJKA,
•Struktura morf. analyzátorů v závislosti na jazyce, např. pro češtinu slovník kmenů, koncovkové
množiny, vzory

Syntaktická analýza při pravidl. SP
•Rozpoznání větných prvků a vztahů mezi nimi, po identifikaci tvarů slov – mfa a slovník, např.
kopu    - k1gMnSc2 (Nedvěd dal branku z rohového kopu)                   - k1gFnSc4 (nedávej to na
jednu kopu)                         - k5eAp1nStPmIaI (kopu si hrob)
•Nejprve je potřeba provést desambiguaci:
•3 významy, pak musíme provést synt. anal. a nějak reprezentovat vztahy mezi prvky ve větě – jak?
•Syntaktický strom vstupní věty –  stromové grafy
•vhodný typ formální gramatiky a synt. analyzátor

Synt.analýza při pravidlovém SP I
•Pracuje se s formálními gramatikami: CFG apod.
•Disambiguace: v rámci mfa i synt. analýzy
•Nalezení jednoznačného derivačního stromu ‏
•Dělá to vhodný syntaktický analyzátor (parser)
•Typy synt. analýzy: složková, závislostní aj.
•Modifikace formálních gramatik – zesílení CF formalismu, např. DC gramatiky v Prologu
•Použití valenčních rámců a sémantických rolí dává dobré výsledky – viz faktorový SP u SMT
•

Sémantická analýza u pravidl. SP
•Potřeba sémantické reprezentace – význam
•Lexikální analýza pokrývá významy slov a kolokací – problém slovníků pro SP, ne u SMT
•Významy ve víceznačných kontextech, např.
•Kolik to bude stát? What will be the price?
•U RBMT jde o významy celých vět a jejich reprezentace,
•též tu jde o vztah k reprezentaci znalostí
•Analýza promluvy a souvislého textu – vztahy odkazování (koreference, anafora)‏, (zájmena)

Reprezentace znalostí
•Jedna část pravidlového SP využívá znalostí o světě
•Ontologie – hierarchie pojmů a termínů
•Sémantické sítě, WordNet a EuroWordNet
•Encyklopedie, terminologické slovníky
•Znalosti o jazyce, valenční rámce a jejich databáze
•Common sense – neformální znalosti o světě
•KBMT – ne u SMT a NS, jiná metod. orientace

Data pro SP I (slovníky)
•Data pro SP – gramatické kategorie: značky
•Formální gramatika pro analýzu a syntézu (generování cílového textu),
•Lexikální: informace ve strojových slovnících,  slova, kolokace (MWEs, víceslovná spojení), např.
škola, vysoká škola, mateřská škola, WS
•Vztah slovníku a gramatiky – obvykle se tato data v SP systémech drží odděleně
•Lze pro SP použít normální elektronické slovníky – Leda, Lingea, PC Translator? Přímo ne. Jako
pomůcky ano.

 Data II
•Informace ve slovníku: morfologická, sém. rysy subkategorizace, valence, výběrová omezení
•Organizace lex. dat je dána typem SP systému -      a) systémy s přímým překladem – typicky jeden
dvojjazyčný sl. - na jedné straně údaje o LJ vstupního jazyka, na druhé straně přiřazení
ekvivalentů cílového jazyka,                            b) sl. mívá podobu seznamu všech tvarů
(ang.) nebo kmenů (češ.) + mf., synt., SR, inf. potřebná pro výběr alternativ, infce pro syntakt.
změny    v syntéze – výsledkem značně složitý slovník.

Data III
•Nepřímé systémy – moduly analýzy a syntézy jsou od sebe odděleny, oddělené jednojaz. slovníky pro
vst. a cílový jazyk, dále dvojjazyčný/é transf.sl., bývají jednodušší než u přímých syst. U každé
LJ – mf. inf., POS, SR, výb.omezení, valence
•Časté jsou samost. sl. homografů – bank (fin.inst., břeh), stát (země, zaujímat polohu, mít cenu).
•Informace pro výběr cílových ekv. (jeho formy) se často umisťuje do transferového dvojjaz.
slovníku,
•v praxi: slovníky frekventovaných výrazů, sl.idiomů, sl.nepravid.tv., sl. homografů, mikrosl. –
výměnné - zeměd., fyzika, žurnal., IT, sezn. termínů

Práce s literaturou (20 min.)
Systém Moses – 2.10. ( prezentace 10 min.)
Chimera (ÚFAL) – 9.10. (10 min.)
Faktorovaný překlad – 16.10. (prez. 15 min.)
TectoMT (Framework Treex) 23.10.
 SDL – Trados Studio, překl. paměti – 30.10.
Převodní jazyk – Rosetta – 6.11.
Verbmobil – 13.11.
Systran – test, co umí (chyby) – 20.11.
Google.Translate – (test a eval., chyby) – 27.11.

Osnova
1. Úvod (teoretická východiska překladu, automatického překladu) - kp
2. Historie (od vzniku počítačů) - kp
3. Pravidlové systémy - kp
4. Statistický strojový překlad - pr
    a. Jazykové modely
    b. Paralelní korpusy
    c. Překladové modely
5. Neuronové modely pro strojový překlad - vb
    a. Word embedding
    b. Feed-forward, recurrent NN
    c. Neural Machine Translation
6. Vyhodnocení strojového překladu - kp