PV061 Úvod do strojového překladu

Fakulta informatiky
podzim 2022
Rozsah
2/0/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
Garance
doc. RNDr. Aleš Horák, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
Po 14:00–15:50 A218
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 81 mateřských oborů, zobrazit
Cíle předmětu
Strojový překlad je jednou z praktických aplikací zpracování přirozeného jazyka. Na jeho historii můžeme dobře ilustrovat přístupy ke zpracování textů i umělé inteligence obecně od pravidlových systémů ke strojovému učení pomocí neuronových sítí.
Cílem kursu je seznámit studenty:
  • s principy strojového překladu, používanými technikami pro jeho řešení;
  • s přehledem hlavních překladových směrů v minulosti;
  • s problematikou víceznačnosti;
  • se vztahy k reprezentaci znalosti a reprezentaci významu;
  • s přípravou dat pro učení strojového překladu;
  • s technikami vyhodnocení kvality překladu.
    Pro moderní techniky hlubokého učení budou prezentovány části kódu v Pythonu i příklady použití dostupných systémů.
    Součástí kursu jsou rovněž experimenty s jednoduchým překladovým systémem pro češtinu a angličtinu na bázi neuronových sítí.
  • Výstupy z učení
    Student bude po absolvování předmětu schopen:
  • klasifikovat systémy strojového překladu a uvést jejich podstatu;
  • popsat komponenty neuronových sítí pro překlad;
  • porozumět postupu učení neuronových sítí;
  • pochopit metody vytváření pro učení systémů strojového překladu;
  • vytvořit jednoduchý systém strojového překadu;
  • vyhodnotit kvalitu překladu.
  • Osnova
    • Úvod, historie strojového překladu
    • Struktura jazyka, základy pravděpodobnosti
    • Jazykové modely, modely založené na frázích
    • Dekódování, hodnocení
    • Úvod do neuronových sítí, výpočetní grafy
    • Neuronové jazykové modely, neuronový strojový překlad
    • Dekódování v neuronovém strojovém překladu
    • Reprezentace slov, morfologie
    • Syntaxe a sémantika
    • Paralelní texty, získávání korpusů z internetu
    • Učení bez paralelních dat
    • Aktuální výzvy
    Literatura
      doporučená literatura
    • KOEHN, Philipp. Neural machine translation. Cambridge: Cambridge University Press, 2020, xiv, 393. ISBN 9781108497329. info
    • KOEHN, Philipp. Statistical machine translation. First published. Cambridge: Cambridge University Press, 2010, xii, 433. ISBN 9780521874151. info
      neurčeno
    • POIBEAU, Thierry. Machine translation. Cambridge, Massachusetts: The MIT Press, 2017, vi, 285. ISBN 9780262534215. info
    Výukové metody
    Výuka probíhá formou ústních přednášek a seminářů, v nichž se kombinuje použití slidů a ukázek relevantních softwarových nástrojů.
    Metody hodnocení
    Písemný test: zhruba 10 otázek, za které je možné získat maximálně 50 bodů. K úspěšnému zvládnutí je potřeba dosáhnout alespoň 25 bodů. V průběhu semestru je možné získat dalších až 20 bodů za práci v semestru (dobrovolné domácí úkoly, projekty).
    Vyučovací jazyk
    Angličtina
    Další komentáře
    Studijní materiály
    Předmět je vyučován každoročně.
    Předmět je zařazen také v obdobích podzim 2002, podzim 2003, podzim 2004, podzim 2005, podzim 2006, podzim 2007, podzim 2008, podzim 2009, podzim 2010, podzim 2011, podzim 2012, podzim 2015, podzim 2017, podzim 2019, podzim 2021, podzim 2023, podzim 2024.