PA153 Počítačové zpracování přirozeného jazyka

Fakulta informatiky
podzim 2009
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
prof. PhDr. Karel Pala, CSc. (přednášející), Mgr. Eva Mráková, Ph.D. (zástupce)
Garance
prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc.
Rozvrh
Čt 12:00–13:50 B411
Předpoklady
Logické programování I Logická analýza přirozeného jazyka I a II
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
Předmět nabízí seznámení s počítačovým zpracováním přirozeného jazyka na jednotlivých rovinách: morfologické, syntaktické, sémantické a pragmatické. Na každé rovině se probírají teoretická východiska a používané algoritmické popisy a nástroje a také jejich organizace do složitějších systémů.
Studenti získají znalosti o jednotlivých rovinách analýzy jazyka - morfologické, syntaktické, sémantické a pragmatické.
Zvládnou problematiku jazykových dat - korpusů, korpusových nástrojů, značkování korpusových textů, budou se orientovat v otázkách disambiguace s použitím pravidlových a statistických systémů.
Studenti se seznámí representací morfologických stuktur, notací a algoritmy morfologické analýzy.
Budou schopni pracovat s representacemi syntaktických struktur, formálními gramatikami a jejich typy. Seznámí se s gramatikami - nekontextovými, funkcionálními, vymezených formulí (definite-clause) a s algoritmy syntaktické analýzy.
Budou probrány datové struktury jako valenční slovesné rámce a jejich typy.
Osvojí si problematiku sémantické representace. Bude probrána lexikální sémantika - významy slov a slovních spojení (kolokací), elektronické slovníky, lexikální databáze (WordNet,EuroWordNet, thesaury).
Budou charakterizovány základní principy sémantické analýzy věty na bázi logické sémantiky včetně Normálního translačního algoritmu.
Studenti získají základní představu o problematice pragmatiky.
Pozornost bude věnována analýze promluvy a její segmentaci, dále anafoře a koreferenci.
Prezentovány budou dialogové systémy.
Dále pak problematika inference a reprezentace znalostí pro systémy zpracování přirozeného jazyka.
Studenti získají základní informace o komunikačních agentech a evaluačních technikác
Osnova
  • Počítačové zpracování přirozeného jazyka a počítačová lingvistika.
  • Počítačové porozumění přirozenému jazyku.
  • Roviny analýzy jazyka - morfologie, syntax, sémantika.
  • Jazyková data - textové korpusy. Typy korpusů. Korpusové nástroje. Značkování korpusových textů. Disambiguace, pravidlové a statistické systémy.
  • Representace morfologických struktur, notace, morfologické algoritmy.
  • Representace syntaktických struktur - formální gramatiky a jejich typy. Nekontextové, funkční, DC (definite-clause) gramatiky. Algoritmy syntaktické analýzy. Valenční rámce a jejich typy.
  • Sémantická representace. Lexikální významy - slova a kolokace, elektronické slovníky, lexikální databáze (WordNet, EuroWordNet, thesaury).
  • Semantická analýza věty, Normální translační algoritmus.
  • Pragmatika.
  • Analýza promluvy a její segmentace. Anafora a koreference.
  • Dialogové systémy.
  • Inference a reprezentace znalosti pro NL systémy.
  • Komunikační agenti.
  • Evaluační techniky.
Literatura
  • ALLEN, James. Natural language understanding. 2nd ed. Redwood City: Benjamin/Cummings Publishing Company, 1995, xv, 654 s. ISBN 0-8053-0334-0. info
  • CHOMSKY, Noam. Syntaktické struktury. gramatické pravidlo. Praha: Academia, 1966, 209 s. URL info
Výukové metody
Výuka probíhá formou přednášek a seminářů, v nichž se kombinuje ústní projev učitele s použitím slidů a ukázek relevantních softwarových nástrojů. Studenti absolvují domácí úkoly, připravují prezentace na základě prostudované literatury a vypracovávají menší projekty. Na vhodných místech výuky se pracuje formou otevřeného dialogu mezi učitelem a studenty.
Metody hodnocení
ústní zkouška; psaný test
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích podzim 2002, podzim 2003, podzim 2004, podzim 2005, podzim 2006, podzim 2007, podzim 2008, podzim 2010, podzim 2011, podzim 2012, podzim 2013, podzim 2014, podzim 2015, podzim 2016, podzim 2017, podzim 2018, podzim 2019, podzim 2020, podzim 2021, podzim 2022, podzim 2023, podzim 2024.