PLIN041 Vývoj počítačové lingvistiky

Filozofická fakulta
jaro 2018
Rozsah
0/2/0. 4 kr. Ukončení: k.
Vyučující
Mgr. Dana Hlaváčková, Ph.D. (přednášející)
Garance
doc. PhDr. Zdeňka Hladká, Dr.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Jaroslava Vybíralová
Dodavatelské pracoviště: Ústav českého jazyka – Filozofická fakulta
Rozvrh
Út 14:10–15:45 G13
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 0/20, pouze zareg.: 0/20, pouze zareg. s předností (mateřské obory): 0/20
Mateřské obory/plány
Cíle předmětu
Předmět nabízí seznámení s vývojem počítačové lingvistiky (PL) - discipliny orientované na zkoumání přirozeného jazyka a vycházející z použití algoritmických popisů jednotlivých jazykových rovin. Při tomto postupu je základem formální popis jazyka, který umožňuje budovat jednotlivé algoritmy a posléze je implementovat jako konkrétní programy a programové systémy. Postupy PL jsou obvykle založeny buď na pravidlovém přístupu, kdy jazykové jevy jsou popisovány pravidly formulovanými jako konkrétní implementovatelné algoritmy, nebo přístupu statistickém, v němž jsou jazykové jevy popisovány statistickými technikami, implementovanými jako programové nástroje. Počátky PL spadají do konce 50. let minulého století, kdy v USA a SSSR začaly pokusy se strojovým překladem (MT) mezi angličtinou a ruštinou (P. Toma) a ruštinou a francouzštinou (O. Kulagina). PL je svým způsobem i předchůdcem umělé inteligence. První pokusy se strojovým překladem nebyly hodnoceny jako dostatečně úspěšné (zpráva ALPAC, 1966), proto se pozornost badatelů obrátila k automatickému zpracování přirozeného jazyka jako obecnému problému spočívajícímu v počítačovém zpracování jazykových dat. V 60. letech byl vývoj PL paradoxně ovlivněn N. Chomským (1963), jehož výsledky v oblasti formálních gramatik, jazyků a hierarchie automatů vedly k pokusům vytvořit jak formální popisy jednotlivých jazykových rovin, tj. fonologie, morfologie a syntaxe, tak i k pokusům formulovat je v algoritmické podobě a verifikovat jako konkrétní implementace. V průběhu 60. let se ukázalo, že uvedené (introspektivní) přístupy nedostačují. Tak se objevily první velké soubory textů na počítačích - korpusy (Brown Corpus,Francis, Kučera, 1961). V 70. a 80. letech se pozornost badatelů postupně obracela k empirickému paradigmatu, což vedlo k budování dalších korpusů a nástrojů (korpusových manažerů) pro ně. Objevily se také aplikace jako korektory překlepů, různé typy elektronických slovníků a lexikálních databází. V 90. letech se staly standardem korpusy čítající kolem 100 mil. tokenů, např. BNC, u nás pak ČNK, resp. SYN2000. Po r. 2000 se v oblasti PL začala pozornost více orientovat na statistické techniky a přístupy opírající se o strojové učení. V návaznosti na velké soubory textů se objevil statistický strojový překlad (SMP), který umožnil získat relativně lepší výsledky než dosavadní systémy (Google Translator, 2007). V oblasti PL v současnosti (2010 ...) probíhá intenzivní výzkum automatické morfologické analýzy, syntaktických analyzátorů a sémantiky (zjednoznačňování významů slov - Word Sense Disambiguation - WSD). Pozornost se rovněž věnuje počítačové analýze emocí. Předmět má výrazně interdisciplinární povahu, propojuje v sobě přístupy lingvistické, počítačové a spadá do umělé inteligence a kognitivní vědy. Studenti v něm získají základní představu o problematice počítačové lingvistiky a o jejím vývoji v domácím i mezinárodním kontextu.
Výstupy z učení
Student je po absolvování kurzu schopen:
- orientovat se v časovém sledu vývoje oblastí počítačové lingvistiky,
- popsat stručně historii oborů spadajících pod počítačovou lingvistiku,
- orientovat se v hlavních osobnostech a klíčových událostech historie počítačové lingvistiky.
Osnova
  • 1960 - pokusy se strojovým překladem. Na začátku 60. let - vznik počítačové lingvistiky (PL) jako disciplíny, formální popis rovin jazyka - morfologie, syntaxe, sémantiky, pragmatiky v podobě počítačových aplikací. V průběhu 60. let počátek textových korpusů. Typy korpusů, korpusové nástroje, značkování korpusových textů. Disambiguace, pravidlové a statistické systémy. 70.-80. léta - výzkum morfologických struktur, notace, morfologické algoritmy a analyzátory, syntaktické analyzátory. 90. léta -sémantická (lexikální) analýza, elektronické slovníky, lexikální databáze (WordNet, EuroWordNet, thesaury), nástroje pro práci s lexikálními zdroji. 2000-10 - orientace na sémantickou analýzu věty využívající formalismu transparentní intenzionální logiky - normální translační algoritmus. 2000-10 - nástroje pro rozpoznávání anaforických vztahů a koreference. Průběžně - programové nástroje pro práci s přirozeným jazykem - korektory překlepů, gramatické korektory, překladače. 2000 - do současnosti - dialogové systémy - komunikace člověka se strojem. Nástroje pro reprezentaci znalostí v počítačích. Celkově - výklad zahrnuje PL v českém i mezinárodním kontextu.
Literatura
  • The Oxford handbook of computational linguistics. Edited by Ruslan Mitkov. Oxford: Oxford University Press, 2003, xx, 784. ISBN 0198238827. info
  • HAJIČOVÁ, Eva, Jarmila PANEVOVÁ a Petr SGALL. Úvod do teoretické a počítačové lingvistiky. Praha: Karolinum, 2002, 156 s. ISBN 8024604701. info
  • CHOMSKY, Noam. Syntaktické struktury : logický základ teorie jazyka : o pojmu "gramatické pravidlo". Vyd. 1. Praha: Academia, 1966, 209 s. URL info
Výukové metody
Výuka probíhá formou přednášek a seminářů, v nichž se kombinuje ústní projev učitele s použitím slidů a ukázek relevantních softwarových nástrojů. Studenti absolvují domácí úkoly, připravují prezentace na základě prostudované literatury a vypracovávají menší projekty. Na vhodných místech výuky se pracuje formou otevřeného dialogu mezi učitelem a studenty.
Metody hodnocení
V případě potřeby rozprava či orientační dialog, prezentace prostudované literatury (na slidech), tj. vybraných odborných článků z časopisů nebo konferenčních sborníků a též kapitol v relevantních knižních publikacích.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích podzim 2013, jaro 2014, podzim 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2019, podzim 2019, podzim 2020, podzim 2021, podzim 2022, podzim 2023, podzim 2024.