FF:PLIN041 Vývoj počítačové lingvistiky

PLIN041 Vývoj počítačové lingvistiky

Filozofická fakulta
jaro 2019

Rozsah

0/2/0. 4 kr. Ukončení: k.

Vyučující

Mgr. Dana Hlaváčková, Ph.D. (přednášející)

Garance

doc. PhDr. Zdeňka Hladká, Dr.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Jaroslava Vybíralová
Dodavatelské pracoviště: Ústav českého jazyka – Filozofická fakulta

Rozvrh

Po 10:00–11:40 G13

Omezení zápisu do předmětu

Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 0/20, pouze zareg.: 0/20, pouze zareg. s předností (mateřské obory): 0/20

Mateřské obory/plány

Český jazyk se specializací počítačová lingvistika (program FF, B-FI)
Český jazyk se specializací počítačová lingvistika (program FF, N-FI)

Cíle předmětu

Předmět nabízí seznámení s vývojem počítačové lingvistiky (PL) - discipliny orientované na zkoumání přirozeného jazyka a vycházející z použití algoritmických popisů jednotlivých jazykových rovin. Při tomto postupu je základem formální popis jazyka, který umožňuje budovat jednotlivé algoritmy a posléze je implementovat jako konkrétní programy a programové systémy. Postupy PL jsou obvykle založeny buď na pravidlovém přístupu, kdy jazykové jevy jsou popisovány pravidly formulovanými jako konkrétní implementovatelné algoritmy, nebo přístupu statistickém, v němž jsou jazykové jevy popisovány statistickými technikami, implementovanými jako programové nástroje. Počátky PL spadají do konce 50. let minulého století, kdy v USA a SSSR začaly pokusy se strojovým překladem (MT) mezi angličtinou a ruštinou (P. Toma) a ruštinou a francouzštinou (O. Kulagina). PL je svým způsobem i předchůdcem umělé inteligence. První pokusy se strojovým překladem nebyly hodnoceny jako dostatečně úspěšné (zpráva ALPAC, 1966), proto se pozornost badatelů obrátila k automatickému zpracování přirozeného jazyka jako obecnému problému spočívajícímu v počítačovém zpracování jazykových dat. V 60. letech byl vývoj PL paradoxně ovlivněn N. Chomským (1963), jehož výsledky v oblasti formálních gramatik, jazyků a hierarchie automatů vedly k pokusům vytvořit jak formální popisy jednotlivých jazykových rovin, tj. fonologie, morfologie a syntaxe, tak i k pokusům formulovat je v algoritmické podobě a verifikovat jako konkrétní implementace. V průběhu 60. let se ukázalo, že uvedené (introspektivní) přístupy nedostačují. Tak se objevily první velké soubory textů na počítačích - korpusy (Brown Corpus,Francis, Kučera, 1961). V 70. a 80. letech se pozornost badatelů postupně obracela k empirickému paradigmatu, což vedlo k budování dalších korpusů a nástrojů (korpusových manažerů) pro ně. Objevily se také aplikace jako korektory překlepů, různé typy elektronických slovníků a lexikálních databází. V 90. letech se staly standardem korpusy čítající kolem 100 mil. tokenů, např. BNC, u nás pak ČNK, resp. SYN2000. Po r. 2000 se v oblasti PL začala pozornost více orientovat na statistické techniky a přístupy opírající se o strojové učení. V návaznosti na velké soubory textů se objevil statistický strojový překlad (SMP), který umožnil získat relativně lepší výsledky než dosavadní systémy (Google Translator, 2007). V oblasti PL v současnosti (2010 ...) probíhá intenzivní výzkum automatické morfologické analýzy, syntaktických analyzátorů a sémantiky (zjednoznačňování významů slov - Word Sense Disambiguation - WSD). Pozornost se rovněž věnuje počítačové analýze emocí. Předmět má výrazně interdisciplinární povahu, propojuje v sobě přístupy lingvistické, počítačové a spadá do umělé inteligence a kognitivní vědy. Studenti v něm získají základní představu o problematice počítačové lingvistiky a o jejím vývoji v domácím i mezinárodním kontextu.

Výstupy z učení

Student je po absolvování kurzu schopen:
- orientovat se v časovém sledu vývoje oblastí počítačové lingvistiky,
- popsat stručně historii oborů spadajících pod počítačovou lingvistiku,
- orientovat se v hlavních osobnostech a klíčových událostech historie počítačové lingvistiky.

Osnova

1960 - pokusy se strojovým překladem. Na začátku 60. let - vznik počítačové lingvistiky (PL) jako disciplíny, formální popis rovin jazyka - morfologie, syntaxe, sémantiky, pragmatiky v podobě počítačových aplikací. V průběhu 60. let počátek textových korpusů. Typy korpusů, korpusové nástroje, značkování korpusových textů. Disambiguace, pravidlové a statistické systémy. 70.-80. léta - výzkum morfologických struktur, notace, morfologické algoritmy a analyzátory, syntaktické analyzátory. 90. léta -sémantická (lexikální) analýza, elektronické slovníky, lexikální databáze (WordNet, EuroWordNet, thesaury), nástroje pro práci s lexikálními zdroji. 2000-10 - orientace na sémantickou analýzu věty využívající formalismu transparentní intenzionální logiky - normální translační algoritmus. 2000-10 - nástroje pro rozpoznávání anaforických vztahů a koreference. Průběžně - programové nástroje pro práci s přirozeným jazykem - korektory překlepů, gramatické korektory, překladače. 2000 - do současnosti - dialogové systémy - komunikace člověka se strojem. Nástroje pro reprezentaci znalostí v počítačích. Celkově - výklad zahrnuje PL v českém i mezinárodním kontextu.

Literatura

The Oxford handbook of computational linguistics. Edited by Ruslan Mitkov. Oxford: Oxford University Press, 2003, xx, 784. ISBN 0198238827. info
HAJIČOVÁ, Eva, Jarmila PANEVOVÁ a Petr SGALL. Úvod do teoretické a počítačové lingvistiky. Praha: Karolinum, 2002, 156 s. ISBN 8024604701. info
CHOMSKY, Noam. Syntaktické struktury : logický základ teorie jazyka : o pojmu "gramatické pravidlo". Vyd. 1. Praha: Academia, 1966, 209 s. URL info

Výukové metody

Výuka probíhá formou přednášek a seminářů, v nichž se kombinuje ústní projev učitele s použitím slidů a ukázek relevantních softwarových nástrojů. Studenti absolvují domácí úkoly, připravují prezentace na základě prostudované literatury a vypracovávají menší projekty. Na vhodných místech výuky se pracuje formou otevřeného dialogu mezi učitelem a studenty.

Metody hodnocení

V případě potřeby rozprava či orientační dialog, prezentace prostudované literatury (na slidech), tj. vybraných odborných článků z časopisů nebo konferenčních sborníků a též kapitol v relevantních knižních publikacích.

Další komentáře

Předmět je vyučován každoročně.

Předmět je zařazen také v obdobích podzim 2013, jaro 2014, podzim 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, podzim 2019, podzim 2020, podzim 2021, podzim 2022, podzim 2023, podzim 2024.

Statistika zápisu (jaro 2019, nejnovější)
Permalink: https://is.muni.cz/predmet/phil/jaro2019/PLIN041

FF:PLIN041 Vývoj počítačové lingvistiky - Informace o předmětu

PLIN041 Vývoj počítačové lingvistiky

Další aplikace