PLIN041 Vývoj počítačové lingvistiky Kvantitativní lingvistika I Mgr. Dana Hlaváčková, Ph.D. Formality • prezentace v Učebních materiálech IS • ELF - doplňující materiály • závěrečný test Pár poznámek na úvod • přibližně 100 let vývoje oborů, které jsou dnes součástí počítačové lingvistiky • USA, Evropa, část Asie (Sovětský svaz), univerzity, armádní a vládní organizace • polovina z této doby - práce bez počítačů • dvě světové války, studená válka, ideologie • nejde o jednotný obor • lingvistika spojená s přírodními a technickými obory • osobnosti s širokým záběrem vědních oborů (často nejde o lingvisty) • během vývoje neustálený název - matematická lingvistika, jazykové inženýrství • dnes Počítačová lingvistika, Computational Linguistics • zdroje informací - knihy, články, vzpomínky studentů, nekrology • https://docs.google.eom/document/d/lpCCpiN8EJcD15pLhd2oqlPE9xzJS QUULVjzflwu32al/edit?usp=sharing Osnova kurzu (90. léta 19. st.-90. léta 20. st.) 1. Počátky matematického přístupu k jazyku 2. Frekvenční a statistické studie, kvantitativní lingvistika 3. Teorie komunikace a informace. Algebraická lingvistika 4. Strojový překlad. První počítače 5. Korpusová lingvistika a počítačová lexikografie 6. Počítačová lingvistika v ČR Počátky matematického přístupu k jazyku 2. pol. 19. st. - 60. léta 20. st. Počátky (2. pol. 19. st. - 60. léta 20. st.) • historicko-srovnávací jazykověda (19. st.) • mladogramatikové (konec 19. st.) • experimentální fonetika (rozvoj přírodních věd, přístrojové vybavení) • nové směry počátku 20. st., vliv přírodních věd • Ferdinand de Saussure • Strukturalismus Počátky (2. pol. 19. st. - 60. léta 20. st.) • 19./20. st. - pronikání statistických metod do lingvistiky • centrem pozornosti - frekvence (tiskaři, stenografové, Morseova abeceda) • německý stenograf F. W. Käding - Slovník četnosti výskytu německého jazyka, Häufigkeitswörterbuch der deutschen Sprache, 1897-98, cca 11 mil. slov (právní a obchodní texty), první frekvenční slovník, frekvence slov, slabik a písmen, 320 výrazů pokrývá % textu Počátky (2. pol. 19. st. - 60. léta 20. st.) • ruský matematik Andrej Andrejevič Markov (1856-1922) - Příklad statistického výzkumu textu Evžena Oněgina..., 1913 • Markovův proces - v procesu mluvení k již vysloveným jednotkám přibývají další podle pravidel jejich relativní frekvence • teorie pravděpodobnosti, teorie informace • [Pavel Novák - Teorie informace a lingvistika (Cesty moderní jazykovědy, 1964), relativní četnost písmen + pravděpodobnost výskytu písmena v závislosti na předchozím písmenu] Počátky (2. pol. 19. st. - 60. léta 20. st.) • americký lingvista německého původu George Kingsley Zipf, relativní frekvence hlásek, princip nejmenšího úsilí (20./30. léta 20. st.) • 1. Zipfův zákon r. f = k, čím je rank slova nižší, tím je jeho frekvence vyšší (Těšitelova - platí pro střední část frekvenčního slovníku) • 2. Zipfův zákon a . b2 = k, čím je frekvence nižší, tím více slov tuto frekvenci má (a - počet slov, b - sdílená frekvence) 9 3. Zipfův zákon počet různých významů (polysémie) je vyšší u slov s vyšší frekvencí (krátká slova) Počátky (2. pol. 19. st. - 60. léta 20. st.) po 2. sv. v. vznik pomezních disciplín (matematická lingvistika, sociolingvistika, psycholingvistika, etnolingvistika atd.) Dřelom 50. a 60. let, 1957 VIII. mezinárodní lingvistický