Úvod do korpusové lingvistiky a počítačové lexikografie Pavel Rychlý pary@fi.muni.cz Centrum zpracování přirozeného jazyka 17. února 2014 Pavel Rychlý IB047 Technické informace ■ http://www.fi.muni.cz/"pary/ibO 4 7/ Technické informace ■ http://www.fi.muni.cz/"pary/ibO 4 7/ ■ zápočet: vyřešení praktického úkolu ■ vytvoření korpusu ■ označkovaní významů vybraných slov Technické informace ■ http://www.fi.muni.cz/"pary/ibO 4 7/ ■ zápočet: vyřešení praktického úkolu ■ vytvoření korpusu ■ označkovaní významů vybraných slov ■ zkouška ■ písemná ■ možnost získat extra body za praktický úkol Technické informace ■ předpoklady/znalosti ■ XML ■ Unix ■ programování ■ Python ■ Perl Korpusová lingvistika Předmět přednášky ■ lingvistika ■ věda, která se zabývá přirozenými jazyky ■ korpus ■ velký soubor textů ■ většinou v elektronické podobě Pavel Rychlý IB047 « □ ► 4 Korpusová lingvistika Předmět přednášky ■ lingvistika ■ věda, která se zabývá přirozenými jazyky ■ korpus ■ velký soubor textů ■ většinou v elektronické podobě ■ zkoumá jazyky na základě korpusů Pavel Rychlý IB047 « □ ► 4 Počítačová lexikografie Předmět přednášky ■ lexikografie ■ věda, která se zabývá slovníky ■ zejména budováním slovníků Pavel Rychlý IB047 Počítačová lexikografie Předmět přednášky ■ lexikografie ■ věda, která se zabývá slovníky ■ zejména budováním slovníků ■ budování slovníků na základě korpusů ■ jedno z nějčastějších použití korpusů Pavel Rychlý IB047 Obsah přednášky (1) ■ Úvod, motivace, historie ■ Typy a formáty korpusů, standardy ■ Značkování, metastruktura ■ Gramatické značkování ■ Syntaktické značkování ■ Paralelní korpusy ■ Automatické značkování, desambiguace Pavel Rychlý IB047 Obsah přednášky (2) ■ Nástroje na tvorbu a údržbu korpusu ■ Statistické zpracování korpusu ■ Využití korpusu, uživatelská rozhraní ■ Typy a formáty slovníků ■ Struktura hesla, popis významů ■ Využití korpusů pro tvorbu slovníků ■ Lexikografické stanice Pavel Rychlý IB047 Motivace ■ Popis přirozeného jazyka ■ slovník ■ gramatika ■ Zkoumání jazyka ■ tradičně pomocí introspekce/intuice ■ podpořené výpisky (citáty) (autorit) ■ často subjektivní Pavel Rychlý IB047 Motivace ■ Tradiční přírodní vědy ■ hypotézy ověřeny měřeníi ■ Lingvistika ■ Jak provést měření? Motivace ■ Tradiční přírodní vědy ■ hypotézy ověřeny měřením ■ Lingvistika ■ Jak provést měření? ■ objektivní zkoumání reálných užití jazyka ■ korpus Pavel Rychlý IB047 « □ ► 4 Má lingvista dělat měření? ■ Pravidla pravopisu ■ závazná norma Pavel Rychlý IB047 Má lingvista dělat měření? ■ Pravidla pravopisu ■ závazná norma ■ Studium cizího jazyka ■ je výhodnější učit se reálný jazyk, jak lidé mluví a píší Pavel Rychlý IB047 Má lingvista dělat měření? ■ Pravidla pravopisu ■ závazná norma ■ Studium cizího jazyka ■ je výhodnější učit se reálný jazyk, jak lidé mluví a píší ■ Zpracování přirozeného jazyka ■ potřebujeme robustní aplikace Pavel Rychlý IB047 Co to je korpus? ■ Co to je text, dokument? ■ lecos ■ Různé typy korpusů ■ textové ■ mluvené Pavel Rychlý IB047 Co to je korpus? ■ Co to je text, dokument? ■ lecos ■ Různé typy korpusů ■ textové ■ mluvené ■ Pro potřeby lingvistiky ■ textový korpus Pavel Rychlý IB047 Textový korpus ■ soubor textů ■ charakteristiky ■ rozsáhlý ■ v jednotném formátu ■ stukturovaný ■ v elektronické podobě Co znamená rozsáhlý? Co znamená rozsáhlý? m první koprusy: 1 milion slov ■ příliš malé pro zajímavější výsledky ■ dostačující pro globální statistiky ■ délka věty/slova, nejčastější slova ■ nyní běžně stovky milionů slov ■ průměrná rychlost čtení je 125-225 slov za minutu ■ 200 * 60 * 18 = 216000 slov za den (18 hodin) ■ ^> 79 milionů za rok (365 dní) ■ dost velká slovní zásoba ■ dostupné jsou i giga-korpusy ■ více než miliarda slov ■ zhruba 50 let čtení při 4 hodinách denně ■ málokdo dokáže přečíst více Typy korpusů ■ vždy záleží na účelu a způsobu použití ■ možnosti ■ jazyk ■ typy textů ■ zdroj dat ■ značkování Pavel Rychlý IB047 rvní korpus Brown ■ americká angličtina (1961) ■ Brown University, 1964 ■ gramatické značkování, 1979 ■ 500 textů, 1 mil. slov ■ W. N. Francis & H. Kučera ■ první statistické charakteristiky angličtiny ■ relativní četnosti slov a slovních druhů Pavel Rychlý IB047 SUSANNE SUSANNE ■ Geoffrey Sampson ■ English for the Computer ■ část korpusu Brown ■ nové gramatické značkování ■ syntaktické značkování BNC British National Corpus ■ britská angličtina, 10 % mluva ■ první velký korpus pro lexikografy ■ vydavatelé slovníků + univerzity ■ 1991-1994, World Edition 2000 ■ «3000 textů, 100 mil. slov ■ gramatické značkování automatickým nástrojem Pavel Rychlý IB047 BoE Bank of English ■ britská angličtina ■ COBUILD (HarperCollins), University of Birmingham ■ 1991, stále rozšiřován ■ 2005, «525 mil. slov Pavel Rychlý IB047 Další národní korpusy Český národní korpus ■ ÚČNK, FF UK ■ SYN2000: 100 mil. slov (60% noviny) ■ SYN2005: 100 mil. slov (40% beletrie) ■ SYN2010: 100 mil. slov ■ SYN2006PUB: 300 mil. slov ■ Litera, Synek, BMK, KSK, ... Slovenský, Madarský, Chorvatský,... Americký Pavel Rychlý IB047 Korpusy na Fl vytvořené na Fl Desam ručné značkovaný (desambiguovaný) « 1 mil. slov WWW periodika z webu, z let 1996-1998 « 100 mil. I047 vytvářený studenty Úvodu do korp. ling. 45 mil. Chyby práce studentů předmětu Základy odb. stylu vyznačenými chybami « 400 tis. BiWeC obrovský korpus z webu, zatím angličtina « 3-9 miliard slov enTenTen,deTenTen korpusy o velikostech 1010 slov Korpusy na Fl spolupráce ■ itWac, ukWac, de Wae,... ■ Dopisy ■ Mluv ■ Kačenka ■ ČNPK ■ 1984 ■ Otto ■ Italian ■ Giga Chinese