Pavel Rychlý pary@fi.muni.cz Centrum zpracování přirozeného jazyka 26. února 2016 Pavel Rychlý IB047 Technické informace ■ http://www.fi.muni.cz/~pary/ib04 7/ Technické informace http://www.fi.muni.cz/~pary/ib04 7/ zápočet: vyřešení praktického úkolu ■ vytvoření korpusu ■ označkovaní rozdílů v gramatickém značkování Pavel Rychlý IB047 Technické informace ■ http://www.fi.muni.cz/~pary/ib04 7/ ■ zápočet: vyřešení praktického úkolu ■ vytvoření korpusu ■ označkovaní rozdílů v gramatickém značkování ■ zkouška ■ písemná ■ možnost získat extra body za praktický úkol Korpusová lingvistika Předmět přednášky ■ lingvistika ■ věda, která se zabývá přirozenými jazyky ■ korpus ■ velký soubor textů ■ většinou v elektronické podobě Pavel Rychlý IB047 Korpusová lingvistika Předmět přednášky ■ lingvistika ■ věda, která se zabývá přirozenými jazyky ■ korpus ■ velký soubor textů ■ většinou v elektronické podobě ■ zkoumá jazyky na základě korpusů Pavel Rychlý IB047 Počítačová lexikografie Předmět přednášky ■ lexikografie ■ věda, která se zabývá slovníky ■ zejména budováním slovníků Pavel Rychlý IB047 Počítačová lexikoarafie Předmět přednášky ■ lexikografie ■ věda, která se zabývá slovníky ■ zejména budováním slovníků ■ budování slovníků na základě korpusů ■ jedno z něj častejšie h použití korpusů Pavel Rychlý IB047 Obsah přednášky (1) ■ Uvod, motivace, historie ■ Typy a formáty korpusů, standardy ■ Značkování, metastruktura ■ Gramatické značkování ■ Syntaktické značkování ■ Paralelní korpusy ■ Automatické značkování, desambiguace Pavel Rychlý IB047 Obsah přednášky (2) Nástroje na tvorbu a údržbu korpusů Statistické zpracování korpusů Využití korpusů, uživatelská rozhraní Typy a formáty slovníků Struktura hesla, popis významů Využití korpusů pro tvorbu slovníků Lexikografické stanice Pavel Rychlý IB047 Motivace ■ Popis přirozeného jazyka ■ slovník ■ gramatika ■ Zkoumání jazyka ■ tradičně pomocí introspekce/intuice ■ podpořené výpisky (citáty) (autorit) ■ často subjektivní Pavel Rychlý IB047 Motivace Tradiční přírodní vědy ■ hypotézy ověřeny měřením Lingvistika ■ Jak provést měření? Motivace ■ Tradiční přírodní vědy ■ hypotézy ověřeny měřením ■ Lingvistika ■ Jak provést měření? ■ objektivní zkoumání reálných užití jazyka ■ korpus Má lingvista dělat měření? Pravidla pravopisu ■ závazná norma Pavel Rychlý IB047 Má lingvista dělat měření? ■ Pravidla pravopisu ■ závazná norma ■ Studium cizího jazyka ■ je výhodnější učit se reálný jazyk, jak lidé mluví a píší Má lingvista dělat měření? Pravidla pravopisu ■ závazná norma Studium cizího jazyka ■ je výhodnější učit se reálný jazyk, jak lidé mluví a píší Zpracování přirozeného jazyka ■ potřebujeme robustní aplikace Pavel Rychlý IB047 Co to je korpus? Co to je text, dokument? ■ lecos Různé typy korpusů ■ textové ■ mluvené Pavel Rychlý IB047 Co to je korpus? ■ Co to je text, dokument? ■ lecos ■ Různé typy korpusů ■ textové ■ mluvené ■ Pro potřeby lingvistiky ■ textový korpus Pavel Rychlý Textový korpus ■ soubor textů ■ charakteristiky ■ rozsáhlý ■ v jednotném formátu ■ stukturovaný ■ v elektronické podobě Co znamená rozsáhlý? Co znamená rozsáhlý? ■ první koprusy: 1 milion slov ■ příliš malé pro zajímavější výsledky ■ dostačující pro globální statistiky ■ délka věty/slova, nej častější slova ■ nyní běžně stovky milionů slov ■ průměrná rychlost čtení je 125-225 slov za minutu ■ 200 * 60 * 18 = 216000 slov za den (18 hodin) ■ 79 milionů za rok (365 dní) ■ dost velká slovní zásoba ■ dostupné jsou i giga-korpusy ■ více než miliarda slov ■ zhruba 50 let čtení při 4 hodinách denně ■ málokdo dokáže přečíst více Typy korpusů vždy záleží na účelu a způsobu použití možnosti ■ jazyk ■ typy textů ■ zdroj dat ■ značkování Pavel Rychlý IB047 První korpus Brown ■ americká angličtina (1961) ■ Brown University, 1964 ■ gramatické značkování, 1979 ■ 500 textů, 1 mil. slov ■ W. N. Francis & H. Kučera ■ první statistické charakteristiky angličtiny ■ relativní četnosti slov a slovních druhů SUSANNE SUSANNE ■ Geoffrey Sampson ■ English for the Computer ■ část korpusu Brown ■ nové gramatické značkování ■ syntaktické značkování BNC British National Corpus ■ britská angličtina, 10 % mluva ■ první velký korpus pro lexikografy ■ vydavatelé slovníků + univerzity ■ 1991-1994, World Edition 2000 ■ ^3000 textů, 100 mil. slov ■ gramatické značkování automatickým nástrojem Pavel Rychlý IB047 BoE Bank of English ■ britská angličtina ■ COBUILD (HarperCollins), University of Birmingham ■ 1991, stále rozšiřován ■ 2005, ^525 mil. slov Další národní korpusy Český národní korpus ■ ÚČNK, FF UK ■ SYN2000:100 mil. slov (60% noviny) ■ SYN2005:100 mil. slov (40% beletrie) ■ SYN2010:100 mil. slov ■ SYN2006PUB: 300 mil. slov ■ SYN2009PUB (700), SYN2013PUB (940) ■ dohromady SYN: 2,5 mld. slov ■ Litera, Synek, BMK, KSK, ... ■ InterCorp - paralelní koprusy, více než 30 jazyků Slovenský, Madarský, Chorvatský, ... Americký Korpusy na Fl vytvořené na Fl Desam ručné značkovaný (desambiguovaný) « 1 mil. slov WWW periodika z webu, z let 1996-1998 « 100 mil. I047 vytvářený studenty Úvodu do korp. ling. « 45 mil. Chyby práce studentů předmětu Základy odb. stylu s vyznačenými chybami « 400 tis. BiWeC obrovský korpus z webu, zatím angličtina « 3-9 miliard slov enTenTen,deTenTen korpusy o velikostech 1010 slov Korpusy na Fl spolupráce ■ itWac, ukWac, deWac,... ■ Dopisy ■ Mluv ■ Kačenka ■ ČNPK ■ 1984 ■ Otto ■ Italian ■ Giga Chinese