Počítačová lexikografie Makrostruktura Adam Rambousek důkazy o použití jazyka➢ intuiceo excerpta, výpiskyo korpusyo intuice (armchair linguistics)➢ Lexikografické podklady In the absence of objective evidence, introspection was appealed to instead. But studies in corpus linguistics have shown that introspection is a very flawed technique. We human beings are wired to register the unusual in our minds, generally in a way that is available to conscious recall. But we fail to pay any attention to the commonplace patterns of usage on which we rely so heavily in our everyday communications. Patrick Hanks (Euralex 2000) ➢ Should it ever come about that linguistics can be carried out without the intervention and suffering of a native‑speaker analyst, I will probably lose interest in the enterprise. Charles Fillmore ("Corpus linguistics" or "Computer‑aided armchair linguistics") ➢ Intuice Appeal to the English‑speaking and English‑reading public, 1879➢ Návod pro sběratele materiálu k "Slovníku jazyka českého", 1911➢ 8 696 850 lístků (1911‑1991), neologismy 270 538 záznamůo Výpisky Výpisky výhody➢ posuny významuo terminologieo šíření lexikografieo nevýhody➢ pracné, časově náročnéo subjektivní (časté výjimky)o Výpisky IB047 Úvod do korpusové lingvistiky➢ a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language as a source of data for linguistic research ➢ dokonalý korpus neexistuje➢ korpus je jen vzorek jazykao obsahuje i nespisovný jazyko čas a náklady na výrobuo Korpus velikost➢ Brown Corpus (1960) ‑ milion slov (10 )o 6 COBUILD (1980) ‑ 20 milionů slov (10 )o 7 BNC (1990) ‑ 100 milionů slov (10 )o 8 OEC (2000) ‑ miliarda slov (10 )o 9 TenTen ‑ 10 slovo 10 Zipfův zákon (1935) ‑ několik slov s vysokou frekvencí, mnoho slov s nízkou frekvencí ➢ 10. slovo je 10x častější než 100. slovoo Korpus vyvážený➢ Linguistic Data Consortium ‑ anglický korpus z článků Associated Press a New York Times o BNC ‑ Journal of Gastroenterology, mucosa x unfortunateo co zahrnout a v jakém poměru?➢ BNC➢ 90% written, 10% spoken; 75% informative, 25% imaginativeo SYN2000 (100 milionů slov)➢ 60% publicistika, 25% odborná, 15% beletrieo SYN2005 (100 milionů slov)➢ 40% beletrie, 27% odborná, 33% publicistikao Korpus získání➢ převod➢ značkování (formální, lingvistické)➢ z webu: Sketch Engine, WebBootCaT➢ Korpus podrobná strukturovaná jazyková databáze➢ (nyní obvykle) doklady z korpusuo gramatické údajeo valence, vzoryo styl, užití, oblast...o vztahy mezi slovyo podklad pro slovníky a výzkum➢ PraLeD (Pražská Lexikální Databáze)➢ DANTE (Database of ANalysed Texts of English)➢ Lexikální databáze Lexikální databáze heslář (+předmluva, přílohy...)➢ heslo = lemma, entry term, heslové slovo, headword➢ 1 obvykle nominativ sg., slovesa v infinitivuo části slov, spojení slovo heslo = heslová stať, entry➢ 2 Makrostruktura rozsah➢ výběr podle oboru a typu➢ obecný jazyk: frekvence➢ Heslář obecná slova➢ běžná slova (varianty)o zkratkyo části slovo víceslovné výrazyo vlastní jména➢ osoby, místa, metonymie, národnosti/skupiny, organizace, náboženství, předměty o zkratky vs. plné názvy➢ slovní spojení samostatně?➢ Heslář Achilles➢ SSJČ: jm. řeckého reka v Homérově Iliadě: Achillova pata, přen. zranitelné místo; každý člověk má svou Achillovu patu; med. Achillova šlacha upínající se na kost patní; ➢ SSČ: Achillova pata, zranitelné místo; Achillova šlacha, šlacha lýtkového svalu upínající se na patní kost ➢ všechna slova v definici musejí být v hesláři➢ Heslář aplikace pro tvorbu slovníků (obvykle celý proces tvorby)➢ často vlastní➢ komerční➢ IDM DPS ‑ klient‑server (Windows)o iLex ‑ jádro a dokupované moduly, samostatně nebo klient‑server, mobily (Windows, Linux, Mac) o TLex ‑ online, offline (Windows, Mac)o nekomerční (Glossword, Matapuna)➢ DEB (Dictionary Editor and Browser)➢ Dictionary Writing Systems iLex TLex IDM DPS