Počítačová lexikografie PLIN059 Mgr. Dana Hlaváčková, Ph.D. Mgr. Jakub Machura, Ph.D. Počítačová lexikografie •od klasické lexikografie k počítačové •webové formuláře a aplikace •značkovací jazyk XML •ukázky Klasická lexikografie – tvorba slovníků •1891 – Česká akademie věd a umění •1911 – Kancelář slovníku jazyka českého •započal sběr slovníkového materiálu –excerpční lístky (próza, poezie, odborná literatura, publicistika) –z textů od r. 1770 –Lístkový lexikální archiv –1911–1991 8 696 850 excerpt –v 2007 dokončeno skenování Ústav pro jazyk český AV ČR, Letenská 4, Praha • Ústav pro jazyk český AV ČR, Letenská 4, Praha • Obsah obrázku nábytek, místnost, kniha, knihovna Popis byl vytvořen automaticky Obsah obrázku text, dopis, rukopis, papír Popis byl vytvořen automaticky Obsah obrázku text, rukopis, číslo, Písmo Popis byl vytvořen automaticky Obsah obrázku text, dopis, papír, dokument Popis byl vytvořen automaticky Obsah obrázku text, snímek obrazovky, software, Webová stránka Popis byl vytvořen automaticky Klasická lexikografie – tvorba slovníků •1891 – Česká akademie věd a umění •1911 – Kancelář slovníku jazyka českého •započal sběr slovníkového materiálu –excerpční lístky (próza, poezie, odborná literatura, publicistika) –z textů od r. 1770 –Lístkový lexikální archiv –1911–1991 8 696 850 excerpt –v 2007 dokončeno skenování –kartotéka https://psjc.ujc.cas.cz/ Slovníky – typologie •encyklopedické a jazykové •výkladové a překladové •diachronní a synchronní •preskriptivní/normativní a deskriptivní •retrográdní •frekvenční •tezaury •nářeční, frazeologické Klasická lexikografie – tvorba slovníků •1935–1957 Příruční slovník jazyka českého (PSJČ) –v té době je k dispozici již 5 500 000 lístků –9 svazků, 250 000 hesel •1946 založen Ústav pro jazyk český •1958–1970 Slovník spisovného jazyka českého (SSJČ) –4 svazky, přes 190 000 hesel –v r. 1989 v 8 svazcích •1978 Slovník spisovné češtiny pro školu a veřejnost (SSČ) – kodifikační –téměr 50 000 slov • Klasická lexikografie – tvorba slovníků •excerpta – výběr heslových slov, uvádění příkladů použití (často beletrie) •psaní slovníku podle abecedy různými autory (nevyváženost) •slovníky pouze v tištěné podobě v několika vydáních •až SSČ vzniká v elektronické podobě •struktura slovníkového hesla je často nekonzistentní • Slovníkové heslo SSČ (1978) Počítačová lexikografie •využití počítačových nástrojů •využití elektronických zdrojů jazykových dat •tvorba a editace slovníků –webové formuláře –lexikografické stanice •jazyková data –korpusy, výběr heslových slov, příklady užití, frazeologie, sémantické informace •prohlížení slovníků –webová rozhraní Počítačová lexikografie – typické rysy •možnost zpracovat velké množství dat •rychlost zpracování •orientace na užívání slov v reálném kontextu •multimediální slovníky •zachycení aktuálního stavu jazyka •je možná proměna struktury slovníkového hesla •vysoká konzistence •uživatelské rozhraní – GUI (Graphical User Interface) •XML – eXtensible Markup Language (rozšiřitelný značkovací jazyk) – zakódování slovníkového hesla •možné převody do dalších formátů (PDF, HTML) •multiplatformnost • • terorismus [-iz-] (dř. též -ism), -mu m. (z lat.) způsob vlády vymáhající terorem poslušnost; hrůzovláda, krutovláda, despotismus: vojenský t.; nesnesitelný t.; demagogie a t.; přen. expr. to je t., nedejte si to líbit • •terorismuszpůsob vlády vymáhající terorem poslušnosthrůzovládakrutovládadespotismusvojenský terorismusnesnesitelný terorismusdemagogie a terorismuspřen.expr. • to je terorismus, nedejte si to líbit • • • • Počítačová lexikografie •XML –počáteční a ukončovací značky –možnost zanořené struktury •DTD (Document Type Definition) – popis použitých značek •heslové slovo – headword – lemma •lemma = základní tvar slova –substantiva – nominativ singuláru (nom. sg.) –adjektiva – nominativ singuláru maskulina (nom. sg. masc.) –slovesa – infinitiv (inf.) Současné slovníkové platformy •Elektronické slovníky a zdroje ÚJČ AV ČR –http://ujc.cas.cz/ •LEXIKO – webové hnízdo ÚJČ AV ČR – www.lexiko.ujc.cas.cz –https://lexiko.ujc.cas.cz/heslare/ (databáze heslářů) •DEB II (Dictionary Editor and Browser) –http://deb.fi.muni.cz –CZPJ FI MU Brno –Martin Povolný, Aleš Horák, Adam Rambousek –klient-server, servlety, webové rozhraní, XML –klienti – TeDi, DEBVisDic, DEBDict, DEBWrite, NESČ •LEXONOMY –https://www.lexonomy.eu/ •