Počítačová lexikografie Úvod Adam Rambousek  study (verb) the act of texting, eating, and watching TV with an open textbook nearby  účast nepovinná  zápočet o písemný test (60 %) o týmový projekt - vytvořte si vlastní slovník o pravděpodobně 11. prosince  (20. listopadu volno)  Podmínky ukončení Lexikografie  podoblast lexikologie  lexicography, lexikografie o the activity or occupation of compiling dictionaries (Oxford d.) o the editing or making of a dictionary (Merriam-Webster d.) o the job of writing a dictionary (Macmillan d.)  praktická lexikografie  teoretická lexikografie - analýza a popis slovní zásoby, teorie o prvcích slovníku, skupinách uživatelů, hodnocení  Slovník národního jazyka náleží mezi první potřebnosti vzdělaného člověka.  Seznámení  Jak být lexikografem? Historie  hliněné tabulky z Ebla (Sýrie)  sumerština - eblaština  cca 2500-2250 př.n.l.  Historie  Sir Thomas Elyot: Dictionary (Bibliotheca Eliotae), 1538  John Withals: A Shorte Dictionarie for Yong Begynners, 1553  Robert Cawdrey: A Table Alphabeticall, 1604 o první výkladový slovník angličtiny o "hard wordes, borrowed from... for the benefit & helpe of Ladies, Gentlewomen, or any other unskilfull persons"  Historie  moderní slovníky, 17. století  Samuel Johnson o 1747, Plan of a Dictionary of the English Language o analýza a žádost o peníze o 1755, A Dictionary of the English Language o 42 773 hesel o "to preserve the purity and ascertain the meaning our English idiom" "to fix the English language"  Historie  19. století  Noah Webster o An American Dictionary of the English Language, 1828 o 70 000 hesel, srovnání britské a americké angličtiny o odmítal zařazovat do slovníků neslušná slova  Joseph Worcester o A Dictionary of the English Language  1830-1864 "válka slovníků" o přepracovaný Websterův slovník o Merriam-Webster  Historie  The Oxford English Dictionary (A New English Dictionary) o 1857, Philological Society, R. C. Trench, kritika slovníků o 1859, začátek sběru dat, dobrovolní čtenáři o 1879, James A. H. Murray jmenován hlavním editorem o 1882-1928, vychází 12 svazků o 15 487 stran, 240 000 hesel  Historie  Bartoloměj z Chlumce, Klaret, 14. století o latinsko-české slovníky o Vokabulář (gramatický) - odborná terminologie o Bohemář o Glosář - 7000 dvojic o Raro sequens gesta de bestiis cernis honesta. o Lew leo wlkque lupusque le[e]na lwicze, nedvied ursus o Ursaque nedviedicze, lupa wlczicze, dic ovis owcze, o Koza capra, vulpes lyskaque canicula tysta. o Padenye sit casus, gmenowanecz nominativus, o Ast vocativus wolanek danekque dativus, o Accusativus wynowanek primaque prwa.  Historie  Daniel Adam z Veleslavína, 16. století o Dictionarium linguae latinae - latina-čeština o Nomenclator tribus linguis - latina-čeština-němčina o Nomenclator quadrilinguis + Silva quadrilinguis češtinalatina-řečtina-němčina, 958+300 stran, řazeno česky, zárodek hnízdování  Jan Amos Komenský, 17. století o Thesaurus linguae Bohemicae - latinsko-český, českolatinský, synchronní, diachronní, lexikální, gramatické informace, frazeologie o 20 let příprav... požár Lešna  Historie  Josef Jungmann, 19. století o Slovník česko-německý o 1815-1833, vydáno 1835-1839 o 5 svazků, 4694 stran o popisný výkladový slovník  Historie  Kancelář Slovníku jazyka českého, 1911 o sběr slovníkového materiálu, dobrovolníci o výpisky z prózy, básní, odborné literatury, publicistických článků o Příruční slovník jazyka českého, 1935-1957 o 10 824 stran, 250 000 hesel o cenzura "nežádoucích spisovatelů"  Ústav pro jazyk český, 1946  Historie  Slovník spisovného jazyka českého, 1960-1971, 1989 o plán na menší slovník -> 4 500 stran, 192 908 hesel o první slovník s kodifikačním statutem o více terminologie (učebnice) o novinky: hnízdování, původ přejatých slov  Historie?  diachronní: Elektronický slovník staré češtiny  nářeční: Český jazykový atlas  slang: Slovník nespisovné češtiny  onomastický: Slovník pomístních jmen na Moravě a ve Slezsku, Jak se bude vaše dítě jmenovat?  frazeologie: Slovník české frazeologie a idiomatiky  frekvenční řazení: Frekvenční slovník češtiny  gramatický: Slovesa pro praxi,  neologizmy: Nová slova v češtině 1+2  Různé Počítačová lexikografie  60. léta - používají se počítače, lexikografové píší na papír, specialisté přepisují do databáze, Brown Corpus  1978, Longman Dictionary of Contemporary English o první s omezeným slovníkem definicí, kontrolováno strojově o kódování pro NLP výzkum  Slovníky a počítače  1980, COBUILD, University of Birmingham + Collins o korpus současných textů (Bank of English) o 1987, Collins COBUILD English Language Dictionary o první slovník založený na korpusových datech o nový styl definice - celé věty o If a person, animal, or other living thing is killed, something or someone causes them to die.  90. léta - vývoj specializovaných systémů pro tvorbu slovníků  1987, Text Encoding Initiative  1990, TEI Guidelines  Slovníky a počítače Slovníky  Jazyk: jednojazyčné, dvoujazyčné (směr), vícejazyčné  Obsah: obecný jazyk, terminologie, encyklopedie, oblast  Čas: synchronní, diachronní  Velikost (počet hesel)  Médium: tisk, CD, web  Řazení: abecední, frekvenční, věcné  Uživatelé: lingvisté, veřejnost, studenti, děti, studenti jazyka  Rozdělení slovníků Počítačová lexikografie Tvorba slovníku Adam Rambousek  tvorba slovníků je drahá, náročná a trvá dlouho, konkurence  grant nebo se musí vyplatit  co chybí? -> druh slovníku a jeho uživatelé  rozpočet a časový plán  uživatelské profily, Style guide  editační software (výroba nebo nastavení)  korpus (vývoj, prohledávání)  procesy  Tvorba slovníku  píšeme slovník  vzhled a sazba (tisk, digitální)  výroba  propagace  prodej  profit  Tvorba slovníku  obsah + reprezentace + vzhled <=> délka  obsah: počet hesel a informace o heslech  reprezentace: zápis informací o n. x noun o skloňování o zkracování heslového slova  vzhled o písmo (velikost) o nové řádky  elektronické verze, mobily  Rozsah  pro koho slovník připravujeme?  typ uživatele - kdo slovník používá? o děti, studenti, dospělí o rodilí mluvčí, studenti (úroveň) o veřejnost, odborníci  druh použití - k čemu slovník používá? o příručka (neznámá slova, pravopis, křížovky...) o studium oblasti, jazyka o překlady o psaní úkolů, příprava na zkoušky  Uživatelské profily  znalosti uživatele - co už umí? o lingvistické termíny, morfologie o použít slovník - značky, zkratky, odkazy o výslovnost, IPA  výzkumy o průzkum trhu (vydavatelé) - dotazníky, agentury, online doplňky s registrací... "reagujeme na přání čtenářů" o akademické - často využití při vzdělávání  They that take a dictionary into their hands, have been accustomed to expect from it a solution of almost every difficulty. (Samuel Johnson)  Uživatelské profily  We believe that dictionary skills must be taught, carefully and thoroughly, if dictionary users are to extract from their dictionaries the information which lexicographers have put into them. Teachers will be better able to carry out such teaching if they are fully aware of exactly what their students are doing with their dictionaries, what they expect from them, and how easily they are satisfied during the process of consultation. (Sue Atkins, Krista Varantola: Monitoring Dictionary Use)  Výzkum  standardizace - pravidla pro jevy a informace, které se ve slovníku opakují často  instrukce pro jednotlivé části hesla o jak popisovat o jak zobrazit o pořadí částí hesla o zadávání do databáze  pro lexikografy: jistota, konzistentnost  pro čtenáře: navigace, důvěra  Style Guide  pravidla (např. pravopis, zkratky, kategorie) o často řeší aplikace (např. výběr z možností)  doporučení - záleží na úsudku editora, kterou z nabízených možností použije  obecné principy (pro výjimky, které je zbytečné řešit podrobně)  pokyny pro zadávání v aplikaci  pilotní fáze - skutečná hesla napsaná podle SG, ověření a doladění  Style Guide Order and punctuation of labels Single labels are followed by a full stop. Where there is more than one label in an entry, the order is: regional, subject, register, usage, status ... Usage labels such as derog. or humorous are placed in parentheses when they follow other labels, although not when they are used on their own. Where you wish to use two labels from the same category, e.g. two status labels, they are joined using a roman ‘and’, not ‘or’, unless there is actual doubt. Examples: Physics. rare. S.Afr. Mining. N.Amer. Mil. slang   Style Guide, ukázka  značkovací (meta)jazyk  pravidla, jak má vypadat správně vytvořený dokument - snadné strojové zpracování a výměna informací  konkrétní názvy značek určuje uživatel (standardy, vlastní)  elementy obsah  atributy  samozřejmě mix obsah  správné zanoření značek  popis/kontrola obsahu: DTD, XML Schema  XML, lehký úvod XML, slovník  heslo o heslové slovo o gramatika o výslovnost o významy o definice o příklad  Dictionary Writing System o http://tshwanedje.com/tshwanelex/  Píšeme slovník Počítačová lexikografie XML, standardy Adam Rambousek  eXtensible Markup Language - značkovací (meta)jazyk  pravidla, jak má vypadat správně vytvořený dokument - snadné strojové zpracování a výměna informací  konkrétní názvy značek určuje uživatel (standardy, vlastní)  elementy obsah  bez obsahu lze zkrátit na  atributy  XML  správné zanoření značek  správně: text  špatně: text  speciální znaky se přepisují na entity (např. <) o <, >, &  XML  popis a kontrola obsahu  DTD (Document Type Definition) o seznam elementů a atributů a vztahy mezi nimi o nekontroluje obsah o o  XML  XML Schema (XSD, XML Schema Definition) o popis obsahu a struktury XML dokumentu, schéma samotné je XML dokument o elementy, atributy, struktura o možnost určit vlastní typy obsahu (např. opakující se adresa) o kontrola obsahu (např. číselný rozsah, regulární výrazy, povolené hodnoty) o o o o o o o  XML  web: XHTML  matematika: MathML  knihy: EPUB  grafika: SVG  dialogové systémy: VoiceXML  metadata, sémantický web: RDF  text: TEI  Standardy založené na XML  eXtensible Stylesheet Language (Transformations)  převod XML na jiné formáty o jiné XML značkování, text, HTML, LaTeX, PDF  šablony pro části XML dokumentu, postupné procházení dokumentu  (funkcionální programovací jazyk)  XSL(T)  ukládají se přímo XML dokumenty  vyhledávání - XPath, XQuery  např. eXist, BaseX, Sedna  XML databáze  Text Encoding Initiative o http://www.tei-c.org/  TEI Guidelines (aktuálně verze 5 z roku 2007) o XML formát pro sémantický popis textových dokumentů o velký rozsah značek o TEI Lite - osekaná verze, "90 % potřeb 90 % uživatelů" o romány, poezie, divadelní hry, dokumentace, slovníky, korpusy, grafy, rukopisy, zarovnání, odkazy, změny textu, notové zápisy... o nástroje - sada XSLT pro převod na LaTeX, docx, EPUB, HTML  TEI Adventures of Sherlock Holmes Adventure II. — The Red-Headed League By A. Conan Doyle.

I had called upon my friend, Mr. Sherlock Holmes, one day in the autumn of last year and found him in deep conversation with a very stout, florid-faced, elderly gentleman with fiery red hair …

 TEI
ACT I
SCENE I Enter Barnardo and Francisco, two Sentinels, at several doors Barn Who's there? Fran Nay, answer me. Stand and unfold yourself.   TEI My dear Mr. Bennet, said his lady to him one day,  have you heard that Netherfield Park is let at last? Marley was dead : to begin with .  TEI  podoba hesla 
competitorcom|peti|tork@m"petit@(r)
nperson who competes.
 TEI, slovníky  významy  VP6Aturn (a ship) on one side for cleaning, repairing, etc.VP6AVP2A(cause to) tilt, lean over to one side.  TEI, slovníky  překlady 
dresser
Theathabilleurm   TEI, slovníky  příklady  the multiplex eye of the fly.elle était horrifiée par la dépenseshe was horrified at the expense.  TEI, slovníky  příznaky 
colour   U.S.color
  aube de roueConstr   TEI, slovníky  Oxford Text Archive  British National Corpus  FreeDict  Cambridge University Press  Chinese Buddhist Electronic Text Association  Deutsches Textarchiv  Europeana Regia  TEI, projekty lov -u m 1 lovení zvěře a ryb lov koroptví lov na zajíce liška vyšla na lov 2 úloveksyno kořistsyno mít bohatý lov  přepis  Ukázka, SSČ lov -u m. ( 6. j. -u) 1. stíhání a zmocňování se zvěře ( nejč. odstřelem); chytání ryb: l. jelenů, divokých kachen, velryb; l. lososů; l. perel; doba lovu; uspořádat l. na medvědy; vyjet na l.; právo lovu; l. odstřelem, chytáním, lapáním; l. lesní, polní, vodní; hromadný l.   skenováno, OCR  Ukázka, SSJČ lov lov, -u m. honba n. lapání zvěře n. chytání ryb. Vrchnost na lovu byla. Něm. D Expr. chytání, krádež, získávání, shánění čehokoliv. Netopýr na lovu kmitl se kolem.Baar.  skenováno, OCR, lepší struktura  Ukázka, PSJČ  různé XML formáty, stejný vzhled (XSLT) Počítačová lexikografie Makrostruktur a Adam Rambousek  důkazy o použití jazyka o intuice o excerpta, výpisky o korpusy  intuice (armchair linguistics)  Lexikografické podklady  In the absence of objective evidence, introspection was appealed to instead. But studies in corpus linguistics have shown that introspection is a very flawed technique. We human beings are wired to register the unusual in our minds, generally in a way that is available to conscious recall. But we fail to pay any attention to the commonplace patterns of usage on which we rely so heavily in our everyday communications. Patrick Hanks (Euralex 2000)  Should it ever come about that linguistics can be carried out without the intervention and suffering of a native-speaker analyst, I will probably lose interest in the enterprise. Charles Fillmore ("Corpus linguistics" or "Computer-aided armchair linguistics")  Intuice  Appeal to the English-speaking and English-reading public, 1879  Návod pro sběratele materiálu k "Slovníku jazyka českého", 1911 o 8 696 850 lístků (1911-1991), neologismy 270 538 záznamů  Výpisky Click to edit Master text styles Second level ● Third level ● Fourth level ● Fifth level  Výpisky  výhody o posuny významu o terminologie o šíření lexikografie  nevýhody o pracné, časově náročné o subjektivní (časté výjimky)  Výpisky  IB047 Úvod do korpusové lingvistiky  a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language as a source of data for linguistic research  dokonalý korpus neexistuje o korpus je jen vzorek jazyka o obsahuje i nespisovný jazyk o čas a náklady na výrobu  Korpus  velikost o Brown Corpus (1960) - milion slov (106) o COBUILD (1980) - 20 milionů slov (107) o BNC (1990) - 100 milionů slov (108) o OEC (2000) - miliarda slov (109) o TenTen - 1010 slov  Zipfův zákon (1935) - několik slov s vysokou frekvencí, mnoho slov s nízkou frekvencí o 10. slovo je 10x častější než 100. slovo  Korpus  vyvážený o Linguistic Data Consortium - anglický korpus z článků Associated Press a New York Times o BNC - Journal of Gastroenterology, mucosa x unfortunate  co zahrnout a v jakém poměru?  BNC o 90% written, 10% spoken; 75% informative, 25% imaginative  SYN2000 (100 milionů slov) o 60% publicistika, 25% odborná, 15% beletrie  SYN2005 (100 milionů slov) o 40% beletrie, 27% odborná, 33% publicistika  Korpus  získání  převod  značkování (formální, lingvistické)  z webu: Sketch Engine, WebBootCaT  Korpus  podrobná strukturovaná jazyková databáze o (nyní obvykle) doklady z korpusu o gramatické údaje o valence, vzory o styl, užití, oblast... o vztahy mezi slovy  podklad pro slovníky a výzkum  PraLeD (Pražská Lexikální Databáze)  DANTE (Database of ANalysed Texts of English)  Lexikální databáze  Lexikální databáze  heslář (+předmluva, přílohy...)  heslo1 = lemma, entry term, heslové slovo, headword o obvykle nominativ sg., slovesa v infinitivu o části slov, spojení slov  heslo2 = heslová stať, entry  Makrostruktura  rozsah  výběr podle oboru a typu  obecný jazyk: frekvence  Heslář  obecná slova o běžná slova (varianty) o zkratky o části slov o víceslovné výrazy  vlastní jména o osoby, místa, metonymie, národnosti/skupiny, organizace, náboženství, předměty  zkratky vs. plné názvy  slovní spojení samostatně?  Heslář  Achilles  SSJČ: jm. řeckého reka v Homérově Iliadě: Achillova pata, přen. zranitelné místo; každý člověk má svou Achillovu patu; med. Achillova šlacha upínající se na kost patní;  SSČ: Achillova pata, zranitelné místo; Achillova šlacha, šlacha lýtkového svalu upínající se na patní kost  všechna slova v definici musejí být v hesláři  Heslář  aplikace pro tvorbu slovníků (obvykle celý proces tvorby)  často vlastní  komerční o IDM DPS - klient-server (Windows) o iLex - jádro a dokupované moduly, samostatně nebo klientserver, mobily (Windows, Linux, Mac) o TLex - online, offline (Windows, Mac)  nekomerční (Glossword, Matapuna)  DEB (Dictionary Editor and Browser)  Dictionary Writing Systems  iLex  TLex  IDM DPS Počítačová lexikografie Mikrostruktura Adam Rambousek  struktura jednoho záznamu ve slovníku  kontrola pomocí softwaru  Mikrostruktura  usnadnění orientace pro čtenáře  identifikace: lemma, homonymie o co když to nejde? (např. znakový jazyk)  sekce, oddělovače  "menu"  Orientace v hesle  lemma a přidružené informace  homonymie  výslovnost o pro znalé IPA, v češtině přepis jazz (vysl. džez) /dʒæz/ o nahrávka (Text-to-Speech) o přízvuk пом'ощник  varianty o např. jiný zápis džez, jazz  Lemma  morfologie o neobvyklé tvary, gramatika Olymp, -u m. (6. j. -u) o často můžeme doplnit (polo)automaticky (Příručka)  frekvence o podle korpusu  dělení slova o un·cle  Lemma  číslo, oddělení  definice  operator o 1. [often with modifier] a person who operates equipment or a machine: a radio operator. o 1. An operator is a person who connects telephone calls at a telephone exchange or in a place such as an office or hotel. o 1. pracovník obsluhující počítací stroje: programátor a o. u samočinného počítače  Významy  vysvětlivka (neformální doplnění definice) o The sun affects all living things (=people, animals, and plants). o a living language (=one that people still use)  poznámka k použití o Though is used with the same meaning as although, and is more common in spoken English. o know 35 spoken Heaven/God/who/goodness knows! o a) used to say that you do not know the answer to a question: o 'Where do you think he's disappeared to this time?' 'God knows!'  Významy  příklady o vymyšlené (kvalita?) nebo z korpusu (kvalita?) o přechovává partyzány u své babičky ve sklepě o babička schovala Jeníka před rozzuřeným otcem o cizí caparti cucali citronovou cukrovou vatu  slovní spojení  odkazy o podobná, synonyma, antonyma, hyperonyma...  (překlad)  Významy  etymologie o atlas II, -u m. (6. j. -u, -e) (z řec. podle jm. obra Atlanta) 1. anat. první obratel krční o Origin: o Old English helpan (verb), help (noun), of Germanic origin; related to Dutch helpen and German helfen  ilustrace  Heslo  obor  oblast  styl (odborný, knižní, básnický...)  užití (hovorové, slang, urážlivé...)  čas  četnost  Příznaky  které a jak často používat? o jednotné značení (software) o pro počítačové zpracování vhodné označovat vše  platnost příznaku (heslo, význam, překlady) o určuje umístění  více příznaků o (old-fashioned, British English, informal) o (formal or humorous)  Příznaky  hlavní rozdělení informací o gramaticky - podle slovních druhů o významově - podle hlavních významů o někdy slovní druhy jako homonyma  Rozdělení  úrovně významů o jedna úroveň o zanořené úrovně o jen odborníci si všimnou rozdílu  Rozdělení  podle čeho uspořádat významy? o historicky o frekvence výskytu (dobře označkovaný korpus) o sémantické pořadí, nejprve "hlavní" význam  Uspořádání  Uspořádání  více informací (CD, DVD, web)  multimédia  delší vysvětlující články, odkazy na další zdroje o materiály pro učitele, pro studenty o přibalený korpus  vyhledávání  zobrazování údajů podle proiuživatele  Elektronické slovníky Počítačová lexikografie Definice Adam Rambousek  Dictionaries traditionally record vocabulary as if meaning is something independent, inherent and unique to an item, and serving to distinguish it from all others. (Rosamund Moon)  významy se rozlišují, protože se to obvykle dělá  Rozdělení významů  A. Zwicky, J. Sadock: Ambiguity Tests and How to Fail Them  zeugma (dvojí vazba) o You are free to execute your laws, and your citizens, as you see fit.  crossed readings (záměna slov) o (bank) Mary blew up the bank and so did John. o (hand) Mary put up her hand and so did John.  Rozdělení významů  morfologie (appendices/appendixes)  gramatika (an ant crawling across the table/she's learning to crawl)  příd. jméno nebo hodnocení? (medieval cathedral/medieval working conditions)  omezení výběru (co může být čerstvé?)  kolokace  lexikální vztahy (synonyma...)  překlady  Rozdělení významů  analýza konkordancí, použití  předpokládané rozdělení na významy  nasbírat dobré, obsáhlé příklady z korpusu pro každý význam  analyzovat každý shluk, zjistit odlišující znaky  podle potřeby rozdělit nebo spojit (a opakovat)  Rozdělení významů  Patrick Hanks, Lexical Analysis: Norms and Exploitations  Rozdělení významů, četba  Adam Kilgarriff, "I don't believe in word senses"  poloautomatické rozdělování význámů podle korpusu  automatický návrh skupin (podle sketchů)  uživatel potvrdí/zamítne/upraví rozdělení  a dokola...  TickBox Lexicography  Korpus na pomoc  předloha pro často se opakující druh/kategorii hesla  popis hesel z jedné kategorie vypadá podobně o např. všechny stromy, jídlo, zaměstnání...  konzistence mezi autory i po delší době  Šablony  Illnesses and medical conditions (MED)  pneumonia - a serious illness affecting your lungs that makes it difficult for you to breathe  Šablony  programmer, An organism that turns caffeine and pizza into software.  lexicographer, A writer of dictionaries; a harmless drudge, that busies himself in tracing the original, and detailing the signification of words.  Definice  obsah + forma  funkce o dekódování - vysvětlení neznámého pojmu o stačí mi krátký popis o kódování - informace o použití o potřebuji podrobný popis gramatiky, příznaků, možných spojení, výjimek...  Definice  ostenzivní definice (ukázáním) o kyselý = mající chuť připomínající ocet  definice výčtem částí o příbor = náčiní, kterým se jí (lžíce, vidlička, nůž) o částí může být mnoho  definice synonymem/negací o je to přesné synonymum?  Definice, obsah  tradiční - genus+differentia (rod+druhový rozdíl) o židle = kus nábytku určený k sezení pro jednu osobu, zprav. s opěradlem o funguje výborně pro taxonomie, předměty, některá slovesa o popis "nutných" vlastností (příliš mnoho nebo příliš málo) o absolute = Something that is absolute o raději popis "běžných" vlastností  extenzionální definice (výčet zástupců)  Definice, obsah  citové zabarvení o příznaky o doplnit vysvětlení (bourgeois - typical of middle-class people and their attitudes. This word often shows that you dislike people like this.)  konotace, asociace o caviar - fish eggs eaten as food, usually spread on bread. In many countries caviar is considered to be a special and expensive food, eaten mainly by rich people.  Definice, obsah  neutralita?  apartheid o the keeping separate of races of different colours in one country, esp. of Europeans and non-Europeans in South Africa (LDOCE 1, 1978) o (in South Africa) the system established by government of keeping different races separate, esp. so as to give advantage to white people (LDOCE 2, 1987)  Definice, obsah  neutralita?  reincarnation o the belief that on the death of the body the soul transmigrates to or is born again in another body (CED, 1979) o Rebirth of the soul in another body (AHD, 2000)  Definice, obsah  nezahltit čtenáře množstvím informací  nepsat příliš obecné výklady  nejdůležitější je, co čtenář potřebuje zjistit  Definice, obsah  vyhnout se kruhovým odkazům o allow - to let; permit o let - to allow; permit o permit - to allow; let o father - a male parent of a child or animal o parent - a person's father or mother  Definice, forma  zaměnitelnost definice o tenable - capable of being defended against attack o Their position was no longer tenable.  používat jednodušší slova než definované heslo o "definiční slovník" (slovníky pro studenty)  šetření místem a slovy (v papíru) o podrobná definice na jednom místě o bribe, v, to induce or influence by or as if by bribery o bribery, n, the act or practice of giving or taking a bribe o bribe, n, money or favor given or promised to a person in a position of trust to influence his judgment or conduct  Definice, forma  snadnost použití  regadera - recipiente con un tubo acabado en una boca ancha con muchos agujeros pequeños que se usa regar, generalmente plantos o nádoba s trubkou, která končí širokým ústím s mnoha malými otvory, která se používá pro zalévání věcí, obvykle rostlin  Definice, forma  tomorrow, A mystical land where 99 % of all human productivity, motivation, and achievement is stored.  6.11. - pět hesel Počítačová lexikografie Příklady Adam Rambousek  podklady, lexikální databáze o kompletní a podrobné příklady  hotový slovník o upravená, zkrácená podoba  Příklady  důkaz o no other purpose, than that of proving the bare existance of words (Johnson)  Funkce příkladů  objasnění významu o doplňuje definici o ideálně jsou příklad a definice samostatné, ne vždy to jde  Funkce příkladů  ilustrace kontextu o syntax o typická slovní spojení, fráze o ukázka použití  Funkce příkladů  citace (upravená) ze sbírky o pro historické slovníky  vymyšlené příklady o obvykle jen krátká část nebo slovní spojení o myš - past na myši; kočka chytá myši o a serious illness  autentické příklady z korpusu (COBUILD) o gravitate - He gravitated, naturally, to Newmarket.  Odkud se berou?  "lexicographer's examples are more helpful in comprehension of new words then the authentic ones" (Laufer, 1992)  "found overwhelming approval among teachers and learners of English for real examples taken directly from a corpus" (Potter, 1998)  ideální příklad je přímo z korpusu - velmi vzácné  obvykle základ z korpusu o zjednodušení, pročištění, úpravy  Příklady  přirozené a typické o dostatečně velký korpus zobrazí časté kontexty, vzory, kolokace, gramatiku... o nevybírat jednotlivé výjimky o kontext - zbytečné podrobnosti navíc, záhadné odkazy... o One woman in every two hundred is a sufferer.  Dobré příklady  informativní o lepší pochopení definice o ani málo, ani moc o bring up the rear: Jack brought up the rear. o region: To have access to the truth and so to pass beyond the region of mere opinion is to take great risks. o neodporovat definici o common cold: A common cold could kill her.  Dobré příklady  srozumitelné o vyhnout se "obtížným" slovům a strukturám o above: I had always considered Anthony priggishly above the rest of us.  nepřidávat příklady, kde to nemá smysl  Dobré příklady  stare, abyss, climb, figure (v, n)  chovat, pochovat,  Příklady Počítačová lexikografie 21. století Adam Rambousek  korpusová revoluce, od 80. let o studium a pochopení jazyka o práce lexikografů o slovníky jsou pořád slovníky  digitální revoluce, od 90. let o s rozšířením webu se zrychluje o nové způsoby využití  Digitální revoluce  výhody o místo o multimedia, odkazy (výslovnost, video, odkazy na web, hry...) o aktuálnost (nečekáme 5 let na nové vydání)  Digitální slovníky  propojení s korpusy o ordnet.dk o DWDS.de o CPA/PDEV  Digitální slovníky  stahujeme data z webu o Wordnik.com o příklady z webu, Twitteru o definice z přístupných slovníků o komentáře o uživatelské seznamy o obrázky z Flickr  Digitální slovníky  obsah vytvářený uživateli (90-9-1] o slovníky (Wiktionary, slovnik.zcu.cz...) o volba uživatelů (Dewan Bahasa dan Pustaka: výběr nejlepších překladů nových termínů) o komentáře uživatelů  Digitální slovníky  proč přejít na digitální verzi? o rozhodují čtenáři - zvyšuje se návštěvnost webu, snižuje prodej knih o náklady na tisk a distribuci (celosvětově) o alternativa o dřív nebo později je to nevyhnutelné  Macmillan, zkušenosti  použít freemium model? o omezená část zdarma, plná placená o co vypustit z verze zdarma, aby placená byla lákavá? o -> pro obecná data to moc nefunguje  Macmillan, zkušenosti  kdo je konkurence?  dříve snadná odpověď o pro Macmillan pět dalších slovníků stejného typu  nyní každý o agregátory o Google (definice) o diskusní fóra o stránky pro studenty o ...  Macmillan, zkušenosti  jak přitáhnout čtenáře?  odkazy, optimalizace pro vyhledávání  zpětná vazba a úpravy podle ní  přehledný design  obsah  Macmillan, zkušenosti  čtenáři chtějí: o přehlednost o čitelnost o žádné otravné reklamy  vydavatel chce: o marketingové údaje o maximum příležitostí k výdělku (reklama)  Macmillan, zkušenosti Click to edit Master text styles Second level ● Third level ● Fourth level ● Fifth level  nárůst počtu uživatelů z mobilních zařízení  optimalizovaná verze pro mobily (2013)  Macmillan, zkušenosti  obsah o pravidelné aktualizace, 3-4 za rok  další zdroje o integrovaný tezaurus o jazykové hry o uživatelský slovník Open Dictionary o blog  Macmillan, zkušenosti  dosavadní zkušenosti  postupně se objevují nové možnosti zisku o aplikace, API, licence  metoda pokus-omyl  od ledna 2010 pětinásobný nárůst návštěvnosti  zlepšení pozice při vyhledávání  příjem z reklam ze zanedbatelného na významný  stále spíše přechodné období  Macmillan, zkušenosti