Počítačová
lexikografie
Úvod
Adam Rambousek
study (verb) the act of texting, eating, and watching
TV with an open textbook nearby
účast nepovinná
zápočet
o písemný test (60 %)
o týmový projekt - vytvořte si vlastní slovník
o pravděpodobně 11. prosince
(20. listopadu volno)
Podmínky ukončení
Lexikografie
podoblast lexikologie
lexicography, lexikografie
o the activity or occupation of compiling dictionaries (Oxford d.)
o the editing or making of a dictionary (Merriam-Webster d.)
o the job of writing a dictionary (Macmillan d.)
praktická lexikografie
teoretická lexikografie - analýza a popis slovní zásoby, teorie
o prvcích slovníku, skupinách uživatelů, hodnocení
Slovník národního jazyka náleží mezi první potřebnosti
vzdělaného člověka.
Seznámení
Jak být lexikografem?
Historie
hliněné tabulky z Ebla (Sýrie)
sumerština - eblaština
cca 2500-2250 př.n.l.
Historie
Sir Thomas Elyot: Dictionary (Bibliotheca Eliotae),
1538
John Withals: A Shorte Dictionarie for Yong Begynners,
1553
Robert Cawdrey: A Table Alphabeticall, 1604
o první výkladový slovník angličtiny
o "hard wordes, borrowed from...
for the benefit & helpe of
Ladies, Gentlewomen, or any
other unskilfull persons"
Historie
moderní slovníky, 17. století
Samuel Johnson
o 1747, Plan of a Dictionary of the English Language
o analýza a žádost o peníze
o 1755, A Dictionary of the English Language
o 42 773 hesel
o "to preserve the purity and ascertain the meaning our
English idiom" "to fix the English language"
Historie
19. století
Noah Webster
o An American Dictionary of the English Language, 1828
o 70 000 hesel, srovnání britské a americké angličtiny
o odmítal zařazovat do slovníků neslušná slova
Joseph Worcester
o A Dictionary of the English Language
1830-1864 "válka slovníků"
o přepracovaný Websterův slovník
o Merriam-Webster
Historie
The Oxford English Dictionary (A New English
Dictionary)
o 1857, Philological Society, R. C. Trench, kritika slovníků
o 1859, začátek sběru dat, dobrovolní čtenáři
o 1879, James A. H. Murray jmenován hlavním editorem
o 1882-1928, vychází 12 svazků
o 15 487 stran, 240 000 hesel
Historie
Bartoloměj z Chlumce, Klaret, 14. století
o latinsko-české slovníky
o Vokabulář (gramatický) - odborná terminologie
o Bohemář
o Glosář - 7000 dvojic
o Raro sequens gesta de bestiis cernis honesta.
o Lew leo wlkque lupusque le[e]na lwicze, nedvied ursus
o Ursaque nedviedicze, lupa wlczicze, dic ovis owcze,
o Koza capra, vulpes lyskaque canicula tysta.
o Padenye sit casus, gmenowanecz nominativus,
o Ast vocativus wolanek danekque dativus,
o Accusativus wynowanek primaque prwa.
Historie
Daniel Adam z Veleslavína, 16. století
o Dictionarium linguae latinae - latina-čeština
o Nomenclator tribus linguis - latina-čeština-němčina
o Nomenclator quadrilinguis + Silva quadrilinguis češtinalatina-řečtina-němčina,
958+300 stran, řazeno česky,
zárodek hnízdování
Jan Amos Komenský, 17. století
o Thesaurus linguae Bohemicae - latinsko-český, českolatinský,
synchronní, diachronní, lexikální, gramatické
informace, frazeologie
o 20 let příprav... požár Lešna
Historie
Josef Jungmann, 19. století
o Slovník česko-německý
o 1815-1833, vydáno 1835-1839
o 5 svazků, 4694 stran
o popisný výkladový slovník
Historie
Kancelář Slovníku jazyka českého, 1911
o sběr slovníkového materiálu, dobrovolníci
o výpisky z prózy, básní, odborné literatury,
publicistických článků
o Příruční slovník jazyka českého, 1935-1957
o 10 824 stran, 250 000 hesel
o cenzura "nežádoucích spisovatelů"
Ústav pro jazyk český, 1946
Historie
Slovník spisovného jazyka českého, 1960-1971, 1989
o plán na menší slovník -> 4 500 stran, 192 908 hesel
o první slovník s kodifikačním statutem
o více terminologie (učebnice)
o novinky: hnízdování, původ přejatých slov
Historie?
diachronní: Elektronický slovník staré češtiny
nářeční: Český jazykový atlas
slang: Slovník nespisovné češtiny
onomastický: Slovník pomístních jmen na Moravě a ve
Slezsku, Jak se bude vaše dítě jmenovat?
frazeologie: Slovník české frazeologie a idiomatiky
frekvenční řazení: Frekvenční slovník češtiny
gramatický: Slovesa pro praxi,
neologizmy: Nová slova v češtině 1+2
Různé
Počítačová
lexikografie
60. léta - používají se počítače, lexikografové píší na
papír, specialisté přepisují do databáze, Brown Corpus
1978, Longman Dictionary of Contemporary English
o první s omezeným slovníkem definicí, kontrolováno
strojově
o kódování pro NLP výzkum
Slovníky a počítače
1980, COBUILD, University of Birmingham + Collins
o korpus současných textů (Bank of English)
o 1987, Collins COBUILD English Language Dictionary
o první slovník založený na korpusových datech
o nový styl definice - celé věty
o If a person, animal, or other living thing is killed, something or
someone causes them to die.
90. léta - vývoj specializovaných systémů pro tvorbu slovníků
1987, Text Encoding Initiative
1990, TEI Guidelines
Slovníky a počítače
Slovníky
Jazyk: jednojazyčné, dvoujazyčné (směr), vícejazyčné
Obsah: obecný jazyk, terminologie, encyklopedie,
oblast
Čas: synchronní, diachronní
Velikost (počet hesel)
Médium: tisk, CD, web
Řazení: abecední, frekvenční, věcné
Uživatelé: lingvisté, veřejnost, studenti, děti, studenti
jazyka
Rozdělení slovníků
Počítačová
lexikografie
Tvorba
slovníku
Adam Rambousek
tvorba slovníků je drahá, náročná
a trvá dlouho, konkurence
grant nebo se musí vyplatit
co chybí? -> druh slovníku a jeho uživatelé
rozpočet a časový plán
uživatelské profily, Style guide
editační software (výroba nebo nastavení)
korpus (vývoj, prohledávání)
procesy
Tvorba slovníku
píšeme slovník
vzhled a sazba (tisk, digitální)
výroba
propagace
prodej
profit
Tvorba slovníku
obsah + reprezentace + vzhled <=> délka
obsah: počet hesel a informace o heslech
reprezentace: zápis informací
o n. x noun
o skloňování
o zkracování heslového slova
vzhled
o písmo (velikost)
o nové řádky
elektronické verze, mobily
Rozsah
pro koho slovník připravujeme?
typ uživatele - kdo slovník používá?
o děti, studenti, dospělí
o rodilí mluvčí, studenti (úroveň)
o veřejnost, odborníci
druh použití - k čemu slovník používá?
o příručka (neznámá slova, pravopis, křížovky...)
o studium oblasti, jazyka
o překlady
o psaní úkolů, příprava na zkoušky
Uživatelské profily
znalosti uživatele - co už umí?
o lingvistické termíny, morfologie
o použít slovník - značky, zkratky, odkazy
o výslovnost, IPA
výzkumy
o průzkum trhu (vydavatelé) - dotazníky, agentury, online doplňky
s registrací... "reagujeme na přání čtenářů"
o akademické - často využití při vzdělávání
They that take a dictionary into their hands, have been
accustomed to expect from it a solution of almost every
difficulty. (Samuel Johnson)
Uživatelské profily
We believe that dictionary skills must be taught,
carefully and thoroughly, if dictionary users are to extract
from their dictionaries the information which
lexicographers have put into them. Teachers will be
better able to carry out such teaching if they are fully
aware of exactly what their students are doing with their
dictionaries, what they expect from them, and how easily
they are satisfied during the process of consultation. (Sue
Atkins, Krista Varantola: Monitoring Dictionary Use)
Výzkum
standardizace - pravidla pro jevy a informace, které se
ve slovníku opakují často
instrukce pro jednotlivé části hesla
o jak popisovat
o jak zobrazit
o pořadí částí hesla
o zadávání do databáze
pro lexikografy: jistota, konzistentnost
pro čtenáře: navigace, důvěra
Style Guide
pravidla (např. pravopis, zkratky, kategorie)
o často řeší aplikace (např. výběr z možností)
doporučení - záleží na úsudku editora, kterou z
nabízených možností použije
obecné principy (pro výjimky, které je zbytečné řešit
podrobně)
pokyny pro zadávání v aplikaci
pilotní fáze - skutečná hesla napsaná podle SG,
ověření a doladění
Style Guide
Order and punctuation of labels
Single labels are followed by a full stop.
Where there is more than one label in an entry, the order is:
regional, subject, register, usage, status ...
Usage labels such as derog. or humorous are placed in parentheses when they
follow other labels, although not when they are used on their own.
Where you wish to use two labels from the same category, e.g. two status labels,
they are joined using a roman ‘and’, not ‘or’, unless there is actual doubt.
Examples:
Physics. rare.
S.Afr. Mining.
N.Amer. Mil. slang
Style Guide, ukázka
značkovací (meta)jazyk
pravidla, jak má vypadat správně vytvořený dokument - snadné
strojové zpracování a výměna informací
konkrétní názvy značek určuje uživatel (standardy, vlastní)
elementy obsah
atributy
samozřejmě mix obsah
správné zanoření značek
popis/kontrola obsahu: DTD, XML Schema
XML, lehký úvod
XML, slovník
heslo
o heslové slovo
o gramatika
o výslovnost
o významy
o definice
o příklad
Dictionary Writing System
o http://tshwanedje.com/tshwanelex/
Píšeme slovník
Počítačová
lexikografie
XML,
standardy
Adam Rambousek
eXtensible Markup Language - značkovací (meta)jazyk
pravidla, jak má vypadat správně vytvořený dokument
- snadné strojové zpracování a výměna informací
konkrétní názvy značek určuje uživatel (standardy,
vlastní)
elementy obsah
bez obsahu lze zkrátit na
atributy
XML
správné zanoření značek
správně: text
špatně: text
speciální znaky se přepisují na entity (např. <)
o <, >, &
XML
popis a kontrola obsahu
DTD (Document Type Definition)
o seznam elementů a atributů a vztahy mezi nimi
o nekontroluje obsah
o
o
XML
XML Schema (XSD, XML Schema Definition)
o popis obsahu a struktury XML dokumentu, schéma samotné je XML dokument
o elementy, atributy, struktura
o možnost určit vlastní typy obsahu (např. opakující se adresa)
o kontrola obsahu (např. číselný rozsah, regulární výrazy, povolené hodnoty)
o
o
o
o
o
o
o
XML
web: XHTML
matematika: MathML
knihy: EPUB
grafika: SVG
dialogové systémy: VoiceXML
metadata, sémantický web: RDF
text: TEI
Standardy založené na XML
eXtensible Stylesheet Language (Transformations)
převod XML na jiné formáty
o jiné XML značkování, text, HTML, LaTeX, PDF
šablony pro části XML dokumentu, postupné
procházení dokumentu
(funkcionální programovací jazyk)
XSL(T)
ukládají se přímo XML dokumenty
vyhledávání - XPath, XQuery
např. eXist, BaseX, Sedna
XML databáze
Text Encoding Initiative
o http://www.tei-c.org/
TEI Guidelines (aktuálně verze 5 z roku 2007)
o XML formát pro sémantický popis textových dokumentů
o velký rozsah značek
o TEI Lite - osekaná verze, "90 % potřeb 90 % uživatelů"
o romány, poezie, divadelní hry, dokumentace, slovníky,
korpusy, grafy, rukopisy, zarovnání, odkazy, změny textu,
notové zápisy...
o nástroje - sada XSLT pro převod na LaTeX, docx, EPUB, HTML
TEI
Adventures of Sherlock Holmes
Adventure II. —
The Red-Headed League
By A. Conan Doyle.
I had called upon my friend, Mr. Sherlock Holmes, one day
in the autumn of last year and found him in deep conversation
with a very stout, florid-faced, elderly gentleman with fiery red hair …
TEI
ACT I
SCENE I
Enter Barnardo and Francisco, two Sentinels, at several doors
Barn
Who's there?
Fran
Nay, answer me. Stand and unfold yourself.
TEI
My dear Mr. Bennet,
said his lady to him one day,
have you heard that Netherfield Park is let at last?
Marley
was
dead
:
to
begin
with
.
TEI
podoba hesla
n
person who competes.
TEI, slovníky
významy
VP6A
turn (a ship) on one side for cleaning, repairing, etc.
VP6A
VP2A
(cause to) tilt, lean over to one side.
TEI, slovníky
překlady
Theat
habilleur
m
TEI, slovníky
příklady
the multiplex eye of the fly.
elle était horrifiée par la dépense
she was horrified at the expense.
TEI, slovníky
příznaky
aube de roue
Constr
TEI, slovníky
Oxford Text Archive
British National Corpus
FreeDict
Cambridge University Press
Chinese Buddhist Electronic Text Association
Deutsches Textarchiv
Europeana Regia
TEI, projekty
lov
-u m
1
lovení zvěře a ryb
lov koroptví
lov na zajíce
liška vyšla na lov
2
[úloveksyno]
[kořistsyno]
mít bohatý lov
přepis
Ukázka, SSČ
lov
-u
m.
(
6. j.
-u)
1.
stíhání a zmocňování se zvěře
(
nejč. odstřelem); chytání ryb:
l. jelenů, divokých kachen, velryb; l. lososů; l. perel; doba lovu; uspořádat l. na medvědy; vyjet na l.; právo lovu; l.
odstřelem, chytáním, lapáním; l. lesní, polní, vodní; hromadný l.
skenováno, OCR
Ukázka, SSJČ
lov
lov,
-u
m.
honba n. lapání zvěře n. chytání ryb.
Vrchnost na lovu byla.
Něm.
D
Expr.
chytání, krádež, získávání, shánění čehokoliv.
Netopýr na lovu kmitl se kolem.
Baar.
skenováno, OCR, lepší struktura
Ukázka, PSJČ
různé XML formáty, stejný vzhled (XSLT)
Počítačová
lexikografie
Makrostruktur
a
Adam Rambousek
důkazy o použití jazyka
o intuice
o excerpta, výpisky
o korpusy
intuice (armchair linguistics)
Lexikografické podklady
In the absence of objective evidence, introspection was appealed
to instead. But studies in corpus linguistics have shown that
introspection is a very flawed technique. We human beings are
wired to register the unusual in our minds, generally in a way that
is available to conscious recall. But we fail to pay any attention to
the commonplace patterns of usage on which we rely so heavily
in our everyday communications. Patrick Hanks (Euralex 2000)
Should it ever come about that linguistics can be carried out
without the intervention and suffering of a native-speaker analyst,
I will probably lose interest in the enterprise.
Charles Fillmore ("Corpus linguistics" or "Computer-aided armchair
linguistics")
Intuice
Appeal to the English-speaking and English-reading public, 1879
Návod pro sběratele materiálu k "Slovníku jazyka českého", 1911
o 8 696 850 lístků (1911-1991), neologismy 270 538 záznamů
Výpisky
Click to edit Master text styles
Second level
● Third level
● Fourth level
● Fifth level
Výpisky
výhody
o posuny významu
o terminologie
o šíření lexikografie
nevýhody
o pracné, časově náročné
o subjektivní (časté výjimky)
Výpisky
IB047 Úvod do korpusové lingvistiky
a collection of pieces of language text in electronic form,
selected according to external criteria to represent, as far
as possible, a language as a source of data for linguistic
research
dokonalý korpus neexistuje
o korpus je jen vzorek jazyka
o obsahuje i nespisovný jazyk
o čas a náklady na výrobu
Korpus
velikost
o Brown Corpus (1960) - milion slov (106)
o COBUILD (1980) - 20 milionů slov (107)
o BNC (1990) - 100 milionů slov (108)
o OEC (2000) - miliarda slov (109)
o TenTen - 1010 slov
Zipfův zákon (1935) - několik slov s vysokou frekvencí,
mnoho slov s nízkou frekvencí
o 10. slovo je 10x častější než 100. slovo
Korpus
vyvážený
o Linguistic Data Consortium - anglický korpus z článků Associated
Press a New York Times
o BNC - Journal of Gastroenterology, mucosa x unfortunate
co zahrnout a v jakém poměru?
BNC
o 90% written, 10% spoken; 75% informative, 25% imaginative
SYN2000 (100 milionů slov)
o 60% publicistika, 25% odborná, 15% beletrie
SYN2005 (100 milionů slov)
o 40% beletrie, 27% odborná, 33% publicistika
Korpus
získání
převod
značkování (formální, lingvistické)
z webu: Sketch Engine, WebBootCaT
Korpus
podrobná strukturovaná jazyková databáze
o (nyní obvykle) doklady z korpusu
o gramatické údaje
o valence, vzory
o styl, užití, oblast...
o vztahy mezi slovy
podklad pro slovníky a výzkum
PraLeD (Pražská Lexikální Databáze)
DANTE (Database of ANalysed Texts of English)
Lexikální databáze Lexikální databáze
heslář (+předmluva, přílohy...)
heslo1 = lemma, entry term, heslové slovo, headword
o obvykle nominativ sg., slovesa v infinitivu
o části slov, spojení slov
heslo2 = heslová stať, entry
Makrostruktura
rozsah
výběr podle oboru a typu
obecný jazyk: frekvence
Heslář
obecná slova
o běžná slova (varianty)
o zkratky
o části slov
o víceslovné výrazy
vlastní jména
o osoby, místa, metonymie, národnosti/skupiny, organizace,
náboženství, předměty
zkratky vs. plné názvy
slovní spojení samostatně?
Heslář
Achilles
SSJČ: jm. řeckého reka v Homérově Iliadě: Achillova
pata, přen. zranitelné místo; každý člověk má svou
Achillovu patu; med. Achillova šlacha upínající se na
kost patní;
SSČ: Achillova pata, zranitelné místo; Achillova šlacha,
šlacha lýtkového svalu upínající se na patní kost
všechna slova v definici musejí být v hesláři
Heslář
aplikace pro tvorbu slovníků (obvykle celý proces tvorby)
často vlastní
komerční
o IDM DPS - klient-server (Windows)
o iLex - jádro a dokupované moduly, samostatně nebo klientserver,
mobily (Windows, Linux, Mac)
o TLex - online, offline (Windows, Mac)
nekomerční (Glossword, Matapuna)
DEB (Dictionary Editor and Browser)
Dictionary Writing Systems iLex
TLex IDM DPS
Počítačová
lexikografie
Mikrostruktura
Adam Rambousek
struktura jednoho záznamu ve slovníku
kontrola pomocí softwaru
Mikrostruktura
usnadnění orientace pro čtenáře
identifikace: lemma, homonymie
o co když to nejde? (např. znakový jazyk)
sekce, oddělovače
"menu"
Orientace v hesle
lemma a přidružené informace
homonymie
výslovnost
o pro znalé IPA, v češtině přepis jazz (vysl. džez)
/dʒæz/
o nahrávka (Text-to-Speech)
o přízvuk пом'ощник
varianty
o např. jiný zápis džez, jazz
Lemma
morfologie
o neobvyklé tvary, gramatika Olymp, -u m. (6. j. -u)
o často můžeme doplnit (polo)automaticky (Příručka)
frekvence
o podle korpusu
dělení slova
o un·cle
Lemma
číslo, oddělení
definice
operator
o 1. [often with modifier] a person who operates
equipment or a machine: a radio operator.
o 1. An operator is a person who connects telephone
calls at a telephone exchange or in a place such as an
office or hotel.
o 1. pracovník obsluhující počítací stroje:
programátor a o. u samočinného počítače
Významy
vysvětlivka (neformální doplnění definice)
o The sun affects all living things (=people, animals, and plants).
o a living language (=one that people still use)
poznámka k použití
o Though is used with the same meaning as although, and is more
common in spoken English.
o know 35 spoken Heaven/God/who/goodness knows!
o a) used to say that you do not know the answer to a question:
o 'Where do you think he's disappeared to this time?' 'God knows!'
Významy
příklady
o vymyšlené (kvalita?) nebo z korpusu (kvalita?)
o přechovává partyzány u své babičky ve sklepě
o babička schovala Jeníka před rozzuřeným otcem
o cizí caparti cucali citronovou cukrovou vatu
slovní spojení
odkazy
o podobná, synonyma, antonyma,
hyperonyma...
(překlad)
Významy
etymologie
o atlas II, -u m. (6. j. -u, -e) (z řec. podle jm. obra
Atlanta) 1. anat. první obratel krční
o Origin:
o Old English helpan (verb), help (noun), of Germanic
origin; related to Dutch helpen and German helfen
ilustrace
Heslo
obor
oblast
styl (odborný, knižní, básnický...)
užití (hovorové, slang, urážlivé...)
čas
četnost
Příznaky
které a jak často používat?
o jednotné značení (software)
o pro počítačové zpracování vhodné označovat vše
platnost příznaku (heslo, význam, překlady)
o určuje umístění
více příznaků
o (old-fashioned, British English, informal)
o (formal or humorous)
Příznaky
hlavní rozdělení informací
o gramaticky - podle slovních druhů
o významově - podle hlavních významů
o někdy slovní druhy jako homonyma
Rozdělení
úrovně významů
o jedna úroveň
o zanořené úrovně
o jen odborníci si všimnou rozdílu
Rozdělení
podle čeho uspořádat významy?
o historicky
o frekvence výskytu (dobře označkovaný korpus)
o sémantické pořadí, nejprve "hlavní" význam
Uspořádání
Uspořádání
více informací (CD, DVD, web)
multimédia
delší vysvětlující články, odkazy na další zdroje
o materiály pro učitele, pro studenty
o přibalený korpus
vyhledávání
zobrazování údajů podle proiuživatele
Elektronické slovníky
Počítačová
lexikografie
Definice
Adam Rambousek
Dictionaries traditionally record vocabulary as if
meaning is something independent, inherent and
unique to an item, and serving to distinguish it from
all others. (Rosamund Moon)
významy se rozlišují, protože se to obvykle dělá
Rozdělení významů
A. Zwicky, J. Sadock: Ambiguity Tests and How to Fail
Them
zeugma (dvojí vazba)
o You are free to execute your laws, and your citizens, as
you see fit.
crossed readings (záměna slov)
o (bank) Mary blew up the bank and so did John.
o (hand) Mary put up her hand and so did John.
Rozdělení významů
morfologie (appendices/appendixes)
gramatika (an ant crawling across the table/she's learning to
crawl)
příd. jméno nebo hodnocení? (medieval cathedral/medieval
working conditions)
omezení výběru (co může být čerstvé?)
kolokace
lexikální vztahy (synonyma...)
překlady
Rozdělení významů
analýza konkordancí, použití
předpokládané rozdělení na významy
nasbírat dobré, obsáhlé příklady z korpusu pro každý
význam
analyzovat každý shluk, zjistit odlišující znaky
podle potřeby rozdělit nebo spojit (a opakovat)
Rozdělení významů
Patrick Hanks, Lexical Analysis: Norms and
Exploitations
Rozdělení významů, četba
Adam Kilgarriff, "I don't believe in word senses"
poloautomatické rozdělování význámů podle korpusu
automatický návrh skupin (podle sketchů)
uživatel potvrdí/zamítne/upraví rozdělení
a dokola...
TickBox Lexicography
Korpus na pomoc
předloha pro často se opakující druh/kategorii hesla
popis hesel z jedné kategorie vypadá podobně
o např. všechny stromy, jídlo, zaměstnání...
konzistence mezi autory i po delší době
Šablony
Illnesses and medical conditions (MED)
pneumonia - a serious illness affecting your lungs that
makes it difficult for you to breathe
Šablony
programmer, An organism that turns caffeine and
pizza into software.
lexicographer, A writer of dictionaries; a harmless
drudge, that busies himself in tracing the original, and
detailing the signification of words.
Definice
obsah + forma
funkce
o dekódování - vysvětlení neznámého pojmu
o stačí mi krátký popis
o kódování - informace o použití
o potřebuji podrobný popis gramatiky, příznaků, možných spojení,
výjimek...
Definice
ostenzivní definice (ukázáním)
o kyselý = mající chuť připomínající ocet
definice výčtem částí
o příbor = náčiní, kterým se jí (lžíce, vidlička, nůž)
o částí může být mnoho
definice synonymem/negací
o je to přesné synonymum?
Definice, obsah
tradiční - genus+differentia (rod+druhový rozdíl)
o židle = kus nábytku určený k sezení pro jednu osobu,
zprav. s opěradlem
o funguje výborně pro taxonomie, předměty, některá
slovesa
o popis "nutných" vlastností (příliš mnoho nebo příliš
málo)
o absolute = Something that is absolute
o raději popis "běžných" vlastností
extenzionální definice (výčet zástupců)
Definice, obsah
citové zabarvení
o příznaky
o doplnit vysvětlení (bourgeois - typical of middle-class
people and their attitudes. This word often shows that
you dislike people like this.)
konotace, asociace
o caviar - fish eggs eaten as food, usually spread on
bread. In many countries caviar is considered to be a
special and expensive food, eaten mainly by rich people.
Definice, obsah
neutralita?
apartheid
o the keeping separate of races of different colours in one
country, esp. of Europeans and non-Europeans in South
Africa (LDOCE 1, 1978)
o (in South Africa) the system established by government
of keeping different races separate, esp. so as to give
advantage to white people (LDOCE 2, 1987)
Definice, obsah
neutralita?
reincarnation
o the belief that on the death of the body the soul
transmigrates to or is born again in another body (CED,
1979)
o Rebirth of the soul in another body (AHD, 2000)
Definice, obsah
nezahltit čtenáře množstvím informací
nepsat příliš obecné výklady
nejdůležitější je, co čtenář potřebuje zjistit
Definice, obsah
vyhnout se kruhovým odkazům
o allow - to let; permit
o let - to allow; permit
o permit - to allow; let
o father - a male parent of a child or animal
o parent - a person's father or mother
Definice, forma
zaměnitelnost definice
o tenable - capable of being defended against attack
o Their position was no longer tenable.
používat jednodušší slova než definované heslo
o "definiční slovník" (slovníky pro studenty)
šetření místem a slovy (v papíru)
o podrobná definice na jednom místě
o bribe, v, to induce or influence by or as if by bribery
o bribery, n, the act or practice of giving or taking a bribe
o bribe, n, money or favor given or promised to a person in a position
of trust to influence his judgment or conduct
Definice, forma
snadnost použití
regadera - recipiente con un tubo acabado en una
boca ancha con muchos agujeros pequeños que se
usa regar, generalmente plantos
o nádoba s trubkou, která končí širokým ústím s mnoha
malými otvory, která se používá pro zalévání věcí,
obvykle rostlin
Definice, forma
tomorrow, A mystical land where 99 % of all human
productivity, motivation, and achievement is stored.
6.11. - pět hesel Počítačová
lexikografie
Příklady
Adam Rambousek
podklady, lexikální databáze
o kompletní a podrobné příklady
hotový slovník
o upravená, zkrácená podoba
Příklady
důkaz
o no other purpose, than that of proving the bare
existance of words (Johnson)
Funkce příkladů
objasnění významu
o doplňuje definici
o ideálně jsou příklad a definice samostatné, ne vždy to
jde
Funkce příkladů
ilustrace kontextu
o syntax
o typická slovní spojení, fráze
o ukázka použití
Funkce příkladů
citace (upravená) ze sbírky
o pro historické slovníky
vymyšlené příklady
o obvykle jen krátká část nebo slovní spojení
o myš - past na myši; kočka chytá myši
o a serious illness
autentické příklady z korpusu (COBUILD)
o gravitate - He gravitated, naturally, to Newmarket.
Odkud se berou?
"lexicographer's examples are more helpful in
comprehension of new words then the authentic
ones" (Laufer, 1992)
"found overwhelming approval among teachers and
learners of English for real examples taken directly
from a corpus" (Potter, 1998)
ideální příklad je přímo z korpusu - velmi vzácné
obvykle základ z korpusu
o zjednodušení, pročištění, úpravy
Příklady
přirozené a typické
o dostatečně velký korpus zobrazí časté kontexty, vzory,
kolokace, gramatiku...
o nevybírat jednotlivé výjimky
o kontext - zbytečné podrobnosti navíc, záhadné odkazy...
o One woman in every two hundred is a sufferer.
Dobré příklady
informativní
o lepší pochopení definice
o ani málo, ani moc
o bring up the rear: Jack brought up the rear.
o region: To have access to the truth and so to pass beyond the region of
mere opinion is to take great risks.
o neodporovat definici
o common cold: A common cold could kill her.
Dobré příklady
srozumitelné
o vyhnout se "obtížným" slovům a strukturám
o above: I had always considered Anthony priggishly above the rest of
us.
nepřidávat příklady, kde to nemá smysl
Dobré příklady
stare, abyss, climb, figure (v, n)
chovat, pochovat,
Příklady
Počítačová
lexikografie
21. století
Adam Rambousek
korpusová revoluce, od 80. let
o studium a pochopení jazyka
o práce lexikografů
o slovníky jsou pořád slovníky
digitální revoluce, od 90. let
o s rozšířením webu se zrychluje
o nové způsoby využití
Digitální revoluce
výhody
o místo
o multimedia, odkazy (výslovnost, video, odkazy na web,
hry...)
o aktuálnost (nečekáme 5 let na nové vydání)
Digitální slovníky
propojení s korpusy
o ordnet.dk
o DWDS.de
o CPA/PDEV
Digitální slovníky
stahujeme data z webu
o Wordnik.com
o příklady z webu, Twitteru
o definice z přístupných slovníků
o komentáře
o uživatelské seznamy
o obrázky z Flickr
Digitální slovníky
obsah vytvářený uživateli (90-9-1]
o slovníky (Wiktionary, slovnik.zcu.cz...)
o volba uživatelů (Dewan Bahasa dan Pustaka: výběr
nejlepších překladů nových termínů)
o komentáře uživatelů
Digitální slovníky
proč přejít na digitální verzi?
o rozhodují čtenáři - zvyšuje se návštěvnost webu, snižuje
prodej knih
o náklady na tisk a distribuci (celosvětově)
o alternativa
o dřív nebo později je to nevyhnutelné
Macmillan, zkušenosti
použít freemium model?
o omezená část zdarma, plná placená
o co vypustit z verze zdarma, aby placená byla lákavá?
o -> pro obecná data to moc nefunguje
Macmillan, zkušenosti
kdo je konkurence?
dříve snadná odpověď
o pro Macmillan pět dalších slovníků stejného typu
nyní každý
o agregátory
o Google (definice)
o diskusní fóra
o stránky pro studenty
o ...
Macmillan, zkušenosti
jak přitáhnout čtenáře?
odkazy, optimalizace pro vyhledávání
zpětná vazba a úpravy podle ní
přehledný design
obsah
Macmillan, zkušenosti
čtenáři chtějí:
o přehlednost
o čitelnost
o žádné otravné reklamy
vydavatel chce:
o marketingové údaje
o maximum příležitostí k výdělku (reklama)
Macmillan, zkušenosti
Click to edit Master text styles
Second level
● Third level
● Fourth level
● Fifth level
nárůst počtu uživatelů z mobilních zařízení
optimalizovaná verze pro mobily (2013)
Macmillan, zkušenosti
obsah
o pravidelné aktualizace, 3-4 za rok
další zdroje
o integrovaný tezaurus
o jazykové hry
o uživatelský slovník Open Dictionary
o blog
Macmillan, zkušenosti
dosavadní zkušenosti
postupně se objevují nové možnosti zisku
o aplikace, API, licence
metoda pokus-omyl
od ledna 2010 pětinásobný nárůst návštěvnosti
zlepšení pozice při vyhledávání
příjem z reklam ze zanedbatelného na významný
stále spíše přechodné období
Macmillan, zkušenosti