PA153 Počítačové zpracování přirozeného jazyka
08 - Lexikografické nástroje a počítačová lexikografie Karel Pala, Adam Rambousek
Centrum ZPJ, Fl MU, Brno
11. listopadu 2013
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 1/22
Q Lexikografie
• Úvod
• Lexikografie
• Slovníky a počítače
Q Počítačová lexikografie
• Reprezentace dat
• TEI
• Dictionary Writing Systems
Q Tvorba slovníku
• Lexikálni databáze
• Slovník
Karel Pala, Adam Rambousek PA153 Zpracování přirozeného jazyka
Lexikografie
• PLIN035 Počítačová lexikografie
• podoblast lexikológie
• lexicography, lexikografie
► the activity or occupation of compiling dictionaries (Oxford d.)
► the editing or making of a dictionary (Merriam-Webster d.)
► the job of writing a dictionary (Macmillan d.)
• praktická lexikografie
• teoretická lexikografie - analýza a popis slovní zásoby, teorie o prvcích slovníku, skupinách uživatelů, hodnocení
• Slovník národního jazyka náleží mezi první potrebnosti vzdělaného člověka.
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 3 / 22
Historie
• hliněné tabulky z Ebla (Sýrie), cca 2500-2250 př.n.l.
► sumerština - eblaština
a Robert Cawdrey: A Table Alphabetical!, 1604
► první výkladový slovník angličtiny
► "hard wordes, borrowed from... for the benefit & helpe of Ladies, Gentlewomen, or any other unskilful! persons"
• Samuel Johnson: A Dictionary of the English Language, 1747-1755
► moderní slovník, 42 773 hesel
► "to preserve the purity and ascertain the meaning our English idiom"
• Noah Webster: An American Dictionary of the English Language, 1828
► 70 000 hesel, srovnání britské a americké angličtiny
► odmítal zařazovat do slovníků neslušná slova
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 4/22
Historie
• The Oxford English Dictionary (A New English Dictionary) *■ 1857, Philological Society, R. C. Trench, kritika slovníků ► 1879, James A. H. Murray jmenován hlavním editorem - 1882-1928, vychází 12 svazků, 15487 stran, 240000 hesel
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 5/22
Historie
• Bartoloměj z Chlumce, Klaret, 14. století
► latinsko-české slovníky, Vokabular (gramatický), Bohemář, Glosář *■ Raro sequens gesta de bestiis cernis honesta.
Lew leo wlkque lupusque le[e]na Iwicze, nedvied ursus Ursaque nedviedicze, lupa wlczicze, die ovis owcze, Koza capra, vulpes lyskaque canicula tysta.
• Daniel Adam z Veleslavína, 16. století
► Nomenclator quadrilinguis + Silva quadrilinguis, čeština-latina-řečtina-němčina, 958+300 stran, řazeno česky
• Jan Amos Komenský, 17. století
► Thesaurus linguae Bohemicae - latinsko-český, česko-latinský, synchronní, diachrónni, lexikální, gramatické informace, frazeológie
► 20 let příprav... požár Lešna
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 6/22
Historie
• Josef Jungmann, Slovník česko-německý
► 1815-1833, vydáno 1835-1839
► 5 svazků, 4694 stran
► popisný výkladový slovník
• Kancelář Slovníku jazyka českého, 1911
► sběr slovníkového materiálu, dobrovolníci
► výpisky z prózy, básní, odborné literatury, publicistických článků
► Příruční slovník jazyka českého, 1935-1957 - 10 824 stran, 250 000
► hesel cenzura "nežádoucích spisovatelů"
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 7/22
Slovníky a počítače
a 60. léta - používají se počítače, lexikografové píší na papír, specialisté přepisují do databáze, Brown Corpus
• 1978, Longman Dictionary of Contemporary English
*■ první s omezeným slovníkem definicí, kontrolováno strojově
► kódování pro NLP výzkum
• 1980, COBUILD, University of Birmingham + Collins
► korpus současných textů (Bank of English)
► 1987, Collins COBUILD English Language Dictionary první slovník založený na korpusových datech
► nový styl definice - celé věty
► If a person, animal, or other living thing is killed, something or someone causes them to die.
• 90. léta - vývoj specializovaných systémů pro tvorbu slovníků
• 1987, Text Encoding Initiative
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 8/22
XML
• PB138 Moderní značkovací jazyky
• extensible Markup Language - značkovací (meta)jazyk
• pravidla, jak má vypadat správně vytvořený dokument - snadné strojové zpracování a výměna informací
• konkrétní názvy značek určuje uživatel (standardy, vlastní)
• elementy obsah
• bez obsahu lze zkrátit na
• atributy
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 9/22
XML
• správné zanoření značek
► správně: text
► špatně: text
• speciální znaky (např. <,>,&) se přepisují na entity (např. <)
PA153 Zpracování při
Počítačová lexikografie
10 / 22
Popis struktury a kontrola obsahu
• DTD (Document Type Definition)
► seznam elementu a atributů a vztahy mezi nimi
► nekontroluje obsah
►
►
• XML Schéma (XSD, XML Schéma Definition)
► popis obsahu a struktury XML dokumentu, schéma samotné je XML dokument
► elementy, atributy, struktura
► možnost určit vlastní typy obsahu (např. opakující se adresa)
► kontrola obsahu (např. číselný rozsah, regulární výrazy, povolené hodnoty)
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 11
Zobrazení
• XSLT - extensible Stylesheet Language (Transformations)
• prevod XML na jiné formáty
► jiné XML značkování, text, HTML, LaTeX, PDF
• šablony pro části XML dokumentu, postupné procházení dokumentu
• funkcionální programovací jazyk
SSJC 5lo*nil: ip lounitiijc.Yki fiikjtio
lov
i4 j -l)
1. ífrítdnia rneoíov-dni sf zvttt f n#;í oástftltm}. chytem ryb L Jeleni ctaíkjťh kachen, velryb; l Iosojú; L perel, doba lovu; uspofädetl na medvídy; vyjel na I. pravá lovu, L odsrřflrm, chytáním, lapáiurn, L lesní, polní, vadni; hromadný 1 hon liíka vyfla na].; lovu zdar' (tenriiyptnértrv)
2. MFi ctyfovu rAa'nŕm'cVftoJwírv, vitozúkttafiN, pír krtrfm » upfotnťo&rotnoíta ndňcdtr l Tiicnrto hmyzu; sbíratelÝ s* »ydJl rul lidových písní
pafccL* podnikli L ni:lod(]«; npi W)f L! Iraimynáln. iT*n-*jo koupi op
3. vyxtaMi Jovu ú/oveA. fcoŕjrí vrAOt ;e ! bohatým lořem r ukfiuu mu np JŠm rrpr tpJM tiAanýii«bŕao^nSfi Uaimáunéhódtu,
5SC5L*Ynd: znavní ftllmj
lov
■i m
1. /overtiivčře o ryb Iot koroptve lov na zajíce, lita vyila na Ioí.
íúJetL-ok frvr.ai kfít:ir m.-wi akbchífý lov,
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 12 / 22
Ukladaní
• XML databáze
• ukládají se přímo XML dokumenty
• vyhledávání - XPath, XQuery
• např. eXist, BaseX, Sedna
PA153 Zpracování při
Počítačová lexikografie 13 / 22
TEI
• Text Encoding Initiative, http: //www. tei-c. org/
• TEI Guidelines (aktuálně verze 5 z roku 2007)
• XML formát pro sémantický popis textových dokumentů
• velký rozsah značek
• TEI Lite - osekaná verze, "90 % potřeb 90 % uživatelů"
• romány, poezie, divadelní hry, dokumentace, slovníky, korpusy, grafy, rukopisy, zarovnání, odkazy, změny textu, notové zápisy...
• nástroje - sada XSLT pro převod na LaTeX, docx, EPUB, HTML
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 14 / 22
Dictionary Writing Systems
• aplikace pro tvorbu slovníků (obvykle celý proces tvorby)
• často vlastní
• komerční
► IDM DP5- klient-server (Windows)
► iLex - jádro a dokupované moduly, samostatně nebo klient-server, mobily (Windows, Linux, Mac)
► TLex - online, offline (Windows, Mac)
• DE B (Diet ion ary Editor and Browser)
*■ platforma pro slovníkové aplikace
► klient-server, základní knihovny, speciální moduly
► DEBDict, DEBVisDic, Internetová jazyková příručka
► http://deb.fi.muni.cz
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 15 / 22
I [Herr Document Object MpJd] TihtngncLu - [CADiriOrviry iff LCuiitna f ntruľĽlHktJ
y. ň P J» ŕ> EMU I £i| + Wl B ; |||*£||jliil9x|jai|.KAa|e
sanflala (■]
■sign tangu [■)
»rs:er i/j
saní
SantaCiau^O (ífflí [■>
sap«(i][-) sawr|2]
sansHMŔuf n ■
Ltmmasjns UnnnaSlgn=Mnä,WjdKi9d=200MÍ-2320 ]
Fronuntistíŕ 1e*t ?ď -: PůS (Sloup: ráJtoNumtje(^1.PartůlSpe«3i^prep.
B-Sense: 1 .*uloNu«nCer: i TE TE-«*ft«
Example Exarrieťe="Cfi peuf 1aire 93ns-("availIf CombinaliDn: L em ma 5 ij r-sans cess? bí.ťs's';
■TE
ie:
v coTfttHraiiw I6írirrtas^ťi=sari3 corns ssa ne*.
; I£: TEsurKďisocws
ComMnauon: Lemma5*;jri=sarrs aou»,EtyirtoFo Í--1E: TE=IWdttíbl iE TE=wihMrta ■ uns «nnaisune* uriäariscious ťDíĚJj ■ sansdoute n0 doubl, trtfiůul a doubl tQaH> »sani (que] d um*» ■ Eton veiHoit Ii man, bUnsůK On auraltJamaSs lotste Ii mo'i Sunt que quaiqu'nn 1011 lá And ixe u'akťd itifi body, Of tOatet. VJt «™J vf nev«r fe ft 4w body unlei» wnwow *« Aw*. {TB) ^without. 'T'auras pas battu dans te sollt sans Ii t*/out d than. You wouldn't tav* fought at die Janes ha! wthaw hon ärouwg you out (LA AnOi i TS Anja DaJis ■ co vo hid dir* ü goes without laying *0j&J> IMméo]
ĚanS.ífiSuf [Saucer] j».
1 tasrtliH. írtMi píites s p*'son ■ aj rttn qtt 'tm sam-emif. You'íí. rttftiste tau a ífliíl au. (SB) [Mmln)
-..i., jf.:.- fsäuwä.) n. 1 great blue ľ.ercn
tWmini]
Sonu Claus |*ůtaHií, íiteU^I rt.pľoŕ. 1 Sama Claus
AC. £V. IS. L^G. Ph36>|Sdm«i]
unie (túia| ň.l.
1 htrth ■ ^'dř jPtíj ptt m'v»p4ciwr dí mtycher á tut. Jedli, "íly a um question j'ůtMVůU ;a denander Qvoí c «1 iu/ais pour u some'*" Ii du. "Je vea era baipretfa 10ns;« sots " I covkfn't hdp bin wallt o\ec ich heu I sud, "Tíitie s a qittitxin 1 d He iw »k you. What do you Jo I« vom lkŕáWi'r' Hfi 5iud.r "140 Tú itŕ dance Ahuist ŕvŕrt- nighT."' (ťk lů rtéigiíuf la couverlure) ■ i vtrtiu unie to your liíBTlh <Ďjäí> ■ an bon ne canté in good health -c DaS4> ■ en mauvoi» same 111 bad health cDaB4>
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 16 / 22
Lexikální databáze
• podrobná strukturovaná jazyková databáze
► (nyní obvykle) doklady z korpusu
► gramatické údaje
► valence, vzory
► styl, užití, oblast...
► vztahy mezi slovy
• podklad pro slovníky a výzkum
• PraLeD (Pražská Lexikální Databáze)
• DANTE (Database of ANalysed Texts of English)
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 17 / 22
Tvorba slovníku
• tvorba slovníků je drahá, náročná a trvá dlouho, konkurence » grant nebo se musí vyplatit
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 18 / 22
Tvorba slovníku
• B. T. Sue Atkins, Michael Rundell: The Oxford Guide to Practical Lexicography
j
_[ n-Gepl j
^4
Softw.ire Ho u re
j Marketing Pepi LAUNCH DICTIONARY
PA153 Zpracování při
Počítačová lexikografie
19 / 22
Tvorba slovníku
• co chybí? —> druh slovníku a jeho uživatel
• rozpočet a časový plán
• uživatelské profily, Style guide
• editační software (výroba nebo nastavení)
• korpus (vývoj, prohledávání)
• procesy
• píšeme slovník
• vzhled a sazba (tisk, digitální)
• výroba
• propagace
• prodej
• profit
Obsah slovníku
• makrostruktura - heslář (+předmluva, přílohy...)
• heslo1 = lemma, entry term, heslové slovo, headword
► obvykle nominativ sg., slovesa v infinitivu
► části slov, spojení slov
• heslo2 = heslová stať, entry
• mikrostruktura - struktura jednoho záznamu ve slovníku
► kontrola pomocí softwaru
► usnadnění orientace pro čtenáře
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 21 / 22
Elektronické slovníky
• více informací (CD, DVD, web) a multimédia
a delší vysvětlující články, odkazy na další zdroje
► materiály pro učitele, pro studenty
► přibalený korpus
a vyhledávání a navigace
a zobrazování údajů podle profilu uživatele (časté operace)
Karel Pala, Ad;
Rambousek PA153 Zpracování přirozeného jazyka
Počítačová lexikografie 22 / 22