PA153 Počítačové zpracování přirozeného jazyka 08 - Lexikografické nástroje a počítačová lexikografie Karel Pala, Adam Rambousek Centrum ZPJ, Fl MU, Brno 11. listopadu 2013 Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 1/22 Q Lexikografie • Úvod • Lexikografie • Slovníky a počítače Q Počítačová lexikografie • Reprezentace dat • TEI • Dictionary Writing Systems Q Tvorba slovníku • Lexikálni databáze • Slovník Karel Pala, Adam Rambousek PA153 Zpracování přirozeného jazyka Lexikografie • PLIN035 Počítačová lexikografie • podoblast lexikológie • lexicography, lexikografie ► the activity or occupation of compiling dictionaries (Oxford d.) ► the editing or making of a dictionary (Merriam-Webster d.) ► the job of writing a dictionary (Macmillan d.) • praktická lexikografie • teoretická lexikografie - analýza a popis slovní zásoby, teorie o prvcích slovníku, skupinách uživatelů, hodnocení • Slovník národního jazyka náleží mezi první potrebnosti vzdělaného člověka. Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 3 / 22 Historie • hliněné tabulky z Ebla (Sýrie), cca 2500-2250 př.n.l. ► sumerština - eblaština a Robert Cawdrey: A Table Alphabetical!, 1604 ► první výkladový slovník angličtiny ► "hard wordes, borrowed from... for the benefit & helpe of Ladies, Gentlewomen, or any other unskilful! persons" • Samuel Johnson: A Dictionary of the English Language, 1747-1755 ► moderní slovník, 42 773 hesel ► "to preserve the purity and ascertain the meaning our English idiom" • Noah Webster: An American Dictionary of the English Language, 1828 ► 70 000 hesel, srovnání britské a americké angličtiny ► odmítal zařazovat do slovníků neslušná slova Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 4/22 Historie • The Oxford English Dictionary (A New English Dictionary) *■ 1857, Philological Society, R. C. Trench, kritika slovníků ► 1879, James A. H. Murray jmenován hlavním editorem - 1882-1928, vychází 12 svazků, 15487 stran, 240000 hesel Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 5/22 Historie • Bartoloměj z Chlumce, Klaret, 14. století ► latinsko-české slovníky, Vokabular (gramatický), Bohemář, Glosář *■ Raro sequens gesta de bestiis cernis honesta. Lew leo wlkque lupusque le[e]na Iwicze, nedvied ursus Ursaque nedviedicze, lupa wlczicze, die ovis owcze, Koza capra, vulpes lyskaque canicula tysta. • Daniel Adam z Veleslavína, 16. století ► Nomenclator quadrilinguis + Silva quadrilinguis, čeština-latina-řečtina-němčina, 958+300 stran, řazeno česky • Jan Amos Komenský, 17. století ► Thesaurus linguae Bohemicae - latinsko-český, česko-latinský, synchronní, diachrónni, lexikální, gramatické informace, frazeológie ► 20 let příprav... požár Lešna Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 6/22 Historie • Josef Jungmann, Slovník česko-německý ► 1815-1833, vydáno 1835-1839 ► 5 svazků, 4694 stran ► popisný výkladový slovník • Kancelář Slovníku jazyka českého, 1911 ► sběr slovníkového materiálu, dobrovolníci ► výpisky z prózy, básní, odborné literatury, publicistických článků ► Příruční slovník jazyka českého, 1935-1957 - 10 824 stran, 250 000 ► hesel cenzura "nežádoucích spisovatelů" Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 7/22 Slovníky a počítače a 60. léta - používají se počítače, lexikografové píší na papír, specialisté přepisují do databáze, Brown Corpus • 1978, Longman Dictionary of Contemporary English *■ první s omezeným slovníkem definicí, kontrolováno strojově ► kódování pro NLP výzkum • 1980, COBUILD, University of Birmingham + Collins ► korpus současných textů (Bank of English) ► 1987, Collins COBUILD English Language Dictionary první slovník založený na korpusových datech ► nový styl definice - celé věty ► If a person, animal, or other living thing is killed, something or someone causes them to die. • 90. léta - vývoj specializovaných systémů pro tvorbu slovníků • 1987, Text Encoding Initiative Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 8/22 XML • PB138 Moderní značkovací jazyky • extensible Markup Language - značkovací (meta)jazyk • pravidla, jak má vypadat správně vytvořený dokument - snadné strojové zpracování a výměna informací • konkrétní názvy značek určuje uživatel (standardy, vlastní) • elementy obsah • bez obsahu lze zkrátit na • atributy Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 9/22 XML • správné zanoření značek ► správně: text ► špatně: text • speciální znaky (např. <,>,&) se přepisují na entity (např. <) PA153 Zpracování při Počítačová lexikografie 10 / 22 Popis struktury a kontrola obsahu • DTD (Document Type Definition) ► seznam elementu a atributů a vztahy mezi nimi ► nekontroluje obsah ► • XML Schéma (XSD, XML Schéma Definition) ► popis obsahu a struktury XML dokumentu, schéma samotné je XML dokument ► elementy, atributy, struktura ► možnost určit vlastní typy obsahu (např. opakující se adresa) ► kontrola obsahu (např. číselný rozsah, regulární výrazy, povolené hodnoty) Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 11 Zobrazení • XSLT - extensible Stylesheet Language (Transformations) • prevod XML na jiné formáty ► jiné XML značkování, text, HTML, LaTeX, PDF • šablony pro části XML dokumentu, postupné procházení dokumentu • funkcionální programovací jazyk SSJC 5lo*nil: ip lounitiijc.Yki fiikjtio lov i4 j -l) 1. ífrítdnia rneoíov-dni sf zvttt f n#;í oástftltm}. chytem ryb L Jeleni ctaíkjťh kachen, velryb; l Iosojú; L perel, doba lovu; uspofädetl na medvídy; vyjel na I. pravá lovu, L odsrřflrm, chytáním, lapáiurn, L lesní, polní, vadni; hromadný 1 hon liíka vyfla na].; lovu zdar' (tenriiyptnértrv) 2. MFi ctyfovu rAa'nŕm'cVftoJwírv, vitozúkttafiN, pír krtrfm » upfotnťo&rotnoíta ndňcdtr l Tiicnrto hmyzu; sbíratelÝ s* »ydJl rul lidových písní pafccL* podnikli L ni:lod(]«; npi W)f L! Iraimynáln. iT*n-*jo koupi op 3. vyxtaMi Jovu ú/oveA. fcoŕjrí vrAOt ;e ! bohatým lořem r ukfiuu mu np JŠm rrpr tpJM tiAanýii«bŕao^nSfi Uaimáunéhódtu, 5SC5L*Ynd: znavní ftllmj lov ■i m 1. /overtiivčře o ryb Iot koroptve lov na zajíce, lita vyila na Ioí. íúJetL-ok frvr.ai kfít:ir m.-wi akbchífý lov, Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 12 / 22 Ukladaní • XML databáze • ukládají se přímo XML dokumenty • vyhledávání - XPath, XQuery • např. eXist, BaseX, Sedna PA153 Zpracování při Počítačová lexikografie 13 / 22 TEI • Text Encoding Initiative, http: //www. tei-c. org/ • TEI Guidelines (aktuálně verze 5 z roku 2007) • XML formát pro sémantický popis textových dokumentů • velký rozsah značek • TEI Lite - osekaná verze, "90 % potřeb 90 % uživatelů" • romány, poezie, divadelní hry, dokumentace, slovníky, korpusy, grafy, rukopisy, zarovnání, odkazy, změny textu, notové zápisy... • nástroje - sada XSLT pro převod na LaTeX, docx, EPUB, HTML Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 14 / 22 Dictionary Writing Systems • aplikace pro tvorbu slovníků (obvykle celý proces tvorby) • často vlastní • komerční ► IDM DP5- klient-server (Windows) ► iLex - jádro a dokupované moduly, samostatně nebo klient-server, mobily (Windows, Linux, Mac) ► TLex - online, offline (Windows, Mac) • DE B (Diet ion ary Editor and Browser) *■ platforma pro slovníkové aplikace ► klient-server, základní knihovny, speciální moduly ► DEBDict, DEBVisDic, Internetová jazyková příručka ► http://deb.fi.muni.cz Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 15 / 22 I [Herr Document Object MpJd] TihtngncLu - [CADiriOrviry iff LCuiitna f ntruľĽlHktJ y. ň P J» ŕ> EMU I £i| + Wl B ; |||*£||jliil9x|jai|.KAa|e sanflala (■] ■sign tangu [■) »rs:er i/j saní SantaCiau^O (ífflí [■> sap«(i][-) sawr|2] sansHMŔuf n ■ Ltmmasjns UnnnaSlgn=Mnä,WjdKi9d=200MÍ-2320 ] Fronuntistíŕ 1e*t ?ď -: PůS (Sloup: ráJtoNumtje(^1.PartůlSpe«3i^prep. B-Sense: 1 .*uloNu«nCer: i TE TE-«*ft« Example Exarrieťe="Cfi peuf 1aire 93ns-("availIf CombinaliDn: L em ma 5 ij r-sans cess? bí.ťs's'; ■TE ie: v coTfttHraiiw I6írirrtas^ťi=sari3 corns ssa ne*. ; I£: TEsurKďisocws ComMnauon: Lemma5*;jri=sarrs aou»,EtyirtoFo Í--1E: TE=IWdttíbl iE TE=wihMrta ■ uns «nnaisune* uriäariscious ťDíĚJj ■ sansdoute n0 doubl, trtfiůul a doubl tQaH> »sani (que] d um*» ■ Eton veiHoit Ii man, bUnsůK On auraltJamaSs lotste Ii mo'i Sunt que quaiqu'nn 1011 lá And ixe u'akťd itifi body, Of tOatet. VJt «™J vf nev«r fe ft 4w body unlei» wnwow *« Aw*. {TB) ^without. 'T'auras pas battu dans te sollt sans Ii t*/out d than. You wouldn't tav* fought at die Janes ha! wthaw hon ärouwg you out (LA AnOi i TS Anja DaJis ■ co vo hid dir* ü goes without laying *0j&J> IMméo] ĚanS.ífiSuf [Saucer] j». 1 tasrtliH. írtMi píites s p*'son ■ aj rttn qtt 'tm sam-emif. You'íí. rttftiste tau a ífliíl au. (SB) [Mmln) -..i., jf.:.- fsäuwä.) n. 1 great blue ľ.ercn tWmini] Sonu Claus |*ůtaHií, íiteU^I rt.pľoŕ. 1 Sama Claus AC. £V. IS. L^G. Ph36>|Sdm«i] unie (túia| ň.l. 1 htrth ■ ^'dř jPtíj ptt m'v»p4ciwr dí mtycher á tut. Jedli, "íly a um question j'ůtMVůU ;a denander Qvoí c «1 iu/ais pour u some'*" Ii du. "Je vea era baipretfa 10ns;« sots " I covkfn't hdp bin wallt o\ec ich heu I sud, "Tíitie s a qittitxin 1 d He iw »k you. What do you Jo I« vom lkŕáWi'r' Hfi 5iud.r "140 Tú itŕ dance Ahuist ŕvŕrt- nighT."' (ťk lů rtéigiíuf la couverlure) ■ i vtrtiu unie to your liíBTlh <Ďjäí> ■ an bon ne canté in good health -c DaS4> ■ en mauvoi» same 111 bad health cDaB4> Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 16 / 22 Lexikální databáze • podrobná strukturovaná jazyková databáze ► (nyní obvykle) doklady z korpusu ► gramatické údaje ► valence, vzory ► styl, užití, oblast... ► vztahy mezi slovy • podklad pro slovníky a výzkum • PraLeD (Pražská Lexikální Databáze) • DANTE (Database of ANalysed Texts of English) Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 17 / 22 Tvorba slovníku • tvorba slovníků je drahá, náročná a trvá dlouho, konkurence » grant nebo se musí vyplatit Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 18 / 22 Tvorba slovníku • B. T. Sue Atkins, Michael Rundell: The Oxford Guide to Practical Lexicography j _[ n-Gepl j ^4 Softw.ire Ho u re j Marketing Pepi LAUNCH DICTIONARY PA153 Zpracování při Počítačová lexikografie 19 / 22 Tvorba slovníku • co chybí? —> druh slovníku a jeho uživatel • rozpočet a časový plán • uživatelské profily, Style guide • editační software (výroba nebo nastavení) • korpus (vývoj, prohledávání) • procesy • píšeme slovník • vzhled a sazba (tisk, digitální) • výroba • propagace • prodej • profit Obsah slovníku • makrostruktura - heslář (+předmluva, přílohy...) • heslo1 = lemma, entry term, heslové slovo, headword ► obvykle nominativ sg., slovesa v infinitivu ► části slov, spojení slov • heslo2 = heslová stať, entry • mikrostruktura - struktura jednoho záznamu ve slovníku ► kontrola pomocí softwaru ► usnadnění orientace pro čtenáře Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 21 / 22 Elektronické slovníky • více informací (CD, DVD, web) a multimédia a delší vysvětlující články, odkazy na další zdroje ► materiály pro učitele, pro studenty ► přibalený korpus a vyhledávání a navigace a zobrazování údajů podle profilu uživatele (časté operace) Karel Pala, Ad; Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 22 / 22