XML NMřlWMM re; VÍF Ukázka Počítačová lexikografie XML, standardy Adam Rambousek XML XML extensible Markup Language - značkovací (meta)jazyk pravidla, jak má vypadat správně vytvořený dokument snadné strojové zpracování a výměna informací konkrétní názvy značek určuje uživatel (standardy, vlastní) elementy: obsah bez obsahu lze zkrátit na atributy: <&^> Art . A^rtbi **** 440««,* M.^ XML správné zanoření značek správně: text špatně: text speciální znaky se přepisují na entity (např. <) •7 & < > Popis a kontrola obsahu DTD (Document Type Definition) seznam elementů a atributů a vztahy mezi nimi nekontroluje obsah Popis a kontrola obsahu • XML Schéma (XSD, XML Schéma Definition) • popis obsahu a struktury XML dokumentu, schéma samotné je XML dokument • elementy, atributy, struktura • možnost určit vlastní typy obsahu (např. opakující se adresa) • kontrola obsahu (např. číselný rozsah, regulární výrazy, povolené hodnoty) Standardy založené na XML • web: XHTML • matematika: MathML • knihy: EPUB • grafika: SVG • dialogové systémy: VoiceXML • metadata, sémantický web: RDF • text: TEI • lexikální data: LMF SÍTUACD MÁME STANDARDŮ. %?\ TDTC SMĚŠNÁ! MUSÍME \IWtNW)T 3 EDEN zpOsoBVPoolm:^ BEZV:1 SITOACC'- kONtiUBUSftitU SI STANDARDŮ. XS L(T) • extensible Stylesheet Language (Transformations) • prevod XML na jiné formáty • jiné XML značkování, text, HTML, LaTeX, PDF • šablony pro části XML dokumentu • postupné procházení dokumentu • (funkcionální programovací jazyk) =xsl:template match="definice"> ;/xsl:template> íkcionální programovací j azyl . TE • Text Encoding Initiative • http://www.tei-c.org/ • TEI Guidelines (aktuálne verze 5 z roku 2007) • XML formát pro sémantický popis textových dokumentů • velký rozsah značek • TEILite - osekaná verze, "90 % potřeb 90 % uživatelů" • romány, poezie, divadelní hry, dokumentace, slovníky, korpusy, grafy, rukopisy, zarovnání, odkazy, změny textu, notové zápisy... • nástroje - sada XSLT pro převod na LaTeX, docx, EPUB, HTML Knihy ACT ISCENE IWhors there? Fran Nay, answer me. Stand and unfold yourself Značkování My dear Mr. Bennet, said his lady to him one day, have you heard that type="place">Netherfield Park is let at last? Marleywas =w ana=M#AJOM>dead pc>: to begin with . '/$> Slovníky, podoba hesla
competitor com|peti|tor k@mMpetit@(r)
n person who competes.
Slovníky, významy VP6A turn (a ship) on one side for cleaning, repairing, etc. VP6A VP2A (cause to) tilt, lean over to one side Slovníky, překlady
dresser
Theat habilleur m Slovníky, příklady the multiplex eye of the fly. elle était horrifiée par la depense she was horrified at the expense. Slovníky, příznaky
colour U.S. color
Constr TEI, projekty Oxford Text Archive British National Corpus FreeDict Cambridge University Press Chinese Buddhist Electronic Text Association Deutsches Textarchiv Europeana Regia LMF Lexical Markup Framework • http://www.lexicalmarkupframework,org/ ISO-24613:2008 jednotný model pro tvorbu lexikálních zdrojů důraz na strojové zpracování a rozšiřitelnost • UML diagram pro lexikon jádro se základními informacemi + rozšíření pro různé oblasti (morfologie, syntax, sémantika...) : Global Information languagaCoding = " ISO 639-3 " 1 : Lankon languaga - "eng" 1 :Lamms : La xtcal Bilry wrinenForm ■ "clergyman" partOfSpeach ■ "commonNoun" 1 1 ;W?rd Fofm :Word Form wntlenForm - "clergyman" gram m a bcal N u m ber = "singulár" wrtttenForm = "dergymen" gram m atical N u m ber - "p 1 u raľ : Global Information : Lexical Resource languageCoding = " ISO 639-3 "| __ _J-Lftxicon language = "eng" : Lemma |- : Lexical Entry wnttenForm ■ "clergyman* 1 partOfSpeech = "common Noun" : Word Form : Word Form 1 writtenForm = •clergyman" grammabcalNumber = 'singular* writtenForm = "clergymen" 1 gram maticalNumber = "plural" Slovník WordnetLMF elDOCTYPE LexicalResource SYSTEM "kyOtO_wft.dtd"> sGlobalnformaticn label='Wordnet entries usirig Kyoto-LMF"fr < AtonolingualExternaRe f s > xalEritry id-'LEjootmark"* _ ^Statement example="the police made casts of the footprints in the soft earth outside the window" t> ^/Definition* d-- {mark, print}: —>