XML
NMřlWMM
re;
VÍF
Ukázka
Počítačová lexikografie XML, standardy
Adam Rambousek
XML
XML
extensible Markup Language - značkovací (meta)jazyk pravidla, jak má vypadat správně vytvořený dokument snadné strojové zpracování a výměna informací konkrétní názvy značek určuje uživatel (standardy, vlastní) elementy: obsah bez obsahu lze zkrátit na atributy:
<&^> Art . A^rtbi **** 440««,* M.^
XML
správné zanoření značek správně: text špatně: text speciální znaky se přepisují na entity (např. <) •7 &
< >
Popis a kontrola obsahu
DTD (Document Type Definition)
seznam elementů a atributů a vztahy mezi nimi
nekontroluje obsah
Popis a kontrola obsahu
• XML Schéma (XSD, XML Schéma Definition)
• popis obsahu a struktury XML dokumentu, schéma samotné je XML dokument
• elementy, atributy, struktura
• možnost určit vlastní typy obsahu (např. opakující se adresa)
• kontrola obsahu (např. číselný rozsah, regulární výrazy, povolené hodnoty)
Standardy založené na XML
• web: XHTML
• matematika: MathML
• knihy: EPUB
• grafika: SVG
• dialogové systémy: VoiceXML
• metadata, sémantický web: RDF
• text: TEI
• lexikální data: LMF
SÍTUACD MÁME
STANDARDŮ.
%?\ TDTC SMĚŠNÁ! MUSÍME \IWtNW)T 3 EDEN
zpOsoBVPoolm:^
BEZV:1
SITOACC'-
kONtiUBUSftitU SI STANDARDŮ.
XS L(T)
• extensible Stylesheet Language (Transformations)
• prevod XML na jiné formáty
• jiné XML značkování, text, HTML, LaTeX, PDF
• šablony pro části XML dokumentu
• postupné procházení dokumentu
• (funkcionální programovací jazyk)
=xsl:template match="definice"> ;/xsl:template>
íkcionální programovací j azyl
.
TE
• Text Encoding Initiative • http://www.tei-c.org/
• TEI Guidelines (aktuálne verze 5 z roku 2007)
• XML formát pro sémantický popis textových dokumentů
• velký rozsah značek
• TEILite - osekaná verze, "90 % potřeb 90 % uživatelů"
• romány, poezie, divadelní hry, dokumentace, slovníky, korpusy, grafy, rukopisy, zarovnání, odkazy, změny textu, notové zápisy...
• nástroje - sada XSLT pro převod na LaTeX, docx, EPUB,
HTML
Knihy
ACT ISCENE I Enter Barnardo and Francisco, two Sentinels, at several doors
Barn
<1 part=MY">Whors there?
Fran
Nay, answer me. Stand and unfold yourself
Značkování
My dear Mr. Bennet,
said his lady to him one day, have you heard that type="place">Netherfield Park is let at last?
Marleywas =w ana=M#AJOM>dead pc>:
to begin with . '/$>
Slovníky, podoba hesla
n
person who competes.
Slovníky, významy
VP6A
turn (a ship) on one side for cleaning, repairing, etc.
VP6A VP2A
(cause to) tilt, lean over to one side
Slovníky, překlady
Theat habilleur
m
Slovníky, příklady
the multiplex eye of the fly.
elle était horrifiée par la depense
she was horrified at the expense.
Slovníky, příznaky
Constr
TEI, projekty
Oxford Text Archive British National Corpus FreeDict
Cambridge University Press
Chinese Buddhist Electronic Text Association
Deutsches Textarchiv
Europeana Regia
LMF
Lexical Markup Framework
• http://www.lexicalmarkupframework,org/ ISO-24613:2008
jednotný model pro tvorbu lexikálních zdrojů důraz na strojové zpracování a rozšiřitelnost
• UML diagram pro lexikon
jádro se základními informacemi + rozšíření pro různé oblasti (morfologie, syntax, sémantika...)
: Global Information
languagaCoding = " ISO 639-3 "
1
: Lankon
languaga - "eng"
1
:Lamms : La xtcal Bilry
wrinenForm ■ "clergyman" partOfSpeach ■ "commonNoun"
1 1
;W?rd Fofm :Word Form
wntlenForm - "clergyman" gram m a bcal N u m ber = "singulár" wrtttenForm = "dergymen" gram m atical N u m ber - "p 1 u raľ
: Global Information : Lexical Resource
languageCoding = " ISO 639-3 "|
__
_J-Lftxicon
language = "eng"
: Lemma |- : Lexical Entry
wnttenForm ■ "clergyman* 1 partOfSpeech = "common Noun"
: Word Form : Word Form 1
writtenForm = •clergyman" grammabcalNumber = 'singular* writtenForm = "clergymen" 1 gram maticalNumber = "plural"
Slovník
WordnetLMF
elDOCTYPE LexicalResource SYSTEM "kyOtO_wft.dtd"> sGlobalnformaticn label='Wordnet entries usirig Kyoto-LMF"fr