Pavel Rychlý pary@fi.muni.cz 23. února 2015 Pavel Rychlý IB047 Formáty korpusů archiv/kolekce různé formáty, podle zdroje/typu Oxford Text Archive textové banky jednotný formát a základní struktura dokumenty/texty, základní metainformace Project Gutenberg vertikální text binární data v aplikaci pomocné data pro rychlejší zpracování ■ indexy ■ statistiky Způsoby uložení korpusu soubory/adresáře ■ dokumenty/texty ■ 1:1 (soubor « dokument) ■ 1 :n (soubor « n dokumentů) ■ n:1 (n soborů « dokument) značkování, statistiky,... ■ pro hodně velké korpusy každý soubor 100 MB Obsah korpusu Co je v korpusu uloženo? ■ text ■ metainformace ■ autor, rok publikace, pohlaví cílové skupiny ■ struktura dokumentu ■ odstavce, nadpisy, verše, věty ■ značkování ■ informace o slovech ■ morfologie, základní tvary Kódování znaků ■ 8 bitů 256 znaků ■ ASCII-základ 7 bitů ■ kódování pro češtinu ■ ISO-Latin-2, Windows-1250, 852 ■ Unicode ■ Unicode 6.1 (2012) ■ 31 bitů na znak, kódy zatím jen do 0xE01 EF (0x1 OFFFD) ■ asi 110 tisíc znaků ■ UTF-8 ■ 1 až 4 bytů na znak ■ UTF-16 ■ 2 až 4 byty na znak ■ Byte Order Mark, koplikované ■ kompatibilita s ASCII ■ jednotné na různých platformách (Little/Big Endian) ■ snadno zjistíme kde začíná znak Bits Last code point Byte 1 Byte 2 Byte 3 Byte 4 Byte 5 Byte 6 7 U+007F Oxxxxxxx 11 U+07FF 110xxxxx 1Oxxxxxx 16 U+FFFF 1110xxxx 1Oxxxxxx 1Oxxxxxx 21 U+1FFFFF 11110xxx 1Oxxxxxx 1Oxxxxxx 1Oxxxxxx 26 U+3FFFFFF 111110xx 1Oxxxxxx 1Oxxxxxx 1Oxxxxxx 1Oxxxxxx 31 U+7FFFFFFF 1111110x 1Oxxxxxx 1Oxxxxxx 1Oxxxxxx 1Oxxxxxx 1Oxxxxxx Kódování metainformací ■ escape-sekvence ■ speciální znak mění význam následujících znaků ■ \n, \t, & ■ SGML ■ Standard Generalised Markup Language ■ ISO 8879:1986(E) ■ XML ■ Extensible Markup Language ■ W3C, 1998 ■ struktura popsána v DTD ■ elementy ■ počáteční, koncová značka ■ , , , ■ atributy elementů/značek ■ ■ ■ entity ■ > < & é Pavel Rychlý IB047 Standardy pro ukládání ■ SGML/XML ■ TEI ■ Text Encoding Initiative ■ TEI Guidelines for Electronic Text Encoding and Interchange ■ 3. verze (TEI P3), 1993, 39 kapitol ■ 23. kapitola - Language Corpora ■ 4. verze (TEI P4), 2001-2004, podpora XML ■ aktuálně - TEI P5 - 2007, více XML (vnoření jiných sad Math ML), kontroly ■ 15. kapitola - Language Corpora ■ CES, XCES ■ Corpus Encoding Standard ■ XCES 1.0.4. (2008) - odpovídá TEI P5 ■ definují sadu elementů a atributů pro strukturu a metainformace Tokenizace Rozdělení textu do pozic ■ token (pozice) = základní prvek korpusu ■ většinou slovo, číslo, interpunkce ■ může silně ovlivnit výsledky Příklady: bude-li ■ bude-li ■ bude -li ■ bude - li don't ■ don't ■ don ' t ■ do n't Pavel Rychlý IB047 Vertikální text ■ jednoduchý formát i jeho zpracování ■ každý token na samostatném řádku ■ struktury formou XML elementů ■ značkování odděleno tabulátorem ■ podrobnosti ■ http://www.fi.muni.cz/nlp/ ■ Informace pro současné a potenciální spolupracovníky ■ Textové korpusy ■ Popis vertikálů