KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 1 Není korpus jako korpus https://cs.wikipedia.org/wiki/Korpus 2 Myšlenka korpusu ve filologii a lingvistice 3 —V širším slova smyslu soubor textů —Sbírka textů —Korpus v moderním slova smyslu — Zdroje poznání fungování jazyka 4 —Introspekce (pozorování vlastní jazykové produkce za účelem zjistit, jak funguje jazyk); —Elicitace (navození situace, v níž dochází k produkci textů, z nichž chceme získat jazykový materiál, který má osvětlit fungování jazyka); —Pozorování textů vzniklých spontánně, když lidé mluví, píší; Introspekce 5 Elicitace 6 Texty 7 Od excerpce ke korpusu 8 Definice korpusu 9 Definice korpusu v moderním slova smyslu 10 —vzorky (sampling) a reprezentativnost —konečná velikost (omezený a vymezený rozsah) —strojově čitelná forma (MRF) —standardní reference — Reprezentativnost korpusu 11 —Texty mají reprezentovat jazyk, a to buď obecně v jeho různých podobách (psané/mluvené), nebo speciálně (např. žánrově vymezené korpusy, autorské korpusy, žákovské korpusy). —Vzorky – z textů, z nichž se skládá korpus, se vybírá vzorek (reprezentativní část textu), nebo je text zařazen do korpusu jako celek. —Vzorkování – proč a jak Velikost korpusu 12 —Vymezený obsah i rozsah (kdy je možné/nutné upřednostni kvantitu a kdy je třeba brát v úvahu zejména kvalitu) —Rozsah psaných a mluvených korpusů s ohledem na žánr —Rozsah a obsah autorských korpusů (průnik korpusové lingvistiky a filologie) —Rozsah a obsah specializovaných korpusů Strojově čitelná a přístupná podoba 13 —Konverze textů existujících ve strojově čitelné podobě do jednotného formátu —Převedení textů, které neexistují ve strojově čitelné podobě —OCR metody —Ruční přepis —Budování pravidel pro ruční přepis jako metodologie —Otázka transliterace a transkripce a dalších edičních strategií — Standardní reference 14 —Vnětextové značkování - metadata —Vnitrotextové značkování – popis jazykových jednotek, z nichž je text složen —struktury —tokeny —různé typy jazykových značek Budování korpusu 15 —Specifikace cíle a účelu korpusu – proč korpus chceme —specifikace cílové skupiny uživatelů – kdo ho bude používat? —výběr a sběr jazykového materiálu (texty, nahrávky + přepisy, přepisy dat, které nejsou v el. podobě, přepisy dat související s verzemi rukopisných i starších tištěných památek) —autorská práva – smlouvy s dodavateli textů, u mluvených korpusů informovaný souhlas mluvčích a anonymizace osobních —zpracování textů – vertikál, tokenizace, jednotné kódování a jednotný formát (konverzní programy) —vnitřní a vnější značkování (atributy, metadata, tagging) —Zajištění kvalitních/kvalifikovaných anotátorů (programy, školení anotátoři) —Zajištění nástrojů pro přístup a využití korpusů — Struktura korpusu https://wiki.korpus.cz/doku.php/:pojmy:struktura_korpusu 16 —Korpus - jako soubor textů - je vnitřně strukturován do různých celků. Jednotlivé celky v rámci korpusu se nazývají strukturní jednotky (jako opus, dokument, věta), k nimž se vážou různé strukturní atributy (např. autor, název díla, rok vydání apod.). Zároveň je většina korpusů opatřena dodanou lingvistickou informací, která se týká jednotlivých slov (tj. pozičními atributy, jako třeba lemma, tag apod.). —Za účelem zachycení takovéto mnohovrstevnaté struktury se užívají značkovací jazyky. Standardem v této oblasti je formát XML, často se ovšem používají i různé formy jazyka SGML — Vertikála – korpusy psaného jazyka 17 —Vertikála je interní formát sloužící pro zachycení struktury korpusu a textů v něm (spolu s jejich anotací). — Příklad 18 Hlavní zásady anotační praxe 19 —Anotační schéma by mělo vycházet z teoretických východisek, která by měla být jasně formulovaná a přístupná každému konečnému uživateli korpusu. Mnohé korpusy byly anotovány ručně (existence subjektivních interpretací zaviněných osobou anotátora ve sporných případech). Značkování by pak mělo být doplněno komentáři, z nichž by byl důvod příslušné volby patrný. — Co má uživatel korpusu vědět o anotaci, chce-li ji použít 20 —Mělo by být jasné JAK a KDO anotaci provedl (JAK – ručně x automaticky x poloautomaticky, s postkorekcí x bez korekce) (KDO – počítačový program, anotátor - člověk) —Uživatel korpusu by si měl být vědom toho, že anotace nejsou nějakou nedotknutelnou neomylnou instancí. Anotace je pouze více či méně užitečným nástrojem. INTERPRETACE. —Anotační schéma by mělo být založeno na široce schvalovaných a teoreticky nezatížených principech. Není na škodu i zjednodušující přístup. —Žádné anotační schéma nemá právo být pokládáno za standardní. Je-li nějaké řešení uznávanější, děje se tak pouze z praktických důvodů. Příklad otázek v testu 21 —V čem spočívají základní metody poznávání fungování jazyka? —Jaký je rozdíl mezi sbírkou textů a korpusem v moderním slova smyslu? —Je počet slov v korpusu objektivním měřítkem pro hodnocení jeho kvality? —Proč nelze užívat texty na internetu týmž způsobem jakým se využívají jazykové korpusy? —Co je to vertikála? —Jaké jsou čtyři hlavní rysy korpusu v moderním slova smyslu. —Jmenuj nějaké typy strukturních značek. —Co je to OCR? —Vysvětli rozdíl mezi transkripcí a transliterací. —Proč nejsou mluvené korpusy přepsány fonetickou transkripcí? —