KORPUSOVÁ LINGVISTIKA Dana Hlaváčková JAZYKOVÝ KORPUS Rozsáhlý soubor elektronicky uložených jazykových dat, obvykle označkovaný, organizovaný se zřetelem k využití pro určitý cíl, vůči němuž je také považován za reprezentativní. Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Studie z korpusové lingvistiky. Praha: Karolinum, 2000, s. 15-38. KORPUSOVÁ LINGVISTIKA ● podstatná část počítačové lingvistiky – korpusy poskytují zdroj jazykových dat ● studium jazyka založené na jeho přirozeném kontextovém užívání ● metodologický přístup ke zkoumání jazyka PŘEDNOSTI KORPUSŮ ● velký rozsah s možností dalšího rozšiřování ● jazyková data v přirozené kontextové podobě ● převaha typických jazykových jevů nad okrajovými ● reprezentativní korpus je schopen zachytit variabilitu jazyka ● zrychlení a usnadnění lingvistické práce ZÁKLADNÍ POJMY ● textové slovo, pozice, token – řetězec znaků oddělený z obou stran mezerami ● tokenizace – proces rozdělení textu na tokeny ● korpusový prohlížeč, korpusový manažer (Bonito, Bonito2, Sketch Engine) ● konkordance, konkordanční řádek, konkordanční seznam ● KWIC – key word in context (hledaný výraz v korpusu) ZÁKLADNÍ POJMY ● lemma – základní slovní tvar ● lemmatizace – přiřazení základního slovního tvaru ● atributy – prvky, které lze hledat v korpusu (word, lemma, tag, lc, pos) ● strukturní značky – hranice dokumentů a vět ● tag – morfologická značka ● tagset – soubor morfologických značek ● regulární výrazy – speciální znaky umožňující efektivní hledání v korpusu DVA PŘÍSTUPY KE ZKOUMÁNÍ JAZYKA ● raná „korpusová“ lingvistika – „korpusový“ přístup k jazykovému materiálu, dostatečně velký soubor přirozeně se vyskytujících jazykových dat (konec 19. st. – 50. léta 20. st.) ● předěl (50. léta 20. st.) – N. Chomsky a generativní lingvistika ● od 2. pol. 20. st. empirický přístup, observace x intuice a introspekce Ch. Fillmore: „I don‘t think there can be any corpora, however large, that contain information about all of the areas of English lexicon and grammar that I want to explore … [but] every corpus I have had the chance to examine, however small, has taught me facts I couldn‘t imagine finding out any other way. My conclusion is that the two types of linguists need one another.“ KORPUSOVÁ LINGVISTIKA V ČR ● Lexikální archiv ÚJČ, od r. 1911, 12 mil. ručně psaných lístků ● 1988 Iniciativní skupina pro přípravu počítačových korpusů, textů a slovníků (sdružení lingvistů, matematiků a programátorů) ● 1991 Počítačový fond češtiny – projekt lexikografického počítačového korpusu a tezauru češtiny (Čermák, Sgall, Pala, Hajič, Hajičová, Králík, Schmiedtová, Kučera, Benko) ● 1994 založení ÚČNK TYPY KORPUSŮ ● druh zachycené komunikace – psané (written corpora) – mluvené (spoken corpora) ● časový záběr – diachronní – synchronní ● účel – všeobecné – specializované ● jazyk – jednojazyčné – paralelní ● možnost rozšíření – uzavřené (referenční) – otevřené (nereferenční) ● značkování – tagging (POS tagging, morfologie) – parsing (syntax, treebank) – alignment (párování) REPREZENTATIVNOST KORPUSŮ Relativní ● v závislosti na účelu korpusu (kvantita x kvalita) ● malý vzorek vzhledem k celku jazyka ● nezobrazuje reálné užití jazyka ● snaha zachytit variabilitu textů SYN2000 SYN2005, SYN2010 denní tisk / 60 % publicistika / 33 % naučná literatura / 25 % odborná literatura / 27 % krásná literatura / 15 % beletrie / 40 % TVORBA KORPUSŮ ● sběr dat – sjednocení formátu – externí anotace ● tokenizace (vertikál) – lemmatizace – značkování ● Corpus Architect, WebBootCat ● jusText – odstranění netextového obsahu, boilerplate ● Onion – odstranění duplicitních textů ● Chared – detekce kódování ● mluvené korpusy – nahrávky, přepis, synchronizace textu se zvukem