Korpusová lingvistika
PLIN059
Mgr. Dana Hlaváčková, Ph.D.
Mgr. Jakub Machura, Ph.D.

Korpusová lingvistika
•využívá pro studium jazyka velké soubory elektronických textů
•texty odrážejí a dokládají reálné užívání jazyka
•korpusy jsou deskriptivní (vs. preskriptivní)
•korpusové manažery umožňují data prohlížet a třídit a poskytují statistické údaje
1.podstatná část počítačové lingvistiky – korpusy poskytují zdroj jazykových dat
2.studium jazyka založené na jeho přirozeném kontextovém užívání
3.metodologický přístup ke zkoumání jazyka

Jazykový korpus
   Rozsáhlý soubor elektronicky uložených jazykových dat, obvykle označkovaný, organizovaný se
zřetelem k využití pro určitý cíl, vůči němuž je také považován za reprezentativní.
Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Studie z korpusové lingvistiky. Praha:
Karolinum, 2000, s. 15–38.

Přednosti korpusů
lvelký rozsah s možností dalšího rozšiřování
ljazyková data v přirozené kontextové podobě
lpřevaha typických jazykových jevů nad okrajovými
lreprezentativní korpus je schopen zachytit variabilitu jazyka
lzrychlení a usnadnění lingvistické práce
lmorfologické a syntaktické značkování korpusů zvyšuje jejich informační hodnotu

<s>
Náměstí
republiky
je
přímo
jejich
skanzenem
<g/>
.
</s>
<s>
Průčelí
je
tvořeno
divadlem
Antonína
Balšánka
<g/>
,
vystavěno
bylo
v
letech
1906
až
1909
<g/>
.
</s>

Základní pojmy
ltoken, pozice – řetězec znaků oddělený z obou stran mezerami
ltokenizace – proces rozdělení textu na tokeny
lvertikál – textový soubor (.vert), ve kterém je text rozdělen na tokeny
lstrukturní značky (atributy) – např. hranice dokumentů a vět
lkorpusový prohlížeč, korpusový manažer (Bonito, Bonito2, Sketch Engine, KonText)
lpoziční atributy – prvky, které lze hledat v korpusu (word, phrase, …)

konkordance, konkordanční řádek, konkordanční seznam
KWIC – key word in context (hledaný výraz v korpusu)


ZÁKLADNÍ POJMY
lpoziční atributy – informace přidané k tokenům, prvky, které lze hledat v korpusu (word, lemma,
tag, lc, pos)
lstrukturní značky – např. hranice dokumentů a vět
llemma – základní slovní tvar
llemmatizace – přiřazení základního slovního tvaru
ltag – morfologická značka
ltagset – soubor morfologických značek
lregulární výrazy – speciální znaky umožňující efektivní hledání v korpusu

DVA PŘÍSTUPY KE ZKOUMÁNÍ JAZYKA
lraná „korpusová“ lingvistika – „korpusový“ přístup k jazykovému materiálu, dostatečně velký soubor
přirozeně se vyskytujících jazykových dat (konec 19. st. – 50. léta 20. st.)‏
lpředěl (50. léta 20. st.) – N. Chomsky a generativní lingvistika
lod 2. pol. 20. st.
empirický přístup, observace x intuice a introspekce
Ch. Fillmore:
    „I don‘t think there can be any corpora, however large, that contain information about all of
the areas of English lexicon and grammar that I want to explore … [but] every corpus I have had the
chance to examine, however small, has taught me facts I couldn‘t imagine finding out any other way.
My conclusion is that the two types of linguists need one another.“

KORPUSOVÁ LINGVISTIKA V ČR
lLexikální archiv ÚJČ, od r. 1911, 12 mil. ručně psaných lístků
l1988 Iniciativní skupina pro přípravu počítačových korpusů, textů a slovníků
(sdružení lingvistů, matematiků a programátorů)‏
l1991 Počítačový fond češtiny – projekt lexikografického počítačového korpusu a tezauru češtiny
(Čermák, Sgall, Pala, Hajič, Hajičová, Králík, Schmiedtová, Kučera, Benko)
‏
l1994 založení ÚČNK

Typy korpusů
ldruh zachycené komunikace
lpsané (written corpora)
lmluvené (spoken corpora)‏
lčasový záběr
ldiachronní
lsynchronní
lúčel
lvšeobecné
lspecializované
•způsob vytvoření
•tradiční
•webové
ljazyk
ljednojazyčné
lparalelní
lsrovnatelné
lmožnost rozšíření
luzavřené (referenční)
lotevřené (nereferenční)
lznačkování
ltagging (POS tagging, morfologie)
lparsing (syntax, treebank)
lalignment (párování)‏

Reprezentativnost korpusů
•v závislosti na účelu korpusu (kvantita a kvalita)‏
lnárodní korpusy – obraz užívání jazyka
lmalý vzorek vzhledem k celku jazyka, nezobrazuje užití jazyka v celé šíři
lsnaha zachytit variabilitu textů (beletrie, odborné, publicistika)
SYN2000
SYN2005, SYN2010
SYN2015
publicistika
60 %
33 %
33,33 %
odborná lit.
25 %
27 %
33,33 %
beletrie
15 %
40 %
33,33 %

Tvorba korpusů
lkorpusy tradiční a webové
lsběr dat
lposkytovatelé textů
lwebové korpusy – stahování textů (crawler)
lsjednocení formátu a kódování
lodstranění netextového obsahu (boilerplate)
lodstranění duplicitních textů (webové korpusy)
linterní anotace
ltokenizace (vertikál) – lemmatizace – externí anotace (značkování)
lmluvené korpusy – nahrávky, přepis, synchronizace textu se zvukem

Korpusové manažery v ČR
•ÚČNK – ČNK – KonText
•http://kontext.korpus.cz
•FI MU – Sketch Engine
•https://www.sketchengine.eu/
•Český národní korpus
•https://www.korpus.cz/
•
•

Hesla v NESČ
•
•Korpus
•Korpus a jeho příprava
•Typy korpusů
•
•