Korpusová lingvistika
PLIN059
Mgr. Dana Hlaváčková, Ph.D.
Korpusová lingvistika
• využívá pro studium jazyka velké soubory elektronických textů
• texty odrážejí a dokládají reálné užívání jazyka
• korpusy jsou deskriptivní (vs. preskriptivní)
• korpusové manažery umožňují data prohlížet a třídit a
poskytují statistické údaje
podstatná část počítačové lingvistiky – korpusy poskytují zdroj
jazykových dat
studium jazyka založené na jeho přirozeném kontextovém
užívání
metodologický přístup ke zkoumání jazyka
Jazykový korpus
Rozsáhlý soubor elektronicky uložených jazykových dat, obvykle
označkovaný, organizovaný se zřetelem k využití pro určitý cíl,
vůči němuž je také považován za reprezentativní.
Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Studie z korpusové
lingvistiky. Praha: Karolinum, 2000, s. 15–38.
Přednosti korpusů
velký rozsah s možností dalšího rozšiřování
jazyková data v přirozené kontextové podobě
převaha typických jazykových jevů nad okrajovými
reprezentativní korpus je schopen zachytit variabilitu
jazyka
zrychlení a usnadnění lingvistické práce
morfologické a syntaktické značkování korpusů
zvyšuje jejich informační hodnotu
Základní pojmy
token, pozice – řetězec znaků oddělený z obou stran
mezerami
tokenizace – proces rozdělení textu na tokeny
korpusový prohlížeč, korpusový manažer (Bonito, Bonito2,
Sketch Engine, KonText)
konkordance, konkordanční řádek, konkordanční seznam
KWIC – key word in context (hledaný výraz v korpusu)
atributy – prvky, které lze hledat v korpusu
strukturní značky – např. hranice dokumentů a vět
vertikál – textový soubor (.vert), ve kterém je text rozdělen na
tokeny
Náměstí
republiky
je
přímo
jejich
skanzenem
.
Průčelí
je
tvořeno
divadlem
Antonína
Balšánka
,
vystavěno
bylo
v
letech
1906
až
1909
.
Typy korpusů
druh zachycené komunikace
psané (written corpora)
mluvené (spoken corpora)
časový záběr
diachronní
synchronní
účel
všeobecné
specializované
• způsob vytvoření
• tradiční
• webové
jazyk
jednojazyčné
paralelní
srovnatelné
možnost rozšíření
uzavřené (referenční)
otevřené (nereferenční)
značkování
tagging (POS tagging, morfologie)
parsing (syntax, treebank)
alignment (párování)
Reprezentativnost korpusů
Relativní
v závislosti na účelu korpusu (kvantita x kvalita)
malý vzorek vzhledem k celku jazyka
nezobrazuje užití jazyka v celé šíři
snaha zachytit variabilitu textů (beletrie, odborné, publicistika)
SYN2000 SYN2005, SYN2010 SYN2015
publicistika 60 % 33 % 33,33 %
odborná lit. 25 % 27 % 33,33 %
beletrie 15 % 40 % 33,33 %
Tvorba korpusů
korpusy tradiční a webové (Corpus Architect, WebBootCat)
sběr dat – sjednocení formátu – externí anotace
tokenizace (vertikál) – lemmatizace – značkování
stahování textů (crawler) – webové korpusy
odstranění netextového obsahu, boilerplate
odstranění duplicitních textů
detekce kódování
mluvené korpusy – nahrávky, přepis, synchronizace textu se
zvukem
Korpusové manažery v ČR
• ÚČNK – ČNK – KonText
• http://kontext.korpus.cz
• FI MU – Sketch Engine
• https://www.sketchengine.eu/
• Český národní korpus
• https://www.korpus.cz/