Korpusová lingvistika
PLIN059 Mgr. Dana Hlaváčková, Ph.D.
Korpusová lingvistika
• využívá pro studium jazyka velké soubory elektronických textů
• texty odrážejí a dokládají reálné užívání jazyka
• korpusy jsou deskriptívni (vs. preskriptivní)
• korpusové manažery umožňují data prohlížet a třídit a poskytují statistické údaje
i podstatná část počítačové lingvistiky - korpusy poskytují zdroj jazykových dat
2. studium jazyka založené na jeho přirozeném kontextovém užívání
3 metodologický přístup ke zkoumání jazyka
Jazykový korpus
Rozsáhlý soubor elektronicky uložených jazykových dat, obvykle označkovaný, organizovaný se zřetelem k využití pro určitý cíl, vůči němuž je také považován za reprezentativní.
Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Studie z korpusové lingvistiky. Praha: Karolinum, 2000, s. 15-38.
Přednosti korpusů
. velký rozsah s možností dalšího rozšiřování
• jazyková data v přirozené kontextové podobě
. převaha typických jazykových jevů nad okrajovými
. reprezentativní korpus je schopen zachytit variabilitu jazyka
. zrychlení a usnadnění lingvistické práce
. morfologické a syntaktické značkování korpusů zvyšuje jejich informační hodnotu
Náměstí republiky
je
přímo jejich
skanzenem
Průčelí je
tvořeno divadlem Antonína Balšánka
vystavěno
bylo
v
letech
1906
az
1909
Základní pojmy
• token, pozice - řetězec znaků oddělený z obou stran mezerami
• tokenizace - proces rozdělení textu na tokeny
• vertikál - textový soubor (.vert), ve kterém je text rozdělen na tokeny
• strukturní značky (atributy) - např. hranice dokumentů a vět
• korpusový prohlížeč, korpusový manažer (Bonito, Bonito2, Sketch Engine, KonText)
• poziční atributy - prvky, které lze hledat v korpusu (word, phrase, ...)
čisté jako z prádelny . Když se oblékáš, strakatá vrhla na trávník a protahovala si ruce i rohy jako , Regina , Leopard, Jupiter, SmČIandský lev, podařilo odplout. Kapitán Tónnes Speck na lodi Kattan ( závod vyhraje. V červnu 1645 opustila loď Kattan ( holubího , Malý mužík pozoroval celých pět minut kabelku jako mnou zacházeli, jako kdybych byl něco, co přitáhla mně chovala trochu slušně, byla upírka ."" ale v pádu přešel do salta nazad . Dopadl jako " Černocha ."" Nabral jsem ho hned před píchaly ho do vědomí. Talíbe mhouřil oči jak divoká Jindříšky. Za košili. Přesně tím pohybem Jakým Jsi si jistý, že žádnému z mých sousedů neschází vrčení gazíku . Stáli tak, dokud se odněkud neobjevila dva fosforeskuj ící světelné body, jako by se tam skrývala vítr hnal před sebou kupu suchého listí, vyděšená černá okna . Futaki je pořád uvnitř. K řediteli šla , ještě sem j i tu neviděl, co tu taková .,, Micur!" Ka kjchyňskén stole sedela černá
Rom eilnĚičí I " — hlpclŕln ií hlaumi
kočka vyskočí na umyvadlo a tře se ti hlavou o bok
kočka . Ležet bez hnutí na lehátku, daleko od svěží
Kočka , Tygr, Měsíc, Koruna, Klíč, Stockholm
Kočka ) se o to chtěl pokusit. Se svými dvaadvaceti
Kočka ) Švédsko a zamířila do Severní Ameriky. Loď byla
kočka pohybující se klubíčko a pouhá představa jejího obsahu ho hypnotizovala
kočka z ulice, a jediná osoba , která se ke
Kočka ne," řekla lady Sibyla ." Cože ?
kočka , vrhl se zpět k užaslému Karotkovi a udeřil ho
Kočka Barem, na Padesátý čtvrtý a Broadwayi, a on
kočka , ale i tak mu bělostné biče světla pronikaly skrz
kočka zdvíhá koťata za kůži na hřbetě ." Co si
kočka nebo pes ?" vyptával se dál." Znám
kočka , sedla si mezi ně a začala si olizovat tlapky
kočka . „ Běž ven a pošli ji do prdele !
kočka se hbitě protáhla plotem u ředitelova domu. Odstrčil knihu
kočka , ještě sem ji tu neviděl, co tu taková
kočka k čertu hledá ?! Zřejmě se něčeho lekla ,
kočka a z červeného hrnce vesele chlemtala zbytek paprikáše od oběda
KnŕĽa V nľ nfihphila a tŕpla cp ií n nnhy
konkordance, konkordanční řádek, konkordanční seznam KWIC - key word in context (hledaný výraz v korpusu)
Typy korpusů
. druh zachycené komunikace
. psané (written corpora) . mluvené (spoken corpora)
• časový záběr
. diachrónni . synchronní
. účel
. všeobecné . specializované
• způsob vytvoření
• tradiční
• webové
• jazyk
. jednojazyčné paralelní
• srovnatelné
• možnost rozšíření
uzavřené (referenční) . otevřené (nereferenční)
• značkování
. tagging (POS tagging, morfologie)
• parsing (syntax, treebank)
• alignment (párování)
Reprezentativnost korpusů
• v závislosti na účelu korpusu (kvantita a kvalita)
• národní korpusy - obraz užívání jazyka
• malý vzorek vzhledem k celku jazyka, nezobrazuje užití jazyka v celé šíři
• snaha zachytit variabilitu textů (beletrie, odborné, publicistika)
SYN2000 SYN2005, SYN2010 SYN2015
publicistika
odborná lit. 25% 27% 33,33 %
beletrie 15% 40% 33,33 %
Tvorba korpusů
korpusy tradiční a webové sběr dat
. poskytovatelé textů
• webové korpusy - stahování textů (crawler)
sjednocení formátu a kódování odstranění netextového obsahu (boilerplate) odstranění duplicitních textů (webové korpusy) interní anotace
tokenizace (vertikál) - lemmatizace - externí anotace (značkování)
mluvené korpusy - nahrávky, přepis, synchronizace textu se zvukem
Korpusové manažery v
UCNK - CNK - KonText
• http://kontext.korpus.cz
Fl MU-Sketch Engine
• https://www.sketchengine.eu/
Český národní korpus
• https://www.korpus.cz/