KORPUSOVÁ LINGVISTIKA
ÚVOD A ZÁKLADNÍ POJMY
Mgr. Dana Hlaváčková, Ph.D. CJBB105 PRZA009
CJBB105 Korpusová lingvistika - přednáška PRZA009 Korpusová lingvistika
Počítačová lingvistika, Český jazyk a literatura Překladatelství moderních evropských jazyků Digitální lingvistika (Fl)
přednáška, částečně praktické ukázky prezentace ve studijních materiálech v ISu zakončení-test v ISu (volné odpovědi)
Organizace
CJBB75 Základy využití korpusů (pro praxi) CJBB84 Morfologie a korpus PLIN032 Gramatika a korpus Korpusový workshop v Praze (+ online)
Úvod - korpus a korpusová lingvistika, základní pojmy
Vývoj korpusové lingvistiky
Typologie korpusů, české korpusy (ČNK)
Budování korpusů, reprezentativnost
Korpusové manažery
Morfologické a syntaktické značkování
Využívání korpusů, korpusové aplikace
Časopisy, konference, publikace, organizace
Praktická část
Osnova
Stefanowitsch, A. Corpus linguistics: A guide to the methodology (Textbooks in Language Sciences 7). Berlin: Language Science Press, 2020.
Čermák, F. Korpus o korpusová lingvistiko. Praha: Nakladatelství Karolinum, 2017.
Studie z korpusové lingvistiky. Čermák, F., Klímová, J. a Petkevič, V. (eds.). Praha: Karolinum, 2000.
Doporučená literatura
McEnery, T. and Hardie, A. Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press, 2012.
Kennedy, G. An Introduction to Corpus Linguistics. London, New York: Routlege, 1998 (hardback 2016).
McEnery, T. and Wilson, A. Corpus Linguistics: An Introduction. Edinburgh: Edinburgh University Press, 1996.
http://korpus.cz - Český národní korpus
http://wiki.korpus.cz - výklad termínů
NESČ
https://\AAAAA/.czechencv.org/ -výklad termínů
Doporučené odkazy
Ústav Českého národního korpusu FF UK
Ústav formální a aplikované lingvistiky MFF UK
Ústav pro jazyk český AV ČR
Centrum zpracování přirozeného jazyka Fl MU
Ústav českého jazyka FF MU Lexical Computing CZ, s. r. o.
Pracoviště v ČR
Centre for English Corpus Linguistics, UCL Lovan
Centre for Corpus Research,
University of Birmingham
Programmbereich Korpuslinguistik
(Corpus Linguistics Programme Area), Leibniz-lnstitut fur Deutsche Sprache (IDS), Mannheim
Evropská centra
vědní obor - vymezení v systému věd
průnik humanitních (lingvistika) a přírodních (matematika, informatika) věd
° studium přirozeného jazyka s využitím metod a nástrojů
přírodních věd
dostatečné množství autentických
jazykových dat
empirie, observace (x introspekce)
objektivita a evidence
opakovaný experiment
hardware a software/webové rozhraní
Korpusová lingvistika
vymezení v kontextu N LP
lingvistika, matematika a informatika
počítačová lingvistika / počítačové zpracování přirozeného jazyka (Natural Language Processing)
° korpusová lingvistika je podmnožinou korpusová lingvistika - stojí samostatně vymezení v kontextu lingvistiky samostatný obor
° přístup corpus-driven, výzkum korpusem řízený
° reformulování introspekcí stanovené hypotézy
metodologie pro všechny části lingvistiky
° přístup corpus-based, výzkum korpusem ověřovaný
° exemplifikace hypotézy, hledání dokladů
poskytuje zdroj jazykových dat
Korpusová lingvistika
Jazykový korpus (z lat. corpus „tělo, těleso") je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby
v jednotném formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy, zejména slova a slovní spojení. Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný.
Co je to korpus
http://wiki.korpus.ez/doku.php/pojmy:korp us
Rozsáhlý soubor elektronicky uložených jazykových dat, obvykle označkovaný, organizovaný se zřetelem k využití pro určitý cíl, vůči němuž je také považován za reprezentativní.
Co je to korpus
Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Studie z korpusové lingvistiky. Praha: Karolinum, 2000, s. 15-38.
lineární řetězec znaků, mezi kterými se vyskytují mezery (znak, řetězec, mezera)
° psaný a mluvený
jednotný kód (Unicode - UTF-8) a formát (fxř)
autentičnost - data se neupravují, korpus je deskriptívni
° „Korpusová data jsou posvátná." (F. Čermák)
etický kodex
autorská práva
Elektronický text v korpusu
rozsáhlý elektronický soubor textů
autentické texty, výskyt slova v přirozeném kontextu -konkordance
sjednocené texty
° strojově čitelný formát, machine readable format/MRF
° jednotné kódovania formát
označkovaná data (přidané informace)
Co je to korpus -shrnutí
Korpusové
zpracování
textu
Pro představu, jakým přívětivým místem byl Americký park v minulosti, uvádíme několik historických fotografií.
vertikál (vertikální text, v souboru s příponou .vert)
token (tokenizace)
řetězec znaků ohraničený z obou stran
mezerami type (word, slovní tvar)
strukturní značky
s = sentence (věta)
g = glue (spojení následujícího znaku s předchozím tokenem)
2	<s>
3	Pro
4	představu
5	<g/>
6	
7	jakým
8	přívětivým
9	místem
10	byl
11	Americký
12	park
13	v
14	minulosti
15	<g/>
16	
17	uvádíme
18	několik
19	historických
20	fotografií
21	<g/>
22	•
23	</s>
° token - type
° token-type ratio (TTR)
° vysoké číslo = bohatost slovníku ° nízké číslo = velké opakování slov
° velikost korpusu
° počet slov (type)
° počet tokenů (vyšší číslo)
° pro uživatele - korpusové manažery
° konkordance, KWIC (Key Word in Context)
náš rozmazlený kocour zase spal v posteli
Korpusové
zpracování
textu
Podle praW<úvsa< tímto 4?Jicbeir studenti hpiKpcpjsujínejen studní po vmiisti, ale hlavné "zaVon. Názory na to pocelýtsTtctýdanuzavřenaves-íarápracov stevhlavníbudove Studní avedeckékniiovnyvPtznl.Odpristhopondelíse
Via.a:d ed-i=l. <do/ =1.:." ■:"". ■:::==: = :=la := :a ::eI='":.I :3c"::I zkcusíy u;%aHČúmi pro-mruty. T raďme největsíz^errí byl d bakalárske studní cbc ry £cc ahípráca. Telesiá výchova a spc rt a Ekonomická hjimnarefiiaVČTapF'spajeaumožníjim čerpat studní voho-dáj"m perspelďvuazavazesije i ."" Budeš seradelávat.Vypadátona studní pobyt.... M-eY<dyYc pcviíciti^prrtajicmirylcnifJiveFaTélijííH. obdobia 'pcpjsení studní kázne a dalsí. Jedlá sa d sirotou kategórii deľVtú
nejvyssípočetdétí, žáú "tebe studentů vetridě, studní s<up'-ie nebe cddele-iívpíísľjl--iém cbcpjvzdelá-iívejícla nebo mistí\mď\i?Ä\i radnice Práva DtavTDudDktDraxIa-^^luďurn OLOMOUC-Dotto-randslrý studní program otevra s nejve^ípravdapcdcb-icstíuž letouna podzim Právncká
studům.' Vohéhocasu drobná blimdyVta príliš nerriá. Studní pev -nestia mimostohíaftYrtyjíprýzabírajíviechenčss. .' Loni byla Veron"<a se spc UiydlÉí Katkou za dobrá studní výsledky y Bruselu , kam j" europcila"iO"ie Jana E obci-ko vá pozvala jsem ráda, že sportuje, protože inak byl vyložene studní typ, vzpomná matka Jarmila Stopová. Píl predražení . ala vis n o mě baví. Chc" požádat o "nďv'duáhí studní plál a doufám F že to zvládnu,'verí skol v americkém styki ? Nekompromisne srovnávajícím kvaľtj profesorů, studní plány i kariéry absolventů. Na přístupovém heslu k nernu
tabu. po vábě až donedaY%aseveTrejie, mimo studní účely, nepromítaly .To Fefere1^lDvénadpj%éstraiénebrän"lD zkratce Ba' uválené pradjniénem). Magisterský rtudifií p r og rď m p zď rreren na z Esfcán í te r> retldrídi p oznatků za I oiarídi na s oud c bé rr vymezovaní relevantnho trhuz^č%eiii)ert"vní.ůZn^"tídDm"nantnrc postavení Studní cíle Cílem této kapitoly je iibiasnltsamolrrýpiiiemdomnaritnípostavení v prírode. Ty potreboval poíídrt ke zdárnému spl-e-iíúčehj studní cesty as steita v oblasti výskytu vzácné prímorské fl óry bénem jeho
r zda Jirka ba~äm svých studiíuzavrel vůbec nijakou dílčí studní etapu zkouškou. Vím jen r že v doba. i modeme vybavená kolej pro studenty a studentská j idalia. Svjfyú obo ry Stežejií obor Chantnía sociáhíč'iicst e ur-čei zá amcúm že ^ise-%astelocv"káízlÉkalaiJte<UvedDucí studní po radný, pFiedlijsme oba nazpátek. Nasi kolegové sph'ľ . Myslím si r že cestovaní, zahraničnístazB a studní a praccviípobytyjsou určite práve o tom, aby dovo lenou,! když nezvyklou.' Zavolejte dekanovi pro studní záležitosti, pane.. .Wedde .Játed
. Kdvs' sam dostal Tafa<urte =1ud ní vo ho sdcicí'I sem sade ebdebí csidleií Islaidj dôc^'
typ komunikace - korpusy psané, mluvené, multimodální
obsah - typy textů
° beletrie, odborné texty, publicistické texty
° texty z internetu
° soukromá korespondence
° přepisy mluvených nahrávek
° texty zahraničních studentů češtiny (žákovské korpusy)
vyváženost (poměr kategorií)
Obsah a
rozsah
korpusu
rozsah - velikost korpusu ° počet tokenů
° počet slovních tvarů (type, word)
opravdu velké korpusy (webové i klasické korpusy - několik miliard pozic)
° frekvenční studie
malé specializované korpusy
(stovky tisíc pozic, jednotky milionů)
Obsah a
rozsah
korpusu
celé texty
vzorky (sampling) - vybraná část textu
rozsah
° vymezený rozsah, uzavřený (předem stanoven) - referenční
° otevřený/monitorovací korpus (plynule se zvětšuje) - nereferenční
° korpus, který se pravidelně obnovuje a zvětšuje - verzovaný (verze se číslují)
Obsah a
rozsah
korpusu
značkování-zvyšuje informační hodnotu korpusu (vždy nutná dostupná interpretace značek = tagset)
vnitřní značkování (vnitrotextové) ° strukturní atributy [doc, text p, s)
° poziční atributy [word, lemma
(sublemma), tag (verbtog))
° morfologické značky
vnější značkování, (vnětextové)
° na úrovni textu, metatextové
informace [autor, název dílo, rok vydání atd.)
Značkování korpusu
° oneb čím se korpus liší od webu nebo elektronického archivu
1. elektronické autentické texty v jednotném formátu
2. značkování
3. zobrazení konkordancí v korpusových manažerech
4. vymezený obsah a rozsah
Hlavní rysy korpusu