KORPUSOVÁ LINGVISTIKA
ÚVOD A ZÁKLADNÍ POJMY
Mgr. Dana Hlaváčková, Ph.D. CJBB105 PRZA009
CJBB105 Korpusová lingvistika - přednáška PRZA009 Korpusová lingvistika
Počítačová lingvistika, Český jazyk a literatura Překladatelství moderních evropských jazyků Digitální lingvistika (Fl)
přednáška, částečně praktické ukázky prezentace ve studijních materiálech v ISu zakončení-test v ISu (volné odpovědi)
Organizace
CJBB75 Základy využití korpusů (pro praxi) CJBB84 Morfologie a korpus PLIN032 Gramatika a korpus Korpusový workshop v Praze (+ online)
Úvod - korpus a korpusová lingvistika, základní pojmy
Vývoj korpusové lingvistiky
Typologie korpusů, české korpusy (ČNK)
Budování korpusů, reprezentativnost
Korpusové manažery
Morfologické a syntaktické značkování
Využívání korpusů, korpusové aplikace
Časopisy, konference, publikace, organizace
Praktická část
Osnova
Stefanowitsch, A. Corpus linguistics: A guide to the methodology (Textbooks in Language Sciences 7). Berlin: Language Science Press, 2020.
Čermák, F. Korpus o korpusová lingvistiko. Praha: Nakladatelství Karolinum, 2017.
Studie z korpusové lingvistiky. Čermák, F., Klímová, J. a Petkevič, V. (eds.). Praha: Karolinum, 2000.
Doporučená literatura
McEnery, T. and Hardie, A. Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press, 2012.
Kennedy, G. An Introduction to Corpus Linguistics. London, New York: Routlege, 1998 (hardback 2016).
McEnery, T. and Wilson, A. Corpus Linguistics: An Introduction. Edinburgh: Edinburgh University Press, 1996.
http://korpus.cz - Český národní korpus
http://wiki.korpus.cz - výklad termínů
NESČ
https://\AAAAA/.czechencv.org/ -výklad termínů
Doporučené odkazy
Ústav Českého národního korpusu FF UK
Ústav formální a aplikované lingvistiky MFF UK
Ústav pro jazyk český AV ČR
Centrum zpracování přirozeného jazyka Fl MU
Ústav českého jazyka FF MU Lexical Computing CZ, s. r. o.
Pracoviště v ČR
Centre for English Corpus Linguistics, UCL Lovan
Centre for Corpus Research,
University of Birmingham
Programmbereich Korpuslinguistik
(Corpus Linguistics Programme Area), Leibniz-lnstitut fur Deutsche Sprache (IDS), Mannheim
Evropská centra
vědní obor - vymezení v systému věd
průnik humanitních (lingvistika) a přírodních (matematika, informatika) věd
° studium přirozeného jazyka s využitím metod a nástrojů
přírodních věd
dostatečné množství autentických
jazykových dat
empirie, observace (x introspekce)
objektivita a evidence
opakovaný experiment
hardware a software/webové rozhraní
Korpusová lingvistika
vymezení v kontextu N LP
lingvistika, matematika a informatika
počítačová lingvistika / počítačové zpracování přirozeného jazyka (Natural Language Processing)
° korpusová lingvistika je podmnožinou korpusová lingvistika - stojí samostatně vymezení v kontextu lingvistiky samostatný obor
° přístup corpus-driven, výzkum korpusem řízený
° reformulování introspekcí stanovené hypotézy
metodologie pro všechny části lingvistiky
° přístup corpus-based, výzkum korpusem ověřovaný
° exemplifikace hypotézy, hledání dokladů
poskytuje zdroj jazykových dat
Korpusová lingvistika
Jazykový korpus (z lat. corpus „tělo, těleso") je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby
v jednotném formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy, zejména slova a slovní spojení. Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný.
Co je to korpus
http://wiki.korpus.ez/doku.php/pojmy:korp us
Rozsáhlý soubor elektronicky uložených jazykových dat, obvykle označkovaný, organizovaný se zřetelem k využití pro určitý cíl, vůči němuž je také považován za reprezentativní.
Co je to korpus
Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Studie z korpusové lingvistiky. Praha: Karolinum, 2000, s. 15-38.
lineární řetězec znaků, mezi kterými se vyskytují mezery (znak, řetězec, mezera)
° psaný a mluvený
jednotný kód (Unicode - UTF-8) a formát (fxř)
autentičnost - data se neupravují, korpus je deskriptívni
° „Korpusová data jsou posvátná." (F. Čermák)
etický kodex
autorská práva
Elektronický text v korpusu
rozsáhlý elektronický soubor textů
autentické texty, výskyt slova v přirozeném kontextu -konkordance
sjednocené texty
° strojově čitelný formát, machine readable format/MRF
° jednotné kódovania formát
označkovaná data (přidané informace)
Co je to korpus -shrnutí
Korpusové
zpracování
textu
Pro představu, jakým přívětivým místem byl Americký park v minulosti, uvádíme několik historických fotografií.
vertikál (vertikální text, v souboru s příponou .vert)
token (tokenizace)
řetězec znaků ohraničený z obou stran
mezerami type (word, slovní tvar)
strukturní značky
s = sentence (věta)
g = glue (spojení následujícího znaku s předchozím tokenem)
2
3 Pro
4 představu
5
6
7 jakým
8 přívětivým
9 místem
10 byl
11 Americký
12 park
13 v
14 minulosti
15
16
17 uvádíme
18 několik
19 historických
20 fotografií
21
22 •
23
° token - type
° token-type ratio (TTR)
° vysoké číslo = bohatost slovníku ° nízké číslo = velké opakování slov
° velikost korpusu
° počet slov (type)
° počet tokenů (vyšší číslo)
° pro uživatele - korpusové manažery
° konkordance, KWIC (Key Word in Context)
náš rozmazlený kocour zase spal v posteli
Korpusové
zpracování
textu
Podle praW<úvsa< tímto 4?Jicbeir studenti hpiKpcpjsujínejen studní po vmiisti, ale hlavné "zaVon. Názory na to pocelýtsTtctýdanuzavřenaves-íarápracov stevhlavníbudove Studní avedeckékniiovnyvPtznl.Odpristhopondelíse
Via.a:d ed-i=l. retldrídi p oznatků za I oiarídi na s oud c bé rr vymezovaní relevantnho trhuz^č%eiii)ert"vní.ůZn^"tídDm"nantnrc postavení Studní cíle Cílem této kapitoly je iibiasnltsamolrrýpiiiemdomnaritnípostavení v prírode. Ty potreboval poíídrt ke zdárnému spl-e-iíúčehj studní cesty as steita v oblasti výskytu vzácné prímorské fl óry bénem jeho
r zda Jirka ba~äm svých studiíuzavrel vůbec nijakou dílčí studní etapu zkouškou. Vím jen r že v doba. i modeme vybavená kolej pro studenty a studentská j idalia. Svjfyú obo ry Stežejií obor Chantnía sociáhíč'iicst e ur-čei zá amcúm že ^ise-%astelocv"káízlÉkalaiJte