KORPUSOVÁ LINGVISTIKA ÚVOD A ZÁKLADNÍ POJMY Mgr. Dana Hlaváčková, Ph.D. CJBB105 PRZA009 CJBB105 Korpusová lingvistika - přednáška PRZA009 Korpusová lingvistika Počítačová lingvistika, Český jazyk a literatura Překladatelství moderních evropských jazyků Digitální lingvistika (Fl) přednáška, částečně praktické ukázky prezentace ve studijních materiálech v ISu zakončení-test v ISu (volné odpovědi) Organizace CJBB75 Základy využití korpusů (pro praxi) CJBB84 Morfologie a korpus PLIN032 Gramatika a korpus Korpusový workshop v Praze (+ online) Úvod - korpus a korpusová lingvistika, základní pojmy Vývoj korpusové lingvistiky Typologie korpusů, české korpusy (ČNK) Budování korpusů, reprezentativnost Korpusové manažery Morfologické a syntaktické značkování Využívání korpusů, korpusové aplikace Časopisy, konference, publikace, organizace Praktická část Osnova Stefanowitsch, A. Corpus linguistics: A guide to the methodology (Textbooks in Language Sciences 7). Berlin: Language Science Press, 2020. Čermák, F. Korpus o korpusová lingvistiko. Praha: Nakladatelství Karolinum, 2017. Studie z korpusové lingvistiky. Čermák, F., Klímová, J. a Petkevič, V. (eds.). Praha: Karolinum, 2000. Doporučená literatura McEnery, T. and Hardie, A. Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press, 2012. Kennedy, G. An Introduction to Corpus Linguistics. London, New York: Routlege, 1998 (hardback 2016). McEnery, T. and Wilson, A. Corpus Linguistics: An Introduction. Edinburgh: Edinburgh University Press, 1996. http://korpus.cz - Český národní korpus http://wiki.korpus.cz - výklad termínů NESČ https://\AAAAA/.czechencv.org/ -výklad termínů Doporučené odkazy Ústav Českého národního korpusu FF UK Ústav formální a aplikované lingvistiky MFF UK Ústav pro jazyk český AV ČR Centrum zpracování přirozeného jazyka Fl MU Ústav českého jazyka FF MU Lexical Computing CZ, s. r. o. Pracoviště v ČR Centre for English Corpus Linguistics, UCL Lovan Centre for Corpus Research, University of Birmingham Programmbereich Korpuslinguistik (Corpus Linguistics Programme Area), Leibniz-lnstitut fur Deutsche Sprache (IDS), Mannheim Evropská centra vědní obor - vymezení v systému věd průnik humanitních (lingvistika) a přírodních (matematika, informatika) věd ° studium přirozeného jazyka s využitím metod a nástrojů přírodních věd dostatečné množství autentických jazykových dat empirie, observace (x introspekce) objektivita a evidence opakovaný experiment hardware a software/webové rozhraní Korpusová lingvistika vymezení v kontextu N LP lingvistika, matematika a informatika počítačová lingvistika / počítačové zpracování přirozeného jazyka (Natural Language Processing) ° korpusová lingvistika je podmnožinou korpusová lingvistika - stojí samostatně vymezení v kontextu lingvistiky samostatný obor ° přístup corpus-driven, výzkum korpusem řízený ° reformulování introspekcí stanovené hypotézy metodologie pro všechny části lingvistiky ° přístup corpus-based, výzkum korpusem ověřovaný ° exemplifikace hypotézy, hledání dokladů poskytuje zdroj jazykových dat Korpusová lingvistika Jazykový korpus (z lat. corpus „tělo, těleso") je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby v jednotném formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy, zejména slova a slovní spojení. Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný. Co je to korpus http://wiki.korpus.ez/doku.php/pojmy:korp us Rozsáhlý soubor elektronicky uložených jazykových dat, obvykle označkovaný, organizovaný se zřetelem k využití pro určitý cíl, vůči němuž je také považován za reprezentativní. Co je to korpus Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Studie z korpusové lingvistiky. Praha: Karolinum, 2000, s. 15-38. lineární řetězec znaků, mezi kterými se vyskytují mezery (znak, řetězec, mezera) ° psaný a mluvený jednotný kód (Unicode - UTF-8) a formát (fxř) autentičnost - data se neupravují, korpus je deskriptívni ° „Korpusová data jsou posvátná." (F. Čermák) etický kodex autorská práva Elektronický text v korpusu rozsáhlý elektronický soubor textů autentické texty, výskyt slova v přirozeném kontextu -konkordance sjednocené texty ° strojově čitelný formát, machine readable format/MRF ° jednotné kódovania formát označkovaná data (přidané informace) Co je to korpus -shrnutí Korpusové zpracování textu Pro představu, jakým přívětivým místem byl Americký park v minulosti, uvádíme několik historických fotografií. vertikál (vertikální text, v souboru s příponou .vert) token (tokenizace) řetězec znaků ohraničený z obou stran mezerami type (word, slovní tvar) strukturní značky s = sentence (věta) g = glue (spojení následujícího znaku s předchozím tokenem) 2 3 Pro 4 představu 5 6 7 jakým 8 přívětivým 9 místem 10 byl 11 Americký 12 park 13 v 14 minulosti 15 16 17 uvádíme 18 několik 19 historických 20 fotografií 21 22 • 23 ° token - type ° token-type ratio (TTR) ° vysoké číslo = bohatost slovníku ° nízké číslo = velké opakování slov ° velikost korpusu ° počet slov (type) ° počet tokenů (vyšší číslo) ° pro uživatele - korpusové manažery ° konkordance, KWIC (Key Word in Context) náš rozmazlený kocour zase spal v posteli Korpusové zpracování textu Podle praW<úvsa< tímto 4?Jicbeir studenti hpiKpcpjsujínejen studní po vmiisti, ale hlavné "zaVon. Názory na to pocelýtsTtctýdanuzavřenaves-íarápracov stevhlavníbudove Studní avedeckékniiovnyvPtznl.Odpristhopondelíse Via.a:d ed-i=l. retldrídi p oznatků za I oiarídi na s oud c bé rr vymezovaní relevantnho trhuz^č%eiii)ert"vní.ůZn^"tídDm"nantnrc postavení Studní cíle Cílem této kapitoly je iibiasnltsamolrrýpiiiemdomnaritnípostavení v prírode. Ty potreboval poíídrt ke zdárnému spl-e-iíúčehj studní cesty as steita v oblasti výskytu vzácné prímorské fl óry bénem jeho r zda Jirka ba~äm svých studiíuzavrel vůbec nijakou dílčí studní etapu zkouškou. Vím jen r že v doba. i modeme vybavená kolej pro studenty a studentská j idalia. Svjfyú obo ry Stežejií obor Chantnía sociáhíč'iicst e ur-čei zá amcúm že ^ise-%astelocv"káízlÉkalaiJte