Korpusová lingvistika -1 Úvod - korpus a korpusová lingvistika, základní pojmy Mgr. Dana Hlaváčková, Ph.D. CJBB105 PRZA009 Organizace CJBB105 Korpusová lingvistika - přednáška PRZA009 Korpusová lingvistika Počítačová lingvistiko, Český jazyk a literatura Překladatelství románských a germánských jazyků přednáška, částečně praktické ukázky prezentace z přednášek ve studijních materiálech IS zakončení-test v ISu (volné odpovědi) CJBB75 Základy využití korpusů (pro praxi) CJBB84 Morfologie a korpus PLIN032 Gramatika a korpus Korpusový workshop v Praze (+ online) Osnova Úvod - korpus a korpusová lingvistika, základ pojmy Vývoj korpusové lingvistiky Typy korpusů, české korpusy (ČNK) Budování korpusů, reprezentativnost Korpusové manažery Morfologické a syntaktické značkování Využívání korpusů, korpusové aplikace Časopisy, konference, publikace Praktická část Doporučená literatura Čermák, F. Korpus o korpusová lingvistiko. Praha: Nakladatelství Karolinum, 2017. Studie z korpusové lingvistiky. Čermák, F., Klímová, J. a Petkevič, V. (eds.). Praha: Karolinum, 2000. Kennedy, G. An Introduction to Corpus Linguistics. London, New York: Routlege, 1998 (hardback 2016). McEnery, T. and Wilson, A. Corpus Linguistics: An Introduction. Edinburgh: Edinburgh University Press, 1996. McEnery, T. and Hardie, A. Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press, 2012. http://korpus.cz - Český národní korpus http://wiki.korpus.cz - výklad termínů NESC https://www.czechency.org/ Instituce v ČR • Ústav Českého národního korpusu FF UK • Ústav teoretické a komputační lingvistiky FF UK • Ústav formální a aplikované lingvistiky MFF UK • Ústav pro jazyk český AV ČR • Centrum zpracování přirozeného jazyka Fl MU • Ústav českého jazyka FF MU Korpusová lingvistika • vědní obor - vymezení v systému věd • průnik humanitních (lingvistika) a přírodních (matematika, informatika) věd — studium přirozeného jazyka s využitím metod přírodních věd • dostatečné množství autentických jazykových dat • empirie, observace (x introspekce) • objektivita a evidence • opakovaný experiment • hardware a software/webové rozhraní Korpusová lingvistika užší vymezení - vztah k NLP lingvistika, matematika a informatika počítačová lingvistika - počítačové zpracování přirozeného jazyka (Natural Language Processing) - korpusová lingvistika je podmnožinou korpusová lingvistika - stojí samostatně vymezení v rámci lingvistiky samostatný obor - přístup corpus-driven, výzkum korpusem řízený - reformulování introspekcí stanovené hypotézy metodologie pro všechny části lingvistiky - přístup corpus-based, výzkum korpusem ověřovaný - exemplifikace hypotézy, hledání dokladů poskytuje zdroj jazykových dat Co je to korpus Jazykový korpus (z lat. corpus „tělo, těleso") je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby v jednotném formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy, zejména slova a slovní spojení. Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný. http://wiki.korpus.ez/doku.php/pojmy:korpus Co je to korpus Rozsáhlý soubor elektronicky uložených jazykových dat, obvykle označkovaný, organizovaný se zřetelem k využití pro určitý cíl, vůči němuž je také považován za reprezentativní. Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Studie z korpusové lingvistiky. Praha: Karolinum, 2000, s. 15-38. Elektronický text v korpusu • lineární řetězec znaků (znak, řetězec, mezera) — psaný a mluvený • jednotný kód (Unicode - UTF-8) a formát (fxf) • autentičnost - data se neupravují, korpus je deskriptívni - „Korpusová data jsou posvátná." (F. Čermák) • etický kodex • autorská práva Co je to korpus - shrnutí • elektronický soubor textů (rozsáhlý) • autentické texty, slova v přirozeném kontextu - konkordance • sjednocené texty — strojově čitelný formát, machine readable format/MRF -jednotné kódování • označkovaná data (přidané informace) • reprezentativní vůči svému účelu Jak korpus vypadá uvnitř • vertikál (vertikální text) • token (tokenizace) - řetězec znaků ohraničený z obou stran mezerami • type (word, slovní tvar n. lemma) • token-type - token-type ratio, type/token - vysoké číslo = bohatost slovníku - nízké číslo = velké opakování slov • pro uživatele - korpusové manažery • konkordance, KWIC (key word in context) 2 3 4 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Pro představu jakým přívětivým místem byl Americký park v minulosti uvádíme několik historických fotografií _|Q|Ay KonTett SyD Morfio KWords Wiki Podpora Bibfio Dana Hlaváčková Odhlášení English c Qtext| DDt~ Subkarpusv | Uložit Konkordance Filtr Frekvence Knlokace Zobrazení Nápověda korouesvn2D1 D 1£1 í*T*13:paic 0 Jek ďkyjBl kniEus. Vyskytli 186 1 l.p.m" :9r75 {vztaženo tceEmjeyniMIOJ ARF^:442,42 Výsledekje promíchán □ opus*21 AÍ.Ha^ndárskénavi^ 14. A. 10(13 ' PDfllsprámtóvialctímttD způscberr studenti h iibapcrjijí ne ei studýní pov'mosti r ale hlavně 1 zákon . Názory nato □ opus*2*HMladáf rentaDNES 3.1. 1001 po celý taftu týden uzavřena veííerá pracovitě v hlavníbudcvě Studili a vebacké knriovny v Plzni .QdpTiitriopondělíse □ opusř231 z^Daiilcy Bohemia, 25. 3. im vysc bakalářské stucijni ebe ry Sccahípráce. Tělesná výchova a sport a Ekonomická □ efwsí2.ZZSJMladáfrenta DNES^ 13.11. 2CCS že jim na ni fnančie pr spae a umožní jim čerpat studií vd ho-dá jim perspektivu a zaváže si je i □ opus?1 13JVládd Sedmiioří. Magická cesta .'' Budes se vzdělávat .Vypadá to-na studií pobyt □ opus?tlBjZíldaity práva pro neprávníoborv pov^iostívyplýva ícíci z vý« nu svěřené tunce. cbdcbně'pc rušení studií kázna a další. Jedná se c srnkou kategorii delttů □ opusřa 7 ftjUvocmí kapitoly k fmaTHxrváiískolství nejvyšsípočet dětí, žáků nebo studentů ve triu, a1ud ní sí^nanabG cddelaiívpfishja.nérr cbcnjvzdeléiívasíclanebo □ opusřZ3fl5,Právo, 2S. 2. 2009 mluvčí meziříčské radíce Práva olevTDudDlrtoraidsesŤjdum OLOMOUC- Dofctoraids<ý studií program otevTesnejvě^ípravdepcdcbnostíuž let os na podzim Právnická □ cpusíia.ai.Mladáfrenta DNES 13. č. 2CC9 studům . Vnhénn času drobná blcidýitr>že jhak byl vylízané studií typ,1 vzpomhá matka Jarmila Stopová. Pil přecházení □ opusřl 520,5 tebou mébaWimit,í. 37/2.007 . alavšacnnc rrebani.(holpožádat onďrviduárií stuci/ií plán a dc'jfámr že to zvládnu r "vefí □ ůpLsřlOOl.HůqKrfaTsIáiBvny, 1 2.1. 2D07 skol v americkém styki ? Nekompromisně srovnávajícím Irvarnu profesorů. studfií plány i kariéry absolventů . Na príst-povém heslu k němu □ opusílHttJýdiin,;. 34/2000 taiu, po válce až donedávna se veřejně r mimo studýií 'iSek. nepromítaly To R'afensta-ilcve nadnjnéstraně nebráníc □ epusř92&,5prá™íprávo zkratce' Sc. uváděné před rrénerr) . Magisterský studií program je zaměřen na zisfcsViíteoretických poznatků založených na soudobém □ opusř 17 SjHospooafilá soutéž vymezování ralavantnínc tru značně stf> aktivní. 6 Zneužitídomriarronho postavení Studií cíle Cílem této kapitoly je objasnit sam otný pojem do mnantnípestavaní □ opusříl a,Praktikum občanského práva v přírodě .Ty potrebcvalpcrid't íazdárnéirusplněníúceru stuílrií cesty asistenta v cblast" výskytu vzácně pTímorsfcé 11 óry během jeho □ ».is=;íS Pairiti lékara r zda Jirka benerr svý-sn itjí íuzavrel vůbec nějakou dft;í stucifií etapu zícjsícu .VÍmijenrževdobě, □ opusřl i] 7 S/D Speciál, í. 1/2Í0S ' rr cdarně vybavená