Korpusová lingvistika -1
Úvod - korpus a korpusová lingvistika,
základní pojmy
Mgr. Dana Hlaváčková, Ph.D.
CJBB105 PRZA009
Organizace
CJBB105 Korpusová lingvistika - přednáška PRZA009 Korpusová lingvistika
Počítačová lingvistiko, Český jazyk a literatura Překladatelství románských a germánských jazyků
přednáška, částečně praktické ukázky
prezentace z přednášek ve studijních materiálech IS
zakončení-test v ISu (volné odpovědi)
CJBB75 Základy využití korpusů (pro praxi) CJBB84 Morfologie a korpus PLIN032 Gramatika a korpus Korpusový workshop v Praze (+ online)
Osnova
Úvod - korpus a korpusová lingvistika, základ pojmy
Vývoj korpusové lingvistiky Typy korpusů, české korpusy (ČNK) Budování korpusů, reprezentativnost Korpusové manažery Morfologické a syntaktické značkování Využívání korpusů, korpusové aplikace Časopisy, konference, publikace Praktická část
Doporučená literatura
Čermák, F. Korpus o korpusová lingvistiko. Praha: Nakladatelství Karolinum, 2017.
Studie z korpusové lingvistiky. Čermák, F., Klímová, J. a Petkevič, V. (eds.). Praha: Karolinum, 2000.
Kennedy, G. An Introduction to Corpus Linguistics. London, New York: Routlege, 1998 (hardback 2016).
McEnery, T. and Wilson, A. Corpus Linguistics: An Introduction. Edinburgh: Edinburgh University Press, 1996.
McEnery, T. and Hardie, A. Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press, 2012.
http://korpus.cz - Český národní korpus
http://wiki.korpus.cz - výklad termínů
NESC https://www.czechency.org/
Instituce v ČR
• Ústav Českého národního korpusu FF UK
• Ústav teoretické a komputační lingvistiky FF UK
• Ústav formální a aplikované lingvistiky MFF UK
• Ústav pro jazyk český AV ČR
• Centrum zpracování přirozeného jazyka Fl MU
• Ústav českého jazyka FF MU
Korpusová lingvistika
• vědní obor - vymezení v systému věd
• průnik humanitních (lingvistika) a přírodních
(matematika, informatika) věd
— studium přirozeného jazyka s využitím metod přírodních věd
• dostatečné množství autentických jazykových dat
• empirie, observace (x introspekce)
• objektivita a evidence
• opakovaný experiment
• hardware a software/webové rozhraní
Korpusová lingvistika
užší vymezení - vztah k NLP
lingvistika, matematika a informatika počítačová lingvistika
- počítačové zpracování přirozeného jazyka (Natural Language Processing)
- korpusová lingvistika je podmnožinou korpusová lingvistika - stojí samostatně vymezení v rámci lingvistiky samostatný obor
- přístup corpus-driven, výzkum korpusem řízený
- reformulování introspekcí stanovené hypotézy metodologie pro všechny části lingvistiky
- přístup corpus-based, výzkum korpusem ověřovaný
- exemplifikace hypotézy, hledání dokladů
poskytuje zdroj jazykových dat
Co je to korpus
Jazykový korpus (z lat. corpus „tělo, těleso") je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby v jednotném formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy, zejména slova a slovní spojení. Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný.
http://wiki.korpus.ez/doku.php/pojmy:korpus
Co je to korpus
Rozsáhlý soubor elektronicky uložených jazykových dat, obvykle označkovaný, organizovaný se zřetelem k využití pro určitý cíl, vůči němuž je také považován za reprezentativní.
Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Studie z korpusové lingvistiky. Praha: Karolinum, 2000, s. 15-38.
Elektronický text v korpusu
• lineární řetězec znaků (znak, řetězec, mezera)
— psaný a mluvený
• jednotný kód (Unicode - UTF-8) a formát (fxf)
• autentičnost - data se neupravují, korpus je deskriptívni
- „Korpusová data jsou posvátná." (F. Čermák)
• etický kodex
• autorská práva
Co je to korpus - shrnutí
• elektronický soubor textů (rozsáhlý)
• autentické texty, slova v přirozeném kontextu
- konkordance
• sjednocené texty
— strojově čitelný formát, machine readable format/MRF
-jednotné kódování
• označkovaná data (přidané informace)
• reprezentativní vůči svému účelu
Jak korpus vypadá uvnitř
• vertikál (vertikální text)
• token (tokenizace)
- řetězec znaků ohraničený z obou stran mezerami
• type (word, slovní tvar n. lemma)
• token-type
- token-type ratio, type/token
- vysoké číslo = bohatost slovníku
- nízké číslo = velké opakování slov
• pro uživatele - korpusové manažery
• konkordance, KWIC (key word in context)
2
3
4
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Pro
představu
jakým přívětivým místem byl
Americký
park
v
minulosti
uvádíme několik historických fotografií
_|Q|Ay KonTett SyD Morfio KWords Wiki Podpora Bibfio Dana Hlaváčková Odhlášení English
c Qtext| DDt~ Subkarpusv | Uložit Konkordance Filtr Frekvence Knlokace Zobrazení Nápověda korouesvn2D1 D 1£1 í*T*13:paic 0 Jek ďkyjBl kniEus.
Vyskytli 186 1 l.p.m" :9r75 {vztaženo tceEmjeyniMIOJ ARF^:442,42 Výsledekje promíchán
□ opus*21 AÍ.Ha^ndárskénavi^ 14. A. 10(13 ' PDfllsprámtóvialctímttD způscberr studenti h iibapcrjijí ne ei studýní pov'mosti r ale hlavně 1 zákon . Názory nato
□ opus*2*HMladáf rentaDNES 3.1. 1001 po celý taftu týden uzavřena veííerá pracovitě v hlavníbudcvě Studili a vebacké knriovny v Plzni .QdpTiitriopondělíse
□ opusř231 z^Daiilcy Bohemia, 25. 3. im vysc bakalářské stucijni ebe ry Sccahípráce. Tělesná výchova a sport a Ekonomická
□ efwsí2.ZZSJMladáfrenta DNES^ 13.11. 2CCS že jim na ni fnančie pr spae a umožní jim čerpat studií vd ho-dá jim perspektivu a zaváže si je i
□ opus?1 13JVládd Sedmiioří. Magická cesta .'' Budes se vzdělávat .Vypadá to-na studií pobyt
□ opus?tlBjZíldaity práva pro neprávníoborv pov^iostívyplýva ícíci z vý« nu svěřené tunce. cbdcbně'pc rušení studií kázna a další. Jedná se c srnkou kategorii delttů
□ opusřa 7 ftjUvocmí kapitoly k fmaTHxrváiískolství nejvyšsípočet dětí, žáků nebo studentů ve triu, a1ud ní sí^nanabG cddelaiívpfishja.nérr cbcnjvzdeléiívasíclanebo
□ opusřZ3fl5,Právo, 2S. 2. 2009 mluvčí meziříčské radíce Práva olevTDudDlrtoraidsesŤjdum OLOMOUC- Dofctoraids<ý studií program otevTesnejvě^ípravdepcdcbnostíuž let os na podzim Právnická
□ cpusíia.ai.Mladáfrenta DNES 13. č. 2CC9 studům . Vnhénn času drobná blcidýitr>že jhak byl vylízané studií typ,1 vzpomhá matka Jarmila Stopová. Pil přecházení
□ opusřl 520,5 tebou mébaWimit,í. 37/2.007 . alavšacnnc rrebani.(holpožádat onďrviduárií stuci/ií plán a dc'jfámr že to zvládnu r "vefí
□ ůpLsřlOOl.HůqKrfaTsIáiBvny, 1 2.1. 2D07 skol v americkém styki ? Nekompromisně srovnávajícím Irvarnu profesorů. studfií plány i kariéry absolventů . Na príst-povém heslu k němu
□ opusílHttJýdiin,;. 34/2000 taiu, po válce až donedávna se veřejně r mimo studýií 'iSek. nepromítaly To R'afensta-ilcve nadnjnéstraně nebráníc
□ epusř92&,5prá™íprávo zkratce' Sc. uváděné před rrénerr) . Magisterský studií program je zaměřen na zisfcsViíteoretických poznatků založených na soudobém
□ opusř 17 SjHospooafilá soutéž vymezování ralavantnínc tru značně stf> aktivní. 6 Zneužitídomriarronho postavení Studií cíle Cílem této kapitoly je objasnit sam otný pojem do mnantnípestavaní
□ opusříl a,Praktikum občanského práva v přírodě .Ty potrebcvalpcrid't íazdárnéirusplněníúceru stuílrií cesty asistenta v cblast" výskytu vzácně pTímorsfcé 11 óry během jeho
□ ».is=;íS Pairiti lékara r zda Jirka benerr svý-sn itjí íuzavrel vůbec nějakou dft;í stucifií etapu zícjsícu .VÍmijenrževdobě,
□ opusřl i] 7 S/D Speciál, í. 1/2Í0S ' rr cdarně vybavená