Korpusová lingvistika - 3 Typy korpusů Mgr: Dana Hlaváčková, Ph.D. CJBB105 PRZA009 Typy jazykových korpusů • znalost různých typů korpusů • schopnost vybrat správný korpus pro svoji práci • v průběhu času přibývají nové typy • různá kritéria dělení • z hlediska obsahu, rozsahu, způsobu budování,... • stejné typy korpusů v celosvětovém měřítku • národní korpusy a subkorpusy • každý korpus je charakterizován více přívlastky (např. psaný, synchronní, verzovaný) Jak vybrat správný korpus • zařazení do typologie - obsah • rozsah (frekvenční studie, statistická významnost) • metodologie tvorby korpusu (má často vliv na obsah) • typ značkovania metadata • přístupnost - volné verze, přihlašovací údaje, typy korpusových manažerů Typy jazykových korpusů • typ zachycené komunikace • psané korpusy (Written Corpora) • hraniční typ - soukromá korespondence, KSK • v ČNK-korpusy řady SYN, PUB • mluvené korpusy (Spoken Corpora) • včetně čtení předem připraveného psaného projevu • v ČNK - PMK, BMK, řada ORAL, ORTOFON, ORATOŘ • multimodální/multimediální- DIALOG a MONOLOG (ÚJČ), MALACH (MFF UK) Typy jazykových korpusů • časový záběr • synchronní - cca 2. pol. 20 st. - současnost • korpusy řady SYN, PUB • diachrónni- 13. st. - 1945 (beletrie)/1989 (publicistika, odborné texty) • DIAKORP Typy jazykových korpusů • zachycený jazyk •jednojazyčné - národní, např. SYN2015 • paralelní - stejné texty v překladech do různých jazyků • InterCorp ORWELL( Mul text East) • Česko-německý paralelní korpus (PedF MU) • mezinárodní OPUS (online texty), EuroParl • psané srovnatelné korpusy (Comparable Corpora) -Aranea (24 jazyků, V. Benko) • shodná metodika tvorby, srovnatelná velikost, čas pořízení textů, způsob budování Typy jazykových korpusů ucel • všeobecné - řada SYN, ORAL (psané, mluvené, synchronní, bez speciálního zaměření) • specializované - např. KSK, BMK, DIALEKT • žákovské korpusy (Learner Corpora) - psané texty češtiny produkované nerodilými mluvčími Typy jazykových korpusů * způsob budování • tradiční - poskytovatelé textů (autorský zákon), elektronické texty, OCR • mluvené - nahrávka, přepis • webové - texty stahované z internetu • ukWaC, deWaC, CsTenTenl2 a CzechWeblľ • možnost rozšíření • uzavřené - referenční, neměnný v čase, zpětně dostupný • otevřené (monitorovací) - nereferenční Typy jazykových korpusů * značkování • neoznačkované (morfologicky) - BMK, KSK, DIAKORP • značkované (morfologicky) • lemmatizace (přiřazení základních tvarů slov) • tagging (lemmata + morfologické značky), PoS tagging • značkované (foneticky syntakticky) • fonetická transkripce - OMK (Katedra bohemistiky UP Olomouc, dr. Petr Pořízka), ORTOFON • syntax-SYN2015, SYN2020, PDT (ÚFAL MFF UK Praha) • verzované korpusy - SYN v. 10, InterCorp v. 14, DIAKORP v. 6 Vyváženost a reprezentativnost korpusů • vyváženost a reprezentativnost • z pohledu produkce a recepce textů • rovnoměrná • z hlediska pokrytí variability textů v daném jazyce • u mluvených korpusů vyvážené sociolingvistické kategorie • nevyvážené korpusy • vyváženost není cílem • webové British National Corpus (BNC) • vedoucí role - Geoffrey Leech • jednojazyčný synchronní, vyvážený reprezentativní, široký průřez britskou angličtinou z konce 20 st., 1991-1994 • BNC Consortium (Oxford University Press), British Library, British Academy • 100 mil. slov, 90 % psaný jazyk (vzorky po 45 tis. slovech), 10 % mluvený • publicistika, beletrie, odborná literatura, formální i neformální promluvy • PoS Tagging Ústav Českého národního korpusu • ÚČNK FF UK, Panská ul., Praha, www.korpus.cz • založen 1994, ředitel prof. F. Čermák, od r. 2013 doc. V. Cvrček, od 2015 dr. M. Křen • spolupráce s Ústavem teoretické a komputační lingvistiky FF UK a Ústavem formální a aplikované lingvistiky MFF UK • budování ČNK • publikační činnost • výuka pro magisterský stupeň • výuka pro doktorský stupeň - obor Matematická lingvistika Český národní korpus • korpusy řady SYN (všeobecný korpus, psaný synchronní jazyk, referenční korpusy, celkem 4,9 mld. slov, lemmatizace, morf. značkování) • SYN2000 - 1990-1999, 100 mil. slov • beletrie 15 %, odborná lit. 25 %, publicistika 60 % • SYN2005 - 2000-2004, 100 mil. slov • beletrie 40 %, odborná lit. 27 %, publicistika 33 % • SYN2010 - 2005-2010, 100 mil. slov • beletrie 40 %, odborná lit. 27 %, publicistika 33 % • SYN2015 - 2011-2015, 100 mil. slov • beletrie 33 %, odborná lit. 33 %, publicistika 33 % • SYN2020 - 2015 - 2019,100 mil. slov • SYN2006PUB - 1989-2004, 300 mil. slov • SYN2009PUB - 1995-2007, 700 mil. slov • SYN2013PUB - 2005-2009, 935 mil. slov Český národní korpus • specializované korpusy, např • KSK-DOPISY- ručně psané dopisy z let 1990-2004, 800 tis. slov • ORWELL- román G. Orwella 1984, ručně značkovaný, 80 tis. slov, 2003 (Multext East, 12 jazyků, paralelní korpus) • CzeSL-Plain - žákovský korpus nerodilých mluvčích, 2 mil. slov, 2012 (eseje cizinců, odborné závěrečné práce, slohové práce romských žáků) • LINK (Lingvistův Narozeninový Korpus k výročí prof. F. Čermáka), odborné lingvistické texty z let 1985-2010, 1,8 mil. slov • NET- polooficiální komunikace na internetu (diskuznífóra, blqgy) Český národní korpus • diachrónni korpus DIAKORP v. 6, 2005 • 3,4 mil. slov • texty od konce 13. st. po hranice synchronní složky (48 % z 19. st.) • různorodost textů - pravopisné systémy, tisky, rukopisy • transkripce (rekonstrukce) • vnětextové i vnitrotextové značkování, např nezřetelné/nečitelné úseky, cizojazyčné citáty, poznámky pod čarou (bez morfologie) • využití tzv. hyperlemmat (kůň - kuoň, kóň) Český národní korpus • paralelní korpus InterCorp, 0. verze 2008,19 jazyků • 1,7 mld. slov (verze 12, 2019), 39 jazyků • 1,8 mld. slov (verze 13, 2020), 40 jazyků • párování (alignment), čeština = pivot • jádro (core) korpusu - ručně zarovnané hl. beletristické texty • kolekce (collection) - texty zarovnané automaticky • publicistika a zpravodajství z webu • právní texty Evropské unie • zápisy zjednání Evropského parlamentu 2007-2011 (EuroParl) • filmové titulky z databáze Open Subtitles • překlady Bible Český národní korpus • srovnatelné webové korpusy Aranea (dr. Vladimír Benko, Bratislava) • 2014, nereferenční, 24 jazyků, stejná velikost, stejná metodika a technologie tvorby • open-source (volně dostupné) nástroje, PoS tagging • základní velikost • 1,2 mld. slov = maius • 10% vzorek, 120 mil. = minus, určeny pro vyučování • 10 mil. = minimum, pro testování nástrojů • maximum - „koľko sa podarí", 7 mld. jen pro češtinu • např. Araneum Bohemicum, Araneum Germanicum, Araneum Francogallicum Helveticum Korpusy v CZPJ Fl MU - Sketch Engine • Czech Web 2017 (csTenTenlľ) - 2017 • 12,6 mld. tokenů, 10,5 mld. slov (word) • czTenTenl2 - webový korpus z r: 2012, 4,2 mld. slov • Czes - novinové články z let 1995-1998 a 2002, 350 mil. slov • OPUS2 Czech - česká část paralelního webového korpusu • CNPK - Česko-némecký paralelní korpus, Katedra německého jazyka a literatury PedF MU, 2005, celkem přes 7 mil. slov, snaha o vyváženost • chyby2 - texty studentů Fl MU s vyznačenými chybami, 50 tis. slov • DESAM - 1 mil. slov, ruční desambiguace, referenční korpus Přístup ke korpusům • Česky národní korpus http://wiki.korpus.ez/doku.php/cnk:uvod • Sketch Engine https://www.sketchengine.eu/ • Aranea http://unesco.uniba.sk/