Lexikologie českého jazyka

11 Český národní korpus.

Úvodem si ujasněme, že pro práci s korpusem na ZŠ nám pravděpodobně zcela postačí aplikace Slovo v kostce.

Nicméně pro náš hlubší vhled do problematiky korpusů i pro případné zvídavé dotazy z řad žactva je k užitku seznámit se se základními informacemi o Českém národním korpusu. (Mimochodem... Jak by si asi automatická anotace poradila s dvojím „se“ v předchozí větě?)

Jazykový korpus je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby [...] tak, aby bylo možné v něm jednoduše vyhledávat různé jazykové jevy – zejména slova a slovní spojení (kolokace). Od obyčejného textového archívu či databáze jej odlišuje především to, že bývá pečlivě sestaven s ohledem na výzkumný účel (má například reprezentovat současný mluvený či psaný jazyk nebo jeho část, např. publicistické texty). Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný.“ (Křen, https://wiki.korpus.cz/doku.php, 26.11.2020) Nutno k tomu podotknout, že data vyhledaná v korpusu je potřeba vždy zkontrolovat, neb stroj je (stále ještě) omylný (automatická anotace – automatické «tagování»[1] textů – není dosud zcela dokonalé), čímž se ovšem z mnohamilionových objemů dostáváme opět k položkám o několika stovkách, maximálně tisících výskytů, neb více není výzkumný pracovník s to ke kontrole pojmout. Orientačně je však tento nástroj jistě užitečným pomocníkem. Data takto získaná však musíme vnímat s výše uvedeným ohledem na případnou chybovost (úspěšnost syntaktické anotace se v současné době blíží 90 %, úspěšnost lemmatizace a morfologického značkování se pohybuje mezi 97,36–99,77 %; zdroj Jelínek, Wiki, ČNK, Automatická anotace). 

Pro žactvo na ZŠ by mohla být klíčovou otázkou na úvod práce s korpusem: ipm.

Co by to mohlo být? resp. Co to je? / Jak se to vypočítává/počítá? / Kde to zjistit?

„Zkratky i.p.m. (z angl. instances per million), příp. p.p.m. (z angl. parts per million) jsou jednotkami relativní frekvence. Vyjadřují průměrný počet výskytů jednotky nebo slova v hypotetickém textu/korpusu o délce 1 milion slov. / Např. slovní tvar běžeckých se ve stomilionovém korpusu SYN2010 objevuje 208krát, což odpovídá 1,71 i.p.m., tj. 1,71 výskytů na milion slov.“ (Zasina, Wiki, ČNK)

Využití i.p.m. 

„Hlavní výhodou relativizace frekvencí vzhledem k velikosti korpusu je možnost následného porovnání hodnot z nestejně velkých korpusů. Absolutní hodnoty“ jsou totiž matoucí, „v případě, že korpusy nemají stejnou velikost [...]. Slovní tvar stromek nabývá v korpusech SYN2010 a ORAL2008 těchto hodnot:

SYN2010 

ORAL2008 

Absol. frekvence 

440 

6 

Relat. frekvence (v i.p.m.) 

3,62 

4,45 

Navzdory tomu, o čem vypovídají absolutní frekvence, po přihlédnutí k celkové velikosti korpusů (SYN2010 má 122 mil. pozic, zatímco ORAL2008 [jen] 1,35 mil. pozic) je slovo stromek v korpusu ORAL2008 relativně častější.“ (Zasina, Wiki, ČNK)

 

A o čem vypovídá frekvence výskytu lexikální jednotky v průběhu času?

Frekvence výskytu slova v čase

„Graf naznačuje trend v užívání slova za poslední dvě desetiletí, především však v jazyce publicistiky (která tvoří cca 90 % korpusu SYN verze 7). Hodnoty za jednotlivé roky zaznamenávají počet výskytů v milionu slov (viz vysvětlení pojmu ipm [...]).

Tloušťka čáry [síla čáry] v grafu se odvozuje od tzv. konfidenčního intervalu, který udává, jak spolehlivá data pro výzkum zadaného jevu máme. Čím je čára tlustší [silnější], tím méně spolehlivá data pro identifikaci daného trendu máme.“ (ČNK)

„Kliknutím na ikonku nastavení můžete výsledky porovnat s vývojem jiného slova“ (ČNK) 

Porovnejte např. slova lingvistika a jazykověda.

 

Poznámka: Odkaz na aplikace Slovo v kostce je také v IJP ve slovníkové části, vždy pod daným výkladem slova (dole).

 

Žactvu lze zadat úkol ­– zjistit/srovnat údaje o následujících slovech:

(pro srovnání slov je vhodné využít příkaz porovnat slova)

židle : sesle; sucho : povodeň; poplatky : privatizace; avokádo : liči; báseň : básnička; migrant : imigrant : emigrant; viróza : pražská kavárna : peroutka; selfie : selfíčko; fascie : portfolio; jazykověda : lingvistika

 

Srovnání lexikálních jednotek lingvistika vs. jazykověda

korpus SYN2005

společné kolokáty: pouhá 4 sdílená adjektiva (moderní, obecná, česká, současná)

odlišné kolokáty:

lingvistika (290 výskytů): algebraická, funkční, komputační, korpusová, kvantitativní, matematická, strukturní, teoretická, textová; soustřeďuje se, zabývá se, zkoumá;

jazykověda (182 výskytů): historicko-srovnávací; hledá, nabízí



[1] „Morfologická značka (běžně nazývaná tag) je sumarizací gramatické informace o hledaném slovu (pozici) v konkrétním kontextu. Tag vzniká většinou automaticky na základě morfologické analýzy a následné desambiguace[zjednoznačnění]. / Tagy jsou poziční atributy. Morfologická značka v českých korpusech ČNK je tvořena sekvencí značek (písmen a čísel), které mají specifický význam podle toho, na jaké pozici v kódu stojí. Ve větě Po promoci na londýnské universitě odjel jsem roku 1878 do Netley na školení vojenských chirurgů. má tvar promoci (přesto, že se potenciálně jedná o tvar morfologicky víceznačný) morfologickou značku NNFS6—–A—–, která o něm říká, že se jedná o: substantivum (=N); běžné substantivum (=N); femininum, tedy ženského rodu (=F); singulár, tedy jednotné číslo (=S); v šestém pádě, tedy lokálu (=6).“ (Křivan, ČNK)

„Tagset [je přitom] [s]oubor pravidel a hodnot, které se můžou vyskytovat v tagu [...]. Poziční tagset užívaný v českých korpusech ČNK (v korpusu SYN2020 používáme tagset jiný) má 16 pozic, každá z nich nese informaci o jiné gramatické kategorii:“ 1. slovní druh; 2. detailní určení slovního druhu; 3. jmenný rod; 4. číslo; 5. pád; 6. přivlastňovací rod; 7. přivlastňovací číslo; 8. osoba; 9. čas; 10. stupeň; 11. negace; 12. aktivum/pasivum; 13. nepoužito; 14. nepoužito;15. varianta, stylový příznak apod.; 16. vid. (Křivan, ČNK, Wiki)