Stylistika V ZS 2024 Obsah • „globální“ vlastnosti textu • literatura • Kubát, M. Kvantitativní analýza žánrů. 2016. • grafy a příklady převzaty z této publikace Celkové vlastnosti textu • Kubát, M., Mačutek, J., Čech, R. (2021). Communists spoke differently. An analysis of Czechoslovak and Czech annual presidential speeches. Digital Scholarship in the Humanities, 36, 138-152. Slovní bohatství / lexikální diverzita • type-token poměr • proporce hapax legomenon • index opakování slov (repeat rate) • entropie • Giniho index • … Poměr typů a tokenů • Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. Poměr typů a tokenů • Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. • tokeny = 10 • typy = ? Poměr typů a tokenů • Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. • tokeny = 10 • typy = 7 Poměr typů a tokenů • Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. • tokeny = 10 • typy = 7 𝑇𝑇𝑅 = 𝑡𝑦𝑝𝑦 𝑡𝑜𝑘𝑒𝑛𝑦 = 7 10 = 0.7 Poměr typů a tokenů Poměr typů a tokenů • nevhodný pro texty různé délky • upravené způsob měření • standardizovaný TTR -> STTR • TTR na blocích textu • např. o velikosti 100, 1000,… n slov • klouzavý průměr TTR -> MATTR Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. • tokeny = 5 • typy = 3 • TTR = 3/5 = 0.6 Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. • tokeny = 5 • typy = 3 • TTR = 3/5 = 0.6 Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. • tokeny = 5 • typy = 4 • TTR = 4/5 = 0.8 Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. • tokeny = 5 • typy = 5 • TTR = 5/5 = 1 Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. • tokeny = 5 • typy = 5 • TTR = 4/5 = 0.8 Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. • tokeny = 5 • typy = 5 • TTR = 5/5 = 1 Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. 𝑀𝐴𝑇𝑇𝑅 = 0.6 + 0.6 + 0.8 + 1 + 0.8 + 1 6 = 4.8 6 = 0.8 Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. 𝑀𝐴𝑇𝑇𝑅 = σ𝑖=1 𝑁−𝐿 𝑉𝑖 𝐿(𝑁 − 𝐿 + 1) L… velikost okna Vi… počet typů v daném okně N… délka textu Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. 𝑀𝐴𝑇𝑇𝑅 = σ𝑖=1 𝑁−𝐿 𝑉𝑖 𝐿(𝑁 − 𝐿 + 1) = 3 + 3 + 4 + 5 + 4 + 5 5(10 − 5 + 1) = 24 30 = 0.8 L… velikost okna Vi… počet typů v daném okně N… délka textu Klouzavý průměr TTR – MATTR Klouzavý průměr TTR – MATTR • velikost okna obvykle • L = 100 • L = 500 • nástroje • QuitaUp • https://korpus.cz/quitaup/ Klouzavý průměr TTR – MATTR Podíl hapaxů k tokenům (PHL) • hapax legomenon • výraz, který se vyskytuje v textu jednou 𝑃𝐻𝐿 = σ 𝐻𝐿𝑖 𝑁 HL…hapax legomenon N… počet tokenů Podíl hapaxů k tokenům (PHL) Podíl hapaxů k tokenům (PHL) 0 100 200 300 400 500 600 0 1000 2000 3000 4000 5000 6000 pořadí frekvence Podíl hapaxů k tokenům (PHL) Průměrná délka tokenu (ATL) • vyjadřuje hodnotu aritmetického průměru délek tokenů v textu • délka tokenu je počítána v počtu znaků • např. slovo chyba má tedy délku 5 znaků Průměrná délka tokenu (ATL) Aktivita (Q) • míra dějovosti textu • v kontrastu s deskriptivitou (popisností) • poměr sloves k součtu sloves a adjektiv, které se v textu vyskytují • obrácenou hodnotou je deskriptivita Aktivita (Q) Na malém stole ležela rozbitá váza a pod stolem se válely prázdné lahve. Aktivita (Q) Na malém stole ležela rozbitá váza a pod stolem se válely prázdné lahve. 𝑄 = 2 2 + 3 = 0.4 Aktivita (Q) Verb distance (VD) • aritmetický průměr počtu tokenů mezi dvěma po sobě následujícími slovesy v textu • nezapočítávají se pomocná slova Verb distance (VD) Potichu ulehl naznak. Slunce ho udeřilo v oči a proniklo zavřenými víčky; červené a černé kruhy se roztočily a palčivě tančí před očima. Verb distance (VD)