Stylistika VII ZS 2024 Obsah • klasifikace na základě nejfrekventovanějších slov • literatura • Plechač. P. (2020). Jak určit autora textu. Vesmír, 99, s. 210-211) • https://vesmir.cz/cz/casopis/archiv-casopisu/2020/cislo-4/jak-urcit-autora- textu.html Frekvenční struktura textu J. Škvorecký: Eva byla nahá Frekvenční struktura textu Nejfrekventovanější slova Škvorecký: Eva byla nahá pořadí slovo f 1 a 481 2 se 369 3 na 264 4 v 234 5 jsem 161 6 s 122 7 z 110 8 američan 108 9 to 104 10 řekl 98 11 ale 94 12 do 91 13 že 89 14 řekla 87 15 dívka 67 Nejfrekventovanější slova Škvorecký: Eva byla nahá pořadí slovo f 1 a 481 2 se 369 3 na 264 4 v 234 5 jsem 161 6 s 122 7 z 110 8 američan 108 9 to 104 10 řekl 98 11 ale 94 12 do 91 13 že 89 14 řekla 87 15 dívka 67 Nejfrekventovanější slova Škvorecký: Eva byla nahá pořadí slovo f 1 a 481 2 se 369 3 na 264 4 v 234 5 jsem 161 6 s 122 7 z 110 8 američan 108 9 to 104 10 řekl 98 11 ale 94 12 do 91 13 že 89 14 řekla 87 15 dívka 67 Hrabal: Perlička na dně pořadí slovo f 1 a 2239 2 se 1203 3 to 1037 4 na 879 5 ale 514 6 tak 504 7 do 467 8 si 459 9 jsem 456 10 v 446 11 že 440 12 je 432 13 já 363 14 když 296 15 jak 283 Hašek: Osudy…I. pořadí slovo f 1 a 7045 2 se 6061 3 na 3927 4 že 3469 5 to 3075 6 v 2585 7 je 1801 8 do 1749 9 s 1667 10 si 1534 11 když 1387 12 z 1375 13 tak 1308 14 jsem 1286 15 švejk 1188 Nejfrekventovanější slova Škvorecký: Eva byla nahá pořadí slovo f_rel 1 a 0.037 2 se 0.028 3 na 0.020 4 v 0.018 5 jsem 0.012 6 s 0.009 7 z 0.008 8 američan 0.008 9 to 0.008 10 řekl 0.007 11 ale 0.007 12 do 0.007 13 že 0.007 14 řekla 0.007 15 dívka 0.005 Hrabal: Perlička na dně pořadí slovo f_rel 1 a 0.054 2 se 0.029 3 to 0.025 4 na 0.021 5 ale 0.012 6 tak 0.012 7 do 0.011 8 si 0.011 9 jsem 0.011 10 v 0.011 11 že 0.011 12 je 0.010 13 já 0.009 14 když 0.007 15 jak 0.007 Hašek: Osudy…I. pořadí slovo f_rel 1 a 0.035 2 se 0.030 3 na 0.020 4 že 0.017 5 to 0.015 6 v 0.013 7 je 0.009 8 do 0.009 9 s 0.008 10 si 0.008 11 když 0.007 12 z 0.007 13 tak 0.007 14 jsem 0.006 15 švejk 0.006 Nejfrekventovanější slova Škvorecký: Eva byla nahá pořadí slovo f_rel 1 a 0.037 2 se 0.028 3 na 0.020 4 v 0.018 5 jsem 0.012 6 s 0.009 7 z 0.008 8 američan 0.008 9 to 0.008 10 řekl 0.007 11 ale 0.007 12 do 0.007 13 že 0.007 14 řekla 0.007 15 dívka 0.005 Hrabal: Perlička na dně pořadí slovo f_rel 1 a 0.054 2 se 0.029 3 to 0.025 4 na 0.021 5 ale 0.012 6 tak 0.012 7 do 0.011 8 si 0.011 9 jsem 0.011 10 v 0.011 11 že 0.011 12 je 0.010 13 já 0.009 14 když 0.007 15 jak 0.007 Hašek: Osudy…I. pořadí slovo f_rel 1 a 0.035 2 se 0.030 3 na 0.020 4 že 0.017 5 to 0.015 6 v 0.013 7 je 0.009 8 do 0.009 9 s 0.008 10 si 0.008 11 když 0.007 12 z 0.007 13 tak 0.007 14 jsem 0.006 15 švejk 0.006 Nejfrekventovanější slova Škvorecký: Eva byla nahá pořadí slovo f_rel 1 a 0.037 2 se 0.028 3 na 0.020 4 v 0.018 5 jsem 0.012 6 s 0.009 7 z 0.008 8 američan 0.008 9 to 0.008 10 řekl 0.007 11 ale 0.007 12 do 0.007 13 že 0.007 14 řekla 0.007 15 dívka 0.005 Hrabal: Perlička na dně pořadí slovo f_rel 1 a 0.054 2 se 0.029 3 to 0.025 4 na 0.021 5 ale 0.012 6 tak 0.012 7 do 0.011 8 si 0.011 9 jsem 0.011 10 v 0.011 11 že 0.011 12 je 0.010 13 já 0.009 14 když 0.007 15 jak 0.007 Hašek: Osudy…I. pořadí slovo f_rel 1 a 0.035 2 se 0.030 3 na 0.020 4 že 0.017 5 to 0.015 6 v 0.013 7 je 0.009 8 do 0.009 9 s 0.008 10 si 0.008 11 když 0.007 12 z 0.007 13 tak 0.007 14 jsem 0.006 15 švejk 0.006 Nejfrekventovanější slova Plechač (2020) Nejfrekventovanější slova Plechač (2020) Nejfrekventovanější slova • nezávislost na tématu • aproximace gramatiky (viz níže) Měření – Burrowsova delta • relativní frekvence daného počtu nejfrekventovanějších slov • výpočet z-skóre • pro každou dvojici textů se pro každé slovo (z daného počtu nejfrekventovanějších slov) vypočítá rozdíl hodnot z-skóre • tyto vzdálenosti se sečtou • aplikuje se shluková analýza Modelový příklad • text A a text B • vypočet na základě pouze dvou nejfrekventovanějších slov • jedná se jen o modelový příklad, obvykle se pracuje se stovkami slov a na délka textu text A 56 32 800 text B 27 90 900 Modelový příklad • relativní frekvence (v %) 𝑓𝑟𝑒𝑙 𝑡𝑒𝑥𝑡 𝐴 𝑎 = 𝑓(𝑎) 𝑁(𝑡𝑒𝑥𝑡 𝐴) 100 = 56 800 100 = 0.07 ∙ 100 = 7 a na délka textu text A 56 32 800 text B 27 90 900 Modelový příklad • relativní frekvence (v %) 𝑓𝑟𝑒𝑙 𝑡𝑒𝑥𝑡 𝐴 𝑎 = 𝑓(𝑎) 𝑁(𝑡𝑒𝑥𝑡 𝐴) 100 = 56 800 100 = 0.07 ∙ 100 = 7 𝑓𝑟𝑒𝑙 𝑡𝑒𝑥𝑡 𝐵 𝑎 = 𝑓(𝑎) 𝑁(𝑡𝑒𝑥𝑡 𝐵) 100 = 27 900 100 = 0.03 ∙ 100 = 3 𝑓𝑟𝑒𝑙 𝑡𝑒𝑥𝑡 𝐵 𝑛𝑎 = 𝑓(𝑛𝑎) 𝑁(𝑡𝑒𝑥𝑡 𝐵) 100 = 32 800 100 = 0.04 ∙ 100 = 4 𝑓𝑟𝑒𝑙 𝑡𝑒𝑥𝑡 𝐴 𝑛𝑎 = 𝑓(𝑛𝑎) 𝑁(𝑡𝑒𝑥𝑡 𝐵) 100 = 90 900 100 = 0.1 ∙ 100 = 10 Modelový příklad • z-skóre • rozdíl mezi relativní frekvencí daného slova v textu a průměrnou relativní frekvencí daného slova ve vzorku sestaveného z analyzovaných textů vydělený směrodatnou odchylkou Modelový příklad • z-skóre • rozdíl mezi relativní frekvencí daného slova v textu a průměrnou relativní frekvencí daného slova ve vzorku sestaveného z analyzovaných textů vydělený směrodatnou odchylkou • v tomto modelovém případu si představme, že máme více textů, ze kterých jsme spočítali průměrnou relativní frekvenci a směrodatnou odchylku Variabilita dat – rozptyl & směrodatná odchylka • rozptyl • střední hodnota kvadrátů odchylek od střední hodnoty 𝜎2 = 1 𝑁 ෍ 𝑖=1 𝑁 𝑥𝑖 − ҧ𝑥 2 = 𝑥1 − ҧ𝑥 2 + 𝑥2 − ҧ𝑥 2+. . . + 𝑥 𝑁 − ҧ𝑥 2 𝑁 − 1 Variabilita dat – rozptyl & směrodatná odchylka {2,2,3,3,4,5} průměr = 3,17 𝜎2 = 2 − 3,17 2 + 2 − 3,17 2 + 3 − 3,17 2 + 3 − 3,17 2 6 − 1 + + 4 − 3,17 2 + 5 − 3,17 2 = = 1,3689 + 1,3689 + 0,0289 + 0,0289 + 0,6889 + 3,3489 5 = 6,8334 5 = = 1,367 Variabilita dat – směrodatná odchylka směrodatná odchylka {2,2,3,3,4,5} průměr = 3,17 𝜎 = 1 𝑁 − 1 ෍ 𝑖=1 𝑁 𝑥𝑖 − ҧ𝑥 2 = 1,169 Variabilita dat – směrodatná odchylka {2,2,3,3,4,5} průměr = 3,17 SD =1,17 {2,2,3,3,4,20} průměr = 5,67 SD = 7,06 {5,5,6,6,6,6} průměr = 5,67 SD = 0,52 Variabilita dat – směrodatná odchylka {2,2,3,3,4,5} průměr = 3,17 SD = 1,17 {2,2,3,3,4,20} průměr = 5,67 SD = 7,06 {5,5,6,6,6,6} průměr = 5,67 SD = 0,52 Modelový příklad • průměrné relativní frekvence ҧ𝑓 𝑎 = 2, ഥ𝑓 𝑛𝑎 = 2 • směrodatné odchylky σ 𝑎 = 1, σ 𝑛𝑎 = 2 Modelový příklad • z-skóre 𝑧 = 𝑟𝑒𝑙. 𝑓𝑟𝑒𝑘. 𝑠𝑙𝑜𝑣𝑎 − 𝑝𝑟ů𝑚ě𝑟𝑛á 𝑟𝑒𝑙. 𝑓𝑟𝑒𝑘𝑣. 𝑠𝑙𝑜𝑣𝑎 𝑣𝑒 𝑣𝑧𝑜𝑟𝑘𝑢 𝑠𝑚ě𝑟𝑜𝑑𝑎𝑡𝑛á 𝑜𝑑𝑐ℎ𝑦𝑙𝑘𝑎 𝑠𝑙𝑜𝑣𝑎 Modelový příklad • z-skóre 𝑧 𝑡𝑒𝑥𝑡 𝐴 𝑎 = 𝑓𝑟𝑒𝑙 𝑡𝑒𝑥𝑡 𝐴 𝑎 − ҧ𝑓 𝑎 σ 𝑎 = 7 − 2 1 = 5 Modelový příklad • z-skóre 𝑧 𝑡𝑒𝑥𝑡 𝐴 𝑎 = 𝑓𝑟𝑒𝑙 𝑡𝑒𝑥𝑡 𝐴 𝑎 − ҧ𝑓 𝑎 σ 𝑎 = 7 − 2 1 = 5 𝑧 𝑡𝑒𝑥𝑡 𝐵 𝑎 = 3 − 2 1 = 1 𝑧 𝑡𝑒𝑥𝑡 𝐴 𝑛𝑎 = 4 − 2 2 = 1 𝑧 𝑡𝑒𝑥𝑡 𝐵 𝑛𝑎 = 10 − 2 1 = 4 Modelový příklad • Delta vzdálenost mezi texty 𝛥(𝑡𝑒𝑥𝑡𝐴,𝑡𝑒𝑥𝑡𝐵) = 1 𝑁 ෍ 𝑖=1 𝑁 𝑧𝑖(𝑡𝑒𝑥𝑡𝐴) − 𝑧𝑖(𝑡𝑒𝑥𝑡𝐵) N…počet analyzovaných slov i Modelový příklad • Delta vzdálenost mezi texty 𝛥(𝑡𝑒𝑥𝑡𝐴,𝑡𝑒𝑥𝑡𝐵) = 1 𝑁 ෍ 𝑖=1 𝑁 𝑧𝑖(𝑡𝑒𝑥𝑡𝐴) − 𝑧𝑖(𝑡𝑒𝑥𝑡𝐵) 𝛥(𝑡𝑒𝑥𝑡𝐴,𝑡𝑒𝑥𝑡𝐵) = 𝑧 𝑎(𝑡𝑒𝑥𝑡𝐴) − 𝑧 𝑎(𝑡𝑒𝑥𝑡𝐵) + 𝑧 𝑛𝑎(𝑡𝑒𝑥𝑡𝐴) − 𝑧 𝑛𝑎(𝑡𝑒𝑥𝑡𝐵) 2 = = 5 − 1 + |1 − 4| 2 = 7 2 = 3.5 Vzdálenost mezi texty ∆(𝐴𝐵)= 1 𝑛 ෍ 𝑖=1 𝑛 𝐴𝑖 − 𝜇𝑖 𝜎𝑖 − 𝐵𝑖 − 𝜇𝑖 𝜎𝑖 n … the number of MFW A, B … texts for the comparison Ai … the relative frequency of a given word in the text A Bi … the relative frequency of a given word in the text B 𝜇i … the average relative frequency of a given word in sample 𝜎i … the standard deviation of the relative frequency of a given word Vzdálenost mezi texty Nini (2023) Vzdálenost mezi texty Nini (2023) Shluková analýza https://towardsdatascience.com/hierarchical-clustering-explained-e59b13846da8 Shluková analýza https://towardsdatascience.com/hierarchical-clustering-explained-e59b13846da8 Shluková analýza Plechač (2020) Prezidentské projevy • Kubát, M., Mačutek, J., Čech, R. (2021). Communists spoke differently. An analysis of Czechoslovak and Czech annual presidential speeches. Digital Scholarship in the Humanities, 36, 138-152. • presedential speeches: 1935–2018 • 100 MFW, culling = 60 % Bible svatováclavská & comments • Kosek, P., Čech, R. (2018). Stylové aspekty Bible svatováclavské – stylometrická analýza. In Zand, G., Newerkla, S.M. (eds.). Jezuitská kultura v českých zemích / Jesuitische Kultur in den böhmischen Ländern. Host, 195-209. Bible svatováclavská & comments • New Testament • Konstanc → Šteyer • Old Testament • Šteyer → Barner • Job – divide • „[…] (domníváme se, že by se stylistickým rozdílem textu dalo zjistit, odkud překládal už jen Šteyer) […]“ Vintr (1997) Bible svatováclavská & comments • comments • Šteyer: New Testament + Genesis • Barner: Old Testament Bible svatováclavská & comments • translation • sacred text • editing Bible svatováclavská & comments • New Testament • Mt, Lk, Sk, Zj • Old Testament • Gn, Jb, Iz, Sir • 100 MFW • culling = 0 Jak to, že to funguje? • Nini, s. 32 Stylo • Eder, M., Rybicki, J., & Kestemont, M. (2016). Stylometry with R: a package for computational text analysis. The R Journal, 8(1). Stylo