Čeština pro 21. století Jak s ní nakládají prezidenti? Radek Čech Struktura přednášky 1. možnosti analýzy (nejen politických) projevů a textů • aneb čtěme a počítejme… 2. novoroční a vánoční projevy československých a českých prezidentů • aneb klady a zápory jednoho specifického žánru… 3. kvantitativní charakteristiky prezidentských projevů • aneb co a proč počítat a jak to interpretovat… 4. QuitaUp • aneb jak jednoduše měřit vybrané charakteristiky textů… 1. Možnosti analýzy (nejen politických) projevů a textů • aneb čtěme a počítejme… Možnosti analýzy (nejen politických) projevů a textů • jak na analýzu textů? Možnosti analýzy (nejen politických) projevů a textů • jak na analýzu textů? • přečíst si ho…. Možnosti analýzy (nejen politických) projevů a textů • jak na analýzu textů? • přečíst si ho…. •kvalitativní analýza • obsahové i formální analýzy Možnosti analýzy (nejen politických) projevů a textů • jak na analýzu textů? • přečíst si ho…. •kvalitativní analýza • obsahové i formální analýzy • limity? Možnosti analýzy (nejen politických) projevů a textů • jak na analýzu textů? • přečíst si ho…. •kvalitativní analýza • obsahové i formální analýzy • limity? Možnosti analýzy (nejen politických) projevů a textů • jak na analýzu textů? • využít početní nástroje…. Možnosti analýzy (nejen politických) projevů a textů • jak na analýzu textů? • využít početní nástroje…. •kvantitativní analýza • obsahové i formální analýzy Možnosti analýzy (nejen politických) projevů a textů • jak na analýzu textů? • využít početní nástroje…. •kvantitativní analýza • obsahové i formální analýzy • limity? Možnosti analýzy (nejen politických) projevů a textů kvalitativní & kvantitativní Kvalitativní analýzy Ponton, D. M. (2020). Understanding Political Persuasion: Linguistic and Rhetorical Analysis. Vernon Press. Fairclough, I., & Fairclough, N. (2013). Political discourse analysis. Routledge. Svobodová, J. (2016). Manipulace a argumentace v politickém a mediálním diskurzu. Univerzita Palackého v Olomouci. Kvalitativní analýzy - ukázky • Hrušková B., Analýza vybraných vánočních a novoročních projevů československých a českých prezidentů. Olomouc 2018. • https://theses.cz/id/aj0yoh/hruskova_analyza_vanocnich_a_novorocnich_projevu.pdf Kvalitativní analýzy - ukázky • Gottwlad 1949 „3.4.2.1 Analýza textu Prezident v tomto projevu hovořil k lidu jako „rodič k dítěti“, jak je patrné z častého použití modálních sloves, kterými většinou upozorňoval na nutnost zlepšení pracovního procesu (budou muset naši zemědělci dohánět, musíme si uvědomit, i když s ním nemůžeme být ještě zdaleka spokojeni). Dále se objevuje značné množství hodnotících slov (z významných opatření, se plně osvědčil, s velkými obavami), a právě hodnocení je typické pro transakci rodič–dítě. Ani argumentace, kterou využíval, neodpovídá dospělému, není totiž věcná. Uváděl výroky, z nichž nelze vyvodit ověřitelné závěry, neboť jsou příliš obecné. Problémy detailně nevysvětloval a argumentaci stavěl na kritice protistrany: Odstraněním všech škůdců z našeho hospodářství co nejrychleji dosáhneme lepší budoucnosti. Kvalitativní analýzy - ukázky • Gottwlad 1949 „Z celého textu je nejzřetelnější zdůrazňování a časté použití přivlastňovacího zájmena „náš“ (našim národům, naše zemědělství, našeho lidově demokratického zřízení), které je rysem blízkosti.“ „Ve velkém množství se objevuje i nutnost (jdeme po správné cestě, nutně pro zdárný postup, jedině svornou spoluprací), na kterou navazuje správnost (velké úspěchy (…) potvrzují, zůstanou mezníkem v dějinách, historickým únorovým vítězstvím) Kvalitativní analýzy - ukázky • Svoboda 1969 „Způsob, jímž Svoboda k lidu hovořil, odpovídá transakci rodič–dítě. Snažil se navodit pocit důvěry a bezpečí. Cílil na emoce a vyvolával dojem, že ví, co je pro recipienty dobré. Spíše radil a hodnotil, věcně problém neanalyzoval. Zmiňoval problémy, nedokázal však ani přesně pojmenovat jejich příčiny (příčiny našich obtíží jsou především ve vážných chybách minulých let), ani uvést konkrétní pokyny, jak je vyřešit (záleží na odhodlání a poctivé práci).“ Kvalitativní analýzy - ukázky • Svoboda 1969 • https://interaktivni.rozhlas.cz/prezidentske-projevy/www/ • Svoboda 1971 • https://interaktivni.rozhlas.cz/prezidentske-projevy/www/#1971-svoboda Kvalitativní analýzy - ukázky • Svoboda 1969 „Patrná je snaha vyvolat iluzi dialogu, který samozřejmě v monologickém projevu není možný. Sám svou řeč pojmenoval jako rozhovor, navozoval tedy pocit, že lidé stojí přímo před ním a mají možnost reakce, a zodpovídal nevyřčené otázky, předjímal možné protesty a výtky, které by mohly posluchače napadnout. Hned na počátku našeho rozhovoru vám chci říci, (…) Hovořím k vám v prvních hodinách roku nového a je mi, jako byste vy všichni, kdo mě posloucháte, byli přede mnou. Ve vašich očích vidím plno zvídavosti, zájmu i nadějí. V některých i obavy. “ Kvantitativní analýza politických projevů • H. D. Lasswell, N. Leites: Language of Politics, New York 1949 Kvantitativní analýza politických projevů • H. D. Lasswell, N. Leites: Language of Politics, New York 1949 Kvantitativní analýza politických projevů • H. D. Lasswell, N. Leites: Language of Politics, New York 1949 H. D. Lasswell: Why Be Quantitative? • pozornost • Can we assume that a scholar read his sources with the same degree of care throughout his research? H. D. Lasswell: Why Be Quantitative? • pozornost • jasně vymezená vlastnost vzorku • Did he allow his eye to travel over the thousands upon thousands of pages of parliamentary debates, newspapers, magazines and other sources listed in his bibliography or notes? • Was the sampling system for the Frankfurter Zeitung, if one was employed, comparable with the one for the Manchester Guardian? H. D. Lasswell: Why Be Quantitative? • pozornost • jasně vymezená vlastnost vzorku • jasně vymezený (kvantifikovaný) podklad pro interpretaci • evidence-based interpretation Vývoj kvantitativních analýz – faktory Vývoj kvantitativních analýz – faktory • technické aspekty • výpočetní technika • dostupnost dat Vývoj kvantitativních analýz – faktory • technické aspekty • výpočetní technika • dostupnost dat • tradice humanitního vzdělávání Vývoj kvantitativních analýz – faktory • technické aspekty • výpočetní technika • dostupnost dat • tradice humanitního vzdělávání • proměny lingvistiky • empirizace • metodologie Kvantitativní analýza • klady • replikovatelnost • porovnatelnost • možnost aplikace na jiné vzorky • „robustnost“ • interpretace • intersubjektivita Kvantitativní analýza • klady • replikovatelnost • porovnatelnost • možnost aplikace na jiné vzorky • „robustnost“ • interpretace • intersubjektivita • zápory • redukcionismus • metodologické limity Kvantitativní analýza politických projevů • obsahová/tematická analýza Kvantitativní analýza politických projevů • obsahová/tematická analýza • analýza (na první pohled) „skrytých“ vlastností • míra zaměřenosti na hlavní témata • aktivita/deskriptivita • syntaktická komplexita Kvantitativní analýza politických projevů • ukázky Kvantitativní analýza politických projevů • ukázky • jazykový materiál • novoroční a vánoční projevy československých a českých prezidentů • 1935-dosud • texty dnes dostupné v Korpusu prezidentských projevů Speeches (ČNK) • https://wiki.korpus.cz/doku.php/cnk:speeches • ukázka: zjištění relativní frekvence modálních sloves Kvalitativní analýzy - ukázky • Gottwlad 1949 „3.4.2.1 Analýza textu Prezident v tomto projevu hovořil k lidu jako „rodič k dítěti“, jak je patrné z častého použití modálních sloves, kterými většinou upozorňoval na nutnost zlepšení pracovního procesu (budou muset naši zemědělci dohánět, musíme si uvědomit, i když s ním nemůžeme být ještě zdaleka spokojeni). Dále se objevuje značné množství hodnotících slov (z významných opatření, se plně osvědčil, s velkými obavami), a právě hodnocení je typické pro transakci rodič–dítě. Ani argumentace, kterou využíval, neodpovídá dospělému, není totiž věcná. Uváděl výroky, z nichž nelze vyvodit ověřitelné závěry, neboť jsou příliš obecné. Problémy detailně nevysvětloval a argumentaci stavěl na kritice protistrany: Odstraněním všech škůdců z našeho hospodářství co nejrychleji dosáhneme lepší budoucnosti. Frekvenční analýza slov (lemmat) pořadí Gottwald (1952) Zápotocký (1954) Havel (1999) Klaus (2006) 1. rok rok zeď život 2. americký výroba dnes rok 3. nový hospodářství různý volba 4. průmysl práce lidský politika 5. výroba zemědělský nový země 6. průmyslový nutný vlastní evropský 7. hodně národní právo občan 8. sovětský lid rok přát 9. válečný plán dobrý velký 10. potravina průmysl občanský člověk Frekvenční analýza slov (lemmat) pořadí Gottwald (1952) Zápotocký (1954) Havel (1999) Klaus (2006) 1. rok rok zeď život 2. americký výroba dnes rok 3. nový hospodářství různý volba 4. průmysl práce lidský politika 5. výroba zemědělský nový země 6. průmyslový nutný vlastní evropský 7. hodně národní právo občan 8. sovětský lid rok přát 9. válečný plán dobrý velký 10. potravina průmysl občanský člověk Frekvenční analýza slov (lemmat) pořadí Gottwald (1952) Zápotocký (1954) Havel (1999) Klaus (2006) 1. rok rok zeď život 2. americký výroba dnes rok 3. nový hospodářství různý volba 4. průmysl práce lidský politika 5. výroba zemědělský nový země 6. průmyslový nutný vlastní evropský 7. hodně národní právo občan 8. sovětský lid rok přát 9. válečný plán dobrý velký 10. potravina průmysl občanský člověk Frekvenční analýza slov (lemmat) pořadí Gottwald (1952) Zápotocký (1954) Havel (1999) Klaus (2006) 1. rok rok zeď život 2. americký výroba dnes rok 3. nový hospodářství různý volba 4. průmysl práce lidský politika 5. výroba zemědělský nový země 6. průmyslový nutný vlastní evropský 7. hodně národní právo občan 8. sovětský lid rok přát 9. válečný plán dobrý velký 10. potravina průmysl občanský člověk Frekvenční analýza slov (lemmat) pořadí Gottwald (1952) frekvence relativní frekvence (%) Zápotocký (1954) frekvence relativní frekvence (%) 1. rok 40 2,18 rok 25 1,36 2. americký 18 0,98 výroba 19 1,04 3. nový 18 0,98 hospodářství 15 0,82 4. průmysl 12 0,65 práce 15 0,82 5. výroba 12 0,65 zemědělský 15 0,82 6. průmyslový 11 0,60 nutný 11 0,60 7. hodně 10 0,55 národní 11 0,60 8. sovětský 8 0,44 lid 10 0,55 9. válečný 8 0,44 plán 10 0,55 10 potravina 7 0,33 průmysl 10 0,55 Frekvenční analýza slov (lemmat) pořadí Gottwald (1952) frekvence relativní frekvence (%) Zápotocký (1954) frekvence relativní frekvence (%) 1. rok 40 2,18 rok 25 1,36 2. americký 18 0,98 výroba 19 1,04 3. nový 18 0,98 hospodářství 15 0,82 4. průmysl 12 0,65 práce 15 0,82 5. výroba 12 0,65 zemědělský 15 0,82 6. průmyslový 11 0,60 nutný 11 0,60 7. hodně 10 0,55 národní 11 0,60 8. sovětský 8 0,44 lid 10 0,55 9. válečný 8 0,44 plán 10 0,55 10. potravina 7 0,33 průmysl 10 0,55 • Gottwald = 1,9 % • Zápotocký = 4,6 % Analýza klíčových slov (lemmat) • klíčové slovo • slovo, které se ve daném textu objeví významně častěji než v referenčním korpusu Analýza klíčových slov (lemmat) • klíčové slovo • slovo, které se ve daném textu objeví významně častěji než v referenčním korpusu • vyhodnocení → skóre, statistické testy • např. log-likelihood (LL) 𝐿𝐿 = 2 𝑓𝑠𝑙𝑜𝑣𝑜_𝑡𝑒𝑥𝑡 ∙ 𝑙𝑜𝑔 𝑓𝑠𝑙𝑜𝑣𝑜 𝑡𝑒𝑥𝑡 𝑓 𝑜 𝑠𝑙𝑜𝑣𝑜 𝑡𝑒𝑥𝑡 + 𝑓𝑠𝑙𝑜𝑣𝑜_𝑘𝑜𝑟𝑝𝑢𝑠 ∙ 𝑙𝑜𝑔 𝑓𝑠𝑙𝑜𝑣𝑜_𝑘𝑜𝑟𝑝𝑢𝑠 𝑓(𝑜) 𝑠𝑙𝑜𝑣𝑜_𝑘𝑜𝑟𝑝𝑢𝑠 Analýza klíčových slov (lemmat) nejfrekventovanější slova klíčová slova Klaus (2006) f Klaus (2006) f fSYN2010 log likelihood život 8 volba 7 23 529 36,41 rok 7 politika 6 18 866 31,99 volba 7 spoluobčan 3 717 31,29 politika 6 občan 5 14 679 27,33 země 6 přát 5 16 608 26,13 evropský 5 vážený 3 2 373 24,15 občan 5 život 8 92 237 23,00 přát 5 evropský 5 34 290 19,17 velký 5 volit 3 5 757 18,89 člověk 5 odpovědnost 3 6 066 18,59 min. frekvence slova v textu = 3 Analýza klíčových slov (lemmat) nejfrekventovanější slova klíčová slova Klaus (2006) f Klaus (2006) f fSYN2010 log likelihood život 8 volba 7 23 529 36,41 rok 7 politika 6 18 866 31,99 volba 7 spoluobčan 3 717 31,29 politika 6 občan 5 14 679 27,33 země 6 přát 5 16 608 26,13 evropský 5 vážený 3 2 373 24,15 občan 5 život 8 92 237 23,00 přát 5 evropský 5 34 290 19,17 velký 5 volit 3 5 757 18,89 člověk 5 odpovědnost 3 6 066 18,59 min. frekvence slova v textu = 3 Analýza klíčových slov (lemmat) nejfrekventovanější slova klíčová slova Klaus (2006) f Klaus (2006) f fSYN2010 log likelihood život 8 volba 7 23 529 36,41 rok 7 politika 6 18 866 31,99 volba 7 spoluobčan 3 717 31,29 politika 6 občan 5 14 679 27,33 země 6 přát 5 16 608 26,13 evropský 5 vážený 3 2 373 24,15 občan 5 život 8 92 237 23,00 přát 5 evropský 5 34 290 19,17 velký 5 volit 3 5 757 18,89 člověk 5 odpovědnost 3 6 066 18,59 min. frekvence slova v textu = 3 Analýza klíčových slov (lemmat) nejfrekventovanější slova klíčová slova Klaus (2006) f Klaus (2006) f fSYN2010 log likelihood život 8 volba 7 23 529 36,41 rok 7 politika 6 18 866 31,99 volba 7 spoluobčan 3 717 31,29 politika 6 občan 5 14 679 27,33 země 6 přát 5 16 608 26,13 evropský 5 vážený 3 2 373 24,15 občan 5 život 8 92 237 23,00 přát 5 evropský 5 34 290 19,17 velký 5 volit 3 5 757 18,89 člověk 5 odpovědnost 3 6 066 18,59 min. frekvence slova v textu = 3 Analýza klíčových slov (lemmat) • KWords • https://kwords.korpus.cz/ Analýza (na první pohled) „skrytých“ vlastností Tematická koncentrace textu Předpoklady měření tematické koncentrace (TK) • v různých textech se autor na dané téma či témata může zaměřovat s různou intenzitou Předpoklady měření tematické koncentrace (TK) • v různých textech se autor na dané téma či témata může zaměřovat s různou intenzitou • lze identifikovat jazykové jednotky, které je možné chápat jako nositele určitého tématu či témat Předpoklady měření tematické koncentrace (TK) • v různých textech se autor na dané téma či témata může zaměřovat s různou intenzitou • lze identifikovat jazykové jednotky, které je možné chápat jako nositele určitého tématu či témat • míru zaměření se na dané téma či témata lze detekovat analýzou frekvenčních charakteristik textu Předpoklady měření tematické koncentrace (TK) • v různých textech se autor na dané téma či témata může zaměřovat s různou intenzitou • lze identifikovat jazykové jednotky, které je možné chápat jako nositele určitého tématu či témat • míru zaměření se na dané téma či témata lze detekovat analýzou frekvenčních charakteristik textu • míra zaměření se na dané téma či témata není náhodná, tj. přepokládá se její systematické chování vzhledem jak k jiným vlastnostem textu, tak k faktorům pragmatickým Frekvenční struktura textu • uspořádání slov podle frekvence Tematická koncentrace textu • frekvenční struktura textu Tematická koncentrace textu • J. Skácel: Odvaha k tomu Frekvenční struktura textu Frekvenční struktura textu • J. Škvorecký: Neurčité kontury pořadí slovo frekvence 1 a 388 2 jsem 310 3 se 198 4 na 179 5 v 126 6 to 101 7 s 75 8 do 66 9 už 62 10 mi 61 Frekvenční struktura textu • J. Skácel: Odvaha k tomu Frekvenční struktura textu • J. Skácel: Smuténka Smuténka To až se v září stmívá, už bez sametu, drsně naholo, po poli chodí smuténka a zpívá, smuténka chodí kolem hrud šedých jak skřivani a zpívá, (je příběh starší nežli já, než moje smrt, než smutek ze mne, odpusť) zpívá si na poli smuténka a chodí po konopných cestách podzimu. Frekvenční struktura textu • J. Skácel: Smuténka Smuténka To až se v září stmívá, už bez sametu, drsně naholo, po poli chodí smuténka a zpívá, smuténka chodí kolem hrud šedých jak skřivani a zpívá, (je příběh starší nežli já, než moje smrt, než smutek ze mne, odpusť) zpívá si na poli smuténka a chodí po konopných cestách podzimu. Frekvenční struktura textu • ČTK: V Beskydech blesk zapálil chatu, vítr lámal stromy Frekvenční struktura textu Tematická koncentrace textu • tematická váha slova Tematická koncentrace textu • tematická váha slova • tematická koncentrace textu Tematická koncentrace textu • „We hypothesize (a) that the levels of thematic concentration in the texts of totalitarian presidents will be (significantly) higher than the levels of the democratic presidents due to the influence of totalitarian ideology“ Čech, R. (2014). Language and ideology: Quantitative thematic analysis of New Year speeches given by Czechoslovak and Czech presidents (1949-2011). Quality & Quantity, 48(2), 899-910. Tematická koncentrace textu 2. Novoroční a vánoční projevy československých a českých prezidentů • aneb klady a zápory jednoho specifického žánru… Novoroční a vánoční projevy československých a českých prezidentů • 1935–dosud Novoroční a vánoční projevy československých a českých prezidentů • specifický žánr • slavností charakter • shrnutí událostí předchozího roku • výhled do budoucna • homogenní žánr • význam pro kvantitativní analýzy • srov. vztah délky slova a žánru Novoroční a vánoční projevy československých a českých prezidentů • autorství • mnohdy nejasné • tajemníci, úpravy • Havel, Klaus • nepřímé potvrzení vlastního autorství • Husák • Slovák, ale projevy česky • Svoboda • 1974 – mozkové příhody • autorství jako projev politické odpovědnosti Novoroční a vánoční projevy československých a českých prezidentů • autorství • mnohdy nejasné • tajemníci, úpravy • Havel, Klaus • nepřímé potvrzení vlastního autorství • Husák • Slovák, ale projevy česky • Svoboda • 1974 – mozkové příhody • autorství jako projev politické odpovědnosti Novoroční a vánoční projevy československých a českých prezidentů • http://interaktivni.rozhlas.cz.s3-website.eu-central- 1.amazonaws.com/prezidentske-projevy-2017/www/#1935-masaryk Novoroční a vánoční projevy československých a českých prezidentů 3. kvantitativní charakteristiky prezidentských projevů • aneb co a proč počítat a jak to interpretovat… Kvantitativní analýzy novoroční projevů • tematická slova • slovní bohatství • průměrná délka slova (tokenu) • aktivita textu • vzdálenost mezi slovesy • proporce nejfrekventovanějších slov • Kubát, M., Mačutek, J., Čech, R. (2021). Communists spoke differently. An analysis of Czechoslovak and Czech annual presidential speeches. Digital Scholarship in the Humanities, 36, 138-152. • Kubát, M., Mačutek, J., Čech, R. (2021). Communists spoke differently. An analysis of Czechoslovak and Czech annual presidential speeches. Digital Scholarship in the Humanities, 36, 138-152. Tematická slova Tematická slova • tematická váha slova Tematická slova Tematická slova Tematická slova Slovní bohatství / diverzifikovanosti slovníku T1 „Byl jsem doma a doma jsem jen ležel a ležel“ T2 „Byl jsem doma a tam jsem jen ležel nebo spal“ Slovní bohatství / diverzifikovanosti slovníku T1 „Byl jsem doma a doma jsem jen ležel a ležel“ T2 „Byl jsem doma a tam jsem jen ležel nebo spal“ Slovní bohatství / diverzifikovanosti slovníku T1 „Byl jsem doma a doma jsem jen ležel a ležel“ • N = 10 tokenů • V = 5 typů {byl, jsem, doma, a, jen} T2 „Byl jsem doma a tam jsem jen ležel nebo spal“ • N = 10 tokenů • V = 9 typů {byl, jsem, doma, a, tam, jen, ležel, nebo, spal} Slovní bohatství / diverzifikovanosti slovníku TTR = V / N TTR1 = 5 / 10 = 0,5 TTR2 = 9 / 10 = 0,9 Poměr typů a tokenů Poměr typů a tokenů • nevhodný pro texty různé délky • upravené způsob měření • standardizovaný TTR -> STTR • TTR na blocích textu • např. o velikosti 100, 1000,… n slov • klouzavý průměr TTR -> MATTR Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. • tokeny = 5 • typy = 3 • TTR = 3/5 = 0.6 Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. • tokeny = 5 • typy = 3 • TTR = 3/5 = 0.6 Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. • tokeny = 5 • typy = 4 • TTR = 4/5 = 0.8 Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. • tokeny = 5 • typy = 5 • TTR = 5/5 = 1 Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. • tokeny = 5 • typy = 5 • TTR = 4/5 = 0.8 Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. • tokeny = 5 • typy = 5 • TTR = 5/5 = 1 Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. 𝑀𝐴𝑇𝑇𝑅 = 0.6 + 0.6 + 0.8 + 1 + 0.8 + 1 6 = 4.8 6 = 0.8 Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. 𝑀𝐴𝑇𝑇𝑅 = σ𝑖=1 𝑁−𝐿 𝑉𝑖 𝐿(𝑁 − 𝐿 + 1) L… velikost okna Vi… počet typů v daném okně N… délka textu Klouzavý průměr TTR – MATTR Marie miluje Petra. Petra miluje taky Jana. Petr miluje Emu. 𝑀𝐴𝑇𝑇𝑅 = σ𝑖=1 𝑁−𝐿 𝑉𝑖 𝐿(𝑁 − 𝐿 + 1) = 3 + 3 + 4 + 5 + 4 + 5 5(10 − 5 + 1) = 24 30 = 0.8 L… velikost okna Vi… počet typů v daném okně N… délka textu Klouzavý průměr TTR – MATTR Klouzavý průměr TTR – MATTR • velikost okna obvykle • L = 100 • L = 500 • nástroje • QuitaUp • https://korpus.cz/quitaup/ Slovní bohatství / diverzifikovanosti slovníku Slovní bohatství / diverzifikovanosti slovníku Průměrná délka slova • délka slova koreluje s frekvencí • čím je slov frekventovanější, tím je kratší • tendence Průměrná délka slova Průměrná délka slova Průměrná délka slova http://interaktivni.rozhlas.cz.s3-website.eu-central-1.amazonaws.com/prezidentske-projevy-2017/www/#1969- svoboda Průměrná délka slova Aktivita / deskriptivita textu T1 „Běžel domů, a když uviděl tu spoušť, vůbec neváhal, zahnal hladové psy a začal konat.“ T2 „Viděl dlouhé zelené stráně plné krásné zvěře, která se téměř nehýbala.“ Aktivita / deskriptivita textu T1 „Běžel domů, a když uviděl tu spoušť, vůbec neváhal, zahnal hladové psy a začal konat.“ T2 „Viděl dlouhé zelené stráně plné krásné zvěře, která se téměř nehýbala.“ Aktivita / deskriptivita textu T1: V = 6, A = 1 Q1 = 6 / 7 = 0,86 T2: V = 2, A = 4 Q2 = 2 / 6 = 0,33 Aktivita / deskriptivita textu Analýza novoroční projevů – vzdálenost mezi slovesy T1 „Běžel domů, a když uviděl tu spoušť, vůbec neváhal, zahnal hladové psy a začal konat.“ T2 „Viděl dlouhé zelené stráně plné krásné zvěře, která se téměř nehýbala.“ Analýza novoroční projevů – vzdálenost mezi slovesy T1 „Běžel domů, a když uviděl tu spoušť, vůbec neváhal, zahnal hladové psy a začal konat.“ VD1 = (3 + 3 + 3) / 3 = 9 / 3 = 3 T2 „Viděl dlouhé zelené stráně plné krásné zvěře, která se téměř nehýbala.“ VD2 = 9 Analýza novoroční projevů – vzdálenost mezi slovesy Analýza novoroční projevů – vzdálenost mezi slovesy Analýza novoroční projevů – proporce nejfrekventovanějších slov • nejfrekventovanější slova → zpravidla synsémantika • relativní frekvence • nezávislost na tématu • více Eder (2017) Analýza novoroční projevů – proporce nejfrekventovanějších slov • nejfrekventovanější slova → zpravidla synsémantika • relativní frekvence • nezávislost na tématu • více Eder (2017) Analýza novoroční projevů – proporce nejfrekventovanějších slov ∆(𝐴𝐵)= 1 𝑛 ෍ 𝑖=1 𝑛 𝐴𝑖 − 𝜇𝑖 𝜎𝑖 − 𝐵𝑖 − 𝜇𝑖 𝜎𝑖 n … vybraný počet nejfrekventovanějších slov A, B … texty Ai … frekvence daného slova v textu A Bi … frekvence daného slova v textu B 𝜇i … průměrná frekvence daného slova ve všech textech (v korpusu) 𝜎i … směrodatná odchylka frekvence daného slova ze všech textů 4. QuitaUp • aneb jak jednoduše měřit vybrané charakteristiky textů… 4. QuitaUp 4. QuitaUp • https://www.korpus.cz/ 4. QuitaUp • https://korpus.cz/quitaup/ Děkuji za pozornost! https://cechradek.cz/