Stylistika VII ZS 2024 Obsah • protokoly Zadání • vytvořte dva vzorky textů, každý o 7000 -10000 slovech • např. dva politici, dva básníci, dva prozaici, "seriozní" noviny vs. bulvár, • pořádně popište, o jaké texty jde, odkud jste je získali atp. • web politiků, městská knihovna v Praze • porovnejte tyto vzorky • slovnítvary vs. lemmata • klíčová slova • kolokace klíčových slov, tematických slov, slov z trigramů... vyberte sami kriterium • stylometrické indexy, které jsme probrali na přednáškách a v seminářích • vytvořte dokument, který má následující strukturu • cíl analýzy, pokud máte nějaké předpoklady, hypotézy atp., formulujte je • popis jazykového materiálu - o co jde, zdroje atd. • stručný popis metod (použijte odkazy na literaturu, jako v odborném textu) • výsledky • tabulkově, graficky • závěry • přiložit texty • !! zpracujte úkol tak, aby byl replikovatelný Vymezení problému • Cílem analýzy bylo porovnat Babičku od Boženy Němcové a Kříž u potoka od Karoliny Světlé. Při jejich četbě jsem si všimla jistých podobností ve stylu psaní a chtěla jsem si ověřit, jestli je to jen můj dojem, nebo jestli to lze podložit daty. Obě autorky mají širokou slovní zásobu, proto předpokládám, že se tato skutečnost projeví na slovním bohatství jejich textů. Očekávám, že průměrná délka věty bude hodnotově podobná. Jelikož obě autorky tvořily ve stejné době, a obě jejich díla se odehrávají na venkově, nepředpokládám velké rozdíly ve výsledných hodnotách. Předpokládám, že texty budou spíše aktivní než deskriptívni. Vymezení problému „Pro stylometrickou analýzu byly vybrány dvě prózy Vladislava Vančury, které reprezentují odlišné žánry autorovy tvorby. Cílem bude porovnat stylometrické vlastnosti těchto textů (např. délka vět, aktivita/deskriptivita, lexikální rozmanitost-dopsat) a ověřit, zda charakteristiky odpovídají rozdílu mezi vybranými žánry. Prvním vybraným textem je pohádková kniha pro děti Kubula a Kuba Kubikula (1931). Vzhledem k rozsahu textu nebylo pracováno s celou knihou, nýbrž jen s její částí. Druhým textem je historická novela Markéta Lazarová (1931), která je charakteristická svým specifickým jazykem. L Vymezení problému „Analýza se pokusí vyvrátit hypotézu, kterou ve svém textu Pavouci ženy a ubohá tlustá moucha definoval Jiří Peňás, jenž psaní rozlišuje na mužské a ženské. Právě ženské psaní je podle této hypotézy řízeno citově a emocionálně, nedosahuje proto takových kvalit jako řemeslné mužské psaní realizováno za účelem předánívyšší myšlenky. Cílem analýzy je stylometricky porovnat podobnost dvou textů, psaných ve stejném žánru na velmi podobné téma a z téže doby. Rozdílem je pohlaví autora. Na základě této hypotézy bychom čekali u ženou psaného textu vyšší míru expresivních slov, což by se mělo projevit zejména v klíčových slovech. Vzájemné porovnání klíčových slov, ale i dalších indexů určujících slovní bohatství či tematickou koncentraci textu by pak mělo ukázat, zda jsou oba texty opravdu natolik odlišné, jako by dle Peňásovy teorie měly být." Vymezení problému - vhodné „Cílem analýzy je porovnat stylometrické rozdíly mezi projevy Petra Fialy a Andreje Babiše v kontextu jejich vystoupení o vyslovení nedůvěře vládě. V rámci analýzy se zaměřím na strukturu vět, klíčová slova a jejich frekvenci, tematickou koncentraci, argumentační strategii a slovní zásobu. Hypotéza vychází z předpokladu, že projevy Petra Fialy a Andreje Babiše se budou stylisticky lišit, přičemž každý z politiků využije odlišné jazykové prostředky a argumentační strategie v závislosti na svých politických cílech a zaměření na publikum. Z hlediska stylometrie lze očekávat, že Petr Fiala bude preferovat složitější a formálnějšíjazyk s vyšší mírou deskriptivity. Naopak projev Andreje Babiše bude pravděpodobně vykazovat vyšší míru aktivity. Jeho projev bude více úderný a bude užívat citově zabarvená slova a apely. Dále přepokládám, že rozdíl v jejich projevech se bude projevovat i v míře, do jaké se každýjDolitik drží hlavního tématu. Očekávám, že Petr Fiala se bude více soustředit na konkrétní téma, zatímco Andrej Babiš bude mít tendenci češtěji odbíhat od hlavní problematiky." Vymezení problému - na co si dát pozor Prvotním hybateLem tohoto semestrálního úkolu bylo jedno konkrétní heslo ve Slovníku české literatury po roce 1945. Heslo se týkalo Martina Friše, vceLku zapomenutého autora jediné knihy Svědectví o deštivém odpoledni ztráveném v čekání. Jelikož autorovo dílo obsahuje pouze jedinou experimentální prózu, zapomenutou stejně jako autor, lze nalézt jen málo textů, které by se k autorově osobnosti či jeho textu vyjadřovaLy, V tomto maLém zlomku lze ale nalézt článek Veroniky Košnárové zabývající se opomenutými prozaickými debuty 60. let. Z tohoto článku vychází i jíž zmíněné slovníkové heslo o autorovi1. A jedno konkrétní tvrzení z této studie nám poslouží i jako hypotéza pro tuto práci: Jediná kniha Martina Friše Svědectví o deštivém odpoledni ztráveném v čekání bývá přiřazována k linii experimentálních próz v české literatuře šedesátých let: nejhlíře má k textům Věry t inhartové (zvláště k snubnru Dum daleko)". • je třeba více referenčních textů, pro možnosti srovnání Absence popisu metodologie • nestačí jen odkaz na software 3. Popis metod Pro výpočty a grafy jazykových a stylistických vlastností textu v této práci byly použity tyto programy: Kwords, Quitaup. La nes Box. KWords je webová aplikace vyvinutá Českým národním korpusem pro analýzu textů. Diky této aplikaci můžeme identifikovat klíčová sLova tím, že aplikace porovnává frekvenci slov v analyzovaném textu s referenčním korpusem1, QuitaUp je též webová apLikace vyvinutá Českým národním korpusem ve spolupráci s Ostravskou univerzitou, která slouží ke kvantitativní stylometrické analýze textů. Umožňuje vypočítat různé stylometrické indexy jako napríklad tematickou koncentraci či aktivitu textu2. LancsBox je softwar vyvinutý na Lancaster University pro anaLýzu jazykových dat a korpusů. Umožňuje pracovat s vLastními daty nebo existujícími korpusy, vizualizovat jazyková data a automaticky a notovat texty pro slovní druhy3. Absence popisu metodologie Klíčová slova Při analýze klíčových slov jsem použila aplikaci v jazykovém korpusu KWords. Program vypočítává kLíčová prostřednictvím statistického testu, tedy srovnává relativní frekvenci každého slova v textu (úryvku) s reLativní frekvenci stejného sLova v celém referenčním korpusu. 25 klíčových stov-Zbabělci lemma -základní tvar slova textRelFq-relatívní frekvence y textu refRelFq -relativní frekvence v korpusu statValue -statistická hodnota eff ectSize -síla efektu Harýk 3132,341 0 518,669 100 Catse 559,347 0 82,432 100 wirtemberský 894,955 0 139,066 100 kuci 559,347 0,008 78,935 100 nota k 447,477 0,008 60,533 100 • nikde v textu není vysvětleno, co znamená statistická hodnota a co je síla efektu Metodologie • ideálně popsat každý způsob měření • odkazy na literatur • vzorce ad ver bia a nominalizovaná adjektiva. Tato slova slouží k vyjádření vlastností, kvality nebo stavu, čímž text získává větší míru popisnosti a statičnosti. (Čech, 2014, s. 52) Aplikace Českého národního korpusu QuitaUp. kterou ve své analýze využívám, pracuje pouze s verby (V) a adjektivy (A). To znamená, že se míra dějovosti hodnotí na základě výskytu verb a míra popisnosti na základě adjektiv. Celková aktivita textu DI J11 b t* 2 L 4DDD4D Q.000404 H m IMOOPH C.I1D04O4 i,. , 1íů0moo •JWMtt j :, ■ ift4nno4fl 11 n0O4O4 i. - ■i nim: :n iin^ioi: .-. ■ 11 4úúm4 i J.04DHK] C.UD3GOG > ftí fuHODH O.OKMOJ |ikt b*i J.04DHK] G.DD0404 i.Mnaoa MOMM ..... ,.-.m-. UMCH* 11».-, 1p Mapou i.nntnw ■.r Im i.WOlKO ...... -v i. wuu> : uuiutu j hjh.ř.j 1 cenou H1KP Udílen i>j> : ■■■ ■. ■ j 1 itUM-J ™ -Í-.JL.-. 1 ".HiiV i jaw ii k. Vhll í.mnriM UMMI m hr J.MúuM i].ÚKi](i] i..- ,1 ? • ■ m. ■ tDPHt* h dU 2.04DDH] C.DD04OG p.(■]!]«■} nkhj „b . J.MOMO Mmtn ld1 7.04DD34 4.DD0404 linLiti.Hi ■■ ■ PJHODH s.MDMfJ MHM OĎtfoi hlhľtl . .-. fíľlŕV K pan* J ■, &.84ÚMfJ uu:-;o: ■■■ "j s.modk a.DKHM iymt-- *.r r. nnow jľiiv I:- rik UHM r ■ --r ■'■ i"'.ňň:*; r no:-.- Formální úpravy • nespoléhat na nevhodné standradní nastavení Excelu Hapaxy v textech 2500 2000 1500 1000 5Q0 Hapaxy ■ Zbabelci BPabitele Formální úpravy • seznam literatury • formát uspořádání • abecedně, číslované... • jednotně! • Ústav Českého národního korpusu. KWords. Příručka ČNK. [online], [cit. 2024-11-21] Dostupné z: https://wiki.korpus.ez/doku.php/manualy:kwords. • CVRČEK, Václav, ČECH, Radek a KUBÁT, Miroslav. QuitaUp-nástroj pro kvantitativní stylometrickou analýzu. Praha: Český národní korpus a Ostravská univerzita, 2020. Dostupné z: https://korpus.cz/quitaup/. • BREZINA, Václava PLATT, William. #LancsBoxX[software]. Lancsrster; La^caster University, 2024. Dostupné z: http://lancsbox.lancs.ac.uk. Formální úpravy • seznam literatury 11. Seznam literatury 1) Křen, M. Kolokační rníry a čeština: srovnání na datech Českého národního korpusu. In Čermák, F. & M. Sulc (eds.l. Kolokace, 2006,223-24S. 2) Klíčové slovo: Jan Stráfelda. 2020, Dostupné z: https://www.strafelda.cz/klicove-slovo 3) Radek Čech. Miroslav Kubát (2017): TEMATICKÁ KONCENTRACE TEXTU. In: Petr Karlík, Marek Nekula, Jana Pleskalova f eds.l, CzeckEncv - Novy encyklopedický slovník češtiny. URL: hrtps://www.cze<^ency.or^/slo\Tiik/TEMATICKÁ KONCENTRACE TEXTUtpo slední přístup: 21. 11.2024) 4) MCINTYRE. Dan a Brian WALKER. CORPUS STYHSTICS THEORYAND PRACTICE. Edinburgh University Press, 2019. ISBN 978 1 4744 1322 0. Formální úpravy • seznam literatury Použitá Literatura ČECH. Radek. Tematická koncentrace textu v češtině. Praha: Institute gf Formal and AgDljed LJnguigics, 2016. ISBN 978-80-88132-00-4. ČECH, Radek, Ioan-Iovitz POPESCU a Gabriel ALTMANN. Metody kvantitativní analýzy (nejen) básnických textů,. Olomouc: Univerzita Palackého, 2014. ISBN 978-80-244-4044-6. František Čermák (1,2), Václav Cvrček (3) (2017): Kolokace. In: Petr Karlík, Marek Nekula, Jana Pleskalova (eds.), CzechEncv - Novy encyklopedický slovník češtiny. URL: htt ps: //www, czechenc v. or^/ slo vnik/KOLOKACE (po slední přístup: 18. 11. 2024) Asociační (kolokační) míry. Český národní korpus [online], [cit. 2024-11-18], Dostupné z: http s ://wiki .korpu s. cz/d oku. plip/p o i my: as oc iacni mirv. KWords. Český národní korpus [online], [cit. 2024-11-18]. Dostupné z: http s ://wiki .korpu s. cz/d oku. php/manu aly: kwords?s%5b%5d=din. Michal Křen (2017): Asociační míra. In: Petr Karlík, Marek Nekula. Jana PJe^kadová (eds.), CzecliEncy - Nový encyklopedický slovník češtiny, URL: htt ps://www, czechenc y. orp/slovnik/ ASOCIAČNÍ MÍRA (poslední přistup: 18. 11. 2024) KUBÁT, Miroslav. Kvantitatívni analýza žánrů. 2016. MCINTYRE. Dan a Brian WALKER. Corpus S&rtistics,. Edinburgh University Press, 2019. ISBN 978 1 4744 1323 7. Formální úpravy • seznam literatury • zkuste ChatGPT:-) Způsoby vyjadrení- na co si dát pozor • Máj je signifikantně kratší, což je třeba brát v potaz při zhodnocování výsledků, ale přesto jsem ho chtěla dát do porovnání dvou vrcholných děl. Způsoby vyjádření- na co si dát pozor • Máj je signifikantně kratší, což je třeba brát v potaz při zhodnocování výsledků, ale přesto jsem ho chtěla dát do porovnání dvou vrcholných děl. Závery je třeba si být vědom/vědoma limit kvantitativních analýz s ohledem na tyto limity pak přistupovat i k závěrům • „Práce dokázala úspěšně vyvrátit argumentačně překonané tvrzení i z hlediska kvantitativní analýzy. A přinesla tak další důkaz o nepravdivosti a neúčinnosti dělení literatury na mužskou a ženskou." • je to ale jen na 2 textech... Závery 99 Mé hypotézy jsem tedy potvrdila." ve statistice se nikdy hypotézy nepotvrzují Závery „Na základě provedené analýzu mohu konstatovat, že se potvrdila část mé hypotézy. Petr Fiala skutečně používá složitější a formálnější jazyk s vyšší mírou deskriptivity, zatímco Andrej Babiš se vyjadřuje jednodušším jazykem a častěji využívá citově zabarvená slova. Hypotéza se však nepotvrdila v části, která předpokládala, že se Andrej Babiš bude méně držet tématu než Petr Fiala. Hodnoty tematické koncentrace u obou projevů vyšly velmi podobné, což svědčí o tom, že se oba politici při svých projevech věnovali hlavním tématům srovnatelně." Struktura textu a jeho srozumitelnost • „První nástroj najdeme na internetových stránkách Národního digitálního korpus (NDK), jedná se o aplikaci QuitaUp (QU). První měření ukázala, jak jsou si texty až překvapivě podobné. Oba jsou přibližně stejně dlouhé, výbor z Povídek malostranských (dále jen povídky) shromažďuje 10 109 tokenů. Token je grafické slovo, přesněji jeho realizace, která je oddělená mezerami v textu, většinou značena N. Výbor z dopisů (dále jen dopisy) má 9475 tokenů. Velmi blízký je také počet typů (type-typizovaný, abstraktní token; token vyjádřený jediným tvarem). Pro povídky je to 3766, pro dopisy 3693. Počet typů označuje množství různých jednotek v textu; type je značen V = vocabulary. Kdybychom zohlednili také pozdravy a loučení v dopisech, toto číslo by ještě narostlo. Našim cílem však bylo porovnat texty samy o sobě, bez formálních vycpávek. Ktomu mimo jiné posloužilo srovnání průměrné délky vět. Ktéto proměnné dospějeme jednoduše proveditelnou rovnicí: počet slov vydělíme počtem vět. U dopisuje průměrná délka 13,17 slov (719 vět), u povídek 13,96 (počet vět 724). Čísla jsou si opět blízká, ale z výše uvedených dat šlo těsný výsledek předpokládat. „ Struktura textu a jeho srozumitelnost • „Aplikace QuitaUp spočítala, že jde o poměrně stejně dlouhé texty, ale ještě těsnější se ukázaly být průměrné délky vět. „ Obrázky, tabulky • vždy popisky • vždy na ně odkazovat v textu Obrázky-kopie • pokud si „vypůjčíte" graf, obrázek, vždy citujte odkud Pro hledáni tematických slov je tak nutné využít h-bod, „pro nějž platí, že rank = frekvence (napr. 32, nej frekventovanější slovo má frekvenci 32 výskytů). Všechna plnovýznamová slova nad tímto bodem (tj. v našem případě s frekvencí vyšší než 32)"9 mají tematickou váhu závislou na vzdálenosti od h-bodu. Tematická koncentrace odpovídá pak součtu tematických vah jednotlivých slov. Sekundární tematickou koncentraci textu získáme, pokud h-bod vynásobíme í- „Podstatný rozdíl je např. mezi MI-score a T-score: zatímco MI-score nachází silné kolokace s velkou relativní frekvencí, a tedy spíše výjimečné až náhodné, T-score naopak kolokace nenáhodné, pravidelné a ustálené, ale nepříliš výrazné."13 Exclusive (e.g. okey dckey) t MU Dies Ml Log Dice MB Infrequent (s cj. jjrwĚK-leůctieťj Frequent (corrected) (e.g. Ol the) Ncn-exclustve (e.g. new idea] T-score (uncorrected) Frequency ICO Doŕaai Ukázky prací Stylo - postup • R • h tt p s: //www, r- p r o j e c t. o r g/ • RStudio • https://posit.co/download/rstudio-desktop/ • package stylo • Tools -> Install packages -> stylo • library(stylo) • stylo () Stylo Eder, M., Rybicki, J., & Kestemont, M. (2016). Stylometry with R: package for computational text analysis. The R Journal, 8(1). 0 Stylometry with R | stylo | set parameters INPUT a LANGUAGE 1 FEATURES 1 STATISTICS SAMPLING 1 □ X OUTPUT INPUT: plain text xml (* r xrnl [plays) xrnl [no titles) html LANGUAGE: English c Polish c Dutch r English [contr.) English (ALL) C C Hungarian c German c French c CJK c Latin r Italian c Other (* Latin [u/v > u) r Spanish c Native encoding F OK Stylo Stylornetry with R | stylo | set parameters □ X INPUT a LANGUAGE FEATURES 1 STATISTICS 1 SAMPLING | OUTPUT FEATURES: ■.■.ord; chars c ngrarn size 1 preserve case r MFW SETTINGS: Minimum Maximum Increment Start at freq, rank 10G 100 \wa |l CULLING: Minimum Maximum Increment List Cutoff Delete pronouns 0 0 |20 5000 r VARIOUS: Existing frequencies Existing wordlist Select flies manually r r r List of files r OK 1 / Stylo metry with R | stylo | set parameters □ X INPUT a LANGUAGE | FEATURES STATISTICS 1 SAMPLING OUTPUT 1 STATISTICS: Cluster Analysis MDS PC A (cow.) PCA(corr.) tSNE c r r r Consensus Tree Consensus strength c 0.5 DELTA DISTANCE: Classic Delta Cosine Delta Eder's Delta Eder's Simple Entropy G c c c c Manhattan Canberra Euclidean Cosine Min-Max c c r r r OK