Úvod do kvantitativní lingvistiky ZS 2022 Tematická koncentrace textu (TC) • vyjadřuje míru zaměřenosti textu na centrální téma/témata • předpoklady • v různých textech se autor na dané téma či témata může zaměřovat s různou intenzitou; • lze identifikovat jazykové jednotky, které lze chápat jako nositele určitého tématu či témat; • míru zaměření se na dané téma či témata je možné detekovat analýzou frekvenčních charakteristik textu; • míra zaměření se na dané téma či témata není náhodná, tj. přepokládá se její systematické chování vzhledem jak k jiným vlastnostem textu, tak k faktorům pragmatickým. Opakování 1 • z dat v souboru 221102_seminar_TC_pro vypocet.xlsx vypočítejte • h-bod • tematické váhy autosémantických slov • tematickou koncentraci daného textu TK TK bez lemmatu rok Jiné způsoby měření TK • s. 28nn Sekundární TK 𝑆𝑇𝐾 = ෍ 𝑟′=1 2ℎ (2ℎ − 𝑟′)𝑓(𝑟′) ℎ 2ℎ − 1 𝑓(1) Proporcionální TK TK, STK, PTK, SPTK • měří to samé? • jak to zjistit? • Čech, R., Garabík, R., Altmann, G. (2015). Testing the thematic concentration of text. Journal of Quantitative Linguistics, 22, 215-232. • dále viz https://www.cechradek.cz/publ/2015_Cech_Garabik_Altmann_Testing_TC. pdf 1168 textů • více s. 33nn Vztahy mezi TK, STK a PTK • interpretujte Vztahy mezi TK, STK a PTK • …a specific tendency for the relationship between the TC and STC. Particularly, for texts with the highest TC, STC < TC, while for texts with the lower TC, STC > TC Vztahy mezi TK, STK a PTK Jazykové jednotky pro měření TK • ??? Jazykové jednotky pro měření TK • jak by se měla volba mezi slovním tvarem a lemmatem projevit na hodnotách TK, STK, PTK? Jazykové jednotky pro měření TK • jak by se měla volba mezi slovním tvarem a lemmatem projevit na hodnotách TK, STK, PTK? Jazykové jednotky pro měření TK • menší počtu textů s nulovou hodnotou tematické koncentrace, • vyšší hodnota TK, STK a PTK lemmatizovaných textů. Jazykové jednotky pro měření TK • interpretujte Jazykové jednotky pro měření TK • interpretujte • aplikujte vhodný statistický test Jazykové jednotky pro měření TK • statisticky významné rozdíly Jazykové jednotky pro měření TK • když jsou mezi nelemmatizovanými a lemmatizovanými texty statisticky významné rozdíly, může mezi nimi být vztah? • jak to ověřit? Jazykové jednotky pro měření TK • když jsou mezi nelemmatizovanými a lemmatizovanými texty statisticky významné rozdíly, může mezi nimi být vztah? • jak to ověřit? Jazykové jednotky pro měření TK • když jsou mezi nelemmatizovanými a lemmatizovanými texty statisticky významné rozdíly, může mezi nimi být vztah? • jak to ověřit? • více viz s. 41nn Koreferenční jednotka • určete koreferenční jednotku označující Mariii z daného textu: • Marie byla doma. Po hodině se učesala. Moc se jí to ale nelíbilo. Neměla ale čas, tak vyrazila. Na ulici na ni čekali studenti. „To jsme rádi, že už jste tady, paní učitelko.“ Všichni pak vyrazili cestou dolů. „Vy se máte,“ zaznělo po chvíli. Koreferenční jednotka • koreferenční jednotka a TK • očekávání • více viz 43nn Koreferenční jednotka