Úvod do kvantitativní lingvistiky ZS 2022 Hypotéza - opakování • která tvrzení jsou/nejsou testovatelnými hypotézami? 1. delší klauze (měřeno vpočtu slov) mají v průměru kratší slova (měřeno v počtu slabik) než klauze kratší 2. v odborných textech je hodně dlouhých vět 3. pokud je slovo syntakticky závislé na substantivu, je to přívlastek 4. auxiliáry jsou v průměru kratší něž autosémantika 5. mezi délkou slova měřenou v počtu hlásek a v počtu slabik je lineární závislost 6. děti z měst mají bohatou slovní zásobu 7. čeština je jeden z nejkomplikovanějších jazyků na světě 8. čím je slovo delší, tím má více hlásek 9. čím je člověk starší, tím v průměru používá více zájmen Metodologie (teorie) ↓ verbální formulace hypotézy + operacionalizace ↓ matematická formalizace ↓ experiment ↓ matematické vyhodnocení experimentu ↓ lingvistická explanace Operacionalizace vs. klasifikace • Způsoby klasifikace jevů • V(A) = V(B), nebo V(A) ≠ V(B) • V(A) > V(B), nebo V(A) = V(B), nebo V(A) < V(B) • V(A) – V(B) = d Operacionalizace vs. klasifikace • Způsoby klasifikace jevů • V(A) = V(B), nebo V(A) ≠ V(B) • V = substantivum: dům = stůl; dům ≠ spát • V(A) > V(B), nebo V(A) = V(B), nebo V(A) < V(B) • V(A) – V(B) = d Operacionalizace vs. klasifikace • Způsoby klasifikace jevů • V(A) = V(B), nebo V(A) ≠ V(B) • V = substantivum: dům = stůl; dům ≠ spát • V(A) > V(B), nebo V(A) = V(B), nebo V(A) < V(B) • V = synt. objekt: Vidím Marii > Myslím na Marii > Dívám se na Marii > > Zabil Marii sekyrou • V(A) – V(B) = d Operacionalizace vs. klasifikace • Způsoby klasifikace jevů • V(A) = V(B), nebo V(A) ≠ V(B) • V = substantivum: dům = stůl; dům ≠ spát • V(A) > V(B), nebo V(A) = V(B), nebo V(A) < V(B) • V = synt. objekt: Vidím Marii > Myslím na Marii > Dívám se na Marii > > Zabil Marii sekyrou • V(A) – V(B) = d • V = délka slova (ve slabikách): Trojanovice vs. Ostrava: 5 – 3 = 2 Trojanovice vs. Praha: 5 – 2 = 3 Trojanovice vs. Malenovice: 5 – 5 = 0 Operacionalizace vs. klasifikace • už „pouhá“ kvantifikace klasifikace přináší hlubší pohled na dané jevy • srov. korpusová lingvistika Význam kvantifikace v textologii (Čechová et al. 2008, s. 218) SYN 2010 ODB (SYN2010) SYN2010 (bez ODB) pořadí POS f % pořadí POS f % 1 subst. 8908919 32.94 1 subst. 20899938 28.73 2 verb. 4074532 15.07 2 verb. 13753983 18.90 3 adj. 3782195 13.99 3 pron. 8837590 12.15 4 prep. 2907295 10.75 4 prep. 7785085 10.70 5 pron. 2431471 8.99 5 adj. 7301172 10.03 6 konj. 2079657 7.69 6 konj. 5733385 7.88 7 adv. 1667110 6.16 7 adv. 5442020 7.48 8 num. 821434 3.04 8 num. 1825676 2.51 9 part. 365034 1.35 9 part. 1117393 1.54 10 inter. 6118 0.02 10 inter. 61697 0.08 27043765 100 72757939 100 ? intuice • jaký bude rozdíl ve frekvenci substantiv v PUB a ODB textech SYN 2010 ODB (SYN2010) PUB (SYN2010) pořadí POS f % pořadí POS f % 1 subst. 8908919 32.94 1 subst. 11322190 34.17 2 verb. 4074532 15.07 2 verb. 5328752 16.08 3 adj. 3782195 13.99 3 prep. 3879399 11.71 4 prep. 2907295 10.75 4 adj. 3870151 11.68 5 pron. 2431471 8.99 5 pron. 2861782 8.64 6 konj. 2079657 7.69 6 konj. 2199028 6.64 7 adv. 1667110 6.16 7 adv. 2044801 6.17 8 num. 821434 3.04 8 num. 1170565 3.53 9 part. 365034 1.35 9 part. 449945 1.36 10 inter. 6118 0.02 10 inter. 5528 0.02 27043765 100 33132141 100.00 Biber et al. (1999): Longman Grammar of Spoken and Written English Operacionalizace • je třeba jasně a jednoznačně definovat proměnné, mezi kterými se předpokládá závislost • H: čím je slovo frekventovanější, tím je polysémnější • v čem může být problém? Operacionalizace • je třeba jasně a jednoznačně definovat proměnné, mezi kterými se předpokládá závislost • H: čím je slovo frekventovanější, tím je polysémnější • frekvence: je třeba jasně uvést • co se myslí slovem • jak a kde se budou počítat frekvence (srov. různé subkorpusy výše) • polysémie: je třeba uvést • jak se bude polysémie kvantifikovat Operacionalizace • H: ženy mají větší pasivní slovní zásobu než muži • problém? Operacionalizace • H: ženy mají větší pasivní slovní zásobu než muži • jak definovat „pasivní slovní zásobu“? Operacionalizace • špatná operacionalizace znehodnocuje celou analýzu • H: subjekt je v češtině v průměru delší než objekt • je to empiricky testovatelná hypotéza? Operacionalizace • špatná operacionalizace znehodnocuje celou analýzu • H: subjekt je v češtině v průměru delší než objekt Muž v triku veze naše dopisy • pokuste se formulovat některé problémy s určováním délky Operacionalizace • špatná operacionalizace znehodnocuje celou analýzu • H: subjekt je v češtině v průměru delší než objekt Muž v triku veze naše dopisy • některé problémy s určováním délky: • rozvitý vs. nerozvitý subjekt/objekt? • počet slov? • počet slabik? • počet morfémů? • je neslabičná předložka samostatným slovem? • způsob měření ovlivňuje podobu výsledku!!! Operacionalizace • jasné vymezení • dokumentace • ideálně technická zpráva • replikovatelnost Matematický model • co si pod tím představíte? • jaký to má smysl? Matematický model • srov. Wikipedia • https://cs.wikipedia.org/wiki/Matematick%C3%BD_model • KL • stochastické modely • srov. vztah k teorii • statické i dynamické • Piotrowski law • lineární i nelineární Matematický model • uveďte příklady matematických modelů v lingvistice Matematický model • Zipfovy zákony • https://cs.wikipedia.org/wiki/Princip_nejmen%C5%A1%C3%ADho_%C3%BAsil %C3%AD Distribuce – modely a interpretace • matematická funkce jako model • distribuční funkce • spojité veličiny • diskrétní veličiny Model – funkce • lineární 𝑦 = 𝑥 𝑦 = 𝑎𝑥 𝑦 = 𝑏 + 𝑎𝑥 x, y … proměnné a, b … parametry Model – funkce 𝑦 = 𝑎𝑥 a = 1 Model – funkce 𝑦 = 𝑎𝑥 a = 2 Model – funkce 𝑦 = 𝑎𝑥 a = 10 Model – funkce 𝑦 = 𝑏 + 𝑎𝑥 a = 1 b = 50 Model – funkce 𝑦 = 𝑎𝑥 a = 1 Model – funkce 𝑦 = 𝑏 + 𝑎𝑥 a = -0.5 b = 80 Model – mocninná funkce • diverzifikovaný systém • méně diverzifikovaný systém • jednotky se častěji opakují • nejméně diverzifikovaný systém (z prezentovaných příkladů) • jednotky se opakují ještě častěji Model vs. realita • model • předpokládá působení mechanismu • ideální stav • realita • mechanismus ovlivněn různými faktory • fluktuace • náhodné jevy Model vs. realita • postup • model predikuje chování systému • porovnáváme model s daty • je možné vyjádřit míru modelu s daty Model vs. realita Model vs. realita Model vs. realita Model vs. realita Model vs. realita