Hypotéza • Co je hypotéza? Hypotéza • Co je hypotéza? • Formální vlastnosti hypotézy? Hypotéza • Co je hypotéza? • Formální vlastnosti hypotézy? • Lingvistické hypotézy… „Hypotéza“ v lingvistice • „V hláskosloví ani v jiných rovinách vodňanského herbáře nejsou prokazatelné další nářeční jevy z oblasti, kde nedošlo ke vzniku vibranty ř (východomoravské území), dáváme proto přednost hypotéze, že se jedná o nedbalý zápis“ (Černá 2005, s. 76); • „V nich se překlad Františka Vrby jeví jako silně zatížený mužským genderovým úhlem pohledu a estetikou vnímání; potvrzuje se tak původní hypotéza, že se spíše „staví na stranu“ mužského hrdiny, resp. autorského tvůrce a erotické líčení prezentuje spíše z jeho perspektivy…“ (Širokovská 2004, s. 23); • „Proč není samo slovo plémě ve staročeských textech doloženo v očekávaném významu, o tom lze vznášet různé hypotézy.“ (Šimandl 2007, s. 238); • „Hypotéza 2.1: Co-text je věrným zrcadlem (situačního) kontextu v tom smyslu, že všechny pro danou komunikační situaci relevantní kontextové vlastnosti jsou co-textem explicitně reflektovány, a mají tedy nějaký textový korelát. (…) Hypotéza 2.2: (Textový) kontext věrně reflektuje všechny vlastnosti jazykových jevů relevantní pro jejich užití. (Cvrček 2013, s. 24)“; • „Vycházeje z toho, že teorie valence i přes zjevná slabá místa představuje dobrý konstrukt lingvistické teorie, pokusím se nyní představit hypotézu modifikované valenční teorie (MVT) a formulovat základní principy této teorie.“ (Karlík 2001, s. 171n). Empiricky testovatelná hypotéza • předpokládaný vztah mezi dvěma vlastnostmi = působení mechanismu Empiricky testovatelná hypotéza • předpokládaný vztah mezi dvěma vlastnostmi = působení mechanismu • teoretické zdůvodnění Hypotéza (Greis 2009, s. 11) • tvrzení, které se týká více než jednoho jevu či případu; Hypotéza (Greis 2009, s. 11) • tvrzení, které se týká více než jednoho jevu či případu; • má alespoň implicitně strukturu podmínkového souvětí, tj. „jestliže…, pak…“, případně „čím…, tím…“ (např. čím je slovo frekventovanější, tím je kratší); Hypotéza (Greis 2009, s. 11) • tvrzení, které se týká více než jednoho jevu či případu; • má alespoň implicitně strukturu podmínkového souvětí, tj. „jestliže…, pak…“, případně „čím…, tím…“ (např. čím je slovo frekventovanější, tím je kratší); • je falzifikovatelné (tj. vyvratitelné) prostřednictvím experimentu, který dovoluje rozhodnout, zda predikce formulovaná prostřednictvím hypotézy je vyvrácena, či ne • (vyhodnocení experimentu většinou pomocí statistických testů). Hypotéza • která tvrzení jsou/nejsou testovatelnými hypotézami? 1. hodně mužů má pleš 2. pokud se v knize vyskytují biblický příběh, je to apokryf 3. jestli se zavedou řidičáky „na zkoušku“, může se snížit nehodovost mladých řidičů a řidiček 4. muži mají častěji pleš než ženy 5. jestliže se je sloveso dokonavé, častěji se na něj váže přímý akuzativní předmět než na sloveso nedokonavé 6. ženy jsou citlivé 7. čím je slovo frekventovanější, tím je větší jeho polysémie 8. jestli se zavedou řidičáky „na zkoušku“, sníží se nehodovost mladých řidičů a řidiček 9. nářečí často ovlivňují podobu mluveného jazyka obyvatel dané nářeční oblasti Hypotéza • Wikipedie • https://cs.wikipedia.org/wiki/Hypot%C3%A9za Hypotéza - opakování • která tvrzení jsou/nejsou testovatelnými hypotézami? 1. delší klauze (měřeno vpočtu slov) mají v průměru kratší slova (měřeno v počtu slabik) než klauze kratší 2. v odborných textech je hodně dlouhých vět 3. pokud je slovo syntakticky závislé na substantivu, je to přívlastek 4. auxiliáry jsou v průměru kratší něž autosémantika 5. mezi délkou slova měřenou v počtu hlásek a v počtu slabik je lineární závislost 6. děti z měst mají bohatou slovní zásobu 7. čeština je jeden z nejkomplikovanějších jazyků na světě 8. čím je slovo delší, tím má více hlásek 9. čím je člověk starší, tím v průměru používá více zájmen Populace & vzorek • populace – základní soubor • úplná množina prvků Populace & vzorek • populace – základní soubor • úplná množina prvků • co je v jazyce „základním souborem“? Populace & vzorek • populace – základní soubor • úplná množina prvků • co je v jazyce „základním souborem“? • otázka reprezentativnosti… Populace & vzorek • vzorek – výběrový soubor • výběr ze základního souboru Populace & vzorek • vzorek – výběrový soubor • výběr ze základního souboru • ze vzorku je možné vyvozovat závěry pro celou populaci • statistické testy • rozdíly, náhoda Statistické testy významnosti • porovnávají se dvě hypotézy • nulová hypotéza: tvrzení, které obvykle deklaruje “žádný rozdíl”, tj. nalezený rozdíl je dán variablitou dat, náhodou • (např. mince není falešná; mezi formou jazyka a četností užívaní bychom/bysme není rozdíl) Statistické testy významnosti • postuluji se dvě hypotézy • nulová hypotéza: tvrzení, které obvykle deklaruje “žádný rozdíl”, tj. nalezený rozdíl je dán variablitou dat, náhodou • (např. mince není falešná; mezi formou jazyka a četností užívaní bychom/bysme není rozdíl) • alternativní hypotéza: situace, kdy nulová hypotéza neplatí, tj. mezi proměnnými se předpokládá závislost; důležité je přitom nějaké teoretické zdůvodnění Statistické testy významnosti • testuje se platnost H0 • hladina významnosti • pravděpodobnost, že se zamítne nulová hypotéza, ačkoliv ona platí • obvykle 5 % (0,05) nebo 1 % (0,01) • p-hodnota (p-value) Statistické testy významnosti • hladina významnosti • pravděpodobnost, že se zamítne nulová hypotéza, ačkoliv ona platí • obvykle 5 % (0,05) nebo 1 % (0,01) • konvence • chyba 1. typu (neadekvátní zamítnutí H0, odpovídá hladině významnosti) • chyba 2. typu (neadekvátní nezamítnutí H0) Statistické testy významnosti • hod mincí (100x) • 50x panna a 50x orel → podvádí se? Statistické testy významnosti • hod mincí (100x) • 50x panna a 50x orel → podvádí se? • 52x panna a 48x orel → podvádí se? Statistické testy významnosti • hod mincí (100x) • 50x panna a 50x orel → podvádí se? • 52x panna a 48x orel → podvádí se? • 98x panna, 2x orel → podvádí se? Statistické testy významnosti • hod mincí (100x) • 50x panna a 50x orel → podvádí se? • 52x panna a 48x orel → podvádí se? • 98x panna, 2x orel → podvádí se? • 59x panna, 41 orel → podvádí se? Statistické testy významnosti • hod mincí (100x) • 50x panna a 50x orel → podvádí se? • 52x panna a 48x orel → podvádí se? • 98x panna, 2x orel → podvádí se? • 59x panna, 41 orel → podvádí se? • 60x panna, 40 orel → podvádí se? • … Statistické testy významnosti • pokud padne panna 61x, tak je větší než 95% pravděpodobnost, že jeden z hráčů podvádí • jinými slovy: pravděpodobnost, že budeme neoprávněně tvrdit, že jeden z hráčů nepodvádí, je menší než 5% Statistické testy významnosti • testuje se platnost H0 Statistické testy významnosti • testuje se platnost H0 • odmítnutí H0 neznamená, že H1 platí Statistické testy významnosti • testuje se platnost H0 • odmítnutí H0 neznamená, že H1 platí • odmítnutí H0 znamená, že existuje určitá/vysoká pravděpodobnost toho, že naměřený rozdíl není možné vysvětlit vlivem náhody • H1 se nikdy nepotvrzuje (confirmation), vždy se jedná o vyvracení (rejection) H0 nebo H1 • terminologická poznámka: QL → corroboration Chí-kvadrát test dobré shody • příklad: předpokládáme, že v románech se bude častěji používat nespisovná varianta slova “bychom” než v publicistických textech • proměnnými jsou: a) typ textu; b) varianta slova H0: mezi typem textu a používáním nespisovné varianty slova “bychom” není žádný vztah H1: mezi typem textu a používáním nespisovné varianty slova “bychom” je vztah, tj. tato forma se častěji vyskytuje v próze Chí-kvadrát test dobré shody SYN2005nov (romány) SYN2005pub (publicistika) bychom 5260 6679 bysme 714 39 % bysme 13,6 0,6 SYN2005nov (romány) SYN2005col (povídky) bychom 5260 1660 bysme 714 136 % bysme 13,6 8,2 Chí-kvadrát test dobré shody SYN2005nov (romány) SYN2005pub (publicistika) bychom 5260 6679 bysme 714 39 % bysme 13,6 0,6 p = 0,00000000000000022 SYN2005nov (romány) SYN2005col (povídky) bychom 5260 1660 bysme 714 136 % bysme 13,6 8,2 Chí-kvadrát test dobré shody SYN2005nov (romány) SYN2005pub (publicistika) bychom 5260 6679 bysme 714 39 % bysme 13,6 0,6 p = 0,00000000000000022 SYN2005nov (romány) SYN2005col (povídky) bychom 5260 1660 bysme 714 136 % bysme 13,6 8,2 p = 0,0000001851 Chí-kvadrát test dobré shody SYN2005nov (romány) SYN2005pub (publicistika) bychom 5260 6679 bysme 714 39 % bysme 13,6 0,6 p < 0,001 SYN2005nov (romány) SYN2005col (povídky) bychom 5260 1660 bysme 714 136 % bysme 13,6 8,2 p < 0,001 Příklad – hypotéza tranzitivity • Hopper, P., Thompson, S. (1980). Transitivity in Grammar and Discourse. Language 56, 251-299. Hypotéza tranzitivity • “[t]ransitivity is a crucial relationship in language, having a number of universally predictable consequences in grammar” • transitivity “can be broken into its component parts (…), they allow clauses to be characterized as MORE or LESS Transitive: the more features a clause has in the 'high' column in 1A–J, the more Transitive it is” Hypotéza tranzitivity • “If two clauses (a) and (b) in a language differ in that (a) is higher in Transitivity according to any features 1A-J, then, if concomitant grammatical or semantic difference appears elsewhere in the clause, that difference will also show (a) to be higher in Transitivity” • “whenever two values of the transitivity components are necessarily present (...) they will agree in being either both high or both low in value”. • The co-variation has to be viewed not in the strict sense, but as a tendency. Hypotéza tranzitivity p-hodnota < 0.05 p-hodnota < 0.05 Hypotéza tranzitivity Statistické testy • četnosti • průměry • korelace Test dobré shody chi-kvadrát • Npi … očekávané četnosti • Xi … naměřené četnosti Test dobré shody chi-kvadrát žánr C žánr D Σ slovo AX1 X3 X1+X3 slovo B X2 X4 X2+X4 Σ X1+X2 X3+X4 X1+X2+X3+X4 Np1 Np3 Np2 Np4 Test dobré shody chi-kvadrát žánr C žánr D Σ slovo AX1 X3 X1+X3 slovo B X2 X4 X2+X4 Σ X1+X2 X2+X4 X1+X2+X3+X4 Np1 Np3 Np2 Np4 𝑁 𝑝1 = 𝑥1 + 𝑥3 ∙ 𝑥1 + 𝑥2 𝑥1 Test dobré shody chi-kvadrát χ2 = 0, p-hodnota = 1 žánr C žánr D Σ slovo AX1 X3 X1+X3 slovo B X2 X4 X2+X4 Σ X1+X2 X2+X4 X1+X2+X3+X4 Np1 Np3 Np2 Np4 žánr C žánr D Σ slovo A 10 10 20 slovo B 20 20 40 Σ 30 30 60 10,00 10,00 20,00 20,00 Test dobré shody chi-kvadrát χ2 = 1,42, p-hodnota = 0,23 žánr C žánr D Σ slovo AX1 X3 X1+X3 slovo B X2 X4 X2+X4 Σ X1+X2 X2+X4 X1+X2+X3+X4 Np1 Np3 Np2 Np4 žánr C žánr D Σ slovo A 5 10 15 slovo B 25 20 45 Σ 30 30 60 7,50 7,50 22,50 22,50 Test dobré shody chi-kvadrát χ2 = 6,91, p-hodnota = 0,004 žánr C žánr D Σ slovo A X1 X3 X1+X3 slovo B X2 X4 X2+X4 Σ X1+X2 X2+X4 X1+X2+X2+X4 Np1 Np3 Np2 Np4 žánr C žánr D Σ slovo A 5 20 25 slovo B 25 20 45 Σ 30 40 70 10,71 14,29 19,29 25,71 Test dobré shody chi-kvadrát • Excel • vypočítat očekávané hodnoty • pak CHISQ.TEST Test dobré shody chi-kvadrát • otestujte hypotézu závislosti výskytu daných slov na žánru žánr C žánr D žánr E slovo A 5 20 18 slovo B 25 20 26 Test dobré shody chi-kvadrát • otestujte hypotézu závislosti výskytu daných slov na žánru • https://www.socscistatistics.com/tests/chisquare2/default2.aspx žánr C žánr D žánr E slovo A 5 20 18 slovo B 25 20 26 Test dobré shody chi-kvadrát • post hoc test žánr C žánr D žánr E slovo A 5 20 18 slovo B 25 20 26 Test dobré shody chi-kvadrát • omezení • malé počty: očekávané četnosti > 5 • nevhodný pro velká data romány novely Σ % novely konstrukce A 500000 501800 1001800 50,09% konstrukce B 501500 500000 1001500 49,93% Σ 1001500 1001800 2003300 chi^2 = 5.43, p=0,020 Příklad: vliv typu textu (žánru) na postavení enklitik • H0: typ textu nemá vliv na postavení enklitik • H1: typ textu má vliv na postavení enklitik Kosek, P., Navrátilová, O., Čech, R., Mačutek, J. (2018). Word Order of Reflexive 'sě' in Finite Verb Phrases in the First Edition of the Old Czech Bible Translation. (Part 2). Studia Linguistica Universitatis Iagellonicae Cracoviensis, 135, 3, 189-200. http://www.cechradek.cz/publ/2018_Kosek_etal_Krakow_j_02.pdf Příklad: vliv typu textu (žánru) na postavení enklitik Příklad: vliv typu textu (žánru) na postavení enklitik χ2 = 83.712 p-value < 0.001 Příklad: vliv typu textu (žánru) na postavení enklitik Příklad: vliv typu textu (žánru) na postavení enklitik χ2 = 33.772 p-value < 0.03 Test dobré shody chi-kvadrát • jak spočítat • manuálně • Excel – viz návody • online nástroje • např. https://www.socscistatistics.com/tests/ • R software • https://cran.r-project.org/ Úkol H0: mezi četnostmi výrazů děkuji a děkuju a typem textu není vztah H1: mezi četnostmi výrazů děkuji a děkuju a typem textu je vztah materiál: SYN2020 typy textů: FIC: beletrie, NMG: publicistika, NFC: oborová literatura intuice? zjistěte hodnoty z ČNK První pohled? děkuji děkuju FIC: beletrie 2345 1936 NMG: publicistika 640 130 NFC: oborová literatura 582 115 První pohled? děkuji děkuju FIC: beletrie 2345 1936 NMG: publicistika 640 130 NFC: oborová literatura 582 115 vypočítejte procentuální zastoupení děkuji v jednotlivých typech textu Druhý pohled? děkuji děkuju % děkuji FIC: beletrie 2345 1936 54.78 % NMG: publicistika 640 130 83.12 % NFC: oborová literatura 582 115 83.5 % vytvořte tabulku, v níž budou očekávané četnosti, použijte Excel Druhý pohled? děkuji děkuju % děkuji FIC: beletrie 2345 1936 54.78 % NMG: publicistika 640 130 83.12 % NFC: oborová literatura 582 115 83.5 % Očekávané frekvence pozorované děkuji děkuju suma FIC: beletrie 2345 1936 4281 NMG: publicistika 640 130 770 NFC: oborová literatura 582 115 697 suma 3567 2181 5748 očekávané děkuji děkuju suma FIC: beletrie 2656.63 1624.37 4281 NMG: publicistika 477.83 292.17 770 NFC: oborová literatura 432.53 264.47 697 suma 3567 2181 5748 Test • https://www.socscistatistics.com/tests/chisquare2/default2.aspx Cvičení • data: • https://www.socscistatistics.com/tests/chisquare/default2.aspx Opakování • co znamená aplikace statistického testu? • jaké závěry lze vyvodit z aplikace statistického testu? • jaký je vztah statistického testuj s ohledem na populaci a vzorek? Opakování • vyhodnoťte vztah mezi perfektivitou a mono/ditranzitivitou slovesa • hypotéza: perfektivní slovesa by se měla častěji realizovat jako ditranzitivní než monotranzitivní • náležitě interpretujte výsledky • https://www.socscistatistics.com/tests/chisquare/ PDT ditrnas. monotrans. % ditrans doporučit perf. 31 23 doporučovat imperf. 18 38 poskytnout perf. 28 23 poskytovat imperf. 21 37 Cvičení • data: • https://www.socscistatistics.com/tests/chisquare/default2.aspx