1 Statistické metody a zpracování dat VII. Korelační a regresní počet K čemu to je dobré? • V řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme ne jednu jejich vlastnost (znak), ale znaků několik. • Tyto znaky mohu být navzájem závislé. • Cílem této části statistiky je vyšetřovat, do jaké míry spolu dva či více statistických znaků souvisí. • Do jaké míry změna hodnoty jednoho znaku podmiňuje změnu hodnot znaku jiného. Analýza závislostí Př. Vztah mezi teplotou vzduchu a nadmořskou výškou, mezi množstvím srážek a velikostí odtoku, mezi výnosy a hodnotami několika meteorologických prvků, mezi počtem dojíždějících a vzdáleností od centra dojížďky, … Příklady použití • Budeme tedy pracovat s dvourozměrnými soubory • Korelační i regresní počet však lze využít i pro studium vícerozměrných souborů, pro studium znaků kvantitativních i kvalitativních. • Předmětem statistické analýzy v tomto případě bude stanovení síly závislosti a druhu závislosti • Analýzou síly závislosti statistických znaků se zabývá korelační počet • Analýzou druhu závislosti statistických znaků se zabývá regresní počet Analýza závislostí Druhy závislostí • Vztahy jednostranné: Změna statistického znaku jednoho souboru náhodné veličiny - tzv. nezávisle proměnné (x) podmiňuje změnu statistického znaku souboru druhé náhodné veličiny - tzv. závisle proměnné (y). • V tomto případě jde o vztahy příčiny a následku • Vztahy vzájemné: Nelze rozlišit mezi souborem závisle a nezávisle proměnné (např. vztah hodnot teploty vzduchu na dvou sousedních stanicích) • závislost funkční • závislost korelační Druhy závislostí: Závislost funkční Každé hodnotě znaku nezávisle proměnné náhodné veličiny x odpovídá vždy pouze jediná určitá hodnota závisle proměnné veličiny y dráha v metre ch čas v sekundách 1000 2000 3000 4000 0 10 20 30 2 2 1 gts ==== 2 Se změnou hodnoty znaku nezávisle proměnné x se mění podmíněná rozdělení relativních četností hodnoty znaku závisle proměnné y tak, že změna x podmiňuje změnu průměru souborů hodnot y, odpovídajících daným hodnotám x. Závislost korelační y Určení těsnosti korelační závislosti • Úkolem korelačního počtu je vyjádřit tendenci změn hodnoty znaku závisle proměnné při změně hodnoty znaku nezávisle proměnné matematickou funkcí • Tato funkce představuje tzv. regresní čáru a vyjadřuje, jaká hodnota znaku závisle proměnné odpovídá s největší pravděpodobností určité hodnotě znaku nezávisle proměnné. • Odhad regresní závislosti je tím přesnější, čím větší je těsnost korelační závislosti. • Určení těsnosti korelační závislosti je prvním krokem analýzy. Charakteristiky korelační závislosti Máme dva výběrové soubory náhodných veličin X, Y. Proměnlivost hodnot znaku obou výběrů můžeme vyjádřit odchylkami dxi a dyi prvků od jejich průměrů: xxd ixi −= yyd iyi −= Vzájemnou proměnlivost obou výběrových souborů charakterizuje součin odchylek : )()( yyxx ii −⋅− Suma součinů odchylek vydělaná rozsahem výběrů n určuje tzv. kovarianci výběrových souborů sxy – tedy první společnou charakteristiku proměnlivosti obou souborů: 1 )()( − −⋅− = ∑ n yyxx s ii xy Charakteristiky korelační závislosti • Kovariance je obdobou rozptylu • Omezenost - je mírou absolutní – nelze jí použít k porovnání těsnosti vztahu dvou či více dvojic výběrových souborů. Relativní míra – kovariance dělená součinem směrodatných odchylek sx a sy obou výběrů - korelační koeficient rxy: ∑ ∑ ∑ − − ⋅− − −⋅− −= ⋅ = 22 )( 1 1 )( 1 1 )()( 1 1 yy n xx n yyxx n ss s r ii ii yx xy xy Charakteristiky korelační závislosti Úpravou výše uvedeného vztahu lze korelační koeficient rxy vypočítat také podle následujícího vzorce: ( ) ( ) ][][ 2222 ∑∑∑∑ ∑ ∑∑ −⋅− − = yynxxn yxxyn rxy (vzorec je uveden pouze pro názornost výpočtu v následujícím příkladě) Hodnota korelačního koeficientu kolísá v intervalu od -1 do 1 • rxy -> 0 nezávislost • rxy -> -1 nepřímá závislost • rxy -> 1 přímá závislost Interpretace rxy Příklad Jaká je závislost mezi pH půdy na výsypkách a počtem rostlinných druhů? ( ) ( ) ][][ 2222 ∑∑∑∑ ∑ ∑∑ −⋅− − = yynxxn yxxyn rxy 136.836151.8197.2 270.9184939.7436.3 28.83623.064.8 28.04916.074.0 114.448427.0225.2 23.52522.154.7 15.0259.053.0 162.562542.3256.5 284.0160050.4407.1 99.048420.3224.5 38.010014.4103.8 20.3498.472.9 47.62897.8172.8 xyy2x2yx pH počet druhů 8,62=∑x ( ) 84,3943 2 =∑x 228=∑y ( ) 51984 2 =∑y 3,3322 =∑x 596762 =∑y 8,1268=∑xy ]519845976*13[]84,39433,332*13[ 228*8,628,1268*13 −⋅− − =xyr 700,0=xyr 3 Příklad - pokračování 700,0=xyr • Je zjištěný vztah statisticky významný? • (H0: rxy se významně neliší od nuly – viz. dále) Ze statistických tabulek zjistíme: Hodnotě přísluší pro ν = n – 2 = 11 na hladině významnosti α = 0,05 kritická hodnota rkrit = 0,553 Závěr: prokázali jsme statisticky významný vztah mezi pH a množstvím rostlinných druhů rostoucích na výsypkách. Příklad Řešení v programu Statistica: Statistika – Základní statistiky/tabulky – Korelační matice korelační matice Graf korelačního pole doplněný regresní přímkou a intervaly spolehlivosti (viz. dále) Příklad Statistika – Základní statistiky/tabulky – Korelační matice Korelační matice – rxy mezi dvojicemi více proměnných Příklad Statistika – Základní statistiky/tabulky – Korelační matice – Matice bodových grafů Koeficient determinace • Koeficient korelace se často ve výpočtech doplňuje hodnotou koeficientu determinace (r2 xy). • Jeho hodnota kolísá v intervalu 0 až 1 • Vynásoben 100 udává v procentech tu část rozptylu závisle proměnné y, která je vysvětlena (podmíněna) změnami hodnot nezávisle proměnné x. V našem případě: %4949,02 ==xyr700,0=xyr Interpretace: Změna počtu druhů rostlin na výsypkách je z 49 % podmíněna změnami pH půdy na kterých tyto rostliny rostou. Podmínky použitelnosti rxy Výpočet rxy se opírá o rozptyl a směrodatnou odchylku Jeho použití tedy předpokládá splnění tří následujících podmínek: • normální rozdělení použitých výběrů • dvojrozměrnost normálního rozdělení (každé hodnotě znaku veličiny x odpovídá soubor hodnot znaku y, který má normální rozdělení a naopak • linearita vztahu hodnot x a y (regresní čára je přímka) Dokonalá korelační závislost přímá rxy = 1 Dokonalá korelační závislost nepřímá rxy = -1 Hodnota rxy nás informuje o druhu a těsnosti závislosti 4 Graf korelačního pole pro různá rxy Graf korelačního pole pro různá rxy ??? Důležitá role explorační (průzkumové) analýzy dat Hodnocení významnosti koeficientu korelace větší rxy větší n menší p hodnota větší pravděpodobnost zamítnutí nulové hypotézy • Při velkém rozsahu souboru (n) roste pravděpodobnost, že i relativně malá hodnota korelačního koeficientu (rxy) nám vyjde jako statisticky významná – tedy zamítneme nulovou hypotézu, že se rxy neliší od nuly. • K vyhodnocení míry závislosti nelze přistupovat formálně Hodnocení významnosti koeficientu korelace • Významnost rxy závisí na povaze řešeného problému • Jeho hodnota je mírou relativní a posouzení těsnosti je do značné míry subjektivní. Významnost rxy lze též zjistit objektivně – testováním rxy – korelační koeficient mezi dvěma výběrovými soubory hodnot x a y ρ – korelační koeficient mezi dvěma základními soubory hodnot x a y Hodnota rxy je odhadem hodnoty ρ Při testování rxy vycházíme z nulové hypotézy, která je ρ = 0 (tedy mezi dvěma základními soubory nepředpokládáme žádný korelační vztah). Testovací kritérium se vypočte podle vztahu: Hodnocení významnosti koeficientu korelace 2 1 2 −⋅ − = n r r t xy xy Přísluší mu t-rozdělení s ν = n - 2 stupni volnosti. S určitou pravděpodobností - tedy na určité hladině významnosti předpokládáme, že hodnota t nepřekročí kritickou hodnotu tp (při správnosti nulové hypotézy). V opačném případě zamítáme nulovou hypotézu – mezi výběry náhodných veličin vztah existuje. Hodnocení významnosti koeficientu korelace - tabulky 5 Koeficient pořadové korelace (Spearmanův) (rs) Používá se k určení závislosti kvalitativních znaků. )1( 6 1 2 2 −⋅ −= ∑ nn D r i s Každé hodnotě xi a yi přiřadíme pořadové číslo pxi a pyi podle velikosti hodnot xi a yi. Určíme rozdíly Di dvojic pořadových čísel odpovídajících si hodnot. Koeficient pořadové korelace - příklad Příklad: Kvantifikujte vztah mezi dobou, po kterou jsou pole ponechána ladem a počtem rostlinných druhů (na m2). 902,0 )149(7 5,56 1 )1( 6 1 2 2 = −× × −= −⋅ −= ∑ nn D r i s V tabulkách vyhledáme pro n=7 a α=0,05 kritickou hodnotu: rkrit=0,786 Závěr: Existuje statisticky významný vztah mezi dobou, po kterou jsou pole ponechána ladem a počtem rostlinných druhů, které se na nich vyskytují. Koeficient pořadové korelace Řešení v programu Statistica: Statistika – Neparametrická statistika – Korelace (Spearman, Kendallovo Tau, Gama) Nelineární závislost Prvky výběru závisle proměnné yi rozdělíme podle hodnot nezávisle proměnné xi do skupin označených yj a pro každou skupinu vypočteme průměr . Korelační poměr se vypočte podle vztahu: V uvedeném vzorci je nj četnost v yj. Při výpočtu záleží na tom, kterou proměnou zvolíme za závislou a kterou za nezávislou. Porovnání hodnot korelačního koeficientu a korelačního poměru lze použít jako kritéria linearity vztahu. Pokud se hodnoty přibližně rovnají, jedná se o závislost lineární, pokud je rxy výrazně větší, jde o závislost nelineární. jy V případě, kdy regresní čára není přímka, ale je vyjádřena složitější matematickou funkcí, se jako míry korelační závislosti používá tzv. korelační poměr (ηyx). ∑ ∑ ∑ ∑ − − = − ⋅− = 22 2 2 )( )( )( yny ynny yy nyy i jj i jj yxη Koeficient mnohonásobné korelace (rxyz) Používá se pro hodnocení korelační závislosti tří nebo více výběrů náhodných veličin. Při jeho určení se vychází z jednotlivých korelačních koeficientů pro dva výběry (rxy, rxz, ryz) a jejich hodnoty se dosazují do vzorce pro rxyz: 2 22 1 2 xy yzxzxyyzxz xyz r rrrrr r − ⋅⋅−+ = Příklad – viz. vícerozměrná regrese Vztah dvou proměnných je často ovlivněn dalšími proměnnými. Dílčí (parciální) korelace: Řeší otázku vlivu jedné nebo více nezávisle proměnných na závisle proměnnou při vyloučení vlivu zbývajících nezávisle proměnných, u nichž předpokládáme konstantní hodnotu. Jedná se o zvláštní případ mnohonásobné korelace, kdy další proměnné považujeme za „rušivé“ (např. věk, počet obyvatel sídla, …). Hodnota koeficientu dílčí korelace rxy.z se vypočte podle vztahu: Tečkou v indexu se označuje nezávisle proměnná, jejíž hodnotu považujeme za konstantní. 22 )1()1( yzxz yzxzxy zxy rr rrr r −⋅− ⋅− =⋅ 6 Parciální korelace Příklad (viz. Brázdil a kol., 1995, str. 129, cvič. 8.3) Způsob zadání proměnných (korelace mezi y a z při vyloučení vlivu x) Poznámky k aplikaci korelačního počtu: Použití korelačního počtu je nevhodné např. v těchto případech: • Korelace je způsobena formálními vztahy mezi veličinami (hodnoty x a y se doplňují do 100%) • Korelace je způsobena nehomogenitou studovaného materiálu (obsahuje tzv. subpopulace – viz. obr. bodového grafu) • Korelace je výsledkem působení třetí veličiny (korelace mezi počtem lékařů a počtem nemocných, …) Regresní analýza Úkolem regresní analýzy je sestavit vztah (model) závislosti mezi závisle a nezávisle proměnnou. Regresní analýza řeší : • odhady neznámých parametrů regresní funkce • testování hypotéz o těchto parametrech • ověřování předpokladů regresního modelu Určení lineární regresní závislosti Nejjednodušším případem regresní závislosti je případ, kdy regresní funkce je přímkou. Rovnice regresní přímky má tvar: Symbol y’ se používá pro označení nejpravděpodobnější teoretické hodnoty y odpovídající danému x, která leží na regresní přímce a která se odlišuje od konkrétních hodnot yi, které se nacházejí mimo ni. y’ = a + bx Metoda nejmenších čtverců Průběh regresní přímky je určen tzv. metodou nejmenších čtverců, kdy musí být splněna podmínka takového průběhu přímky, při kterém je součet čtverců vzdálenosti všech bodů pole od přímky minimální, tedy platí: Výpočet vertikální vzdálenosti bodů korelačního pole od regresní přímky se provádí podle uvedeného obrázku. Z něho je zřejmé, že pro vzdálenost konkrétní hodnoty závisle proměnné yi od bodu regresní přímky yi’ musí platit: iiiiii bxaybxayyy −−=+−=− )( ' Součet čtverců svislých vzdáleností yi od regresní přímky je potom: ∑ ∑ =−−=− Abxayyy iiii 22' )()( min)( 2' =−∑ ii yy ∑ =−−= min)( 2 ii bxayA Pro MNČ musí platit Z výše uvedených vztahů lze následnými úpravami obdržet výrazy pro výpočet koeficientů regresní přímky a,b ∑ ∑ − − = 22 xnx yxnyx b i ii xbya −= Koeficient b (angl. slope) se označuje jako koeficient regrese a je směrnicí regresní přímky (tangentou úhlu, který přímka a svírá s osou x). Je-li b>0, mluvíme o regresi pozitivní, je-li b<0 o regresi negativní. Výpočet koeficientů regresní přímky 7 Výpočet koeficientů regresní přímky Vzorec pro výpočet koeficientu b lze zjednodušit pomocí vztahů pro kovarianci sxya směrodatnou odchylku sx, tedy: 2 x xy s s b = Hodnota koeficientu a (angl. intercept) představuje y-ovou souřadnici průsečíku regresní přímky s osou y (tedy při x=0). Koeficienty lineární regresní závislosti Koeficient a Hranice (EXCEL) Abs. člen (Statistica) Koeficient b (tg úhlu) - směrnice Koeficienty (parametry) jsou bodovými odhady ! y’ = a + bx Intervaly a pásy spolehlivosti lineární regresní závislosti • Konstrukci regresní přímky provádíme na základě výběrových souborů. • Proto se její rovnice může u různých výběrů ze stejných základních souborů lišit. • Z tohoto důvodu je potřebné doplnit průběh regresní přímky také tzv. intervaly spolehlivosti. • Výpočtem intervalů spolehlivosti určujeme pro vybraná x interval, v němž se mohou s určitou pravděpodobností vyskytovat hodnoty y s tím, že jejich nejreprezentativnější hodnota je y’. Intervaly a pásy spolehlivosti Nejprve je zapotřebí zvolit hladinu spolehlivosti – tedy pravděpodobnost, s níž očekáváme výskyt hodnot y v určených mezích 1-p (p=0,05 či 0,01). Poloviční šířka intervalu spolehlivosti l je dána výrazem: 2 1 − ⋅= − n Ah tl p 2 2 )1( )(1 xsn xx n h − − += Hodnota tp je kritická hodnota rozdělení pro n-2 stupňů volnosti a hladinu významnosti p. Meze intervalů spolehlivosti určíme pomocí hodnot y’ z rovnice horní mez: y’ + l dolní mez: y’ - l )(' xxbyy −=− Pásy spolehlivosti vzniknou spojením krajních bodů intervalů spolehlivosti. Testování významnosti regresní závislosti • K testování významnosti zjištěné regresní závislosti lze využít t-testu, kterým lze zjistit, zda se směrnice významně liší od nuly • Nejčastěji se k testování používá analýzy rozptylu (ANOVA). • Princip: Zjistíme celkovou proměnlivost hodnot y a následně vypočteme, z jaké části je tato celková variabilita objasněna proměnlivostí v hodnotách x. SStotal - celková variabilita: celková suma čtverců: od každé hodnoty y odečteme průměr, výsledek povýšíme na druhou a sečteme pro všechna y. Testování významnosti regresní závislosti regresetotalíreziduá SSSSSS −=ln Celkovou variabilitu SStotal lze rozdělit na dvě části: SSregrese - variabilitu vysvětlenou regresní čarou SSreziduální – zbytková variabilita nevysvětlená regresním modelem 8 Testování významnosti regresní závislosti Tabulka ANOVA total regres SS SS r =2 Koeficient determinace regresní závislosti: Příklad regresní analýzy v EXCELu Existuje signifikantní pokles hladiny hluku se vzdáleností od komunikace. Lineární regresní model vysvětluje 93,9 % variability hodnot hladiny hluku. Zjistěte, jak souvisí hladina hluku se vzdáleností od komunikace. y’ = 94,2857 - 0,1464x 95% int. odhad hladiny hluku ve vzdálenosti 0 metrů pokles hl. hluku na každý metr 95% int. odhad poklesu hl. hluku na každý metr Nástroje – Analýza dat - Regrese model je vhodný Řešení v programu Statistica 1) Statistika – Vícerozměrná regrese (zvolení závisle a nezávisle proměnné) model je vhodný pokles je statisticky významný Parametry regresní přímky Řešení v programu Statistica 2) OK – Bodové grafy – Korelace 2 proměnných Výpočet neznámé hodnoty - předpovědi 3) Statistika – Vícerozměrná regrese Odhady • bodové • intervalové Další typy regresních funkcí Regresní vztah dvou proměnných často nelze vhodně vyjádřit přímkou – jiné typy funkcí. Může mít tvar např. logaritmických či exponenciálních funkcí a nebo je vztah vyjádřen rovnicí polynomu m-tého stupně. 9 Regresní závislost není přímka Příklad (viz. Brázdil a kol., 1995, str. 139, cvič. 8.5) nevhodný model vhodný model směrodatná chyba odhadu koeficient determinace EXCEL: pravým tlačítkem myši na graf – přidat spojnici trendu Hledání vhodného regresního modelu Lze postupovat dvěma způsoby: 1. Volba vhodného modelu na základě praktické zkušenosti či teoretických předpokladů 2. Posouzením bodového grafu a interpretací nástrojů regresní analýzy • analýza reziduálních hodnot • výpočet směrodatné chyby odhadu (se) • výpočet koeficientu determinace (r2 xy). Způsoby hodnocení vhodnosti regresního modelu Hledání vhodného regresního modelu Analýza reziduálních hodnot Rezidua jsou vzdálenosti skutečných hodnot yi od modelem odhadnutých hodnot yj` Zvolený regresní model považujeme za vhodný, pokud reziduální hodnoty splňují všechny následující podmínky: • rezidua jsou náhodná a nezávislá • mají normální rozdělení s nulovým průměrem a konstantním rozptylem • rozptyl reziduí je konstantní. Hledání vhodného regresního modelu Směrodatná chyba odhadu – je vyjádřením směrodatné odchylky resp. rozptylu reziduálních hodnot a vhodnou mírou pro posouzení vhodnosti použité regresní závislosti 2 )( 1 2' − − = ∑= n yy s n i ii e Čím je hodnota reziduálního rozptylu nižší, tím je model vhodnější. Koeficient determinace (r2 xy) – viz. Korelační počet Čím je hodnota koeficientu determinace větší, tím je model vhodnější. total regres SS SS r =2 Hledání vhodného regresního modelu Grafy – Bodové grafy volba modelu Vícerozměrná regrese Popisuje závislost více proměnných z nichž více je příčinami (vysvětlující proměnné) a jen jedna je důsledek (vysvětlovaná proměnná). y’ = a + b1x1 + b2x2 + … Jsou–li dvě vysvětlující proměnné regresní model je rovina Odhad parametrů se provádí MNČ Výstupy a interpretace jsou „obdobné“ jako u modelů jednorozměrné regrese Např: Úhrn_srážek = 345,6 + 0,45*zem_délka + 1,23*nadm_výška 10 Vícerozměrná regrese Statistika – vícerozměrná regrese (data viz. Brázdil a kol., 1995, str. 129, cvič. 8.3) Punkva – pod Sk. Mlýnem (y) model odtoku: y = 11,0289 + 1,2487x1 + 1,0497x2 regresní koeficienty standardizované regresní koeficienty Měření závislosti kvalitativních znaků • Kvalitativní znaky mají slovní charakter a získáváme je v sociologických průzkumech, při terénním šetření apod. • K charakterizování závislostí kvalitativních znaků slouží tzv. kontingenční tabulky • Z kontingenční tabulky lze určit intenzitu závislosti ve dvojici slovních znaků. • Máme-li dva alternativní znaky dostaneme tzv. čtyřpolní tabulku. Měření závislosti kvalitativních znaků Obecně může mít každý kvalitativní znak A r tříd a znak B s tříd. Výsledky šetření potom sestavujeme do kontingenční tabulky r x s. Pozorované četnosti v jednotlivých buňkách označujeme dvěma indexy – obecně nij. Také marginální četnosti mají dva indexy. Ten, přes který je sčítáno je označen hvězdičkou – tedy n2* značí součet četností v druhé řádce, n*1 značí součet četností v prvním sloupci. Tabulka bývá doplněna hodnotami procentuálních (relativních) četností. Častým požadavkem je konstantní délka intervalů tvořících třídy. Stejně jako v případě kvantitativních znaků ověřujeme i zde existenci vztahu testy významnosti a hodnotíme ho vhodnou mírou závislosti. Kontingenční tabulka typu r x s Podmíněné četnosti uvnitř kontingenční tabulky mají podobný význam jako body korelačního diagramu — jejich rozmístění umožňuje usuzovat na charakter závislosti tříděných znaků. Pro posouzení nezávislosti obou znaků můžeme vedle pozorovaných četností stanovit pro jednotlivá pole také očekávané (teoretické) četnosti : Posuzování závislosti v kontingenčních tabulkách tedy jako součin okrajových četností příslušného řádku a sloupce dělený rozsahem souboru. Pro každé pole kontingenční tabulky existuje dvojice četností - četnost pozorovaná a četnost vypočtená. n nn n ji ij **' = Ukazatel, který pro tabulku jako celek měří rozdílnost pozorovaných a vypočtených četností v jednotlivých polích tabulky se nazývá čtvercová kontingence 2 χ ij ijij r i s j n nn ′′′′ ′′′′−−−− ==== ∑∑∑∑ ∑∑∑∑ ==== ==== 2 1 1 2 )( χ Je to bezrozměrná hodnota a platí: Hodnoty nula nabývá pouze v případě, že znaky v kontingenční tabulce jsou nezávislé. Hypotéza nezávislosti 02 ≥≥≥≥χ Vypočtená hodnota se porovnává na zvolené hladině významnosti α s kritickou hodnotou rozdělení pro (r-1)(s-1) stupňů volnosti.2 χ 2 χ Hypotézu (H0) o nezávislosti dvou studovaných znaků zamítáme, jestliže vypočtená hodnota je větší než tabulková; případně, když jí příslušející p-hodnota je menší než zvolená hladina významnosti. 2 χ 11 Příklad analýzy závislosti v tabulce r x s Pro výběr 234 studentů zjišťujeme, zda existuje vztah mezi sportem, který provozují a sportovními pořady, které sledují v televizi. Sestavíme tabulku typu 4 x 4: Hypotéza nezávislosti H0: Neexistuje vztah mezi provozovaným sportem a sportem sledovaným v TV. Vypočtená hodnota testovacího kritéria Kritická hodnota z tabulek pro p=0,05 a (4-1)x(4-1)=9 stupňů volnosti: Závěr: H0 zamítáme, existuje významný vztah. 3,2732 =χ 9,162 =χ Testování nezávislosti v tabulce 2 x 2 Pro výpočet testovacího kritéria v tabulce 2 x 2 můžeme využít zjednodušený vzorec: 2 χ ))()()(( )( 2 2 dbcadcba bcadn ++++ − =χ Protože v 2x2 tabulce můžeme uvažovat i směr poruchy nulové hypotézy – proto musíme rozhodnout, zda použijeme test jednostranný či dvoustranný. Kritické hodnoty jsou uvedeny v tabulce - rozdělení o jednom stupni volnosti. 2 χ Příklad analýzy závislosti v tabulce 2 x 2 Hypotéza nezávislosti H0: Relativní četnost studentů se zájmem o statistiku je nezávislá na pohlaví. Vypočtená hodnota testovacího kritéria: Kritická hodnota -rozdělení z tabulek pro α=0,05: 3,84 Závěr: H0 zamítáme, existuje významný rozdíl. Zájem u chlapců: 30/66 = 0,45 Zájem u dívek: 11/74 = 0,14 Chlapci mají zhruba 3x větší zájem o statistiku než dívky. 8,15 74669941 )36116330(140 2 2 = ××× ×−× =χ 2 χ Čyřpolní tabulka - řešení v programu Statistica Statistiky – Neparametrická statistika – Tabulka 2 x 2