1 Měření závislosti kvalitativních znaků * Kvalitativní znaky mají slovní charakter a získáváme je v sociologických průzkumech, při terénním šetření apod. * Slovní charakter mají odpovědi na otázky týkající se např. pohlaví, vzdělání nebo povolání respondenta atd. * K popsání vztahu závislosti spojitých kvantitativních veličin slouží korelační koeficient. * K charakterizování závislostí kvalitativních znaků slouží tzv. kontingenční tabulky Klasifikace kvalitativních znaků: * Podle počtu možných obměn dělíme znaky na alternativní (také dvojné) nabývající pouze dvou obměn a znaky množné, nabývající více než dvou obměn, * Podle možnosti určit objektivní pořadí obměn na znaky, které mají pořadový charakter (např. vzdělání, stupeň souhlasu či nesouhlasu apod.) a znaky, které tento charakter nemají (např. povolání, typ absolvovaného vzdělání, značka výrobku) a u nichž tedy objektivní uspořádání není možné, * Podle toho zda lze jednoznačně vymezit kde ,,začíná" a ,,končí" každá obměna znaku nebo nelze (např. u barevných odstínů) dělíme znaky na nespojité a spojité. Statistická analýza kvalitativních znaků: * Statistické zpracování jednoho slovního znaku spočívá jednak v jeho třídění * Nejčastěji se jedná o prosté třídění podle jednotlivých obměn slovního znaku a o stanovení absolutních nebo relativních četností. * V omezené míře lze určovat charakteristiky úrovně (modus, u pořadových znaků medián, nikdy aritmetický průměr). * Existují i speciální charakteristiky proměnlivosti. * O měření závislosti má smysl uvažovat, je-li k dispozici dvojice slovních znaků. Měření závislosti kvalitativních znaků Spočívá v sestavení tzv. kontingenční tabulky Z kontingenční tabulky lze určit intenzitu závislosti ve dvojici slovních znaků. Nelze z ní však určit průběh závislosti. O směru závislosti má smysl se vyslovit pouze v případě pořadových slovních znaků. Máme-li dva alternativní znaky dostaneme tzv. čtyřpolní tabulku. Měření závislosti kvalitativních znaků Obecně může mít každý kvalitativní znak A r tříd a znak B s tříd. Výsledky šetření potom sestavujeme do kontingenční tabulky r x s. Pozorované četnosti v jednotlivých buňkách označujeme dvěma indexy ­ obecně nij. Také marginální četnosti mají dva indexy. Ten, přes který je sčítáno je označen hvězdičkou ­ tedy n2* značí součet četností v druhé řádce, n*1 značí součet četností v prvním sloupci. Tabulka bývá doplněna hodnotami procentuálních (relativních) četností. Častým požadavkem je konstantní délka intervalů tvořících třídy. Stejně jako v případě kvantitativních znaků ověřujeme i zde existenci vztahu testy významnosti a hodnotíme ho vhodnou mírou závislosti. Kontingenční tabulka typu r x s 2 Podmíněné četnosti uvnitř kontingenční tabulky mají podobný význam jako body korelačního diagramu -- jejich rozmístění umožňuje usuzovat na charakter závislosti tříděných znaků. Pro posouzení nezávislosti obou znaků můžeme vedle pozorovaných četností stanovit pro jednotlivá pole také očekávané (teoretické) četnosti : Posuzování závislosti v kontingenčních tabulkách tedy jako součin okrajových četností příslušného řádku a sloupce dělený rozsahem souboru. Pro každé pole kontingenční tabulky existuje dvojice četností - četnost pozorovaná a četnost vypočtená. n nn n ji ij **' = Ukazatel, který pro tabulku jako celek měří rozdílnost pozorovaných a vypočtených četností v jednotlivých polích tabulky se nazývá čtvercová kontingence 2 ij ijij r i s j n nn = = = 2 1 1 2 )( Je to bezrozměrná hodnota a platí: Hodnoty nula nabývá pouze v případě, že znaky v kontingenční tabulce jsou nezávislé. Hypotéza nezávislosti 02 Vypočtená hodnota se porovnává na zvolené hladině významnosti p s kritickou hodnotou rozdělení pro (r-1)(s-1) stupňů volnosti.2 2 Hypotézu zamítáme, jestliže vypočtená hodnota je větší než tabulková, případně, když jí příslušející p-hodnota je menší než zvolená hladina významnosti. Jsou konstruovány tak, aby jejich hodnota závisela pouze na intenzitě závislosti. Koeficienty kontingence měří intenzitu závislosti pro dvojici slovních znaků. Pearsonův koeficient kontingence: Koeficienty kontingence n P + = 2 2 nabývá hodnot 10 < P Maximální možná hodnota čtvercové kontingence závisí na rozměrech kontingenční tabulky a rozsahu souboru - z toho důvodu není nejvhodnějším ukazatelem intenzity závislosti. Na bázi čtvercové kontingence jsou konstruovány vhodnější ukazatele koeficienty kontingence. Příklad analýzy závislosti v tabulce r x s Pro výběr 234 studentů zjišťujeme, zda existuje vztah mezi sportem, který provozují a sportovními pořady, které sledují v televizi. Sestavíme tabulku typu 4 x 4: Hypotéza nezávislosti H0: Neexistuje vztah mezi provozovaným sportem a sportem sledovaným v TV. Vypočtená hodnota testovacího kritéria Kritická hodnota z tabulek pro p=0,05 a (4-1)x(4-1)=9 stupňů volnosti: Závěr: H0 zamítáme, existuje významný vztah. 3,2732 = 9,162 = Sílu tohoto vztahu lze posoudit Pearsonovým koeficientem kontingence n P + = 2 2 71,0 2343,273 3,273 = + = Testování nezávislosti v tabulce 2 x 2 Pro výpočet testovacího kritéria v tabulce 2 x 2 můžeme využít zjednodušený vzorec: 2 ))()()(( )( 2 2 dbcadcba bcadn ++++ - = Protože v 2x2 tabulce můžeme uvažovat i směr poruchy nulové hypotézy ­ proto musíme rozhodnout, zda použijeme test jednostranný či dvoustranný. Kritické hodnoty jsou uvedeny v tabulce - rozdělení o jednom stupni volnosti. 2 Příklad analýzy závislosti v tabulce 2 x 2 Hypotéza nezávislosti H0: Relativní četnost studentů se zájmem o statistiku je nezávislá na pohlaví. Vypočtená hodnota testovacího kritéria: Kritická hodnota -rozdělení z tabulek pro p=0,05: 3,84 Závěr: H0 zamítáme, existuje významný rozdíl. Zájem u chlapců: 30/66 = 0,45 Zájem u dívek: 11/74 = 0,14 Chlapci mají zhruba 3x větší zájem o statistiku než dívky. 8,15 74669941 )36116330(140 2 2 = ××× ×-× = 2